JP2010522469A

JP2010522469A - ２ｄ−ｔｏ−３ｄ変換のための２ｄ画像の領域分類のシステム及び方法

Info

Publication number: JP2010522469A
Application number: JP2009554497A
Authority: JP
Inventors: ザン，ドン−チン; ベレンベニテス，アナ; アーサーファンチャー，ジム
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2007-03-23
Filing date: 2007-03-23
Publication date: 2010-07-01
Anticipated expiration: 2027-03-23
Also published as: EP2130178A1; CN101657839A; JP4938093B2; BRPI0721462A2; US20110043540A1; CN101657839B; WO2008118113A1; CA2681342A1

Abstract

立体画像を作成するための、画像の2D-to-3D変換における２次元（2D）画像の領域分類のシステム及び方法が提供されている。本開示のシステム及び方法は、２次元（2D）画像の取得（202）、該2D画像の領域の識別（204）、該領域からの特徴の抽出（206）、該領域から抽出された特徴の分類（208）、識別された領域の分類に基づいた変換モードの選択、選択された変換モードに基づいた該領域の3Dモデルへの変換（210）、及び該3Dモデルを、該2D画像（202）の画像平面とは異なる画像平面に投影することによる補充画像の作成（212）のために提供される。ラーニングコンポーネント（22）は、トレーニング画像のセット（24）及び対応するユーザーの注釈を使用して、該領域の分類エラーを最小に抑えるための分類パラメータを最適化する。

Description

本開示は、一般的に、コンピュータ・グラフィック・プロセッシング及び表示システムに関し、さらに具体的には、2D-TO-3D変換のための２次元（2D）画像の領域分類のシステム及び方法に関する。

2D-TO-3D変換は、既存の２次元（2D）フィルムを３次元（3D）立体フィルムに変換するためのプロセスである。3D立体フィルムは、例えばビューアーがそのようなフィルムをパッシブ又はアクティブな眼鏡で見る間に、深度がそのビューアーによって感知及び体験されるような方法で動作する画像を再生する。一流のフィルムスタジオは、伝統的なフィルムを3D立体フィルムに変換することに対して、かなりの興味を示してきている。

立体イメージングは、3次元の深度の錯覚を形成するために、１つのシーンのわずかに異なる視点から撮った、少なくとも2つの画像を視覚的に組み合わせるプロセスである。この技術は、人間の目がある距離によって離れており、従って、それらは完全に同じシーンを見ないという事実に頼る。ビューアーのそれぞれの目に、異なった視点からの画像を提供することによって、ビューアーの目は深度を感知しているような錯覚を起こす。通常、2つの区別できる視点が提供された箇所において、構成画像は、「左」及び「右」の画像として呼ばれ、また、基準画像及び補充画像としてもそれぞれ知られている。しかし、当業者は、2つよりも多くの視点が立体画像を形成するために組み合わされてもよいことを認識する。

立体画像は、様々な技術を使用してコンピュータによって形成される。例えば、「アナグリフ（anaglyph）」法は、立体画像の左及び右の構成要素を、カラーを使用して符号化する。その後、ビューアーが、それぞれの目がビューの1つだけを見るように光をフィルターする特別な眼鏡を着用する。

同様に、ページがめくられる立体撮像は、１つの画像の右側と左側のビューとの間で表示を素早く切り替えるための技術である。再度、そのビューアーは、通常、ディスプレイ上の画像と同時に開閉する、液晶材料で作られた高速電子シャッターを含む特別な眼鏡を着用する。アナグリフの場合のように、それぞれの目は、構成画像の1つだけを感知する。

特別な眼鏡又はヘッドギアを必要としない他の立体撮像技術が、最近開発されている。例えば、レンズ状のイメージングが、２つ又はそれよりも多くの本質的に異なる画像のビューを、細いスライスに分割し、単一の画像を形成するために、それらのスライスをインターリーブ（interleave）する。そのインターリーブされた画像は、そして、それぞれの目が違うビューを感知するようにその本質的に異なる画像を再形成するレンチキュラーレンズの後ろ側に位置付けられる。いくつかのレンズ状ディスプレイは、一般的にコンピュータのラップトップ上に見られるように、従来型のLCDディスプレイ上に置かれたレンチキュラーレンズによって実施される。

もう１つの立体撮像技術は、補充画像を作成するために、入力画像の領域をシフトすることを含む。そのような技術は、米国カリフォルニア州、ウェストビレッジのIn-Three, Inc.と呼ばれる企業によって開発された相互的な2D-to-3Dフィルム変換システムにおいて使用されている。該2D-to-3D変換システムは、2001年3月27日にKayeに発行された、特許文献１に記載されている。そのプロセスは、3Dシステムとして呼ばれているが、2D画像を3D画像に変換し戻さなく、むしろ、その2D入力画像を右目用の画像を作成するために操作することから、実際には2Dである。図1は、特許文献1において開示されたプロセスによって開発されたワークフローを説明し、図1は、本来は、該特許文献では図５として示されている。そのプロセスは以下のように記載することができる：入力画像において、領域2、4、6が最初に手動で輪郭が描かれる。オペレータが次に、ステレオ視差を作成するために各領域（例えば8、10、12）をシフトする。各領域の深度は、もう1つのディスプレイにおいて、その3D再生を3Dグラスによって見ることができる。オペレータは、最適な深度が達成されるまで、その領域のシフト距離を調整する。

しかし、2D-to-3D変換は、入力2D画像における領域をシフトすることによって右目用の補充画像を作成するために、ほとんど手動で実施される。そのプロセスは、非常に効率が悪く、膨大な量の人間による介入を必要とする。

最近は、自動的な2D-to-3D変換システム及び方法が提案されている。しかし、ある一定の方法は、画像において変換される対象物の種類（例えば、不鮮明物体、固体物体など）によっては他の対象物よりも良い結果をもたらす。ほとんどの画像は、不鮮明物体及び固体物体の両方を含むことから、システムのオペレータは、その画像において手動で物体を選択し、次に、それぞれの物体に対応する2D-to-3D変換モードを手動で選択する必要がある。従って、部分的な画像内容に基づいて最適な結果をもたらすためには、候補のリストの中から、最も良い2D-to-3D変換モードを自動的に選択するための技術に対する必要性が存在する。

米国特許第6,208,348号明細書 PCT国際特許出願第PCT／US2006／044834号明細書 PCT国際特許出願第PCT／US2006／042586号明細書

立体的な画像を作成するために画像の2D-to-3D変換のための２次元（2D）画像の領域分類のシステム及び方法が提供されている。

本開示のシステム及び方法は、複数の変換方法又はモード（例えば変換器など）を使用し、その画像の内容に基づいて最も良い処理法を選択する。その変換プロセスは、領域毎に実行され、画像の領域は、最も良い使用可能な変換器又は変換モードを決定するように分類される。本開示のシステム及び方法は、以下の２つの構成コンポーネントを含む模様認識に基づくシステムを使用する：分類コンポーネント及びラーニング（learning）コンポーネントである。その分類コンポーネントへの入力は、2D画像の1領域から抽出された特徴であり、その出力は、最も良い結果を提供すると推測された2D-to-3D変換モード又は変換器の識別子である。ラーニングコンポーネントは、分類のパラメータを最適化し、トレーニング画像及び対応するユーザーの注釈を使用して、その領域の分類エラーを最小限に抑える。トレーニング画像において、ユーザーが、各領域に対して、最適な変換モード又は変換器の識別子に注釈を付ける。ラーニングコンポーネントが、次に、トレーニング用の領域の視覚的特徴及びそれらの注釈が付けられた変換器識別子を使用することによって分類を最適化する（すなわち、学習する（learns））。画像の各領域が変換された後に、第２画像（すなわち、右目用画像又は補充画像）が、変換された3D領域又は対象物を含む3Dシーンを、違うカメラの視角で、他の画像平面に投影することによって作成される。

本開示の1態様に従った、立体的画像を作成するための３次元（3D）変換方法は、２次元（2D）画像を取得する段階；該２次元画像の1領域を識別する段階；識別された領域を分類する段階；該識別された領域の分類に基づいて変換モードを選択する段階；選択された変換モードに基づいて領域を３次元モデルに変換する段階；及び該３次元モデルを２次元モデルの画像平面とは異なる画像平面に投影することによって、補充画像を形成する段階；を含む。

もう1つの態様では、該方法は、領域から特徴を抽出する段階；抽出された特徴を分類し、該抽出された特徴の分類に基づいて変換モードを選択する段階；を含む。該抽出段階は、さらに、抽出された特徴から特徴ベクトルを決定する段階を含み、該特徴ベクトルは、識別された領域を分類するために、分類する段階において採用される。該抽出された特徴は、質感及びエッジ方向の特徴であってもよい。

本開示の追加の態様では、変換モードは、不鮮明物体変換モード又は固体物体変換モードである。

本開示のさらなる追加の態様では、分類段階は、さらに、複数の2D画像を取得する段階；該複数の2D画像のそれぞれにおいて領域を選択する段階；選択された領域の種類に基づいて最適な変換モードで該選択された領域に注釈を付ける段階；及び注釈が付けられた2D画像に基づいて分類段階を最適化する段階；を含み、選択された領域の種類は、不鮮明物体又は固体物体に対応する。

本開示のもう1つの態様によると、対象物を２次元（2D）画像から３次元（3D）変換するためのシステムが提供されている。

該システムは、少なくとも1つの2D画像から補充画像を形成するために設定された後処理デバイス；を含み、該後処理デバイスは、少なくとも1つの2D画像において少なくとも1つの領域を検出するために設定された領域検出器；少なくとも1つの変換器の識別子を決定するために検出された領域を分類するように設定された領域分類器；検出された領域を3Dモデルに変換するための少なくとも1つの変換器；及び、選択された3Dモデルを、少なくとも1つの2D画像の画像平面より異なる画像平面上に投影することによって補充画像を形成するために設定された再構成モジュール；を含む。その少なくとも1つの変換器は、不鮮明物体変換器又は固体物体変換器を含んでもよい。

もう1つの態様では、該システムはさらに、検出された領域から特徴を抽出するように設定された特徴抽出装置を含む。その抽出された特徴は、テクスチャ及びエッジ方向の特徴を含んでもよい。

さらにもう1つの態様によると、そのシステムはさらに、複数の2D画像を取得するように設定された分類器ラーナー（learner）を含み、その複数の2D画像のそれぞれにおいて少なくとも1つの領域を選択し、選択された少なくとも1つの領域の種類に基づいて、最適な変換器の識別子で、その選択された少なくとも1つの領域に注釈を付ける。その領域分類器は、注釈が付けられた2D画像に基づいて最適化される。

本開示の追加の態様において、マシーンによって読み込み可能であり、２次元（2D）画像から立体的画像を形成するための方法段階を実施するために、そのマシーンによって実行可能な指示プログラムを明確に実施するプログラム保存デバイスが提供され、その方法は、２次元画像の取得；その２次元画像の領域の識別；識別された領域の分類；識別された領域の分類に基づく変換モードの選択；選択された変換モードに基づく３次元モデルへの領域の変換；及び、その３次元モデルを、２次元画像の画像平面とは異なる画像平面上に投影することによる補充画像の形成；を含む。

入力画像から右目用又は補足の画像を形成するための従来技術を説明する図である。本開示の態様に従って、画像の2D-to-3D変換のための２次元（2D）画像の分類のシステム及び方法を説明するフロー図である。本開示の態様に従って、立体的画像を形成するための画像の２次元（2D）から３次元（3D）に変換するためのシステムの模範的な説明図である。本開示の態様に従って、立体的画像を形成するために、２次元（2D）画像を３次元（3D）画像に変換するための模範的な方法のフロー図である。

図に示されるコンポーネントは、当然のことながら、ハードウェア、ソフトウェア又はそれらの組み合わせの様々な形状において実施してもよい。これらのコンポーネントは、好ましくは、1つ又はそれよりも多くの、プロセッサ、メモリー及び入力・出力インターフェースを含んだ適切にプログラミングされた汎用デバイスのハードウェア及びソフトウェアの組み合わせにおいて実施される。

本記載は、本開示の原理を説明する。従って、当業者は、当然のことながら、ここで明確に記載又は説明されてはいなくても本開示の原理を実施し、その趣旨及び範囲内に含まれる多様な配置を考案することができる。

ここに記載されている全ての実例及び条件付きの文言は、本開示の原理及び技術を促進するために発明者によって貢献されている概念を、読者が理解するように援助する教育的な目的を対象としている。また、それらは、そのような具体的に記載された実例及び条件に限定されていないとして解釈されるべきである。

さらに、該開示の原理、態様及び実施形態を列挙する全ての供述、及びその具体例は、構成上及び機能上の均等物の両方を含むことを目的としている。それに加えて、そのような均等物は、現在知られている均等物及び将来開発される均等物の両方（すなわち、開発されている、構成に関わらず同機能を実施する如何なるコンポーネント）を含むことが意図されている。

従って、例えば、ここにおいて示されるブロック図は、本開示の原理を実施する実例となる回路の概念視点を表わしていることは、当業者が理解できるはずである。同様に、フローチャート、フロー図、状態遷移図、疑似コード、及び類似物はどれも、コンピュータ可読のメディアにおいて十分に表わされ、コンピュータ又はプロセッサ（それらが明確に表示されているかいないかに関わらず）によって実行される様々なプロセスを表わしている。

図に示される様々なコンポーネントの機能は、専用のハードウェア及び適切なソフトウェアと共同で、ソフトウェアを実行することが可能なハードウェアの使用を通して提供されてもよい。プロセッサによって提供される場合、それらの機能は単一の専用プロセッサ、単一の共有プロセッサ又は複数の個別のプロセッサによって提供されてもよく、それらのいくつかは、共有されてもよい。

さらに、「プロセッサ」又は「コントローラ」などの用語の明確な使用は、ソフトウェアを実行することが可能なハードウェアのみに言及していなく、暗に、デジタル信号プロセッサ（「DSP」）ハードウェア、ソフトウェアを保存するための読み込み専用メモリー（「ROM」）、ランダム・アクセス・メモリー（「RAM」）及び不揮発性ストレージなどを含んでいるが、それらに限定されてはいない。

従来型及び／又はカスタムである他のハードウェアが含まれてもよい。同様に、図に示されているスイッチはどれも概念上のものである。それらの機能はプログラム・ロジック（専用ロジックではなくとも）の実施、プログラム・コントロール及び専用ロジックの相互作用、又は手動でさえも実行されてもよく、その背景からより具体的に理解できるように、その特定の技術は実装者によって選択されている。

ここの請求項において、記述された機能を実施するための手段として表わされているコンポーネントはどれも、その機能を実施するための如何なる方法も含むように意図されており、該方法は、例えば、a）その機能を実施する回路素子の組み合わせ、又はb）その機能を実施するためにソフトウェアを実行する適切な回路と組み合わせられた、ファームウェア、マイクロコード又は類似物を含む如何なる形のソフトウェア、を含む。そのような請求項によって定義される開示は、記載されている様々な手段によって備えられる機能が組み合わせられ、請求項において要求される通りの様式でまとめられてもよいという事実に属する。従って、それらの機能を提供することが可能な手段はどれも、ここにおいて示される手段に相当すると見なされる。

本開示は、2D画像から3D形状を作成することにおける問題を取り扱う。その問題は、特に、視覚効果（VXF）、2Dフィルムから3Dフィルムへの変換を含んだ、様々なフィルム生産の応用において生じる。2D-to-3D変換の以前のシステムは、入力画像において選択された領域をシフトすることによって補充画像（右目用画像としても知られる）を形成し、従って、3D再生のステレオ視差を作り出すことによって実現されている。そのプロセスは非常に効率が悪く、表面が平面ではなくむしろ曲面である場合、画像の領域を3D表面に変換することは難しい。

2D画像の領域において描写される内容又は物体に基づいて、良くも悪くも機能する、異なった2D-to-3D変換の方法がある。例えば、3D粒子システムは不鮮明物体に対して良く機能する；しかし、3D形状モデルフィッティングは、固体物体に対して良く機能する。これらの２つの方法は、一般的には、不鮮明物体の正確な形状を推定するのが難しいため、実際にはお互いを補充するか、又はその逆が働く。しかし、ほぼ全ての映画の2D画像は、粒子システム及び3D形状モデルでそれぞれ最も良く表現される、木などの不鮮明物体及び建物などの固体物体を含む。従って、いくつかの利用可能な2D-to-3D変換モードがあると推定すると、領域の内容に従って最も良い方法を選択することが課題である。従って、一般的な2D-to-3D変換では、本開示が、数ある中でこれらの２つの方法を組み合わせる技術を提供し、最も良い結果を達成する。本開示は、画像の部分的な内容に従って、いくつかの利用可能な変換方法の間において自動的に切り替えをする、一般的な2D-to-3D変換のシステム及び方法を提供する。その2D-to-3D変換は、従って、完全に自動化されている。

立体画像を形成するための２次元（2D）画像の領域分類のためのシステム及び方法が、提供されている。本開示のシステム及び方法は、立体画像を形成するための画像の2D-to-3D変換のための3Dに基づいた技術を提供する。その立体画像は、次に、3D立体フィルムを形成するためにさらなるプロセスにおいて採用される。図２を参照すると、本開示のシステム及び方法は、複数の変換方法又はモード（例えば、変換器）18を使用し、画像14における内容に基づいて最も良い扱い方法を選択する。その変換プロセスは、領域毎に実行され、画像14における領域16が、利用可能である最適な変換器又は変換モード18を決定するために分類される。本開示のシステム及び方法は、模様認識システムを使用し、該システムは２つのコンポーネントを含む：分類コンポーネント20及びラーニング（learning）コンポーネント22である。その分類コンポーネント20又は分類器への入力は、2D画像14の領域16から抽出された特徴であり、分類コンポーネント20の出力は、最も良い結果をもたらすと推測される2D-to-3D変換モード又は変換器18の識別子（すなわち、整数）である。ラーニングコンポーネント22又は分類器ラーナーは、領域分類器20の分類パラメータを最適化し、トレーニング画像のセット24及び対応するユーザーの注釈を使用してその領域の分類エラーを最小限に抑える。トレーニング画像24において、ユーザーは、各領域16に最も適した変換モード又は変換器18の識別子に注釈を付ける。ラーニングコンポーネントはそして、その変換器のインデックス及びその領域の視覚的な特徴を使用することによって、分類を最適化する（すなわち、学習する（learns））。画像の各領域が変換された後に、第２画像（例えば、右目用画像又は補充画像）が、変換された3D領域又は物体を含む3Dシーン26を、異なったカメラ視角を持つ他の画像平面に投影することによって形成される。

ここで、図３を参照すると、本開示の実施形態に従って、模範的システムコンポーネントが示されている。スキャニングデバイス103が、フィルムプリント104（例えば、カメラのフィルムのネガティブ）をスキャンし、例えばCineonフォーマット又はSMPTE DPXファイルなどのデジタル・フォーマットに取り込むように提供されてもよい。そのスキャニングデバイス103は、例えば、テレシネ又は、例えばビデオ出力を持つArri LocPro^TMなどのフィルムからビデオ出力を形成するデバイスを含んでもよい。代わりに、撮影後の編集プロセス又はデジタルシネマ106（例えば、既にコンピュータ可読のフォーマットのファイル）は、直接使用することができる。コンピュータ可読のファイルの考えられるソースは、AVID^TMエディター、DPXファイル、D5テープなどである。

スキャンされたフィルムプリントは、例えばコンピュータなどの後処理デバイス102に入力される。そのコンピュータは、1つ又はそれよりも多くの中央処理装置（CPU）などのハードウェア、ランダム・アクセス・メモリー（RAM）及び／又は読み込み専用メモリー（ROM）などのメモリー110及びキーボード、カーソル制御デバイス（例えばマウス又はジョイスティック）及び表示デバイスなどの、入力／出力ユーザー・インターフェース112を持つ様々な既知のコンピュータ・プラットフォームのどれにおいても実施される。そのコンピュータ・プラットフォームは、また、オペレーティングシステム及びマイクロインストラクションコードも含む。ここで説明される様々なプロセス及び機能は、マイクロインストラクションコードの一部又はそのオペレーティングシステムを経由して実行されるソフトウェア・アプリケーション・プログラム（又はその組み合わせ）の一部のいずれか一方であってよい。さらに、様々な他の周辺機器が、様々なインターフェース及びパラレルポート、シリアルポート又はユニバーサル・シリアル・バス（USB）によってそのコンピュータ・プラットフォームに接続されている。他の周辺機器は、追加の保存デバイス124及びプリンター128を含んでもよい。プリンター128は、例えば、フィルムの立体版などのフィルム126の修正版をプリントするために利用されてもよく、以下に説明される技術の結果として3Dモデル化された物体を使用して、1つのシーン又は複数のシーンが、変更され取り替えられてもよい。

その代わりに、既にコンピュータ可読のフォーム106であるファイル／フィルムプリント（例えば、外部ドライブ124に保存されるデジタルシネマなど）が直接コンピュータ102に入力されてもよい。「フィルム」という用語は、フィルムプリント又はデジタルカメラのいずれか一方を呼んでいることに注意すべきである。

ソフトウェアプログラムは、メモリー110に、２次元（2D）画像を３次元（3D）画像に変換し立体画像を形成するために保存されている３次元（3D）再構成モジュール114を含む。その3D変換モジュール114は、2D画像において、物体又は領域を識別するために領域又は物体検出器116を含む。その領域又は物体検出器116は、画像編集ソフトウェアによって手動で物体を含む画像領域の輪郭を取る又は物体を含む画像領域を自動検出アルゴリズムにより隔離することによって識別する。例えば、セグメンテーション・アルゴリズムなどがある。特徴抽出装置119が、その2D画像の領域から特徴を抽出するために提供される。特徴抽出装置は、従来技術において知られており、テクスチャ、ライン方向、エッジなどを含むがそれらには限定されない特徴を抽出する。

3D再構成モジュール114は、また、2D画像の領域を分類するように構成されている領域分類器117を含み、画像の特定の領域に対して最も利用可能な変換器を決定する。その領域分類器117は、識別子（例えば、検出された領域に使用されるべき変換モジュール又は変換器を識別するための整数）を出力する。さらに、その3D変換モジュール114は、検出された領域を3Dモデルに変換するために3D変換モジュール118を含む。3D変換モジュール118は、複数の変換器118-1...118-nを含み、各変換器は、領域の異なる種類を変換するように構成されている。例えば、固体物体又は固体物体を含む領域は、粒子システム発生器118-2によって変換される。固体物体の模範的な変換器は、2006年11月に出願された、「SYSTEM AND METHOD FOR MODEL FITTING AND REGISTRATION OF OBJECTS FOR 2D-TO-3D CONVERSION」と題する、同一出願人による特許文献２（以下「834」出願）において開示され、不鮮明物体の模範的な変換器は、2006年10月27日の同一出願人による「SYSTEM AND METHOD FOR RECOVERING THREE-DIMENSIONAL PARTICLE SYSTEMS FROM TWO-DIMENSIONAL IMAGES」と題する特許文献３（以下「586」出願）において開示されており、その内容は、全体的に、ここに参考として含まれる。

そのシステムは、3Dモデルのライブラリを含み、様々な変換器118-1...118-nによって採用される。変換器118は、特定の変換器又は変換モードに対して選択された3Dモデル122の様々なライブラリと相互作用する。例えば、オブジェクト・マッチャー（object matcher）118-1では、3Dモデルのライブラリ122が複数の3D物体を含み、各物体モデルは所定の物体に関連する。粒子システム発生器118-2では、該ライブラリ122は所定の粒子システムのライブラリを含む。

オブジェクト・レンダラー（renderer）120は、3Dモデルを3Dシーンへレンダリングするために提供され、補充画像を形成する。これは、ラスタライゼーションプロセス（rasterization process）又は、光線追跡又は光子マッピングなどのより高度な技術によって実現される。

図４は、本開示の態様に従って２次元（2D）画像を３次元（3D）画像に変換し、立体画像を形成するための模範的な方法のフロー図である。最初に、段階102において、後処理デバイス102が少なくとも１つの２次元（2D）画像を（例えば、基準又は左目用画像）取得する。後処理デバイス102は、デジタルマスタービデオをコンピュータ可読のフォーマットで取得することによって、少なくとも１つの2D画像を取得する。そのデジタルビデオファイルは、デジタルビデオカメラでビデオ画像の時間シーケンスをキャプチャーすることによって取得してもよい。その代わりに、そのビデオシーケンスは、従来型のフィルムタイプのカメラによってキャプチャーされてもよい。このシナリオでは、フィルムが、スキャニングデバイス103を経由してスキャンされてよい。カメラは、あるシーンにおける物体又はカメラのいずれか一方を動かす一方において、2D画像を取得してもよい。そのカメラは、そのシーンの複数の視点を取得する。

フィルムがスキャンされるか又は既にデジタル・フォーマットにあるか、そのデジタルファイルがフレームの場所の表示又は情報を含むか（例えば、フレーム番号、フィルム開始からの時間、など）は理解されるべきである。それぞれのデジタルビデオファイルのフレームは、1つの画像を含む（例えば、l₁、l₂、l_3…l_n）。

段階204において、2D画像における領域が識別又は検出される。領域は数個の物体を含むことができ、あるいは１つの物体の一部であってもよい。領域検出器116を使用し、物体又は領域は、イメージ編集ツールを使用したユーザーによって手動で選択され、輪郭を描かれるか、あるいは代わりに、イメージ検出アルゴリズムを使用して自動的に検出され、輪郭が描かれる（例えば物体検出又は領域セグメンテーション・アルゴリズム）。複数の物体又は領域は、2D画像において識別される。

その領域が1度、識別又は検出されると、特徴が段階206において、特徴抽出装置119を経由して抽出され、その抽出された特徴は段階208において領域分類器117によって分類され、複数の変換器118の少なくとも1つ又は変換モードの識別子を決定する。その領域分類器117は、基本的には、領域から抽出された特徴に従って最も予測される変換器の識別子を出力する機能である。様々な実施形態において、異なる特徴を選択することができる。特定の分類の目的においては（すなわち、固定物体変換器118-1又は粒子システム変換器118-2）、テクスチャ特徴が、粒子システムは固体物体よりもより豊かなテクスチャを有することから、カラーなどの他の特徴よりも良い結果を生む。さらに、多くの建物などの固体物体は、際立った垂直及び水平な線を持ち、従って、エッジ方向は最も関連する特徴である。以下は、テクスチャ特徴及びエッジ特徴が、領域分類器117への入力としてどのように使用されるかを示す1例である。

テクスチャ特徴は多くの方法で計算することができる。Gaberウェーブレット特徴は、画像処理において最も幅広く使用されているテクスチャ特徴の1つである。その抽出プロセスは、最初に異なった空間周波数でGaberカーネルのセットをその画像に適用し、次に、フィルターがかけられた画像の合計ピクセル強度を計算する。フィルター・カーネル関数は：

であり、Fは空間周波数で、θはGaberフィルターの方向である。説明の目的として、空間周波数の3レベル及び4方向（例えば、対称性により0-πのカバー角度）があると推定すると、Gaberフィルター特徴の数は12になる。

エッジ特徴が最初に水平及び垂直線検出アルゴリズムを2D画像に適用することによって抽出することができ、次に、エッジピクセルを数えることができる。直線検出は、方向のエッジフィルターを適用し、次に、小さなエッジセグメントを複数の直線につなぐことによって実現できる。慎重なエッジ検出は、この目的に使用でき、従来技術において知られている。水平線及び垂直線（例えば建物のケースにおいて）が検出されるべきであり、次に、２次元特徴ベクトル（各方向の寸法）が取得される。記載されている２次元のケースは、説明の目的のみであり、より多くの次元に簡単に拡張することができる。

テクスチャ特徴がN次元を持っている場合、及びエッジ方向の特徴がM次元を持っている場合、これらの全ての特徴が、（N＋M）次元を持つ大きな特徴ベクトルにまとめられることができる。各領域で、抽出された特徴ベクトルは、領域分類器117に入力される。その分類器の出力は、推奨される2D-to-3D変換器118の識別子である。特徴ベクトルは、異なった特徴抽出装置に依存して異なる。さらに、領域分類器117への入力は、上記で説明されたのとは異なる他の特徴であってもよく、その領域における内容に関するどのような特徴であってもよい。

領域分類器117を学習（learn）するにあたって、異なった種類の領域の画像を含むトレーニングデータが集められる。画像における各領域は、次に、輪郭が取られ、手動でその領域の種類に基づいて、最も良く機能すると推定される変換器又は変換モードの識別子で注釈が付けられる（例えば、木などの不鮮明物体又は建物などの固定物体に対応する）。領域は、数個の物体を含んでもよく、その領域内の全ての物体が同じ変換器を利用する。従って、適した変換器を選択するために、その領域内の内容は均質な特性を持っているべきである。それによって正しい変換器が選択できる。ラーニングプロセスは、注釈が付けられたトレーニングデータを取り、分類器の出力とトレーニングセットにおける画像に対して注釈が付けられた識別子との間の違いを最小に抑えるために、最も良い領域分類器を形成する。領域分類器117は、パラメータのセットによって制御される。同じ入力では、領域分類器117のパラメータの変更は、異なった分類出力（すなわち、その変換器の異なった識別子）を与える。ラーニングプロセスは、自動的及び連続的に、分類器のパラメータを、分類器がトレーニングデータに対して最も良い分類結果を出力する点に変更する。そして、そのパラメータは、将来的な使用のための最適なパラメータとして取られる。数学的に、平均二乗エラーが使用される場合、最小化されるコスト機能は以下のように記され：

R_iはトレーニング画像における領域iであり、I_iは、注釈プロセスの間にその領域に割り当てられる最も良い変換器の識別子であり、f_φ()は、分類器であり、そのパラメータはφで表わされる。ラーニングプロセスは、そのパラメータφに関して上記の全体のコストを最大にする。

分類器の異なるタイプが領域分類のために選択される。模様認識の分野においてポピュラーな分類器は、サポートベクターマシーン（SVM）である。SVMは、トレーニングセットにおける分類エラーを最小化する非線形最適化法であるが、そのテストセットの予測誤差をより小さくすることもできる。

変換器の識別子は、次に、3D変換モジュール118において適切な変換器118-1...118-nを選択するために使用される。選択された変換器は、次に、検出された領域を3Dモデルに変換（段階210）する。そのような変換器は当業者に知られている。

以前論じられたように、模範的な固体物体の変換器又は変換モードが、出願番号「834」において開示されている。この出願は、立体画像を形成するために2D-to-3D変換のための物体のモデルフィッティング及び登録のシステム及び方法を開示している。そのシステムは、実世界の物体の様々な3Dモデルを保存するデータベースを含む。第1の2D入力画像（基準又は左目用画像）に対しては、3Dに変換されるべき領域が、システムオペレータ又は自動検出アルゴリズムによって識別され、輪郭が取られる。各領域に対して、そのシステムは、保存された3Dモデルをデータベースから選択し、3Dモデルの投影が、識別された領域内において最適な方法で画像内容と一致するように、その選択された3Dモデルを登録する。そのマッチングプロセスは、幾何学的アプローチ又は測光のアプローチを使用して実施することができる。第1の2D画像に対して3D位置及び3D物体のポーズが登録プロセスを通して計算されると、第2画像（例えば右目用画像又は補充画像）が、登録された変形したテクスチャの3D物体を含む3Dシーンを、異なったカメラ視角の画像平面に投影することによって形成される。

また、以前論じられたように、不鮮明物体の模範的な変換器及び変換モードが、同一出願による出願「586」号において開示されている。この出願は、２次元（2D）画像から３次元（3D）粒子システムを復元するシステム及び方法を開示している。幾何学的な再構成システム及び方法は、２次元画像からの不鮮明物体の幾何学的特徴を表わしている3D粒子システムを復元する。幾何学的再構成システム及び方法は、2D画像における不鮮明物体を識別し、従って粒子システムによって発生させることができる。最適な一致は、側光特性及び表面特性を、フレームにおいて及び時間的に解析することによって決定される（すなわち、画像の連続的なシリーズ）。そのシステム及び方法は、ライブラリから選択された粒子システムをシミュレート及びレンダリングし、次に、レンダリングされた結果をその画像における不鮮明物体に比較する。そのシステム及び方法は、粒子システムが良いマッチであるか否かを、一定のマッチング条件に従って決定する。

一度、そのシーンにおいて識別された全ての物体又は検出された領域が3Dスペースに変換されると、補充画像（例えば、右目用画像）が、変換された3D物体を含む3Dシーン及び背景プレートを、段階212において、仮の右側のカメラによって決定される、2D入力画像の画像平面とは異なった他の画像平面に、レンダリングすることによって形成される。そのレンダリングは、スタンダードなグラフィックカード・パイプラインのようにラスタリゼーション・プロセス、又は、プロフェッショナルな後処理ワークフローにおいて使用される光線追跡などのより高度な技術によって実現してよい。新しい画像の画像平面は、仮の右カメラ（例えば、コンピュータ又は後処理デバイスでシミュレートされたカメラ）の視角によって決定される。その仮の右カメラの位置及び視角の設定は、入力画像を形成する左カメラの画像平面に平行な画像平面を、結果的に形成するべきである。1つの実施形態において、これは、その仮のカメラの位置及び視角を微調整すること及び結果として生じる3D再生を表示デバイス上で見ることによりフィードバックを得ることによって達成できる。右カメラの位置及び視角は、形成された立体画像が、ビューアーが最も心地よく見ることができるように調整される。

投影された画像は次に、例えば、右目用画像などの補充画像として、例えば左目用画像などの入力画像に保存される（段階214）。補充画像は、後日、入力画像と一緒に取り出すことができるように、従来の如何なるマナーで入力画像と連携させてもよい。その補充画像は、入力又は基準画像と共に、立体フィルムを形成するデジタルファイル130に保存されてもよい。デジタルファイル130は、後の回収のため（例えば、オリジナル・フィルムの立体版を印刷するため）保存デバイス124に保存される。

本開示の教示を取り入れる実施形態はここで詳細に表示及び記載されているが、当業者は、これらの教示から取り入れた他の多くの変形形態を容易に考案してもよい。2D-to-3D変換のための2D画像の領域分類のシステム及び方法の好ましい実施形態を説明したが（説明の目的であって限定の目的ではない）、上記の教示を元に、当業者は、修正及び変形を作成できることを指摘する。従って、特定の実施形態において添付された請求項によって概説されている開示の範囲及び趣旨の中において変更がされてもよいことは、理解されるべきである。本開示の詳細及び特に特許法によって要される開示を記載したことから、特許証によって保護された請求及び要求されている内容が、添付の請求項において説明されている。

2…領域
4…領域
6…領域
8…ステレオ視差
10…ステレオ視差
12…ステレオ視差
14…2D画像
16…2D画像の領域
18…変換器
20…分類コンポーネント
22…ラーニング（learning）コンポーネント
24…トレーニング画像
26…3Dシーン
122…3Dモデル

Claims

2次元画像を取得する段階；
前記2次元画像における領域を識別する段階；
識別された領域を分類する段階；
前記識別された領域の分類に基づいて変換モードを選択する段階；
選択された変換モードに基づいて前記領域を３次元モデルに変換する段階；及び
前記３次元モデルを、前記取得された２次元画像の画像平面とは異なる画像平面に投影することによって、補充画像を形成する段階；
を含む立体画像を形成するための３次元変換方法。
前記領域から特徴を抽出する段階；
抽出された特徴を分類する段階；及び
前記抽出された特徴の分類に基づいて前記変換モードを選択する段階；
をさらに含む、請求項１に記載された方法。
前記抽出する段階が、前記抽出された特徴から特徴ベクトルを決定する段階を含む、請求項２に記載された方法。
前記特徴ベクトルが、前記識別された領域を分類するために、前記分類する段階に利用される、請求項３に記載された方法。
前記抽出された特徴がテクスチャ及びエッジ方向である、請求項２に記載された方法。
前記テクスチャの特徴及び前記エッジ方向の特徴から特徴ベクトルを決定する段階；及び
前記変換モードを選択するために前記特徴ベクトルを分類する段階；
を含む、請求項５に記載された方法。
前記変換モードが、不鮮明物体変換モード又は固体物体変換モードである、請求項１に記載された方法。
複数の２次元画像を取得する段階；
前記複数の２次元画像のそれぞれにおいて領域を選択する段階；
選択された領域の種類に基づいて最適な変換モードで前記選択された領域に注釈を付ける段階；及び
注釈が付けられた２次元画像に基づいて前記分類段階を最適化する段階；
を前記分類段階がさらに含む、請求項１に記載された方法。
前記選択された領域の種類が不鮮明物体に対応する、請求項８に記載された方法。
前記選択された領域の種類が固体物体に対応する、請求項８に記載された方法。
２次元画像からの物体を３次元変換するためのシステムであり：
２次元画像から補充画像を作成するように構成された後処理デバイスを含み；該後処理デバイスが：
少なくとも１つの２次元画像において領域を検出するように構成された領域検出器；
少なくとも１つの変換器の識別子を決定するために、検出された領域を分類するように構成された領域分類器であり；
前記少なくとも１つの変換器が、検出された領域を３次元モデルに変換するように構成されていることを特徴とする領域分類器；及び
前記１つの２次元画像の画像平面とは異なる画像平面に、選択された３次元モデルを投影することによって補充画像を作成するように構成されている再構成モジュール；
を含むことを特徴とするシステム。
前記検出された領域から特徴を抽出するように構成された特徴抽出装置をさらに含む、請求項１１に記載されたシステム。
前記特徴抽出装置が、前記領域分類器に入力するために特徴ベクトルを決定するようにさらに構成された、請求項１２に記載されたシステム。
前記抽出された特徴がテクスチャ及びエッジ方向である、請求項１２に記載されたシステム。
前記領域検出器が、セグメンテーション機能である、請求項１１に記載されたシステム。
前記少なくとも１つの変換器が、不鮮明物体変換器又は固体物体変換器である、請求項１１に記載されたシステム。
複数の２次元画像を取得するように構成された分類器ラーナーをさらに含み、該複数の２次元画像のそれぞれにおいて少なくとも１つの領域を選択し、該選択された少なくとも1つの領域の種類に基づいて最適な識別子で、前記少なくとも１つの領域に注釈を付け、さらに、前記領域分類器が、注釈が付けられた２次元画像に基づいて最適化されていることを特徴とする、請求項１１に記載されたシステム。
前記少なくとも１つの領域の種類が不鮮明物体に対応する、請求項１７に記載されたシステム。
前記少なくとも１つの領域の種類が固体物体に対応する、請求項１７に記載されたシステム。
マシーンによって読み込み可能なプログラム保存デバイスであり、前記マシーンによって実行可能であるプログラムのインストラクションを明白に実施し、２次元画像から立体画像を作成するための方法段階を実施し：
２次元画像を取得する段階；
前記２次元画像の領域を識別する段階；
識別された領域を分類する段階；
前記識別された領域の分類に基づいて変換モードを選択する段階；
選択された前記変換モードに基づいて３次元モデルに前記領域を変換する段階；及び
前記２次元画像の画像平面とは異なる画像平面に、前記３次元モデルを投影することによって補充画像を作成する段階；
を含む方法を実施するプログラム保存デバイス。