JP7403528B2

JP7403528B2 - シーンの色及び深度の情報を再構成するための方法及びシステム

Info

Publication number: JP7403528B2
Application number: JP2021507020A
Authority: JP
Inventors: カッペロ、ファビオ; ジョンウィリアムズ、ナイジェル
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-08-23
Filing date: 2019-08-06
Publication date: 2023-12-22
Anticipated expiration: 2039-08-06
Also published as: WO2020039166A1; GB2576548B; GB201813752D0; US20210241495A1; GB2576548A; JP2021535466A; EP3841554A1

Description

本開示は、シーンの色及び深度の情報を再構成するための方法及びシステムに関する。

シーンを三次元（３Ｄ）でグラフィカルに再構成することができる多くの方法が存在する。これらの方法の１つは、表面再構成を行うために、シーンの点群を取り込むことと、点群を多角形又は三角形メッシュに変換することとを伴う。同じシーンの対応する色画像が取り込まれる場合、再構成表面の色は、色画像中の対応する表面に合わせることができる。このようにして、シーンの３Ｄグラフィカル表現を再構成することができる。

しかしながら、このようにしてシーンを再構成することは、問題を含むことがある。場合によっては、シーン中のオブジェクトが他のオブジェクトによって遮蔽される場合があり、したがって、それらのオブジェクトについて色及び深度の情報を取得できない場合がある。したがって、視聴者が異なる視点からシーンのグラフィカル表現を視聴したい場合、深度及び色のデータが欠落しているシーンの部分があり得る。したがって、これらの遮蔽されたオブジェクトは、仮に可視であっても、３Ｄ再構成で不完全に見える場合がある。

一般に、この問題は、それぞれ異なる視点から、シーンの複数の色及び深度の画像を取り込み、それらを結合することによって克服することができる。理解されるように、これは、労働集約的とは言わないまでも、やや時間のかかるプロセスになることがある。

いくつかの既知の方法で、既存の色及び深度の画像対から色及び深度の情報を回復するために機械学習又は解析的方法が使用される。しかしながら、これらの方法でさえ、再構成された色及び深度の情報は、シーン中の遮蔽されたオブジェクトに対して多くの場合不正確である。

本発明は、これらの問題を軽減するよう努める。

本明細書に開示される第１の実施態様によれば、請求項１による、シーンの色及び深度の情報を再構成する方法が提供される。

本明細書に開示される第２の実施態様によれば、請求項１１による、シーンの色及び深度の情報を再構成するためのシステムが提供される。

添付図面に関連して考慮されるとき、以下の詳細な説明を参照することによって本開示がよりよく理解されるようになるにつれて、本開示及びこれに付帯する利点の多くのより完全な評価が容易に得られることになる。

異なるそれぞれの視点からユーザの複数画像が取り込まれる環境の一実施例を概略的に示す。本発明による、色及び深度の画像を再構成するための方法の一実施例を概略的に示す。本発明によるシステムの一実施例を概略的に示す。

ここで図面を参照すると、図１は、ユーザ１０２が位置している、本発明が使用され得るシーン１００の一実施例を概略的に示している。図面の中で同様な参照符号は、いくつかの図全体を通して同一の要素又は対応する要素を指定する。

図１で、カメラ１０４がユーザに対する第１の位置及び向きを有するものとして示される。カメラは、シーンの色画像及びシーンの深度画像を取り込むように動作可能とすることができる。いくつかの実施例で、色カメラ及び深度カメラは、スマートフォンなどの単一デバイスに組み込まれていてもよい。他の実施例で、それらは互いに物理的に分かれていてもよい。

色カメラは、外部環境から、センサに衝突する可視光の周波数を検出するための色センサを含み得る。当技術分野で知られているように、色センサは、特定の周波数で可視光を受け取り、受け取った光の強度を検出するための複数の画素を備える。異なる周波数で検出された光の強度は、それから、シーンの色画像を生成するために結合することができる。

深度カメラは、深度センサによって画成される平面に対する、シーン内の複数の点の距離を検出するための深度センサを含み得る。深度カメラは、信号を発してその信号の反射を受信するように動作可能とし、配置することができ、それによって信号の飛行時間から深度を推測することが可能になる。あるいは、深度カメラは、例えば赤外光の一様格子などのパターン信号を発してその信号の反射を受信するように構成され得る。それから、深度センサで受信した反射信号中の任意の歪みに基づいて深度情報が決定され得る。深度カメラは、例えばＫｉｎｅｃｔ商標デバイスとすることができる。深度カメラの他の実施例が除外されるものではない。

いくつかの実施例で深度カメラがない場合があり、色カメラは、シーンの立体画像を生成するように構成され得る。例えば、色カメラは、各レンズ用の別個の画像センサ又はフィルムフレームを持つ２つ以上のレンズを備え得る。あるいは、２つの別個の色カメラを使用してもよく、各色カメラによって取り込まれた画像は、立体画像を形成するように結合され得る。それから、例えば既知のコンピュータ立体視覚技法を使用して、立体画像からシーンの深度情報を取得することができる。

別個の色カメラ及び深度カメラが使用される実施形態で、カメラによって取り込まれたそれぞれの画像が正確に対応しない場合があることは、理解されたい。例えば、深度カメラは、（取り込まれたデータ点に関して）色カメラよりも解像度が低い場合がある。加えて、カメラの一方が、他方と焦点距離が異なる場合があり、空間位置及び／又は向きが異なる場合がある。いずれにしても、本明細書に説明された実施形態では、色カメラ及び深度カメラは、所与の視点について、各それぞれのカメラによって取り込まれるシーンの部分間に、実質的とは言わないまでも少なくともいくらかの重複があるように配置される。いくつかの実施形態で、各取込み画像中の対応する場所を決定するために、色及び深度の画像の処理が必要な場合がある。これは、例えば、色及び深度の画像中の共通のオブジェクトを識別し、例えば各カメラの焦点距離及び姿勢に基づいて、各画像中の対応する点を決定することによって達成され得る。

なおさらなる実施形態又は代替の実施形態で、色カメラ及び／又は深度カメラがない場合がある。例えば、色画像は、仮想環境のものであって、現実の物理的環境のものでない場合がある。色画像は、ゲームコンソールなどの、計算機器デバイスのゲームエンジンによって生成され得る。１つの実施例で、ゲームエンジンは、「ＥｐｉｃＧａｍｅｓ」商標によって開発された「ＵｎｒｅａｌＥｎｇｉｎｅ」商標であってもよい。色画像が「取り込まれる」視点は、色画像が生成された、仮想環境における、仮想カメラの位置及び向きに対応し得る。深度画像は、色画像中の各画素の深度バッファを使用して生成され得る。これらの実施形態に関して、本発明の目的は、代替の仮想カメラアングルからの仮想シーンの一部を再構成することとし得る。

図１は、第１の位置及び向きでカメラ１０４によって取り込まれたシーンの色画像及び深度画像の一実施例を概略的に示す。図１では、簡潔にするために単一カメラが示されている。しかしながら、上記の通り、２つのカメラ（それぞれ色及び深度）又は単一色カメラが実際にあり得る。図１で、色及び深度の画像は、第１の視点から取り込まれているものとされる。この視点から、画像はユーザの正面像に対応する。

図１で、カメラ１０４は、シーンの第２の視点に対応する第２の位置及び向きで同様に示されている。第２の視点は、この視点のために取り込まれた色及び深度の画像１０６Ｂに見られるように、ユーザの背面像に対応する。

図１は、カメラ１０４を、シーンの第３の視点に対応する、ユーザに対する第３の位置及び向きを有するものとして同様に示している。この第３の視点は、この視点のためにカメラによって取り込まれた色及び深度の画像１０６Ｃで表されるように、ユーザの側面像に対応する。

図１で、カメラは、それがシーンの再構成を所望される視点であることを表すために破線で示される。すなわち、色及び深度の画像がこの位置から取り込まれていない。図１で、第１及び第２の色－深度画像対のうちの１つ又は複数を使用して、この視点からのシーンの色及び深度の画像を再構成することができる。そうするための方法について、図２と関連させてここで説明する。

図１におけるカメラ１０４の位置がただ例示的なものであり、実際には、位置の相違がそれほど大きくなくてもよいことを理解されたい。１つの実施例で、ユーザが（ユーザ１０２などの）オブジェクトの周りで彼らのカメラ１０４を動かして、ユーザがオブジェクトのより多くの色及び深度の画像を取得するにつれて再構成が行われてもよい。

別の実施例で、（例えば、カメラの前でオブジェクトを回転させることによって）ユーザがカメラに対してオブジェクトを動かすにつれて色及び深度の画像が取り込まれてもよい。この場合、オブジェクトの異なるそれぞれの視点ごとに色及び深度の画像を取り込むことができ、各それぞれの視点は、カメラに対するオブジェクトの異なる向きに対応する。さらなる実施例で、複数の異なる色カメラ及び深度カメラを使用してもよく、各カメラは、それぞれの見地からオブジェクトの色及び深度の画像を取り込むように配置される。オブジェクトの色及び深度の画像を取得するために、これらの実施例の任意の組合せが使用され得る。

ほとんどの場合、カメラを位置決めし、又は動かす方式は、取り込むシーン及び１つ又は複数のオブジェクトの性質に依存することになる。一般に、非対称オブジェクトと比較して、対称オブジェクトのために取り込む必要のある色及び深度の画像がより少なくなると予想される。これは、対称オブジェクトについてはオブジェクトの全体的な幾何学的形状から欠落部分を推測できるはずだからである。非対称オブジェクトについては、非対称を生じさせる部分の色及び深度の情報を少なくともいくつか取り込むことが必要な場合がある。

図２は、本発明による再構成を行うための方法の一実施例を例示する。

第１のステップＳ２０１で、シーンの少なくとも１つの色画像が受信される。少なくとも１つの色画像は、それぞれの視点から色カメラによって取り込まれる。視点は、図１に示される第１の視点に対応し得る（色－深度画像対１０６Ａに対応する）。色画像は、色カメラを含む計算機器のプロセッサ、又は色カメラと通信状態にある別個の計算機器のプロセッサで受信することができる。色画像は、色カメラの視野内のシーン中の複数の点の色情報を（すなわち色画素の形で）定める。色画像は、例えば、ＲＧＢ画像又はＹＵＶ画像とし得る。

第２のステップＳ２０１で、色画像が取り込まれた部分と一致するシーンの部分について、シーンの深度情報が取得される。上記のように、深度画像は、色カメラと同じ視野をカバーしない場合があるが、深度カメラの視野内にある環境の範囲では、少なくとも実質的に重なり合うことになる。いくつかの実施例で、色画像は、深度画像の範囲と合致するように切り取られてもよい（又はその逆も同様である）。例えば、深度画像が色画像との５％の境界を残すか、又は色画像の左端の８５％だけカバーする場合、色画像をそれに応じて切り取ることができる。環境の同じ範囲をカバーするように切り取られた色及び深度の画像は、それから、後に処理されるべき色－画像深度対を形成することができる（ステップＳ２０２と関連させて後述する通り）。

深度画像は、深度カメラを用いて取り込んでもよく、又は、前述のように、シーンの立体画像を解析することによって取得してもよい。深度画像は、シーン中の複数の点（すなわち深度画素）の相対深度を定める深度情報を備える。いくつかの実施例で、色画像及び深度画像は、ＲＧＢ－Ｄ画像を形成してもよい。

第３のステップＳ２０３で、少なくとも１つの色画像及び深度画像に基づいてシーンの点群が生成される。これは、色及び深度の画像に逆射影を適用することを伴い得る。ここで「逆」という用語は、（従来の方式で、カメラマトリックスを使用して３Ｄ実世界の点を２Ｄ画像平面に変えるのに対して）２Ｄの色及び深度の画像の点（すなわち画素）を３Ｄ座標システムの点にマッピングすることを言う。点群は、点群中の点の数が、取り込まれた色及び深度の画像の数、並びにそれらの色及び深度の画像が取り込まれている視点によって限定されることになるという点で、部分点群とみなすことができる。例えば、図１に示される実施例で、色－深度画像対１０６Ａ及び１０６Ｂから生成された点群は、側面像からユーザ１０２を表現する限定された数の点を有することになる。

逆射影は、色及び深度の画像中の画素の座標と色カメラの焦点距離とを使用して、任意選択的にそのカメラ又は各カメラの位置及び向きについての情報と併用して、決定することができる。これは、例えば、深度画素が色画像中の色画素の少なくともいくつかについてｚ値を定めるように、少なくとも１つの色画像中の画素と、対応する深度画像中の画素との間の対応を決定することを伴い得る。それから、色カメラの焦点距離と、色画素の少なくともいくつかについて知られている深度情報とに基づいて、色画像平面中の色画素を３Ｄ空間の座標にマッピングすることができる。このようにして、シーンのそれぞれの色及び深度の画像から、３Ｄシーン中の複数の点のｘ、ｙ及びｚ座標を表現する点群を生成することができる。図１に示される実施例で、これは、第１及び第２の色－深度画像対１０６Ａ、１０６Ｂのうちの１つ又は複数からユーザの点群を生成することに対応し得る。

１つの実施例で、逆射影を決定するためにピンホール・カメラ・モデルが使用され得る。例えば、画像平面における色画素のｘ座標がＢ_ｘと定義され、対応する深度画素がＡ_ｚと定義され、色カメラの焦点距離がＦと定義される場合、３Ｄ空間における色画素の座標、Ａ_ｘは、式：
Ａ_ｘ＝Ｂ_ｘＡ_ｚ／Ｆ
によって（システムの幾何学を使用して）近似することができる。

同じ公式は、（システムの対称性によって）３Ｄ空間中の色画素のｙ座標を決定するために使用され得る。もちろん、ピンホールモデルは、色カメラ及び／又は深度カメラ内の任意の光学要素、並びにそれぞれのカメラの異なる姿勢及び焦点距離（別個のカメラが使用される場合）を考慮に入れるように適切に適合され得る。

いくつかの実施形態で、ステップＳ２０１及びＳ２０２は、複数の色及び深度の画像を取り込むことを伴い得る。ここで各色及び深度の画像対は、異なるそれぞれの視点から取り込まれる。ステップ２０３は、それから、複数の色－深度画像対から点群を生成することを伴い得る。これらの実施形態で、逆射影は、色及び深度の画像の各色及び対応する深度の画素を共通の３Ｄ座標システムの点にマッピングする。このようにして点群を生成することは、再構成を必要とするシーンがそれほどないことを意味するので、望ましい場合がある。同じく、それは、シーンの再構成の基とすることができる、利用可能な色及び深度の情報がより多くあることを同様に意味する。もちろん、本明細書でさらに説明する実施形態から明らかになるように、取り込むべき色及び深度の画像の数は、通常必要とされることになる数よりも少ないはずである。

第４のステップＳ２０４で、代替の視点から点群の射影が生成される。この視点は、少なくとも１つの色画像及び深度画像が取り込まれた視点と異なる。図１に示される実施例で、これは、色及び深度の画像が取り込まれていない第３の視点に対応する点群の射影を生成することを伴い得る。一般に、代替の視点は、色及び深度の情報がないシーンの部分を含むことになる。シーンのそれらの部分は、前に取り込まれた色画像及び深度画像では遮蔽されていたからである。

第５のステップＳ２０５で、代替の視点からの点群の射影は、それぞれの二次元の色及び深度の画像に変換される。これらの色及び深度の画像は、本明細書で「疎な」色及び深度の画像と呼ばれる。これらの画像内に、前に取り込まれた色及び深度の画像ではシーンのそれらの部分が遮蔽されているため、色／深度画素密度の低い領域があると予想されるからである。

色及び深度の画像の疎性は、一般に視点の変化の範囲に依存することになる。単一の色及び深度の画像対のみが取り込まれている場合、理想的には、視点の変化は初期の視点に対して９０度（すなわち側面視）未満であるべきである。これは、視点が９０度に近づくにつれて、色及び深度の画像に含まれている画素がますます少なくなるからである（そこでは例えば２Ｄ表面が線に見えることになる）。色及び深度の画像中の画素が少なければ少ないほど、再構成の精度が低くなる可能性が高い。複数の色－深度画像対が取り込まれている実施例で、代替の視点は、各色－深度画像対が取り込まれた視点とは異なる、それらの視点の間にある視点に対応するべきである。

疎な色及び深度の画像は、点群の射影を２Ｄ画像平面に射影することによって生成される。疎な色画像は、２Ｄ画像平面における各点の色値（例えばＲ、Ｇ、Ｂ又はＹ、Ｕ、Ｖ）を定め、深度画像は、２Ｄ画像平面における各点の深度値を定める。

第６のステップＳ２０６で、色情報がない疎な色画像中のシーンの少なくともいくつかについて色情報（すなわち色画素値）が推定される。すなわち、色情報が欠落しているシーンの部分に対してインペインティング動作が行われる。これにより、代替の視点のために、シーンのより完全な色画像が再構成される。インペインティング動作はただシーンのいくつかの部分（すなわちインペインティング動作が正確である可能性が高い部分）に対して行われ得るにすぎないことに留意するべきである。

いくつかの実施例で、インペインティング動作は、疎な色画像を訓練された機械学習モデルに入力することを伴い得る。ここで機械学習モデルは画像の不完全な部分（いわゆる「穴」）について色画素値を推定するように訓練されている。機械学習モデルは、例えば、完全畳込みネットワークモデルを使用して、完全な色画像及び不完全な色画像の対で訓練され得る。そのような使用され得る技法の一実施例が、「ＧｌｏｂａｌｌｙａｎｄＬｏｃａｌｌｙＣｏｎｓｉｓｔｅｎｔＩｍａｇｅＣｏｍｐｌｅｔｉｏｎ」、飯塚里志他、早稲田大学、１０７：１～１０７：１４ページに説明されており、この文献は参照により本明細書に援用される。

追加の実施例又は代替の実施例で、インペインティング動作を行うために異なる技法が使用され得る。これは、例えば、疎な色画像に対して形態学的膨張を行うことを含み得る。当技術分野で知られているように、形態学的膨張を使用して画像内のオブジェクトの境界に画素を加えることができる。

なおさらなる実施例又は代替の実施例で、単純な補間を使用して、例えば最近傍画素の平均色に基づいて、色画素が欠落している画像の部分を塗りつぶすことができる。場合によっては、この補間は、疎な色画像の画素密度が閾値密度よりも高い場合にのみ使用することができる。これは、色情報が、既存の色情報が妥当である可能性が高い画像の部分についてのみ推定されることを保証する。

第７のステップＳ２０７で、深度情報が欠落しているシーンの少なくともいくつかの部分について深度情報が推定される。換言すれば、疎な深度画像に対して深度インペインティング動作が行われる。これにより、代替の視点からの、シーンのより完全な深度画像が再構成される。

いくつかの実施形態で、深度インペインティング動作は、再構成された色画像と、シーンの既存の深度情報（すなわちステップＳ２０２で取得した深度画像）とに基づいて行われる。

これは、例えば、色画像中の面法線及びオクルージョン境界を検出するために、ニューラルネットワークなどのディープネットワークを訓練することを伴い得る。ディープネットワークは、ネットワークが面法線及び／又はオクルージョン境界と一致する画像特徴を学習することができるように、面法線及びオクルージョン境界がラベル付けされた多数の色画像で訓練され得る。一度訓練されると、再構成された画像中の任意の面法線及びオクルージョン境界を検出するために、再構成された色画像をディープネットワークに入力することができる。

ディープネットワークによって検出された面法線及びオクルージョン境界を既存の深度情報とともに使用して、大域的最適化プロセスを導くことができる。大域的最適化プロセスは、推定された深度情報が、（ｉ）検出された面法線を尊重すること、（ｉｉ）オクルージョン境界に属さない点のすべてにおいて滑らかであること、及び（ｉｉｉ）シーンの既存の深度値に近い値を保つことを保証する。そのようなディープネットワーク及び大域的最適化プロセスの一実施例が、「ＤｅｅｐＤｅｐｔｈＣｏｍｐｌｅｔｉｏｎｏｆａＳｉｎｇｌｅＲＧＢ－ＤＩｍａｇｅ」、Ｙ．Ｚｈａｎｇ、Ｔ．Ｆｕｎｋｈｏｕｓｅｒ、石川博、プリンストン大学、１～１１ページに概説されている。

他の実施例で、深度情報は、例えばマルコフ過程による画像合成を使用して推定することができ、又は、当技術分野で知られているように、境界面を外挿法によって推定し、それらの間を補間することによって推定することができる（例えば、「Ｄｅｐｔｈｉｍａｇｅｅｎｈａｎｃｅｍｅｎｔｕｓｉｎｇｌｏｃａｌｔａｎｇｅｎｔｐｌａｎｅａｐｐｒｏｘｉｍａｔｉｏｎｓ」、Ｋ．Ｍａｔｓｕｏ及びＹ．ＢＹａｎｇ、慶応義塾大学総合デザイン工学科を参照のこと）。

当技術分野で知られているように、面法線は、表面上の点に垂直なベクトルを定める。表面が平らである（例えばｘ－ｙ平面にある）場合、表面ベクトルは同じ方向（ｚ方向）を指し示すことになる。これは、例えば、表面が深度センサに平行であると検出される場合、その表面上の点が深度センサから同じ相対距離を有するはずであるということを意味する。より一般には、面法線は、深度カメラに対するシーン中の表面の向きと、この表面上の少なくともいくつかの点の距離の指標を提供する。このことから、補間を使用して、深度データが欠落しているシーンの部分について深度データを推定することができる（すなわち穴を埋める）。

オクルージョン境界は、検出されたオブジェクトの縁を画定し、検出されたオブジェクトの後ろに他のオブジェクトが遮蔽されていることになる。オクルージョン境界は、シーン内で深度の変化が起こる場所の指標を提供する。したがって、オクルージョン境界を面法線とともに使用して、シーンの異なる部分について深度情報を推定することができる。

ディープネットワークの使用が上記の実施例で提供されるが、画像中の面法線及びオクルージョン境界を検出するための他の方法が本発明によって使われてもよいことを理解されたい。

ステップＳ２０８で、再構成された色画像が表示のために出力される。いくつかの実施例で、再構成された色画像は、後で表示するためにメモリに記憶されてもよい。色画像の出力は、表示装置で表示するために再構成された色画像を出力することを伴い得る。

ステップＳ２０８は、例えば、グレースケール画像として、表示するために深度画像を出力することを同様に伴い得る。グレースケール画像では、画素の暗さは、点（取り込まれた点とシミュレートされた点の両方）がカメラから、深度センサからどれほど近いか又は遠いかを表す。これは情報目的のために有用であり得る。より一般には、再構成された深度画像を使用して、再構成された色画像中のオブジェクトが正しいオクルージョンで表示されることを保証することができる。例えば、再構成された色画像の上に仮想オブジェクトが重畳される場合、深度画像を使用して、仮想オブジェクトがシーン中の任意の表面／オブジェクト及びそれらの対応する深度を尊重することを保証することができる。

場合によっては、取り込まれた色及び深度の情報と推定された色及び深度の情報の組合せは、代替の視点からシーンの色画像（及び深度画像）を正確に再構成するために不十分な場合があることを理解されたい。すなわち、再構成された色及び深度の画像には、比較的大きい穴が依然としてあり得る。これらの場合、再構成を生成することができるより完全な点群を取得するために、（異なる視点から）シーンの別の色及び深度の画像を取り込むことが必要な場合がある。

いくつかの実施形態で、再構成された色及び深度の画像を使用して、シーンのさらなる再構成を行うことができる。すなわち、本方法を反復的に行い、連続的に再構成された各色及び深度の画像を使用して、より完全な点群を生成することができる。反復ごとに、ステップＳ２０４は、さらなる代替の視点から、より完全な点群の射影を生成することを伴い得る。換言すれば、色及び深度の画像が取り込まれている視点並びに色及び深度の画像が再構成されている視点とは、異なる視点からである。このようにして、点群における点の密度は、所望の視点からシーンの完全な色及び深度の画像をレンダリングするために十分な数の点が取得されるまで、増大させることができる。

いくつかの実施例で、反復的方法は、再構成された色及び深度の画像の画素密度が閾値画素密度を超えるまで続いてもよい。

より精巧な実施例で、本方法は、追加のステップ、例えば、再構成された色及び深度の画像と関連付けられた誤差を決定することを伴うステップＳ２０８Ｂ（図示されない）を伴い得る。再構成された色及び深度の画像対と関連付けられた誤差を使用して、本方法の次の反復を行うべきかどうかを決定することができる。例えば、再構成された色及び深度の画像対と関連付けられた誤差が（例えば、色画像が実際は再構成であると視聴者が気づく可能性が低いことを表す）閾値未満であるとき、さらなる反復を行うことはできない。いくつかの実施例で、閾値数の反復がすでに起こっており、かつ現在の再構成された色及び深度の画像と関連付けられた誤差が閾値を超える場合、さらなる反復を行うことはできない。これは、誤差に限りがなくなる場合に対応し得る。

いくつかの実施例で、本方法は、特定の種類のオブジェクト又はシーンを再構成するために特化され得る。例えば、本方法は、人間の顔の色及び深度の画像を再構成するために設計されてもよい。本方法を開始して、グラウンドトゥルースを定めるために使用する前に、（色及び深度の画像を含む）人間の顔の走査を取り込むことができる。それから、各再構成された色及び深度の画像を人間の顔の走査と比較することができ、この比較に基づいて誤差を決定することができる。この誤差を決定するにあたり、カメラの姿勢を使用して、色及び深度の画像を取り込んだカメラの同じ位置及び向きから走査の遠近図を生成することができる。誤差が決定されると、再構成された色及び深度の画像がグラウンドトゥルースから極端に逸脱しているかどうかを決定するために、誤差を閾値と比較することができる。一般に、閾値は、異なる人間の顔に固有の相違を許すのに十分大きくするべきであるが、人間の顔以外のオブジェクトが許容可能な関連誤差を持つとみなされることを許すようにそれほど大きくするべきではない。

他の実施例で、誤差は、（再構成から生じた点を含む）点群と、一般的な人間の顔を表現する基準点群との比較に基づいて決定することができる。

一般的に言って、誤差は、取り込まれるオブジェクトについてなされた仮定に基づいて決定することができる。この仮定は、例えば、取り込まれるオブジェクトの形状又は平滑度を含み得る。それゆえ、再構成された色及び深度の画像と関連付けられた誤差は、仮定されたオブジェクトの特徴と、再構成された色及び深度の画像から推測できるオブジェクトの特徴との偏差に基づいて決定することができる。

図２と関連させて説明した本方法は、ユーザが異なる視点からシーンの色及び深度の画像を過剰に取り込むことを必要とせず、シーンの部分を再構成することを可能にするという点で、非常に柔軟性がある。

いくつかの実施例で、本明細書に説明した方法は、意味情報などの追加情報を考慮に入れるために拡張することができる。例えば、人物の画像を完成させるにあたり、人物がどのように見えるかについての情報を先験的に追加し、所望の視点からの人物の画像を再構成するとき、この情報を考慮に入れることができる。

さらなる実施例で、再構成は、必要とされる限り行われてもよい。例えば、ユーザがオブジェクトの周りで彼らのカメラを動かす場合、新しいデータをリアルタイムで生成して、ユーザの視野内のすべてのギャップを埋めることができる。

図３は、本発明による、色及び深度の画像を再構成するためのシステム３００を例示する。

システム３００は、シーンの少なくとも１つの色画像を受信するための受信ユニット３０１を備える。図３で、少なくとも１つの色画像は入力「ＲＧＢ」と表される。前述のように、少なくとも１つの色画像は、色カメラによってそれぞれの視点から取り込まれる（視点は色カメラの視野に対応する）。

受信ユニット３０１は、色カメラと通信状態にあるか、又は色カメラを含む計算機器に位置していてもよい。計算機器は、例えばパーソナルコンピュータ（ＰＣ）、ラップトップ、タブレット、スマートフォンなどとし得る。いくつかの実施例で、計算機器は、例えばゲームコンソールとし得る。

システム３００は、色画像で取り込まれた部分に対応するシーンの部分について深度画像を取得するように動作可能な深度ユニット３０２をさらに備える。深度ユニット３０２は、図３に入力「Ｄ」で表されるように、深度カメラから深度画像を受信するように構成され得る。あるいは、深度ユニット３０２は、受信ユニット３０１を深度ユニット３０２にリンクする破線矢印で表される、立体画像から深度画像を生成するように構成され得る。深度カメラは、前述の深度カメラのいずれかに対応し得る。再び、色カメラ及び深度カメラは、分かれていても、単一デバイスに組み込まれていてもよい。

システム３００は、色－深度画像対を受信し、受信した色－深度画像対から点群を生成するように構成された、点群生成器３０３を同様に備える。点群生成器３０３は、受信した色及び深度の画像中の色及び深度の画素に逆射影を適用するように構成される。前述のように、逆射影は、色画素及び対応する深度画素を共通の３Ｄ座標システム３００にマッピングする。このマッピングにより、受信した色及び深度の画像からシーンの点群を生成することが可能になる。

いくつかの実施例で、点群生成器３０３は、色（及び任意選択的に、深度）カメラの姿勢及び焦点距離を表す情報を受信するように構成される。この情報は、色（及び深度）画像におけるメタデータとして色（及び深度）カメラによって提供され得る。点群生成器３０３は、それから、受信したメタデータに基づいて逆射影を決定することができる。これは、逆射影を決定するとき、色カメラ及び深度カメラの位置及び焦点距離の変化を考慮に入れることを可能にするので望ましい。

図３で、点群ユニットは、射影ユニット３０４への入力を提供するものとして示される。射影ユニット３０４は、色及び深度の画像が取り込まれている視点とは異なる視点から点群の射影を生成するように構成される。いくつかの実施例で、この代替の視点は、視点を任意に変更することに対応し得る。例えば、点群の＋１度の回転である。

いくつかの実施形態で、射影ユニット３０４は、点群生成器３０３で受信した各色及び深度の画像が取り込まれた視点の指標を受信するように構成され得る。これに基づいて、射影ユニット３０４は、それから、これらの既知の視点と異なる視点を決定することができる。例えば、２つの色－深度画像対が点群生成器３０３で受信されている場合、射影ユニット３０４は、各画像対と関連付けられた視点間にある視点を選択することができる。

図３で、射影ユニット３０４は、変換ユニット３０５への入力を提供するものとして示される。変換ユニット３０５は、生成された射影をそれぞれの２Ｄの疎な色及び深度の画像に変換するように構成される。前述のように、これらの画像は、色及び深度の情報が欠落している部分があることになるので、疎と称される。先述のように、それぞれの視点から取り込まれた色及び深度の画像ではシーンの対応する部分が遮蔽されていることになるので、この情報は欠落していることになる。

変換ユニット３０５は、疎な色及び深度の画像をインペインティングプロセッサ３０６に出力する。インペインティングプロセッサ３０６は、色情報が欠落している、シーンの少なくともいくつかの部分について色画素値を生成するように構成される。そうするにあたり、インペインティングプロセッサ３０６は、代替の視点から、シーンの再構成された色画像を生成する。図３で、再構成された色画像は、インペインティングプロセッサ３０６の出力の１つとして示されており、ＲＧＢ'と表される。この再構成された色画像は、例えば、（図示されない）表示装置で表示するために出力され得る。

いくつかの実施形態で、モノラルの（すなわち再構成された）色画像から立体画像対を生成することができる。立体画像は、頭部装着可能なディスプレイ（ＨＭＤ）での視聴用とすることができ、各画像は、ＨＭＤ内の異なるそれぞれの表示要素に表示される。第１の表示要素をユーザの左目の前に、第２の表示要素をユーザの右目の前に配置することができる。深度を伝達するために、立体対の各画像は、互いに対して横方向の変位を呈するように生成され得る。横方向の変位は、例えば、個々の画像を取り込むために使用された可能性がある２つのカメラのシミュレートされた横方向の分離に依存し得る。

追加の実施形態又は代替の実施形態で、立体画像対は、それぞれシーンの異なる視点に対応する、２つの色画像から生成することができる。上述のように、これらの画像の一方又は両方が、再構成された色画像を含み得る。２つの色画像は、一般に、同じような視点から取り込まれるが、（すなわち、両方の色画像が実質的に同じ視野をカバーするように）間に比較的小さい変位を有する、２つの色画像に対応することになる。

インペインティングプロセッサ３０６は、ステップＳ２０６と関連させて前述したインペインティング動作のいずれかを行うように構成され得る。インペインティングの範囲は、疎な色画像の色画素密度に依存し得る。例えば、場合によっては、色情報が、既存の色情報に近接している画像の部分についてのみ推定される可能性がある。疎な色画像の残りの部分については、インペインティングを行うことはできない。画像のこれらの部分は、さらに取り込まれた色及び深度の画像を使用して、又は前述の方法をさらに反復して、インペインティングすることができる。

インペインティングプロセッサ３０６は、再構成された色画像を深度データ生成器３０７に提供するように構成される。深度データ生成器３０７は、再構成された色画像に基づいて、深度画像が欠落している疎な深度画像の少なくともいくつかの部分について深度データを生成するように構成される。そうするにあたり、深度データは、代替の視点からのシーンのより完全な深度画像を生成する。

深度データ生成器３０７は、ステップＳ２０７と関連させて前述した方法のいずれかを使用して深度データを生成するように構成され得る。例えば、深度データは、再構成された色画像中の１つ又は複数の表面の面法線を推定するように動作可能な面法線推定器を備え得る。深度データ生成器３０７は、再構成された色画像中の１つ又は複数のオクルージョン境界を検出するためのオクルージョン境界検出器を同様に備え得る。面法線推定器及びオクルージョン境界検出器は、前述のように、ニューラルネットワークの形とし得る。面法線及び検出されたオクルージョン境界を既存の深度データとともに使用して、深度情報が欠落しているシーンの部分について深度データを生成することができる。前述のように、これは、検出された面法線、オクルージョン境界及び既存の深度データを使用して、大域的最適化プロセスを導くことを伴い得る。

再構成された深度画像は、それから、深度データ生成器３０７によって、例えば表示のために、出力され得る。図３で、これは出力Ｄ’と表される。しかしながら、いくつかの実施形態で、再構成された深度画像は、表示のために出力される必要がない。一般に、色画像が、ユーザに視聴される可能性がより高い画像になるからである。図３に破線矢印で表されるように、表示のための深度画像の出力は、任意選択的なものである。

図３で、点群生成器３０３は、再構成された色及び深度の画像を受信するように構成され得る。これは、インペインティングプロセッサ３０６及び深度データ生成器３０７の出力を点群生成器３０３とリンクして、図３に表される。

したがって、インペインティング及び深度データ生成の一部として推定された色及び深度の画素を使用して、より多くの点を点群に加えることができる。前述のように、これを使用して、本方法のさらなる反復を行うことができ、射影ユニット３０４は、さらなる異なる視点から、より完全な点群の射影を生成する。それから、射影は、変換ユニット３０５によって疎な（しかし前の反復で生成された色及び深度の画像よりも疎でない）色及び深度の画像に変換され得る。

それから、現在の反復で生成された疎な色及び深度の画像を使用して、インペインティング及び深度データ生成動作を再び行うことができる。インペインティングプロセッサ３０６と深度データ生成器３０７との間のこのフィードバックループは、シーンを表現する十分に高密度の（かつ正確な）点群が取得されるまで繰り返すことができる。十分に高密度の点群が取得された時点で、任意の所望の視点から、シーンの色及び深度の画像を生成することができるはずである。これは、色及び深度の画像が取り込まれていない視点を含む。

Ｓ２０７と関連させて前述したように、行われる反復の数は、再構成された色及び深度の画像と関連付けられた誤差に依存し得る。例えば、各再構成された色及び深度の画像は、誤差値と比較することができ、誤差値は、再構成された画像中の知覚的誤差又はアーチファクトの尺度を提供する。連続的な反復ごとに、再構成された色及び深度の画像と関連付けられた誤差が許容可能な値（又は範囲）に収束する場合、これは、シーンの色及び深度の画像を再構成するために十分な量の色及び深度のデータがあることを表し得る。したがって、現在の再構成された色及び深度の画像と関連付けられた誤差が誤差値の許容可能な範囲未満、又はこの範囲内になるまで、反復を続けることができる。逆に、連続的な反復で誤差が許容可能な値（又は範囲）から発散する場合、これは、再構成が機能しておらず、方法を終了するべきであることを表し得る。そのような場合、誤差に限りがないと言える。

受信ユニット３０１、深度ユニット３０２、点群生成器３０３、射影ユニット３０４、変換ユニット３０５、インペインティングプロセッサ３０６及び深度データ生成器３０７は、単一デバイスに実装しても別個のデバイスに実装してもよいことを理解されたい。いくつかの実施例で、図３に示される構成要素は、色画像（及び任意選択的に、深度画像）を受信し、色（及び任意選択的に、深度）画像を表示装置に出力するように構成された計算機器に含まれていてもよい。計算機器は、例えば、パーソナルコンピュータ（ＰＣ）、ラップトップ、ゲームコンソール、サーバなどとし得る。

インペインティング及び／又は深度データ生成のために機械学習が使用される実施例で、機械学習モデル（例えば、ニューラルネットワーク）を例えばサーバにおいて訓練し、訓練したモデルをインペインティングプロセッサ及び／又は深度データ生成器にエクスポートしてもよい。インペインティング及び深度データ生成は、必要とされる処理に関して最も集中的になる可能性が高い。そのため、いくつかの実施例で、インペインティングプロセッサ３０６及び深度データ生成器３０７は、システム３００の他の構成要素が位置している計算機器よりも高い計算能力を持つ計算機器に位置していてもよい。そのような場合、２つの計算機器は、（すなわち有線又は無線の接続を介して）互いに通信状態にあることになる。

上述の技法は、ハードウェア、ソフトウェア又は両者の組合せで実装することができる。実施形態の１つ又は複数の特徴を実装するためにソフトウェア制御されたデータ処理装置が使われる場合、そのようなソフトウェア、及びそのようなソフトウェアを提供する非一時的機械可読記憶媒体などの記憶又は伝送媒体は、同様に本発明の実施形態とみなされることを理解されたい。

上記の考察は、単に本発明の代表的な実施形態を開示し説明するにすぎない。当業者には当然のことながら、本発明は、その趣旨又は本質的特質から逸脱することなく他の特定の形で実施することができる。したがって、本発明の本開示は、例示的であるように意図されるが、本発明の範囲及び他の請求項を限定するものではない。本明細書の教示の容易に認識可能な任意の変形形態を含む、本開示は、発明の主題が公に捧げられないように、上記の請求項の用語の範囲を部分的に定義する。

Claims

シーンの色及び深度の情報を再構成する方法であって、前記方法は、
シーンの少なくとも１つの色画像を受信することであって、前記少なくとも１つの色画像はそれぞれの視点から取り込まれることと、
前記それぞれの視点について前記シーンの深度情報を取得することと、
前記少なくとも１つの色画像及び前記取得された深度情報に基づいて前記シーンの点群を生成することと、
代替の視点からの前記点群の射影を生成することであって、前記代替の視点は、前記それぞれの視点と異なり、色及び深度の情報が欠落している前記シーンの遮蔽された部分を含むことと、
前記点群の前記射影をそれぞれの疎な色及び深度の画像に変換することと、
色情報がない前記疎な色画像中の前記シーンの少なくともいくつかについて色情報を推定し、それによって前記代替の視点からの前記シーンのより完全な色画像を再構成することと、
前記再構成された色画像及び前記取得された深度情報に基づいて、深度情報がない前記シーンの少なくともいくつかについて深度情報を推定し、それによって前記代替の視点からの前記シーンのより完全な深度画像を再構成することと、
を含む、方法。
前記色情報を推定することは、前記疎な色画像を訓練された機械学習モデルに入力することを含み、前記機械学習モデルは、完全な色画像及び不完全な色画像の対で訓練され、画像の不完全な部分について画素値を推定するように訓練される、請求項１に記載の方法。
前記機械学習モデルは完全畳込みネットワークモデルを含む、請求項２に記載の方法。
前記深度情報を推定することは、
前記再構成された色画像中の１つ又は複数の表面の面法線を推定することと、
前記再構成された色画像中の１つ又は複数のオクルージョン境界を検出することと、
前記推定された面法線、前記検出されたオクルージョン境界及び前記取得された深度情報に基づいて前記深度情報を推定することと、
を含む、請求項１から３のいずれか一項に記載の方法。
前記再構成された色画像をニューラル・ネットワーク・モデルに入力することを含み、前記ニューラル・ネットワーク・モデルは、色画像中の面法線及びオクルージョン境界を推定するように訓練され、
前記深度情報を推定することは、前記推定された面法線、検出されたオクルージョン境界及び前記取得された深度情報を使用して、大域的最適化プロセスを導くことを含む、
請求項４に記載の方法。
前記点群を生成することは、前記少なくとも１つの色画像及び取得された深度情報に逆射影を適用することを含む、請求項１から５のいずれか一項に記載の方法。
表示装置で表示するために前記より完全な色画像を出力することを含む、請求項１から６のいずれか一項に記載の方法。
複数の色画像を受信することであって、各色画像は異なるそれぞれの視点から取り込まれることと、
前記それぞれの視点の各視点について深度情報を取得することと、
前記複数の取り込まれた色画像及び前記取得された深度情報に基づいて前記点群を生成することと、
代替の視点からの前記点群の射影を生成することであって、前記代替の視点は、前記それぞれの視点の各視点と異なり、色及び深度の情報が欠落している前記シーンの遮蔽された部分を含むことと、
前記点群の前記射影をそれぞれの疎な色及び深度の画像に変換することと、
色情報がない前記疎な色画像中の前記シーンの少なくともいくつかについて色情報を推定し、それによって前記代替の視点からの前記シーンのより完全な色画像を再構成することと、
前記再構成された色画像及び前記取得された深度情報に基づいて、深度情報がない前記シーンの少なくともいくつかについて深度情報を推定し、それによって前記代替の視点からの前記シーンのより完全な深度画像を再構成することと、
を含む、請求項１から７のいずれか一項に記載の方法。
色画像及び深度画像の連続的な再構成を含み、
シーンの少なくとも１つの色画像を受信するステップは、前に再構成された色画像を受信することを含み、シーンの深度情報を取得するステップは、前に再構成された深度画像を受信することを含む、
請求項１から８のいずれか一項に記載の方法。
前記再構成された色及び深度の画像と関連付けられた誤差を決定すること
を含み、
色及び深度の画像の連続的な再構成は、（ｉ）現在の再構成された色画像及び深度画像と関連付けられた前記誤差が閾値未満であるとき、又は（ｉｉ）閾値数の連続的な再構成が起こっており、かつ前記現在の再構成された色画像及び深度画像と関連付けられた前記誤差が前記閾値を超えるときに終了する、
請求項９に記載の方法。
請求項１から１０のいずれか一項に記載の方法をコンピュータシステムに行わせるように適合されたコンピュータ実行可能命令を有するコンピュータ可読媒体。
シーンの色及び深度の情報を再構成するためのシステムであって、前記システムは、
シーンの少なくとも１つの色画像を受信するように構成された受信ユニットであって、前記色画像はそれぞれの視点から取り込まれる、受信ユニットと、
前記シーンの対応する部分について深度画像を取得するように動作可能な深度ユニットと、
前記色画像及び取得された深度画像から点群を生成するように動作可能な点群生成器と、
前記それぞれの視点とは異なる視点から前記点群の射影を生成するように構成された射影ユニットと、
前記生成された射影をそれぞれの疎な色及び深度の画像に変換するように動作可能な変換ユニットであって、前記疎な色及び深度の画像は、色及び深度の情報が欠落している前記シーンの遮蔽された部分を含む、変換ユニットと、
色情報が欠落している前記シーンの少なくともいくつかの部分について画素値を生成するように構成され、それによって再構成された色画像を生成する、インペインティングプロセッサと、
深度データが欠落している前記シーンの少なくともいくつかの部分について深度データを生成するように構成された深度データ生成器であって、前記深度データは、前記再構成された色画像及び前記取得された深度画像に基づいて生成され、それによって再構成された深度画像を生成する、深度データ生成器と、
を備える、システム。
前記点群生成器は、前記再構成された色画像及び前記再構成された深度画像を受信するように構成され、
前記射影ユニットは、前記受信された色及び深度の画像、並びに前記再構成された色及び深度の画像に基づいて、さらなる異なる視点から前記点群の射影を生成するように構成される、
請求項１２に記載のシステム。
前記インペインティングプロセッサは、機械学習モデルを備え、前記機械学習モデルは、不完全な画像について画素値を生成するように訓練され、
前記機械学習モデルは、前記疎な色画像を受信し、前記受信することに応答して、色情報が欠落している前記シーンの少なくともいくつかの部分について画素値を生成するように構成される、
請求項１２又は１３に記載のシステム。
前記深度データ生成器は、
前記再構成された色画像中の少なくとも１つの表面の面法線を推定するように動作可能な面法線推定器と、
前記再構成された色画像中のオクルージョン境界を検出するように構成されたオクルージョン境界検出器と、
を備え、
前記深度データ生成器は、前記少なくとも１つの推定された面法線、検出されたオクルージョン境界、及び前記シーンの既存の深度情報に基づいて、深度データを生成するように構成される、
請求項１２から１４のいずれか一項に記載のシステム。
前記面法線推定器及びオクルージョン境界検出器は、ニューラルネットワークを備え、前記ニューラルネットワークは、色画像中の面法線及びオクルージョン境界を推定するように訓練される、請求項１５に記載のシステム。