JP6914926B2

JP6914926B2 - Ｉｍｕおよび画像データを使用した合成物体を含む多視点画像データの拡張

Info

Publication number: JP6914926B2
Application number: JP2018518729A
Authority: JP
Inventors: ヨハネスヨーゼフホルツァー、シュテファン; デイヴィッドミラー、スティーブン; ジェイブルエントレヴァー、アレクサンダー; サエルツル、マーティン; ボグダンルス、ラデュ
Original assignee: フュージョン、インコーポレイテッド
Priority date: 2015-10-16
Filing date: 2016-09-28
Publication date: 2021-08-04
Anticipated expiration: 2036-09-28
Also published as: US10504293B2; JP2018537758A; WO2017065975A1; US10152825B2; US20170109930A1; DE112016004731T5; US20190073834A1

Description

関連出願の相互参照
本出願は、参照によりその全体が本明細書に組み込まれる、２０１６年１月２８日に出願された「ＡＵＧＭＥＮＴＩＮＧＭＵＬＴＩ−ＶＩＥＷＩＭＡＧＥＤＡＴＡＷＩＴＨＳＹＮＴＨＥＴＩＣＯＢＪＥＣＴＳＵＳＩＮＧＩＭＵＡＮＤＩＭＡＧＥＤＡＴＡ」と題する米国特許出願第１５／００９，８０７号、および、２０１５年１０月１６日に出願された「ＡＵＧＭＥＮＴＩＮＧＭＵＬＴＩ−ＶＩＥＷＩＭＡＧＥＤＡＴＡＷＩＴＨＳＹＮＴＨＥＴＩＣＯＢＪＥＣＴＳＵＳＩＮＧＩＭＵＡＮＤＩＭＡＧＥＤＡＴＡ」と題する米国特許出願第６２／２４２，９３２号の、米国特許法第１１９条に基づく利益を主張する。

本開示は、合成物体を含む多視点画像データの拡張に関する。一例では、本開示は、慣性測定ユニット（ＩＭＵ：ＩｎｅｒｔｉａｌＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ）および画像データを使用して、多視点画像内に配置される合成物体のビューを生成することに関する。

拡張現実は、典型的には、風景、スポーツゲーム、物体、個人などのビデオおよび／または画像データを介してなどの実世界環境のビューを含む。実世界環境のこのビューは、画像、テキスト、ビデオ、グラフィックスなどのコンピュータ生成入力によって拡張される。したがって、拡張現実は、コンピュータ生成された要素が追加された動画ビデオまたは連続写真の形をとることができる。拡張現実は、シミュレートされた環境がビデオおよび／または画像データによって描かれる仮想現実とは異なる。

いくつかの実施態様では、拡張現実アプリケーションは、ビデオおよび画像データに三次元（３Ｄ：Ｔｈｒｅｅ−Ｄｉｍｅｎｓｉｏｎａｌ）情報を追加することができる。これは一般に、シーンの３Ｄ再構成を作成することによって行われる。しかし、このプロセスは計算コストが高く、通常は静的シーンに限定されている。したがって、拡張現実を実現する改善された方法が所望される。

慣性測定ユニット（ＩＭＵ）および画像データを使用して合成物体を含む多視点画像データを拡張することに関連する様々な機構およびプロセスが提供される。

先行するおよび／または後続の実施例および態様のいずれかの主題の少なくとも一部を含むことができる１つの態様では、プロセスは、多視点画像内に配置されるべき合成物体についての参照画像内でのアンカー位置の選択を受信することを含む。参照画像と目標画像との間の動きが、多視点画像に関連する視覚追跡情報、多視点画像に対応するデバイス向き、およびカメラの固有パラメータの推定値を使用して計算される。次いで、多視点画像内で視覚追跡情報を使用して合成物体をアンカー位置に配置し、参照画像と目標画像との間で計算された動きの逆を使用して合成物体を配向し、目標画像に関連する目標ビューに至る半直線に沿って合成画像を投影することによって、第１の合成画像が生成される。第１の合成画像は、目標ビューから拡張画像を生成するために目標画像上に重ね合わされる。

先行するおよび／または後続の実施例および態様のいずれかの主題の少なくとも一部を含むことができる別の態様では、コンピュータ可読媒体は、多視点画像内に配置されるべき合成物体についての参照画像内でのアンカー位置の選択を受信するためのコンピュータコードを含む。コンピュータ可読媒体は、参照画像と目標画像との間の動きを、多視点画像に関連する視覚追跡情報、多視点画像に対応するデバイス向き、およびカメラの固有パラメータの推定値を使用して計算するためのコンピュータコードをさらに含む。また、コンピュータ可読媒体は、多視点画像内で視覚追跡情報を使用して合成物体をアンカー位置に配置し、参照画像と目標画像との間で計算された動きの逆を使用して合成物体を配向し、目標画像に関連する目標ビューに至る半直線に沿って合成画像を投影することによって、第１の合成画像を生成するためのコンピュータコードをも含む。コンピュータ可読媒体は、目標ビューから拡張画像を生成するために第１の合成画像を目標画像上に重ね合わせるためのコンピュータコードをさらに含む。

先行するおよび／または後続の実施例および態様のいずれかの主題の少なくとも一部を含むことができるさらに別の態様では、装置は、多視点画像内に配置されるべき合成物体についての参照画像内でのアンカー位置の選択を受信するための手段を含む。装置は、参照画像と目標画像との間の動きを、多視点画像に関連する視覚追跡情報、多視点画像に対応するデバイス向き、およびカメラの固有パラメータの推定値を使用して計算するための手段をさらに含む。また、装置は、多視点画像内で視覚追跡情報を使用して合成物体をアンカー位置に配置し、参照画像と目標画像との間で計算された動きの逆を使用して合成物体を配向し、目標画像に関連する目標ビューに至る半直線に沿って合成画像を投影することによって、第１の合成画像を生成するための手段をも含む。装置は、目標ビューから拡張画像を生成するために第１の合成画像を目標画像上に重ね合わせるための手段をさらに含む。

これらおよび他の実施形態は、図面を参照して以下にさらに説明される。

合成物体の第１のビューを有する参照画像の一例を示す図である。合成物体の第２のビューを有する目標画像の一例を示す図である。合成物体の第１のビューを有する参照画像の一例を示す図である。合成物体の第２のビューを有する目標画像の一例を示す図である。合成物体の第１のビューを有する参照画像の一例を示す図である。合成物体の第２のビューを有する目標画像の一例を示す図である。ＩＭＵおよび画像データを使用した合成物体を含む多視点画像データの拡張のためのプロセスの一例を示す図である。本開示において特定の例を実施するために使用され得るコンピュータシステムの例を示す図である。

ここで、本開示を実施するために本発明者らが意図する最良の形態を含む、本開示のいくつかの特定の実施例を詳細に参照する。これらの特定の実施形態の例は、添付の図面に示されている。本開示は、これらの特定の実施形態に関連して記載されているが、本開示を記載された実施形態に限定することを意図するものではないことが理解される。それどころか、添付の特許請求の範囲によって規定される本開示の精神および範囲内に含まれ得る代替物、改変物、および等価物を包含することが意図される。

以下の説明では、本発明の完全な理解を提供するために、多数の具体的な詳細を説明する。本発明の特定の例示的な実施形態は、これらの特定の詳細のいくつかまたはすべてを用いずに実施することができる。他の事例では、本発明を不必要に不明瞭にしないために、周知のプロセス動作については詳細には説明していない。

本発明の様々な技法および機構は、明瞭化のために、単数形で記載されることがある。しかし、いくつかの実施形態は、別段の記載がない限り、技法の複数回の反復または機構の複数のインスタンス化を含むことに留意すべきである。例えば、システムは様々な状況でプロセッサを使用する。しかしながら、特に断らない限り、本発明の範囲内にとどまりながら、システムが複数のプロセッサを使用することができることは理解されよう。さらに、本発明の技法および機構は、２つのエンティティ間の接続を記述することがある。２つのエンティティ間の接続は、２つのエンティティ間に様々な他のエンティティが存在する可能性があるため、必ずしも直接的で妨げられない接続を意味するとは限らないことに留意されたい。例えば、プロセッサがメモリに接続されてもよいが、プロセッサとメモリとの間に様々なブリッジおよびコントローラが存在し得ることが理解されるであろう。したがって、接続は、別段の記載がない限り、直接的な妨げられない接続を意味するとは限らない。

拡張現実は、典型的には、画像、テキスト、ビデオ、グラフィックスなどのコンピュータ生成された入力によって拡張されるビデオおよび／または画像データなどによる実世界環境のビューを含む。ビデオおよび画像データに三次元（３Ｄ）情報を追加する現在の方法は、一般に、シーンの３Ｄ再構成を作成することを含み、これは計算的に費用がかかり、通常は静的シーンに限定される。

したがって、本開示で説明される様々な機構およびプロセスは、画像、テキスト、物体、グラフィックなどの三次元（３Ｄ）タグ（本明細書では合成物体とも呼ばれる）を、実世界環境の複数のビューを含む多視点画像に追加することによって拡張現実を実装することに関する。特定の例では、三次元タグは、多視点画像内の物体または風景が回転または他の様態で動くと、三次元タグも、あたかもそれが物体または風景とともに物理的に存在しているかのように動くように、多視点画像とともに「動く」。三次元タグの特定のビューは合成画像と呼ばれ、これは、拡張現実を有する画像を生成するために特定のビューに関連付けられた画像に合成画像を重ね合わせることによって多視点画像の特定のビューに追加することができる。

本明細書に記載された機構およびプロセスは、多数の利益をもたらす。具体的には、提示されている技法は、拡張されるべきシーンの計算的に費用がかかる三次元再構成を回避する。代わりに、合成物体（３Ｄタグとも呼ばれる）を非常に効率的に計算し、多視点画像に追加して、多視点画像の拡張現実バージョンを作成することができる。特に、様々な実施形態は、慣性測定ユニット（ＩＭＵ）によって提供される回転情報を利用して、追加されている三次元物体の向きを推定する。様々な実施形態によれば、ＩＭＵは、ジャイロスコープ、加速度計、および磁力計の何らかの組み合わせから得ることができる。特定の実施形態では、ＩＭＵは、相対的なデバイス向きの変化を測定することができるデバイスまたはデバイスの組み合わせから得られる。このＩＭＵによって提供される情報は、３Ｄタグの向きについての詳細な情報しか提供せず、３Ｄ位置の詳細については提供しないので、３Ｄタグを３Ｄ空間内の基準位置に固定するために画像データ内のアンカー位置が追跡される。いくつかの例では、ｘおよびｙ方向の追跡を使用して３Ｄ位置の２自由度を推定することができ、多視点画像データセットの異なる視点間のスケール変化を推定することによって、および／または、関心点の２Ｄ位置を追跡しながらスケール変化をも推定することによって、第３の自由度を推定することができるときは、２Ｄ画像空間における追跡で十分である。

本明細書に記載された機構およびプロセスの別の利点は、たとえ３Ｄタグが比較的小さな移動物体に取り付けられていても、非静的シーンとともに使用できることである。提示された方法が機能するためには単一点を追跡することだけが必要であるため、この方法は３Ｄシーン再構成に一般的に問題となる高度に動的なシーンでも機能する。特に、３Ｄシーン再構成法を使用すると、非常に動的なシーンにおいて３Ｄ仮想物体が不正確に拡張される可能性がある。しかし、本明細書の様々な例に記載された機構およびプロセスを使用すると、シーン内の小さな移動物体（全体的に高度に動的なシーンを含む）に正しく取り付けられた３Ｄ仮想物体（３Ｄタグまたは合成物体とも呼ばれる）は、３Ｄ仮想物体を使用して正しく拡張されたシーンを生成する傾向にある。

様々な実施形態によれば、本明細書で言及する多視点画像は、物体、風景などを含むことができる実世界環境の複数のビューを含む。いくつかの例では、多視点画像は、その全体が本明細書において、またあらゆる目的のために参照により本明細書に組み込まれる、「ＡｎａｌｙｓｉｓａｎｄＭａｎｉｐｕｌａｔｉｏｎｏｆＩｍａｇｅｓａｎｄＶｉｄｅｏｆｏｒＧｅｎｅｒａｔｉｏｎｏｆＳｕｒｒｏｕｎｄＶｉｅｗｓ」と題する２０１４年１０月３１日に出願されたＨｏｌｚｅｒらによる米国特許出願第１４５３０６６９号（代理人整理番号ＦＹＳＮＰ００１）に関連して記載されているように、サラウンドビューであり得る。

様々な実施形態によれば、サラウンドビューは、異なる位置からキャプチャされた複数の画像から構築される。コンピュータプロセッサは、サラウンドビューのコンテンツおよびコンテキストを含む三次元モデルを作成するために使用される。いくつかの例では、サラウンドビューのコンテンツおよびサラウンドビューのコンテキストの各々について別々の三次元モデルを提供できるように、コンテンツおよびコンテキストをセグメント化することができる。

特定の実施形態では、サラウンドビューは、多視点インタラクティブデジタル媒体表現である。様々なシステムおよび方法を使用して、データの冗長性を排除し、インタラクティブで没入感のあるアクティブな視聴体験をユーザに提供する単一の表現、サラウンドビューを作成する目的で、位置情報データとともに複数のカメラ画像とビデオストリームとの間の空間的関係を分析することができる。いくつかの例では、アクティブとは、スクリーン上に表示される視覚情報の視点を制御する能力をユーザに提供するという文脈で説明される。

本開示の様々な実施形態は、慣性測定ユニット（ＩＭＵ）を有する装置によって多視点画像データセットとしてキャプチャされるシーンに、テキストまたは物体などの合成物体を配置するために使用される機構およびプロセスを説明する。いくつかの例では、多視点画像データセットは、異なる角度からのシーンを示す。例えば、多視点画像データセットは、カメラをそれ自体の中心の周りで回転させながら（パノラマの事例）、カメラを１つまたは複数の関心物体の周りで回転させながら（物体の事例）、カメラを平行移動させながら、またはこれらの動きを組み合わせながら、キャプチャすることができる。ＩＭＵは、画像をキャプチャしている間、デバイスの向きに関する情報を提供する。

図１〜図３は、合成物体で拡張された多視点画像の例を示す。特に、図１Ａ〜図１Ｂおよび図２Ａ〜図２Ｂは各々、物体中心の多視点画像の複数の異なるビューおよび多視点画像内に配置された合成物体の対応するビューを示す。さらに、図３Ａ〜図３Ｂは、多視点画像内のコンテンツに対する並進運動と、多視点画像内に配置された合成物体の対応するビューとを含む多視点画像の複数の異なるビューを示す。

図１Ａ〜図１Ｂを参照すると、合成物体で拡張された物体中心の多視点画像の一例が示されている。具体的には、図１Ａは、合成物体の第１のビューを有する参照画像の一例を示す。様々な実施形態によれば、参照画像１０１は、多視点画像に配置されるべき合成物体に対してアンカー位置１０９が選択される多視点画像内のビュー（すなわち、参照ビュー）を指す。図１Ｂは、合成物体の第２のビューを有する目標画像の一例を示す。様々な実施形態によれば、目標画像１０３は、合成画像が生成される多視点画像内のビュー（すなわち、目標ビュー）を参照する。次に、この合成画像を目標画像に重ね合わせて、目標画像の拡張現実版を生成する。様々な目標ビューの合成画像を生成し、対応する目標画像上にこれらの合成画像を重ね合わせることにより、多視点画像の拡張現実版を生成することができる。

本例では、図１Ａは、多視点画像の参照ビューからの参照画像１０１を示す。示されている像などの物体は、１０５において参照ビューからの画像として観察される。この参照ビューでは、アンカー位置１０９が選択される。特定の例では、合成物体が多視点画像のアンカー位置１０９に付着され、このアンカー位置１０９に対して位置決めされる。この位置は、多視点画像の拡張現実版における所望の効果に応じて、静止していても移動していてもよい。いくつかの例では、アンカー位置１０９は、多視点画像内の３Ｄ空間内の固定位置にとどまる。しかしながら、参照ビューにおけるアンカー位置１０９は、他の例においては初期配置位置に対応してもよい。いくつかの事例では、合成物体はアンカー位置１０９に配置され、他の事例では、合成物体はアンカー位置１０９からある距離に配置される。本例では、合成物体は、アンカー位置１０９からある距離に配置される。いくつかの例では、合成物体はアンカー位置１０９に対して固定位置にとどまることができるが、他の例ではアンカー位置１０９に対して移動することができる。本例に示すように、合成物体は、１１１において参照ビュー内の合成画像として示されている。

本例では、図１Ｂは、多視点画像の目標ビューからの目標画像１０３を示す。図１Ａに示す同じ像である物体は、１０７において目標ビューからの画像として示されている。この目標ビューから、アンカー位置１０９が示され、このビューに従って合成物体および方向軸が回転される。図示するように、方向軸は像に対して固定されたままである。さらに、合成物体は、１１３において目標ビューの合成画像として示されている。本例では、合成物体は、アンカー位置１０９に対して固定位置にとどまるように見える。上述したように、多視点画像の拡張現実版を生成するために、様々な目標ビューに対して合成画像を生成することができる。本例では、多視点画像データセットに含まれる様々な視点は、異なる角度からシーンを示し、そのため、多視点画像の拡張ビューはまた、異なる角度からの、そのアンカー位置に対してシーン内の固定された３Ｄ位置にとどまるように見えるように位置決めされた合成物体を示す。

図２Ａ〜図２Ｂを参照すると、合成物体で拡張された物体中心の多視点画像の別の例が示されている。具体的には、図２Ａは、合成物体の第１のビューを有する参照画像２０１の一例を示す。様々な実施形態によれば、参照画像２０１は、多視点画像に配置されるべき合成物体に対してアンカー位置２０９が選択される多視点画像内のビュー（すなわち、参照ビュー）を指す。図２Ｂは、合成物体の第２のビューを有する目標画像２０３の一例を示す。様々な実施形態によれば、目標画像２０３は、合成画像が生成される多視点画像内のビュー（すなわち、目標ビュー）を参照する。次に、この合成画像を目標画像に重ね合わせて、目標画像の拡張現実版を生成する。様々な目標ビューの合成画像を生成し、対応する目標画像上にこれらの合成画像を重ね合わせることにより、多視点画像の拡張現実版を生成することができる。

本例では、図２Ａは、多視点画像の参照ビューからの参照画像２０１を示す。示されている甲冑一式などの物体は、２０５において参照ビューからの画像として観察される。この参照ビューでは、アンカー位置２０９が選択される。特定の例では、合成物体が多視点画像のアンカー位置２０９に付着され、このアンカー位置２０９に対して位置決めされる。この位置は、多視点画像の拡張現実版における所望の効果に応じて、静止していても移動していてもよい。いくつかの例では、アンカー位置２０９は、多視点画像内の３Ｄ空間内の固定位置にとどまる。しかしながら、参照ビューにおけるアンカー位置２０９は、他の例においては初期配置位置に対応してもよい。いくつかの例では、合成物体は、本例のように、アンカー位置２０９に配置される。他の例では、合成物体は、アンカー位置２０９からある距離に位置する。いくつかの例では、合成物体はアンカー位置２０９に対して固定位置にとどまることができるが、他の例ではアンカー位置２０９に対して移動することができる。本例に示すように、合成物体は、２１１において参照ビュー内の合成画像として示されている。

本例では、図２Ｂは、多視点画像の目標ビューからの目標画像２０３を示す。図２Ａに示す同じ甲冑一式である物体は、２０７において目標ビューからの画像として示されている。この目標ビューから、アンカー位置２０９が示され、このビューに従って合成物体および方向軸が回転される。示されているように、方向軸は甲冑一式に対して相対的に移動し、合成物体は軸の位置に追従する。本例では、合成物体は、アンカー位置２０９に対して固定位置にとどまるように見える。さらに、合成物体は、２１３において目標ビューの合成画像として示されている。上述したように、多視点画像の拡張現実版を生成するために、様々な目標ビューに対して合成画像を生成することができる。本例では、多視点画像データセットに含まれる様々な視点は、異なる角度からシーンを示し、それによって、多視点画像の拡張ビューはまた、異なる角度からの、そのアンカー位置に対して固定された３Ｄ位置にとどまるように見えるように位置決めされた合成物体を示す。

図３Ａ〜図３Ｂを参照すると、合成物体によって拡張されている多視点画像の２つのビューが示されており、多視点画像は、多視点画像内のコンテンツに対する並進運動を含む。特に、図３Ａは、合成物体の第１のビューを有する参照画像の一例を示す。上述したように、参照画像３０１は、多視点画像に配置されるべき合成物体に対してアンカー位置３０９が選択される多視点画像内のビュー（すなわち、参照ビュー）を指す。図３Ｂは、合成物体の第２のビューを有する目標画像の一例を示す。また、上述したように、目標画像３０３は、合成画像が生成される多視点画像内のビュー（すなわち、目標ビュー）を参照する。次に、この合成画像を目標画像に重ね合わせて、目標画像の拡張現実版を生成する。様々な目標ビューの合成画像を生成し、対応する目標画像上にこれらの合成画像を重ね合わせることにより、多視点画像の拡張現実版を生成することができる。

本例では、図３Ａは、多視点画像の参照ビューからの参照画像３０１を示す。示されている橋などの物体は、３０５において参照ビューからの画像として観察される。この参照ビューでは、アンカー位置３０９が選択される。特定の例では、合成物体が多視点画像のアンカー位置３０９に付着され、このアンカー位置３０９に対して位置決めされる。この位置は、多視点画像の拡張現実版における所望の効果に応じて、静止していても移動していてもよい。いくつかの例では、アンカー位置３０９は、多視点画像内の３Ｄ空間内の固定位置にとどまる。しかしながら、参照ビューにおけるアンカー位置３０９は、他の例においては初期配置位置に対応してもよい。いくつかの事例では、合成物体はアンカー位置３０９に配置され、他の事例では、合成物体はアンカー位置３０９からある距離に配置される。本例では、合成物体は、アンカー位置３０９に配置される。いくつかの例では、合成物体はアンカー位置３０９に対して固定位置にとどまることができるが、他の例ではアンカー位置３０９に対して移動することができる。本例に示すように、合成物体は、３１１において参照ビュー内の合成画像として示されている。

本例では、図３Ｂは、多視点画像の目標ビューからの目標画像３０３を示す。図３Ａに示す同じ橋である物体は、３０７において目標ビューからの画像として示されている。この目標ビューから、アンカー位置３０９が示され、このビューに従って合成物体および方向軸が回転される。示されているように、方向軸は橋に対して相対的に移動し、合成物体は軸の位置に追従する。本例では、合成物体は、アンカー位置３０９に対して固定位置にとどまるように見える。合成物体は、３１３において目標ビューの合成画像として示されている。上述したように、多視点画像の拡張現実版を生成するために、様々な目標ビューに対して合成画像を生成することができる。本例では、多視点画像データセットに含まれる様々な視点は、異なる角度からシーンを示し、それによって、多視点画像の拡張ビューはまた、異なる角度および位置からの合成物体をも示す。

図１〜図３に関して説明された例は、本質的に静止しているかまたは静的である合成物体を含む。しかし、合成物体（すなわち、三次元タグ）は、いくつかの実施形態では静止物体を含むことができるが、他の実施形態ではアニメーション物体を含むこともできる。合成物体のアニメーション化されたバージョンは、様々な形をとることができる。一例では、合成物体のアニメーションは、シーンを通じたユーザのナビゲーションとは無関係である。具体的には、合成物体のアニメーションは、ユーザがそれを見る間に経過する時間量に基づいている。したがって、ユーザが同じビューに長時間とどまる場合、アニメーションは続行される。別の例では、合成物体のアニメーションは、ユーザが多視点画像を通じてナビゲートするときなど、ナビゲーションに依存する。特に、合成物体のアニメーションは、アニメーションがカメラの空間的な動きに依存するように、ナビゲーションが存在するときに進行する。具体的には、合成物体のアニメーションは、１）ナビゲーションの方向に関係なく、または２）ナビゲーションが１つの方向にある場合に前方に進行し、ナビゲーションが他の方向にある場合は後方に進行する。さらに別の例では、合成物体のアニメーションは、データが記録されている間に経過した時間に対して合成物体のアニメーションが進行するように、記録時間に依存する。様々な実施形態によれば、シーンにレンダリングされる合成物体は、ビデオによって表現することができる。このビデオには、いくつかの例でアニメーション画像を含めることができる。

特定の実施形態では、合成物体で拡張されるべき多視点画像は、動的な態様自体を含むことができる。例えば、多視点画像は、動く物体またはアニメーション物体などの動的コンテンツを含むことができる。加えて、多視点画像は、動く背景要素またはアニメーション背景要素などの動的コンテンツを含むことができる。様々な例では、動的コンテキストはアニメーションまたはビデオを含むこともできる。さらに、いくつかの多視点画像は、動的コンテンツおよびコンテキストの両方を含むことができる。多視点画像内の動的コンテンツまたはコンテキストの量にかかわらず、付加的な処理またはリソースを必要とすることなく、本開示の様々な例に記載されたプロセスに従って合成物体を多視点画像に追加することができる。

図４を参照すると、ＩＭＵおよび画像データを使用した１つまたは複数の合成物体を含む多視点画像データの拡張のためのプロセスの一例を示す図である。特に、このプロセスは、アニメーション物体（複数可）または画像データを含むタグ、テキスト、物体、ビデオ、グラフィックス、または他の画像データなどの合成物体で多視点画像データセットを拡張することを含み、それによって、合成物体は、多視点画像のシーン内に位置決めされているように見え、画像シーケンスと同じように変形する。したがって、この方法は、合成物体がシーン内に物理的に存在するという錯覚を与える拡張多視点画像を生成する。

様々な実施形態によれば、プロセス４００は、多視点画像から、４０２における参照画像の選択によって開始する。様々な例では、多視点画像は、固有パラメータを有するカメラによってキャプチャされる。さらに、様々な例に記載されるように、参照画像は、多視点画像の１つのビューに対応する。この参照画像は、合成物体のためのアンカー位置が指定されるビューとして選択される。いくつかの例では、この参照画像／ビューはユーザによって選択され、この選択は、多視点画像の拡張現実版を生成するコンピュータシステムにおいて受信される。他の例では、参照画像は、多視点画像の拡張現実版を生成するためにコンピュータシステムによって選択されてもよい。

次に、本例では、４０４においてアンカー位置が受信される。様々な実施形態によれば、ユーザは、合成物体が多視点画像内に配置される位置として、参照画像からアンカー位置、例えば点を指定する。アンカー位置および合成物体の三次元座標は、参照画像の平面に垂直な深度とともに参照画像に指定される２Ｄ座標に対応する。この深度は、様々な方法で指定できる。１つの方法は、固定深度を使用することである。もう１つの方法は、多視点表現のスケール変化に基づいて固定深度をスケーリングすることである。例えば、ズームインまたはズームアウトが検出されると、それに応じて深度をスケーリングすることができる。また別の方法は、多視点表現のスケール変化に基づいて三角測量深度をスケーリングすることである。指定された深度に基づいて、参照画像内で指定された２Ｄ座標とともに、アンカー位置は、多視点画像空間内の３Ｄ位置を有する。

追跡情報が存在する多視点画像の各画像に対して、アンカー位置および合成物体の画像座標が存在する。様々な実施形態によれば、視覚追跡システムが利用されて、視覚情報を追跡することができるシーケンス内の他の画像内の合成物体の画像位置が計算される。したがって、参照画像、アンカー位置、および撮像デバイス／カメラの固有のパラメータの推定値を使用すると、他のビューからの合成画像の計算が可能になる。本例では、合成物体の合成画像を目標画像に対して生成することができる。合成画像は、目標画像の平面に垂直に向けられた３Ｄ空間内の仮想半直線に沿って投影される。

様々な実施形態によれば、目標ビューからの合成シーンは、多視点画像から参照画像と目標画像との間の追跡情報を使用してレンダリングすることができる。本例において、４０６において、参照画像と目標画像との間の動きが、多視点画像に関連する視覚追跡情報、多視点画像に対応するデバイス向き、およびカメラの固有パラメータの推定値を使用して計算され、カメラの固有パラメータは少なくとも、焦点距離の近似推定値を含む。具体的には、参照フレームと目標フレームとの間の回転および／または他の動きを、各フレームについてデバイス向きを使用して計算することができる。様々な実施形態では、プロセスは、多視点画像とともに記憶されている、または多視点画像から計算されるデバイス向きを使用する。さらに、多視点画像内の位置または物体の視覚追跡情報を使用して、回転および／または動きを計算することができる。さらに、このプロセスは、少なくとも焦点距離の近似推定値を含むカメラの固有パラメータの推定値を使用する。

様々な実施形態によれば、参照画像と目標画像との間で計算される動きは、画像をキャプチャしたデバイスの向きから決定することができる。特に、各フレームのデバイス向きは、参照画像および目標画像を取得したデバイスに取り付けられたＩＭＵから得られるＩＭＵ測定から導き出すことができる。このようなＩＭＵ装置は、現代のスマートフォンに一般的に組み込まれている。ＩＭＵ情報のサンプルレートおよび画像フレームを収集するためのサンプルレートが異なるいくつかの例では、ＩＭＵ情報は、所与の画像フレームに対応するタイムスタンプに近い時刻に利用可能なデータから補間することができる。

様々な実施形態によれば、ＩＭＵ情報が画像フレームに利用可能でなく、同様の時刻に取得された他のＩＭＵ測定から補間できない場合、追加の画像に基づく方法を使用して回転を推定することができる。特に、パノラマのようなシナリオの場合、およびカメラが平行移動され、そのｚ軸の周りのみを回転する（図３Ａ〜図３Ｂに示すような）並進シナリオの場合、２つの異なる点の追跡は、必要な向きの情報、すなわち面内画像回転を推定するのに十分である。カメラが（図１Ａ〜図１Ｂおよび図２Ａ〜図２Ｂに示されているような）物体の周りを回転するシナリオの場合、画像に基づく推定方法を使用して、以下の論文、すなわち、１）Ｋｎｅｉｐ，Ｌａｕｒｅｎｔ，およびＬｙｎｅｎ，Ｓｉｍｏｎ「ＤｉｒｅｃｔＯｐｔｉｍｉｚａｔｉｏｎｏｆＦｒａｍｅ−ｔｏ−ＦｒａｍｅＲｏｔａｔｉｏｎ」（Ｃｏｎｆｅｒｅｎｃｅ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１３ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ），Ｄｅｃ．１−８，２０１３，ｐｐ．２３５２−２３５９，ＤＯＩ）、ブックマーク：ｈｔｔｐ：／／ｄｏｉ．ｉｅｅｅｃｏｍｐｕｔｅｒｓｏｃｉｅｔｙ．ｏｒｇ／１０．１１０９／ＩＣＣＶ．２０１３．２９２、および２）Ｅｌｑｕｒｓｈ，Ａｌｉ，およびＥｌｇａｍｍａｌ，Ａｈｍｅｄ「Ｌｉｎｅ−ＢａｓｅｄＲｅｌａｔｉｖｅＰｏｓｅＥｓｔｉｍａｔｉｏｎ」（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０１１，ｐｐ．３０４９−３０５６，ＩＥＥＥ，ＤＯＩ：１０．１１０９／ＣＶＰＲ．２０１１．５９９５５１２）に関連して説明されているように、カメラの回転を推定することができる。

次に、４０８において、本例では、目標画像に関連する目標ビューに対応する合成画像が生成される。特に、合成物体は、多視点画像内のアンカー位置に関連する視覚追跡情報を使用して、アンカー位置（または図１〜図３に関して上述したように、アンカー位置からの指定距離）に配置される。次いで、参照画像と目標画像との間で計算される回転および／または他の動きの逆に沿って、合成物体を回転させるかまたは他の方法で動かすことによって、合成物体が方向付けられる。より具体的には、カメラが参照ビューから目標ビューに移動すると、合成物体は、カメラの動きと反対の動きで移動するように見える。したがって、目標ビューにおける合成物体の適切な視点を計算するために、基準ビューと目標ビューとの間のカメラ移動の逆数を合成物体に適用して、合成物体を参照ビューから目標ビューに向けることができる。

様々な実施形態によれば、合成物体が、目標ビューから適切に方向付けられるように変換されると、合成物体は、仮想半直線に沿ってある距離を置いて目標ビューに対応する仮想シーンに配置され得る。特に、参照ビュー以外のビューの画像をレンダリングする場合、合成物体は、追跡システムによって示されるように、新たな位置に対応する仮想半直線に沿ってレンダリングされる。目標画像に対応する仮想半直線に沿った距離において、合成物体の２Ｄ投影が目標ビューの合成画像として生成される。

特定の実施形態では、画像シーケンスの画像間の相対的なスケール変化を任意に計算し、それに対応して合成物体を移動させるために使用することができる。例えば、ズームインスケール変化が起こる場合、カメラは合成物体に向かって移動すると仮定することができ、ズームアウトスケール変化が起こる場合、カメラが合成物体から遠ざかると仮定することができる。この移動は、３Ｄ物体がレンダリングされる３Ｄ半直線に沿った距離に影響を及ぼす。

様々な実施形態によれば、カメラの焦点距離（固有パラメータの一部）の推定値が使用される。しかし、記載されている方法は、この焦点距離の近似値によっても機能する。したがって、各デバイスを個別に較正する必要はない。

本例で説明したように、推定カメライントリンシクスによって構成された仮想カメラを使用して合成物体が画像されて、目標画像と一致する仮想ビューが生成される。次いで、この仮想ビューから生成された合成画像は、４１０において目標画像上に重ね合わされ、混合されて、目標ビューから新たな拡張画像が生成される。様々な例に関連して説明したように、このプロセスを、多視点画像内の複数のビューに対して繰り返して、合成物体を含むように見える多視点画像の拡張現実版を生成することができる。

特定の実施形態では、多視点画像内のコンテンツおよびコンテキストに対する合成物体の適切な重なり／配置を提供するために、遮蔽処理を含めることができる。具体的には、遮蔽処理を使用して、多視点画像から対応するシーン内の特定の合成画像の配置を決定することができる。例えば、遮蔽処理を使用して、適切なレイヤ内に、または特定のビューに対して適切な量またはタイプの透明度で、合成画像を配置することができる。遮蔽処理によって、種々のシナリオに対処することができる。一例では、シーンの３Ｄモデルが利用可能である。具体的には、この３Ｄモデルは、多視点データから計算されてもよく、または他の何らかのソースから取得されてもよい。別の例では、シーンの一部のみをカバーする部分３Ｄモデルが利用可能である。さらに別の例では、シーンは異なるレイヤに分割され、これらのレイヤの各々には深度が割り当てられる。提示された状況に基づいて、合成物体を追加するときに遮蔽を考慮することができる。１つの特定の例では、遮蔽処理は、カメラにより近い物体が、より遠くにある物体上にレンダリングされる他のレンダリング手法と同様に行われる。様々な実施形態によれば、合成物体は、透明または半透明であり得る。特定のビューにおける合成物体の一部または全部の透過度は、合成画像が対応する画像の他の態様に対して正確に見えるようにすることができる。合成物体および任意の対応する合成画像の透明度または半透明度は全体的にまたは部分的に、遮蔽処理の一部として使用することができるが、合成物体または合成画像の透明度または半透明度は、場合によって遮蔽処理とは無関係に発生し得る。

図５を参照すると、本発明の特定の例を実施するために使用することができるコンピュータシステムの特定の例が示されている。例えば、コンピュータシステム５００は、上述の様々な実施形態による、ＩＭＵおよび画像データを使用して、合成物体を有する多視点画像データを拡張するために使用され得る。特定の例示的な実施形態によれば、本発明の特定の実施形態を実装するのに適したシステム５００は、プロセッサ５０１、メモリ５０３、インターフェース５１１、およびバス５１５（例えば、ＰＣＩバス）を含む。インターフェース５１１は、別個の入力および出力インターフェースを含んでもよく、または両方の動作をサポートする統一インターフェースであってもよい。適切なソフトウェアまたはファームウェアの制御下で動作するとき、プロセッサ５０１は、最適化などのタスクを担当する。プロセッサ５０１の代わりに、またはプロセッサ５０１に加えて、様々な特別に構成されたデバイスを使用することもできる。実施態様全体を、カスタムハードウェアで行うこともできる。インターフェース５１１は、典型的には、ネットワークを介してデータパケットまたはデータセグメントを送受信するように構成される。デバイスがサポートするインターフェースの特定の例は、Ｅｔｈｅｒｎｅｔ（登録商標）インターフェース、フレームリレーインターフェース、ケーブルインターフェース、ＤＳＬインターフェース、トークンリングインターフェースなどを含む。

さらに、ｆａｓｔＥｔｈｅｒｎｅｔ（登録商標）インターフェース、ＧｉｇａｂｉｔＥｔｈｅｒｎｅｔ（登録商標）インターフェース、ＡＴＭインターフェース、ＨＳＳＩインターフェース、ＰＯＳインターフェース、ＦＤＤＩインターフェースなど、様々な超高速インターフェースを提供することができる。一般に、これらのインターフェースは、適切な媒体との通信に適したポートを含むことができる。場合によっては、それらは独立したプロセッサ、および、場合によって揮発性ＲＡＭをも含んでもよい。独立したプロセッサは、パケット交換、媒体制御および管理のような通信集中的なタスクを制御することができる。

特定の例示的な実施形態によれば、システム５００は、メモリ５０３を使用してデータおよびプログラム命令を格納し、ローカル側のキャッシュを維持する。プログラム命令は、例えば、オペレーティングシステムおよび／または１つまたは複数のアプリケーションの動作を制御することができる。１つまたは複数のメモリは、受信したメタデータおよびバッチ要求メタデータを格納するように構成することもできる。

そのような情報およびプログラム命令は、本明細書に記載されたシステム／方法を実施するために利用され得るため、本発明は、本明細書に記載の様々な動作を実行するためのプログラム命令、状態情報などを含む有形の機械可読媒体に関する。機械可読媒体の例は、ハードディスク、フロッピー（登録商標）ディスク、磁気テープ、ＣＤ−ＲＯＭディスクおよびＤＶＤのような光媒体、光ディスクなどの光磁気媒体、ならびに、読み出し専用メモリデバイス（ＲＯＭ）およびプログラマブル読み出し専用メモリデバイス（ＰＲＯＭ）などのプログラム命令を格納および実行するように特別に構成されたハードウェアデバイスを含む。プログラム命令の例には、コンパイラによって生成されるような機械コードと、インタプリタを使用してコンピュータによって実行され得るより高レベルのコードを含むファイルの両方が含まれる。

本開示は、その特定の実施形態を参照して特に示され、記載されているが、当業者には、開示された実施形態の形態および詳細の変更が、本発明の精神または範囲から逸脱することなく成され得ることが理解される。具体的には、説明したプロセス、システム、および装置を実装する多くの代替方法がある。したがって、本発明は、本発明の真の精神および範囲内に入るすべての変形および均等物を含むと解釈されることが意図される。さらに、特定の特徴を各実施例の一部として説明してきたが、これらの特徴の任意の組み合わせまたは他の特徴の追加は、本開示の範囲内に含まれることが意図される。したがって、本明細書に記載された実施形態は、例示的なものであり、限定的なものではないと考えられるべきである。

Claims

固有パラメータを有するカメラを用いてキャプチャされる多視点画像内に配置されるべき合成物体のためのアンカー位置の選択を受信するステップであって、前記アンカー位置は、参照画像と関連付けられる参照ビューから１つの点として選択され、前記参照ビューは、前記多視点画像の１つの視点に対応する、前記受信するステップと、
前記多視点画像に関連する視覚追跡情報、前記多視点画像に対応するデバイス向き、および、前記カメラの固有パラメータの推定値を使用して、参照画像と目標画像との間の動きを計算するステップであって、前記カメラの固有パラメータは少なくとも、焦点距離の近似推定値を含む、前記計算するステップと、
前記目標画像と関連付けられる目標ビューに対応する第１の合成画像を生成するステップであって、前記第１の合成画像は、前記多視点画像内の前記アンカー位置に関連する視覚追跡情報を使用して前記合成物体を前記アンカー位置に配置し、前記参照画像と前記目標画像との間で計算された前記動きの逆数を使用して、前記合成物体を方向付け、前記合成物体を、半直線に沿って前記目標ビューに投影することによって、生成される、前記生成するステップであって、前記アンカー位置は前記参照画像の面に垂直な深度とともに参照画像に指定される二次元座標に対応する三次元座標を含み、前記深度は三角測量され、前記第１の合成画像を生成するステップは前記多視点画像のスケール変化に基づいて三角測量された前記深度をスケーリングするステップを含む、前記生成するステップと、
前記目標ビューから拡張画像を生成するために、前記目標画像上に前記第１の合成画像を重ね合わせるステップと、
を含む、方法。
前記合成物体は、前記アンカー位置に対して固定位置に配置される、請求項１に記載の方法。
前記合成物体は、前記アンカー位置に対して移動する、請求項１に記載の方法。
前記合成物体がアニメーション化される、請求項１に記載の方法。
前記合成物体のアニメーションは、前記多視点画像の観察中に経過する時間に基づいており、前記アニメーションは、前記多視点画像を通じたナビゲーションとは無関係である、請求項４に記載の方法。
前記合成物体のアニメーションは、前記多視点画像のナビゲーションに依存し、前記アニメーションは、前記カメラの空間的動きに依存する、請求項４に記載の方法。
前記合成物体がビデオによって表される、請求項４に記載の方法。
前記合成物体は、前記多視点画像に関連する少なくとも１つのビューにおいて透明または半透明である、請求項１に記載の方法。
前記多視点画像は、動的コンテンツを含む、請求項１に記載の方法。
前記多視点画像は、動的コンテキストを含む、請求項１に記載の方法。
固有パラメータを有するカメラを用いてキャプチャされる多視点画像内に配置されるべき合成物体のためのアンカー位置の選択を受信するためのコンピュータコードであって、前記アンカー位置は、参照画像と関連付けられる参照ビュー内の１つの点として選択され、前記参照ビューは、前記多視点画像の１つの視点に対応する、受信するためのコンピュータコードと、
前記多視点画像に関連する視覚追跡情報、前記多視点画像に対応するデバイス向き、および、前記カメラの固有パラメータの推定値を使用して、参照画像と目標画像との間の動きを計算するためのコンピュータコードであって、前記カメラの固有パラメータは少なくとも、焦点距離の近似推定値を含む、計算するためのコンピュータコードと、
前記目標画像と関連付けられる目標ビューに対応する第１の合成画像を生成するためのコンピュータコードであって、前記第１の合成画像は、前記多視点画像内の前記アンカー位置に関連する視覚追跡情報を使用して前記合成物体を前記アンカー位置に配置し、前記参照画像と前記目標画像との間で計算された前記動きの逆数を使用して、前記合成物体を方向付け、前記合成物体を、半直線に沿って前記目標ビューに投影することによって、生成される、生成するためのコンピュータコードであって、前記アンカー位置は前記参照画像の面に垂直な深度とともに参照画像に指定される二次元座標に対応する三次元座標を含み、前記深度は三角測量され、前記第１の合成画像を生成するためのコンピュータコードは前記多視点画像のスケール変化に基づいて三角測量された前記深度をスケーリングすることを含む、生成するためのコンピュータコードと、
前記目標ビューから拡張画像を生成するために、前記目標画像上に前記第１の合成画像を重ね合わせるためのコンピュータコードと、
からなるコンピュータプログラムが記録されたコンピュータ可読媒体。
前記合成物体は、前記アンカー位置に対して固定位置に配置される、請求項１１に記載のコンピュータ可読媒体。
前記合成物体は、前記アンカー位置に対して移動する、請求項１１に記載のコンピュータ可読媒体。
前記合成物体がアニメーション化される、請求項１１に記載のコンピュータ可読媒体。
前記合成物体のアニメーションは、前記多視点画像の観察中に経過する時間に基づいており、前記アニメーションは、前記多視点画像を通じたナビゲーションとは無関係である、請求項１４に記載のコンピュータ可読媒体。
前記合成物体のアニメーションは、前記多視点画像のナビゲーションに依存し、前記アニメーションは、前記カメラの空間的動きに依存する、請求項１４に記載のコンピュータ可読媒体。
前記合成物体がビデオによって表される、請求項１４に記載のコンピュータ可読媒体。
前記合成物体は、前記多視点画像に関連する少なくとも１つのビューにおいて透明または半透明である、請求項１１に記載のコンピュータ可読媒体。
前記多視点画像は、動的コンテンツを含む、請求項１１に記載のコンピュータ可読媒体。
固有パラメータを有するカメラを用いてキャプチャされる多視点画像内に配置されるべき合成物体のためのアンカー位置の選択を受信するための手段であって、前記アンカー位置は、参照画像と関連付けられる参照ビュー内の１つの点として選択され、前記参照ビューは、前記多視点画像の１つの視点に対応する、前記受信するための手段と、
前記多視点画像に関連する視覚追跡情報、前記多視点画像に対応するデバイスの向き、および、前記カメラの固有パラメータの推定値を使用して、前記参照画像と目標画像との間の動きを計算するための手段であって、前記カメラの固有パラメータは少なくとも、焦点距離の近似推定値を含む、前記計算するための手段と、
前記目標画像と関連付けられる目標ビューに対応する第１の合成画像を生成するための手段であって、前記第１の合成画像は、前記多視点画像内の前記アンカー位置に関連する視覚追跡情報を使用して前記合成物体を前記アンカー位置に配置し、前記参照画像と前記目標画像との間で計算された前記動きの逆数を使用して、前記合成物体を方向付け、前記合成物体を、半直線に沿って前記目標ビューに投影することによって、生成される、前記生成するための手段であって、前記アンカー位置は前記参照画像の面に垂直な深度とともに参照画像に指定される二次元座標に対応する三次元座標を含み、前記深度は三角測量され、前記第１の合成画像を生成するための手段は前記多視点画像のスケール変化に基づいて三角測量された前記深度をスケーリングする手段を含む、前記生成するための手段と、
前記目標ビューから拡張画像を生成するために、前記目標画像上に前記第１の合成画像を重ね合わせるための手段と、
を備える、装置。