JP7300438B2

JP7300438B2 - Ｒｇｂｄカメラ姿勢のラージスケール判定のための方法およびシステム

Info

Publication number: JP7300438B2
Application number: JP2020219766A
Authority: JP
Inventors: ウェイシャオリン
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2015-11-20
Filing date: 2020-12-29
Publication date: 2023-06-29
Anticipated expiration: 2036-11-18
Also published as: CN114119751A; US20240064391A1; CN108475433B; JP2021047932A; US10313639B2; JP6902028B2; IL259401A; CA3005894A1; US20170148155A1; AU2016355215B2; US11838606B2; US20190253674A1; JP2018534698A; NZ742758A; IL286156A; IL286156B1; EP3377853A4; EP3377853A1; CN108475433A; AU2016355215A1

Description

（関連出願の相互参照）
本願は、２０１６年１１月２０日に出願され、“ＭｅｔｈｏｄｓａｎｄＳｙｓｔｅｍｓｆｏｒＬａｒｇｅ－ＳｃａｌｅＲＧＢＤＰｏｓｅＥｓｔｉｍａｔｉｏｎ”と題された米国仮特許出願第６２／２５８，３１６号に対する優先権を主張するものであり、該米国仮特許出願の開示は、あらゆる目的のために参照により本明細書中に援用される。

（発明の背景）
３Ｄ再構成は、マッピング、ロボット、仮想現実、拡張現実、アーキテクチャ、ゲーム、映画制作等における様々な用途を有する、３Ｄコンピュータビジョンにおいて最も需要の高い話題のうちの１つである。３Ｄ再構成システムは、ＲＧＢ（赤色－緑色－青色）、ＲＧＢＤ（赤色－緑色－青色－深度）、または深度専用フォーマットにおいて、画像を入力として撮影し、画像の３Ｄ表現、例えば、３Ｄメッシュを生成することができる。３Ｄ再構成システムの処理プロシージャのうち、重要なコンポーネントのうちの１つは、姿勢推定である、すなわち、各入力画像と関連付けられた各カメラ姿勢の復元である。カメラ姿勢は、カメラの焦点距離、位置、および／または回転方向ならびに角度を含んでもよい。

ごく最近では、Ｋｉｎｅｃｔ、ＧｏｏｇｌｅＴａｎｇｏ、およびＩｎｔｅｌＲｅａｌｓｅｎｓｅ等の低コストＲＧＢＤセンサの可用性に伴って、ＲＧＢＤ画像は、そのような利用可能なデバイスを用いて容易に捕捉され、３Ｄ再構成のために使用されることができる。

しかしながら、高品質３Ｄメッシュを再構成する目的のために、正確度要件は、非常に高くなる。カメラ姿勢は、大域的および局所的の両方において一貫すべきである。しかしながら、現在の技術は、ラージスケール場面のためのＲＧＢＤ画像の姿勢推定のロバストかつ正確なエンドツーエンドフレームワークソリューションを提供不可能である。

本発明は、概して、時間の関数として、カメラの位置および配向（すなわち、姿勢）を判定するための方法およびシステムに関する。より具体的には、本発明の実施形態は、少なくとも部分的に、画像フレーム間の相対的カメラ姿勢に基づいて、大域的基準フレーム内でカメラ姿勢を判定するための方法およびシステムを提供する。本発明は、コンピュータビジョンおよび３Ｄ再構成における種々の用途に適用可能である。

本発明のある実施形態によると、複数の画像フレームのためのカメラ姿勢を判定する方法が、提供される。本方法は、カメラを使用して、複数の画像フレームを捕捉するステップと、画像フレームペアの各セット間の相対的姿勢を算出し、相対的姿勢セットおよびカテゴリ化されていない相対的姿勢セットを提供するステップと、誤ってカテゴリ化された相対的姿勢を相対的姿勢セットから検出および除去し、残りの相対的姿勢セットを提供するステップとを含む。本方法はまた、残りの相対的姿勢セットを使用して、複数の画像フレームのための大域的姿勢を判定するステップと、誤ってカテゴリ化された相対的姿勢の少なくとも一部およびカテゴリ化されていない相対的姿勢セットの少なくとも一部のための拡張された相対的姿勢を算出し、拡張された相対的姿勢セットおよび拡張されたカテゴリ化されていない相対的姿勢セットを提供するステップとを含む。本方法はさらに、拡張された誤ってカテゴリ化された相対的姿勢を拡張された相対的姿勢セットから検出および除去し、残りの拡張された相対的姿勢セットを提供するステップと、残りの相対的姿勢セットおよび残りの拡張された相対的姿勢セットを使用して、複数の画像フレームのための更新された大域的姿勢を判定するステップとを含む。

本発明の別の実施形態によると、データプロセッサによって実行されると、複数の画像フレームのためのカメラ姿勢を判定する、コンピュータ可読記憶媒体上に有形に具現化される複数のコンピュータ可読命令を備える、非一過性コンピュータ可読記憶媒体が、提供される。複数の命令は、データプロセッサに、カメラを使用して、複数の画像フレームを捕捉させる、命令と、データプロセッサに、画像フレームペアの各セット間の相対的姿勢を算出させ、相対的姿勢セットおよびカテゴリ化されていない相対的姿勢セットを提供させる、命令と、データプロセッサに、誤ってカテゴリ化された相対的姿勢を相対的姿勢セットから検出および除去させ、残りの相対的姿勢セットを提供させる、命令とを含む。複数の命令はまた、データプロセッサに、残りの相対的姿勢セットを使用して、複数の画像フレームのための大域的姿勢を判定させる、命令と、データプロセッサに、誤ってカテゴリ化された相対的姿勢の少なくとも一部およびカテゴリ化されていない相対的姿勢セットの少なくとも一部のための拡張された相対的姿勢を算出させ、拡張された相対的姿勢セットおよび拡張されたカテゴリ化されていない相対的姿勢セットを提供させる、命令とを含む。複数の命令はさらに、データプロセッサに、拡張された誤ってカテゴリ化された相対的姿勢を拡張された相対的姿勢セットから検出および除去させ、残りの拡張された相対的姿勢セットを提供させる、命令と、データプロセッサに、残りの相対的姿勢セットおよび残りの拡張された相対的姿勢セットを使用して、複数の画像フレームのための更新された大域的姿勢を判定させる、命令とを含む。

従来の技法に優る多数の利点が、本発明を用いて達成される。例えば、本発明の実施形態は、後続３Ｄ再構成において使用され得る、大域的基準フレーム内でカメラ姿勢を判定するための方法およびシステムを提供する。さらに、本発明の実施形態は、大域的に一貫するだけではなく、また、局所的にも一貫する、カメラ姿勢を判定するための方法およびシステムを提供する。加えて、本発明の実施形態は、繰り返しパターンを伴う場面、特徴を欠いている場面、突然のカメラ移動、および多室設定等、周知の困難な場合に対してもロバストである。本発明のこれらおよび他の実施形態は、その利点ならびに特徴の多くとともに、以下の説明および添付の図と併せてより詳細に説明される。
例えば、本願は以下の項目を提供する。
（項目１）
複数の画像フレームのためのカメラ姿勢を判定する方法であって、
カメラを使用して、前記複数の画像フレームを捕捉するステップと、
画像フレームペアの各セット間の相対的姿勢を算出し、相対的姿勢セットおよびカテゴリ化されていない相対的姿勢セットを提供するステップと、
誤ってカテゴリ化された相対的姿勢を前記相対的姿勢セットから検出および除去し、残りの相対的姿勢セットを提供するステップと、
前記残りの相対的姿勢セットを使用して、前記複数の画像フレームのための大域的姿勢を判定するステップと、
前記誤ってカテゴリ化された相対的姿勢の少なくとも一部および前記カテゴリ化されていない相対的姿勢セットの少なくとも一部のための拡張された相対的姿勢を算出し、拡張された相対的姿勢セットおよび拡張されたカテゴリ化されていない相対的姿勢セットを提供するステップと、
拡張された誤ってカテゴリ化された相対的姿勢を前記拡張された相対的姿勢セットから検出および除去し、残りの拡張された相対的姿勢セットを提供するステップと、
前記残りの相対的姿勢セットおよび前記残りの拡張された相対的姿勢セットを使用して、前記複数の画像フレームのための更新された大域的姿勢を判定するステップと
を含む、方法。
（項目２）
Ｎ回の反復を通して前記更新された大域的姿勢を精緻化するステップをさらに含む、項目１に記載の方法。
（項目３）
前記更新された大域的姿勢を精緻化するステップは、前記複数の画像フレームの異なる画像フレームと関連付けられた深度マップから導出される場面幾何学形状を整合させるステップを含む、項目２に記載の方法。
（項目４）
前記更新された大域的姿勢を精緻化するステップは、前記更新された大域的姿勢毎に、前記更新された大域的姿勢を収束に向かって調節するステップを含む、項目２に記載の方法。
（項目５）
Ｎ回の反復を通して前記更新された大域的姿勢を精緻化するステップは、所定の回数の反復を行うステップを含む、項目２に記載の方法。
（項目６）
Ｎ回の反復を通して前記更新された大域的姿勢を精緻化するステップは、反復間のカメラ姿勢の差異の閾値に基づいて、所定の回数の反復を行うステップを含む、項目２に記載の方法。
（項目７）
前記相対的姿勢セットは、有効な相対的姿勢および誤ってカテゴリ化された相対的姿勢を含む、項目１に記載の方法。
（項目８）
前記拡張された相対的姿勢セットは、有効な拡張された相対的姿勢および拡張された誤ってカテゴリ化された相対的姿勢を含む、項目１に記載の方法。
（項目９）
前記複数の画像フレームのための大域的姿勢は、大域的基準フレームを参照している、項目１に記載の方法。
（項目１０）
前記カメラは、ＲＧＢＤカメラを含む、項目１に記載の方法。
（項目１１）
前記複数の画像フレームは、所定のフレームレートで捕捉される、項目１に記載の方法。
（項目１２）
前記複数の画像フレームは、前記複数の画像フレームのそれぞれ内のピクセル毎に、色データおよび深度データを含む、項目１に記載の方法。
（項目１３）
前記画像フレームペアの各セット間の相対的姿勢を算出するステップは、前記画像フレームペアの時間的に近いサブセットのための第１のプロセスおよび前記画像フレームペアの時間的に離れたサブセットのための第２のプロセスを行うステップを含む、項目１に記載の方法。
（項目１４）
前記第２のプロセスは、前記時間的に離れたサブセット内の画像フレームペア間の特徴を検出およびマッチングするステップを含む、項目１３に記載の方法。
（項目１５）
前記第２のプロセスはさらに、前記時間的に離れたサブセット内の画像フレームペア間で深度マッチングを行うステップを含む、項目１４に記載の方法。
（項目１６）
コンピュータ可読記憶媒体上に有形に具現化される複数のコンピュータ可読命令を含む、非一過性コンピュータ可読記憶媒体であって、前記複数のコンピュータ可読命令は、データプロセッサによって実行されると、複数の画像フレームのためのカメラ姿勢を判定し、前記複数の命令は、
前記データプロセッサに、カメラを使用して、前記複数の画像フレームを捕捉させる命令と、
前記データプロセッサに、画像フレームペアの各セット間の相対的姿勢を算出させ、相対的姿勢セットおよびカテゴリ化されていない相対的姿勢セットを提供させる命令と、
前記データプロセッサに、誤ってカテゴリ化された相対的姿勢を前記相対的姿勢セットから検出および除去させ、残りの相対的姿勢セットを提供させる命令と、
前記データプロセッサに、前記残りの相対的姿勢セットを使用して、前記複数の画像フレームのための大域的姿勢を判定させる命令と、
前記データプロセッサに、前記誤ってカテゴリ化された相対的姿勢の少なくとも一部および前記カテゴリ化されていない相対的姿勢セットの少なくとも一部のための拡張された相対的姿勢を算出させ、拡張された相対的姿勢セットおよび拡張されたカテゴリ化されていない相対的姿勢セットを提供させる命令と、
前記データプロセッサに、拡張された誤ってカテゴリ化された相対的姿勢を前記拡張された相対的姿勢セットから検出および除去させ、残りの拡張された相対的姿勢セットを提供させる命令と、
前記データプロセッサに、前記残りの相対的姿勢セットおよび前記残りの拡張された相対的姿勢セットを使用して、前記複数の画像フレームのための更新された大域的姿勢を判定させる命令と、
を含む、非一過性コンピュータ可読記憶媒体。
（項目１７）
前記複数の命令はさらに、前記データプロセッサに、Ｎ回の反復を通して前記更新された大域的姿勢を精緻化させる命令を含む、項目１６に記載のコンピュータ可読記憶媒体。
（項目１８）
前記相対的姿勢セットは、有効な相対的姿勢および誤ってカテゴリ化された相対的姿勢を含む、項目１６に記載のコンピュータ可読記憶媒体。
（項目１９）
前記複数の画像フレームのための大域的姿勢は、大域的基準フレームを参照している、項目１６に記載のコンピュータ可読記憶媒体。
（項目２０）
前記カメラは、ＲＧＢＤカメラを含み、前記複数の画像フレームは、所定のフレームレートで捕捉される、項目１６に記載のコンピュータ可読記憶媒体。

本特許または出願申請は、カラーで提出された少なくとも１つの図面を含有する。カラー図面を伴う本特許または特許出願公報のコピーは、要請および必要な料金の支払に応じて、特許庁によって提供されるであろう。

本開示の一部を構成する、付随の図面は、いくつかの実施形態を図示し、説明とともに、開示される原理を説明する役割を果たす。

図１は、例示的実施形態による、ラージスケールＲＧＢＤ姿勢推定のためのシステムを図示する、ブロック図である。

図２は、本発明のある実施形態による、ラージスケールＲＧＢＤ姿勢推定を行う方法を図示する、簡略化されたフローチャートである。

図３は、本発明のある実施形態による、画像フレーム間の相対的姿勢を算出するための方法を図示する、簡略化されたフローチャートである。

図４Ａは、本発明のある実施形態による、第１のカメラ姿勢から捕捉され、特徴記述子に基づいて検出およびマッチングされた特徴でマークされる、第１のＲＧＢ画像フレームである。

図４Ｂは、本発明のある実施形態による、第２のカメラ姿勢から捕捉され、特徴記述子に基づいて検出およびマッチングされた特徴でマークされる、第２のＲＧＢ画像フレームである。

図４Ｃは、本発明のある実施形態による、３Ｄ特徴フィルタ処理後に生成された特徴マッチングでマークされた、図４Ａに図示される第１のＲＧＢ画像フレームである。

図４Ｄは、本発明のある実施形態による、３Ｄ特徴フィルタ処理後に生成された特徴マッチングでマークされた、図４Ｂに図示される第２のＲＧＢ画像フレームである。

図５Ａは、本発明のある実施形態による、２つの異なるカメラ姿勢と関連付けられたポイントクラウドのセットの斜視図を図示する。

図５Ｂは、本発明のある実施形態による、図５Ａに図示される２つの異なるカメラ姿勢と関連付けられたポイントクラウドのセットの平面図を図示する。

図５Ｃは、本発明のある実施形態による、最適化された相対的姿勢を伴う、図５Ａに図示される２つの異なるカメラ姿勢と関連付けられたポイントクラウドのセットの斜視図を図示する。

図５Ｄは、本発明のある実施形態による、最適化された相対的姿勢を伴う、図５Ｃに図示される２つの異なるカメラ姿勢と関連付けられたポイントクラウドのセットの平面図を図示する。

図６Ａは、本発明のある実施形態による、相対的姿勢のマトリクス表現である。

図６Ｂは、本発明のある実施形態による、拡張された相対的姿勢のマトリクス表現である。

図６Ｃは、本発明のある実施形態による、一連のカメラ姿勢および画像フレームを図示する、略図である。

図７Ａおよび７Ｂは、本発明のある実施形態による、２つの画像フレームのためのＲＧＢ画像である。図７Ａおよび７Ｂは、本発明のある実施形態による、２つの画像フレームのためのＲＧＢ画像である。

図７Ｃは、図７Ａおよび７ＢにおけるＲＧＢ画像と関連付けられたポイントクラウドのセットの斜視図を図示する。

図７Ｄは、図７Ａおよび７ＢにおけるＲＧＢ画像と関連付けられたポイントクラウドのセットの平面図を図示する。

図８は、本発明のある実施形態による、大域的座標を参照している深度マップおよび一連の画像姿勢を示す、平面図を図示する。

図９は、本発明のある実施形態による、拡張された相対的姿勢を算出する方法を図示する、簡略化されたフローチャートである。

図１０は、本発明のある実施形態による、大域的座標を参照している深度マップおよび一連の精緻化された画像姿勢を示す、平面図を図示する。

図１１は、本発明のある実施形態による、姿勢を精緻化するための方法を図示する、簡略化されたフローチャートである。

図１２Ａ－１２Ｃは、例示的実施形態による、姿勢精緻化の異なる反復時の３Ｄメッシュ結果を図示する、グラフィカル表現である。

ここで、例示的実施形態が、詳細に参照され、その実施例は、付随の図面に図示される。以下の説明は、付随の図面を参照するが、異なる図面中の同一番号は、別様に表されない限り、同一または類似要素を表す。本発明に準拠する例示的実施形態の以下の説明に記載される実装は、本発明に準拠する全ての実装を表すわけではない。代わりに、それらは、単に、本発明に関連する側面に準拠するシステムおよび方法の実施例である。

図１は、例示的実施形態による、ラージスケールＲＧＢＤ姿勢推定のためのシステム１００を図示する、ブロック図である。本システムは、カメラ１０１と、プロセッサ１０２と、メモリ１０３とを含んでもよい。いくつかのコンポーネントは、随意であってもよい。いくつかのコンポーネントは、ローカル、オンライン、またはクラウドベースであってもよい。

カメラは、複数の場面のＲＧＢ、ＲＧＢＤ、または深度専用情報を捕捉し、そのような情報をプロセッサに伝送してもよい。ＲＧＢ、ＲＧＢＤ、または深度専用情報は、少なくとも１つのフレームを備える、静止画形式（すなわち、写真）またはビデオフォーマットであってもよい。特定の実施形態では、カメラは、例えば、所定のフレームレートにおいてフレームを捕捉する、ＲＧＢＤビデオカメラである。カメラは、独立デバイスであるか、または、カメラと、プロセッサと、メモリとを備える、単一デバイスの一部であってもよい。カメラはまた、複数のカメラであってもよく、例えば、第１のカメラは、ＲＧＢ情報を捕捉し、第２のカメラは、深度情報を捕捉する。

メモリは、プロセッサによって実行されると、以下に説明される方法／ステップを行う、命令を記憶する、非一過性コンピュータ可読記憶媒体であってもよい。

いくつかの実施形態では、プロセッサおよびメモリは、クラウドベースであって、カメラから独立することができる。写真またはビデオは、カメラ、例えば、携帯電話カメラによって捕捉されることができ、１つまたはそれを上回る（クラウドベースの）サーバにアップロードされることができる。サーバまたは複数のサーバは、以下に説明される方法／ステップを実装する、プロセッサのうちの１つまたはそれを上回るものと、メモリのうちの１つまたはそれを上回るものとを含んでもよい。本明細書により完全に説明されるように、本発明の実施形態は、ＲＧＢＤ入力（例えば、ビデオストリーム）を受信し、カメラを使用して捕捉されたフレーム毎に、カメラ姿勢の世界座標を出力する。本情報を使用して、各フレームは、相互のフレームに関連し、フレームが捕捉されるにつれてカメラが世界を通して移動する方法を説明する、カメラ軌道の可用性をもたらすことができる。したがって、本発明のいくつかの実施形態は、時間の関数として、入力ＲＧＢＤビデオストリームをカメラ姿勢に変換する、例えば、各フレームが捕捉された時間にマップされ、これは、次いで、３Ｄ画像再構成用途において使用されることができる。３Ｄ再構成および３Ｄメッシュに関連する付加的説明は、図１３Ａ－１３Ｃおよび２０１６年９月２３日に出願され、「ＭｅｔｈｏｄｓａｎｄＳｙｓｔｅｍｓｆｏｒＤｅｔｅｃｔｉｎｇａｎｄＣｏｍｂｉｎｉｎｇＳｔｒｕｃｔｕｒａｌＦｅａｔｕｒｅｓｉｎ３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎ」と題された米国特許出願第１５／２７４，８２３号（本開示は、あらゆる目的のために参照することによってその全体として本明細書に組み込まれる）に関連して提供される。

カメラ１１０は、ＲＧＢＤ画像ならびに焦点距離、カメラ分解能、主点、１つまたはそれを上回る歪曲パラメータ、および同等物を含む、カメラ固有のパラメータを出力することができる。再び図１を参照すると、カメラ１１０に加え、本システムは、慣性測定ユニット（ＩＭＵ）１１２を含む。ＩＭＵは、各フレームと関連付けられた、または時間の関数として、カメラの相対的位置および配向に関するデータを収集するために利用されることができる。ＩＭＵデータは、角速度、加速、および重力方向を含むことができる。これらのパラメータを使用して、基準フレーム内のｘ／ｙ／ｚ位置ならびに基準フレーム内のピッチ／ヨー／ロール配向が、判定されることができる。

図２は、本発明のある実施形態による、ラージスケールＲＧＢＤ姿勢推定を行う方法を図示する、簡略化されたフローチャートである。本方法は、いくつかのステップを含み、そのうちのいくつかは、随意であってもよい。本方法は、ラージスケールＲＧＢＤ姿勢推定を達成するためのフレームワークを備えてもよい。

本開示では、「姿勢」（すなわち、位置および配向）は、画像または場面を捕捉する間のカメラの姿勢もしくは一連の姿勢を指し得る。一連の姿勢は、時間依存および／または位置依存であってもよい。姿勢は、位置（例えば、基準フレーム内で測定される）および配向（例えば、また、基準フレームと同一であり得る、基準フレーム内で測定される）を含んでもよく、これは、回転方向および回転角度に分解されることができる。

本方法は、画像フレーム間の相対的姿勢を算出するステップを含む（２１０）。画像フレーム間の相対的姿勢を算出するステップは、ＲＧＢＤ画像ペア間に十分な重複面積、すなわち、図４Ａ－４Ｄに関連して議論されるような両画像内に現れている場面の同一オブジェクトまたは同一部分が存在する場合、各画像ペア間の相対的姿勢変化を推定するステップを含むことができる。これらの２つのカメラ姿勢と関連付けられたＲＧＢＤ画像のペア間の相対的姿勢が算出され得る、２つのカメラ姿勢の実施例は、図４Ａ／４Ｂおよび図５Ａに関して議論される。相対的姿勢算出では、十分な場面重複が、例えば、２つの状況において見出され得る、すなわち、（１）時間的に近い画像フレームは、通常、相対的姿勢を判定するために十分な場面重複を有する、（２）十分な特徴マッチングを有する、画像フレームは、場面重複を有し得る。

ＲＧＢＤシーケンス全体の相対的姿勢の実施例は、図６Ａにおける姿勢マトリクスとして表される。相対的姿勢を算出するステップに関連する付加的詳細は、図３を参照して以下により完全に説明される。

図３に関連した付加的詳細に議論されるように、相対的姿勢算出（２１０）は、画像フレームペア間の相対的姿勢を構築および復元することができる。入力ＲＧＢＤ画像セットは、異なる時間において撮影された個々のＲＧＢＤ画像または複数の連続フレームから成るＲＧＢＤビデオストリームであることができる。本開示に説明される方法／フレームワークは、両場合で機能することができるが、一般性を失うことなく、ＲＧＢＤビデオスト
リームが、実施例として使用される。

図３は、本発明のある実施形態による、画像フレーム間の相対的姿勢を算出するための方法を図示する、簡略化されたフローチャートである。図３を参照すると、本方法は、フレーム間の時間的分離の閾値に基づいて、複数の画像フレームペアをカテゴリ化するステップを含む（３１０）。例えば、閾値は、２秒であってもよいが、本発明は、本閾値に限定されず、例えば、１／１５秒、１／１０秒、１／６秒、１／５秒、１／２秒、１秒、３秒、４秒、５秒未満、または５秒を上回る、他の値も利用されることができる。ある実施形態では、相互に２秒以内に捕捉された画像フレームのペアは、「時間的に近い」画像フレームとしてカテゴリ化される（３２０）。画像フレームのペアが、閾値を上回るフレーム捕捉間に遅延を伴って捕捉される場合、これらの画像フレームペアは、「時間的に離れた」フレームとしてカテゴリ化される（３３０）。画像フレームのペアの実施例は、図４Ａおよび４Ｂに図示される画像であって、これは、異なる時間において、異なるカメラ姿勢から捕捉された。

時間的に近い画像フレームに関して、カメラ姿勢は、画像フレーム間で有意に変化しないと仮定され得る。故に、相対的姿勢最適化（３２２）が、初期相対的姿勢が最適化された相対的姿勢に近くあるはずであるため、時間的に近い画像フレームのために行われることができる。したがって、時間的に近いフレームに関して、識別マトリクスは、直接、相対的姿勢最適化を行うための初期化として使用されることができる（３２２）。実施例として、時間的に近いフレームからの深度データは、画像フレーム間の最適化された相対的姿勢を提供するように整合されることができる。例えば、ＩＣＰ（反復最近傍点）ベースの整合が、相対的姿勢を最適化するために深度データを用いて利用されることができる。図６Ａを参照すると、時間的に近い画像フレームペアは、マトリクスの主要対角線に隣接する。

時間的に離れた画像フレームペアに関して、カメラ姿勢における変化の結果、フレーム間の有意な重複画像を見つける可能性が低い。その結果、初期化は、プロセス３３２、３３４、および３３６によって提供される。時間的に離れた画像フレームペアに関して、本方法は、画像フレームのためのＲＧＢデータを使用して、特徴検出および特徴マッチング（３３２）を行い、十分な場面重複を有する候補特徴ペアのセットを提供するステップを含む。特徴検出は、スケール不変特徴変換（ＳＩＦＴ）、高速化ロバスト特徴（ＳＵＲＦ）、加速セグメント試験からの特徴（ＦＡＳＴ）、または同等物を含む、方法によって達成されてもよい。特徴マッチングは、語彙ツリーベースの方法またはＫｄツリーベースの方法を含む、方法によって達成されてもよい。

図４Ａは、本発明のある実施形態による、第１のカメラ姿勢から捕捉され、特徴記述子に基づいて検出およびマッチングされた特徴でマークされる、第１のＲＧＢ画像フレームである。図４Ｂは、本発明のある実施形態による、第２のカメラ姿勢から捕捉され、特徴記述子に基づいて検出およびマッチングされた特徴でマークされる、第２のＲＧＢ画像フレームである。図４Ｃは、本発明のある実施形態による、３Ｄ特徴フィルタ処理後に生成された特徴マッチングでマークされた、図４Ａに図示される第１のＲＧＢ画像フレームである。図４Ｄは、例えば、図３におけるプロセス３３６に続く、本発明のある実施形態による、３Ｄ特徴フィルタ処理後に生成された特徴マッチングでマークされた、図４Ｂに図示される第２のＲＧＢ画像フレームである。

図４Ａおよび４Ｂを参照すると、それぞれ、図４Ａおよび４Ｂに図示される２つの画像フレーム間でマッチングされた検出／マッチングされた特徴が、ＲＧＢ画像上にオーバーレイされた種々の色のドットによって示される。いったん特徴が検出されると、記述子が、その近隣ピクセルに基づいて、特徴毎に算出される。特徴記述子は、次いで、例えば、閾値を特徴記述子間の距離に適用することによって、画像フレーム間の特徴をマッチングするために使用される。当業者は、多くの変形例、修正、および代替を認識するであろう。

例証として、特徴検出および特徴マッチングの実装を通して、検出およびマッチングされた特徴は、画像フレーム上のドットのペアによって標識されることができ、各ドットは、各画像フレーム内の特定の特徴を特定する。図４Ａおよび４Ｂを参照すると、赤色ドット４１０によって表される特徴が、両画像フレーム内で検出およびマッチングされる。加えて、水色ドット４１２によって表される第２の特徴もまた、両画像フレーム内で検出およびマッチングされる。図４Ａおよび４Ｂに図示されるように、２つの画像フレーム内の赤色ドット４１０および赤色ドット４１１は、片側では、濃色物質、他側では、より薄色の物質を含む。しかしながら、色特性は、類似または同一であるが、これらの面積は、相互から非常に異なる場所に位置する、すなわち、図４Ａにおける赤色ドット４１０は、ベンチに隣接する壁上に位置するが、図４Ｂにおける赤色ドット４１１は、背もたれの縁上に位置する。したがって、図４Ｃおよび４Ｄに図示されるように、両特徴４１０および４１１（ならびにそれらの間のマッチング）は、いったん３Ｄ特徴フィルタ処理が行われると、存在しない。したがって、最初に検出およびマッチングされた特徴のサブセットは、典型的には、３Ｄフィルタ処理後、保たれるであろう。

特徴マッチングの数が、所定の閾値、例えば、１０個の特徴マッチングを超えるかどうかの判定が行われる（３３３）。特徴マッチングの数が、閾値を下回る場合、分析されている画像フレームペアは、タイプ１のカテゴリ化されていない画像フレームペアとして定義される（３５０）。図６Ａでは、これらのカテゴリ化されていないタイプ１ペアは、薄灰色で図示され、この場合、少数の特徴マッチングのため、相対的姿勢が存在せず、画像フレームペア間の相対的姿勢を算出するための試みが行われていないことを示す。

本方法はまた、特徴マッチングの数が所定の閾値を超える場合、３Ｄ特徴フィルタ処理とも称され得る、候補特徴ペアのフィルタ処理を試みるステップを含む（３３４）。特徴検出およびマッチング（３３２）の後に得られた特徴は、関連付けられた深度画像上に逆投影され、２Ｄ特徴の対応する３Ｄ点を得る。ある実施形態では、候補特徴ペアは、全ての逆投影された３Ｄ特徴マッチングの上でランダムサンプルコンセンサス（ＲＡＮＳＡＣ）アルゴリズムを使用してフィルタ処理され、少なくともＫ（Ｋは、事前に設定された数）個のインライア（ｉｎｌｉｅｒ）マッチングを伴うフレームペアを得る。図４Ｃおよび図４Ｄは、ＲＡＮＳＡＣ（Ｋ＝１０）を使用した候補特徴フィルタ処理後にマッチングされた３Ｄ特徴ペアを示す。当業者に明白となるであろうように、フレーム間マッチングを最大限にする、特徴マッチングの最適セットが、本明細書に説明される方法を使用して見出されることができる。

前述のように、候補特徴ペアは、３Ｄ特徴マッチングの数が第２の所定の閾値、例えば、１０個の３Ｄ特徴マッチングを超えるかどうかを判定するために分析される。特徴マッチングの数が、第２の所定の閾値を下回る場合、分析されている画像フレームペアは、タイプ１のカテゴリ化されていない画像フレームペアとして定義される（３５１）。図６Ａでは、これらのカテゴリ化されていないタイプ１ペアは、薄灰色で図示され、この場合、少数の３Ｄ特徴マッチングのため、相対的姿勢が存在せず、画像フレームペア間の相対的姿勢を算出するための試みが行われていないことを示す。

３Ｄ特徴マッチングの数が第２の閾値を超える場合、プロクラステス分析が、プロセス３３４後に得られるインライア３Ｄ特徴マッチング上で実施される（３３６）。本分析プロセスの間、画像ペア間の相対的変換（すなわち、相対的姿勢）の最小２乗解が、推定される。実施例として、画像ペアと関連付けられたポイントクラウドのセットが、図５Ａおよび５Ｂに図示される。図５Ａは、本発明のある実施形態による、２つの異なるカメラ姿勢と関連付けられたポイントクラウドのセットの斜視図を図示する。相対的姿勢計算の中間結果が、図５Ａに図示される。図５Ｂは、本発明のある実施形態による、図５Ａに図示される２つの異なるカメラ姿勢と関連付けられたポイントクラウドのセットの平面図を図示する。大域的基準フレーム５０５が、図５Ａおよび５Ｂに図示される。相対的姿勢計算の中間結果が、図５Ａに図示される。したがって、図５Ａおよび５Ｂは、２つの異なる視点、すなわち、図５Ａにおける斜視または傾斜図および図５Ｂにおける上下または平面図からの同一相対的姿勢を図示する。図５Ａおよび５Ｂの両方では、カメラ姿勢５１０は、灰色ポイントクラウドを捕捉するカメラ姿勢に対応し、カメラ姿勢５１２は、赤色ポイントクラウドを捕捉するカメラ姿勢に対応する。

図５Ａおよび５Ｂを参照すると、灰色ポイントクラウドは、図４Ａに図示される画像に対応する３Ｄ深度マップを表し、赤色ポイントクラウドは、図４Ｂに図示される画像に対応する３Ｄ深度マップを表す。図４Ｃにおける壁４３０は、図５Ａでは、セクション５３０として存在する。加えて、図４Ｃにおけるテーブル４３４に隣接する壁４３２は、図５Ａでは、セクション５３２として存在する。これらのポイントクラウドを使用して、最小２乗解が、ある実施形態では、相対的姿勢最適化の際に利用される初期化を提供するために使用されることができる（３２２）。また、図４Ｃおよび４Ｄに図示されるマッチングは、図５Ａおよび５Ｂに図示される深度マップ上にオーバーレイされ、姿勢整合プロセスにおいて利用されることができることに留意されたい。

時間的に近いフレームの議論に戻ると、識別マトリクスは、直接、相対的姿勢最適化に提供される初期化として使用されることができる（３２２）。プロクラステス分析後に提供される出力もまた、以下に説明されるように、最近傍点ペアの数の分析後の相対的姿勢最適化プロセス（３２２）のための入力として使用されることができる。

時間的に離れた画像フレームペア間に十分な数の最近傍点ペアがある、すなわち、最近傍点ペアの数が第３の所定の閾値を上回るかどうかの判定が行われる。最近傍点ペアの数の判定に関連する付加的説明は、図９に関連して提供される。十分な数が存在する場合、プロセスは、プロセス３２２に進む。十分な数の最近傍点ペアが存在しない場合、分析を受けているフレームペアは、タイプ１のカテゴリ化されていないフレームペア３５２として識別される（例えば、画像フレームペア間の相対的姿勢を算出するために試みが行われたが、画像フレームペア間の相対的姿勢が存在しないため、濃灰色フレームペア）。

いくつかの実施形態では、十分な数の最近傍点ペアが存在するかどうかの判定ならびにプロセス３２２に関連して議論される最適化プロセスは、単一プロセスとして組み合わせられ、カテゴリ化されていないフレームペアならびに他のフレームペア間の有効な相対的姿勢の両方の識別を含む、出力を提供する。これらの実施形態では、濃灰色フレームペアは、相対的姿勢算出が試みられたとして識別されるが、フレームペアは、相対的姿勢最適化プロセスの初期部分の間、カテゴリ化されていないとして識別された。当業者は、多くの変形例、修正、および代替を認識するであろう。

相対的姿勢最適化プロセス（３２２）は、数値最適化を使用して、初期相対的姿勢解（例えば、図５Ａおよび図５Ｂに図示される相対的姿勢）を精緻化し、最適化された相対的姿勢解（例えば、図５Ｃおよび５Ｄに図示される相対的姿勢）を提供してもよい。最適化は、最近傍点制約、境界点制約、３Ｄ特徴制約、ＩＭＵ回転制約、または同等物を用いた最適化を含むことができる。最近傍点制約は、２つの深度画像が整合される程度を測定することができる。境界点制約は、２つの深度画像内のオブジェクト境界が整合される程度を測定することができる。３Ｄ特徴制約は、２つのフレーム間のマッチングされた特徴３Ｄ距離の相違をペナルティ化することができる。ＩＭＵ回転制約は、ペア間の相対的回転がＩＭＵ測定された相対的回転に近づくことを確実にすることができる。

相対的姿勢最適化（３２２）から生成された相対的姿勢は、図５Ｃおよび図５Ｄに示され、これらは、対応して、図５Ａおよび図５Ｂに図示されるような初期化（時間的に近い姿勢に関しては３１０に従う、時間的に離れた姿勢に関しては３３６または３３８に従う）によって提供される姿勢より正確である。

図３に図示される方法の出力は、複数の画像フレームペア間の相対的回転および平行移動である（３４０）。したがって、要するに、図３は、相対的姿勢を算出する（２１０）ために使用される方法を図示する。

図３に図示される具体的ステップは、本発明のある実施形態による、画像フレーム間の相対的姿勢を算出する特定の方法を提供することを理解されたい。他のシーケンスのステップもまた、代替実施形態に従って行われてもよい。例えば、本発明の代替実施形態は、上記に概略されたステップを異なる順序で行ってもよい。さらに、図３に図示される個々のステップは、個々のステップの必要に応じて、種々のシーケンスで行われ得る、複数のサブステップを含んでもよい。さらに、付加的ステップが、特定の用途に応じて、追加または除去されてもよい。当業者は、多くの変形例、修正、および代替を認識するであろう。

再び図２を参照すると、本方法は、誤ってカテゴリ化された姿勢を検出するステップを含む（２１２）。本明細書に説明されるように、画像フレーム間の相対的姿勢が、大域的姿勢推定を行うために利用される。しかしながら、ステップ２１０から算出されたいくつかの相対的姿勢は、正しくない場合がある。本発明者らは、多数の誤ってカテゴリ化された相対的姿勢が大域的姿勢推定プロセス（ステップ２１４）を失敗させ得ると判定した。したがって、本発明の実施形態は、誤ってカテゴリ化された姿勢検出プロセス（ステップ２１２）を提供し、その際、ステップ２１０において判定された各相対的姿勢が、分析され、誤ってカテゴリ化された相対的姿勢からフィルタ除去し、誤ってカテゴリ化された相対的姿勢を伴う画像フレームペアを有効な相対的姿勢を伴うものから分離する。誤ってカテゴリ化された相対的姿勢は、本開示では、姿勢推定のために使用されることができない、または使用するべきではない、姿勢を含んでもよい。

誤ってカテゴリ化された相対的姿勢は、（１）繰り返しパターン、（２）誤った３Ｄ特徴フィルタ処理（例えば、誤ったＲＡＮＳＡＣマッチング）、および（３）相対的姿勢最適化内の極小値を含む、いくつかの状況下で生じ得る。例えば、図７Ａおよび７Ｂは、誤ってカテゴリ化された相対的姿勢を伴う画像ペアを示す。

図７Ａおよび７Ｂは、本発明のある実施形態による、２つの画像フレームのためのＲＧＢ画像である。図７Ａを参照すると、ベンチの後の背もたれが、画像フレーム内に含まれる。背もたれは、繰り返しパターンによって特徴付けられる、いくつかの垂直ストライプを含む。図７Ｂを参照すると、背もたれの左側が、画像フレーム内に含まれる。特徴検出およびマッチングの際、図７Ａにおける特徴７１０および７１２が、検出された。図７Ｂにおける特徴７２０および７２２は、検出され、特徴７１０および７１２にマッチングされた。この正しくないマッチングは、背もたれ内のストライプの繰り返しパターンから生じた可能性が高い。したがって、背もたれの中央の近傍の特徴７１０および７１２は、それぞれ、背もたれの左側の特徴７２０および７２２と正しくなくマッチングされた。本正しくないマッチングは、実際には、画像フレームが任意の重複面積を有していないとき、画像フレームのペアが、相互に相対的姿勢整合を有するという判定をもたらし得る。以下に説明されるように、例えば、前述の正しくない色マッチングから生じた誤って特性評価された姿勢は、本発明の実施形態によって検出および除去される。

本発明の実施形態によると、それぞれが以下により完全に説明される、回転および位置、ＩＭＵ測定、遮蔽、整合点数、およびピクセル別差異を含む、いくつかの異なる機構が、不正確なまたは正しくない相対的姿勢とも称される、誤ってカテゴリ化された姿勢を検出およびフィルタ処理するために使用されることができる。いくつかの実装では、誤って特性評価された姿勢の検出に関連する画像フレームペア合格ルールは、後続姿勢推定プロセスにおいて利用される。

回転および位置。本機構は、時間的に近いペアに適用されることができる。これらのペアは、近いタイムスタンプ（ビデオストリーム実施例が使用されることを前提として）において捕捉されるため、各ペア内の少量の移動のみが存在するはずである。したがって、時間的に近いペアは、算出された相対的回転または位置が大きすぎる（例えば、所定の閾値を上回る）場合、廃棄されることができる。

ＩＭＵ測定。本機構は、ステップ２１０から推定された相対的位置および／または回転（すなわち、プロセスステップ３４０の出力）と所定の閾値を伴うＩＭＵ測定から算出された相対的位置および／または回転との間の差異を比較する。ＩＭＵは、各画像フレームと関連付けられたカメラの位置および配向に関する情報を提供する。いくつかの実施形態では、ＩＭＵ測定は、位置、配向、または、位置および配向のいずれかと関連付けられた不正確度を有し得る。したがって、本発明の実施形態は、他の情報と併せてＩＭＵ測定を利用する。

画像フレームペアのためのＩＭＵ測定（またはこれらの測定に基づく情報）は、比較されることができ、ＩＭＵ測定間の差異が所与の画像ペアに関する閾値を上回る場合、所与の画像ペアは、図６Ａまたは６Ｂにおける橙色（タイプ４）ピクセルによって表される画像ペアに図示されるように、誤ってカテゴリ化された相対的姿勢を有すると識別されることができる。これらの画像ペアに関して、相対的姿勢は、画像フレームペアを誤ってカテゴリ化された相対的姿勢を有するとして分類することによって、大域的姿勢推定プロセスの際、無視されることができる。

図６Ｃを参照すると、カメラ姿勢６６０は、面積の左下象限に対して位置および配向を有する。カメラ姿勢６８０は、面積の右上象限に対して位置および配向を有する。共通特徴が画像フレーム６６２および６８２の両方内に存在し得ることが、可能性として考えられる。例えば、カメラが、類似建物の集合の中庭を通して移動していた場合、両画像フレームは、それらがこれらの類似建物を撮像するにつれて、共通要素を共有し得る。その結果、相対的姿勢算出は、有効な相対的姿勢が存在することを判定し得る。しかしながら、ＩＭＵ測定は、相互に実質的に反対である、異なる時間におけるカメラの配向に関する情報を提供するであろう。その結果、ＩＭＵ測定を使用して、これらの画像フレームのための初期相対的姿勢算出は、誤ってカテゴリ化された相対的姿勢が判定されたことを示すように更新されるであろう。当業者は、多くの変形例、修正、および代替を認識するであろう。

遮蔽。本機構は、３Ｄ内の画像ペアの深度マップおよびカメラ姿勢を検査し、可視性チェックを介して、その相対的姿勢が正しいかどうかを判定することができる。図７Ｃおよび７Ｄは、重畳された画像の２つの異なるビューから相互に遮蔽された深度マップを判定する実施例を説明する。図７Ｃおよび７Ｄの両方では、相対的姿勢は、正しくない。その結果、その相対的姿勢は、誤ってカテゴリ化された姿勢として検出され、無視されるべきである。

図７Ｃは、図７Ａおよび７ＢにおけるＲＧＢ画像と関連付けられたポイントクラウドのセットの斜視図を図示する。図７Ｄは、図７Ａおよび７ＢにおけるＲＧＢ画像と関連付けられたポイントクラウドのセットの平面図を図示する。図７Ｃを参照すると、カメラ姿勢７５０は、灰色ポイントクラウドを捕捉するカメラ姿勢に対応し、これは、図７ＡにおけるＲＧＢ画像と関連付けられる。カメラ姿勢７５２は、赤色ポイントクラウドを捕捉するカメラ姿勢に対応し、これは、図７ＢにおけるＲＧＢ画像と関連付けられる。深度マップ間の整合は、図７Ａおよび７Ｂに関連して議論されるように、背もたれ上の特徴のマッチングに基づく。図７Ｄに図示されるように、マッチング特徴を伴う背もたれの部分は、重複セクション７６０によって図示される。図７Ａ－７Ｄに図示されるように、テーブル７１０の後の後壁の短セクション７５５は、図７Ａ、７Ｃ、および７Ｄに図示される。テーブル７１０の後の後壁のより長いセクション７５７は、図７Ｂ、７Ｃ、および７Ｄに図示される。

図７Ｄに図示されるように、後壁（短セクション７５５および長セクション７５７）は、遮蔽機構に反している。図７ＢにおけるＲＧＢ画像と関連付けられた赤色深度マップが正確な場合、図７ＡにおけるＲＧＢ画像と関連付けられた灰色深度マップと関連付けられたカメラ（視点）は、赤色深度マップによって表される不透明オブジェクトの後に物理的に位置する、後壁パターンを観察しないであろう。言い換えると、特徴マッチングに基づく相対的姿勢が正しい場合、短セクション７５５および長セクション７５７は、整合するであろう。代わりに、それらは、距離Ｄだけオフセットされる。図６Ａおよび６Ｂにおけるタイプ５ピクセルは、本遮蔽ルールに合格することができない、例示的ペアである。

整合点数。本機構は、ペア間の整合された深度点の数が閾値未満である場合、相対的姿勢が誤ってカテゴリ化されたことを判定する。正確な相対的姿勢を有する画像ペアは、その深度マップが良好に整合され、整合された深度点の数が非常に大きい（例えば、所定の閾値を上回る）ことを含意し得る。

ピクセル別差異。本機構は、対応するフレームの色相違が大きすぎる場合、相対的姿勢を誤ってカテゴリ化されたとして判定する。深度マップの全ての深度点は、対応するＲＧＢ画像からの関連付けられた色を有する。実施例は、図７Ｃおよび７Ｄにおける深度マップおよび図７Ａおよび７Ｂにおける対応するＲＧＢ画像である。良好な相対的姿勢の整合された深度点は、良好に整合された色を有することができる。色相違は、全ての整合された深度点にわたって蓄積され得る。各対の深度点間の色差異を比較し、ある数の点にわたって総和することによって、全体的色相違は、量子化されることができる。量子化された全体的色相違と所定の閾値の比較は、相対的姿勢の品質を判定し、誤ってカテゴリ化された姿勢を検出するために使用されることができる。

図６Ａは、ステップ２１０および２１２の相対的姿勢算出ならびに検出および除去（すなわち、マーキング）から生成された相対的姿勢のマトリクス表現を図示する。図６Ｂは、ステップ２１６および２１８を参照して以下に説明される、拡張された誤って特性評価された相対的姿勢の拡張された相対的姿勢算出ならびに検出および除去（すなわち、マーキング）から生成された拡張された相対的姿勢のマトリクス表現を図示する。マトリクス表現の軸は、以下により完全に説明されるように、フレーム番号である。

図６Ａおよび６Ｂはそれぞれ、Ｎ×Ｎマトリクスを図示し、Ｎは、特定の入力画像または画像フレームのフレーム番号である。右上または左下の三角形のそれぞれ内の各ピクセルは、ピクセルの列数に対応する第１の画像フレームと、ピクセルの行数に対応する第２の画像フレームとを備える、画像フレームのペアを表す。主要対角線に沿ってあるマトリクスの要素は、主要対角線が、単に、画像フレームとそれ自体を比較するため、価値がない。

図６Ａの右上三角形内のピクセル色（すなわち、値）は、所与の画像フレーム間の相対的姿勢を判定するために達成される算出結果を表す。例えば、円形６１０は、画像フレーム番号２８×１０および２９×１０を強調する。これらの２つの画像フレームペア間の相対的姿勢は、２１０において有効な相対的姿勢として算出され、これらの画像フレームペアは、以下により完全に説明されるように、これらの画像フレームペア間の有効な相対的姿勢が存在するため、薄緑色で示される。円形６１２は、画像フレーム番号１－１０×約５０－６０を強調する。これらの画像フレームペアに関して、画像フレームペアのうちのいくつかは、有効な相対的姿勢（薄緑色）を有する一方、他の画像フレームペアは、プロセス２１２に関連してより完全に説明されるように、誤ってカテゴリ化された相対的姿勢（橙色）を有する。

図６Ａの左下三角形内のピクセル色（すなわち、グレースケール）は、右上三角形内の対応する算出された相対的姿勢と関連付けられた信頼度値またはレベルを表し、より明るいピクセル強度は、相対的姿勢算出におけるより高い信頼度を示す。算出における信頼度は、本発明の実施形態による、１つまたはそれを上回るパラメータの関数である。例えば、加重とも称され得る、信頼度は、画像フレームペア間の重複面積のサイズの代わりに使用され得る、図９に関連して議論されるような最近傍点ペアの数の関数であることができる。信頼度は、プロセス３３４によって判定されるような画像フレームペア間の３Ｄ特徴マッチングの数の関数であることができる。加えて、信頼度は、拡張された有効な相対的姿勢がプロセス２１０－２１４に関連して議論される有効な相対的姿勢の初期判定に基づくため、フレームペアのための有効な相対的姿勢と比較して、フレームペアのための拡張された有効な相対的姿勢に対処するとき、より低くなり得る。

図６Ｃは、本発明のある実施形態による、一連のカメラ姿勢および画像フレームを図示する、略図である。図６Ｃでは、時間の関数としての一連のカメラ姿勢が、座標軸６５５と関連付けられた大域的基準フレームを通して移動しているカメラを表す、青色三角形によって図示される。関連付けられた深度マップもまた、図６Ｃに図示される。カメラ姿勢６６０では、カメラは、画像フレーム６６２（黄褐色）と関連付けられた視野を捕捉し、図示される面積の左下角を撮像する。カメラ姿勢６７０では、カメラは、画像フレーム６７２（赤色）と関連付けられた視野を捕捉し、図示される面積の上中心を撮像する。カメラ姿勢６８０では、カメラは、画像フレーム６８２と関連付けられた視野を捕捉し、図示される面積の右上角を撮像する。

図６Ｃに図示されるように、カメラ姿勢６６０は、画像フレーム６６２と関連付けられ、これは、カメラ姿勢６７０またはカメラ姿勢６８０と関連付けられた画像フレームと重複を共有しない。図６Ａを参照すると、画像フレームペア１×３０は、有効な相対的姿勢を有しておらず、相対的姿勢算出が、画像フレーム３０の姿勢に対して画像フレーム１の相対的姿勢を判定することが不可能であるという判定をもたらしたことを示す。対照的に、カメラ姿勢６７０および６８０は、画像フレーム６７２および６８２と関連付けられ、これは、重複面積を共有する。故に、関連付けられた画像フレームのペア内に存在する共通特徴に基づいて、カメラ姿勢６７０と６８０との間の相対的姿勢を判定することが可能であり得る。

画像フレーム６７２および６８２と同様に、十分な重複および／または共通情報が、フレームペア１０および２８ならびにフレームペア１０および２９内に存在し、これらの画像フレーム（すなわち、１０と２８および１０と２９）を相互に参照する。言い換えると、画像フレーム１０および２８は、相互を参照し得、例えば、画像フレーム１０と関連付けられたカメラ姿勢は、所定の姿勢（Ｐ_１０）である。画像フレーム２８と関連付けられたカメラ姿勢（Ｐ_２８）は、カメラの平行移動および回転、例えば、ｘ－軸に沿って１００ｃｍの平行移動およびｙ－軸の周囲の３０°の回転によってＰ_１０を参照し得る。

図６Ａは、相対的フレーム／フレーム姿勢算出と関連付けられたいくつかの条件を図示する。
濃灰色（タイプ１）－カテゴリ化されていない－画像フレームペア間の相対的姿勢を算出する試みが行われたが、画像フレームペア間の相対的姿勢が存在しない。
薄灰色（タイプ１）－カテゴリ化されていない－画像フレームペア間の相対的姿勢を算出する試みが行われなかった。画像フレームペア間の相対的姿勢は、存在しない。
薄緑色（タイプ２）－画像フレームペア間の有効な相対的姿勢が存在する。
橙色（タイプ４）－画像フレームペア間の誤ってカテゴリ化された相対的姿勢（ＩＭＵ測定に基づく）が存在する。
黒色（タイプ４）－画像フレームペア間の誤ってカテゴリ化された相対的姿勢（遮蔽に基づく）が存在する。

ＩＭＵ測定または遮蔽に基づく誤ったカテゴリ化は、図６Ａに図示されるが、他の情報に基づく他の誤ったカテゴリ化もまた、タイプ４カテゴリの範囲内に含まれることに留意されたい。実施例として、回転および位置、整合点数、ピクセル別差異、および同等物が挙げられる。

上記のカテゴリを参照し、タイプ１のフレームペアは、カテゴリ化されていないと称され、相対的カメラ姿勢を判定する試みが行われたが、有効な相対的姿勢が見出されなかったフレームペア（濃灰色）ならびに相対的姿勢を判定する試みが行われなかったフレームペア（薄灰色）を含む。実施例として、相対的姿勢を判定（すなわち、算出）する試みは、共通特徴が存在しないフレームペアに対して行われ得ない。

再び図２を参照すると、方法２００はまた、相対的姿勢を使用して、大域的姿勢を推定するステップを含む（２１４）。大域的姿勢推定２１４は、ラージスケール最適化フレームワーク内で実施されることができ、これは、大域的座標内の全ての画像フレームのための大域的姿勢を算出することができる。本プロセスでは、大域的姿勢推定は、ラージスケール最適化問題の要素として、相対的姿勢制約、ＩＭＵ制約、平面制約、平滑性制約、および同等物を含む、いくつかの制約に基づいて、画像姿勢（例えば、全ての画像姿勢）に大域的座標を参照させるように利用される。

相対的姿勢制約は、結果として生じる大域的姿勢が相対的姿勢によって説明される相対的変換を充足させることを確実にすることができる。ＩＭＵ制約は、結果として生じる大域的姿勢の回転とその対応するＩＭＵ測定との間の逸脱をペナルティ化することができる。平面制約は、壁表面が良好に整合されることを確実にすることができる。実施例として、深度マップ毎に、平面が、抽出されることができる。大域的座標を参照するプロセスは、次いで、これらの抽出された平面の整合を行う。ビデオストリーム入力が利用される実施形態では、平滑性制約は、カメラ移動が平滑であることを確実にすることができる。当業者は、多くの変形例、修正、および代替を認識するであろう。

大域的姿勢推定プロセスでは、カメラ姿勢は、大域的座標８０５内で復元される。各カメラ姿勢およびその関連付けられたＲＧＢＤ画像は、大域的に一貫した様式において、空間内に設置される。画像ペア間の多数の相対的姿勢が、プロセス２１２から得られ、本プロセスは、図８に示されるように、捕捉経路のオリジナル軌道を辿って、復元されたカメラ位置を推定する。図８はまた、大域的座標内でポイントクラウドとして可視化される、関連付けられた深度マップを示す。例えば、線は、壁を表してもよく、多くの画像のそのような線が重畳されたとき、くっきりした線は、画像が良好に整合され、関連付けられた姿勢推定が正確であることを含意し得る一方、太線は、その反対を含意し得る。

図８は、本発明のある実施形態による、大域的座標を参照している深度マップおよび一連の画像姿勢を示す、平面図を図示する。図８では、複数の画像フレームと関連付けられた全ての深度マップ８１０は、大域的基準フレーム８０５にオーバーレイされ、それを参照している。相対的姿勢および関連付けられた深度マップを前提として、最適化プロセスが、各カメラ姿勢に大域的座標を参照させるように行われる。カメラ姿勢８２０は、画像フレーム毎に、カメラが面積を通して移動するにつれた時間の関数として図示される。したがって、カメラの復元された軌道およびその配向は、図８に図示されるように、プロセス２１４後に提供される。

ＲＧＢＤ姿勢が、大域的座標内で位置合わせされた後、全ての入力ＲＧＢＤ画像間の改良された空間関係が、以下に説明されるように得られることができる。

方法２００は、例えば、プロセス２１４における大域的姿勢の推定後、拡張された相対的姿勢を算出するステップを含む（２１６）。用語「拡張された相対的姿勢」は、有効な相対的姿勢の数が、付加的データ、例えば、空間データの可用性のため、より大きい数に拡張されるために利用される。本プロセスでは、相対的姿勢の精緻化は、利用可能な空間情報を使用して行われ、出力は、図６Ｂに図示される拡張された相対的姿勢のマトリクス表現によって表されることができる。プロセス２１６では、ＲＧＢＤ姿勢が、大域的座標内で位置合わせされ、全ての入力ＲＧＢＤ画像間の空間関係のはるかに良好な理解を提供する。言い換えると、これまでは、相対的姿勢は、時間的に近いペアおよび十分な特徴マッチングを有するペアに関して算出され得る。プロセス２１６では、プロセス２１４において算出された拡張された相対的姿勢を前提として、姿勢が大域的座標内で位置合わせされるため、全ての空間的に近いペアのための相対的姿勢が、図９に関連して議論されるように算出されることができる。

いくつかの実施形態では、プロセス２１６－２２０は、プロセス２１４後に有効ではないフレームペアのためのみに行われる。例えば、プロセスは、図６Ａに図示されるように、タイプ１のフレームペア（有効な相対的姿勢がない）ならびにタイプ４および５のフレームペア（誤ってカテゴリ化された相対的姿勢）のためのみに行われることができる。ある場合には、誤ってカテゴリ化されたフレームペアは、より良好な初期化が方法２００の本段階において利用可能であるため、正しくカテゴリ化されることができる。

図３に図示されるプロセスでは、画像フレームのためのＲＧＢ情報は、例えば、特徴検出およびマッチングにおいて利用された。プロセス２１０－２１４とは対照的に、プロセス２１６－２２０は、利用可能な大域的姿勢推定情報を有する。図８を参照すると、領域８３０の近傍のカメラ姿勢は、それらが、異なる時間、例えば、カメラがループ８３２を通して移動する前および後において捕捉され得たという事実にもかかわらず、近似的に整合され得る。空間的に近いが、時間的に離れたカメラ姿勢に関して、整合は、画像フレーム間の有効な相対的姿勢が存在するかどうかを判定するために試みられることができる。

図９は、本発明のある実施形態による、拡張された相対的姿勢を算出する方法を図示する、簡略化されたフローチャートである。図９を参照すると、方法９００は、画像フレームペアが空間的に近い画像フレームであるかどうかを判定するステップを含む（プロセス９１０および９１１）。空間的に近いフレームとは、本文脈では、視認範囲および視認方向ならびに点ペア間の重複によって特徴付けられ得る、その視野間の交差によって特徴付けられる、画像フレームペアを指す。視野はまた、錐台と称され得る。

いくつかの実施形態では、図９に示されるように、画像フレームペアが空間的に近い画像フレームペアであるかどうかの判定は、錐台交差分析を行うステップを含む（９１０）。有効な相対的姿勢を伴うフレームペア以外の全ての画像フレームペアに関して、フレーム毎の錐台が、ペア内のマッチングフレームのための錐台と比較される。３Ｄ内の重複が存在する場合、交差が錐台のセット間に存在することを判定することが可能である。本交差分析は、いくつかの実施形態では、効率的に行われる。

２つの錐台が交差する場合、これは、２つの場面内のオブジェクトが交差することを保証するものではない。例えば、２つのビューは、壁の異なる側であり得、したがって、錐台が交差するであろうが、必ずしも、両場面内に存在するオブジェクトが存在するわけではないであろう。再び図６Ｂを参照すると、錐台交差が、視野６７２の右側と視野６８２の左側との間の重複によって図示される。

迅速に行われ得る９１０における交差チェックに合格した場合、より完全な点別深度マップ重複チェックが、行われることができる（９１１）。これはまた、十分な数の最近傍点ペアが所与の画像フレームペアに関して存在するかどうかの判定と言え得る。画像フレームペア毎に、２つのフレーム内の点ペア間の重複の判定が行われる。近い（例えば、所与の閾値を下回る）点ペアの数をカウントすることによって、重複表面積は、近い点ペアの数に起因し得る。第１のフレーム内の点（点ａ、フレーム１）毎に、第２のフレーム内の最近傍点（点ｂ、フレーム２）の判定が行われる。第２のフレーム（点ｂ、フレーム２）に関して、第１のフレーム内の最近傍点の判定が行われる（点ｃ、フレーム１）。本最近傍点プロセスが、第１のフレーム内の点（点ａ、フレーム１）が第２のフレームの観点から最近傍点（点ｃ、フレーム１）と同一であるようなループを形成する場合、本点ペアは、カウントされる。近い点ペアの数は、いくつかの実施形態では、重複表面積の代わりとして使用されることができる。

これらの空間的に近い画像フレームペアは、次いで、拡張された相対的姿勢最適化を受け（９１２）、相対的回転および平行移動のより正確な推定を得ることができる（９１４）。プロセス９１２は、プロセス３２２に類似し、プロセス９１４は、プロセス３４０に類似するが、拡張されたバージョンである。

図９に図示される具体的ステップは、本発明のある実施形態による、拡張された相対的姿勢を算出するステップの特定の方法を提供することを理解されたい。他のシーケンスのステップもまた、代替実施形態に従って行われてもよい。例えば、本発明の代替実施形態は、上記で概略されたステップを異なる順序で行ってもよい。さらに、図９に図示される個々のステップは、個々のステップの必要に応じて、種々のシーケンスで行われ得る、複数のサブステップを含んでもよい。さらに、付加的ステップが、特定の用途に応じて、追加または除去されてもよい。当業者は、多くの変形例、修正、および代替を認識するであろう。

図６Ｂは、拡張された相対的フレーム／フレーム姿勢算出と関連付けられたいくつかの条件を図示する。
濃灰色（タイプ１）－カテゴリ化されていない画像フレームペア－画像フレームペア間の相対的姿勢を算出する試みが行われたが、画像フレームペア間の相対的姿勢が、存在しない。
薄灰色（タイプ１）－カテゴリ化されていない画像フレームペア－画像フレームペア間の相対的姿勢を算出する試みが、行われなかった。画像フレームペア間の相対的姿勢が、存在しない。
薄緑色（タイプ２）－画像フレームペア間の有効な相対的姿勢が存在する。
濃緑色（タイプ３）－画像フレームペア間の有効な拡張された相対的姿勢が存在する。
橙色（タイプ４）－画像フレームペア間の誤ってカテゴリ化された相対的姿勢（ＩＭＵ測定に基づく）が存在する。
黒色（タイプ４）－画像フレームペア間の誤ってカテゴリ化された相対的姿勢（遮蔽に基づく）が存在する。

図６Ｂは、プロセス２１６において利用されるカテゴリ化プロセスの際、付加的空間情報が利用され、増加数のフレームペアマッチングの試みを可能にするため、より多数の濃灰色タイプ１のフレームペアを含むことに留意されたい。

右上三角形では、タイプ１ピクセルは、相対的姿勢が見出されていない、画像（フレーム）ペアを表し、タイプ２ピクセルは、有効な相対的姿勢を伴う画像（フレーム）ペアを表し、タイプ３ピクセルは、有効な拡張された相対的姿勢を伴う画像（フレーム）ペアを表し、タイプ４ピクセルは、誤ってカテゴリ化された相対的姿勢を伴う画像（フレーム）ペアを表す。左下三角形では、ピクセルは、右上三角形内の対応する相対的姿勢の信頼度レベルを表す。より明るいピクセルは、より信頼性のある相対的姿勢を示す。

図６Ａと比較して、有効な相対的姿勢の密度は、図６Ｂでは、拡張された相対的姿勢算出を行った後、より高くなる。例えば、領域６５０では、付加的フレームペアの数が、有効な拡張された相対的姿勢に伴って追加されている。加えて、領域６５５では、ある閾値を下回る、時間的に近くないフレームが、有効な拡張された相対的姿勢を有するとして識別されている。

再び図２を参照すると、本方法は、付加的な誤って特性評価された姿勢を検出するステップを含み（２１８）、これは、上記に説明されるプロセス２１２に類似してもよく、誤ってカテゴリ化された相対的姿勢を新しく生成された拡張された相対的姿勢からフィルタ除去するステップを含んでもよい。本方法はさらに、拡張された相対的姿勢を使用して、大域的姿勢を推定するステップを含む（２２０）。本プロセスでは、例えば、前の大域的姿勢推定（２１４）において利用された制約の全てに加え、新しい拡張された相対的姿勢制約および構造形状制約を含む、制約が、より正確な姿勢を得るために使用されることができる。

方法２００は、加えて、姿勢を精緻化するステップを含み（２２２）、これはさらに、姿勢正確度を改良する。姿勢精緻化は、図１０に図示されるように、局所的一貫性および正確度を姿勢推定に追加することができる。

図１０は、本発明のある実施形態による、大域的座標を参照している深度マップおよび一連の精緻化された画像姿勢を示す、平面図を図示する。図１０は、画像姿勢が精緻化される前の、大域的座標を参照している深度マップおよび一連の画像姿勢を示す、平面図を図示する、図８と比較されることができる。図８および１０を比較することによって分かるように、壁または他の幾何学的特徴等の点によって表される、幾何学形状は、姿勢が精緻化された後、はるかにくっきりし、かつ鮮明であって、これは、異なるフレームからの対応する深度マップがより良好に整合され、関連付けられた推定された姿勢がさらに正確であることを意味する。実施例として、図８における壁８４０は、いったん姿勢が精緻化されると、図１０における同一壁内に存在しない、粗度を含む。当業者は、多くの変形例、修正、および代替を認識するであろう。

姿勢精緻化は、下層の場面幾何学形状およびカメラ姿勢を反復的に求めることができる。十分に近い初期化および十分な反復を用いることで、幾何学形状およびカメラ姿勢の両方が、以下に説明されるように、グランドトゥルース解に収束することができる。

図１１は、本発明のある実施形態による、姿勢を精緻化するための方法を図示する、簡略化されたフローチャートである。姿勢は、大域的規模では、比較的に正確であり得るが、局所不正確度は、図１１に図示される方法を使用して除去されることができる。方法１１００は、精緻化されていない姿勢を受信するステップ（１１１０）と、立体融合を行い（例えば、ＣｕｒｌｅｓｓとＬｅｖｏｙのアルゴリズムを適用する）、全ての深度マップを切断符号付き距離関数（ｔｒｕｎｃａｔｅｄｓｉｇｎｅｄｄｉｓｔａｎｃｅｆｕｎｃｔｉｏｎ）に融合するステップ（１１１２）とを含む。立体ホールフィリングが、符号付き距離関数に行われる（１１１４）（例えば、立体拡散ベースのアプローチ）。方法１２２０はまた、マーチングキューブを適用し（１１１６）、符号付き距離関数を三角形メッシュに変換するステップを含む。精緻化の種々の段階における例示的３Ｄメッシュは、図１２Ａ－１２Ｃに図示される。

深度マップが、ＲＧＢＤ画像毎にレンダリングされる（１１１８）。深度マップレンダリングプロセスでは、各ＲＧＢＤ画像の姿勢が、各深度画像を生成された三角形メッシュに整合させる、すなわち、全ての深度画像を相互に整合させることによって微調整される。一実施例では、ＲＧＢＤ画像毎に、深度マップが、同一カメラ姿勢からレンダリングされる。しかしながら、各ＲＧＢＤ画像と関連付けられたレンダリングされた深度マップと捕捉された深度マップとの間に差異が存在し得、これは、主に、推定された姿勢とグランドトゥルース姿勢との間の差異を表す。したがって、レンダリングされた深度マップおよび捕捉された深度マップは、整合される（１１２０）。ＩＣＰ（反復最近傍点）ベースの整合は、レンダリングされた深度マップに対して実装され、推定された姿勢を調節することができる。

プロセス１１１２－１１１６は、幾何学形状の更新と見なされることができ、プロセス１１１８－１１２２は、カメラ姿勢の更新と見なされることができる。当業者は、多くの変形例、修正、および代替を認識するであろう。

いったん姿勢が精緻化／更新されると（１１２２）、精緻化プロセスの反復に関して決定が行われる（１１２４）。反復が行われる場合、幾何学形状は、幾何学形状がプロセス１１２２において受信された精緻化された姿勢の使用を通して潜在的に改良され得るため、再び更新される。改良された幾何学形状は、順に、姿勢をさらに精緻化するために使用されることができる。本サイクルは、Ｎ回の反復のために繰り返されることができ、１回またはそれを上回る反復もしくはそのそれぞれにおいて粗密ボクセル分解能（ｃｏａｒｓｅ－ｔｏ－ｆｉｎｅｖｏｘｅｌｒｅｓｏｌｕｔｉｏｎ）の修正を伴う（１１３０）。別の実施形態では、反復の回数は、カメラ姿勢の閾値および／または直近の反復前後の姿勢の差異に基づいて判定されることができる。十分な回数の反復後、プロセスは、停止される（１１４０）。

図１１に図示される具体的ステップは、本発明のある実施形態による、姿勢を精緻化する特定の方法を提供することを理解されたい。他のシーケンスのステップもまた、代替実施形態に従って行われてもよい。例えば、本発明の代替実施形態は、上記で概略されたステップを異なる順序で行ってもよい。さらに、図１１に図示される個々のステップは、個々のステップの必要に応じて、種々のシーケンスで行われ得る、複数のサブステップを含んでもよい。さらに、付加的ステップが、特定の用途に応じて、追加または除去されてもよい。当業者は、多くの変形例、修正、および代替を認識するであろう。

図１２Ａ－１２Ｃは、図１１に関連して説明されたような３回の反復にわたって改良された幾何学形状を図示する。図１２Ａ－１２Ｃはそれぞれ、各反復から推定された姿勢を伴う全ての入力深度マップからのマーチングキューブを介して生成された３Ｄメッシュである。姿勢推定が正確である場合、平滑表面が観察される。そうでなければ、粗表面が観察される。図１２Ａは、１回の反復後の、多くの粗表面を含有する捕捉された画像の表現を示す。反復を重ねる毎に、より高い正確度のオリジナル場面が、図１２Ｂおよび１２Ｃに復元される。反復は、姿勢が、Ｎ回の反復後、非常に高い正確度に到達するまで、継続することができる。

再び図２を参照すると、要約すると、本発明の実施形態は、複数の画像フレームのためのカメラ姿勢を判定する方法を提供する。本方法は、カメラ（例えば、ＲＧＢＤカメラ）を使用して、複数の画像フレームを捕捉するステップと、画像フレームペアの各セット間の相対的姿勢を算出し、相対的姿勢セットおよびカテゴリ化されていない姿勢セットを提供するステップとを含む。相対的姿勢セットは、タイプ２（すなわち、有効な相対的姿勢）およびタイプ４（誤ってカテゴリ化された相対的姿勢）画像フレームペアを含み、カテゴリ化されていない相対的姿勢セットは、タイプ１画像フレームペアを含む。複数の画像フレームは、例えば、ビデオ実装では、所定のフレームレートで捕捉されることができる。複数の画像フレームは、複数の画像フレームのそれぞれ内のピクセル毎に、色データならびに深度データを含むことができる。

図３に関連して議論されるように、画像フレームペアの各セット間の相対的姿勢を算出するステップは、画像フレームペアの時間的に近いサブセットのための第１のプロセスおよび画像フレームペアの時間的に離れたサブセットのための第２のプロセスを行うステップを含むことができる。第２のプロセスは、時間的に離れたサブセット内の画像フレームペア間の特徴を検出およびマッチングするステップを含むことができる。第２のプロセスはさらに、時間的に離れたサブセット内の画像フレームペア間で深度マッチングを行うステップを含むことができる。

本方法はまた、誤ってカテゴリ化された相対的姿勢を相対的姿勢セットから検出および除去し、残りの相対的姿勢セットを提供するステップを含む。本残りの相対的姿勢セットは、図６Ａにおいて薄緑色ペアによって示される、画像フレームペア間のタイプ２の有効な相対的姿勢を含むであろう。本方法はさらに、残りの相対的姿勢セットを使用して、複数の画像フレームのための大域的姿勢を判定するステップを含む。

加えて、本方法は、誤ってカテゴリ化された相対的姿勢の少なくとも一部およびカテゴリ化されていない相対的姿勢セットの少なくとも一部のための拡張された相対的姿勢を算出し、拡張された相対的姿勢セットを提供するステップを含む。本拡張された相対的姿勢セットは、図６Ｂにおいて濃緑色ペアによって図示される、画像フレームペア間の拡張された有効な相対的姿勢を伴う、タイプ３フレームペアと、図６Ｂにおいて橙色および黒色フレームペアによって示される、拡張された誤ってカテゴリ化された相対的姿勢を伴うフレームペア（タイプ４フレームペア）とを含むであろう。新しいタイプ１フレームペアを含む、拡張されたカテゴリ化されていない相対的姿勢セットもまた、存在することができる。

本方法はさらに、拡張された誤ってカテゴリ化された相対的姿勢を拡張された相対的姿勢セットから検出および除去し、図６Ｂにおいて濃緑色で図示されるタイプ３の残りの拡張された相対的姿勢によって図示される、残りの拡張された相対的姿勢セットを提供するステップを含む。本方法はまた、プロセス２１４に関連して議論される残りの相対的姿勢セットおよび残りの拡張された相対的姿勢セットを使用して、複数の画像フレームのための更新された大域的姿勢を判定するステップを含む。複数の画像フレームのための大域的姿勢は、大域的基準フレームを参照している。

いくつかの実施形態では、本方法はまた、所定の反復数、または、反復間のカメラ姿勢の差異の閾値に基づく反復数であり得る、Ｎ回の反復を通して更新された大域的姿勢を精緻化するステップを含む。さらに、更新された大域的姿勢を精緻化するステップは、複数の画像フレームの異なる画像フレームと関連付けられた深度マップから導出される場面幾何学形状を整合させるステップを含むことができる。更新された大域的姿勢を精緻化するステップは、加えて、更新された大域的姿勢毎に、更新された大域的姿勢を収束に向かって調節するステップを含むことができる。

図２に図示される具体的ステップは、本発明のある実施形態による、ラージスケールＲＧＢＤ姿勢推定を行う特定の方法を提供することを理解されたい。他のシーケンスのステップもまた、代替実施形態に従って行われてもよい。例えば、本発明の代替実施形態は、上記で概略されたステップを異なる順序で行ってもよい。さらに、図２に図示される個々のステップは、個々のステップの必要に応じて、種々のシーケンスで行われ得る、複数のサブステップを含んでもよい。さらに、付加的ステップが、特定の用途に応じて、追加または除去されてもよい。当業者は、多くの変形例、修正、および代替を認識するであろう。

前述の説明は、ラージスケールＲＧＢＤ推定のための方法およびシステムのために提示されている。図示されるステップは、示される例示的実施形態を説明するために記載されており、進行中の技術的開発が特定の機能が行われる様式を変化させるであろうことが予期されるべきである。したがって、これらの実施例は、限定ではなく、例証目的のために本明細書に提示される。例えば、本明細書に開示されるステップまたはプロセスは、説明される順序で行われることに限定されず、任意の順序で行われてもよく、いくつかのステップは、開示される実施形態に準拠して省略されてもよい。さらに、機能構築ブロックの境界は、本明細書では、説明の利便性のために恣意的に定義されている。代替境界が、規定された機能およびその関係が適切に行われる限り、定義されてもよい。代替（本明細書に説明されるものの均等物、拡張、変形例、逸脱等を含む）が、本明細書に含有される教示に基づいて、当業者に明白となるであろう。そのような代替は、開示される実施形態の範囲および精神内にある。

開示される原理の実施例および特徴が本明細書に説明されるが、修正、適合、および他の実装も、開示される実施形態の精神および範囲から逸脱することなく、可能性として考えられる。また、単語「～を備える」、「～を有する」、「～を含有する」、および「～を含む」、および他の類似形態は、意味上の均等物であって、これらの単語のうちの任意の１つに続くアイテムまたは複数のアイテムが、そのようなアイテムまたは複数のアイテムの包括的リストであることを意味するものではない、もしくは列挙されたアイテムまたは複数のアイテムのみに限定されることを意味するものではないという意味において、非制限的であることが意図される。また、本明細書で使用されるように、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は文脈によって明確に別様に示されない限り、複数参照も含むことに留意されたい。

さらに、１つまたはそれを上回るコンピュータ可読記憶媒体が、本開示に準拠する実施形態を実装する際に利用されてもよい。コンピュータ可読記憶媒体は、プロセッサによって可読である情報またはデータが記憶され得る、任意のタイプの物理的メモリを指す。したがって、コンピュータ可読記憶媒体は、プロセッサに本明細書に説明される実施形態に準拠するステップまたは段階を行わせるための命令を含む、１つまたはそれを上回るプロセッサによる実行のための命令を記憶してもよい。用語「コンピュータ可読記憶媒体」は、有形アイテムを含み、搬送波および過渡信号を除外する、すなわち、非一過性であると理解されたい。実施例として、ＲＡＭ、ＲＯＭ、揮発性メモリ、不揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク、および任意の他の公知の物理的記憶媒体が挙げられる。上記に説明されるモジュール／ユニットは、ソフトウェア、ハードウェア、ファームウェア、またはソフトウェア、ハードウェア、およびファームウェアの任意の組み合わせの形態で実装されてもよい。例えば、モジュール／ユニットは、コンピュータ可読メモリ内に記憶されるソフトウェア命令を実行するプロセッサによって実装されてもよい。

また、本明細書に説明される実施例および実施形態は、例証目的のためだけのものであって、それに照らした種々の修正または変更が、当業者に示唆され、本願の精神および権限ならびに添付の請求項の範囲内に含まれるものとすることを理解されたい。

Claims

姿勢を精緻化するための方法であって、前記方法は、
（ａ）複数の姿勢を受信することであって、前記複数の姿勢のそれぞれは、複数の捕捉された深度画像のうちの１つに関連付けられており、前記複数の捕捉された深度画像のそれぞれは、複数の捕捉された深度マップのうちの１つに関連付けられている、ことと、
（ｂ）前記複数の姿勢に対して立体再構成を行うことにより、大域的幾何学形状に対応する三角形メッシュを生成することと、
（ｃ）前記三角形メッシュを用いて、前記複数の捕捉された深度画像のそれぞれに関連付けられている深度マップをレンダリングすることにより、複数のレンダリングされた深度マップを生成することと、
（ｄ）前記複数の捕捉された深度マップのそれぞれに対して、前記複数の捕捉された深度マップのうちの１つの捕捉された深度マップを、前記複数のレンダリングされた深度マップのうち、前記１つの捕捉された深度マップに対応する１つのレンダリングされた深度マップに整合させることにより、複数の精緻化された姿勢を提供することと、
（ｅ）所定の回数の反復の間、前記複数の精緻化された姿勢を用いて（ｂ）、（ｃ）、（ｄ）を繰り返すことと
を含む、方法。
立体再構成を行うことは、
立体融合を行うことと、
前記三角形メッシュを抽出することと
を含む、請求項１に記載の方法。
立体再構成を行うことは、立体ホールフィリングを行うことをさらに含む、請求項２に記載の方法。
立体融合を行うことは、前記複数の姿勢のそれぞれに関連付けられている各捕捉された深度マップを切断符号付き距離関数に融合することを含む、請求項２に記載の方法。
前記三角形メッシュを抽出することは、前記切断符号付き距離関数を前記三角形メッシュに変換することを含む、請求項４に記載の方法。
前記三角形メッシュを抽出することは、マーチングキューブを適用することを含む、請求項２に記載の方法。
前記複数の捕捉された深度マップのそれぞれに対して、前記複数の捕捉された深度マップのうちの１つの捕捉された深度マップを、前記複数のレンダリングされた深度マップのうち、前記１つの捕捉された深度マップに対応する１つのレンダリングされた深度マップに整合させることは、反復最近傍点ベースの整合を含む、請求項１に記載の方法。
前記複数の捕捉された深度マップのそれぞれに対して、前記複数の捕捉された深度マップのうちの１つの捕捉された深度マップを、前記複数のレンダリングされた深度マップのうち、前記１つの捕捉された深度マップに対応する１つのレンダリングされた深度マップに整合させることは、各レンダリングされた深度マップを各捕捉された深度マップに変換することを含む、請求項１に記載の方法。