JP5487298B2

JP5487298B2 - ３次元画像生成

Info

Publication number: JP5487298B2
Application number: JP2012514524A
Authority: JP
Inventors: ボジアティス、ジョージ; ヘルナンデス、カルロス
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-06-11
Filing date: 2009-06-11
Publication date: 2014-05-07
Anticipated expiration: 2029-06-11
Also published as: WO2010142929A1; US20120147152A1; GB2483213B8; GB2483213A; GB2483213A8; GB2483213B; US9189859B2; JP2012529691A; GB201200452D0; US20160196658A1

Description

本発明は、３次元画像生成及び３次元デプスプロファイリングの分野に関する。より詳細には、本発明は、リアルタイムで３次元画像及びデプスプロファイルを生成することができるシステムに関する。

３次元画像を生成する能力は、多くの技術分野で有用である。次世代の駐車センサは、駐車する際に運転手をガイドするために、周囲の画像を使用する。映画やゲームにおける特殊効果及びアニメーションの分野では、映画又はゲームに入れられる３次元オブジェクトに関する正確なデプスマップを迅速に生成することができる必要がある。電子商取引の分野では、販売される物品の３次元モデルの提供は、潜在的購入者がその物品を観察することを可能にする。３次元モデルを生成する能力は、建築や自動車産業において、或いは、埋蔵物の３次元画像を保存したり送信することができることが望まれる考古学などの分野でも、調査のために使用されることもできる。

３次元画像技術は存在するが、現在のシステムの多くは、ユーザが画像を生成するためのデータを取り込み、その後にそのデータを処理することを可能にする。これは、それがリアルタイムで３次元画像を与えないという欠点を持ち、この欠点は、それを駐車センサではほとんど実用にならなくする。さらに、３次元画像はデータ取得後に生成されるので、追加のデータが良い画像を生成するために要求される場合、過度に遅くなる或いは処理が再開されなければならない。最後に、最新の３次元システムは、非常に大きな記憶容量及び処理能力を要求する。

近年、ロボット視覚で使用されるいわゆるＳＬＡＭ（simultaneous localisation and mapping）システムが開発されている。しかしながら、そのようなシステムは、デプスプロファイルに対立するものとしての３次元メッシュを生成する傾向がある。ＳＬＡＭの３次元メッシュでは、角（corner）などの「重要な」特徴点の位置だけが概して決定される。従って、オブジェクトの完全な３次元デプスプロファイルが必要な場合、そのようなシステムはあまり有用ではない。

本発明は、上記の問題を解決するものであり、第１の態様は、オブジェクトの３次元デプスプロファイルを生成するシステムを提供し、前記システムは、
移動可能なビデオカメラであって、前記カメラが移動されながら前記オブジェクトの２次元画像データを継続的に取得するように構成されるビデオカメラと、前記２次元画像データは複数の２次元画像フレームとして取得され、前記フレームの各々は複数の画素を含み、
前記２次元画像データを受け取り、
前記取得されたフレームの各々に関して前記カメラの位置を決定し、
第１のフレーム中の画素に示されるオブジェクトの部分のデプスを計算し、前記デプスは基準に対して定められ、前記デプスは、少なくとも１つのさらなるフレーム中で前記オブジェクトの前記部分を識別して、前記第１の画像及び前記少なくとも１つのさらなる画像のカメラ位置を使用して前記デプスを計算することにより決定され、
前記オブジェクトのデプスプロファイルを決定するように構成されるプロセッサと、
を具備し、前記デプスプロファイルは、前記画素に示される前記オブジェクトの複数の部分に関して決定され、
前記システムは、リアルタイムにデータがいまだに収集されているという表示及び前記デプスプロファイルを表示するように構成されるディスプレイをさらに具備し、前記デプスプロファイルは前記オブジェクトの前記部分に関して計算されている。

第１の態様では、オブジェクトの３次元画像を生成するために使用されることができる若しくはアニメーションなどのためのデータとして使用されることができるデプスプロファイルが提供される。上記の方法では、正則化又は他のタイプの平滑化は、デプスマップに対して実行される必要がない。

プロセッサが第１のフレーム中の隣接する画素に関するデプスを決定しようとする好ましい実施形態では、デプスプロファイルは緻密になる。

好ましくは、前記デプスは、第１のフレーム中の画素と前記複数のフレームのうちの少なくとも１つのさらなる画像中の複数の画素との類似度を決定することによって計算され、さらなる画像中の前記複数の画素は、前記さらなる画像中のエピポーラ線に沿って位置され、前記エピポーラ線は、前記オブジェクトの前記部分の可能性があるデプスを示す。デプスは、好ましくは、前記エピポーラ線に沿って位置する基準から測定される。より好ましくは、基準点は、前記線に沿った一般的な中点に位置される。例えば、オブジェクトがマットの上に位置している場合、基準点は、エピポーラ線上且つマットの中央を通る平面上に位置するようにとられる。

より好ましくは、前記第１のフレームと前記さらなるフレームとの間で前記カメラが移動される距離は、前記さらなるフレーム中でそれらの類似度を決定するために処理される前記エピポーラ線に沿った画素の数を決定するために使用される。これは、カメラの位置を具体的に計算することによって、或いは、隣接するフレームに関して、オブジェクトの部分の画素位置がｎ画素だけ移動すると仮定することによって、達成されることができる。処理能力が限られる場合、ｎはより小さい値に選択されることができる。

カメラは、好ましくは、手持ち式のものである。

システムは、スクリーン上に構築されているオブジェクトを示すことによって、デプスプロファイルが計算されているオブジェクトの部分を示すように構成されてもよい。この表示は、より高度な情報、例えば、ここまでに計算された点に関する信頼水準を与えることができる。

一実施形態では、前記第１の画像中の画素と前記第２の画像中の画素との類似度を示すマッチングスコアは、前記エピポーラ線に沿った画素に関して決定され、前記第１の画像中の前記画素に関するポテンシャルマッチは、デプスに依存する場合に前記マッチングスコアの極大値として選択される。

複数の画像に関するデプスに応じた前記マッチングスコアは、オブジェクトの前記部分のデプスに関する単一の値を決定するために結合されることができる。デプスが確立されるまで、オブジェクトの所定の部分に関するさらなる画像からのマッチングスコアは、継続的に収集される。

複数の計算では、オブジェクトの異なる部分の各々に関する１つが同時に実行される。好ましい実施形態では、固定数の計算がどの時点においても実行されることができ、前記計算のうちの１つがデプス測定に収束する場合、オブジェクトのさらなる部分に関する計算が開始される。

好ましい実施形態では、基準は、さらに、前記計算が終了してあらたな計算が開始されるように、前記分布が実質的ユニモーダル分布に発展しないかどうかを決定するために提供される。

好ましい実施形態では、複数の画像に関するデプスに対するマッチングスコアの分布が特徴において実質的にユニモーダルになるときに、オブジェクトの部分のデプスが計算される。

従って、第２の態様では、本発明は、基準からのオブジェクトの部分のデプスを決定するためのデプスセンサであって、
移動可能なビデオカメラであって、前記カメラが移動されながら前記オブジェクトの２次元画像データを継続的に取得するように構成されるビデオカメラと、前記画像データは複数の２次元画像フレームとして取得され、前記フレームの各々は複数の画素を含み、
前記２次元画像データを受け取り、
前記取得されたフレームの各々に関して前記カメラの位置を決定し、
第１のフレーム中でデプスが測定されることになるオブジェクトの部分を識別し、
前記オブジェクトの前記部分のデプスに応じて、第１のフレーム中で前記オブジェクトの前記部分を示す画素とさらなるフレーム中の複数の画素の各々との類似度を示すマッチングスコアを決定し、前記デプスは、前記第１のフレーム及び前記さらなるフレームのカメラ位置を使用して決定され、
複数のさらなるフレームに関してデプスに応じた前記マッチングスコアを取得し、デプスに応じた前記マッチングスコアを、以前に取得されたマッチングスコアと結合し、
さらなるフレームからのデータが結合されている時に、デプスに応じた前記マッチングスコアの分布を継続的にモニタリングし、
デプスに応じた前記マッチングスコアの前記分布が実質的にユニモーダルになる場合に、前記オブジェクトの前記部分のデプスを決定するように構成されるプロセッサと、を具備するデプスセンサを提供する。

一実施形態では、デプスに対するマッチングスコアの分配は、一様分布及びユニモーダル分布の混合としてモデル化される。好ましくは、ユニモーダル分布はガウス分布である。

前記ユニモーダル分布によって示されるデプスが良い測定である確率を示す重みが前記ユニモーダル分布に与えられてもよい。重みは、計算されたデプスにおける確信の表示として使用されてもよい。

好ましい実施形態では、重みは、色としてディスプレイに表示されてもよく、色は分布がユニモーダル分布に収束した範囲を示す。重みは、分布が収束したかどうかを判断するために、閾値を比較されてもよい。重みは、さらに、それが収束しそうもなくデプスの計算が停止されるかどうかを確認するために第２の閾値と比較されてもよい。

好ましい実施形態では、前記モデルのパラメータは、ベイズの事後推定を使用して推定される。モデルは、次のタイプの分布によって近似されてもよい。

ここで、ｘ_ｔはｔ番目の点であり、Ｚはデプスであり、πは重みであり、ａ及びｂはベータ分布のパラメータであり、μ及びσ^２は、ユニモーダル分布の平均値及び標準偏差である。

標準偏差は、デプス値がよい測定かどうかを判断するために基準と比較されてもよい。

上記の２つの態様のいずれでも、マッチングスコアは、多くの技術、例えば、正規化相互相関又は差分絶対値和などによって決定されてもよい。

カメラの位置は、多くの技術、例えば、ＳＬＡＭシステムにおいて使用されるようなオブジェクト自身からカメラ位置を導出する技術によって、決定されてもよい。しかしながら、好ましい実施形態では、オブジェクトは置かれ、マットは、フレームごとにカメラの位置を計算するために使用される既知のパターンを有している。さらなる好ましい実施形態では、マットは、複数の円を含むパターンを有する。

第３の態様では、本発明は、オブジェクトの３次元デプスプロファイルを生成する方法であって、
移動可能なビデオカメラを使用して前記オブジェクトの２次元画像データを継続的に取得することと、前記画像データは複数の２次元画像フレームとして取得され、前記フレームの各々が複数の画素を含み、
各フレームが取得された時の前記カメラの位置を決定することと、
第１のフレーム中の画素に示されるオブジェクトの部分のデプスを計算することと、前記デプスは基準に対して定められ、前記デプスは、少なくとも１つのさらなるフレーム中で前記オブジェクトの前記部分を識別して、前記第１の画像及び前記少なくとも１つのさらなる画像のカメラ位置を使用して前記デプスを計算することによって決定され、
前記オブジェクトのデプスプロファイルを決定することと、前記デプスプロファイルは、前記画素に示される前記オブジェクトの複数の部分に関して決定され、
リアルタイムにデータがいまだに収集されているという表示及び前記デプスプロファイルを表示することと、前記デプスプロファイルは前記オブジェクトの前記部分に関して計算されている、を具備する方法を提供する。

第４の態様では、本発明は、基準からのオブジェクトの部分のデプスを決定する方法であって、
移動可能なビデオを使用して前記オブジェクトの２次元画像データを継続的に取得することと、前記画像データは複数の２次元画像フレームとして取得され、前記フレームの各々が複数の画素を含み、
各フレームが取得された時の前記カメラの位置を決定することと、
第１のフレーム中でデプスが測定されることになるオブジェクトの部分を識別することと、
前記オブジェクトの前記部分のデプスに応じて、第１のフレーム中の前記オブジェクトの前記部分を示す画素とさらなるフレーム中の複数の画素の各々との類似度を示すマッチングスコアを決定することと、前記デプスは、前記第１のフレーム及び前記さらなるフレームのカメラ位置を使用して決定され、
複数のさらなるフレームに関してデプスに応じた前記マッチングスコアを取得し、デプスに応じた前記マッチングスコアを、以前に取得されたマッチングスコアと結合することと、
さらなるフレームからのデータが結合されている時に、デプスに応じた前記マッチングスコアの分布を継続的にモニタリングすることと、
デプスに応じた前記マッチングスコアの前記分布が実質的にユニモーダルになる場合に、前記オブジェクトの前記部分のデプスを決定することと、を具備する、方法を提供する。

本発明は、ハードウェアによって、或いは、汎用コンピュータ中のソフトウェアによって実施することができる。さらに、本発明は、ハードウェアとソフトウェアの組み合わせによって実施することができる。さらに、本発明は、単一の処理装置によって、或いは、処理装置の分散型ネットワークによって実施されることもできる。

ソフトウェアによって本発明を実施することができるので、本発明は、任意の適切なキャリア媒体で汎用コンピュータに供給されるコンピュータコードを含む。キャリア媒体は、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、磁気デバイス、又はプログラム可能メモリデバイスなどの任意の記憶媒体、或いは、例えば電気信号、光信号、又はマイクロ波信号といった任意の信号などの任意の一時的な媒体を含むことができる。

上述したように、本発明は、多くの異なる分野で使用されることができる。例えば、上記のシステムは、電子商取引システムの一部を形成してもよい。従って、本発明は、電子商取引システム上で商品のデプスプロファイル又は画像を生成するように構成される本発明の第１又は第２の態様に従うシステムを含む電子商取引システムを提供する。

本発明はまた、車両の周囲のデプスプロファイルが構成される駐車システムの一部を形成してもよい。従って、本発明はまた、車両の周囲のデプスプロファイルを生成するように構成される本発明の第１の態様に従うシステムを含む駐車システムを提供する。

本発明は、周囲、建物、又は物品の３次元画像又はデプスプロファイルが必要とされる測量、建築、考古学に使用されることもできる。

本発明は、映画又はゲーム中に３次元のオブジェクトをアニメートする（animate）若しくは置く（place）ことが必要とされるアニメーション及び特殊効果の分野で使用されることもでき、前記オブジェクトのデプスプロファイルは、上記のシステム又は方法のいずれかを使用して生成される。

本発明は、以下の限定されない実施形態に関して説明される。

図１は、本発明の一実施形態に従うイメージングシステムを示す。図２は、本発明の一実施形態に従うシステムの動作を示す概略図であり、ここでは、点ｘの画像が同じカメラによって２つの異なる位置で取得される。図３ａから３ｄは、基準画像Ｉ及びさらなる画像中の画素に関する基準点からのデプスに対して、複数の画素のマッチングスコアのプロットを示し、図３ａは、１つのさらなるフレームに関する結果を示し、図３ｂは、６つのさらなるフレームに関する結果を示し、図３ｃは、１５のさらなるフレームに関する結果を示し、図４ｃは、６０のさらなるフレームに関する結果を示す。図４は、本発明の一実施形態に従うステップを示す流れ図である。図５ａ（ｉ）から５ｈ（ｉ）は、基準画像中の画素に関するデプスに対してマッチングスコアを示すヒストグラムであり、図５ａ（ｉｉｉ）から５ｈ（ｉｉｉ）は、列（ｉ）のデータの確率的デプスモデルの結果を示し、図５ａ（ｉｉ）から図５ｈ（ｉｉ）は、列（ｉｉｉ）のモデル結果に対するパラメトリックモデル近似を示す。図６ａは、ｙ軸に沿ってプロットされるデプスの推定値がｘ軸に沿ってプロットされるさらなる画像からのデータに関してどのように収束するかのプロットを示し、図６ｂは、図６ａで導出されたデプスがｘ軸に沿う画像の数に対して有効である確率のプロットを示し、図６ｃは、取り得るデプスに対する、複数の画像に関するマッチング確率とともに測定ヒストグラムを示す。図７は、本発明の一実施形態に従うシステムによって実行される計算を説明するために使用される概略図である。図８ａは、画像化されるモデルの図であり、図８ｂは、図８ａのモデルから生成されたベンチマーク３次元画像であり、図８ｃは、３０の２次元フレームを結合して３次元画像を形成する従来技術の方法の結果を示し、図８ｄは、３０のフレームの後の本発明の連続法の結果を示し、図８ｅは、６００のフレームの後の本発明の結果を示す。図９ａ−ｆは、本発明の一実施形態に従って生成された表示を示し、図９ａでは、少数の２次元画像が取得され、取得された画像の数は、図９ｆに示される図を生成するために増加される。図１０ａ−ｄは、本発明の一実施形態に従う方法から生成された画像を示す。

図１は、本発明の一実施形態に従うシステムを示す。このシステムは、カメラ１、コンピュータ３及びディスプレイ５を基本的に含む。

カメラ１は、標準的なビデオカメラであり、ユーザによって移動されることができる。動作中には、カメラ１は、撮像すべきオブジェクト（object）７の周りで自由に移動される。好ましい実施形態では、カメラは、三脚又は他の機械的支持装置に取り付けられるのではく、単に手持ち式（handheld）のものである。

コンピュータ３は、カメラ１からカメラデータを受信する部分を含む。カメラデータ受信部９は、プロセッサ１１と通信している。プロセッサ１１は、本発明の一実施形態に従ってデータを処理するように構成される。一旦データが処理されると、次に、それは、デプスマップ（depth map）の形式に変換され、データ出力部１３を経由してディスプレイ５へ出力される。

ディスプレイは、３次元（３Ｄ）画像を、それがゆっくり構築されながら、表示する。図は白黒であるが、好ましい実施形態では、コンピュータスクリーンに表示される場合、考え得る（possible）データ点は、点の信頼水準が増加するにつれて変色する。一旦点が所定の色に達すると、ユーザは、オブジェクトのその部分に関する十分なデータが収集されたこと、及びカメラがオブジェクトの他の部分へ移動されることができることを知る。システムは、同時に複数の点のデプス（depth）を決定するだろう。

カメラがオブジェクト７の周りで移動されると、より多くのデータが取得される。このデータが取得されると、それは、リアルタイムで継続的に処理され、スクリーン上にオブジェクト７の像（figure）を構築する。この自動フィードバックを提供することによって、カメラを使用する人が、オブジェクトのデプスプロファイルを構築するためにオブジェクト７のどの部分を再訪する（revisit）必要があるかを調べることが可能になる。

図２は、本発明の一実施形態に従う方法を説明するために使用される概略図である。カメラ１は、第１の画像位置と呼ばれる第１の位置２１と、さらなる画像位置と呼ばれる第２の位置２３との間で移動される。第１の画像Ｉには、画素ｐが示されている。画素ｐでは、点ｘ（Ｚ）がオブジェクト上に示される。点ｘ（Ｚ）は、基準点からの距離（Ｚ）に位置する。この特定の例では、基準点はカメラ１である。しかしながら、基準点は、任意の点であり得る。画素ｐに示される点ｘは、エピポーラ線２５に沿って位置する。２次元（２Ｄ）画像ＩのデータからデプスＺを判断することは不可能である。しかしながら、Ｚが位置する線の位置は決定されることができる。

カメラ１が第２の位置２３に移動されると、画像Ｉ´が取得される。点ｘが線２５に沿って位置することが分かっているので、画像空間Ｉ´上へこの線を投影することが可能であり、従って、当業者は、オブジェクト（図示せず）上の点ｘが画像空間Ｉ´の投影線２７に沿ったどこかに位置することを理解するだろう。
第１の位置２１及び第２の位置２３でのカメラの位置が分かると、投影線２７の位置は容易に決定されることができる。さらに、継続的に移動するビデオカメラによって画像が取得されるので、位置２１と位置２３との間の距離は非常に小さい。図２では、明瞭な図を提供するために、これらの２つの位置の間の差は誇張されている。実際には、この差は非常に小さく、従って、点ｘが基準画像中に示される画素ｐは、第１の位置で取得された画像Ｉから第２の位置で取得された画像Ｉ´へ小領域ｗ内で移動するだけである。

領域ｗが第２の画像Ｉ´上にｗ´として投影される場合には、この領域ｗは、領域の投影ｗ´内でエピポーラ線の投影２７に沿って収まる（fall）画素だけが画素ｐとの類似度を探すために処理される必要があることを意味する。

その後、既知のマッチングアルゴリズムは、線２７に沿った画素が画素ｐとマッチする（match）かどうかを確かめるために実行される。一致スコア（correspondence score）は、ｗ及びｗ´に関して、正規化相互相関（ＮＣＣ：normalized cross correlation）、差分絶対値和（ＳＡＤ：sum of absolute differences）、又は他のメトリック（metric）などのシステムを使用して評価されることができる。

マッチングスコア（matching score）又は類似度スコア（similarity score）のプロットは、帯域ＺｍｉｎとＺｍａｘとの間の距離に関して図３ａに示される。かなりきめのある（well textured）シーンでは、正確なデプスは典型的にはマッチングスコアの極大値の非常に近くであることが知られている。従って、ｘ_１，．．．，ｘ_Ｎとして示される極大値だけがここから考慮される。

距離Ｚは、第２の画像Ｉ´上に投影されることができる。距離Ｚの第一近似は、オブジェクトの一般的なサイズに関する何らかの情報に基づいているだろう。

システムが動作しているときには、カメラがその後に第３の位置（図２には示されない）へ移動し、第３の位置では、同じ解析が実行されることができ、位置２３に関して図２を参照して説明したのと同じ方法で類似度スコアが実行されることができる。

その後、２つの類似度スコアは合計されることができる。さらなる画像の両方に関するスコアは、エピポーラ線２５に沿ってＺに関して表される。図３ｂでは、６つのフレームからの類似度スコアが合計される。図３ｂに示される場合のように、ほんの少しの画像だけがある場合、極大値は極度にマルチモーダル（multi-modal）になる。これは、オクルージョン、タイムワーピング（time warping）、反復テクスチャ（repetitive texture）などの、問題領域における種々のパソロジ（pathology）に起因する。図３ｃでは、さらなる類似度スコア、１５のフレームからの類似度スコアが追加され、図３ｄでは、６０のフレームからの類似度スコアが追加される。

より多くの画像が追加されるにつれて、図３ｂに最初に示されるマルチモーダルのヒストグラムが、図３ｄに示されるように特徴において（in character）よりユニモーダル（unimodal）なものに移るのが見られることに注目することは重要である。ここで、データは、相関関係のないアウトライア（outlier）データ点について有意な割合を備える明確に決まったピークへ収束する。入力（incoming）ビデオフレームごとのマッチングスコア極大値は、画素のデプスにおけるあいまいさを徐々に取り除くように互いに強化し合う。

図４は、本発明の一実施形態に従う方法のステップを示すフローチャートである。ステップＳ１０１では、２つの２次元画像データが、図１〜３を参照して説明したように、ビデオカメラによって収集される。

ステップＳ１０３では、フレームのうちの１つが第１のフレームとして示される。第１のフレームは、画素ｐに関して図２に示されるエピポーラ線２５を構築する（construct）ために使用される。しかしながら、画像取得が継続する場合、さらなるフレームが他の画素に関して第１のフレームとして示されることができる。

ステップＳ１０５では、フレームごとのカメラ位置が決定される。これは、複数の方法によって行われることができる。例えば、オブジェクト自体の複数の測定（measurements）と複数のフレームにわたるオブジェクト上のマッチング点とから純粋にカメラの位置を決定することが可能である。さらに、システムがオブジェクトの部分に関する情報を与えられる場合、カメラの位置を決定することは可能である。好ましい実施形態では、オブジェクトがマーカーマット（marker mat）上に設けられ、マーカーマット上の特徴のサイズ及びそれらの位置が、較正を可能にするようにシステムに知られている。

ステップＳ１０７では、次に、基準フレーム中でオブジェクトの部分を示す画素とさらなるフレーム中の複数の画素との類似度を示すマッチングスコアが得られる。これは図２を参照して説明される。

マッチングスコアは、複数のフレームに関して得られる。ステップＳ１０９では、特徴のデプスは、複数のさらなる画像から決定される。図３ａ−ｄを参照して説明したように、より多くの画像に関するデータが収集されると、ヒストグラムは、特徴においてマルチモーダルから実質的なユニモーダルに発展する（evolve）。さらに、多くの画像が利用可能な場合、デプスの周囲のユニモーダル分布に加えて、ヒストグラムは、追加のＤＣ成分を持つ。これは、同じデプス位置に典型的にクラスター化（cluster）しないマッチングスコア関数についての前述の不具合事例（failure case）に由来する。

マルチモーダル分布が見られる第１の画像から、ＤＣバックグラウンドを備えた単一モード（single mode）がある最終のヒストグラムへのこの遷移がある。好ましい実施形態では、この遷移を決定するために、確率的デプスセンサ（probabilistic depth sensor）が構築される。

確率的デプスセンサの役割は、この遷移を決定するために、パラメータに基づくアプローチを提供することにある。

まず、例えば図３ａに示されるようなマッチングスコアにおいて観測される極大値は、デプスセンサによってもたらされるノイズのある測定（noisy measurements）の組としてのｘ_１，．．．ｘ_Ｎとして規定される。

デプスセンサは、確率π及び１−πをそれぞれ備える次の２つのタイプの測定を生成することができる。
（１）正確なデプスＺの周囲で正常に分布される優良な（good）測定；又は
（２）区間［Ｚ_ｍｉｎ、Ｚ_ｍａｘ］から一様に選択されるアウトライア（outlier）測定。
境界Ｚ_ｍｉｎ及びＺ_ｍａｘは、オブジェクトの形状（geometry）についての何らかの予備知識、例えば、最長寸法（longest dimension）によって決定されることができる。例えば、オブジェクトがマット上に置かれる場合、マットの寸法が使用されることができる。この例において、距離２は、エピポーラ線に沿ってオブジェクトの中点から測定される。

対象のオブジェクトは、Ｚ_ｍｉｎとＺ_ｍａｘとの間に完全に含まれると保証される。次のガウシアンプラスユニフォーム混合モデル（Gaussian plus uniform mixture model）は、正確なデプス位置Ｚ及びインライア（inlier）確率πとして、ｔ番目の測定を得る確率を記述する。

優良な測定の分散τ_ｔ ^２は、測定を生成するフレームＩ及びＩ´でのカメラの相対的位置から確実に算出されることができる。これは、Ｉ´に投影された時に測定ｘ_ｔが１画素の固定の分散を持つと仮定されるからである。その後、この分散は、距離の単位で測定の分散を生成するために、３次元空間に上げられる（lifted）。これは図７を参照して説明される。

（上記の式１）の尤度は、パラメータが期待値最大化（ＥＭ）を使用してデータｘ_１，．．．ｘ_Ｎから容易に推定されることができるような典型的な混合モデルである。しかしながら、好ましい実施形態では、推定プロセスは、次の理由でベイズの事後推定（Bayesian posterior estimation）として定式化される。
１）推定問題は、画素ごとに場合によっては数千のデプス推定とともに無関係に約１００万の画素について実行されなければならない。手続きの前に全てのデータにアクセスする必要があるので、ＥＭは、メモリ又は計算の観点から実現可能ではない。さらに、ＥＭの増強バージョン（incremental version）は、収束するのが遅すぎること、及び測定の順序に依存することが分かった。

２）ＥＭのような最大尤度フレームワークにおいて提供されない推定の信頼度を維持することが望まれる。この信頼は、推定がいつ失敗したかを知るために使用されるとともに、十分な測定がいつ得られたかを理解するためにも使用される。

全ての測定ｘ_１，．．．ｘ_Ｎが独立であると仮定すると、事後確率は、次式から得ることができる。

これは、ベイズ更新式（Bayesian update equation）に関して次式のように定式化することができる。

ただし、ｔ＝１．．．Ｎである。図５ａ−ｈを参照すると、３つの列が図ごとに示されている。第１列（ｉ）は、図３ａ−ｄを参照して説明したように集められた列データを示すヒストグラムである。

図５ａ−ｄは、結果が収束する画素ｐに関する結果を示す。図５ｅ−ｈは、収束しない結果を示す。

図５ａでは、結果は、５つの更新、即ち、１つの第１の画像及び５つのさらなる画像の後に示される。図５ｂ及びｆは、１０の更新の後の結果を示し、図５ｃ及びｇは、２０の更新までの結果を示し、図５ｄ及びｈは、１００の更新の後の結果を示す。

列（ｉｉｉ）は、時間の経過とともに

の展開のスナップショットを示し、分布は、上述したように緻密な２次元ヒストグラムを使用してモデル化されている。分布は、Ｚ及びπに関して正確な値に収束する。しかしながら、画素ごとの完全な２次元ヒストグラムで事後（posterior）をモデル化することは、さらに、メモリ制限により非現実的である。

上述したように、激しいマルチモーダル分配は、少数の測定の後に単一モードに急速に収束する（例えば、２０の測定の後の結果を示す図５ｃを参照）。これは、事後確率に対するユニモーダルパラメトリック近似の使用を動機づける。

これは、ｔ番目の測定の後に上記の式２に示される事後確率に対するパラメトリック近似として次式を生成するために、β分布とガウシアンの積を使用して達成される。

（ｔ−１）番目の測定の後の事後パラメータをａ_ｔ−１，ｂ_ｔ−１，μ_ｔ−１，σ_ｔ−１とすると、事後分布は、ある定数Ｃに関して次の形態を持つ。

この分布は、もはやベータ×ガウシアンの形態ではなく、それは、モーメントマッチングを使用して近似されることができる。従って、新しいパラメータａ_ｔ，ｂ_ｔ，μ_ｔ，σ^２ _ｔは、式４が下記の分布として書かれることができるように定義され、Ｚ及びπに関して同じ１次及び２次モーメントを共有する。

このパラメトリック近似は、図５ａ−ｈの列（ｉｉ）に示される。その分布は、非常に低いインライア比に対して高い確率を与える。これが起こる場合、それは、推定が失敗したことを示すものであり、結果は無視されることができる。

図５ａ−ｄを見ると、２０の更新が受け取られる時までにパラメトリック近似（列（ｉｉ））が収束することが理解されることができる。しかしながら、図５ｅ−ｈに示される画素では、パラメトリック近似は、２０の更新受け取られる時（図５ｇ）までに収束せず、また、６０の更新が受け取られる時（図５ｈ）までにも収束しない。従って、このデータは収束しないとされる。

図６ａ、ｂ及びｃは、デプス推定がどのように達成されるかについてのさらなる展開を明らかにする。

図６ａでは、デプス推定は、平均値（太線）及び標準偏差（２つの外線）として示される。

図６ｂでは、インライア確率πが示され、それは、標準偏差に示されるように平均値を収束させるように見られる。

図６ｃは、上に重ねられたパラメトリックモデルデータ（実線）とともにヒストグラムデータを示し、従って、パラメトリックモデルが正確なデプスに収束することを示す。

上記のものを使用すると、オブジェクトのプロファイルは、図４のステップＳ１０９を参照して説明されるように決定されることができる。

次に、ステップＳ１１１において、３次元画像が作成されることができる。

全システムはこれより議論されるだろう。

模様のある（ridged）シーンのビデオシーケンス中の点及び線の特徴からカメラの６自由度の運動を追跡することができるシステムが利用可能である。ここで、特徴が検出されて追跡され、約０．１画素の平均投影エラーで６０Ｈｚのカメラフレームレートの場合、平面のパターンが使用される。好ましい実施形態では、オブジェクトは、複数の円のパターンを持つマット上に置かれる。複数の円を備えたパターンは、正確なカメラ位置の容易な認識を可能にする（図８ａを参照）。

画素ｐを通過して画像面Ｉから離れる光学視線（optic ray）に沿ったデプスＺを推定する問題は、推論問題である。サンプルの３次元デプスプロファイルを作成する場合、これらの推論問題の多くを解決することが必要である。推論問題の各々は、一度にオブジェクト上の全ての点に関する全ての推論問題を実行する計算能力及メモリを要求する。推論問題の各々は「シード（seed）」と称される。

メモリ及び計算の制限のために、固定数のシードがプロセスの全体を通じて保たれる。各シードは、パラメータ値のセット（ａ_ｔ，ｂ_ｔ，μ_ｔ，σ^２ _ｔ，Ｗ）に対応付けられる。パラメータａ_ｔ，ｂ_ｔ，μ_ｔ，σ^２ _ｔは、その画素に関するデプスＺ及びインライア比πを記述する。

最初の２つのａ_ｔ及びｂ_ｔは、式３のベータ分布の２つのパラメータである。インライア及びアウトライア測定がシードの存続期間（lifetime）中にいくつ発生したかのこれらの確率カウンタ（probabilistic counter）である。
他の２のパラメータμ_ｔ及びσ^２ _ｔは、ガウスのデプス推定の平均値及び分散を表す。実際には、デプスμ_ｔから−σ_ｔ及びσ_ｔ距離の単位離れて光学視線上に位置する２つの３次元点ｘ_−σ及びｘ_σとして、それらを格納することは便利である。これは、デプスＺが測定される３次元光学視線と同様に、分散パラメータμ_ｔ及びσ_ｔも経済的に（economically）カプセル化される（encapsulate）。

各シードでは、シードの基準画像の対応する画素の位置での基準画像パッチｗもまた格納される。このパッチは、デプス測定を得るために目標マッチと比較するのに使用される。シードが作成された場合、初期のパラメータは、ａ_０＝１０及びｂ_０＝１Ｏに設定される。デプスパラメータはμ_ｔであり、σ_ｔは、事前確率マス（prior probability mass）の９９％がプリセットされたＺ_ｍｉｎとＺ_ｍａｘとの間にあるように設定される。これらの境界は、興味のあるオブジェクトが位置するに違いない境界量（bounding volume）を規定する。

シードの存続期間中に、デプス測定は、シード画素ｐのマッチを含むエピポーラ線を得るために現在のビデオフレームにおいて基準パッチを探索することによって得られる。これは図７に示される。

理想的な場合では、エピポーラ線全体が探索されるだろう。しかしながら、前述したように、フレーム間の小さな移動のために、デプスの現在の推定が妥当である場合、事前平均値μ_ｔの投影から離れてｗ画素の範囲内で探索することが単に必要である。

前の測定が新しい測定における探索領域に影響するので、これは、デプスセンサ測定の独立の仮定を破る。しかしながら、これにもかかわらず、近似は、実際のところはうまくいき、性能の点で大幅な低下はない。

図８に示される実験データでは、ｗは２００万画素のカメラにおいて３画素にセットされる。基準パッチとエピポーラ線のこの内のパッチとの間のマッチングスコアがある。マッチングスコアの極大値はｘ_１からｘ_Ｎにおいて収集された。その後、新たな事後分布パラメータａ_ｔ＋１，ｂ_ｔ＋１，μ_ｔ＋１，σ^２ _ｔ＋１は、

の間で、Ｚ及びπでの１次及び２次モーメントをマッチングすることによって計算される。

極大値が検出されない場合、シードは、ｂ_ｔ＋１＝ｂ_ｔ＋１と設定することによりペナルティを課される（penalised）。これは、アウトライアである確信を持って知られているデプス測定で観察されるのと同じ効果がある。

次に、シードは取り除かれる（pruned）。上述したシード発展ステップの後に、各シードは３つの可能性に直面する。

１）シードは、優良な推定値に収束し、その結果、それはシードリストから除去されて、３次元点は現在の事後平均値μ_ｔで生成される。

２）シードは、あまりにも多くのアウトライアが存在することから収束しない。シードはその後リストから除去される。

３）シードは、十分に長く収束しないままとなり、従って、それは次の発展ステップに残存する。

各反復では、シードが正確なデプスに収束したか否かを決定し、さらに、それが最終的に収束する可能性があるか否かを確かめることが必要である。上記のフレームワークは、デプス事後の分散σ^２ _ｔ及び推定されたインライア確率πの形態でそのような決定基準を提供する。

それにより、次の基準が使用される。

２）インライア比が９９％の確率で閾値η_{ｉｎｌｉｅｒ}を超え、且つ、σ_ｔのデプス分散がε未満である場合、我々は、デプス推定が成功したと見なす。

３）他のすべての場合には、シードは、さらに発展することを許容される。

閾値パラメータ及びη_{ｏｕｔｌｉｅｒ}＝０．２、η_{ｉｎｉｉｅｒ}＝０．６であり、εの標準値は、境界ボリュームＺｍａｘ−Ｚｍｉｎの１／１００００である。シードの全セットの典型的な発展は、デプスの平均値及びインライア比が時間とともに点群全体に関して示される図９に示される。

図９ａ−ｆは、収束プロセスを示す。レンダリングされている（rendered）点は、シードごとの現在のデプス分布の平均を表す。これは白黒の図であるので、色を見ることはできない。しかしながら、好ましい実施形態では、各点は、平均インライア比を表す色に対応付けられるだろう。最初に、これは、ほとんどの点で０．５（茶色）に近い。最終的には、それは、多くのインライアを得るシードでは非常に高く（赤色）なり、インライアを得ないシードでは非常に小さく（緑色）になる。これらは、低い焦点又は低いテクスチャ変化の領域中の位置である画素に典型的には対応する。これらのシードは、最終的に廃棄されるだろう。

生成された３次元点は、リアルタイムにＺバッファシェーディング（Z-buffer shading）を用いて図形的に（graphically）レンダリングされた八分木構造（octree structure）に収集される。

好ましい実施形態では、アルゴリズムは、次の形態をとる。

ステップ１ − Ｓ＜ＭＡＸ＿ＳＥＥＤＳ（ここで、ＭＡＸ＿ＳＥＥＤＳは同時に処理されることができるシードの合計数である。）である場合、ａ_０＝１０、ｂ_０＝１０を備えた新たなシードでＭＡＸ＿ＳＥＥＤＳ−Ｓを生成し、（μ_０、σ_０ ^２）は事前確率マスの９８％があるプリセットＺ_ｍｉｎとＺ_ｍａｘとの間にあるようにする。現在の画像Ｉ中のシードの画素位置における四角のパッチ（square patch）をＷに格納する。

ステップ２ − 各シード（ａ_ｔ、ｂ_ｔ、μ_ｔ、σ_ｔ ^２、Ｗ）に関して、
（ａ）現在の画像Ｉより前のデプスの３次元手段（3D means）を投影する。

（ｂ）ＷとＩ中のパッチ（図７を参照）との間のマッチングスコアの極大値の、エピポーラ線に沿った１次元探索を実行し、ｘ_１．．．．．．．．ｘ_ｍにおいてこれら極大値を収集する。

（ｄ）極大値が見つからなかった場合、次のように設定する。

ステップ３ − ９９％の確率でπ＜η_{ｏｕｔｌｉｅｒ}となるように、全てのシード（ａ_ｔ、ｂ_ｔ、μ_ｔ、σ_ｔ ^２、Ｗ）を削除する。

ステップ４ − （１）９９％の確率でπ＞η_{ｉｎｌｉｅｒ}となり、且つ、（２）σ_ｔ＜εとなるように、全てのシード（ａ_ｔ、ｂ_ｔ、μ_ｔ、σ_ｔ ^２、Ｗ）を３次元点に収束する（そしてシードリストから削除する）。

２００万画素の解像度で小さいモデルハウスの６００フレームからなるビデオシーケンスの場合で実験が行われた。さらに、静止した（static）８００万画素カメラで３０の画像が収集された。

高解像度の画像は、既知の方法を使用して非常に正確な３次元の表面再構成を得るために使用された。これは、３つの異なるストラテジ（strategy）が比較されたベンチマークとして続いて使用された。

１）全シーケンス（６００フレーム）に対する上記の連続的ステレオアルゴリズムの使用。

２）２０フレームおきに（合計で３０フレーム）全シーケンス（６００フレーム）に対して連続的ステレオアルゴリズムの使用。

３）単純な実施で得られた一連の２視野の緻密ステレオデプスマップ（2-view dense stereo depth-maps）を計算するために上記したものと同じ３０フレームの使用。デプスマップは、連続する対のフレームから計算され、オリジナルのビデオシーケンスの順番で、我々は、フレーム０及び２０、２０及び３０、並びに、３０及び４０に関してデプスマップを計算する。

各ストラテジにおいては、約５０万個の頂点の点群（point cloud）が得られた。これは、その後に、距離をメッシュする（mesh）ために点群のヒストグラムを計算することにより、ベンチマークメッシュと比較された。

結果は、以下のように集約される。

正規化された２視野ステレオデプスマップのシーケンスは、同じセットの画像で動作する本発明の一実施形態に従う正規化されてない連続的なデプス推定より悪く機能する。

これは、本発明の一実施形態に従う方法がデプスマップの時間的連続性を十分に生かすという事実に起因する。正確さについての性能は、６００フレームの全てがデプス推定に加えられる場合にはより一層向上する。

図８ａは、ビデオシーケンスのフレームのうちの１つを示す。図８ｂは、高解像度のカメラを使用してベンチマーク再構成を示す。

図８ｃは、３０の２視野（two-view）デプスマップを結合した結果を示す。図８ｄは、同じ画像上で動作する連続的デプス推定結果を使用する本発明に従う方法の結果を示し、図８ｅは、６００の画像の全てに関するアルゴリズムの結果を示す。

整えられた（regularised）２視野ステレオデプスマップのシーケンスは、画像の同じセットに対して動作する整えられてない連続的デプス推定より悪く機能する。これは、本発明がデプスマップの一時的な連続性を十分に生かすという事実による。正確さの性能は、６００のフレームの全てがデプス推定に追加される場合により一層向上する。

図１０（ａ）から（ｄ）は、約４０秒以内に収集された画像を示す。モデルは、いかなる方法によっても整えられておらず、或いは、後処理されていない。

Claims

オブジェクトの３次元デプスプロファイルを生成するシステムであって、前記システムは、
移動可能なビデオカメラであって、前記カメラが移動されながら前記オブジェクトの２次元画像データを継続的に取得するように構成されるビデオカメラと、前記２次元画像データは複数の２次元画像フレームとして取得され、前記フレームの各々は複数の画素を含み、
前記２次元画像データを受け取り、
前記取得されたフレームの各々に関して前記カメラの位置を決定し、
第１のフレーム中の画素に示されるオブジェクトの部分のデプスを計算し、前記デプスは基準に対して定められ、前記デプスは、少なくとも１つのさらなるフレーム中で前記オブジェクトの前記部分を識別して、前記第１のフレーム及び前記少なくとも１つのさらなるフレームのカメラ位置を使用して前記デプスを計算することにより決定され、
前記オブジェクトのデプスプロファイルを決定するように構成されるプロセッサと、
を具備し、前記デプスプロファイルは、前記画素に示される前記オブジェクトの複数の部分に関して決定され、
前記システムは、リアルタイムにデータがいまだに収集されているという表示及び前記デプスプロファイルを表示するように構成されるディスプレイをさらに具備し、前記デプスプロファイルは前記オブジェクトの前記部分に関して計算され、前記オブジェクトのデプスは、複数の画像に関するデプスに対するマッチングスコアの分布が特徴において実質的にユニモーダルになるときに算出され、前記マッチングスコアは前記第１のフレーム中の画素と前記さらなるフレーム中の画素との類似度を示す、システム。
前記デプスは、第１のフレーム中の画素と前記複数のフレームのうちの少なくとも１つのさらなるフレーム中の複数の画素との類似度を決定することによって計算され、さらなるフレーム中の前記複数の画素は、前記さらなるフレーム中のエピポーラ線に沿って位置され、前記エピポーラ線は、前記オブジェクトの前記部分の可能性があるデプスを示す、請求項１のシステム。
前記第１のフレームと前記さらなるフレームとの間で前記カメラが移動される距離は、前記さらなるフレーム中でそれらの類似度を決定するために処理される前記エピポーラ線に沿った画素の数を決定するために使用される、請求項２のシステム。
前記マッチングスコアは、前記エピポーラ線に沿った画素に関して決定され、前記第１のフレーム中の前記画素に関するポテンシャルマッチは、デプスに依存する場合に前記マッチングスコアの極大値として選択される、請求項２のシステム。
複数の画像に関するデプスに応じた前記マッチングスコアは、オブジェクトの前記部分のデプスに関する単一の値を決定するために結合される、請求項４のシステム。
デプスに対するマッチングスコアの分布は、一様分布及びユニモーダル分布の混合としてモデル化される、請求項５のシステム。
ユニモーダル分布は、ガウス分布である、請求項６のシステム。
重みが前記ユニモーダル分布に与えられ、前記重みは、前記ユニモーダル分布によって示されるデプスが良い測定である確率を示す、請求項６又は７のシステム。
前記モデルのパラメータは、ベイズの事後推定を使用して推定される、請求項８のシステム。
前記モデルは、次のタイプの分布によって近似され、

ここで、ｘ_ｔはｔ番目の点であり、Ｚはデプスであり、πは重みであり、ａ及びｂはベータ分布のパラメータであり、μ及びσ^２は前記ユニモーダル分布の平均値及び標準偏差である、請求項９のシステム。
前記プロセッサは、前記第１のフレーム中の隣接した画素に関するデプスを決定しようとする、請求項１乃至１０のいずれか一項のシステム。
前記マッチングスコアは、正規化相互相関又は差分絶対値和によって決定される、請求項１乃至１１のいずれか一項のシステム。
前記オブジェクトが置かれるマットをさらに具備し、前記マットは、フレームごとに前記カメラの位置を計算するために使用される既知のパターンを有する、請求項１乃至１２のいずれか一項のシステム。
前記マットは、複数の円を含むパターンを有する、請求項１３のシステム。
基準からのオブジェクトの部分のデプスを決定するためのデプスセンサであって、
移動可能なビデオカメラであって、前記カメラが移動されながら前記オブジェクトの２次元画像データを継続的に取得するように構成されるビデオカメラと、前記画像データは複数の２次元画像フレームとして取得され、前記フレームの各々は複数の画素を含み、
前記２次元画像データを受け取り、
前記取得されたフレームの各々に関して前記カメラの位置を決定し、
第１のフレーム中でデプスが測定されることになるオブジェクトの部分を識別し、
前記オブジェクトの前記部分のデプスに応じて、第１のフレーム中で前記オブジェクトの前記部分を示す画素とさらなるフレーム中の複数の画素の各々との類似度を示すマッチングスコアを決定し、前記デプスは、前記第１のフレーム及び前記さらなるフレームのカメラ位置を使用して決定され、
複数のさらなるフレームに関してデプスに応じた前記マッチングスコアを取得し、デプスに応じた前記マッチングスコアを、以前に取得されたマッチングスコアと結合し、
さらなるフレームからのデータが結合されている時に、デプスに応じた前記マッチングスコアの分布を継続的にモニタリングし、
デプスに応じた前記マッチングスコアの前記分布が実質的にユニモーダルになる場合に、前記オブジェクトの前記部分のデプスを決定するように構成されるプロセッサと、を具備するデプスセンサ。
前記プロセッサは、ユニモーダル分布及び一様分布の混合として前記分布をモデル化し、重み係数を前記ユニモーダル分布に適用するように構成され、前記重みは、前記分布がいつ実質的にユニモーダルになるよう発展するかの表示を提供する、請求項１５のデプスセンサ。
前記マッチングスコアは、正規化相互相関又は差分絶対値和によって決定される、請求項１５又は１６のデプスセンサ。
オブジェクトの３次元デプスプロファイルを生成する方法であって、
移動可能なビデオカメラを使用して前記オブジェクトの２次元画像データを継続的に取得することと、前記画像データは複数の２次元画像フレームとして取得され、前記フレームの各々が複数の画素を含み、
前記取得されたフレームの各々に関して前記カメラの位置を決定することと、
第１のフレーム中の画素に示されるオブジェクトの部分のデプスを計算することと、前記デプスは基準に対して定められ、前記デプスは、少なくとも１つのさらなるフレーム中で前記オブジェクトの前記部分を識別して、前記第１のフレーム及び前記少なくとも１つのさらなるフレームのカメラ位置を使用して前記デプスを計算することによって決定され、
前記オブジェクトのデプスプロファイルを決定することと、前記デプスプロファイルは、前記画素に示される前記オブジェクトの複数の部分に関して決定され、
リアルタイムにデータがいまだに収集されているという表示及び前記デプスプロファイルを表示することと、前記デプスプロファイルは前記オブジェクトの前記部分に関して計算され、前記オブジェクトのデプスは、複数の画像に関するデプスに対するマッチングスコアの分布が特徴において実質的にユニモーダルになるときに算出され、前記マッチングスコアは前記第１のフレーム中の画素と前記さらなるフレーム中の画素との類似度を示す、
を具備する方法。
基準からのオブジェクトの部分のデプスを決定する方法であって、前記方法は、
移動可能なビデオを使用して前記オブジェクトの２次元画像データを継続的に取得することと、前記画像データは複数の２次元画像フレームとして取得され、前記フレームの各々が複数の画素を含み、
前記取得されたフレームの各々に関して前記カメラの位置を決定することと、
第１のフレーム中でデプスが測定されることになるオブジェクトの部分を識別することと、
前記オブジェクトの前記部分のデプスに応じて、第１のフレーム中の前記オブジェクトの前記部分を示す画素とさらなるフレーム中の複数の画素の各々との類似度を示すマッチングスコアを決定することと、前記デプスは、前記第１のフレーム及び前記さらなるフレームのカメラ位置を使用して決定され、
複数のさらなるフレームに関してデプスに応じた前記マッチングスコアを取得し、デプスに応じた前記マッチングスコアを、以前に取得されたマッチングスコアと結合することと、
さらなるフレームからのデータが結合されている時に、デプスに応じた前記マッチングスコアの分布を継続的にモニタリングすることと、
デプスに応じた前記マッチングスコアの前記分布が実質的にユニモーダルになる場合に、前記オブジェクトの前記部分のデプスを決定することと、
を具備する、方法。
オブジェクトの３次元デプスプロファイルを生成するプログラムであって、
コンピュータを、
移動可能なビデオカメラを使用して前記オブジェクトの２次元画像データを継続的に取得する手段と、前記画像データは複数の２次元画像フレームとして取得され、前記フレームの各々が複数の画素を含み、
前記取得されたフレームの各々に関して前記カメラの位置を決定する手段と、
第１のフレーム中の画素に示されるオブジェクトの部分のデプスを計算する手段と、前記デプスは基準に対して定められ、前記デプスは、少なくとも１つのさらなるフレーム中で前記オブジェクトの前記部分を識別して、前記第１のフレーム及び前記少なくとも１つのさらなるフレームのカメラ位置を使用して前記デプスを計算することによって決定され、
前記オブジェクトのデプスプロファイルを決定する手段と、前記デプスプロファイルは、前記画素に示される前記オブジェクトの複数の部分に関して決定され、
リアルタイムにデータがいまだに収集されているという表示及び前記デプスプロファイルを表示する手段として機能させ、前記デプスプロファイルは前記オブジェクトの前記部分に関して計算され、前記オブジェクトのデプスは、複数の画像に関するデプスに対するマッチングスコアの分布が特徴において実質的にユニモーダルになるときに算出され、前記マッチングスコアは前記第１のフレーム中の画素と前記さらなるフレーム中の画素との類似度を示す、プログラム。
基準からのオブジェクトの部分のデプスを決定するプログラムであって、
コンピュータを、
移動可能なビデオを使用して前記オブジェクトの２次元画像データを継続的に取得する手段と、前記画像データは複数の２次元画像フレームとして取得され、前記フレームの各々が複数の画素を含み、
前記取得されたフレームの各々に関して前記カメラの位置を決定する手段と、
第１のフレーム中でデプスが測定されることになるオブジェクトの部分を識別する手段と、
前記オブジェクトの前記部分のデプスに応じて、第１のフレーム中の前記オブジェクトの前記部分を示す画素とさらなるフレーム中の複数の画素の各々との類似度を示すマッチングスコアを決定する手段と、前記デプスは、前記第１のフレーム及び前記さらなるフレームのカメラ位置を使用して決定され、
複数のさらなるフレームに関してデプスに応じた前記マッチングスコアを取得し、デプスに応じた前記マッチングスコアを、以前に取得されたマッチングスコアと結合する手段と、
さらなるフレームからのデータが結合されている時に、デプスに応じた前記マッチングスコアの分布を継続的にモニタリングする手段と、
デプスに応じた前記マッチングスコアの前記分布が実質的にユニモーダルになる場合に、前記オブジェクトの前記部分のデプスを決定する手段として機能させるためのプログラム。