JP2016500169A - アノテーション方法および装置 - Google Patents

アノテーション方法および装置 Download PDF

Info

Publication number
JP2016500169A
JP2016500169A JP2015534916A JP2015534916A JP2016500169A JP 2016500169 A JP2016500169 A JP 2016500169A JP 2015534916 A JP2015534916 A JP 2015534916A JP 2015534916 A JP2015534916 A JP 2015534916A JP 2016500169 A JP2016500169 A JP 2016500169A
Authority
JP
Japan
Prior art keywords
data
plenoptic
captured
program code
light field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015534916A
Other languages
English (en)
Inventor
リム,ロラン
モネ,マティウ
エイエ,セルジュ
ヴェテルリ,マルタン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vidinoti SA
Original Assignee
Vidinoti SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vidinoti SA filed Critical Vidinoti SA
Publication of JP2016500169A publication Critical patent/JP2016500169A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/21Intermediate information storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】既存の拡張現実システムの問題点を解決または軽減する。【解決手段】アノテーション方法が、プレノプティック画像キャプチャデバイス(4)でライトフィールドを表わすデータをキャプチャするステップ(100)と;キャプチャされたデータを対応する基準データとマッチングするステップ(101)と;前記基準データの一要素と結びつけられたアノテーションをリトリーブするステップ(102)と;前記キャプチャされたデータから生成され少なくとも1つのアノテーションを含むビューをレンダリングするステップ(103)と;を含む。【選択図】図3

Description

本発明は、シーンに対応するデータに対してアノテーションを付加するためのアノテーション方法に関する。
スマートフォン、パームトップコンピュータ、ポータブルメディアプレーヤー、携帯情報端末(PDA)デバイスなどのハンドヘルドポータブルデバイスの開発における急速な進歩のため、画像処理が関与する新規フィーチャおよびアプリケーションを含み入れることが提案されるに至っている。このようなアプリケーション、すなわち画像アノテーションまたはキャプショニングにおいては、ユーザーは1つのシーン、例えば景色、建物、ポスターまたは美術館内の絵画の方にポータブルデバイスを向け、ディスプレイはそのシーンに関係する重ね合わされた情報と共に画像を示す。このような情報としては、例えば山や居住地の名称、人の名前、建物の歴史的情報および広告などの商業的情報、例えばレストランのメニューなどが含まれ得る。このようなシステムの一例は、欧州特許第1246080号明細書および欧州特許出願公開第2207113号明細書中に記載されている。
アノテーション情報は、無線通信ネットワーク内にあるサーバーによりポータブルデバイスに供給され得る。ここでは、サーバーおよびポータブルデバイスを伴う通信ネットワークの対応する機能的構成をアノテーションシステムと呼称する。
国際公開第05/114476号は、携帯電話および遠隔認識サーバーを含むモバイル画像に基づく情報リトリーブシステムについて記載している。このシステムでは、携帯電話のカメラで撮影した画像は遠隔サーバーに伝送され、ここで認識プロセスが実施される。こうして、画像を伝送するための高い帯域幅の必要性ならびに、サーバー内でアノテーションを計算しそれらを携帯電話に伝送し戻すための遅延が導かれる。
多くのアノテーションシステムおよび方法に、データベース内に記憶された一組の基準画像とアノテーションデバイスが獲得した画像とを比較するステップが含まれている。実際の視野角および照明条件は、データベース内に記憶された画像に比べて異なることから、比較アルゴリズムはこれらのパラメータの影響を除去しなければならない。
さらなるより高性能の画像アノテーション技術では、3D基準(reference)モデルが使用される。多くの場合、これにはレジストレーションプロセス、すなわち、キャプチャした(またはターゲット)画像を基準3Dモデルと合致(align with)するように空間的に変換するプロセスが関与する。例えば建物の場合、オブジェクトの3Dモデルは、アノテートすべき詳細と共に基準データベース内に記憶される。ポータブルデバイスが獲得した2D画像はこのモデルとレジストレーションされ、マッチを発見できた場合、オブジェクトは認識され、対応するアノテーションが2D画像上に重ね合わされる。
3Dモデルに基づく画像アノテーションモデルは、2Dモデルに比べ、視野角への依存度がより少ないという利点を有する。異なる場所から異なる角度でキャプチャされた複数の異なる2D画像とのマッチングのための基準として、単一の3Dモデルを使用することができる。しかしながら、3Dモデルのコレクションを構築することは、困難でかつ面倒なプロセスである。これには通常3Dまたはステレオカメラが必要である。その上、2Dキャプチャ画像と3Dモデルをレジストレーションするプロセスは、時間を要するものである。
したがって、本発明の目的は、既存の拡張現実(augmented reality)システムの上述の問題点を解決するかまたは少なくとも軽減することにある。
本発明によると、これらの目的は、
− プレノプティック(plenoptic)キャプチャデバイスでライトフィールド(light field)を表わすデータをキャプチャするステップと;
− キャプチャされたデータを対応する基準データとマッチングするためのプログラムコードを実行するステップと;
− 前記基準データの一要素と結びつけられたアノテーションをリトリーブするためのプログラムコードを実行するステップと;
− 前記キャプチャされたデータから生成され少なくとも1つのアノテーションを含むビューをレンダリングするためのプログラムコードを実行するステップと;
を含む方法を介して達成される。
本発明はまた、
シーンに対応するデータをキャプチャしアノテートするための装置であって、
− ライトフィールドを表わすデータをキャプチャするためのプレノプティックカメラと;
− プロセッサと;
− ディスプレイと;
− プログラムコードであって、前記プログラムコードが実行された時に、前記プロセッサに、前記カメラでキャプチャされたデータの一要素に結びつけられたアノテーションをリトリーブさせるための、および、キャプチャされたデータから生成され、少なくとも1つのアノテーションを含むビューを前記ディスプレイ上にレンダリングするための、プログラムコードと;
を含む装置を介して達成される。
本発明はまた、アノテーションを決定するための装置であって、
− プロセッサと;
− ストアと;
− プログラムコードであって、前記プログラムコードが実行された時に前記プロセッサに、ライトフィールドを表わすデータを受信させ、前記データを前記ストア内の一つの基準データとマッチングさせ、前記基準データと結びつけられたアノテーションを決定させ、そして遠隔デバイスに対して前記アノテーションを送信させるための、プログラムコードと;
を含む装置をも提供する。
プレノプティックカメラは、それ自体公知であり、低価格で市販されている。センサー上にシーンの2D投影をキャプチャするだけである従来のカメラとは異なり、プレノプティックカメラはライトフィールドを表わすデータを、すなわち各ピクセル上の光の強度だけでなくこのピクセル/サブ画像に達する光の方向あるいは少なくともさまざまな方向から各単一のサブ画像に達する光の強度をも示すマトリクスを表わすデータをキャプチャする。
したがって、プレノプティックセンサーは、従来の2D画像センサーによって生成される従来の2D画像データよりも多くの、各サブ画像に達する光についての情報を含むデータを生成する。
プレノプティックセンサーにより生成されるデータは、従来の3Dセンサーからも立体カメラ(stereoscopic camera)からも直接入手できないシーンについての情報を含んでいる。したがって、より多くのそして異なる情報が利用可能であることから、基準データとキャプチャされたデータのマッチングプロセスは、2D画像と2Dまたは3Dモデルをマッチングする従来の方法よりもさらに信頼性が高い。キャプチャされたシーンについてより多くの情報を有することは、認識パフォーマンスを改善しレジストレーションの質を改善する上で有益であるということが、直観的に理解できる。
プレノプティックカメラにより提供されたデータとモデルのマッチングも同様に、3Dモデルと2Dまたは3Dキャプチャ画像データとのマッチングに比べてより堅牢である。
ライトフィールドを表わしプレノプティックセンサーによりキャプチャされたデータのマッチングには、ライトフィールドデータを2D画像上に投影し、この2D画像を2Dまたは3D基準モデルとマッチングするステップが含まれていてよい。異なる投影(例えばプレノプティック画像のレンダリング中に選択可能な異なる焦点に対応するもの)が可能であることから、このプロセスの結果、マッチングの尤度は増大することになる。しかしながら、このまたはこれらの投影を計算するためには追加のリソースが必要とされ、キャプチャされたシーンについての情報は、対話中に失なわれ、結果としてマッチングの精度および速度が低下する。
したがって、一実施形態において、プレノプティックセンサーによってキャプチャされたデータは、基準ライトフィールドを表わす基準データとマッチングさせられる。有利には、このマッチングは、キャプチャされたライトフィールドデータを2D画像上に全く投影せずに、かつ/または基準ライトフィールドデータを2D画像上に全く投影せずに実施される。したがって、マッチングは、完全にプレノプティックドメイン内で、2Dまたは3D画像上へのコンバージョンに起因して情報が失なわれることなく、かつ1シーンの各点における明度に基づくのみならず、キャプチャされたデータおよび基準データにおける光線上の方向にも基づいて行われる。
方法は、キャプチャされたライトフィールドデータを基準ライトフィールドデータ上へレジストレーションするステップを含んでいてよい。このレジストレーションプロセスは、キャプチャされたライトフィールドデータと表示すべき種々のアノテーションとの間の幾何学的関係を発見することを目的としている。例えば、地図データの場合、レジストレーションプロセスの最終目的は、プレノプティックセンサーによりキャプチャされたライトフィールドが基準マップ内のどこに存在するかを見い出して、後に正しい場所で地図アノテーションをオーバーレイできるようにすることにある。プレノプティック空間内において全面的にこのレジストレーションプロセスを実施することによって、ライトフィールドを表わすデータ内に存在する情報全てが使用され、シーンのより精確なアノテーションが生み出される。
方法には、キャプチャされたライトフィールドデータと、異なる位置でプレノプティックセンサーによって生成された基準ライトフィールドデータとをマッチングするステップが含まれていてよい。方法には、キャプチャされたライトフィールドデータと、異なる距離でプレノプティックセンサーにより生成された基準ライトフィールドデータとをマッチングするステップが含まれていてよい。方法には、キャプチャされたライトフィールドデータと、異なるタイプのプレノプティックセンサーにより生成されたかまたは各サブ画像内に異なる数のピクセルを有する基準ライトフィールドデータとをマッチングするステップが含まれていてよい。
キャプチャされたライトフィールドデータと基準ライトフィールドデータのレジストレーションを実施することにより、基準ライトフィールドデータ内に存在するより完全な情報と適切かつ精確にレジストレーションするために、キャプチャされたライトフィールドデータ内に存在するすべての情報が活用され、こうしてシーンのアノテーションを適切かつ精確に行うことができるようになる。
本発明は、一例として提供され図中に示されている実施形態の説明を用いることによってより良く理解できる。
オブジェクトが第1の距離にある状態で、シーンのライトフィールドを表わすデータをキャプチャするプレノプティックカメラを概略的に示す図である。 オブジェクトが第2の距離にある状態で、シーンのライトフィールドを表わすデータをキャプチャするプレノプティックカメラを概略的に示す図である。 オブジェクトが第3の距離にある状態で、シーンのライトフィールドを表わすデータをキャプチャするプレノプティックカメラを概略的に示す図である。 共に本発明を実施するさまざまな装置要素を含むシステムを概略的に示す図である。 ライトフィールドを表わすデータをキャプチャし、アノテートされた2D画像をレンダリングするための方法のブロック図である。 グローバルモデルを用いたローカルレジストレーション方法のブロック図である。 プレノプティック空間内のグローバルレジストレーション方法のブロック図である。
センサー上に1シーンの2D投影をキャプチャするだけである従来のカメラとは異なり、プレノプティックセンサーは、所与のシーン内に存在する完全なライトフィールドをキャプチャすることを目指す。完全なライトフィールドは、各ピクセルについて7つのパラメータすなわち、位置について3つ、方向について2つ、波長について1つ、そして時間について1つのパラメータを含んでいてよい。
プレノプティックセンサーは、いわゆるプレノプティックライトフィールドを表わすデータ、すなわち、マトリクスであって、該マトリクスからこれらのパラメータのうちの少なくとも4つを、つまりプレノプティックセンサーの各ピクセルをヒットする光線の2D位置および2D方向を計算し得るマトリクスを表わすデータを生成する。我々はこのデータを「ライトフィールドデータ」と呼ぶ場合がある。
今日現在、少なくとも2社が、このようなプレノプティックライトフィールドを記録できるプレノプティックセンサーを提案している。すなわちLytroとRaytrixである。これらの会社の2つのカメラは、設計がわずかに異なっているものの、主要な考え方は、標準的カメラセンサーにおいて単一のフォトサイト(またはピクセル)に当たると想定される光の異なる方向を分解(decompose)することにある。この目的のために、図1に示されている通り、従来のカメラのセンサーに代ってマイクロレンズ20のアレイがメインレンズ1の背後に設置されている。画像センサー21は、後方に移動させられる。
こうして、マイクロレンズ20は、光線をその入射角にしたがって方向転換させ、方向転換された光線は、センサー21の異なるピクセル210に達する。サブ画像を作るN×M個のピクセル210の各々が測定する光の量は、サブ画像の前のマイクロレンズ20をヒットする光ビームの方向に左右される。
図1〜3は、n=9個のサブ画像を含む単純な一次元センサーを示し、各サブ画像はN×M個のピクセル(またはフォトサイト)210の1つの行を有し、この例においてNは3に等しく、Mは1に等しい。多くのプレノプティックセンサーは、より多くのサブ画像と各サブ画像についてより多くのピクセル、例えば9×9個のピクセルを有し、マイクロレンズ20上でN×M=81個の異なる光の配向の間での識別を可能にしている。シーンの全てのオブジェクトの焦点が合っていると仮定すると、こうして各サブ画像は、そのサブ画像上にさまざまな方向から来る光の量を表わす明度値のパッチを含む。
この構造において、マイクロレンズ20のアレイは、カメラのメインレンズ1により形成される画像平面上に位置づけられ、センサー21はマイクロレンズから距離fのところに位置づけられ、ここでfはマイクロレンズの焦点距離である。この設計は、高い角度分解能を可能にするものの、空間分解能が比較的低い(レンダリングされた画像あたりの有効ピクセル数は、マイクロレンズの数に等しい)。この問題は、マイクロレンズがメインレンズの画像平面上に焦点を合わせ、こうしてマイクロレンズと画像平面の間にギャップを創出している他のプレノプティックカメラにより対処される。このような設計には、角度分解能の低下という代償が伴う。
図1〜3を見ればわかるように、この例において単一の点3を有するシーンに対応するプレノプティックライトフィールドは、点3からメインレンズ1までの距離によって左右される。図1では、このオブジェクトからの全ての光ビームは同じマイクロレンズ20に達し、こうして、このマイクロレンズに対応するサブ画像内の全てのピクセルが第1の正の光強度を記録する一方で、他のレンズに対応する他のピクセル全てが、異なる、ヌル(null)の光強度を記録するプレノプティックライトフィールドが、結果としてもたらされる。オブジェクト3がレンズ1により近接している図2では、点3に由来する一部の光ビームは、他のサブ画像、すなわち前にヒットされていたマイクロレンズに隣接する2つのマイクロレンズに結びつけられたサブ画像のピクセルに達する。オブジェクト3がレンズ1からさらに大きい距離のところにある図3では、点3に由来する一部の光ビームが、前にヒットされていたマイクロレンズに隣接する2つのマイクロレンズに結びつけられた異なるピクセルに達する。したがって、センサー21により送出されるデジタルデータ22は、オブジェクト3までの距離によって左右される。
こうして、プレノプティックセンサー21は、マイクロレンズ20に対応する各サブ画像について、このサブ画像の上にあるレンズ上にさまざまな方向から来る光の量を表わすN×M個の値の1セットを含むライトフィールドデータ22を送出(deliver)する。所与の焦点合せされたオブジェクト点について、サブ画像の各ピクセルは、一定の入射角でセンサーをヒットする光線の強度尺度に対応する。
光線の方向を知ることの利点は、多数ある。光線を入念に再整理することによって、他のタスクの中でも、再焦点合せ(refocusing:シーン内で焦点が合っているオブジェクトを変えること)を実施することが、または、カメラの視点を変更することができる。
図4は、本発明を実施するアノテーションシステムのブロック図を概略的に示す。システムは、ユーザーデバイス4、例えばハンドヘルドデバイス、スマートフォン、タブレット、カメラ、メガネ、ゴーグルなどを含む。デバイス4は、シーン3上のライトフィールドを表わすデータをキャプチャするための図1〜3に示されたカメラなどのプレノプティックカメラ41と、好適なプログラムコードを伴うマイクロプロセッサ400などのプロセッサと、インターネット6などのネットワーク上で例えばクラウドサーバーなどの遠隔サーバー5とデバイス4を接続するためのセルラーインターフェースおよび/またはWIFIなどの通信モジュール401とを含む。サーバー5は、基準ライトフィールドデータコレクションおよび/または1つまたは複数のグローバルモデルを記憶するための、SQLデータベースなどのデータベース、1組のXMLドキュメント、1組のライトフィールドデータ画像などを伴うストレージ50と、アノテーション方法において必要とされるオペレーションをマイクロプロセッサに実施させるためのコンピュータコードを伴うマイクロプロセッサを含むプロセッサ51とを含む。アノテーションおよび対応する位置も同様に、基準ライトフィールドデータと共にストレージ50内に記憶可能である。
ユーザーデバイス4により実行されるプログラムコードは、例えば、ユーザーがユーザーデバイス4内にダウンロードしインストールできるアプリケーションソフトウェアまたはappを含むことができてよい。プログラムコードはまた、ユーザーデバイス4のオペレーティングコードの一部を含むこともできてよい。プログラムコードはまた、例えばJava(登録商標)、Javascript、HTML5コードなどを含めた、ウェブページ内に埋め込まれたまたはブラウザ内で実行されるコードを含むこともできてよい。プログラムコードは、フラッシュメモリー、ハードディスク、または任意のタイプの永久的または半永久的メモリーなどの有形装置可読媒体(tangible apparatus readable medium)中に、コンピュータプログラム製品として記憶されてよい。
プログラムコードは、マイクロプロセッサが、ライトフィールドに対応するキャプチャされたデータセット、またはこれらのデータセットのフィーチャのうちの少なくとも一部を遠隔サーバー5に対して送るようにするために、ユーザーデバイス4内でマイクロプロセッサ400により実行される。プログラムコードは、このライトフィールドデータを「プレノプティックフォーマット」で、すなわち光線の方向についての情報を失なうことなく送るために配置されている。プログラムコードはまた、マイクロプロセッサ400に、サーバー5からライトフィールドフォーマットにおけるアノテートされたデータ、またはアノテートされた画像、または先に送られたライトフィールドデータに関連するアノテーションを受取らせ、アノテーション付きのキャプチャされたデータに対応するビューをレンダリングさせることもできる。
一実施形態において、ユーザーデバイス4内のプログラムコードはまた、キャプチャされたデータ内に存在するローカルフィーチャを識別するための、およびこのローカルフィーチャの記述を計算、例えばプログラムコードが遠隔サーバー5に対して送らせることのできるバイナリーベクトル(binary vector)を計算するためのモジュールをも含んでいる。
サーバー5内でマイクロプロセッサにより実行されるプログラムコードには、サーバー5に以下のタスクのうちの少なくとも一部を実行させるための実行可能なプログラムまたは他のコードが含まれていてよい:
− ライトフィールドを表わすデータをデバイスから受信すること;
− プレノプティックフォーマットでモデルおよび/または複数の基準データをリトリーブすること;
− ユーザーデバイスから受信したデータを、前記モデルの一部分と、または複数の基準データの中の1つとそれぞれ、マッチングすること;
− モデル結びつけられた、または複数の基準データの中の1つとそれぞれ結びつけられたアノテーションを決定すること;
− デバイスに対して、受信データに対応する、アノテーション、アノテートされた画像またはアノテートされたデータを送ること。
さまざまな実施形態において、サーバー内の基準データとのマッチングのためにキャプチャデータセットを遠隔サーバに送る代りに、このマッチングを、ローカルに記憶された基準データのセットまたはユーザーデバイス内にローカルに記憶されたモデルと、ローカルで行うことが可能である。
ここで、図1〜4のシステム、装置および配置を用いて実施できる方法のさまざまな考えられる実施形態について説明する。
A.プレノプティックローカルフィーチャに基づく多数の独立した基準データセット
一実施形態において、サーバー5のストレージ50内で、ライトフィールドを表わす既知でかつ前にキャプチャされた基準データセットのコレクション、例えばプレノプティックカメラで前にキャプチャされたかまたは3Dモデルからコンバートされた基準データのコレクションが入手可能である。この場合、適切なレジストレーションが可能になる前に、マッチングデータは基準データのセットから認識されなければならない。マッチング基準データとのレジストレーションが行われるのは、その後でしかない。
本実施形態において使用される、あり得る一連のステップが、図5に示されている。これには以下のものが含まれる:
ステップ100:アノテートすべきライトフィールドがユーザーデバイス4内でプレノプティックカメラ41によりキャプチャされるか、または、ライトフィールドデータの任意の考えられるソースからリトリーブされる。キャプチャされたプレノプティックライトフィールドの2D投影がユーザーデバイス4の2Dディスプレイ40上に表示されてよいが、データは好ましくは、ライトフィールドデータとして、すなわち各サブ画像上の入射光線の方向についての情報を失なうことなく記憶される。
ステップ101:基準データをキャプチャするために使用されるプレノプティックカメラが、アノテートすべきライトフィールドデータをキャプチャするために使用されるプレノプティックカメラと同じタイプのものでない場合には、プロセスは、いずれか一方のデータを他方のデータのフォーマットにコンバートまたはリサンプリングするステップ101を含んでいてよい。例えば異なるプレノプティックカメラが、各サブ画像内に異なる数のピクセルを有するライトフィールドデータを生成するかまたは、異なる方法でライトフィールドをサンプリングしてもよい。このコンバージョンは、ユーザーデバイス4および/または遠隔サーバー5内で行うことができてよい。
ステップ102:キャプチャされたデータ内のローカルフィーチャの検出。以下で記述するように、例えば、DPF(depth plenoptic feature:深さプレノプティックフィーチャ)アルゴリズムにしたがうことによってか、またはライトフィールド内に含まれる視差情報(disparity information)を使用することによってか、あるいは、エピポーラボリューム(epipolar volume)でライトフィールドを表現することによって、検出を行うことができる。他の検出方法および他のタイプのローカルフィーチャを使用してもよい。使用されるローカルフィーチャのタイプおよび検出方法は、シーン、場所、ユーザーの選択などによって左右される可能性がある。
ステップ103:キャプチャデータ内で検出されたこれらのローカルフィーチャの記述。先行ステップの間に検出されたローカルフィーチャのタイプに応じて、例えば、以下で説明するように、バイナリーベクトル、またはエピポーラボリュームでの視差またはローカルフィーチャ点の記述によりうまく適応させられた他の記述子(descriptor)などを含め、異なるタイプの記述子を使用できると考えられる。ローカルフィーチャの検出および記述は、有利には、サーバー5にこれらの短かい記述を送ることしか必要としないユーザーデバイス4内の好適なソフトウェアモジュールによって行われる。完全なライトフィールドデータをサーバー5に送ることも同様に可能であり、サーバー5はそしてローカルフィーチャを検出し記述するが、この結果として、利用可能な帯域幅の使用効率は低くなると考えられる。
ステップ104:記述されたローカルフィーチャに基づく、キャプチャされたデータの認識。これは様々な方法で行うことができる。一実施形態においては、ローカルフィーチャを量子化し(ステップ1040)、その後この量子化されたフィーチャを用いて、ステップ1041の間に、同じ(またはほぼ同じ)量子化されたフィーチャセットを有する基準データを検索することができる。基準データは、ユーザーデバイスからおよび/または遠隔サーバー5内の遠隔ストレージ50からリトリーブされてよい。基準データのプレフィルタリングは、さまざまなフィルタリングクリテリア(criteria)、例えば衛星または地上(terrestrial)位置特定システムから予め決定されたユーザーデバイス4の場所、シーンから受信した信号、ユーザーの選択などに基づいて行われてよい。基準データは2D画像、3Dモデルまたは好ましくはライトフィールドを表わすデータを含む場合がある。このステップは、サーバー5内の好適なプログラムコードによって実行されてよいが、基準データの数が過度に多くなければ、ユーザーデバイス4内でのローカル認識も可能である。
量子化ステップ1040は、既知の基準の数が増大した場合に、システムをより容易にスケーリングできるようにする。
ステップ106:キャプチャされたデータ中の検出されたローカルフィーチャと、先のステップ中に識別された基準データ中のローカルフィーチャとのマッチング。基準データ中のローカルフィーチャは、コレクション50が構築された時点で、先行する段階において、検出され記述される。このステップは、サーバー5内で好適なプログラムコードによって実行されてよいが、ユーザーデバイス4内で実行してもよい。
ステップ107:キャプチャデータから検出されたローカルフィーチャを、マッチングする基準データへとマッピングする、幾何学的変換(transformation)を見つける。このステップは、「レジストレーション」と呼ばれる。変換には、ローテーションを用いたキャプチャされたデータのワーピング(warping)、スケーリング、トランスレーションまたはホモグラフィが含まれる。複数の基準画像が利用可能である場合には、このステップは、レジストレーションの質が最良である基準データの決定を含んでいてよい。レジストレーションは、ユーザーデバイス4内、遠隔サーバー5内または、部分的にユーザーデバイス内と遠隔サーバー内において行われてよい。
一実施形態において、レジストレーションプロセスの結果は、また、「拡張レイヤー(augmented layer)」として表示されるべき情報との関係におけるシーンをキャプチャするユーザーデバイス4の全位置をも示す。カメラの位置および配向は、6つのパラメータ、すなわち位置について3つ、その配向について3つのパラメータによって識別されてよい。このステップは、サーバー5内で好適なプログラムコードにより実行されてよいが、ユーザーデバイス4内で実行されてもよい。
ステップ108:コレクション50内の基準データと結びつけられた少なくとも1つのアノテーション、ならびにこのアノテーションが結びつけられるべき画像の位置またはフィーチャをリトリーブする。
ステップ109:ステップ108中にリトリーブされたアノテーションのうちの少なくとも1つを伴うキャプチャデータに基づいて、2Dまたは3D画像などのビューを、ユーザーデバイス4のディスプレー40上にレンダリングする。
B.プレノプティックローカルフィーチャに基づくグローバル基準データセット
上述の方法Aは、異なるライトフィールドを表わす基準データのコレクション、および最も高い精度または信頼度で基準データとマッチする基準データを、ローカルフィーチャに基づいて決定するプロセスに依存している。
ここで、基準ライトフィールドデータのコレクションの利用可能性に依存せずシーンのグローバルモデルを使用するグローバル方法について説明する。この方法ではなお、キャプチャされたデータとこのモデルのマッチングおよびレジストレーションのためにローカルフィーチャが使用される。この種の方法は、例えば屋外位置特定の場合に役立つが、建物、美術館、モールなどの内部または、シーン全体のモデルが利用可能である他の拡張現実アプリケーションについても使用可能であると考えられる。
グローバルモデルは、1つまたは複数のプレノプティックカメラでキャプチャされたライトフィールドデータセットについて計算されたローカルフィーチャのクラウドにより構成されていてよい。例えば、都市または基準シーンのモデルを、さまざまなカメラでキャプチャされたライトフィールドデータの大型セットを集約することによって構築してよい。ローカルフィーチャはこれらのさまざまなデータピース内で検出され、記述される。これらの記述されたフィーチャは、次にグローバル座標系内の特定の物理的場所に割当てられる。最後に、モデルはこうして、各々グローバル座標系内の特定の物理的場所を表わすローカルフィーチャのクラウドで構成される。都市の場合、座標系は、例えばGPS(WGS84)内で使用されるものであり得、全てのフィーチャはその座標系内の特定の点/ローカルエリアを表わし得ると考えられる。
代替的には、モデルは、プレノプティックサンプルから抽出されたプレノプティックローカルフィーチャで構成されない。例えば、クエリーがプレノプティックサンプルである一方で、1都市の3Dモデルを得ることができる。その場合、可能性としては、3Dモデルから合成ライトフィールドデータをレンダリングするという可能性が考えられる。別の可能性としては、2つのデータモダリティ間の相互情報測度(mutual information measure)を使用して、3Dモデル上に入力プレノプティック画像をマッピングする幾何学的変換が相互情報測度との関係において最適化される最小化プロセスを適用することがある。
ユーザーデバイス4内においてプレノプティックカメラ41でキャプチャされた新規キャプチャデータを、ローカルプレノプティックフィーチャのこのクラウドに対してマッチさせるためには、図6を用いて例示される以下のアプローチを使用してよい:
ステップ100:アノテートすべきライトフィールドを表わすデータをキャプチャまたはリトリーブする。
ステップ101:必要な場合、データをリサンプリングする。
ステップ102〜103:ライトフィールドを表わすキャプチャされたデータ内のローカルフィーチャを検出し記述する。
ステップ110:検出されたローカルフィーチャを、例えばデータベース50内に記憶されたモデルなどのグローバルモデル1101のローカルフィーチャとマッチングする。このマッチングは、フィーチャを合わせてビニング(binning)して検索を加速させることによって、スピードアップすることができる。先行する情報1102(GPS情報、ユーザー入力など)に基づいて、枝刈り(pruning)ステップ1100を実施して、マッチングをスピードアップしてもよい。このとき、マッチングは、これらの先行情報に対応するローカルフィーチャのサブセットについてのみ行われる。局所性鋭敏型ハッシュ法(locality sensitive hashing)を使用してもよく、その場合、ハッシュ関数セットがフィーチャー記述子について計算されて、異なるハッシュ値に基づいてクラスタを作り出す。ハッシュ関数のセットは、記述子空間内で互いに近接している2つの記述子が同じハッシュ値を生成するような形で選択される。
ステップ111:グローバルモデル内でローカルフィーチャをマッチさせた状態でキャプチャデータ内において検出されたローカルフィーチャを投影する幾何学的変換を計算する。これはレジストレーションステップである。このステップの出力は、カメラ41のポーズ推定であり、こうして、キャプチャデータをキャプチャするカメラがモデル座標系との関係においてどこにあるかがわかるようになる。
ステップ108:次にアノテーションがリトリーブされる。アノテーションは通常、位置依存性(position−dependent)であり、それ自体、モデル座標系の内でレジストレーション(registered)されている。
ステップ109:アノテーション付き画像がレンダリングされる。
ここでもまた、プレノプティック情報を使用することで、とりわけ異なる照明条件、画像変形などの下でのマッチングおよびレジストレーションプロセスのロバスト性が改善される。
C.グローバルモデルを用いたライトフィールドデータに基づくグローバルレジストレーション
ここで、グローバルモデルを用いたグローバルレジストレーションに基づくさらなるレジストレーション方法について記述する。先行の方法Bと同様、この方法は、所定のシーンの既知のグローバルモデルが利用可能である場合に使用できる。例えば、都市の場合、我々は、我々が所与の都市内にいるという先験情報(a−priori information)を有し、したがってすでに利用可能であるその都市の3Dモデルをロードすることができる。レジストレーションプロセスは、モデル座標系との関係における、ライトフィールドデータをキャプチャしたカメラの位置を送出する。
一例として、グローバルレジストレーションに基づく典型的方法には、図7を用いて例示されている以下のステップが含まれ得る:
ステップ152:ステップ152の間に、ユーザーが現在おかれているシーンまたは環境のグローバルモデルが、例えばプレノプティックセンサー2を含むユーザーのスマートフォンまたはタブレットまたはナビゲーションシステムなどのユーザーデバイス4のメモリー内にロードされる。ストレージ50からロードされるモデルは、例えばGPSを用いて決定されるユーザーの場所、ユーザーの選択、シーンの自動解析、他の先験的に既知の情報などにより左右され得る。
ステップ100:アノテートすべきライトフィールドが、ユーザーデバイス4のカメラ41でキャプチャされる。キャプチャされたプレノプティックライトフィールドの2D投影は、ユーザーデバイス4の2Dディスプレイ40上に表示されてもよいが、データは好ましくは、ライトフィールドデータとして、すなわち各ピクセル上の入射光線の方向についてその情報を失なうことなく記憶される。
ステップ101:プロセスは、例えばモデルが異なるフォーマットを有する場合、マッチングおよび認識プロセスを容易にするかまたは迅速化するため、キャプチャデされたータをコンバートまたはリサンプリングする追加のステップを含んでいてよい。例えば、異なるプレノプティックカメラが、各サブ画像内に異なる数のピクセルを有するデータを生成するかまたは、異なる方法でライトフィールドをサンプリングしてよい。このコンバージョンは、ユーザーデバイス4内または遠隔サーバー5内で行うことができる。
ステップ150:初期位置は、例えばGPS、ユーザーが入力した情報、または他の類似の先行情報に基づいて推定されてよい。
ステップ151:キャプチャされたデータは、モデルとの関係においてレジストレーションされる。アウトプットでは、モデルとの関係におけるカメラの位置についての完全な6つの自由度がある。モデルがユーザーデバイス4内にロードされた場合には、レジストレーションはこのデバイス内のプロセッサにより行われ得る。
ステップ108:計算されたデバイス4の位置の周りの場所あるいはこの位置から見えるはずのものと結びつけられた1組のアノテーションが、モデルからリトリーブされる。
ステップ109:先行ステップ中にリトリーブされたアノテーションのうちの少なくとも1つを伴うキャプチャされたデータに基づいて、2Dまたは3D画像などのビューが、ユーザーデバイス4のディスプレイ40上にレンダリングされる。
上述のグローバルレジストレーション法のレジストレーションステップ151は、好ましくは、カメラ位置の推定が与えられており、目的関数(objective function)を用いて、プレノプティックライトフィールドサンプルをモデル(上記の場合においては都市モデル)へと投影する誤差(error)を計算する。この目的関数(費用関数(cost function)としても公知である)を用いて、カメラ位置推定値が精緻化され改善されて投影誤差を最小化するような形で、反復的最適化プロセスを適用することができる。この最適化プロセスを、以下のステップに分解することができる:
1.ユーザーデバイスの位置の初期推定値を獲得/計算する。これは、例えばプレノプティックカメラを含むスマートフォンの場合、スマートフォンGPS、加速度計ならびにデバイスの位置および配向を計算するためのコンパスを使用することによって行うことができる。この初期設定値を現在の設定値として設定する。
2.入力されたプレノプティックサンプルのモデル内への投影を計算する。目的関数を用いて、投影誤差を計算する(ステップ1510)。
3.誤差および目的関数を所与として、次のカメラ位置推定値を計算し(ステップ1511)、それを現在の推定値として設定する。
4.誤差が特定の閾値より大きい場合、ステップ2に戻り、それ以外の場合にはステップ5に進む。
5.現在の推定値が、ユーザーデバイスの最適化された位置であり、モデルとの関係におけるデバイスの実際の位置に対応する。
我々は、ライトフィールドを表わすデータを使用していることから、ステップ1510で使用される目的関数を調整し、こうして、目的関数がそのデータセット内に存在する全ての情報を使用し、標準的2D画像が使用される場合よりもレジストレーションをよりロバストなものにするようにすることができる。
プレノプティック入力サンプルのために特別に調整された目的関数を導出して、あらゆる種類の変換および照明条件に対してレジストレーションをよりロバストなものにすることができる。プレノプティックモデルが利用できない場合、考えられる1つのアプローチは、3Dモデルからプレノプティック合成サンプルを生成することである。このサンプルは、仮想プレノプティックカメラをシミュレートし、異なる3Dモデル点上でレイトレーシング(ray−tracing)プロセスを行うことによって生成可能である。3Dモデルの各点は3D座標ならびに反射率または透明度などの物理的プロパティを用いて表現され得ると考えられる。シーンの光源も同様に、現実的な3Dシーンを得る目的で記述されてよい。シーン光源が欠如している場合、照明はアンビエント(ambient)として、したがってシーンの各オブジェクトに同等に影響を及ぼすものとして、みなすことができる。レイトレーシング方法には、このとき、シーン内を進む(traveling)実際の光線をシミュレートするために空間内の光線経路を再構成することが関与する。光源の存在下で、光線はこれらの光源から出発してトレースされシーンのオブジェクト上に伝播させられる。アンビエントな照明が考慮される場合、光線は直接、3Dモデルの物理的点から生成される。反射、屈折、散乱または分散が、シーンレンダリングの優れたリアリズムを確保するためにレイトレーシングによってシミュレートされ得る光学的効果の一部分である。
プレノプティックカメラセンサーをヒットするライトフィールドをシミュレートするため、仮想シーン内に仮想プレノプティックカメラを置くことができる。該カメラのメインレンズに入る全ての光線は、このとき、仮想センサー上に仮想的に投影されて、3Dモデルに反応するプレノプティック基準データを作り出すことができる。
このプレノプティック基準データをリトリーブした後、基準データ内とキャプチャされたデータ内の光線強度の間の相関関係が最大であるようなカメラの視点を決定することができる。モデル内のカメラの最も尤度の高い視点を決定するために、他の目的関数を使用することができるだろう。
ローカルフィーチャの検出および記述
方法AおよびBは両方共、真に情報提供的(informative)であるデータ、すなわちそのエントロピーが空間の他のエリアに比べて高いものであるデータの、特定的なそれゆえローカルなフィーチャのみにレジストレーション空間を削減することを目指している。その上、2つのローカルフィーチャ間の相互情報すなわち相対的エントロピーは、2つのローカルフィーチャが2つの異なるエリアを表わしている場合それらが互いから容易に差別化され得るように低いものであることを目指している。これらのフィーチャの最後の所望される特性は、同じシーンの2つのビューを所与として、これら2つのビューの間の変換がいかなるものであろうと(幾何変換、露光変化(exposure changes)など)同じフィーチャを検出することができるということにある。
一態様によると、レジストレーションおよび認識のために使用されるローカルフィーチャの種類は、シーンのタイプに応じて選択される。例えば、自然のパノラマ式ビューにおいては、ストリートレベルでの都市の場合と同じフィーチャは使用しない。前者の場合には、フィーチャとして水平線を使用することができ、後者の場合には、適切なフィーチャは、複数の異なる種類の深さが交差している点となる。
内容が参照によりここで援用されている国際公開第2012/084362号は、アルゴリズムがシーンにより左右される拡張現実方法について記載している。ただし、この文書は、レジストレーションのために使用されるローカルフィーチャのタイプをシーンのタイプに適応させることを示唆していない。国際公開第2012/084362号に記載の方法に類似する方法は、例えばデバイスの場所、画像の解析、ユーザーの選択、受信信号などから決定されるシーンタイプに応じて使用すべきローカルフィーチャのタイプを決定するために、ここに記載の装置および方法において使用可能である。
ローカルフィーチャの第1の例:深さプレノプティックフィーチャ(Depth Plenoptic Features:DPF)
一実施形態において、キャプチャデータのレジストレーションに使用されるローカルフィーチャには、平面のインターセクション(intersection)が含まれる。
例えば都市環境内の写真または機械的部品などの製造されたオブジェクトの画像は、多くの場合、通常はジオメトリの観点から見てきわめて規則的であり通常テクスチャ度が低いものである多数の人工構造物を含む。これらのエリア内では、多数の平面が交差(intersect)する点は、典型的に3Dでのコーナーを表わすと考えられる。したがって、このような人工的シーンにおいて、フィーチャ点は、最少数の平面が交差するエリアとして定義づけることができる。
このタイプのフィーチャの検出は、ライトフィールドフォーマットでのキャプチャデータ内に存在する全ての情報を活用することによって、効率良くかつ精確に行うことができる。
プレノプティックカメラ41(図4)内でプレノプティックセンサーにより送出されるデータ中では、サブ画像の異なるピクセルが、マイクロレンズ20上にさまざまな入射角で到来する、すなわち異なる距離にあるオブジェクトから来る光ビームに対応する。したがって、異なる集光面(focused plane)内でオブジェクトの焦点が合っているエリアは、複数の隣接するピクセルが同じあるいはほぼ同じ値を有するサブ画像として容易に検出できる。
したがって、深さフィールドの計算または他の計算が激しいタスク無しで、異なる深さで焦点合せされた画像を作り出すために、異なるサブ画像からとられたピクセルセットがリトリーブされる。深さプレノプティックフィーチャを、異なる深さにある物理的点が同時に存在するエリアとして定義し、キャプチャされたデータを基準データとレジストレーションするためにこれらのフィーチャを使用することができる。
異なる焦点距離でライトフィールドの異なる投影を伴うスタックを考慮する。このスタックの1つの画像を取り上げた場合、焦点が合っているオブジェクトは、前の画像上ではさほど焦点が合っていないことになる。同じことは次の画像についてもあてはまる。したがって、このスタック上で3Dグラディエント(3D gradient)を計算することが可能である。グラディエントマグニチュードが高いエリアは、焦点合せレベルの高いオブジェクト/ピクセルに対応する。このグラディエントマグニチュードが低いエリアは、キャプチャされたデータをレジストレーションするための高エントロピーフィーチャとして検出され使用され得る、異なる深さで存在するオブジェクトに対応する。したがって、同じ物理的エリアについて異なる焦点合せされた情報を提供するプレノプティックカメラの能力とこのイン−フォーカス検出技術を結合させると、結果として、情報提供レベルの高い反復可能なフィーチャが得られる。
したがって、このローカルフィーチャ検出方法には、例えば、視線にほぼ平行である平面に対応し、スタックの3Dグラディエントが低くて、異なる深さに存在する同一のオブジェクトに対応している、データ内のエリアの検出が含まれていてよい。この方法にはまた、視線にほぼ直交する平面に対応しそのために隣接するピクセルが類似の値を有しているデータ内のエリアの検出も含まれていてよい。ローカルフィーチャの検出方法には、視線にほぼ直交する平面と視線にほぼ平行な平面との間の交差点の検出が含まれていてよい。
より一般的には、ローカルフィーチャの検出は、特定の深さに対応するピクセルが、異なる深さにある同じサブ画像のピクセルと所定の関係を有しているプレノプティックライトフィールド内のエリアの検出を含むことができる。例えば、深さ方向(視線と平行)での高エントロピーまたは高い周波数も同様にレジストレーションにとって有用なフィーチャであるとみなされてよい。
ローカルフィーチャの第2の例:視差(disparities)に基づくローカルフィーチャ
一実施形態において、キャプチャされたプレノプティックライトフィールドの識別に使用されるローカルフィーチャは、ライトフィールド内に含まれている視差情報を使用する。
物理的点の視差は、1つの平面に対する物理的点の2つの投影間の変位である。典型的視覚系においては、視差は、同じ画像平面上の2つの異なるビューから投影された同じ物理的点についての位置の差に対応するものとして計算される。
2つの異なるビューからの1つの点の投影の変位は、その点が上に投影される平面との関係におけるその点の深さに関係づけされる。カメラ平面から一定の距離のところにある点は、該平面からさらに離れた点に比べてより高い視差(変位)値を有する。すなわち、オブジェクトが該平面に近ければ近いほど、その視差値は大きくなる。その結果として、深さは視差値と逆の関係にある。
プレノプティックライトフィールドのキャプチャには、物理的点から来る光線の位置および方向の情報を含むので、同じ物理的点から来る異なるビューに対応する異なる光線を抽出することが可能である。このとき、これらの光線に結びつけられたサブ画像ピクセルを用いて、視差および深さ情報を計算することができる。
このとき、深さの情報を、ローカルフィーチャと結びつけて識別およびマッチングのロバスト性を改善することができる。
一実施形態においては、深さ情報を平均として用いて、特定の深さに存在するオブジェクトへと点をクラスタ化することができる。この実施形態は、幾何学的に規則的である有意な数の人工的構造を多くの場合に含む製造されたオブジェクトまたは都市シーンの場合に特に有利である。実際、平面は、このような人工的環境内で頻出する。このとき、クラスタは、カメラの視線に直交する特定の深さにおける平面を表わす。
クラスタを用いると、マッチングはよりロバストなものになる。実際、単一のローカルフィーチャに対してただ制約を加える代りに、複数のフィーチャのグループを合わせてマッチングすることができる。これらのクラスタのマッチングは、ローカルフィーチャのみを用いる場合に比べてより制約が大きく、したがってより優れた結果を生み出す。
キーポイントのクラスタ化はまた、いずれのクラスタにも属さない無意味で切り離されたフィーチャを廃棄するという利点を有する。こうして、1つのシーンのマッチングに必要なフィーチャの数は減少し、その結果、大きいアノテーションまたは多くのキャプチャされた画像をマッチングする必要のあるシステムにより適応したものとなる。
ローカルフィーチャの第3の例:エピポーラボリューム形態(Epipolar Volume form)
一実施形態においては、意味のある安定したローカルフィーチャ点を検出するために、エピポーラボリュームそしてより具体的にはこれらの体積内のエピポーラ線と呼ばれる線が使用される。エピポーラ線は、ハリスアフィンフィーチャ領域検出器(Harris affine feature region detecor)などの他のフィーチャの検出器と組合わせることができる。エピポーラボリューム形態としてプレノプティックライトフィールドサンプルを表現することは、プレノプティックボリュームの多くの解析を簡略化し迅速化することから、極めて興味深い。エピポーラボリュームは、2つの画像間のカメラの動きが単に水平方向並進である場合に、画像を合わせてスタッキング(stacking)することによって作り出される。これらのボリュームを解析することで、以下の結論が得られる。すなわち、これらのボリューム上に存在する線は、単一の物理的点を表わし得る。したがってこの線の傾斜はまた、この点の深さを定義する。
したがって、一実施形態においては、ライトフィールドデータ内のローカルフィーチャが、エピポーラボリューム空間内で決定され投影される。この空間内で、不変ではない(non−stable)フィーチャを除去するために2つの短かい線をフィルタリングする一方で、点を線にクラスタ化し線1本あたり単一のローカルフィーチャ点のみを保持(retain)する。アウトプットにおいて、異なる視点の下で検出された通りの不変の(stable)ローカルフィーチャセットが得られる。
ローカルフィーチャの記述:バイナリープレノプティックフィーチャ記述子
(例えば図5のステップ103における)ローカルフィーチャの記述は、バイナリー形態で行うことができるだろう。2つのフィーチャを合わせて比較してそれらが類似しているか否かを見るためにハミング距離を使用することが可能であるため、各フィーチャの記述子サイズが著しく縮小されるのみならず、比較もスピードアップする。実際、ハミング距離は、一度に複数のバイトについて距離を計算する専用のベクトル命令を用いて、効率良く計算可能である。
上述のDPFフィーチャは、グラディエントオペレータ(gradient operator)由来の情報を活用する記述子を用いて記述され得る。さらに迅速な方法は、ピクセル値比較を実施して検出されたフィーチャを記述することである。これを、グラディエントオペレータの簡略版とみることができる。ピクセル値のこれらの比較は、前に検出されたフィーチャ点のまわりで行われ、このような記述子の所望される反復可能性および情報提供性を保つことができるようになっている。単一の比較の結果は、長さ1ビットの情報に対応する。比較を多数回行うことで、結果として、ビット−ストリング記述子が得られ、ここで各ビットは特定の1回の比較に対応する。
2進化された記述子のこの原理は、プレノプティックライトフィールドデータの全ての情報を活用してプレノプティックバイナリー記述子を得ることにより、プレノプティック空間内で使用することができる。標準的ピンホールカメラにより画像が生成される場合、ピクセル値の比較は、画像の視覚的情報の比較に対応するだろう。プレノプティックカメラの場合には、比較は、記述子のエントロピーを最大化するために異なる次元で行われる。
先に見た通り、プレノプティック画像は複数のサブ画像で構成されている。単一のサブ画像は、異なる視点の下での同じ物理的点の複数の表現を含む。したがって、プレノプティックバイナリー記述子においては、この情報冗長性が有効に使用される。このプレノプティックバイナリー記述子が前述のDPF検出器と結合された場合、該検出器によって有効利用される焦点スタックもまた、比較点のソース(source)として使用することができる。したがって、プレノプティックバイナリー記述子は、エリアの異なるビューについての情報と、このフィーチャエリアの異なる深さについての情報の両方を含む。
このとき、プレノプティックバイナリー記述子は、比較点ペアの1セットを選択することによって計算される。これらのペアの一方の部分は、DPF検出器によって検出されたフィーチャ点エリアの周囲にあるサブ画像から取られたピクセル値の場所に対応する。他方の部分は、フィーチャ点エリアの周囲にあるがDPF検出器の焦点スタックにおける異なる深さにある点に対応している。このペアのセットは、一回のみ選択され、同じものが全ての記述子の計算について使用される。
この比較点セットを選択するための種々の戦略が存在する。第1のものは、焦点スタックまたはサブ画像のいずれかであり得る所望の空間内で無作為に選択するという戦略である。これは高い信頼性でうまく機能する一方で、最高のセットを学習し、同じフィーチャ間の内部距離(intra−distance)を最小化しながら異なるフィーチャ間の相互距離(inter−distance)を最大化する目的で、機械学習(machine learning)を使用することもまた可能である。中サイズのフィーチャエリアについては、記述子の相関関係を最小化しながらその分散を最大化するために、最良の比較点の欲張り(greedy)アルゴリズムに基づく検索が実施される。
所与のフィーチャエリアを表わすバイナリー記述子を計算するために、以下の手順を適用することができる:
1.各比較点ペアについて、第1の比較点におけるレンダリングされるグレースケールピクセル値が、他方の点におけるものよりも小さいか否かを決定する。
2.比較が真である場合には、バイナリーの「1」が、(当初は空である)記述子に追加され、そうでなければ、バイナリーの「0」が追加される。
3.該手順を各比較点について反復し、バイナリーストリング記述子を作り出す。
これらの技術を用いて、キャプチャされたデータのこのように決定されたバイナリー記述子を、基準プレノプティックライトフィールドのバイナリー記述子と比較することができる。この比較は、このプレノプティックフィーチャ空間内でのそれらの相対的距離を決定するため、ハミング距離に基づくものであってよい。
レジストレーションから拡張(augmented)シーンへ
上述の方法のうちのいずれか1つでのレジストレーションの後、レジストレーションされた基準シーンに対して相対的なユーザーデバイス4内のプレノプティックカメラ41の位置および配向がわかる。キャプチャされたデータに対応する基準データも同様にわかり、基準データベース内で、データの種々の要素またはフィーチャについてのアノテーションセットと結びつけられる。アノテーションは、テキスト、画像、ビデオ、音声、既存のフィーチャの操作または強調、3Dオブジェクトなどで構成されていてよい。これらは、アノテートされるべきシーンおよびビューのコンテキストに左右される。
その後、最終拡張(アノテートされた)画像は、レンダリングされる。例えば、山の名前または他のアノテーションを該画像上に重ね合せた伴うキャプチャされた景観を示す2D画像(静止画またはビデオ)を生成することが可能である。あるいは都市環境においては、最寄の店舗およびアメニティへの道順を画像上に表示することができる。
一実施形態において、ビュー(焦点の合ったオブジェクト、カメラの視点)のレンダリングは、アノテーションの組込みの前に発生する。したがって、所与のレンダリングされたビューについてのポーズならびにモデル内のアノテーションの位置が分かっているため、それらを、レンダリングするように選択したビュー内に投影することが可能である。
拡張現実(AR)プレノプティックレンダリングおよびアプリケーション
プレノプティック空間内の1シーンのキャプチャは、拡張現実レンダリングに関する新たな可能性の扉を聞く。実際、プレノプティックカメラ内でセンサーをヒットする光線の位置および方向は、他のフィーチャの中で、深さ情報のリトリーブ、画像のキャプチャ後の再度の焦点合せ、あるいはユーザーの視点の変更を可能にするので、シーンレンダリングをさらに良くしてユーザーに新しい経験を提供するためにこの情報を活用することができる。以下の段落では、考えられるいくつかの進歩したレンダリング能力について記述する。
実際、拡張現実の1つの特別な利点は、例えばいくつかの関連追加情報を得るために興味のあるフィーチャをクリックすることなどによって、ユーザーが、プロセスによりレンダリングされた画像の要素と対話できるという事実に関連する。この対話(interaction)は、ユーザーが受動的である代りに、現実のものであれ仮想のものであれ、オブジェクトと直接対話することになるため、極めて有利である。
例えば、多くの場合に、レンダリングされた画像のどの特定のオブジェクトが、インタラクティブでありアノテーションと結びつけられていて、従ってユーザーが例えばそれをクリックすることができる、ということをユーザーに告げることが望まれる。この問題を解決する1つの方法は、例えば該オブジェクトを指し示す矢印を伴うテキストボックスなどの通知を表示することである。しかしながら、複数のインタラクティブオブジェクトがキャプチャされたシーンの一部である場合には、インタラクティブな要素が何であるかをユーザーに告げる多くの通知が存在する必要がある。
プレノプティック空間は、新たなインタラクティブな要素を許容し、これらによりユーザーにより良い体験が提供される。前述の通り、プレノプティックセンサによりキャプチャされたデータは、データがキャプチャされた後も、異なる焦点距離を有する2D画像としてレンダリングされる能力を有する。また、再焦点合せプロセスは、データのローカル部分ごとに独立して計算でき、必ずしもデータを全体として考慮しない。換言すると、これはすなわち、1つの画像の特定のオブジェクトを、たとえこれらのオブジェクトがシーン内で同じ深さに属さない場合であっても焦点合せできるようにすることができる、ということを意味している。
したがって、シーンの他の要素はぼやけている一方で、アノテートされたオブジェクトまたはアノテートされた画像のフィーチャは焦点の合った状態となるようにレンダリングされ得る。このようにして、ユーザーは、画像中において何がアノテートされたまたはインタラクティブオブジェクトであるかそしてどれがそうではないのかに、直ちに気づくことができる。
一例として、インタラクティブな拡張現実マニュアルまたはビデオチュートリアルを構想することができ、ここで、プリンタの異なるノブまたは部品が、ユーザーの選択に基づき拡張現実の形で表示される有用な命令を含む。2Dアノテートされた画像が、プレノプティックライトフィールドからレンダリングされ得、これがプリンタを示し、かつ、画像の残りの部分がぼやけている一方で、その全てのインタラクティブノブまたは部品を焦点の合った状態にする。したがって、ユーザーには、プリンタのインタラクティブ部品が提示され、ユーザーはこれをクリックしてアノテーションにアクセスすることができる。ユーザーは同様に、他の要素の焦点合せされたビューを望む場合、焦点深さを変更してもよい。
プレノプティックカメラの視点の変更は、部分的(partial)3D要素として1つのシーンの各点をレンダリングする可能性を提供する。シーンに由来する光線は、オブジェクトの周囲の全ての位置からではなく1つの位置からキャプチャされることから、3D再構成は部分的なものでしかない。しかしながら、この部分的3D再構成は、スインギング(swinging)/ジッタリング(jittering)運動でシーン内のオブジェクトをレンダリングすることを可能にする。これらのオブジェクトは、特定の方向から見られる、画像からポップアウトする3Dオブジェクトとして現われる。ここでもまた、この効果は、シーンの選択されたオブジェクトについてローカルで計算され得る。したがって、1つのシーンのインタラクティブ要素は、運動するオブジェクトとして表示されこうしてユーザーの注意を引くことができ、一方他のオブジェクトは静止状態にとどまる。このとき、アノテーションの内容表示をトリガーするためユーザーはこれらのスインギング要素をクリックすることができる。
以上で記述した方法のさまざまなオペレーションは、さまざまなハードウェアおよび/またはソフトウェアコンポーネント(単複)、回路、および/またはモジュール(単複)などの、これらのオペレーションを実施できる任意の好適な手段によって実施されてよい。概して、本出願中に記載のいずれのオペレーションも、それらを実施することのできる対応する機能的手段によって実施されてよい。さまざまな手段、論理ブロックおよびモジュールには、回路、特定用途向け集積回路(ASIC)、または汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ信号(FPGA)または他のプログラマブル論理デバイス(PLD)、個別ゲートまたはトランジスタロジック、個別ハードウェアコンポーネント、あるいはここに記載の機能を果たすように設計されたこれらの任意の組合せを含む(ただしこれらに限定されない)さまざまなハードウェアおよび/またはソフトウェアコンポーネント(単複)および/またはモジュール(単複)、が含まれていてよい。汎用プロセッサは、マイクロプロセッサであってよいが、代替的には、プロセッサは、任意の市販のプロセッサ、コントローラ、マイクロコントローラまたは状態機械(state machine)であってよい。プロセッサは、計算用デバイスの組合せ、例えばDSPとマイクロプロセッサ、複数のマイクロプロセッサ、DSPコアと併用した1つ以上のマイクロプロセッサの組合せ、あるいは他の任意のこのような構成として実装されてもよい。サーバーは、単一の機械として、一組の機械として、仮想サーバーとして、またはクラウドサーバーとして実装されてよい。
ここで使用される「ライトフィールドデータ」という表現は、プレノプティックカメラで生成されたか、またはあたかもプレノプティックカメラでキャプチャされたかのように3Dモデルから計算された、そして1つのシーンのライトフィールド画像すなわち光の明度および色だけでなくこの光の方向も記憶されている画像を記述している任意のデータを意味する。このようなプレノプティックライトフィールド画像からレンダリングされた2Dまたは3D投影は、この光の方向が失なわれているため、プレノプティックライトフィールド画像とはみなされない。
ここで使用される「プレノプティック空間」という表現は、多次元空間であって、該空間でライトフィールドを記述できる、すなわち空間内の全ての方向での光またはセンサーに達する光の量を記述するファンクションを記述できる多次元空間を意味していてよい。プレノプティック空間は、各サブ画像の位置についての少なくとも2つのパラメータ、そしてこのサブ画像に達する光の方向についての少なくとも1つの追加のパラメータによって記述され得る。多くの場合、プレノプティック空間は、各サブ画像の位置についての2つのパラメータ、このサブ画像上への光の方向についての2つのパラメータ、波長についての少なくとも1つのパラメータ、および場合によっては時間についての1つのパラメータ(ビデオの場合)により記述される。
ここで使用される「アノテーション(annotation)」という用語は、例えばテキスト、静止画像、ビデオ画像、ロゴ、画像レイヤー、音声および/または、画像に重ね合わされるかまたは追加され得る他の要素を含めた、多様な考えられる要素を包含する。
ここで使用される「ピクセル」という用語は、1つの単一モノクロフォトサイト、または異なる色で光を検出するための複数の隣接するフォトサイトを意味していてよい。例えば、赤、緑および青色光を検出するための3つの隣接が、単一のピクセルを形成し得る。
ここで使用される「決定する(determining)」という用語は、多様なアクションを包含する。例えば、「決定する」という用語には、計算(calculating)する、コンピュータで計算(computing)する、処理する、導出(deriving)する、調査(investigating)する、参照(looking up)する(例えばテーブル、データベースまたは別のデータ構造内で参照する)、確定(ascertaining)する、推定(estimating)することなどが含まれる。また、「決定する」という用語は、受信する(例えば情報を受信する)、アクセスする(例えばメモリー内のデータにアクセスする)ことなども含む。また、「決定する」という用語には、解決(resolving)する、選択(selecting,choosing)する、設定(establishing)することなども含まれてよい。
シーンの一画像をキャプチャすることには、カメラの画像センサーに達する光の明度を測定するためのデジタルカメラの使用が関与する。ライトフィールドデータをキャプチャすることには、プレノプティックカメラの使用が関与する場合があり、あるいは、シーンおよび光源の3Dモデルまたは他の記述からライトフィールドデータを生成することが関与する場合もある。
「ビューをレンダリングする」、例えば「ライトフィールドデータから2Dビューをレンダリングする」という表現は、画像を計算または生成するアクション、例えばライトフィールドデータ内に含まれる情報から2D画像を計算するアクションを包含する。複数の異なるビューがレンダリングされてよいという事実を強く主張するために、「ビューを投影する」、例えば「ライトフィールドデータに基づいて2Dビューを投影する」という表現が使用される場合もある。
本開示に関連して記述された方法またはアルゴリズムのステップは、直接ハードウェアの形、プロセッサにより実行されるソフトウェアモジュールの形あるいは、その2つの組合せの形で実施されてよい。ソフトウェアモジュールは、当該技術分野において公知のあらゆる形態の記憶媒体内に存在していてよい。使用され得る記憶媒体の一部の例としては、ランダムアクセスメモリー(RAM)、読取り専用メモリー(ROM)、フラッシュメモリー、EPROMメモリー、EEPROMメモリー、レジスタ、ハードディスク、リムーバブルディスク、CD−ROMなどがある。ソフトウェアモジュールは、単一の命令または多くの命令を含んでいてよく、かつ、複数の異なるコードセグメントを超えて、異なるプログラム中に、そして多数の記憶媒体を横断して分散させられてよい。ソフトウェアモジュールは、実行可能なプログラム、完全なプログラム内で使用される一つの部分、ルーチンまたはライブラリ、複数の相互接続されたプログラム、多くのスマートホン、タブレットまたはコンピュータにより実行される「apps(アプリケーション)」、ウィジェット、フラッシュアプリケーション、HTMLコードの一部分などで構成されていてよい。記憶媒体は、プロセッサに結合されて、プロセッサが記憶媒体から情報を読出し、それに情報を書込むことができるようになっていてよい。代替的には、記憶媒体はプロセッサに必須であってよい。データベースは、SQLデータベース、XMLドキュメントセット、セマンティックデータベース、またはIPネットワーク上で利用可能な情報セットを含む任意の構造化されたデータコレクション、または他の任意の好適な構造として実装されてよい。
こうして、ある態様には、ここで提示されたオペレーションを実施するためのコンピュータプログラム製品が含まれていてよい。例えば、このようなコンピュータプログラム製品は、命令が記憶された(および/またはコード化された)コンピュータで読取可能な媒体を含んでいてよく、これらの命令は、ここに記載のオペレーションを実施するため1つ以上のプロセッサによって実行可能である。ある態様については、コンピュータプログラム製品は、パッケージングマテリアルを含んでいてよい。
クレームは、以上で例示した精確な構成およびコンポーネントに限定されるわけではないということを理解すべきである。クレームの範囲から逸脱することなく、以上に記載の方法および装置の配置、オペレーションおよび詳細にさまざまな修正、変更および変化を加えてもよい。
1 メインレンズ
4 ユーザーデバイス
5 サーバー
6 ネットワーク
20 マイクロレンズ
21 画像センサー
40 ディスプレイ
41 プレノプティックカメラ
50 ストレージ
51 プロセッサ
210 ピクセル
400 プロセッサ
401 通信モジュール
欧州特許第1246080号明細書 欧州特許出願公開第2207113号明細書 国際公開第05/114476号 国際公開第2012/084362号

Claims (24)

  1. − デバイス(4)内のプレノプティックカメラ(41)でライトフィールドを表わすデータをキャプチャするステップ(100)と;
    − キャプチャされたデータを基準データとマッチングするためのプログラムコードを実行するステップ(101)と;
    − 前記基準データの一要素と結びつけられたアノテーションをリトリーブするためのプログラムコードを実行するステップ(102)と;
    − キャプチャされたデータから生成され少なくとも1つのアノテーションを含むビューをレンダリングするためのプログラムコードを実行するステップ(103)と;
    を含む、アノテーション方法。
  2. 前記基準データが基準ライトフィールドを定義づけする、請求項1に記載の方法。
  3. 前記基準データを前記シーンの3Dモデルから生成するステップを含む、請求項2に記載の方法。
  4. 前記マッチングステップが、異なるライトビューを表わす複数の基準データピースの中の1つのデータピースと前記キャプチャされたデータをマッチングすることを含む、請求項2に記載の方法。
  5. 前記キャプチャされたデータ内のローカルフィーチャを検出するステップ(102)を含む、請求項1〜4のいずれか一つに記載の方法。
  6. 前記ローカルフィーチャ検出ステップ(102)には、第1の深さにあるピクセルが異なる深さにあるピクセルと既定の関係を有しているエリアを検出することが含まれる、請求項5に記載の方法。
  7. 前記ローカルフィーチャ検出ステップ(102)には、キャプチャされたデータ内の視差を検出することが含まれる、請求項5に記載の方法。
  8. 前記ローカルフィーチャ検出ステップ(102)には、エピポーラボリュームまたは線を計算することが含まれる、請求項5に記載の方法。
  9. 前記ローカルフィーチャを記述するステップ(1011)を含む、請求項5〜8のいずれか一つに記載の方法。
  10. 前記ローカルフィーチャが、バイナリー形態の記述子で記述される、請求項9に記載の方法。
  11. 前記記述子間のハミング距離を計算するステップを含む、請求項10に記載の方法。
  12. 前記キャプチャされたデータ内の前記ローカルフィーチャと前記基準データ内のローカルフィーチャとをマッチングするステップ(106)を含む、請求項5〜11のいずれか一つに記載の方法。
  13. 前記ローカルフィーチャを用いて、前記基準データと前記プレノプティックデータをレジストレーションするステップ(107)を含む、請求項5〜12のいずれか一つに記載の方法。
  14. シーンのタイプを検出し、前記シーンタイプに応じて前記キャプチャされたデータ内で検出すべきローカルフィーチャのタイプを決定するステップを含む、請求項5〜13のいずれか一つに記載の方法。
  15. 前記デバイス(4)の位置、ユーザーにより行われた選択または受信した信号に応じて、前記マッチングに先立ち、1つのまたは限定された数の基準データピースを選択するステップを含む、請求項13〜14のいずれか一つに記載の方法。
  16. 前記基準データが1シーンのグローバルモデルを含む、請求項1〜14のいずれか一つに記載の方法。
  17. 前記基準データ上への前記キャプチャされたデータの投影誤差を表わす費用関数を最小化するステップ(1510)を含む、請求項16に記載の方法。
  18. ビューをレンダリングする前記ステップ(109)が、キャプチャされたデータ由来の2Dビューをレンダリングすることと該2Dビュー上にアノテーションを重ね合わせることとを含む、請求項1〜17のいずれか一つに記載の方法。
  19. キャプチャされたデータ由来の2Dビューをレンダリングする前記ステップ(109)が、シーンの残りの要素がぼやけた状態にされているのに対して、アノテートされたオブジェクトまたはアノテートされた画像のフィーチャの焦点が合うようになる形で、アノテートされたオブジェクトまたはアノテートされた画像のフィーチャを表示することを含む、請求項17に記載の方法。
  20. シーンに対応するデータをキャプチャしアノテートするための装置(4)であって、
    − ライトフィールドを表わすデータをキャプチャする(100)ためのプレノプティックカメラ(41)と;
    − プロセッサ(400)と;
    − ディスプレイ(40)と;
    − プログラムコードであって、前記プログラムコードが実行された時に、前記プロセッサに、前記カメラでキャプチャされたデータの一要素に結びつけられたアノテーションをリトリーブさせるための、および、前記キャプチャされたデータから生成され、少なくとも1つのアノテーションを含むビューを前記ディスプレイ(40)上にレンダリングするための、プログラムコードと;
    を含む装置。
  21. 前記プログラムコードはさらに、前記プログラムコードが実行された時に、キャプチャされたデータ内に存在するローカルフィーチャを前記プロセッサ(400)に検出させるために配置されている、請求項20に記載の装置。
  22. 前記プログラムコードはさらに、検出された各ローカルフィーチャをバイナリーベクトルで記述するために配置されている、請求項20に記載の装置。
  23. 前記装置に請求項1〜19のいずれか一つに記載の方法を実行させるための有形装置可読媒体を含む、コンピュータプログラム製品。
  24. アノテーションを決定するための装置(5)であって、
    − プロセッサ(51)と;
    − ストア(50)と;
    − プログラムコードであって、前記プログラムコードが実行された時に、前記プロセッサに、ライトフィールドを表わすデータを受信させ、前記データを前記ストア内の一つの基準データとマッチさせ、前記基準データと結びつけられたアノテーションを決定させ、そして遠隔デバイス(4)に対して前記アノテーションを送信させるための、プログラムコードと;
    を含む装置。
JP2015534916A 2012-10-05 2012-10-05 アノテーション方法および装置 Pending JP2016500169A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/069806 WO2014053194A1 (en) 2012-10-05 2012-10-05 Annotation method and apparatus

Publications (1)

Publication Number Publication Date
JP2016500169A true JP2016500169A (ja) 2016-01-07

Family

ID=47008601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015534916A Pending JP2016500169A (ja) 2012-10-05 2012-10-05 アノテーション方法および装置

Country Status (5)

Country Link
EP (1) EP2904605A1 (ja)
JP (1) JP2016500169A (ja)
KR (1) KR20150082195A (ja)
CN (1) CN104798128A (ja)
WO (1) WO2014053194A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017518532A (ja) * 2014-05-30 2017-07-06 マジック リープ, インコーポレイテッド 仮想および拡張現実のためのアドレス可能焦点を伴う自由形状光学システムを用いて立体視を表示する方法およびシステム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3089749A1 (en) 2014-01-31 2015-08-06 Magic Leap, Inc. Multi-focal display system and method
CN106461955B (zh) 2014-01-31 2019-08-13 奇跃公司 显示增强现实的方法
EP4235252A1 (en) 2014-05-30 2023-08-30 Magic Leap, Inc. Methods and system for creating focal planes in virtual augmented reality
JP6261085B2 (ja) * 2014-12-16 2018-01-17 日本電信電話株式会社 画像解析装置及びコンピュータプログラム
KR102399473B1 (ko) 2015-01-26 2022-05-17 매직 립, 인코포레이티드 개선된 회절 그레이팅 구조들을 갖는 가상 및 증강 현실 시스템들 및 방법들
EP3176732A1 (en) * 2015-12-02 2017-06-07 Thomson Licensing Method for generating a fingerprint for a light field image capture, computer readable storage medium and apparatus configured to generate a fingerprint for a light field image capture
US11067797B2 (en) 2016-04-07 2021-07-20 Magic Leap, Inc. Systems and methods for augmented reality
US10614613B2 (en) 2017-07-28 2020-04-07 Nvidia Corporation Reducing noise during rendering by performing parallel path space filtering utilizing hashing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1246080A2 (en) * 2001-03-26 2002-10-02 Ecole Polytechnique Fédérale de Lausanne (EPFL) Automated annotation of a view
WO2005114476A1 (en) * 2004-05-13 2005-12-01 Nevengineering, Inc. Mobile image-based information retrieval system
WO2010120901A1 (en) * 2009-04-14 2010-10-21 Qualcomm Incorporated Systems and methods for image recognition using mobile devices
WO2012084362A1 (en) * 2010-12-21 2012-06-28 Ecole polytechnique fédérale de Lausanne (EPFL) Computerized method and device for annotating at least one feature of an image of a view
JP2012177773A (ja) * 2011-02-25 2012-09-13 Toshiba Corp 光学素子、固体撮像装置、携帯情報端末、および表示装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4543147B2 (ja) * 2004-07-26 2010-09-15 ジーイーオー セミコンダクター インコーポレイテッド パノラマビジョンシステム及び方法
US7706603B2 (en) * 2005-04-19 2010-04-27 Siemens Corporation Fast object detection for augmented reality systems
EP2405404A2 (en) * 2010-07-09 2012-01-11 Kabushiki Kaisha Toshiba Display device, image data generating device, image data generating program, and display method
CN102436660A (zh) * 2011-11-08 2012-05-02 北京新岸线网络技术有限公司 3d相机图像自动校正方法及装置
CN102800103B (zh) * 2012-06-18 2015-02-18 清华大学 基于多视角的深度相机的无标记动作捕捉方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1246080A2 (en) * 2001-03-26 2002-10-02 Ecole Polytechnique Fédérale de Lausanne (EPFL) Automated annotation of a view
WO2005114476A1 (en) * 2004-05-13 2005-12-01 Nevengineering, Inc. Mobile image-based information retrieval system
WO2010120901A1 (en) * 2009-04-14 2010-10-21 Qualcomm Incorporated Systems and methods for image recognition using mobile devices
WO2012084362A1 (en) * 2010-12-21 2012-06-28 Ecole polytechnique fédérale de Lausanne (EPFL) Computerized method and device for annotating at least one feature of an image of a view
JP2012177773A (ja) * 2011-02-25 2012-09-13 Toshiba Corp 光学素子、固体撮像装置、携帯情報端末、および表示装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016018945; 茂木達哉, 外1名: '"全周動画像に対する注釈情報付加モデルと実装"' 映像情報メディア学会技術報告 第29巻, 第8号, 20050203, p.121-125, (社)映像情報メディア学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017518532A (ja) * 2014-05-30 2017-07-06 マジック リープ, インコーポレイテッド 仮想および拡張現実のためのアドレス可能焦点を伴う自由形状光学システムを用いて立体視を表示する方法およびシステム

Also Published As

Publication number Publication date
EP2904605A1 (en) 2015-08-12
CN104798128A (zh) 2015-07-22
KR20150082195A (ko) 2015-07-15
WO2014053194A1 (en) 2014-04-10

Similar Documents

Publication Publication Date Title
US9237263B2 (en) Annotation method and apparatus
US11887247B2 (en) Visual localization
US10977818B2 (en) Machine learning based model localization system
JP2016500169A (ja) アノテーション方法および装置
Chen et al. City-scale landmark identification on mobile devices
Mastin et al. Automatic registration of LIDAR and optical images of urban scenes
US20140181630A1 (en) Method and apparatus for adding annotations to an image
US9237330B2 (en) Forming a stereoscopic video
CN105009120B (zh) 基于客户端-服务器的动态搜索
US20130095920A1 (en) Generating free viewpoint video using stereo imaging
US20150146032A1 (en) Light field processing method
EP2806645B1 (en) Image enhancement using a multi-dimensional model
JP2016537901A (ja) ライトフィールド処理方法
JP2014525089A (ja) 3次元特徴シミュレーション
JP2014525089A5 (ja)
EP2936442A1 (en) Method and apparatus for adding annotations to a plenoptic light field
US10089418B2 (en) Structure model segmentation from a three dimensional surface
Bulbul et al. Social media based 3D visual popularity
Koch et al. Comparison of monocular depth estimation methods using geometrically relevant metrics on the IBims-1 dataset
US11657568B2 (en) Methods and systems for augmented reality tracking based on volumetric feature descriptor data
Baker et al. Localization and tracking of stationary users for augmented reality
CN114972599A (zh) 一种对场景进行虚拟化的方法
Dong et al. Utilizing internet photos for indoor mapping and localization-opportunities and challenges
Hwang et al. 3D modeling and accuracy assessment-a case study of photosynth
WO2023164084A1 (en) Systems and methods for generating dimensionally coherent training data

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20160212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160531

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160823

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161027

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170207