JP2016500169A

JP2016500169A - アノテーション方法および装置

Info

Publication number: JP2016500169A
Application number: JP2015534916A
Authority: JP
Inventors: リム，ロラン; モネ，マティウ; エイエ，セルジュ; ヴェテルリ，マルタン
Original assignee: Vidinoti SA
Current assignee: Vidinoti SA
Priority date: 2012-10-05
Filing date: 2012-10-05
Publication date: 2016-01-07
Also published as: EP2904605A1; CN104798128A; KR20150082195A; WO2014053194A1

Abstract

【課題】既存の拡張現実システムの問題点を解決または軽減する。【解決手段】アノテーション方法が、プレノプティック画像キャプチャデバイス（４）でライトフィールドを表わすデータをキャプチャするステップ（１００）と；キャプチャされたデータを対応する基準データとマッチングするステップ（１０１）と；前記基準データの一要素と結びつけられたアノテーションをリトリーブするステップ（１０２）と；前記キャプチャされたデータから生成され少なくとも１つのアノテーションを含むビューをレンダリングするステップ（１０３）と；を含む。【選択図】図３

Description

本発明は、シーンに対応するデータに対してアノテーションを付加するためのアノテーション方法に関する。

スマートフォン、パームトップコンピュータ、ポータブルメディアプレーヤー、携帯情報端末（ＰＤＡ）デバイスなどのハンドヘルドポータブルデバイスの開発における急速な進歩のため、画像処理が関与する新規フィーチャおよびアプリケーションを含み入れることが提案されるに至っている。このようなアプリケーション、すなわち画像アノテーションまたはキャプショニングにおいては、ユーザーは１つのシーン、例えば景色、建物、ポスターまたは美術館内の絵画の方にポータブルデバイスを向け、ディスプレイはそのシーンに関係する重ね合わされた情報と共に画像を示す。このような情報としては、例えば山や居住地の名称、人の名前、建物の歴史的情報および広告などの商業的情報、例えばレストランのメニューなどが含まれ得る。このようなシステムの一例は、欧州特許第１２４６０８０号明細書および欧州特許出願公開第２２０７１１３号明細書中に記載されている。

アノテーション情報は、無線通信ネットワーク内にあるサーバーによりポータブルデバイスに供給され得る。ここでは、サーバーおよびポータブルデバイスを伴う通信ネットワークの対応する機能的構成をアノテーションシステムと呼称する。

国際公開第０５／１１４４７６号は、携帯電話および遠隔認識サーバーを含むモバイル画像に基づく情報リトリーブシステムについて記載している。このシステムでは、携帯電話のカメラで撮影した画像は遠隔サーバーに伝送され、ここで認識プロセスが実施される。こうして、画像を伝送するための高い帯域幅の必要性ならびに、サーバー内でアノテーションを計算しそれらを携帯電話に伝送し戻すための遅延が導かれる。

多くのアノテーションシステムおよび方法に、データベース内に記憶された一組の基準画像とアノテーションデバイスが獲得した画像とを比較するステップが含まれている。実際の視野角および照明条件は、データベース内に記憶された画像に比べて異なることから、比較アルゴリズムはこれらのパラメータの影響を除去しなければならない。

さらなるより高性能の画像アノテーション技術では、３Ｄ基準（ｒｅｆｅｒｅｎｃｅ）モデルが使用される。多くの場合、これにはレジストレーションプロセス、すなわち、キャプチャした（またはターゲット）画像を基準３Ｄモデルと合致（ａｌｉｇｎｗｉｔｈ）するように空間的に変換するプロセスが関与する。例えば建物の場合、オブジェクトの３Ｄモデルは、アノテートすべき詳細と共に基準データベース内に記憶される。ポータブルデバイスが獲得した２Ｄ画像はこのモデルとレジストレーションされ、マッチを発見できた場合、オブジェクトは認識され、対応するアノテーションが２Ｄ画像上に重ね合わされる。

３Ｄモデルに基づく画像アノテーションモデルは、２Ｄモデルに比べ、視野角への依存度がより少ないという利点を有する。異なる場所から異なる角度でキャプチャされた複数の異なる２Ｄ画像とのマッチングのための基準として、単一の３Ｄモデルを使用することができる。しかしながら、３Ｄモデルのコレクションを構築することは、困難でかつ面倒なプロセスである。これには通常３Ｄまたはステレオカメラが必要である。その上、２Ｄキャプチャ画像と３Ｄモデルをレジストレーションするプロセスは、時間を要するものである。

したがって、本発明の目的は、既存の拡張現実（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）システムの上述の問題点を解決するかまたは少なくとも軽減することにある。

本発明によると、これらの目的は、
− プレノプティック（ｐｌｅｎｏｐｔｉｃ）キャプチャデバイスでライトフィールド（ｌｉｇｈｔｆｉｅｌｄ）を表わすデータをキャプチャするステップと；
− キャプチャされたデータを対応する基準データとマッチングするためのプログラムコードを実行するステップと；
− 前記基準データの一要素と結びつけられたアノテーションをリトリーブするためのプログラムコードを実行するステップと；
− 前記キャプチャされたデータから生成され少なくとも１つのアノテーションを含むビューをレンダリングするためのプログラムコードを実行するステップと；
を含む方法を介して達成される。

本発明はまた、
シーンに対応するデータをキャプチャしアノテートするための装置であって、
− ライトフィールドを表わすデータをキャプチャするためのプレノプティックカメラと；
− プロセッサと；
− ディスプレイと；
− プログラムコードであって、前記プログラムコードが実行された時に、前記プロセッサに、前記カメラでキャプチャされたデータの一要素に結びつけられたアノテーションをリトリーブさせるための、および、キャプチャされたデータから生成され、少なくとも１つのアノテーションを含むビューを前記ディスプレイ上にレンダリングするための、プログラムコードと；
を含む装置を介して達成される。

本発明はまた、アノテーションを決定するための装置であって、
− プロセッサと；
− ストアと；
− プログラムコードであって、前記プログラムコードが実行された時に前記プロセッサに、ライトフィールドを表わすデータを受信させ、前記データを前記ストア内の一つの基準データとマッチングさせ、前記基準データと結びつけられたアノテーションを決定させ、そして遠隔デバイスに対して前記アノテーションを送信させるための、プログラムコードと；
を含む装置をも提供する。

プレノプティックカメラは、それ自体公知であり、低価格で市販されている。センサー上にシーンの２Ｄ投影をキャプチャするだけである従来のカメラとは異なり、プレノプティックカメラはライトフィールドを表わすデータを、すなわち各ピクセル上の光の強度だけでなくこのピクセル／サブ画像に達する光の方向あるいは少なくともさまざまな方向から各単一のサブ画像に達する光の強度をも示すマトリクスを表わすデータをキャプチャする。

したがって、プレノプティックセンサーは、従来の２Ｄ画像センサーによって生成される従来の２Ｄ画像データよりも多くの、各サブ画像に達する光についての情報を含むデータを生成する。

プレノプティックセンサーにより生成されるデータは、従来の３Ｄセンサーからも立体カメラ（ｓｔｅｒｅｏｓｃｏｐｉｃｃａｍｅｒａ）からも直接入手できないシーンについての情報を含んでいる。したがって、より多くのそして異なる情報が利用可能であることから、基準データとキャプチャされたデータのマッチングプロセスは、２Ｄ画像と２Ｄまたは３Ｄモデルをマッチングする従来の方法よりもさらに信頼性が高い。キャプチャされたシーンについてより多くの情報を有することは、認識パフォーマンスを改善しレジストレーションの質を改善する上で有益であるということが、直観的に理解できる。

プレノプティックカメラにより提供されたデータとモデルのマッチングも同様に、３Ｄモデルと２Ｄまたは３Ｄキャプチャ画像データとのマッチングに比べてより堅牢である。

ライトフィールドを表わしプレノプティックセンサーによりキャプチャされたデータのマッチングには、ライトフィールドデータを２Ｄ画像上に投影し、この２Ｄ画像を２Ｄまたは３Ｄ基準モデルとマッチングするステップが含まれていてよい。異なる投影（例えばプレノプティック画像のレンダリング中に選択可能な異なる焦点に対応するもの）が可能であることから、このプロセスの結果、マッチングの尤度は増大することになる。しかしながら、このまたはこれらの投影を計算するためには追加のリソースが必要とされ、キャプチャされたシーンについての情報は、対話中に失なわれ、結果としてマッチングの精度および速度が低下する。

したがって、一実施形態において、プレノプティックセンサーによってキャプチャされたデータは、基準ライトフィールドを表わす基準データとマッチングさせられる。有利には、このマッチングは、キャプチャされたライトフィールドデータを２Ｄ画像上に全く投影せずに、かつ／または基準ライトフィールドデータを２Ｄ画像上に全く投影せずに実施される。したがって、マッチングは、完全にプレノプティックドメイン内で、２Ｄまたは３Ｄ画像上へのコンバージョンに起因して情報が失なわれることなく、かつ１シーンの各点における明度に基づくのみならず、キャプチャされたデータおよび基準データにおける光線上の方向にも基づいて行われる。

方法は、キャプチャされたライトフィールドデータを基準ライトフィールドデータ上へレジストレーションするステップを含んでいてよい。このレジストレーションプロセスは、キャプチャされたライトフィールドデータと表示すべき種々のアノテーションとの間の幾何学的関係を発見することを目的としている。例えば、地図データの場合、レジストレーションプロセスの最終目的は、プレノプティックセンサーによりキャプチャされたライトフィールドが基準マップ内のどこに存在するかを見い出して、後に正しい場所で地図アノテーションをオーバーレイできるようにすることにある。プレノプティック空間内において全面的にこのレジストレーションプロセスを実施することによって、ライトフィールドを表わすデータ内に存在する情報全てが使用され、シーンのより精確なアノテーションが生み出される。

方法には、キャプチャされたライトフィールドデータと、異なる位置でプレノプティックセンサーによって生成された基準ライトフィールドデータとをマッチングするステップが含まれていてよい。方法には、キャプチャされたライトフィールドデータと、異なる距離でプレノプティックセンサーにより生成された基準ライトフィールドデータとをマッチングするステップが含まれていてよい。方法には、キャプチャされたライトフィールドデータと、異なるタイプのプレノプティックセンサーにより生成されたかまたは各サブ画像内に異なる数のピクセルを有する基準ライトフィールドデータとをマッチングするステップが含まれていてよい。

キャプチャされたライトフィールドデータと基準ライトフィールドデータのレジストレーションを実施することにより、基準ライトフィールドデータ内に存在するより完全な情報と適切かつ精確にレジストレーションするために、キャプチャされたライトフィールドデータ内に存在するすべての情報が活用され、こうしてシーンのアノテーションを適切かつ精確に行うことができるようになる。

本発明は、一例として提供され図中に示されている実施形態の説明を用いることによってより良く理解できる。

オブジェクトが第１の距離にある状態で、シーンのライトフィールドを表わすデータをキャプチャするプレノプティックカメラを概略的に示す図である。オブジェクトが第２の距離にある状態で、シーンのライトフィールドを表わすデータをキャプチャするプレノプティックカメラを概略的に示す図である。オブジェクトが第３の距離にある状態で、シーンのライトフィールドを表わすデータをキャプチャするプレノプティックカメラを概略的に示す図である。共に本発明を実施するさまざまな装置要素を含むシステムを概略的に示す図である。ライトフィールドを表わすデータをキャプチャし、アノテートされた２Ｄ画像をレンダリングするための方法のブロック図である。グローバルモデルを用いたローカルレジストレーション方法のブロック図である。プレノプティック空間内のグローバルレジストレーション方法のブロック図である。

センサー上に１シーンの２Ｄ投影をキャプチャするだけである従来のカメラとは異なり、プレノプティックセンサーは、所与のシーン内に存在する完全なライトフィールドをキャプチャすることを目指す。完全なライトフィールドは、各ピクセルについて７つのパラメータすなわち、位置について３つ、方向について２つ、波長について１つ、そして時間について１つのパラメータを含んでいてよい。

プレノプティックセンサーは、いわゆるプレノプティックライトフィールドを表わすデータ、すなわち、マトリクスであって、該マトリクスからこれらのパラメータのうちの少なくとも４つを、つまりプレノプティックセンサーの各ピクセルをヒットする光線の２Ｄ位置および２Ｄ方向を計算し得るマトリクスを表わすデータを生成する。我々はこのデータを「ライトフィールドデータ」と呼ぶ場合がある。

今日現在、少なくとも２社が、このようなプレノプティックライトフィールドを記録できるプレノプティックセンサーを提案している。すなわちＬｙｔｒｏとＲａｙｔｒｉｘである。これらの会社の２つのカメラは、設計がわずかに異なっているものの、主要な考え方は、標準的カメラセンサーにおいて単一のフォトサイト（またはピクセル）に当たると想定される光の異なる方向を分解（ｄｅｃｏｍｐｏｓｅ）することにある。この目的のために、図１に示されている通り、従来のカメラのセンサーに代ってマイクロレンズ２０のアレイがメインレンズ１の背後に設置されている。画像センサー２１は、後方に移動させられる。

こうして、マイクロレンズ２０は、光線をその入射角にしたがって方向転換させ、方向転換された光線は、センサー２１の異なるピクセル２１０に達する。サブ画像を作るＮ×Ｍ個のピクセル２１０の各々が測定する光の量は、サブ画像の前のマイクロレンズ２０をヒットする光ビームの方向に左右される。

図１〜３は、ｎ＝９個のサブ画像を含む単純な一次元センサーを示し、各サブ画像はＮ×Ｍ個のピクセル（またはフォトサイト）２１０の１つの行を有し、この例においてＮは３に等しく、Ｍは１に等しい。多くのプレノプティックセンサーは、より多くのサブ画像と各サブ画像についてより多くのピクセル、例えば９×９個のピクセルを有し、マイクロレンズ２０上でＮ×Ｍ＝８１個の異なる光の配向の間での識別を可能にしている。シーンの全てのオブジェクトの焦点が合っていると仮定すると、こうして各サブ画像は、そのサブ画像上にさまざまな方向から来る光の量を表わす明度値のパッチを含む。

この構造において、マイクロレンズ２０のアレイは、カメラのメインレンズ１により形成される画像平面上に位置づけられ、センサー２１はマイクロレンズから距離ｆのところに位置づけられ、ここでｆはマイクロレンズの焦点距離である。この設計は、高い角度分解能を可能にするものの、空間分解能が比較的低い（レンダリングされた画像あたりの有効ピクセル数は、マイクロレンズの数に等しい）。この問題は、マイクロレンズがメインレンズの画像平面上に焦点を合わせ、こうしてマイクロレンズと画像平面の間にギャップを創出している他のプレノプティックカメラにより対処される。このような設計には、角度分解能の低下という代償が伴う。

図１〜３を見ればわかるように、この例において単一の点３を有するシーンに対応するプレノプティックライトフィールドは、点３からメインレンズ１までの距離によって左右される。図１では、このオブジェクトからの全ての光ビームは同じマイクロレンズ２０に達し、こうして、このマイクロレンズに対応するサブ画像内の全てのピクセルが第１の正の光強度を記録する一方で、他のレンズに対応する他のピクセル全てが、異なる、ヌル（ｎｕｌｌ）の光強度を記録するプレノプティックライトフィールドが、結果としてもたらされる。オブジェクト３がレンズ１により近接している図２では、点３に由来する一部の光ビームは、他のサブ画像、すなわち前にヒットされていたマイクロレンズに隣接する２つのマイクロレンズに結びつけられたサブ画像のピクセルに達する。オブジェクト３がレンズ１からさらに大きい距離のところにある図３では、点３に由来する一部の光ビームが、前にヒットされていたマイクロレンズに隣接する２つのマイクロレンズに結びつけられた異なるピクセルに達する。したがって、センサー２１により送出されるデジタルデータ２２は、オブジェクト３までの距離によって左右される。

こうして、プレノプティックセンサー２１は、マイクロレンズ２０に対応する各サブ画像について、このサブ画像の上にあるレンズ上にさまざまな方向から来る光の量を表わすＮ×Ｍ個の値の１セットを含むライトフィールドデータ２２を送出（ｄｅｌｉｖｅｒ）する。所与の焦点合せされたオブジェクト点について、サブ画像の各ピクセルは、一定の入射角でセンサーをヒットする光線の強度尺度に対応する。

光線の方向を知ることの利点は、多数ある。光線を入念に再整理することによって、他のタスクの中でも、再焦点合せ（ｒｅｆｏｃｕｓｉｎｇ：シーン内で焦点が合っているオブジェクトを変えること）を実施することが、または、カメラの視点を変更することができる。

図４は、本発明を実施するアノテーションシステムのブロック図を概略的に示す。システムは、ユーザーデバイス４、例えばハンドヘルドデバイス、スマートフォン、タブレット、カメラ、メガネ、ゴーグルなどを含む。デバイス４は、シーン３上のライトフィールドを表わすデータをキャプチャするための図１〜３に示されたカメラなどのプレノプティックカメラ４１と、好適なプログラムコードを伴うマイクロプロセッサ４００などのプロセッサと、インターネット６などのネットワーク上で例えばクラウドサーバーなどの遠隔サーバー５とデバイス４を接続するためのセルラーインターフェースおよび／またはＷＩＦＩなどの通信モジュール４０１とを含む。サーバー５は、基準ライトフィールドデータコレクションおよび／または１つまたは複数のグローバルモデルを記憶するための、ＳＱＬデータベースなどのデータベース、１組のＸＭＬドキュメント、１組のライトフィールドデータ画像などを伴うストレージ５０と、アノテーション方法において必要とされるオペレーションをマイクロプロセッサに実施させるためのコンピュータコードを伴うマイクロプロセッサを含むプロセッサ５１とを含む。アノテーションおよび対応する位置も同様に、基準ライトフィールドデータと共にストレージ５０内に記憶可能である。

ユーザーデバイス４により実行されるプログラムコードは、例えば、ユーザーがユーザーデバイス４内にダウンロードしインストールできるアプリケーションソフトウェアまたはａｐｐを含むことができてよい。プログラムコードはまた、ユーザーデバイス４のオペレーティングコードの一部を含むこともできてよい。プログラムコードはまた、例えばＪａｖａ（登録商標）、Ｊａｖａｓｃｒｉｐｔ、ＨＴＭＬ５コードなどを含めた、ウェブページ内に埋め込まれたまたはブラウザ内で実行されるコードを含むこともできてよい。プログラムコードは、フラッシュメモリー、ハードディスク、または任意のタイプの永久的または半永久的メモリーなどの有形装置可読媒体（ｔａｎｇｉｂｌｅａｐｐａｒａｔｕｓｒｅａｄａｂｌｅｍｅｄｉｕｍ）中に、コンピュータプログラム製品として記憶されてよい。

プログラムコードは、マイクロプロセッサが、ライトフィールドに対応するキャプチャされたデータセット、またはこれらのデータセットのフィーチャのうちの少なくとも一部を遠隔サーバー５に対して送るようにするために、ユーザーデバイス４内でマイクロプロセッサ４００により実行される。プログラムコードは、このライトフィールドデータを「プレノプティックフォーマット」で、すなわち光線の方向についての情報を失なうことなく送るために配置されている。プログラムコードはまた、マイクロプロセッサ４００に、サーバー５からライトフィールドフォーマットにおけるアノテートされたデータ、またはアノテートされた画像、または先に送られたライトフィールドデータに関連するアノテーションを受取らせ、アノテーション付きのキャプチャされたデータに対応するビューをレンダリングさせることもできる。

一実施形態において、ユーザーデバイス４内のプログラムコードはまた、キャプチャされたデータ内に存在するローカルフィーチャを識別するための、およびこのローカルフィーチャの記述を計算、例えばプログラムコードが遠隔サーバー５に対して送らせることのできるバイナリーベクトル（ｂｉｎａｒｙｖｅｃｔｏｒ）を計算するためのモジュールをも含んでいる。

サーバー５内でマイクロプロセッサにより実行されるプログラムコードには、サーバー５に以下のタスクのうちの少なくとも一部を実行させるための実行可能なプログラムまたは他のコードが含まれていてよい：
− ライトフィールドを表わすデータをデバイスから受信すること；
− プレノプティックフォーマットでモデルおよび／または複数の基準データをリトリーブすること；
− ユーザーデバイスから受信したデータを、前記モデルの一部分と、または複数の基準データの中の１つとそれぞれ、マッチングすること；
− モデル結びつけられた、または複数の基準データの中の１つとそれぞれ結びつけられたアノテーションを決定すること；
− デバイスに対して、受信データに対応する、アノテーション、アノテートされた画像またはアノテートされたデータを送ること。

さまざまな実施形態において、サーバー内の基準データとのマッチングのためにキャプチャデータセットを遠隔サーバに送る代りに、このマッチングを、ローカルに記憶された基準データのセットまたはユーザーデバイス内にローカルに記憶されたモデルと、ローカルで行うことが可能である。

ここで、図１〜４のシステム、装置および配置を用いて実施できる方法のさまざまな考えられる実施形態について説明する。

Ａ．プレノプティックローカルフィーチャに基づく多数の独立した基準データセット
一実施形態において、サーバー５のストレージ５０内で、ライトフィールドを表わす既知でかつ前にキャプチャされた基準データセットのコレクション、例えばプレノプティックカメラで前にキャプチャされたかまたは３Ｄモデルからコンバートされた基準データのコレクションが入手可能である。この場合、適切なレジストレーションが可能になる前に、マッチングデータは基準データのセットから認識されなければならない。マッチング基準データとのレジストレーションが行われるのは、その後でしかない。

本実施形態において使用される、あり得る一連のステップが、図５に示されている。これには以下のものが含まれる：
ステップ１００：アノテートすべきライトフィールドがユーザーデバイス４内でプレノプティックカメラ４１によりキャプチャされるか、または、ライトフィールドデータの任意の考えられるソースからリトリーブされる。キャプチャされたプレノプティックライトフィールドの２Ｄ投影がユーザーデバイス４の２Ｄディスプレイ４０上に表示されてよいが、データは好ましくは、ライトフィールドデータとして、すなわち各サブ画像上の入射光線の方向についての情報を失なうことなく記憶される。
ステップ１０１：基準データをキャプチャするために使用されるプレノプティックカメラが、アノテートすべきライトフィールドデータをキャプチャするために使用されるプレノプティックカメラと同じタイプのものでない場合には、プロセスは、いずれか一方のデータを他方のデータのフォーマットにコンバートまたはリサンプリングするステップ１０１を含んでいてよい。例えば異なるプレノプティックカメラが、各サブ画像内に異なる数のピクセルを有するライトフィールドデータを生成するかまたは、異なる方法でライトフィールドをサンプリングしてもよい。このコンバージョンは、ユーザーデバイス４および／または遠隔サーバー５内で行うことができてよい。
ステップ１０２：キャプチャされたデータ内のローカルフィーチャの検出。以下で記述するように、例えば、ＤＰＦ（ｄｅｐｔｈｐｌｅｎｏｐｔｉｃｆｅａｔｕｒｅ：深さプレノプティックフィーチャ）アルゴリズムにしたがうことによってか、またはライトフィールド内に含まれる視差情報（ｄｉｓｐａｒｉｔｙｉｎｆｏｒｍａｔｉｏｎ）を使用することによってか、あるいは、エピポーラボリューム（ｅｐｉｐｏｌａｒｖｏｌｕｍｅ）でライトフィールドを表現することによって、検出を行うことができる。他の検出方法および他のタイプのローカルフィーチャを使用してもよい。使用されるローカルフィーチャのタイプおよび検出方法は、シーン、場所、ユーザーの選択などによって左右される可能性がある。
ステップ１０３：キャプチャデータ内で検出されたこれらのローカルフィーチャの記述。先行ステップの間に検出されたローカルフィーチャのタイプに応じて、例えば、以下で説明するように、バイナリーベクトル、またはエピポーラボリュームでの視差またはローカルフィーチャ点の記述によりうまく適応させられた他の記述子（ｄｅｓｃｒｉｐｔｏｒ）などを含め、異なるタイプの記述子を使用できると考えられる。ローカルフィーチャの検出および記述は、有利には、サーバー５にこれらの短かい記述を送ることしか必要としないユーザーデバイス４内の好適なソフトウェアモジュールによって行われる。完全なライトフィールドデータをサーバー５に送ることも同様に可能であり、サーバー５はそしてローカルフィーチャを検出し記述するが、この結果として、利用可能な帯域幅の使用効率は低くなると考えられる。
ステップ１０４：記述されたローカルフィーチャに基づく、キャプチャされたデータの認識。これは様々な方法で行うことができる。一実施形態においては、ローカルフィーチャを量子化し（ステップ１０４０）、その後この量子化されたフィーチャを用いて、ステップ１０４１の間に、同じ（またはほぼ同じ）量子化されたフィーチャセットを有する基準データを検索することができる。基準データは、ユーザーデバイスからおよび／または遠隔サーバー５内の遠隔ストレージ５０からリトリーブされてよい。基準データのプレフィルタリングは、さまざまなフィルタリングクリテリア（ｃｒｉｔｅｒｉａ）、例えば衛星または地上（ｔｅｒｒｅｓｔｒｉａｌ）位置特定システムから予め決定されたユーザーデバイス４の場所、シーンから受信した信号、ユーザーの選択などに基づいて行われてよい。基準データは２Ｄ画像、３Ｄモデルまたは好ましくはライトフィールドを表わすデータを含む場合がある。このステップは、サーバー５内の好適なプログラムコードによって実行されてよいが、基準データの数が過度に多くなければ、ユーザーデバイス４内でのローカル認識も可能である。
量子化ステップ１０４０は、既知の基準の数が増大した場合に、システムをより容易にスケーリングできるようにする。
ステップ１０６：キャプチャされたデータ中の検出されたローカルフィーチャと、先のステップ中に識別された基準データ中のローカルフィーチャとのマッチング。基準データ中のローカルフィーチャは、コレクション５０が構築された時点で、先行する段階において、検出され記述される。このステップは、サーバー５内で好適なプログラムコードによって実行されてよいが、ユーザーデバイス４内で実行してもよい。
ステップ１０７：キャプチャデータから検出されたローカルフィーチャを、マッチングする基準データへとマッピングする、幾何学的変換（ｔｒａｎｓｆｏｒｍａｔｉｏｎ）を見つける。このステップは、「レジストレーション」と呼ばれる。変換には、ローテーションを用いたキャプチャされたデータのワーピング（ｗａｒｐｉｎｇ）、スケーリング、トランスレーションまたはホモグラフィが含まれる。複数の基準画像が利用可能である場合には、このステップは、レジストレーションの質が最良である基準データの決定を含んでいてよい。レジストレーションは、ユーザーデバイス４内、遠隔サーバー５内または、部分的にユーザーデバイス内と遠隔サーバー内において行われてよい。
一実施形態において、レジストレーションプロセスの結果は、また、「拡張レイヤー（ａｕｇｍｅｎｔｅｄｌａｙｅｒ）」として表示されるべき情報との関係におけるシーンをキャプチャするユーザーデバイス４の全位置をも示す。カメラの位置および配向は、６つのパラメータ、すなわち位置について３つ、その配向について３つのパラメータによって識別されてよい。このステップは、サーバー５内で好適なプログラムコードにより実行されてよいが、ユーザーデバイス４内で実行されてもよい。
ステップ１０８：コレクション５０内の基準データと結びつけられた少なくとも１つのアノテーション、ならびにこのアノテーションが結びつけられるべき画像の位置またはフィーチャをリトリーブする。
ステップ１０９：ステップ１０８中にリトリーブされたアノテーションのうちの少なくとも１つを伴うキャプチャデータに基づいて、２Ｄまたは３Ｄ画像などのビューを、ユーザーデバイス４のディスプレー４０上にレンダリングする。

Ｂ．プレノプティックローカルフィーチャに基づくグローバル基準データセット
上述の方法Ａは、異なるライトフィールドを表わす基準データのコレクション、および最も高い精度または信頼度で基準データとマッチする基準データを、ローカルフィーチャに基づいて決定するプロセスに依存している。

ここで、基準ライトフィールドデータのコレクションの利用可能性に依存せずシーンのグローバルモデルを使用するグローバル方法について説明する。この方法ではなお、キャプチャされたデータとこのモデルのマッチングおよびレジストレーションのためにローカルフィーチャが使用される。この種の方法は、例えば屋外位置特定の場合に役立つが、建物、美術館、モールなどの内部または、シーン全体のモデルが利用可能である他の拡張現実アプリケーションについても使用可能であると考えられる。

グローバルモデルは、１つまたは複数のプレノプティックカメラでキャプチャされたライトフィールドデータセットについて計算されたローカルフィーチャのクラウドにより構成されていてよい。例えば、都市または基準シーンのモデルを、さまざまなカメラでキャプチャされたライトフィールドデータの大型セットを集約することによって構築してよい。ローカルフィーチャはこれらのさまざまなデータピース内で検出され、記述される。これらの記述されたフィーチャは、次にグローバル座標系内の特定の物理的場所に割当てられる。最後に、モデルはこうして、各々グローバル座標系内の特定の物理的場所を表わすローカルフィーチャのクラウドで構成される。都市の場合、座標系は、例えばＧＰＳ（ＷＧＳ８４）内で使用されるものであり得、全てのフィーチャはその座標系内の特定の点／ローカルエリアを表わし得ると考えられる。

代替的には、モデルは、プレノプティックサンプルから抽出されたプレノプティックローカルフィーチャで構成されない。例えば、クエリーがプレノプティックサンプルである一方で、１都市の３Ｄモデルを得ることができる。その場合、可能性としては、３Ｄモデルから合成ライトフィールドデータをレンダリングするという可能性が考えられる。別の可能性としては、２つのデータモダリティ間の相互情報測度（ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎｍｅａｓｕｒｅ）を使用して、３Ｄモデル上に入力プレノプティック画像をマッピングする幾何学的変換が相互情報測度との関係において最適化される最小化プロセスを適用することがある。

ユーザーデバイス４内においてプレノプティックカメラ４１でキャプチャされた新規キャプチャデータを、ローカルプレノプティックフィーチャのこのクラウドに対してマッチさせるためには、図６を用いて例示される以下のアプローチを使用してよい：
ステップ１００：アノテートすべきライトフィールドを表わすデータをキャプチャまたはリトリーブする。
ステップ１０１：必要な場合、データをリサンプリングする。
ステップ１０２〜１０３：ライトフィールドを表わすキャプチャされたデータ内のローカルフィーチャを検出し記述する。
ステップ１１０：検出されたローカルフィーチャを、例えばデータベース５０内に記憶されたモデルなどのグローバルモデル１１０１のローカルフィーチャとマッチングする。このマッチングは、フィーチャを合わせてビニング（ｂｉｎｎｉｎｇ）して検索を加速させることによって、スピードアップすることができる。先行する情報１１０２（ＧＰＳ情報、ユーザー入力など）に基づいて、枝刈り（ｐｒｕｎｉｎｇ）ステップ１１００を実施して、マッチングをスピードアップしてもよい。このとき、マッチングは、これらの先行情報に対応するローカルフィーチャのサブセットについてのみ行われる。局所性鋭敏型ハッシュ法（ｌｏｃａｌｉｔｙｓｅｎｓｉｔｉｖｅｈａｓｈｉｎｇ）を使用してもよく、その場合、ハッシュ関数セットがフィーチャー記述子について計算されて、異なるハッシュ値に基づいてクラスタを作り出す。ハッシュ関数のセットは、記述子空間内で互いに近接している２つの記述子が同じハッシュ値を生成するような形で選択される。
ステップ１１１：グローバルモデル内でローカルフィーチャをマッチさせた状態でキャプチャデータ内において検出されたローカルフィーチャを投影する幾何学的変換を計算する。これはレジストレーションステップである。このステップの出力は、カメラ４１のポーズ推定であり、こうして、キャプチャデータをキャプチャするカメラがモデル座標系との関係においてどこにあるかがわかるようになる。
ステップ１０８：次にアノテーションがリトリーブされる。アノテーションは通常、位置依存性（ｐｏｓｉｔｉｏｎ−ｄｅｐｅｎｄｅｎｔ）であり、それ自体、モデル座標系の内でレジストレーション（ｒｅｇｉｓｔｅｒｅｄ）されている。
ステップ１０９：アノテーション付き画像がレンダリングされる。

ここでもまた、プレノプティック情報を使用することで、とりわけ異なる照明条件、画像変形などの下でのマッチングおよびレジストレーションプロセスのロバスト性が改善される。

Ｃ．グローバルモデルを用いたライトフィールドデータに基づくグローバルレジストレーション
ここで、グローバルモデルを用いたグローバルレジストレーションに基づくさらなるレジストレーション方法について記述する。先行の方法Ｂと同様、この方法は、所定のシーンの既知のグローバルモデルが利用可能である場合に使用できる。例えば、都市の場合、我々は、我々が所与の都市内にいるという先験情報（ａ−ｐｒｉｏｒｉｉｎｆｏｒｍａｔｉｏｎ）を有し、したがってすでに利用可能であるその都市の３Ｄモデルをロードすることができる。レジストレーションプロセスは、モデル座標系との関係における、ライトフィールドデータをキャプチャしたカメラの位置を送出する。

一例として、グローバルレジストレーションに基づく典型的方法には、図７を用いて例示されている以下のステップが含まれ得る：
ステップ１５２：ステップ１５２の間に、ユーザーが現在おかれているシーンまたは環境のグローバルモデルが、例えばプレノプティックセンサー２を含むユーザーのスマートフォンまたはタブレットまたはナビゲーションシステムなどのユーザーデバイス４のメモリー内にロードされる。ストレージ５０からロードされるモデルは、例えばＧＰＳを用いて決定されるユーザーの場所、ユーザーの選択、シーンの自動解析、他の先験的に既知の情報などにより左右され得る。
ステップ１００：アノテートすべきライトフィールドが、ユーザーデバイス４のカメラ４１でキャプチャされる。キャプチャされたプレノプティックライトフィールドの２Ｄ投影は、ユーザーデバイス４の２Ｄディスプレイ４０上に表示されてもよいが、データは好ましくは、ライトフィールドデータとして、すなわち各ピクセル上の入射光線の方向についてその情報を失なうことなく記憶される。
ステップ１０１：プロセスは、例えばモデルが異なるフォーマットを有する場合、マッチングおよび認識プロセスを容易にするかまたは迅速化するため、キャプチャデされたータをコンバートまたはリサンプリングする追加のステップを含んでいてよい。例えば、異なるプレノプティックカメラが、各サブ画像内に異なる数のピクセルを有するデータを生成するかまたは、異なる方法でライトフィールドをサンプリングしてよい。このコンバージョンは、ユーザーデバイス４内または遠隔サーバー５内で行うことができる。
ステップ１５０：初期位置は、例えばＧＰＳ、ユーザーが入力した情報、または他の類似の先行情報に基づいて推定されてよい。
ステップ１５１：キャプチャされたデータは、モデルとの関係においてレジストレーションされる。アウトプットでは、モデルとの関係におけるカメラの位置についての完全な６つの自由度がある。モデルがユーザーデバイス４内にロードされた場合には、レジストレーションはこのデバイス内のプロセッサにより行われ得る。
ステップ１０８：計算されたデバイス４の位置の周りの場所あるいはこの位置から見えるはずのものと結びつけられた１組のアノテーションが、モデルからリトリーブされる。
ステップ１０９：先行ステップ中にリトリーブされたアノテーションのうちの少なくとも１つを伴うキャプチャされたデータに基づいて、２Ｄまたは３Ｄ画像などのビューが、ユーザーデバイス４のディスプレイ４０上にレンダリングされる。

上述のグローバルレジストレーション法のレジストレーションステップ１５１は、好ましくは、カメラ位置の推定が与えられており、目的関数（ｏｂｊｅｃｔｉｖｅｆｕｎｃｔｉｏｎ）を用いて、プレノプティックライトフィールドサンプルをモデル（上記の場合においては都市モデル）へと投影する誤差（ｅｒｒｏｒ）を計算する。この目的関数（費用関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）としても公知である）を用いて、カメラ位置推定値が精緻化され改善されて投影誤差を最小化するような形で、反復的最適化プロセスを適用することができる。この最適化プロセスを、以下のステップに分解することができる：
１．ユーザーデバイスの位置の初期推定値を獲得／計算する。これは、例えばプレノプティックカメラを含むスマートフォンの場合、スマートフォンＧＰＳ、加速度計ならびにデバイスの位置および配向を計算するためのコンパスを使用することによって行うことができる。この初期設定値を現在の設定値として設定する。
２．入力されたプレノプティックサンプルのモデル内への投影を計算する。目的関数を用いて、投影誤差を計算する（ステップ１５１０）。
３．誤差および目的関数を所与として、次のカメラ位置推定値を計算し（ステップ１５１１）、それを現在の推定値として設定する。
４．誤差が特定の閾値より大きい場合、ステップ２に戻り、それ以外の場合にはステップ５に進む。
５．現在の推定値が、ユーザーデバイスの最適化された位置であり、モデルとの関係におけるデバイスの実際の位置に対応する。

我々は、ライトフィールドを表わすデータを使用していることから、ステップ１５１０で使用される目的関数を調整し、こうして、目的関数がそのデータセット内に存在する全ての情報を使用し、標準的２Ｄ画像が使用される場合よりもレジストレーションをよりロバストなものにするようにすることができる。

プレノプティック入力サンプルのために特別に調整された目的関数を導出して、あらゆる種類の変換および照明条件に対してレジストレーションをよりロバストなものにすることができる。プレノプティックモデルが利用できない場合、考えられる１つのアプローチは、３Ｄモデルからプレノプティック合成サンプルを生成することである。このサンプルは、仮想プレノプティックカメラをシミュレートし、異なる３Ｄモデル点上でレイトレーシング（ｒａｙ−ｔｒａｃｉｎｇ）プロセスを行うことによって生成可能である。３Ｄモデルの各点は３Ｄ座標ならびに反射率または透明度などの物理的プロパティを用いて表現され得ると考えられる。シーンの光源も同様に、現実的な３Ｄシーンを得る目的で記述されてよい。シーン光源が欠如している場合、照明はアンビエント（ａｍｂｉｅｎｔ）として、したがってシーンの各オブジェクトに同等に影響を及ぼすものとして、みなすことができる。レイトレーシング方法には、このとき、シーン内を進む（ｔｒａｖｅｌｉｎｇ）実際の光線をシミュレートするために空間内の光線経路を再構成することが関与する。光源の存在下で、光線はこれらの光源から出発してトレースされシーンのオブジェクト上に伝播させられる。アンビエントな照明が考慮される場合、光線は直接、３Ｄモデルの物理的点から生成される。反射、屈折、散乱または分散が、シーンレンダリングの優れたリアリズムを確保するためにレイトレーシングによってシミュレートされ得る光学的効果の一部分である。

プレノプティックカメラセンサーをヒットするライトフィールドをシミュレートするため、仮想シーン内に仮想プレノプティックカメラを置くことができる。該カメラのメインレンズに入る全ての光線は、このとき、仮想センサー上に仮想的に投影されて、３Ｄモデルに反応するプレノプティック基準データを作り出すことができる。

このプレノプティック基準データをリトリーブした後、基準データ内とキャプチャされたデータ内の光線強度の間の相関関係が最大であるようなカメラの視点を決定することができる。モデル内のカメラの最も尤度の高い視点を決定するために、他の目的関数を使用することができるだろう。

ローカルフィーチャの検出および記述
方法ＡおよびＢは両方共、真に情報提供的（ｉｎｆｏｒｍａｔｉｖｅ）であるデータ、すなわちそのエントロピーが空間の他のエリアに比べて高いものであるデータの、特定的なそれゆえローカルなフィーチャのみにレジストレーション空間を削減することを目指している。その上、２つのローカルフィーチャ間の相互情報すなわち相対的エントロピーは、２つのローカルフィーチャが２つの異なるエリアを表わしている場合それらが互いから容易に差別化され得るように低いものであることを目指している。これらのフィーチャの最後の所望される特性は、同じシーンの２つのビューを所与として、これら２つのビューの間の変換がいかなるものであろうと（幾何変換、露光変化（ｅｘｐｏｓｕｒｅｃｈａｎｇｅｓ）など）同じフィーチャを検出することができるということにある。

一態様によると、レジストレーションおよび認識のために使用されるローカルフィーチャの種類は、シーンのタイプに応じて選択される。例えば、自然のパノラマ式ビューにおいては、ストリートレベルでの都市の場合と同じフィーチャは使用しない。前者の場合には、フィーチャとして水平線を使用することができ、後者の場合には、適切なフィーチャは、複数の異なる種類の深さが交差している点となる。

内容が参照によりここで援用されている国際公開第２０１２／０８４３６２号は、アルゴリズムがシーンにより左右される拡張現実方法について記載している。ただし、この文書は、レジストレーションのために使用されるローカルフィーチャのタイプをシーンのタイプに適応させることを示唆していない。国際公開第２０１２／０８４３６２号に記載の方法に類似する方法は、例えばデバイスの場所、画像の解析、ユーザーの選択、受信信号などから決定されるシーンタイプに応じて使用すべきローカルフィーチャのタイプを決定するために、ここに記載の装置および方法において使用可能である。

ローカルフィーチャの第１の例：深さプレノプティックフィーチャ（ＤｅｐｔｈＰｌｅｎｏｐｔｉｃＦｅａｔｕｒｅｓ：ＤＰＦ）
一実施形態において、キャプチャデータのレジストレーションに使用されるローカルフィーチャには、平面のインターセクション（ｉｎｔｅｒｓｅｃｔｉｏｎ）が含まれる。

例えば都市環境内の写真または機械的部品などの製造されたオブジェクトの画像は、多くの場合、通常はジオメトリの観点から見てきわめて規則的であり通常テクスチャ度が低いものである多数の人工構造物を含む。これらのエリア内では、多数の平面が交差（ｉｎｔｅｒｓｅｃｔ）する点は、典型的に３Ｄでのコーナーを表わすと考えられる。したがって、このような人工的シーンにおいて、フィーチャ点は、最少数の平面が交差するエリアとして定義づけることができる。

このタイプのフィーチャの検出は、ライトフィールドフォーマットでのキャプチャデータ内に存在する全ての情報を活用することによって、効率良くかつ精確に行うことができる。

プレノプティックカメラ４１（図４）内でプレノプティックセンサーにより送出されるデータ中では、サブ画像の異なるピクセルが、マイクロレンズ２０上にさまざまな入射角で到来する、すなわち異なる距離にあるオブジェクトから来る光ビームに対応する。したがって、異なる集光面（ｆｏｃｕｓｅｄｐｌａｎｅ）内でオブジェクトの焦点が合っているエリアは、複数の隣接するピクセルが同じあるいはほぼ同じ値を有するサブ画像として容易に検出できる。

したがって、深さフィールドの計算または他の計算が激しいタスク無しで、異なる深さで焦点合せされた画像を作り出すために、異なるサブ画像からとられたピクセルセットがリトリーブされる。深さプレノプティックフィーチャを、異なる深さにある物理的点が同時に存在するエリアとして定義し、キャプチャされたデータを基準データとレジストレーションするためにこれらのフィーチャを使用することができる。

異なる焦点距離でライトフィールドの異なる投影を伴うスタックを考慮する。このスタックの１つの画像を取り上げた場合、焦点が合っているオブジェクトは、前の画像上ではさほど焦点が合っていないことになる。同じことは次の画像についてもあてはまる。したがって、このスタック上で３Ｄグラディエント（３Ｄｇｒａｄｉｅｎｔ）を計算することが可能である。グラディエントマグニチュードが高いエリアは、焦点合せレベルの高いオブジェクト／ピクセルに対応する。このグラディエントマグニチュードが低いエリアは、キャプチャされたデータをレジストレーションするための高エントロピーフィーチャとして検出され使用され得る、異なる深さで存在するオブジェクトに対応する。したがって、同じ物理的エリアについて異なる焦点合せされた情報を提供するプレノプティックカメラの能力とこのイン−フォーカス検出技術を結合させると、結果として、情報提供レベルの高い反復可能なフィーチャが得られる。

したがって、このローカルフィーチャ検出方法には、例えば、視線にほぼ平行である平面に対応し、スタックの３Ｄグラディエントが低くて、異なる深さに存在する同一のオブジェクトに対応している、データ内のエリアの検出が含まれていてよい。この方法にはまた、視線にほぼ直交する平面に対応しそのために隣接するピクセルが類似の値を有しているデータ内のエリアの検出も含まれていてよい。ローカルフィーチャの検出方法には、視線にほぼ直交する平面と視線にほぼ平行な平面との間の交差点の検出が含まれていてよい。

より一般的には、ローカルフィーチャの検出は、特定の深さに対応するピクセルが、異なる深さにある同じサブ画像のピクセルと所定の関係を有しているプレノプティックライトフィールド内のエリアの検出を含むことができる。例えば、深さ方向（視線と平行）での高エントロピーまたは高い周波数も同様にレジストレーションにとって有用なフィーチャであるとみなされてよい。

ローカルフィーチャの第２の例：視差（ｄｉｓｐａｒｉｔｉｅｓ）に基づくローカルフィーチャ
一実施形態において、キャプチャされたプレノプティックライトフィールドの識別に使用されるローカルフィーチャは、ライトフィールド内に含まれている視差情報を使用する。

物理的点の視差は、１つの平面に対する物理的点の２つの投影間の変位である。典型的視覚系においては、視差は、同じ画像平面上の２つの異なるビューから投影された同じ物理的点についての位置の差に対応するものとして計算される。

２つの異なるビューからの１つの点の投影の変位は、その点が上に投影される平面との関係におけるその点の深さに関係づけされる。カメラ平面から一定の距離のところにある点は、該平面からさらに離れた点に比べてより高い視差（変位）値を有する。すなわち、オブジェクトが該平面に近ければ近いほど、その視差値は大きくなる。その結果として、深さは視差値と逆の関係にある。

プレノプティックライトフィールドのキャプチャには、物理的点から来る光線の位置および方向の情報を含むので、同じ物理的点から来る異なるビューに対応する異なる光線を抽出することが可能である。このとき、これらの光線に結びつけられたサブ画像ピクセルを用いて、視差および深さ情報を計算することができる。

このとき、深さの情報を、ローカルフィーチャと結びつけて識別およびマッチングのロバスト性を改善することができる。

一実施形態においては、深さ情報を平均として用いて、特定の深さに存在するオブジェクトへと点をクラスタ化することができる。この実施形態は、幾何学的に規則的である有意な数の人工的構造を多くの場合に含む製造されたオブジェクトまたは都市シーンの場合に特に有利である。実際、平面は、このような人工的環境内で頻出する。このとき、クラスタは、カメラの視線に直交する特定の深さにおける平面を表わす。

クラスタを用いると、マッチングはよりロバストなものになる。実際、単一のローカルフィーチャに対してただ制約を加える代りに、複数のフィーチャのグループを合わせてマッチングすることができる。これらのクラスタのマッチングは、ローカルフィーチャのみを用いる場合に比べてより制約が大きく、したがってより優れた結果を生み出す。

キーポイントのクラスタ化はまた、いずれのクラスタにも属さない無意味で切り離されたフィーチャを廃棄するという利点を有する。こうして、１つのシーンのマッチングに必要なフィーチャの数は減少し、その結果、大きいアノテーションまたは多くのキャプチャされた画像をマッチングする必要のあるシステムにより適応したものとなる。

ローカルフィーチャの第３の例：エピポーラボリューム形態（ＥｐｉｐｏｌａｒＶｏｌｕｍｅｆｏｒｍ）
一実施形態においては、意味のある安定したローカルフィーチャ点を検出するために、エピポーラボリュームそしてより具体的にはこれらの体積内のエピポーラ線と呼ばれる線が使用される。エピポーラ線は、ハリスアフィンフィーチャ領域検出器（Ｈａｒｒｉｓａｆｆｉｎｅｆｅａｔｕｒｅｒｅｇｉｏｎｄｅｔｅｃｏｒ）などの他のフィーチャの検出器と組合わせることができる。エピポーラボリューム形態としてプレノプティックライトフィールドサンプルを表現することは、プレノプティックボリュームの多くの解析を簡略化し迅速化することから、極めて興味深い。エピポーラボリュームは、２つの画像間のカメラの動きが単に水平方向並進である場合に、画像を合わせてスタッキング（ｓｔａｃｋｉｎｇ）することによって作り出される。これらのボリュームを解析することで、以下の結論が得られる。すなわち、これらのボリューム上に存在する線は、単一の物理的点を表わし得る。したがってこの線の傾斜はまた、この点の深さを定義する。

したがって、一実施形態においては、ライトフィールドデータ内のローカルフィーチャが、エピポーラボリューム空間内で決定され投影される。この空間内で、不変ではない（ｎｏｎ−ｓｔａｂｌｅ）フィーチャを除去するために２つの短かい線をフィルタリングする一方で、点を線にクラスタ化し線１本あたり単一のローカルフィーチャ点のみを保持（ｒｅｔａｉｎ）する。アウトプットにおいて、異なる視点の下で検出された通りの不変の（ｓｔａｂｌｅ）ローカルフィーチャセットが得られる。

ローカルフィーチャの記述：バイナリープレノプティックフィーチャ記述子
（例えば図５のステップ１０３における）ローカルフィーチャの記述は、バイナリー形態で行うことができるだろう。２つのフィーチャを合わせて比較してそれらが類似しているか否かを見るためにハミング距離を使用することが可能であるため、各フィーチャの記述子サイズが著しく縮小されるのみならず、比較もスピードアップする。実際、ハミング距離は、一度に複数のバイトについて距離を計算する専用のベクトル命令を用いて、効率良く計算可能である。

上述のＤＰＦフィーチャは、グラディエントオペレータ（ｇｒａｄｉｅｎｔｏｐｅｒａｔｏｒ）由来の情報を活用する記述子を用いて記述され得る。さらに迅速な方法は、ピクセル値比較を実施して検出されたフィーチャを記述することである。これを、グラディエントオペレータの簡略版とみることができる。ピクセル値のこれらの比較は、前に検出されたフィーチャ点のまわりで行われ、このような記述子の所望される反復可能性および情報提供性を保つことができるようになっている。単一の比較の結果は、長さ１ビットの情報に対応する。比較を多数回行うことで、結果として、ビット−ストリング記述子が得られ、ここで各ビットは特定の１回の比較に対応する。

２進化された記述子のこの原理は、プレノプティックライトフィールドデータの全ての情報を活用してプレノプティックバイナリー記述子を得ることにより、プレノプティック空間内で使用することができる。標準的ピンホールカメラにより画像が生成される場合、ピクセル値の比較は、画像の視覚的情報の比較に対応するだろう。プレノプティックカメラの場合には、比較は、記述子のエントロピーを最大化するために異なる次元で行われる。

先に見た通り、プレノプティック画像は複数のサブ画像で構成されている。単一のサブ画像は、異なる視点の下での同じ物理的点の複数の表現を含む。したがって、プレノプティックバイナリー記述子においては、この情報冗長性が有効に使用される。このプレノプティックバイナリー記述子が前述のＤＰＦ検出器と結合された場合、該検出器によって有効利用される焦点スタックもまた、比較点のソース（ｓｏｕｒｃｅ）として使用することができる。したがって、プレノプティックバイナリー記述子は、エリアの異なるビューについての情報と、このフィーチャエリアの異なる深さについての情報の両方を含む。

このとき、プレノプティックバイナリー記述子は、比較点ペアの１セットを選択することによって計算される。これらのペアの一方の部分は、ＤＰＦ検出器によって検出されたフィーチャ点エリアの周囲にあるサブ画像から取られたピクセル値の場所に対応する。他方の部分は、フィーチャ点エリアの周囲にあるがＤＰＦ検出器の焦点スタックにおける異なる深さにある点に対応している。このペアのセットは、一回のみ選択され、同じものが全ての記述子の計算について使用される。

この比較点セットを選択するための種々の戦略が存在する。第１のものは、焦点スタックまたはサブ画像のいずれかであり得る所望の空間内で無作為に選択するという戦略である。これは高い信頼性でうまく機能する一方で、最高のセットを学習し、同じフィーチャ間の内部距離（ｉｎｔｒａ−ｄｉｓｔａｎｃｅ）を最小化しながら異なるフィーチャ間の相互距離（ｉｎｔｅｒ−ｄｉｓｔａｎｃｅ）を最大化する目的で、機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）を使用することもまた可能である。中サイズのフィーチャエリアについては、記述子の相関関係を最小化しながらその分散を最大化するために、最良の比較点の欲張り（ｇｒｅｅｄｙ）アルゴリズムに基づく検索が実施される。

所与のフィーチャエリアを表わすバイナリー記述子を計算するために、以下の手順を適用することができる：
１．各比較点ペアについて、第１の比較点におけるレンダリングされるグレースケールピクセル値が、他方の点におけるものよりも小さいか否かを決定する。
２．比較が真である場合には、バイナリーの「１」が、（当初は空である）記述子に追加され、そうでなければ、バイナリーの「０」が追加される。
３．該手順を各比較点について反復し、バイナリーストリング記述子を作り出す。

これらの技術を用いて、キャプチャされたデータのこのように決定されたバイナリー記述子を、基準プレノプティックライトフィールドのバイナリー記述子と比較することができる。この比較は、このプレノプティックフィーチャ空間内でのそれらの相対的距離を決定するため、ハミング距離に基づくものであってよい。

レジストレーションから拡張（ａｕｇｍｅｎｔｅｄ）シーンへ
上述の方法のうちのいずれか１つでのレジストレーションの後、レジストレーションされた基準シーンに対して相対的なユーザーデバイス４内のプレノプティックカメラ４１の位置および配向がわかる。キャプチャされたデータに対応する基準データも同様にわかり、基準データベース内で、データの種々の要素またはフィーチャについてのアノテーションセットと結びつけられる。アノテーションは、テキスト、画像、ビデオ、音声、既存のフィーチャの操作または強調、３Ｄオブジェクトなどで構成されていてよい。これらは、アノテートされるべきシーンおよびビューのコンテキストに左右される。

その後、最終拡張（アノテートされた）画像は、レンダリングされる。例えば、山の名前または他のアノテーションを該画像上に重ね合せた伴うキャプチャされた景観を示す２Ｄ画像（静止画またはビデオ）を生成することが可能である。あるいは都市環境においては、最寄の店舗およびアメニティへの道順を画像上に表示することができる。

一実施形態において、ビュー（焦点の合ったオブジェクト、カメラの視点）のレンダリングは、アノテーションの組込みの前に発生する。したがって、所与のレンダリングされたビューについてのポーズならびにモデル内のアノテーションの位置が分かっているため、それらを、レンダリングするように選択したビュー内に投影することが可能である。

拡張現実（ＡＲ）プレノプティックレンダリングおよびアプリケーション
プレノプティック空間内の１シーンのキャプチャは、拡張現実レンダリングに関する新たな可能性の扉を聞く。実際、プレノプティックカメラ内でセンサーをヒットする光線の位置および方向は、他のフィーチャの中で、深さ情報のリトリーブ、画像のキャプチャ後の再度の焦点合せ、あるいはユーザーの視点の変更を可能にするので、シーンレンダリングをさらに良くしてユーザーに新しい経験を提供するためにこの情報を活用することができる。以下の段落では、考えられるいくつかの進歩したレンダリング能力について記述する。

実際、拡張現実の１つの特別な利点は、例えばいくつかの関連追加情報を得るために興味のあるフィーチャをクリックすることなどによって、ユーザーが、プロセスによりレンダリングされた画像の要素と対話できるという事実に関連する。この対話（ｉｎｔｅｒａｃｔｉｏｎ）は、ユーザーが受動的である代りに、現実のものであれ仮想のものであれ、オブジェクトと直接対話することになるため、極めて有利である。

例えば、多くの場合に、レンダリングされた画像のどの特定のオブジェクトが、インタラクティブでありアノテーションと結びつけられていて、従ってユーザーが例えばそれをクリックすることができる、ということをユーザーに告げることが望まれる。この問題を解決する１つの方法は、例えば該オブジェクトを指し示す矢印を伴うテキストボックスなどの通知を表示することである。しかしながら、複数のインタラクティブオブジェクトがキャプチャされたシーンの一部である場合には、インタラクティブな要素が何であるかをユーザーに告げる多くの通知が存在する必要がある。

プレノプティック空間は、新たなインタラクティブな要素を許容し、これらによりユーザーにより良い体験が提供される。前述の通り、プレノプティックセンサによりキャプチャされたデータは、データがキャプチャされた後も、異なる焦点距離を有する２Ｄ画像としてレンダリングされる能力を有する。また、再焦点合せプロセスは、データのローカル部分ごとに独立して計算でき、必ずしもデータを全体として考慮しない。換言すると、これはすなわち、１つの画像の特定のオブジェクトを、たとえこれらのオブジェクトがシーン内で同じ深さに属さない場合であっても焦点合せできるようにすることができる、ということを意味している。

したがって、シーンの他の要素はぼやけている一方で、アノテートされたオブジェクトまたはアノテートされた画像のフィーチャは焦点の合った状態となるようにレンダリングされ得る。このようにして、ユーザーは、画像中において何がアノテートされたまたはインタラクティブオブジェクトであるかそしてどれがそうではないのかに、直ちに気づくことができる。

一例として、インタラクティブな拡張現実マニュアルまたはビデオチュートリアルを構想することができ、ここで、プリンタの異なるノブまたは部品が、ユーザーの選択に基づき拡張現実の形で表示される有用な命令を含む。２Ｄアノテートされた画像が、プレノプティックライトフィールドからレンダリングされ得、これがプリンタを示し、かつ、画像の残りの部分がぼやけている一方で、その全てのインタラクティブノブまたは部品を焦点の合った状態にする。したがって、ユーザーには、プリンタのインタラクティブ部品が提示され、ユーザーはこれをクリックしてアノテーションにアクセスすることができる。ユーザーは同様に、他の要素の焦点合せされたビューを望む場合、焦点深さを変更してもよい。

プレノプティックカメラの視点の変更は、部分的（ｐａｒｔｉａｌ）３Ｄ要素として１つのシーンの各点をレンダリングする可能性を提供する。シーンに由来する光線は、オブジェクトの周囲の全ての位置からではなく１つの位置からキャプチャされることから、３Ｄ再構成は部分的なものでしかない。しかしながら、この部分的３Ｄ再構成は、スインギング（ｓｗｉｎｇｉｎｇ）／ジッタリング（ｊｉｔｔｅｒｉｎｇ）運動でシーン内のオブジェクトをレンダリングすることを可能にする。これらのオブジェクトは、特定の方向から見られる、画像からポップアウトする３Ｄオブジェクトとして現われる。ここでもまた、この効果は、シーンの選択されたオブジェクトについてローカルで計算され得る。したがって、１つのシーンのインタラクティブ要素は、運動するオブジェクトとして表示されこうしてユーザーの注意を引くことができ、一方他のオブジェクトは静止状態にとどまる。このとき、アノテーションの内容表示をトリガーするためユーザーはこれらのスインギング要素をクリックすることができる。

以上で記述した方法のさまざまなオペレーションは、さまざまなハードウェアおよび／またはソフトウェアコンポーネント（単複）、回路、および／またはモジュール（単複）などの、これらのオペレーションを実施できる任意の好適な手段によって実施されてよい。概して、本出願中に記載のいずれのオペレーションも、それらを実施することのできる対応する機能的手段によって実施されてよい。さまざまな手段、論理ブロックおよびモジュールには、回路、特定用途向け集積回路（ＡＳＩＣ）、または汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ信号（ＦＰＧＡ）または他のプログラマブル論理デバイス（ＰＬＤ）、個別ゲートまたはトランジスタロジック、個別ハードウェアコンポーネント、あるいはここに記載の機能を果たすように設計されたこれらの任意の組合せを含む（ただしこれらに限定されない）さまざまなハードウェアおよび／またはソフトウェアコンポーネント（単複）および／またはモジュール（単複）、が含まれていてよい。汎用プロセッサは、マイクロプロセッサであってよいが、代替的には、プロセッサは、任意の市販のプロセッサ、コントローラ、マイクロコントローラまたは状態機械（ｓｔａｔｅｍａｃｈｉｎｅ）であってよい。プロセッサは、計算用デバイスの組合せ、例えばＤＳＰとマイクロプロセッサ、複数のマイクロプロセッサ、ＤＳＰコアと併用した１つ以上のマイクロプロセッサの組合せ、あるいは他の任意のこのような構成として実装されてもよい。サーバーは、単一の機械として、一組の機械として、仮想サーバーとして、またはクラウドサーバーとして実装されてよい。

ここで使用される「ライトフィールドデータ」という表現は、プレノプティックカメラで生成されたか、またはあたかもプレノプティックカメラでキャプチャされたかのように３Ｄモデルから計算された、そして１つのシーンのライトフィールド画像すなわち光の明度および色だけでなくこの光の方向も記憶されている画像を記述している任意のデータを意味する。このようなプレノプティックライトフィールド画像からレンダリングされた２Ｄまたは３Ｄ投影は、この光の方向が失なわれているため、プレノプティックライトフィールド画像とはみなされない。

ここで使用される「プレノプティック空間」という表現は、多次元空間であって、該空間でライトフィールドを記述できる、すなわち空間内の全ての方向での光またはセンサーに達する光の量を記述するファンクションを記述できる多次元空間を意味していてよい。プレノプティック空間は、各サブ画像の位置についての少なくとも２つのパラメータ、そしてこのサブ画像に達する光の方向についての少なくとも１つの追加のパラメータによって記述され得る。多くの場合、プレノプティック空間は、各サブ画像の位置についての２つのパラメータ、このサブ画像上への光の方向についての２つのパラメータ、波長についての少なくとも１つのパラメータ、および場合によっては時間についての１つのパラメータ（ビデオの場合）により記述される。

ここで使用される「アノテーション（ａｎｎｏｔａｔｉｏｎ）」という用語は、例えばテキスト、静止画像、ビデオ画像、ロゴ、画像レイヤー、音声および／または、画像に重ね合わされるかまたは追加され得る他の要素を含めた、多様な考えられる要素を包含する。

ここで使用される「ピクセル」という用語は、１つの単一モノクロフォトサイト、または異なる色で光を検出するための複数の隣接するフォトサイトを意味していてよい。例えば、赤、緑および青色光を検出するための３つの隣接が、単一のピクセルを形成し得る。

ここで使用される「決定する（ｄｅｔｅｒｍｉｎｉｎｇ）」という用語は、多様なアクションを包含する。例えば、「決定する」という用語には、計算（ｃａｌｃｕｌａｔｉｎｇ）する、コンピュータで計算（ｃｏｍｐｕｔｉｎｇ）する、処理する、導出（ｄｅｒｉｖｉｎｇ）する、調査（ｉｎｖｅｓｔｉｇａｔｉｎｇ）する、参照（ｌｏｏｋｉｎｇｕｐ）する（例えばテーブル、データベースまたは別のデータ構造内で参照する）、確定（ａｓｃｅｒｔａｉｎｉｎｇ）する、推定（ｅｓｔｉｍａｔｉｎｇ）することなどが含まれる。また、「決定する」という用語は、受信する（例えば情報を受信する）、アクセスする（例えばメモリー内のデータにアクセスする）ことなども含む。また、「決定する」という用語には、解決（ｒｅｓｏｌｖｉｎｇ）する、選択（ｓｅｌｅｃｔｉｎｇ，ｃｈｏｏｓｉｎｇ）する、設定（ｅｓｔａｂｌｉｓｈｉｎｇ）することなども含まれてよい。

シーンの一画像をキャプチャすることには、カメラの画像センサーに達する光の明度を測定するためのデジタルカメラの使用が関与する。ライトフィールドデータをキャプチャすることには、プレノプティックカメラの使用が関与する場合があり、あるいは、シーンおよび光源の３Ｄモデルまたは他の記述からライトフィールドデータを生成することが関与する場合もある。

「ビューをレンダリングする」、例えば「ライトフィールドデータから２Ｄビューをレンダリングする」という表現は、画像を計算または生成するアクション、例えばライトフィールドデータ内に含まれる情報から２Ｄ画像を計算するアクションを包含する。複数の異なるビューがレンダリングされてよいという事実を強く主張するために、「ビューを投影する」、例えば「ライトフィールドデータに基づいて２Ｄビューを投影する」という表現が使用される場合もある。

本開示に関連して記述された方法またはアルゴリズムのステップは、直接ハードウェアの形、プロセッサにより実行されるソフトウェアモジュールの形あるいは、その２つの組合せの形で実施されてよい。ソフトウェアモジュールは、当該技術分野において公知のあらゆる形態の記憶媒体内に存在していてよい。使用され得る記憶媒体の一部の例としては、ランダムアクセスメモリー（ＲＡＭ）、読取り専用メモリー（ＲＯＭ）、フラッシュメモリー、ＥＰＲＯＭメモリー、ＥＥＰＲＯＭメモリー、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭなどがある。ソフトウェアモジュールは、単一の命令または多くの命令を含んでいてよく、かつ、複数の異なるコードセグメントを超えて、異なるプログラム中に、そして多数の記憶媒体を横断して分散させられてよい。ソフトウェアモジュールは、実行可能なプログラム、完全なプログラム内で使用される一つの部分、ルーチンまたはライブラリ、複数の相互接続されたプログラム、多くのスマートホン、タブレットまたはコンピュータにより実行される「ａｐｐｓ（アプリケーション）」、ウィジェット、フラッシュアプリケーション、ＨＴＭＬコードの一部分などで構成されていてよい。記憶媒体は、プロセッサに結合されて、プロセッサが記憶媒体から情報を読出し、それに情報を書込むことができるようになっていてよい。代替的には、記憶媒体はプロセッサに必須であってよい。データベースは、ＳＱＬデータベース、ＸＭＬドキュメントセット、セマンティックデータベース、またはＩＰネットワーク上で利用可能な情報セットを含む任意の構造化されたデータコレクション、または他の任意の好適な構造として実装されてよい。

こうして、ある態様には、ここで提示されたオペレーションを実施するためのコンピュータプログラム製品が含まれていてよい。例えば、このようなコンピュータプログラム製品は、命令が記憶された（および／またはコード化された）コンピュータで読取可能な媒体を含んでいてよく、これらの命令は、ここに記載のオペレーションを実施するため１つ以上のプロセッサによって実行可能である。ある態様については、コンピュータプログラム製品は、パッケージングマテリアルを含んでいてよい。

クレームは、以上で例示した精確な構成およびコンポーネントに限定されるわけではないということを理解すべきである。クレームの範囲から逸脱することなく、以上に記載の方法および装置の配置、オペレーションおよび詳細にさまざまな修正、変更および変化を加えてもよい。

１メインレンズ
４ユーザーデバイス
５サーバー
６ネットワーク
２０マイクロレンズ
２１画像センサー
４０ディスプレイ
４１プレノプティックカメラ
５０ストレージ
５１プロセッサ
２１０ピクセル
４００プロセッサ
４０１通信モジュール

欧州特許第１２４６０８０号明細書欧州特許出願公開第２２０７１１３号明細書国際公開第０５／１１４４７６号国際公開第２０１２／０８４３６２号

Claims

− デバイス（４）内のプレノプティックカメラ（４１）でライトフィールドを表わすデータをキャプチャするステップ（１００）と；
− キャプチャされたデータを基準データとマッチングするためのプログラムコードを実行するステップ（１０１）と；
− 前記基準データの一要素と結びつけられたアノテーションをリトリーブするためのプログラムコードを実行するステップ（１０２）と；
− キャプチャされたデータから生成され少なくとも１つのアノテーションを含むビューをレンダリングするためのプログラムコードを実行するステップ（１０３）と；
を含む、アノテーション方法。
前記基準データが基準ライトフィールドを定義づけする、請求項１に記載の方法。
前記基準データを前記シーンの３Ｄモデルから生成するステップを含む、請求項２に記載の方法。
前記マッチングステップが、異なるライトビューを表わす複数の基準データピースの中の１つのデータピースと前記キャプチャされたデータをマッチングすることを含む、請求項２に記載の方法。
前記キャプチャされたデータ内のローカルフィーチャを検出するステップ（１０２）を含む、請求項１〜４のいずれか一つに記載の方法。
前記ローカルフィーチャ検出ステップ（１０２）には、第１の深さにあるピクセルが異なる深さにあるピクセルと既定の関係を有しているエリアを検出することが含まれる、請求項５に記載の方法。
前記ローカルフィーチャ検出ステップ（１０２）には、キャプチャされたデータ内の視差を検出することが含まれる、請求項５に記載の方法。
前記ローカルフィーチャ検出ステップ（１０２）には、エピポーラボリュームまたは線を計算することが含まれる、請求項５に記載の方法。
前記ローカルフィーチャを記述するステップ（１０１１）を含む、請求項５〜８のいずれか一つに記載の方法。
前記ローカルフィーチャが、バイナリー形態の記述子で記述される、請求項９に記載の方法。
前記記述子間のハミング距離を計算するステップを含む、請求項１０に記載の方法。
前記キャプチャされたデータ内の前記ローカルフィーチャと前記基準データ内のローカルフィーチャとをマッチングするステップ（１０６）を含む、請求項５〜１１のいずれか一つに記載の方法。
前記ローカルフィーチャを用いて、前記基準データと前記プレノプティックデータをレジストレーションするステップ（１０７）を含む、請求項５〜１２のいずれか一つに記載の方法。
シーンのタイプを検出し、前記シーンタイプに応じて前記キャプチャされたデータ内で検出すべきローカルフィーチャのタイプを決定するステップを含む、請求項５〜１３のいずれか一つに記載の方法。
前記デバイス（４）の位置、ユーザーにより行われた選択または受信した信号に応じて、前記マッチングに先立ち、１つのまたは限定された数の基準データピースを選択するステップを含む、請求項１３〜１４のいずれか一つに記載の方法。
前記基準データが１シーンのグローバルモデルを含む、請求項１〜１４のいずれか一つに記載の方法。
前記基準データ上への前記キャプチャされたデータの投影誤差を表わす費用関数を最小化するステップ（１５１０）を含む、請求項１６に記載の方法。
ビューをレンダリングする前記ステップ（１０９）が、キャプチャされたデータ由来の２Ｄビューをレンダリングすることと該２Ｄビュー上にアノテーションを重ね合わせることとを含む、請求項１〜１７のいずれか一つに記載の方法。
キャプチャされたデータ由来の２Ｄビューをレンダリングする前記ステップ（１０９）が、シーンの残りの要素がぼやけた状態にされているのに対して、アノテートされたオブジェクトまたはアノテートされた画像のフィーチャの焦点が合うようになる形で、アノテートされたオブジェクトまたはアノテートされた画像のフィーチャを表示することを含む、請求項１７に記載の方法。
シーンに対応するデータをキャプチャしアノテートするための装置（４）であって、
− ライトフィールドを表わすデータをキャプチャする（１００）ためのプレノプティックカメラ（４１）と；
− プロセッサ（４００）と；
− ディスプレイ（４０）と；
− プログラムコードであって、前記プログラムコードが実行された時に、前記プロセッサに、前記カメラでキャプチャされたデータの一要素に結びつけられたアノテーションをリトリーブさせるための、および、前記キャプチャされたデータから生成され、少なくとも１つのアノテーションを含むビューを前記ディスプレイ（４０）上にレンダリングするための、プログラムコードと；
を含む装置。
前記プログラムコードはさらに、前記プログラムコードが実行された時に、キャプチャされたデータ内に存在するローカルフィーチャを前記プロセッサ（４００）に検出させるために配置されている、請求項２０に記載の装置。
前記プログラムコードはさらに、検出された各ローカルフィーチャをバイナリーベクトルで記述するために配置されている、請求項２０に記載の装置。
前記装置に請求項１〜１９のいずれか一つに記載の方法を実行させるための有形装置可読媒体を含む、コンピュータプログラム製品。
アノテーションを決定するための装置（５）であって、
− プロセッサ（５１）と；
− ストア（５０）と；
− プログラムコードであって、前記プログラムコードが実行された時に、前記プロセッサに、ライトフィールドを表わすデータを受信させ、前記データを前記ストア内の一つの基準データとマッチさせ、前記基準データと結びつけられたアノテーションを決定させ、そして遠隔デバイス（４）に対して前記アノテーションを送信させるための、プログラムコードと；
を含む装置。