JP2018084954A

JP2018084954A - プログラム、姿勢導出方法、姿勢導出装置

Info

Publication number: JP2018084954A
Application number: JP2016227595A
Authority: JP
Inventors: ジョセフ子泰林; Chitai Lam Joseph; ラヴィンシュタインアレックス; Levinshtein Alex
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2018-05-31
Also published as: US20180144500A1

Abstract

【課題】高精度に姿勢を導出すること。【解決手段】３Ｄモデル上の第１の３Ｄモデル点群であって、表面特徴要素に関連付けられた第１の３Ｄモデル点群を取得する機能と、現行の深度画像データから得られる３Ｄ表面点群を取得する機能と、３Ｄモデル上の第２の３Ｄモデル点群を取得する機能と、第１姿勢に基づいた第２の３Ｄモデル点群の画像平面への写像に含まれる輪郭特徴要素を表す複数の２Ｄモデル点に対応付けられた複数の画像点と、画像センサーの３Ｄ原点と、を通るそれぞれの仮想直線に、それぞれの第２の３Ｄモデル点群を写像して得られる３Ｄ画像輪郭点を取得する機能と、第１の３Ｄモデル点群と、３Ｄ表面点群と、第２の３Ｄモデル点群と、３Ｄ画像輪郭点と、に少なくとも基づいて、第２姿勢を導出する機能と、を実現させるためのプログラム。【選択図】図３

Description

本開示は、実オブジェクトの姿勢の導出に関する。

非特許文献１は、ＩＣＰ法について開示している。ＩＣＰとは、Iterative Closest Pointの頭字語であり、反復最短点のことである。ＩＣＰ法とは、２つのポイントクラウド間の差を最小化する（２つのポイントクラウドを合わせる）ために用いられるアルゴリズムを意味する。

ポール・ジェー・ベスル(Paul J. Besl)、ニール・ディー・マッケイ(Neil D. McKay)著、"３次元形状の登録のための方法(A Method for Registration of 3-D Shapes)"、パターン認識および人工知能に関するＩＥＥＥの会報(IEEE Transactions on Pattern Analysis and Machine Intelligence)、（米国）、ＩＥＥＥコンピューターソサエティー(IEEE Computer Society)、1992年2月、14巻、2号、p. 239―256

本開示は、上記を踏まえ、既知のＩＣＰ法よりも高精度に姿勢を導出することを解決課題とする。

本開示は、上記課題を解決するためのものであり、以下の形態として実現できる。

本開示の一形態は、深度画像センサーを用いて取得された実オブジェクトの深度画像データと、画像センサーを用いて取得された前記実オブジェクトの複数の画像点を含む輝度画像データと、前記実オブジェクトの第１姿勢と、前記実オブジェクトに対応する３Ｄモデルと、に基づき、シーンに位置する前記実オブジェクトの姿勢として第２姿勢を導出する機能を姿勢導出装置に実現させるためのプログラムであって；前記３Ｄモデル上の第１の３Ｄモデル点群であって、表面特徴要素に関連付けられた第１の３Ｄモデル点群を取得する機能と；現行の前記深度画像データから得られる３Ｄ表面点群を取得する機能と；前記３Ｄモデル上の第２の３Ｄモデル点群を取得する機能と；前記第１姿勢に基づいた前記第２の３Ｄモデル点群の画像平面への写像に含まれる輪郭特徴要素を表す複数の２Ｄモデル点に対応付けられた前記複数の画像点と、前記画像センサーの３Ｄ原点と、を通るそれぞれの仮想直線に、それぞれの前記第２の３Ｄモデル点群を写像して得られる３Ｄ画像輪郭点を取得する機能と；前記第１の３Ｄモデル点群と、前記３Ｄ表面点群と、前記第２の３Ｄモデル点群と、前記３Ｄ画像輪郭点と、に少なくとも基づいて、前記第２姿勢を導出する機能と；を実現させるためのプログラムである。この形態によれば、深度画像データと３Ｄモデルとに加え、輝度画像データを用いて、第２姿勢を導出するので、第２姿勢を高精度に導出できる。

上記形態において、前記第１姿勢は、現行のフレームより前のフレームにおける前記実オブジェクトの姿勢であり；前記第２姿勢は、現行のフレームの前記実オブジェクトの姿勢であってもよい。この形態によれば、第２姿勢によって未来の第１姿勢が決まるので、未来の第１姿勢を高精度で導出できる。

上記形態において、前記第１姿勢は、前記画像センサー又は他の画像センサーから取得された前記実オブジェクトの姿勢であってもよい。この形態によれば、第１姿勢を容易に導出でき、処理負荷が軽減される。

本開示は、上記以外の種々の形態で実現できる。例えば、姿勢導出方法や、この方法を実現する装置の形態で実現できる。

ＨＭＤの概略構成図。ＨＭＤの機能ブロック図。姿勢導出処理を示すフローチャート。近隣探索範囲を示す図。ＣＦ法のフローチャート。３ＤモデルＣＦ点に基づき３Ｄ画像ＣＦ点を取得する様子を示す図。同様性スコアの計算の一例を示す図。同様性スコアの計算の一例を示す図。同様性スコアの計算の一例を示す図。同様性スコアの計算の一例を示す図。同様性スコアの計算の一例を示す図。２Ｄモデル点が多数の画像点と合わせられる得ることを示す図。２Ｄモデル点が誤った画像点と合わせられた一例を示す図。

図１は、ＨＭＤ１００の概略構成を示す。ＨＭＤ１００は、頭部装着型表示装置（ヘッドマウントディスプレイ：Head Mounted Display）である。ＨＭＤ１００は、光学透過型である。つまり、ＨＭＤ１００は、ユーザーに対して、虚像を知覚させると同時に、背景も直接視認させることができる。ＨＭＤ１００は、後述するように実オブジェクトの姿勢を導出する装置として機能する。つまり、ＨＭＤ１００は、実オブジェクトの姿勢を導出する方法を実行する。

ＨＭＤ１００は、ユーザーの頭部に装着可能な装着帯９０と、画像を表示する表示部２０と、表示部２０を制御する制御部１０と、を備えている。表示部２０は、ユーザーの頭部に装着された状態においてユーザーに虚像を知覚させる。表示部２０がユーザーに虚像を知覚させることを「ＡＲを表示する」ともいう。ユーザーが知覚する虚像のことを、ＡＲ画像ともいう。

装着帯９０は、樹脂製の装着基部９１と、装着基部９１に連結される布製のベルト９２と、カメラ６０と、慣性センサー７１と、深度画像センサー８０と、を備える。装着基部９１は、人の前頭部の形に合った湾曲した形状を有する。ベルト９２は、ユーザーの頭部の周りに装着される。

カメラ６０は、ＲＧＢセンサーであると共に、画像センサーである。カメラ６０は、背景（シーン）を撮像可能で、装着基部９１の中心部分に配置されている。換言すると、カメラ６０は、装着帯９０がユーザーの頭部に装着された状態で、ユーザーの額の中央に対応する位置に配置されている。そのため、カメラ６０は、ユーザーが装着帯９０を頭部に装着した状態において、ユーザーの視線方向の外部の景色である背景を撮像し、撮像画像としての輝度画像データを取得する。

カメラ６０は、装着基部９１に対して回転するカメラ基部６１と、カメラ基部６１に対して相対位置が固定されたレンズ部６２と、を有する。カメラ基部６１は、装着帯９０がユーザーの頭部に装着された際に、ユーザーの中心軸を含む面に含まれる軸の所定の範囲である矢印ＣＳ１に沿って回転可能に配置されている。そのため、カメラ６０の光軸であるレンズ部６２の光軸は矢印ＣＳ１の範囲で向きを変更可能である。レンズ部６２は、光軸を中心としたズームによって変化する範囲を撮像する。

深度画像センサー８０は、深度センサー、或いは、距離画像センサーとも呼ばれる。深度画像センサー８０は、深度画像データを取得する。

慣性センサー７１は、加速度を検出するセンサーであり、以下、ＩＭＵ（Inertial Measurement Unit）７１という。ＩＭＵ７１は、加速度に加えて、角速度と、地磁気とを検出できる。ＩＭＵ７１は、装着基部９１に内蔵されている。そのため、ＩＭＵ７１は、装着帯９０及びカメラ基部６１の加速度と角速度と地磁気とを検出する。

ＩＭＵ７１は装着基部９１との相対位置が固定されているので、カメラ６０はＩＭＵ７１に対して可動である。さらに、表示部２０は、装着基部９１との相対位置が固定されているので、カメラ６０は表示部２０に対する相対位置が可動である。

表示部２０は、装着帯９０の装着基部９１に連結される。表示部２０は、眼鏡型である。表示部２０は、右保持部２１と、右表示駆動部２２と、左保持部２３と、左表示駆動部２４と、右光学像表示部２６と、左光学像表示部２８と、を含んでいる。

右光学像表示部２６及び左光学像表示部２８は、それぞれ、ユーザーが表示部２０を装着した際にユーザーの右および左の眼前に位置する。右光学像表示部２６の一端および左光学像表示部２８の一端は、ユーザーが表示部２０を装着した際のユーザーの眉間に対応する位置で、互いに接続されている。

右保持部２１は、右光学像表示部２６の他端である端部ＥＲから略水平方向に延び、途中から斜め上方へ傾斜した形状を有し、端部ＥＲと装着基部９１の右側の連結部９３との間を結ぶ。

同様に、左保持部２３は、左光学像表示部２８の他端である端部ＥＬから略水平方向に延び、途中から斜め上方へ傾斜した形状を有し、端部ＥＬと装着基部９１の左側の連結部（図示せず）との間を結ぶ。

右保持部２１及び左保持部２３が左右の連結部９３によって装着基部９１に連結されることで、右光学像表示部２６と左光学像表示部２８をユーザーの眼前に位置させる。なお、各連結部９３は、右保持部２１及び左保持部２３を回転可能に、且つ任意の回転位置に固定可能に連結する。この結果、表示部２０は、装着基部９１に対して回転可能に設けられることになる。

右保持部２１は、右光学像表示部２６の他端である端部ＥＲから、ユーザーが表示部２０を装着した際のユーザーの側頭部に対応する位置にかけて、延伸して設けられた部材である。

同様に、左保持部２３は、左光学像表示部２８の他端である端部ＥＬから、ユーザーが表示部２０を装着した際のユーザーの側頭部に対応する位置にかけて、延伸して設けられた部材である。右表示駆動部２２及び左表示駆動部２４（以下、まとめて表示駆動部という）は、ユーザーが表示部２０を装着した際のユーザーの頭部に対向する側に配置されている。

表示駆動部は、後述する右液晶ディスプレイ２４１（以下、右ＬＣＤ２４１）及び左液晶ディスプレイ２４２（以下、左ＬＣＤ２４２）や、右投写光学系２５１、左投写光学系２５２などを含む。表示駆動部の構成の詳細な説明は後述する。

右光学像表示部２６及び左光学像表示部２８（以下、まとめて光学像表示部という）は、後述する右導光板２６１及び左導光板２６２（以下、まとめて導光板という）、さらには調光板を含んでいる。導光板は、光透過性の樹脂材料等によって形成され、表示駆動部から出力された画像光をユーザーの眼に導く。

調光板は、薄板状の光学素子であり、ユーザーの眼の側とは反対の側である表示部２０の表側を覆うように配置されている。調光板の光透過率を調整することによって、ユーザーの眼に入る外光量を調整して虚像の見えやすさを調整できる。

表示部２０は、さらに、表示部２０を制御部１０に接続するための接続部４０を有している。接続部４０は、制御部１０に接続される本体コード４８と、右コード４２と、左コード４４と、連結部材４６と、を含んでいる。

右コード４２及び左コード４４は、本体コード４８が２本に分岐したコードである。表示部２０及び制御部１０は、接続部４０を介して各種信号の伝送を実行する。右コード４２と、左コード４４と、本体コード４８とには、例えば、金属ケーブルや光ファイバーを採用できる。

制御部１０は、ＨＭＤ１００を制御するための装置である。制御部１０は、静電式のトラックパッドや押下可能な複数のボタンなどを含む操作部１３５を有する。操作部１３５は、制御部１０の表面に配置されている。

図２は、ＨＭＤ１００の構成を機能的に示すブロック図である。図２に示すように、制御部１０は、ＲＯＭ１２１と、ＲＡＭ１２２と、電源１３０と、操作部１３５と、ＣＰＵ１４０と、インターフェース１８０と、送信部５１（Ｔｘ５１）および送信部５２（Ｔｘ５２）と、を有している。

電源１３０は、ＨＭＤ１００の各部に給電する。ＲＯＭ１２１には、種々のプログラムが格納されている。ＣＰＵ１４０は、ＲＯＭ１２１に格納された各種プログラムを、ＲＡＭ１２２に展開することで、各種プログラムを実行する。各種プログラムには、後述する姿勢更新処理を実現するためのものが含まれる。

ＣＰＵ１４０は、ＲＯＭ１２１に格納されているプログラムを、ＲＡＭ１２２に展開することにより、オペレーティングシステム１５０（ＯＳ１５０）、表示制御部１９０、音声処理部１７０、画像処理部１６０及び処理部１６７として機能する。

表示制御部１９０は、右表示駆動部２２及び左表示駆動部２４を制御する制御信号を生成する。表示制御部１９０は、右表示駆動部２２及び左表示駆動部２４のそれぞれによる画像光の生成および射出を制御する。

表示制御部１９０は、右ＬＣＤ制御部２１１と左ＬＣＤ制御部２１２とに対する制御信号のそれぞれを、送信部５１及び５２を介して送信する。表示制御部１９０は、右バックライト制御部２０１と左バックライト制御部２０２とに対する制御信号のそれぞれを送信する。

画像処理部１６０は、コンテンツに含まれる画像信号を取得し、送信部５１、送信部５２を介して、取得した画像信号を表示部２０の受信部５３，受信部５４へと送信する。音声処理部１７０は、コンテンツに含まれる音声信号を取得し、取得した音声信号を増幅して、連結部材４６に接続された右イヤホン３２内のスピーカー（図示しない）および左イヤホン３４内のスピーカー（図示しない）に対して供給する。

処理部１６７は、例えばホモグラフィー行列により、実オブジェクトの姿勢を算出する。実オブジェクトの姿勢とは、カメラ６０と実オブジェクトとの空間的関係のことである。処理部１６７は、算出した上記空間的関係と、ＩＭＵ７１によって検出された加速度等の検出値と、を用いて、カメラに固定された座標系からＩＭＵ７１に固定された座標系へと変換するための回転行列を算出する。処理部１６７の機能は、後述する姿勢更新処理に用いられる。

インターフェース１８０は、制御部１０に対して、コンテンツの供給元となる種々の外部機器ＯＡを接続するための入出力インターフェースである。外部機器ＯＡとしては、例えば、ＡＲシナリオを記憶している記憶装置、パーソナルコンピューター（ＰＣ）や携帯電話端末、ゲーム端末等がある。インターフェース１８０としては、例えば、ＵＳＢインターフェース、マイクロＵＳＢインターフェース、メモリーカード用インターフェース等を用いることができる。

表示部２０は、右表示駆動部２２と、左表示駆動部２４と、右光学像表示部２６としての右導光板２６１と、左光学像表示部２８としての左導光板２６２と、を備えている。

右表示駆動部２２は、受信部５３（Ｒｘ５３）と、右バックライト制御部２０１及び右バックライト２２１と、右ＬＣＤ制御部２１１及び右ＬＣＤ２４１と、右投写光学系２５１と、を含んでいる。右バックライト制御部２０１及び右バックライト２２１は、光源として機能する。

右ＬＣＤ制御部２１１及び右ＬＣＤ２４１は、表示素子として機能する。なお、他の実施形態では、右表示駆動部２２は、上記構成に代えて、有機ＥＬ表示素子などの自発光型表示素子を備えてもよいし、レーザーダイオードからの光ビームを網膜上でスキャンするスキャン型の表示素子を備えてもよい。左表示駆動部２４についても、同様である。

受信部５３は、制御部１０と表示部２０との間におけるシリアル伝送のためのレシーバーとして機能する。右バックライト制御部２０１は、入力された制御信号に基づき、右バックライト２２１を駆動する。右バックライト２２１は、例えば、ＬＥＤやエレクトロルミネッセンス（ＥＬ）等の発光体である。右ＬＣＤ制御部２１１は、画像処理部１６０及び表示制御部１９０から送信された制御信号に基づき、右ＬＣＤ２４１を駆動する。右ＬＣＤ２４１は、複数の画素をマトリクス状に配置した透過型液晶パネルである。

右投写光学系２５１は、右ＬＣＤ２４１から射出された画像光を平行状態の光束にするコリメートレンズによって構成される。右光学像表示部２６としての右導光板２６１は、右投写光学系２５１から出力された画像光を、所定の光路に沿って反射させつつユーザーの右眼ＲＥに導く。なお、左表示駆動部２４は、右表示駆動部２２と同様の構成を有し、ユーザーの左眼ＬＥに対応するため、説明を省略する。

ＩＭＵ７１及びカメラ６０を用いたキャリブレーションは、慣性センサーであるＩＭＵ７１の性能によって精度が異なる。精度が高くない安価なＩＭＵが用いられると、キャリブレーションには、大きな誤差やドリフトが発生することがある。

本実施形態では、ＩＭＵ７１を用いたマルチポジション法を用いたバッチ・ソリューション・ベース・アルゴリズムによってキャリブレーションを実行する。本実施形態では、ＩＭＵ７１とカメラ６０との間の並進関係については、製造時の設計データを用いる。

ＩＭＵ７１とカメラ６０とのそれぞれに対して、別々のキャリブレーション（以下、独立キャリブレーション）が実行される。独立キャリブレーションの具体的な方法については、周知技術を用いる。

独立キャリブレーションでは、ＩＭＵ７１が較正される。具体的には、ＩＭＵ７１に含まれる３軸の加速度センサー（Ａｘ，Ａｙ，Ａｚ）と、３軸のジャイロセンサー（Ｇｘ，Ｇｙ，Ｇｚ）と、３軸の地磁気センサー（Ｍｘ，Ｍｙ，Ｍｚ）とに対して、ゲイン／スケールと、静的なバイアス／オフセットと、３軸間のスキューと、についてキャリブレーションが実行される。

これらのキャリブレーションが実行されると、ＩＭＵ７１は、加速度、角速度、地磁気のそれぞれについての出力値として、加速度と角速度と地磁気とを出力する。これらの出力値は、ゲイン、静的なバイアス／オフセット、および３軸間のミスアライメントを修正した値である。これらのキャリブレーションは、本実施形態では、ＨＭＤ１００の製造時において製造工場などで実施される。

独立キャリブレーションで実行されるカメラ６０のキャリブレーションでは、カメラ６０における焦点距離、スキュー、主点位置、歪みを含むカメラ６０の内部パラメーターがキャリブレーションされる。カメラ６０のキャリブレーションには、周知技術を適用できる。

ＩＭＵ７１に含まれる各センサーのキャリブレーションが実行された後においては、ＩＭＵ７１における加速度、角速度、地磁気のそれぞれのセンサーの検出値（計測された出力）を融合して、精度の高いＩＭＵ配向を得ることができる。

本実施形態では、後述するように、実オブジェクトの姿勢を改善する。姿勢改善の概要について説明する。姿勢改善は、実オブジェクト検出および姿勢推定（OD/PE）において重要であり、拡張現実、ロボット、または、自動運転自動車など、多くの応用において活用され得る。

本実施形態の方法は、モデルアライメント法（ＭＡ）と名付けられたアピアランスベースの方法および輪郭特徴要素法（ＣＦ）と名付けられた方法を含んでいる。アピアランスベースの方法は、前景の画素の色と、背景の画素の色と、を最適化する方法である。輪郭特徴要素法は、実オブジェクトの外側の輪郭線を用いて３Ｄモデルから２Ｄ画像点への対応付けを確立するエッジベースの方法である。

ＭＡ法およびＣＦ法は、輝度画像データのみに基づく。本実施形態では、深度画像データを用いて３Ｄ表面ベースの方法も用いる。本実施形態の方法は、反復最短点(Iterative Closest Point:ICP)アルゴリズムに基づいている。反復最短点アルゴリズムは、点の対応付けが所定の近接探索サイズ内での最短ユークリッド距離を基準に用いることで確立される。

初期姿勢のいくつかは、真の姿勢から非常に外れていることがあるので、適宜(adaptively)、深度検証スコアに基づいて、近接探索サイズを選択する。本実施形態では、このアルゴリズムをａ−ＩＣＰ法と呼ぶ。

ＯＤ／ＰＥおよび姿勢改善における難易度が高い（つまり、チャレンジングな）シナリオは、散らかった環境内（入り組んだ背景）で姿勢改善を実施することである。ここでの前提条件は、実オブジェクトの大部分がそれでも見えていること（つまりオクルージョンが軽度であること）である。

ＭＡ法の性能は、一般に、散らかったシナリオでは、前景と背景とがアピアランスを用いても、もはや区別できなくなることによって低下する。そこで、本実施形態では、ＣＦ法とａ−ＩＣＰ法とを用いた姿勢改善アルゴリズムに焦点を当てる。

図３は、姿勢導出処理を示すフローチャートである。このフローチャートは、ＣＦ法とａ−ＩＣＰ法とを組み合わせて、実オブジェクトの姿勢を導出するためのものである。このため、ＣＦ法とａ−ＩＣＰ法とのそれぞれによるデータの取得は、どちらを先に実施してもよい。以下の説明では、ａ−ＩＣＰ法を先に実施する。なお、本実施形態の３Ｄモデルは、３ＤＣＡＤを用いて作成されたモデルである。

まず、ａ−ＩＣＰ法を利用して、３Ｄモデル表面点と、３Ｄ画像表面ベース点との情報を取得する（Ｓ３００）。

ここでａ−ＩＣＰ法を説明する。ａ−ＩＣＰ法は、ＩＣＰ法を基礎にしている。ＩＣＰ法とは、先述したように、２つのポイントクラウド間の差を最小化するために用いられるアルゴリズムを意味する。ＩＣＰ法は既知であるので、簡単に概要を説明する。

３Ｄモデル表面点とは、実オブジェクトに対応する３Ｄモデル上の表面特徴要素に関連付けられた点群（点の集合）である。３Ｄモデルは、予め用意されている。３Ｄモデル表面点は、予め定められている。３Ｄモデル表面点は、第１の３Ｄモデル点群とも呼ぶ。

３Ｄ画像表面ベース点とは、現行における深度画像センサーから取得されるデータであり、３Ｄ表面点群である。つまり、実オブジェクトの表面特徴要素それぞれまでの距離を示すデータである。

ＩＣＰ法は、３Ｄモデル表面点と、３Ｄ画像表面ベース点との位置の差が最小になるように、３Ｄモデルの姿勢を決定する。但し、本実施形態では、Ｓ５００で姿勢を改善するので、Ｓ３００においては３Ｄモデルの姿勢は決定されない。

ａ−ＩＣＰは、adapted Iterative Closest Pointの頭字語である。つまり、ａ−ＩＣＰ法は、適応型ＩＣＰ法を意味する。適応型とは、現行の姿勢が最終的な姿勢に遠い場合には、粗く姿勢をアラインし、現行の姿勢が最終的な姿勢に近い場合には、細かく姿勢をアラインすることを意味する。

具体的には、２つの異なるＩＣＰパラメーターが操作されて、粗いアライメント及び細かいアライメントのどちらかが達成される。２つのパラメーターは、以下の通りである。

１つ目のパラメーターは、どの程度細かくポイントクラウドがサンプリングされるかを表すパラメーターである。粗いレベルでは、全体的な組み合わせを重視する。つまり、粗くサンプリングされたポイントクラウドによって、全体の形状を用いて組み合わせることを重視する。一方、細かいレベルでは、点と点との組み合わせを重視する。

２つ目のパラメーターは、対応付けを確立するための近隣探索範囲の大きさを表すパラメーターである。

図４は、近隣探索範囲を示す図である。図４には、より細かいレベルの近隣探索範囲ＳＷ１と、より粗いレベルの近隣探索範囲ＳＷ２が示されている。近隣探索範囲ＳＷ１，ＳＷ２は、シーンポイントクラウドＳＰＣに含まれる点（Ｘ_I，Ｙ_I，Ｚ_I）に対して、ＣＡＤポイントクラウドＣＰＣにおいて探索する範囲を定める。

シーンポイントクラウドＳＰＣは、構造化（メッシュ化）された２次元配列によって形成されている。ＣＡＤポイントクラウドＣＰＣは、現行における実オブジェクトのビューを用いて、構造化された２次元配列に再写像(re-projection)することによって形成されている。

粗いレベルの近隣探索範囲ＳＷ２では、互いに遠く離れた点間の対応付けが見出されることを可能にする。この結果、長距離にわたって、ポイントクラウドが動くことを可能にする。

一方、細かいレベルの近隣探索範囲ＳＷ１では、近い点間の対応付けが確立されるように制限する。この結果、最終姿勢が真の姿勢から発散してしまうことが抑制される。

ａ−ＩＣＰ法を利用し、３Ｄモデル表面点と、３Ｄ画像表面ベース点との組み合わせがＮ_aICP個（本実施形態では１００個よりもかなり多い数）、取得される。つまり、Ｎ_aICP個の表面特徴要素について、直近に取得された実オブジェクトの姿勢と、現行（最新）の深度画像データとの関係が取得される。直近に取得された姿勢は、現行よりも前のフレームにおける姿勢である。直近に取得された姿勢は、第１姿勢とも呼ぶ。

なお、後述するように、第１姿勢は、Ｓ５００によって改善されることによって、第２姿勢になる。第２姿勢は、現行のフレームにおける姿勢である。第２姿勢は、次回のＳ３００及びＳ４００における第１姿勢になる。

続いて、ＣＦ法を利用して、３ＤモデルＣＦ点Ｐｍ−３ｄと、３Ｄ画像ＣＦ点Ｐｉｍｇ−３ｄとの組み合わせをＮ_CF個（本実施形態では１００個）、取得する（Ｓ４００）。

図５は、ＣＦ法のフローチャートである。まず、カメラ６０を用いて実オブジェクトを撮像する（Ｓ４２１）。Ｓ４２１で取得される画像は、実オブジェクトの複数の画像点と、背景と、を含む輝度画像データである。

続いて、撮像された実オブジェクトの画像に対して、エッジ検出を実行する（Ｓ４２３）。エッジの検出のために、撮像画像のピクセルに基づいて、エッジとなる特徴要素を計算する。本実施形態では、実オブジェクトの撮像画像のピクセル毎の輝度のグラディエントベクトル（以下単に「グラディエント」とも表記する）を計算することで、特徴要素を決定する。本実施形態では、エッジを検出するために、カニーエッジ検出方法における手続と同様に、単に、エッジを閾値と比較し、最大でないものを抑制する（non-maxima suppression）。

次に、３ＤモデルＣＦ点Ｐｍ−３ｄを取得する（Ｓ４２９）。３ＤモデルＣＦ点Ｐｍ−３ｄは、第１姿勢にある３Ｄモデル上の輪郭特徴要素に関連付けられた点群である。ＣＦ法において用いられる第１姿勢は、ａ−ＩＣＰ法において用いられる第１姿勢と同一である。輪郭特徴要素は、３Ｄモデルに対して予め定められている。３ＤモデルＣＦ点Ｐｍ−３ｄは、第２の３Ｄモデル点群とも呼ぶ。３ＤモデルＣＦ点Ｐｍ−３ｄは、３Ｄモデルに原点が固定された３Ｄ座標系（３Ｄモデル座標系）で表されている。

次に、３ＤモデルＣＦ点Ｐｍ−３ｄに基づき、２Ｄモデル点Ｐｍ−２ｄを取得する（Ｓ４３２）。図６は、Ｓ４３２〜Ｓ４３８の様子を示す概念図である。Ｓ４３２は、３ＤモデルＣＦ点Ｐｍ−３ｄを第１姿勢に基づいて画像平面ＩＰに写像（射影）することによって実現される。画像平面ＩＰは、カメラ６０のセンサー表面と同義である。画像平面ＩＰは、仮想平面であり、イメージプレーンとも呼ぶ。２Ｄモデル点Ｐｍ−２ｄは、画像平面ＩＰ上に原点を有する２Ｄ座標系（イメージプレーン座標系）で表されている。

なお、３Ｄモデルの第１姿勢を利用できない状況においては、３Ｄモデルから３ＤモデルＣＦ点Ｐｍ−３ｄを取得できず、ひいては、３ＤモデルＣＦ点Ｐｍ−３ｄに基づき、２Ｄモデル点Ｐｍ−２ｄを取得することができない。このような状況は、初期化または再初期化を実行する場合に生じ得る。初期化とは、初めに実オブジェクトの姿勢を検出する場合である。再初期化とは、実オブジェクトの姿勢を検出した後、その姿勢を喪失した場合に、再度、実オブジェクトの姿勢を検出する場合である。

これらの場合は、Ｓ４２９及びＳ４３２の代わりに、２Ｄテンプレートを用いることで、２Ｄモデル点Ｐｍ−２ｄを取得する。具体的には、次の通りである。

まず、記憶されている複数の２Ｄテンプレートの中から、撮像された実オブジェクトの画像の姿勢に最も近いビューから生成された２Ｄテンプレートを選択する。２Ｄテンプレートは、撮像された実オブジェクトに対応するとともに、その実オブジェクトの位置と姿勢を反映する。制御部１０は、複数の２Ｄテンプレートを予め記憶している。

ここで、各２Ｄテンプレートは、当該実オブジェクトに対応する３Ｄモデルを、それぞれのビューに基づいて、画像平面ＩＰにレンダリングすることで得られるそれぞれの２Ｄモデルに基づいて作成されたデータである。

ビューとは、仮想カメラに対する回転と並進を表す３次元剛体変換行列、およびカメラパラメーターを含む透視写像（透視投影）変換行列を含んでいる。具体的には、各２Ｄテンプレートは、２Ｄモデルの輪郭（外景線）に含まれる輪郭特徴要素に対応する２Ｄモデル点Ｐｍ−２ｄと、当該２Ｄモデル点Ｐｍ−２ｄに対応する３ＤモデルＣＦ点Ｐｍ−３ｄと、当該ビューと、を含んでいる。２Ｄテンプレートを用いる場合、上記の２Ｄモデルの特徴点を、２Ｄモデル点Ｐｍ−２ｄとして取得する。

２Ｄモデル点Ｐｍ−２ｄを取得した後、実オブジェクトの画像のエッジに含まれる画像点と、２Ｄモデル点Ｐｍ−２ｄとの対応付けを実行する（Ｓ４３４）。

本実施形態では、上記の対応付けを実行するために、それぞれの写像された２Ｄモデル点の周囲の局所的近隣に含まれる全ての画像点について、まず、下記の式（１）を用いた同様性スコアを計算する。

ここで、式（１）において、ｐは２Ｄモデル点Ｐｍ−２ｄを表し、ｐ’は画像点を表している。式（１）で示す同様性スコアの指標は、２Ｄモデル点Ｐｍ−２ｄの輝度のグラディエントと、画像点のグラディエントの一致に基づく。但し、式（１）では一例として当該２つのベクトルの内積に基づいている。式（１）におけるＥｐのベクトルは、２Ｄモデル点Ｐｍ−２ｄ（エッジ点）ｐの単位長さグラディエントベクトルである。

本実施形態においては、同様性スコアを求める際に、画像点ｐ’の特徴要素を計算するために、テスト画像（入力画像）のグラディエントである▽Ｉを用いる。式（１）の分母に示されるグラディエントの大きさの局所最大値による規格化は、局所的に強度の高いエッジに対して優先度が与えられることを確実にする。この規格化は、微弱で雑音となるエッジに対して照合することを防止する。

本実施形態においては、同様性スコアを求める際に、対応付けが探索される近隣範囲の大きさＮ（ｐ）を強化し得る。例えば、連続する繰り返し計算の中で、写像された２Ｄモデル点Ｐｍ−２ｄの位置変位の平均が小さくなった場合に、Ｎ（ｐ）が小さくされ得る。以下では、式（１）を用いた具体的な対応付けの方法について説明する。

図７〜図１１は、同様性スコアから２Ｄモデル点Ｐｍ−２ｄと画像点との対応付けを確立する方法の一例を示す。図７には、カメラ６０によって撮像された実オブジェクトの画像ＩＭＧ（実線）と、２ＤモデルＭＤ（一点鎖線）と、２Ｄモデル点Ｐｍ−２ｄとしての輪郭特徴要素ＣＦｍと、が示されている。２ＤモデルＭＤとは、第１姿勢における３Ｄモデルの輪郭を画像平面ＩＰに写像して得られる２次元的な輪郭線である。

図７には、格子状に配置された複数のピクセルｐｘと、輪郭特徴要素ＣＦｍのそれぞれを中心とする３ピクセル×３ピクセルで形成された領域（例えば、領域ＳＡ１）と、が示されている。

図７では、後述する輪郭特徴要素ＣＦ１を中心とする領域ＳＡ１と、輪郭特徴要素ＣＦ２を中心とする領域ＳＡ２と、輪郭特徴要素ＣＦ３を中心とする領域ＳＡ３と、が示されている。

輪郭特徴要素ＣＦ１と輪郭特徴要素ＣＦ２とは、互いに隣り合う輪郭特徴要素であり、輪郭特徴要素ＣＦ１と輪郭特徴要素ＣＦ３も、互いに隣り合う輪郭特徴要素である。換言すると、輪郭特徴要素ＣＦ２、輪郭特徴要素ＣＦ１、輪郭特徴要素ＣＦ３の順に、輪郭特徴要素が並んでいる。

図７に示すように、実オブジェクトの画像ＩＭと２ＤモデルＭＤとが一致していないため、式（１）を用いて、実オブジェクトの画像ＩＭＧエッジに含まれる画像点と、複数の輪郭特徴要素ＣＦｍそれぞれによって表される２Ｄモデル点Ｐｍ−２ｄと、を対応付ける。

初めに、複数の輪郭特徴要素ＣＦｍの内の１つの輪郭特徴要素ＣＦ１を選択し、輪郭特徴要素ＣＦ１の位置に重なるピクセルｐｘを中心とする３ピクセル×３ピクセルの領域ＳＡ１を抽出する。

次に、輪郭特徴要素ＣＦ１と互いに隣り合う２つの輪郭特徴要素ＣＦ２および輪郭特徴要素ＣＦ３を中心とする３ピクセル×３ピクセルの領域ＳＡ２および領域ＳＡ３を抽出する。

本実施形態においては、領域ＳＡ１，ＳＡ２，ＳＡ３のそれぞれを構成するピクセルｐｘ毎に式（１）によりスコアを算出する。この段階では、領域ＳＡ１、ＳＡ２、ＳＡ３は何れも、同じ形状および同じ大きさを有するマトリクスである。

図８には、領域ＳＡ２の拡大図と、領域ＳＡ２を構成するピクセル毎に算出された同様性スコアと、が示されている。図９には、領域ＳＡ１の拡大図と、領域ＳＡ１を構成するピクセル毎に算出された同様性スコアと、が示されている。図１０には、領域ＳＡ３の拡大図と、領域ＳＡ３を構成するピクセル毎に算出された同様性スコアと、が示されている。

本実施形態においては、抽出した領域の内、輪郭特徴要素としての２Ｄモデル点と、９つの画像点のそれぞれと、の間で算出される同様性スコアを算出する。例えば、図１０の領域ＳＡ３において、ピクセルｐｘ３３，ｐｘ３６のスコアが０．８となり、ピクセルｐｘ３９のスコアが０．５となり、残り６つのピクセルが０になる例を示している。

ピクセルｐｘ３３，ｐｘ３６のスコアが０．８に対して、ピクセルｐｘ３９のスコアが０．５と異なるのは、ピクセルｐｘ３９において実オブジェクトの画像ＩＭＧが曲がっており、グラディエントが異なるためである。以上説明したように、抽出した領域ＳＡ１，ＳＡ２，ＳＡ３を構成する各ピクセル（画像点）について、同じような方法で同様性スコアを算出する。

以下、輪郭特徴要素ＣＦ１に注目して説明を進める（図９、図１１）。領域ＳＡ１を構成する各ピクセルの修正スコアを算出する（図１１）。具体的には、領域ＳＡ１を構成するピクセルのそれぞれについて、領域ＳＡ２，ＳＡ３のそれぞれにおいて同じマトリクス位置にあるピクセルを用いて、同様性スコアを重み係数付きで平均化する。

同様性スコアのこのような修正を、輪郭特徴要素ＣＦ１だけでなく、他の輪郭特徴要素ＣＦ２、ＣＦ３のそれぞれに関して実行する。そうすることで、２Ｄモデル点と画像点との対応付けが平滑化される効果が得られる。

本実施形態においては、領域ＳＡ１の各ピクセルｐｘのスコアの重み係数を０．５、領域ＳＡ２の各ピクセルｐｘのスコアの重み係数を０．２、領域ＳＡ３の各ピクセルｐｘのスコアの重み係数を０．３として、修正スコアを算出する。

例えば、図１１に示すように、ピクセルｐｘ１９の修正スコアとしての０．５５は、領域ＳＡ１のピクセルｐｘ１９のスコア０．８に重み係数０．５を乗じた値と、領域ＳＡ２のピクセルｐｘ２９のスコア０に重み係数０．２を乗じた値と、領域ＳＡ３のピクセルｐｘ３９のスコア０．５に重み係数０．３を乗じた値と、を加えた値である。

上記重み係数は、処理対象となっている輪郭特徴要素ＣＦ１と、他の輪郭特徴要素ＣＦ２、ＣＦ３との間の距離に反比例する。

本実施形態においては、領域ＳＡ１を構成するピクセルの修正スコアの中から、最大のスコアを有する画像点を、輪郭特徴要素ＣＦ１に対応付けられた画像点として決定する。

例えば、修正スコアの最大値は、ピクセルｐｘ１３，ｐｘ１６の０．６４となる。複数のピクセルが同じ修正スコアを有する場合には、輪郭特徴要素ＣＦ１からの距離が最も短いピクセルｐｘ１６を選び、輪郭特徴要素ＣＦ１にピクセルｐｘ１６の画像点を対応付ける。

実オブジェクトの画像において検出されたエッジ（輪郭の一部の候補）と、２Ｄモデル点Ｐｍ−２ｄ（輪郭特徴要素ＣＦ）とを比較することで、各２Ｄモデル点Ｐｍ−２ｄに対応する実オブジェクトの画像点を決定していく。このように、輪郭特徴要素に含まれる２Ｄモデル点Ｐｍ−２ｄに対応付けられた画像点を、２Ｄ画像点Ｐｉｍｇ−２ｄと呼ぶ。なお、２Ｄモデル点と画像点との対応付けの探索の他の方法として、上記方法に代えて、以下の方法を採用してもよい。まず、２Ｄモデルの輪郭線に垂直な線分であって、２Ｄモデル点Ｐｍ−２ｄを通る線分、に重なる複数の画像点について同様性スコアまたは修正スコアを導出する。そして、その線分上で最大の同様性／修正スコアを有する画像点を、２Ｄモデル点Ｐｍ−２ｄに対応する２Ｄ画像点Ｐｉｍｇ−２ｄとする。

図１２および図１３は、対応付けの手続きにおいて上述した方法を採用しない場合に生じ得る対応付けを示している。本実施形態による方法を２Ｄモデル点Ｐｍ−２ｄと画像点との対応付けに用いることで、図１２または図１３に示すような誤りの可能性を低下させることができる。

図１２および図１３は、撮像された実オブジェクトの画像ＩＭＧおよび２Ｄモデル点Ｐｍ−２ｄのセットＰＭｎの一部の拡大図と、複数の矢印ＣＳとを示す。

図１２は、１つの２Ｄモデル点Ｐｍ−２ｄが、或るエッジに含まれた多数の画像点と合わせられ得ることを示す。つまり、２Ｄモデル点Ｐｍ−２ｄが、実オブジェクトの画像ＩＭＧとして検出されたエッジの何れの部分に対応付けられるのかは、矢印ＣＳ１〜ＣＳ５のように複数の選択肢が存在する。

図１３は、２Ｄモデル点Ｐｍ−２ｄが誤った画像点と合わせられた一例を示す。具体的には、順番に並んだ複数の２Ｄモデル点ＰＭ１〜ＰＭ５が、実オブジェクトの画像ＩＭＧとして検出されたエッジ（に含まれる画像点）に、誤って合わせられた一例が示されている。

この場合、例えば、図１３において、上側から２Ｄモデル点ＰＭ２，ＰＭ３，ＰＭ１，ＰＭ４，ＰＭ５と並んでいるにも関わらず、実オブジェクトの画像ＩＭＧのエッジとしては、矢印ＣＳ７，ＣＳ６，ＣＳ８，ＣＳ１０，ＣＳ９の順に並んでいる。そのため、矢印ＣＳ８と矢印ＣＳ６、および、矢印ＣＳ９と矢印ＣＳ１０が入れ替わっている。

図６に戻り、次に、カメラ原点Ｏ（カメラ座標系の原点）と、複数の２Ｄ画像点Ｐｉｍｇ−２ｄそれぞれとを通る仮想直線Ｒａｙ−ｉｍｇを算出する（Ｓ４３６）。仮想直線Ｒａｙ−ｉｍｇは、３Ｄ座標系において定義される直線である。

最後に、３Ｄ画像ＣＦ点Ｐｉｍｇ−３ｄを取得する（Ｓ４３８）。３Ｄ画像ＣＦ点Ｐｉｍｇ−３ｄは、３Ｄ画像輪郭点とも呼ぶ。３Ｄ画像ＣＦ点Ｐｉｍｇ−３ｄは、対応する３ＤモデルＣＦ点Ｐｍ−３ｄから、対応する仮想直線Ｒａｙ−ｉｍｇに写像することで取得される。具体的には、３Ｄ画像ＣＦ点Ｐｉｍｇ−３ｄは、対応する３ＤモデルＣＦ点Ｐｍ−３ｄから、対応する仮想直線Ｒａｙ−ｉｍｇに下ろした垂線の足である。

以上に説明したように、ＣＦ法を利用して、３ＤモデルＣＦ点Ｐｍ−３ｄと、３Ｄ画像ＣＦ点Ｐｉｍｇ−３ｄとの組み合わせがＮ_CF個、取得される。

続いて、姿勢の更新を計算する（Ｓ５００）。Ｓ５００によって現行のフレームにおける姿勢が導出される。このように導出された姿勢を、第２姿勢と呼ぶ。第２姿勢は、３Ｄモデル表面点（第１の３Ｄモデル点群）と、３Ｄ画像表面ベース点（３Ｄ表面点群）と、３ＤモデルＣＦ点Ｐｍ−３ｄ（第２の３Ｄモデル点群）と、３Ｄ画像ＣＦ点Ｐｉｍｇ−３ｄと、に少なくとも基づいて、導出される。

Ｎ点からなる３Ｄ点の対応付け（ｐ，ｐ’）セットが与えられた場合、距離差の二乗和（Σ²）を最小にするＲとＴとを見つけることによって、姿勢が最適化される。距離差の二乗和は、次式で算出される。

式（２）におけるＲは、変換行列における回転の要素である。上記の式におけるＴは、当該変換行列における並進の要素である。

３Ｄから３Ｄのドメインで表現されたＣＦデータとａ−ＩＣＰデータとの双方に関して、それらは、容易に線形結合され得る。しかし、本実施形態においては、カメラ６０座標系（ＲＧＢ画像センサーの３Ｄ座標系）の原点と、距離カメラ座標系（深度画像センサー８０の３Ｄ座標系）の原点とが異なる。このため、本実施形態においては、それぞれの対応付けセットを、共通の座標系（例えば、ロボットの３Ｄ座標系、またはＨＭＤ１００の表示部２０の３Ｄ座標系）に変換する。この変換後における最小化関数は、単に誤差項の線形和になる。

上記の式におけるＤは、変換行列であり、距離カメラ座標系から共通座標系への「基礎の変化」を示す。上記の式におけるＣは、変換行列であり、それぞれの色についてのカメラ座標系から共通座標系への「基礎の変化」を示す。

上記の式におけるＲ及びＴは、式（３）の閉形式解（解析解）である。このため、当該関数の最小値探索において、ガウス・ニュートン法などの非線形最小二乗法が不要である。

Ｓ５００の後、姿勢の改善を終了するかを判定する（Ｓ５１０）。つまり、Ｓ５００を反復して実施するかを判定する。姿勢の改善を終了しない場合（Ｓ５１０，ＮＯ）、Ｓ３００〜Ｓ５００を再び実行する。これにより、取得された画像フレームに対応して変換行列（Ｒ及びＴ）が導出され続け、この結果、実オブジェクトの姿勢を追跡することができる。

姿勢の改善を終了する場合（Ｓ５１０，ＹＥＳ）、最終姿勢を返す（Ｓ５２０）。つまり、直近のＳ５００によって算出された変換行列（Ｒ及びＴ）を出力する。

以上に説明した処理によれば、ＣＦ法とａ−ＩＣＰ法の姿勢改善法が単独で用いられた場合に見られる欠点を低減することができる。ここで、ＣＦ法の利点とａ−ＩＣＰ法の利点とを説明する。

ＣＦ法の利点は、クリーンな（孤立した）状態で、精度が高いことである。クリーンな状態とは、背景に対して輪郭がはっきり区別できる状態のことである。

ＣＦ法の欠点は、散らかった状態、特に実オブジェクト間の外形エッジが混乱する暗い実オブジェクトに対して、精度が低いことである。なお、実オブジェクトのスケーリングに対してロバストでないが、ステレオまたはマルチカメラを用いることで改善され得る。

ａ−ＩＣＰ法の利点は、クリーンな状態および散らかった状態の双方で精度が高いことである。

ａ−ＩＣＰ法の欠点は、平らな面およびシリンダーなど、非常に一般的な表面（特徴が無い表面）を有する実オブジェクトに対して精度が低いことである。近隣の点間の対応付けにおいて曖昧さが高いからである。

上記のように、ＣＦ法の欠点とａ−ＩＣＰ法の欠点は、互いに独立であるとみなせる。このため、本実施形態によれば、両者の欠点を補うことによって、姿勢を精度良く導出できる。

本開示は、本明細書の実施形態や実施例、変形例に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現できる。例えば、発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態、実施例、変形例中の技術的特徴は、先述の課題の一部又は全部を解決するために、或いは、先述の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせができる。その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除できる。例えば、以下のものが例示される。

第１姿勢は、現行よりも前のフレームにおける第２姿勢でなくてもよい。例えば、カメラ６０（画像センサー）から取得された実オブジェクトの姿勢を、第１姿勢として扱っても良い。カメラ６０から実オブジェクトの姿勢を取得する場合は、ａ−ＩＣＰ法を用いてもよいし、ＩＣＰ法を用いてもよい。

或いは、深度画像センサー８０から取得された実オブジェクトの姿勢を、第１姿勢として扱っても良い。深度画像センサー８０から実オブジェクトの姿勢を取得する場合は、ＣＦ法を用いてもよい。

上記のように、第１姿勢を、カメラ６０又は他の画像センサー（深度画像センサー８０）に基づき導出する場合、処理負荷が軽減される。

ａ−ＩＣＰ点の数に対するＣＦ点の数の比は、適宜、設定してもよい。ａ−ＩＣＰ点の数は、適応レベルに依存して変化し得るが、いずれにせよ、ＣＦ点の数よりとても多い。ａ−ＩＣＰ点のサンプリングは、局所的なジオメトリー（幾何構造）の関数となるように、変化することが可能である。例えば、平らな領域は、殆ど記述的な情報を伝えてこないから、密なサンプリングをする必要はない。

信頼要素を３Ｄ点の対応付けに付加してもよい。信頼要素とは、信頼性を表す係数である。これは、Ｎ×Ｎの対角行列を導入することでなされ得る。ここで、それぞれの対角要素がそれぞれの点の信頼要素である。信頼要素は、例えば、ＣＦ点のグラディエントベクトルの大きさの強さに基づいて、計算され得る。または、ａ−ＩＣＰ点の表面曖昧さに基づいて計算され得る。

ａ−ＩＣＰ法における適応レベルの数は、適宜、変更してもよい。

姿勢導出処理を実行する装置は、演算機能を備えていれば、どのような装置でもよい。例えば、ビデオシースルー型ＨＭＤでもよいし、ＨＭＤでなくてもよい。ＨＭＤ以外としては、ロボットに適用してもよいし、携帯型の表示装置（例えばスマートフォン）でもよいし、ヘッドアップディスプレイ（ＨＵＤ）でもよいし、据え置き型の表示装置でもよい。

上記において、ソフトウエアによって実現された機能及び処理の一部又は全部は、ハードウエアによって実現されてもよい。また、ハードウエアによって実現された機能及び処理の一部又は全部は、ソフトウエアによって実現されてもよい。ハードウエアとしては、例えば、集積回路、ディスクリート回路、又は、それらの回路を組み合わせた回路モジュールなど、各種回路を用いてもよい。

１０…制御部、２０…表示部、２１…右保持部、２２…右表示駆動部、２３…左保持部、２４…左表示駆動部、２６…右光学像表示部、２８…左光学像表示部、４０…接続部、４２…右コード、４４…左コード、４６…連結部材、４８…本体コード、５１…送信部、５２…送信部、５３…受信部、５４…受信部、６０…カメラ、６１…カメラ基部、６２…レンズ部、７１…慣性センサー、８０…深度画像センサー、９０…装着帯、９１…装着基部、９２…ベルト、９３…連結部、１２１…ＲＯＭ、１２２…ＲＡＭ、１３０…電源、１３５…操作部、１４０…ＣＰＵ、１５０…オペレーティングシステム、１６０…画像処理部、１６７…処理部、１７０…音声処理部、１８０…インターフェース、１９０…表示制御部、２０１…右バックライト制御部、２０２…左バックライト制御部、２１１…右ＬＣＤ制御部、２１２…左ＬＣＤ制御部、２２１…右バックライト、２４１…右液晶ディスプレイ、２４２…左液晶ディスプレイ、２５１…右投写光学系、２５２…左投写光学系、２６１…右導光板、２６２…左導光板

Claims

深度画像センサーを用いて取得された実オブジェクトの深度画像データと、画像センサーを用いて取得された前記実オブジェクトの複数の画像点を含む輝度画像データと、前記実オブジェクトの第１姿勢と、前記実オブジェクトに対応する３Ｄモデルと、に基づき、シーンに位置する前記実オブジェクトの姿勢として第２姿勢を導出する機能を姿勢導出装置に実現させるためのプログラムであって、
前記３Ｄモデル上の第１の３Ｄモデル点群であって、表面特徴要素に関連付けられた第１の３Ｄモデル点群を取得する機能と、
現行の前記深度画像データから得られる３Ｄ表面点群を取得する機能と、
前記３Ｄモデル上の第２の３Ｄモデル点群を取得する機能と、
前記第１姿勢に基づいた前記第２の３Ｄモデル点群の画像平面への写像に含まれる輪郭特徴要素を表す複数の２Ｄモデル点に対応付けられた前記複数の画像点と、前記画像センサーの３Ｄ原点と、を通るそれぞれの仮想直線に、それぞれの前記第２の３Ｄモデル点群を写像して得られる３Ｄ画像輪郭点を取得する機能と、
前記第１の３Ｄモデル点群と、前記３Ｄ表面点群と、前記第２の３Ｄモデル点群と、前記３Ｄ画像輪郭点と、に少なくとも基づいて、前記第２姿勢を導出する機能と、
を実現させるためのプログラム。
前記第１姿勢は、現行のフレームより前のフレームにおける前記実オブジェクトの姿勢であり、
前記第２姿勢は、現行のフレームの前記実オブジェクトの姿勢である
請求項１に記載のプログラム。
前記第１姿勢は、前記画像センサー又は他の画像センサーから取得された前記実オブジェクトの姿勢である
請求項１に記載のプログラム。
深度画像センサーを用いて取得された実オブジェクトの深度画像データと、画像センサーを用いて取得された前記実オブジェクトの複数の画像点を含む輝度画像データと、前記実オブジェクトの第１姿勢と、前記実オブジェクトに対応する３Ｄモデルと、に基づき、シーンに位置する前記実オブジェクトの姿勢として第２姿勢を導出する方法であって、
前記３Ｄモデル上の３Ｄモデル点群であって、前記第１姿勢に基づいた第２の３Ｄモデル点群の画像平面への写像に含まれる輪郭特徴要素を表す複数の２Ｄモデル点に対応付けられた前記複数の画像点と、前記画像センサーの３Ｄ原点と、を通るそれぞれの仮想直線に、それぞれの前記第２の３Ｄモデル点群を写像に含まれる輪郭特徴要素を表す３Ｄ画像輪郭点を取得するステップと、
前記３Ｄモデル上の表面特徴要素に関連付けられた第１の３Ｄモデル点群と、現行の前記深度画像データから得られる３Ｄ表面点群と、前記第２の３Ｄモデル点群と、前記３Ｄ画像輪郭点と、に少なくとも基づいて、前記実オブジェクトの姿勢を導出するステップと、
を含む姿勢導出方法。
深度画像センサーを用いて取得された実オブジェクトの深度画像データと、画像センサーを用いて取得された前記実オブジェクトの複数の画像点を含む輝度画像データと、前記実オブジェクトの第１姿勢と、前記実オブジェクトに対応する３Ｄモデルと、に基づき、シーンに位置する前記実オブジェクトの姿勢として第２姿勢を導出する装置であって、
前記３Ｄモデル上の第１の３Ｄモデル点群であって、表面特徴要素に関連付けられた第１の３Ｄモデル点群を取得する機能と、
現行の前記深度画像データから得られる３Ｄ表面点群を取得する機能と、
前記３Ｄモデル上の第２の３Ｄモデル点群を取得する機能と、
前記第１姿勢に基づいた前記第２の３Ｄモデル点群の画像平面への写像に含まれる輪郭特徴要素を表す複数の２Ｄモデル点に対応付けられた前記複数の画像点と、前記画像センサーの３Ｄ原点と、を通るそれぞれの仮想直線に、それぞれの前記第２の３Ｄモデル点群を写像して得られる３Ｄ画像輪郭点を取得する機能と、
前記第１の３Ｄモデル点群と、前記３Ｄ表面点群と、前記第２の３Ｄモデル点群と、前記３Ｄ画像輪郭点と、に少なくとも基づいて、前記第２姿勢を導出する機能と、
を備える姿勢導出装置。