JP6420605B2

JP6420605B2 - 画像処理装置

Info

Publication number: JP6420605B2
Application number: JP2014193958A
Authority: JP
Inventors: 小林　達也; 達也小林; 加藤　晴久; 晴久加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2014-09-24
Filing date: 2014-09-24
Publication date: 2018-11-07
Anticipated expiration: 2034-09-24
Also published as: JP2016066187A

Description

本発明は、画像認識型のAR（Augmented Reality）技術において、任意形状の認識対象物に対する追跡、特に、撮影角度や距離等の視点変化が大きい場合でも、小さなDBサイズおよび処理負荷で頑健な追跡を可能とし、処理リソースの乏しい端末におけるリアルタイム認識を実現できる画像処理装置に関する。

近年、現実空間の画像（映像）をコンピュータで処理して仮想情報を重畳するAR（Augmented Reality：拡張現実感）技術が注目を集めている。AR技術を用いることで、ユーザの行動を支援することや、ユーザに直観的な情報掲示を行うことが可能となる。

例えば、身の回りの看板や広告にAR技術を適用することで、限られたスペースでは伝えることのできない詳細な情報や動画、3Dコンテンツ等を付加することや、場所や時間、閲覧者の属性等によって掲示する情報を適切に変更することが可能となる。また、複雑な操作手順を必要とする装置のガイドにAR技術を適用することで、作業の効率化や、安全性の向上を実現することが可能となる。

AR技術の主なプラットフォームは、以前はWebカメラを接続したラップトップPCであったが、近年は撮像装置（カメラ）や各種センサ、表示ディスプレイを搭載し、十分な処理性能を備えたタブレットデバイスやスマートフォン、HMD（Head Moun ted Display）に代表されるウェアラブルデバイス等、様々な高性能モバイル端末が普及しつつあり、AR技術の主要なプラットフォームを担いつつある。

これらAR技術を構成する要素技術の中では、仮想情報を正しい位置に重畳するための「位置合わせ技術」が特に重要な役割を担っている。仮想情報があたかも現実空間の重畳位置に存在するかのように見せるためには、カメラ及びディスプレイの移動に合わせてリアルタイムで位置合わせ処理を実行する必要がある。

特に、スマートフォンやビデオシースルー型のHMDの場合、一般的なカメラプレビューの更新頻度である30FPSの間隔で位置合わせを実行する必要があるため、30FPSの要件を満たせないような処理負荷の高い技術は、仮に位置合わせ精度が高くても採用は困難である。

GPSや電子コンパス（方位センサ）、加速度センサといった各種センサデバイスを利用し、現実空間とカメラの相対的な位置関係（位置及び方向の6自由度のパラメータで決定される。以降「姿勢」と表現と表現する）を求め、位置合わせ（以降「姿勢推定」と表現する。）を実現するARサービスは既に広く提供されており、代表的なサービス例として、ナビゲーションサービスや、観光案内サービス等が挙げられる。

センサに基づく姿勢推定は処理負荷が少ない利点がある一方、姿勢推定精度が十分ではなく、異なる対象物（建物など）に仮想情報を重畳してしまうことが起こりうる。また、現実空間内に固定配置されたオブジェクトに対してのみ有効（仮想情報を重畳可能）という制約が存在する。

一方、カメラのプレビュー画像に対する画像解析処理によって姿勢を推定する技術については、正確な姿勢推定と移動物体に対するARを実現できるという点が大きな利点である。推定精度については、既存技術の時点で、仮想情報の表示位置の誤差を数ピクセル程度（ユーザには知覚できないレベル）に抑えることが可能であるため、作業ガイドの重畳表示等、正確な重畳が求められる場合に相性が良い。

ただし、毎フレームの画像処理は高い処理負荷を必要とし、認識の頑健性（撮影距離、角度、場所、時間帯等、様々な撮影条件下において、安定的に認識する性質／能力）にも課題が多く残されている。そのため、処理負荷や頑健性の課題を解決するための技術が活発に検討されている。

非特許文献１に開示されている技術を用いることで、モバイル端末上で、事前登録された写真やポスターといった任意の平面オブジェクトの姿勢をリアルタイム推定することが可能となる。

特許文献１では、事前登録された三次元オブジェクトの姿勢をリアルタイムで推定するための技術が開示されている。

非特許文献３では、事前登録された平面／三次元オブジェクトについて様々な（任意の）視点からマッチング可能な画像特徴を検出するための技術、及び当該画像特徴を利用して、オブジェクトの姿勢を様々な（任意の）視点から推定するための技術が開示されている。

また、非特許文献２で開示されている技術を用いることで、モバイル端末上で、事前登録されていない三次元の現実空間に対するカメラの姿勢をリアルタイム推定することが可能となる。

特許文献２では、現実空間に対するカメラ姿勢推定精度を向上するため、時刻、天候などの環境情報を利用する技術が開示されている。特許文献３では、事前登録された平面／三次元オブジェクトの姿勢をモバイル端末でリアルタイム推定するための技術が開示されている。特許文献４には、三次元オブジェクトの姿勢をモバイル端末でリアルタイム推定するための技術が開示されている。

このような既存の画像認識技術においては、処理負荷を削減するための共通的な技術が数多く存在する。まず、姿勢の時間的な相関関係を利用し、毎フレーム独立に姿勢を推定するのではなく、前フレームの姿勢を初期値として、現フレームの姿勢までの姿勢の小さな変化量を推定する処理を反復する、「姿勢追跡」のアプローチが採用されている。

姿勢追跡では、画像特徴をフレーム間でマッチングする処理が実行されるが、相関関係に基づき、マッチングの探索幅を限定することで、少ない処理負荷で追跡処理を実現している。また、姿勢追跡の初期値を推定するため、別途「姿勢検出（初期姿勢推定）」のアルゴリズムを備え、これらを組み合わせるハイブリッド型の追跡手法が採用されている。

非特許文献１，２および特許文献３に記載の技術においては、追跡中のオブジェクトの登録画像、又は追跡中の現実空間の登録画像（共にキーフレームと呼ばれる）を、初期姿勢に基づき変換することで、追跡用のテンプレート画像を生成し、これを入力画像とマッチングする（追跡する）手法が採られている。

テンプレート画像と入力画像とは、カメラの視点に依らず、かなり類似した画像となるため、視点変化に頑健な追跡が可能になる。さらに、モバイル端末上での処理を実現するため、テンプレート画像と入力画像の両方をダウンサンプリングすることで画像ピラミッドを構成し、ピラミッド上位の低解像度画像から順に追跡処理を行うことで、処理負荷を削減する手法が採られている。

特許第5291605号公報特表2013-508795号公報特表2013-508844号公報特表2014-503922号公報

D. Wagner, G. Reitmayr, A. Mulloni, T. Drummond, and D. Schmalstieg, "Real-time detection and tracking for augmented reality on mobile phones," IEEE Trans. on Visualization and Computer Graphics, 2010. G. Klein, D. Murray, "Parallel Tracking and Mapping on a Camera Phone,"in Proc of ISMAR, 2009. D. Kurz, T. Olszamowski, S. Benhimane, "Representative feature descriptor sets for robust handheld camera localization," in Proc. of ISMAR, 2012.

非特許文献１は、平面オブジェクトへの適用のみが可能で、任意形状のオブジェクトに関しては対象物として扱えないという問題点があった。これは、ARの適用範囲を大幅に狭めてしまう点で大きな問題である。例えば、一般的な市販製品、家電製品、建築物等を扱うことができない。

特許文献１および非特許文献３では、任意形状のオブジェクトを対象物として扱うことができるものの処理負荷が高く、モバイル端末上でリアルタイム処理を実現していない。非特許文献３では、特徴点のマッチングを、特許文献１では特徴点とエッジのマッチングの併用を行うが、特に特徴点マッチングの計算負荷の高さが原因である。また、エッジ特徴のマッチングはオクルージョンやオブジェクトの動きに対する頑健性に欠ける。

特許文献２および非特許文献２では、静的な三次元空間の追跡処理を行うため、建築物等には適用可能であるが、例えば市販製品や車などの移動物体に適用することはできない。また、固定物体であっても、同一個所に対する視点が大きく変動する（表側から真横や裏側に回る等する）場合は、単一のキーフレームによる追跡を維持できず、安定的に追跡できない課題がある。

特許文献３，４は、任意形状のオブジェクトの姿勢をモバイル端末上でリアルタイム推定するものであるが、特許文献３では姿勢推定可能な視点がキーフレームの視点に限定され、視点が大きく変動するシーンにおいて、オブジェクトを頑健に追跡することができなかった。特許文献４では、対象のオブジェクトの他に既知の二次元面が同時にカメラに写っていることを条件としているため、実用性に欠ける。

さらに、非特許文献１及び特許文献３の共通の課題として、検出と追跡で異なる特徴を用いるため、データベースサイズが大きい点が課題であった。

本発明の第１の目的は、上記の技術課題を解決し、任意形状の認識対象物に対する視点（撮影角度や距離）が大きく変動するシーンにおいて、安定的で頑健な追跡を実現することにある。

また、本発明の第２の目的は、データベースサイズや実行時の処理負荷を削減し、処理リソースの乏しい端末におけるリアルタイム認識を実現することにある。

上記の目的を達成するために、本発明は、認識対象の姿勢変化を追跡する画像処理装置において、認識対象の画像特徴Faが登録された画像特徴データベースと、認識対象のプレビュー画像から画像特徴Fbを検出する手段と、画像特徴Fa，Fb間のマッチング結果に基づいて、プレビュー画像における認識対象の初期姿勢を推定する手段と、画像特徴Faを初期姿勢に基づき二次元座標に投影して追跡点Feを取得する手段と、前記初期姿勢に基づいて認識対象のテンプレート画像を生成する手段と、追跡点Feに関してテンプレート画像とプレビュー画像とのマッチングを行う手段と、マッチングに成功した追跡点Feに基づいて、プレビュー画像における認識対象の姿勢変化を追跡する手段とを具備した。

また、前記テンプレート画像を生成する手段は、次のプレビュー画像とマッチングを行うテンプレート画像を、前記姿勢変化の追跡中にあっては、当該追跡結果に基づいて生成するようにした。

本発明によれば、以下のような効果が達成される。
(1) 姿勢検出と姿勢追跡とに共通の画像特徴を使用できるので、データベースサイズを削減することが可能になる。

(2) 各視点において追跡可能な画像特徴を選択する際に、各代表視点で視認可能な画像特徴Faを管理する画像特徴リストが参照されるので、実行時に高速な追跡点選択を実現することが可能になる。

(3) 任意形状の認識対象を任意の視点から撮影した場合であっても、追跡が見込める追跡点のみを用いて姿勢追跡処理を行うことができるので、高精度かつ視点変化に頑健な追跡が実現可能となる。

本発明の画像処理装置を適用したARシステムのブロック図である。画像処理装置の主要部の構成およびその画像特徴DBを予めオフラインで構築するDB構築部の構成を示した機能ブロック図である。視点別学習画像の生成方法を示した図である。視点別学習画像の一例を示した図である。画像特徴リストの一例を示した図である。追跡点選択のアプローチ方法を説明するための図である。画像処理装置の動作を示したフローチャートである。

以下、図面を参照して本発明の実施形態について詳細に説明する。図１は、本発明の画像処理装置２を適用したARシステムの構成を示したブロック図であり、携帯電話、スマートフォン、タブレット端末、PDA、腕時計型デバイスあるいはノートPCなどの情報端末に実装される。

撮像装置４は、携帯端末等に搭載されているカメラモジュールあるいはWEBカメラであり、認識対象５のオブジェクトを撮影してプレビュー画像を表示装置１および画像処理装置２へ出力する。前記認識対象５は、形状や模様が既知である任意の三次元物体であり、印刷物やプリント等に代表される二次元的な物体（画像）も含まれる。

画像処理装置２は、撮像装置４から取得したプレビュー画像に基づいて、後に詳述するように特徴点追跡を実施し、特徴点の追跡結果およびカメラの内部パラメータに基づいて、認識対象５とARシステムないしは撮像装置４との相対的な位置および姿勢の関係を推定する。

一般に、相対的な位置および姿勢の関係は、姿勢パラメータまたはカメラの外部パラメータと呼ばれる行列の形で表され、三次元空間内の位置と方向の情報が含まれる。画面内での物体の見え方は、この姿勢パラメータと、カメラの内部パラメータと呼ばれる、カメラに固有の焦点距離、主軸の位置の情報が含まれる行列やその他の光学的歪みのパラメータとによって決定される。

本実施形態では、内部パラメータや歪みパラメータは予めキャリブレーション等によって取得され、歪みは取り除かれているものとし、姿勢パラメータの推定結果は表示装置１へ提供される。ARシステムが複数種類の物体を認識対象とする場合には、姿勢パラメータと対象物のIDとの組が、認識した数だけ表示装置１へ提供される。

付加情報データベース(DB)３は、ハードディスクドライブや半導体メモリモジュール等により構成された記憶装置であり、認識対象５の位置をARシステムが認識した際に、表示装置１上で認識対象５に重畳表示するCGや二次元画像を保持しており、画像処理装置２が推定したカメラの姿勢パラメータに対応する認識対象５に関する付加情報を表示装置１へ出力する。

表示装置１は、撮像装置４がフレーム単位で連続的に出力するプレビュー画像、および付加情報データベース３から取得された付加情報をユーザに掲示できるモニタ装置であり、携帯端末のディスプレイでも良い。また、ヘッドマウントディスプレイ(HMD)のような形態でも良く、特にシースルー型のHMDの場合はプレビュー画像を表示せず、視界に付加情報のみを重畳して表示することも可能である。表示装置１がディスプレイである場合は、プレビュー画像に付加情報DB３から入力された付加情報を重畳表示する。その際、仮想情報は、カメラの内部パラメータ行列（画角等の情報を含む）と姿勢行列を用いて、3Dレンダリングによって対応する位置に重畳表示される。

姿勢行列は、一般に6自由度の4行4列の行列で表現され、3Dモデルとレンダリング時の仮想カメラとの相対的な位置関係の情報を持つ。また、姿勢行列は、三次元特殊ユークリッド群SE(3)に属し、共に三自由度の三次元回転行列と、三次元並進ベクトルで表すことができる。姿勢行列を用いる場合、3Dモデルのモデル座標 [X, Y, Z]^T と、レンダリング後の画面中のピクセル座標 [u, v]^T とは、以下の関係式(1)で対応付けられる（ピンホールカメラモデル）。

ここで、符号Aは仮想カメラの内部パラメータである。ARでは正確な重畳表示のため、実際に使用するカメラの内部パラメータを予めカメラキャリブレーションによって求め、仮想カメラの内部パラメータ、及び姿勢推定時に使用する内部パラメータを、キャリブレーションした値に一致させておくことが望ましい。

ただし、キャリブレーションを行わない場合（設定した値が実際の値とずれる場合）でも、これらを仮の値（例えば一般的なWebカメラの値）で一致させておけば、姿勢推定結果が真値からずれるものの、最終的には相殺され、重畳表示の位置に影響しない。そのため、本実施形態のような利用用途であれば、一般的なカメラの値で代用することも可能である。

符号R（r11〜r33）は、三次元空間内の回転を表すパラメータであり、各パラメータはオイラー角等の表現によって三パラメータで表現することが可能である。符号ｔ（t1〜t3）は、三次元空間内の平行移動を表すパラメータである。符号X，Y，Zは、3Dモデルのモデル座標系におけるX座標、Y座標及びZ座標である。符号u，vは、画面中のピクセル座標系におけるu座標及びv座標である。

なお、撮像装置４が出力するプレビュー画像と姿勢推定の結果とは異なるタイミングで表示装置１に入力される。これは、プレビュー画像が撮像装置４から直接入力されるのに対して、姿勢推定結果はプレビュー画像を画像処理部２が処理した結果として得られ、当該画像処理には一定時間を要するからである。

プレビュー画像と仮想情報の同期表示が損なわれると、ARのリアリティ／ユーザビリティが低下する。このため、表示装置４はプレビュー画像を一時的にバッファし、姿勢推定結果の入力に合わせて、プレビュー画像と仮想情報の表示とを同時に更新する。これにより、プレビュー画像と仮想情報の同期表示が実現できる。

図２は、前記画像処理装置２の主要部、およびその画像特徴DB２０３を予めオフラインで構築するDB構築部６の構成を示した機能ブロック図であり、画像処理装置２は、認識対象５を撮影したプレビュー画像をフレーム単位で取得するプレビュー画像取得部２１および前記プレビュー画像に基づいて認識対象５の姿勢を推定する姿勢推定装置２２を主要な構成とする。

ARでは、認識対象及びそれに紐づく仮想情報（シナリオとも呼ばれる）が事前に定められている場合が多い。こういった場合、画像特徴Faの登録はARアプリケーションを実行する前段階として、シナリオ製作者によって事前に行うことができる。例えば、既に画像特徴DB２０３に登録された状態でアプリケーションが配布されても良い。または、画像特徴DB２０３を集中管理するサーバを外部に設置し、実行時にサーバからインターネット経由で取得するようにしても良い。

DB構築部６において、モデルデータベース(DB)６０１には、認識対象５の3Dモデルが予め蓄積されている。画像特徴登録部６０２は、認識対象５を様々な視点および距離で観察した学習画像（視点画像）を前記3Dモデルに基づいて生成し、各学習画像から視点の違いに対する頑健性の高い画像特徴Faを検出する。画像特徴Faのピクセル座標は逆投影処理（Backprojection）により、3Dモデル表面の三次元座標に変換され、ベクトル形式で表現される局所特徴量とのペアの形で画像特徴DB２０３に登録される。

本実施形態では、画像特徴登録部６０２が視点別学習画像生成部６０２ａを具備し、図３に示したように、認識対象５を模した3Dモデルの周囲にくまなく配置した仮想的な視点候補（以降仮想カメラ）から3Dモデルをレンダリングすることで、各視点の学習画像（視点画像）が生成される。すなわち、仮想カメラの位置から3Dモデルの姿勢行列（外部パラメータ行列）を算出し、仮想カメラの内部パラメータ行列と、当該姿勢行列で3Dモデルをレンダリングする。

図４は、認識対象５から視点ごとに生成される学習画像の例を示した図であり、本実施形態では非特許文献３と同様に、視点別に生成された学習画像間で各画像特徴のマッチングを行い、正しくマッチングできた回数が上位の画像特徴のみが画像特徴Faとして画像特徴DB２０３に登録される。

なお、画像特徴Faの中には、ある視点から見ると認識対象５の裏面に位置するといったように、追跡不可能な画像特徴も存在する。したがって、追跡する画像特徴（追跡点）はフレームごとに、その姿勢に応じて選択することが望ましいものの、処理負荷の増加が問題となる場合がある。例えば、追跡点の視認可否判定は、追跡点を含むポリゴン面の法線方向から算出することができるが、3Dモデルのポリゴン数が多い場合に処理負荷が増大する。

したがって、姿勢推定用に登録する追跡点は、セルフオクルージョンやDBサイズの削減等を考慮し、追跡が見込める画像特徴のみに予め制限しておくことが望ましい。そこで、本実施形態では画像特徴登録部６０２に、各代表視点で追跡可能な画像特徴のリスト（画像特徴リストK2）を生成する画像特徴リスト生成部６０２ｂを設けた。

図５は、前記画像特徴リスト生成部６０２ｂにより生成される画像特徴リストK2と、その生成に用いるマッチング表K1の関係を説明するための図である。

マッチング表K1は、各視点の学習画像から検出、選別された画像特徴Faと、当該画像特徴Faを検出できた他の視点Ejとの対応関係を管理し、さらに画像特徴Faごとに当該画像特徴Faを検出できた視点数が、スコア（評価値）として対応付けられている。本実施形態では、前記マッチング表K1が以下の手順で作成される。

初めに、異なる視点（学習画像）で別々に検出された同一の特徴点に関する画像特徴を一つの画像特徴として扱うべく、全ての視点で検出された画像特徴を対象に、そのオブジェクト座標および局所特徴量が近似する画像特徴を識別して一つの画像特徴に集約し、共通の画像特徴識別子Faが付与される。

次いで、視点の一つ（例えば、E1）に注目し、当該注目視点E1の学習画像から検出された全ての画像特徴Fa（F10，F11，F12…）と、注目視点以外の他の視点E2，E3，E4…の学習画像から検出された全ての画像特徴Fa（F20，F21…，F30，F31…，F40，F41…）との間でマッチングを行い、局所特徴量の距離が所定の範囲内であって、かつオブジェクト座標の距離が最近傍の画像特徴同士がマッチング可能と判断される。

このようなマッチングは、注目視点で検出された全ての画像特徴に関して繰り返され、さらに注目視点を他の視点に切り替えることで全ての視点に関して繰り返される。ただし、既にマッチング可能と判定された画像特徴は既登録とされ、その後はマッチング対象から外される。これにより、同一の画像特徴の重複登録が防止される。

そして、マッチング可能と判断された画像特徴を検出できた視点同士が、当該マッチングできた画像特徴とマッチング表K1において対応付けられる。

図５の例では、６つの視点E1-E6が、画像特徴F1とマッチング可能な画像特徴を検出できる視点として登録されている。同様に、視点E4，E5，E7が、画像特徴F2とマッチング可能な画像特徴を検出できる視点として登録されている。

ここで、前記画像特徴F1としては、例えば視点E1，E2，E3，E4，E5，E6のそれぞれから検出できる画像特徴F11，F21，F31，F41，F51，F61のいずれか、または平均値を採用できる。あるいは最頻出の画像特徴を採用しても良い。

同様に、前記画像特徴F1のオブジェクト座標としては、画像特徴F11，F21，F31，F41，F51，F61のいずれかのオブジェクト座標を採用しても良いし、各オブジェクト座標の平均値を採用しても良い。

例えば、より単純な方法として、各画像特徴について、当該画像特徴を検出可能な全ての視点と対応付けてマッチング表K1に登録しても良い。この場合、例えば視点E1の画像特徴F1は全ての視点の全画像特徴との間でオブジェクト座標の比較を行い、オブジェクト座標が所定の範囲内である画像特徴とマッチングされる。例えば、マッチングされた画像特徴がF21，F31，F41，F51，F61である場合、それらの画像特徴が検出された視点E2〜E6と対応付けられ、マッチング表K1では、各画像特徴F11〜F61を代表して、画像特徴F1が各視点E1〜E6と対応付けて登録される。

画像特徴リストK2はマッチング表K1に基づいて作成され、視点Ejごとに、他の視点で検出された画像特徴とマッチング可能な画像特徴Fiが登録されている。なお、画像特徴リストK2において、画像特徴数が少ない視点は削除しても良い。画像特徴登録部６０２は、画像特徴Faを画像特徴リストK2と共に前記画像特徴DB２０３に登録する。

このような事前処理をオプションとして行えば、画像特徴Faから、姿勢推定に有効な、識別性に優れた画像特徴（追跡点）のみを、画像特徴リストK2に基づいて簡単に選択できるので、撮影角度や距離が大きく変動し、追跡可能な追跡点が移り変わる場合でも、安定して姿勢の推定を継続することが可能になる。

図２へ戻り、姿勢推定装置２２の姿勢検出部２０４において、画像特徴検出部２０４ａは、認識対象５のプレビュー画像から画像特徴Fbを検出する。マッチング部２０４ｂは、画像特徴Fbと前記画像特徴Faとのマッチングを行う。姿勢推定部２０４ｃは、マッチング結果に基づいて認識対象の姿勢を推定する。

前記姿勢検出部２０４が採用する画像特徴の種類は任意であるが、例えば広く知られているHarris、Hessian、SIFT、SURF、FAST、BRIEF、ORB、BRISK、FREAK等のアルゴリズムを用いることができる。一般にこれらのアルゴリズムには一長一短の側面があり、撮影距離や角度、回転に頑健なSIFT、SURF等のアルゴリズムは処理負荷が大きく、処理負荷の小さいFAST、BRIEF等のアルゴリズムは距離や角度、回転に対する頑健性に乏しい。

画像特徴間のマッチングでは、一般的にはユークリッド距離やハミング距離が最も近いもの同士が対応付けられる。対応点の精度を高めるため、距離が予め設定した閾値以下の画像特徴のみを対応付ける手法や、対応点の全体の傾向から外れた対応点を除外する手法等が知られており、本発明の姿勢検出部にも適用可能である。

画像特徴Faは、3Dモデルの三次元座標と紐付けられているため、画像特徴間のマッチングにより、二次元−三次元対応点（2D-3D対応点と呼ばれる）を取得でき、これから認識対象５の姿勢を推定することが可能である。

ここで、2D-3D対応点の中には一部誤った対応点が含まれるため、RANSACやPROSAC等のサンプリング手法によって入力された対応点から正しい対応点（インライア）のみを抽出し、誤対応に頑健な姿勢推定を行うことが一般的である。

追跡点選択部２０５は、初期姿勢の推定結果に基づいて、姿勢追跡部２０６で使用する追跡点Feを画像特徴Faから選択する。選択する追跡点の候補は、画像特徴Faの二次元投影全体でも良いが、姿勢追跡で使用する追跡点の数が増えると姿勢推定精度は改善するものの処理負荷が増大する。そこで、本実施形態では少ない特徴点数で高精度な姿勢推定を実現する為に、以下のような追跡点選択のアプローチを採用している。

図６は、追跡点選択のアプローチ方法を説明するための図であり、追跡点検出部２０５ａは、初期姿勢のクラスタリング結果に対応する追跡点Fcを画像特徴Faから検出する。本実施形態では、様々な視点で検出された画像特徴Faの中から初期姿勢において視認可能（visible）な画像特徴のみが、視認可否の判定をフレームごとに行うことなく、前記画像特徴リストK2を参照することによりリアルタイムで抽出されて追跡点Fcとされる。追跡点Fcは初期姿勢のクラスタリング結果に対応付けられた画像特徴Faの3D座標のサブセットであり、画像特徴Faの特徴ベクトルは含まない。

追跡点投影部２０５ｂは、図６に示したように、前記追跡点Fcの三次元座標を、前記初期姿勢を姿勢行列として代入した前記関係式(1)に基づいて投影することにより、テンプレート画像内の追跡点Fcの位置を表す追跡点Fd（二次元座標／ピクセル座標）を得る。

なお、本実施形態では、画像特徴Faから追跡点Fcを選択し、この追跡点Fcを追跡点Fdに投影する場合を例にして説明するが、画像特徴Faの三次元座標を初期姿勢に基づき直接投影して追跡点Fdを得るようにしても良い。

追跡点選択部２０５ｃは、追跡点Fdから、選択した追跡点の配置が重ならないように追跡点Fe（2D座標）を選択する。本実施形態では、追跡点Fdに一つずつ注目し、注目した追跡点Fdと既に選択されている全追跡点Feとのユークリッド距離が計算され、一定の閾値以下となった追跡点Fdが追跡点候補から除外される。ただし、全追跡点選択後に、所定の追跡点数に満たなかった場合には閾値を下げ、再度選択を行う。これを追跡点Feが所定の数に達するまで繰り返す。

なお、本発明では追跡点Fdから追跡点Feの選択は必須ではなく、認識対象５の形状やテクスチャにより、追跡点Fdに基づき姿勢推定を十分な制度で行うことができれるのであれば、追跡点Fdに基づいて追跡を行っても良い。

姿勢追跡部２０６において、テンプレート生成部２０６ａは、プレビュー画像のテンプレート画像を生成する。マッチング部２０６ｂは、プレビュー画像とテンプレート画像との間で前記追跡点Feに関してマッチングを行う。

テンプレート画像とは、初期姿勢における認識対象５の見え方を再現する画像のことであり、キーフレームを採用しても良いし、認識対象物の3Dモデルをオフスクリーンレンダリングすることで生成しても良い。

本実施形態では、一般的なFrame-by-Frameの追跡と呼ばれる、連続フレーム間のマッチングにより姿勢を推定する手法（例えばKLT: Kanade-Lucas-Tomasi Feature Tracker）とは異なり、テンプレート画像を毎フレーム作成し、テンプレート画像とプレビュー画像間でマッチングを行う。これにより、追跡の継続による誤差の蓄積を防ぐことができる。

前記マッチング部２０６ｂは、各追跡点Feの周囲（例えば、8×8の矩形領域）の画素情報（輝度値）をテンプレート画像から取得して切出画像とし、この切出画像をプレビュー画像から探索して一致する領域を推定する。本実施形態では画像の比較をNCC（Normalized Cross Correlation）やZNCC（Zero-mean Normalized Cross Correlation）を用いたテンプレートマッチングで行うことを想定する。マッチングによって高い相関を持つ領域が求まった場合、当該領域の中心のピクセル座標が追跡位置となる。マッチングは各切出画像の追跡の初期位置を中心とした固定範囲（例えば5×5）に限定して行われる。

画像ピラミッドを利用する場合、ピラミッドの高段で比較的広い探索範囲（例えば5×5）で荒く推定した姿勢をさらに初期値として、低段でより狭い探索範囲（例えば2×2）で高精度なマッチング処理を行うことで、追跡精度の低下を抑えることが可能である。

姿勢変化推定部２０６ｃは、前記マッチング結果に基づいて、テンプレート画像に対するプレビュー画像の姿勢変化を推定する。

図７は、前記画像処理装置２の動作を示したフローチャートであり、ステップS１では、プレビュー画像取得部２１により認識対象５の今回のフレーム画像がプレビュー画像として取得される。ステップS２では、後述する追跡継続中フラグGに基づいて、姿勢追跡中であるか否かが判断される。画像処理の開始直後は追跡中ではないと判断されるのでステップS３へ進み、前記画像特徴検出部２０４ａにより、プレビュー画像から画像特徴Fbが検出される。

ステップS４では、前記マッチング部２０４ｂにより、予め画像特徴DBに登録されている画像特徴Fa（三次元座標）と前記検出された画像特徴Fb（二次元座標）との間で特徴点マッチングが行われ、多数の2D-3D対応点が取得される。ステップS５では、前記姿勢推定部２０４ｃにより、前記2D-3D対応点に基づいてプレビュー画像の姿勢が推定され、推定結果がプレビュー画像の初期姿勢とされる。

ステップS６では、前記追跡点抽出部２０５ａにより、初期姿勢が視点ベースでクラスタリングされて視点範囲が求められる。さらに、このクラスタリング結果に基づいて画像特徴リストK2が参照され、初期姿勢において視認可能（visible）な画像特徴Faのみが画像特徴DB２０３から抽出されて追跡点Fcとされる。

ステップS７では、前記追跡点投影部２０５ｂにより、前記初期姿勢を姿勢行列として代入した前記関係式(1)に基づいて、全ての追跡点Fc（三次元座標）が二次元座標の追跡点Fdに投影される。ステップS８では、前記追跡点選択部２０５ｃにより、前記追跡点Fdから、選択した追跡点の配置が重ならないように追跡点Fe（二次元座標）が選択される。

ステップS９では、テンプレート生成部２０６ａにより、前記初期姿勢に基づいて認識対象５のテンプレート画像が生成される。ステップS１０では、前記テンプレート画像から各追跡点Feの周囲（例えば、8×8の矩形領域）の画素情報（輝度値）が取得されて切出画像とされる。ステップS１１では、前記マッチング部２０６ｂにより、前記各追跡点Feの切出画像を前記プレビュー画像内で追跡（マッチング）することで2D-3D対応点が取得される。

ステップS１２では、前記ステップS１１において十分な個数の2D-3D対応点を取得できたか否かが判断される。十分な個数の2D-3D対応点を取得できていればステップS１３へ進み、前記姿勢変化推定部２０６ｃにより、前記各2D-3D対応点に基づいてプレビュー画像の姿勢変化が推定される。

すなわち、三次元座標とピクセル座標との関係は上式(1)で表され、姿勢の推定値は、初期姿勢からスタートし、非線形の最適化手法を用いて次式(2)で求められる。ここで、m'は画像上の追跡位置を表す。ρ(・)はロバスト推定の重み係数を表す。

ステップS１４では、前記姿勢変化の推定結果が出力される。ステップS１５では、追跡継続中フラグGがセットされる

これに対して、認識対象５または撮像装置４が急速に移動するなどして、追跡点の移動量が追跡限界を超えてしまうと、多くの特徴点においてマッチングに失敗する。その結果、前記ステップS１２では、十分な個数の2D-3D対応点を取得できていないと判定されるのでステップS１６へ進み、前記追跡継続中フラグGがリセットされる。

次フレームのプレビュー画像がステップS１で取得されると、ステップS２では、前記追跡継続中フラグGに基づいて姿勢追跡中であるか否かが判定される。前フレームのステップS１２において、十分な個数の2D-3D対応点を取得できており、前記ステップS１５において追跡中フラグGがセットされていれば、前記初期姿勢推定（ステップS３〜S５）を行うことなくステップS１７へ進む。ステップS１７では、前フレームの姿勢推定結果（ステップS１３）が初期姿勢とされてステップS６へ戻る。

ステップS６では、前記追跡点抽出部２０５ａにより、初期姿勢（ここでは、前フレームの姿勢推定結果）で視認可能な画像特徴Faのみが、前記画像特徴リストK2を参照することにより、画像特徴DB２０３から抽出されて追跡点Fcとされ、これ以降、上記の各処理が繰り返される。

これに対して、前記ステップS２において追跡中フラグGがリセットされている、すなわち姿勢変化の追跡に失敗していると判定されるとステップS３へ進み、初期姿勢の推定（ステップS３〜S５）および追跡点Feの選択（ステップS６〜S８）が改めて実施される。

本実施形態によれば、姿勢検出（ステップS４）および姿勢追跡（ステップS６）において共通の画像特徴Faを使用できるので、画像特徴を記憶するデータベース２０３のサイズを削減できるようになる。

また、本実施形態によれば、画像特徴Faから、推定姿勢および画像特徴リストK2に基づいて、姿勢推定に有効な、識別性に優れた画像特徴のみを追跡点Fcとして抽出できるので、撮影角度や距離が大きく変動し、追跡可能な追跡点が移り変わる場合でも、高精度かつ視点変化に頑健な追跡が実現可能となる。

のみならず、様々な視点で検出された画像特徴Faの中から推定姿勢において視認可能（visible）な画像特徴のみを、視認可否の判定をフレームごとに行うことなく、画像特徴リストK2に基づきリアルタイムで抽出して追跡点Fcとできるので、処理能力の低いモバイル端末への適用も可能になる。

１…表示装置，２…画像処理装置，３…付加情報DB，４…撮像装置，５…認識対象，２１…プレビュー画像取得部，２２…姿勢推定装置，２０３…画像特徴DB，２０４…姿勢検出部，２０４ａ…画像特徴検出部，２０４ｂ…マッチング部，２０４ｃ…姿勢推定部，２０５…追跡点選択部，２０５ａ…追跡点検出部，２０５ｂ…追跡点投影部，２０５ｃ…追跡点選択部，２０６…姿勢追跡部，２０６ａ…テンプレート生成部，２０６ｂ…マッチング部，２０６ｃ…姿勢変化推定部，６０１…モデルDB，６０２…画像特徴登録部，６０２ａ…視点別学習画像生成部，６０２ｂ…画像特徴リスト生成部

Claims

認識対象の姿勢変化を追跡する画像処理装置において、
認識対象の各画像特徴Faを、複数の異なる代表視点ごとに視認可能であるか否かに基づいて管理する画像特徴リストが登録された画像特徴データベースと、
フレーム単位で取得する認識対象のプレビュー画像から画像特徴Fbを検出する手段と、
画像特徴Fa，Fb間のマッチング結果に基づいて、プレビュー画像における認識対象の初期姿勢を推定する手段と、
前記画像特徴リストから、初期姿勢に対応する代表視点で視認可能な画像特徴Faを追跡点Fcとして抽出する手段と、
前記追跡点Fcを前記初期姿勢に基づき二次元座標に投影して追跡点Feを取得する手段と、
前記初期姿勢に基づいて認識対象のテンプレート画像を生成する手段と、
追跡点Feに関してテンプレート画像とプレビュー画像とのマッチングを行う手段と、
マッチングに成功した追跡点Feに基づいて、プレビュー画像における認識対象の姿勢を推定する手段とを具備し、
前記抽出する手段は、前記画像特徴リストから、前記推定された認識対象の姿勢を前記初期姿勢として画像特徴Faを抽出することをフレーム毎に繰り返すことを特徴とする画像処理装置。
前記追跡点Feを取得する手段は、
画像特徴Faを前記初期姿勢に基づき二次元座標の追跡点Fdに投影する追跡点投影手段と、
前記追跡点Fdから、選択した追跡点の配置が重ならないように追跡点Feを選択する追跡点選択手段とを含むことを特徴とする請求項１に記載の画像処理装置。
前記マッチングを行う手段は、
テンプレート画像から追跡点Feに対応する切出画像を取得する手段と、
プレビュー画像内で前記切出画像のマッチングを行う手段とを具備したことを特徴とする請求項１または２に記載の画像処理装置。
認識対象の三次元モデルを複数の異なる代表視点から投影した視点画像のそれぞれから画像特徴を検出して前記画像特徴データベースに画像特徴Faとして登録する手段をさらに具備したことを特徴とする請求項１ないし３のいずれかに記載の画像処理装置。
マッチングに成功した追跡点Feに基づいて、プレビュー画像における認識対象の姿勢変化を追跡する手段とを具備し、
前記テンプレート画像を生成する手段は、今回フレームのプレビュー画像とマッチングを行うテンプレート画像を、前記姿勢変化の追跡中にあっては、前回フレームの追跡結果に基づいて生成することを特徴とする請求項１ないし４のいずれかに記載の画像処理装置。