WO2022264519A1

WO2022264519A1 - 情報処理装置、情報処理方法及びコンピュータプログラム

Info

Publication number: WO2022264519A1
Application number: PCT/JP2022/006697
Authority: WO
Inventors: 俊一本間
Original assignee: ソニーグループ株式会社
Priority date: 2021-06-14
Filing date: 2022-02-18
Publication date: 2022-12-22
Also published as: JPWO2022264519A1

Abstract

［課題］３次元モデルを画像における対象に高精度に重畳できるようにする。［解決手段］本開示の情報処理装置は、複数の第１頂点を有する３次元モデルの前記第１頂点に関連付けられた第１特徴量を取得し、前記第１特徴量に基づき、カメラで撮像した対象画像において前記第１頂点に対応する第１位置を特定する位置特定部と、前記３次元モデルを前記対象画像に投影し、前記第１頂点が投影される位置を前記第１位置に補正することにより、前記対象画像に投影される前記３次元モデルを変形する処理部と、を備える。

Description

情報処理装置、情報処理方法及びコンピュータプログラム

　本開示は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。

　Augmenteed Reality（拡張現実、AR）アプリケーションでは、現実の環境に存在する物などを撮影した画像に対して、正確にコンテンツを表示・重畳することが重要である。ARアプリケーションは、例えば、建物等の対象物を物体認識技術によって認識した際に、それを認識したとユーザーに視覚的に伝えるために、対象物の輪郭線の強調表示、輪郭線に合わせてコンテンツを重畳表示することがある。

　このようなARアプリケーションでは、現実の環境と３次元のモデルデータの位置合わせを正確に行うことで、仮想情報のキャラクタを地面や床に立たせる、仮想情報のボールが壁やモノにぶつかって跳ね返らせる、といった衝突表現や隠れ表現等ができる。

　しかしながら、このような表現は、３次元モデルがその元となった物体等に基づいてあらかじめ正確に作成されていることを前提としている。３次元モデルが対象となった物体との間で誤差がある場合には、３次元モデルと対象の物体との位置合わせを正確に行うことができない。

　特に大量の画像を入力として大規模な３次元の構造復元を行うStructure from Motion(以下SFM)によって作成されたものは、局所的な構造は正しく復元できているが、大局的な構造には歪みが発生していることが多い。例えば大規模な３次元モデルに含まれる個々のモデルは正確であるが、モデル間の相対位置関係がずれている場合などがある。このため、大規模な３次元モデルをＡＲ重畳させる場合、一部のモデルが正確に重畳されないなど、正確な重畳表現が難しいという問題がある。

　また、３次元モデルが正確に作成された場合であっても、位置合わせに利用する現実の環境を撮影した画像等がカメラのレンズの歪みなどにより歪んでいる場合には、３次元モデルの正確な重畳が難しい。

特開２０２０－１６６４２４号公報特開２０２０－０４２５７５号公報特開２０１４－１２３３７６号公報

　本開示は、上述したような問題点に鑑みてなされたものであり、３次元モデルを画像における対象に高精度に重畳できるようにすることを目的とする。

　本開示の情報処理装置は、複数の第１頂点を有する３次元モデルの前記第１頂点に関連付けられた第１特徴量を取得し、前記第１特徴量に基づき、カメラで撮像した対象画像において前記第１頂点に対応する第１位置を特定する位置特定部と、前記３次元モデルを前記対象画像に投影し、前記第１頂点が投影される位置を前記第１位置に補正することにより、前記対象画像に投影される前記３次元モデルを変形する処理部と、を備える。

　本開示の情報処理方法は、複数の第１頂点を有する３次元モデルの前記第１頂点に関連付けられた第１特徴量を取得し、前記第１特徴量に基づき、カメラで撮像した対象画像において前記第１頂点に対応する第１位置を特定し、前記３次元モデルを前記対象画像に投影し、前記第１頂点が投影される位置を前記第１位置に補正することにより、前記対象画像に投影される前記３次元モデルを変形する。

　本開示のコンピュータプログラムは、複数の第１頂点を有する３次元モデルの前記第１頂点に関連付けられた第１特徴量を取得し、前記第１特徴量に基づき、カメラで撮像した対象画像において前記第１頂点に対応する第１位置を特定するステップと、前記３次元モデルを前記対象画像に投影し、前記第１頂点が投影される位置を前記第１位置に補正することにより、前記対象画像に投影される前記３次元モデルを変形するステップと、をコンピュータに実行させる。

本開示に係る情報処理システムのブロック図。３次元モデルの作成方法の一例を示す図。画像から検出された特徴点の例を示す図。疎な３次元点群から得られた密な３次元点群の図。メッシュモデルにおける頂点の図。３次元モデルの特徴点に関する特徴量データベースの例を示す図。３次元モデルの頂点及びメッシュに関するモデルデータベースの例を示す図。画像における特徴点と３次元モデルの特徴点とのマッチングの例を示す図。３次元モデルの特徴点の一部が画像上の特徴点にマッチングしない例を示す図。３次元モデルの特徴点の対応点を検出する処理を説明する図。３次元モデルの特徴点が投影された位置を、対応点の位置に補正する例を示す図。３次元モデルを画像に投影する際に補正処理を行わない例を示す図。３次元モデルを画像に投影する際に補正処理を行わない例を示す図。３次元モデルを画像に投影する際に補正処理を行った例を示す図。３次元モデルを画像に投影する際に補正処理を行わない例を示す図。３次元モデルを画像に投影する際に補正処理を行った例を示す図。本開示の実施形態に係る情報処理システム処理のフローチャート。本開示の情報処理装置のハードウエアの構成の一例を示す図。

　図１は、本開示の実施形態に係る情報処理システム１０００のブロック図である。
　情報処理システム１０００は、３次元モデル作成装置１００と、データベース生成装置２００と、データベース３００と、情報処理装置４００と、カメラ５００とを含む。

　３次元モデル作成装置１００は、特徴点検出部１１０と、点群復元部１２０と、モデル生成部１３０とを備える。

　データベース生成装置２００は、特徴点検出部２１０と、特徴量算出部２２０と、データベース生成部２３０とを備える。

　データベース３００は、特徴量データベース３１０（第１データベース）と、モデルデータベース３２０（第２データベース）とを備える。本実施形態に係るモデルデータベース３２０は、頂点テーブル３３０と、メッシュテーブル３４０の２つを含む（後述する図７参照）。

　情報処理装置４００は、特徴点検出部（特徴量算出部）４１０と、マッチング部４２０と、姿勢推定部４３０と、処理部４４０と、データベース更新部４５０とを備える。

　本実施形態は、予め作成した３次元モデルを、カメラ５００で取得した画像（対象画像）における投影対象に投影する場合に、３次元モデルの頂点（特徴点）に関連づいた特徴量を利用して、当該頂点が投影される位置を補正する。これにより、画像に投影された３次元モデルの２次元画像の形状を変形して、画像に含まれる投影対象に３次元モデルを高精度に重畳させる。ここで、３次元モデルは、一例として複数の画像を入力して３次元の構造復元を行うStructure from Motion(SFM)等によって作成されることができるオブジェクトである。以下、３次元モデルについて説明する。

　（３次元モデル）
　３次元モデルは、ARアプリケーションにおいて、画像における投影対象（重畳対象）に合わせて投影するためのオブジェクトである。３次元モデルは、複数の頂点（第１頂点）を有する。３次元モデルの各々の頂点に特徴量（第１特徴量）が関連付いている。

　より詳細には、３次元モデルは、メッシュデータによって表現される。メッシュデータとは、３つ以上の頂点を結ぶことで構成される平面（ポリゴン）の集合を表すデータであ。メッシュデータには、各平面を構成する頂点の位置を含む頂点データが含まれる。

　本実施形態ではモデル現実空間におけるモデル対象（物体、人間等の生物など）を複数の方向（角度）で撮影した複数の画像１１００に基づき、３次元の構造を復元するStructure From Motion（SFM）等の処理を行うことによって、３次元モデルを作成する。

　以下、図２～図５を用いて、３次元モデル作成装置１００が、複数の画像１１００からSFM等によって３次元モデルを作成する方法について説明する。
　図２は、３次元モデルの作成方法の一例を示す図である。

　情報処理システム１０００は、図２（ａ）のような画像１１００を３次元モデル作成装置１００に入力する。入力された画像１１００は、３次元モデル作成装置１００の特徴点検出部１１０に送信される。

　ここで、画像１１００は、３次元モデルの対象物１１（図３参照）が撮影された静止画であり、例えば、写真である。また、画像１１００は、写真以外にも一時停止した動画などであってもよい。

　図３は、画像１１００うちの一枚および当該画像に含まれる対象における複数の特徴点を示す図である。なお、図３では図２（ａ）とは異なる対象を撮像した画像が示される。
　図３のように、特徴点検出部１１０が特徴点検出処理を行うことにより、画像１１００から複数の特徴点１２を検出する。ここで、特徴点１２は、例えば、画像１１００に撮影されたモデル対象物１１に含まれる頂点、画像上の濃淡のはっきりした点などの対象物１１の外観から認識可能な点などである。特徴点検出部１１０は、画像１１００において、特徴点１２を中心とした局所的な画像（パッチ画像）から局所特徴量を計算する。特徴点検出部１１０は局所特徴量を算出する特徴量算出部を含む。

　特徴点検出部１１０は、複数の画像１１００のそれぞれから算出された局所特徴量に基づき、画像１１００間での特徴点１２（同じ特徴点）の対応関係を求める。つまり、局所特徴量を比較して異なる画像１１００間で同じ位置の特徴点１２を特定する。これにより特徴点検出部１１０は、複数の特徴点の３次元位置の位置関係と、各画像を撮影したカメラとこれら特徴点との位置関係とを取得することができる。

　特徴点検出部１１０は、検出した複数の特徴点１２の情報（特徴点の３次元位置、局所特徴量）を点群復元部１２０に送信する。複数の画像１１００から得られた同じ特徴点１２に対応する複数の局所特徴量に関して、特徴点検出部１１０は、複数の局所特徴量の代表値を当該特徴点１２の局所特徴量として送信してもよいし、これら複数の局所特徴量の全部又は２つ以上を送信してもよい。

　点群復元部１２０は、特徴点検出部１１０から送信された複数の特徴点１２の情報を取得する。点群復元部１２０は、複数の特徴点１２を３次元空間に投影した３次元位置を示す複数の頂点を、疎な３次元点群１２００として得る。図２（ｂ）は、疎な３次元点群１２００の例を示す。

　点群復元部１２０は、疎な３次元点群１２００から、より正確な３次元モデルの特徴点１３（第１頂点）の３次元位置を求めるために、バンドル調整を用いてもよい。また、点群復元部１２０は、Multi-View Stereo（MVS）などの手段を用いて、疎な３次元点群１２００から、密な３次元点群１３００を作成することも可能である。図２（ｃ）は密な３次元点群１３００の例を示す。
　図４は、３次元モデルの対象が、図３に示すモノである場合に、疎な３次元点群から得られた密な３次元点群の例を示す。なお、密な３次元点群を作成する処理を省略してもよい。

　点群復元部１２０は、疎な３次元点群１２００又は３次元点群１３００の情報をモデル生成部１３０に送信する。なお、密な３次元点群１３００を作成した場合、増えた点（頂点）も特徴点として扱い、当該特徴点の特徴量を、元の特徴点から補間により求めることも可能である。

　モデル生成部１３０は、疎な３次元点群１２００又は３次元点群１３００の情報に基づき、図２（ｄ）のようなメッシュデータで構成された３次元モデル（３次元モデル１４００）を作成する。具体的には、モデル生成部１３０は、疎な３次元点群１２００又は密な３次元点群１３００に含まれる３次元点の位置に基づき、３点同士を結び平面（ポリゴン）を構成する。次に、３次元モデル作成装置１００は、当該平面（ポリゴン）を集合させることでメッシュデータを作成し、３次元モデルを得る。
　図５は、３次元モデルにおける特徴点（各平面を構成する各頂点）の例を示す。

　図６は、３次元モデルの頂点（特徴点）に関する情報（３次元位置と、頂点の局所特徴量等）を含むデータベース（特徴量データベース）である。図７は、３次元モデルの頂点およびメッシュに関する情報を含むデータベース（モデルデータベース）である。これらのデータベースはデータベース生成装置２００によって生成される。

　以下、データベース生成装置２００が、特徴量データベース及びモデルデータベースモデルを作成する方法について説明する。なお、本実施形態では、３次元モデル作成装置１００と、データベース生成装置２００が別体となっているが、一体となっていてもよい。この場合、モデル３次元モデル作成装置１００が３次元モデルの作成時に取得した特徴点及びメッシュに関する情報に基づき、特徴量データベース及びモデルデータベースをモデル作成してもよい。

　データベース生成装置２００は、３次元モデル作成装置１００が作成した３次元モデルの情報および画像１１００を取得する。

　特徴点検出部２１０は、３次元モデルを構成する各頂点（特徴点）に対応する、画像１１００上の位置（点）を検出する。例えば３次元モデルの生成時に取得した、各画像を撮影したカメラと３次元モデルの特徴点との位置関係を利用してもよい。あるいは、特徴点検出部２１０は、３次元モデル作成装置１００で画像から検出済みの特徴点を流用してもよい。

　特徴量算出部２２０は、当該検出した位置（点）の局所特徴量を各画像１１００から上述した方法と同様にして、計算する。特徴量算出部２２０は、算出した局所特徴量を特徴点に関連付けて、データベース生成部２３０に送信する。特徴点に関連付ける局所特徴量は、複数の画像１１００から求めた複数の局所特徴量のうちの代表値でもよい。あるいは、複数の局所特徴量の全部又はこれらの複数の局所特徴量から選択した２つ以上でもよい。なお、特徴量算出部２２０は、３次元モデル作成装置１００で計算済みの局所特徴量を用いてもよい。

　データベース生成部２３０は、図６のような特徴点に関する情報を記録した特徴量データベース３１０（第１データベース）、図７のような頂点及びメッシュに関する情報を記録したモデルデータベース３２０（第２データベース）を作成する。

　特徴量データベース３１０は、特徴点を識別するためのユニークな特徴点ＩＤを記録する列３１１と、特徴点の３次元位置を記録する列３１２と、特徴点の局所特徴量を記録する列３１３を含む。

　モデルデータベース３２０は、図７（ａ）のように、メッシュを構成する頂点のデータを含む頂点テーブル３３０と、図７（ｂ）のように、メッシュテーブル３４０とを含む。

　頂点テーブル３３０は、メッシュの頂点を識別するためのユニークな頂点ＩＤを記録する列３３１と、その頂点に対応する特徴点ＩＤを記録する列３３２と、３次元位置を記録する列３３３とを含む。

　メッシュテーブル３４０は、メッシュを識別するためのユニークなメッシュＩＤを記録する列３４１と、メッシュを構成する頂点の頂点ＩＤを記録する列３４２とを含む。

　特徴量データベース３１０とモデルデータベース３２０は、頂点ＩＤによって互いに関連付いている。例えば、３次元モデルの表面のメッシュを特定した場合、そのメッシュＩＤから、メッシュを構成する頂点、及び、頂点（特徴点）の３次元位置および局所特徴量を特定できる。

　情報処理装置４００は、カメラで撮像した画像へ３次元モデルを投影して、画像に３次元モデルを重ね合わせる処理を高精度に行う。

　図１における情報処理装置４００の特徴点検出部４１０は、カメラ５００で撮像した画像５１０（対象画像）を取得する。

　特徴点検出部４１０は、画像５１０から特徴点検出により複数の特徴点５１１＿１を検出し、特徴点５１１＿１の局所特徴量を算出する。特徴点検出部４１０は、特徴点５１１＿１に関する情報（位置情報、および局所特徴量等）をマッチング部４２０に送信する。なお、特徴点５１１＿１は画像５１０全体を対象に特徴点検出を行って得られた特徴点でもよいし、セマンティックセグメンテーション等により建物に対応する画像部分を特定し、特定した画像部分を対象に特徴点検出を行って得られた特徴点でもよい。

　マッチング部４２０は、特徴点検出部４１０から、画像５１０から検出された特徴点５１１＿１に関する情報（位置情報および局所特徴量等）を取得する。マッチング部４２０は、データベース３００に記録された３次元モデルの複数の特徴点５１１＿２（第１頂点）および局所特徴量（第１特徴量）を取得する。

　マッチング部４２０は、３次元モデル上の特徴点の局所特徴量を、特徴点５１１＿１の局所特徴量と比較し、対応する特徴点同士をマッチングする。

　マッチング部４２０は、３次元モデルの特徴点の局所特徴量と特徴点５１１＿１の局所特徴量との差が閾値未満である場合、両特徴点が互いにマッチングする特徴点であると判断し、両特徴点同士を特定する。マッチング部４２０は、マッチングした特徴点同士の情報を姿勢推定部４３０に送信する。

　図８は、カメラで撮影した画像における特徴点と、３次元モデルの特徴点とをマッチングさせる例を概略的に示す図である。カメラ５００で取得された画像５１０に含まれる特徴点５１１＿１と、建物の３次元モデル９００に含まれる特徴点５１１＿２がすべてマッチングする状況が示される

　図９（ａ）は、３次元モデルの特徴点と画像における特徴点とをマッチングさせた場合に、３次元モデルの特徴点のうちの一部はマッチングしない例を示した図である。例えば３次元モデルにおける特徴点５１１＿２は画像における特徴点５１１＿１とマッチングするが、３次元モデルにおける特徴点５１２＿２がマッチングしていない。なお、図９（ｂ）については後述する。

　姿勢推定部４３０は、画像５１０を撮影したカメラ５００の姿勢を推定する。より詳細には、姿勢推定部４３０は、画像上の特徴点の２次元位置と、当該特徴点にマッチングした３次元モデルの特徴点の３次元位置との複数のペア（N個のペア）に基づき、カメラ５００の姿勢を推定する。

　推定には、例えばRANSAC（Random Sampling Consensus）フレームワークを用いたPNPアルゴリズム（PNP-RANSAC）を利用することができる。N個のペアから、外れ値となるペアを除外することで、推定に有効なペアを特定し、特定したペアに基づきカメラの姿勢を推定する。推定に用いられたペアに含まれる３次元モデルの特徴点は、PNP-RANSACでインライヤとなった点（特徴点）に相当する。推定にペアに用いられかったペア（外れ値として除外されたペア）に含まれる３次元モデルの特徴点は、PNP-RANSACでアウトライヤとなった点（特徴点）に相当する。

　処理部４４０は、推定したカメラ５００の姿勢に応じた画像５１０に対して、３次元モデルを投影する。カメラの姿勢推定に用いられた３次元モデルの特徴点（インライヤとなった点）が画像５１０上に投影される位置は、当該インライヤとなった点とペアをなしている画像上の特徴点の２次元位置と一致する又は近い。すなわちインライヤとなった特徴点が投影された位置の周辺においては、３次元モデルと投影先の画像とが整合しているとみなすことができる。

　一方、カメラの姿勢推定に用いられなかった３次元モデルの特徴点が画像５１０上に投影される位置、及び上述のマッチング処理でマッチングされなかった特徴点が画像５１０上に投影される位置は、画像平面において本来あるべき位置から大きく異なり得る。例えば、当該投影される位置が画像平面において本来あるべき位置から大きく離れている場合、あるいは、３次元モデルの対象物（現実世界の対象物）とカメラとの間に遮蔽物があることにより３次元モデルの一部が画像に投影されない（映っていない）場合がある。すなわち、アウトライヤとなった特徴点及びマッチングされなかった特徴点が投影された位置の周辺においては、３次元モデルと投影先の画像とが整合していないと考えることができる。

　以下、カメラの姿勢推定に用いられなかった３次元モデルの特徴点（マッチング処理でマッチングされなかった特徴点を含む）をアウトライヤとなった特徴点（頂点）と呼ぶ。カメラの姿勢推定に用いられた３次元モデルの特徴点をインライヤとなった特徴点（頂点）と呼ぶ。

　上述の図９（ｂ）には、図９（ａ）の３次元モデルを画像に投影した場合に、アウトライヤとなった特徴点５１２＿２が、本来あるべき位置（矩形の箱の一番右の頂点）から大きく離れる例を示している。

　処理部４４０は、カメラ５００で撮影した画像５１０に３次元モデルを投影し、アウトライヤとなった特徴点の投影先の位置を適切な位置に補正する。これにより画像に投影された３次元モデルの２次元形状を変形する。これにより３次元モデルを、画像の投影先の対象に精度良く重畳させることができる。処理部４４０は、３次元モデルにおけるアウトライヤとなった特徴点の投影先の位置を補正することで、画像に投影された３次元モデルを変形する処理部として機能する。以下、処理部４４０の詳細について説明する。

　処理部４４０は、３次元モデルが投影される画像において、アウトライヤとなった特徴点の投影された位置を中心とする領域（領域Ａとする）を設定する。

　図１０は、アウトライヤとなった特徴点５１２＿２が投影された位置を中心とする周囲の領域Ａの例を示す。領域Ａは３次元モデルが投影される画像の一部の領域である。領域Ａは、例えば、Ｍ×Ｍピクセルの矩形領域である。

　処理部４４０は、領域Ａ内の各画素（位置）に対して局所特徴量（第２特徴量）を計算する。各画素を順番に選択し、選択した画素の局所特徴量と、アウトライヤとなった特徴点５１２＿２の局所特徴量（第１特徴量）との距離（特徴空間における距離）又は差分を計算する。当該距離が閾値以下であれば、対応点の探索に成功、閾値より大きい場合であれば対応点の探索に失敗したと判断する。処理部４４０は、当該距離が閾値以下の画素（位置）を対応点、すなわち、アウトライヤとなった特徴点５１２＿２に対応する画像上の位置（画素）とする。処理部４４０は対応点の位置を特定する位置特定部４４０Ａを備えている。処理部４４０は対応点が最初に検出された時点で探索を終了してもよいし、領域A内のすべての画素を探索し、閾値以下の画素のうち最小の画素を対応点として採用してもよい。

　探索された対応点の位置は、カメラで撮像した画像（対象画像）において、アウトライヤとなった特徴点（第１頂点）に対応する位置（第１位置）に対応する。位置特定部４４０Ａは、複数の第１頂点を有する３次元モデルの第１頂点に関連付けられた第１特徴量を取得し、取得した第１特徴量に基づき、カメラで撮像した対象画像において第１頂点に対応する第１位置（対応点）を特定する。

　処理部４４０は、アウトライヤとなった特徴点の投影された位置を、探索した対応点の位置（画素）に移動させることにより、投影された３次元モデルの投影画像を変形する。投影された３次元モデルの画像を変形する他の方法として、以下の方法も可能である。すなわち、この方法は、画像に投影された場合の投影される位置が、上記移動後の位置（補正後の位置）となるように、上記アウトライヤとなった特徴点の位置（３次元位置）を３次元モデルにおいて補正する。そして、補正後の３次元モデルを画像に再投影する。

　図１１は、図１０に示した３次元モデルのアウトライヤとなった特徴点５１２＿２の位置を位置５１２＿３に移動（補正）することにより、画像に投影された３次元モデルを変形（３次元モデルの投影された２次元画像の形状を変更）する例を示す。位置が変更された後の特徴点は、特徴点５１１＿３として示されている。このように、投影された３次元モデルの画像を変形することで、３次元モデルを精度よく画像における投影対象に合致させることができる。

　以下、アウトライヤとなった特徴点の位置を補正しない場合の３次元モデルの投影例と、アウトライヤとなった特徴点の位置を補正する場合の３次元モデルの投影例を示す。

　図１２は、アウトライヤとなった特徴点が投影された位置を補正しない場合に３次元モデルが精度よく重畳しない例を示す。３次元モデル（大規模な３次元モデル）は一部として２つのサブモデル（３次元モデル８１０、８２０）を含む。この大規模な３次元モデルを投影する例を示す。画像は、近景の建物７１０と、遠景の建物７２０を含む。近景の建物７１０に対応する３次元モデル８１０の特徴点（インライヤとなった特徴点）を用いてカメラの姿勢を推定している。近景に対応する３次元モデル８１０にアウトライヤとなった特徴点は存在せず、３次元モデル８１０の特徴点７１１は画像における対応点の位置又はその近傍に投影される。この結果、３次元モデル８１０は精度良く画像における投影対象に重畳される。一方、遠景に対応する３次元モデル８２０の特徴点は、本例ではすべて又は一部がアウトライヤとなった特徴点で、３次元モデル８２０の投影先の位置が本来の投影対象とずれる。この結果、遠景のモデル８２０の投影領域は、本来の投影対象の建物７２０の位置と大きくずれ、３次元モデル８２０は精度よく画像に重畳しない。なお、図１２において３次元モデル８２０の特徴点（アウトライヤとなった特徴点）の図示は省略している。

　図１３は、アウトライヤとなった特徴点の投影された位置を補正しない場合に３次元モデルが精度よく重畳しない例を示す。３次元モデル（大規模な３次元モデル）は一部として２つのサブモデル（３次元モデル８１０、８２０）を含む。この大規模な３次元モデルを投影する例を示す。遠景の建物７２０に対応する３次元モデル８２０の特徴点（インライヤとなった特徴点）を用いてカメラの位置を推定している。遠景に対応する３次元モデル８２０にアウトライヤな特徴点は存在せず、３次元モデル８２０の特徴点７２１は画像における対応点の位置又はその近傍に投影される。この結果、３次元モデル８２０が精度良く画像における投影対象（遠景の建物の画像部分）に重畳される。一方、近景に対応する３次元モデル８１０の特徴点は、本例ではすべて又は一部がアウトライヤとなった特徴点で、３次元モデル８１０の投影先の位置が本来の投影対象とずれる。この結果、近景のモデル８１０の投影領域は、本来の投影対象の建物７１０の位置と大きくずれ、３次元モデル８１０は精度よく画像に重畳しない。なお、図１３において３次元モデル８１０の特徴点（アウトライヤとなった特徴点）の図示は省略している。

　図１４は、図１３に示した例の場合において本実施形態に係る補正処理を行った例を示す。３次元モデル８１０のアウトライヤとなった特徴点が画像に投影された位置が、前述の対応点の位置に補正される。これにより、３次元モデル８１０の投影された画像が変形され、投影された３次元モデル８０１が精度良く近景の建物７１０に重畳される。なお、図１４において３次元モデル８１０、８２０における特徴点の図示は省略している。

　図１５は、アウトライヤとなった特徴点の位置を補正せずに３次元モデルを投影する他の例を示す。図１６は、図１５においてアウトライヤとなった特徴点の位置を補正した例を示す。

　図１５は、大規模な３次元モデル（３次元モデル７３０＿１～７３０＿５を一部として含む）を画像に投影させる例が示される。３次元モデル７３０＿１～７３０＿５は、それぞれの投影の対象である建物８３０＿１～８３０＿５に対応する。図１５においてアウトライヤとなった特徴点５２２＿１、５２２＿２、５２２＿３、５２２＿５が示される。これらの特徴点の位置を、図１６に示すように、それぞれの対応点の位置に補正する。位置が補正された後の特徴点５２２＿１、５２２＿２、５２２＿３、５２２＿５が、図１６において特徴点５２３＿１、５２３＿２、５２３＿３、５２３＿５によって示される。これにより、３次元モデルに含まれるサブモデル７３０＿１～７３０＿５がそれぞれの投影の対象である建物８３０＿１～８３０＿５に精度良く重畳する。なお図１５及び図１６では参照符号が付されていない丸図は、インライヤとなった特徴点を表している。

　データベース更新部４５０は、投影された特徴点の補正後の位置（２次元位置）に基づき、３次元モデルにおける頂点の位置（３次元位置）を更新、すなわち、データベース３００に登録されている特徴点（頂点）の位置を更新する。なお情報処理装置が、データベース更新部４５０を備えない構成も可能である。データベース更新部４５０は、補正後の特徴点の位置情報を、３次元モデルのメッシュデータに反映することで、メッシュの形状を変更し、３次元モデルそのものの補正を行う。

　以下、２次元平面上で補正された特徴点の位置（２次元位置）を、３次元位置に変換する方法について説明する。
　補正前の特徴点（例えばアウトライヤとなった頂点）のモデル座標系での３次元位置mPvを(x, y, z)^T、モデル座標系におけるカメラ５００の姿勢を(cRm, cPm)とする。
　このとき、カメラ座標系での特徴点（頂点）の位置cPvは、cRm・mPv+cPmと表される。ここで、cRmは３×３の回転行列、cPmは３要素の並進ベクトルを表す。
　特徴点（頂点）を画像上に投影した位置pは、カメラの内部パラメータKを用いてK・cPvと表され、位置pの座標は(p_x, p_y) = (p₁/p₃, p₂/p₃)となる。このとき、p₃はカメラ座標系における頂点cPvの奥行方向の距離である。また、Kは３×３の内部パラメータ行列である。
　補正前の特徴点の補正後の２次元画像上の座標を(p_x’, p_y’)とすると、この座標を３次元空間に再投影した位置cPv’はK^-1((p_x’, p_y’, 1)・p₃)^Tとなる。
　更にこの点を、mPx’ = mRc・cPv’+mPcによってカメラ座標系からモデル座標系に変換する。mRc = cRm^T、mPc = -wRc・cPmである。これにより、補正前の特徴点（頂点）のmPvの位置を、mPv’に補正することができる。

　このように３次元モデルの頂点の位置を補正することで、正しいメッシュデータを得ることができるため、実環境と仮想情報（３次元モデル）とのインタラクションを正確に表現することが可能になる。

　図１７は、本開示の実施形態に係る情報処理システム１０００の処理の流れの一例を説明するフローチャートである。
　まず、特徴点検出部４１０は、カメラ５００で取得した１つ以上の画像５１０から複数の特徴点を検出する（Ｓ１００１）。

　次に、特徴点検出部４１０は、画像５１０に基づき、複数の特徴点のそれぞれの局所特徴量を算出する（Ｓ１００２）。

　次に、特徴点検出部４１０は、算出した局所特徴量と、データベース３００に記録された３次元モデルの各頂点（特徴点）の局所特徴量とに基づき、３次元モデルの頂点（特徴点）と、画像５１０の特徴点とをマッチングさせる（Ｓ１００３）。特徴点検出部４１０は、マッチングさせた特徴点の組（ペア）を生成する（Ｓ１００３）。

　次に、姿勢推定部４３０は、特徴点のペアに基づき、カメラ５００の姿勢を推定する（Ｓ１００４）。

　次に、処理部４４０は、推定したカメラ５００の姿勢に基づき、画像５１０に３次元モデルを投影する（Ｓ１００５）。すなわちカメラの推定された姿勢に対応する画像５１０に３次元モデルを投影する。上記のペアに含まれる３次元モデルの頂点（特徴点）は、カメラの推定に用いられた頂点であるから、この特徴点は精度よく画像５１０に投影される。

　次に、処理部４４０は、３次元モデルの特徴点のうち画像５１０の特徴点とマッチングされなかった特徴点と、ペアのうちカメラ５００の姿勢推定に用いられなかったペアにおける３次元モデルの特徴点とのうち、少なくとも一方又は両方を特定する。特定した特徴点は、アウトライヤとなった特徴点に対応する。処理部４４０は、アウトライヤとなった特徴点が投影された位置を中心とする領域（領域Aとする）を設定し、領域A内の各位置（点）について局所特徴量を算出する。処理部４４０は、領域A内においてアウトライヤとなった特徴点の局所特徴量との差が閾値以下となる位置（点）を探索する（Ｓ１００６）。

　次に、処理部４４０は、アウトライヤとなった特徴点が投影された位置を、ステップＳ１００６で探索した位置に補正する（Ｓ１００６）。これにより画像に投影された３次元モデルの投影画像が変形され、３次元モデルが画像５１０における対象に精度よく重畳する。

　以上、本開示の情報処理装置によれば、画像５１０に撮影された３次元モデルの各特徴点のうち、アウトライヤとなった特徴点を検出し、検出した特徴点が投影された位置を、周辺領域内の各画素のうち局所特徴量が近い又は同じ画素の位置に補正する。これにより、投影された３次元モデルの投影画像を変形し、３次元モデルを画像上の投影対象と高精度に重畳（AR重畳）することができる。

　（変形例）
　上述した実施形態では、情報処理装置４００は、３次元モデルにおける特徴点の位置の補正の結果をモデルデータベースにおける頂点テーブル３３０（図７（ａ）参照）と、特徴量データベース３１０との両方について反映させていた。本変形例では、３次元モデルにおける特徴点の補正された位置を、頂点テーブル３３０のみに限定して反映させる。

　カメラ画像に投影された特徴点（頂点）の位置は、カメラのレンズ歪みや、その歪み補正がどれだけ正しく行われているかによって変化する。そのため、画像上で補正した頂点の補正後の位置を特徴量データベースに反映させると、本来正しかった頂点の位置が、間違った位置へ補正されてしまう可能性がある。この場合、カメラの姿勢推定に利用する特徴点データベースにおける頂点の３次元座標と、頂点テーブルにおける頂点の３次元座標とを独立に管理し、頂点の３次元位置の補正は頂点テーブルにのみ反映する。これによりAR重畳に用いる頂点のみを、カメラの特性に合わせて位置補正することが可能になる。

［応用例］
　以下に、情報処理システム１０００の応用例について説明する。なお、上述の情報処理システム１０００は、以下の情報処理システム１０００の任意のシステム、装置及び方法等に対しても応用可能である。

　図１８は、本開示の情報処理システム１０００の一連の処理をプログラムにより実行するコンピュータのハードウエアの構成の一例である。コンピュータにおいて、CPU１００１、ROM１００２、RAM１００３は、バス１００４を介して相互に接続されている。

　バス１００４には、入出力インタフェース１００５も接続されている。入出力インタフェース１００５には、入力部１００６、出力部１００７、記憶部１００８、通信部１００９、およびドライブ１０１０が接続されている。

　入力部１００６は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部１００７は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部１００８は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部１００９は、例えば、ネットワークインタフェースよりなる。ドライブは、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディアを駆動する。

　以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを、入出力インタフェース１００５およびバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。RAM１００３にはまた、CPU１００１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディアに記録して適用することができる。その場合、プログラムは、リムーバブルメディアをドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。

　また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部１００９で受信し、記憶部１００８にインストールすることができる。

　本明細書で開示した処理のステップは、必ずしもフローチャートに記載された順序で実行されなくてもよい。例えば、フローチャートに記載した順序と異なる順序でステップが実行されても、フローチャートに記載したステップの一部が並列的に実行されてもよい。

　なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

　また、本明細書に記載された本開示の効果は例示に過ぎず、その他の効果があってもよい。

　なお、本開示は以下のような構成を取ることもできる。
［項目１］
　複数の第１頂点を有する３次元モデルの前記第１頂点に関連付けられた第１特徴量を取得し、前記第１特徴量に基づき、カメラで撮像した対象画像において前記第１頂点に対応する第１位置を特定する位置特定部と、
　前記３次元モデルを前記対象画像に投影し、前記第１頂点が投影される位置を前記第１位置に補正することにより、前記対象画像に投影される前記３次元モデルを変形する処理部と、
　を備えた情報処理装置。
［項目２］
　前記対象画像における位置に対して第２特徴量を算出する特徴量算出部を備え、
　前記位置特定部は、前記第１特徴量との距離が閾値以下の前記第２特徴量を有する位置を前記対象画像において特定し、特定した位置を前記第１位置とする
　項目１に記載の情報処理装置。
［項目３］
　前記特徴量算出部は、前記第１頂点が投影される前記位置の周囲の領域内の複数の位置のそれぞれの第２特徴量を算出し、
　前記位置特定部は、前記第１特徴量との距離が閾値以下の前記第２特徴量を有する位置を特定し、特定した位置を前記第１位置とする
　項目２に記載の情報処理装置。
［項目４］
　前記周囲の領域は、前記投影した位置を中心とする一定範囲の領域である
　項目３に記載の情報処理装置。
［項目５］
　前記対象画像において複数の特徴点を検出し、前記複数の特徴点に対して複数の第２特徴量を算出する特徴量算出部を備え
　前記位置特定部は、前記第１特徴量との距離が閾値以下の前記第２特徴量を有する前記特徴点を検出し、前記第１頂点と、検出した前記特徴点との組に基づき、前記カメラの姿勢を推定する推定部を備え、
　前記処理部は、前記カメラの姿勢に基づき、前記３次元モデルを前記対象画像に投影する
　項目１～４のいずれか一項に記載の情報処理装置。
［項目６］
　前記推定部は、ＰＮＰアルゴリズムに基づき前記カメラの姿勢を推定する
　項目５に記載の情報処理装置。
［項目７］
　前記第１頂点の位置と、前記第１頂点に関連する前記第１特徴量とを含む第１データベースと、
　前記第１頂点の位置を含む第２データベースと、を備え、
　前記推定部は、前記第１データベースに基づいて前記カメラの姿勢を推定し、
　前記位置特定部は、前記第２データベースに基づいて、前記第１頂点に対応する前記第１位置を前記対象画像において特定し、
　前記対象画像における前記第１位置を３次元のモデル座標系の位置に変換し、変換後の位置に基づき、前記第２データベースにおける前記第１頂点の位置を更新する更新部を備えた
　項目６に記載の情報処理装置。
［項目８］
　前記更新部は、前記変更後の位置に基づいて、前記第１データベースにおける前記第１頂点の位置を更新する
　項目７に記載の情報処理装置。
［項目９］
　前記更新部は、前記第１データベースにおける前記第１頂点の位置を更新しない
　項目７に記載の情報処理装置。
［項目１０］
　前記３次元モデルは、対象を撮像した１つ以上の画像に基づき特徴点検出を行うことにより検出された複数の特徴点を前記第１頂点とするモデルであり、
　前記第１頂点に関連する前記第１特徴量は、前記特徴点について算出される特徴量である
　項目１～９のいずれか一項に記載の情報処理装置。
［項目１１］
　複数の第１頂点を有する３次元モデルの前記第１頂点に関連付けられた第１特徴量を取得し、前記第１特徴量に基づき、カメラで撮像した対象画像において前記第１頂点に対応する第１位置を特定し、
　前記３次元モデルを前記対象画像に投影し、前記第１頂点が投影される位置を前記第１位置に補正することにより、前記対象画像に投影される前記３次元モデルを変形する
　情報処理方法。
［項目１２］
　複数の第１頂点を有する３次元モデルの前記第１頂点に関連付けられた第１特徴量を取得し、前記第１特徴量に基づき、カメラで撮像した対象画像において前記第１頂点に対応する第１位置を特定するステップと、
　前記３次元モデルを前記対象画像に投影し、前記第１頂点が投影される位置を前記第１位置に補正することにより、前記対象画像に投影される前記３次元モデルを変形するステップと
　をコンピュータに実行させるためのコンピュータプログラム。

　１００　３次元モデル作成装置
　１１０　特徴点検出部
　１２０　点群復元部
　１３０　モデル生成部
　２００　データベース生成装置
　２１０　特徴点検出部
　２２０　特徴量算出部
　３００　データベース
　３１０　特徴量データベース
　３２０　モデルデータベース
　３３０　頂点テーブル
　３４０　メッシュテーブル
　４００　情報処理装置
　４１０　特徴点検出部
　４２０　マッチング部
　４３０　姿勢推定部
　４４０　処理部
　５００　カメラ

Claims

　複数の第１頂点を有する３次元モデルの前記第１頂点に関連付けられた第１特徴量を取得し、前記第１特徴量に基づき、カメラで撮像した対象画像において前記第１頂点に対応する第１位置を特定する位置特定部と、
　前記３次元モデルを前記対象画像に投影し、前記第１頂点が投影される位置を前記第１位置に補正することにより、前記対象画像に投影される前記３次元モデルを変形する処理部と、
　を備えた情報処理装置。
　前記対象画像における位置に対して第２特徴量を算出する特徴量算出部を備え、
　前記位置特定部は、前記第１特徴量との距離が閾値以下の前記第２特徴量を有する位置を前記対象画像において特定し、特定した位置を前記第１位置とする
　請求項１に記載の情報処理装置。
　前記特徴量算出部は、前記第１頂点が投影される前記位置の周囲の領域内の複数の位置のそれぞれの第２特徴量を算出し、
　前記位置特定部は、前記第１特徴量との距離が閾値以下の前記第２特徴量を有する位置を特定し、特定した位置を前記第１位置とする
　請求項２に記載の情報処理装置。
　前記周囲の領域は、前記投影した位置を中心とする一定範囲の領域である
　請求項３に記載の情報処理装置。
　前記対象画像において複数の特徴点を検出し、前記複数の特徴点に対して複数の第２特徴量を算出する特徴量算出部を備え
　前記位置特定部は、前記第１特徴量との距離が閾値以下の前記第２特徴量を有する前記特徴点を検出し、前記第１頂点と、検出した前記特徴点との組に基づき、前記カメラの姿勢を推定する推定部を備え、
　前記処理部は、前記カメラの姿勢に基づき、前記３次元モデルを前記対象画像に投影する
　請求項１に記載の情報処理装置。
　前記推定部は、ＰＮＰアルゴリズムに基づき前記カメラの姿勢を推定する
　請求項５に記載の情報処理装置。
　前記第１頂点の位置と、前記第１頂点に関連する前記第１特徴量とを含む第１データベースと、
　前記第１頂点の位置を含む第２データベースと、を備え、
　前記推定部は、前記第１データベースに基づいて前記カメラの姿勢を推定し、
　前記位置特定部は、前記第２データベースに基づいて、前記第１頂点に対応する前記第１位置を前記対象画像において特定し、
　前記対象画像における前記第１位置を３次元のモデル座標系の位置に変換し、変換後の位置に基づき、前記第２データベースにおける前記第１頂点の位置を更新する更新部を備えた
　請求項６に記載の情報処理装置。
　前記更新部は、前記変換後の位置に基づいて、前記第１データベースにおける前記第１頂点の位置を更新する
　請求項７に記載の情報処理装置。
　前記更新部は、前記第１データベースにおける前記第１頂点の位置を更新しない
　請求項７に記載の情報処理装置。
　前記３次元モデルは、対象を撮像した１つ以上の画像に基づき特徴点検出を行うことにより検出された複数の特徴点を前記第１頂点とするモデルであり、
　前記第１頂点に関連する前記第１特徴量は、前記特徴点について算出される特徴量である
　請求項１に記載の情報処理装置。
　複数の第１頂点を有する３次元モデルの前記第１頂点に関連付けられた第１特徴量を取得し、前記第１特徴量に基づき、カメラで撮像した対象画像において前記第１頂点に対応する第１位置を特定し、
　前記３次元モデルを前記対象画像に投影し、前記第１頂点が投影される位置を前記第１位置に補正することにより、前記対象画像に投影される前記３次元モデルを変形する
　情報処理方法。
　複数の第１頂点を有する３次元モデルの前記第１頂点に関連付けられた第１特徴量を取得し、前記第１特徴量に基づき、カメラで撮像した対象画像において前記第１頂点に対応する第１位置を特定するステップと、
　前記３次元モデルを前記対象画像に投影し、前記第１頂点が投影される位置を前記第１位置に補正することにより、前記対象画像に投影される前記３次元モデルを変形するステップと
　をコンピュータに実行させるためのコンピュータプログラム。