JP2024077816A

JP2024077816A - 情報処理方法、情報処理装置およびプログラム

Info

Publication number: JP2024077816A
Application number: JP2022189993A
Authority: JP
Inventors: 学川島
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2024-06-10
Also published as: WO2024116665A1

Abstract

【課題】学習によって得られたモデルによって画像から画像特徴量をより高精度に抽出する情報処理方法、情報処理装置及びプログラムを提供する。【解決手段】プロセッサにより実行される情報処理方法は、第１の画像と第２の画像との重複位置の有無が判断され、重複位置が有ると判断されたことに基づいて、第１の画像から抽出部によって抽出された第１の画像特徴量のうち、重複位置に応じた重複領域に対応する重複領域特徴量と、第１の画像特徴量のうち、第１の画像の重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、に基づく学習が行われ、学習により抽出部が更新されて得られたモデルが、第３の画像から第３の画像特徴量を抽出することを含む。【選択図】図３

Description

本開示は、情報処理方法、情報処理装置およびプログラムに関する。

近年、画像から特徴量を抽出する技術が利用される。例えば、画像から特徴量を抽出する技術は画像検索技術に利用される。画像検索技術においては、あらかじめＤＢ（ＤａｔａＢａｓｅ）に登録された複数のＤＢ画像から、クエリ画像と類似するＤＢ画像が検索される。このとき、クエリ画像から抽出された画像特徴量と、ＤＢ画像から抽出された画像特徴量とが近いか否かによって、クエリ画像とＤＢ画像とが類似するか否かが判断される。

非特許文献１には、画像検索技術の一例が開示されている。非特許文献１に開示された画像検索技術では、ＤＢ画像が固定サイズを各々有する複数の領域に分割され、複数の領域それぞれから抽出された画像特徴量とクエリ画像から抽出された画像特徴量とが近いか否かによって、複数の領域それぞれとクエリ画像とが重複しているか否かが判断される。そして、ＤＢ画像のうちクエリ画像と重複すると判断された領域（以下、「オーバーラップ領域」とも言う。）がより優先的に学習に寄与するように用いられる。

なお、オーバーラップ領域は、ＤＢ画像のうちクエリ画像の一部または全部の領域と類似している領域である。

画像特徴量の抽出には、学習によって得られたモデルが用いられる。例えば、学習によって得られたモデルは、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）などによって実現され得る。したがって、学習によって得られたモデルによって画像から画像特徴量をより高精度に抽出することは、一例として画像検索の精度を向上させることに寄与し得る。

Yixiao Ge, et al. "Self-supervising Fine-grained Region Similarities for Large-scale Image Localization", ECCV 2020

そこで、学習によって得られたモデルによって画像から画像特徴量をより高精度に抽出することを可能とする技術が提供されることが望まれる。

本開示のある観点によれば、第１の画像と第２の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、前記第１の画像から抽出部によって抽出された第１の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、前記第１の画像特徴量のうち、前記第１の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、に基づく学習が行われ、前記学習により前記抽出部が更新されて得られたモデルが、第３の画像から第３の画像特徴量を抽出することを含む、プロセッサにより実行される情報処理方法が提供される。

また、本開示の別の観点によれば、第１の画像と第２の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、前記第１の画像から抽出部によって抽出された第１の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、前記第１の画像特徴量のうち、前記第１の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、に基づく学習が行われ、前記学習により前記抽出部が更新されて得られたモデルを備え、前記モデルが、第３の画像から第３の画像特徴量を抽出する、情報処理装置が提供される。

また、本開示の別の観点によれば、コンピュータに、第１の画像と第２の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、前記第１の画像から抽出部によって抽出された第１の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、前記第１の画像特徴量のうち、前記第１の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、に基づく学習が行われ、前記学習により前記抽出部が更新されて得られたモデルが、第３の画像から第３の画像特徴量を抽出することを実行させるためのプログラムが提供される。

本開示の実施形態に係る情報処理システムの構成例を示す図である。画像検索の例について説明するための図である。推論クエリ画像Ｇ３を撮像したときの撮像装置１１０のデバイス位置姿勢情報の推定の動作例を示す図である。比較例に係る画像特徴量抽出ＤＮＮの学習手法について説明するための図である。比較例が抱える課題について説明するための図である。本発明の実施形態に係る画像特徴量抽出ＤＮＮの学習手法の流れを示す図である。本発明の実施形態に係る画像特徴量抽出ＤＮＮの学習手法について説明するための図である。本開示の実施形態に係る端末装置１０の機能構成例を示す図である。本開示の実施形態に係る推論装置３０の機能構成例を示す図である。画像検索部３１０の詳細構成例を示す図である。特徴点照合部３２０の詳細構成例を示す図である。本開示の実施形態に係る学習装置２０の機能構成例を示す図である。第１のオーバーラップ点抽出手法に係る３次元復元部２１０の詳細構成例を示す図である。位置姿勢推定部２１２および深度推定部２１４それぞれが有する機能について説明するための図である。第２のオーバーラップ点抽出手法に係る３次元復元部２１０の詳細構成例を示す図である。３次元点群を斜め横から見た図である。３次元点群を上から見た図である。メッシュの例を示す図である。メッシュ情報に基づいてオーバーラップ点を抽出する場合について説明するための図である。比較例に係る特徴量抽出部５３０の詳細構成例を示す図である。本発明の実施形態に係る特徴量抽出部２３０の詳細構成例を示す図である。第１の変形例について説明するための図である。第２の変形例について説明するための図である。第３の変形例について説明するための図である。第３の変形例に係るオーバーラップ領域および非オーバーラップ領域の例を示す図である。情報処理装置９００のハードウェア構成例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一または類似の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一または類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

なお、説明は以下の順序で行うものとする。
０．概要
１．実施形態の詳細
１．１．端末装置の機能構成例
１．２．推論装置の機能構成例
１．３．学習装置の機能構成例
２．各種変形例
３．ハードウェア構成例
４．まとめ

＜０．概要＞
まず、図１～図７を参照しながら、本開示の実施形態の概要について説明する。

図１は、本開示の実施形態に係る情報処理システムの構成例を示す図である。図１に示されるように、本開示の実施形態に係る情報処理システム１は、端末装置１０と、学習装置２０と、推論装置３０とを備える。端末装置１０、学習装置２０および推論装置３０は、ネットワーク４０にそれぞれ接続されており、ネットワーク４０を介して相互に通信可能に構成されている。

まず、学習装置２０は、学習に用いられるクエリ画像（以下、「学習クエリ画像」とも言う。）、および、学習に用いられる１または複数のＤＢ画像（以下、「学習ＤＢ画像」とも言う。）に基づく学習により、推論に用いられるクエリ画像（以下、「推論クエリ画像」とも言う。）から画像特徴量を抽出するモデル（すなわち、画像特徴量抽出部）を生成する。推論クエリ画像は、第３の画像の例に該当し得る。本開示の実施形態においては、学習装置２０によって生成されるモデルが、ＤＮＮによって実現される場合を主に想定する。しかし、モデルは、他の機械学習アルゴリズムを用いた学習によって生成されてもよい。学習装置２０は、学習によって生成したモデルを、ネットワーク４０を介して推論装置３０に送信する。推論装置３０は、学習装置２０から送信されたモデルを、ネットワーク４０を介して受信する。

推論装置３０は、ＤＢを有している。ＤＢには、推論に用いられる１または複数のＤＢ画像（以下、「推論ＤＢ画像」とも言う。）があらかじめ登録されている。以下の説明においては、１または複数の推論ＤＢ画像を「全推論ＤＢ画像」と言う場合がある。

その他、ＤＢには、各推論ＤＢ画像に対応付けられて、推論ＤＢ画像から抽出された画像特徴量、および、推論ＤＢ画像を撮像したときの撮像装置の位置および姿勢を示す情報が登録されている。以下の説明においては、位置および姿勢を、「位置姿勢」とも表記する。また、以下の説明においては、画像を撮像したときの撮像装置の位置姿勢情報を、単に「画像に対応するデバイス位置姿勢情報」とも言う。

端末装置１０は、撮像装置を有している。端末装置１０は、撮像装置によって撮像された推論クエリ画像を、ネットワーク４０を介して推論装置３０に送信する。推論装置３０は、ネットワーク４０を介して推論クエリ画像を受信する。そして、推論装置３０は、推論クエリ画像と各推論ＤＢ画像との類似度を推定し、類似度に基づいて推論クエリ画像と類似する推論ＤＢ画像を検索する画像検索を実行する。図２を参照しながら画像検索の例について簡単に説明する。

図２は、画像検索の例について説明するための図である。図２を参照すると、現実空間に特徴点Ｆ１０１～Ｆ１０３が存在している。また、各推論ＤＢ画像と、各推論ＤＢ画像から抽出された画像特徴量と、各推論ＤＢ画像に対応するデバイス位置姿勢情報とがあらかじめ登録されている。推論装置３０は、推論クエリ画像Ｇ３から画像特徴量を抽出し、推論クエリ画像Ｇ３から抽出された画像特徴量と各推論ＤＢ画像から抽出された画像特徴量との差分を算出する。

なお、特徴量同士の差分は、画像特徴量を表現するベクタ同士の差分であってよい。推論装置３０は、推論クエリ画像Ｇ３から抽出された画像特徴量との差分が小さい画像特徴量が抽出される推論ＤＢ画像ほど上位に位置するように１または複数の推論ＤＢ画像の順位付けを行う。

位置姿勢Ｃ３の撮像装置１１０によって撮像された推論クエリ画像Ｇ３には、特徴点Ｆ１０１～Ｆ１０３に対応する特徴点Ｆ３０１～Ｆ３０３が写っている。そして、位置姿勢Ｃ４の撮像装置８１４によって撮像された推論ＤＢ画像Ｇ４には、特徴点Ｆ１０１～Ｆ１０３に対応する特徴点Ｆ４０１～Ｆ４０３が写っている。なお、撮像装置１１０と撮像装置８１４とは、異なる撮像装置であってもよいし、異なるタイミングで撮像を行った同じ撮像装置であってもよい。

このとき、推論クエリ画像Ｇ３に写る特徴点Ｆ３０１～Ｆ３０３と、推論ＤＢ画像Ｇ４に写る特徴点Ｆ４０１～Ｆ４０３とは、現実空間に存在する同一の特徴点Ｆ１０１～Ｆ１０３に対応しているため、推論クエリ画像Ｇ３から抽出された画像特徴量と、推論ＤＢ画像Ｇ４から抽出された画像特徴量との差分は小さくなり、推論ＤＢ画像Ｇ４は、推論装置３０によって付される順位において上位に位置すると考えられる。

そして、推論装置３０は、全推論ＤＢ画像から抽出された画像特徴量から、推論クエリ画像から抽出された画像特徴量との差分が小さい順に所定の数の画像特徴量を特定する。以下の説明においては、所定の数の画像特徴量それぞれに対応する推論ＤＢ画像を「高順位推論ＤＢ画像」とも言う。

続いて、図３を参照しながら、推論クエリ画像Ｇ３を撮像したときの撮像装置１１０のデバイス位置姿勢情報の推定について説明する。

図３は、推論クエリ画像Ｇ３を撮像したときの撮像装置１１０のデバイス位置姿勢情報の推定の動作例を示す図である。図３に示されるように、推論クエリ画像に基づく画像検索が実行される（Ｓ１１）。上記したように、画像検索においては、推論装置３０によって推論クエリ画像に対応する高順位推論ＤＢ画像がＤＢから取得される。

続いて、推論装置３０は、推論クエリ画像と高順位推論ＤＢ画像との間において特徴点の照合を行う（Ｓ１２）。これによって、推論クエリ画像と高順位推論ＤＢ画像との間における対応する画素同士が対応点ペアとして得られる。

続いて、推論装置３０は、推論クエリ画像と高順位推論ＤＢ画像との間における対応点ペアの２次元座標と、対応点ペアのうち高順位推論ＤＢ画像における特徴点の３次元座標とに基づいて、高順位推論ＤＢ画像を撮像したときの撮像装置のデバイス位置姿勢を基準とした推論クエリ画像を撮像したときの撮像装置の相対的な位置姿勢を推定する（Ｓ１３）。

推論装置３０は、高順位推論ＤＢ画像に対応するデバイス位置姿勢情報と、推論クエリ画像を撮像したときの撮像装置の相対的な位置姿勢とに基づいて、推論クエリ画像を撮像したときの撮像装置のデバイス位置姿勢を推定する。例えば、一連のデバイス位置姿勢情報の推定動作は、自己位置推定（ＳＬＡＭ：ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ）システムのｒｅｌｏｃａｌｉｚｅ処理に該当する。

推論装置３０は、推論クエリ画像に対応するデバイス位置姿勢情報を、ネットワーク４０を介して端末装置１０に送信する。端末装置１０は、ネットワーク４０を介してデバイス位置姿勢情報を受信する。端末装置１０は、受信したデバイス位置姿勢情報を用いて各種の処理を実行することが可能である。

このようにしてデバイス位置姿勢を提供するサービスは、ＶＰＳ（ＶｉｓｕａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）とも称され、学習装置２０および推論装置３０によりクラウドサービスとして端末装置１０に提供され得る。

ここで、端末装置１０は、スマートフォンなどであってもよい。このとき、端末装置１０においては、デバイス位置姿勢情報に基づいて、現実空間にＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）オブジェクトを高精度に重畳させるＡＲアプリケーションが利用され得る。あるいは、端末装置１０は、自律移動体（例えば、ドローンなど）などであってもよい。このとき、自律移動体は、デバイス位置姿勢情報に基づく移動を行い得る。

学習装置２０によって生成されるモデルは、ＤＮＮによって実現され、モデルによって推論クエリ画像および各推論ＤＢ画像から画像特徴量が抽出される。以下では、画像から画像特徴量を抽出するＤＮＮを「画像特徴量抽出ＤＮＮ」とも言う。この画像特徴量抽出ＤＮＮの学習には対照学習（ＣｏｎｔｒａｓｔｉｖｅＬｅａｒｎｉｎｇ）が用いられる。ここで、図４および図５を参照しながら、比較例に係る画像特徴量抽出ＤＮＮの学習手法について説明する。

図４は、比較例に係る画像特徴量抽出ＤＮＮの学習手法について説明するための図である。図４を参照すると、学習クエリ画像Ｇ２および学習ＤＢ画像Ｇ１が示されている。学習装置２０は、学習クエリ画像Ｇ２をＤＮＮに入力したことに基づいて、ＤＮＮから出力された画像特徴量Ｅ２を得る。さらに、学習装置２０が、学習ＤＢ画像Ｇ１をＤＮＮに入力したことに基づいて、ＤＮＮから出力された画像特徴量Ｅ１を得る。

特徴量空間Ｅには、学習クエリ画像Ｇ２から抽出された画像特徴量Ｅ２が存在している。さらに、特徴量空間Ｅには、学習ＤＢ画像Ｇ１から抽出された画像特徴量Ｅ１が存在している。

比較例において、学習ＤＢ画像Ｇ１に真値ラベルが付されている場合には、学習ＤＢ画像Ｇ１から抽出された画像特徴量Ｅ１が学習クエリ画像Ｇ２から抽出された画像特徴量Ｅ２に近づくように（画像特徴量Ｅ１が方向Ｄ１に移動するように）ＤＮＮが学習される。一方、学習ＤＢ画像Ｇ１に真値ラベルが付されていない場合には、学習ＤＢ画像Ｇ１から抽出された画像特徴量Ｅ１が学習クエリ画像Ｇ２から抽出された画像特徴量Ｅ２から遠ざかるように（画像特徴量Ｅ１が方向Ｄ２に移動するように）ＤＮＮが学習される。

図５は、比較例が抱える課題について説明するための図である。図５に示された例では、学習ＤＢ画像Ｇ１のうち学習クエリ画像Ｇ２と学習ＤＢ画像Ｇ１とのオーバーラップ領域Ｇ１１と、学習ＤＢ画像Ｇ１のうちオーバーラップ領域Ｇ１１以外の領域である非オーバーラップ領域Ｇ１２とが示されている。比較例においては、学習ＤＢ画像Ｇ１の正解または不正解を事前に知る必要があるため、真値ラベルを作成するための人的コストが掛かってしまうという第１の課題がある。

さらに、学習ＤＢ画像Ｇ１が正解である場合に、学習ＤＢ画像Ｇ１のうち学習クエリ画像Ｇ２との非オーバーラップ領域Ｇ１２に対応する画像特徴量が、学習クエリ画像Ｇ２に対応する画像特徴量に近づくようにＤＮＮが学習されてしまう。そのため、比較例では、ＤＮＮの学習に混乱が生じ、ＤＮＮの学習が効果的に進まなくなってしまうという第２の課題がある。

続いて、図６および図７を参照しながら、本発明の実施形態に係る画像特徴量抽出ＤＮＮの学習手法について説明する。

図６は、本発明の実施形態に係る画像特徴量抽出ＤＮＮの学習手法の流れを示す図である。図６を参照すると、学習クエリ画像Ｇ２および学習ＤＢ画像Ｇ１が示されている。本発明の実施形態においては、一例として、学習装置２０が、学習クエリ画像Ｇ２および学習ＤＢ画像Ｇ１に関連する３次元情報に基づいて、学習クエリ画像Ｇ２と学習ＤＢ画像Ｇ１との間におけるオーバーラップ領域を抽出する。これによって、比較例が抱える課題を解決し得る。

例えば、画像のみから３次元情報を抽出する場合には、学習クエリ画像Ｇ２および学習ＤＢ画像Ｇ１から３次元モデルを生成する３次元復元技術がオーバーラップ領域の判定に用いられ得る。すなわち、３次元復元（Ｓ２１）の過程において得られる重複位置（以下、「オーバーラップ点」とも言う。）に基づいてオーバーラップ領域が判定され得る。

図７は、本発明の実施形態に係る画像特徴量抽出ＤＮＮの学習手法について説明するための図である。図７を参照すると、学習ＤＢ画像Ｇ１からオーバーラップ点Ｑ１が抽出されており、オーバーラップ点Ｑ１に基づいてオーバーラップ領域Ｇ１１および非オーバーラップ領域Ｇ１２が抽出されている。そして、領域分割Ｓ３１により、学習ＤＢ画像Ｇ１に対応する画像特徴量が、オーバーラップ領域Ｇ１１に対応する画像特徴量Ｅ１１および非オーバーラップ領域Ｇ１２に対応する画像特徴量Ｅ１２に分割されている。

本発明の実施形態において、学習装置２０は、オーバーラップ領域に対応する画像特徴量Ｅ１１が、学習クエリ画像Ｇ２から抽出された画像特徴量Ｅ２に近づくように（画像特徴量Ｅ１１が方向Ｄ１１に移動するように）ＤＮＮが学習される。一方、オーバーラップ領域に対応する画像特徴量Ｅ１２が学習クエリ画像Ｇ２から抽出された画像特徴量Ｅ２から遠ざかるように（画像特徴量Ｅ１２が方向Ｄ１２に移動するように）ＤＮＮが学習される。

これにより、本発明の実施形態においては、学習装置２０が、オーバーラップ領域Ｇ１１に対して自動的に真値ラベルを付することができる。これによって、真値ラベルを作成するための人的コストが掛かってしまうという第１の課題が解決され得る。

さらに、本発明の実施形態においては、オーバーラップ領域Ｇ１１から抽出される画像特徴量が学習クエリ画像Ｇ２から抽出される画像特徴量に近づくように、かつ、非オーバーラップ領域Ｇ１２から抽出される画像特徴量が学習クエリ画像Ｇ２から抽出される画像特徴量から遠ざかるように学習される。これにより、ＤＮＮの学習に混乱が生じ、ＤＮＮの学習が効果的に進まなくなってしまうという第２の課題が解決され得る。

以上、本開示の実施形態の概要について説明した。

＜１．実施形態の詳細＞
続いて、本開示の実施形態について詳細に説明する。

（１．１．端末装置の機能構成例）
続いて、図８を主に参照しながら、本開示の実施形態に係る端末装置１０の機能構成例について説明する。

図８は、本開示の実施形態に係る端末装置１０の機能構成例を示す図である。図８に示されるように、本開示の実施形態に係る端末装置１０は、撮像装置１１０と、操作部１２０と、制御部１３０と、記憶部１５０と、提示部１６０とを備える。

（撮像装置１１０）
撮像装置１１０は、ユーザによって入力される所定の撮像開始操作に基づいて、現実空間における撮像装置１１０の位置および姿勢に応じて定まる撮像範囲を撮像することにより推論クエリ画像を得る。撮像装置１１０は、推論クエリ画像を制御部１３０に出力する。撮像装置１１０が、推論クエリ画像を制御部１３０に出力すると、推論クエリ画像に応じた処理が制御部１３０によって実行される。

（操作部１２０）
操作部１２０は、ユーザによって入力される各種操作を受け付ける機能を有する。例えば、操作部１２０は、タッチパネルまたはボタンなどといった入力デバイスにより構成されていてもよい。操作部１２０は、ユーザによって入力された操作を制御部１３０に出力する。操作部１２０が、かかる操作を制御部１３０に出力すると、かかる操作に応じた処理が制御部１３０によって実行され得る。

（制御部１３０）
制御部１３０は、例えば、１または複数のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；中央演算処理装置）などによって構成されていてよい。制御部１３０がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。制御部１３０は、かかる処理装置によってプログラムが実行されることによって実現され得る。

例えば、制御部１３０は、推論クエリ画像が撮像装置１１０から入力されると、推論クエリ画像が推論装置３０に送信されるように図示しない通信部を制御する。また、制御部１３０は、推論装置３０から図示しない通信部によってデバイス位置姿勢情報が受信されると、デバイス位置姿勢情報に基づいてＡＲオブジェクトを拡張現実空間に配置するように提示部１６０を制御する。

（記憶部１５０）
記憶部１５０は、メモリを含んで構成され、制御部１３０によって実行されるプログラムを記憶したり、このプログラムの実行に必要なデータを記憶したりする記録媒体である。また、記憶部１５０は、制御部１３０による演算のためにデータを一時的に記憶する。記憶部１５０は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスなどにより構成される。

（提示部１６０）
提示部１６０は、制御部１３０による制御に従って各種情報をユーザに提示する。例えば、提示部１６０は、ディスプレイによって構成され、制御部１３０による制御に従って、ＡＲオブジェクトを表示する。

以上、本開示の実施形態に係る端末装置１０の機能構成例について説明した。

（１．２．推論装置の機能構成例）
続いて、図９～図１１を主に参照しながら、本開示の実施形態に係る推論装置３０の機能構成例について説明する。

図９は、本開示の実施形態に係る推論装置３０の機能構成例を示す図である。図９に示されるように、本開示の実施形態に係る推論装置３０は、制御部３００と、メモリ３９０とを備える。また、制御部３００は、画像検索部３１０と、特徴点照合部３２０と、相対位置姿勢推定部３３０と、デバイス位置姿勢推定部３４０とを備える。

（制御部３００）
制御部３００は、例えば、１または複数のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；中央演算処理装置）などによって構成されていてよい。制御部３００がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。制御部３００は、かかる処理装置によってプログラムが実行される。

制御部３００は、学習により更新されて得られたモデルにより、推論クエリ画像から画像特徴量（第３の画像特徴量）を抽出する。そして、制御部３００は、推論クエリ画像から抽出された画像特徴量に基づいて、推論クエリ画像を撮像したときの撮像装置１１０（第３の撮像装置）のデバイス位置姿勢情報（第３の位置姿勢情報）を推定する。

より詳細に、制御部３００は、各推論ＤＢ画像の画像特徴量から、推論クエリ画像から抽出された画像特徴量との差分が小さい順に所定の数の画像特徴量を高順位推論ＤＢ画像として特定する。そして、制御部３００は、高順位推論ＤＢ画像（第４の画像）と、推論クエリ画像とに基づいて、推論クエリ画像を撮像したときの撮像装置１１０のデバイス位置姿勢情報を推定する。

一例として、制御部３００は、高順位推論ＤＢ画像から、推論クエリ画像の第１の特徴点における画素特徴量との差分が最も小さい画素特徴量を有する第２の特徴点を特定する。そして、制御部３００は、推論クエリ画像における第１の特徴点の２次元座標と、高順位推論ＤＢ画像における第２の特徴点の２次元座標と、第２の特徴点の３次元位置情報と、高順位推論ＤＢ画像に対応するデバイス位置姿勢情報とに基づいて、推論クエリ画像を撮像したときの撮像装置１１０のデバイス位置姿勢情報を推定する。

（メモリ３９０）
メモリ３９０は、制御部３００によって実行されるプログラムを記憶したり、このプログラムの実行に必要なデータ（各種データベースなど）を記憶したりする記録媒体である。また、メモリ３９０は、制御部３００による演算のためにデータを一時的に記憶する。メモリ３９０は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスなどにより構成される。

（画像検索部３１０）
図１０は、画像検索部３１０の詳細構成例を示す図である。図１０に示されるように、画像検索部３１０は、画像特徴量抽出部３１２と、画像特徴量照合部３１４とを備える。なお、一例として、画像特徴量抽出部３１２は、学習装置２０から送信されて、推論装置３０の図示しない通信部によって受信されたモデルであり得る。

画像特徴量抽出部３１２は、端末装置１０が備える撮像装置１１０から推論クエリ画像を取得する。さらに、画像特徴量抽出部３１２は、推論クエリ画像から画像特徴量を抽出する。

画像特徴量照合部３１４は、メモリ３９０から各推論ＤＢ画像から抽出された画像特徴量を取得する。そして、画像特徴量照合部３１４は、推論クエリ画像から抽出された画像特徴量と各推論ＤＢ画像から抽出された画像特徴量との差分を算出する。画像特徴量照合部３１４は、推論クエリ画像から抽出された画像特徴量との差分が小さい画像特徴量が抽出される推論ＤＢ画像ほど上位に位置するように全推論ＤＢ画像の順位付けを行う。

画像特徴量照合部３１４は、全推論ＤＢ画像から抽出された画像特徴量から、推論クエリ画像から抽出された画像特徴量との差分が小さい順に所定の数の画像特徴量を特定する。所定の数の画像特徴量それぞれに対応する推論ＤＢ画像は、高順位推論ＤＢ画像である。

（特徴点照合部３２０）
図１１は、特徴点照合部３２０の詳細構成例を示す図である。図１１に示されるように、特徴点照合部３２０は、画素特徴量抽出部３２２と、画素特徴量照合部３２４とを備える。

画素特徴量抽出部３２２は、端末装置１０が備える撮像装置１１０から推論クエリ画像を取得する。さらに、画素特徴量抽出部３２２は、推論クエリ画像から画素特徴量を抽出する。より詳細に、画素特徴量抽出部３２２は、推論クエリ画像から複数の特徴点を検出し、複数の特徴点それぞれに関して特徴点の周辺画素情報に基づいて特徴点における画素特徴量を算出する。特徴点の検出および画素特徴量の抽出には公知の手法、たとえばＳＩＦＴ（Ｓｃａｌｅ－ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）が用いられてもよいし、ＤＮＮ手法が用いられてもよい。

画素特徴量照合部３２４は、メモリ３９０から各高順位推論ＤＢ画像から抽出された画素特徴量を取得する。そして、画素特徴量照合部３２４は、推論クエリ画像から抽出された特徴点（第１の特徴点）と、高順位推論ＤＢ画像から抽出された特徴点（第２の特徴点）との間において、画素特徴量同士の差分の最も小さい二つの特徴点を対応点ペアとして特定する。

（相対位置姿勢推定部３３０）
相対位置姿勢推定部３３０は、対応点ペアそれぞれの２次元座標と、対応点ペアのうち高順位推論ＤＢ画像における特徴点の３次元座標とに基づいて、高順位推論ＤＢ画像に対応するデバイス位置姿勢情報を基準とした、推論クエリ画像を撮像したときの撮像装置１１０の相対的な位置姿勢情報を推定する。撮像装置１１０の相対的な位置姿勢情報を推定する手法としては、公知の手法であるＰｎＰアルゴリズムなどが用いられる。

（デバイス位置姿勢推定部３４０）
デバイス位置姿勢推定部３４０は、推論ＤＢ画像に対応するデバイス位置姿勢情報と、高順位推論ＤＢ画像に対応するデバイス位置姿勢情報を基準とした、推論クエリ画像を撮像したときの撮像装置の相対的な位置姿勢情報とに基づいて、推論クエリ画像に対応するデバイス位置姿勢情報を推定する。例えば、推論クエリ画像に対応するデバイス位置姿勢情報は、端末装置１０に提供され得る。

以上、本開示の実施形態に係る推論装置３０の機能構成例について説明した。

（１．３．学習装置の機能構成例）
続いて、図１２～図２１を主に参照しながら、本開示の実施形態に係る学習装置２０の機能構成例について説明する。

図１２は、本開示の実施形態に係る学習装置２０の機能構成例を示す図である。図１２に示されるように、本開示の実施形態に係る学習装置２０は、制御部２００と、メモリ２９０とを備える。また、制御部２００は、３次元復元部２１０と、オーバーラップ点抽出部２２０と、特徴量抽出部２３０と、学習ロス計算部２４０と、領域判定部２５０と、更新部２６０とを備える。

（制御部２００）
制御部２００は、例えば、１または複数のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ；中央演算処理装置）などによって構成されていてよい。制御部２００がＣＰＵなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。制御部２００は、かかる処理装置によってプログラムが実行されることによって実現され得る。

（メモリ２９０）
メモリ２９０は、制御部２００によって実行されるプログラムを記憶したり、このプログラムの実行に必要なデータ（各種データベースなど）を記憶したりする記録媒体である。また、メモリ２９０は、制御部２００による演算のためにデータを一時的に記憶する。メモリ２９０は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスなどにより構成される。

メモリ２９０には、学習クエリ画像、および、学習に用いられる１または複数の学習ＤＢ画像が、あらかじめ記憶されている。以下の説明においては、１または複数の学習ＤＢ画像を「全学習ＤＢ画像」と言う場合がある。また、学習クエリ画像と全学習ＤＢ画像とを合わせた画像群を、「全学習画像」と言う場合がある。各学習ＤＢ画像は、第１の画像の例に該当し得る。学習クエリ画像は、第２の画像の例に該当し得る。

後にも説明するように、学習クエリ画像と学習ＤＢ画像とのオーバーラップ点（重複位置）が抽出されるが、オーバーラップ点を抽出する手法の例として、第１のオーバーラップ点抽出手法と、第２のオーバーラップ点抽出手法とが挙げられる。まず、図１３および図１４を参照しながら、第１のオーバーラップ点抽出手法について説明する。

（第１のオーバーラップ点抽出手法）
図１３は、第１のオーバーラップ点抽出手法に係る３次元復元部２１０の詳細構成例を示す図である。３次元復元部２１０は、全学習画像に基づいて３次元モデルを生成する。３次元モデルの生成には、公知の手法である３次元復元技術が適用され得る。この３次元モデルが生成される過程において全学習画像に関連する３次元情報が得られるため、かかる３次元情報に基づいてオーバーラップ点が抽出され得る。

第１のオーバーラップ点抽出手法において、オーバーラップ点の抽出に用いられる３次元情報は、全学習画像を構成する各２画像間の疎らな対応点ペアに基づいて算出される、３次元特徴点群を含み得る。

図１３に示されるように、３次元復元部２１０は、位置姿勢推定部２１２と、深度推定部２１４と、点群生成部２１６と、メッシュ生成部２１７とを備える。ここで、図１４を参照しながら、位置姿勢推定部２１２および深度推定部２１４それぞれが有する機能について説明する。

図１４は、位置姿勢推定部２１２および深度推定部２１４それぞれが有する機能について説明するための図である。位置姿勢推定部２１２は、全学習画像に基づいて、各学習画像に対応するデバイス位置姿勢情報を推定するとともに、現実空間に存在する３次元特徴点群、および、全学習画像を構成する各２画像間の疎らな対応点ペア（Ｃｏｖｉｓｉｂｉｌｉｔｙｇｒａｐｈ）を算出する。

このように、全学習画像に基づいて、各学習画像に対応するデバイス位置姿勢情報を推定し、３次元特徴点群および対応点ペアを算出する手法としては、公知の手法であるＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）などが適用され得る。図１４に示された例では、全学習画像に、学習ＤＢ画像Ｇ１と学習クエリ画像Ｇ２とが含まれる場合が想定されている。なお、原点Ｃ１は、撮像装置８１１の視点であり、原点Ｃ２は、撮像装置８１２の視点である。

ここで、位置姿勢推定部２１２が、各学習画像に対応するデバイス位置姿勢情報を推定し、３次元特徴点群および対応点ペアを算出する手法の例について簡単に説明する。まず、位置姿勢推定部２１２は、学習ＤＢ画像Ｇ１と学習クエリ画像Ｇ２とに基づいて、学習ＤＢ画像Ｇ１と学習クエリ画像Ｇ２との間の対応点ペアを算出する。ここで、対応点ペアを算出する手法は限定されない。

一例として、位置姿勢推定部２１２は、学習ＤＢ画像Ｇ１および学習クエリ画像Ｇ２それぞれから画素特徴量を抽出してもよい。そして、位置姿勢推定部２１２は、学習ＤＢ画像Ｇ１の各画素の画素特徴量と学習クエリ画像Ｇ２の各画素の画素特徴量との照合を行うことにより、学習ＤＢ画像Ｇ１と学習クエリ画像Ｇ２とにおいて画素特徴量の差分が最も小さい画素同士を対応点ペアとして算出してもよい。

図１４に示された例では、学習ＤＢ画像Ｇ１における特徴点Ｆ１１と、学習クエリ画像Ｇ２における特徴点Ｆ２１との組み合わせが対応点ペアである。また、学習ＤＢ画像Ｇ１における特徴点Ｆ１２と、学習クエリ画像Ｇ２における特徴点Ｆ２２との組み合わせも対応点ペアである。さらに、学習ＤＢ画像Ｇ１における特徴点Ｆ１３と、学習クエリ画像Ｇ２における特徴点Ｆ２３との組み合わせも対応点ペアである。

さらに、位置姿勢推定部２１２は、対応点ペアに基づいて、学習ＤＢ画像Ｇ１を撮像したときの撮像装置８１１（第１の撮像装置）の位置姿勢情報（第１の位置姿勢情報）と、学習クエリ画像Ｇ２を撮像したときの撮像装置８１２（第２の撮像装置）の位置姿勢情報（第２の位置姿勢情報）と、３次元特徴点群Ｆ１～Ｆ３とを、三角測量によって仮の計算結果として算出する。そして、位置姿勢推定部２１２は、全学習画像を構成する他の２画像間において同様にして仮の計算を行い、各２画像間において仮の計算結果の辻褄が合うように、バンドル調整（ＢｕｎｄｌｅＡｄｊｕｓｔｍｅｎｔ）により、各学習画像に対応するデバイス位置姿勢情報と、３次元特徴点群と、対応点ペアとを更新する。更新後の対応点ペアは、上記した疎らな対応点ペアに該当する。

深度推定部２１４は、全学習画像と、各学習画像に対応するデバイス位置姿勢情報と、３次元特徴点群と、疎らな対応点ペアとに基づいて、各学習画像における画素ごとの深度と、全学習画像を構成する各２画像間の密な対応点ペア（Ｃｏｎｓｉｓｔｅｎｃｙｇｒａｐｈ）とを算出する。

このように、全学習画像と、各学習画像に対応するデバイス位置姿勢情報と、３次元特徴点群と、疎らな対応点ペアとに基づいて、各学習画像における画素ごとの深度を算出する手法としては、公知の手法であるＭＶＳ（ＭｕｌｔｉＶｉｅｗＳｔｅｒｅｏ）などが適用され得る。

ここで、深度推定部２１４が、各学習画像における画素ごとの深度を算出する手法の例について簡単に説明する。まず、深度推定部２１４は、全学習画像と、３次元特徴点群と、疎らな対応点ペアとに基づいて、同じ３次元特徴点が写った２画像のペアを選択する。

このとき、２画像間のなす角度が小さすぎると、三角測量による画素ごとの深度が高精度に算出されないことも想定される。そのため、深度推定部２１４は、２画像それぞれに対応するデバイス位置姿勢情報と、３次元特徴点群とに基づいて、２画像間のなす角度を算出し、２画像間のなす角度に対してあらかじめ決められた角度以上であるという制限を付してもよい。換言すると、深度推定部２１４は、互いのなす角度があらかじめ決められた角度未満である２画像を選択しなくてもよい。

そして、深度推定部２１４は、２画像間においてブロックマッチングによる画素照合を行い、２画像間における画素ごとの対応点ペアを算出する。ここで算出される対応点ペアは、上記した密な対応点ペアに該当する。

図１４に示された例では、学習ＤＢ画像Ｇ１における点Ｎ３４と、学習クエリ画像Ｇ２における点Ｎ４４との組み合わせが対応点ペアであり、３次元点Ｎ４に対応する。また、学習ＤＢ画像Ｇ１における点Ｎ３５と、学習クエリ画像Ｇ２における点Ｎ４５との組み合わせも対応点ペアであり、３次元点Ｎ５に対応する。さらに、学習ＤＢ画像Ｇ１における点Ｎ３６と、学習クエリ画像Ｇ２における点Ｎ４６との組み合わせも対応点ペアであり、３次元点Ｎ６に対応する。

深度推定部２１４は、各学習画像に対応するデバイス位置姿勢情報と、密な対応点ペアとに基づいて、三角測量により、各学習画像における画素ごとの深度を算出する。図１４には、撮像装置８１１の原点Ｃ１から撮像装置８１１の正面方向に学習ＤＢ画像Ｇ１における深度方向Ｔ１が示されている。また、学習ＤＢ画像Ｇ１の点Ｎ３５における撮像装置８１１の原点Ｃ１（基準位置）を基準とした深度ｔ１が示されている。

深度推定部２１４は、各学習画像における画素ごとの深度を、点群生成部２１６に出力する。さらに、深度推定部２１４は、各学習画像に対応するデバイス位置姿勢情報を、点群生成部２１６に出力する。一方、深度推定部２１４は、密な対応点ペアを、オーバーラップ点抽出部２２０に出力する。

点群生成部２１６は、各学習画像における画素ごとの深度と、各学習画像に対応するデバイス位置姿勢情報とに基づいて、各学習画像における画素ごとの深度を統合することにより、３次元点群を生成する。このように各画像における画素ごとの深度を統合して３次元点群を得る手法は、Ｆｕｓｉｏｎとも言われる。

メッシュ生成部２１７は、点群生成部２１６によって生成された３次元点群に基づいて、メッシュを生成する。メッシュ生成部２１７によるメッシュの生成には、公知の手法である各種のメッシュ生成技術が適用され得る。

オーバーラップ点抽出部２２０は、学習クエリ画像と各学習ＤＢ画像とのオーバーラップ点の有無を判断する。より詳細に、オーバーラップ点抽出部２２０は、全学習画像に関連する３次元情報に基づいて、学習クエリ画像と各学習ＤＢ画像とのオーバーラップ点の有無を判断する。

第１のオーバーラップ点抽出手法において、オーバーラップ点抽出部２２０は、深度推定部２１４から密な対応点ペアを取得する。そして、オーバーラップ点抽出部２２０は、かかる対応点に基づいて、学習ＤＢ画像における画素のうち、学習クエリ画像における画素との対応点となっている画素をオーバーラップ点として抽出する。

オーバーラップ点抽出部２２０は、学習ＤＢ画像からオーバーラップ点が抽出されれば、その学習ＤＢ画像と学習クエリ画像とのオーバーラップ点が有ると判断する。一方、オーバーラップ点抽出部２２０は、学習ＤＢ画像からオーバーラップ点が抽出されなければ、その学習ＤＢ画像と学習クエリ画像とのオーバーラップ点が無いと判断する。

なお、オーバーラップ点抽出部２２０は、深度推定部２１４から取得した、密な対応点ペアから、誤検出された対応点をノイズ点として除去し、除去されなかった対応点に基づいてオーバーラップ点を抽出してもよい。例えば、着目画素を中心とした所定の範囲内（例えば、着目画素を中心とした３×３画素の範囲など）における対応点の数が閾値以下である場合に、その着目画素がノイズ点であると判断されてもよい。

（第２のオーバーラップ点抽出手法）
続いて、図１５～図１９を参照しながら、第２のオーバーラップ点抽出手法について説明する。

図１５は、第２のオーバーラップ点抽出手法に係る３次元復元部２１０の詳細構成例を示す図である。第２のオーバーラップ点抽出手法においても、第１のオーバーラップ点抽出手法と同様に、３次元復元部２１０は、全学習画像に基づいて３次元モデルを生成する。第２のオーバーラップ点抽出手法においても、この３次元モデルが生成される過程において全学習画像に関連する３次元情報が得られるため、かかる３次元情報に基づいてオーバーラップ点が抽出され得る。

図１５に示されるように、第２のオーバーラップ点抽出手法において、位置姿勢推定部２１２は、各学習画像に対応するデバイス位置姿勢情報をオーバーラップ点抽出部２２０に出力する。さらに、メッシュ生成部２１７は、生成したメッシュをオーバーラップ点抽出部２２０に出力する。

ここで、第２のオーバーラップ点抽出手法において、オーバーラップ点の抽出に用いられる３次元情報は、各学習ＤＢ画像に対応するデバイス位置姿勢情報と、学習クエリ画像に対応するデバイス位置姿勢情報とに基づく情報を含み得る。

より詳細に、各学習ＤＢ画像に対応するデバイス位置姿勢情報と、学習クエリ画像に対応するデバイス位置姿勢情報とに基づく情報は、現実空間における３次元点（第１の３次元点）の座標と、現実空間における３次元点（第２の３次元点）の座標とを含み得る。また、オーバーラップ点の抽出に用いられる３次元情報は、これらの３次元点における物体表面に対する法線方向を含み得る。

現実空間における３次元点群および３次元点における物体表面に対する法線方向は、メッシュ生成部２１７によって生成されるメッシュに含まれる。オーバーラップ点抽出部２２０は、メッシュ生成部２１７によって生成されたメッシュと、各学習画像に対応するデバイス位置姿勢情報とに基づいて、オーバーラップ点を抽出する。

図１６は、３次元点群を斜め横から見た図である。図１６を参照すると、３次元点Ｎ５１および３次元点Ｎ５６が現実空間に存在する。３次元点Ｎ５１の座標および３次元点Ｎ５６の座標は、メッシュ生成部２１７からオーバーラップ点抽出部２２０に出力されるメッシュに含まれる。

さらに、図１６を参照すると、学習ＤＢ画像Ｇ１を撮像した撮像装置８１１が示されている。学習ＤＢ画像Ｇ１を撮像したときの撮像装置８１１のデバイス位置姿勢情報は、位置姿勢推定部２１２からオーバーラップ点抽出部２２０に出力される。また、撮像装置８１１の正面方向と逆方向を正面方向とする撮像装置８１２も示されている。

ここで、撮像装置８１１から正面方向に焦点距離だけ離れた位置にある、当該正面方向に対する垂直面に対して、現実空間から学習ＤＢ画像Ｇ１が投影されるとする。オーバーラップ点抽出部２２０は、学習ＤＢ画像Ｇ１における画素ｇ３の四隅に向けて撮像装置８１１の原点Ｃ１から引いた直線によって囲まれる四角錐ｐ１（原点Ｃ１が頂点であり、重心線Ｌ１が軸であり、面ｂ１が底面である四角錐）を計算する。

図１７は、３次元点群を上から見た図である。図１７には、学習ＤＢ画像の四隅に向けて撮像装置８１１の原点Ｃ１から引いた直線によって囲まれる四角錐Ｐ１が示されている。四角錐Ｐ１の内部には、３次元点Ｎ５１～Ｎ５８が存在している。

このとき、オーバーラップ点抽出部２２０は、原点Ｃ１から見てその四角錐Ｐ１の内部に最初に出現する３次元点Ｎ５１～Ｎ５８の全部を、撮像装置８１１からの可視点として計算することも考えられる。しかし、３次元点Ｎ５２から原点Ｃ１に向かう方向と３次元点Ｎ５２における物体表面に対する法線方向とのなす角度は９０度以上であるため、３次元点Ｎ５２は、原点Ｃ１から見えないことが想定され得る。３次元点Ｎ５３、Ｎ５５、Ｎ５７、Ｎ５８も同様に、原点Ｃ１から見えないことが想定され得る。

そこで、オーバーラップ点抽出部２２０は、３次元点から原点Ｃ１に向かう方向と３次元点における物体表面に対する法線方向とのなす角度が９０度以上である場合に、その３次元点を撮像装置８１１からの可視点としないのが望ましい。これによって、可視点に基づいてオーバーラップ点が誤抽出されてしまう可能性が低減され得る。なお、３次元点における物体表面に対する法線方向も、メッシュ生成部２１７から出力されるメッシュに含まれ得る。

図１８は、メッシュの例を示す図である。図１８を参照すると、３次元点Ｎ６１～Ｎ６３を含んだメッシュが示されている。３次元点Ｎ６１～Ｎ６３それぞれは、頂点（Ｖｅｒｔｅｘ）とも表現され得る。また、３次元点Ｎ６１～Ｎ６３の各２点間を結ぶ線分Ｗ１２、Ｗ２３、Ｗ３１が示されている。３次元点Ｎ６１～Ｎ６３における物体表面に対する法線方向Ｖ１～Ｖ３もメッシュに含まれ得る。

図１９は、メッシュ情報に基づいてオーバーラップ点を抽出する場合について説明するための図である。図１９に示された例において、四角錐Ｐ１の内部には、３次元点Ｎ６１～Ｎ７２が存在している。また、３次元点Ｎ６１～Ｎ７２における物体表面に対する法線方向Ｖ１～Ｖ１２も示されている。

ここで、３次元点Ｎ６１から原点Ｃ１に向かう方向と３次元点Ｎ６１における物体表面に対する法線方向Ｖ１とのなす角度は９０度以上である。したがって、オーバーラップ点抽出部２２０は、３次元点Ｎ６１を撮像装置８１１からの可視点としなくてよい。同様に、オーバーラップ点抽出部２２０は、３次元点Ｎ６２、Ｎ６３、Ｎ６５、Ｎ６７、Ｎ６９、Ｎ７０～Ｎ７２を撮像装置８１１からの可視点としなくてよい。一方、オーバーラップ点抽出部２２０は、３次元点Ｎ６４、Ｎ６６、Ｎ６８を可視点としてよい。

同様にして、３次元点Ｎ６５、Ｎ６７、Ｎ６９が撮像装置８１２からの可視点とされてよい。そして、オーバーラップ点抽出部２２０は、撮像装置８１１からの可視点と撮像装置８１２からの可視点との間に同一の３次元点が含まれる場合に、その３次元点を撮像装置８１１によって撮像された学習ＤＢ画像と撮像装置８１２によって撮像された学習クエリ画像とのオーバーラップ点として抽出してよい。

このようにして、オーバーラップ点抽出部２２０は、各学習ＤＢ画像と学習クエリ画像とのオーバーラップ点を抽出する。オーバーラップ点抽出部２２０は、抽出したオーバーラップ点をメモリ２９０に記憶させる。メモリ２９０に記憶されたオーバーラップ点は、領域判定部２５０によって取得され、オーバーラップ点に応じたオーバーラップ領域が領域判定部２５０によって判定される。

本発明の実施形態においては、領域判定部２５０によって判定されたオーバーラップ領域、および、非オーバーラップ領域に基づく学習が行われる。かかる学習によって得られたモデルによれば、推論クエリ画像から画像特徴量がより高精度に抽出されるようになる。まず、本発明の実施形態に係る学習手法の優位性を理解しやすくするため、図２０を参照しながら、比較例に係る学習手法の例について説明する。

（比較例に係る特徴量抽出部５３０）
図２０は、比較例に係る特徴量抽出部５３０の詳細構成例を示す図である。特徴量抽出部５３０は、ＤＮＮによって構成されている。図２０に示されるように、比較例に係る特徴量抽出部５３０は、学習クエリ画像特徴量抽出部２３１と、学習ＤＢ画像特徴量抽出部５３４とを備える。学習クエリ画像特徴量抽出部２３１は、画素特徴量抽出部２３２と、合算処理部２３３とを備える。一方、学習ＤＢ画像特徴量抽出部５３４は、画素特徴量抽出部２３５と、合算処理部５３９とを備える。

画素特徴量抽出部２３２は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）によって構成されている。例えば、画素特徴量抽出部２３２は、メモリ２９０から学習クエリ画像を取得し、学習クエリ画像を構成する各画素（または低解像度化後の各画素）の画素特徴量を抽出する。かかる画素特徴量は、ベクタにより表現され得る。

合算処理部２３３は、Ｐｏｏｌｉｎｇ層によって構成されている。例えば、合算処理部２３３は、画素特徴量抽出部２３２によって学習クエリ画像から抽出された各画素の画素特徴量を合算することにより、学習クエリ画像の画像特徴量（第２の画像特徴量）を生成する。

ここで、画素特徴量を合算する手法としては、様々な手法が想定され得る。例えば、画素特徴量を合算する手法は、各画素の画素特徴量の最大値を代表値として出力する手法であってもよいし、各画素の画素特徴量に対してクラスタリングを行い、クラスタごとに画素特徴量を合算し、クラスタごとの合算値をつなぎ合わせて一つのベクトルとする手法であってもよいし、他の公知の手法であってもよい。

画素特徴量抽出部２３５は、画素特徴量抽出部２３２と同様に、ＣＮＮによって構成されている。例えば、画素特徴量抽出部２３５は、メモリ２９０から学習ＤＢ画像を取得し、学習ＤＢ画像を構成する各画素（または低解像度化後の各画素）の画素特徴量を抽出する。かかる画素特徴量は、ベクタにより表現され得る。

合算処理部５３９は、合算処理部２３３と同様に、Ｐｏｏｌｉｎｇ層によって構成されている。例えば、合算処理部５３９は、画素特徴量抽出部２３５によって学習ＤＢ画像から抽出された各画素の画素特徴量を合算することにより、学習ＤＢ画像の画像特徴量（第１の画像特徴量）を生成する。

学習ロス計算部２４０は、学習クエリ画像から抽出された画像特徴量と、学習ＤＢ画像から抽出された画像特徴量とに基づいて、特徴量抽出部５３０を構成するＤＮＮを更新するための微分値を算出する。かかる微分値は、「勾配」とも換言され得る。ここで、微分値を算出するための学習ロス（損失関数）の算出には、公知の手法に係る学習ロスが用いられてよい。一例として、学習ロスの算出には、Ｔｒｉｐｌｅｔｌｏｓｓと呼ばれる手法が用いられてよい。

かかる手法は、学習クエリ画像の少なくとも一部の領域とのオーバーラップ領域が学習ＤＢ画像に存在する場合に、学習ＤＢ画像のうちのオーバーラップ領域から抽出された画像特徴量が画像クエリ画像から抽出された画像特徴量に近づくように、かつ、学習ＤＢ画像のうちの非オーバーラップ領域から抽出された画像特徴量が画像クエリ画像から抽出された画像特徴量から遠ざかるように、ＤＮＮを更新するための微分値が算出される。

ただし、比較例において、オーバーラップ領域が学習ＤＢ画像のうち、どの領域がオーバーラップ領域であるかを示す情報（すなわち、真値ラベル）は、自動的には付されずに、手動によって付されることが主に想定される。一方、本発明の実施形態においては、どの領域がオーバーラップ領域であるかを示す情報が自動的に付される。続いて、図２１を参照しながら、本発明の実施形態に係る学習手法の例について説明する。

（本発明の実施形態に係る特徴量抽出部２３０）
図２１は、本発明の実施形態に係る特徴量抽出部２３０の詳細構成例を示す図である。本発明の実施形態に係る特徴量抽出部２３０は、比較例に係る特徴量抽出部５３０と同様に、ＤＮＮによって構成されている。図２１に示されるように、特徴量抽出部２３０は、特徴量抽出部５３０と同様に、学習クエリ画像特徴量抽出部２３１を備える。さらに、特徴量抽出部２３０は、学習ＤＢ画像特徴量抽出部５３４の代わりに、学習ＤＢ画像特徴量抽出部２３４を備える。なお、特徴量抽出部２３０は、抽出部の例に該当し得る。

学習ＤＢ画像特徴量抽出部２３４は、学習ＤＢ画像特徴量抽出部５３４と同様に、画素特徴量抽出部２３５を備える。さらに、学習ＤＢ画像特徴量抽出部２３４は、合算処理部５３９の代わりに、領域分割部２３６と、合算処理部２３７と、合算処理部２３８とを備える。領域分割部２３６には、学習装置２０が備える領域判定部２５０から判定結果が入力される。

領域判定部２５０は、メモリ２９０からオーバーラップ点を取得する。そして、領域判定部２５０は、メモリ２９０から取得したオーバーラップ点に基づいて、オーバーラップ点に応じたオーバーラップ領域を判定する。一例として、領域判定部２５０は、学習ＤＢ画像のうち、オーバーラップ点が存在する画素自体をオーバーラップ領域として判定してもよい。しかし、オーバーラップ点が疎らに存在する場合には、オーバーラップ領域も疎らになってしまうおそれがある。

そこで、領域判定部２５０は、学習ＤＢ画像のうちオーバーラップ点を含んだ矩形領域をオーバーラップ領域として判定してもよい。あるいは、領域判定部２５０は、学習ＤＢ画像のうちオーバーラップ点が存在する画素の集合を仮のオーバーラップ領域として判定しつつ、オーバーラップ点の密度が所定の密度よりも低い領域に存在する画素をオーバーラップ領域から除外するようなメディアンフィルタを仮のオーバーラップ領域に対して施してもよい。

領域判定部２５０は、学習ＤＢ画像のうちオーバーラップ領域がどの領域であるかを示す判定結果を領域分割部２３６に出力する。

領域分割部２３６は、領域判定部２５０から出力された判定結果に基づいて、学習ＤＢ画像から抽出された画素特徴量を、オーバーラップ領域に属する各画素の画素特徴量と、非オーバーラップ領域に属する各画素の画素特徴量とに分割する。そして、領域分割部２３６は、オーバーラップ領域に属する各画素の画素特徴量を合算処理部２３７に出力するとともに、非オーバーラップ領域に属する各画素の画素特徴量を合算処理部２３８に出力する。

合算処理部２３７は、合算処理部５３９と同様に、Ｐｏｏｌｉｎｇ層によって構成されている。例えば、合算処理部２３７は、領域分割部２３６から出力されたオーバーラップ領域に属する各画素の画素特徴量を合算することにより、オーバーラップ領域に対応する画像特徴量（重複領域特徴量）を生成する。合算処理部２３７は、オーバーラップ領域に対応する画像特徴量を学習ロス計算部２４０に出力する。

合算処理部２３８は、合算処理部２３７と同様に、Ｐｏｏｌｉｎｇ層によって構成されている。例えば、合算処理部２３８は、領域分割部２３６から出力された非オーバーラップ領域に属する各画素の画素特徴量を合算することにより、非オーバーラップ領域に対応する画像特徴量（非重複領域特徴量）を生成する。合算処理部２３８は、非オーバーラップ領域に対応する画像特徴量を学習ロス計算部２４０に出力する。

（学習ロス計算部２４０）
学習ロス計算部２４０は、学習クエリ画像の画像特徴量と、オーバーラップ領域に対応する画像特徴量と、非オーバーラップ領域に対応する画像特徴量とに基づいて、特徴量抽出部５３０を構成するＤＮＮを更新するための微分値を算出する。ここで、微分値を算出するための学習ロスの算出には、公知の手法に係る学習ロスが用いられてよい。一例として、学習ロスの算出には、Ｔｒｉｐｌｅｔｌｏｓｓと呼ばれる手法が用いられてよい。

より詳細に、学習ロス計算部２４０は、オーバーラップ領域に対応する画像特徴量と、学習クエリ画像の画像特徴量とが近づくように、かつ、非オーバーラップ領域に対応する画像特徴量と、学習クエリ画像に対応する画像特徴量とが遠ざかるように、ＤＮＮを更新するための微分値を計算する。学習ロス計算部２４０は、微分値を更新部２６０（図１２）に出力する。

（更新部２６０）
更新部２６０は、学習ロス計算部２４０から出力された微分値に基づいて、ＤＮＮを更新する。より詳細に、更新部２６０は、学習ロス計算部２４０から出力された微分値に基づいて、誤差逆伝播法によりＤＮＮを構成する重みパラメータを更新する。このようなＤＮＮの更新は、全学習ＤＢ画像について繰り返し実行される。

更新後のＤＮＮによって構成される特徴量抽出部２３０は、ネットワーク４０を介して推論装置３０に送信され、推論装置３０において、画像特徴量抽出部３１２として用いられる。画像特徴量抽出部３１２は、推論クエリ画像から画像特徴量をより高精度に抽出することが可能となる。

以上、本開示の実施形態に係る学習装置２０の機能構成例について説明した。

＜２．各種変形例＞
続いて、図２２～図２５を参照しながら、本開示の実施形態に係る情報処理システム１の各種変形例について説明する。

（第１の変形例）
図２２は、第１の変形例について説明するための図である。上記では、全学習画像に基づいて各学習画像における画素ごとの深度が推定される例について説明した。しかし、各学習画像における画素ごとの深度は、必ずしも画像のみから推定されなくてもよい。例えば、図２２に示されるように、各学習画像における画素ごとの深度は、測距デバイス６１０によって測定されてもよい。

なお、測距デバイス６１０の種類としては、様々なセンサが用いられ得る。例えば、測距デバイス６１０は、ＬｉＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎＡｎｄＲａｎｇｉｎｇ）センサであってもよいし、ＳｔｅｒｅｏＤｅｐｔｈセンサであってもよいし、他の測距デバイスであってもよい。

また、上記では、全学習画像に基づいて各学習画像に対応するデバイス位置姿勢情報が推定される例について説明した。しかし、各学習画像に対応するデバイス位置姿勢情報は、必ずしも画像のみから推定されなくてもよい。例えば、図２２に示されるように、各学習画像に対応するデバイス位置姿勢情報は、ＳＬＡＭデバイス６２０（自己位置推定装置）によって測定されてもよい。

なお、ＳＬＡＭデバイス６２０を構成するセンサの種類としては、様々なセンサが用いられ得る。例えば、ＳＬＡＭデバイス６２０は、カメラを含んでもよいし、カメラとＩＭＵ（ＩｎｅｒｔｉａｌＭｅａｓｕｒｅｍｅｎｔＵｎｉｔ）センサとの組み合わせを含んでもよい。

（第２の変形例）
図２３は、第２の変形例について説明するための図である。上記では、３次元復元部２１０が、全学習画像に基づいてメッシュと、各学習画像に対応するデバイス位置姿勢情報とをオーバーラップ点抽出部２２０に出力する例について説明した。しかし、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）７１０が、全学習画像に基づいてメッシュと、各学習画像に対応するデバイス位置姿勢情報とをオーバーラップ点抽出部２２０に出力してもよい。

ＣＧ７１０は、３次元モデルを生成するプログラムである。かかる３次元モデルは、仮想空間に配置されている。このとき、学習ＤＢ画像は、仮想空間における所定の位置姿勢（第１の視点）を基準とした画像であってもよく、学習クエリ画像は、仮想空間における所定の位置姿勢（第２の視点）を基準とした画像であってもよい。そして、現実空間における３次元点群の座標は、メッシュ生成部２１７によって生成される３次元モデルから取得されてもよい。

なお、学習ＤＢ画像に対応するデバイス位置姿勢情報は、仮想空間において学習ＤＢ画像を撮像したときの仮想的な撮像装置の位置姿勢情報に該当し得る。同様に、学習クエリ画像に対応するデバイス位置姿勢情報は、仮想空間において学習クエリ画像を撮像したときの仮想的な撮像装置の位置姿勢情報に該当し得る。

（第３の変形例）
図２４は、第３の変形例について説明するための図である。上記では、特徴量抽出部２３０の学習が、オーバーラップ領域と非オーバーラップ領域とに基づいて行われる例について説明した。しかし、オーバーラップ領域に所定のオブジェクトが写り込んでしまうと、学習クエリ画像には所定のオブジェクトが写っていない場合などには、学習に混乱が生じ、学習が効果的に進まなくなってしまう可能性がある。

なお、所定のオブジェクトは、動物体（例えば、人または車など）であってもよい。あるいは、ガラスに写り込んだ鏡像が学習に悪影響を及ぼすおそれがあるため、所定のオブジェクトは、ガラスなどであってもよい。あるいは、所定のオブジェクトは、非ユニークな空などであってもよい。

そこで、特徴量抽出部２３０の学習は、オーバーラップ領域から所定のオブジェクトが検出された領域を含んだオブジェクト領域がオーバーラップ領域から除外されて得られた非オブジェクト領域に対応する画像特徴量と、非オーバーラップ領域に対応する画像特徴量とに基づいて行われてもよい。なお、所定のオブジェクトは、ＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎＤＮＮ（または、所定のオブジェクトを画素ピッチで検出可能なＤＮＮ）によって行われてもよい。

図２４に示されるように、所定のオブジェクトは、オブジェクト検出部２７０によって検出されてもよい。そして、オブジェクト検出部２７０によるオブジェクトの検出結果は、領域判定部２５０によるオーバーラップ領域の判定に用いられてもよい。

図２５は、第３の変形例に係るオーバーラップ領域および非オーバーラップ領域の例を示す図である。図２５を参照すると、学習ＤＢ画像Ｇ１が示されており、学習ＤＢ画像Ｇ１に含まれるオーバーラップ領域Ｇ１１および非オーバーラップ領域Ｇ１２が示されている。

オーバーラップ領域Ｇ１１には、所定のオブジェクトの例として、車が写っている。オブジェクト検出部２７０は、オーバーラップ領域Ｇ１１から所定のオブジェクトの例として車を検出する。オブジェクト検出部２７０は、車が検出された領域を含んだ矩形領域をオブジェクト領域Ｇ１３として検出する。領域判定部２５０は、オーバーラップ領域Ｇ１１からオブジェクト領域Ｇ１３を除外した非オブジェクト領域Ｇ１４を判定する。

領域判定部２５０は、学習ＤＢ画像Ｇ１のうちどの領域が非オブジェクト領域Ｇ１４であるかを示す判定結果を領域分割部２３６に出力する。なお、図２５には、非オブジェクト領域Ｇ１４と、非オーバーラップ領域Ｇ１２とを合わせた学習ＤＢ画像Ｇ５が示されている。

領域分割部２３６は、領域判定部２５０から出力された判定結果に基づいて、学習ＤＢ画像Ｇ１を、オブジェクト領域Ｇ１３と、非オブジェクト領域Ｇ１４と、非オーバーラップ領域Ｇ１２とに分割する。そして、領域分割部２３６は、非オブジェクト領域Ｇ１４を合算処理部２３７に出力し、非オーバーラップ領域Ｇ１２を合算処理部２３８に出力する。これによって、学習に悪影響が及ぼされる可能性のあるオブジェクト領域Ｇ１３が除外された非オブジェクト領域Ｇ１４が特徴量抽出部２３０の学習に用いられるため、学習が効果的に進むようになる。

以上、本開示の実施形態に係る情報処理システム１の各種変形例について説明した。

＜３．ハードウェア構成例＞
続いて、図２６を参照して、本開示の実施形態に係る推論装置３０の例としての情報処理装置９００のハードウェア構成例について説明する。図２６は、情報処理装置９００のハードウェア構成例を示すブロック図である。なお、推論装置３０は、必ずしも図２６に示したハードウェア構成の全部を有している必要はなく、推論装置３０の中に、図２６に示したハードウェア構成の一部は存在しなくてもよい。また、学習装置２０のハードウェア構成も、推論装置３０のハードウェア構成と同様に実現されてよい。

図２６に示すように、情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇｕｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２、およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３を含む。また、情報処理装置９００は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。情報処理装置９００は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０２、ＲＡＭ９０３、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置９００内の動作全般またはその一部を制御する。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０２、およびＲＡＭ９０３は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

入力装置９１５は、例えば、ボタンなど、ユーザによって操作される装置である。入力装置９１５は、マウス、キーボード、タッチパネル、スイッチおよびレバーなどを含んでもよい。また、入力装置９１５は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置９３３も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどの表示装置、スピーカおよびヘッドホンなどの音出力装置などであり得る。また、出力装置９１７は、ＰＤＰ（ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌ）、プロジェクタ、ホログラム、プリンタ装置などを含んでもよい。出力装置９１７は、情報処理装置９００の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音として出力したりする。また、出力装置９１７は、周囲を明るくするためライトなどを含んでもよい。

ストレージ装置９１９は、情報処理装置９００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

接続ポート９２３は、機器を情報処理装置９００に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置９００と外部接続機器９２９との間で各種のデータが交換され得る。

通信装置９２５は、例えば、ネットワーク９３１に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続されるネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

＜４．まとめ＞
本開示の実施形態によれば、学習によって得られたモデルによって画像から画像特徴量をより高精度に抽出することが可能となる。また、モデルによって抽出された画像特徴量に基づく画像検索性能も向上することも期待される。さらに、画像検索性能の向上に伴って、画像を撮像したときの撮像装置のデバイス位置姿勢情報の精度が向上することも期待される。さらに、デバイス位置姿勢情報の精度向上に伴ってＡＲオブジェクトの重畳表示の精度が向上すること、画像検索性能の向上に伴って画像検索失敗の重畳表示の精度が向上することなども期待される。

また、本発明の実施形態によれば、学習ＤＢ画像のうち、どの領域がオーバーラップ領域であるかを示す情報（すなわち、真値ラベル）が自動的に付される。したがって、本発明の実施形態によれば、手動によって真値ラベルを付するために要するコストが低減される。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
第１の画像と第２の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
前記第１の画像から抽出部によって抽出された第１の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
前記第１の画像特徴量のうち、前記第１の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
に基づく学習が行われ、
前記学習により前記抽出部が更新されて得られたモデルが、第３の画像から第３の画像特徴量を抽出することを含む、
プロセッサにより実行される情報処理方法。
（２）
前記学習は、重複領域特徴量と、前記非重複領域特徴量と、前記第２の画像から前記抽出部によって抽出された第２の画像特徴量とに基づいて行われる、
前記（１）に記載の情報処理方法。
（３）
前記学習は、前記重複領域特徴量と前記第２の画像特徴量とが近づくように、かつ、前記非重複領域特徴量と前記第２の画像特徴量とが遠ざかるように前記抽出部を更新することを含む、
前記（２）に記載の情報処理方法。
（４）
前記重複位置の有無は、前記第１の画像と前記第２の画像とに関連する３次元情報に基づいて判断される、
前記（１）に記載の情報処理方法。
（５）
前記３次元情報は、前記第１の画像と前記第２の画像との対応点ペアに基づいて算出された、３次元特徴点群を含む、
前記（４）に記載の情報処理方法。
（６）
前記３次元情報は、前記第１の画像を撮像したときの第１の撮像装置の第１の位置姿勢情報と、前記第２の画像を撮像したときの第２の撮像装置の第２の位置姿勢情報とに基づく情報を含む、
前記（４）に記載の情報処理方法。
（７）
前記第１の位置姿勢情報および前記第２の位置姿勢情報は、前記第１の画像および前記第２の画像に基づいて推定される、
前記（６）に記載の情報処理方法。
（８）
前記第１の位置姿勢情報および前記第２の位置姿勢情報は、自己位置推定装置によって推定される、
前記（６）に記載の情報処理方法。
（９）
前記第１の位置姿勢情報は、コンピュータグラフィックスによって生成された３次元モデルが配置された仮想空間において前記第１の画像を撮像したときの前記第１の撮像装置の位置姿勢情報であり、
前記第２の位置姿勢情報は、前記仮想空間において前記第２の画像を撮像したときの前記第２の撮像装置の位置姿勢情報である、
前記（６）に記載の情報処理方法。
（１０）
前記第１の位置姿勢情報と前記第２の位置姿勢情報とに基づく情報は、前記第１の画像に写る現実空間における第１の３次元点の座標と、前記第２の画像に写る現実空間における第２の３次元点の座標とを含む、
前記（６）に記載の情報処理方法。
（１１）
前記３次元情報は、前記第１の３次元点における物体表面に対する法線方向と、前記第２の３次元点における物体表面に対する法線方向とを含む、
前記（１０）に記載の情報処理方法。
（１２）
前記第１の３次元点の座標および前記第２の３次元点の座標は、所定の原点を基準とした深度に基づいて算出される、
前記（１０）に記載の情報処理方法。
（１３）
前記深度は、前記第１の画像と、前記位置姿勢情報と、前記第２の画像と、前記第２の位置姿勢情報とに基づいて算出される、
前記（１２）に記載の情報処理方法。
（１４）
前記深度は、測距デバイスによって測定される、
前記（１２）に記載の情報処理方法。
（１５）
前記第１の画像は、コンピュータグラフィックスによって生成された３次元モデルが配置された仮想空間における第１の視点を基準とした画像であり、
前記第２の画像は、前記仮想空間における第２の視点を基準とした画像であり、
前記第１の３次元点の座標および前記第２の３次元点の座標は、前記３次元モデルから取得される、
前記（１０）に記載の情報処理方法。
（１６）
前記学習は、前記重複領域から所定のオブジェクトが検出された領域を含んだオブジェクト領域が前記重複領域から除外されて得られた非オブジェクト領域に対応する特徴量と、前記非重複領域特徴量とに基づいて行われる、
前記（１）に記載の情報処理方法。
（１７）
前記情報処理方法は、
前記プロセッサが、前記第３の画像特徴量に基づいて、前記第３の画像を撮像したときの第３の撮像装置の第３の位置姿勢情報を推定することを含む、
前記（１）～（１６）のいずれか一項に記載の情報処理方法。
（１８）
前記プロセッサは、複数の画像それぞれの画像特徴量から、前記第３の画像特徴量との差分が小さい順に所定の数の画像特徴量を特定し、前記所定の数の画像特徴量それぞれに対応する第４の画像と、前記第３の画像とに基づいて、前記第３の位置姿勢情報を推定する、
前記（１７）に記載の情報処理方法。
（１９）
第１の画像と第２の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
前記第１の画像から抽出部によって抽出された第１の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
前記第１の画像特徴量のうち、前記第１の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
に基づく学習が行われ、
前記学習により前記抽出部が更新されて得られたモデルを備え、
前記モデルが、第３の画像から第３の画像特徴量を抽出する、
情報処理装置。
（２０）
コンピュータに、
第１の画像と第２の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
前記第１の画像から抽出部によって抽出された第１の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
前記第１の画像特徴量のうち、前記第１の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
に基づく学習が行われ、
前記学習により前記抽出部が更新されて得られたモデルが、第３の画像から第３の画像特徴量を抽出することを実行させるためのプログラム。

１情報処理システム
１０端末装置
１１０撮像装置
１２０操作部
１５０記憶部
１６０提示部
２０学習装置
２００制御部
２１０３次元復元部
２１２位置姿勢推定部
２１４深度推定部
２１６点群生成部
２１７メッシュ生成部
２２０オーバーラップ点抽出部
２３０特徴量抽出部
２３１学習クエリ画像特徴量抽出部
２３２画素特徴量抽出部
２３３合算処理部
２３４特徴量抽出部
２３５画素特徴量抽出部
２３６領域分割部
２３７合算処理部
２３８合算処理部
２４０学習ロス計算部
２５０領域判定部
２６０更新部
２７０オブジェクト検出部
２９０メモリ
３０推論装置
３００制御部
３１０画像検索部
３１２画像特徴量抽出部
３１４画像特徴量照合部
３２０特徴点照合部
３２２画素特徴量抽出部
３２４画素特徴量照合部
３３０相対位置姿勢推定部
３４０デバイス位置姿勢推定部
３９０メモリ
４０ネットワーク
６１０測距デバイス
６２０ＳＬＡＭデバイス
７１０ＣＧ
８１１撮像装置
８１２撮像装置
８１４撮像装置

Claims

第１の画像と第２の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
前記第１の画像から抽出部によって抽出された第１の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
前記第１の画像特徴量のうち、前記第１の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
に基づく学習が行われ、
前記学習により前記抽出部が更新されて得られたモデルが、第３の画像から第３の画像特徴量を抽出することを含む、
プロセッサにより実行される情報処理方法。
前記学習は、重複領域特徴量と、前記非重複領域特徴量と、前記第２の画像から前記抽出部によって抽出された第２の画像特徴量とに基づいて行われる、
請求項１に記載の情報処理方法。
前記学習は、前記重複領域特徴量と前記第２の画像特徴量とが近づくように、かつ、前記非重複領域特徴量と前記第２の画像特徴量とが遠ざかるように前記抽出部を更新することを含む、
請求項２に記載の情報処理方法。
前記重複位置の有無は、前記第１の画像と前記第２の画像とに関連する３次元情報に基づいて判断される、
請求項１に記載の情報処理方法。
前記３次元情報は、前記第１の画像と前記第２の画像との対応点ペアに基づいて算出された、３次元特徴点群を含む、
請求項４に記載の情報処理方法。
前記３次元情報は、前記第１の画像を撮像したときの第１の撮像装置の第１の位置姿勢情報と、前記第２の画像を撮像したときの第２の撮像装置の第２の位置姿勢情報とに基づく情報を含む、
請求項４に記載の情報処理方法。
前記第１の位置姿勢情報および前記第２の位置姿勢情報は、前記第１の画像および前記第２の画像に基づいて推定される、
請求項６に記載の情報処理方法。
前記第１の位置姿勢情報および前記第２の位置姿勢情報は、自己位置推定装置によって推定される、
請求項６に記載の情報処理方法。
前記第１の位置姿勢情報は、コンピュータグラフィックスによって生成された３次元モデルが配置された仮想空間において前記第１の画像を撮像したときの前記第１の撮像装置の位置姿勢情報であり、
前記第２の位置姿勢情報は、前記仮想空間において前記第２の画像を撮像したときの前記第２の撮像装置の位置姿勢情報である、
請求項６に記載の情報処理方法。
前記第１の位置姿勢情報と前記第２の位置姿勢情報とに基づく情報は、前記第１の画像に写る現実空間における第１の３次元点の座標と、前記第２の画像に写る現実空間における第２の３次元点の座標とを含む、
請求項６に記載の情報処理方法。
前記３次元情報は、前記第１の３次元点における物体表面に対する法線方向と、前記第２の３次元点における物体表面に対する法線方向とを含む、
請求項１０に記載の情報処理方法。
前記第１の３次元点の座標および前記第２の３次元点の座標は、所定の原点を基準とした深度に基づいて算出される、
請求項１０に記載の情報処理方法。
前記深度は、前記第１の画像と、前記位置姿勢情報と、前記第２の画像と、前記第２の位置姿勢情報とに基づいて算出される、
請求項１２に記載の情報処理方法。
前記深度は、測距デバイスによって測定される、
請求項１２に記載の情報処理方法。
前記第１の画像は、コンピュータグラフィックスによって生成された３次元モデルが配置された仮想空間における第１の視点を基準とした画像であり、
前記第２の画像は、前記仮想空間における第２の視点を基準とした画像であり、
前記第１の３次元点の座標および前記第２の３次元点の座標は、前記３次元モデルから取得される、
請求項１０に記載の情報処理方法。
前記学習は、前記重複領域から所定のオブジェクトが検出された領域を含んだオブジェクト領域が前記重複領域から除外されて得られた非オブジェクト領域に対応する特徴量と、前記非重複領域特徴量とに基づいて行われる、
請求項１に記載の情報処理方法。
前記情報処理方法は、
前記プロセッサが、前記第３の画像特徴量に基づいて、前記第３の画像を撮像したときの第３の撮像装置の第３の位置姿勢情報を推定することを含む、
請求項１に記載の情報処理方法。
前記プロセッサは、複数の画像それぞれの画像特徴量から、前記第３の画像特徴量との差分が小さい順に所定の数の画像特徴量を特定し、前記所定の数の画像特徴量それぞれに対応する第４の画像と、前記第３の画像とに基づいて、前記第３の位置姿勢情報を推定する、
請求項１７に記載の情報処理方法。
第１の画像と第２の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
前記第１の画像から抽出部によって抽出された第１の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
前記第１の画像特徴量のうち、前記第１の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
に基づく学習が行われ、
前記学習により前記抽出部が更新されて得られたモデルを備え、
前記モデルが、第３の画像から第３の画像特徴量を抽出する、
情報処理装置。
コンピュータに、
第１の画像と第２の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
前記第１の画像から抽出部によって抽出された第１の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
前記第１の画像特徴量のうち、前記第１の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
に基づく学習が行われ、
前記学習により前記抽出部が更新されて得られたモデルが、第３の画像から第３の画像特徴量を抽出することを実行させるためのプログラム。