JP2024077816A - 情報処理方法、情報処理装置およびプログラム - Google Patents

情報処理方法、情報処理装置およびプログラム Download PDF

Info

Publication number
JP2024077816A
JP2024077816A JP2022189993A JP2022189993A JP2024077816A JP 2024077816 A JP2024077816 A JP 2024077816A JP 2022189993 A JP2022189993 A JP 2022189993A JP 2022189993 A JP2022189993 A JP 2022189993A JP 2024077816 A JP2024077816 A JP 2024077816A
Authority
JP
Japan
Prior art keywords
image
learning
feature
information processing
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022189993A
Other languages
English (en)
Inventor
学 川島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Priority to JP2022189993A priority Critical patent/JP2024077816A/ja
Priority to PCT/JP2023/038556 priority patent/WO2024116665A1/en
Publication of JP2024077816A publication Critical patent/JP2024077816A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

【課題】学習によって得られたモデルによって画像から画像特徴量をより高精度に抽出する情報処理方法、情報処理装置及びプログラムを提供する。【解決手段】プロセッサにより実行される情報処理方法は、第1の画像と第2の画像との重複位置の有無が判断され、重複位置が有ると判断されたことに基づいて、第1の画像から抽出部によって抽出された第1の画像特徴量のうち、重複位置に応じた重複領域に対応する重複領域特徴量と、第1の画像特徴量のうち、第1の画像の重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、に基づく学習が行われ、学習により抽出部が更新されて得られたモデルが、第3の画像から第3の画像特徴量を抽出することを含む。【選択図】図3

Description

本開示は、情報処理方法、情報処理装置およびプログラムに関する。
近年、画像から特徴量を抽出する技術が利用される。例えば、画像から特徴量を抽出する技術は画像検索技術に利用される。画像検索技術においては、あらかじめDB(DataBase)に登録された複数のDB画像から、クエリ画像と類似するDB画像が検索される。このとき、クエリ画像から抽出された画像特徴量と、DB画像から抽出された画像特徴量とが近いか否かによって、クエリ画像とDB画像とが類似するか否かが判断される。
非特許文献1には、画像検索技術の一例が開示されている。非特許文献1に開示された画像検索技術では、DB画像が固定サイズを各々有する複数の領域に分割され、複数の領域それぞれから抽出された画像特徴量とクエリ画像から抽出された画像特徴量とが近いか否かによって、複数の領域それぞれとクエリ画像とが重複しているか否かが判断される。そして、DB画像のうちクエリ画像と重複すると判断された領域(以下、「オーバーラップ領域」とも言う。)がより優先的に学習に寄与するように用いられる。
なお、オーバーラップ領域は、DB画像のうちクエリ画像の一部または全部の領域と類似している領域である。
画像特徴量の抽出には、学習によって得られたモデルが用いられる。例えば、学習によって得られたモデルは、DNN(Deep Neural Network)などによって実現され得る。したがって、学習によって得られたモデルによって画像から画像特徴量をより高精度に抽出することは、一例として画像検索の精度を向上させることに寄与し得る。
そこで、学習によって得られたモデルによって画像から画像特徴量をより高精度に抽出することを可能とする技術が提供されることが望まれる。
本開示のある観点によれば、第1の画像と第2の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、前記第1の画像から抽出部によって抽出された第1の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、前記第1の画像特徴量のうち、前記第1の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、に基づく学習が行われ、前記学習により前記抽出部が更新されて得られたモデルが、第3の画像から第3の画像特徴量を抽出することを含む、プロセッサにより実行される情報処理方法が提供される。
また、本開示の別の観点によれば、第1の画像と第2の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、前記第1の画像から抽出部によって抽出された第1の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、前記第1の画像特徴量のうち、前記第1の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、に基づく学習が行われ、前記学習により前記抽出部が更新されて得られたモデルを備え、前記モデルが、第3の画像から第3の画像特徴量を抽出する、情報処理装置が提供される。
また、本開示の別の観点によれば、コンピュータに、第1の画像と第2の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、前記第1の画像から抽出部によって抽出された第1の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、前記第1の画像特徴量のうち、前記第1の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、に基づく学習が行われ、前記学習により前記抽出部が更新されて得られたモデルが、第3の画像から第3の画像特徴量を抽出することを実行させるためのプログラムが提供される。
本開示の実施形態に係る情報処理システムの構成例を示す図である。 画像検索の例について説明するための図である。 推論クエリ画像G3を撮像したときの撮像装置110のデバイス位置姿勢情報の推定の動作例を示す図である。 比較例に係る画像特徴量抽出DNNの学習手法について説明するための図である。 比較例が抱える課題について説明するための図である。 本発明の実施形態に係る画像特徴量抽出DNNの学習手法の流れを示す図である。 本発明の実施形態に係る画像特徴量抽出DNNの学習手法について説明するための図である。 本開示の実施形態に係る端末装置10の機能構成例を示す図である。 本開示の実施形態に係る推論装置30の機能構成例を示す図である。 画像検索部310の詳細構成例を示す図である。 特徴点照合部320の詳細構成例を示す図である。 本開示の実施形態に係る学習装置20の機能構成例を示す図である。 第1のオーバーラップ点抽出手法に係る3次元復元部210の詳細構成例を示す図である。 位置姿勢推定部212および深度推定部214それぞれが有する機能について説明するための図である。 第2のオーバーラップ点抽出手法に係る3次元復元部210の詳細構成例を示す図である。 3次元点群を斜め横から見た図である。 3次元点群を上から見た図である。 メッシュの例を示す図である。 メッシュ情報に基づいてオーバーラップ点を抽出する場合について説明するための図である。 比較例に係る特徴量抽出部530の詳細構成例を示す図である。 本発明の実施形態に係る特徴量抽出部230の詳細構成例を示す図である。 第1の変形例について説明するための図である。 第2の変形例について説明するための図である。 第3の変形例について説明するための図である。 第3の変形例に係るオーバーラップ領域および非オーバーラップ領域の例を示す図である。 情報処理装置900のハードウェア構成例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書および図面において、実質的に同一または類似の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一または類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
なお、説明は以下の順序で行うものとする。
0.概要
1.実施形態の詳細
1.1.端末装置の機能構成例
1.2.推論装置の機能構成例
1.3.学習装置の機能構成例
2.各種変形例
3.ハードウェア構成例
4.まとめ
<0.概要>
まず、図1~図7を参照しながら、本開示の実施形態の概要について説明する。
図1は、本開示の実施形態に係る情報処理システムの構成例を示す図である。図1に示されるように、本開示の実施形態に係る情報処理システム1は、端末装置10と、学習装置20と、推論装置30とを備える。端末装置10、学習装置20および推論装置30は、ネットワーク40にそれぞれ接続されており、ネットワーク40を介して相互に通信可能に構成されている。
まず、学習装置20は、学習に用いられるクエリ画像(以下、「学習クエリ画像」とも言う。)、および、学習に用いられる1または複数のDB画像(以下、「学習DB画像」とも言う。)に基づく学習により、推論に用いられるクエリ画像(以下、「推論クエリ画像」とも言う。)から画像特徴量を抽出するモデル(すなわち、画像特徴量抽出部)を生成する。推論クエリ画像は、第3の画像の例に該当し得る。本開示の実施形態においては、学習装置20によって生成されるモデルが、DNNによって実現される場合を主に想定する。しかし、モデルは、他の機械学習アルゴリズムを用いた学習によって生成されてもよい。学習装置20は、学習によって生成したモデルを、ネットワーク40を介して推論装置30に送信する。推論装置30は、学習装置20から送信されたモデルを、ネットワーク40を介して受信する。
推論装置30は、DBを有している。DBには、推論に用いられる1または複数のDB画像(以下、「推論DB画像」とも言う。)があらかじめ登録されている。以下の説明においては、1または複数の推論DB画像を「全推論DB画像」と言う場合がある。
その他、DBには、各推論DB画像に対応付けられて、推論DB画像から抽出された画像特徴量、および、推論DB画像を撮像したときの撮像装置の位置および姿勢を示す情報が登録されている。以下の説明においては、位置および姿勢を、「位置姿勢」とも表記する。また、以下の説明においては、画像を撮像したときの撮像装置の位置姿勢情報を、単に「画像に対応するデバイス位置姿勢情報」とも言う。
端末装置10は、撮像装置を有している。端末装置10は、撮像装置によって撮像された推論クエリ画像を、ネットワーク40を介して推論装置30に送信する。推論装置30は、ネットワーク40を介して推論クエリ画像を受信する。そして、推論装置30は、推論クエリ画像と各推論DB画像との類似度を推定し、類似度に基づいて推論クエリ画像と類似する推論DB画像を検索する画像検索を実行する。図2を参照しながら画像検索の例について簡単に説明する。
図2は、画像検索の例について説明するための図である。図2を参照すると、現実空間に特徴点F101~F103が存在している。また、各推論DB画像と、各推論DB画像から抽出された画像特徴量と、各推論DB画像に対応するデバイス位置姿勢情報とがあらかじめ登録されている。推論装置30は、推論クエリ画像G3から画像特徴量を抽出し、推論クエリ画像G3から抽出された画像特徴量と各推論DB画像から抽出された画像特徴量との差分を算出する。
なお、特徴量同士の差分は、画像特徴量を表現するベクタ同士の差分であってよい。推論装置30は、推論クエリ画像G3から抽出された画像特徴量との差分が小さい画像特徴量が抽出される推論DB画像ほど上位に位置するように1または複数の推論DB画像の順位付けを行う。
位置姿勢C3の撮像装置110によって撮像された推論クエリ画像G3には、特徴点F101~F103に対応する特徴点F301~F303が写っている。そして、位置姿勢C4の撮像装置814によって撮像された推論DB画像G4には、特徴点F101~F103に対応する特徴点F401~F403が写っている。なお、撮像装置110と撮像装置814とは、異なる撮像装置であってもよいし、異なるタイミングで撮像を行った同じ撮像装置であってもよい。
このとき、推論クエリ画像G3に写る特徴点F301~F303と、推論DB画像G4に写る特徴点F401~F403とは、現実空間に存在する同一の特徴点F101~F103に対応しているため、推論クエリ画像G3から抽出された画像特徴量と、推論DB画像G4から抽出された画像特徴量との差分は小さくなり、推論DB画像G4は、推論装置30によって付される順位において上位に位置すると考えられる。
そして、推論装置30は、全推論DB画像から抽出された画像特徴量から、推論クエリ画像から抽出された画像特徴量との差分が小さい順に所定の数の画像特徴量を特定する。以下の説明においては、所定の数の画像特徴量それぞれに対応する推論DB画像を「高順位推論DB画像」とも言う。
続いて、図3を参照しながら、推論クエリ画像G3を撮像したときの撮像装置110のデバイス位置姿勢情報の推定について説明する。
図3は、推論クエリ画像G3を撮像したときの撮像装置110のデバイス位置姿勢情報の推定の動作例を示す図である。図3に示されるように、推論クエリ画像に基づく画像検索が実行される(S11)。上記したように、画像検索においては、推論装置30によって推論クエリ画像に対応する高順位推論DB画像がDBから取得される。
続いて、推論装置30は、推論クエリ画像と高順位推論DB画像との間において特徴点の照合を行う(S12)。これによって、推論クエリ画像と高順位推論DB画像との間における対応する画素同士が対応点ペアとして得られる。
続いて、推論装置30は、推論クエリ画像と高順位推論DB画像との間における対応点ペアの2次元座標と、対応点ペアのうち高順位推論DB画像における特徴点の3次元座標とに基づいて、高順位推論DB画像を撮像したときの撮像装置のデバイス位置姿勢を基準とした推論クエリ画像を撮像したときの撮像装置の相対的な位置姿勢を推定する(S13)。
推論装置30は、高順位推論DB画像に対応するデバイス位置姿勢情報と、推論クエリ画像を撮像したときの撮像装置の相対的な位置姿勢とに基づいて、推論クエリ画像を撮像したときの撮像装置のデバイス位置姿勢を推定する。例えば、一連のデバイス位置姿勢情報の推定動作は、自己位置推定(SLAM:Simultaneous Localization and Mapping)システムのrelocalize処理に該当する。
推論装置30は、推論クエリ画像に対応するデバイス位置姿勢情報を、ネットワーク40を介して端末装置10に送信する。端末装置10は、ネットワーク40を介してデバイス位置姿勢情報を受信する。端末装置10は、受信したデバイス位置姿勢情報を用いて各種の処理を実行することが可能である。
このようにしてデバイス位置姿勢を提供するサービスは、VPS(Visual Positioning System)とも称され、学習装置20および推論装置30によりクラウドサービスとして端末装置10に提供され得る。
ここで、端末装置10は、スマートフォンなどであってもよい。このとき、端末装置10においては、デバイス位置姿勢情報に基づいて、現実空間にAR(Augmented Reality)オブジェクトを高精度に重畳させるARアプリケーションが利用され得る。あるいは、端末装置10は、自律移動体(例えば、ドローンなど)などであってもよい。このとき、自律移動体は、デバイス位置姿勢情報に基づく移動を行い得る。
学習装置20によって生成されるモデルは、DNNによって実現され、モデルによって推論クエリ画像および各推論DB画像から画像特徴量が抽出される。以下では、画像から画像特徴量を抽出するDNNを「画像特徴量抽出DNN」とも言う。この画像特徴量抽出DNNの学習には対照学習(Contrastive Learning)が用いられる。ここで、図4および図5を参照しながら、比較例に係る画像特徴量抽出DNNの学習手法について説明する。
図4は、比較例に係る画像特徴量抽出DNNの学習手法について説明するための図である。図4を参照すると、学習クエリ画像G2および学習DB画像G1が示されている。学習装置20は、学習クエリ画像G2をDNNに入力したことに基づいて、DNNから出力された画像特徴量E2を得る。さらに、学習装置20が、学習DB画像G1をDNNに入力したことに基づいて、DNNから出力された画像特徴量E1を得る。
特徴量空間Eには、学習クエリ画像G2から抽出された画像特徴量E2が存在している。さらに、特徴量空間Eには、学習DB画像G1から抽出された画像特徴量E1が存在している。
比較例において、学習DB画像G1に真値ラベルが付されている場合には、学習DB画像G1から抽出された画像特徴量E1が学習クエリ画像G2から抽出された画像特徴量E2に近づくように(画像特徴量E1が方向D1に移動するように)DNNが学習される。一方、学習DB画像G1に真値ラベルが付されていない場合には、学習DB画像G1から抽出された画像特徴量E1が学習クエリ画像G2から抽出された画像特徴量E2から遠ざかるように(画像特徴量E1が方向D2に移動するように)DNNが学習される。
図5は、比較例が抱える課題について説明するための図である。図5に示された例では、学習DB画像G1のうち学習クエリ画像G2と学習DB画像G1とのオーバーラップ領域G11と、学習DB画像G1のうちオーバーラップ領域G11以外の領域である非オーバーラップ領域G12とが示されている。比較例においては、学習DB画像G1の正解または不正解を事前に知る必要があるため、真値ラベルを作成するための人的コストが掛かってしまうという第1の課題がある。
さらに、学習DB画像G1が正解である場合に、学習DB画像G1のうち学習クエリ画像G2との非オーバーラップ領域G12に対応する画像特徴量が、学習クエリ画像G2に対応する画像特徴量に近づくようにDNNが学習されてしまう。そのため、比較例では、DNNの学習に混乱が生じ、DNNの学習が効果的に進まなくなってしまうという第2の課題がある。
続いて、図6および図7を参照しながら、本発明の実施形態に係る画像特徴量抽出DNNの学習手法について説明する。
図6は、本発明の実施形態に係る画像特徴量抽出DNNの学習手法の流れを示す図である。図6を参照すると、学習クエリ画像G2および学習DB画像G1が示されている。本発明の実施形態においては、一例として、学習装置20が、学習クエリ画像G2および学習DB画像G1に関連する3次元情報に基づいて、学習クエリ画像G2と学習DB画像G1との間におけるオーバーラップ領域を抽出する。これによって、比較例が抱える課題を解決し得る。
例えば、画像のみから3次元情報を抽出する場合には、学習クエリ画像G2および学習DB画像G1から3次元モデルを生成する3次元復元技術がオーバーラップ領域の判定に用いられ得る。すなわち、3次元復元(S21)の過程において得られる重複位置(以下、「オーバーラップ点」とも言う。)に基づいてオーバーラップ領域が判定され得る。
図7は、本発明の実施形態に係る画像特徴量抽出DNNの学習手法について説明するための図である。図7を参照すると、学習DB画像G1からオーバーラップ点Q1が抽出されており、オーバーラップ点Q1に基づいてオーバーラップ領域G11および非オーバーラップ領域G12が抽出されている。そして、領域分割S31により、学習DB画像G1に対応する画像特徴量が、オーバーラップ領域G11に対応する画像特徴量E11および非オーバーラップ領域G12に対応する画像特徴量E12に分割されている。
本発明の実施形態において、学習装置20は、オーバーラップ領域に対応する画像特徴量E11が、学習クエリ画像G2から抽出された画像特徴量E2に近づくように(画像特徴量E11が方向D11に移動するように)DNNが学習される。一方、オーバーラップ領域に対応する画像特徴量E12が学習クエリ画像G2から抽出された画像特徴量E2から遠ざかるように(画像特徴量E12が方向D12に移動するように)DNNが学習される。
これにより、本発明の実施形態においては、学習装置20が、オーバーラップ領域G11に対して自動的に真値ラベルを付することができる。これによって、真値ラベルを作成するための人的コストが掛かってしまうという第1の課題が解決され得る。
さらに、本発明の実施形態においては、オーバーラップ領域G11から抽出される画像特徴量が学習クエリ画像G2から抽出される画像特徴量に近づくように、かつ、非オーバーラップ領域G12から抽出される画像特徴量が学習クエリ画像G2から抽出される画像特徴量から遠ざかるように学習される。これにより、DNNの学習に混乱が生じ、DNNの学習が効果的に進まなくなってしまうという第2の課題が解決され得る。
以上、本開示の実施形態の概要について説明した。
<1.実施形態の詳細>
続いて、本開示の実施形態について詳細に説明する。
(1.1.端末装置の機能構成例)
続いて、図8を主に参照しながら、本開示の実施形態に係る端末装置10の機能構成例について説明する。
図8は、本開示の実施形態に係る端末装置10の機能構成例を示す図である。図8に示されるように、本開示の実施形態に係る端末装置10は、撮像装置110と、操作部120と、制御部130と、記憶部150と、提示部160とを備える。
(撮像装置110)
撮像装置110は、ユーザによって入力される所定の撮像開始操作に基づいて、現実空間における撮像装置110の位置および姿勢に応じて定まる撮像範囲を撮像することにより推論クエリ画像を得る。撮像装置110は、推論クエリ画像を制御部130に出力する。撮像装置110が、推論クエリ画像を制御部130に出力すると、推論クエリ画像に応じた処理が制御部130によって実行される。
(操作部120)
操作部120は、ユーザによって入力される各種操作を受け付ける機能を有する。例えば、操作部120は、タッチパネルまたはボタンなどといった入力デバイスにより構成されていてもよい。操作部120は、ユーザによって入力された操作を制御部130に出力する。操作部120が、かかる操作を制御部130に出力すると、かかる操作に応じた処理が制御部130によって実行され得る。
(制御部130)
制御部130は、例えば、1または複数のCPU(Central Processing Unit;中央演算処理装置)などによって構成されていてよい。制御部130がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。制御部130は、かかる処理装置によってプログラムが実行されることによって実現され得る。
例えば、制御部130は、推論クエリ画像が撮像装置110から入力されると、推論クエリ画像が推論装置30に送信されるように図示しない通信部を制御する。また、制御部130は、推論装置30から図示しない通信部によってデバイス位置姿勢情報が受信されると、デバイス位置姿勢情報に基づいてARオブジェクトを拡張現実空間に配置するように提示部160を制御する。
(記憶部150)
記憶部150は、メモリを含んで構成され、制御部130によって実行されるプログラムを記憶したり、このプログラムの実行に必要なデータを記憶したりする記録媒体である。また、記憶部150は、制御部130による演算のためにデータを一時的に記憶する。記憶部150は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスなどにより構成される。
(提示部160)
提示部160は、制御部130による制御に従って各種情報をユーザに提示する。例えば、提示部160は、ディスプレイによって構成され、制御部130による制御に従って、ARオブジェクトを表示する。
以上、本開示の実施形態に係る端末装置10の機能構成例について説明した。
(1.2.推論装置の機能構成例)
続いて、図9~図11を主に参照しながら、本開示の実施形態に係る推論装置30の機能構成例について説明する。
図9は、本開示の実施形態に係る推論装置30の機能構成例を示す図である。図9に示されるように、本開示の実施形態に係る推論装置30は、制御部300と、メモリ390とを備える。また、制御部300は、画像検索部310と、特徴点照合部320と、相対位置姿勢推定部330と、デバイス位置姿勢推定部340とを備える。
(制御部300)
制御部300は、例えば、1または複数のCPU(Central Processing Unit;中央演算処理装置)などによって構成されていてよい。制御部300がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。制御部300は、かかる処理装置によってプログラムが実行される。
制御部300は、学習により更新されて得られたモデルにより、推論クエリ画像から画像特徴量(第3の画像特徴量)を抽出する。そして、制御部300は、推論クエリ画像から抽出された画像特徴量に基づいて、推論クエリ画像を撮像したときの撮像装置110(第3の撮像装置)のデバイス位置姿勢情報(第3の位置姿勢情報)を推定する。
より詳細に、制御部300は、各推論DB画像の画像特徴量から、推論クエリ画像から抽出された画像特徴量との差分が小さい順に所定の数の画像特徴量を高順位推論DB画像として特定する。そして、制御部300は、高順位推論DB画像(第4の画像)と、推論クエリ画像とに基づいて、推論クエリ画像を撮像したときの撮像装置110のデバイス位置姿勢情報を推定する。
一例として、制御部300は、高順位推論DB画像から、推論クエリ画像の第1の特徴点における画素特徴量との差分が最も小さい画素特徴量を有する第2の特徴点を特定する。そして、制御部300は、推論クエリ画像における第1の特徴点の2次元座標と、高順位推論DB画像における第2の特徴点の2次元座標と、第2の特徴点の3次元位置情報と、高順位推論DB画像に対応するデバイス位置姿勢情報とに基づいて、推論クエリ画像を撮像したときの撮像装置110のデバイス位置姿勢情報を推定する。
(メモリ390)
メモリ390は、制御部300によって実行されるプログラムを記憶したり、このプログラムの実行に必要なデータ(各種データベースなど)を記憶したりする記録媒体である。また、メモリ390は、制御部300による演算のためにデータを一時的に記憶する。メモリ390は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスなどにより構成される。
(画像検索部310)
図10は、画像検索部310の詳細構成例を示す図である。図10に示されるように、画像検索部310は、画像特徴量抽出部312と、画像特徴量照合部314とを備える。なお、一例として、画像特徴量抽出部312は、学習装置20から送信されて、推論装置30の図示しない通信部によって受信されたモデルであり得る。
画像特徴量抽出部312は、端末装置10が備える撮像装置110から推論クエリ画像を取得する。さらに、画像特徴量抽出部312は、推論クエリ画像から画像特徴量を抽出する。
画像特徴量照合部314は、メモリ390から各推論DB画像から抽出された画像特徴量を取得する。そして、画像特徴量照合部314は、推論クエリ画像から抽出された画像特徴量と各推論DB画像から抽出された画像特徴量との差分を算出する。画像特徴量照合部314は、推論クエリ画像から抽出された画像特徴量との差分が小さい画像特徴量が抽出される推論DB画像ほど上位に位置するように全推論DB画像の順位付けを行う。
画像特徴量照合部314は、全推論DB画像から抽出された画像特徴量から、推論クエリ画像から抽出された画像特徴量との差分が小さい順に所定の数の画像特徴量を特定する。所定の数の画像特徴量それぞれに対応する推論DB画像は、高順位推論DB画像である。
(特徴点照合部320)
図11は、特徴点照合部320の詳細構成例を示す図である。図11に示されるように、特徴点照合部320は、画素特徴量抽出部322と、画素特徴量照合部324とを備える。
画素特徴量抽出部322は、端末装置10が備える撮像装置110から推論クエリ画像を取得する。さらに、画素特徴量抽出部322は、推論クエリ画像から画素特徴量を抽出する。より詳細に、画素特徴量抽出部322は、推論クエリ画像から複数の特徴点を検出し、複数の特徴点それぞれに関して特徴点の周辺画素情報に基づいて特徴点における画素特徴量を算出する。特徴点の検出および画素特徴量の抽出には公知の手法、たとえばSIFT(Scale-Invariant Feature Transform)が用いられてもよいし、DNN手法が用いられてもよい。
画素特徴量照合部324は、メモリ390から各高順位推論DB画像から抽出された画素特徴量を取得する。そして、画素特徴量照合部324は、推論クエリ画像から抽出された特徴点(第1の特徴点)と、高順位推論DB画像から抽出された特徴点(第2の特徴点)との間において、画素特徴量同士の差分の最も小さい二つの特徴点を対応点ペアとして特定する。
(相対位置姿勢推定部330)
相対位置姿勢推定部330は、対応点ペアそれぞれの2次元座標と、対応点ペアのうち高順位推論DB画像における特徴点の3次元座標とに基づいて、高順位推論DB画像に対応するデバイス位置姿勢情報を基準とした、推論クエリ画像を撮像したときの撮像装置110の相対的な位置姿勢情報を推定する。撮像装置110の相対的な位置姿勢情報を推定する手法としては、公知の手法であるPnPアルゴリズムなどが用いられる。
(デバイス位置姿勢推定部340)
デバイス位置姿勢推定部340は、推論DB画像に対応するデバイス位置姿勢情報と、高順位推論DB画像に対応するデバイス位置姿勢情報を基準とした、推論クエリ画像を撮像したときの撮像装置の相対的な位置姿勢情報とに基づいて、推論クエリ画像に対応するデバイス位置姿勢情報を推定する。例えば、推論クエリ画像に対応するデバイス位置姿勢情報は、端末装置10に提供され得る。
以上、本開示の実施形態に係る推論装置30の機能構成例について説明した。
(1.3.学習装置の機能構成例)
続いて、図12~図21を主に参照しながら、本開示の実施形態に係る学習装置20の機能構成例について説明する。
図12は、本開示の実施形態に係る学習装置20の機能構成例を示す図である。図12に示されるように、本開示の実施形態に係る学習装置20は、制御部200と、メモリ290とを備える。また、制御部200は、3次元復元部210と、オーバーラップ点抽出部220と、特徴量抽出部230と、学習ロス計算部240と、領域判定部250と、更新部260とを備える。
(制御部200)
制御部200は、例えば、1または複数のCPU(Central Processing Unit;中央演算処理装置)などによって構成されていてよい。制御部200がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。制御部200は、かかる処理装置によってプログラムが実行されることによって実現され得る。
(メモリ290)
メモリ290は、制御部200によって実行されるプログラムを記憶したり、このプログラムの実行に必要なデータ(各種データベースなど)を記憶したりする記録媒体である。また、メモリ290は、制御部200による演算のためにデータを一時的に記憶する。メモリ290は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスなどにより構成される。
メモリ290には、学習クエリ画像、および、学習に用いられる1または複数の学習DB画像が、あらかじめ記憶されている。以下の説明においては、1または複数の学習DB画像を「全学習DB画像」と言う場合がある。また、学習クエリ画像と全学習DB画像とを合わせた画像群を、「全学習画像」と言う場合がある。各学習DB画像は、第1の画像の例に該当し得る。学習クエリ画像は、第2の画像の例に該当し得る。
後にも説明するように、学習クエリ画像と学習DB画像とのオーバーラップ点(重複位置)が抽出されるが、オーバーラップ点を抽出する手法の例として、第1のオーバーラップ点抽出手法と、第2のオーバーラップ点抽出手法とが挙げられる。まず、図13および図14を参照しながら、第1のオーバーラップ点抽出手法について説明する。
(第1のオーバーラップ点抽出手法)
図13は、第1のオーバーラップ点抽出手法に係る3次元復元部210の詳細構成例を示す図である。3次元復元部210は、全学習画像に基づいて3次元モデルを生成する。3次元モデルの生成には、公知の手法である3次元復元技術が適用され得る。この3次元モデルが生成される過程において全学習画像に関連する3次元情報が得られるため、かかる3次元情報に基づいてオーバーラップ点が抽出され得る。
第1のオーバーラップ点抽出手法において、オーバーラップ点の抽出に用いられる3次元情報は、全学習画像を構成する各2画像間の疎らな対応点ペアに基づいて算出される、3次元特徴点群を含み得る。
図13に示されるように、3次元復元部210は、位置姿勢推定部212と、深度推定部214と、点群生成部216と、メッシュ生成部217とを備える。ここで、図14を参照しながら、位置姿勢推定部212および深度推定部214それぞれが有する機能について説明する。
図14は、位置姿勢推定部212および深度推定部214それぞれが有する機能について説明するための図である。位置姿勢推定部212は、全学習画像に基づいて、各学習画像に対応するデバイス位置姿勢情報を推定するとともに、現実空間に存在する3次元特徴点群、および、全学習画像を構成する各2画像間の疎らな対応点ペア(Covisibility graph)を算出する。
このように、全学習画像に基づいて、各学習画像に対応するデバイス位置姿勢情報を推定し、3次元特徴点群および対応点ペアを算出する手法としては、公知の手法であるSfM(Structure from Motion)などが適用され得る。図14に示された例では、全学習画像に、学習DB画像G1と学習クエリ画像G2とが含まれる場合が想定されている。なお、原点C1は、撮像装置811の視点であり、原点C2は、撮像装置812の視点である。
ここで、位置姿勢推定部212が、各学習画像に対応するデバイス位置姿勢情報を推定し、3次元特徴点群および対応点ペアを算出する手法の例について簡単に説明する。まず、位置姿勢推定部212は、学習DB画像G1と学習クエリ画像G2とに基づいて、学習DB画像G1と学習クエリ画像G2との間の対応点ペアを算出する。ここで、対応点ペアを算出する手法は限定されない。
一例として、位置姿勢推定部212は、学習DB画像G1および学習クエリ画像G2それぞれから画素特徴量を抽出してもよい。そして、位置姿勢推定部212は、学習DB画像G1の各画素の画素特徴量と学習クエリ画像G2の各画素の画素特徴量との照合を行うことにより、学習DB画像G1と学習クエリ画像G2とにおいて画素特徴量の差分が最も小さい画素同士を対応点ペアとして算出してもよい。
図14に示された例では、学習DB画像G1における特徴点F11と、学習クエリ画像G2における特徴点F21との組み合わせが対応点ペアである。また、学習DB画像G1における特徴点F12と、学習クエリ画像G2における特徴点F22との組み合わせも対応点ペアである。さらに、学習DB画像G1における特徴点F13と、学習クエリ画像G2における特徴点F23との組み合わせも対応点ペアである。
さらに、位置姿勢推定部212は、対応点ペアに基づいて、学習DB画像G1を撮像したときの撮像装置811(第1の撮像装置)の位置姿勢情報(第1の位置姿勢情報)と、学習クエリ画像G2を撮像したときの撮像装置812(第2の撮像装置)の位置姿勢情報(第2の位置姿勢情報)と、3次元特徴点群F1~F3とを、三角測量によって仮の計算結果として算出する。そして、位置姿勢推定部212は、全学習画像を構成する他の2画像間において同様にして仮の計算を行い、各2画像間において仮の計算結果の辻褄が合うように、バンドル調整(Bundle Adjustment)により、各学習画像に対応するデバイス位置姿勢情報と、3次元特徴点群と、対応点ペアとを更新する。更新後の対応点ペアは、上記した疎らな対応点ペアに該当する。
深度推定部214は、全学習画像と、各学習画像に対応するデバイス位置姿勢情報と、3次元特徴点群と、疎らな対応点ペアとに基づいて、各学習画像における画素ごとの深度と、全学習画像を構成する各2画像間の密な対応点ペア(Consistency graph)とを算出する。
このように、全学習画像と、各学習画像に対応するデバイス位置姿勢情報と、3次元特徴点群と、疎らな対応点ペアとに基づいて、各学習画像における画素ごとの深度を算出する手法としては、公知の手法であるMVS(Multi View Stereo)などが適用され得る。
ここで、深度推定部214が、各学習画像における画素ごとの深度を算出する手法の例について簡単に説明する。まず、深度推定部214は、全学習画像と、3次元特徴点群と、疎らな対応点ペアとに基づいて、同じ3次元特徴点が写った2画像のペアを選択する。
このとき、2画像間のなす角度が小さすぎると、三角測量による画素ごとの深度が高精度に算出されないことも想定される。そのため、深度推定部214は、2画像それぞれに対応するデバイス位置姿勢情報と、3次元特徴点群とに基づいて、2画像間のなす角度を算出し、2画像間のなす角度に対してあらかじめ決められた角度以上であるという制限を付してもよい。換言すると、深度推定部214は、互いのなす角度があらかじめ決められた角度未満である2画像を選択しなくてもよい。
そして、深度推定部214は、2画像間においてブロックマッチングによる画素照合を行い、2画像間における画素ごとの対応点ペアを算出する。ここで算出される対応点ペアは、上記した密な対応点ペアに該当する。
図14に示された例では、学習DB画像G1における点N34と、学習クエリ画像G2における点N44との組み合わせが対応点ペアであり、3次元点N4に対応する。また、学習DB画像G1における点N35と、学習クエリ画像G2における点N45との組み合わせも対応点ペアであり、3次元点N5に対応する。さらに、学習DB画像G1における点N36と、学習クエリ画像G2における点N46との組み合わせも対応点ペアであり、3次元点N6に対応する。
深度推定部214は、各学習画像に対応するデバイス位置姿勢情報と、密な対応点ペアとに基づいて、三角測量により、各学習画像における画素ごとの深度を算出する。図14には、撮像装置811の原点C1から撮像装置811の正面方向に学習DB画像G1における深度方向T1が示されている。また、学習DB画像G1の点N35における撮像装置811の原点C1(基準位置)を基準とした深度t1が示されている。
深度推定部214は、各学習画像における画素ごとの深度を、点群生成部216に出力する。さらに、深度推定部214は、各学習画像に対応するデバイス位置姿勢情報を、点群生成部216に出力する。一方、深度推定部214は、密な対応点ペアを、オーバーラップ点抽出部220に出力する。
点群生成部216は、各学習画像における画素ごとの深度と、各学習画像に対応するデバイス位置姿勢情報とに基づいて、各学習画像における画素ごとの深度を統合することにより、3次元点群を生成する。このように各画像における画素ごとの深度を統合して3次元点群を得る手法は、Fusionとも言われる。
メッシュ生成部217は、点群生成部216によって生成された3次元点群に基づいて、メッシュを生成する。メッシュ生成部217によるメッシュの生成には、公知の手法である各種のメッシュ生成技術が適用され得る。
オーバーラップ点抽出部220は、学習クエリ画像と各学習DB画像とのオーバーラップ点の有無を判断する。より詳細に、オーバーラップ点抽出部220は、全学習画像に関連する3次元情報に基づいて、学習クエリ画像と各学習DB画像とのオーバーラップ点の有無を判断する。
第1のオーバーラップ点抽出手法において、オーバーラップ点抽出部220は、深度推定部214から密な対応点ペアを取得する。そして、オーバーラップ点抽出部220は、かかる対応点に基づいて、学習DB画像における画素のうち、学習クエリ画像における画素との対応点となっている画素をオーバーラップ点として抽出する。
オーバーラップ点抽出部220は、学習DB画像からオーバーラップ点が抽出されれば、その学習DB画像と学習クエリ画像とのオーバーラップ点が有ると判断する。一方、オーバーラップ点抽出部220は、学習DB画像からオーバーラップ点が抽出されなければ、その学習DB画像と学習クエリ画像とのオーバーラップ点が無いと判断する。
なお、オーバーラップ点抽出部220は、深度推定部214から取得した、密な対応点ペアから、誤検出された対応点をノイズ点として除去し、除去されなかった対応点に基づいてオーバーラップ点を抽出してもよい。例えば、着目画素を中心とした所定の範囲内(例えば、着目画素を中心とした3×3画素の範囲など)における対応点の数が閾値以下である場合に、その着目画素がノイズ点であると判断されてもよい。
(第2のオーバーラップ点抽出手法)
続いて、図15~図19を参照しながら、第2のオーバーラップ点抽出手法について説明する。
図15は、第2のオーバーラップ点抽出手法に係る3次元復元部210の詳細構成例を示す図である。第2のオーバーラップ点抽出手法においても、第1のオーバーラップ点抽出手法と同様に、3次元復元部210は、全学習画像に基づいて3次元モデルを生成する。第2のオーバーラップ点抽出手法においても、この3次元モデルが生成される過程において全学習画像に関連する3次元情報が得られるため、かかる3次元情報に基づいてオーバーラップ点が抽出され得る。
図15に示されるように、第2のオーバーラップ点抽出手法において、位置姿勢推定部212は、各学習画像に対応するデバイス位置姿勢情報をオーバーラップ点抽出部220に出力する。さらに、メッシュ生成部217は、生成したメッシュをオーバーラップ点抽出部220に出力する。
ここで、第2のオーバーラップ点抽出手法において、オーバーラップ点の抽出に用いられる3次元情報は、各学習DB画像に対応するデバイス位置姿勢情報と、学習クエリ画像に対応するデバイス位置姿勢情報とに基づく情報を含み得る。
より詳細に、各学習DB画像に対応するデバイス位置姿勢情報と、学習クエリ画像に対応するデバイス位置姿勢情報とに基づく情報は、現実空間における3次元点(第1の3次元点)の座標と、現実空間における3次元点(第2の3次元点)の座標とを含み得る。また、オーバーラップ点の抽出に用いられる3次元情報は、これらの3次元点における物体表面に対する法線方向を含み得る。
現実空間における3次元点群および3次元点における物体表面に対する法線方向は、メッシュ生成部217によって生成されるメッシュに含まれる。オーバーラップ点抽出部220は、メッシュ生成部217によって生成されたメッシュと、各学習画像に対応するデバイス位置姿勢情報とに基づいて、オーバーラップ点を抽出する。
図16は、3次元点群を斜め横から見た図である。図16を参照すると、3次元点N51および3次元点N56が現実空間に存在する。3次元点N51の座標および3次元点N56の座標は、メッシュ生成部217からオーバーラップ点抽出部220に出力されるメッシュに含まれる。
さらに、図16を参照すると、学習DB画像G1を撮像した撮像装置811が示されている。学習DB画像G1を撮像したときの撮像装置811のデバイス位置姿勢情報は、位置姿勢推定部212からオーバーラップ点抽出部220に出力される。また、撮像装置811の正面方向と逆方向を正面方向とする撮像装置812も示されている。
ここで、撮像装置811から正面方向に焦点距離だけ離れた位置にある、当該正面方向に対する垂直面に対して、現実空間から学習DB画像G1が投影されるとする。オーバーラップ点抽出部220は、学習DB画像G1における画素g3の四隅に向けて撮像装置811の原点C1から引いた直線によって囲まれる四角錐p1(原点C1が頂点であり、重心線L1が軸であり、面b1が底面である四角錐)を計算する。
図17は、3次元点群を上から見た図である。図17には、学習DB画像の四隅に向けて撮像装置811の原点C1から引いた直線によって囲まれる四角錐P1が示されている。四角錐P1の内部には、3次元点N51~N58が存在している。
このとき、オーバーラップ点抽出部220は、原点C1から見てその四角錐P1の内部に最初に出現する3次元点N51~N58の全部を、撮像装置811からの可視点として計算することも考えられる。しかし、3次元点N52から原点C1に向かう方向と3次元点N52における物体表面に対する法線方向とのなす角度は90度以上であるため、3次元点N52は、原点C1から見えないことが想定され得る。3次元点N53、N55、N57、N58も同様に、原点C1から見えないことが想定され得る。
そこで、オーバーラップ点抽出部220は、3次元点から原点C1に向かう方向と3次元点における物体表面に対する法線方向とのなす角度が90度以上である場合に、その3次元点を撮像装置811からの可視点としないのが望ましい。これによって、可視点に基づいてオーバーラップ点が誤抽出されてしまう可能性が低減され得る。なお、3次元点における物体表面に対する法線方向も、メッシュ生成部217から出力されるメッシュに含まれ得る。
図18は、メッシュの例を示す図である。図18を参照すると、3次元点N61~N63を含んだメッシュが示されている。3次元点N61~N63それぞれは、頂点(Vertex)とも表現され得る。また、3次元点N61~N63の各2点間を結ぶ線分W12、W23、W31が示されている。3次元点N61~N63における物体表面に対する法線方向V1~V3もメッシュに含まれ得る。
図19は、メッシュ情報に基づいてオーバーラップ点を抽出する場合について説明するための図である。図19に示された例において、四角錐P1の内部には、3次元点N61~N72が存在している。また、3次元点N61~N72における物体表面に対する法線方向V1~V12も示されている。
ここで、3次元点N61から原点C1に向かう方向と3次元点N61における物体表面に対する法線方向V1とのなす角度は90度以上である。したがって、オーバーラップ点抽出部220は、3次元点N61を撮像装置811からの可視点としなくてよい。同様に、オーバーラップ点抽出部220は、3次元点N62、N63、N65、N67、N69、N70~N72を撮像装置811からの可視点としなくてよい。一方、オーバーラップ点抽出部220は、3次元点N64、N66、N68を可視点としてよい。
同様にして、3次元点N65、N67、N69が撮像装置812からの可視点とされてよい。そして、オーバーラップ点抽出部220は、撮像装置811からの可視点と撮像装置812からの可視点との間に同一の3次元点が含まれる場合に、その3次元点を撮像装置811によって撮像された学習DB画像と撮像装置812によって撮像された学習クエリ画像とのオーバーラップ点として抽出してよい。
このようにして、オーバーラップ点抽出部220は、各学習DB画像と学習クエリ画像とのオーバーラップ点を抽出する。オーバーラップ点抽出部220は、抽出したオーバーラップ点をメモリ290に記憶させる。メモリ290に記憶されたオーバーラップ点は、領域判定部250によって取得され、オーバーラップ点に応じたオーバーラップ領域が領域判定部250によって判定される。
本発明の実施形態においては、領域判定部250によって判定されたオーバーラップ領域、および、非オーバーラップ領域に基づく学習が行われる。かかる学習によって得られたモデルによれば、推論クエリ画像から画像特徴量がより高精度に抽出されるようになる。まず、本発明の実施形態に係る学習手法の優位性を理解しやすくするため、図20を参照しながら、比較例に係る学習手法の例について説明する。
(比較例に係る特徴量抽出部530)
図20は、比較例に係る特徴量抽出部530の詳細構成例を示す図である。特徴量抽出部530は、DNNによって構成されている。図20に示されるように、比較例に係る特徴量抽出部530は、学習クエリ画像特徴量抽出部231と、学習DB画像特徴量抽出部534とを備える。学習クエリ画像特徴量抽出部231は、画素特徴量抽出部232と、合算処理部233とを備える。一方、学習DB画像特徴量抽出部534は、画素特徴量抽出部235と、合算処理部539とを備える。
画素特徴量抽出部232は、CNN(Convolutional Neural Network)によって構成されている。例えば、画素特徴量抽出部232は、メモリ290から学習クエリ画像を取得し、学習クエリ画像を構成する各画素(または低解像度化後の各画素)の画素特徴量を抽出する。かかる画素特徴量は、ベクタにより表現され得る。
合算処理部233は、Pooling層によって構成されている。例えば、合算処理部233は、画素特徴量抽出部232によって学習クエリ画像から抽出された各画素の画素特徴量を合算することにより、学習クエリ画像の画像特徴量(第2の画像特徴量)を生成する。
ここで、画素特徴量を合算する手法としては、様々な手法が想定され得る。例えば、画素特徴量を合算する手法は、各画素の画素特徴量の最大値を代表値として出力する手法であってもよいし、各画素の画素特徴量に対してクラスタリングを行い、クラスタごとに画素特徴量を合算し、クラスタごとの合算値をつなぎ合わせて一つのベクトルとする手法であってもよいし、他の公知の手法であってもよい。
画素特徴量抽出部235は、画素特徴量抽出部232と同様に、CNNによって構成されている。例えば、画素特徴量抽出部235は、メモリ290から学習DB画像を取得し、学習DB画像を構成する各画素(または低解像度化後の各画素)の画素特徴量を抽出する。かかる画素特徴量は、ベクタにより表現され得る。
合算処理部539は、合算処理部233と同様に、Pooling層によって構成されている。例えば、合算処理部539は、画素特徴量抽出部235によって学習DB画像から抽出された各画素の画素特徴量を合算することにより、学習DB画像の画像特徴量(第1の画像特徴量)を生成する。
学習ロス計算部240は、学習クエリ画像から抽出された画像特徴量と、学習DB画像から抽出された画像特徴量とに基づいて、特徴量抽出部530を構成するDNNを更新するための微分値を算出する。かかる微分値は、「勾配」とも換言され得る。ここで、微分値を算出するための学習ロス(損失関数)の算出には、公知の手法に係る学習ロスが用いられてよい。一例として、学習ロスの算出には、Triplet lossと呼ばれる手法が用いられてよい。
かかる手法は、学習クエリ画像の少なくとも一部の領域とのオーバーラップ領域が学習DB画像に存在する場合に、学習DB画像のうちのオーバーラップ領域から抽出された画像特徴量が画像クエリ画像から抽出された画像特徴量に近づくように、かつ、学習DB画像のうちの非オーバーラップ領域から抽出された画像特徴量が画像クエリ画像から抽出された画像特徴量から遠ざかるように、DNNを更新するための微分値が算出される。
ただし、比較例において、オーバーラップ領域が学習DB画像のうち、どの領域がオーバーラップ領域であるかを示す情報(すなわち、真値ラベル)は、自動的には付されずに、手動によって付されることが主に想定される。一方、本発明の実施形態においては、どの領域がオーバーラップ領域であるかを示す情報が自動的に付される。続いて、図21を参照しながら、本発明の実施形態に係る学習手法の例について説明する。
(本発明の実施形態に係る特徴量抽出部230)
図21は、本発明の実施形態に係る特徴量抽出部230の詳細構成例を示す図である。本発明の実施形態に係る特徴量抽出部230は、比較例に係る特徴量抽出部530と同様に、DNNによって構成されている。図21に示されるように、特徴量抽出部230は、特徴量抽出部530と同様に、学習クエリ画像特徴量抽出部231を備える。さらに、特徴量抽出部230は、学習DB画像特徴量抽出部534の代わりに、学習DB画像特徴量抽出部234を備える。なお、特徴量抽出部230は、抽出部の例に該当し得る。
学習DB画像特徴量抽出部234は、学習DB画像特徴量抽出部534と同様に、画素特徴量抽出部235を備える。さらに、学習DB画像特徴量抽出部234は、合算処理部539の代わりに、領域分割部236と、合算処理部237と、合算処理部238とを備える。領域分割部236には、学習装置20が備える領域判定部250から判定結果が入力される。
領域判定部250は、メモリ290からオーバーラップ点を取得する。そして、領域判定部250は、メモリ290から取得したオーバーラップ点に基づいて、オーバーラップ点に応じたオーバーラップ領域を判定する。一例として、領域判定部250は、学習DB画像のうち、オーバーラップ点が存在する画素自体をオーバーラップ領域として判定してもよい。しかし、オーバーラップ点が疎らに存在する場合には、オーバーラップ領域も疎らになってしまうおそれがある。
そこで、領域判定部250は、学習DB画像のうちオーバーラップ点を含んだ矩形領域をオーバーラップ領域として判定してもよい。あるいは、領域判定部250は、学習DB画像のうちオーバーラップ点が存在する画素の集合を仮のオーバーラップ領域として判定しつつ、オーバーラップ点の密度が所定の密度よりも低い領域に存在する画素をオーバーラップ領域から除外するようなメディアンフィルタを仮のオーバーラップ領域に対して施してもよい。
領域判定部250は、学習DB画像のうちオーバーラップ領域がどの領域であるかを示す判定結果を領域分割部236に出力する。
領域分割部236は、領域判定部250から出力された判定結果に基づいて、学習DB画像から抽出された画素特徴量を、オーバーラップ領域に属する各画素の画素特徴量と、非オーバーラップ領域に属する各画素の画素特徴量とに分割する。そして、領域分割部236は、オーバーラップ領域に属する各画素の画素特徴量を合算処理部237に出力するとともに、非オーバーラップ領域に属する各画素の画素特徴量を合算処理部238に出力する。
合算処理部237は、合算処理部539と同様に、Pooling層によって構成されている。例えば、合算処理部237は、領域分割部236から出力されたオーバーラップ領域に属する各画素の画素特徴量を合算することにより、オーバーラップ領域に対応する画像特徴量(重複領域特徴量)を生成する。合算処理部237は、オーバーラップ領域に対応する画像特徴量を学習ロス計算部240に出力する。
合算処理部238は、合算処理部237と同様に、Pooling層によって構成されている。例えば、合算処理部238は、領域分割部236から出力された非オーバーラップ領域に属する各画素の画素特徴量を合算することにより、非オーバーラップ領域に対応する画像特徴量(非重複領域特徴量)を生成する。合算処理部238は、非オーバーラップ領域に対応する画像特徴量を学習ロス計算部240に出力する。
(学習ロス計算部240)
学習ロス計算部240は、学習クエリ画像の画像特徴量と、オーバーラップ領域に対応する画像特徴量と、非オーバーラップ領域に対応する画像特徴量とに基づいて、特徴量抽出部530を構成するDNNを更新するための微分値を算出する。ここで、微分値を算出するための学習ロスの算出には、公知の手法に係る学習ロスが用いられてよい。一例として、学習ロスの算出には、Triplet lossと呼ばれる手法が用いられてよい。
より詳細に、学習ロス計算部240は、オーバーラップ領域に対応する画像特徴量と、学習クエリ画像の画像特徴量とが近づくように、かつ、非オーバーラップ領域に対応する画像特徴量と、学習クエリ画像に対応する画像特徴量とが遠ざかるように、DNNを更新するための微分値を計算する。学習ロス計算部240は、微分値を更新部260(図12)に出力する。
(更新部260)
更新部260は、学習ロス計算部240から出力された微分値に基づいて、DNNを更新する。より詳細に、更新部260は、学習ロス計算部240から出力された微分値に基づいて、誤差逆伝播法によりDNNを構成する重みパラメータを更新する。このようなDNNの更新は、全学習DB画像について繰り返し実行される。
更新後のDNNによって構成される特徴量抽出部230は、ネットワーク40を介して推論装置30に送信され、推論装置30において、画像特徴量抽出部312として用いられる。画像特徴量抽出部312は、推論クエリ画像から画像特徴量をより高精度に抽出することが可能となる。
以上、本開示の実施形態に係る学習装置20の機能構成例について説明した。
<2.各種変形例>
続いて、図22~図25を参照しながら、本開示の実施形態に係る情報処理システム1の各種変形例について説明する。
(第1の変形例)
図22は、第1の変形例について説明するための図である。上記では、全学習画像に基づいて各学習画像における画素ごとの深度が推定される例について説明した。しかし、各学習画像における画素ごとの深度は、必ずしも画像のみから推定されなくてもよい。例えば、図22に示されるように、各学習画像における画素ごとの深度は、測距デバイス610によって測定されてもよい。
なお、測距デバイス610の種類としては、様々なセンサが用いられ得る。例えば、測距デバイス610は、LiDAR(Light Detection And Ranging)センサであってもよいし、Stereo Depthセンサであってもよいし、他の測距デバイスであってもよい。
また、上記では、全学習画像に基づいて各学習画像に対応するデバイス位置姿勢情報が推定される例について説明した。しかし、各学習画像に対応するデバイス位置姿勢情報は、必ずしも画像のみから推定されなくてもよい。例えば、図22に示されるように、各学習画像に対応するデバイス位置姿勢情報は、SLAMデバイス620(自己位置推定装置)によって測定されてもよい。
なお、SLAMデバイス620を構成するセンサの種類としては、様々なセンサが用いられ得る。例えば、SLAMデバイス620は、カメラを含んでもよいし、カメラとIMU(Inertial Measurement Unit)センサとの組み合わせを含んでもよい。
(第2の変形例)
図23は、第2の変形例について説明するための図である。上記では、3次元復元部210が、全学習画像に基づいてメッシュと、各学習画像に対応するデバイス位置姿勢情報とをオーバーラップ点抽出部220に出力する例について説明した。しかし、CG(Computer Graphics)710が、全学習画像に基づいてメッシュと、各学習画像に対応するデバイス位置姿勢情報とをオーバーラップ点抽出部220に出力してもよい。
CG710は、3次元モデルを生成するプログラムである。かかる3次元モデルは、仮想空間に配置されている。このとき、学習DB画像は、仮想空間における所定の位置姿勢(第1の視点)を基準とした画像であってもよく、学習クエリ画像は、仮想空間における所定の位置姿勢(第2の視点)を基準とした画像であってもよい。そして、現実空間における3次元点群の座標は、メッシュ生成部217によって生成される3次元モデルから取得されてもよい。
なお、学習DB画像に対応するデバイス位置姿勢情報は、仮想空間において学習DB画像を撮像したときの仮想的な撮像装置の位置姿勢情報に該当し得る。同様に、学習クエリ画像に対応するデバイス位置姿勢情報は、仮想空間において学習クエリ画像を撮像したときの仮想的な撮像装置の位置姿勢情報に該当し得る。
(第3の変形例)
図24は、第3の変形例について説明するための図である。上記では、特徴量抽出部230の学習が、オーバーラップ領域と非オーバーラップ領域とに基づいて行われる例について説明した。しかし、オーバーラップ領域に所定のオブジェクトが写り込んでしまうと、学習クエリ画像には所定のオブジェクトが写っていない場合などには、学習に混乱が生じ、学習が効果的に進まなくなってしまう可能性がある。
なお、所定のオブジェクトは、動物体(例えば、人または車など)であってもよい。あるいは、ガラスに写り込んだ鏡像が学習に悪影響を及ぼすおそれがあるため、所定のオブジェクトは、ガラスなどであってもよい。あるいは、所定のオブジェクトは、非ユニークな空などであってもよい。
そこで、特徴量抽出部230の学習は、オーバーラップ領域から所定のオブジェクトが検出された領域を含んだオブジェクト領域がオーバーラップ領域から除外されて得られた非オブジェクト領域に対応する画像特徴量と、非オーバーラップ領域に対応する画像特徴量とに基づいて行われてもよい。なお、所定のオブジェクトは、Semantic Segmentation DNN(または、所定のオブジェクトを画素ピッチで検出可能なDNN)によって行われてもよい。
図24に示されるように、所定のオブジェクトは、オブジェクト検出部270によって検出されてもよい。そして、オブジェクト検出部270によるオブジェクトの検出結果は、領域判定部250によるオーバーラップ領域の判定に用いられてもよい。
図25は、第3の変形例に係るオーバーラップ領域および非オーバーラップ領域の例を示す図である。図25を参照すると、学習DB画像G1が示されており、学習DB画像G1に含まれるオーバーラップ領域G11および非オーバーラップ領域G12が示されている。
オーバーラップ領域G11には、所定のオブジェクトの例として、車が写っている。オブジェクト検出部270は、オーバーラップ領域G11から所定のオブジェクトの例として車を検出する。オブジェクト検出部270は、車が検出された領域を含んだ矩形領域をオブジェクト領域G13として検出する。領域判定部250は、オーバーラップ領域G11からオブジェクト領域G13を除外した非オブジェクト領域G14を判定する。
領域判定部250は、学習DB画像G1のうちどの領域が非オブジェクト領域G14であるかを示す判定結果を領域分割部236に出力する。なお、図25には、非オブジェクト領域G14と、非オーバーラップ領域G12とを合わせた学習DB画像G5が示されている。
領域分割部236は、領域判定部250から出力された判定結果に基づいて、学習DB画像G1を、オブジェクト領域G13と、非オブジェクト領域G14と、非オーバーラップ領域G12とに分割する。そして、領域分割部236は、非オブジェクト領域G14を合算処理部237に出力し、非オーバーラップ領域G12を合算処理部238に出力する。これによって、学習に悪影響が及ぼされる可能性のあるオブジェクト領域G13が除外された非オブジェクト領域G14が特徴量抽出部230の学習に用いられるため、学習が効果的に進むようになる。
以上、本開示の実施形態に係る情報処理システム1の各種変形例について説明した。
<3.ハードウェア構成例>
続いて、図26を参照して、本開示の実施形態に係る推論装置30の例としての情報処理装置900のハードウェア構成例について説明する。図26は、情報処理装置900のハードウェア構成例を示すブロック図である。なお、推論装置30は、必ずしも図26に示したハードウェア構成の全部を有している必要はなく、推論装置30の中に、図26に示したハードウェア構成の一部は存在しなくてもよい。また、学習装置20のハードウェア構成も、推論装置30のハードウェア構成と同様に実現されてよい。
図26に示すように、情報処理装置900は、CPU(Central Processing unit)901、ROM(Read Only Memory)902、およびRAM(Random Access Memory)903を含む。また、情報処理装置900は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。情報処理装置900は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、ROM902、RAM903、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置900内の動作全般またはその一部を制御する。ROM902は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM902、およびRAM903は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
入力装置915は、例えば、ボタンなど、ユーザによって操作される装置である。入力装置915は、マウス、キーボード、タッチパネル、スイッチおよびレバーなどを含んでもよい。また、入力装置915は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、有機EL(Electro-Luminescence)ディスプレイなどの表示装置、スピーカおよびヘッドホンなどの音出力装置などであり得る。また、出力装置917は、PDP(Plasma Display Panel)、プロジェクタ、ホログラム、プリンタ装置などを含んでもよい。出力装置917は、情報処理装置900の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。
ストレージ装置919は、情報処理装置900の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM903に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
接続ポート923は、機器を情報処理装置900に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理装置900と外部接続機器929との間で各種のデータが交換され得る。
通信装置925は、例えば、ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続されるネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
<4.まとめ>
本開示の実施形態によれば、学習によって得られたモデルによって画像から画像特徴量をより高精度に抽出することが可能となる。また、モデルによって抽出された画像特徴量に基づく画像検索性能も向上することも期待される。さらに、画像検索性能の向上に伴って、画像を撮像したときの撮像装置のデバイス位置姿勢情報の精度が向上することも期待される。さらに、デバイス位置姿勢情報の精度向上に伴ってARオブジェクトの重畳表示の精度が向上すること、画像検索性能の向上に伴って画像検索失敗の重畳表示の精度が向上することなども期待される。
また、本発明の実施形態によれば、学習DB画像のうち、どの領域がオーバーラップ領域であるかを示す情報(すなわち、真値ラベル)が自動的に付される。したがって、本発明の実施形態によれば、手動によって真値ラベルを付するために要するコストが低減される。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
第1の画像と第2の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
前記第1の画像から抽出部によって抽出された第1の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
前記第1の画像特徴量のうち、前記第1の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
に基づく学習が行われ、
前記学習により前記抽出部が更新されて得られたモデルが、第3の画像から第3の画像特徴量を抽出することを含む、
プロセッサにより実行される情報処理方法。
(2)
前記学習は、重複領域特徴量と、前記非重複領域特徴量と、前記第2の画像から前記抽出部によって抽出された第2の画像特徴量とに基づいて行われる、
前記(1)に記載の情報処理方法。
(3)
前記学習は、前記重複領域特徴量と前記第2の画像特徴量とが近づくように、かつ、前記非重複領域特徴量と前記第2の画像特徴量とが遠ざかるように前記抽出部を更新することを含む、
前記(2)に記載の情報処理方法。
(4)
前記重複位置の有無は、前記第1の画像と前記第2の画像とに関連する3次元情報に基づいて判断される、
前記(1)に記載の情報処理方法。
(5)
前記3次元情報は、前記第1の画像と前記第2の画像との対応点ペアに基づいて算出された、3次元特徴点群を含む、
前記(4)に記載の情報処理方法。
(6)
前記3次元情報は、前記第1の画像を撮像したときの第1の撮像装置の第1の位置姿勢情報と、前記第2の画像を撮像したときの第2の撮像装置の第2の位置姿勢情報とに基づく情報を含む、
前記(4)に記載の情報処理方法。
(7)
前記第1の位置姿勢情報および前記第2の位置姿勢情報は、前記第1の画像および前記第2の画像に基づいて推定される、
前記(6)に記載の情報処理方法。
(8)
前記第1の位置姿勢情報および前記第2の位置姿勢情報は、自己位置推定装置によって推定される、
前記(6)に記載の情報処理方法。
(9)
前記第1の位置姿勢情報は、コンピュータグラフィックスによって生成された3次元モデルが配置された仮想空間において前記第1の画像を撮像したときの前記第1の撮像装置の位置姿勢情報であり、
前記第2の位置姿勢情報は、前記仮想空間において前記第2の画像を撮像したときの前記第2の撮像装置の位置姿勢情報である、
前記(6)に記載の情報処理方法。
(10)
前記第1の位置姿勢情報と前記第2の位置姿勢情報とに基づく情報は、前記第1の画像に写る現実空間における第1の3次元点の座標と、前記第2の画像に写る現実空間における第2の3次元点の座標とを含む、
前記(6)に記載の情報処理方法。
(11)
前記3次元情報は、前記第1の3次元点における物体表面に対する法線方向と、前記第2の3次元点における物体表面に対する法線方向とを含む、
前記(10)に記載の情報処理方法。
(12)
前記第1の3次元点の座標および前記第2の3次元点の座標は、所定の原点を基準とした深度に基づいて算出される、
前記(10)に記載の情報処理方法。
(13)
前記深度は、前記第1の画像と、前記位置姿勢情報と、前記第2の画像と、前記第2の位置姿勢情報とに基づいて算出される、
前記(12)に記載の情報処理方法。
(14)
前記深度は、測距デバイスによって測定される、
前記(12)に記載の情報処理方法。
(15)
前記第1の画像は、コンピュータグラフィックスによって生成された3次元モデルが配置された仮想空間における第1の視点を基準とした画像であり、
前記第2の画像は、前記仮想空間における第2の視点を基準とした画像であり、
前記第1の3次元点の座標および前記第2の3次元点の座標は、前記3次元モデルから取得される、
前記(10)に記載の情報処理方法。
(16)
前記学習は、前記重複領域から所定のオブジェクトが検出された領域を含んだオブジェクト領域が前記重複領域から除外されて得られた非オブジェクト領域に対応する特徴量と、前記非重複領域特徴量とに基づいて行われる、
前記(1)に記載の情報処理方法。
(17)
前記情報処理方法は、
前記プロセッサが、前記第3の画像特徴量に基づいて、前記第3の画像を撮像したときの第3の撮像装置の第3の位置姿勢情報を推定することを含む、
前記(1)~(16)のいずれか一項に記載の情報処理方法。
(18)
前記プロセッサは、複数の画像それぞれの画像特徴量から、前記第3の画像特徴量との差分が小さい順に所定の数の画像特徴量を特定し、前記所定の数の画像特徴量それぞれに対応する第4の画像と、前記第3の画像とに基づいて、前記第3の位置姿勢情報を推定する、
前記(17)に記載の情報処理方法。
(19)
第1の画像と第2の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
前記第1の画像から抽出部によって抽出された第1の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
前記第1の画像特徴量のうち、前記第1の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
に基づく学習が行われ、
前記学習により前記抽出部が更新されて得られたモデルを備え、
前記モデルが、第3の画像から第3の画像特徴量を抽出する、
情報処理装置。
(20)
コンピュータに、
第1の画像と第2の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
前記第1の画像から抽出部によって抽出された第1の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
前記第1の画像特徴量のうち、前記第1の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
に基づく学習が行われ、
前記学習により前記抽出部が更新されて得られたモデルが、第3の画像から第3の画像特徴量を抽出することを実行させるためのプログラム。
1 情報処理システム
10 端末装置
110 撮像装置
120 操作部
150 記憶部
160 提示部
20 学習装置
200 制御部
210 3次元復元部
212 位置姿勢推定部
214 深度推定部
216 点群生成部
217 メッシュ生成部
220 オーバーラップ点抽出部
230 特徴量抽出部
231 学習クエリ画像特徴量抽出部
232 画素特徴量抽出部
233 合算処理部
234 特徴量抽出部
235 画素特徴量抽出部
236 領域分割部
237 合算処理部
238 合算処理部
240 学習ロス計算部
250 領域判定部
260 更新部
270 オブジェクト検出部
290 メモリ
30 推論装置
300 制御部
310 画像検索部
312 画像特徴量抽出部
314 画像特徴量照合部
320 特徴点照合部
322 画素特徴量抽出部
324 画素特徴量照合部
330 相対位置姿勢推定部
340 デバイス位置姿勢推定部
390 メモリ
40 ネットワーク
610 測距デバイス
620 SLAMデバイス
710 CG
811 撮像装置
812 撮像装置
814 撮像装置

Claims (20)

  1. 第1の画像と第2の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
    前記第1の画像から抽出部によって抽出された第1の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
    前記第1の画像特徴量のうち、前記第1の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
    に基づく学習が行われ、
    前記学習により前記抽出部が更新されて得られたモデルが、第3の画像から第3の画像特徴量を抽出することを含む、
    プロセッサにより実行される情報処理方法。
  2. 前記学習は、重複領域特徴量と、前記非重複領域特徴量と、前記第2の画像から前記抽出部によって抽出された第2の画像特徴量とに基づいて行われる、
    請求項1に記載の情報処理方法。
  3. 前記学習は、前記重複領域特徴量と前記第2の画像特徴量とが近づくように、かつ、前記非重複領域特徴量と前記第2の画像特徴量とが遠ざかるように前記抽出部を更新することを含む、
    請求項2に記載の情報処理方法。
  4. 前記重複位置の有無は、前記第1の画像と前記第2の画像とに関連する3次元情報に基づいて判断される、
    請求項1に記載の情報処理方法。
  5. 前記3次元情報は、前記第1の画像と前記第2の画像との対応点ペアに基づいて算出された、3次元特徴点群を含む、
    請求項4に記載の情報処理方法。
  6. 前記3次元情報は、前記第1の画像を撮像したときの第1の撮像装置の第1の位置姿勢情報と、前記第2の画像を撮像したときの第2の撮像装置の第2の位置姿勢情報とに基づく情報を含む、
    請求項4に記載の情報処理方法。
  7. 前記第1の位置姿勢情報および前記第2の位置姿勢情報は、前記第1の画像および前記第2の画像に基づいて推定される、
    請求項6に記載の情報処理方法。
  8. 前記第1の位置姿勢情報および前記第2の位置姿勢情報は、自己位置推定装置によって推定される、
    請求項6に記載の情報処理方法。
  9. 前記第1の位置姿勢情報は、コンピュータグラフィックスによって生成された3次元モデルが配置された仮想空間において前記第1の画像を撮像したときの前記第1の撮像装置の位置姿勢情報であり、
    前記第2の位置姿勢情報は、前記仮想空間において前記第2の画像を撮像したときの前記第2の撮像装置の位置姿勢情報である、
    請求項6に記載の情報処理方法。
  10. 前記第1の位置姿勢情報と前記第2の位置姿勢情報とに基づく情報は、前記第1の画像に写る現実空間における第1の3次元点の座標と、前記第2の画像に写る現実空間における第2の3次元点の座標とを含む、
    請求項6に記載の情報処理方法。
  11. 前記3次元情報は、前記第1の3次元点における物体表面に対する法線方向と、前記第2の3次元点における物体表面に対する法線方向とを含む、
    請求項10に記載の情報処理方法。
  12. 前記第1の3次元点の座標および前記第2の3次元点の座標は、所定の原点を基準とした深度に基づいて算出される、
    請求項10に記載の情報処理方法。
  13. 前記深度は、前記第1の画像と、前記位置姿勢情報と、前記第2の画像と、前記第2の位置姿勢情報とに基づいて算出される、
    請求項12に記載の情報処理方法。
  14. 前記深度は、測距デバイスによって測定される、
    請求項12に記載の情報処理方法。
  15. 前記第1の画像は、コンピュータグラフィックスによって生成された3次元モデルが配置された仮想空間における第1の視点を基準とした画像であり、
    前記第2の画像は、前記仮想空間における第2の視点を基準とした画像であり、
    前記第1の3次元点の座標および前記第2の3次元点の座標は、前記3次元モデルから取得される、
    請求項10に記載の情報処理方法。
  16. 前記学習は、前記重複領域から所定のオブジェクトが検出された領域を含んだオブジェクト領域が前記重複領域から除外されて得られた非オブジェクト領域に対応する特徴量と、前記非重複領域特徴量とに基づいて行われる、
    請求項1に記載の情報処理方法。
  17. 前記情報処理方法は、
    前記プロセッサが、前記第3の画像特徴量に基づいて、前記第3の画像を撮像したときの第3の撮像装置の第3の位置姿勢情報を推定することを含む、
    請求項1に記載の情報処理方法。
  18. 前記プロセッサは、複数の画像それぞれの画像特徴量から、前記第3の画像特徴量との差分が小さい順に所定の数の画像特徴量を特定し、前記所定の数の画像特徴量それぞれに対応する第4の画像と、前記第3の画像とに基づいて、前記第3の位置姿勢情報を推定する、
    請求項17に記載の情報処理方法。
  19. 第1の画像と第2の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
    前記第1の画像から抽出部によって抽出された第1の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
    前記第1の画像特徴量のうち、前記第1の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
    に基づく学習が行われ、
    前記学習により前記抽出部が更新されて得られたモデルを備え、
    前記モデルが、第3の画像から第3の画像特徴量を抽出する、
    情報処理装置。
  20. コンピュータに、
    第1の画像と第2の画像との重複位置の有無が判断され、前記重複位置が有ると判断されたことに基づいて、
    前記第1の画像から抽出部によって抽出された第1の画像特徴量のうち、前記重複位置に応じた重複領域に対応する重複領域特徴量と、
    前記第1の画像特徴量のうち、前記第1の画像の前記重複領域以外の領域である非重複領域に対応する非重複領域特徴量と、
    に基づく学習が行われ、
    前記学習により前記抽出部が更新されて得られたモデルが、第3の画像から第3の画像特徴量を抽出することを実行させるためのプログラム。
JP2022189993A 2022-11-29 2022-11-29 情報処理方法、情報処理装置およびプログラム Pending JP2024077816A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022189993A JP2024077816A (ja) 2022-11-29 2022-11-29 情報処理方法、情報処理装置およびプログラム
PCT/JP2023/038556 WO2024116665A1 (en) 2022-11-29 2023-10-25 Information processing method, information processing device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022189993A JP2024077816A (ja) 2022-11-29 2022-11-29 情報処理方法、情報処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2024077816A true JP2024077816A (ja) 2024-06-10

Family

ID=88778322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022189993A Pending JP2024077816A (ja) 2022-11-29 2022-11-29 情報処理方法、情報処理装置およびプログラム

Country Status (2)

Country Link
JP (1) JP2024077816A (ja)
WO (1) WO2024116665A1 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3078977A1 (en) * 2017-11-14 2019-05-23 Magic Leap, Inc. Fully convolutional interest point detection and description via homographic adaptation

Also Published As

Publication number Publication date
WO2024116665A1 (en) 2024-06-06

Similar Documents

Publication Publication Date Title
US10977818B2 (en) Machine learning based model localization system
CN111325796B (zh) 用于确定视觉设备的位姿的方法和装置
KR102647351B1 (ko) 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치
WO2019205852A1 (zh) 确定图像捕捉设备的位姿的方法、装置及其存储介质
US10282913B2 (en) Markerless augmented reality (AR) system
CN112991447B (zh) 一种动态环境下视觉定位与静态地图构建方法及***
US10535160B2 (en) Markerless augmented reality (AR) system
JP6348574B2 (ja) 総体的カメラ移動およびパノラマカメラ移動を使用した単眼視覚slam
JP7017689B2 (ja) 情報処理装置、情報処理システムおよび情報処理方法
JP6456347B2 (ja) 平面固有の特徴のターゲットのinsitu生成
EP3401815A1 (en) Determining an architectural layout
CN110986969B (zh) 地图融合方法及装置、设备、存储介质
JP2016502712A (ja) 単眼視覚slamのための高速初期化
JP2022508103A (ja) 自己改良ビジュアルオドメトリを実施するためのシステムおよび方法
US20190371024A1 (en) Methods and Systems For Exploiting Per-Pixel Motion Conflicts to Extract Primary and Secondary Motions in Augmented Reality Systems
WO2022217794A1 (zh) 一种动态环境移动机器人的定位方法
JP2016136439A (ja) グラフマッチングおよびサイクル検出による自動モデル初期化を用いた線トラッキング
US11741671B2 (en) Three-dimensional scene recreation using depth fusion
US11748913B2 (en) Modeling objects from monocular camera outputs
CN112085842B (zh) 深度值确定方法及装置、电子设备和存储介质
Akman et al. Multi-cue hand detection and tracking for a head-mounted augmented reality system
WO2023088127A1 (zh) 室内导航方法、服务器、装置和终端
JP2024077816A (ja) 情報処理方法、情報処理装置およびプログラム
KR102648882B1 (ko) 3차원 지도에 대한 모델링 데이터의 경량화 방법
US20220068024A1 (en) Determining a three-dimensional representation of a scene