JP6650829B2 - 画像検索装置、方法、及びプログラム - Google Patents

画像検索装置、方法、及びプログラム Download PDF

Info

Publication number
JP6650829B2
JP6650829B2 JP2016102692A JP2016102692A JP6650829B2 JP 6650829 B2 JP6650829 B2 JP 6650829B2 JP 2016102692 A JP2016102692 A JP 2016102692A JP 2016102692 A JP2016102692 A JP 2016102692A JP 6650829 B2 JP6650829 B2 JP 6650829B2
Authority
JP
Japan
Prior art keywords
image
query image
query
pixel
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016102692A
Other languages
English (en)
Other versions
JP2017211720A (ja
Inventor
豪 入江
豪 入江
勇 五十嵐
勇 五十嵐
之人 渡邉
之人 渡邉
隆行 黒住
隆行 黒住
杵渕 哲也
哲也 杵渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016102692A priority Critical patent/JP6650829B2/ja
Publication of JP2017211720A publication Critical patent/JP2017211720A/ja
Application granted granted Critical
Publication of JP6650829B2 publication Critical patent/JP6650829B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、画像検索装置、方法、及びプログラムに係り、特に、テクスチャのある物体を撮影したクエリ画像から、精度よく同一の物体を検索するための画像検索装置、方法、及びプログラムに関する。
物体認識技術の進展が目覚ましい。これまでは、顔・指紋認証やファクトリーオートメーション等、認識する対象や環境が限定されている利用キーポイントが中心的であった。最近では、スマートフォン等の小型な撮像デバイスの普及に伴い、一般利用者が自由な場所や環境で、任意の物体を撮影したような自由撮影画像からの物体の認識に対する産業上の要請も増えてきている。実世界とウェブ世界の商品を相互につなぐO2Oサービスや、実環境に存在する様々なランドマークを認識して情報を提供する情報案内/ナビゲーションサービスなどへの期待は特に高い。
このような新たな用途に供される物体認識技術にはいくつかの形態がありうるが、代表的なものの一つが物体検索である。以下に物体検索の典型的な手続きを概説する。まず、各々の画像の輝度値を解析することで、特徴的な輝度分布を持つ微小なキーポイント(キーポイントなどと呼ばれる)を多数抽出し、各キーポイントをその輝度の変化量によって表現する(局所特徴量と呼ばれる)。次に、互いに異なる二つの画像に含まれる局所特徴量同士の距離を測ることで、異なる画像間のキーポイント同士の対応を取り、多数の対応が存在するペアほど、同一の物体が写っている画像であると見做す。
事前に認識対象とする物体を撮影した画像(参照画像)のデータベースを構築したとする。このとき、物体検索によって、データベース内の参照画像のうち、撮影したクエリ画像と同一の物体が写っているものを検索することによって、クエリ画像中に存在する物体を特定するのである。
物体検索の最大の特徴の一つは、一枚の画像を一つ以上の微小キーポイント(およびそれを記述する局所特徴量)の集合として表現することである。単に同一の物体が写った画像と言っても、どの画像にも同じ位置や姿勢(微小キーポイントの角度)、大きさで写っているわけではなく、画像によってさまざまな写り方で撮影されているのが普通である。まして、一般利用者が自由撮影したような画像においては、事前に物体の写り方を知ることは多くの場合ほぼ不可能である。然るに、画像を記述する特徴量ベクトルは、位置・姿勢・大きさに依らない不変性を持つことが望ましい。
画像一枚全体を一つのベクトルで表現するような大域的な特徴量では、望ましい不変性を得ることは難しい。例えば各ピクセルの色(RGB値)をベクトルに並べたものは、位置・姿勢・大きさいずれに対しても不変ではない。一方、一部の情報を抽象化したもの、例えば、色ヒストグラム等は、位置や姿勢に対する不変性は持ちうるが、大きさに対しては不変的ではない。また、物体の一部が欠けていたりする場合に対しても脆弱であるなど、精度が容易に低下しやすい。
一方、物体検索では、微小キーポイントの集合によって画像を表現する。これらはキーポイントの集合であるから、位置に対しては不変である。また、キーポイントを記述する局所特徴量には、姿勢や大きさに対して不変性を持つものが発明されている。例えば非特許文献1に記載のScale Invariant Feature Transform(SIFT)が代表例である。
以上の通り、物体検索の典型的な手続きによれば、画像を一つ以上のキーポイントの集合によって表現することで、位置・姿勢・大きさによらず、頑健に同一の物体を含む画像を検索することができるのである。
特開2005−70026号公報
D.G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints ", International Journal of Computer Vision, pp.91-110, 2004 J. Philbin, O. Chum, M. Isard, Josef Sivic and Andrew Zisserman. Object retrieval with large vocabularies and fast spatial matching 1470-1477, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2007.
しかしながら、物体検索にも問題がある。通常、実空間にある物体は様々な光源環境下に置かれており、撮影された物体画像は当然のことながらこの光源による反射の影響を受ける。特に、滑らかな面を持つ物体は、鏡面反射を起こすことが知られている。鏡面反射は非常に強い輝度として観測されることが多いため、しばしば物体本来の持つ輝度の変化の度合いを変化させたり、覆い隠したりしてしまう。結果として、物体検索において、誤対応が発生し、異なる物体が検索されてしまうことがあるのである。
このような課題を鑑み、いくつかの発明がなされてきている。
非特許文献2には、キーポイントの幾何検証に基づく画像検索方法が開示されている。同一の物体であれば、撮影視点の変化を除いて、キーポイントの空間的な分布も同一になるという、合理的な仮定に基づく方法である。まず、異なる画像間でキーポイント同士の対応を取ったのち、複数の対応を集合として見たときの空間的な幾何関係が、特定の線形変換に拘束されているような対応のみを有効な対応とみなすことにより、有効ではない対応を削除する。結果として、有効な対応の数が多い画像同士を、検索結果のより上位にランキングするのである。
特許文献1には、照明光の影響による鏡面反射を除去する装置が開示されている。事前に、参照画像とこれを撮影した際の照明光成分を(白色板を撮影した画像を用いて)計測しておく。実際に物体を撮影する際には、物体を写したクエリ画像と、白色板を撮影した画像の双方を取得し、クエリ画像を照明光成分に直交する空間に射影することにより、鏡面反射が除去された画像を生成する。
非特許文献1、非特許文献2に開示されているように、既存の技術は、いずれも単純なキーポイントマッチングに基づく画像検索技術であるが、鏡面反射に起因する誤対応を回避する構成要素を持ち合わせてはいない。先述の通り、キーポイントは輝度の変化に基づいて決定され、また、局所特徴量は輝度変化を記述するものであるから、鏡面反射の影響を直接的に受けてしまい、結果として精度が大きく劣化する点が問題である。
また、特許文献1に開示されているような鏡面反射除去法を適用すれば、画像を鏡面反射の無い画像へと変換することも可能である。その一方で、特許文献1に記載の技術は、参照画像、クエリ画像双方の撮影時において、常に白色板を撮影するカメラを備えていなければならない。また、常に白色板を撮影した画像を蓄積していかなければならず、必要な画像枚数が増えてしまう。大局的に見れば、既存の鏡面反射除去法は、光源、あるいは、撮影デバイスに、汎用カメラにない特殊な装備を備えていなければ利用できないこと、あるいは、非常に多くの画像を必要とすることなど、または処理時間がかかるなどの理由から、先に述べたような一般利用者が自由撮影した問い合わせ画像に基づいて画像検索をするような場合、必ずしも適しているものではない点が問題である。
以上、現在に至るまで、特に自由撮影される鏡面反射が起こるような物体画像に対して、効果的に画像検索できる技術は発明されていなかった。
本発明は、上記問題点を解決するために成されたものであり、テクスチャのある物体を撮影したクエリ画像から、物体の輝度変化に対してロバストに、かつ、精度よく同一の物体を検索することができる画像検索装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る画像検索装置は、少なくとも一枚以上の参照画像を蓄積した参照画像データベースを備え、同一の物体を異なる視点から撮影した第一のクエリ画像と、少なくとも一枚の第二のクエリ画像との少なくとも二枚のクエリ画像を受け付け、前記第一のクエリ画像に写る物体と同一の物体を含む、前記参照画像データベース中の参照画像を出力する画像検索装置であって、前記第一のクエリ画像と、前記第二のクエリ画像との間で位置合わせを行い、前記第一のクエリ画像の一つ以上の画素に対して、前記第二のクエリ画像の画素を対応させる対応決定部と、前記第一のクエリ画像から注目画素を選択し、前記選択した注目画素に対応する前記第二のクエリ画像の対応画素が存在する場合、前記選択した注目画素の輝度値と、前記第二のクエリ画像の対応画素の輝度値とを比較し、前記対応画素の輝度値が前記注目画素の輝度値よりも低い場合には、前記注目画素の画素値を前記対応画素の画素値によって更新することで、合成画像を生成する画像合成部と、前記合成画像に最も近しい、前記参照画像データベース中の参照画像を出力する検索部と、を含んで構成されている。
また、第1の発明に係る画像検索装置において、前記対応決定部は、前記第一のクエリ画像から抽出したキーポイントと、前記第二のクエリ画像から抽出したキーポイントとに基づいて、前記第一のクエリ画像のキーポイントと前記第二のクエリ画像のキーポイントとを対応付け、キーポイント間の対応関係に基づいて、対応する前記第一のクエリ画像のキーポイントの画素及び前記第二のクエリ画像のキーポイントの画素の何れか一方から他方へ変換するための線形変換行列を求め、前記画像合成部は、前記線形変換行列に基づいて、前記第二のクエリ画像の座標を前記第一のクエリ画像の座標に変換し、前記変換された座標上で前記第一のクエリ画像と前記第二のクエリ画像とが重なる領域において、前記第一のクエリ画像から注目画素を選択し、前記選択した注目画素の輝度値と、前記第二のクエリ画像の対応画素の輝度値とを比較し、前記対応画素の輝度値が前記注目画素の輝度値よりも低い場合には、前記注目画素の画素値を前記対応画素の画素値によって更新することで、合成画像を生成するようにしてもよい。
第2の発明に係る画像合成方法は、少なくとも一枚以上の参照画像を蓄積した参照画像データベースを備え、同一の物体を異なる視点から撮影した第一のクエリ画像と、少なくとも一枚の第二のクエリ画像との少なくとも二枚のクエリ画像を受け付け、前記第一のクエリ画像に写る物体と同一の物体を含む、前記参照画像データベース中の参照画像を出力する画像検索装置における画像検索方法であって、対応決定部が、前記第一のクエリ画像と、前記第二のクエリ画像との間で位置合わせを行い、前記第一のクエリ画像の一つ以上の画素に対して、前記第二のクエリ画像の画素を対応させるステップと、画像合成部が、前記第一のクエリ画像から注目画素を選択し、前記選択した注目画素に対応する前記第二のクエリ画像の対応画素が存在する場合、前記選択した注目画素の輝度値と、前記第二のクエリ画像の対応画素の輝度値とを比較し、前記対応画素の輝度値が前記注目画素の輝度値よりも低い場合には、前記注目画素の画素値を前記対応画素の画素値によって更新することで、合成画像を生成するステップと、検索部が、前記合成画像に最も近しい、前記参照画像データベース中の参照画像を出力するステップと、を含んで実行することを特徴とする。
また、第2の発明に係る画像検索方法において、前記対応決定部が対応させるステップは、前記第一のクエリ画像から抽出したキーポイントと、前記第二のクエリ画像から抽出したキーポイントとに基づいて、前記第一のクエリ画像のキーポイントと前記第二のクエリ画像のキーポイントとを対応付け、キーポイント間の対応関係に基づいて、対応する前記第一のクエリ画像のキーポイントの画素及び前記第二のクエリ画像のキーポイントの画素の何れか一方から他方へ変換するための線形変換行列を求め、前記画像合成部が合成するステップは、前記線形変換行列に基づいて、前記第二のクエリ画像の座標を前記第一のクエリ画像の座標に変換し、前記変換された座標上で前記第一のクエリ画像と前記第二のクエリ画像とが重なる領域において、前記第一のクエリ画像から注目画素を選択し、前記選択した注目画素の輝度値と、前記第二のクエリ画像の対応画素の輝度値とを比較し、前記対応画素の輝度値が前記注目画素の輝度値よりも低い場合には、前記注目画素の画素値を前記対応画素の画素値によって更新することで、合成画像を生成するようにしてもよい。
また、第3の発明に係るプログラムは、コンピュータを、上記第1の発明に係る画像検索装置の各部として機能させるためのプログラムである。
本発明の画像検索装置、方法、及びプログラムによれば、第一のクエリ画像と、第二のクエリ画像との間で位置合わせを行い、第一のクエリ画像の一つ以上の画素に対して、第二のクエリ画像の画素を対応させ、第一のクエリ画像から注目画素を選択し、選択した注目画素に対応する前記第二のクエリ画像の対応画素が存在する場合、選択した注目画素の輝度値と、第二のクエリ画像の対応画素の輝度値とを比較し、対応画素の輝度値が前記注目画素の輝度値よりも低い場合には、注目画素の画素値を対応画素の画素値によって更新することで、合成画像を生成し、合成画像に最も近しい、参照画像データベース中の参照画像を出力することにより、テクスチャのある物体を撮影したクエリ画像から、物体の輝度変化に対してロバストに、かつ、精度よく同一の物体を検索することができる、という効果が得られる。
本発明の実施の形態に係る画像の位置合わせ及び画像合成の原理を説明する図である。 本発明の実施の形態に係る画像検索装置の構成を示すブロック図である。 本発明の実施の形態に係る画像検索装置における画像検索処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る画像合成処理を説明する図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る原理>
まず、本発明の実施の形態における原理について、図1を用いて説明する。
物体の放射輝度は、通常、物体本来の見え方を表す拡散反射成分と物体表面のわずかに外側で起こる鏡面反射成分との和としてモデル化できることが知られており、二色性反射モデルと呼ばれる。完全拡散反射である場合、点光源からの平行光に対し、拡散反射成分は視点(方向)に依らず一定の強度として観測されるが、後者は視点に依存して強度が変化する。また、もし平行光でないような場合には、光源位置と視点に依存して、鏡面反射が現れる位置も変化する。したがって、仮に視点の異なる少なくとも二枚のクエリ画像を得た場合、図1に示す画像1、及び画像2のように、二枚の画像に写る物体上で、鏡面反射領域はそれぞれ異なる位置及び強度で現れる。
ここで、画像1、及び画像2の二枚の画像を位置合わせする、つまり、二枚の画像に写る物体が丁度重なり合うように、どちらか一方の画像(ここでは画像2)を変換することを考える。異なる二枚の画像の位置合わせには、例えば非特許文献2に記載のキーポイントに基づく位置合わせ等を行うことができる。しばしば鏡面反射領域は一様に高い輝度値を持つことが多く、鏡面反射領域内部は輝度変化に乏しいため、領域内部からはキーポイントは検出されにくい。したがって、先のような二枚の画像に対してキーポイントに基づく位置合わせを適用した場合には、図1のように、主に拡散反射領域(すなわち、本来の物体の見え方)から検出されたキーポイントに基づく位置合わせが行われる。図1中の画像1と画像2を跨る破線は、対応するキーポイント同士を繋いで図示している。
この位置合わせの結果に基づいて、画像2を変換して画像1に位置合わせすることを考えると、位置合わせされた合成画像の各画素については、画像1の画素値と画像2の(対応する)画素値のどちらを取るかについて、任意性が生じるため、より鏡面反射の弱い方の画素値を採りたい。先の二色性反射モデルに基づけば、画像の放射輝度は拡散反射成分と鏡面反射成分の和で表すことができ、鏡面反射成分がある部分の方が輝度が強くなると言えるから、画像1、及び画像2の画素のうち、輝度の低い画素値を持つ方を採用すれば、鏡面反射成分が抑制された画像3を合成することができるのである。
このようにして合成された画像3をクエリ画像として検索することにより、鏡面反射による不明瞭性のない問い合わせが可能となり、より正確な検索が実行できるのである。
以下、図面を参照して本発明の実施の一形態を詳細に説明する。
<<全体構成>>
図2は、本発明の実施形態に係る画像検索装置11の構成の一例を示すブロック図である。図2に示す画像検索装置11は、対応決定部12と、画像合成部13と、検索部14とを備える。
また、画像検索装置11は、参照画像データベース15と通信手段を介して接続されて相互に情報通信し、任意の画像の特徴量を参照画像データベース15に登録したり、読み出したりすることができる構成を取る。参照画像データベース15は、例えば、一般的な汎用コンピュータに実装されているファイルシステムによって構成できる。各画像それぞれを一意に識別可能な識別子(例えば、通し番号によるIDやユニークな画像ファイル名等)を与えるものとする。また、一般に画像検索時には、各画像を何らかの特徴量によって表現することが普通であるが、これらを記述したファイルについても、当該画像の識別子と関連づけて格納しておく。データベースはRDBMS(Relational Database Management System)などで実装・構成されていても構わない。その他、メタデータとして、例えば画像の内容を表現するもの(画像のタイトル、概要文、又はキーワード等)、画像のフォーマットに関するもの(画像のデータ量、サムネイル等のサイズ)などを含んでいても構わないが、本発明の実施においては必須ではない。
参照画像データベース15は、少なくとも一枚以上の物体を含む参照画像を蓄積したデータベースである。参照画像データベース15は、画像検索装置11の内部にあっても外部にあっても構わず、通信手段は任意の公知のものを用いることができるが、本実施の形態においては、外部にあるものとし、通信手段は、インターネット、TCP/IPにより通信するよう接続されているものとする。
また、画像検索装置11が備える各部及び参照画像データベース15は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは画像検索装置11が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現しても構わない。
<<処理部>>
本実施の形態における画像検索装置11の各処理部について説明する。ここでは、同一の物体を異なる視点から撮影した第一のクエリ画像16と第二のクエリ画像17の二枚が入力されたと仮定して説明する。なお、後述するように、二枚以上の第二のクエリ画像17が入力された場合においても適用可能である。この場合、複数枚の第二のクエリ画像17が入力されることになる。
対応決定部12は、外部から第一のクエリ画像16と、第二のクエリ画像17とが与えられると、第一のクエリ画像16と、第二のクエリ画像17との間で位置合わせを行い、第一のクエリ画像16の一つ以上の画素に対して、第二のクエリ画像17の画素を対応させ、対応結果を画像合成部13に出力する。ここでは、第一のクエリ画像16から抽出したキーポイントと、第二のクエリ画像17から抽出したキーポイントとに基づいて、第一のクエリ画像16のキーポイントと第二のクエリ画像17のキーポイントとを対応付け、キーポイント間の対応関係に基づいて、第二のクエリ画像17のキーポイントの画素から対応する第一のクエリ画像16のキーポイントの画素へ変換するための線形変換行列を求める。なお、第一のクエリ画像16のキーポイントの画素から対応する第二のクエリ画像17のキーポイントの画素へ変換するための線形変換行列としてもよい。
なお、クエリ画像が三枚以上入力された場合には、クエリ画像のうちの一枚(本実施の形態の例においては第一のクエリ画像16)に対して、ほかの全ての第二のクエリ画像17についてキーポイントに基づく位置合わせを実行し、対応するキーポイントの組の数が最も多かったクエリ画像を採用すればよい。
画像合成部13は、第一のクエリ画像16から注目画素を選択し、選択した注目画素に対応する第二のクエリ画像17の対応画素が存在する場合、選択した注目画素の輝度値と、第二のクエリ画像17の対応画素の輝度値とを比較し、対応画素の輝度値が注目画素の輝度値よりも低い場合には、注目画素の画素値を対応画素の画素値によって更新することで、合成画像を生成し、検索部14に出力する。ここで、対応決定部12で求められた線形変換行列に基づいて、第二のクエリ画像17の座標を第一のクエリ画像16の座標に変換することで第一のクエリ画像16と第二のクエリ画像17とを同一座標上に張り合わせるが、注目画素の選択は、変換された座標上で第一のクエリ画像16と第二のクエリ画像17とが重なる領域において行う。
検索部14は、生成された合成画像を新たなクエリ画像として参照画像データベース15に問い合わせを実行し、参照画像データベース15中の参照画像のうち、合成画像に最も近しい参照画像を検索結果18として出力する。
<<処理概要>>
次に、本実施の形態における画像検索装置11の処理について説明する。図3は、処理の流れを示すフローチャートである。
まず、ステップS301では、外部から二枚以上のクエリ画像が与えられた場合、一枚を第一のクエリ画像16、もう一枚を第二のクエリ画像17として、対応決定部12が、第一のクエリ画像16に対してキーポイントに基づく位置合わせを行い、当該第一のクエリ画像16の画素のそれぞれに対して、第二のクエリ画像17の画素を対応させ、対応結果を画像合成部13に出力する。
続いて、ステップS302では、画像合成部13が、第一のクエリ画像16の各画素の輝度値が、当該画素に対応する第二のクエリ画像17の画素の輝度値よりも低い場合に、第一のクエリ画像16の当該画素の値を、第二のクエリ画像17の対応する画素の画素値によって置き換えることで、合成画像を生成し、検索部14に出力する。
続いて、ステップS303では、検索部14が、合成画像をクエリ画像として参照画像データベース15に問い合わせを行い、マッチした参照画像を検索結果として出力する。
以上の処理により、入力されたクエリ画像に対して、同一の物体を含む参照画像を検索することができる。
<<各処理の処理詳細>>
以降、各処理の詳細処理について、本実施形態における一例を説明する。
[対応決定処理]
まず、対応決定部12において、二枚のクエリ画像間での対応を求める処理について説明する。
クエリ画像間の対応を求めるには、例えば、非特許文献1や非特許文献2などに記載のキーポイントマッチングに基づく方法を採用する。これらに限らず、その他の公知のキーポイントマッチング法を採用しても構わない。
ここでは、第一のクエリ画像16から抽出されたあるキーポイントをQ、第二のクエリ画像17から抽出されたキーポイントをRと表すことにする。各キーポイントは、特徴量ベクトルによって記述する。任意の特徴量ベクトルを用いても構わないが、好ましくは非特許文献1に記載のSIFTなどの局所特徴量を用いる。
キーポイントQを記述する特徴量ベクトルをv、Rを記述する特徴量ベクトルをwと表すとする。このとき、キーポイント同士の特徴量の距離dist(Q,R)を次式により求める。
続いて、求めたキーポイント間の特徴量の距離に基づいて、各キーポイントの組が対応しているか否かを判定する。あるキーポイントRに着目したとき、これに最も近いキーポイントがQ、その次に近いキーポイントがQであったとする。このとき、下記の条件を満たすとき、RとQが対応していると判定する。
ここで、Tは事前に決めておくパラメータであり、0<T≦1の任意の値を取ってよい。例えばT=0.8などとすればよい。
以上の計算を全てのキーポイントの組に対して実施することで、対応するキーポイントを求めることが可能である。
なお、このように求めた対応は重複を許す。つまり、Rに着目している場合、あるキーポイントQに対して、着目している側のクエリ画像の複数のキーポイントRが対応する可能性がある。逆に、Qに着目している場合、あるキーポイントRに対して、着目して側のクエリ画像の複数のキーポイントQが対応する可能性がある。自然に考えれば、物体が同一であるにも関わらず、物体のある一つのキーポイントに対して、別の見え方をした物体の複数のキーポイントが対応することは考えにくい。そこで、対応の重複を許さないように、後処理を導入しても構わない。例えば、一度上記方法によって全ての対応を求めた後、第二のクエリ画像17の複数のキーポイントと対応している第一のクエリ画像16のキーポイントを列挙する。続いて、当該第一のクエリ画像16のキーポイントと対応している第二のクエリ画像17のキーポイントのうち、最も距離の近いものだけを有効な対応であると判断し、それ以外の組については対応を棄却する。以上のような処理を導入することにより、全てのキーポイントは必ず一対一対応するように制約することができる。このようにして二枚のクエリ画像間でキーポイント同士の対応を取ることができる。
続いて、求めたキーポイント間の対応関係から、第一のクエリ画像16上の注目画素に対応する第二のクエリ画像17の対応画素を対応づけることによって位置合わせを行う。
もし写る物体が剛体であるならば、クエリ画像中の物体と参照画像中の物体は異なる視点から撮影されているにすぎず、現実的な仮定の下、この視点変動は線形変換でモデル化できる。言い換えれば、同じ物体上に存在するキーポイントに限れば、第一のクエリ画像16のキーポイントの座標と、第二のクエリ画像17のキーポイントの座標は線形変換により表現できるということになる。このような線形変換は、仮に線形変換がアフィン変換であると仮定する場合には3組の物体上のキーポイントの組があれば一意に求めることができ、また、射影変換と仮定する場合には4組の物体上のキーポイントの組があれば一意に求めることができる。
しかし、現実的には二枚のクエリ画像いずれについても、全てのキーポイントが物体上に存在するとは限らないため、物体上にあるキーポイントの組を正確にサンプリングしながら、線形変換を求めるような処理を構成する必要がある。幸運にも、このような条件で線形変換を求める手法は公知の有効な方法が存在する。例えば、参考文献1に記載のRANSACアルゴリズムや参考文献2に記載のLO−RANSACアルゴリズムが好適である。
[参考文献1] M. A. Fischler and R. C. Bolles, “Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography,” Comm. ACM, vol. 24, no. 6, pp. 381-395, 1981.
[参考文献2] O. Chum, J. Matas, and S. Obdrzalek, “Enhancing RANSAC by generalized model optimization,” Proceedings of Asian Conference on Computer Vision, pp. 812-817, 2004.
このような方法により、第二のクエリ画像17の物体上のキーポイントの画素から、第一のクエリ画像16の物体上のキーポイントの注目画素への変換を与える線形変換行列(行列の大きさは3×3)を求めることができる。なお、この線形変換行列を使うことで、物体上に存在する画素に限り、二枚のクエリ画像の任意の画素の対応を取ることができる。
以上のようにして、線形変換行列の形で異なる二枚のクエリ画像間の対応を決定することができる。
なお、求めた線形変換行列を用いることで、対応するキーポイントの組から物体上のキーポイントの組の数をより正確に計数することが可能である。仮に、第二のクエリ画像17のキーポイントの座標を(x,y)と表すとすると、このキーポイントに対応する第一のクエリ画像16のキーポイントの座標の推定値(x,y)は
と求めることができる。ここで、Hは先に求めた線形変換行列である。一方、第一のクエリ画像16のキーポイントの真の座標は既知であるから、この真の座標を(x’,y’)と表すとすると、仮に(x,y)、(x’,y’)が双方物体上に存在するキーポイントの組であるならば、(x’,y’)は(x,y)によって正確に推定されているはずである。そこで、これらの距離(誤差)が一定の閾値以内に収まっているか否かによって、その対応が物体から抽出されたキーポイント同士の対応であるか否かを判定する。閾値は任意の値としてよいが、例えば、1、9、36、64など、小さい値に設定すればよい。特に、三枚以上のクエリ画像が入力された場合、このようにして残されたキーポイントの組の数が多いペアを判定して、以降の処理を進めるのが好適である。
[画像合成処理]
続いて、画像合成部13における、対応決定部12による対応づけに基づいて、二枚のクエリ画像から合成画像を生成する処理について説明する。
まず、先の線形変換行列に基づいて、第二のクエリ画像17を第一のクエリ画像16上の座標に変換し、これらを張り合わせる。すると、図4に示す例のように、物***置で二枚の画像が張り合わせることができる。仮に、この張り合わせられた画像を一枚の画像とみなすとすると、二枚の画像が重なっている領域では、もともとの第一のクエリ画像16の画素値と、もともとの第二のクエリ画像17の画素値の、二つの画素値を取りうる。好ましくは、鏡面反射が起こっていない、あるいは、より弱い方の画像の画素値を採用したい。
本発明の実施形態では、二色性反射モデルに基づいて、画素値を選択することで、この条件に合う画素値の選択を実現する。二色性反射モデルは、画像の放射輝度は拡散反射成分と鏡面反射成分の和で表すことができるという仮定を表現したモデルである。完全拡散反射する同一の物体であれば、同一光源下において、同一の位置での拡散反射成分は視点によらずほぼ同じ値を取ると仮定できるから、もし、二つのクエリ画像間で大きな輝度差が生じているとすれば、それは概ね鏡面反射成分によるものと考えてよいであろう。したがって、ある画素に着目した際に、二枚のクエリ画像の画素のうち、輝度の低い方の画素値を採用する。
このようにして、図4に示すような、鏡面反射成分が抑制された合成画像を得ることができるのである。
[検索部]
最後に、検索部14において、画像合成部13で生成した合成画像をクエリ画像として、参照画像データベース15に問い合わせを行い、クエリ画像と同一の物体を含む参照画像のみを検索する。
このような検索を実行する方法には、数多くの公知の方法が存在する。好ましくは、物体の写り方(位置・姿勢・大きさ)に依らず同一物体画像を検索可能な、物体検索に基づく方法を採用する。例えば、参考文献3や参考文献4などの方法を用いるのが好適である。
[参考文献3]特開2016−18444号公報
[参考文献4]G. Tolias, Y. Avrithis, and H. J´egou, “Image search with selective match kernels: aggregation across single and multiple images,” International Journal of Computer Vision, vol. 116, pp. 247-261, 2016.
以上説明したように、本発明の実施の形態に係る画像検索装置によれば、第一のクエリ画像16と、第二のクエリ画像17との間で位置合わせを行い、第一のクエリ画像16の一つ以上の画素に対して、第二のクエリ画像17の画素を対応させ、第一のクエリ画像16から注目画素を選択し、選択した注目画素に対応する前記第二のクエリ画像17の対応画素が存在する場合、選択した注目画素の輝度値と、第二のクエリ画像17の対応画素の輝度値とを比較し、対応画素の輝度値が前記注目画素の輝度値よりも低い場合には、注目画素の画素値を対応画素の画素値によって更新することで、合成画像を生成し、合成画像に最も近しい、参照画像データベース中の参照画像を出力することにより、テクスチャのある物体を撮影したクエリ画像から、物体の輝度変化に対してロバストに、精度よく同一の物体を検索することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
11 画像検索装置
12 対応決定部
13 画像合成部
14 検索部
15 参照画像データベース
16 第一のクエリ画像
17 第二のクエリ画像

Claims (3)

  1. 少なくとも一枚以上の参照画像を蓄積した参照画像データベースを備え、同一の物体を異なる視点から撮影した第一のクエリ画像と、少なくとも一枚の第二のクエリ画像との少なくとも二枚のクエリ画像を受け付け、前記第一のクエリ画像に写る物体と同一の物体を含む、前記参照画像データベース中の参照画像を出力する画像検索装置であって、
    前記第一のクエリ画像の拡散反射領域から抽出したキーポイントと、前記第二のクエリ画像の拡散反射領域から抽出したキーポイントとの距離に基づいて、前記第一のクエリ画像のキーポイントと前記第二のクエリ画像のキーポイントとを対応付け、キーポイント間の対応関係に基づいて、前記対応関係のうち最も距離の近い対応だけを有効な対応であるとして、対応する前記第一のクエリ画像の物体上のキーポイントの画素及び前記第二のクエリ画像の物体上のキーポイントの画素の何れか一方から他方へ変換するための線形変換行列を求める対応決定部と、
    前記線形変換行列に基づいて、前記第二のクエリ画像の座標を前記第一のクエリ画像の座標に変換し、前記変換された座標上で前記第一のクエリ画像と前記第二のクエリ画像とが重なる領域において、前記第一のクエリ画像から注目画素を選択し、前記選択した注目画素に対応する前記第二のクエリ画像の対応画素が存在する場合、前記選択した注目画素の輝度値と、前記第二のクエリ画像の対応画素の輝度値とを比較し、前記対応画素の輝度値が前記注目画素の輝度値よりも低い場合には、前記注目画素の画素値を前記対応画素の画素値によって更新することで、合成画像を生成する画像合成部と、
    前記合成画像に最も近しい、前記参照画像データベース中の参照画像を出力する検索部と、
    を含む画像検索装置。
  2. 少なくとも一枚以上の参照画像を蓄積した参照画像データベースを備え、同一の物体を異なる視点から撮影した第一のクエリ画像と、少なくとも一枚の第二のクエリ画像との少なくとも二枚のクエリ画像を受け付け、前記第一のクエリ画像に写る物体と同一の物体を含む、前記参照画像データベース中の参照画像を出力する画像検索装置における画像検索方法であって、
    対応決定部が、前記第一のクエリ画像の拡散反射領域から抽出したキーポイントと、前記第二のクエリ画像の拡散反射領域から抽出したキーポイントとの距離に基づいて、前記第一のクエリ画像のキーポイントと前記第二のクエリ画像のキーポイントとを対応付け、キーポイント間の対応関係に基づいて、前記対応関係のうち最も距離の近い対応だけを有効な対応であるとして、対応する前記第一のクエリ画像の物体上のキーポイントの画素及び前記第二のクエリ画像の物体上のキーポイントの画素の何れか一方から他方へ変換するための線形変換行列を求めるステップと、
    画像合成部が、前記線形変換行列に基づいて、前記第二のクエリ画像の座標を前記第一のクエリ画像の座標に変換し、前記変換された座標上で前記第一のクエリ画像と前記第二のクエリ画像とが重なる領域において、前記第一のクエリ画像から注目画素を選択し、前記選択した注目画素に対応する前記第二のクエリ画像の対応画素が存在する場合、前記選択した注目画素の輝度値と、前記第二のクエリ画像の対応画素の輝度値とを比較し、前記対応画素の輝度値が前記注目画素の輝度値よりも低い場合には、前記注目画素の画素値を前記対応画素の画素値によって更新することで、合成画像を生成するステップと、
    検索部が、前記合成画像に最も近しい、前記参照画像データベース中の参照画像を出力するステップと、
    を含む画像検索方法。
  3. コンピュータを、請求項1に記載の画像検索装置の各部として機能させるためのプログラム。
JP2016102692A 2016-05-23 2016-05-23 画像検索装置、方法、及びプログラム Active JP6650829B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016102692A JP6650829B2 (ja) 2016-05-23 2016-05-23 画像検索装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016102692A JP6650829B2 (ja) 2016-05-23 2016-05-23 画像検索装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017211720A JP2017211720A (ja) 2017-11-30
JP6650829B2 true JP6650829B2 (ja) 2020-02-19

Family

ID=60475511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016102692A Active JP6650829B2 (ja) 2016-05-23 2016-05-23 画像検索装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6650829B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022009279A1 (ja) 2020-07-06 2022-01-13 日本電気株式会社 画像選択装置、画像選択方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4507948B2 (ja) * 2005-03-31 2010-07-21 カシオ計算機株式会社 撮影装置、撮影画像の画像処理方法及びプログラム
JP4356733B2 (ja) * 2006-11-09 2009-11-04 アイシン精機株式会社 車載用画像処理装置とその制御方法
JP2010072813A (ja) * 2008-09-17 2010-04-02 Fujitsu Ltd 画像処理装置および画像処理プログラム
JP6324155B2 (ja) * 2014-03-27 2018-05-16 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Also Published As

Publication number Publication date
JP2017211720A (ja) 2017-11-30

Similar Documents

Publication Publication Date Title
Chen et al. City-scale landmark identification on mobile devices
WO2014061372A1 (ja) 画像処理装置、画像処理方法および画像処理プログラム
Chen et al. Indoor camera pose estimation via style‐transfer 3D models
JP5261501B2 (ja) 不変の視覚場面及び物体の認識
Xue et al. Panoramic Gaussian Mixture Model and large-scale range background substraction method for PTZ camera-based surveillance systems
JP4906683B2 (ja) カメラパラメータ推定装置およびカメラパラメータ推定プログラム
KR20100065918A (ko) 사진의 촬영 위치 및 방향 정보 태깅 방법과 그 장치
Gupta et al. Augmented reality system using lidar point cloud data for displaying dimensional information of objects on mobile phones
Morelli et al. Photogrammetry now and then–from hand-crafted to deep-learning tie points–
Amano et al. BIM for existing facilities: feasibility of spectral image integration to 3D point cloud data
JP2023056466A (ja) グローバル測位装置及び方法
KR20120020711A (ko) 물체 인식 시스템 및 그 물체 인식 방법
JP6650829B2 (ja) 画像検索装置、方法、及びプログラム
Thiruselvam et al. Feature‐assisted stereo correlation
Bae et al. Fast and scalable 3D cyber-physical modeling for high-precision mobile augmented reality systems
JP6304815B2 (ja) 画像処理装置ならびにその画像特徴検出方法、プログラムおよび装置
JP4886661B2 (ja) カメラパラメータ推定装置およびカメラパラメータ推定プログラム
Tseng et al. Direct 3D pose estimation of a planar target
JP6482505B2 (ja) 検証装置、方法、及びプログラム
Subhash et al. Entropy correlation coefficient technique for visual data in multimedia sensor network
JP6534411B2 (ja) 相対角度推定装置、相対角度推定方法、及び相対角度推定プログラム
JP2018010592A (ja) 検証装置、方法、及びプログラム
Fathi et al. Machine vision-based infrastructure as-built documentation using edge points
Cheng et al. Model-based 3D scene reconstruction using a moving RGB-D camera
Onyango Multi-resolution automated image registration

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190611

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200121

R150 Certificate of patent or registration of utility model

Ref document number: 6650829

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150