JP2012141894A - 画像検索装置、画像検索方法およびプログラム - Google Patents
画像検索装置、画像検索方法およびプログラム Download PDFInfo
- Publication number
- JP2012141894A JP2012141894A JP2011000742A JP2011000742A JP2012141894A JP 2012141894 A JP2012141894 A JP 2012141894A JP 2011000742 A JP2011000742 A JP 2011000742A JP 2011000742 A JP2011000742 A JP 2011000742A JP 2012141894 A JP2012141894 A JP 2012141894A
- Authority
- JP
- Japan
- Prior art keywords
- image
- search
- subject
- images
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】検索結果の信頼性を損なうことなく、容易に検索することができる画像検索装置を提供すること。
【解決手段】被写体に類似している画像を画像データベースから検索する画像検索装置であって、複数視点からの被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出するオブジェクト抽出部と、画像群に基づき、オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する検索対象画像取得部と、検索対象画像取得部が取得した複数の画像の各々について、画像データベース内から類似画像の検索を行う類似画像検索部とを備えることを特徴とする。
【選択図】図1
【解決手段】被写体に類似している画像を画像データベースから検索する画像検索装置であって、複数視点からの被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出するオブジェクト抽出部と、画像群に基づき、オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する検索対象画像取得部と、検索対象画像取得部が取得した複数の画像の各々について、画像データベース内から類似画像の検索を行う類似画像検索部とを備えることを特徴とする。
【選択図】図1
Description
本発明は、画像検索装置、画像検索方法およびプログラムに関する。
画像検索技術の向上に伴い、1枚の静止画を入力すると、その画像に似たような構図や色合いの画像をWeb上で検索する類似画像検索システムがある。例えば、特許文献1には、1枚の画像を入力し、領域抽出・正規化・特徴量抽出を繰り返し行い、特徴量に基づいて検索対象とのマッチングを行い、その類似度に基づいて検索結果の画像を出力する技術が記載されている。このような検索システムは、1枚の静止画全体で類似している画像を検索し、しかも、同じ種類の類似画像を何枚も提示するため、その画像の中の特定の被写体を検索して、その結果からその被写体が何であるのかを知ることは困難である。
そこで、検索結果の信頼性が高い技術としては、検索対象物の6方向(平面、底面、正面、背面、右側面、左側面)からの画像を入力すると、同じく6方向からの画像で構成されるデータベース内の物体画像から類似している物体を検索する技術がある(例えば、特許文献2)。
そこで、検索結果の信頼性が高い技術としては、検索対象物の6方向(平面、底面、正面、背面、右側面、左側面)からの画像を入力すると、同じく6方向からの画像で構成されるデータベース内の物体画像から類似している物体を検索する技術がある(例えば、特許文献2)。
しかしながら、特許文献2の技術においては、検索するには、決められた6方向の画像を用意しなければならず、ユーザにとって煩雑であるという問題がある。
本発明は、このような事情に鑑みてなされたもので、その目的は、検索結果の信頼性を損なうことなく、容易に検索することができる画像検索装置、画像検索方法およびプログラムを提供することにある。
(1)この発明の一態様は、被写体に類似している画像を画像データベースから検索する画像検索装置であって、複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出するオブジェクト抽出部と、前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する検索対象画像取得部と、前記検索対象画像取得部が取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う類似画像検索部と、を備えることを特徴とする画像検索装置である。
(2)また、この発明の別の一態様は、上述の画像検索装置であって、前記少なくとも一つの画像について、奥行き情報を生成する奥行き情報作成部を備え、前記検索対象画像取得部は、前記奥行き情報を用いて、前記複数の点として、前記少なくとも一つの画像において、該画像の視点からの距離が最も近い点と、右または左の端点とを選択することを特徴とする。
(3)また、この発明の別の一態様は、上述の画像検索装置であって、前記類似画像を検索する際に用いた画像であって、前記検索対象画像取得部が取得した前記画像の特異点の数に少なくとも基づき、前記類似画像の類似度合いを決定する類似度合決定部を備えることを特徴とする請求項1に記載の映像検索装置。
(4)また、この発明の別の一態様は、上述の画像検索装置であって、前記画像データベースは、記憶している画像に対応付けて、該画像に関する補足情報を記憶し、前記類似画像検索部は、前記類似画像の検索を行う際に、前記補足情報に基づき、検索対象とする画像を限定することを特徴とする。
(5)また、この発明の別の一態様は、上述の画像検索装置であって、前記補足情報は、前記記憶している画像中の2つの特異点と、該画像の撮像面との角度であることを特徴とする。
(6)また、この発明の別の一態様は、上述の画像検索装置であって、前記補足情報は、前記対応付けられている画像で、主に使用されている色を示す情報であることを特徴とする。
(7)また、この発明の別の一態様は、被写体に類似している画像を画像データベースから検索する画像検索方法であって、複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出する第1の過程と、前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する第2の過程と、前記第2の過程にて取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う第3の過程と、を有することを特徴とする画像検索方法である。
(8)また、この発明の別の一態様は、被写体に類似している画像を画像データベースから検索する映像検索装置のコンピュータを、複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出するオブジェクト抽出部、前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する検索対象画像取得部、前記検索対象画像取得部が取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う類似画像検索部として機能させるためのプログラムである。
この発明によれば、検索結果の信頼性を損なうことなく、容易に検索することができる。
[第1の実施形態]
以下、図面を参照して、本発明の第1の実施形態について説明する。図1は、この発明の第1の実施形態による映像検索装置10の構成を示す概略ブロック図である。本実施形態における映像検索装置10は、3次元映像の静止画のデータ3Dと、該静止画中の検索対象のオブジェクトを指定する操作入力とを受けて、検索対象のオブジェクトに類似する画像を検索し、該画像と、該画像が示すオブジェクトの名称とを表示する。なお、ここで、立体映像の静止画は、左目用の静止画と、右目用の静止画とからなる画像であり、複数視点からの画像を含む画像群である。
以下、図面を参照して、本発明の第1の実施形態について説明する。図1は、この発明の第1の実施形態による映像検索装置10の構成を示す概略ブロック図である。本実施形態における映像検索装置10は、3次元映像の静止画のデータ3Dと、該静止画中の検索対象のオブジェクトを指定する操作入力とを受けて、検索対象のオブジェクトに類似する画像を検索し、該画像と、該画像が示すオブジェクトの名称とを表示する。なお、ここで、立体映像の静止画は、左目用の静止画と、右目用の静止画とからなる画像であり、複数視点からの画像を含む画像群である。
映像検索装置10は、奥行き情報作成部101、オブジェクト指定部102、オブジェクト抽出部103、検索対象画像生成部104、類似画像検索部105、画像データベース106、類似度合決定部107、検索結果出力部108を含んで構成される。なお、画像データベース106は、通信回線などを介して映像検索装置10に接続される外部装置が備えていてもよい。
奥行き情報作成部101は、映像検索装置10に入力されたデータ3Dについて、両眼視差を検出して、データ3Dが表す静止画のデプスマップ(depth map;奥行き画像、距離画像)を作成する。オブジェクト指定部102は、データ3Dが表す静止画中の検索対象を指定する操作入力を受けて、検索対象のオブジェクトを指定するポインティング情報を出力する。例えば、オブジェクト指定部102は、データ3Dが示す立体映像のうち、左目用の静止画を表示し、ユーザがマウスなどのポインティングデバイスで指定した該静止画中の1点の座標を取得して、該座標をポインティング情報として出力する。
オブジェクト抽出部103は、データ3Dが表す静止画から、ポインティング情報で指定された点を含むオブジェクトを、検索対象のオブジェクトとして抽出し、該オブジェクトのみを含む立体映像の静止画のデータを出力する。なお、オブジェクト抽出部103は、検索対象のオブジェクトの抽出を行う際に、奥行き情報作成部101が作成したデプスマップを用いる。検索対象画像生成部104は、オブジェクト抽出部103が出力した検索対象のオブジェクトのみを含む立体映像の静止画のデータを受けると、該データに基づき、検索対象のオブジェクトの複数視点からの画像を生成し、それらの画像のデータを出力する。類似画像検索部105は、検索対象画像生成部104が出力したデータを受けると、該データが示す画像各々と類似する画像を、画像データベース106から検索する。画像データベース106は、様々な被写体の画像のデータと、該被写体の名称とを対応付けて記憶する。類似度合決定部107は、類似画像検索部105による検索結果の画像各々について、類似度合いを判定する。検索結果出力部108は、類似度合決定部107による類似度合いの判定の結果、検索対象のオブジェクトと類似していると判定された画像と、該画像の被写体の名称とを表示する。
図2は、本実施形態における入力映像である三次元映像の静止画を説明する図である。図2に示すように、三次元映像の静止画は、カメラもしくは撮像素子が2個以上ならんだ状態で、被写体の撮影を行うことにより得られる画像である。この図では2個のカメラが並んだ例を示したが、3個以上並んでいても良い。また、図2のように、撮影することで生成するのではなく、コンピュータが演算して生成するコンピュータグラフィックであってもよい。
図3から図7は、奥行き情報作成部101による奥行き情報生成の原理を説明する図である。奥行き情報作成部101は、入力されたデータ3Dが表す2枚の静止画において、1枚の静止画に映っている被写体が、もう1枚の静止画のどの位置に映っているのかを解析し、その位置の違い(位置のずれ)を算出する。奥行き情報作成部101は、この位置のずれを、各画素について算出し、そのずれの大きさから、各画素が奥行き方向にどの位置にあるのかを示す奥行き情報を作成し、オブジェクト抽出部103に入力する。
図3は、上方から見たカメラと被写体の位置関係を示した図である。ここで、符号201は直方体状の被写体αである。符号202は球状の被写体βである。符号203は、視点位置Aのカメラであり、左目用の画像を撮影する。符号204は、視点位置Bのカメラであり、右目用の画像を撮影する。直方体の被写体αは、球の被写体βよりもカメラに近い位置に存在している。
図4は、視点位置Aでの映像、すなわちカメラ203で撮影した映像である。図3の位置関係から分かるように、この映像では、直方体状の被写体αが、球状の被写体βよりも右に存在する。
図5は、視点位置Bでの映像、すなわちカメラ204で撮影した映像である。図3の位置関係から分かるように、この映像では、図4とは逆に、直方体状の被写体αが、球状の被写体βよりも左に存在する。
図5は、視点位置Bでの映像、すなわちカメラ204で撮影した映像である。図3の位置関係から分かるように、この映像では、図4とは逆に、直方体状の被写体αが、球状の被写体βよりも左に存在する。
図6は、図4の映像を実線で記載し、図5の映像を点線で記載し、両者を重ね合わせた映像である。距離dαが映像上での 被写体αのズレ量であり、距離dβが映像上での 被写体βのズレ量である。この映像上でのズレ量を一般的に視差量と呼んでいる。ここからも分かるように、視差量が大きいほど近くにある被写体であり、視差量とカメラ〜被写体間の距離は比例する。カメラ203、204の画角と、カメラ203の撮像面の中心からカメラ204の撮像面の中心までの距離lと、映像上のズレ(視差量)とに基づき、奥行き方向にどの位置にあるのかを示す奥行き情報を算出できる。なお、映像上のズレは、例えば、公知のブロックマッチング法を用いて算出する。また、カメラ203、204の画角、および、カメラ203の撮像面の中心からカメラ204の撮像面の中心までの距離lについては、入力された立体映像の静止画のデータ3Dに含まれていても良いし、ユーザが別途入力するようにしてもよい。なお、距離lが取得できない場合には、どの位置にあるのかを示す奥行き情報が、絶対的な距離を示すものでなく、相対的な距離を示すものとなる。
図7は、視点位置Aにおける奥行き情報を映像化した例である。ここでは、カメラに近いほど網掛けを薄く、カメラから遠いほど網掛けを濃くしている。すなわち、背景が一番濃い網掛けで、被写体βが薄い網掛けで、被写体αが網掛け無しとなっている。
図7は、視点位置Aにおける奥行き情報を映像化した例である。ここでは、カメラに近いほど網掛けを薄く、カメラから遠いほど網掛けを濃くしている。すなわち、背景が一番濃い網掛けで、被写体βが薄い網掛けで、被写体αが網掛け無しとなっている。
図8は、オブジェクト抽出部103が生成する検索対象のオブジェクトだけを抽出した映像の例である。オブジェクト抽出部103は、奥行き情報作成部101が生成した奥行き情報と、入力映像のデータ3Dと、オブジェクト指定部102が生成したポインティング情報とから、ユーザが検索したい対象であるオブジェクトだけを抽出した映像を生成し、対応する奥行き情報とともに、検索対象画像生成部104に入力する。
図8の画像G1aは入力映像であり、背景に色々な植物があるバラの花の映像である。
図8の画像G1bは入力映像に対して、ユーザが検索したい対象であるバラを示したポインティング情報を矢印801で明示化した映像である。ここではポインティング情報を矢印で示したが、実際にオブジェクト指定部102が出力するポインティング情報は座標である。
図8の画像G1cは、検索対象のオブジェクトだけが抽出された映像であり、入力映像からバラの花以外の背景が消去された映像である。ここでは検索対象のオブジェクト以外は、黒で塗りつぶされているが、これは1例である。このように映像として作成してもよいが、オブジェクトが存在する画素を1、存在しない画素(画像G1cで黒い部分)を0とする2値の情報を別途作成するようにしてもよい。
図8の画像G1bは入力映像に対して、ユーザが検索したい対象であるバラを示したポインティング情報を矢印801で明示化した映像である。ここではポインティング情報を矢印で示したが、実際にオブジェクト指定部102が出力するポインティング情報は座標である。
図8の画像G1cは、検索対象のオブジェクトだけが抽出された映像であり、入力映像からバラの花以外の背景が消去された映像である。ここでは検索対象のオブジェクト以外は、黒で塗りつぶされているが、これは1例である。このように映像として作成してもよいが、オブジェクトが存在する画素を1、存在しない画素(画像G1cで黒い部分)を0とする2値の情報を別途作成するようにしてもよい。
オブジェクト抽出部103によるオブジェクト抽出の方法としては、奥行き情報以外に、入力映像の色、エッジ、地面推定等の構図などを利用して抽出するような公知の手法を用いればよいが、この方法に限るものではない。また、オブジェクト抽出結果がユーザの期待する検索対象でない場合もあるため、オブジェクト抽出結果をユーザに一旦提示して、その結果が意図通りであるかを確認する処理を追加しても良い。この場合、もし意図通りでなかったら、さらに検索対象のオブジェクトの部分を追加でユーザに指定してもらったり、逆に、オブジェクト抽出結果の中から意図しない部分を指定してもらったりして、その情報を加味してオブジェクト抽出を行う事で抽出精度を高めればよい。
図9は、検索対象画像生成部104の動作を示すフローチャートであり、図10から図12は、検索対象画像生成部104で生成する検索対象画像の例である。検索対象画像生成部104は、入力された検索対象のオブジェクトだけが抽出された映像と、対応する奥行き情報とから、検索対象オブジェクトが異なる視点から見た静止画を複数生成し、検索対象画像として類似画像検索部105に入力する。
図10から図12において、画像G2a、G3a、G4aは、後述する検索対象画像であり、符号G2b、G3b、G4bは、被写体を上方から見た図である。また、符号G2bは、画像G2aについて、被写体と撮像面Sとの関係を示す図である。同様に、符号G3bは、画像G3aについて、被写体と撮像面Sとの関係を示す図である。符号G4bは、画像G4aについて、被写体と撮像面Sとの関係を示す図である。
まず、検索対象画像生成部104は、ステップS01で、オブジェクト抽出部103が生成した画像を、初期画像に設定する。ここでは、図10の画像G2aを設定された画像とする。次にステップS02に移行して、検索対象画像生成部104は、初期画像に対して、奥行き情報を用いて、2つの特異点(A点、B点)を選択する。具体的には、初期画像において最もカメラに近い画素を探索して、該画素が表す被写体上の点の水平面への射影をA点とする。さらに、検索対象のオブジェクトのみが抽出された映像を用いて最も右に位置する画素を探索し、該画素が表す被写体上の点の水平面への射影をB点とする。図10のG2bにおける○印の部分がA点に相当し、△印の部分がB点に相当する。また、最も右に位置する画素をB点とし、最も左に位置する画素をC点として、両方を算出するようにしても良い。以降は、A点と最も右に位置する点であるB点を用いて検索対象画像を決定する方法について記載する。
また、A点となり得る画素が複数存在する場合(両腕を前に突き出したオブジェクトやのっぺりした面が一番手前にあるオブジェクトの場合)、その中から任意の点をA点とすればよい。複数の中の重点に最も近い点や、中心に最も近い点や、最もB点に遠い点や、最もB点に近い点としても良い。これら手法の限らず何らかの方法でA点が一意に決まるようにすればよい。
次にステップS03に移行して、A点とB点が不適切か否かの判定を行う。不適切な場合の一例として、A点とB点が同一の点となる場合(鉛筆を左斜めから見た場合)がある。不適切と判定した場合は、ステップS04に移行し、最も左に位置するC点を算出し、C点をB点とみなして、ステップS05に移行する。
ステップS03にてA点とB点が不適切で無いと判断されると、ステップS05に移行し、変数Nに1を代入して、その時点での初期画像を第Nの検索対象画像(すなわち第1の検索対象画像)とする。ここでは図10の画像G2aが初期画像に相当する。そしてNにN+1を代入する。次にステップS06に移行して、A点とB点を結んだ直線と撮像面Sとの角度Θ1を算出する。これは、図10のG2bでは、Θ1である。
次にステップS07に移行して、所定のアングル(ΔΘ)動かした画像を作成する。次にステップS08に移行して、NにN+1を代入する。次にステップS09に移行し、NやΘ(=Θ1+ΔΘ×N)が所定の値を超えたか否かの判定を行う。すなわち、必要分の検索対象画像が得られたか、もしくは、アングルの変更範囲を超えたかなどで、これ以上の検索対象画像を生成する必要がないか否かとの判定を行う。ここで、探索する必要があると判定した場合は、ステップS07に戻り、次の検索対象候補画像の選択を行い、処理のループを繰り返す。また、探索する必要がないと判定した場合は、検索対象画像生成部の処理を終了する。なお、ステップS09において、NおよびΘについて、所定の値を超えたか否かの判定を行っているが、Θについて判定しないようにしてもよい。
次にステップS07に移行して、所定のアングル(ΔΘ)動かした画像を作成する。次にステップS08に移行して、NにN+1を代入する。次にステップS09に移行し、NやΘ(=Θ1+ΔΘ×N)が所定の値を超えたか否かの判定を行う。すなわち、必要分の検索対象画像が得られたか、もしくは、アングルの変更範囲を超えたかなどで、これ以上の検索対象画像を生成する必要がないか否かとの判定を行う。ここで、探索する必要があると判定した場合は、ステップS07に戻り、次の検索対象候補画像の選択を行い、処理のループを繰り返す。また、探索する必要がないと判定した場合は、検索対象画像生成部の処理を終了する。なお、ステップS09において、NおよびΘについて、所定の値を超えたか否かの判定を行っているが、Θについて判定しないようにしてもよい。
また、ここまでの記載で、A点とB点を結んだ直線と撮像面Sとの角度を利用して、検索対象候補画像を生成する方法を記載したが、この角度を算出するためには、奥行きの絶対値が必要であり、そのためには、カメラの配置関係や画角や焦点距離などのカメラパラメータ情報が必要となる。このカメラパラメータは、JPEGファイルにおけるExifタグのように、撮影時に自動的に付与されていた場合にはその値を用いればよく、そうでない場合にはユーザに別途入力を促しても良い。情報が取得できない場合には、A点とB点を結んだ直線と水平方向との角度ではなく、A点とB点を結んだ直線と撮像面Sとの角度の代わりに、A点とB点を撮像面Sに投影した場合の距離を用いても良い。この距離は図10のG2bでのD1、図11のG3bでのD2、図12のG4bでのD3に相当する。この距離を用いて検索対象候補画像を生成する場合には、検索対象のオブジェクトとカメラとの距離が同一でなければならないため、同一の大きさに合わせてから距離Dを算出する必要がある。
図13は、画像データベース106に格納されるデータの例である。画像データベース106は、所定のデータ構造で格納された画像データと、その補足情報の集合体とを対応付けて記憶する。ここでは、補足情報の集合体は、画像データのID(識別情報)と、検索結果としてユーザに提示する被写体の名称と、類似画像検索部105で類似度の算出を行う画像の絞り込みを行う際に利用するデータ(角度、主に使用している色の情報)と、類似画像検索部105で検索対象画像との類似度を算出する際に利用するデータ(特徴ベクトル)とを含む。類似画像検索部105で類似度の算出を行う画像の絞り込みを行う際に利用するデータとしては、検索対象画像生成部104で算出した角度に対応する角度や、主に使用している色情報などがある。また、類似画像検索部105で検索対象画像との類似度を算出する際に利用するデータとしては、色・形状・模様から、それぞれの特徴量を算出して多次元ベクトル化した特徴ベクトルがある。ユーザに提示する被写体の名称については、データベース管理者が登録する仕組みを想定しているが、その手法に限る必要はなく、検索したユーザが別途名称を入力するようにしても良い。
ここで、画像データベース106が記憶する補足情報のうち、図14から図16を用いて、角度について説明する。各図における中心の一点鎖線は、カメラで撮影することで画像を生成した場合の該カメラの光軸を示す。画像データベース106が記憶する角度は、該角度と対応付けて記憶している画像の上述のようなA点、B点を用いて算出した角度である。図14の符号G14aは、シャチをほぼ左真横から撮影した場合のカメラとシャチとの位置関係と、A点、B点を示す。カメラに最も近い画素A点は○印の右胸ヒレで、最も右に位置するB点は△印の頭部となる。符号G14bは、シャチを前方から見てほぼ左45度から撮影した場合のカメラとシャチとの位置関係と、A点、B点を示す。この角度では、右胸ヒレよりも頭部がカメラに近くなるため、カメラに最も近い画素点も、最も右に位置する点も頭部となるので、カメラに最も近い画素点である頭部をA点、最も左に位置する点である尾ヒレをB点とする。
符号G14cは、シャチを前方から見てほぼ50度から撮影した場合のカメラとシャチとの位置関係と、A点、B点を示す。この角度では、右側に左胸ヒレが見えているため、カメラに最も近い画素A点は○印の頭部で、最も右に位置するB点は△印の左胸ヒレとなる。符号G14dは、シャチを前方から見てほぼ右5度から撮影した場合のカメラとシャチとの位置関係と、A点、B点を示す。ここでは、カメラに最も近い画素A点は、G14bおよびG14cと同様に○印の頭部で、最も右に位置するB点は、G14cと同様に△印の左胸ヒレとなる。符号G14eは、シャチを前方から見てほぼ右45度から撮影した場合のカメラとシャチとの位置関係と、A点、B点を示す。ここでは、カメラに最も近い画素A点は、G14bからG14dと同様に○印の頭部であるが、最も右に位置するB点はこれらと異なり△印の尾ヒレとなる。この角度あたりまでは頭部がまだカメラに最も近い位置となるが、この角度以降は左胸ヒレがカメラに最も近い位置となる。符号G14fは、シャチを前方から見てほぼ右真横から撮影した場合のカメラとシャチとの位置関係と、A点、B点を示す。カメラに最も近い画素A点は○印の左胸ヒレであり、最も右に位置するB点は△印の尾ヒレとなる。
すなわち、このシャチを撮影した画像では、左横方向からほぼ左40度までの角度から撮影した画像では、A点は右胸ヒレで、B点は頭部である。また、ほぼ左40度から左50度までの角度から撮影した画像では、A点は頭部で、B点は尾ひれである。また、ほぼ左50度からほぼ右5度前までの角度から撮影した画像では、A点は頭部で、B点は左胸ヒレである。また、ほぼ右5度からほぼ右50度までの角度から撮影した画像では、A点は頭部で、B点は尾ヒレである。また、ほぼ右50度から右横方向までの角度から撮影した画像では、A点は左胸ヒレで、B点は尾ヒレである。
次に、図14の各画像におけるA点とB点の奥行き方向の角度について説明する。ここで、奥行き方向の角度とは、A点とB点が奥行き方向に同一となる状態での撮像面と、各画像の撮像面との角度である。なお、この角度は、前述の検索対象画像生成部104の動作説明において記載した2つの特異点(A点、B点)を通る直線と、撮像面とのなす角度と同じである。この奥行き方向の角度を、画像データベース106が記憶する補足情報の角度とする。A点とB点が奥行き的に同一となる状態とは、画素A点が右胸ヒレで、B点が頭部である場合には、図15の符号G15aの状態であり、この状態での撮像面はRaと記された一点鎖線である。画素A点が頭部で、B点が尾ヒレである場合には、図15の符号G15bの状態であり、この状態での撮像面はRbと記された一点鎖線である。画素A点が頭部で、B点が左胸ヒレである場合には、図15の符号G15cの状態であり、この状態での撮像面はRcと記された一点鎖線である。画素A点が頭部で、B点が尾ヒレである場合には、図15の符号G15dの状態であり、この状態での撮像面はRdと記された一点鎖線である。画素A点が左胸ヒレで、B点が尾ヒレである場合には、図15の符号G15eの状態であり、この状態での撮像面はReと記された一点鎖線である。
したがって、図14の各画像におけるA点とB点の奥行き方向の角度は、まず、符号G14aに対応する図16の符号G16aの場合は、符号G15aの撮像面Raと符号G16aの撮像面Saとの角度Θaである。また、符号G14bに対応する図16の符号G16bの場合は、符号G15bの撮像面Rbと符号G16bの撮像面Sbとの角度Θbである。また、符号G14cに対応する図16の符号G16cの場合は、符号G15cの撮像面Rcと符号G16cの撮像面Scとの角度Θcである。また、符号G14dに対応する図16の符号G16dの場合は、符号G15cの撮像面Rcと符号G16dの撮像面Sdとの角度Θdである。また、符号G14eに対応する図16の符号G16eの場合は、符号G15dの撮像面Rdと符号G16eの撮像面Seとの角度Θeである。符号G14fに対応する図16の符号G16fの場合は、符号G15eの撮像面Reと符号G16fの撮像面Sfとの角度Θfである。
図18は、類似画像検索部105の動作を示すフローチャートである。類似画像検索部105は、入力された複数の検索対象画像に対して画像データベース106に格納された画像の中から類似画像を検索し、類似度が高いとされた静止画とその類似度を、類似度合決定部107に入力する。ここでは、1つの検索対象画像に対しての処理を記載するが、類似画像検索部105は、入力された複数の検索対象画像の各々に対して、同一の処理を行う。
類似画像検索部105は、まずステップS21で、画像データベース106の中から類似度の算出を行う画像データの絞り込みを行う。以降、絞り込んだ画像を類似度算出対象画像と呼ぶ。この絞り込みの処理は、画像データベース106内のデータ数が莫大で、全てのデータでの類似度算出を行うには時間がかかってしまう場合に、類似度算出を行う対象を削減するための処理であり、画像データベース106内の画像データの数と算出処理装置の処理能力との関係から算出対象を絞り込む必要のない場合は、この処理を省いても構わない。
絞り込みの方法としては、検索対象画像生成部104で算出した角度と、同様の角度(図13)と対応付けて画像データベース106が記憶している画像のみを算出対象として絞り込みを行っても良いし、検索対象画像の色分布を算出し、主に使用している色が似ている画像を算出対象として絞り込みを行っても良いし、両方を用いて絞り込みを行っても良い。なお、ここで、算出した角度と同様の角度とは、算出した角度を基準とする所定の範囲に含まれる角度を示す。例えば、算出した角度を基準として、上下10度以内に含まれる角度である。また、色分布を算出する際には、画像データがRGB各8ビット使用しているとしても、主に使用している色を分類するだけであるので、例えばRGB各3ビットに減色して色分布を算出すれば、演算量を減らすことができる。
なお、検索対象画像生成部104では、角度が算出できない場合があるため、角度が算出できていないときは、角度についての絞込みを行なわない。同様にデータベース内の画像も角度の情報が有る画像と無い画像が混在しているので、角度についての絞り込みを行う場合には、データベース内の角度の情報が有る画像に対してのみ絞り込みを行い、角度の情報が無い画像に対しては絞り込みを行わないようにする。すなわち、画像データベース内の角度の情報の有る画像の中の同様の角度で撮影した画像の集合と、画像データベース内の角度の情報の無い画像全体の集合の両者が絞り込んだ結果となる。
図16の各画像G16a〜G16fにおけるA点とB点の奥行き方向の角度(Θa、Θb、Θc、Θd、Θe、Θf)を、各画像G16a〜G16fと対応付けて、画像データベース106は格納している。このことにより、検索対象の画像とA点とB点が同一となる画像のうち、角度の情報が大きく異なる画像を検索の対象から省くことが可能となる。例えば、図14の符号G14aに近い画像を検索対象としているときに、画像データベース106内に図14の符号G14cの映像があった場合に、両者の角度の情報(ΘaとΘcと)は大きく異なっているので、図14の符号G14cの映像が検索対象から外れる。なお、図14の符号G14dに近い画像を検索対象としているときに、画像データベース106内に図14の符号G14eの画像があった場合、ΘdとΘeとは値が近いため、符号G14eの画像については検索対象から外すことができない可能性がある。しかし、例えば、符号G14aの画像については検索対象から外すことができるので、類似度の算出のための演算量は減らすことができる。
次にステップS22で、検索対象画像の色・形状・模様から、それぞれの特徴量を算出し、多次元ベクトル化して、特徴ベクトルを算出する。次にステップS23で、算出した検索対象画像の特徴ベクトルと、画像データベース106が記憶する、算出済みの類似度算出対象画像の特徴ベクトルとのユークリッド距離を算出する。そして、ステップS24で、ユークリッド距離の近い順に、類似度の高い順とし、その距離を類似度とする。
図17は、類似度合決定部107の動作を示すフローチャートである。類似度合決定部107は、検索対象画像の特異点数をカウントして、その結果から画像重要度を設定し、類似度が高いとされた画像データとその類似度に対して画像重要度を考慮して最終的な類似度合を決定する。まず、類似度合決定部107は、ステップS41でN=1と設定し、次いで、ステップS42で、N番目の検索対象画像を選択する。
次にステップS43で、類似度合決定部107は、N番目の検索対象画像の特異点を検出し、その数をカウントする。特異点の検出方法としては、一般的なコーナー検出手法を用いて、エッジの交差点、輝度が局所的に最大や最小となる点、線の終わり、曲率が局所的に最大となる点などを検出するようにすれば良いが、この方法に限るものではない。次にステップS44で、カウントした特異点の数に応じて、検索対象画像毎に、画像重要度を設定する。画像重要度の設定方法としては、特異点の数を画像重要度として設定してもよいし、特異点の数そのものでなく、特異点の数に比例する数としてもよい。また、特異点の数に対して閾値を2個設定し、特異点の数が下の閾値より下の場合を画像重要度=小として具体的な値として1を割り当て、特異点の数が下の閾値から上の閾値までの場合を画像重要度=中として具体的な値として2を割り当て、特異点の数が上の閾値以上の場合を画像重要度=大として具体的な値として3を割り当てるように設定してもよい。特異点の数が多い方がより精度の高い類似画像検索が行えるため、このように特異点の数が多いほど画像重要度の値を大きくすることで、後述のように、最終的な類似度合を決定する際に、特異点の数が多い画像に類似する画像の方が類似画像として選択されやすくなる。
次にステップS45で、類似画像検索部105によるN番目の検索対象画像の類似画像検索結果(類似画像と類似度)を取得する。次に、ステップS46で、Nが最終値か否かを判定する。Nが最終値でないときは、ステップS47で、NにN+1を代入し、ステップS42に戻る。Nが最終値であるときは、ステップS48で、類似画像検索の結果で得られる検索結果の類似度に、画像重要度を重み付けして、最終的な類似度合を算出する。次にステップS49で、算出した最終的な類似度合の高い順に、検索結果の画像を提示する。ここで、上位何番目までを提示するとしても良いし、最終的な類似度合がある閾値以上のものを全て提示するとしても良い。
図19は、類似度合決定部107で類似度合を決定する類似画像の例である。図(a)(b)(c)は、被写体がシャチの画像である検索対象画像で、それぞれ、正面、右45°、真横から見た場合の画像である。図(d)(e)(f)は、被写体がロケットの画像である類似画像検索部105で得られた類似画像の1例で、それぞれ、正面、右45°、真横から見た場合の画像である。以降、ここでは類似画像その1と呼ぶ。図(g)(h)(i)は、被写体が口を開けたシャチの画像である類似画像検索部105で得られた類似画像の別の1例であり、それぞれ、正面、右45°、真横から見た場合の画像である。以降、ここでは類似画像その2と呼ぶ。
検索対象画像のシャチの画像には所々○印が記載されているが、これが、検出した特異点の1例である。ここでは、エッジを抽出し、そのエッジを直線及び円弧に分類し、ある閾値以上の長さの直線及び円弧の交点を特異点としている。(a)では特異点の数が10個で、(b)では特異点の数が20個で、(c)では特異点の数が15個である。すなわち、画像重要度は、(b)が最大で「20」、(c)が中間で「15」、(a)が最小で「10」となる。ここで、(a)の画像で類似画像検索を行った結果、類似画像その1のロケットの画像(d)の類似度が「10」、類似画像その2の口を開けたシャチの画像(g)の類似度が「7」であったとする。同様に、(b)や(c)で類似画像検索を行った結果は、類似画像その2の口を開けたシャチの画像(h)の類似度が「7」、(i)の類似度が「8」であり、類似画像その1のロケットの画像(e)の類似度が「5」、(f)の類似度が「5」であったとする。この場合、最終的な類似度は、画像重要度と類似度との積なので、(d)は10×10=100、(e)は5×20=100、(f)は5×15=75、(g)は7×10=70、(h)は7×20=140、(i)は8×15=120となる。したがって、最終的な類似度の大きい順、すなわち(h)、(i)、(d)、(e)、(f)、(g)の順に提示され、上位2つがシャチの画像となる。
このように、本実施形態によれば、知りたい被写体が目の前に存在する際に、単に三次元静止画を撮影してポインティングするだけの簡単な操作で、その被写体について、複数のアングルからの画像の検索を行うことができるので、検索結果の信頼性を損なうことなく、容易に検索することができる。さらに、類似画像だけでなく、その名称も提示されるため、知りたい被写体の名称も判明する事が可能となる。
[第2の実施形態]
以下、図面を参照して、本発明の第2の実施形態について説明する。図20は、この発明の第2の実施形態による映像検索装置10aの構成を示す概略ブロック図である。図20において、図1に対応する部分には同一の符号(102、103、105〜108)を付し、説明を省略する。本実施形態における映像検索装置10aは、二次元映像の動画のデータと、該動画中の検索対象のオブジェクトを指定する操作入力とを受けて、検索対象のオブジェクトに類似する画像を検索し、該画像と、該画像が示すオブジェクトの名称とを表示する。なお、ここで、二次元映像の動画は、図21に示すように、被写体に対して回り込んで撮影した動画であり、複数視点からの画像を含む画像群である。
以下、図面を参照して、本発明の第2の実施形態について説明する。図20は、この発明の第2の実施形態による映像検索装置10aの構成を示す概略ブロック図である。図20において、図1に対応する部分には同一の符号(102、103、105〜108)を付し、説明を省略する。本実施形態における映像検索装置10aは、二次元映像の動画のデータと、該動画中の検索対象のオブジェクトを指定する操作入力とを受けて、検索対象のオブジェクトに類似する画像を検索し、該画像と、該画像が示すオブジェクトの名称とを表示する。なお、ここで、二次元映像の動画は、図21に示すように、被写体に対して回り込んで撮影した動画であり、複数視点からの画像を含む画像群である。
映像検索装置10aは、奥行き情報作成部101a、オブジェクト指定部102、オブジェクト抽出部103、検索対象画像生成部104a、類似画像検索部105、画像データベース106、類似度合決定部107、検索結果出力部108、複数アングル画像生成部109aを含んで構成される。複数アングル画像生成部109aは、奥行き情報を作成するために必要な2枚の静止画を入力映像から生成し、奥行き情報作成部101aに入力する。後述するように、ユーザが検索したい対象を示したポインティング情報を入力することになるが、そのためには、検索したい対象が表示されている画面でポイントする事となる。そのため、複数アングル画像生成部109aは、そのポインディングに用いた画像の情報を得て、生成する2枚の静止画の内、1枚はユーザがポインティング情報を入力する際に使用した画像とする。
そして、入力映像である二次元動画は、後述のように被写体を回り込むように移動しながら撮影された映像である必要があるため、複数アングル画像生成部109aは、グローバルモーションを算出し、左右方向のグローバルモーションの累積がポインティング情報を入力したフレームからある閾値以上になった時点のフレームを、生成するもう1枚の静止画とする。また他の方法としては、固定時間N秒後に相当するフレームを、生成するもう1枚の静止画とするようにしてもよい。
図22から図26は、奥行き情報作成部101aによる奥行き情報生成の原理を説明する図である。奥行き情報作成部101aは、入力された二次元動画を構成する静止画のうち、2枚の静止画において、1枚の静止画に映っている被写体が、もう1枚の静止画のどの位置に映っているのかを解析し、その位置の違い(位置のずれ)を算出する。ただし、被写体を回り込むように移動しながら撮影することにより撮影した映像のため、1枚目の静止画を撮影した地点でのカメラと被写体との距離と、2枚目の静止画を撮影した地点でのカメラと被写体との距離が等距離でない場合がある。この場合、両方の静止画での被写体の大きさが異なってしまう。このようなときには、まず2枚目の静止画の被写体の大きさを1枚目の静止画の被写体の大きさに合わせるように補正を行う。また、片方の撮影時にカメラが斜めに傾いていたり上下方向にずれていたりする場合もある。この場合も、2枚目の静止画における傾き及び上下方向のずれを1枚目の静止画に合わせるように補正を行う。
図22は、これらの補正をした後の画像について、上方から見たカメラと被写体の位置関係を示した図である。前述のように被写体を回り込むように移動しながら撮影した映像のため、図3の三次元映像の静止画を撮影した場合のカメラと被写体の位置関係と異なり、カメラの向きが平行でなく、被写体を中心とする円弧上にカメラが中心を向くように位置することとなる。ここで、符号201は直方体状の被写体αである。符号202は球状の被写体βである。符号203aは、視点位置Aのカメラであり、左目用の画像を撮影する。符号204aは、視点位置Bのカメラであり、右目用の画像を撮影する。直方体の被写体αは、球の被写体βよりもカメラに近い位置に存在している。
図23は、視点位置Aでの映像、すなわちカメラ203aで撮影した映像である。図22の位置関係から分かるように、この映像では、直方体状の被写体αが、球状の被写体βよりも右に存在する。
図24は、視点位置Bでの映像、すなわちカメラ204aで撮影した映像である。図22の位置関係から分かるように、この映像では、図23とは逆に、直方体状の被写体αが、球状の被写体βよりも左に存在する。
図24は、視点位置Bでの映像、すなわちカメラ204aで撮影した映像である。図22の位置関係から分かるように、この映像では、図23とは逆に、直方体状の被写体αが、球状の被写体βよりも左に存在する。
図25は、図23の映像を実線で記載し、図24の映像を点線で記載し、両者を重ね合わせた映像である。図6と図25の違いとして、図6では、被写体αも被写体βも、カメラ203で撮影した映像(実線表記)がカメラ204で撮影した映像(点線表記)よりも右に位置しているが、図25の場合は、被写体αは図6と同じであるが、被写体βは、カメラ203aで撮影した映像(実線表記)がカメラ204aで撮影した映像(点線表記)よりも左に位置している。これは、カメラ203aとカメラ204aの光軸(一点鎖線で表記)の交点よりもカメラに近い部分にある被写体は、カメラ203aで撮影した映像がカメラ204aで撮影した映像よりも右に位置し、上記交点よりもカメラから遠い部分にある被写体はカメラ203aで撮影した映像がカメラ204aで撮影した映像よりも左に位置することとなるためである。
距離dαが映像上での被写体αのズレ量であり、距離dβが映像上での被写体βのズレ量である。この映像上でのズレ量を一般的に視差量と呼ぶ。ここでは、左側の視点からの映像を原点と考え、そこから左方向のずれ量を+方向のずれ量とし、右方向のずれ量を−方向のずれ量と定義する。すると、距離dαは+方向のずれ量であり、距離dβは−方向のずれ量と言える。ここからも分かるように、視差量が+方向に大きいほど近くにある被写体であり、視差量とカメラ〜被写体間の距離は比例する。カメラ203a、204aの画角と、カメラ203aの撮像面の中心からカメラ204aの撮像面の中心までの距離lと、映像上のズレ(視差量)とに基づき、奥行き方向にどの位置にあるのかを示す奥行き情報を算出できる。なお、映像上のズレは、例えば、公知のブロックマッチング法を用いて算出する。また、カメラ203a、204aの画角、および、カメラ203aの撮像面の中心からカメラ204aの撮像面の中心までの距離lについては、入力された二次元映像の動画のデータに含まれていても良いし、ユーザが別途入力するようにしてもよい。なお、距離lが取得できない場合には、どの位置にあるのかを示す奥行き情報が、絶対的な距離を示すものでなく、相対的な距離を示すものとなる。
図26は、視点位置Aにおける奥行き情報を映像化した例である。ここでは、カメラに近いほど網掛けを薄く、カメラから遠いほど網掛けを濃くしている。すなわち、背景が一番濃い網掛けで、被写体βが薄い網掛けで、被写体αが網掛け無しとなっている。
図26は、視点位置Aにおける奥行き情報を映像化した例である。ここでは、カメラに近いほど網掛けを薄く、カメラから遠いほど網掛けを濃くしている。すなわち、背景が一番濃い網掛けで、被写体βが薄い網掛けで、被写体αが網掛け無しとなっている。
検索対象画像生成部104aは、入力された検索対象のオブジェクトだけが抽出された映像と、対応する奥行き情報とから、検索対象オブジェクトが異なる視点から見た静止画を複数生成し、検索対象画像として類似画像検索部105に入力する。その詳細は、後述する。
図27は、複数アングル画像生成部109aの動作の一例を示した図である。動画MP1は、被写体を回り込みながら撮影した各フレームを示している。ここから画像G6a、G6bのように、任意の2枚を選択することで、奥行き情報を作成するために必要な2枚の静止画が選択されたこととなる。画像G6aがポインティング情報を入力したフレームとすると、次のフレームを読み込んで、画像の4隅の動きベクトルを直前フレームを利用して検出して、そこからグローバルモーションを算出する。グローバルモーションの左右方向の動きの累積が閾値以上となるまで、次のフレームの読み込み、グローバルモーション算出及び累積計算を繰り返す。そして閾値以上となったフレームが画像G6bとなり、2枚の静止画が選択されたこととなる。ここでは画像4隅の動きベクトルを用いてグローバルモーションを算出する方法を記載したが、画面全体を用いてグローバルモーションを算出しても良い。
図28は、検索対象画像生成部104aの動作を示すフローチャートである。まず、ステップS01で、まず初期画像を設定する。次にステップS02に移行して、初期画像にて、奥行き情報を用いて最もカメラに近い画素を探索して、その点をA点とし、検索対象のオブジェクトのみが抽出された映像を用いて最も右に位置の画素を探索し、その点をB点とする。次にステップS03に移行して、A点とB点が不適切か否かの判定を行う。不適切な場合の一例として、A点とB点が同一の点となる場合(鉛筆を左斜めから見た場合)がある。不適切と判定した場合は、ステップS04に移行し、別の画像を初期画像として、ステップS13に移行して、別の画像を初期画像と設定する回数が所定の回数を超えていなければ、再度ステップS01からやり直す。
ステップS13にて所定の回数を超える場合として、真っ平らな壁をオブジェクトとして選択した場合などがあり得るが、この場合は、初期画像を何回再選択してもA点とB点が常に同一となるが、そのようなオブジェクトは、検索対象画像を複数選択する必要がないため、ステップS14に移行して、最初に初期画像として選択した静止画1枚のみを検索対象画像とする。ステップS03にてA点とB点が不適切で無いと判断されると、ステップS05に移行し、変数Nに1を代入して、その時点での初期画像を第Nの検索対象画像(すなわち第1の検索対象画像)とする。そしてNにN+1を代入する。
次にステップS06に移行して、A点とB点を結んだ直線と撮像面Sとの角度Θ1を算出する。次にステップS07に移行して、次の検索対象候補画像を選択する。動画であるので、次の検索対象候補画像として、次のフレームの画像を選択したり、所定の時間後の画像を選択したりすればよい。
次にステップS08に移行して、現在の検索対象候補画像でのA点とB点がどこに移動したのかを探索する。A点とB点がどこに移動したのかを探索するには、マイクロソフト(登録商標)社のPhotosynth(登録商標)という技術で利用している特徴点検出と特徴点対応付けの技術があれば実施できる。この技術は、被写体を回り込んで撮影した数十枚の写真から各写真の特徴点を検出し、その対応付けを行って、被写体の3次元構造を復元する技術である。次にステップS09に移行して、探索したA点とB点を結んだ直線と撮像面Sとの角度Θを算出する。
次にステップS08に移行して、現在の検索対象候補画像でのA点とB点がどこに移動したのかを探索する。A点とB点がどこに移動したのかを探索するには、マイクロソフト(登録商標)社のPhotosynth(登録商標)という技術で利用している特徴点検出と特徴点対応付けの技術があれば実施できる。この技術は、被写体を回り込んで撮影した数十枚の写真から各写真の特徴点を検出し、その対応付けを行って、被写体の3次元構造を復元する技術である。次にステップS09に移行して、探索したA点とB点を結んだ直線と撮像面Sとの角度Θを算出する。
次にステップS10に移行して、算出した角度Θが、所定の傾きを超えたか否かの判定を行う。具体的には、初期画像で算出したΘ1と所定のきざみ角度ΔΘのN個分の値を加えた値を超えたか否かで判定する。きざみ角度ΔΘは、どれ位のずれた画像を検索対象画像として選択するのかとの初期設定で決定するようにすればよい。例えば10度ずつ角度のずれた画像を検索対象画像とするなら、ΔΘは10度となる。
ステップS10で所定の傾きを超えたと判定した場合には、ステップS11に移行し、現在の検索対象画像を第Nの検索対象画像に設定する。そしてNにN+1を代入する。
次にステップS12に移行し、ステップS10で所定の傾きを超えていないと判定した場合にもステップS12に移行し、NやΘが所定の値を超えたか否かの判定を行う。すなわち、必要分の検索対象画像が得られたか、もしくは、アングルの変更範囲を超えたかなどで、これ以上の検索対象画像を生成する必要がないか否かとの判定を行う。ここで、探索する必要があると判定した場合は、ステップS07に戻り、次の検索対象候補画像の選択を行い、処理のループを繰り返す。また、探索する必要がないと判定した場合は、検索対象画像生成部104aの処理を終了する。
次にステップS12に移行し、ステップS10で所定の傾きを超えていないと判定した場合にもステップS12に移行し、NやΘが所定の値を超えたか否かの判定を行う。すなわち、必要分の検索対象画像が得られたか、もしくは、アングルの変更範囲を超えたかなどで、これ以上の検索対象画像を生成する必要がないか否かとの判定を行う。ここで、探索する必要があると判定した場合は、ステップS07に戻り、次の検索対象候補画像の選択を行い、処理のループを繰り返す。また、探索する必要がないと判定した場合は、検索対象画像生成部104aの処理を終了する。
このように、本実施形態によれば、知りたい被写体が目の前に存在する際に、単に、被写体を回り込むようにして、二次元動画を撮影してポインティングするだけの簡単な操作で、その被写体について、複数のアングルからの画像の検索を行うことができるので、検索結果の信頼性を損なうことなく、容易に検索することができる。
[第3の実施形態]
以下、図面を参照して、本発明の第3の実施形態について説明する。図29は、この発明の第3の実施形態による映像検索装置10bの構成を示す概略ブロック図である。図29において、図1に対応する部分には同一の符号(102、103、105〜108)を付し、説明を省略する。また、図29において、図20に対応する部分には同一の符号(101a、104a)を付し、説明を省略する。本実施形態における映像検索装置10bは、複数枚の二次元映像の静止画のデータと、該静止画中の検索対象のオブジェクトを指定する操作入力とを受けて、検索対象のオブジェクトに類似する画像を検索し、該画像と、該画像が示すオブジェクトの名称とを表示する。なお、ここで、複数枚の二次元映像の静止画は、図30に示すように、被写体に対して回り込みながら撮影した静止画であり、複数視点からの画像を含む画像群である。
以下、図面を参照して、本発明の第3の実施形態について説明する。図29は、この発明の第3の実施形態による映像検索装置10bの構成を示す概略ブロック図である。図29において、図1に対応する部分には同一の符号(102、103、105〜108)を付し、説明を省略する。また、図29において、図20に対応する部分には同一の符号(101a、104a)を付し、説明を省略する。本実施形態における映像検索装置10bは、複数枚の二次元映像の静止画のデータと、該静止画中の検索対象のオブジェクトを指定する操作入力とを受けて、検索対象のオブジェクトに類似する画像を検索し、該画像と、該画像が示すオブジェクトの名称とを表示する。なお、ここで、複数枚の二次元映像の静止画は、図30に示すように、被写体に対して回り込みながら撮影した静止画であり、複数視点からの画像を含む画像群である。
映像検索装置10bは、奥行き情報作成部101a、オブジェクト指定部102、オブジェクト抽出部103、検索対象画像生成部104a、類似画像検索部105、画像データベース106、類似度合決定部107、検索結果出力部108、複数アングル画像生成部109bを含んで構成される。
複数アングル画像生成部109bは、奥行き情報を作成するために必要な2枚の静止画を入力映像から生成し、奥行き情報作成部101aに入力する。前述のように、ユーザが検索したい対象を示したポインティング情報を入力することになるが、そのためには、検索したい対象が表示されている画面でポイントする事となる。そのため、そのポインディングに用いた画像の情報を得ることにより、生成する2枚の静止画の内、1枚はユーザがポインティング情報を入力する際に使用する画面とすることが可能となる。そのため、入力映像からもう1枚の静止画を生成すればよい事となる。入力映像がN枚の2D静止画の場合は、ポインティング情報を入力した画像の次の画像を、生成するもう1枚の静止画とすればよい。
このように、本実施形態によれば、知りたい被写体が目の前に存在する際に、単に、被写体を回り込むようにして、二次元静止画を連続して撮影してポインティングするだけの簡単な操作で、その被写体について、複数のアングルからの画像の検索を行うことができるので、検索結果の信頼性を損なうことなく、容易に検索することができる。
また、図1、図20、図29における各部の機能もしくはその一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
10、10a、10b…映像検索装置
101、101a…奥行き情報作成部
102…オブジェクト指定部
103…オブジェクト抽出部
104、104a…検索対象画像生成部
105…類似画像検索部
106…画像データベース
107…類似度合決定部
108…検索結果出力部
101、101a…奥行き情報作成部
102…オブジェクト指定部
103…オブジェクト抽出部
104、104a…検索対象画像生成部
105…類似画像検索部
106…画像データベース
107…類似度合決定部
108…検索結果出力部
Claims (8)
- 被写体に類似している画像を画像データベースから検索する画像検索装置であって、
複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出するオブジェクト抽出部と、
前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する検索対象画像取得部と、
前記検索対象画像取得部が取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う類似画像検索部と、
を備えることを特徴とする画像検索装置。 - 前記少なくとも一つの画像について、奥行き情報を生成する奥行き情報作成部を備え、
前記検索対象画像取得部は、前記奥行き情報を用いて、前記複数の点として、前記少なくとも一つの画像において、該画像の視点からの距離が最も近い点と、右または左の端点とを選択すること
を特徴とする請求項1に記載の画像検索装置。 - 前記類似画像を検索する際に用いた画像であって、前記検索対象画像取得部が取得した前記画像の特異点の数に少なくとも基づき、前記類似画像の類似度合いを決定する類似度合決定部を備えることを特徴とする請求項1に記載の映像検索装置。
- 前記画像データベースは、記憶している画像に対応付けて、該画像に関する補足情報を記憶し、
前記類似画像検索部は、前記類似画像の検索を行う際に、前記補足情報に基づき、検索対象とする画像を限定すること
を特徴とする請求項1に記載の画像検索装置。 - 前記補足情報は、前記記憶している画像中の2つの特異点と、該画像の撮像面との角度であることを特徴とする請求項4に記載の画像検索装置。
- 前記補足情報は、前記対応付けられている画像で、主に使用されている色を示す情報であることを特徴とする請求項4に記載の画像検索装置。
- 被写体に類似している画像を画像データベースから検索する画像検索方法であって、
複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出する第1の過程と、
前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する第2の過程と、
前記第2の過程にて取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う第3の過程と、
を有することを特徴とする画像検索方法。 - 被写体に類似している画像を画像データベースから検索する映像検索装置のコンピュータを、
複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出するオブジェクト抽出部、
前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する検索対象画像取得部、
前記検索対象画像取得部が取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う類似画像検索部
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011000742A JP2012141894A (ja) | 2011-01-05 | 2011-01-05 | 画像検索装置、画像検索方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011000742A JP2012141894A (ja) | 2011-01-05 | 2011-01-05 | 画像検索装置、画像検索方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012141894A true JP2012141894A (ja) | 2012-07-26 |
Family
ID=46678102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011000742A Withdrawn JP2012141894A (ja) | 2011-01-05 | 2011-01-05 | 画像検索装置、画像検索方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012141894A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124984A (ja) * | 2016-12-01 | 2018-08-09 | トムソン ライセンシングThomson Licensing | モバイル装置の環境の3d再構成のための方法および対応するコンピュータ・プログラム・プロダクトおよび装置 |
WO2019230959A1 (ja) * | 2018-06-01 | 2019-12-05 | 日本電信電話株式会社 | 情報提示方法、情報提示装置および情報提示プログラム |
JP2023518916A (ja) * | 2020-04-11 | 2023-05-08 | オープン スペース ラブズ インコーポレイテッド | ウォークスルービデオの画像検索 |
-
2011
- 2011-01-05 JP JP2011000742A patent/JP2012141894A/ja not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124984A (ja) * | 2016-12-01 | 2018-08-09 | トムソン ライセンシングThomson Licensing | モバイル装置の環境の3d再構成のための方法および対応するコンピュータ・プログラム・プロダクトおよび装置 |
WO2019230959A1 (ja) * | 2018-06-01 | 2019-12-05 | 日本電信電話株式会社 | 情報提示方法、情報提示装置および情報提示プログラム |
US11598901B2 (en) | 2018-06-01 | 2023-03-07 | Nippon Telegraph And Telephone Corporation | Information presenting method, information presenting device, and information presenting program |
JP2023518916A (ja) * | 2020-04-11 | 2023-05-08 | オープン スペース ラブズ インコーポレイテッド | ウォークスルービデオの画像検索 |
JP7280450B2 (ja) | 2020-04-11 | 2023-05-23 | オープン スペース ラブズ インコーポレイテッド | ウォークスルービデオの画像検索 |
US11734338B2 (en) | 2020-04-11 | 2023-08-22 | Open Space Labs, Inc. | Image search in walkthrough videos |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240062488A1 (en) | Object centric scanning | |
US9495761B2 (en) | Environment mapping with automatic motion model selection | |
JP5260705B2 (ja) | 3次元拡張現実提供装置 | |
JP5954668B2 (ja) | 画像処理装置、撮像装置および画像処理方法 | |
CN107392958B (zh) | 一种基于双目立体摄像机确定物体体积的方法及装置 | |
US9619886B2 (en) | Image processing apparatus, imaging apparatus, image processing method and program | |
JP6894707B2 (ja) | 情報処理装置およびその制御方法、プログラム | |
JP2015119395A (ja) | 情報処理装置、情報処理方法およびプログラム | |
US20220148143A1 (en) | Image fusion method based on gradient domain mapping | |
US20140009503A1 (en) | Systems and Methods for Tracking User Postures to Control Display of Panoramas | |
US20140009570A1 (en) | Systems and methods for capture and display of flex-focus panoramas | |
JP4701848B2 (ja) | 画像マッチング装置、画像マッチング方法および画像マッチング用プログラム | |
CN111193918B (zh) | 影像处理***及影像处理方法 | |
JP7312026B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
EP1997072B1 (en) | Method for determining a depth map from images, device for determining a depth map | |
CN110443228B (zh) | 一种行人匹配方法、装置、电子设备及存储介质 | |
JP2019029721A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2017037426A (ja) | 情報処理装置、情報処理方法、プログラム | |
JP2012141894A (ja) | 画像検索装置、画像検索方法およびプログラム | |
JP2018032938A (ja) | 画像処理装置、画像処理の方法およびプログラム | |
JP6306996B2 (ja) | 映像データ処理方法、映像データ処理装置及び映像データ処理プログラム | |
JP7416573B2 (ja) | 立体画像生成装置及びそのプログラム | |
JP7195785B2 (ja) | 3次元形状データを生成する装置、方法、及びプログラム | |
JP6655869B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
KR20210112390A (ko) | 촬영 방법, 장치, 전자 기기 및 저장 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131001 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20131205 |