JP2012141894A

JP2012141894A - 画像検索装置、画像検索方法およびプログラム

Info

Publication number: JP2012141894A
Application number: JP2011000742A
Authority: JP
Inventors: Masahiro Shioi; 正宏塩井; Kenji Tsukuba; 健史筑波; Kenichiro Yamamoto; 健一郎山本
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2011-01-05
Filing date: 2011-01-05
Publication date: 2012-07-26

Abstract

【課題】検索結果の信頼性を損なうことなく、容易に検索することができる画像検索装置を提供すること。
【解決手段】被写体に類似している画像を画像データベースから検索する画像検索装置であって、複数視点からの被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出するオブジェクト抽出部と、画像群に基づき、オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する検索対象画像取得部と、検索対象画像取得部が取得した複数の画像の各々について、画像データベース内から類似画像の検索を行う類似画像検索部とを備えることを特徴とする。
【選択図】図１

Description

本発明は、画像検索装置、画像検索方法およびプログラムに関する。

画像検索技術の向上に伴い、１枚の静止画を入力すると、その画像に似たような構図や色合いの画像をＷｅｂ上で検索する類似画像検索システムがある。例えば、特許文献１には、１枚の画像を入力し、領域抽出・正規化・特徴量抽出を繰り返し行い、特徴量に基づいて検索対象とのマッチングを行い、その類似度に基づいて検索結果の画像を出力する技術が記載されている。このような検索システムは、１枚の静止画全体で類似している画像を検索し、しかも、同じ種類の類似画像を何枚も提示するため、その画像の中の特定の被写体を検索して、その結果からその被写体が何であるのかを知ることは困難である。
そこで、検索結果の信頼性が高い技術としては、検索対象物の６方向（平面、底面、正面、背面、右側面、左側面）からの画像を入力すると、同じく６方向からの画像で構成されるデータベース内の物体画像から類似している物体を検索する技術がある（例えば、特許文献２）。

特開２００７−３４６１３号公報特開２０１０−１４６０９９号公報

しかしながら、特許文献２の技術においては、検索するには、決められた６方向の画像を用意しなければならず、ユーザにとって煩雑であるという問題がある。

本発明は、このような事情に鑑みてなされたもので、その目的は、検索結果の信頼性を損なうことなく、容易に検索することができる画像検索装置、画像検索方法およびプログラムを提供することにある。

（１）この発明の一態様は、被写体に類似している画像を画像データベースから検索する画像検索装置であって、複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出するオブジェクト抽出部と、前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する検索対象画像取得部と、前記検索対象画像取得部が取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う類似画像検索部と、を備えることを特徴とする画像検索装置である。

（２）また、この発明の別の一態様は、上述の画像検索装置であって、前記少なくとも一つの画像について、奥行き情報を生成する奥行き情報作成部を備え、前記検索対象画像取得部は、前記奥行き情報を用いて、前記複数の点として、前記少なくとも一つの画像において、該画像の視点からの距離が最も近い点と、右または左の端点とを選択することを特徴とする。

（３）また、この発明の別の一態様は、上述の画像検索装置であって、前記類似画像を検索する際に用いた画像であって、前記検索対象画像取得部が取得した前記画像の特異点の数に少なくとも基づき、前記類似画像の類似度合いを決定する類似度合決定部を備えることを特徴とする請求項１に記載の映像検索装置。

（４）また、この発明の別の一態様は、上述の画像検索装置であって、前記画像データベースは、記憶している画像に対応付けて、該画像に関する補足情報を記憶し、前記類似画像検索部は、前記類似画像の検索を行う際に、前記補足情報に基づき、検索対象とする画像を限定することを特徴とする。

（５）また、この発明の別の一態様は、上述の画像検索装置であって、前記補足情報は、前記記憶している画像中の２つの特異点と、該画像の撮像面との角度であることを特徴とする。

（６）また、この発明の別の一態様は、上述の画像検索装置であって、前記補足情報は、前記対応付けられている画像で、主に使用されている色を示す情報であることを特徴とする。

（７）また、この発明の別の一態様は、被写体に類似している画像を画像データベースから検索する画像検索方法であって、複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出する第１の過程と、前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する第２の過程と、前記第２の過程にて取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う第３の過程と、を有することを特徴とする画像検索方法である。

（８）また、この発明の別の一態様は、被写体に類似している画像を画像データベースから検索する映像検索装置のコンピュータを、複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出するオブジェクト抽出部、前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する検索対象画像取得部、前記検索対象画像取得部が取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う類似画像検索部として機能させるためのプログラムである。

この発明によれば、検索結果の信頼性を損なうことなく、容易に検索することができる。

この発明の第１の実施形態による映像検索装置１０の構成を示す概略ブロック図である。同実施形態における入力映像である三次元映像の静止画を説明する図である。同実施形態における奥行き情報作成部１０１による奥行き情報生成の原理を説明する図である。同実施形態における奥行き情報作成部１０１による奥行き情報生成の原理を説明する図である。同実施形態における奥行き情報作成部１０１による奥行き情報生成の原理を説明する図である。同実施形態における奥行き情報作成部１０１による奥行き情報生成の原理を説明する図である。同実施形態における奥行き情報作成部１０１による奥行き情報生成の原理を説明する図である。同実施形態におけるオブジェクト抽出部１０３が生成する検索対象のオブジェクトだけを抽出した映像の例である。同実施形態における検索対象画像生成部１０４の動作を示すフローチャートである。同実施形態における検索対象画像生成部１０４で生成する検索対象画像の例である。同実施形態における検索対象画像生成部１０４で生成する検索対象画像の例である。同実施形態における検索対象画像生成部１０４で生成する検索対象画像の例である。同実施形態における画像データベース１０６に格納されるデータの例である。同実施形態における補足情報のうち、角度を説明する図（その１）である。同実施形態における補足情報のうち、角度を説明する図（その２）である。同実施形態における補足情報のうち、角度を説明する図（その３）である。同実施形態における類似度合決定部１０７の動作を示すフローチャートである。同実施形態における類似画像検索部１０５の動作を示すフローチャートである。同実施形態における類似度合決定部１０７で類似度合を決定する類似画像の例である。この発明の第２の実施形態による映像検索装置１０ａの構成を示す概略ブロック図である。同実施形態における入力映像である二次元映像の動画を説明する図である。同実施形態における奥行き情報作成部１０１ａによる奥行き情報生成の原理を説明する図（その１）である。同実施形態における奥行き情報作成部１０１ａによる奥行き情報生成の原理を説明する図（その２）である。同実施形態における奥行き情報作成部１０１ａによる奥行き情報生成の原理を説明する図（その３）である。同実施形態における奥行き情報作成部１０１ａによる奥行き情報生成の原理を説明する図（その４）である。同実施形態における奥行き情報作成部１０１ａによる奥行き情報生成の原理を説明する図（その５）である。同実施形態における複数アングル画像生成部１０９ａの動作の一例を示した図である。同実施形態における検索対象画像生成部１０４ａの動作を示すフローチャートである。この発明の第３の実施形態による映像検索装置１０ｂの構成を示す概略ブロック図である。同実施形態における入力映像である複数枚の二次元映像の静止画を説明する図である。

［第１の実施形態］
以下、図面を参照して、本発明の第１の実施形態について説明する。図１は、この発明の第１の実施形態による映像検索装置１０の構成を示す概略ブロック図である。本実施形態における映像検索装置１０は、３次元映像の静止画のデータ３Ｄと、該静止画中の検索対象のオブジェクトを指定する操作入力とを受けて、検索対象のオブジェクトに類似する画像を検索し、該画像と、該画像が示すオブジェクトの名称とを表示する。なお、ここで、立体映像の静止画は、左目用の静止画と、右目用の静止画とからなる画像であり、複数視点からの画像を含む画像群である。

映像検索装置１０は、奥行き情報作成部１０１、オブジェクト指定部１０２、オブジェクト抽出部１０３、検索対象画像生成部１０４、類似画像検索部１０５、画像データベース１０６、類似度合決定部１０７、検索結果出力部１０８を含んで構成される。なお、画像データベース１０６は、通信回線などを介して映像検索装置１０に接続される外部装置が備えていてもよい。

奥行き情報作成部１０１は、映像検索装置１０に入力されたデータ３Ｄについて、両眼視差を検出して、データ３Ｄが表す静止画のデプスマップ（depth map；奥行き画像、距離画像）を作成する。オブジェクト指定部１０２は、データ３Ｄが表す静止画中の検索対象を指定する操作入力を受けて、検索対象のオブジェクトを指定するポインティング情報を出力する。例えば、オブジェクト指定部１０２は、データ３Ｄが示す立体映像のうち、左目用の静止画を表示し、ユーザがマウスなどのポインティングデバイスで指定した該静止画中の１点の座標を取得して、該座標をポインティング情報として出力する。

オブジェクト抽出部１０３は、データ３Ｄが表す静止画から、ポインティング情報で指定された点を含むオブジェクトを、検索対象のオブジェクトとして抽出し、該オブジェクトのみを含む立体映像の静止画のデータを出力する。なお、オブジェクト抽出部１０３は、検索対象のオブジェクトの抽出を行う際に、奥行き情報作成部１０１が作成したデプスマップを用いる。検索対象画像生成部１０４は、オブジェクト抽出部１０３が出力した検索対象のオブジェクトのみを含む立体映像の静止画のデータを受けると、該データに基づき、検索対象のオブジェクトの複数視点からの画像を生成し、それらの画像のデータを出力する。類似画像検索部１０５は、検索対象画像生成部１０４が出力したデータを受けると、該データが示す画像各々と類似する画像を、画像データベース１０６から検索する。画像データベース１０６は、様々な被写体の画像のデータと、該被写体の名称とを対応付けて記憶する。類似度合決定部１０７は、類似画像検索部１０５による検索結果の画像各々について、類似度合いを判定する。検索結果出力部１０８は、類似度合決定部１０７による類似度合いの判定の結果、検索対象のオブジェクトと類似していると判定された画像と、該画像の被写体の名称とを表示する。

図２は、本実施形態における入力映像である三次元映像の静止画を説明する図である。図２に示すように、三次元映像の静止画は、カメラもしくは撮像素子が２個以上ならんだ状態で、被写体の撮影を行うことにより得られる画像である。この図では２個のカメラが並んだ例を示したが、３個以上並んでいても良い。また、図２のように、撮影することで生成するのではなく、コンピュータが演算して生成するコンピュータグラフィックであってもよい。

図３から図７は、奥行き情報作成部１０１による奥行き情報生成の原理を説明する図である。奥行き情報作成部１０１は、入力されたデータ３Ｄが表す２枚の静止画において、１枚の静止画に映っている被写体が、もう１枚の静止画のどの位置に映っているのかを解析し、その位置の違い（位置のずれ）を算出する。奥行き情報作成部１０１は、この位置のずれを、各画素について算出し、そのずれの大きさから、各画素が奥行き方向にどの位置にあるのかを示す奥行き情報を作成し、オブジェクト抽出部１０３に入力する。

図３は、上方から見たカメラと被写体の位置関係を示した図である。ここで、符号２０１は直方体状の被写体αである。符号２０２は球状の被写体βである。符号２０３は、視点位置Ａのカメラであり、左目用の画像を撮影する。符号２０４は、視点位置Ｂのカメラであり、右目用の画像を撮影する。直方体の被写体αは、球の被写体βよりもカメラに近い位置に存在している。

図４は、視点位置Ａでの映像、すなわちカメラ２０３で撮影した映像である。図３の位置関係から分かるように、この映像では、直方体状の被写体αが、球状の被写体βよりも右に存在する。
図５は、視点位置Ｂでの映像、すなわちカメラ２０４で撮影した映像である。図３の位置関係から分かるように、この映像では、図４とは逆に、直方体状の被写体αが、球状の被写体βよりも左に存在する。

図６は、図４の映像を実線で記載し、図５の映像を点線で記載し、両者を重ね合わせた映像である。距離ｄ_αが映像上での被写体αのズレ量であり、距離ｄ_βが映像上での被写体βのズレ量である。この映像上でのズレ量を一般的に視差量と呼んでいる。ここからも分かるように、視差量が大きいほど近くにある被写体であり、視差量とカメラ〜被写体間の距離は比例する。カメラ２０３、２０４の画角と、カメラ２０３の撮像面の中心からカメラ２０４の撮像面の中心までの距離ｌと、映像上のズレ（視差量）とに基づき、奥行き方向にどの位置にあるのかを示す奥行き情報を算出できる。なお、映像上のズレは、例えば、公知のブロックマッチング法を用いて算出する。また、カメラ２０３、２０４の画角、および、カメラ２０３の撮像面の中心からカメラ２０４の撮像面の中心までの距離ｌについては、入力された立体映像の静止画のデータ３Ｄに含まれていても良いし、ユーザが別途入力するようにしてもよい。なお、距離ｌが取得できない場合には、どの位置にあるのかを示す奥行き情報が、絶対的な距離を示すものでなく、相対的な距離を示すものとなる。
図７は、視点位置Ａにおける奥行き情報を映像化した例である。ここでは、カメラに近いほど網掛けを薄く、カメラから遠いほど網掛けを濃くしている。すなわち、背景が一番濃い網掛けで、被写体βが薄い網掛けで、被写体αが網掛け無しとなっている。

図８は、オブジェクト抽出部１０３が生成する検索対象のオブジェクトだけを抽出した映像の例である。オブジェクト抽出部１０３は、奥行き情報作成部１０１が生成した奥行き情報と、入力映像のデータ３Dと、オブジェクト指定部１０２が生成したポインティング情報とから、ユーザが検索したい対象であるオブジェクトだけを抽出した映像を生成し、対応する奥行き情報とともに、検索対象画像生成部１０４に入力する。

図８の画像Ｇ１ａは入力映像であり、背景に色々な植物があるバラの花の映像である。
図８の画像Ｇ１ｂは入力映像に対して、ユーザが検索したい対象であるバラを示したポインティング情報を矢印８０１で明示化した映像である。ここではポインティング情報を矢印で示したが、実際にオブジェクト指定部１０２が出力するポインティング情報は座標である。
図８の画像Ｇ１ｃは、検索対象のオブジェクトだけが抽出された映像であり、入力映像からバラの花以外の背景が消去された映像である。ここでは検索対象のオブジェクト以外は、黒で塗りつぶされているが、これは１例である。このように映像として作成してもよいが、オブジェクトが存在する画素を１、存在しない画素（画像Ｇ１ｃで黒い部分）を０とする２値の情報を別途作成するようにしてもよい。

オブジェクト抽出部１０３によるオブジェクト抽出の方法としては、奥行き情報以外に、入力映像の色、エッジ、地面推定等の構図などを利用して抽出するような公知の手法を用いればよいが、この方法に限るものではない。また、オブジェクト抽出結果がユーザの期待する検索対象でない場合もあるため、オブジェクト抽出結果をユーザに一旦提示して、その結果が意図通りであるかを確認する処理を追加しても良い。この場合、もし意図通りでなかったら、さらに検索対象のオブジェクトの部分を追加でユーザに指定してもらったり、逆に、オブジェクト抽出結果の中から意図しない部分を指定してもらったりして、その情報を加味してオブジェクト抽出を行う事で抽出精度を高めればよい。

図９は、検索対象画像生成部１０４の動作を示すフローチャートであり、図１０から図１２は、検索対象画像生成部１０４で生成する検索対象画像の例である。検索対象画像生成部１０４は、入力された検索対象のオブジェクトだけが抽出された映像と、対応する奥行き情報とから、検索対象オブジェクトが異なる視点から見た静止画を複数生成し、検索対象画像として類似画像検索部１０５に入力する。

図１０から図１２において、画像Ｇ２ａ、Ｇ３ａ、Ｇ４ａは、後述する検索対象画像であり、符号Ｇ２ｂ、Ｇ３ｂ、Ｇ４ｂは、被写体を上方から見た図である。また、符号Ｇ２ｂは、画像Ｇ２ａについて、被写体と撮像面Ｓとの関係を示す図である。同様に、符号Ｇ３ｂは、画像Ｇ３ａについて、被写体と撮像面Ｓとの関係を示す図である。符号Ｇ４ｂは、画像Ｇ４ａについて、被写体と撮像面Ｓとの関係を示す図である。

まず、検索対象画像生成部１０４は、ステップＳ０１で、オブジェクト抽出部１０３が生成した画像を、初期画像に設定する。ここでは、図１０の画像Ｇ２ａを設定された画像とする。次にステップＳ０２に移行して、検索対象画像生成部１０４は、初期画像に対して、奥行き情報を用いて、２つの特異点（Ａ点、Ｂ点）を選択する。具体的には、初期画像において最もカメラに近い画素を探索して、該画素が表す被写体上の点の水平面への射影をＡ点とする。さらに、検索対象のオブジェクトのみが抽出された映像を用いて最も右に位置する画素を探索し、該画素が表す被写体上の点の水平面への射影をＢ点とする。図１０のＧ２ｂにおける○印の部分がＡ点に相当し、△印の部分がＢ点に相当する。また、最も右に位置する画素をＢ点とし、最も左に位置する画素をＣ点として、両方を算出するようにしても良い。以降は、Ａ点と最も右に位置する点であるＢ点を用いて検索対象画像を決定する方法について記載する。

また、Ａ点となり得る画素が複数存在する場合（両腕を前に突き出したオブジェクトやのっぺりした面が一番手前にあるオブジェクトの場合）、その中から任意の点をＡ点とすればよい。複数の中の重点に最も近い点や、中心に最も近い点や、最もＢ点に遠い点や、最もＢ点に近い点としても良い。これら手法の限らず何らかの方法でＡ点が一意に決まるようにすればよい。

次にステップＳ０３に移行して、Ａ点とＢ点が不適切か否かの判定を行う。不適切な場合の一例として、Ａ点とＢ点が同一の点となる場合（鉛筆を左斜めから見た場合）がある。不適切と判定した場合は、ステップＳ０４に移行し、最も左に位置するＣ点を算出し、Ｃ点をＢ点とみなして、ステップＳ０５に移行する。

ステップＳ０３にてＡ点とＢ点が不適切で無いと判断されると、ステップＳ０５に移行し、変数Ｎに１を代入して、その時点での初期画像を第Ｎの検索対象画像（すなわち第１の検索対象画像）とする。ここでは図１０の画像Ｇ２ａが初期画像に相当する。そしてＮにＮ＋１を代入する。次にステップＳ０６に移行して、Ａ点とＢ点を結んだ直線と撮像面Ｓとの角度Θ1を算出する。これは、図１０のＧ２ｂでは、Θ1である。
次にステップＳ０７に移行して、所定のアングル（ΔΘ）動かした画像を作成する。次にステップＳ０８に移行して、ＮにＮ＋１を代入する。次にステップＳ０９に移行し、ＮやΘ（＝Θ１＋ΔΘ×Ｎ）が所定の値を超えたか否かの判定を行う。すなわち、必要分の検索対象画像が得られたか、もしくは、アングルの変更範囲を超えたかなどで、これ以上の検索対象画像を生成する必要がないか否かとの判定を行う。ここで、探索する必要があると判定した場合は、ステップＳ０７に戻り、次の検索対象候補画像の選択を行い、処理のループを繰り返す。また、探索する必要がないと判定した場合は、検索対象画像生成部の処理を終了する。なお、ステップＳ０９において、ＮおよびΘについて、所定の値を超えたか否かの判定を行っているが、Θについて判定しないようにしてもよい。

また、ここまでの記載で、Ａ点とＢ点を結んだ直線と撮像面Ｓとの角度を利用して、検索対象候補画像を生成する方法を記載したが、この角度を算出するためには、奥行きの絶対値が必要であり、そのためには、カメラの配置関係や画角や焦点距離などのカメラパラメータ情報が必要となる。このカメラパラメータは、ＪＰＥＧファイルにおけるＥｘｉｆタグのように、撮影時に自動的に付与されていた場合にはその値を用いればよく、そうでない場合にはユーザに別途入力を促しても良い。情報が取得できない場合には、Ａ点とＢ点を結んだ直線と水平方向との角度ではなく、Ａ点とＢ点を結んだ直線と撮像面Ｓとの角度の代わりに、Ａ点とＢ点を撮像面Ｓに投影した場合の距離を用いても良い。この距離は図１０のＧ２ｂでのＤ１、図１１のＧ３ｂでのＤ２、図１２のＧ４ｂでのＤ３に相当する。この距離を用いて検索対象候補画像を生成する場合には、検索対象のオブジェクトとカメラとの距離が同一でなければならないため、同一の大きさに合わせてから距離Ｄを算出する必要がある。

図１３は、画像データベース１０６に格納されるデータの例である。画像データベース１０６は、所定のデータ構造で格納された画像データと、その補足情報の集合体とを対応付けて記憶する。ここでは、補足情報の集合体は、画像データのＩＤ（識別情報）と、検索結果としてユーザに提示する被写体の名称と、類似画像検索部１０５で類似度の算出を行う画像の絞り込みを行う際に利用するデータ（角度、主に使用している色の情報）と、類似画像検索部１０５で検索対象画像との類似度を算出する際に利用するデータ（特徴ベクトル）とを含む。類似画像検索部１０５で類似度の算出を行う画像の絞り込みを行う際に利用するデータとしては、検索対象画像生成部１０４で算出した角度に対応する角度や、主に使用している色情報などがある。また、類似画像検索部１０５で検索対象画像との類似度を算出する際に利用するデータとしては、色・形状・模様から、それぞれの特徴量を算出して多次元ベクトル化した特徴ベクトルがある。ユーザに提示する被写体の名称については、データベース管理者が登録する仕組みを想定しているが、その手法に限る必要はなく、検索したユーザが別途名称を入力するようにしても良い。

ここで、画像データベース１０６が記憶する補足情報のうち、図１４から図１６を用いて、角度について説明する。各図における中心の一点鎖線は、カメラで撮影することで画像を生成した場合の該カメラの光軸を示す。画像データベース１０６が記憶する角度は、該角度と対応付けて記憶している画像の上述のようなＡ点、Ｂ点を用いて算出した角度である。図１４の符号Ｇ１４ａは、シャチをほぼ左真横から撮影した場合のカメラとシャチとの位置関係と、Ａ点、Ｂ点を示す。カメラに最も近い画素Ａ点は○印の右胸ヒレで、最も右に位置するＢ点は△印の頭部となる。符号Ｇ１４ｂは、シャチを前方から見てほぼ左４５度から撮影した場合のカメラとシャチとの位置関係と、Ａ点、Ｂ点を示す。この角度では、右胸ヒレよりも頭部がカメラに近くなるため、カメラに最も近い画素点も、最も右に位置する点も頭部となるので、カメラに最も近い画素点である頭部をＡ点、最も左に位置する点である尾ヒレをＢ点とする。

符号Ｇ１４ｃは、シャチを前方から見てほぼ５０度から撮影した場合のカメラとシャチとの位置関係と、Ａ点、Ｂ点を示す。この角度では、右側に左胸ヒレが見えているため、カメラに最も近い画素Ａ点は○印の頭部で、最も右に位置するＢ点は△印の左胸ヒレとなる。符号Ｇ１４ｄは、シャチを前方から見てほぼ右５度から撮影した場合のカメラとシャチとの位置関係と、Ａ点、Ｂ点を示す。ここでは、カメラに最も近い画素Ａ点は、Ｇ１４ｂおよびＧ１４ｃと同様に○印の頭部で、最も右に位置するＢ点は、Ｇ１４ｃと同様に△印の左胸ヒレとなる。符号Ｇ１４ｅは、シャチを前方から見てほぼ右４５度から撮影した場合のカメラとシャチとの位置関係と、Ａ点、Ｂ点を示す。ここでは、カメラに最も近い画素Ａ点は、Ｇ１４ｂからＧ１４ｄと同様に○印の頭部であるが、最も右に位置するＢ点はこれらと異なり△印の尾ヒレとなる。この角度あたりまでは頭部がまだカメラに最も近い位置となるが、この角度以降は左胸ヒレがカメラに最も近い位置となる。符号Ｇ１４ｆは、シャチを前方から見てほぼ右真横から撮影した場合のカメラとシャチとの位置関係と、Ａ点、Ｂ点を示す。カメラに最も近い画素Ａ点は○印の左胸ヒレであり、最も右に位置するＢ点は△印の尾ヒレとなる。

すなわち、このシャチを撮影した画像では、左横方向からほぼ左４０度までの角度から撮影した画像では、Ａ点は右胸ヒレで、Ｂ点は頭部である。また、ほぼ左４０度から左５０度までの角度から撮影した画像では、Ａ点は頭部で、Ｂ点は尾ひれである。また、ほぼ左５０度からほぼ右５度前までの角度から撮影した画像では、Ａ点は頭部で、Ｂ点は左胸ヒレである。また、ほぼ右５度からほぼ右５０度までの角度から撮影した画像では、Ａ点は頭部で、Ｂ点は尾ヒレである。また、ほぼ右５０度から右横方向までの角度から撮影した画像では、Ａ点は左胸ヒレで、Ｂ点は尾ヒレである。

次に、図１４の各画像におけるＡ点とＢ点の奥行き方向の角度について説明する。ここで、奥行き方向の角度とは、Ａ点とＢ点が奥行き方向に同一となる状態での撮像面と、各画像の撮像面との角度である。なお、この角度は、前述の検索対象画像生成部１０４の動作説明において記載した２つの特異点（Ａ点、Ｂ点）を通る直線と、撮像面とのなす角度と同じである。この奥行き方向の角度を、画像データベース１０６が記憶する補足情報の角度とする。Ａ点とＢ点が奥行き的に同一となる状態とは、画素Ａ点が右胸ヒレで、Ｂ点が頭部である場合には、図１５の符号Ｇ１５ａの状態であり、この状態での撮像面はＲａと記された一点鎖線である。画素Ａ点が頭部で、Ｂ点が尾ヒレである場合には、図１５の符号Ｇ１５ｂの状態であり、この状態での撮像面はＲｂと記された一点鎖線である。画素Ａ点が頭部で、Ｂ点が左胸ヒレである場合には、図１５の符号Ｇ１５ｃの状態であり、この状態での撮像面はＲｃと記された一点鎖線である。画素Ａ点が頭部で、Ｂ点が尾ヒレである場合には、図１５の符号Ｇ１５ｄの状態であり、この状態での撮像面はＲｄと記された一点鎖線である。画素Ａ点が左胸ヒレで、Ｂ点が尾ヒレである場合には、図１５の符号Ｇ１５ｅの状態であり、この状態での撮像面はＲｅと記された一点鎖線である。

したがって、図１４の各画像におけるＡ点とＢ点の奥行き方向の角度は、まず、符号Ｇ１４ａに対応する図１６の符号Ｇ１６ａの場合は、符号Ｇ１５ａの撮像面Ｒａと符号Ｇ１６ａの撮像面Ｓａとの角度Θａである。また、符号Ｇ１４ｂに対応する図１６の符号Ｇ１６ｂの場合は、符号Ｇ１５ｂの撮像面Ｒｂと符号Ｇ１６ｂの撮像面Ｓｂとの角度Θｂである。また、符号Ｇ１４ｃに対応する図１６の符号Ｇ１６ｃの場合は、符号Ｇ１５ｃの撮像面Ｒｃと符号Ｇ１６ｃの撮像面Ｓｃとの角度Θｃである。また、符号Ｇ１４ｄに対応する図１６の符号Ｇ１６ｄの場合は、符号Ｇ１５ｃの撮像面Ｒｃと符号Ｇ１６ｄの撮像面Ｓｄとの角度Θｄである。また、符号Ｇ１４ｅに対応する図１６の符号Ｇ１６ｅの場合は、符号Ｇ１５ｄの撮像面Ｒｄと符号Ｇ１６ｅの撮像面Ｓｅとの角度Θｅである。符号Ｇ１４ｆに対応する図１６の符号Ｇ１６ｆの場合は、符号Ｇ１５ｅの撮像面Ｒｅと符号Ｇ１６ｆの撮像面Ｓｆとの角度Θｆである。

図１８は、類似画像検索部１０５の動作を示すフローチャートである。類似画像検索部１０５は、入力された複数の検索対象画像に対して画像データベース１０６に格納された画像の中から類似画像を検索し、類似度が高いとされた静止画とその類似度を、類似度合決定部１０７に入力する。ここでは、１つの検索対象画像に対しての処理を記載するが、類似画像検索部１０５は、入力された複数の検索対象画像の各々に対して、同一の処理を行う。

類似画像検索部１０５は、まずステップＳ２１で、画像データベース１０６の中から類似度の算出を行う画像データの絞り込みを行う。以降、絞り込んだ画像を類似度算出対象画像と呼ぶ。この絞り込みの処理は、画像データベース１０６内のデータ数が莫大で、全てのデータでの類似度算出を行うには時間がかかってしまう場合に、類似度算出を行う対象を削減するための処理であり、画像データベース１０６内の画像データの数と算出処理装置の処理能力との関係から算出対象を絞り込む必要のない場合は、この処理を省いても構わない。

絞り込みの方法としては、検索対象画像生成部１０４で算出した角度と、同様の角度（図１３）と対応付けて画像データベース１０６が記憶している画像のみを算出対象として絞り込みを行っても良いし、検索対象画像の色分布を算出し、主に使用している色が似ている画像を算出対象として絞り込みを行っても良いし、両方を用いて絞り込みを行っても良い。なお、ここで、算出した角度と同様の角度とは、算出した角度を基準とする所定の範囲に含まれる角度を示す。例えば、算出した角度を基準として、上下１０度以内に含まれる角度である。また、色分布を算出する際には、画像データがＲＧＢ各８ビット使用しているとしても、主に使用している色を分類するだけであるので、例えばＲＧＢ各３ビットに減色して色分布を算出すれば、演算量を減らすことができる。

なお、検索対象画像生成部１０４では、角度が算出できない場合があるため、角度が算出できていないときは、角度についての絞込みを行なわない。同様にデータベース内の画像も角度の情報が有る画像と無い画像が混在しているので、角度についての絞り込みを行う場合には、データベース内の角度の情報が有る画像に対してのみ絞り込みを行い、角度の情報が無い画像に対しては絞り込みを行わないようにする。すなわち、画像データベース内の角度の情報の有る画像の中の同様の角度で撮影した画像の集合と、画像データベース内の角度の情報の無い画像全体の集合の両者が絞り込んだ結果となる。

図１６の各画像Ｇ１６ａ〜Ｇ１６ｆにおけるＡ点とＢ点の奥行き方向の角度（Θａ、Θｂ、Θｃ、Θｄ、Θｅ、Θｆ）を、各画像Ｇ１６ａ〜Ｇ１６ｆと対応付けて、画像データベース１０６は格納している。このことにより、検索対象の画像とＡ点とＢ点が同一となる画像のうち、角度の情報が大きく異なる画像を検索の対象から省くことが可能となる。例えば、図１４の符号Ｇ１４ａに近い画像を検索対象としているときに、画像データベース１０６内に図１４の符号Ｇ１４ｃの映像があった場合に、両者の角度の情報（ΘａとΘｃと）は大きく異なっているので、図１４の符号Ｇ１４ｃの映像が検索対象から外れる。なお、図１４の符号Ｇ１４ｄに近い画像を検索対象としているときに、画像データベース１０６内に図１４の符号Ｇ１４ｅの画像があった場合、ΘｄとΘｅとは値が近いため、符号Ｇ１４ｅの画像については検索対象から外すことができない可能性がある。しかし、例えば、符号Ｇ１４ａの画像については検索対象から外すことができるので、類似度の算出のための演算量は減らすことができる。

次にステップＳ２２で、検索対象画像の色・形状・模様から、それぞれの特徴量を算出し、多次元ベクトル化して、特徴ベクトルを算出する。次にステップＳ２３で、算出した検索対象画像の特徴ベクトルと、画像データベース１０６が記憶する、算出済みの類似度算出対象画像の特徴ベクトルとのユークリッド距離を算出する。そして、ステップＳ２４で、ユークリッド距離の近い順に、類似度の高い順とし、その距離を類似度とする。

図１７は、類似度合決定部１０７の動作を示すフローチャートである。類似度合決定部１０７は、検索対象画像の特異点数をカウントして、その結果から画像重要度を設定し、類似度が高いとされた画像データとその類似度に対して画像重要度を考慮して最終的な類似度合を決定する。まず、類似度合決定部１０７は、ステップＳ４１でＮ＝１と設定し、次いで、ステップＳ４２で、Ｎ番目の検索対象画像を選択する。

次にステップＳ４３で、類似度合決定部１０７は、Ｎ番目の検索対象画像の特異点を検出し、その数をカウントする。特異点の検出方法としては、一般的なコーナー検出手法を用いて、エッジの交差点、輝度が局所的に最大や最小となる点、線の終わり、曲率が局所的に最大となる点などを検出するようにすれば良いが、この方法に限るものではない。次にステップＳ４４で、カウントした特異点の数に応じて、検索対象画像毎に、画像重要度を設定する。画像重要度の設定方法としては、特異点の数を画像重要度として設定してもよいし、特異点の数そのものでなく、特異点の数に比例する数としてもよい。また、特異点の数に対して閾値を２個設定し、特異点の数が下の閾値より下の場合を画像重要度＝小として具体的な値として１を割り当て、特異点の数が下の閾値から上の閾値までの場合を画像重要度＝中として具体的な値として２を割り当て、特異点の数が上の閾値以上の場合を画像重要度＝大として具体的な値として３を割り当てるように設定してもよい。特異点の数が多い方がより精度の高い類似画像検索が行えるため、このように特異点の数が多いほど画像重要度の値を大きくすることで、後述のように、最終的な類似度合を決定する際に、特異点の数が多い画像に類似する画像の方が類似画像として選択されやすくなる。

次にステップＳ４５で、類似画像検索部１０５によるＮ番目の検索対象画像の類似画像検索結果（類似画像と類似度）を取得する。次に、ステップＳ４６で、Ｎが最終値か否かを判定する。Ｎが最終値でないときは、ステップＳ４７で、ＮにＮ＋１を代入し、ステップＳ４２に戻る。Ｎが最終値であるときは、ステップＳ４８で、類似画像検索の結果で得られる検索結果の類似度に、画像重要度を重み付けして、最終的な類似度合を算出する。次にステップＳ４９で、算出した最終的な類似度合の高い順に、検索結果の画像を提示する。ここで、上位何番目までを提示するとしても良いし、最終的な類似度合がある閾値以上のものを全て提示するとしても良い。

図１９は、類似度合決定部１０７で類似度合を決定する類似画像の例である。図（ａ）（ｂ）（ｃ）は、被写体がシャチの画像である検索対象画像で、それぞれ、正面、右４５°、真横から見た場合の画像である。図（ｄ）（ｅ）（ｆ）は、被写体がロケットの画像である類似画像検索部１０５で得られた類似画像の１例で、それぞれ、正面、右４５°、真横から見た場合の画像である。以降、ここでは類似画像その１と呼ぶ。図（ｇ）（ｈ）（ｉ）は、被写体が口を開けたシャチの画像である類似画像検索部１０５で得られた類似画像の別の１例であり、それぞれ、正面、右４５°、真横から見た場合の画像である。以降、ここでは類似画像その２と呼ぶ。

検索対象画像のシャチの画像には所々○印が記載されているが、これが、検出した特異点の１例である。ここでは、エッジを抽出し、そのエッジを直線及び円弧に分類し、ある閾値以上の長さの直線及び円弧の交点を特異点としている。（ａ）では特異点の数が１０個で、（ｂ）では特異点の数が２０個で、（ｃ）では特異点の数が１５個である。すなわち、画像重要度は、（ｂ）が最大で「２０」、（ｃ）が中間で「１５」、（ａ）が最小で「１０」となる。ここで、（ａ）の画像で類似画像検索を行った結果、類似画像その１のロケットの画像（ｄ）の類似度が「１０」、類似画像その２の口を開けたシャチの画像（ｇ）の類似度が「７」であったとする。同様に、（ｂ）や（ｃ）で類似画像検索を行った結果は、類似画像その２の口を開けたシャチの画像（ｈ）の類似度が「７」、（ｉ）の類似度が「８」であり、類似画像その１のロケットの画像（ｅ）の類似度が「５」、（ｆ）の類似度が「５」であったとする。この場合、最終的な類似度は、画像重要度と類似度との積なので、（ｄ）は１０×１０＝１００、（ｅ）は５×２０＝１００、（ｆ）は５×１５＝７５、（ｇ）は７×１０＝７０、（ｈ）は７×２０＝１４０、（ｉ）は８×１５＝１２０となる。したがって、最終的な類似度の大きい順、すなわち（ｈ）、（ｉ）、（ｄ）、（ｅ）、（ｆ）、（ｇ）の順に提示され、上位２つがシャチの画像となる。

このように、本実施形態によれば、知りたい被写体が目の前に存在する際に、単に三次元静止画を撮影してポインティングするだけの簡単な操作で、その被写体について、複数のアングルからの画像の検索を行うことができるので、検索結果の信頼性を損なうことなく、容易に検索することができる。さらに、類似画像だけでなく、その名称も提示されるため、知りたい被写体の名称も判明する事が可能となる。

［第２の実施形態］
以下、図面を参照して、本発明の第２の実施形態について説明する。図２０は、この発明の第２の実施形態による映像検索装置１０ａの構成を示す概略ブロック図である。図２０において、図１に対応する部分には同一の符号（１０２、１０３、１０５〜１０８）を付し、説明を省略する。本実施形態における映像検索装置１０ａは、二次元映像の動画のデータと、該動画中の検索対象のオブジェクトを指定する操作入力とを受けて、検索対象のオブジェクトに類似する画像を検索し、該画像と、該画像が示すオブジェクトの名称とを表示する。なお、ここで、二次元映像の動画は、図２１に示すように、被写体に対して回り込んで撮影した動画であり、複数視点からの画像を含む画像群である。

映像検索装置１０ａは、奥行き情報作成部１０１ａ、オブジェクト指定部１０２、オブジェクト抽出部１０３、検索対象画像生成部１０４ａ、類似画像検索部１０５、画像データベース１０６、類似度合決定部１０７、検索結果出力部１０８、複数アングル画像生成部１０９ａを含んで構成される。複数アングル画像生成部１０９ａは、奥行き情報を作成するために必要な２枚の静止画を入力映像から生成し、奥行き情報作成部１０１ａに入力する。後述するように、ユーザが検索したい対象を示したポインティング情報を入力することになるが、そのためには、検索したい対象が表示されている画面でポイントする事となる。そのため、複数アングル画像生成部１０９ａは、そのポインディングに用いた画像の情報を得て、生成する２枚の静止画の内、１枚はユーザがポインティング情報を入力する際に使用した画像とする。

そして、入力映像である二次元動画は、後述のように被写体を回り込むように移動しながら撮影された映像である必要があるため、複数アングル画像生成部１０９ａは、グローバルモーションを算出し、左右方向のグローバルモーションの累積がポインティング情報を入力したフレームからある閾値以上になった時点のフレームを、生成するもう１枚の静止画とする。また他の方法としては、固定時間Ｎ秒後に相当するフレームを、生成するもう１枚の静止画とするようにしてもよい。

図２２から図２６は、奥行き情報作成部１０１ａによる奥行き情報生成の原理を説明する図である。奥行き情報作成部１０１ａは、入力された二次元動画を構成する静止画のうち、２枚の静止画において、１枚の静止画に映っている被写体が、もう１枚の静止画のどの位置に映っているのかを解析し、その位置の違い（位置のずれ）を算出する。ただし、被写体を回り込むように移動しながら撮影することにより撮影した映像のため、１枚目の静止画を撮影した地点でのカメラと被写体との距離と、２枚目の静止画を撮影した地点でのカメラと被写体との距離が等距離でない場合がある。この場合、両方の静止画での被写体の大きさが異なってしまう。このようなときには、まず２枚目の静止画の被写体の大きさを１枚目の静止画の被写体の大きさに合わせるように補正を行う。また、片方の撮影時にカメラが斜めに傾いていたり上下方向にずれていたりする場合もある。この場合も、２枚目の静止画における傾き及び上下方向のずれを１枚目の静止画に合わせるように補正を行う。

図２２は、これらの補正をした後の画像について、上方から見たカメラと被写体の位置関係を示した図である。前述のように被写体を回り込むように移動しながら撮影した映像のため、図３の三次元映像の静止画を撮影した場合のカメラと被写体の位置関係と異なり、カメラの向きが平行でなく、被写体を中心とする円弧上にカメラが中心を向くように位置することとなる。ここで、符号２０１は直方体状の被写体αである。符号２０２は球状の被写体βである。符号２０３ａは、視点位置Ａのカメラであり、左目用の画像を撮影する。符号２０４ａは、視点位置Ｂのカメラであり、右目用の画像を撮影する。直方体の被写体αは、球の被写体βよりもカメラに近い位置に存在している。

図２３は、視点位置Ａでの映像、すなわちカメラ２０３ａで撮影した映像である。図２２の位置関係から分かるように、この映像では、直方体状の被写体αが、球状の被写体βよりも右に存在する。
図２４は、視点位置Ｂでの映像、すなわちカメラ２０４ａで撮影した映像である。図２２の位置関係から分かるように、この映像では、図２３とは逆に、直方体状の被写体αが、球状の被写体βよりも左に存在する。

図２５は、図２３の映像を実線で記載し、図２４の映像を点線で記載し、両者を重ね合わせた映像である。図６と図２５の違いとして、図６では、被写体αも被写体βも、カメラ２０３で撮影した映像（実線表記）がカメラ２０４で撮影した映像（点線表記）よりも右に位置しているが、図２５の場合は、被写体αは図６と同じであるが、被写体βは、カメラ２０３ａで撮影した映像（実線表記）がカメラ２０４ａで撮影した映像（点線表記）よりも左に位置している。これは、カメラ２０３ａとカメラ２０４ａの光軸（一点鎖線で表記）の交点よりもカメラに近い部分にある被写体は、カメラ２０３ａで撮影した映像がカメラ２０４ａで撮影した映像よりも右に位置し、上記交点よりもカメラから遠い部分にある被写体はカメラ２０３ａで撮影した映像がカメラ２０４ａで撮影した映像よりも左に位置することとなるためである。

距離ｄ_αが映像上での被写体αのズレ量であり、距離ｄ_βが映像上での被写体βのズレ量である。この映像上でのズレ量を一般的に視差量と呼ぶ。ここでは、左側の視点からの映像を原点と考え、そこから左方向のずれ量を＋方向のずれ量とし、右方向のずれ量を−方向のずれ量と定義する。すると、距離ｄ_αは＋方向のずれ量であり、距離ｄ_βは−方向のずれ量と言える。ここからも分かるように、視差量が＋方向に大きいほど近くにある被写体であり、視差量とカメラ〜被写体間の距離は比例する。カメラ２０３ａ、２０４ａの画角と、カメラ２０３ａの撮像面の中心からカメラ２０４ａの撮像面の中心までの距離ｌと、映像上のズレ（視差量）とに基づき、奥行き方向にどの位置にあるのかを示す奥行き情報を算出できる。なお、映像上のズレは、例えば、公知のブロックマッチング法を用いて算出する。また、カメラ２０３ａ、２０４ａの画角、および、カメラ２０３ａの撮像面の中心からカメラ２０４ａの撮像面の中心までの距離ｌについては、入力された二次元映像の動画のデータに含まれていても良いし、ユーザが別途入力するようにしてもよい。なお、距離ｌが取得できない場合には、どの位置にあるのかを示す奥行き情報が、絶対的な距離を示すものでなく、相対的な距離を示すものとなる。
図２６は、視点位置Ａにおける奥行き情報を映像化した例である。ここでは、カメラに近いほど網掛けを薄く、カメラから遠いほど網掛けを濃くしている。すなわち、背景が一番濃い網掛けで、被写体βが薄い網掛けで、被写体αが網掛け無しとなっている。

検索対象画像生成部１０４ａは、入力された検索対象のオブジェクトだけが抽出された映像と、対応する奥行き情報とから、検索対象オブジェクトが異なる視点から見た静止画を複数生成し、検索対象画像として類似画像検索部１０５に入力する。その詳細は、後述する。

図２７は、複数アングル画像生成部１０９ａの動作の一例を示した図である。動画ＭＰ１は、被写体を回り込みながら撮影した各フレームを示している。ここから画像Ｇ６ａ、Ｇ６ｂのように、任意の２枚を選択することで、奥行き情報を作成するために必要な２枚の静止画が選択されたこととなる。画像Ｇ６ａがポインティング情報を入力したフレームとすると、次のフレームを読み込んで、画像の４隅の動きベクトルを直前フレームを利用して検出して、そこからグローバルモーションを算出する。グローバルモーションの左右方向の動きの累積が閾値以上となるまで、次のフレームの読み込み、グローバルモーション算出及び累積計算を繰り返す。そして閾値以上となったフレームが画像Ｇ６ｂとなり、２枚の静止画が選択されたこととなる。ここでは画像４隅の動きベクトルを用いてグローバルモーションを算出する方法を記載したが、画面全体を用いてグローバルモーションを算出しても良い。

図２８は、検索対象画像生成部１０４ａの動作を示すフローチャートである。まず、ステップＳ０１で、まず初期画像を設定する。次にステップＳ０２に移行して、初期画像にて、奥行き情報を用いて最もカメラに近い画素を探索して、その点をＡ点とし、検索対象のオブジェクトのみが抽出された映像を用いて最も右に位置の画素を探索し、その点をＢ点とする。次にステップＳ０３に移行して、Ａ点とＢ点が不適切か否かの判定を行う。不適切な場合の一例として、Ａ点とＢ点が同一の点となる場合（鉛筆を左斜めから見た場合）がある。不適切と判定した場合は、ステップＳ０４に移行し、別の画像を初期画像として、ステップＳ１３に移行して、別の画像を初期画像と設定する回数が所定の回数を超えていなければ、再度ステップＳ０１からやり直す。

ステップＳ１３にて所定の回数を超える場合として、真っ平らな壁をオブジェクトとして選択した場合などがあり得るが、この場合は、初期画像を何回再選択してもＡ点とＢ点が常に同一となるが、そのようなオブジェクトは、検索対象画像を複数選択する必要がないため、ステップＳ１４に移行して、最初に初期画像として選択した静止画１枚のみを検索対象画像とする。ステップＳ０３にてＡ点とＢ点が不適切で無いと判断されると、ステップＳ０５に移行し、変数Ｎに１を代入して、その時点での初期画像を第Ｎの検索対象画像（すなわち第１の検索対象画像）とする。そしてＮにＮ＋１を代入する。

次にステップＳ０６に移行して、Ａ点とＢ点を結んだ直線と撮像面Ｓとの角度Θ1を算出する。次にステップＳ０７に移行して、次の検索対象候補画像を選択する。動画であるので、次の検索対象候補画像として、次のフレームの画像を選択したり、所定の時間後の画像を選択したりすればよい。
次にステップＳ０８に移行して、現在の検索対象候補画像でのＡ点とＢ点がどこに移動したのかを探索する。Ａ点とＢ点がどこに移動したのかを探索するには、マイクロソフト（登録商標）社のＰｈｏｔｏｓｙｎｔｈ（登録商標）という技術で利用している特徴点検出と特徴点対応付けの技術があれば実施できる。この技術は、被写体を回り込んで撮影した数十枚の写真から各写真の特徴点を検出し、その対応付けを行って、被写体の３次元構造を復元する技術である。次にステップＳ０９に移行して、探索したＡ点とＢ点を結んだ直線と撮像面Ｓとの角度Θを算出する。

次にステップＳ１０に移行して、算出した角度Θが、所定の傾きを超えたか否かの判定を行う。具体的には、初期画像で算出したΘ1と所定のきざみ角度ΔΘのＮ個分の値を加えた値を超えたか否かで判定する。きざみ角度ΔΘは、どれ位のずれた画像を検索対象画像として選択するのかとの初期設定で決定するようにすればよい。例えば１０度ずつ角度のずれた画像を検索対象画像とするなら、ΔΘは１０度となる。

ステップＳ１０で所定の傾きを超えたと判定した場合には、ステップＳ１１に移行し、現在の検索対象画像を第Ｎの検索対象画像に設定する。そしてＮにＮ＋１を代入する。
次にステップＳ１２に移行し、ステップＳ１０で所定の傾きを超えていないと判定した場合にもステップＳ１２に移行し、ＮやΘが所定の値を超えたか否かの判定を行う。すなわち、必要分の検索対象画像が得られたか、もしくは、アングルの変更範囲を超えたかなどで、これ以上の検索対象画像を生成する必要がないか否かとの判定を行う。ここで、探索する必要があると判定した場合は、ステップＳ０７に戻り、次の検索対象候補画像の選択を行い、処理のループを繰り返す。また、探索する必要がないと判定した場合は、検索対象画像生成部１０４ａの処理を終了する。

このように、本実施形態によれば、知りたい被写体が目の前に存在する際に、単に、被写体を回り込むようにして、二次元動画を撮影してポインティングするだけの簡単な操作で、その被写体について、複数のアングルからの画像の検索を行うことができるので、検索結果の信頼性を損なうことなく、容易に検索することができる。

［第３の実施形態］
以下、図面を参照して、本発明の第３の実施形態について説明する。図２９は、この発明の第３の実施形態による映像検索装置１０ｂの構成を示す概略ブロック図である。図２９において、図１に対応する部分には同一の符号（１０２、１０３、１０５〜１０８）を付し、説明を省略する。また、図２９において、図２０に対応する部分には同一の符号（１０１ａ、１０４ａ）を付し、説明を省略する。本実施形態における映像検索装置１０ｂは、複数枚の二次元映像の静止画のデータと、該静止画中の検索対象のオブジェクトを指定する操作入力とを受けて、検索対象のオブジェクトに類似する画像を検索し、該画像と、該画像が示すオブジェクトの名称とを表示する。なお、ここで、複数枚の二次元映像の静止画は、図３０に示すように、被写体に対して回り込みながら撮影した静止画であり、複数視点からの画像を含む画像群である。

映像検索装置１０ｂは、奥行き情報作成部１０１ａ、オブジェクト指定部１０２、オブジェクト抽出部１０３、検索対象画像生成部１０４ａ、類似画像検索部１０５、画像データベース１０６、類似度合決定部１０７、検索結果出力部１０８、複数アングル画像生成部１０９ｂを含んで構成される。

複数アングル画像生成部１０９ｂは、奥行き情報を作成するために必要な２枚の静止画を入力映像から生成し、奥行き情報作成部１０１ａに入力する。前述のように、ユーザが検索したい対象を示したポインティング情報を入力することになるが、そのためには、検索したい対象が表示されている画面でポイントする事となる。そのため、そのポインディングに用いた画像の情報を得ることにより、生成する２枚の静止画の内、１枚はユーザがポインティング情報を入力する際に使用する画面とすることが可能となる。そのため、入力映像からもう１枚の静止画を生成すればよい事となる。入力映像がＮ枚の２Ｄ静止画の場合は、ポインティング情報を入力した画像の次の画像を、生成するもう１枚の静止画とすればよい。

このように、本実施形態によれば、知りたい被写体が目の前に存在する際に、単に、被写体を回り込むようにして、二次元静止画を連続して撮影してポインティングするだけの簡単な操作で、その被写体について、複数のアングルからの画像の検索を行うことができるので、検索結果の信頼性を損なうことなく、容易に検索することができる。

また、図１、図２０、図２９における各部の機能もしくはその一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。

１０、１０ａ、１０ｂ…映像検索装置
１０１、１０１ａ…奥行き情報作成部
１０２…オブジェクト指定部
１０３…オブジェクト抽出部
１０４、１０４ａ…検索対象画像生成部
１０５…類似画像検索部
１０６…画像データベース
１０７…類似度合決定部
１０８…検索結果出力部

Claims

被写体に類似している画像を画像データベースから検索する画像検索装置であって、
複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出するオブジェクト抽出部と、
前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する検索対象画像取得部と、
前記検索対象画像取得部が取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う類似画像検索部と、
を備えることを特徴とする画像検索装置。
前記少なくとも一つの画像について、奥行き情報を生成する奥行き情報作成部を備え、
前記検索対象画像取得部は、前記奥行き情報を用いて、前記複数の点として、前記少なくとも一つの画像において、該画像の視点からの距離が最も近い点と、右または左の端点とを選択すること
を特徴とする請求項１に記載の画像検索装置。
前記類似画像を検索する際に用いた画像であって、前記検索対象画像取得部が取得した前記画像の特異点の数に少なくとも基づき、前記類似画像の類似度合いを決定する類似度合決定部を備えることを特徴とする請求項１に記載の映像検索装置。
前記画像データベースは、記憶している画像に対応付けて、該画像に関する補足情報を記憶し、
前記類似画像検索部は、前記類似画像の検索を行う際に、前記補足情報に基づき、検索対象とする画像を限定すること
を特徴とする請求項１に記載の画像検索装置。
前記補足情報は、前記記憶している画像中の２つの特異点と、該画像の撮像面との角度であることを特徴とする請求項４に記載の画像検索装置。
前記補足情報は、前記対応付けられている画像で、主に使用されている色を示す情報であることを特徴とする請求項４に記載の画像検索装置。
被写体に類似している画像を画像データベースから検索する画像検索方法であって、
複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出する第１の過程と、
前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する第２の過程と、
前記第２の過程にて取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う第３の過程と、
を有することを特徴とする画像検索方法。
被写体に類似している画像を画像データベースから検索する映像検索装置のコンピュータを、
複数視点からの前記被写体の画像を含む画像群のうち、少なくとも一つの画像について、ユーザが指定した被写体をオブジェクトとして抽出するオブジェクト抽出部、
前記画像群に基づき、前記オブジェクト上の複数の点の画像上における位置関係が互いに異なる複数の画像を取得する検索対象画像取得部、
前記検索対象画像取得部が取得した前記複数の画像の各々について、前記画像データベース内から類似画像の検索を行う類似画像検索部
として機能させるためのプログラム。