WO2016117039A1

WO2016117039A1 - 画像検索装置、画像検索方法、および情報記憶媒体

Info

Publication number: WO2016117039A1
Application number: PCT/JP2015/051433
Authority: WO
Inventors: 裕樹渡邉; 健一米司; 智明吉永; 直人秋良; 廣池　敦
Original assignee: 株式会社日立製作所
Priority date: 2015-01-21
Filing date: 2015-01-21
Publication date: 2016-07-28

Abstract

　複数の画像が入力される入力部と、複数の画像から複数の第１領域(例えば候補領域、部分領域)を抽出し、それぞれの前記第１領域から第１特徴量を抽出する第１抽出部と、複数の画像から抽出された複数の第１特徴量の分布から、出現頻度が低い第１特徴量を選択し、選択した第１特徴量を含む第１領域を第２領域(例えば顕著領域、検索領域)として特定する領域判定部と、第２領域から抽出した第１特徴量と、第２領域と、第２領域を抽出した画像と、を記憶する記憶部と、第１特徴量を用いて検索を行う検索部と、を有することを特徴とする画像検索装置。

Description

画像検索装置、画像検索方法、および情報記憶媒体

　本発明は、画像検索装置、画像検索方法およびプログラムを格納した情報記録媒体に関する。

　テレビ映像のデジタルアーカイブ化やインターネット上の動画配信サービスの普及により、大規模な映像データを高速に検索・分類する必要性が増加している。特に、膨大な映像コンテンツに対して人手でテキスト情報を付与することが困難なことから、画像中の特徴量を用いた映像検索技術が求められている。また、映像フレーム全体の特徴だけでなく、映像中に含まれる物体や特定のパターンに着目した詳細な検索が期待されている。
特許文献１には「背景が動いているオブジェクトを検出できるオブジェクト検出方法」が開示され、具体的には「背景の動きを所定の変換モデル（例えばアフィン変換や透視変換など）で近似し、その変換モデルの変換係数を映像の動きベクトルから推定することによって背景の動きを推定する」「オブジェクトに関する特徴量と背景に関する特徴量との差分を求めることにより、オブジェクトのみを検出する」と記載されている。

特開２０００－２２２５８４

　上述した特許文献１の技術では、まずマクロブロックごとの動きベクトルを抽出する。動きベクトル自体には、検出対象の動きのほかに誤差も大きく、カメラワークによる背景の動きも含まれている。そこで特許文献１ではカメラワークの動きを、アフィン変換を用いて近似することで、背景の動きを推定する。推定した背景の動きを、実際の動きベクトルから除去し、得られた動きベクトルデータが類似するマクロブロックを統合し、オブジェクトとして検出する。

　しかし、この技術では、カメラワークと違う動きをしているオブジェクトを検出することではきるが、オブジェクトのうち他のオブジェクトと違う動きをしているものや、背景と同じ動きをしているオブジェクトを検出することはできない。そのため、このような他とは違うオブジェクトを対象とする検索を行うこともできない。

　このようなオブジェクトを対象として検索できるようにするためには、例えば、各フレームを様々な大きさの領域で走査し、得られた部分領域と部分領域に対応する検索用データとをすべて検索用データべースに登録しておくことが考えられる。しかしながら、監視映像や放送映像等の検索においては、映像を構成するフレームの数が膨大になり、得られる領域の数も膨大となってしまうため、登録処理・検索処理ともに負荷が大きく、時間もかかってしまうという課題がある。

　上記課題を解決するために、例えば請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、画像検索装置であって、複数の画像が入力される入力部と、複数の画像から複数の第１領域を抽出し、それぞれの第１領域から第１特徴量を抽出する第１抽出部と、複数の画像から抽出された複数の第１特徴量の分布から、出現頻度が低い第１特徴量を選択し、選択した第１特徴量を含む第１領域を第２領域として特定する領域判定部と、第２領域から抽出した第１特徴量と、第２領域と、第２領域を抽出した画像と、を記憶する記憶部と、第１特徴量を用いて検索を行う検索部と、を有することを特徴とする。

　あるいは、画像検索方法であって、複数の画像が入力される第１ステップと、複数の画像から複数の第１領域を抽出し、それぞれの第１領域から第１特徴量を抽出する第２ステップと、複数の画像から抽出された複数の第１特徴量の分布から、出現頻度が低い第１特徴量を選択し、選択した第１特徴量を含む第１領域を第２領域として特定する第３ステップと、第２領域から抽出した第１特徴量と、第２領域と、第２領域を抽出した画像と、を記憶部に記憶する第４ステップと、第１特徴量を用いて検索を行う第５ステップと、を有することを特徴とする。

　あるいは、プログラムが記録された情報記録媒体であって、コンピュータに、複数の画像を受け取る第１手段と、複数の画像から複数の第１領域を抽出し、それぞれの第１領域から第１特徴量を抽出する第２手段と、複数の画像から抽出した複数の第１特徴量の分布から出現頻度が低い第１特徴量を選択し、選択した第１特徴量を含む第１領域を第２領域として特定する第３手段と、第２領域から抽出した第１特徴量と、第２領域と、第２領域を抽出した画像と、を記憶部に記憶する第４手段と、第２特徴量を用いて検索を行う第５手段と、を実行させるプログラムが記録されていることを特徴とする。

　本発明に係る画像検索装置によれば、映像中の候補領域に着目した検索を高速に実現することができる。

システム全体の構成を示すブロック図ハードウェア構成を示すブロック図映像データベースの構成例映像データベースの登録処理を説明する図映像データベースの登録処理の処理フローを表すフローチャート映像検索の処理を説明する図映像検索の処理フローを表すフローチャート登録および検索画面の構成例システム全体の処理シーケンス領域の出現頻度に基づく顕著性判定方法を説明する図領域の出現頻度に基づく顕著性判定の処理フローを表すフローチャート領域の追跡に基づく顕著性判定を説明する図領域の追跡に基づく顕著性判定の処理フローを表すフローチャートシーン判定による第１特徴量の切り替え処理を表すフローチャート

＜本発明の概要＞
　本発明の映像検索装置１０４では、複数フレームからなるシーン中の候補領域を対象として、検索対象が顕著に表れている顕著領域を判定する（４０５）。顕著領域とは、検索対象が顕著に映っている可能性の高い候補領域である。たとえば、複数の候補領域のうち、他の候補領域と似ている画像特徴量が少ない候補領域であれば、壁紙などの頻出パターンではなく、何らかの対象が写っていると考えられる。そのため、この候補領域を顕著領域として判定する。あるいは、複数の候補領域のうち、他の候補領域がフレーム内を右へ動いている中、一つだけ左へ動いているような候補領域は、注意すべき候補領域である可能性が高いため顕著領域として判定する。このように、複数の候補領域を同じ特徴量で比較した場合に出現頻度が低いものを顕著領域として判定することで、実際には検索に使われない単色の背景領域などの必要性が低いデータを除外することを目的としている。これにより、検索に有用なデータのみが厳選されてデータベース109に登録されるため、検索処理を高速化することができる。

　さらに映像検索装置１０４は、得られた顕著領域４０６に対して、全登録映像を対象とした検索に必要な、比較用の第１特徴量よりも情報量の多い検索用の第２特徴量（４０８）を抽出する（４０７）。検索用の第２特徴量の計算コストとデータサイズは第１特徴量に比べて非常に大きく、また、検索を効率化するための前処理（クラスタリング処理など）を行う必要が有る。しかし、本実施例に依れば、顕著領域の数を候補領域の数に比べて少なくすることができるため、一つの登録処理あたりの処理負荷は低減され、全体として計算コストの大きい処理を実現可能となる。
＜システム構成＞
　図１は、本発明の実施例１に係る映像検索システム１００の構成を示す機能ブロック図である。

　映像検索システムは、入力映像の各フレームから物体が含まれる可能性のある候補領域を検出し、さらに複数の候補領域の中から顕著領域を特定してデータベース化することで、大規模な映像データに対して、検出対象に着目した映像検索を効率的に実行することを目的としたシステムである。

　映像検索システム１００は、映像記憶装置１０１、入力装置１０２、表示装置１０３、および映像検索装置１０４を備える。

　映像記憶装置１０１は、映像データを保存する記憶媒体であり、コンピュータ内蔵のハードディスクドライブ、または、ＮＡＳ（Ｎｅｔｗｏｒｋ　Ａｔｔａｃｈｅｄ　Ｓｔｏｒａｇｅ）もしくはＳＡＮ（Ｓｔｏｒａｇｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などのネットワークで接続されたストレージシステムを用いて構成することができる。また、映像記憶装置１０１は、例えば、カメラから継続的に入力される映像データを一時的に保持するキャッシュメモリであっても良い。

　なお、映像記憶装置１０１に保存される映像データは、何らかの形で画像間の時系列情報が取得できる限りは、どのような形式のデータであってもよい。例えば、保存される映像データは、ビデオカメラで撮影された動画像データであってもよいし、スチルカメラによって所定の間隔で撮影された一連の静止画像データであってもよい。

　入力装置１０２は、マウス、キーボード、タッチデバイスなど、ユーザの操作を映像検索装置１０４に伝えるための入力インタフェースである。表示装置１０３は、液晶ディスプレイなどの出力インタフェースであり、映像検索装置１０４の認識結果の表示、ユーザとの対話的操作などのために用いられる。
＜各部の動作＞
　映像検索装置１０４は、映像記憶装置１０１に蓄積された映像から検索に必要な情報を抽出しデータベース化する登録処理と、ユーザが入力装置１０２から指定した検索クエリを用いてデータベースからクエリに類似する映像を検索して表示装置１０３に情報提示する検索処理を行う。映像検索装置１０４は、映像のフレーム中の物体領域に着目した検索を実現するために、フレームから候補領域を検出し、候補領域から抽出した第１特徴量を用いて顕著領域を特定した後、顕著領域のみから大規模データの検索に適した特徴量を抽出し、データベースに登録する。映像検索装置１０４は、映像入力部１０５、第１特徴量抽出部１０６、顕著領域判定部１０７、第２特徴量抽出部１０８、映像データベース１０９、映像検索部１１０を備える。

　映像入力部１０５は、映像記憶装置１０１から、映像データを読み出し、映像検索装置１０４内部で使用するデータ形式に変換する。具体的には、映像入力部１０５は、映像（動画データ形式）をフレーム（静止画データ形式）に分解する動画デコード処理を行う。得られたフレームは、第１特徴量抽出部１０６へ送られる。また、得られた各フレームから画像特徴量を抽出する。画像特徴量は、例えば、固定長のベクトルで表現され、画像の色や形状などの見た目の情報を数値化したデータである。入力映像の情報や、得られたフレームの情報は、映像データベース１０９に登録される。

　第１特徴量抽出部１０６は、入力された各フレームから、検索対象の含まれる候補領域を検出する。候補領域の検出は、複数の大きさの領域で各フレームを数画素ずつ走査することで、大小さまざまな複数の領域を検出する。この時、領域形状が矩形である方が、のちの画像処理を行いやすい。

　本実施例では、さらに効率的に検索で用いられる可能性の高い候補領域のみを検出できるよう、フレーム中から検出対象が存在する可能性の高い領域を検出し、これを候補領域とする方法について説明する。本発明の映像検索システム１００は、特定の種別の物体に限定せず、ユーザの指定した任意の検出対象（物体に限らずマーク等の記号も含む）に着目した映像検索の実現を目的とするため、フレーム中から「検出対象らしさ（Ｏｂｊｅｃｔｎｅｓｓ）」の指標値が大きい領域を候補領域として検出する。物体の候補領域の検出には公知技術を使用することができる。指標値として、例えば、領域に含まれるエッジの数や周辺領域との色差、画像の対称性などを利用することができる。入力映像の種類や公知技術のアルゴリズムにもよるが、物体の種類を限定しない場合は、数１０～数１０００個の候補領域が出力される。このように、候補領域に対し「検出対象らしさ」で評価することで、顕著領域を判定する前に候補の数を絞り込むことができ、この後の顕著領域判定処理での処理負荷を軽減することができる。

　第１特徴量抽出部１０６は、これら全ての候補領域から特徴量を抽出し、映像データベース１０９に登録する。

　大規模なデータを検索するためには、異なるデータ間で特徴量に差がでるように、十分に情報量の多い特徴量を使用する必要がある。例えば、形状の特徴量と色の特徴量を組み合わせた特徴量や、領域を格子状に分割することで位置を考慮した特徴量を得ることができる。これらは通常、特徴量計算に時間がかかるだけでなく、登録データも大きくなる。そこで本発明の映像検索装置１０４では、第１特徴量抽出部１０６で検出された候補領域に関しては、限定されたシーン内のみで領域間の判別が可能な特徴量（第１特徴量）を用い、データベース登録においてはクラスタリング処理を行わず、データ書き込みのみを行うことにしてもよい。こうすることで、第１特徴量をデータベース登録するための処理負荷を軽減することができる。さらに検索用のデータとしてデータベース109に登録するデータとして、第１特徴量よりも情報量の多い画像特徴量等の特徴量を検索用特徴量として登録しても良い。この検索用特徴量については第２抽出部の処理として後述する。

　第１特徴量としては、例えば、単純なエッジの頻度や代表色、動きを表す座標データなどを使用することが可能である。検索したい対象が、マークや特徴的な建造物などの動きが少ないものである場合には、エッジ頻度や色の特徴量を使うことが望ましい。また、検索したい対象が人や車などの移動を伴う者である場合には、動きを表す座標データや向きを伴うベクトル量等が望ましい。シーンに応じた第１特徴量(比較用特徴量)の選択について、図１４の説明として後述する。

　領域判定部１０７は、第１特徴量抽出部１０６で検出された候補領域から検索対象が顕著に表れている顕著領域を選択する。

　図１０は、領域判定部における顕著性判定を説明するための図である。候補領域の顕著性を求めるための指標として、その領域のパターンが安定して出現する（出現頻度が多い）か否かを調べる方法がある。たとえば、壁紙や空など様々な構図の画像によく出現するパターンについては、その領域を検索用データとして登録しても、実際に登録される可能性は低く、記憶部を圧迫するデータとなる。一方、人物の顔や所定の記号等、特定の画像にしか出現しないパターンを検索用データとして登録しておくと、実際に検索に用いられることが多いため、無駄になりにくい。そこで本発明は、このように出現頻度が少ない領域を検索に有用なデータが顕著に表れている領域であると判断し、顕著領域として特定する。そして顕著領域から抽出した特徴量のみを登録することで登録処理の負荷を低減することができる。さらに、顕著領域を登録することで厳選されたデータベース構成となるため、検索処理の速度を向上することができる。

　さらに、登録される画像が複数の動画像を構成する画像であった場合には、まず、各動画像のシーンチェンジを検出する。シーンチェンジ検出処理は、例えば、映像入力部１０５で計算されたフレームの特徴量を用い、現フレームの特徴量と前フレームの特徴量との距離（例えば、特徴量ベクトル間２乗距離）が所定値以上になったところを判定することで実現できる。また、例えば、第１特徴量抽出部で検出された各候補領域をフレーム間で対応付けることで追跡し、多数の候補領域の追跡が途切れたフレームを検出して、シーンチェンジと判定してもよい。

　次に、複数の類似かつ時間的に連続する画像群を一のシーンとし、シーン外における出現頻度を求めておき、シーン内頻度とシーン外頻度の比によって顕著領域を特定する。例えば、図１０の１００１に含まれる候補領域のパターンは、１００２に比べてシーン内に高頻度で出現するが、シーン外の頻度も高いため、顕著性は低いと判定する。これに対して、１００３は、シーン外での頻度は低いが、シーン内頻度が高いため、このシーンを検索するのに有用な情報が顕著であると判定する。これにより、適切に特定のシーンを検出することのできる領域を検索用データとして登録することができる。

　以上を踏まえると、以下の判定基準に基づき、顕著領域を特定することができる。
・第１特徴量を特徴量空間内の分布に基づいてクラスタリングし、小さいクラスタであれば出現頻度が低いと判定し、顕著領域とする。例えば判定方法として，クラスタ内のデータ数が、特徴量空間内の全データ数の数１０～数１００分の１以下となるクラスタを、出現頻度がひくと判定し、このクラスタを選択することで、１フレームから数個～数１０個の顕著領域が抽出される。
・第１領域をシーン内外に分けて、特徴量空間内の分布に基づいてクラスタリングし、シーン外での出現頻度が低く、シーン内での出現頻度が高いものを顕著領域とする
・任意の第１特徴量を用いて他の第１特徴量との類似度を求め、類似度が高い第１特徴量の数がしきい値より少ない場合には出現頻度が低いと判定し、顕著領域とする
なお、これ以外でも、出現頻度の高低を判定する方法であれば、他の公知技術を採用することができる。

　さらに、上記のように判定した顕著領域に対し、以下の方法で絞り込みを行うことで、登録データを削減することができる。
・検索対象が他の物体等で遮られていないか、すなわち当該候補領域と他の候補領域とが重なった領域がないかを評価
・検索対象がピンボケになっていないか、すなわち当該候補領域のフォーカスについてエッジ等を用いて評価
・検索対象がぶれていないか、すなわちシーン内における当該候補領域の移動量の大小で評価
・検索対象が高解像度か、すなわちフレーム内における当該候補領域の大きさおよびフレーム内における候補領域の位置で評価
　また、時間的に連続する複数枚の画像を使い、候補領域の追跡を行ったのち顕著領域を特定しても良い。この場合には、まず候補領域の追跡を行う。たとえば、候補領域から抽出した画像特徴量を用いて他のフレームを検索し、類似度が閾値以上の別フレームの候補領域を、同一オブジェクトの追跡結果として特定する。

　次に、追跡した複数フレームにわたる候補領域を用いて、そのフレーム間における候補領域の移動量を求め、これを第１特徴量とする。あとは上述の様に移動量の分布から出現頻度を判定し顕著領域を特定する。たとえば、同じフレームにおける複数の候補領域において、移動量の大小でクラスタリングすることで、小さいクラスタに該当するもの（具体的には、周囲の移動量に比べ著しく大きい・小さいもの、周囲の移動量とは逆方向の移動量をもつものなど）を顕著領域として特定する。

　いずれの場合においても、シーン内で酷似する候補領域はひとつの顕著領域に縮約される。この結果、例えば、シーン内に数千～数万存在した候補領域から、数個～数１０個の顕著領域が得られ、登録データの削減が可能となる。

　第２特徴量抽出部１０８は、領域判定部１０７で得られた顕著領域から広範囲の類似画像検索に適した検索用の第２特徴量を抽出し、映像データベース１０９に登録する。第２特徴量は、色と形状を組みわせ、構図分割を行うことで、シーン数、登録データ数が増えた場合でも異なる領域間の判別が可能な特徴量とし、例えば輝度勾配分布を用いて求める画像特徴量などが考えられる。

　また、大規模な画像検索システムにおいては、登録時に検索しやすいデータ構造を構築しておくことで検索処理を高速化することができる。例えば、類似するデータをまとめたクラスタを形成しておくことで（クラスタリング処理）、検索時に類似クラスタのみを対象とした探索処理を行うことができる。

　第２特徴量は、検索時にユーザが指定して切り替えられるように、１つの領域に対して２つ以上登録しておくこともできる。例えば、形状を重視した特徴量と、色を重視した特徴量を抽出、登録しておいてもよい。なお、顕著領域を登録する際に、シーン内でその顕著領域に関わる候補領域（以下、関連領域と呼ぶ）を関連付けて登録することもできる。例えば、パターンの頻度を用いて顕著性を判定した場合は、類似するパターンの中から顕著領域を１つだけ選び、残りの候補領域をその関連領域として顕著領域に紐づけて登録する。また、例えば、領域の追跡を用いて顕著性を判定する場合は、各追跡に関して１フレームの候補領域のみを顕著領域とし、別のフレームの候補領域を関連領域としてその顕著領域に紐づけて登録する。このように関連領域を登録しておくことで、後の検索処理におけるクエリ追加を容易に行うことができる。

　映像データベース１０９は、映像検索に必要な、映像、フレーム、シーン、候補領域、顕著領域の情報を管理するためのデータベースである。映像データベース１０９は、画像特徴量を保存し、その画像特徴量を用いた類似画像検索行うことができる。類似画像検索は、クエリと画像特徴量が近い順にデータを並び替えて出力する機能である。画像特徴量の比較には、例えば、ベクトル間のユークリッド距離を用いることができる。映像データベース１０９の構造について、詳しくは図３の説明として後述する。

　映像検索部１１０は、映像データベースからユーザ所望の映像を検索する。ユーザは、入力装置１０２を用いて検索クエリを指定する。検索クエリは、映像データベースの登録データであってもよいし、外部から入力した画像そのものであってもよい。外部から画像が入力された場合は、その画像から第１特徴量か第２特徴量を抽出し、抽出した特徴量を用いて画像検索を行う。検索結果は、表示装置１０３を介してユーザに提示される。検索では、情報量の多い第２特徴量(検索用特徴量)を用いた方がより精度の高い検索を行うことができるが、荒い検索であれば第１特徴量(比較用特徴量)でも十分に可能である。

　図２は、本発明の実施例１に係る映像検索システム１００のハードウェア構成を示すブロック図である。映像検索装置１０４は、例えば一般的な計算機によって実現することができる。例えば、映像検索装置１０４は、相互に接続されたプロセッサ２０１および記憶装置２０２を有してもよい。記憶装置２０２は任意の種類の記憶媒体によって構成される。例えば、記憶装置２０２は、半導体メモリと、ハードディスクドライブとの組み合わせによって構成されてもよい。

　この例において、図１に示した映像入力部１０５、第１特徴量抽出部１０６、顕著領域判定部１０７、第２特徴量抽出部１０８、映像データベース１０９の検索機能、映像検索部１１０といった機能部は、プロセッサ２０１が記憶装置２０２に格納された処理プログラム２０３を実行することによって実現される。言い換えると、この例において、上記の各機能部が実行する処理は、実際には、上記の処理プログラム２０３に基づいて、プロセッサ２０１によって実行される。また、画像データベース１０９のデータは、記憶装置２０２に含まれる。

　映像検索装置１０４は、さらに、プロセッサに接続されたネットワークインターフェース装置（ＮＩＦ）２０４を含む。映像記憶装置１０１は、ネットワークインターフェース装置２０４を介して映像検索装置１０４に接続されたＮＡＳまたはＳＡＮであってもよい。あるいは、映像記憶装置１０１は、記憶装置２０２に含まれてもよい。

　図３は、本発明の実施例１に係る映像データベース１０９の構成およびデータ例を示す説明図である。ここではテーブル形式の構成例を示すが、映像データベース１０９のデータ形式は任意でよい。

　映像データベース１０８は、映像テーブル３００、シーンテーブル３１０、フレームテーブル３２０、候補領域テーブル３３０、および顕著領域テーブル３４０からなる。図３のテーブル構成および各テーブルのフィールド構成は、本発明を実施する上で必要となる構成であり、アプリケーションに応じてテーブルおよびフィールドを追加しても良い。

　映像テーブル３００は、映像ＩＤフィールド３０１、ファイルパスフィールド３０２、フレームＩＤリストフィールド３０３を有する。映像ＩＤフィールド３０１は、各映像データの識別番号を保持する。ファイルパスフィールド３０２は、映像記憶装置１０１上の場所を保持する。フレームＩＤリストフィールド３０３は、映像から抽出されたフレームのリストを管理するためのフィールドであり、フレームテーブル３２０で管理されるＩＤのリストを保持する。

　シーンテーブル３１０は、シーンＩＤフィールド３１１、フレームＩＤリストフィールド３１２を有する。シーンＩＤフィールド３１１は、各シーンデータの識別番号を保持する。フレームＩＤリストフィールド３１２は、シーンに属する連続フレームを管理するためのフィールドであり、フレームテーブル３２０で管理されるＩＤのリストを保持する。

　フレームテーブル３２０は、フレームＩＤフィールド３２１、映像ＩＤフィールド３２２，シーンＩＤフィールド３２３、候補領域ＩＤリストフィールド３２４、顕著領域ＩＤリストフィールド３２５、フレーム特徴量フィールド３２６を有する。フレームＩＤフィールド３２１は、各フレームデータの識別番号を保持する。映像ＩＤフィールド３２２は、フレームの抽出元である映像の映像ＩＤを保持する。シーンＩＤはフィールド３２３、フレームの属するシーンのシーンＩＤを保持する。候補領域ＩＤリストフィールドは、フレームから検出された候補領域を管理するためのフィールドであり、候補領域テーブル３３０で管理されるＩＤのリストを保持する。顕著領域ＩＤリストフィールド３２５は、フレームから検出された候補領域の中で、領域判定部１０７によって顕著であると判定された領域を管理するフィールドであり、顕著領域テーブル３４０で管理されるＩＤのリストを保持する。フレーム特徴量フィールド３２６は、フレームの全領域から抽出された画像特徴量を保持する。画像特徴量は、例えば、固定長のベクトルデータで与えられる。

　候補領域テーブル３３０は、候補領域ＩＤフィールド３３１、フレームＩＤフィールド３３２、座標フィールド３３３、第１特徴量フィールド３３４を有する。候補領域ＩＤフィールド３３１は、各候補領域データの識別番号を保持する。フレームＩＤフィールド３３２は、候補領域の検出元のフレームのＩＤを保持する。座標フィールド３３３は、検出元フレームにおける、候補領域の座標を保持する。座標は、例えば、領域矩形の「左上隅の水平座標、左上隅の垂直座標、右下隅の水平座標、矩形の右下隅の垂直座標」という形式で表現される。なお、説明を容易にするため領域を矩形として与えているが、任意の領域表現をとることができる。第１特徴量フィールド３３４は、第１特徴量抽出部１０６で抽出される候補領域の特徴量を保持する。

　顕著領域テーブル３４０は、顕著領域ＩＤフィールド３４１、代表候補領域ＩＤフィールド３４２、関連候補領域ＩＤリストフィールド３４３、第２特徴量フィールド３４４を有する。顕著領域ＩＤフィールド３４１は、各顕著領域データの識別番号を保持する。代表候補領域ＩＤフィールド３４２は、顕著領域として選ばれた候補領域のＩＤを保持する。関連候補領域ＩＤフィールド３４３は、顕著領域に関連する候補領域のＩＤのリストを保持する。第２特徴量フィールド３４４は、第２特徴量抽出部１０８で抽出される顕著領域の検索用の特徴量を保持する。

　以上を踏まえ、本実施例に記載の画像検索装置は、複数の画像が入力される入力部と、複数の画像から複数の第１領域を抽出し、それぞれの前記第１領域から第１特徴量を抽出する第１抽出部と、複数の画像から抽出した複数の第１特徴量の分布から、出現頻度が低い第１特徴量を選択し、選択した第１特徴量を含む第１領域を第２領域として特定する領域判定部と、第２領域から抽出した第１特徴量と、第２領域と、第２領域を抽出した画像と、を記憶する記憶部と、第1特徴量を用いて検索を行う検索部と、を有することを特徴とする。

　先に第１特徴量の分布から出現頻度を用いて評価することで、出現頻度が高く検索ノイズになるような部分領域を除外し、検索に有用な部分領域を特定することができる。このように特定された部分領域（第２領域）からのみ抽出した特徴量を蓄積し、検索に用いることで、登録データ数が減り、検索速度を向上させることができる。

　＜処理フロー＞
図５は、本発明の実施例１に係る映像検索装置１０４が、映像蓄積装置１０１から入力された映像から領域を検出し、映像データベース１０９に登録する処理を説明するフローチャートである。以下、図５の各ステップについて説明する。

　（図５：ステップＳ５０１）
　映像入力部１０５は、映像記憶装置１０１から映像を取得し、システム内部で利用可能な形式に変換する。具体的には、映像入力部１０５は、映像をデコードしてフレーム（静止画）を抽出する。

　（図５：ステップＳ５０２）
映像入力部１０５は、ステップＳ５０１で得られたフレームから画像特徴量を抽出する。

　（図５：ステップＳ５０３）
第１特徴量抽出部１０６は、ステップＳ５０１で得られたフレームから物体が含まれる可能性の高い領域を検出し候補領域とする。

　（図５：ステップＳ５０４）
第１特徴量抽出部１０６は、ステップＳ５０３で得られた各候補領域から顕著性判定に使用することを目的とした第１特徴量を抽出する。

　（図５：ステップＳ５０５）
領域判定部１０７は、ステップＳ５０２で抽出されたフレームの特徴量、または、ステップＳ５０４で抽出された候補領域の第１特徴量を用いて、シーンチェンジを判定する。シーンチェンジが発生した場合、それまでのシーンのデータを対象としてステップＳ５０６以降を実行し、そうでなければ、ステップＳ５０８に移動する。

　（図５：ステップＳ５０６）
領域判定部１０７は、当該シーンに含まれる全ての候補領域を対象として、顕著領域を判定する。

　（図５：ステップＳ５０７）
第２特徴量抽出部１０８は、ステップＳ５０６で特定された顕著領域に対して、検索に使用することを目的とした第２特徴量を抽出する。

　（図５：ステップＳ５０８）
映像検索装置１０４は、映像、フレーム、シーン、候補領域、顕著領域の情報を関連付けて映像データベース１０９に登録する。なお、データ登録に関しては、先行する各機能部の処理毎に逐次、映像データベース１０９に登録してもよいし、フレームに対する一連の処理が終わってから一括で映像データベース１０９に登録してもよい。

　（図５：ステップＳ５０９）
映像検索装置１０４は、映像記憶装置１０１に次のフレームが存在すれば、ステップＳ５０１に戻り前述の一連の登録処理を繰り返し、そうでなければ、登録処理を終了する。

　図６は、本発明の実施例１に係る映像検索システム１００において、映像検索装置１０４が、ユーザから指定されたクエリを用いて映像データベース１０９に登録された映像を検索する処理を説明するための図である。

　ユーザは、映像データベース１０９から所望の映像を検索するために、手がかりとなる情報を入力する。類似画像検索を用いると、ユーザが与えた画像の特徴を用いて、それと似た特徴を持つ画像をデータベースから見つけることができる。検索対象が画像の一部に物体が映っている場合は、ユーザに検索対象の領域を指定させても良い（６０１）。また、例えば、特定の物体を表すテキスト情報と画像を紐付けて管理しておくことで、ユーザが入力したテキストから類似画像検索に使用する画像を与えることもできる。

　このようにしてユーザから与えられたクエリ画像から、第２特徴量を抽出する（６０２）。得られた特徴量ベクトル６０３を用いて、映像データベース１０９に対して類似画像検索を実行する（６０４）。類似画像検索は、特徴の近い画像を探索する処理であり、特徴量ベクトル間の距離を非類似度とみなすことができる。また、距離ｄを使用して、ｅｘｐ（－ｄ）×１００を計算すると、０～１００までの値をとるため、これを類似度として使用してもよい。検索結果６０５は、例えば類似度の高い順に並び替えられて、ユーザに提示される。

　上記の検索処理は、顕著領域の情報のみを用いた検索であるが、本発明の映像検索装置１０４は、候補領域の情報を保持しているため、これを活用した再検索を行うことができる。シーン内の候補領域を対象とした再検索は、オプションによって切り替えることができる（６１０）。

　シーン内で再検索を行うためには、まず、ユーザが指定したクエリから第１特徴量６１２を再抽出する（６１１）。得られた第１特徴量を用いて、第２特徴量を用いて得られた検索結果６０５の顕著領域に関連する候補領域を対象として、検索を行う（６１３）。第１特徴量に対しては、検索高速化のためのクラスタリング処理を行っていないが、検索結果６０５に関連する候補領域の数は限定的であるため、大きな負荷なく実行できる。この結果、第１特徴量から計算した候補領域の類似性を加味した検索結果６１４をユーザに提示することができる。

　図７は、本発明の実施例１に係る映像検索装置１０４が、ユーザから指定されたクエリを用いて映像データベース１０９に登録された映像を検索する処理を説明するフローチャートである。以下、図７の各ステップについて説明する。

　（図７：ステップＳ７０１）
ユーザは、入力装置１０２を用いて、検索クエリを指定する。

　（図７：ステップＳ７０２）
映像検索部１１０は、ユーザによって指定された画像から第２特徴量を抽出する。第２特徴量は、登録時と同じ処理手順によって抽出される。

　（図７：ステップＳ７０３）
映像検索部１１０は、ステップＳ７０２において得られた第２特徴量を用いて、映像データベース１０９から、特徴量の近い顕著領域を検索する。

　（図７：ステップＳ７０４）
映像検索装置１０４は、ユーザによってシーン内再検索が指示されていれば、ステップＳ７０５以降の処理を実行し、そうでなければステップＳ７０７に移動する。

　（図７：ステップＳ７０５）
映像検索部１１０は、ステップＳ７０１でユーザによって指定された画像から、第１特徴量を抽出する。

　（図７：ステップＳ７０６）
映像検索部１１０は、ステップＳ７０５で得られた第１特徴量を用いて、ステップＳ７０３の検索結果の顕著領域に関連する候補領域を対象として、特徴量の近い領域を検索する。この結果を、検索結果に反映させる。

　（図７：ステップＳ７０７）
映像検索装置１０４は、表示装置１０３に検索結果を出力し、処理を終了する。

　図８は、本発明の実施例１に係る映像検索装置１０４を用いて、映像データを登録し、フレーム中の物体に着目した映像検索を行うための操作画面の構成例を表す図である。本画面は、表示装置１０３上でユーザに提示される。ユーザは、入力装置１０２を用いて、画面上に標示されたカーソル８０１を操作することで、映像検索装置１０４に処理の指示を与える。

　図８の操作画面は、データ登録ボタン８０２、登録オプション指定領域８０３、クエリ読込ボタン８０４、クエリ画像表示領域８０５、検索オプション指定領域８０６、検索ボタン８０７、検索結果表示領域８０８を有する。

　ユーザがデータ登録ボタンをクリックすると、映像検索装置１０４は、映像蓄積装置１０２に蓄積された映像を読みだして映像データベース１０９に登録する。全データを登録してもよいし、登録する映像ファイルをユーザに指定させてもよい。また、登録オプション指定領域８０３で、従来どおり顕著性判定を行わず全データを登録できるようにしてもよい。

　登録処理を終えた後、ユーザはクエリ読込ボタン８０４をクリックし、検索の手がかりとなる画像を読み込む。読み込まれた画像はクエリ画像表示領域８０５に表示される。ユーザは必要に応じて、画像中の物体領域を選択する。ユーザは、検索オプション指定領域８０６を用いて、例えば、検索対象をフレーム全領域、顕著領域、候補領域に切り替えることができる。ここで指定された領域に応じて、クエリ画像から抽出される特徴量と検索対象が変わる。ユーザが検索ボタン８０７をクリックすると、映像検索装置１０４は映像データベース１０９から類似映像を検索する。検索結果は、検索結果表示領域８０８に表示される。検索結果表示領域８０８は、さらに映像のサムネイル、類似度、動画中の時間、再生や外部アプリへのデータ出力を行うための操作ボタンを備えることで、検索結果の利用しやすさを向上できる。

　図９は、本発明の実施例１に係る映像検索システム１００の処理シーケンスを説明する図であり、具体的には、以上で説明した映像検索システム１００の映像登録および映像検索処理における、ユーザ９００、映像記憶装置１０１、計算機９０１、画像データベース１０９の処理シーケンスを示す。なお、計算機９０１は、映像検索装置１０４を実現する計算機である。以下、図９の各ステップについて説明する。

　図９のシーケンス図において、Ｓ９１０は映像登録処理を、Ｓ９３０は映像検索処理を表す。

　映像登録処理Ｓ９１０において、ユーザ９００が登録開始要求を出すと（Ｓ９１１）、計算機９０１は映像記憶装置１０１から映像データを取得する（Ｓ９１２、Ｓ９１３）。以降の処理は、図５の説明として前述した一連の登録処理に相当する。計算機９０１は、映像からフレームを切り出し（Ｓ９１４）、フレームの特徴量を抽出した後（Ｓ９１５）、フレームから多数の候補領域を抽出する（Ｓ９１６）。計算機９０１は、得られた各候補領域から第１特徴量を抽出する（Ｓ９１７）。計算機９０１は、シーンチェンジを検出し（Ｓ９１８）、シーン内の候補領域に対して顕著領域判定を行う（Ｓ９１９）。得られた顕著領域に対して第２特徴量を抽出し（Ｓ９２０）、映像データベース１０９に映像、シーン、フレーム、候補領域、顕著領域の情報をそれぞれ関連付けて登録する（Ｓ９２１）。登録対象の全ての映像、フレームの登録が終了すると、計算機９０１はユーザ９００に対して登録処理の終了を通知する（Ｓ９２２）。

　映像検索処理Ｓ９３０は、図７の説明として前述した一連の検索処理に相当する。ユーザ９００が、計算機９０１に対して検索要求を出すと（Ｓ９３１）、計算機９００は、与えられたクエリ画像から第２特徴量を抽出する（Ｓ９３２）。抽出された第２特徴量を用いて映像データベース１０９に対して類似画像検索を行う（Ｓ９３３）。ユーザ９００から、シーン内再検索の要求があった場合、計算機９００は、クエリ画像から第１特徴量を抽出する（Ｓ９３４）。得られた第１特徴量を用いて、ステップＳ９３３で得られた顕著領域に関連する候補領域を対象とした類似画像検索を行う（Ｓ９３５）。この結果を統合し、検索結果の画面を生成し（Ｓ９３６）、ユーザ９００に対して検索結果を提示する（Ｓ９３７）。

　図１１は領域判定部における顕著性判定の処理フローを説明するフローチャートである。以下、図１１の各ステップについて説明する。

　（図１１：ステップＳ１１０１）
顕著領域判定部１０７は、シーン内の候補領域に対してクラスタリング処理を行う。クラスタリング処理には、Ｋ―ｍｅａｎｓクラスタリングなどの既知のアルゴリズムを適用できる。

　（図１１：ステップＳ１１０２）
顕著領域判定部１０７は、ステップＳ１１０２で得られた各クラスタから代表ベクトルを計算する。代表ベクトルには、例えば、クラスタに属する特徴量ベクトルの平均値を用いることができる。

　（図１１：ステップＳ１１０３）
顕著領域判定部１０７は、ステップ１１０２で得られた代表ベクトルを用いて、登録済みのデータに対して類似画像検索をかける。この時、第１特徴量は高速化の前処理を行っていないため、全登録データとの類似度計算が難しい場合がある。そこで、例えば、ランダムサンプリングを行い、所定数の登録データのみと比較する。また、本処理で必要な情報は、類似する登録データの数であるため、例えば、予め特徴量空間を分割しておき、候補領域の第１特徴量を登録する際に、どの部分空間に属するかを判定し、空間に属する候補領域の数をカウントしておく。このカウントを参照するだけで、代表ベクトルに類似する登録済みデータの頻度を求めることができる。

　（図１１：ステップＳ１１０４）
顕著領域判定部１０７は、各代表ベクトルに対して、ステップ１１０１で求めたシーン内の頻度（クラスタのメンバ数）、ステップ１１０３で求めたシーン外頻度（類似度が所定値以上の検索結果数）の比から、顕著性を判定する。顕著性が所定値以上のクラスタに関して、代表ベクトルと最も特徴量の近い候補領域を顕著領域として出力する。

　図１２は、領域の追跡に基づく顕著性判定の説明図である。同一シーン内で時間方向に連続したフレームには、重複した画像情報が含まれる可能性が高い。そこで、フレーム間で、候補領域の対応付けを行うことにより、物体を追跡し、変化のない場合には重複して登録しないように制御する。また、候補領域の移動量を求め、画面全体の動きに対して移動の少ない物体に関しては顕著性が低いと判定し、最小限の領域のみを登録し、逆に相対的な動きの大きい物体に関しては顕著性が高いと判定し、より多くの領域を登録する。

　図１３は、領域の追跡に基づく顕著性判定の処理フローを説明するフローチャートである。以下、図１３の各ステップについて説明する。

　（図１３：ステップＳ１３０１）
　顕著領域判定部１０７は、シーン内の候補領域に対して、隣接フレーム間での対応付けを行う。対応付けには例えば、第１特徴量の類似度を用いても良いし、座標値を用いてもよい。また、オクルージョンなどにより追跡が途切れる場合を考慮して、所定数の欠落フレームを許容した対応付けを行っても良い。

　（図１３：ステップＳ１３０２）
顕著領域判定部１０７は、ステップＳ１３０１によって得られた候補領域の軌跡から、軌跡の継続時間と移動経路、移動量を計算する。

　（図１３：ステップＳ１３０３）
顕著領域判定部１０７は、ステップＳ１３０２で得られた全軌跡の平均移動量を計算し、平均移動量からの差分と継続時間から顕著性を求める。顕著性が所定値以上の軌跡において、１つ以上の候補領域を顕著領域として選択する。例えば、領域のサイズや、エッジの強度、ブレが少ない（移動量の変化の少ないフレーム）、などの情報を用いて軌跡内から候補領域を選択する。

　以上に説明した映像検索装置１０４では、第１特徴量はシーン内の候補領域を分類するために使用される。そのため、シーンの特性に応じて、第１特徴量の抽出アルゴリズムを変えてもよい。例えば、暗所の映像であれば、色の特徴ではなく、形状や動きのみの情報を用いたほうが、シーン内の候補領域を効果的に分類できる。特徴量抽出のアルゴリズム自体を変えなくても、例えば、輝度補正などのパラメータをシーンに応じて変更してもよい。図１４は、シーン判定による第１特徴量の切り替えを表すフローチャートである。以下、図１４の各ステップについて説明する。

　（図１４：ステップＳ１４０１）
映像入力部１０５は、フレームから抽出した画像特徴量を用いて、シーン判別を行う。シーンの種別と、それに対応するパラメータ、第１特徴量の抽出方法はシステム構築時に設定しておく。例えば、以下の通り、形状、色、動きを重視した第１特徴量の抽出処理に分岐する。

　（図１４：ステップＳ１４１１、Ｓ１４１２）
第１特徴量抽出部１０６は、候補領域から形状特徴量を抽出する。顕著領域判定部１０７は、形状に着目した顕著領域判定処理を行う。

　（図１４：ステップＳ１４２１、Ｓ１４２２）
第１特徴量抽出部１０６は、候補領域から色特徴量を抽出する。顕著領域判定部１０７は、色に着目した顕著領域判定処理を行う。

　（図１４：ステップＳ１４３１、Ｓ１４３２）
第１特徴量抽出部１０６は、候補領域から動き特徴量を抽出する。顕著領域判定部１０７は、動きに着目した顕著領域判定処理を行う。
なお、シーン判別を用いて第１特徴量を切り替えた場合、図１０の説明で述べた頻度に基づく顕著性判別におけるシーン外の候補領域は、同一の抽出方法を用いた領域のみが対象となる。

　以上を踏まえ、本実施例に記載の画像検索方法は、複数の画像が入力される第１ステップと、複数の画像から複数の第１領域を抽出し、それぞれの第１領域から第１特徴量を抽出する第２ステップと、複数の画像から抽出した複数の第１特徴量の分布から、出現頻度が低い第１特徴量を選択し、選択した第１特徴量を含む第１領域を第２領域として特定する第３ステップと、第２領域から抽出した第１特徴量と、第２領域と、第２領域を抽出した画像と、を記憶部に記憶する第５ステップと、第２特徴量を用いて検索を行う第６ステップと、を有することを特徴とする。

１００：映像検索システム、１０１：映像記憶装置、１０２：入力装置、１０３：表示装置、１０４：映像検索装置、１０５：映像入力部、１０６：第１特徴量抽出部、１０７：領域判定部、１０８：第２特徴量抽出部、１０９：映像データベース、２０１：プロセッサ、２０２：記憶装置、２０３：処理プログラム、２０４：ネットワークインターフェース装置、８０２：データ登録ボタン、８０３：登録オプション指定領域、８０４：クエリ読み込みボタン、８０５：クエリ画像表示領域、８０６：検索オプション指定領域、８０７：検索ボタン、８０８：検索結果表示領域。

Claims

　複数の画像が入力される入力部と、
　複数の画像から複数の第１領域を抽出し、それぞれの前記第１領域から第１特徴量を抽出する第１抽出部と、
　複数の画像から抽出された複数の前記第１特徴量の分布から、出現頻度が低い前記第１特徴量を選択し、選択した前記第１特徴量を含む前記第１領域を第２領域として特定する領域判定部と、
　前記第２領域から抽出した前記第１特徴量と、前記第２領域と、前記第２領域を抽出した画像と、を記憶する記憶部と、
　前記第１特徴量を用いて検索を行う検索部と、を有することを特徴とする画像検索装置。
　請求項１に記載の画像検索装置であって、
　前記第２領域から第２特徴量として画像特徴量を抽出する第２抽出部を、さらに有し、
　前記記憶部は、前記第２特徴量を記憶し、
　前記検索部は、前記第１特徴量に代えて前記第２特徴量を用いて検索を行うことを特徴とする画像検索装置。
　請求項２に記載の画像検索装置であって、
　前記領域判定部は、時間的に連続する複数の画像から構成されるシーンを検出するシーン検出部、を含み、
　前記領域判定部は、第１シーンに含まれる複数の前記第１領域から抽出した複数の前記第１特徴量である第１シーン画像特徴量と、前記第１シーンとは異なる第２シーンに含まれる複数の前記第１領域から抽出した複数の前記第１画像特徴量である第２シーン特徴量とを比較することにより、前記第２領域を、前記第１シーンの中から特定することを特徴とする画像検索装置。
　請求項２に記載の画像検索装置であって、
　前記領域判定部は、時間的に連続する複数の前記第１領域を検出し、第１特徴量として前記第１領域の移動量を算出する領域追跡部を含み、
　前記領域判定部は、前記第１領域のうち、前記第１領域を含む画像全体の移動量よりも大きい移動量を有する前記第１領域を、前記第２領域として特定することを特徴とする画像検索装置。
　請求項３に記載の画像検索装置であって、
　前記領域判定部は、シーン内の前記第１領域の移動量を算出する領域追跡部と、をさらに含み、
　前記領域判定部は、第１シーンに含まれる前記第１領域の移動量である第１移動量と、前記第１シーンとは異なる第２シーンに含まれる前記第１領域の移動量である第２移動量とを比較することにより、前記第２領域を特定することを特徴とする画像検索装置。
　請求項５に記載の画像検索装置であって、
　前記記憶部はさらに、前記第１移動量を算出するのに用いた複数の前記第１領域のうち、第２領域として特定されなかった前記第１領域を、前記第２領域と対応する第３領域として記憶し、
　前記検索部は、クエリとして入力されたクエリ画像から抽出したクエリ画像特徴量と、前記第３領域から抽出した第３画像特徴量とを用いて検索を行い、
　前記第３画像特徴量は前記第２画像特徴量よりも情報量が少ないことを特徴とする画像検索装置。
　複数の画像が入力される第１ステップと、
　複数の画像から複数の第１領域を抽出し、それぞれの前記第１領域から第１特徴量を抽出する第２ステップと、
　複数の画像から抽出された複数の前記第１特徴量の分布から、出現頻度が低い前記第１特徴量を選択し、選択した前記第１特徴量を含む前記第１領域を第２領域として特定する第３ステップと、
　前記第２領域から抽出した前記第１特徴量と、前記第２領域と、前記第２領域を抽出した画像と、を記憶部に記憶する第４ステップと、
　前記第１特徴量を用いて検索を行う第５ステップと、を有することを特徴とする画像検索方法。
　請求項７に記載の画像検索方法であって、
　前記第２領域から第２特徴量として画像特徴量を抽出する第６ステップを、さらに有し、
　前記第４ステップでは、前記第２特徴量を前記記憶部に記憶し、
　前記第５ステップでは、前記第１特徴量に代えて前記第２特徴量を用いて検索を行うことを特徴とする画像検索装置。
　請求項８に記載の画像検索方法であって、
　前記第３ステップにおける処理状態には、時間的に連続する複数の画像から構成されるシーンを検出する第１処理状態を含み、
　前記第３ステップでは、第１シーンに含まれる複数の前記第１領域から抽出した複数の前記第１特徴量である第１シーン画像特徴量と、前記第１シーンとは異なる第２シーンに含まれる複数の前記第１領域から抽出した複数の前記第１画像特徴量である第２シーン特徴量とを比較することにより、前記第２領域を、前記第１シーンの中から特定することを特徴とする画像検索方法。
　請求項８に記載の画像検索方法であって、
　前記第３ステップにおける処理状態には、時間的に連続する複数の前記第１領域を検出し、第１特徴量として前記第１領域の移動量を算出する第２処理状態を含み、
　前記第３ステップでは、前記第１領域のうち、前記第１領域を含む画像全体の移動量よりも大きい移動量を有する前記第１領域を、前記第２領域として特定することを特徴とする画像検索方法。
　請求項９に記載の画像検索方法であって、
　前記第３ステップにおける処理状態には、シーン内の前記第１領域の移動量を算出する第１処理状態を、さらに含み、
　前記第３ステップでは、第１シーンに含まれる前記第１領域の移動量である第１移動量と、前記第１シーンとは異なる第２シーンに含まれる前記第１領域の移動量である第２移動量とを比較することにより、前記第２領域を特定することを特徴とする画像検索方法。
　請求項１１に記載の画像検索方法であって、
　前記第４ステップではさらに、前記第１移動量を算出するのに用いた複数の前記第１領域のうち、第２領域として特定されなかった前記第１領域を、前記第２領域と対応する第３領域として前記記憶部に記憶し、
　前記第５ステップでは、クエリとして入力されたクエリ画像から抽出したクエリ画像特徴量と、前記第３領域から抽出した第３画像特徴量とを用いて検索を行うことを特徴とする画像検索装置。
　コンピュータに、
　複数の画像を受け取る第１手段と、
　複数の画像から複数の第１領域を抽出し、それぞれの前記第１領域から第１特徴量を抽出する第２手段と、
　複数の画像から抽出した複数の前記第１特徴量の分布から出現頻度が低い前記第１特徴量を選択し、選択した前記第１特徴量を含む前記第１領域を第２領域として特定する第３手段と、
　前記第２領域から抽出した前記第１特徴量と、前記第２領域と、前記第２領域を抽出した画像と、を記憶部に記憶する第４手段と、
　前記第２特徴量を用いて検索を行う第５手段と、を実行させるプログラムが記録されていることを特徴とする情報記録媒体。