JP5774985B2

JP5774985B2 - 画像の類似検索システム及び方法

Info

Publication number: JP5774985B2
Application number: JP2011512422A
Authority: JP
Inventors: ドン−チンチャン; ジョシラジャン; ビー．ベニテスアナ; インルオ; ジュグオ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2008-06-06
Filing date: 2008-06-06
Publication date: 2015-09-09
Anticipated expiration: 2028-06-06
Also published as: EP2300941A1; WO2009148422A1; CA2726037A1; KR101622360B1; US20110085739A1; KR101582142B1; BRPI0822771A2; CN102057371A; KR20150104646A; JP2011523137A; KR20110027666A

Description

本発明は、コンピューターグラフィック処理及び表示システムに関し、特に、画像の類似検索に関する。

クエリ画像に類似する画像の検出及び検索は、実社会における様々なアプリケーションに非常に有益である。本開示で記載される技術は、画像データベースをクエリすることの課題を扱い、好ましくは意味的な水準（つまり、同一のオブジェクト及び背景を含むが、場合により様々なバリエーションを含む画像）でクエリ画像に類似する画像を見つけ出すことである。この課題は、様々なアプリケーションで生じ、例えば、モバイル端末での位置認識サービスであり、ユーザーがランドマークの画像を撮影し、次に、このモバイル端末がユーザーにランドマークの位置と説明を知らせることができる場合である。別のアプリケーションでは、ユーザーが店内で複数の製品の画像を撮影し、次に、このモバイル端末が、異なる小売店で提供される同一の製品を対応する価格でウェブページを返すことができる。著作権侵害の発見において、未許可画像の使用に対してインターネット上を検索することにより、著作権侵害となりうるものを識別することができる。マルチメディアのコンテンツ管理において、複製物及びこれに準じる物は、多数のソースのビデオ、報道及びウェブページにおける記事でのストーリーへのリンクを支援することができる。

本開示で記載される技術は一般画像又はビデオ検索に適用することができるけれども、本発明の開示は、色やテクスチャ（ｔｅｘｔｕｒｅ）等の低水準の特徴に基づく視覚による検索よりも、意味的な水準で画像又はビデオを検索することに焦点をあてる。低水準の特徴に基づく画像又はビデオの検索は十分に研究されており、高効率の検索アルゴリズムが大規模データベースに対して利用可能である。意味的な水準で画像又はビデオを検索することは、上記低水準の特徴の検索よりもはるかに困難なものである。その理由は、画像又はビデオに含まれるオブジェクトの比較が含まれるからである。上述のアプリケーション等、多くの実社会のアプリケーションにとって、低水準特徴型検索は、一般に、異なるオブジェクトを含む画像が類似の色又はテクスチャを有さないので十分ではない。

意味的なレベルでの画像又はビデオ検索は、画像内のオブジェクトの比較を要求する。この趣旨において定義される類似画像は、同一のオブジェクト及び背景を含むべきものであるが、オブジェクト動作、明暗の変化等のいくつかの変更を有しうる。課題は、非常に困難なものであり、なぜならば、コンピューターや計算装置等にとって意味的な水準で画像を理解し又は表現することが困難だからである。意味的な水準で画像及びビデオの検索を実行するいくつかの初期の研究が存在した。例えば、D. Q. Zhang 及びS. F. Chang著の「Detecting Image Near-Duplicate by Stochastic Attributed Relational Graph Matching with Learning」２００４年１０月、ACM Multimedia（米国ニューヨーク）には、機械学習法を用いて精密近似複製検出及び検索する部分型類似測定が記載されている。Zhang等により述べられる類似測定は、画像内のオブジェクト同士を実際に比較して、高精度な結果を得ることができる。しかし、本方法は、低水準特徴（例えば、色ヒストグラム）を用いる従来の検索方法と比較してとても遅く、また、実社会のアプリケーションに適用するのが困難である。

従って、意味的な水準で画像を効果的に検索するための技術に対するニーズが存在する。

分類構造で効果的に画像の意味類似検索をするためのシステム及び方法が提供される。本システム及び方法は、画像データベースをクエリして、意味的な水準、つまりクエリ画像と同じオブジェクト及び背景を含み、いくつかの変形を持つ画像であって、クエリ画像に類似するものを発見することを可能にする。本開示の技術は、ある特定のクラス又はカテゴリー内の画像の意味類似検索を制限することにより、類似性計算を大幅に減少させる。まず、データベース内の全ての画像に対して分類検索ツリーが構築される。次に、入力クエリ画像それぞれに対して、クエリ画像が１又は複数のカテゴリー（通常、人々、屋内、屋外等の意味カテゴリー）に分類される。カテゴリーは、全体の画像空間、つまり複数の画像のデータベースのサブセットを表す。画像類似性計算は、次に、サブセット内に限定される。

本開示の１つの態様に従って、関心画像に関して、複数の画像を検索する方法が提供される。本方法は、複数の画像に対して分類構造を構築する。分類構造は、少なくとも２つの画像カテゴリーを含み、画像カテゴリーのそれぞれは複数の画像のサブセットを表す。そして、本方法は、次に、クエリ画像を受信して、少なくとも２つの画像カテゴリーのうちの選択された１つに対して、関心画像に対する検索を制限する。

別の態様に従って、関心画像に関して、複数の画像を検索するシステムは、少なくとも２つの意味カテゴリーに構造化される複数の画像を含むデータベースを含む。各意味カテゴリーは、複数の画像のサブセットを表す。また、本システムは、少なくとも１つの画像を取得する手段と、クエリ画像を分類して少なくとも２つの意味カテゴリーのうちの１つを選択する画像分類モジュールと、クエリ画像を用いて関心画像を検索する画像検索モジュールとを含み、検索が、少なくとも２つの意味カテゴリーのうちの選択された１つに制限されることを特徴とする。

さらに別の態様に従って、機械により実行可能なプロラム命令を明確に実行して、関心画像に関して、複数の画像を検索する複数のステップを実行するための機械可読プログラム媒体装置が提供される。本方法は、複数の画像に対して分類構造を構築することを含む。分類構造は、少なくとも２つの画像カテゴリーを含み、画像カテゴリーのそれぞれは、複数の画像のサブセットを表す。また、本方法は、クエリ画像を受信し、クエリ画像を少なくとも２つの画像カテゴリーのうちの選択された１つに分類し、関心画像に対する検索を少なくとも２つの画像カテゴリーのうちの選択された１つに制限する。

図面において同じ参照番号は、全体の一覧において類似の要素を示す。
図１は、本開示の態様に従う画像の類似検索のためのシステムの例示的な図である。図２は、本開示の態様に従う画像の類似検索のための例示的な方法のフロー図である。図３は、本開示に従う分類検索ツリーを示す。図４は、本開示に従う分類検索ツリーにおいて実行される単純検索を示す。図５は、本開示に従う分類検索ツリーにおいて実行される冗長検索を示す。図６は、本開示の態様に従う分類検索ツリーを構築又は生成するための方法を示す。図７は、タグ付けされたキーワードを持つ画像に関する特徴ベクトルを示す。図８は、本開示の態様に従う分類検索データベースに新しい画像を追加するための方法を示す。

本開示によるこれら及び他の態様、特徴、及び利点が説明され、又は添付の図面と関連して参照されることにより好適な実施形態における詳細な説明から明確なものになる。

図に示す各要素は、ハードウェア、ソフトフェア、またはその組み合わせによる様々な形態で実施されうることが理解されよう。これら各要素は、ハードウェアと、適切にプログラムされた１以上の汎用デバイスであって、プロセッサー、メモリー、入出力インターフェースを含むことが可能な汎用デバイス上のソフトウェアと、を組み合わせて実施される。

本明細書の記載は、本開示による原則を示す。したがって、ここで明確に記載又は示されていなくとも、当業者であれば、本開示による原則を具現化し、そしてその主旨および範囲内に含まれる様々な配置を考案できることが理解されよう。

ここに列挙される全ての例及び条件付の用語は、本開示による原則と、技術促進への寄与に向けられた発明者による概念と、を読み手が理解するのを支援する教育的目的を意図するものであり、また、この特別に列挙された例及び条件に限定されることなしに解釈されるものである。

さらに、ここで、本開示による原則、態様、実施形態及びその特定の例を列挙している全ての記載は、構造的及び機能的な均等物の双方を包含することを目的とする。また、これら均等物は、現在公知の均等物及び将来開発される均等物、つまり構造に関係なく、同一の機能を発揮するように開発されたいかなる要素をも含むように意図される。

したがって、例えば、ここで示されるブロック図は、本開示による原則を具現化する図示による概念的回路を表すことを当業者に理解されよう。同様に、いかなるフローチャート、フロー図、状態遷移図、及び擬似コード等は、実質的にコンピューター可読媒体に表され、また、コンピューター又はプロセッサーが明示されていてもいなくても、コンピューター又はプロセッサーにより実行される様々な処理を示す。

図に示す様々な要素による機能は、専用ハードウェア及び最適なソフトウェアと共同してソフトウェアを実行することができるハードウェアの利用により提供可能である。プロセッサーにより提供される場合、単一の専用プロセッサー、単一の共有プロセッサー、又は複数の単一プロセッサー（幾分かは共有可能）により、提供可能である。さらに、語句「プロセッサー」又は「コントローラー」のような明示的使用は、専らソフトウェア実行可能なハードウェアのみに言及されていると解釈されるべきではなく、限定することなく、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）ハードウェア、ソフトウェアを格納するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、及び不揮発性記憶を含むことが可能である。

他の従来型またはカスタムハードウェアもまた含まれる。同様に、図に示す任意のスイッチは単に概念的なものである。それらの機能は、専用ロジック、制御プログラム及び専用ロジックの相互作用による論理プログラムの動作、または手動により実行可能であり、特定の技術は、文脈によりとりわけ理解されるような実行機により選択される。

特許請求の範囲に関し、特定の機能を実施する手段として表現されたいかなる要素も、例えば、ａ）当該機能を実行する回路素子の組み合わせ、又はｂ）当該機能を実行するソフトウェアを実行する適切な回路と結合される、ファームウェア、マイクロコード等を含任意の形態のソフトウェア、を含む機能を実行する任意の方法を包含するものである。この特許請求の範囲により定義される本開示は、列挙された様々な手段により提供される機能が結合され、そして特許請求の範囲に記載された方法において当該機能が共に実行されることを含む。したがって、これら機能を提供することが可能な手段は、本明細書に示すものと等しいとみなすことができる。

クエリ画像に類似する画像の検出及び検索は、実社会における様々なアプリケーションに非常に有用である。課題は、クエリ画像に意味的な基準で類似する画像（つまり、同一のシーンにおいて撮影されたもの、及び同一の対象を有するもの）を効果的に発見することである。いくつかの従来の技術では、低速で意味画像検索する高精度アルゴリズムが提案されている。効率に関する課題は、画像データベースが巨大である場合に特に重要である。通常、画像データベースを検索する時間は、データベースの大きさに直線的に比例する。本開示によるシステム及び方法は、画像データベース構造及び画像の意味を利用することにより、検索を高速化する。

階層処理により画像またはビデオを効果的に検索するためのシステム及び方法が提供される。高品質画像／ビデオ類似アルゴリズム又は関数がすでに利用可能であると仮定すれば、アルゴリズムのスピードは、従来の特徴型の類似性計算アルゴリズムよりも低速である。したがって、本開示によるシステム及び方法は、画像またはビデオデータベースを意味検索することを加速する高速化処理を提供する。省略を目的として、本開示は、ビデオつまり連続する画像にも適用可能であるが、画像検索に焦点をあてることとする。このシステム及び方法は、画像のコンテンツ空間（ｃｏｎｔｅｎｔｓｐａｃｅ）の構造を利用することにより、検索アルゴリズムを高速化する。本開示による技術は、特定のクラス又はカテゴリーの範囲内で画像の視覚類似検索を制限して、類似性計算を大幅に削減する。最初に、分類構造が、分類ツリーに限定されないが、データベースの全ての画像に対して構築される。次に、各入力クエリ画像に対して、全体の画像空間のサブセットを表す１以上のカテゴリー（典型的に意味カテゴリーは、人々、屋内、屋外等である）に画像が分類される。画像の類似性計算は次に、当該サブセット内で制限される。

ここで、各図面を参照すると、図1には、本開示による実施形態に従う例示のシステムコンポーネント１００が記載されている。スキャン装置１０３は、フィルムプリント１０４をスキャンするものであり、例えば、カメラフィルムのネガを、デジタルフォーマット例えば、Ｃｉｎｅｏｎ−ｆｏｒｍａｔまたはＳＭＰＴＥ（ＳｏｃｉｅｔｙｏｆＭｏｔｉｏｎＰｉｃｔｕｒｅａｎｄＴｅｌｅｖｉｓｉｏｎＥｎｇｉｎｅｅｒｓ）のＤＰＸ（ＤｉｇｉｔａｌＰｉｃｔｕｒｅＥｘｃｈａｎｇｅ）のファイルにする。スキャン装置１０３は、テレシネ（ｔｅｌｅｃｉｎｅ）装置、又はビデオ出力するＡｒｒｉＬｏｃＰｒｏ（登録商標）のようなフィルムからのビデオ出力を生成しうる装置を含むことができる。または、ポスト生成プロセス又はデジタルシネマ１０６（例えば、コンピューター可読形態のファイル）からのファイルを直接に用いることができる。コンピューター可読ファイルのソースには、ＡＶＩＤ（登録商標）エディター、ＤＰＸファイル、Ｄ５テープとすることができる。

デジタル画像またはスキャンされたフィルムプリントは、コンピューター等の後処理装置１０２に入力される。このコンピューターは、１以上の中央処理装置（ＣＰＵ）、ＲＡＭやＲＯＭ等のメモリー１１０、キーボード、カーソル制御装置（例えば、マウスやジョイスティック）、及びディスプレイ装置等の入出力（Ｉ／Ｏ）ユーザーインターフェース１１２等のハードウェアを有する公知の様々な任意のコンピューターフォーム上で実施される。このコンピュータープラットフォームは、オペレーティングシステムやマイクロインストラクションコードをもまた含む。ここに記載される様々な処理や機能は、マイクロインストラクションコードの一部とすること、またはオペレーティングシステムを介して実行されるソフトウェアアプリケーションの一部（または、これらの組み合わせ）とすることができる。１つの実施形態において、ソフトウェアアプリケーションプログラムは、プログラム記憶装置上で明確に具現化される。このソフトウェアアプリケーションプログラムは、アップロード可能であり、また、後処理装置１０２のような任意の適切な装置によって実行される。また、様々なインターフェースや、パラレルポート、シリアルポート、又はＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のバス構造により、他の様々な周辺装置を、このコンピュータープラットフォームに接続することができる。他の周辺装置は、追加の記憶装置１２４およびプリンター１２８を含むことができる。

また、コンピューター可読形態１０６（例えば、外部ハードドライブ１２４に格納可能なデジタルシネマ）におけるファイル／フィルムプリントは、コンピューター１０２に直接入力される。

ソフトウェアプログラムは、メモリー１１０に格納される類似検索モジュール１１４を含み、クエリ画像に基づいて関心画像を効率よく検索する。類似検索モジュール１１４はさらに画像分類モジュール１１６を含み、画像分類モジュール１１６は、複数の分類器（ｃｌａｓｓｉｆｉｅｒ）及びサブ分類器を生成して、クエリ画像を少なくとも１つのカテゴリーに分類する。特徴抽出部１１８は、画像から特徴を抽出する。特徴抽出部は、当業者に既知のものであり、テクスチャ、線方向、エッジ等の特徴を抽出するが、これに限定されない。1つの実施形態において、分類器は、抽出された特徴に基づいて、クエリ画像を分類するパターン認識関数を含む。

類似検索モジュール１１４はさらに、画像データベース１２２の画像サブセットをそれぞれ検索するように構成された画像検索部を複数含む画像検索モジュール１１９を含む。各画像検索部は、類似測定を用いて、クエリ画像から関心画像を決定する。

キーワードタグ付け部１２０は、データベースの各画像に特徴をタグ付けする。１つの実施形態において、キーワードタグ付け部１２０はＮキーワードの辞書を含み、キーワードタグ付け部１２０はキーワードから特徴ベクトルを生成するために用いられる。タグ付けされる特徴は、画像を複数のサブセットに格納するために用いることができる。さらに、１つの実施形態において、画像分類モジュール１１６は、キーワードを用いて分類器を生成する。

さらに、類似検索モジュール１１４は、データベース中の画像においてオブジェクト（対象）を認識するためのオブジェクト認識部１２１を含む。認識されたオブジェクトを用いることにより、画像分類モジュール１１６は、当該オブジェクトから学習し、また、当該オブジェクトに基づいて分類器を構築することができる。

図２は、本発明の開示による態様に従う、これに限定されるものではないが、分類検索ツリー等の分類データ構造を用いた画像の類似検索のための例示的方法のフロー図である。まず、ステップ２０２において、以下に詳細に説明する分類検索ツリーが構築される。次に、ステップ２０４において、後処理装置１０２は、少なくとも１つの２次元（２Ｄ）画像、例えばクエリ画像を取得する。後処理装置１０２は、例えば民生用カメラを介して、コンピューター可読フォーマットにおけるデジタル画像ファイルを得ることにより、クエリ画像を取得することができる。本開示による技術は画像に関して記載されているけれども、連続する画像、例えばビデオ等の動画も、本開示による技術を利用することができる。デジタルビデオファイルは、デジタルカメラで一時的な一連の動画をキャプチャすることにより取得することができる。または、通常のフィルムタイプカメラにより、ビデオシーケンスをキャプチャすることができる。この場合、当該フィルムは、スキャン装置１０３を介してスキャンされる。ステップ２０６において、クエリ画像は、分類器により分類されて、続けて、ツリーのより低位の最下層または枝に到達するまで、ステップ２０８においてサブ分類器により分類される。ステップ２１０において、全体の画像空間またはデータベースに対するよりもむしろデータベース１２２の画像サブセットの範囲内で検索部による検索が実行される。分類検索ツリーの構築または生成、及びツリー内の検索の詳細は、以下に記載する。

本開示によるシステム及び方法は、ツリー型検索を採用してデータベースの小サブセット内の画像比較を制限する。ツリー型検索は、以下に記載の画像分類に基づいている。分類ツリーは、自動的に又は手動で画像にキーワードをタグ付けすることにより構築される。

本開示によるシステム及び方法は、分類検索ツリーの枝に沿うようにして関心画像の検索を制限することにより、検索処理を高速化する。検索の実行において、高精度類似測定値Ｓ（Ｉ_ｑ,Ｉ_ｄ）が利用されることが想定され、ここでＩ_ｑは、クエリ画像であり、Ｉ_ｄはデータベース中の画像である。類似測定値は、２つの画像の類似性を示す数であり、例えば、１．０は２つの画像が同一であることを意味し、０．０は２つの画像が完全に異なることを意味する。通常、距離が類似の逆数として考慮される。類似の１つの例は、２つの画像の色ダイアグラムの距離の逆数である。類似測定は、当業者に知られているものであり、また、画像の類似測定値は、ある画像カテゴリーに対して「学習可能」であり、当該カテゴリー内で類似検索が最適されうる。この類似測定が、ある画像カテゴリーに対して手動で設計されることもありうる。いずれの場合にも、類似測定が画像カテゴリーＣに適用され、Ｓ_Ｃ（Ｉ_ｑ,Ｉ_ｄ）として表される。

分類検索ツリーは、当該ツリーにおける各中間ノードが分類器を用いて画像における１つ以上のカテゴリーを検出し又は分類するためのツリーである。ツリーにおける各枝は、カテゴリーを表す。検出されたカテゴリーの枝のみが、次に、ツリーにトラバースされる。図３に示すように、ツリー中の各リーフノード３０２、３０４、３０６、３０８、３１０は、特定のカテゴリーに対応する画像を表す。分類検索ツリーは、複数の層及びレベルを有することができる。例えば、図３におけるツリーは、３つのレベルを有する。さらに、図３に示すように、分類検索ツリーは分類器及び検索器を含む。

分類器は、クエリ画像をカテゴリーに分類するために用いられる。１つの実施形態において、分類器は、パターン認識、又は装置学習アルゴリズム、又は例えばカラー及びテクスチャ等の自動的に抽出された特徴に基づく関数である。分類の一般的な手順は次の通りである。まず、特徴ベクトルが画像から抽出され、次に、パターン認識アルゴリズム又は関数が特徴ベクトルを取得して、１以上のクラスラベルを、１以上のある画像カテゴリーを表す選択信頼性スコア（例えば、クラスＩＤ及びスコア）とともに出力する。一般に、パターン認識アルゴリズムは、入力として特徴ベクトルを取得し、クラスＩＤを示す整数を出力し、あるいは、パターン認識関数は、抽出されたベクトルを記憶されるベクトルと比較する。他のパターン認識アルゴリズムまたは関数が当業者に知られている。分類器はまた、２値とすることができる。この場合、分類器は、画像がそれぞれあるカテゴリーに属するかどうかを示すｙｅｓラベル又はｎｏラベルを出力する。分類器は、手動による設計又は例示的データから自動的に構築することができる。

検索器は、画像の類似性を計算し、クエリ画像に最も類似する関心画像を発見するために用いられるプログラムである。

簡単な分類検索の場合、クエリ画像が１つに分類され、リーフカテゴリーがカテゴリーＣならば、各レベルで１つのカテゴリーのみとなる。分類の終了後、すなわち、クエリ画像が分類検索ツリーの底（リーフ層）に到達した後、類似測定値Ｓ_Ｃ（Ｉ_ｑ,Ｉ_ｄ）計算が実行されて、図４に示すように、画像カテゴリーＣに相当するデータベースのサブセットの範囲内にある画像を検索する。図４及び残りの図において、検索中にトラバースされる枝又はリーフノードを実線で示し、トラバースされない分類器及び検索器を破線で示す。例えば、図４において、クエリ画像が受信され、分類器０に出力される。分類器０において、この画像が、例えばサブ分類器である分類器０．１でさらに分類されるかが決定される。分類器０．１から、クエリ画像が分類器０．１．１に出力され、ここで、画像サブセット０．１．１．２に、クエリ画像に類似する画像を検索するために検索器０．１．１．２を用いるかどうかが判定される。関心画像の検索を画像サブセット０．１．１．２に制限することにより、検索がより効率よく、かつ早急に実行されることが理解されよう。

この場合、分類器の出力は、２値またはｎ変数にすることができる。２値分類器の場合、この分類器の出力は、カテゴリーに属するクエリ画像であるか否かを示す。同様に、ｎ変数の分類器の場合、この分類器の出力は、クエリ画像がどのカテゴリーに属するかを示す整数値にできる。分類検索ツリーにおいて分類器の全てが２値である場合、ツリーは２値ツリーであり、そうでなければ、非２値分類検索器でありうる。

簡単な分類検索の１つの課題は、分類に誤りがあった場合にクエリ画像が完全に間違ったカテゴリーに進み、結果として誤った検索結果となりうることである。この課題は、１つのカテゴリーよりもむしろ複数のカテゴリーが検索されるようにする冗長な検索により解決することができる。

図５を参照すると、冗長な分類検索の場合において、クエリ画像は、例えば、分類器０．１及び分類器０．２といった１以上のリーフカテゴリーに分類される。分類の終了後、すなわち、クエリ画像が分類検索ツリーの底（リーフ層）における各自のカテゴリー、例えば分類器０．１．１及び分類器０．２に到達した後、類似測定値Ｓ_Ｃ（Ｉ_ｑ,Ｉ_ｄ）計算が実行され、例えば図５に示すように、検索器０．１．１．２が画像サブセット０．１．１．２を検索し、また検索器０．２．１が画像サブセット０．２．１を検索するようにして、選択された画像カテゴリーCに相当するデータベースのサブセットの範囲内で画像を検索する。

冗長な分類検索を実現するために、分類器の出力は、クラスラベルのリスト、及びクエリ画像において存在するカテゴリーに相当する信頼性を表す浮動値のリストである必要がある。次に、閾値化手順が用いられて、分類器の出力が閾値よりも大きなカテゴリーのリストを得ることができる。クエリ画像は、結果として得られるカテゴリーのリストに属するようにされる。ツリーの底のレベルに到着後、カテゴリーのリストからの各画像に対する類似性スコアが決定されて、次に、最大の類似性スコアをもつ画像が関心画像として選択される。

画像に対して効率的な検索を可能にするために、分類検索ツリーが構築されて、画像空間を構造化して、毎回全ての画像が検索されないようにする。図６を参照すると、分類検索ツリーを構築することまたは生成することは、２つの段階を含んでいる。第１の段階において、ツリーの全ての枝が構築され、この際に、分類検索ツリーが複数の層を有する場合、全ての分類器を構築してツリーに分類器を編成する。第２の段階において、データベース中の画像がカテゴリーに分類されて、データベース中に画像のサブセットを形成する。さらに検索器が、画像のサブセットのそれぞれの範囲内を検索するために定義される。

分類検索ツリーを構築するために、ツリー中の中間ノードの分類器が最初に構築されなければならない。各分類器は、１つの意味クラス（例えば、屋外シーン、木、人間の顔等）に相当する。この意味クラスは、人間により手動で決定することも、また、自動的にクラスタリング関数又はアルゴリズムを用いることもできる。分類器同士の間（つまり、ツリー構造）の関係は、人間の設計により定義することができる。

ひとたび意味クラスが定義されれば、意味分類器が、中間ノード、例えば、サブ分類器３０４、３０６、３０８、３１０に対して構築される。各分類器又はサブ分類器は、１つずつ、異なる手順で構築することができる。１つの実施形態において、「包括的な」分類器が提供されて、次に、「包括的な」分類器は、各画像カテゴリーの例示的画像から学習する。この手順は、本開示によるシステム及び方法が、特別に各分類器を設計することなくたくさんの意味分類器を構築できるようにしている。この形式の分類器は、学習型シーン（ｌｅａｒｎｉｎｇ−ｂａｓｅｄｓｃｅｎｅ）又はオブジェクト認識と呼ばれる。例示の学習型シーン又はオブジェクト認識は、R. Fergus, P. Perona, and A. Zissermanによる、Object Class Recognition by Unsupervised Scale-Invariant Learning", Proc. of the IEEE Conf on Computer Vision and Pattern Recognition 2003に開示されている。Fergusらの論文において、スケールが不変の方法で、ラベル付けされていないかつセグメント化されていない散乱したシーンから学習し、オブジェクトクラスモデルを認識する方法が記載されている。この方法において、オブジェクトは、パーツのフレキシブルな集合としてモデル化される。確率的表現が、全てのオブジェクトの態様、形態、外観、閉鎖及び相対スケールに対して用いられる。エントロピー型特徴検出器は、画像内の領域およびスケールを選択するために用いられる。学習において、スケール不変のオブジェクトモデルが評価される。これは、最大尤度設定における期待値最大化を用いることにより行われる。認識において、この方法は、画像を分類するためにベイシアン方に用いられている。

分類器を定義し、構築する別の方法は、画像ユーザーによる「キーワードタグ付け」を用いることである。「キーワードタグ付け」に関し、画像ユーザーは、手動で「木」「顔」「青空」等のキーワードを画像に割り当てる。これら手動によりタグ付けされたキーワードは、画像の特徴の種類が考慮されており、したがって、分類を目的として用いることができる。例えば、キーワードスポット分類器が構築されて、ひとたび分類器があるキーワードを発見すると、画像をあるクラスに分類することができる。より高性能に、タグ付けされたキーワードは、ある種の特徴として取り扱われ、特徴ベクトルに変換される。これは、「ｔｅｒｍｖｅｃｔｏｒ」（タームベクトル）と呼ばれるイメージ検索に用いられる技術により実現される。基本的に、Ｎキーワードをもつ辞書が構築されて、そしてキーワードがタグ付けされた各画像に対してＮ次元のキーワード特徴ベクトルが画像に割り当てられる。画像が辞書におけるｉ番目のキーワードでタグ付けされた場合、次に、タームベクトルのｉ番目の要素に１が割り当てられ、もしくは０が割り当てられる。結果として、各画像に関するタームベクトルが提供されて、画像の意味を表すこととなる。このタームベクトルは、上述の特徴ベクトルで連結することができ、図７に示すように画像分類のための新たな特徴ベクトルを形成する。

各画像のサブセットに関し、画像検索器が手動で設計されるか、又は学習される。画像検索器は、データベースのサブセット内で類似検索を実行するために用いられる。

分類器が定義され構築された後に、データベースにおける各画像がサブセットに分類される。画像のサブセットを構築する方法は、分類−検索処理に非常に類似している。画像がデータベースに入力された場合、図８に示すように底レベルの分類器の１つに相当する画像プールに画像が置かれる分類ツリーの底レベルに到達するまで、分類ツリーに自動的に分類される。

潜在的な課題は、画像が２以上のオブジェクトを含むことであり、例えば、人々と木とを含むような画像である。例えば、「人々」と「木」のように、分類ツリーに２つの意味クラスがある場合、画像を１つのクラスに分類するのに曖昧さが存在しうる。この課題は、上述の冗長分類により解決することができる。すなわち、入力画像は、２つのサブセットに分類される。

本開示による教唆を組み込んだ実施形態が、ここで詳細に説明されているけれども、当業者であれば、これら教唆をやはり組み込んだ他の様々な多くの実施形態をたやすく考案できる。分類検索ツリーで画像を効率よく意味類似検索するシステム及び方法の好適な実施形態を記載したことは（説明したものに限られないが）、上述の教唆に照らし合わせて、当業者により修正及び変形が可能であることに留意されたい。したがって、添付の特許請求の範囲により説明される開示の範囲内で、開示された開示の特定の実施形態において変更可能であることが理解されよう。
付記１
関心画像に関して、複数の画像を検索する方法であって、
前記複数の画像のサブセットを表す画像カテゴリーを少なくとも２つ含む分類構造を、前記複数の画像に対して構築するステップと、
クエリ画像を受信するステップと、
前記少なくとも２つの画像カテゴリーのうちの１つを選択するための前記クエリ画像を分類するステップと、
前記関心画像の画像に関して、前記少なくとも２つの画像カテゴリーのうちの選択された１つへの検索を制限するステップと
を備えることを特徴とする方法。
付記２
前記分類構造は、意味分類検索ツリーであることを特徴とする付記１に記載の方法。
付記３
前記クエリ画像を分類するステップは、
前記クエリ画像から特徴を抽出するステップと、
抽出された特徴に基づいて前記少なくとも２つの画像カテゴリーのうちの１つを特定するステップと
を含むことを特徴とする付記１に記載の方法。
付記４
前記クエリ画像を分類するステップは、パターン認識関数により実行されることを特徴とする付記１に記載の方法。
付記５
前記分類構造を構築するステップは、それぞれの前記画像カテゴリーに関する分類器を決定するステップを含み、
前記分類器は、前記少なくとも２つの画像カテゴリーの１つに画像を分類する
ことを特徴とする付記１に記載の方法。
付記６
前記分類器を決定するステップは、クラスタリング関数を前記複数の画像に用いることにより実行されることを特徴とする付記５に記載の方法。
付記７
決定された前記分類器のそれぞれに対して少なくとも１つのサブ分類器を決定するステップをさらに含むことを特徴とする付記５に記載の方法。
付記８
決定された前記分類器に基づいて前記複数の画像のそれぞれを分類するステップと、
前記複数の画像のそれぞれを、前記複数の画像のサブセットのうちの少なくとも１つに格納するステップと
をさらに含むことを特徴とする付記５に記載の方法。
付記９
前記分類構造を構築するステップは、
前記複数の画像の各画像に、特徴キーワードをタグ付けするステップと、
前記複数の画像のそれぞれを、前記特徴キーワードに基づいて前記複数の画像のサブセットのうちの少なくとも１つに格納するステップと
を含むことを特徴とする付記１に記載の方法。
付記１０
前記特徴キーワードに基づく画像カテゴリーのそれぞれに対する分類器を決定するステップをさらに含むことを特徴とする付記９に記載の方法。
付記１１
前記分類構造を構築するステップは、
前記少なくとも２つの画像カテゴリーの前記複数の画像のそれぞれからオブジェクトを認識するステップと、
各画像の前記認識されたオブジェクトに基づいて画像カテゴリーのそれぞれに対する分類器を決定するステップと、
をさらに含み、
前記分類器は、前記少なくとも２つのカテゴリーのうちの１つに画像を分類する
ことを特徴とする付記１に記載の方法。
付記１２
前記関心画像に対する前記検索は、類似性測定により実行されることを特徴とする付記１に記載の方法。
付記１３
前記少なくとも２つの画像カテゴリーのうちの少なくとも２つに前記クエリ画像を分類するステップと、
前記少なくとも２つの画像カテゴリー内の前記クエリ画像を用いて前記関心画像を検索するステップと、
前記少なくとも２つのカテゴリーのそれぞれの中で発見された画像のそれぞれに対して類似性スコアを決定し、
最高の前記類似性スコアをもつ前記画像を前記関心画像として選択するステップと
をさらに含むことを特徴とする付記１に記載の方法。
付記１４
関心画像に関して、複数の画像を検索するシステムであって、
前記複数の画像のサブセットを表す画像意味カテゴリーの少なくとも２つに構造化される前記複数の画像を含むデータベースと、
少なくとも１つのクエリ画像を取得する手段と、
前記クエリ画像を分類して、少なくとも２つの前記画像意味カテゴリーのうちの１つを選択する画像分類モジュールと、
前記クエリ画像を用いて前記関心画像を検索する画像検索モジュールと、
を備え、
前記検索は、少なくとも２つの前記画像意味カテゴリーのうちの選択された１つに制限される
ことを特徴とするシステム。
付記１５
前記クエリ画像から特徴を抽出する特徴抽出部をさらに備え、前記画像分類モジュールは、前記抽出された特徴に基づいて少なくとも２つの前記画像意味カテゴリーのうちの１つを決定することを特徴とする付記１４に記載のシステム。
付記１６
前記画像分類モジュールは、パターン認識関数を含むことを特徴とする付記１４に記載のシステム。
付記１７
前記画像意味カテゴリーのそれぞれに関する分類器を含む意味分類検索ツリーを構築す
る手段をさらに備え、前記分類器は、少なくとも２つの前記画像意味カテゴリーのうちの
１つに画像を分類することを特徴とする付記１４に記載のシステム。
付記１８
前記画像分類モジュールは、クラスタリング関数を前記複数の画像に適用することにより前記分類器を決定することを特徴とする付記１７に記載のシステム。
付記１９
前記画像分類モジュールは、決定された分類器それぞれに対してサブ分類器を決定することを特徴とする付記１７に記載のシステム。
付記２０
前記画像分類モジュールは、前記決定された分類器に基づいて前記複数の画像のそれぞれを分類し、かつ、前記複数の画像のそれぞれを前記データベース内の前記複数画像のサブセットに格納することを特徴とする付記１７に記載のシステム。
付記２１
前記複数の画像の各画像に特徴キーワードをタグ付けし、かつ、前記特徴キーワードに基づいて前記データベースの前記複数の画像のサブセットに前記複数の画像のそれぞれを格納するキーワードタグ付け部をさらに備えることを特徴とする付記１７に記載のシステム。
付記２２
前記画像分類モジュールは、前記特徴キーワードに基づいて前記画像意味カテゴリーの
それぞれに対して前記分類器を決定することを特徴とする付記２１に記載のシステム。
付記２３
少なくとも２つの画像意味カテゴリーの前記複数の画像のそれぞれからオブジェクトを識別するオブジェクト識別部をさらに備え、前記画像分類モジュールは、各画像の前記認識されたオブジェクトに基づいて画像意味カテゴリーに対する分類器を決定することを特徴とする付記１７に記載のシステム。
付記２４
前記画像検索モジュールは、類似測定を含むことを特徴とする付記１４に記載のシステム。
付記２５
前記画像分類モジュールは、前記クエリ画像を少なくとも２つの前記画像意味カテゴリーのうちの少なくとも２つに分類し、前記画像検索モジュールは、前記クエリ画像を用いて、少なくとも２つの前記画像意味カテゴリーにおいて前記関心画像を検索し、少なくとも２つの前記画像意味カテゴリーのそれぞれにおいて発見された各画像について類似性スコアを決定し、最高の前記類似性スコアを持つ前記画像を前記関心画像として選択することを特徴とする付記１４に記載のシステム。
付記２６
関心画像に関して複数の画像を検索する複数の方法ステップを実行するために機械により実行可能なプロラム命令を明確に実行する機械可読可能なプログラム記憶装置であって、
前記方法は、
前記複数の画像のサブセットを表す画像カテゴリーを少なくとも２つ含む分類構造を、前記複数の画像に対して構築するステップと、
クエリ画像を受信するステップと、
前記クエリ画像を分類して、少なくとも２つの画像カテゴリーのうちの１つを選択するステップと、
前記関心画像に対する前記検索を前記少なくとも２つの画像カテゴリーのうちの選択された１つに制限するステップと、
を備えることを特徴とする方法。

Claims

関心画像に関して、情報処理装置によって実施される複数の画像を検索する方法であって、
それぞれが前記複数の画像のサブセットを表す画像カテゴリーを少なくとも２つ含む分類構造を、前記複数の画像に対して構築するステップであって、前記分類構造を構築するステップは、前記少なくとも２つの画像カテゴリーのうちの前記複数の画像のそれぞれからオブジェクトを認識するステップと、それぞれの画像の前記認識されたオブジェクトに基づいて、それぞれの画像カテゴリーに関する分類器であって、前記少なくとも２つの画像カテゴリーの１つに画像を分類する前記分類器を決定するステップをさらに含む、前記構築するステップと、
クエリ画像を受信するステップと、
前記少なくとも２つの画像カテゴリーのうちの少なくとも２つにおいて、前記クエリ画像を分類するステップと、
前記クエリ画像を用いて前記少なくとも２つの画像カテゴリーにおける前記認識されたオブジェクトの分類に基づいて前記関心画像を検索するステップと、
前記少なくとも２つのカテゴリーのそれぞれにおいて見つけられた各画像に対して、類似スコアを決定するステップと、
最高の前記類似スコアを持つ前記画像を、前記関心画像として選択するステップと
を備える、前記方法。
前記分類構造は、意味分類検索ツリーである、請求項１に記載の方法。
前記クエリ画像を分類するステップは、
前記クエリ画像から特徴を抽出するステップと、
前記抽出された特徴に基づいて前記少なくとも２つの画像カテゴリーのうちの１つを特定するステップと
を含む、請求項１に記載の方法。
前記クエリ画像を分類するステップは、パターン認識関数により実行される、請求項１に記載の方法。
前記分類構造を構築するステップは、前記複数の画像にクラスタリング機能を適用することにより、それぞれの前記画像カテゴリーに関する分類器を決定するステップを含み、
前記分類器は、前記少なくとも２つの画像カテゴリーの１つに画像を分類する、
請求項１に記載の方法。
決定された前記分類器のそれぞれに対して少なくとも１つのサブ分類器を決定するステップをさらに含む、請求項５に記載の方法。
決定された前記分類器に基づいて前記複数の画像のそれぞれを分類するステップと、
前記複数の画像のそれぞれを、前記複数の画像のサブセットのうちの少なくとも１つに格納するステップと
をさらに含む、請求項５に記載の方法。
前記分類構造を構築するステップは、
前記複数の画像の各画像に、特徴キーワードをタグ付けするステップと、
前記複数の画像のそれぞれを、前記特徴キーワードに基づいて前記複数の画像のサブセットのうちの少なくとも１つに格納するステップと、
前記特徴キーワードに基づいて画像カテゴリーのそれぞれについて分類器を決定するステップと
を含む、請求項１に記載の方法。
関心画像に関して、複数の画像を検索するシステムであって、
それぞれが前記複数の画像のサブセットを表す画像意味カテゴリーの少なくとも２つに構造化される前記複数の画像を含むデータベースと、
少なくとも１つのクエリ画像を取得する手段と、
前記少なくとも２つの画像カテゴリーのうちの少なくとも２つにおいて前記クエリ画像を分類する画像分類モジュールと、
前記少なくとも２つの画像カテゴリーにおいて前記クエリ画像を用いて、前記関心画像を検索し、前記少なくとも２つの画像カテゴリーのそれぞれにおいて見つけられた各画像に対して、類似スコアを決定し、及び、最高の前記類似スコアを持つ前記画像を、前記関心画像として選択する画像検索モジュールと、
前記少なくとも２つの画像カテゴリーの前記複数の画像のそれぞれからオブジェクトを認識するオブジェクト認識器と
を備え、
前記画像分類モジュールは、それぞれの画像の前記認識されたオブジェクトに基づいて、それぞれの画像カテゴリーに関する分類器を決定する、前記システム。
前記クエリ画像から特徴を抽出する特徴抽出部をさらに備え、前記画像分類モジュールは、前記抽出された特徴に基づいて少なくとも２つの前記画像カテゴリーのうちの１つを特定する、請求項９に記載のシステム。
前記画像分類モジュールは、パターン認識関数を含む、請求項９に記載のシステム。
画像カテゴリーのそれぞれに関する分類器を含む意味分類検索ツリーを構築する手段をさらに備え、前記分類器は、前記複数の画像にクラスタリング機能を適用することにより、少なくとも２つの前記画像カテゴリーのうちの１つに画像を分類する、請求項９に記載のシステム。
前記画像分類モジュールは、決定された分類器それぞれに対してサブ分類器を決定する、請求項１２に記載のシステム。
前記画像分類モジュールは、前記決定された分類器に基づいて前記複数の画像のそれぞれを分類し、かつ、前記複数の画像のそれぞれを前記データベース内の前記複数画像のサブセットに格納する、請求項１２に記載のシステム。
前記複数の画像の各画像に特徴キーワードをタグ付けし、かつ、前記特徴キーワードに基づいて前記データベースの前記複数の画像のサブセットに前記複数の画像のそれぞれを格納するキーワードタグ付け部をさらに備え、前記画像分類モジュールは、前記特徴キーワードに基づいて、画像カテゴリーのそれぞれに関して前記分類器を決定する、請求項１２に記載のシステム。