JP6278893B2

JP6278893B2 - 対話型マルチモード画像検索

Info

Publication number: JP6278893B2
Application number: JP2014542660A
Authority: JP
Inventors: メイ，タオ; リ，シペン; ワン，ジンドン; ワン，ヤン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2011-11-24
Filing date: 2011-11-24
Publication date: 2018-02-14
Anticipated expiration: 2031-11-24
Also published as: US20140250120A1; CN103946838B; EP2783305A4; KR20140093957A; JP2014534540A; EP2783305A1; CN103946838A; WO2013075316A1; US9411830B2

Description

＜著作権表示および許諾＞
本特許文献の開示の一部分は、著作権の保護を受ける情報を含む場合がある。著作権所有者は、それが特許商標庁の特許ファイルまたは記録に見られる限りにおいては、いずれの人間による特許文献または特許開示のファクシミリ複製に対しても異議を唱えないが、それ以外の場合については、いかなる著作権も全て保有する。以下の表示は、本明細書に適用されるものとする：Ｃｏｐｙｒｉｇｈｔ（Ｃ）２０１１、ＭｉｃｒｏｓｏｆｔＣｏｒｐ。

インターネットおよびワールド・ワイド・ウェブにアクセスできるモバイル・デバイスは、ますます一般的になっており、移動しながらますます多くのデータにユーザがアクセスできるようにする個人用のネットサーフィン用コンシェルジュとして機能するようになっている。

モバイル・デバイス用の一部の検索アプリケーションは、モバイル・デバイスに内蔵されたカメラによって視覚的なクエリ（問い合わせ内容）として撮影された写真をサポートし、これは、キャプチャ・トゥ・サーチ（ｃａｐｔｕｒｅ−ｔｏ−ｓｅａｒｃｈ）と呼ばれる。キャプチャ・トゥ・サーチでは、通常は、最初に写真を撮影し、その後、そのスナップ・ショット画像を、様々な垂直ドメイン内で一致する情報を探す検索処理に対して、クエリ（問い合わせ）として提供する。既存の検索エンジンは、長い文を意味論的に解釈する際の機械学習における現実との乖離のために、長いクエリをうまく扱う能力が限られている。例えば、「白い家の前に緑の木が数本ある画像を見つける」のようなテキスト・クエリでは、関連検索結果が得られないことがある。

デスクトップ用の一部の検索エンジンでは、ユーザが提供する検索用のスケッチを使用し、例えば「類似画像」、色、スタイルまたは顔などの様々なフィルタを検索意図を示す指示として利用し、または上述のキャプチャ・トゥ・サーチ・モードのように既存の画像を検索用クエリとしてアップロードする機能をサポートする。ある検索プログラムは、ユーザが、クエリ画像の特定の領域をキー検索構成要素として強調することができるようにする一方、別の検索プログラムでは、タグのグループの位置およびサイズを使用して、テキストに基づくトップ検索結果をフィルタリングし、さらに別の検索プログラムでは、複合的なキャンバス上の複数の色ヒントを選択したものを視覚的なクエリとして使用する。しかしながら、デスクトップＰＣ用のユーザ対話機能は、モバイル・デバイス上のそれとは異なる。

モバイル・デバイスは、現在のところ、いくつかの種類の検索、特に検索主題の写真の取込みを行わない画像またはビデオの検索の助けとなるプラットフォームを提供していない。さらに、テキスト入力または音声入力は、視覚的検索処理にはあまり適していない。例えば、電話機のキーパッド上でタイプ入力することはしばしばうんざりする作業であると同時に、口頭によるクエリ入力は、視覚的な意図を表現するのに適していない。さらに、視覚的検索プロセスにおいてユーザ意図を確認することは、幾分複雑であり、テキスト（またはテキスト表現に転換された音声）の断片では十分に表現されないことがある。

本明細書は、モバイル・デバイス上のタッチ入力を含むマルチモード入力を利用した、モバイル・デバイスの視覚的検索機構を開示するものである。口頭による検索クエリなどの検索クエリから語彙エンティティを抽出し、本発明に係る当該視覚的検索機構は、これらの語彙エンティティを画像タグとマッチングすることにより、各エントリの候補画像を提供する。続いて、当該視覚的検索機構は、特定の候補画像の選択を実現する。続いて、当該視覚的検索機構は、選択した候補画像のサイズおよび位置も含めて、それらの選択した候補画像を使用して、クエリ・キャンバス上に複合的な視覚クエリを構築する。当該複合的な視覚クエリは、既存の画像でなくてもよい。

この「発明の概要」の節は、いくつかの選択した発明概念を簡略化した形で紹介するためものであり、それらの発明概念については、以下の「発明を実施するための形態」の節でさらに詳細に説明する。この「発明の概要」の節は、特許請求の範囲に記載された発明の主題における重要な特徴または不可欠な特徴を特定するためのものではなく、また特許請求の範囲に記載された発明の主題の技術的範囲を決定する助けとして使用するためのものでもない。例えば、「技術」または「機構」という用語は、上記の文脈が許す限り、本明細書の全体を通じて、１つまたは複数のデバイス、１つまたは複数のシステム、１つまたは複数の方法、および／あるいはコンピュータ可読命令を指すことができる。

本明細著においては、添付の図面を参照しながら、発明を実施するための形態について説明する。これらの図面において、参照番号の一番左の１つまたは複数の数字は、その参照番号が最初に記載される図面を示す。全ての図面を通じて、同じ番号は、同じ特徴および構成要素を指している。

モバイル・デバイスを用いた対話型マルチモード画像検索を実施する例示的なフレームワークを示す絵入り図である。モバイル・デバイス上の対話型マルチモード画像検索の例示的なユーザ・インタフェースを示す絵入り図である。モバイル・デバイス上で実行される情報文脈を意識した画像検索処理を説明する、様々なマルチモード・クエリからの対話型マルチモード画像検索を実施する例示的なユーザ・インタフェースを示す絵入り図である。複合的な視覚クエリを操作し形成するために選択されるエンティティを表す候補画像を示す絵入り図である。モバイル用対話型マルチモード画像検索の例示的なモバイル・デバイスの選択構成要素を示すブロック図である。モバイル用対話型マルチモード画像検索を実施する例示的な方法を示す流れ図である。連結ヒストグラムを用いて記述される画像を比較する例示的な方法を示す流れ図である。候補画像を生成する例示的なクラスタリング型方法を示す流れ図である。情報文脈を意識した複合画像型画像検索プロセスを示す数学的に注釈付けされた図を示す流れ図である。

モバイル用の対話型マルチモード画像検索ツールは、視覚的検索処理に関連する結果を得るための豊富な機能を提供する。主にテキスト・トゥ・サーチ（ｔｅｘｔ−ｔｏ−ｓｅａｒｃｈ）に対応するデスクトップ型コンピュータと比較すると、モバイル・デバイスの方が、可用性を高め、より多くの関連する検索結果を得るために利用することができるユーザ対話用のインタフェースをより豊富に提供している。例えば、デスクトップ環境において受信する従来のキーボードおよびマウスによる入力内容に留まらず、モバイル・デバイスにおいては、追加のマルチモード入力を受信することができるようになっている。モバイル・デバイスのインタフェースは、場合によってはマルチ・タッチ入力操作を受け付けるタッチ・スクリーン・インタフェースに加え、内蔵カメラを介してテキスト入力を視覚的モダリティと結合し、音声認識を介して音声モダリティと結合することができる機能を具備する。マルチ・タッチ入力操作が可能なインタフェースは、同時に起こる複数のタッチ入力操作を認識することができる。

視覚的検索処理が直面する難題の１つは、検索意図が暗示的に示されている場合があることである。検索意図が暗示的であるとは、キャプチャ・トゥ・サーチが実行可能であるような特定の視覚的な検索意図に対応する環境内においてではなく、音声記述またはテキスト入力などその他のモダリティを通してユーザが検索意図を表明する場合があるということである。

例えば、ユーザが、ドアが赤く正面にライオンの石像が２体あるレストランを探しているとする。しかし、そのユーザは、検索を行う手掛かりとなるそのレストランの名前が思い出せないことがある。この例では、本明細書に記載するモバイル用の対話型マルチモード画像検索ツールが提供するような、例えば口頭によるクエリなどの長いテキストまたは音声を視覚クエリに変換してユーザ対話機能を向上させる（ｌｅｖｅｒａｇｅ）ことができるクライアント側ツールを使用して、そのレストランを特定し、そのレストランの名前および位置を突き止めることができる。別の例では、ユーザが、ある町を訪れていて、あるレストラン（またはレストラン・チェーン）がその町のどこかにあることを思い出したけれども、その場所を思い出せないので、口頭によるクエリの一部としてその町の名前を含めることもある。

モバイル用の対話型マルチモード画像検索ツールは、タッチ対話機能およびマルチ・タッチ対話機能などのマルチモード対話機能をレバレッジして、暗示的な検索意図を突き止め、クエリ画像が最初に利用可能でない場合を含めて視覚的検索処理の性能を向上させるのを助ける。本明細書に記載された検索手続きは、（１）モバイル・デバイスへのクエリとして例えば口頭による自然文などの音声入力などの初期入力を受信する段階と、（２）音声認識技術を使用して音声入力内容をテキスト表現に変換する段階と、（３）当該変換されたテキスト表現をエンティティ抽出技術によってキーワードに分解する段階と、（４）画像クラスタリング処理過程によって抽出したエンティティに従って複数の候補画像を識別する段階と、（５）各エンティティを視覚的に表現することができる特定の候補画像を選択する操作を受信する段階と、（６）当該選択された特定の候補画像同士の間における相対的なリファインメント（ｒｅｆｉｎｅｍｅｎｔ）を受信して、クエリ画像を合成する段階と、（７）当該合成されたクエリ画像を視覚的クエリとして使用して、同様の画像を検索する段階とを含む。

本明細書に記載するモバイル用の対話型マルチモード画像検索ツールは、例えば視覚的単語を表現する小さなサブ画像などの画像パッチとして扱われる複数の別々の画像の間の空間的関係を考慮に入れて実行される画像検索処理のために、情報文脈を意識した手法を提供する。モバイル用の対話型マルチモード画像検索ツールは、ユーザが特定の候補画像を選択し、当該選択した候補画像をサイズ変更したり移動させたりするなどして操作し、これらの操作した画像をジグソー・パズルのピースのようにまとめて対話処理が可能なキャンバス上に複合的なクエリ画像として作成することにより、複合的なクエリ画像を構築することを可能にする新たな検索モード用のインタフェースを提示する。

＜例示的なフレームワーク＞
図１は、本明細書に記載するモバイル用の対話型画像検索のフレームワーク１００を示す図である。例示的なフレームワーク１００は、クラウド側１０２が少なくとも１つのサーバ１０４をホスティングしているものとして示してある。サーバ１０４は、メモリ１０６、記憶プログラム１０８、およびプロセッサ１１０を含む。クライアント側１１４の１つまたは複数のモバイル・デバイス１１２は、破線で示すネットワーク１１６を介してサーバ１０４およびその他のクラウド型デバイスに接続することができる。サーバ１０４としては、例えば、ウェブ・サーバ、アプリケーション・サーバ、およびその他の任意の個数のデータ・サーバなどが挙げられる。ネットワーク１１６は、例えばインターネットなど、任意のタイプの通信ネットワークを代表するものである。モバイル・デバイス１１２は、ネットワーク１１６を介してデータを送受信するように構成された任意のタイプのモバイル・デバイスを代表するものである。例えば、モバイル・デバイス１１２は、携帯電話、携帯情報端末（ＰＤＡ）、ネットブック、タブレット型コンピュータ、ハンドヘルド型コンピュータ、およびその他のそのような低いフォーム・ファクタおよび低い計算リソース上限を特徴とするモバイル計算デバイスとして実装することができる。

フレームワーク１００は、マルチモード対話性を利用して、モバイル・デバイス１１２からの検索意図を認識し、様々な視覚的記述子（例えばスケール不変な特徴変換（ＳＩＦＴ）、色彩、およびエッジ部分）を組み合わせて視覚的な検索処理を行うことができる。図１では特定の処理動作がクラウド１０２で起こるものとして示してあるが、本発明に係る様々な実施態様では、これらの処理動作のうちの１つまたは複数がモバイル・デバイス１１２上で行われてもよい。

図示された例では、モバイル・デバイス１１２は、１１８に示すように、マイクロフォンおよび音声プロセッサを介して自然文の音声入力内容を受信して、音声クエリを開始する。例えば、モバイル・デバイス１１２は、１１８に示すように、「湖、空、および木が写っている画像を見つける」というような文章を受信する。システムは、音声認識（ＳＲ）エンジン１２０を利用して、１１８で受信したスピーチ（発話内容）をテキスト表現に変換する。次いで、システムは、エンティティ抽出エンジン１２２を利用して、名詞などのエンティティをテキストから抽出する。その結果、このツールは、辞書１２４から、「湖」、「空」および「木」を３つのエンティティとして認識する。画像クラスタリング・エンジン１２６は、画像データベース１２８の中から、これら３つのエンティティそれぞれに対応し、かつそれら認識済みのエンティティをそれぞれ表す画像パッチとして使用することができる候補画像を識別する。

抽出したエンティティを画像検索のテキスト・クエリとしてそのまま使用したとしても、合致する画像タグの周りのテキストの検索処理では、複数のエンティティから成るグループに対してではなく、個々のエンティティに個別に対処するだけであるので、エンティティ間の関連を考慮した検索結果が得られないことがある。さらに、抽出した各エンティティを表す個々の画像同士の間における互いの相対的な位置および／またはサイズを考慮に入れる検索処理機構も得られない。したがって、この対話型マルチモード画像検索ツールは、１３０に示すように、個々のエンティティ毎の特定の画像を選択することができ、それらの選択された画像から複合的な視覚クエリを合成することができるように、既定数の候補画像を提示する。

この対話型マルチモード画像検索ツールは、この複合的な視覚クエリを活用して、画像データベース１２８から、または場合によってはインターネットなどその他の情報源から、関連する画像を検索することができる。この対話型マルチモード画像検索ツールは、１３２に示すように、選択した画像の相対的な位置および相対的なサイズならびにそれらの各々の視覚コンテンツに基づいて、情報文脈を意識した画像検索処理を行う。情報文脈を意識した画像検索処理の実行結果に応じて、対話型マルチモード画像検索ツールは、視覚的な検索結果をモバイル・デバイス１１２に戻す。

＜例示的なユーザ・インタフェース＞
図２は、２００に、モバイル・デバイス１１２における対話型多モード画像検索に使用されるユーザ・インタフェースの構成要素の例を示す図である。図示の例では、モバイル・デバイス１１２は、Ｗｉｎｄｏｗｓ(登録商標) Ｐｈｏｎｅ（Ｒ）デバイスを表しているが、その他の携帯電話、スマートフォン、タブレット型コンピュータおよびその他の同種のモバイル・デバイスも、同様に利用することができる。モバイル・デバイス１１２では、ハードウェア式またはソフトウェア式のボタン２０２を押下して入力処理を起動することにより、音声入力を開始したいことを示す。上述のように、音声入力は、音声認識エンジン１２０を介するなどして受信され、テキストに変換される。変換されたテキストは、２０４に示すように、モバイル・デバイス１１２の画面上に提示することができ、これにより、誤って変換されたテキストのイベント部分の編集が可能になる。いくつかの代替の場合には、最初の音声入力の代わりに、モバイル・デバイス１１２のハードまたはソフト・キーを介してテキスト入力を受信して、対話型マルチモード画像検索の処理を開始することもできる。

したがって、本発明に係る様々な実施態様では、この対話型マルチモード画像検索ツールは、隠れマルコフ・モデル（ＨＭＭ）型のＳＲエンジンなど、自然文およびフレーズの断片を受け取り、その後その発話内容をテキスト表現に転記することができるＳＲエンジンを利用することによって、音声入力をレバレッジして、ユーザがクエリを開始するのを助ける。

この例示的なＳＲエンジン１２０は、受信した発話内容を最初に特徴空間内のコンパクトな意味のある表現（ベクトル）に変換する統計モデル化フレームワークを使用する。この例示的なＳＲエンジン１２０のデコーダは、これらの特徴ベクトルを入力として採用し、音響モデルおよび言語モデルに基づいて仮定した単語シーケンスの確率を生成する。

この例示的なＳＲエンジン１２０の出力は、画像検索用のクエリとして使用することができる。この対話型マルチモード画像検索ツールは、ＳＲエンジン１２０の出力を処理して、「木」、「湖」、「車」および「家」のような名詞のキーワードであるエンティティを抽出する。エンティティ抽出エンジン１２２は、いくつかの候補画像によって表現される可能性がある単語を検出することができる。複数の候補画像が識別された場合には、これらの候補画像のうちの特定の画像を選択してリファインし、検索意図を明らかにすることができる。したがって、このツールは、「家」、「湖」および「木」など視覚的に意味のある名詞の単語／句をエンティティとして検出し、「法律」および「休日」のような非視覚的な叙述名詞を破棄する。本発明に係るいくつかの実施態様では、エンティティとして検出された町名は、非視覚的な叙述名詞として扱うことができる。このようないくつかの場合には、町名は破棄されるが、他の場合には、町名は別の名詞カテゴリとして後に使用するために保持される。

この目的のために、この対話型マルチモード画像検索ツールは、具体的な視覚表現を有する名詞を収集する（例えば１５５２８７個の単語から１１７７９８個の名詞を収集する）ことによって、辞書１２４などのエンティティ辞書または辞典を構築することができる。本発明に係る例示的な実施態様では、名詞が具体的な視覚表現を有するかどうかの判定は、その名詞が、定期的に更新される画像データベース１２８中の画像の任意のタグに含まれるかどうかに基づいて行われる。本発明に係る少なくとも１つの実施態様では、この対話型マルチモード画像検索ツールは、画像データベース内に閾値未満の個数しか画像がない名詞を省略して、保持される一意的な単語の数を減らす（例えば２２１１７個の一意的な単語を保持する）。

さらに、本発明に係る少なくとも１つの実施態様では、この対話型マルチモード画像検索ツールは、「スーパーマン」および「エッフェル」など、有名人の名前、人気製品および目印になるような建物など、入力を説明するその他のエンティティも含む。対話型マルチモード画像検索ツールは、インターネットを検索することによってこれらの追加エンティティを取得することができ、かつ／またはこれらの追加エンティティは、商用検索エンジンからのクエリに基づいて取得することもできる。本発明に係る例示的な実施態様では、エンティティ抽出エンジン１２２によって実行されるエンティティ抽出処理の一部として、口頭による検索クエリ中の単語を、辞書１２４において合致する最も長いものに割り当てる。例えば、「白熊」および「エッフェル塔」は、既知の意味論的解釈を与える句である。したがって、これらの語は、辞書１２４からの句と一致する句エンティティとして抽出される。上記のように抽出された各エンティティは、画像クラスタリング・エンジン１２６によって実行される画像クラスタリング処理において、その最も長い形態で独立して使用される。したがって、抽出される句エンティティは、画像クラスタリング・エンジン１２６により、個別の名詞ではなく句として使用される。したがって、後に情報文脈を意識した画像検索処理１３２において複合的な視覚クエリの画像パッチとして使用される選択された画像は、個別の名詞ではなく句を表すことができる。

本発明に係る例示的な実施態様では、２０６に示すように、抽出したエンティティを、モバイル・デバイス１１２の画面上にタグとして提示する。一方、これらのエンティティの候補画像は、２０８に示すようにモバイル・デバイス１１２の画面上に提示することができる。図示された例では、１つのエンティティ「木」に関する候補画像は、１つの水平リボン・フォーマットで提示され、そこから特定の画像をモバイル・デバイス１１２の画面のキャンバス領域２１０にドラッグすることによって選択している。一方、エンティティ「湖」および「空」に関する特定の候補画像は、既にモバイル・デバイス１１２上の画面のキャンバス領域２１０にドラッグされて選択されている。ただし、他のフォーマットを使用することも可能であり、また企図される。例えば、複数のエンティティに関する候補画像を、画面の一部を占める垂直または水平のリボン内に同時に提示して、各エンティティを表す特定の候補画像を選択させることもできる。

キャンバス領域２１０は、マルチ・タッチ入力機能などのタッチ入力機能を介して選択された画像の操作を受け付け、これらの画像をキャンバス領域２１０内でサイズ変更し、移動させる。このようにして、視覚検索用の複合的なクエリ画像は、既存のクエリ画像を必要とすることなく、その複合的なクエリ画像内の各画像パッチのサイズおよび位置によって定義される。図示された例では、この対話型マルチモード画像検索ツールは、湖の位置を、キャンバス領域２１０のフレーム内で木および空よりも低い場所にあるものとして記録する。一方、木は、キャンバス領域２１０のフレーム内で空より下の右の方に配置されるものとして記録され、空は、キャンバス領域２１０の一番上に位置するものとして記録される。本発明に係る様々な実施態様では、これらの選択された画像に含まれる１つまたは複数の画像の中の全てまたは一部が、キャンバス領域２１０内に複合的なクエリ画像を形成する際に別の選択された画像と重なり合っていてもよい。重なり合うことによって画像の一部分が隠蔽されているときには、この隠蔽された部分を破棄してもよいし、あるいは、この隠蔽された部分に低く計算した重みを付与し、かつ／また上に重なっている部分に高く計算した重みを付与してもよい。選択された特定の候補画像の視覚コンテンツに基づいて形成され、それぞれのエンティティから成るコンテンツとしては、空に浮かぶ積雲、葉のない木、および一部の湖岸線が見える静かな湖などがある。

検索ボタン２１２を起動すると、キャンバス領域２１０上に定義された複合的な視覚クエリ画像に基づいて情報文脈を意識した視覚的検索処理１３２が開始される。本発明に係る他の実施態様では、ダブル・タップ操作またはその他の入力操作により、情報文脈を意識した視覚的検索処理１３２を開始することもできる。本発明に係る様々な実施態様において、検索ボタン２１２を起動すると、さらに、対話型マルチモード画像検索ツールにより、選択された画像に関連するタグが後の処理において使用されるために記憶される。

図示された例における２１４に示すように、モバイル・デバイス１１２は、情報文脈を意識した視覚的検索処理１３２の検索結果を画面上に提示するように構成される。画面上のタッチ入力機能を使用して、検索結果の表示をスクロールすることができ、タップ操作またはその他の同様の入力操作を通して、それらの検索結果のうちの１つを選択して、例えば結果として得られた画像についての追加情報を取り出すことができる。あるいは、それらの検索結果の中に検索意図に合致するものがない場合には、バック・ボタン２１６を起動して、複合的なクエリ画像をさらに操作することができるように画面を直前のキャンバスに戻すことができる。一方、モバイル・デバイスのその他の機能には、開始ボタン２１８を起動することによってアクセスすることができる。

図３は、３００に、モバイル用の対話型マルチモード画像検索ツールを用いて同じ特定の選択された候補画像から合成された２つの複合的な視覚クエリを示す図である。図示の例に示すように、選択された画像は、その相対的な配置およびサイズが複合的な画像を視覚クエリとして利用する「情報文脈を意識した画像検索処理」の実行に寄与する画像パッチとして扱われる。点線の左側の３０２に示される複合的な視覚クエリでは、木がキャンバスの上下方向において中央かつ水平方向において左寄りに位置した構成になっている。一方、点線の右側の３０４に示される複合的な視覚クエリでは、木がキャンバスの上下方向において中央かつ水平方向において右寄りに位置した構成になっている。その他の例では、これらの画像パッチのサイズを変化させて、さらに別の結果を得ることもできる。３００に示すように、同じ記憶タグを有する同じ画像パッチでも、２つの複合的な視覚クエリで配置が異なっていれば、異なるクエリ結果が得られることがある。

上述のように、本明細書に記載する対話型マルチモード画像検索ツールは、タッチ・スクリーン対話機能などモバイル・デバイスのマルチモード機能を利用して、複数の視覚的クエリの合成を可能にする。音声入力またはテキスト入力などの初期段階の入力から抽出される個々のエンティティ毎に、このシステムは、１組の候補画像を戻り値として返す。個々のエンティティ毎に特定の画像を選択する操作は、複合的視覚クエリが形成されるキャンバス上に、その選択された画像がドラッグ操作されることから認識される。複合的視覚クエリの形成は、その複合的視覚クエリにおいて画像パッチとなっている選択された各画像を操作することによって行われる。この操作としては、例えば、タッチ入力操作および／またはマルチ・タッチ入力操作を介するなどしてキャンバス領域２１０上の各選択画像の位置およびサイズを調節することなどが挙げられる。このようなマルチモード対話処理は、例えば多義性、アスペクト、視点、位置および属性など、既存のテキスト型画像検索システムで生じる様々な曖昧さに対処する。

本開示の文脈では、多義性、アスペクト、視点、位置および属性は、以下の意味を有する。すなわち、「多義性」とは、例えば「ａｐｐｌｅ」が果物または製品の何れかを意味したりや「ｆｏｏｔｂａｌｌ」がサッカーまたはアメリカン・フットボールの何れかを意味したりするなど、１つの単語が複数の意味を有することを意味する。「アスペクト」とは、例えば「ａｐｐｌｅ」が企業または製品の何れかを意味したり、「ｆｏｏｔｂａｌｌ」が物体または試合の何れかを意味したりするなど、１つの単語が、複数の異なる概念を表す可能性があることを示す。「視点」とは、例えば、側面から見た場合または正面から見た場合の車や内部から見た場合または外部から見た場合のオフィスなど、ある物体が角度または見方によって様々な外観を有する可能性があることを意味する。「位置」は、対象画像内における物体の予想される位置を示す。「属性」は、色、種類および装飾など、エンティティの性質を定義する。これらの曖昧さはそれぞれ、音声クエリまたはテキスト・クエリから視覚的な検索意図を導出する際に技術的な困難性を生じる可能性がある。

表１は、図４に示すような様々な画像の特徴を表すために利用することができる表記を列挙したものである。

図４の４００に示すように、複合的なキャンバスの上で複数の選択された画像を操作することによる視覚的クエリの対話型合成処理により、検索意図を導出することができる。具体的には、４０２の「１個のリンゴと１房のバナナが写っている写真を見つける」という音声クエリから、この対話型マルチモード画像検索システムは、１組のエンティティ（キーワード）
<外１>

４０４を認識し、各エンティティの候補画像のリストを戻り値として返す。本発明に係る様々な実施態様では、各エンティティの候補画像のリストは、対話型マルチモード画像検索ツールによって後の処理において使用するために記憶される。

図４に示すように、Ｔ^（ｋ）は、１つのエンティティを示し、Ｋは、テキスト・クエリＴ中のエンティティの個数であり、この図示された例では２に等しい。４０６に示すように、Ｔ^（１）＝「ａｐｐｌｅ（リンゴ）」であり、４０８に示すように、Ｔ^（２）＝「ｂｕｎｃｈｏｆｂａｎａｎａｓ（１房のバナナ）」である。

本発明に係る代替的な実施態様では、ユーザは、多数の画像（例えば画像データベースまたは検索エンジンによって得られるトップ画像検索結果など）から手作業で候補画像を選択することができる。別の代替的な実施態様では、データベースから得られる画像を、単純にタグに基づいて使用して、データベースと一般的なウェブ画像の間のクロスドメイン差を吸収することができる。

本発明に係る少なくとも１つの実施態様では、この対話型マルチモード画像検索ツールは、自動化されたプロセスを利用して、各エンティティの候補画像を識別する。例えば、この対話型マルチモード画像検索ツールは、視覚的な特徴および類似性メトリックに基づくクラスタリング型手法を使用して、既知の画像データベースおよび画像検索エンジンの結果を活用することによって、所与のエンティティの候補画像を識別する。図４は、リボン・フォーマットのエンティティＴ^（１）およびＴ^（２）の候補画像の例を示している。Ｔ１の候補画像のリボンは、４１０（１）に示し、Ｔ２の候補画像のリボンは、４１０（２）に示してある。

この対話型マルチモード画像検索ツールは、各エンティティに対応する特定の候補画像の選択結果、ならびに対話型マルチモード画像検索ツールが複合的な視覚クエリを構築する材料とするキャンバス領域２１０上の選択された画像の位置変更およびサイズ変更を示す指示を受信する。したがって、複合的な視覚クエリは、１組の構成要素
<外２>

として表すことができる。ここで、各構成要素Ｃ^（ｋ）は、１つのエンティティＴ^（ｋ）、ならびに選択された画像Ｉ^（ｋ）とその選択された画像を含むキャンバス領域２１０上の長方形領域の位置およびサイズＲ^（ｋ）とに対応する。したがって、４１２に示すように、Ｃ^（ｋ）は、３つ組（Ｔ^（ｋ）、Ｉ^（ｋ）、Ｒ^（ｋ））によって定義することができる。

複合的な視覚クエリが、認識されたエンティティ、選択された画像、およびそれらの意図された位置を含むと仮定すると、本発明に係る実施形態が実行すべきタスクはそのクエリと文脈上関連する対象画像を検索することである。本明細書で用いる「関連性」という用語は、その対象画像が、エンティティ・キーワードおよび視覚的に類似した物体の両方を所望の位置に表示すると予想されることを意味する。したがって、キャンバス領域２１０などキャンバス上に形成される複合的な視覚クエリ４１４の対象画像はそれぞれ、大きな１房のバナナの上方かつ右側に小さなリンゴを含む写真および写実画像を含むことになる。視覚的クエリと対象画像との間における関連性は、示される位置に基づく視覚的類似性および意図一貫性によって測定することができる。

この対話型マルチモード画像検索ツールは、複数種類の視覚的特徴解析技術を利用して画像の取出しを行う。例えば、本発明に係る少なくとも１つの実施態様では、このツールは、複合的な視覚クエリのスケール不変特徴変換（ＳＩＦＴ）、色彩ヒストグラムおよび勾配ヒストグラムを対象画像と比較して、画像の取出しを行う。ＳＩＦＴのような局所的な記述子は、画像の種別によってはうまく機能しないことがあるので、このツールは、色彩ヒストグラムおよび勾配ヒストグラムの弁別能力を活用する。ＳＩＦＴがうまく機能しない可能性がある１つの例示的な種別としては、光景、すなわち目印となるものを含まない風景または自然の光景が挙げられる。ＳＩＦＴがうまく機能しない可能性がある種別の別の例としては、人間の画像、すなわち有名人を含まない無作為の、匿名の、または未知の１人または複数人の人物の写真または画像が挙げられる。このような種別は、見た目が変化するので、ＳＩＦＴで共有される特徴を含まない可能性がある。ただし、この対話型マルチモード画像検索ツールは、このような種別内で色彩および／またはパターンの類似性を利用して、光景や人間などの種別を取り出すことができる。

＜例示的なモバイル・デバイス＞
図５は、本明細書に記載する対話型マルチモード画像検索機能を提供するように構成された例示的なモバイル・デバイス１１２の構成要素の中から選択された構成要素を示す図である。例示的なモバイル・デバイス１１２は、ネットワーク・インタフェース５０２と、マイクロプロセッサを含むことが可能な１つまたは複数のプロセッサ５０４と、音声プロセッサ５０６と、１つまたは複数のマイクロフォン５０８と、メモリ５１０とを含む。ネットワーク・インタフェース５０２は、モバイル・デバイス１１２がネットワーク１１６を介してデータを送信および／または受信できるようにする。ネットワーク・インタフェース５０２は、モバイル・デバイス１１２がウェブ・ベースのデータおよび携帯電話網ベースのデータなど（ただしこれらに限定されない）様々なタイプの通信を送信および／または受信できるようにする、その他の通信インタフェースの任意の組合せを表すこともある。

オペレーティング・システム（ＯＳ）５１２、ブラウザ・アプリケーション５１４、全世界測位システム（ＧＰＳ）モジュール５１６、コンパス・モジュール５１８、対話型マルチモード画像検索ツール５２０、および任意の個数のその他のアプリケーション５２２は、コンピュータ可読命令としてメモリ５１０内に記憶され、少なくとも部分的にはプロセッサ５０４で実行される。

ブラウザ・アプリケーション５１４は、インターネットを介して入手可能なウェブ・コンテンツにアクセスできるようにするためのユーザ・インタフェースを提供するためにモバイル・デバイス１１２上で実行することができる様々なアプリケーションのいずれかを表す。

ＧＰＳモジュール５１６は、全地球測位システム（ＧＰＳ）に従ってモバイル・デバイス１１２の地理的位置を決定、監視および／または追跡するためにモバイル・デバイス１１２に実装される任意の機能を表す。例えば、ＧＰＳモジュール５１６は、ユニバンドまたはマルチバンドのトランシーバに一体化することができる。別の例では、ＧＰＳモジュール５１６は、少なくとも部分的には、モバイル・デバイス１１２のユーザにマップおよび／またはナビゲーションの方向を提供するために使用することもできる。本明細書で述べるように、ＧＰＳモジュール５１６は、任意の所与の時点におけるモバイル・デバイス１１２の現在位置を特定し、かつ／または以前のモバイル・デバイス１１２の位置の履歴を保持するように構成することができる。

コンパス・モジュール５１８は、モバイル・デバイスの現在の地理的方向を決定するためにモバイル・デバイス１１２に実装される任意の機能を表す。本発明に係る例示的な実施態様では、コンパス・モジュール５１８から収集された情報を、例えばＧＰＳモジュール５１６から収集した情報と結合して、追加の位置情報を形成することもできる。

その他のアプリケーション５２２としては、モバイル・デバイス１１２上で実行可能な任意の個数のその他のアプリケーションが含まれる。このようなその他のアプリケーションとしては、例えば、電子メール・アプリケーション、カレンダ・アプリケーション、トランザクション・モジュール、音楽プレイヤ、カメラ・アプリケーション、電卓ツール、１つまたは複数のゲーム、１つまたは複数の開発支援ツール、インスタント・メッセージ・アプリケーション、加速度計などが挙げられる。

対話型マルチモード画像検索ツール５２０は、音声認識モジュール５２４、エンティティ抽出モジュール５２６、画像クラスタリング・モジュール５２８、ユーザ・インタフェース・モジュール５３０、キャンバス・モジュール５３２、視覚的クエリ合成モジュール５３４、コンテキスト・アウェア・モジュール５３６、画像検索モジュール５３８、および場合によっては上記以外のその他の対話型マルチモード画像検索構成要素５４０のうちの１つまたは複数を含む。

音声認識モジュール５２４は、音声認識エンジン１２０のプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。音声認識モジュール５２４は、音声コンテンツまたは入力中の単語を識別し、当該識別した単語をテキスト表現に変換する。例えば、音声プロセッサ５０６によって音声認識モジュール５２４を実行して、マイクロフォン５０８からの入力を処理することができる。あるいは、またはこれに加えて、音声認識モジュール５２４は、音声プロセッサ５０６を迂回して音声入力を直接受信するように構成することもできる。音声認識モジュール５２４は、以前に記憶した音声ファイルおよびその他の同様のデータ・ソースにアクセスして、音声データのテキスト表現を生成することもできる。音声認識モジュール５２４は、テキスト形態でクエリを出力する。

エンティティ抽出モジュール５２６は、エンティティ抽出エンジン１２２のプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。エンティティ抽出モジュール５２６は、音声認識モジュール５２４から出力されたテキスト中の名詞、特に候補画像によって視覚的に表現することができる名詞を検出する。本発明に係るいくつかの実施形態では、エンティティ抽出モジュール５２６は、複数の方法のうちの１つに従って生成されたテキスト・クエリから視覚的に表現可能な名詞を検出する。例えば、プロセッサ５０４によって実行することができるエンティティ抽出モジュール５２６は、「家」、「湖」および「木」など、視覚的に意味のある単語／句をエンティティとして検出し、「法律」および「休日」のような非視覚的な叙述名詞を破棄する。本発明に係る様々な実施態様では、エンティティ抽出モジュール５２６は、具体的な視覚表現を有する名詞を収集することによって、エンティティを元に辞書１２４などのエンティティ辞書または辞典を構築する。

画像クラスタリング・モジュール５２８は、画像クラスタリング・エンジン１２６のプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。画像クラスタリング・モジュール５２８は、画像データベース１２８などから、エンティティ抽出モジュール５２６によって抽出されたエンティティのそれぞれに対応する候補画像を識別する。例えば、プロセッサ５０４によって実行することができる画像クラスタリング・モジュール５２８は、認識されたエンティティを表す複合画像中のそれぞれの画像パッチとして使用することが可能な予め規定された個数の候補画像を識別する。

画像データの様々な提供元の任意の組合せにアクセスして、画像コンテンツを識別することができる。本発明に係る例示的な実施態様では、検索サービスを使用して、通常はインターネット検索サービスによって維持される「注目記事」または「検索トップ」に基づいて、現在人気がある画像または画像の主題を識別することができる。その他のコンテキスト情報（情報文脈に関する情報）を使用して、画像コンテンツの提供元を識別することもできる。様々な技術を本発明に係る実施形態と任意に組み合わせて使用して、画像コンテンツの提供元を識別することができ、これらのコンテンツ提供元を任意に組み合わせて使用して、利用可能な候補画像を識別することができる。

ユーザ・インタフェース・モジュール５３０は、モバイル・デバイス１１２のユーザ・インタフェースのその他の機械的かつ／またはソフトウェア的な構成要素の動作のためのプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。例えば、プロセッサ５０４によって実行することができるユーザ・インタフェース・モジュール５３０は、対話型マルチモード画像検索ツール５２０の状況では、ハードウェア式のまたはソフトウェア式のボタン２０２、バック・ボタン２１６および／あるいは開始ボタン２１８の機能を制御することができる。ユーザ・インタフェース・モジュール５３０は、画像クラスタリング・モジュール５２８によって識別された候補画像の中から特定の画像を選択することを可能にする。例えば、ユーザ・インタフェース・モジュール５３０は、２０８に示すようにモバイル・デバイス１１２の画面上にスクロール可能なリボン・フォーマットで提示される特定の候補画像の選択を実現する。

図示された例のようにユーザ・インタフェース・モジュール５３０のプログラムの一部として含まれることもあれば、本発明に係るいくつかの実施態様のようにそこから分離していることもあるキャンバス・モジュール５３２は、モバイル・デバイス１１２のタッチ・スクリーン上におけるユーザ・インタフェースの対話型キャンバス領域２１０の動作のためのプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。例えば、プロセッサ５０４によって実行することができるキャンバス・モジュール５３２は、ユーザ・インタフェース・モジュール５３０を介して選択された画像を、それらの選択された画像がタッチ式のユーザ・インタフェースを用いて画面のキャンバス領域２１０に配置された際に記録する。

視覚的クエリ合成モジュール５３４は、キャンバス・モジュール５３２によって記録され選択された画像から複合的な視覚クエリを合成するプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。例えば、プロセッサ５０４によって実行することができる視覚的クエリ合成モジュール５３４は、選択された画像が、画面との間のタッチ操作による対話を介してユーザ・インタフェースのキャンバス領域２１０上に複合的視覚クエリの画像パッチを形成するように操作された際に、それらの選択された画像の相対的な位置および相対的なサイズを記録する。さらに、視覚的クエリ合成モジュール５３４は、この複合的な視覚クエリを検索処理のために提供することもできる。

コンテキスト・アウェア・モジュール５３６は、少なくとも視覚的クエリ合成モジュール５３４からの複合的な視覚クエリに基づいて情報文脈を意識した画像検索処理を実行するプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。例えば、プロセッサ５０４によって実行することができるコンテキスト・アウェア・モジュール５３６は、複合的な視覚クエリを合成する画像パッチの視覚的情報文脈を一意化することができる。コンテキスト・アウェア・モジュール５３６は、少なくとも部分的には、選択されない候補画像と比較して選択された特定の候補画像によって克服される曖昧さに基づいて、視覚的情報文脈を一意化することができる。例えば、図４の抽出されたエンティティ「ａｐｐｌｅ（リンゴ）」の候補画像４１０（１）は、「ａｐｐｌｅ」という名詞に関連する曖昧さを示している。果物の画像が選択されると、コンテキスト・アウェア・モジュール５３６は、そのクエリがＡｐｐｌｅ社製の電子製品の画像を見つけようとしているものではないと推測することができる。コンテキスト・アウェア・モジュール５３６は、情報文脈を意識した画像検索処理の結果を、モバイル・デバイス１１２の画面に表示するために利用できるようにする。

場合によっては、エンティティ抽出モジュール５２６および／またはコンテキスト・アウェア・モジュール５３６は、音声入力中の「近くに」または「この付近に」などの入力を識別し、位置に基づくコンテキスト情報（情報文脈に関する情報）を、モバイル・デバイス１１２の現在位置または予想される将来の位置を含む任意の組合せに基づいて文脈上関連がある可能性がある候補画像および／または複合的視覚クエリから戻り値として返される結果に適用することもできる。例えば、ユーザが対話型マルチモード画像検索ツールにオプトインしてＧＰＳモジュール５１６および／またはコンパス・モジュール５１８から位置情報を収集して使用した際に、ＧＰＳモジュール５１６およびコンパス・モジュール５１８から得られるコンテキスト情報（情報文脈に関する情報）に基づいて、現在の位置および進行方向を決定することができる。次いで、クエリに含まれる町、ＧＰＳ情報および／またはコンパス情報のうちの１つまたは複数から得られる位置情報に基づいて、現在位置に関連する候補画像および／または複合的な視覚クエリ結果を、文脈上関連があるとして識別することができる。別の例では、このような位置情報を使用して、戻り値として返された視覚的クエリ結果をランク付けすることもできる。

画像検索モジュール５３８は、少なくとも視覚的クエリ合成モジュール５３４からの複合的な視覚クエリおよび／またはコンテキスト・アウェア・モジュール５３６からの結果に基づいて画像検索を実行するプログラムの全てまたは一部と整合して動作し、また、そのプログラムの全てまたは一部を構成することもある。例えば、プロセッサ５０４によって実行することができる画像検索モジュール５３８は、複合的な視覚クエリを合成する素材となる１つまたは複数の画像パッチについてのベクトル・マッチングに基づいて画像検索結果を識別することができる。画像検索モジュール５３８は、画像検索の結果を、モバイル・デバイス１１２の画面に表示するために利用できるようにする。

本発明に係るいくつかの実施形態では、上記以外のその他の対話型マルチモード画像検索構成要素５４０は、その他の対話型データのコンテキスト（情報文脈）を適用して、複合的な視覚クエリを実行することができる。例えば、使用することができるその他のコンテキスト・データ（情報文脈を表すデータ）としては、最近の検索内容、インスタント・メッセージ情報、最近アクセスしたアプリケーション（例えばゲーム、開発支援アプリケーションなど）を識別するデータ、モバイル・デバイス１１２が移動している速度を決定するために使用することができる加速度計データなどが挙げられるが、これらに限定されるわけではない。

図５においては、モバイル・デバイス１１２のメモリ５１０に記憶されるものとして示してあるが、本発明に係るいくつかの実施態様では、対話型マルチモード画像検索ツール５２０またはその一部分は、１つまたは複数のサーバ１０４の中に記憶され、かつ／またはクラウド１０２などのクラウド型の実施態様によって実装することもできる。さらに、本発明に係るいくつかの実施態様では、対話型マルチモード画像検索ツール５２０またはその一部分は、モバイル・デバイス１１２がアクセスできる任意の形態のコンピュータ可読媒体を用いて実装することができる。さらに、本発明に係るいくつかの実施形態では、オペレーティング・システム５１２、ブラウザ・アプリケーション５１４、ＧＰＳモジュール５１６、対話型マルチモード画像検索ツール５２０および／またはその他のアプリケーションのうちの１つまたは複数の構成要素は、モバイル・デバイス１１２の一部である、またはモバイル・デバイス１１２にアクセス可能である集積回路の一部として実装することもできる。さらに、モバイル・デバイス１１２上で実施されるものとして図示および説明しているが、本発明に係るいくつかの実施形態では、本明細書に記載するように対話型マルチモード画像検索ツール５２０によってもたらされるデータ・アクセスおよびその他の機能は、デスクトップ型コンピュータ・システムおよびラップトップ型コンピュータ・システムなど（ただしこれらに限定されない）、ユーザが対話型マルチモード視覚検索処理を実行できるようにするための、マルチモード入力用に構成されたその他の任意のタイプの計算デバイス上で実施することもできる。

本明細書で用いるコンピュータ可読媒体という用語は、少なくとも２種類のコンピュータ可読媒体、すなわちコンピュータ可読の記憶媒体および通信媒体を含む。コンピュータ可読の記憶媒体としては、コンピュータ可読命令、データ構造、プログラム・モジュールまたはその他のデータなどの情報を記憶するための任意の方法または技術で実装される揮発性記憶媒体および不揮発性記憶媒体、ならびに取外し可能記憶媒体および取外し不能記憶媒体が挙げられる。コンピュータ可読記憶媒体としては、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリまたはその他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）またはその他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、あるいは計算デバイスがアクセスできるように情報を記憶するために使用することができるその他の任意の非伝達媒体が挙げられるが、これらに限定されるわけではない。

これに対して、通信媒体は、コンピュータ可読命令、データ構造、プログラム・モジュールまたはその他のデータを、搬送波などの変調データ信号またはその他の伝達機構に含めて実施することができる。本明細書で定義するコンピュータ可読記憶媒体は、伝達を実行するのに必要な任意のハードウェア構成要素を除いて通信媒体を含まない。

＜例示的な動作＞
図６〜図９は、本明細書に記載する対話型マルチモード画像検索ツール５２０を実装する例示的な方法を示す図である。これらの方法は、ハードウェア、ソフトウェアまたはそれらの組合せとして実施することができる処理動作のシーケンスを表す論理フロー・グラフのブロックの集合として示してある。ソフトウェアとして実施される状況では、これらのブロックは、１つまたは複数のプロセッサによって実行されたときに、本実施形態に記載された処理動作を、それらのプロセッサに実行させる、１つまたは複数のコンピュータ可読媒体上のコンピュータ実行可能命令を表す。

ここでは、本発明を実施するためのソフトウェアは、有償で個別に取引き可能な商品である可能性があることを断っておく。当該ソフトウェアは、「ダム（ｄｕｍｂ）」ハードウェアまたは標準的なハードウェア上で実行され、または当該ハードウェアを制御するための所望の機能を実行するソフトウェアを包含するものとする。また、本発明を実施するためのソフトウェアは、シリコン半導体チップを設計する際または汎用プログラマブル・チップを構成する際に使用され、所望の機能を実行するためのＨＤＬ（ハードウェア記述言語）ソフトウェアなどのように、ハードウェア構成を「記述」または「定義」するソフトウェアも包含するものとする。

なお、これらの方法を記載する順序は、限定的なものとして解釈すべきものではなく、本明細書中に記載される方法を構成する複数の処理ブロックのうちの任意の個数のブロックを任意の順序で組み合わせて、これらの方法または代替の方法を実施することができることに留意されたい。さらに、本明細書に記載する発明の主題の趣旨および範囲を逸脱することなく、個々の処理ブロックの実行を本発明に係る方法から省略することもできる。さらに、図１〜図５を参照して上述したモバイル・デバイス１１２に関連してこれらの方法について述べるが、本発明に係るいくつかの実施形態では、クラウド型アーキテクチャなどその他のコンピュータ・アーキテクチャによって、これらの方法の１つまたは複数の部分を、完全に、または部分的に実施することもできる。

図６は、対話型マルチモード画像検索ツールを実装する例示的な方法６００を示す図である。

ブロック６０２で、音声入力を受信する。例えば、図１および図５に示すように、モバイル・デバイス１１２が、マイクロフォン５０８を介して口頭によるクエリを受信する。

ブロック６０４で、音声認識を使用して、音声入力内容をテキスト表現に変換する。図１および図５を参照して上述したように、音声認識エンジン１２０および／または音声認識モジュール５２４など、任意の組合せの音声認識（ＳＲ）エンジンまたはモジュールを使用して、受信した発話内容をテキスト表現に変換することができる。

ブロック６０６で、解析を実行して、テキスト中の、視覚的に表現することができる名詞および名詞句を識別する。これらの名詞または名詞句はそれぞれ、エンティティ抽出においてエンティティとして抽出される。例えば、図１および図５に示すように、エンティティ抽出エンジン１２２および／またはエンティティ抽出モジュール５２６など、任意の組合せのエンティティ抽出エンジンまたはモジュールを使用して、視覚的に表現することができる名詞および名詞句をテキストから識別して抽出することができる。

ブロック６０８で、抽出したエンティティの候補画像を識別する。画像コンテンツの様々な提供元にアクセスして、画像データベース１２８などの画像データベースを含む利用可能な候補画像および商用検索エンジンを識別することができる。上述のように、本発明に係る例示的な実施態様では、検索サービスを使用して、通常はインターネット検索サービスによって維持される「注目記事」または「検索トップ」に基づいて、現在人気のある画像コンテンツを識別することができる。本発明に係る少なくとも１つの実施態様では、視覚的特徴および類似性メトリックに基づくクラスタリング型手法を使用して、既知の画像データベースおよび画像検索エンジンからの検索結果を活用することにより、所与のエンティティの候補画像を識別する。例えば、図１および図５に示すように、画像クラスタリング・エンジン１２６および／または画像クラスタリング・モジュール５２８など、任意の組合せの画像クラスタリング・エンジンまたはモジュールを使用して、エンティティの候補画像を識別することができる。

ブロック６１０で、識別した候補画像を、そのエンティティの意図された意味を最も正確に表現する特定の画像の選択のために提供する。図１〜図５を参照して上述したように、候補画像は、モバイル・デバイス１１２のディスプレイなど、タッチ・スクリーン型ディスプレイを介して提供することができる。例えば、図１および図５に示すように、ユーザ・インタフェース・モジュール５３０および／またはキャンバス・モジュール５３２など、任意の組合せのユーザ・インタフェース・モジュールを使用して、抽出したエンティティを表す候補画像を選択操作のために提供することができる。本発明に係る少なくとも１つの実施態様では、これらの候補画像は、モバイル・デバイス１１２のユーザ・インタフェースへのタッチ入力操作を介した選択操作のために提供される。

ブロック６１２で、各エンティティを表す候補画像の中から特定の１つを選択する操作を受信する。本発明に係る様々な実施形態においては、この選択操作は、特定の候補画像をモバイル・デバイス１１２のユーザ・インタフェースのキャンバス領域２１０にドラッグ操作することによって受信される。例えば、図１および図５に示すように、ユーザ・インタフェース・モジュール５３０および／またはキャンバス・モジュール５３２など、任意の組合せのユーザ・インタフェース・モジュールを使用して、抽出されたエンティティを表す特定の候補画像の選択操作を受信することができる。本発明に係る少なくとも１つの実施態様では、候補画像の選択操作を示す指示を、モバイル・デバイス１１２のユーザ・インタフェースへのタッチ入力操作を介して受信する。

ブロック６１４で、選択した画像のリファインメントを、ユーザ・インタフェースのキャンバス領域２１０を介して受信する。様々な実施形態では、リファインメントは、複合画像を形成するためにキャンバス領域２１０で操作されている選択された画像についての情報を含む。この操作は、サイズの調整、位置の移動、ならびに選択された画像同士の間での相対的なサイズおよび位置のうちの一方または両方のアスペクトのうちの１つまたは複数を含む。本発明に係る少なくとも１つの実施態様では、選択された画像のリファインメントを示す指示を、モバイル・デバイス１１２のユーザ・インタフェースへのタッチ入力操作を介して受信する。

ブロック６１６で、複合画像を使用して、情報文脈を意識した画像検索処理に基づく視覚的クエリを実行する。

図７は、連結されたヒストグラムを使用して記述される画像を比較する例示的な方法７００を示す図である。

本発明に係る少なくとも１つの実施態様に従うならば、ブロック７０２において、対話型マルチモード画像検索ツールは、１２８次元ＳＩＦＴ記述子など、画像の各キー・ポイントに関する記述子を抽出する。例えば、この画像は、画像データベース１２８から得られる画像、ウェブ検索によって得られる画像、および／または複合的視覚クエリ画像のうちの１つまたは複数を含むことができる。場合によっては、この抽出は、例えば画像データベース１２８から得られた各画像について、予めオフラインで行われる。その他の場合においては、この抽出は、例えばウェブ検索によって得られる画像および複合的視覚クエリ画像について、オンラインで実質的にリアルタイムに行われる。これらのオンライン抽出手法とオフライン抽出手法を組み合わせて、複数の画像提供元からの候補画像を識別することができる。例えば、本発明に係る少なくとも１つの実施態様では、あるエンティティについて、候補となる可能性のある画像のタグのテキスト検索に基づいて、ある候補画像が識別されたときに、ＳＩＦＴ、色彩および／または勾配など、識別された候補画像から得られる特徴記述子を、候補となる可能性がある画像のうち、タグのない、または追加の候補画像を識別するその他のタグを有するその他の画像とマッチングすることができる。

本発明に係る例示的な実施態様では、ある名詞が具体的な視覚的表現を有するかどうかの判定は、その名詞が、定期的に更新される画像データベース１２８中の画像の任意のタグに含まれるかどうかに基づいて行われる。

ブロック７０４において、対話型マルチモード画像検索ツールは、階層的Ｋ平均法によって識別されたエンティティの語彙ツリーを構築する。例えば、対話型マルチモード画像検索ツールは、階層的Ｋ平均法によって確立された語彙ツリーを用いて視覚的コード・ブックを構築する。他の例では、視覚的コード・ブックをＫＤ木で置き換えることもできるし、あるいはその他の技術を使用することもできる。本発明に係る１つの例示的な実施態様では、これにより、例えば画像データベース１２８から得られた画像毎に、約６０００個の視覚的単語が画像データベースから得られる。様々な例において、語彙ツリーの葉は、視覚的単語とみなすことができ、画像内の局所点を語彙ツリーの葉とマッチングして、その画像に最も類似した葉を見つけることができる。

ブロック７０６において、対話型マルチモード画像検索ツールは、ツリーを走査することによって、各ＳＩＦＴ記述子を視覚的単語にハッシング処理する。

ブロック７０８において、対話型マルチモード画像検索ツールは、視覚的単語に重み付けすることによって画像を記述する。例えば、本発明に係る１つの実施態様では、対話型マルチモード画像検索ツールは、視覚的単語に対して、中心から遠い画像パッチよりも中心に近い画像パッチの方が重みが大きくなるように、それらの画像パッチの各々に関して画像の中心からの相対的な距離に基づいて重み付けする。別の例では、少なくとも１つの実施態様では、対話型マルチモード画像検索ツールは、視覚的単語に対して、画像パッチが大きくなるほど重みが大きくなるように、それらの画像パッチの各々に関する相対的なサイズに基づいて重み付けする。

ブロック７１０において、対話型マルチモード画像検索ツールは、画像の色彩を量子化する。例えば、１つの例示的な実施態様では、対話型マルチモード画像検索ツールは、画像の色彩を、その画像を記述する色相／彩度／明度（ＨＳＶ）空間の１９２個のビンに量子化する。

ブロック７１２において、対話型マルチモード画像検索ツールは、画像の勾配を量子化する。例えば、対話型マルチモード画像検索ツールは、画像の勾配を、８個の方向および８個の強度に量子化して、その画像を記述する６４次元勾配ヒストグラムを生成する。

ブロック７１４において、対話型マルチモード画像検索ツールは、その画像を記述する特徴記述子を結合する。本発明に係る様々な実施態様において、特徴記述子は、線形結合、連結またはその他の形態の結合操作によって結合することができる。したがって、本発明に係る例示的な実施態様では、その結果として、このツールは、例えば（６２５６＝６０００個の視覚的単語＋１９２個のビン＋６４次元勾配ヒストグラム）など、これら３種類の視覚的特徴の連結ヒストグラムによって画像を記述することになる。これら３種類の視覚的特徴を利用することは、画像の取出しに有効であることが分かっている。本発明に係る少なくとも１つの実施態様では、各種類の特徴を、結合する前に個別に正規化する。また、本発明に係るいくつかの実施態様では、対話型マルチモード画像検索ツールは、重み付け関数を使用して異なる種類の記述子のバランスをとり、ヒストグラム中の有益な要素を取り出す。

ブロック７１６において、対話型マルチモード画像検索ツールは、類似性メトリックを使用して、候補となる可能性がある画像のヒストグラムの類似性を比較する。例えば、ｆ_ｉおよびｆ_ｊは、それぞれ画像ｉおよびｊの正規化ヒストグラムを示すものとする。これら２つの画像の間の類似性は、数式１で表されるように、２つのヒストグラムの間の重み付け交差カーネルによって与えられる。

数式１において、ｆ_ｉ、ｎは、ヒストグラムｆ_ｉのｎ番目の要素を示し、ｗ_ｎは、ｎ番目の要素の類似性による寄与を測定するための重みであり、Ｎ（例えばＮ＝６２５６）は、ヒストグラムの次元である。画像を比較する際にヒストグラム中の全ての要素が等しく重要であるわけではないので、重みによって、様々な特徴による寄与を区別する。対話型多モード画像検索ツールは、これらの画像の間で特徴を平均化し、平均ヒストグラム
<外３>

を得、次いで、重みｗ_ｎを
<外４>

として定義する。全ての画像の間で頻度の高い要素ほど、重要性は低い。したがって、この重み関数は、ヒストグラム中の有益な要素を取り出し、異なる種類の記述子のバランスをとることができる。

図８は、各エンティティの候補画像を識別するために対話型マルチモード画像検索ツールが利用するクラスタリング型手法の例示的な方法８００を示す図である。いくつかの実施態様では、方法８００は、抽出されたエンティティの候補画像が図６のブロック６０８に従って識別される場合を示す。

ブロック８０２において、対話型マルチモード画像検索ツールは、エンティティ・キーワードに従って、画像データベースから候補となる可能性がある画像を選択し、商用画像検索エンジンから所定数（例えば１０００個）のトップ画像を選択する。

ブロック８０４において、対話型マルチモード画像検索ツールは、上述した数式１に示した視覚的記述子および類似性メトリックに基づいて複数対の画像を比較することにより、類似性行列を計算する。

ブロック８０６において、本発明に係るいくつかの実施態様に従うならば、背景クラッタを回避するために、対話型マルチモード画像検索ツールは、特徴抽出処理の前に顕著領域検出プロセスを行う。例えば、ある物体を含む画像にクラッタが生じてその物体が識別しにくくなっているときには、対話型マルチモード画像検索ツールは、顕著領域検出プロセスを利用して、追加の背景構成要素によって画像のクラッタを生じることなく、その物体を反映する画像構成要素を得ることができる。

ブロック８０８において、対話型マルチモード画像検索ツールは、画像から特徴を抽出する。本発明に係る少なくとも１つの実施形態では、背景クラッタを回避するために、顕著領域内の視覚記述子のみを考慮する。

ブロック８１０において、本発明に係る様々な実施形態において、対話型マルチモード画像検索ツールは、特徴をいくつかのクラスにグループ化する教師なしクラスタリング方法を使用する。例えば、親和性伝播（ａｆｆｉｎｉｔｙｐｒｏｐａｇａｔｉｏｎ）（ＡＰ）アルゴリズムは、クラスへのグループ化のために特徴の視覚的インスタンスを見つけるために使用される教師なしクラスタリング方法である。

ブロック８１２において、対話型マルチモード画像検索ツールは、各クラスタに含まれる画像の数の降順にクラスタを分類する。例えば、画像の数が１００未満のクラスタは、画像の数が１００を超えるクラスタより低くランク付けされる。

ブロック８１４において、対話型マルチモード画像検索ツールは、このエンティティの候補画像として、トップ・クラスタ（例えばトップ１０）からの所定数の画像の中心を選択する。例えば、互いに異なる主題をそれぞれ示す複数の候補となる可能性がある画像が、エンティティと合致するタグを有することがある。これらの候補となる可能性がある画像は、特定のタグを探すことによって収集することができるが、対話型マルチモード画像検索ツールは、これらの候補となる可能性がある画像を、それらの見た目に従って複数のグループにクラスタリングして、それらの画像に示される様々な主題の代表画像を識別する。対話型マルチモード画像検索ツールは、これらのグループを、例えばそれぞれのグループ内の画像の数に従って、画像の数が最も多いグループが１位にランク付けされるように、ランク付けすることができる。さらに、場合によっては、対話型マルチモード画像検索ツールは、最も代表的であるとみなされるグループを、所定数、例えば上位１０または５個保持する。場合によっては、保持されるグループの数は、ユーザが設定することができる。

ブロック８１４において、保持されたグループについて、対話型前うちモード画像検索ツールは、代表的な候補画像として各グループのクラスタ中心を選択する。その際、各クラスタの中から１つの画像を選択する。したがって、例えば、エンティティに対応するタグを有し、互いに異なる１０個の主題をそれぞれ表す１０個のグループのそれぞれから得られる代表画像は、そこから複合的視覚クエリの一部となる画像を選択することができる１０個の候補画像として提示することができる。

ブロック８１６において、対話型マルチモード画像検索ツールは、記述子に重み付けする。例えば、ガウス窓を使用して記述子に重み付けして、中心に近い記述子ほど重要性が高くなるようにすることができる。

図９は、９００に、文脈を意識した複合画像型画像検索プロセスを示す数学的に注釈付けされた図である。このプロセスは、９０２に示すように、２つの画像パッチを含む複合視覚クエリＣから開始される。

９０４において、対話型マルチモード画像検索ツールは、例えば図４に関連して上述したようにエンティティ・キーワード｛Ｔ^（ｋ）｝を表す記憶されたタグを結合することにより、テキスト・クエリを生成する。別の例では、テキスト・クエリは、町名がタグに含まれないときに、位置カテゴリから得られた町名など、タグ以外のカテゴリからのテキストを含むように生成することができる。当該生成されたテキスト・クエリは、画像検索モジュール５３８および／または画像検索エンジン９０６を含む、図５および図９に示すものなど、任意の組合せの画像検索モジュールまたはエンジンに提出される。

９０８において、画像検索エンジン９０６は、このテキスト・クエリに従って、画像データベース１２８などの画像データベースから関連画像を検索する。場合によっては、検索結果の個数を減少させるためにＧＰＳ情報、位置カテゴリおよび／または町タグが利用可能である場合には、これらのうちの１つまたは複数を含むことができる位置に従って、関連画像をフィルタリングする。検索結果９１０が、候補画像である。候補画像９１０は、複合的な視覚クエリ９０２によって表され、テキスト・クエリ９０４から抽出されたエンティティからの候補画像を表す。これらの候補画像９１０は、それぞれ対象画像として複合的な視覚クエリ９０２と比較することができる、テキストに基づく画像検索結果である。

９１２において、対話型マルチモード画像検索ツールは、複合的な視覚クエリの各画像パッチ構成要素と対象画像Ｊ９２４中の対応する領域の間の視覚類似性
<外５>

を計算する。

９１２の動作に関しては、複合的な視覚クエリ９０２の画像パッチ構成要素と対象画像Ｊ９２４中のそれに対応する領域の間の領域に基づく視覚類似性
<外６>

を計算するために、対話型マルチモード画像検索ツールは、Ｊ９２４中の対応する領域の視覚的表現を得る。Ｊ９２４中の特定の領域の視覚的表現をリアルタイムで計算することは常に実用的であるとは限らない（例えば、ユーザが、複合画像の構築中に、この構成要素の位置およびサイズを頻繁に変更する可能性があるため）ので、対話型マルチモード画像検索ツールは、効率的なグリッドに基づく検索方式を利用して、対象画像Ｊを小さなグリッド
<外７>

に分割する。ここで、Ｍは、対象画像ｊを分割するセルの個数（整数）を表し、ｉ、ｊは、各セルの隅点の座標を表す。

ｋ番目の画像パッチ構成要素（複合クエリ中の領域Ｒ^（ｋ）に対応する）およびＪ中のグリッド（ｉ、ｊ）に対応するその中心位置については、Ｊ中の対応する領域
<外８>

は、関連する各グリッドの和、すなわち
<外９>

で与えられる。各グリッドにおいて、対話型マルチモード画像検索ツールは、上述のＳＩＦＴ、色彩ヒストグラムおよび勾配ヒストグラムの３種類の視覚的特徴を利用する手法を用いて特徴ヒストグラムを得る。本発明に係る例示的な実施態様では、得られる特徴ヒストグラムは、予め保存してある。対話型マルチモード画像検索ツールは、対象画像Ｊを
<外１０>

として表すことができる。ここで、ｈ_ｊ（ｉ、ｊ）は、グリッド（ｉ、ｊ）の視覚的記述子である。本発明に係る１つの例示的な実施態様では、Ｍ＝９（９×９グリッド）を使用する。対話型マルチモード画像検索ツールは、以下の数式２で表すように、関連するグリッドからのヒストグラムの線形結合を用いて、領域
<外１１>

の視覚表現を得る。

数式２において、ｗ_ｊ（ｉ、ｊ）は、中心に近いグリッドに高い重要性を割り当てる、所与の領域を中心とする２Ｄガウス分布重みである。この場合、ｋ番目の画像パッチ構成要素と領域
<外１２>

の間の領域に基づく視覚類似性は、以下の数式３で与えられる。

数式３において、ｆ^（ｋ）は、ｋ番目の画像パッチ構成要素の視覚的記述子であり、ｓｉｍ（・）は、数式（１）で与えられる。なお、上記の数式では、対話型マルチモード画像検索ツールは、（ｉ、ｊ）およびｋの指標を両方とも使用する。これは、対話型マルチモード画像検索ツールが、位置の許容差に対処するために領域に基づく類似性を計算するために移動ウィンドウ区間を使用するからである。したがって、
<外１３>

は、ｋ番目の画像パッチ構成要素と対象画像Ｊ中の（ｉ、ｊ）を中心とする対応する領域
の間の視覚的類似性を示す。

９１４において、対話型マルチモード画像検索ツールは、複合的な視覚クエリ９０２の各画像パッチ構成要素の寸法を対象画像Ｊに重ねる。

９１６において、画像パッチ構成要素Ｃ^（１）から延びる双頭矢印が示すように、対話型マルチモード画像検索ツールは、入力の不正確さを見込むために、パッチの領域を対象画像Ｊ上のより大きなサイズに拡大する。

９１８において、対話型マルチモード画像検索ツールは、９２０に示すように、意図マップ｛ｄ^（ｋ）（ｉ、ｊ）｝を生成する。意図マップ９２０は、キャンバス領域２１０などのキャンバス上でリファインされた複合的な視覚クエリ９０２内の画像パッチ構成要素の位置に従って生成される。例えば、本発明に係る様々な実施形態において、図６のブロック６１４に関連して上述したように、リファインメントによって、選択された画像のうちの１つまたは複数のサイズおよび／または位置が変更されることがある。

９１８の動作に関しては、画像パッチ構成要素Ｉ^（ｋ）と対応する領域
<外１４>

の間の領域に基づく関連性の計算は、意図を考慮に入れなければならない。このような領域に基づく意図の関連性は、関連性
<外１５>

として示すことができる。直感的に分かるように、各領域Ｒ^（ｋ）の中心に近い意図は、中心から離れた意図より強い。さらに、画像パッチ構成要素Ｉ^（ｋ）内の意図は、その外部の意図より強い。対話型マルチモード画像検索ツールは、最初に、複合的な視覚クエリ内の意図のソフト測定結果である意図マップを規定する。

（ｘ^（ｋ）、ｙ^（ｋ））は、複合的な視覚クエリ内のｋ番目の画像パッチ構成要素の中心を示すものとする。ユーザによって指定されるこの位置の不確実性を許容するために、対話型マルチモード画像検索ツールは、以下の数式４が示すように意図を表現するソフト・マップを計算する。

数式４において、ｗ^（ｋ）およびｈ^（ｋ）は、それぞれ領域Ｒ^（ｋ）の幅および高さであり、θは、領域Ｒ^（ｋ）の境界でｇを０．５まで低下させるために、
<外１６>

などの定数に設定される。その他の値を使用してもよい。

９２２の動作に関しては、対話型マルチモード画像検索ツールは、
<外１７>

の内外のグリッドの意図の一貫性を決定する。グリッド（ｉ、ｊ）におけるｋ番目の成分に関する意図の一貫性は、以下の数式５で与えられる。

これは、主に
<外１８>

内のグリッドに集中するので、正の関連性と呼ばれる。また、対話型マルチモード画像検索ツールは、望ましくない位置（例えば指示された領域の外側）に存在するエンティティにペナルティ評価を付ける（ｐｅｎａｌｉｚｅ）方式を利用する。対話型マルチモード画像検索ツールは、領域外の各グリッドの関連性を、ペナルティ指数で表す。ペナルティ指数は、以下の数式６によって得ることができる。

これは、
<外１９>

の外側のグリッドがペナルティ評価されるので、負の関連性と呼ばれる。これにより、複合的クエリ・キャンバス上の選択された画像の配置およびリファインメントから意図を示す際の不正確さを見込む（例えば、選択された画像は、正確な位置ではなく近似的な位置に位置決めされることがあり、適切にサイズ変更されていないこともある）。したがって、対話型マルチモード画像検索ツールは、各画像パッチ構成要素の位置およびサイズの許容差を維持する。

９２２において、対話型マルチモード画像検索ツールは、複合的クエリ画像内の各画像パッチ構成要素に対応する対象画像Ｊ９２４内の画像パッチの視覚類似性および生成された意図マップの両方考慮することによって、各画像パッチ構成要素について、正の関連性
<外２０>

および負の関連性
<外２１>

を計算する。

９２６で、対話型マルチモード画像検索ツールは、９２８に示すように（移動ウィンドウ区間を用いて）対象画像Ｊ９２４内の周囲グリッドを考慮することによって、各画像パッチ構成要素について、結合関連性
<外２２>

を計算する。

９２６の動作に関しては、許容差の問題に対処するために、対話型マルチモード画像検索ツールは、サイズがＲ^（ｋ）と同じである移動ウィンドウ区間を使用して、この移動ウィンドウ区間を、
<外２３>

内の全てのグリッド（ｉ、ｊ）に中心を合わせて配置する。換言すれば、元の画像パッチ構成要素を、これらの移動ウィンドウ区間上に位置変更して、ある程度の位置許容差を導入する。対話型多モード画像検索ツールは、図９に示すように、これらの移動ウィンドウ区間の間で常にベスト・マッチを探している。その結果として、ｋ番目の画像パッチ構成要素と
<外２４>

の間の「正の関連性」および「負の関連性」は、以下の数式７によって計算される。

ｋ番目の画像パッチ構成要素と
<外２５>

の間の結合関連性は、以下の数式８によって与えられる。

９３０で、対話型マルチモード画像検索ツールは、複合的な視覚クエリＣ９０２と対象画像Ｊ９２４の間の全体の関連性ｒ_ｊを計算する。このようにして、対話型多モード画像検索ツールは、全体の関連性の評価指数に従って、９０８で戻される画像をランク付けすることができる。

９３０の動作に関しては、対話型マルチモード画像検索ツールは、それぞれの領域に基づく関連性
<外２６>

を得た後で、視覚的記述子の連結をＣおよびＪの両方の全ての画像パッチ構成要素にわたって比較することによって、ＣとＪの間の全体の関連性を計算する。異なる画像パッチ構成要素の分散を考慮するために、全体の関連性は、以下の数式９に示すようにそれぞれの領域に基づく関連性の平均および分散の両方に感度のある融合関数で与えられる。

数式９において、
<外２７>

は、平均関連性であり、γは、ペナルティ評価の程度を制御する正のパラメータである。このようなペナルティ評価は、領域のうちのいくつかに近い対象画像がないとき、またはいくつかの領域は良好にマッチングするが、いくつかの領域はマッチングが不十分であるときに、利用することができる。したがって、本発明に係るいくつかの実施態様では、少なくとも部分的には、課されるペナルティ評価の程度は、様々な領域の関連性マッチングで確認した不一致の量に基づく。本発明に係る少なくとも１つの実施態様では、ペナルティ評価の程度は、経験的に０．８に設定される。

＜結論＞
モバイル・デバイスを介して利用することができる機能およびデータ・アクセスがますます増加しているこのようなデバイスは、移動しながらますます多くのデータにユーザがアクセスできるようにする個人用のネットサーフィン用コンシェルジュとして機能することができる。モバイル・デバイスによって利用可能となるマルチモード対話機能をレバレッジすることにより、対話型マルチモード画像検索ツールは、既存のクエリ画像を必要とせずに、視覚的検索処理を効果的に実行することができる。

構造的特徴および／または方法論的動作に特有の用語を用いて対話型マルチモード視覚検索システムについて説明したが、本明細書に添付した特許請求の範囲に定義される発明の特徴および動作は、必ずしも本明細書中で上述した特定の特徴または動作に限定されるわけではないことを理解されたい。これらの特定の特徴および動作は、特許請求の範囲を具現化する例示的な形態として開示したものである。

Claims

計算デバイスを介してクエリ入力内容を受信するステップであって、前記クエリ入力内容は、少なくとも第１のエンティティおよび第２のエンティティを含む、ステップと、
前記計算デバイスのＧＰＳモジュールから、前記計算デバイスの現在位置の情報を得るステップと、
前記クエリ入力内容および前記現在位置の前記情報に基づいて、前記現在位置に関連する候補画像群を生成するステップであって、前記候補画像群は、少なくとも、前記第１のエンティティに関連付けられた第１の画像群と、前記第２のエンティティに関連付けられた第２の画像群と、を含む、ステップと、
前記第１の画像群の中から第１の画像を選択する第１の操作を受信するステップと、
前記計算デバイスのユーザ・インタフェースを介して、キャンバス上における前記第１の画像の配置に関する第１の指示を受信するステップと、
前記第２の画像群の中から第２の画像を選択する第２の操作を受信するステップと、
前記ユーザ・インタフェースを介して、前記キャンバス上における前記第２の画像の配置に関する第２の指示を受信するステップと、
前記キャンバスに基づいて、視覚的検索処理を実行するためのクエリ画像を作成するステップであって、前記クエリ画像は第１の画像パッチおよび第２の画像パッチを含み、前記第１の画像パッチは前記第１の画像に対応し、前記第２の画像パッチは前記第２の画像に対応し、前記クエリ画像内における前記第１の画像パッチおよび前記第２の画像パッチの相対的な位置は、前記キャンバス上における前記第１の画像および前記第２の画像の相対的な位置に基づく、ステップと、
前記クエリ画像を用いて前記視覚的検索処理を実行するステップと
を含む、方法。
前記クエリ入力内容から前記第１のエンティティおよび前記第２のエンティティを抽出するステップをさらに含む、請求項１に記載の方法。
前記クエリ画像内における前記第１の画像パッチおよび前記第２の画像パッチの相対的なサイズは、前記キャンバス上における前記第１の画像および前記第２の画像の相対的なサイズに基づく、請求項１または２に記載の方法。
前記キャンバス上における前記第１の画像および前記第２の画像のうちの少なくとも１つのサイズの変更を指示する入力内容を受信するステップをさらに含む、請求項１から３のいずれか一項に記載の方法。
前記クエリ入力内容が、音声入力を含む、請求項１から４のいずれか一項に記載の方法。
前記計算デバイスが、モバイル・デバイスを含む、請求項１から５のいずれか一項に記載の方法。
前記ユーザ・インタフェースが、タッチ・インタフェースを含む、請求項１から６のいずれか一項に記載の方法。
前記クエリ画像をメモリに記録するステップをさらに含む、請求項１から７のいずれか一項に記載の方法。
プロセッサおよびメモリを含むシステムであって、請求項１乃至請求項８の中のいずれか一項に記載の方法を実行するように構成されたシステム。
請求項１乃至請求項８の中のいずれか一項に記載の方法をデバイスに実行させるコンピュータ・プログラム。