JP2013541793A

JP2013541793A - マルチモード検索クエリー入力手法

Info

Publication number: JP2013541793A
Application number: JP2013537741A
Authority: JP
Inventors: リウ，ジーヤン; スン，ジアン; シュム，ヘン−ユン; ヤン，シャオソン; クオ，ユー−ティン; チャン，レイ; リー，イー; ケー，チーファ; リウ，ツェー
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2010-11-05
Filing date: 2011-10-31
Publication date: 2013-11-14
Also published as: EP2635984A1; RU2013119973A; CN102402593A; IN2013CN03029A; AU2011323602A1; TW201220099A; IL225831A0; EP2635984A4; WO2012061275A1; KR20130142121A; MX2013005056A; US20120117051A1

Abstract

多数のモードのクエリー入力を含む検索クエリーを用いて、呼応結果を特定する。検索クエリーは、キーワードまたはテキスト入力、画像入力、ビデオ入力、オーディオ入力、または他のモードの入力の組み合わせで構成することができる。この多数のモードのクエリー入力は、初期検索要求において提示することができ、あるいは１つのタイプのクエリー入力を含む初期要求を、第２タイプの入力で補足することができる。呼応結果を提供することに加えて、実施形態の中には、クエリーの内容または最初の呼応結果に基づいて、追加のクエリー絞り込みまたは提案を行うこともできる。
【選択図】図４

Description

[0001] 当技術分野では、ワイド・エリア・ネットワークを通じた検索エンジンによるというような、種々の情報検索および引き出し方法が知られている。このような方法は、通例、テキストに基づく検索を採用する。テキストに基づく検索は、単語または句というような１つ以上のテキスト要素を含む検索クエリーを用いる。このテキスト要素は、インデックスまたは他のデーター構造と比較され、一致するまたは意味的に近いテキスト・コンテンツ、メタデーター、ファイル名、または他のテキスト表現を含むウェブ・ページというような、文書を特定する。

[0002] テキストに基づく既知の検索方法は、テキスト主体文書(text-based document)では比較的思い通りに動作するが、これらを画像ファイルやデーターに適用するのは困難である。画像ファイルをテキストに基づくクエリーによって検索するためには、画像ファイルが、名称、ファイル名、あるいは他のメタデーターまたはタグというような、１つ以上のテキスト要素と関連付けられていなければならない。テキストに基づく検索に採用される検索エンジンおよびアルゴリズムは、画像のコンテンツに基づいて画像ファイルを検索することができず、したがって、画像に付随するデーターのみに基づく検索結果画像を特定することに制限される。

[0003] 画像のコンテンツを分析して視覚的に同様の画像を特定する、コンテンツに基づく画像検索方法が開発されている。しかしながら、このような方法では、画像検索の入力に関連があるテキスト主体文書を特定することに関して、制限される可能性がある。

[0004] 種々の実施形態において、検索クエリーの一部として多数のモードの入力を用いる方法を提供する。これらの方法は、キーワードまたはテキスト入力、画像入力、ビデオ入力、オーディオ入力、または他のモードの入力の組み合わせで構成された検索クエリーに対応する。次いで、種々のモードのクエリー入力から抽出された特徴に基づいて、呼応する文書(responsive document)の検索を実行することができる。多数のモードのクエリー入力を初期検索要求において示すことができ、あるいは１つのタイプのクエリー入力を含む初期要求に、第２のタイプの入力を補足することもできる。呼応する結果を提供することに加えて、実施形態の中には、追加のクエリー絞り込み(refinement)またはクエリー提案(suggestion)を、クエリーの内容または初期呼応結果に基づいて行うことができる。

[0005] この摘要は、詳細な説明の章において以下で更に説明する概念から選択したものを簡略化された形式で紹介するために、設けられている。この摘要は、特許請求する主題の主要な特徴や必須の特徴を特定することを意図するのではなく、特許請求する主題の範囲を判断するときに、別個に、補助として使用されることを意図するのでもない。

[0006] 以下に、添付図面を参照しながら本発明について詳しく説明する。

図１は、本発明の実施形態を実現するときの使用に適した計算環境例のブロック図である。図２は、本発明の実施形態を実行するのに適したネットワーク環境を模式的に示す。図３は、本発明の一実施形態によるユーザー・インターフェースのコンポーネントの一例を模式的に示す。図４は、本発明の一実施形態を実行するときに必要となる種々のコンポーネントおよびプロセス間の関係を示す。図５は、本発明の一実施形態による、画像からの画像特徴の抽出の一例を示す。図６は、本発明の一実施形態による、画像からの画像特徴の抽出の一例を示す。図７は、本発明の一実施形態による、画像からの画像特徴の抽出の一例を示す。図８は、本発明の一実施形態による、画像からの画像特徴の抽出の一例を示す。図９は、本発明の一実施形態による、画像からの画像特徴の抽出の一例を示す。図１０は、本発明の種々の実施形態による方法の一例を示す。図１１は、本発明の種々の実施形態による方法の一例を示す。図１２は、本発明の種々の実施形態による方法の一例を示す。

全体像
[0013] 種々の実施形態において、キーワードまたはテキストに基づく検索入力を他のモードの検索入力と統合するシステムおよび方法を提供する。他のモードの検索入力の例には、画像入力、ビデオ入力、およびオーディオ入力を含むことができる。更に一般的には、本システムおよび方法は、クエリーにおける多数のモードの入力に基づいて、検索の遂行に対処することができる。結果的に得られるマルチモード検索システムおよび方法の実施形態は、ユーザーが入力を検索エンジンに供給するときに、柔軟性を高めることができる。加えて、ユーザーが画像入力というようなあるタイプの入力で検索を開始したとき、次に呼応検索結果を絞り込むためまたはそれ以外で修正するために、第２タイプの入力（または多数の他のタイプの入力）を用いることができる。例えば、ユーザーは、１つ以上のキーワードを、画像入力と関連付けて入力することができる。多くの状況において、追加のキーワードの画像入力との関連付けによって、画像入力のみまたはキーワード入力のみのいずれの場合よりも、ユーザーの意図について明確な指示を与えることができる。

[0014] 実施形態の中には、マルチモード検索入力に基づく呼応結果の検索が、テキストに基づくキーワード、画像に基づく「キーワード」、ビデオに基づく「キーワード」、およびオーディオに基づく「キーワード」を含むインデックスのような、１つよりも多いタイプのデーターに関する用語を含むインデックスを用いることによって実行される場合がある。テキストに基づく検索以外の入力モードに「キーワード」を組み込むための１つの選択肢は、マルチモードの特徴を人工キーワード(artificial keyword)と相関付けることであることができる。これらの人工キーワードを記述子キーワード(descriptor keyword)と呼ぶことができる。例えば、画像に基づく検索に用いられる画像の特徴を、記述子キーワードと相関付けることができ、画像に基づく検索の特徴が、従前のテキストに基づくキーワードと同じ逆インデックス(inverted index)に現れるようにすることができる。例えば、シアトルにある"Space Needle"建物の画像が、複数の画像の特徴を含むことがあり得る。これらの画像の特徴をその画像から抽出し、次いで記述子「キーワード」と相関付けて、他のテキストに基づくキーワード用語と共に逆インデックスに組み込むことができる。

[0015] 記述子キーワードをテキストに基づくキーワード・インデックスに組み込むことに加えて、画像（または他のタイプのテキスト以外の入力）からの記述子キーワードを、従前からのキーワード用語と関連付けることもできる。上の例では、「スペース・ニードル」という用語を、Space Needleの画像からの１つ以上の記述子キーワードと相関付けることができる。これによって、記述子キーワードを含むクエリーの提案や見直しに対処することができ、したがって、画像に基づく検索を実行してSpace Needleの画像に類似する他の画像を求めるのに一層適することになる。このような提案クエリーをユーザーに提供すると、Space Needleの画像に関係がある他の画像の検索の改善を図ることができ、あるいは、提案クエリーを用いてこのような関係のある画像を自動的に識別することもできる。

[0016] 以下の論述では、マルチモード検索を実行する態様を記述するために、次の定義を用いる。特徴(feature)とは、検索クエリーに呼応するものとして、文書の選択および／または格付けの一部として用いることができるあらゆるタイプの情報を指す。テキストに基づくクエリーからの特徴は、通例、キーワードを含む。画像に基づくクエリーからの特徴は、対照をなす輝度を有する画像の部分、または顔認識では、人の顔に対応する画像の部分というような、別個であることが識別された画像の一部を含むことができる。オーディオに基づくクエリーからの特徴は、オーディオの音量レベルの変動、またはその他の検出可能なオーディオ・パターンを含むことができる。キーワードとは、従来からのテキストに基づく検索用語を指す。キーワードは、クエリーに呼応する文書を特定するための１つの用語として用いられる１つ以上の単語を指すことができる。記述子キーワードとは、テキスト以外に基づく特徴と関連付けられているキーワードを指す。つまり、記述子キーワードは、画像に基づく特徴、ビデオに基づく特徴、オーディオに基づく特徴、または他のテキスト以外の特徴を特定するために用いることができる。呼応結果(responsive result)とは、検索エンジンによって行われた選択および／または格付けに基づいて、検索クエリーに関連があると識別されたあらゆる文書を指す。呼応結果を表示するとき、文書自体を表示することによって呼応結果を表示することができ、または文書の識別子を表示することができる。例えば、テキストに基づく検索エンジンによって戻される「ブルー・リンク」(blue link)としても知られている従来のハイパーリンクは、他の文書についての識別子、または他の文書へのリンクを表す。リンク上でクリックすることによって、表されている文書にアクセスすることができる。文書についての識別子は、対応する文書について更に他の情報を提供するのでもよく、またしないのでもよい。
マルチモード検索クエリーの受け取り
[0017] 多数の検索モードからの特徴をクエリーから抽出し、そのクエリーに呼応する結果を特定するために用いることができる。一実施形態では、多数のモードのクエリー入力は、従来の方法で供給することができる。例えば、クエリー入力を受け取るユーザー・インターフェースが、キーワード・クエリー入力を受け取るダイアログ・ボックスを含むことができる。また、このユーザー・インターフェースは、ユーザーが所望の入力画像をユーザー・インターフェースに「落とす」ことを可能にする画像クエリー・ボックスのような、ユーザーによって選択された画像を受け取る場所を含むこともできる。あるいは、画像クエリー・ボックスがファイル位置またはネットワーク・アドレスを、画像入力のソースとして受け取ることもできる。同様のボックスまたは場所は、オーディオ・ファイル、ビデオ・ファイル、またはクエリー入力として用いるための他のタイプのテキスト外入力を特定するために設けることもできる。

[0018] 多数のモードのクエリー入力は、同時に受け取る必要はない。代わりに、最初にあるタイプのクエリー入力を供給することができ、次いで第２モードの入力を、クエリーを絞り込むために供給することができる。例えば、映画俳優の画像をクエリー入力として提出することができる。これによって、画像を含むと思われる、一連の一致する結果が戻される。次に、「俳優」という単語を検索クエリー・ボックスにキーワードとしてタイプ入力し、ユーザーが知ることを望む映画俳優の名前に基づいて、検索結果を絞り込むことができる。

[0019] マルチモード検索情報を受け取った後、このマルチモード情報は、呼応結果を特定するための検索クエリーとして用いることができる。呼応結果は、検索クエリーの入力モードには関係なく、検索エンジンによって関連があると判断された、あらゆるタイプの文書とすることができる。つまり、画像項目を、テキストに基づくクエリーに対する呼応文書として特定することができ、またはテキストに基づく項目を、オーディオに基づくクエリーに対する呼応文書とすることができる。加えて、１つよりも多いモードの入力を含むクエリーも、あらゆる入手可能なタイプの呼応結果を特定するために用いることができる。ユーザーに表示される呼応結果は、文書自体の形態とすること、または呼応文書についての識別子の形態とすることができる。

[0020] １つ以上のインデックスを用いて、呼応結果の特定を容易にすることができる。一実施形態では、逆インデックス(inverted index)のような１つのインデックスを用いて、全てのタイプの検索モードに基づいてキーワードまたは記述子キーワードを格納することができる。あるいは、１つの格付けシステムが、多数のインデックスを用いて用語または特徴を格納することができる。インデックスの数や形式には関係なく、１つ以上のインデックスを、クエリーに呼応する文書を特定するための統合選択および／または格付け方法の一部として用いることができる。選択方法および／または格付け方法は、利用可能なクエリー入力モードであればそのいずれに基づいてでも、特徴を組み込むことができる。

[0021] 他のタイプの入力と関連付けられた、テキストに基づくキーワードも、抽出して用いることができる。多数のモードの情報を組み込む１つの選択肢は、他のモードのクエリー入力と関連付けられたテキスト情報を使用することとすることができる。画像、ビデオ、またはオーディオ・ファイルは、多くの場合、そのファイルにはメタデーターが付随する。これは、ファイルの名称、ファイルの主題、またはそのファイルと関連付けられている他のテキストを含むことができる。他のテキストは、文書の一部となるテキストを含むことができ、メディア・ファイルは、ウェブ・ページというようなリンクとして、またはそのメディア・ファイルを記述する他のテキストとして現れる。画像、ビデオ、またはオーディオ・ファイルに付随するメタデーターは、クエリー入力を種々の方法で補足するために用いることができる。テキスト・メタデーターは、ユーザーに提供される追加のクエリー提案を形成するために用いることができる。また、テキストは、呼応結果の格付けを変更するために、既存の検索クエリーを補足するために自動的に用いることもできる。

[0022] 入力クエリーに付随するメタデーターを用いることに加えて、呼応結果に付随するメタデーターも、検索クエリーを修正するために用いることができる。例えば、画像に基づく検索クエリーから、呼応結果として、周知のエッフェル塔の画像が得られることもあり得る。この呼応結果からのメタデーターが、エッフェル塔が呼応画像結果の主題であることを示すこともあり得る。このメタデーターは、追加のクエリーをユーザーに提案するため、または検索クエリーを自動的に補足するために用いることができる。

[0023] メタデーターを抽出するには多数の方法がある。メタデーター抽出技法は、予め決められていてもよく、あるいは人または自動プロセスのいずれかによって動的に選択されるのでもよい。メタデーター抽出技法は、（１）埋め込まれているメタデーターを求めてファイル名を解析する、（２）準同一(near-duplicate)ディジタル・オブジェクトからメタデーターを抽出する、（３）準同一ディジタル・オブジェクトがホストされているウェブ・ページにおいて、周囲にあるテキストを抽出する、（４）注釈(annotation)および解説(commentary)をサポートするウェブ・サイトに準同一ディジタル・メディア・オブジェクトが格納されている場合、このウェブ・サイトから、準同一ディジタル・オブジェクトと関連付けられた注釈および仮説を抽出する、ならびに（５）ユーザーがテキスト・クエリーの後に準同一ディジタル・オブジェクトを選択したときに、この準同一ディジタル・オブジェクトと関連付けられていたクエリー・キーワードを抽出すること、を含むことができるが、これらに限定されるのではない。他の実施形態では、メタデーター抽出技法が他の動作を伴うのであってもよい。

[0024] メタデーター抽出技法の一部では、テキストの本体から開始し、最も簡潔なメタデーターをふるい分ける場合がある。したがって、文法解釈またはその他の証拠(token)に基づく分析というような技法を利用することもできる。例えば、画像についての周囲のテキストが、字幕または長々とした節を含むことがある。少なくとも後者の場合では、長々とした節を解析して、関心のある用語を抽出するとよい。他の例では、注釈および解説は、テキストの略語（例えば、「私のつまらない意見」に対してＩＭＨＯ）および感情的語類（例えば、笑顔マークおよび感嘆符の繰り返し）を含むことが知られている。ＩＭＨＯは、注釈や解説において強調しているように思われるが、メタデーターを求めて検索する場所を間引く(filter out)ための候補となる可能性が高い。

[0025] 多数のメタデーター抽出技法が選択された場合、調停方法(reconciliation method)が、潜在的に矛盾する候補のメタデーター結果を調停する方法を提供することができる。調停は、例えば、統計的分析および機械学習を用いて、または代わりにルール・エンジンによって実行するのでもよい。

[0026] 図３は、本発明の一実施形態にしたがって、マルチモード検索入力を受け取り、呼応結果を表示するのに適したユーザー・インターフェースの一例を示す。図３において、このユーザー・インターフェースは、３つのタイプのクエリー入力に合わせた入力場所を設ける。入力ボックス３１１は、通例従来の検索エンジンによって用いられるテキスト主体入力というような、キーワード入力を受け取ることができる。入力ボックス３１３は、画像および／またはビデオ・ファイルを入力として受け取ることができる。入力ボックス３１３にペーストされるあるいは、他の言い方では、「ドロップ」される画像ファイルまたはビデオ・ファイルは、画像分析技法を用いて分析して、検索のために抽出することができる特徴を特定することができる。同様に、入力ボックス３１５は、オーディオ・ファイルを入力として受け取ることができる。

[0027] エリア３２０は、呼応結果の一覧表を収容する。図３に示す実施形態では、呼応結果３３２および３４２が現在示されている。呼応結果３３２は、検索に呼応すると特定された画像文書の、サムネイルのような、識別子である。画像結果３３２に加えて、リンクまたはアイコン３３４も提示され、この画像結果３３２（または画像結果３３２と関連付けられた記述子キーワード）を見直しクエリーの一部として組み組む見直し検索に考慮している。呼応結果３４２は、テキスト主体文書の識別子に対応する。

[0028] エリア３４０は、初期クエリーに基づいた提案クエリー３４７の一覧表を収容する。提案クエリー３４７は、従来のクエリー提案アルゴリズムを用いて生成することができる。また、提案クエリー３４７は、画像／ビデオ入力３１３またはオーディオ入力３１５に提出された入力に付随するメタデーターに基づくこともできる。更に他の提案クエリー３４７は、呼応結果３３２のような、呼応結果に付随するメタデーターに基づくことができる。

[0029] 図４は、本発明の一実施形態にしたがってマルチモード検索を実行する種々のシステムおよび／またはプロセスの相互作用を模式的に示す。図４に示す実施形態では、マルチモード検索は、キーワード・クエリー入力および画像クエリー入力の双方に基づく検索に対応する。図４において、クエリーを受け取ったことに基づいて検索を開始する。このクエリーは、クエリー・キーワード４０５およびクエリー画像４０７を含む。クエリー画像４０７を処理するために、画像理解コンポーネント４１２を用いて、この画像の中にある特徴を特定することができる。画像理解コンポーネント４１２によってクエリー画像４０７から抽出された特徴には、画像テキスト特徴および画像視覚的特徴コンポーネント４２２によって、記述子キーワードを割り当てることができる。画像理解コンポーネント４１２が用いることができる方法の一例について、図５から図９に関して以下で説明する。また、画像理解コンポーネント４１２は、顔認識方法、または画像において色の類似性を分析する方法というような、他のタイプの画像理解方法も含むことができる。メタデーター分析コンポーネント４１４は、クエリー画像４０７に付随するメタデーターを特定することができる。これは、画像ファイルの中に埋め込まれている情報、および／または画像の名称というような、オペレーティング・システムによってファイルと一緒に格納された情報、あるいはこのファイルの中に格納されている注釈を含むことができる。また、これは、検索において用いる画像を特定するために入力された、ＵＲＬパスウェイにおけるテキスト、あるいはウェブ・ページまたは他のテキスト主体文書に配置されている画像あるいは埋め込まれている画像について、その画像の近くに位置付けられているテキストというような、その画像と関連付けられた他のテキストも含むことができる。画像テキスト特徴および画像視覚的特徴コンポーネント４２２は、メタデーター分析４１４からの出力に基づいて、キーワード特徴を特定することができる。

[0030] 画像テキスト特徴および画像視覚的特徴コンポーネント４２２においてクエリー用語５０４ならびに追加のあらゆる特徴を特定した後、コンポーネント４３２において、結果的に得られたクエリーを任意に変更または拡張することができる。クエリーの変更または拡張は、メタデーター分析コンポーネント４１４および画像テキスト特徴／画像視覚的特徴コンポーネント４２２においてメタデーターから導き出された特徴に基づくことができる。クエリー変更または拡張の他のソースも、ＵＩインタラクティブ・コンポーネント４６２からフィードバックすることができる。これは、ユーザーによって提供される追加のクエリー情報、および現在のクエリーまたは以前のクエリーからの呼応結果に基づくクエリー提案４４２を含むことができる。次いで、任意に拡張または変更したクエリーを用いて、呼応結果４５２を生成することができる。図４において、結果の生成４５２は、クエリーを用いてデーターベース４７５において呼応文書を特定することを伴う。呼応文書は、このデーターベースの中にある文書についてのテキスト特徴および画像特徴の双方を含む。データーベース４７５は、クエリーに基づいて呼応結果を特定するための、逆インデックス、または他のいずれかの便利なタイプの記憶フォーマットを表すことができる。

[0031] 実施形態によっては、結果の生成４５２が１つ以上のタイプの結果を提示できる場合もある。状況によっては、１つまたは数個の上位に格付けされた呼応結果というような、最も可能性が高い一致の指示が望ましいこともあり得る。これは、回答４４４として提供することができる。あるいは、格付け順とした呼応結果の一覧表が望まれる場合もある。これは、総合格付け結果(combined ranked results)４４６として提供することができる。回答または格付けした結果に加えて、１つ以上のクエリー提案４４２もユーザーに提供することができる。結果の表示やクエリー受け取りを含む、ユーザーとの対話処理は、ＵＩインタラクティブ・コンポーネント４６２によって取り扱うことができる。
マルチメディアに基づく検索方法
[0032] 図５から図９は、本発明の一実施形態による画像例５００の処理を模式的に示す。図５において、画像５００を処理するにあたり、演算子アルゴリズム(operator algorithm)を用いて複数の対象点５０２を特定する。演算子アルゴリズムは、画像５００において対象点５０２を特定するために用いることができる入手可能なアルゴリズムであればいずれでも含む。一実施形態では、演算子アルゴリズムは、当技術分野では周知のように、ガウス・アルゴリズムまたはラプラス・アルゴリズムの異種(a difference)とすることができる。一実施形態では、演算子アルゴリズムは、画像５００を二次元で分析するように構成されている。任意なこととして、画像５００がカラー画像であるとき、画像５００をグレースケールに変換することができる。

[0033] 対象点５０２は、図５に示すような画像５００におけるあらゆる点を含むだけでなく、図６に示すような画像５００における領域６０２、エリア、画素の集合体、または特徴を含むことができる。対象点５０２および領域６０２を、以降明確化および簡素化のために、対象点５０２と呼ぶ。しかしながら、対象点５０２を引用するときは、対象点５０２および領域６０２の双方を含むことを意図している。一実施形態では、対象点５０２が画像５００の中にあるエリア上に位置する。画像５００は安定しており、この画像５００における格別の特徴、または特定可能な特徴を含む。例えば、対象点５０２は、５０２ａおよび６０２ａに図示するような特徴間に高いコントラストがある鋭い特徴を有する画像のエリア上で見つけられる。逆に、対象点は、５０４で示すような一定の色またはグレースケールの領域というような、格別な特徴やコントラストがないエリアでは見つけられない。

[0034] 演算子アルゴリズムは、例えば、数千カ所の対象点というように、画像５００における対象点５０２であればいくつでも特定する。対象点５０２は、画像５００における点５０２および領域６０２の組み合わせであってもよく、その数は画像５００のサイズに基づくのでもよい。画像処理コンポーネント４１２は、対象点５０２毎にメトリックを計算し、このメトリックにしたがって対象点５０２を格付けする。このメトリックは、対象点５０２における画像５００の信号強度または信号対ノイズ比の尺度を含む。画像処理コンポーネント４１２は、格付けに基づく更なる処理のために、対象点５０２から部分集合を選択する。一実施形態では、最も高い信号対ノイズ比を有する１００カ所の最も目立つ対象点５０２を選択するが、所望数の対象点５０２であればいくつ選択してもよい。他の実施形態では、部分集合を選択するのではなく、対象点の全てを更なる処理に含ませる。

[0035] 図７に示すように、１組のパッチ７００を特定することができる。これらは、選択した対象点４０２に対応する。各パッチ７０２は、１つの選択した対象点５０２に対応する。パッチ７０２は、それぞれの対象点５０２を含む画像５００のエリアを含む。画像５００から取り込む各パッチ７０２のサイズは、選択した対象点５０２毎に、演算子アルゴリズムからの出力に基づいて決定する。パッチ７０２の各々が異なるサイズであってもよく、パッチ７０２に含まれる画像５００のエリアが重複してもよい。加えて、パッチ７０２の形状は所望の形状であればいずれでもよく、正方形、矩形、三角形、円、楕円等を含む。図示する実施形態では、パッチ７０２の形状は正方形である。

[0036] パッチ７０２を、図７に示すように、正規化することができる。一実施形態では、Ｘ画素×Ｙ画素の正方形パッチのような等しいサイズにパッチ７０２の各々を合わせるために、パッチ７０２を正規化する。パッチ７０２を等しいサイズに正規化するには、動作の中でもとりわけ、パッチ７０２のサイズおよび／または解像度を増加または減少することを含むとよい。また、とりわけコントラスト強調、斑点除去(despeckling)、鮮鋭化(sharpening)、およびグレースケールの適用というような、１つ以上の他の動作によって、パッチ７０２を正規化するのでもよい。

[0037] また、正規化したパッチ毎に記述子を決定することもできる。記述子は、画像検索に用いるための特徴として組み込むことができるパッチの記述とすることができる。記述子は、パッチ７０２の中にある画素の統計を計算することによって決定することができる。一実施形態では、パッチ７０２の中にある画素のグレースケール勾配の統計に基づいて、記述子を決定する。記述子は、図８に示す記述子８０２のように（図７のパッチ７０２は、図８において同様に位置付けられている記述子８０２と対応する）パッチ毎のヒストグラムとして視覚的に表すのでもよい。また、記述子は、例えばそして限定ではなく、パッチの中にある画素についての画素グレースケール統計を表す多次元ベクトルのような、多次元ベクトルとして記述するのでもよい。Ｔ２Ｓ２３６次元ベクトルは、画素グレースケール統計を表すベクトルの一例である。

[0038] 図９に示すように、量子化表９００を採用して、記述子キーワード９０２を各記述子８０２と相関付けることができる。量子化表９００は、記述子８０２を記述子キーワード９０２にマッピングするために使用可能な表、インデックス、チャート、または他のデーター構造であればいずれでも含むことができる。当技術分野では、量子化表９００の種々の形態が知られており、本発明の実施形態において使用可能である。一実施形態では、量子化表９００を生成するには、最初に大量の画像（例えば、画像５００）、例えば、１００万枚の画像を処理して、画像毎に記述子８０２を特定する。次いで、こうして特定した記述子８０２を統計的に分析して、同様な値または統計的に同様な値を有する記述子８０２のクラスターまたはグループを特定する。例えば、Ｔ２Ｓ２ベクトルにおける変数の値は、同様である。各クラスターの代表的な記述子９０４を選択して、量子化表９００における位置および対応する記述子キーワード９０２を割り当てる。記述子キーワード９０２は、対応する代表的記述子９０４を特定する望ましいインディケータであればいずれでも含むことができる。例えば、記述子キーワード９０２は、図９に示すような整数値、または英数値、数値、記号、テキスト、あるいはその組み合わせを含むことができる。実施形態の中には、記述子キーワード９０２が、記述子キーワードを、テキストに基づかない検索モードと関連付けられたものとして特定する、キャラクターのシーケンスを含むことができる場合もある。例えば、全ての記述子キーワードは、一連の３つの整数、およびそれに続く下線付きキャラクター(underscore character)を、キーワードにおける最初の４キャラクターとして含むことができる。次に、この初期シーケンスを用いて、記述子キーワードを、画像と関連付けられたものとして特定することができる。

[0039] 記述子８０２毎に、最も密接に一致する代表記述子９０４を、量子化表９００において特定することができる。例えば、図８に示す記述子８０２ａは、図９における量子化表９００の代表記述子９０４ａと最も密接に対応する。記述子８０２の各々に対する記述子キーワード９０２は、これによって画像５００と関連付けられる（例えば、記述子８０２ａは記述子識別子９０２「１」と対応する）。画像５００と関連付けられた記述子キーワード９０２は、各々、互いに異なっていてもよく、あるいは記述子キーワード９０２の内１つ以上を画像５００に多数回関連付けてもよい（例えば、画像５００は、「１、２、３、４」または「１、２、２、３」の記述子キーワード９０２を有するのでもよい）。一実施形態では、画像のばらつき(image variations)のような特性を考慮するために、記述子８０２に最も近く一致する１つよりも多い代表記述子９０４、およびそれに対するそれぞれの記述子キーワード９０２を特定することによって、記述子８０２を１つよりも多い記述子識別子９０２にマッピングしてもよい。以上に基づいて、１組の特定した対象点５０２を有する画像５００のコンテンツを、１組の記述子キーワード９０２によって表すことができる。

[0040] 他の実施形態では、他のタイプの画像に基づく検索を検索方式に統合することができる。例えば、顔認識方法は、他のタイプの画像検索に備えることができる。前述のように記述子キーワードを特定することに加えて、および／またはその代わりに、顔認識方法を用いて、画像の中にいる人間の識別(identity)を判定することができる。画像の中にいる人の識別は、検索クエリーを補足するために用いることができる。他の選択肢は、顔認識技術によりマッチングのために、人のライブラリーを有することとすることができる。このライブラリーには、種々の人についてのメタデーターを含むことができ、この格納されているメタデーターを用いて検索クエリーを補足することができる。

[0041] 以上、画像に基づく検索方式をテキストに基づく検索方式に適応させることについての説明を行った。同様の適応化(adaptation)は、オーディオに基づく検索方式というような、他のモードの検索についても行うことができる。一実施形態では、従来のタイプのオーディオに基づく検索はいずれも用いることができる。オーディオに基づく検索のための方法は、同様の特性を有するオーディオ・ファイルを特定するために用いられる１つ以上のタイプの特徴を有することができる。先に説明したように、オーディオ特徴を記述子キーワードと相関付けることができる。記述子キーワードは、キーワードの最後の４つのキャラクターを、ハイフンおよびそれに続く４つの数値に対応させるというように、キーワードがオーディオ検索に関係があることを示すフォーマットを有することができる。
マルチモード・クエリーに基づく検索の例
[0042] 検索例１ − 画像情報を、テキストに基づくクエリーに追加する。従来の検索方法に伴う１つの難題は、共通のクエリー用語に対して所望の結果を特定することである。共通のクエリー用語を伴うことができる１つのタイプの検索は、"Steve Smith"というような、一般によくある名前による人の検索である。"steve smith"というキーワード・クエリーを検索エンジンに提出すると、多数の結果が呼応結果として特定される可能性が高く、これらの結果は、同じ名前または似ている名前を共有する多数の異なる人に対応する可能性が高い。

[0043] 一実施形態では、名前が付いているエンティティの検索は、そのエンティティの写真を検索クエリーの一部として提出することによって改良することができる。例えば、キーワード・テキスト・ボックスに"steve smith"と入力することに加えて、対象となる特定のMr. Smithの画像またはビデオを、画像に基づくクエリー情報を受け取る場所にドロップすることができる。次いで、顔認識ソフトウェアを用いて、正しい"Steve Smith"を検索クエリーと照合することができる。加えて、画像またはビデオが他の人も含む場合、追加の人に基づく結果には、対象の人を示すキーワード・クエリーによって、より低い格付けを指定することもできる。その結果、キーワードおよび画像またはビデオの組み合わせを用いて、人（または他のエンティティ）に対応する結果を、共通の名前によって効率的に特定することができる。

[0044] 以上のことの変形として、ユーザーがある人の画像またはビデオを有しているが、その人の名前を知らないという状況について考える。この人は、政治家、俳優または女優、スポーツ選手、あるいは顔認識または画像照合技術によって認識することができる他の人または他のエンティティのいずれでも可能である。この状況において、そのエンティティを含む画像またはビデオを、１つ以上のキーワードと共に、マルチモード検索クエリーとして提出することができる。この状況では、１つ以上のキーワードは、「政治家」または「女優」というような、エンティティに関してユーザーが所有する情報を表すことができる。追加のキーワードは、種々の方法で画像検索を補助することができる。画像またはビデオおよびキーワードの双方を有することの利点の１つは、ユーザーに関心がある結果には、より高い格付けを与えることができることである。キーワード「女優」を画像と一緒に提出することによって、画像の中にいる人の名前を知りたいというユーザーの意図を示し、クレジットの中にその女優を掲示する映画についての結果よりも高く格付けされた結果として、その女優の名前に至ることになる。加えて、正確な一致が達成されない顔認識または他の画像分析技術では、キーワードは、潜在的な呼応検索結果を格付けするときに役立つことができる。顔認識方法が連邦上院議員および著者の双方を潜在的な一致として特定した場合、キーワード「政治家」を用いて、連邦上院議員についての情報を、最高に格付けした結果として提供することができる。

[0045] 検索例２ − マルチモード・クエリーに対するクエリーの絞り込み。この例では、ユーザーが、音楽ＣＤまたは映画ＤＶＤのような、店で見つけた製品についてもっと多くの情報を得ることを望む。検索プロセスまでの先駆(precursor)として、ユーザーは、関心がある音楽ＣＤのカバーの写真を撮ることができる。次いで、この写真を検索クエリーとして提出することができる。画像認識および／または照合を用いて、このＣＤカバーを、追加のメタデーターを含むＣＤカバーの格納されている画像と照合することができる。このメタデーターは、任意なこととして、アーティストの名前、ＣＤの名称、ＣＤ上にある個々の歌の名前、またはＣＤに関する情報であれば他のいずれでも含むことができる。

[0046] 格納されているＣＤカバーの画像を、呼応結果として、そして恐らくは最高に格付けされた結果として戻すことができる。実施形態によっては、ユーザーに、初期結果ページにおいて、潜在的に可能なクエリーの修正を提案することもでき、またはユーザーが、潜在的に可能なクエリー修正にアクセスするために、リンク上でクリックするのでもよい。クエリー修正は、アーティストの名前、ＣＤの名称、またはＣＤ上における人気のある歌の１つの名前というような、メタデーターに基づく提案を含むことができる。これらのクエリー修正は、ユーザーにリンクとして提案することができる。あるいは、クエリー・メタデーターの一部または全部をキーワード検索ボックスに追加する選択肢を、ユーザーに提供することもできる。また、ユーザーが追加の検索用語によって、提案された修正を補足することもできる。例えば、ユーザーがアーティストの名前を選択し、次いで「コンサート」という単語をクエリー・ボックスに追加することができる。追加の単語「コンサート」は、検索クエリーの一部として用いるために、画像と関連付けることができる。これによって、例えば、そのアーティストについて今後のコンサートの日程を示す呼応結果を生成することができる。クエリー提案または修正に対する他の選択肢には、価格情報、アーティストに関係するニュース、ＣＤ上にある歌の歌詞、または他のタイプの提案を含むことができる。任意なこととして、ユーザーから他の行為を行うことなく、修正クエリーに対する呼応結果を生成するために、何らかのクエリー修正を検索のために自動的に提出することができる。例えば、ＣＤカバーに基づいて「価格」というキーワードをクエリーに追加すると、種々のオンライン販売店が初期検索結果ページと共に戻されるように、自動的なクエリー修正となることができる。

[0047] 尚、以上の例では、クエリー画像を最初に提出し、次いで絞り込みとしてキーワードをクエリーと関連付けたことを注記しておく。同様の絞り込みは、テキスト・キーワード検索から開始し、次いで画像、ビデオ、またはオーディオ・ファイルに基づいて絞り込みすることによっても実行することができる。

[0048] 検索例３ − 移動体検索の改良。この例では、ユーザーは概略的に尋ねたいことを知っているかもしれないが、検索クエリーをどのように組み立てればよいか定かでないということもあり得る。このタイプの移動体検索は、あらゆるタイプの場所、人、物体、または他のエンティティについての検索に用いることができる。１つ以上のキーワードを追加することによって、ユーザーは、最良の画像一致に基づいてではなく、ユーザーの意図に基づいて呼応結果を受け取ることが可能になる。キーワードは、画像を検索クエリーとして提出する前に、例えば、検索テキスト・ボックスに追加することができる。任意なこととして、キーワードは、画像、ビデオ、またはオーディオ・ファイルに付随するメタデーターから導き出すことができるいずれのキーワードでも補足することができる。例えば、ユーザーがレストランの写真を撮り、この写真を検索クエリーとして、「メニュー」というキーワードと共に提出することができる。これによって、そのレストランのメニューを伴う結果の格付けが高くなる。あるいは、ユーザーがある種類の猫のビデオを撮影し、検索クエリーを「種」という単語と共に提出することができる。これによって、同様の活動を行う他の動物の画像またはビデオ結果を戻すのではなく、その種類の猫を特定する結果の関連性を高めることになる。更に他の選択肢を上げると、映画のポスターの画像を、「サウンドトラック」というキーワードと共に提出し、その映画で演奏される歌を特定することができる。

[0049] 更に他の例として、市内を移動しているユーザーが、その地域の大量輸送システムの予定に関する情報を望むという場合もあり得る。生憎、このユーザーはそのシステムの名称を知らない。ユーザーは、＜都市の名前＞のキーワード・クエリーおよび「大量輸送」をタイプ入力することによって開始する。これによって、大量の結果が戻されるが、ユーザーはどの結果が最も役立つかに関して確信がない。次いで、ユーザーは近隣のバス停留所においてその輸送システムのロゴに気がつく。ユーザーは、そのロゴの写真を撮り、このロゴをクエリーの一部として用いて、検索を絞り込む。すると、このロゴと関連のあるバス・システムが、最も高く格付けされた結果として戻され、正しい輸送予定を特定できたという確信をユーザーに与える。

[0050] 検索例４ − マルチモード検索がオーディオ・ファイルを伴う場合。ビデオまたは画像に加えて、他のタイプの入力モードも検索に用いることができる。オーディオ・ファイルは、適したクエリー入力の他の例を表す。画像またはビデオについて先に説明したように、オーディオ・ファイルを、キーワードと合わせて検索クエリーとして提出することができる。あるいは、他のタイプのクエリー入力の提出の前に、またはその後に、クエリー絞り込みの一部として、オーディオ・ファイルを提出することもできる。尚、実施形態の中には、ユーザーがキーワード入力を全く供給することなく、マルチモード検索クエリーが、多数のタイプのクエリー入力を含むことができる場合もあることを注記しておく。つまり、ユーザーは、画像およびビデオ、またはビデオおよびオーディオ・ファイルを供給することができる。更に他の選択肢をあげるとすると、多数の画像、ビデオ、および／またはオーディオ・ファイルを、キーワードと共にクエリー入力として含ませることとすることができる。

[0051] 以上、本発明の種々の実施形態の全体像について端的に説明したので、これより本発明を実施するに適した動作環境例について説明する。図面全体を参照するが、特に最初に図１を参照すると、本発明の実施形態を実現するための動作環境例が示されており、全体的に計算機１００として示されている。しかし、計算機１００は、適した計算環境の一例に過ぎず、本発明の使用範囲や機能に関して何ら限定を示唆する意図はない。また、計算機１００が、図示されているコンポーネントの内任意の１つやその組み合わせに関して何らかの依存性や要件を有するというように解釈してはならない。

[0052] 本発明の実施形態は、コンピューター、あるいはパーソナル・データー・アシスタントまたはその他のハンドヘルド・デバイスというような他の装置によって実行される、プログラム・モジュールのようなコンピューター実行可能命令を含む、コンピューター・コードまたは装置使用可能命令という一般的なコンテキストで説明することができる。一般に、ルーチン、プログラム、オブジェクト、コンポーネント、データー構造等を含むプログラム・モジュールは、特定のタスクを実行するコード、または特定の抽象データー・タイプを実装するコードを指す。本発明は、ハンドヘルド・デバイス、消費者用電子機器、汎用コンピューター、より特殊な計算デバイス等を含む、種々のシステム構成において実用することができる。また、本発明は分散型計算環境においても実用することができ、この環境では、通信ネットワークを通じてリンクされているリモート処理デバイスによってタスクを実行する。

[0053] 引き続き図１を参照すると、計算機１００は、以下のデバイスを直接的または間接的に結合するバス１１０を含む。そのデバイスとは、メモリー１１２、１つ以上のプロセッサー１１４、１つ以上のプレゼンテーション・コンポーネント１１６、入力／出力（Ｉ／Ｏ）ポート１１８、Ｉ／Ｏコンポーネント１２０、および例示の電源１２２である。バス１１０は、１つ以上のバス（アドレス・バス、データー・バス、またはこれらの組み合わせ）であるものを表す。図１の種々のブロックは、明確にするために、線で示されているが、実際には種々のコンポーネントの輪郭はそれほど明らかではなく、比喩的には、もっと正確に示すならば、これらの線は灰色で曖昧になるであろう。例えば、ディスプレイ・デバイスのようなプレゼンテーション・コンポーネントを、Ｉ／Ｏコンポーネントと見なす人もいると考えられる。加えて、多くのプロセッサーはメモリーを有する。本発明者は、このようなことは技術の本質であることを認識しており、図１の線図は本発明の１つ以上の実施形態と共に使用することができる計算機例の一例に過ぎないことを繰り返しておく。「ワークステーション」、「サーバー」、「ラップトップ」、「ハンドヘルド・デバイス」などのようなカテゴリー間では区別は行われない。何故なら、これらは全て図１の範囲に入り、「計算機」と呼ばれると考えられるからである。

[0054] 計算機１００は、通例、種々のコンピューター読み取り可能媒体を含む。コンピューター読み取り可能媒体は、計算機１００によってアクセスすることができる任意の利用可能な媒体とすることができ、揮発性および不揮発性媒体双方のリムーバブル媒体および非リムーバブル媒体を含む。一例として、そして限定ではなく、コンピューター読み取り可能媒体は、コンピューター記憶媒体および通信媒体を含むことができる。コンピューター記憶媒体は、コンピューター読み取り可能命令、データー構造、プログラム・モジュール、または他のデーターのような情報の格納のための任意の方法または技術で実現される、揮発性および不揮発性双方のリムーバブルおよび非リムーバブル媒体を含む。コンピューター記憶媒体は、限定ではなく、ランダム・アクセス・メモリー（ＲＡＭ）、リード・オンリー・メモリー（ＲＯＭ）、電子的消去可能プログラム可能リード・オンリー・メモリー（ＥＥＰＲＯＭ）、フラッシュ・メモリーまたは他のメモリー技術、ＣＤ−ＲＯＭ、ディジタル・バーサタイル・ディスク（ＤＶＤ）または他のホログラフ・メモリー、磁気カセット、磁気テープ、磁気ディスク記憶デバイスまたは他の磁気記憶デバイス、搬送波、あるいは所望の情報を格納するために使うことができそして計算機１００によってアクセスすることができるその他のあらゆる媒体も含むことができる。一実施形態では、コンピューター記憶媒体は、有形コンピューター記憶媒体から選択することができる。他の実施形態では、コンピューター記憶媒体は、永続的(non-transitory)コンピューター記憶媒体から選択することができる。

[0055] メモリー１１２は、揮発性および／または不揮発性メモリーの形態としたコンピューター記憶媒体を含む。このメモリーは、リムーバブル、非リムーバブル、またはその組み合わせであってもよい。ハードウェア・デバイスの例には、ソリッド・ステート・メモリー、ハード・ドライブ、光ディスク・ドライブ等が含まれる。計算機１００は、メモリー１１２、またはＩ／Ｏコンポーネント１２０のような種々のエンティティからデーターを読み出す１つ以上のプロセッサーを含む。プレゼンテーション・コンポーネント（１つまたは複数）１１６は、データー指示をユーザーまたは他のデバイスに提示する。プレゼンテーション・コンポーネントの例には、ディスプレイ・デバイス、スピーカー、印刷コンポーネント、振動コンポーネント等が含まれる。

[0056] Ｉ／Ｏポート１１８は、Ｉ／Ｏコンポーネント１２０を含む他のデバイスに計算機１００を論理的に結合することを可能にする。これら他のデバイスの一部は内蔵されていてもよい。例示的なコンポーネントには、マイクロフォン、ジョイスティック、ゲーム・パッド、衛星ディッシュ、スキャナー、プリンター、ワイヤレス・デバイス等が含まれる。

[0057] 付加的に図２を参照して、本発明の実施形態における使用に適したネットワーク環境例２００を示すブロック図について説明する。環境２００は、本発明の実施形態において用いることができる環境の一例に過ぎず、多種多様な構成においてあらゆる数のコンポーネントを含んでもよい。本明細書において行う環境２００の説明は、例示を目的とするのであって、本発明の実施形態を実現することができる環境の構成を限定することを意図するのではない。

[0058] 環境２００は、ネットワーク２０２、クエリー入力デバイス２０４、および検索エンジン・サーバー２０６を含む。ネットワーク２０２は、例えばそして限定ではなく、インターネット、イントラネット、私有および公衆ローカル・ネットワーク、ならびにワイヤレス・データーまたは電話ネットワークというような、あらゆるコンピューター・ネットワークを含む。クエリー入力デバイス２０４は、計算機１００のような、いずれかの計算機であり、ここから検索クエリーを供給することができる。例えば、クエリー入力デバイス２０４は、とりわけ、パーソナル・コンピューター、ラップトップ、サーバー・コンピューター、ワイヤレス電話機またはワイヤレス・デバイス、パーソナル・ディジタル・アシスタント（ＰＤＡ）、あるいはディジタル・カメラであってもよい。一実施形態では、数千または数百万台のクエリー入力デバイス２０４というような、複数のクエリー入力デバイス２０４がネットワーク２０２に接続されている。

[0059] 検索エンジン・サーバー２０６は、計算機１００のような、いずれかの計算機を含み、コンテンツに基づく検索エンジンを設けるための機能の少なくとも一部を設ける。一実施形態では、一群の検索エンジン・サーバー２０６が、検索エンジン処理をユーザー集団(user population)に提供するために必要な機能を共有または分散する。

[0060] 画像処理サーバー２０８も環境２００の中に設けられている。画像処理サーバー２０８は、計算機１００のような、いずれかの計算機を含み、画像のコンテンツを分析し、表現し、インデックスを付けるように構成されている。これについては、以下で更に詳しく説明する。画像処理サーバー２０８は、量子化表２１０を含む。量子化表２１０は、画像処理サーバー２０８のメモリーに格納されているか、または画像処理サーバー２０８によって離れてアクセスすることができる。量子化表２１０は、画像の特徴を検索しインデックスを付けることを可能にするために、画像のコンテンツのマッピングを通知する際に、画像処理サーバー２０８によって用いられる。

[0061] 検索エンジン・サーバー２０６および画像処理サーバー２０８は、画像ストア２１２およびインデックス２１４に通信状態で結合されている。画像ストア２１２およびインデックス２１４は、ハード・ディスク・ドライブ、フラッシュ・メモリー、光メモリー・デバイス等というような、あらゆる利用可能なコンピューター記憶デバイスまたは複数のコンピューター記憶デバイスを含む。画像ストア２１２は、本発明の一実施形態のコンテンツに基づく検索に応答して供給することができる画像ファイルのために、データー・ストレージを設ける。インデックス２１４は、ネットワーク２０２を通じて入手可能な文書のコンテンツに基づく検索のために、検索インデックスを提供する。入手可能な文書は、画像ストア２１２に格納されている画像を含む。インデックス２１４は、いずれのインデックス化データー構造またはフォーマットでも利用することができ、好ましくは、逆インデックス・フォーマットを採用する。尚、実施形態の中には、画像ストア２１２を任意にすることができる場合もあることを注記しておく。

[0062] 逆インデックスは、データー構造におけるコンテンツの位置を示すマッピングを提供する。例えば、文書を検索して特定のキーワード（キーワード記述子を含む）を求めるとき、そのキーワードは、文書における単語の位置、および／または画像文書における特徴の存在を特定する逆インデックスにおいて発見され、文書を検索して単語または特徴の位置を発見するのではない。

[0063] 一実施形態では、検索エンジン・サーバー２０６、画像処理サーバー２０８、画像ストア２１２、およびインデックス２１４の内１つ以上が、１つの計算機の中に統合されるか、またはネットワーク２０２を横断することなくデバイス間で直接通信を可能にするように、直接通信状態で結合される。

[0064] 図１０は、本発明の一実施形態による方法、言い換えると、本発明の一実施形態にしたがって、コンピューター記憶媒体上に具体化された方法のための実行可能命令を示す。図１０において、画像、ビデオ、またはオーディオ・ファイルを取り込む（１０１０）。このファイルは、抽出することができる複数の関連性特徴(relevance feature)を含む。画像、ビデオ、またはオーディオ・ファイルを少なくとも１つのキーワードと関連付ける（１０２０）。画像、ビデオ、またはオーディオ・ファイルを、クエリーとして検索エンジンに提出する（１０３０）。複数の関連性特徴および関連キーワードの双方に呼応する、少なくとも１つの呼応結果を受け取る（１０４０）。次いで、この少なくとも１つの呼応結果を表示する（１０５０）。

[0065] 図１１は、本発明の一実施形態による他の方法、言い換えると、本発明の一実施形態にしたがって、コンピューター記憶媒体上に具体化された方法のための実行可能命令を示す。図１１において、少なくとも２つのクエリー・モードを含むクエリーを受け取る（１１１０）。少なくとも２つのクエリー・モードに対応する関連性特徴を、クエリーから抽出する（１１２０）。抽出した関連性特徴に基づいて、複数の呼応結果を選択する（１１３０）。また、抽出した関連性特徴に基づいて、複数の呼応結果の格付けも行う（１１４０）。次いで、格付けした呼応結果の内１つ以上を表示する（１１５０）。

[0066] 図１２は、本発明の一実施形態による他の方法、言い換えると、本発明の一実施形態にしたがって、コンピューター記憶媒体上に具体化された方法のための実行可能命令を示す。図１２において、少なくとも１つのキーワードを含むクエリーを受け取る（１２１０）。受け取ったクエリーに基づいて、複数の呼応結果を表示する（１２２０）。画像、ビデオ、またはオーディオ・ファイルの内少なくとも１つを含む補足クエリー入力を受け取る（１２３０）。複数の呼応結果の格付けを、補足クエリー入力に基づいて修正する（１２４０）。修正格付けに基づいて、呼応結果の内１つ以上を表示する（１２５０）。
追加の実施形態
[0067] 第１に考えられる実施形態は、マルチモード検索の実行方法を含む。この方法は、少なくとも２つのクエリー・モードを含むクエリーを受け取るステップ（１１１０）と、少なくとも２つのクエリー・モードに対応する関連性特徴をクエリーから抽出するステップ（１１２０）と、抽出した関連性特徴に基づいて、複数の呼応結果を選択するステップ（１１３０）と、抽出した関連性特徴に基づいて、複数の呼応結果を格付けするステップ（１１４０）と、格付けした呼応結果の内１つ以上を表示するステップ（１１５０）とを含む。

[0068] 第２の実施形態は、第１実施形態の方法を含み、受け取ったクエリーにおけるクエリー・モードが、キーワード、画像、ビデオ、またはオーディオ・ファイルの内２つ以上を含む。

[0069] 第３実施形態は、以上の実施形態の内いずれかを含み、複数の呼応文書を、少なくとも２つのクエリー・モードから、関連性特徴を組み込んだ逆インデックスを用いて選択する。

[0070] 第４実施形態は、第３実施形態を含み、画像、ビデオ、またはオーディオ・ファイルから抽出した関連性特徴を、記述子キーワードとして、逆インデックスに組み込む。

[0071] 第５実施形態では、マルチモード検索の実行方法を提供する。この方法は、
抽出することができる複数の関連性特徴を含む画像、ビデオ、またはオーディオ・ファイルを取り込むステップ（１０１０）と、画像、ビデオ、またはオーディオ・ファイルを少なくとも1つのキーワードと関連付けるステップ（１０２０）と、画像、ビデオ、またはオーディオ・ファイルおよび関連付けたキーワードを、クエリーとして検索エンジンに提出するステップ（１０３０）と、複数の関連性特徴および関連付けたキーワードの双方に呼応する少なくとも１つの呼応結果を受け取るステップ（１０４０）と、少なくとも１つの呼応結果を表示するステップ（１０５０）とを含む。

[0072] 第６実施形態は、前出の実施形態のいずれかを含み、抽出した関連性特徴が、キーワードおよび画像に対応する。
[0073] 第７実施形態は、前出の実施形態のいずれかを含み、更に、画像、ビデオ、またはオーディオ・ファイルからメタデーターを抽出するステップと、抽出したメタデーターから１つ以上のキーワードを特定するステップと、受け取ったクエリーからの少なくとも１つの抽出した関連性特徴と、抽出したメタデーターから特定したキーワードとを少なくとも含む第２クエリーを形成するステップとを備えている。

[0074] 第８実施形態は、第７実施形態を含み、抽出した関連性特徴に基づいて複数の呼応文書を格付けするステップが、更に、第２クエリーに基づいて、複数の呼応文書を格付けするステップを含む。

[0075] 第９実施形態は、第７または第８実施形態を含み、第２クエリーを、表示される呼応結果と関連付けて表示する。
[0076] 第１０実施形態は、第７から第９までの実施形態のいずれかを含み、更に、第２クエリーに基づいて、第２複数の呼応文書を自動的に選択するステップと、第２クエリーに基づいて、第２複数の呼応文書を格付けするステップと、第２複数の呼応文書から少なくとも１つの文書を表示するステップとを備えている。

[0077] 第１１実施形態は、前出の実施形態のいずれかを含み、取り込みデバイスに付随するカメラから、画像またはビデオとして、画像またはビデオを取り込む。
[0078] 第１２実施形態は、前出の実施形態のいずれかを含み、格納されている画像、ビデオ、またはオーディオ・ファイルにネットワークを通じてアクセスすることによって、画像、ビデオ、またはオーディオ・ファイルを取り込む。

[0079] 第１３実施形態は、前出の実施形態のいずれかを含み、少なくとも１つの呼応結果が、テキスト文書、画像、ビデオ、オーディオ・ファイル、テキスト文書の識別、画像の識別、ビデオの識別、オーディオ・ファイルの識別、またはその組み合わせを備えている。

[0080] 第１４実施形態は、前出の実施形態のいずれかを含み、前述の方法が、更に、提出したクエリーと、少なくとも１つの呼応結果に対応するメタデーターとに基づいて、１つ以上のクエリー提案を表示するステップを備えている。

[0081] 第５実施形態では、マルチモード検索の実行方法を提供する。この方法は、少なくとも１つのキーワードを備えているクエリーを受け取るステップ（１２１０）と、受け取ったクエリーに基づいて、複数の呼応結果を表示するステップ（１２２０）と、画像、ビデオ、またはオーディオ・ファイルの内少なくとも１つを備えている補足クエリー入力を受け取るステップ（１２３０）と、補足クエリー入力に基づいて、複数の呼応結果の格付けを修正するステップ（１２４０）と、修正した格付けに基づいて、呼応結果の内１つ以上を表示するステップ（１２５０）とを含む。

[0082] 本発明の実施形態について、特定の実施形態に関して説明した。これらの実施形態は、あらゆる観点において、限定的ではなく例示的であることを意図している。本発明に関係する技術の当業者には、本発明の範囲から逸脱することなく、代替実施形態も明らかであろう。

[0083] 以上の説明から、本発明は、先に明記した目的および目標を、自明であり本構造に固有である他の利点と共に達成するのに非常に適していることが分かるであろう。
[0084] ある種の特徴およびサブコンビネーションは有益であり、他の特徴およびサブコンビネーションを参照しなくても採用できることは言うまでもない。これは、請求項の範囲によって想定されていることであり、その範囲に含まれることとする。

Claims

マルチモード検索の実行方法であって、
少なくとも２つのクエリー・モードを含むクエリーを受け取るステップと、
前記少なくとも２つのクエリー・モードに対応する関連性特徴を前記クエリーから抽出するステップと、
前記抽出した関連性特徴に基づいて、複数の呼応結果を選択するステップと、
前記抽出した関連性特徴に基づいて、前記複数の呼応結果を格付けするステップと、
前記格付けした呼応結果の内１つ以上を表示するステップと、
を備えている、方法。
請求項１記載の方法において、前記受け取ったクエリーにおける前記クエリー・モードが、キーワード、画像、ビデオ、またはオーディオ・ファイルの内２つ以上を含む、方法。
前出の請求項のいずれか１項記載の方法において、前記複数の呼応文書を、前記少なくとも２つのクエリー・モードから、関連性特徴を組み込んだ逆インデックスを用いて選択する、方法。
請求項３記載の方法において、前記画像、ビデオ、またはオーディオ・ファイルから抽出した関連性特徴を、記述子キーワードとして、前記逆インデックスに組み込む、方法。
マルチモード検索の実行方法であって、
抽出することができる複数の関連性特徴を含む画像、ビデオ、またはオーディオ・ファイルを取り込むステップと、
前記画像、ビデオ、またはオーディオ・ファイルを少なくとも1つのキーワードと関連付けるステップと、
前記画像、ビデオ、またはオーディオ・ファイルおよび関連付けたキーワードを、クエリーとして検索エンジンに提出するステップと、
前記複数の関連性特徴および前記関連付けたキーワードの双方に呼応する少なくとも１つの呼応結果を受け取るステップと、
前記少なくとも１つの呼応結果を表示するステップと、
を備えている、方法。
前出の請求項のいずれか１項記載の方法において、前記抽出した関連性特徴が、キーワードおよび画像に対応する、方法。
前出の請求項のいずれか１項記載の方法であって、更に、
画像、ビデオ、またはオーディオ・ファイルからメタデーターを抽出するステップと、
前記抽出したメタデーターから１つ以上のキーワードを特定するステップと、
前記受け取ったクエリーからの少なくとも１つの抽出した関連性特徴と、前記抽出したメタデーターから特定したキーワードとを少なくとも含む第２クエリーを形成するステップと、
を備えている、方法。
請求項７記載の方法において、前記抽出した関連性特徴に基づいて前記複数の呼応文書を格付けするステップが、更に、前記第２クエリーに基づいて、前記複数の呼応文書を格付けするステップを含む、方法。
請求項７または８記載の方法において、前記第２クエリーを、前記表示される呼応結果と関連付けて表示する、方法。
請求項７から９までのいずれか１項記載の方法であって、更に、
前記第２クエリーに基づいて、第２複数の呼応文書を自動的に選択するステップと、
前記第２クエリーに基づいて、前記第２複数の呼応文書を格付けするステップと、
前記第２複数の呼応文書から少なくとも１つの文書を表示するステップと、
を備えている、方法。
前出の請求項のいずれか１項記載の方法において、取り込みデバイスに付随するカメラから、画像またはビデオとして、画像またはビデオを取り込む、方法。
前出の請求項のいずれか１項記載の方法において、格納されている画像、ビデオ、またはオーディオ・ファイルにネットワークを通じてアクセスすることによって、画像、ビデオ、またはオーディオ・ファイルを取り込む、方法。
前出の請求項のいずれか１項記載の方法において、前記少なくとも１つの呼応結果が、テキスト文書、画像、ビデオ、オーディオ・ファイル、テキスト文書の識別、画像の識別、ビデオの識別、オーディオ・ファイルの識別、またはその組み合わせを備えている、方法。
前出の請求項のいずれか１項記載の方法において、更に、前記提出したクエリーと、少なくとも１つの呼応結果に対応するメタデーターとに基づいて、１つ以上のクエリー提案を表示するステップを備えている、方法。
マルチモード検索の実行方法であって、
少なくとも１つのキーワードを備えているクエリーを受け取るステップと、
前記受け取ったクエリーに基づいて、複数の呼応結果を表示するステップと、
画像、ビデオ、またはオーディオ・ファイルの内少なくとも１つを備えている補足クエリー入力を受け取るステップと、
前記補足クエリー入力に基づいて、前記複数の呼応結果の格付けを修正するステップと、
前記修正した格付けに基づいて、前記呼応結果の内１つ以上を表示するステップと、
を備えている、方法。