JP2013541793A - マルチモード検索クエリー入力手法 - Google Patents

マルチモード検索クエリー入力手法 Download PDF

Info

Publication number
JP2013541793A
JP2013541793A JP2013537741A JP2013537741A JP2013541793A JP 2013541793 A JP2013541793 A JP 2013541793A JP 2013537741 A JP2013537741 A JP 2013537741A JP 2013537741 A JP2013537741 A JP 2013537741A JP 2013541793 A JP2013541793 A JP 2013541793A
Authority
JP
Japan
Prior art keywords
query
image
video
search
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013537741A
Other languages
English (en)
Inventor
リウ,ジーヤン
スン,ジアン
シュム,ヘン−ユン
ヤン,シャオソン
クオ,ユー−ティン
チャン,レイ
リー,イー
ケー,チーファ
リウ,ツェー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2013541793A publication Critical patent/JP2013541793A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

多数のモードのクエリー入力を含む検索クエリーを用いて、呼応結果を特定する。検索クエリーは、キーワードまたはテキスト入力、画像入力、ビデオ入力、オーディオ入力、または他のモードの入力の組み合わせで構成することができる。この多数のモードのクエリー入力は、初期検索要求において提示することができ、あるいは1つのタイプのクエリー入力を含む初期要求を、第2タイプの入力で補足することができる。呼応結果を提供することに加えて、実施形態の中には、クエリーの内容または最初の呼応結果に基づいて、追加のクエリー絞り込みまたは提案を行うこともできる。
【選択図】図4

Description

[0001] 当技術分野では、ワイド・エリア・ネットワークを通じた検索エンジンによるというような、種々の情報検索および引き出し方法が知られている。このような方法は、通例、テキストに基づく検索を採用する。テキストに基づく検索は、単語または句というような1つ以上のテキスト要素を含む検索クエリーを用いる。このテキスト要素は、インデックスまたは他のデーター構造と比較され、一致するまたは意味的に近いテキスト・コンテンツ、メタデーター、ファイル名、または他のテキスト表現を含むウェブ・ページというような、文書を特定する。
[0002] テキストに基づく既知の検索方法は、テキスト主体文書(text-based document)では比較的思い通りに動作するが、これらを画像ファイルやデーターに適用するのは困難である。画像ファイルをテキストに基づくクエリーによって検索するためには、画像ファイルが、名称、ファイル名、あるいは他のメタデーターまたはタグというような、1つ以上のテキスト要素と関連付けられていなければならない。テキストに基づく検索に採用される検索エンジンおよびアルゴリズムは、画像のコンテンツに基づいて画像ファイルを検索することができず、したがって、画像に付随するデーターのみに基づく検索結果画像を特定することに制限される。
[0003] 画像のコンテンツを分析して視覚的に同様の画像を特定する、コンテンツに基づく画像検索方法が開発されている。しかしながら、このような方法では、画像検索の入力に関連があるテキスト主体文書を特定することに関して、制限される可能性がある。
[0004] 種々の実施形態において、検索クエリーの一部として多数のモードの入力を用いる方法を提供する。これらの方法は、キーワードまたはテキスト入力、画像入力、ビデオ入力、オーディオ入力、または他のモードの入力の組み合わせで構成された検索クエリーに対応する。次いで、種々のモードのクエリー入力から抽出された特徴に基づいて、呼応する文書(responsive document)の検索を実行することができる。多数のモードのクエリー入力を初期検索要求において示すことができ、あるいは1つのタイプのクエリー入力を含む初期要求に、第2のタイプの入力を補足することもできる。呼応する結果を提供することに加えて、実施形態の中には、追加のクエリー絞り込み(refinement)またはクエリー提案(suggestion)を、クエリーの内容または初期呼応結果に基づいて行うことができる。
[0005] この摘要は、詳細な説明の章において以下で更に説明する概念から選択したものを簡略化された形式で紹介するために、設けられている。この摘要は、特許請求する主題の主要な特徴や必須の特徴を特定することを意図するのではなく、特許請求する主題の範囲を判断するときに、別個に、補助として使用されることを意図するのでもない。
[0006] 以下に、添付図面を参照しながら本発明について詳しく説明する。
図1は、本発明の実施形態を実現するときの使用に適した計算環境例のブロック図である。 図2は、本発明の実施形態を実行するのに適したネットワーク環境を模式的に示す。 図3は、本発明の一実施形態によるユーザー・インターフェースのコンポーネントの一例を模式的に示す。 図4は、本発明の一実施形態を実行するときに必要となる種々のコンポーネントおよびプロセス間の関係を示す。 図5は、本発明の一実施形態による、画像からの画像特徴の抽出の一例を示す。 図6は、本発明の一実施形態による、画像からの画像特徴の抽出の一例を示す。 図7は、本発明の一実施形態による、画像からの画像特徴の抽出の一例を示す。 図8は、本発明の一実施形態による、画像からの画像特徴の抽出の一例を示す。 図9は、本発明の一実施形態による、画像からの画像特徴の抽出の一例を示す。 図10は、本発明の種々の実施形態による方法の一例を示す。 図11は、本発明の種々の実施形態による方法の一例を示す。 図12は、本発明の種々の実施形態による方法の一例を示す。
全体像
[0013] 種々の実施形態において、キーワードまたはテキストに基づく検索入力を他のモードの検索入力と統合するシステムおよび方法を提供する。他のモードの検索入力の例には、画像入力、ビデオ入力、およびオーディオ入力を含むことができる。更に一般的には、本システムおよび方法は、クエリーにおける多数のモードの入力に基づいて、検索の遂行に対処することができる。結果的に得られるマルチモード検索システムおよび方法の実施形態は、ユーザーが入力を検索エンジンに供給するときに、柔軟性を高めることができる。加えて、ユーザーが画像入力というようなあるタイプの入力で検索を開始したとき、次に呼応検索結果を絞り込むためまたはそれ以外で修正するために、第2タイプの入力(または多数の他のタイプの入力)を用いることができる。例えば、ユーザーは、1つ以上のキーワードを、画像入力と関連付けて入力することができる。多くの状況において、追加のキーワードの画像入力との関連付けによって、画像入力のみまたはキーワード入力のみのいずれの場合よりも、ユーザーの意図について明確な指示を与えることができる。
[0014] 実施形態の中には、マルチモード検索入力に基づく呼応結果の検索が、テキストに基づくキーワード、画像に基づく「キーワード」、ビデオに基づく「キーワード」、およびオーディオに基づく「キーワード」を含むインデックスのような、1つよりも多いタイプのデーターに関する用語を含むインデックスを用いることによって実行される場合がある。テキストに基づく検索以外の入力モードに「キーワード」を組み込むための1つの選択肢は、マルチモードの特徴を人工キーワード(artificial keyword)と相関付けることであることができる。これらの人工キーワードを記述子キーワード(descriptor keyword)と呼ぶことができる。例えば、画像に基づく検索に用いられる画像の特徴を、記述子キーワードと相関付けることができ、画像に基づく検索の特徴が、従前のテキストに基づくキーワードと同じ逆インデックス(inverted index)に現れるようにすることができる。例えば、シアトルにある"Space Needle"建物の画像が、複数の画像の特徴を含むことがあり得る。これらの画像の特徴をその画像から抽出し、次いで記述子「キーワード」と相関付けて、他のテキストに基づくキーワード用語と共に逆インデックスに組み込むことができる。
[0015] 記述子キーワードをテキストに基づくキーワード・インデックスに組み込むことに加えて、画像(または他のタイプのテキスト以外の入力)からの記述子キーワードを、従前からのキーワード用語と関連付けることもできる。上の例では、「スペース・ニードル」という用語を、Space Needleの画像からの1つ以上の記述子キーワードと相関付けることができる。これによって、記述子キーワードを含むクエリーの提案や見直しに対処することができ、したがって、画像に基づく検索を実行してSpace Needleの画像に類似する他の画像を求めるのに一層適することになる。このような提案クエリーをユーザーに提供すると、Space Needleの画像に関係がある他の画像の検索の改善を図ることができ、あるいは、提案クエリーを用いてこのような関係のある画像を自動的に識別することもできる。
[0016] 以下の論述では、マルチモード検索を実行する態様を記述するために、次の定義を用いる。特徴(feature)とは、検索クエリーに呼応するものとして、文書の選択および/または格付けの一部として用いることができるあらゆるタイプの情報を指す。テキストに基づくクエリーからの特徴は、通例、キーワードを含む。画像に基づくクエリーからの特徴は、対照をなす輝度を有する画像の部分、または顔認識では、人の顔に対応する画像の部分というような、別個であることが識別された画像の一部を含むことができる。オーディオに基づくクエリーからの特徴は、オーディオの音量レベルの変動、またはその他の検出可能なオーディオ・パターンを含むことができる。キーワードとは、従来からのテキストに基づく検索用語を指す。キーワードは、クエリーに呼応する文書を特定するための1つの用語として用いられる1つ以上の単語を指すことができる。記述子キーワードとは、テキスト以外に基づく特徴と関連付けられているキーワードを指す。つまり、記述子キーワードは、画像に基づく特徴、ビデオに基づく特徴、オーディオに基づく特徴、または他のテキスト以外の特徴を特定するために用いることができる。呼応結果(responsive result)とは、検索エンジンによって行われた選択および/または格付けに基づいて、検索クエリーに関連があると識別されたあらゆる文書を指す。呼応結果を表示するとき、文書自体を表示することによって呼応結果を表示することができ、または文書の識別子を表示することができる。例えば、テキストに基づく検索エンジンによって戻される「ブルー・リンク」(blue link)としても知られている従来のハイパーリンクは、他の文書についての識別子、または他の文書へのリンクを表す。リンク上でクリックすることによって、表されている文書にアクセスすることができる。文書についての識別子は、対応する文書について更に他の情報を提供するのでもよく、またしないのでもよい。
マルチモード検索クエリーの受け取り
[0017] 多数の検索モードからの特徴をクエリーから抽出し、そのクエリーに呼応する結果を特定するために用いることができる。一実施形態では、多数のモードのクエリー入力は、従来の方法で供給することができる。例えば、クエリー入力を受け取るユーザー・インターフェースが、キーワード・クエリー入力を受け取るダイアログ・ボックスを含むことができる。また、このユーザー・インターフェースは、ユーザーが所望の入力画像をユーザー・インターフェースに「落とす」ことを可能にする画像クエリー・ボックスのような、ユーザーによって選択された画像を受け取る場所を含むこともできる。あるいは、画像クエリー・ボックスがファイル位置またはネットワーク・アドレスを、画像入力のソースとして受け取ることもできる。同様のボックスまたは場所は、オーディオ・ファイル、ビデオ・ファイル、またはクエリー入力として用いるための他のタイプのテキスト外入力を特定するために設けることもできる。
[0018] 多数のモードのクエリー入力は、同時に受け取る必要はない。代わりに、最初にあるタイプのクエリー入力を供給することができ、次いで第2モードの入力を、クエリーを絞り込むために供給することができる。例えば、映画俳優の画像をクエリー入力として提出することができる。これによって、画像を含むと思われる、一連の一致する結果が戻される。次に、「俳優」という単語を検索クエリー・ボックスにキーワードとしてタイプ入力し、ユーザーが知ることを望む映画俳優の名前に基づいて、検索結果を絞り込むことができる。
[0019] マルチモード検索情報を受け取った後、このマルチモード情報は、呼応結果を特定するための検索クエリーとして用いることができる。呼応結果は、検索クエリーの入力モードには関係なく、検索エンジンによって関連があると判断された、あらゆるタイプの文書とすることができる。つまり、画像項目を、テキストに基づくクエリーに対する呼応文書として特定することができ、またはテキストに基づく項目を、オーディオに基づくクエリーに対する呼応文書とすることができる。加えて、1つよりも多いモードの入力を含むクエリーも、あらゆる入手可能なタイプの呼応結果を特定するために用いることができる。ユーザーに表示される呼応結果は、文書自体の形態とすること、または呼応文書についての識別子の形態とすることができる。
[0020] 1つ以上のインデックスを用いて、呼応結果の特定を容易にすることができる。一実施形態では、逆インデックス(inverted index)のような1つのインデックスを用いて、全てのタイプの検索モードに基づいてキーワードまたは記述子キーワードを格納することができる。あるいは、1つの格付けシステムが、多数のインデックスを用いて用語または特徴を格納することができる。インデックスの数や形式には関係なく、1つ以上のインデックスを、クエリーに呼応する文書を特定するための統合選択および/または格付け方法の一部として用いることができる。選択方法および/または格付け方法は、利用可能なクエリー入力モードであればそのいずれに基づいてでも、特徴を組み込むことができる。
[0021] 他のタイプの入力と関連付けられた、テキストに基づくキーワードも、抽出して用いることができる。多数のモードの情報を組み込む1つの選択肢は、他のモードのクエリー入力と関連付けられたテキスト情報を使用することとすることができる。画像、ビデオ、またはオーディオ・ファイルは、多くの場合、そのファイルにはメタデーターが付随する。これは、ファイルの名称、ファイルの主題、またはそのファイルと関連付けられている他のテキストを含むことができる。他のテキストは、文書の一部となるテキストを含むことができ、メディア・ファイルは、ウェブ・ページというようなリンクとして、またはそのメディア・ファイルを記述する他のテキストとして現れる。画像、ビデオ、またはオーディオ・ファイルに付随するメタデーターは、クエリー入力を種々の方法で補足するために用いることができる。テキスト・メタデーターは、ユーザーに提供される追加のクエリー提案を形成するために用いることができる。また、テキストは、呼応結果の格付けを変更するために、既存の検索クエリーを補足するために自動的に用いることもできる。
[0022] 入力クエリーに付随するメタデーターを用いることに加えて、呼応結果に付随するメタデーターも、検索クエリーを修正するために用いることができる。例えば、画像に基づく検索クエリーから、呼応結果として、周知のエッフェル塔の画像が得られることもあり得る。この呼応結果からのメタデーターが、エッフェル塔が呼応画像結果の主題であることを示すこともあり得る。このメタデーターは、追加のクエリーをユーザーに提案するため、または検索クエリーを自動的に補足するために用いることができる。
[0023] メタデーターを抽出するには多数の方法がある。メタデーター抽出技法は、予め決められていてもよく、あるいは人または自動プロセスのいずれかによって動的に選択されるのでもよい。メタデーター抽出技法は、(1)埋め込まれているメタデーターを求めてファイル名を解析する、(2)準同一(near-duplicate)ディジタル・オブジェクトからメタデーターを抽出する、(3)準同一ディジタル・オブジェクトがホストされているウェブ・ページにおいて、周囲にあるテキストを抽出する、(4)注釈(annotation)および解説(commentary)をサポートするウェブ・サイトに準同一ディジタル・メディア・オブジェクトが格納されている場合、このウェブ・サイトから、準同一ディジタル・オブジェクトと関連付けられた注釈および仮説を抽出する、ならびに(5)ユーザーがテキスト・クエリーの後に準同一ディジタル・オブジェクトを選択したときに、この準同一ディジタル・オブジェクトと関連付けられていたクエリー・キーワードを抽出すること、を含むことができるが、これらに限定されるのではない。他の実施形態では、メタデーター抽出技法が他の動作を伴うのであってもよい。
[0024] メタデーター抽出技法の一部では、テキストの本体から開始し、最も簡潔なメタデーターをふるい分ける場合がある。したがって、文法解釈またはその他の証拠(token)に基づく分析というような技法を利用することもできる。例えば、画像についての周囲のテキストが、字幕または長々とした節を含むことがある。少なくとも後者の場合では、長々とした節を解析して、関心のある用語を抽出するとよい。他の例では、注釈および解説は、テキストの略語(例えば、「私のつまらない意見」に対してIMHO)および感情的語類(例えば、笑顔マークおよび感嘆符の繰り返し)を含むことが知られている。IMHOは、注釈や解説において強調しているように思われるが、メタデーターを求めて検索する場所を間引く(filter out)ための候補となる可能性が高い。
[0025] 多数のメタデーター抽出技法が選択された場合、調停方法(reconciliation method)が、潜在的に矛盾する候補のメタデーター結果を調停する方法を提供することができる。調停は、例えば、統計的分析および機械学習を用いて、または代わりにルール・エンジンによって実行するのでもよい。
[0026] 図3は、本発明の一実施形態にしたがって、マルチモード検索入力を受け取り、呼応結果を表示するのに適したユーザー・インターフェースの一例を示す。図3において、このユーザー・インターフェースは、3つのタイプのクエリー入力に合わせた入力場所を設ける。入力ボックス311は、通例従来の検索エンジンによって用いられるテキスト主体入力というような、キーワード入力を受け取ることができる。入力ボックス313は、画像および/またはビデオ・ファイルを入力として受け取ることができる。入力ボックス313にペーストされるあるいは、他の言い方では、「ドロップ」される画像ファイルまたはビデオ・ファイルは、画像分析技法を用いて分析して、検索のために抽出することができる特徴を特定することができる。同様に、入力ボックス315は、オーディオ・ファイルを入力として受け取ることができる。
[0027] エリア320は、呼応結果の一覧表を収容する。図3に示す実施形態では、呼応結果332および342が現在示されている。呼応結果332は、検索に呼応すると特定された画像文書の、サムネイルのような、識別子である。画像結果332に加えて、リンクまたはアイコン334も提示され、この画像結果332(または画像結果332と関連付けられた記述子キーワード)を見直しクエリーの一部として組み組む見直し検索に考慮している。呼応結果342は、テキスト主体文書の識別子に対応する。
[0028] エリア340は、初期クエリーに基づいた提案クエリー347の一覧表を収容する。提案クエリー347は、従来のクエリー提案アルゴリズムを用いて生成することができる。また、提案クエリー347は、画像/ビデオ入力313またはオーディオ入力315に提出された入力に付随するメタデーターに基づくこともできる。更に他の提案クエリー347は、呼応結果332のような、呼応結果に付随するメタデーターに基づくことができる。
[0029] 図4は、本発明の一実施形態にしたがってマルチモード検索を実行する種々のシステムおよび/またはプロセスの相互作用を模式的に示す。図4に示す実施形態では、マルチモード検索は、キーワード・クエリー入力および画像クエリー入力の双方に基づく検索に対応する。図4において、クエリーを受け取ったことに基づいて検索を開始する。このクエリーは、クエリー・キーワード405およびクエリー画像407を含む。クエリー画像407を処理するために、画像理解コンポーネント412を用いて、この画像の中にある特徴を特定することができる。画像理解コンポーネント412によってクエリー画像407から抽出された特徴には、画像テキスト特徴および画像視覚的特徴コンポーネント422によって、記述子キーワードを割り当てることができる。画像理解コンポーネント412が用いることができる方法の一例について、図5から図9に関して以下で説明する。また、画像理解コンポーネント412は、顔認識方法、または画像において色の類似性を分析する方法というような、他のタイプの画像理解方法も含むことができる。メタデーター分析コンポーネント414は、クエリー画像407に付随するメタデーターを特定することができる。これは、画像ファイルの中に埋め込まれている情報、および/または画像の名称というような、オペレーティング・システムによってファイルと一緒に格納された情報、あるいはこのファイルの中に格納されている注釈を含むことができる。また、これは、検索において用いる画像を特定するために入力された、URLパスウェイにおけるテキスト、あるいはウェブ・ページまたは他のテキスト主体文書に配置されている画像あるいは埋め込まれている画像について、その画像の近くに位置付けられているテキストというような、その画像と関連付けられた他のテキストも含むことができる。画像テキスト特徴および画像視覚的特徴コンポーネント422は、メタデーター分析414からの出力に基づいて、キーワード特徴を特定することができる。
[0030] 画像テキスト特徴および画像視覚的特徴コンポーネント422においてクエリー用語504ならびに追加のあらゆる特徴を特定した後、コンポーネント432において、結果的に得られたクエリーを任意に変更または拡張することができる。クエリーの変更または拡張は、メタデーター分析コンポーネント414および画像テキスト特徴/画像視覚的特徴コンポーネント422においてメタデーターから導き出された特徴に基づくことができる。クエリー変更または拡張の他のソースも、UIインタラクティブ・コンポーネント462からフィードバックすることができる。これは、ユーザーによって提供される追加のクエリー情報、および現在のクエリーまたは以前のクエリーからの呼応結果に基づくクエリー提案442を含むことができる。次いで、任意に拡張または変更したクエリーを用いて、呼応結果452を生成することができる。図4において、結果の生成452は、クエリーを用いてデーターベース475において呼応文書を特定することを伴う。呼応文書は、このデーターベースの中にある文書についてのテキスト特徴および画像特徴の双方を含む。データーベース475は、クエリーに基づいて呼応結果を特定するための、逆インデックス、または他のいずれかの便利なタイプの記憶フォーマットを表すことができる。
[0031] 実施形態によっては、結果の生成452が1つ以上のタイプの結果を提示できる場合もある。状況によっては、1つまたは数個の上位に格付けされた呼応結果というような、最も可能性が高い一致の指示が望ましいこともあり得る。これは、回答444として提供することができる。あるいは、格付け順とした呼応結果の一覧表が望まれる場合もある。これは、総合格付け結果(combined ranked results)446として提供することができる。回答または格付けした結果に加えて、1つ以上のクエリー提案442もユーザーに提供することができる。結果の表示やクエリー受け取りを含む、ユーザーとの対話処理は、UIインタラクティブ・コンポーネント462によって取り扱うことができる。
マルチメディアに基づく検索方法
[0032] 図5から図9は、本発明の一実施形態による画像例500の処理を模式的に示す。図5において、画像500を処理するにあたり、演算子アルゴリズム(operator algorithm)を用いて複数の対象点502を特定する。演算子アルゴリズムは、画像500において対象点502を特定するために用いることができる入手可能なアルゴリズムであればいずれでも含む。一実施形態では、演算子アルゴリズムは、当技術分野では周知のように、ガウス・アルゴリズムまたはラプラス・アルゴリズムの異種(a difference)とすることができる。一実施形態では、演算子アルゴリズムは、画像500を二次元で分析するように構成されている。任意なこととして、画像500がカラー画像であるとき、画像500をグレースケールに変換することができる。
[0033] 対象点502は、図5に示すような画像500におけるあらゆる点を含むだけでなく、図6に示すような画像500における領域602、エリア、画素の集合体、または特徴を含むことができる。対象点502および領域602を、以降明確化および簡素化のために、対象点502と呼ぶ。しかしながら、対象点502を引用するときは、対象点502および領域602の双方を含むことを意図している。一実施形態では、対象点502が画像500の中にあるエリア上に位置する。画像500は安定しており、この画像500における格別の特徴、または特定可能な特徴を含む。例えば、対象点502は、502aおよび602aに図示するような特徴間に高いコントラストがある鋭い特徴を有する画像のエリア上で見つけられる。逆に、対象点は、504で示すような一定の色またはグレースケールの領域というような、格別な特徴やコントラストがないエリアでは見つけられない。
[0034] 演算子アルゴリズムは、例えば、数千カ所の対象点というように、画像500における対象点502であればいくつでも特定する。対象点502は、画像500における点502および領域602の組み合わせであってもよく、その数は画像500のサイズに基づくのでもよい。画像処理コンポーネント412は、対象点502毎にメトリックを計算し、このメトリックにしたがって対象点502を格付けする。このメトリックは、対象点502における画像500の信号強度または信号対ノイズ比の尺度を含む。画像処理コンポーネント412は、格付けに基づく更なる処理のために、対象点502から部分集合を選択する。一実施形態では、最も高い信号対ノイズ比を有する100カ所の最も目立つ対象点502を選択するが、所望数の対象点502であればいくつ選択してもよい。他の実施形態では、部分集合を選択するのではなく、対象点の全てを更なる処理に含ませる。
[0035] 図7に示すように、1組のパッチ700を特定することができる。これらは、選択した対象点402に対応する。各パッチ702は、1つの選択した対象点502に対応する。パッチ702は、それぞれの対象点502を含む画像500のエリアを含む。画像500から取り込む各パッチ702のサイズは、選択した対象点502毎に、演算子アルゴリズムからの出力に基づいて決定する。パッチ702の各々が異なるサイズであってもよく、パッチ702に含まれる画像500のエリアが重複してもよい。加えて、パッチ702の形状は所望の形状であればいずれでもよく、正方形、矩形、三角形、円、楕円等を含む。図示する実施形態では、パッチ702の形状は正方形である。
[0036] パッチ702を、図7に示すように、正規化することができる。一実施形態では、X画素×Y画素の正方形パッチのような等しいサイズにパッチ702の各々を合わせるために、パッチ702を正規化する。パッチ702を等しいサイズに正規化するには、動作の中でもとりわけ、パッチ702のサイズおよび/または解像度を増加または減少することを含むとよい。また、とりわけコントラスト強調、斑点除去(despeckling)、鮮鋭化(sharpening)、およびグレースケールの適用というような、1つ以上の他の動作によって、パッチ702を正規化するのでもよい。
[0037] また、正規化したパッチ毎に記述子を決定することもできる。記述子は、画像検索に用いるための特徴として組み込むことができるパッチの記述とすることができる。記述子は、パッチ702の中にある画素の統計を計算することによって決定することができる。一実施形態では、パッチ702の中にある画素のグレースケール勾配の統計に基づいて、記述子を決定する。記述子は、図8に示す記述子802のように(図7のパッチ702は、図8において同様に位置付けられている記述子802と対応する)パッチ毎のヒストグラムとして視覚的に表すのでもよい。また、記述子は、例えばそして限定ではなく、パッチの中にある画素についての画素グレースケール統計を表す多次元ベクトルのような、多次元ベクトルとして記述するのでもよい。T2S2 36次元ベクトルは、画素グレースケール統計を表すベクトルの一例である。
[0038] 図9に示すように、量子化表900を採用して、記述子キーワード902を各記述子802と相関付けることができる。量子化表900は、記述子802を記述子キーワード902にマッピングするために使用可能な表、インデックス、チャート、または他のデーター構造であればいずれでも含むことができる。当技術分野では、量子化表900の種々の形態が知られており、本発明の実施形態において使用可能である。一実施形態では、量子化表900を生成するには、最初に大量の画像(例えば、画像500)、例えば、100万枚の画像を処理して、画像毎に記述子802を特定する。次いで、こうして特定した記述子802を統計的に分析して、同様な値または統計的に同様な値を有する記述子802のクラスターまたはグループを特定する。例えば、T2S2ベクトルにおける変数の値は、同様である。各クラスターの代表的な記述子904を選択して、量子化表900における位置および対応する記述子キーワード902を割り当てる。記述子キーワード902は、対応する代表的記述子904を特定する望ましいインディケータであればいずれでも含むことができる。例えば、記述子キーワード902は、図9に示すような整数値、または英数値、数値、記号、テキスト、あるいはその組み合わせを含むことができる。実施形態の中には、記述子キーワード902が、記述子キーワードを、テキストに基づかない検索モードと関連付けられたものとして特定する、キャラクターのシーケンスを含むことができる場合もある。例えば、全ての記述子キーワードは、一連の3つの整数、およびそれに続く下線付きキャラクター(underscore character)を、キーワードにおける最初の4キャラクターとして含むことができる。次に、この初期シーケンスを用いて、記述子キーワードを、画像と関連付けられたものとして特定することができる。
[0039] 記述子802毎に、最も密接に一致する代表記述子904を、量子化表900において特定することができる。例えば、図8に示す記述子802aは、図9における量子化表900の代表記述子904aと最も密接に対応する。記述子802の各々に対する記述子キーワード902は、これによって画像500と関連付けられる(例えば、記述子802aは記述子識別子902「1」と対応する)。画像500と関連付けられた記述子キーワード902は、各々、互いに異なっていてもよく、あるいは記述子キーワード902の内1つ以上を画像500に多数回関連付けてもよい(例えば、画像500は、「1、2、3、4」または「1、2、2、3」の記述子キーワード902を有するのでもよい)。一実施形態では、画像のばらつき(image variations)のような特性を考慮するために、記述子802に最も近く一致する1つよりも多い代表記述子904、およびそれに対するそれぞれの記述子キーワード902を特定することによって、記述子802を1つよりも多い記述子識別子902にマッピングしてもよい。以上に基づいて、1組の特定した対象点502を有する画像500のコンテンツを、1組の記述子キーワード902によって表すことができる。
[0040] 他の実施形態では、他のタイプの画像に基づく検索を検索方式に統合することができる。例えば、顔認識方法は、他のタイプの画像検索に備えることができる。前述のように記述子キーワードを特定することに加えて、および/またはその代わりに、顔認識方法を用いて、画像の中にいる人間の識別(identity)を判定することができる。画像の中にいる人の識別は、検索クエリーを補足するために用いることができる。他の選択肢は、顔認識技術によりマッチングのために、人のライブラリーを有することとすることができる。このライブラリーには、種々の人についてのメタデーターを含むことができ、この格納されているメタデーターを用いて検索クエリーを補足することができる。
[0041] 以上、画像に基づく検索方式をテキストに基づく検索方式に適応させることについての説明を行った。同様の適応化(adaptation)は、オーディオに基づく検索方式というような、他のモードの検索についても行うことができる。一実施形態では、従来のタイプのオーディオに基づく検索はいずれも用いることができる。オーディオに基づく検索のための方法は、同様の特性を有するオーディオ・ファイルを特定するために用いられる1つ以上のタイプの特徴を有することができる。先に説明したように、オーディオ特徴を記述子キーワードと相関付けることができる。記述子キーワードは、キーワードの最後の4つのキャラクターを、ハイフンおよびそれに続く4つの数値に対応させるというように、キーワードがオーディオ検索に関係があることを示すフォーマットを有することができる。
マルチモード・クエリーに基づく検索の例
[0042] 検索例1 − 画像情報を、テキストに基づくクエリーに追加する。従来の検索方法に伴う1つの難題は、共通のクエリー用語に対して所望の結果を特定することである。共通のクエリー用語を伴うことができる1つのタイプの検索は、"Steve Smith"というような、一般によくある名前による人の検索である。"steve smith"というキーワード・クエリーを検索エンジンに提出すると、多数の結果が呼応結果として特定される可能性が高く、これらの結果は、同じ名前または似ている名前を共有する多数の異なる人に対応する可能性が高い。
[0043] 一実施形態では、名前が付いているエンティティの検索は、そのエンティティの写真を検索クエリーの一部として提出することによって改良することができる。例えば、キーワード・テキスト・ボックスに"steve smith"と入力することに加えて、対象となる特定のMr. Smithの画像またはビデオを、画像に基づくクエリー情報を受け取る場所にドロップすることができる。次いで、顔認識ソフトウェアを用いて、正しい"Steve Smith"を検索クエリーと照合することができる。加えて、画像またはビデオが他の人も含む場合、追加の人に基づく結果には、対象の人を示すキーワード・クエリーによって、より低い格付けを指定することもできる。その結果、キーワードおよび画像またはビデオの組み合わせを用いて、人(または他のエンティティ)に対応する結果を、共通の名前によって効率的に特定することができる。
[0044] 以上のことの変形として、ユーザーがある人の画像またはビデオを有しているが、その人の名前を知らないという状況について考える。この人は、政治家、俳優または女優、スポーツ選手、あるいは顔認識または画像照合技術によって認識することができる他の人または他のエンティティのいずれでも可能である。この状況において、そのエンティティを含む画像またはビデオを、1つ以上のキーワードと共に、マルチモード検索クエリーとして提出することができる。この状況では、1つ以上のキーワードは、「政治家」または「女優」というような、エンティティに関してユーザーが所有する情報を表すことができる。追加のキーワードは、種々の方法で画像検索を補助することができる。画像またはビデオおよびキーワードの双方を有することの利点の1つは、ユーザーに関心がある結果には、より高い格付けを与えることができることである。キーワード「女優」を画像と一緒に提出することによって、画像の中にいる人の名前を知りたいというユーザーの意図を示し、クレジットの中にその女優を掲示する映画についての結果よりも高く格付けされた結果として、その女優の名前に至ることになる。加えて、正確な一致が達成されない顔認識または他の画像分析技術では、キーワードは、潜在的な呼応検索結果を格付けするときに役立つことができる。顔認識方法が連邦上院議員および著者の双方を潜在的な一致として特定した場合、キーワード「政治家」を用いて、連邦上院議員についての情報を、最高に格付けした結果として提供することができる。
[0045] 検索例2 − マルチモード・クエリーに対するクエリーの絞り込み。この例では、ユーザーが、音楽CDまたは映画DVDのような、店で見つけた製品についてもっと多くの情報を得ることを望む。検索プロセスまでの先駆(precursor)として、ユーザーは、関心がある音楽CDのカバーの写真を撮ることができる。次いで、この写真を検索クエリーとして提出することができる。画像認識および/または照合を用いて、このCDカバーを、追加のメタデーターを含むCDカバーの格納されている画像と照合することができる。このメタデーターは、任意なこととして、アーティストの名前、CDの名称、CD上にある個々の歌の名前、またはCDに関する情報であれば他のいずれでも含むことができる。
[0046] 格納されているCDカバーの画像を、呼応結果として、そして恐らくは最高に格付けされた結果として戻すことができる。実施形態によっては、ユーザーに、初期結果ページにおいて、潜在的に可能なクエリーの修正を提案することもでき、またはユーザーが、潜在的に可能なクエリー修正にアクセスするために、リンク上でクリックするのでもよい。クエリー修正は、アーティストの名前、CDの名称、またはCD上における人気のある歌の1つの名前というような、メタデーターに基づく提案を含むことができる。これらのクエリー修正は、ユーザーにリンクとして提案することができる。あるいは、クエリー・メタデーターの一部または全部をキーワード検索ボックスに追加する選択肢を、ユーザーに提供することもできる。また、ユーザーが追加の検索用語によって、提案された修正を補足することもできる。例えば、ユーザーがアーティストの名前を選択し、次いで「コンサート」という単語をクエリー・ボックスに追加することができる。追加の単語「コンサート」は、検索クエリーの一部として用いるために、画像と関連付けることができる。これによって、例えば、そのアーティストについて今後のコンサートの日程を示す呼応結果を生成することができる。クエリー提案または修正に対する他の選択肢には、価格情報、アーティストに関係するニュース、CD上にある歌の歌詞、または他のタイプの提案を含むことができる。任意なこととして、ユーザーから他の行為を行うことなく、修正クエリーに対する呼応結果を生成するために、何らかのクエリー修正を検索のために自動的に提出することができる。例えば、CDカバーに基づいて「価格」というキーワードをクエリーに追加すると、種々のオンライン販売店が初期検索結果ページと共に戻されるように、自動的なクエリー修正となることができる。
[0047] 尚、以上の例では、クエリー画像を最初に提出し、次いで絞り込みとしてキーワードをクエリーと関連付けたことを注記しておく。同様の絞り込みは、テキスト・キーワード検索から開始し、次いで画像、ビデオ、またはオーディオ・ファイルに基づいて絞り込みすることによっても実行することができる。
[0048] 検索例3 − 移動体検索の改良。この例では、ユーザーは概略的に尋ねたいことを知っているかもしれないが、検索クエリーをどのように組み立てればよいか定かでないということもあり得る。このタイプの移動体検索は、あらゆるタイプの場所、人、物体、または他のエンティティについての検索に用いることができる。1つ以上のキーワードを追加することによって、ユーザーは、最良の画像一致に基づいてではなく、ユーザーの意図に基づいて呼応結果を受け取ることが可能になる。キーワードは、画像を検索クエリーとして提出する前に、例えば、検索テキスト・ボックスに追加することができる。任意なこととして、キーワードは、画像、ビデオ、またはオーディオ・ファイルに付随するメタデーターから導き出すことができるいずれのキーワードでも補足することができる。例えば、ユーザーがレストランの写真を撮り、この写真を検索クエリーとして、「メニュー」というキーワードと共に提出することができる。これによって、そのレストランのメニューを伴う結果の格付けが高くなる。あるいは、ユーザーがある種類の猫のビデオを撮影し、検索クエリーを「種」という単語と共に提出することができる。これによって、同様の活動を行う他の動物の画像またはビデオ結果を戻すのではなく、その種類の猫を特定する結果の関連性を高めることになる。更に他の選択肢を上げると、映画のポスターの画像を、「サウンドトラック」というキーワードと共に提出し、その映画で演奏される歌を特定することができる。
[0049] 更に他の例として、市内を移動しているユーザーが、その地域の大量輸送システムの予定に関する情報を望むという場合もあり得る。生憎、このユーザーはそのシステムの名称を知らない。ユーザーは、<都市の名前>のキーワード・クエリーおよび「大量輸送」をタイプ入力することによって開始する。これによって、大量の結果が戻されるが、ユーザーはどの結果が最も役立つかに関して確信がない。次いで、ユーザーは近隣のバス停留所においてその輸送システムのロゴに気がつく。ユーザーは、そのロゴの写真を撮り、このロゴをクエリーの一部として用いて、検索を絞り込む。すると、このロゴと関連のあるバス・システムが、最も高く格付けされた結果として戻され、正しい輸送予定を特定できたという確信をユーザーに与える。
[0050] 検索例4 − マルチモード検索がオーディオ・ファイルを伴う場合。ビデオまたは画像に加えて、他のタイプの入力モードも検索に用いることができる。オーディオ・ファイルは、適したクエリー入力の他の例を表す。画像またはビデオについて先に説明したように、オーディオ・ファイルを、キーワードと合わせて検索クエリーとして提出することができる。あるいは、他のタイプのクエリー入力の提出の前に、またはその後に、クエリー絞り込みの一部として、オーディオ・ファイルを提出することもできる。尚、実施形態の中には、ユーザーがキーワード入力を全く供給することなく、マルチモード検索クエリーが、多数のタイプのクエリー入力を含むことができる場合もあることを注記しておく。つまり、ユーザーは、画像およびビデオ、またはビデオおよびオーディオ・ファイルを供給することができる。更に他の選択肢をあげるとすると、多数の画像、ビデオ、および/またはオーディオ・ファイルを、キーワードと共にクエリー入力として含ませることとすることができる。
[0051] 以上、本発明の種々の実施形態の全体像について端的に説明したので、これより本発明を実施するに適した動作環境例について説明する。図面全体を参照するが、特に最初に図1を参照すると、本発明の実施形態を実現するための動作環境例が示されており、全体的に計算機100として示されている。しかし、計算機100は、適した計算環境の一例に過ぎず、本発明の使用範囲や機能に関して何ら限定を示唆する意図はない。また、計算機100が、図示されているコンポーネントの内任意の1つやその組み合わせに関して何らかの依存性や要件を有するというように解釈してはならない。
[0052] 本発明の実施形態は、コンピューター、あるいはパーソナル・データー・アシスタントまたはその他のハンドヘルド・デバイスというような他の装置によって実行される、プログラム・モジュールのようなコンピューター実行可能命令を含む、コンピューター・コードまたは装置使用可能命令という一般的なコンテキストで説明することができる。一般に、ルーチン、プログラム、オブジェクト、コンポーネント、データー構造等を含むプログラム・モジュールは、特定のタスクを実行するコード、または特定の抽象データー・タイプを実装するコードを指す。本発明は、ハンドヘルド・デバイス、消費者用電子機器、汎用コンピューター、より特殊な計算デバイス等を含む、種々のシステム構成において実用することができる。また、本発明は分散型計算環境においても実用することができ、この環境では、通信ネットワークを通じてリンクされているリモート処理デバイスによってタスクを実行する。
[0053] 引き続き図1を参照すると、計算機100は、以下のデバイスを直接的または間接的に結合するバス110を含む。そのデバイスとは、メモリー112、1つ以上のプロセッサー114、1つ以上のプレゼンテーション・コンポーネント116、入力/出力(I/O)ポート118、I/Oコンポーネント120、および例示の電源122である。バス110は、1つ以上のバス(アドレス・バス、データー・バス、またはこれらの組み合わせ)であるものを表す。図1の種々のブロックは、明確にするために、線で示されているが、実際には種々のコンポーネントの輪郭はそれほど明らかではなく、比喩的には、もっと正確に示すならば、これらの線は灰色で曖昧になるであろう。例えば、ディスプレイ・デバイスのようなプレゼンテーション・コンポーネントを、I/Oコンポーネントと見なす人もいると考えられる。加えて、多くのプロセッサーはメモリーを有する。本発明者は、このようなことは技術の本質であることを認識しており、図1の線図は本発明の1つ以上の実施形態と共に使用することができる計算機例の一例に過ぎないことを繰り返しておく。「ワークステーション」、「サーバー」、「ラップトップ」、「ハンドヘルド・デバイス」などのようなカテゴリー間では区別は行われない。何故なら、これらは全て図1の範囲に入り、「計算機」と呼ばれると考えられるからである。
[0054] 計算機100は、通例、種々のコンピューター読み取り可能媒体を含む。コンピューター読み取り可能媒体は、計算機100によってアクセスすることができる任意の利用可能な媒体とすることができ、揮発性および不揮発性媒体双方のリムーバブル媒体および非リムーバブル媒体を含む。一例として、そして限定ではなく、コンピューター読み取り可能媒体は、コンピューター記憶媒体および通信媒体を含むことができる。コンピューター記憶媒体は、コンピューター読み取り可能命令、データー構造、プログラム・モジュール、または他のデーターのような情報の格納のための任意の方法または技術で実現される、揮発性および不揮発性双方のリムーバブルおよび非リムーバブル媒体を含む。コンピューター記憶媒体は、限定ではなく、ランダム・アクセス・メモリー(RAM)、リード・オンリー・メモリー(ROM)、電子的消去可能プログラム可能リード・オンリー・メモリー(EEPROM)、フラッシュ・メモリーまたは他のメモリー技術、CD−ROM、ディジタル・バーサタイル・ディスク(DVD)または他のホログラフ・メモリー、磁気カセット、磁気テープ、磁気ディスク記憶デバイスまたは他の磁気記憶デバイス、搬送波、あるいは所望の情報を格納するために使うことができそして計算機100によってアクセスすることができるその他のあらゆる媒体も含むことができる。一実施形態では、コンピューター記憶媒体は、有形コンピューター記憶媒体から選択することができる。他の実施形態では、コンピューター記憶媒体は、永続的(non-transitory)コンピューター記憶媒体から選択することができる。
[0055] メモリー112は、揮発性および/または不揮発性メモリーの形態としたコンピューター記憶媒体を含む。このメモリーは、リムーバブル、非リムーバブル、またはその組み合わせであってもよい。ハードウェア・デバイスの例には、ソリッド・ステート・メモリー、ハード・ドライブ、光ディスク・ドライブ等が含まれる。計算機100は、メモリー112、またはI/Oコンポーネント120のような種々のエンティティからデーターを読み出す1つ以上のプロセッサーを含む。プレゼンテーション・コンポーネント(1つまたは複数)116は、データー指示をユーザーまたは他のデバイスに提示する。プレゼンテーション・コンポーネントの例には、ディスプレイ・デバイス、スピーカー、印刷コンポーネント、振動コンポーネント等が含まれる。
[0056] I/Oポート118は、I/Oコンポーネント120を含む他のデバイスに計算機100を論理的に結合することを可能にする。これら他のデバイスの一部は内蔵されていてもよい。例示的なコンポーネントには、マイクロフォン、ジョイスティック、ゲーム・パッド、衛星ディッシュ、スキャナー、プリンター、ワイヤレス・デバイス等が含まれる。
[0057] 付加的に図2を参照して、本発明の実施形態における使用に適したネットワーク環境例200を示すブロック図について説明する。環境200は、本発明の実施形態において用いることができる環境の一例に過ぎず、多種多様な構成においてあらゆる数のコンポーネントを含んでもよい。本明細書において行う環境200の説明は、例示を目的とするのであって、本発明の実施形態を実現することができる環境の構成を限定することを意図するのではない。
[0058] 環境200は、ネットワーク202、クエリー入力デバイス204、および検索エンジン・サーバー206を含む。ネットワーク202は、例えばそして限定ではなく、インターネット、イントラネット、私有および公衆ローカル・ネットワーク、ならびにワイヤレス・データーまたは電話ネットワークというような、あらゆるコンピューター・ネットワークを含む。クエリー入力デバイス204は、計算機100のような、いずれかの計算機であり、ここから検索クエリーを供給することができる。例えば、クエリー入力デバイス204は、とりわけ、パーソナル・コンピューター、ラップトップ、サーバー・コンピューター、ワイヤレス電話機またはワイヤレス・デバイス、パーソナル・ディジタル・アシスタント(PDA)、あるいはディジタル・カメラであってもよい。一実施形態では、数千または数百万台のクエリー入力デバイス204というような、複数のクエリー入力デバイス204がネットワーク202に接続されている。
[0059] 検索エンジン・サーバー206は、計算機100のような、いずれかの計算機を含み、コンテンツに基づく検索エンジンを設けるための機能の少なくとも一部を設ける。一実施形態では、一群の検索エンジン・サーバー206が、検索エンジン処理をユーザー集団(user population)に提供するために必要な機能を共有または分散する。
[0060] 画像処理サーバー208も環境200の中に設けられている。画像処理サーバー208は、計算機100のような、いずれかの計算機を含み、画像のコンテンツを分析し、表現し、インデックスを付けるように構成されている。これについては、以下で更に詳しく説明する。画像処理サーバー208は、量子化表210を含む。量子化表210は、画像処理サーバー208のメモリーに格納されているか、または画像処理サーバー208によって離れてアクセスすることができる。量子化表210は、画像の特徴を検索しインデックスを付けることを可能にするために、画像のコンテンツのマッピングを通知する際に、画像処理サーバー208によって用いられる。
[0061] 検索エンジン・サーバー206および画像処理サーバー208は、画像ストア212およびインデックス214に通信状態で結合されている。画像ストア212およびインデックス214は、ハード・ディスク・ドライブ、フラッシュ・メモリー、光メモリー・デバイス等というような、あらゆる利用可能なコンピューター記憶デバイスまたは複数のコンピューター記憶デバイスを含む。画像ストア212は、本発明の一実施形態のコンテンツに基づく検索に応答して供給することができる画像ファイルのために、データー・ストレージを設ける。インデックス214は、ネットワーク202を通じて入手可能な文書のコンテンツに基づく検索のために、検索インデックスを提供する。入手可能な文書は、画像ストア212に格納されている画像を含む。インデックス214は、いずれのインデックス化データー構造またはフォーマットでも利用することができ、好ましくは、逆インデックス・フォーマットを採用する。尚、実施形態の中には、画像ストア212を任意にすることができる場合もあることを注記しておく。
[0062] 逆インデックスは、データー構造におけるコンテンツの位置を示すマッピングを提供する。例えば、文書を検索して特定のキーワード(キーワード記述子を含む)を求めるとき、そのキーワードは、文書における単語の位置、および/または画像文書における特徴の存在を特定する逆インデックスにおいて発見され、文書を検索して単語または特徴の位置を発見するのではない。
[0063] 一実施形態では、検索エンジン・サーバー206、画像処理サーバー208、画像ストア212、およびインデックス214の内1つ以上が、1つの計算機の中に統合されるか、またはネットワーク202を横断することなくデバイス間で直接通信を可能にするように、直接通信状態で結合される。
[0064] 図10は、本発明の一実施形態による方法、言い換えると、本発明の一実施形態にしたがって、コンピューター記憶媒体上に具体化された方法のための実行可能命令を示す。図10において、画像、ビデオ、またはオーディオ・ファイルを取り込む(1010)。このファイルは、抽出することができる複数の関連性特徴(relevance feature)を含む。画像、ビデオ、またはオーディオ・ファイルを少なくとも1つのキーワードと関連付ける(1020)。画像、ビデオ、またはオーディオ・ファイルを、クエリーとして検索エンジンに提出する(1030)。複数の関連性特徴および関連キーワードの双方に呼応する、少なくとも1つの呼応結果を受け取る(1040)。次いで、この少なくとも1つの呼応結果を表示する(1050)。
[0065] 図11は、本発明の一実施形態による他の方法、言い換えると、本発明の一実施形態にしたがって、コンピューター記憶媒体上に具体化された方法のための実行可能命令を示す。図11において、少なくとも2つのクエリー・モードを含むクエリーを受け取る(1110)。少なくとも2つのクエリー・モードに対応する関連性特徴を、クエリーから抽出する(1120)。抽出した関連性特徴に基づいて、複数の呼応結果を選択する(1130)。また、抽出した関連性特徴に基づいて、複数の呼応結果の格付けも行う(1140)。次いで、格付けした呼応結果の内1つ以上を表示する(1150)。
[0066] 図12は、本発明の一実施形態による他の方法、言い換えると、本発明の一実施形態にしたがって、コンピューター記憶媒体上に具体化された方法のための実行可能命令を示す。図12において、少なくとも1つのキーワードを含むクエリーを受け取る(1210)。受け取ったクエリーに基づいて、複数の呼応結果を表示する(1220)。画像、ビデオ、またはオーディオ・ファイルの内少なくとも1つを含む補足クエリー入力を受け取る(1230)。複数の呼応結果の格付けを、補足クエリー入力に基づいて修正する(1240)。修正格付けに基づいて、呼応結果の内1つ以上を表示する(1250)。
追加の実施形態
[0067] 第1に考えられる実施形態は、マルチモード検索の実行方法を含む。この方法は、少なくとも2つのクエリー・モードを含むクエリーを受け取るステップ(1110)と、少なくとも2つのクエリー・モードに対応する関連性特徴をクエリーから抽出するステップ(1120)と、抽出した関連性特徴に基づいて、複数の呼応結果を選択するステップ(1130)と、抽出した関連性特徴に基づいて、複数の呼応結果を格付けするステップ(1140)と、格付けした呼応結果の内1つ以上を表示するステップ(1150)とを含む。
[0068] 第2の実施形態は、第1実施形態の方法を含み、受け取ったクエリーにおけるクエリー・モードが、キーワード、画像、ビデオ、またはオーディオ・ファイルの内2つ以上を含む。
[0069] 第3実施形態は、以上の実施形態の内いずれかを含み、複数の呼応文書を、少なくとも2つのクエリー・モードから、関連性特徴を組み込んだ逆インデックスを用いて選択する。
[0070] 第4実施形態は、第3実施形態を含み、画像、ビデオ、またはオーディオ・ファイルから抽出した関連性特徴を、記述子キーワードとして、逆インデックスに組み込む。
[0071] 第5実施形態では、マルチモード検索の実行方法を提供する。この方法は、
抽出することができる複数の関連性特徴を含む画像、ビデオ、またはオーディオ・ファイルを取り込むステップ(1010)と、画像、ビデオ、またはオーディオ・ファイルを少なくとも1つのキーワードと関連付けるステップ(1020)と、画像、ビデオ、またはオーディオ・ファイルおよび関連付けたキーワードを、クエリーとして検索エンジンに提出するステップ(1030)と、複数の関連性特徴および関連付けたキーワードの双方に呼応する少なくとも1つの呼応結果を受け取るステップ(1040)と、少なくとも1つの呼応結果を表示するステップ(1050)とを含む。
[0072] 第6実施形態は、前出の実施形態のいずれかを含み、抽出した関連性特徴が、キーワードおよび画像に対応する。
[0073] 第7実施形態は、前出の実施形態のいずれかを含み、更に、画像、ビデオ、またはオーディオ・ファイルからメタデーターを抽出するステップと、抽出したメタデーターから1つ以上のキーワードを特定するステップと、受け取ったクエリーからの少なくとも1つの抽出した関連性特徴と、抽出したメタデーターから特定したキーワードとを少なくとも含む第2クエリーを形成するステップとを備えている。
[0074] 第8実施形態は、第7実施形態を含み、抽出した関連性特徴に基づいて複数の呼応文書を格付けするステップが、更に、第2クエリーに基づいて、複数の呼応文書を格付けするステップを含む。
[0075] 第9実施形態は、第7または第8実施形態を含み、第2クエリーを、表示される呼応結果と関連付けて表示する。
[0076] 第10実施形態は、第7から第9までの実施形態のいずれかを含み、更に、第2クエリーに基づいて、第2複数の呼応文書を自動的に選択するステップと、第2クエリーに基づいて、第2複数の呼応文書を格付けするステップと、第2複数の呼応文書から少なくとも1つの文書を表示するステップとを備えている。
[0077] 第11実施形態は、前出の実施形態のいずれかを含み、取り込みデバイスに付随するカメラから、画像またはビデオとして、画像またはビデオを取り込む。
[0078] 第12実施形態は、前出の実施形態のいずれかを含み、格納されている画像、ビデオ、またはオーディオ・ファイルにネットワークを通じてアクセスすることによって、画像、ビデオ、またはオーディオ・ファイルを取り込む。
[0079] 第13実施形態は、前出の実施形態のいずれかを含み、少なくとも1つの呼応結果が、テキスト文書、画像、ビデオ、オーディオ・ファイル、テキスト文書の識別、画像の識別、ビデオの識別、オーディオ・ファイルの識別、またはその組み合わせを備えている。
[0080] 第14実施形態は、前出の実施形態のいずれかを含み、前述の方法が、更に、提出したクエリーと、少なくとも1つの呼応結果に対応するメタデーターとに基づいて、1つ以上のクエリー提案を表示するステップを備えている。
[0081] 第5実施形態では、マルチモード検索の実行方法を提供する。この方法は、少なくとも1つのキーワードを備えているクエリーを受け取るステップ(1210)と、受け取ったクエリーに基づいて、複数の呼応結果を表示するステップ(1220)と、画像、ビデオ、またはオーディオ・ファイルの内少なくとも1つを備えている補足クエリー入力を受け取るステップ(1230)と、補足クエリー入力に基づいて、複数の呼応結果の格付けを修正するステップ(1240)と、修正した格付けに基づいて、呼応結果の内1つ以上を表示するステップ(1250)とを含む。
[0082] 本発明の実施形態について、特定の実施形態に関して説明した。これらの実施形態は、あらゆる観点において、限定的ではなく例示的であることを意図している。本発明に関係する技術の当業者には、本発明の範囲から逸脱することなく、代替実施形態も明らかであろう。
[0083] 以上の説明から、本発明は、先に明記した目的および目標を、自明であり本構造に固有である他の利点と共に達成するのに非常に適していることが分かるであろう。
[0084] ある種の特徴およびサブコンビネーションは有益であり、他の特徴およびサブコンビネーションを参照しなくても採用できることは言うまでもない。これは、請求項の範囲によって想定されていることであり、その範囲に含まれることとする。

Claims (15)

  1. マルチモード検索の実行方法であって、
    少なくとも2つのクエリー・モードを含むクエリーを受け取るステップと、
    前記少なくとも2つのクエリー・モードに対応する関連性特徴を前記クエリーから抽出するステップと、
    前記抽出した関連性特徴に基づいて、複数の呼応結果を選択するステップと、
    前記抽出した関連性特徴に基づいて、前記複数の呼応結果を格付けするステップと、
    前記格付けした呼応結果の内1つ以上を表示するステップと、
    を備えている、方法。
  2. 請求項1記載の方法において、前記受け取ったクエリーにおける前記クエリー・モードが、キーワード、画像、ビデオ、またはオーディオ・ファイルの内2つ以上を含む、方法。
  3. 前出の請求項のいずれか1項記載の方法において、前記複数の呼応文書を、前記少なくとも2つのクエリー・モードから、関連性特徴を組み込んだ逆インデックスを用いて選択する、方法。
  4. 請求項3記載の方法において、前記画像、ビデオ、またはオーディオ・ファイルから抽出した関連性特徴を、記述子キーワードとして、前記逆インデックスに組み込む、方法。
  5. マルチモード検索の実行方法であって、
    抽出することができる複数の関連性特徴を含む画像、ビデオ、またはオーディオ・ファイルを取り込むステップと、
    前記画像、ビデオ、またはオーディオ・ファイルを少なくとも1つのキーワードと関連付けるステップと、
    前記画像、ビデオ、またはオーディオ・ファイルおよび関連付けたキーワードを、クエリーとして検索エンジンに提出するステップと、
    前記複数の関連性特徴および前記関連付けたキーワードの双方に呼応する少なくとも1つの呼応結果を受け取るステップと、
    前記少なくとも1つの呼応結果を表示するステップと、
    を備えている、方法。
  6. 前出の請求項のいずれか1項記載の方法において、前記抽出した関連性特徴が、キーワードおよび画像に対応する、方法。
  7. 前出の請求項のいずれか1項記載の方法であって、更に、
    画像、ビデオ、またはオーディオ・ファイルからメタデーターを抽出するステップと、
    前記抽出したメタデーターから1つ以上のキーワードを特定するステップと、
    前記受け取ったクエリーからの少なくとも1つの抽出した関連性特徴と、前記抽出したメタデーターから特定したキーワードとを少なくとも含む第2クエリーを形成するステップと、
    を備えている、方法。
  8. 請求項7記載の方法において、前記抽出した関連性特徴に基づいて前記複数の呼応文書を格付けするステップが、更に、前記第2クエリーに基づいて、前記複数の呼応文書を格付けするステップを含む、方法。
  9. 請求項7または8記載の方法において、前記第2クエリーを、前記表示される呼応結果と関連付けて表示する、方法。
  10. 請求項7から9までのいずれか1項記載の方法であって、更に、
    前記第2クエリーに基づいて、第2複数の呼応文書を自動的に選択するステップと、
    前記第2クエリーに基づいて、前記第2複数の呼応文書を格付けするステップと、
    前記第2複数の呼応文書から少なくとも1つの文書を表示するステップと、
    を備えている、方法。
  11. 前出の請求項のいずれか1項記載の方法において、取り込みデバイスに付随するカメラから、画像またはビデオとして、画像またはビデオを取り込む、方法。
  12. 前出の請求項のいずれか1項記載の方法において、格納されている画像、ビデオ、またはオーディオ・ファイルにネットワークを通じてアクセスすることによって、画像、ビデオ、またはオーディオ・ファイルを取り込む、方法。
  13. 前出の請求項のいずれか1項記載の方法において、前記少なくとも1つの呼応結果が、テキスト文書、画像、ビデオ、オーディオ・ファイル、テキスト文書の識別、画像の識別、ビデオの識別、オーディオ・ファイルの識別、またはその組み合わせを備えている、方法。
  14. 前出の請求項のいずれか1項記載の方法において、更に、前記提出したクエリーと、少なくとも1つの呼応結果に対応するメタデーターとに基づいて、1つ以上のクエリー提案を表示するステップを備えている、方法。
  15. マルチモード検索の実行方法であって、
    少なくとも1つのキーワードを備えているクエリーを受け取るステップと、
    前記受け取ったクエリーに基づいて、複数の呼応結果を表示するステップと、
    画像、ビデオ、またはオーディオ・ファイルの内少なくとも1つを備えている補足クエリー入力を受け取るステップと、
    前記補足クエリー入力に基づいて、前記複数の呼応結果の格付けを修正するステップと、
    前記修正した格付けに基づいて、前記呼応結果の内1つ以上を表示するステップと、
    を備えている、方法。
JP2013537741A 2010-11-05 2011-10-31 マルチモード検索クエリー入力手法 Pending JP2013541793A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/940,538 2010-11-05
US12/940,538 US20120117051A1 (en) 2010-11-05 2010-11-05 Multi-modal approach to search query input
PCT/US2011/058541 WO2012061275A1 (en) 2010-11-05 2011-10-31 Multi-modal approach to search query input

Publications (1)

Publication Number Publication Date
JP2013541793A true JP2013541793A (ja) 2013-11-14

Family

ID=45884793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013537741A Pending JP2013541793A (ja) 2010-11-05 2011-10-31 マルチモード検索クエリー入力手法

Country Status (12)

Country Link
US (1) US20120117051A1 (ja)
EP (1) EP2635984A4 (ja)
JP (1) JP2013541793A (ja)
KR (1) KR20130142121A (ja)
CN (1) CN102402593A (ja)
AU (1) AU2011323602A1 (ja)
IL (1) IL225831A0 (ja)
IN (1) IN2013CN03029A (ja)
MX (1) MX2013005056A (ja)
RU (1) RU2013119973A (ja)
TW (1) TW201220099A (ja)
WO (1) WO2012061275A1 (ja)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
FR2973134B1 (fr) * 2011-03-23 2015-09-11 Xilopix Procede pour affiner les resultats d'une recherche dans une base de donnees
US8688514B1 (en) * 2011-06-24 2014-04-01 Google Inc. Ad selection using image data
US8949212B1 (en) * 2011-07-08 2015-02-03 Hariharan Dhandapani Location-based informaton display
US8909641B2 (en) 2011-11-16 2014-12-09 Ptc Inc. Method for analyzing time series activity streams and devices thereof
US9576046B2 (en) * 2011-11-16 2017-02-21 Ptc Inc. Methods for integrating semantic search, query, and analysis across heterogeneous data types and devices thereof
US20130226892A1 (en) * 2012-02-29 2013-08-29 Fluential, Llc Multimodal natural language interface for faceted search
US8768910B1 (en) 2012-04-13 2014-07-01 Google Inc. Identifying media queries
US11023520B1 (en) 2012-06-01 2021-06-01 Google Llc Background audio identification for query disambiguation
US20140075393A1 (en) * 2012-09-11 2014-03-13 Microsoft Corporation Gesture-Based Search Queries
CN103678362A (zh) * 2012-09-13 2014-03-26 深圳市世纪光速信息技术有限公司 搜索方法及***
CN103714094B (zh) * 2012-10-09 2017-07-11 富士通株式会社 识别视频中的对象的设备和方法
WO2014076559A1 (en) * 2012-11-19 2014-05-22 Ismail Abdulnasir D Keyword-based networking method
CN103853757B (zh) * 2012-12-03 2018-07-27 腾讯科技(北京)有限公司 网络的信息展示方法和***、终端和信息展示处理装置
US20140156704A1 (en) 2012-12-05 2014-06-05 Google Inc. Predictively presenting search capabilities
US10795528B2 (en) 2013-03-06 2020-10-06 Nuance Communications, Inc. Task assistant having multiple visual displays
US10783139B2 (en) 2013-03-06 2020-09-22 Nuance Communications, Inc. Task assistant
US20140286624A1 (en) * 2013-03-25 2014-09-25 Nokia Corporation Method and apparatus for personalized media editing
WO2014186873A1 (en) * 2013-05-21 2014-11-27 Bagheri Ebrahim Method and system of intelligent generation of structured data and object discovery from the web using text, images, video and other data
JP2014232907A (ja) * 2013-05-28 2014-12-11 雄太 安藤 現在位置に基づくサイトページを所望条件順に携帯端末に表示する方法及びシステム
US9542488B2 (en) * 2013-08-02 2017-01-10 Google Inc. Associating audio tracks with video content
US9384213B2 (en) * 2013-08-14 2016-07-05 Google Inc. Searching and annotating within images
KR101508429B1 (ko) * 2013-08-22 2015-04-07 주식회사 엘지씨엔에스 사용자 단말에 에이전트 서비스를 제공하는 방법 및 시스템
CN103473327A (zh) * 2013-09-13 2013-12-25 广东图图搜网络科技有限公司 图像检索方法与***
US9189517B2 (en) * 2013-10-02 2015-11-17 Microsoft Technology Licensing, Llc Integrating search with application analysis
RU2647696C2 (ru) * 2013-10-21 2018-03-16 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Мобильный видеопоиск
CN103686200A (zh) * 2013-12-27 2014-03-26 乐视致新电子科技(天津)有限公司 智能电视视频资源搜索的方法和***
JP5767413B1 (ja) * 2014-03-18 2015-08-19 楽天株式会社 情報処理システム、情報処理方法、および情報処理プログラム
US20150278370A1 (en) * 2014-04-01 2015-10-01 Microsoft Corporation Task completion for natural language input
US9535945B2 (en) * 2014-04-30 2017-01-03 Excalibur Ip, Llc Intent based search results associated with a modular search object framework
US9990433B2 (en) 2014-05-23 2018-06-05 Samsung Electronics Co., Ltd. Method for searching and device thereof
US11314826B2 (en) 2014-05-23 2022-04-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
TWI798912B (zh) * 2014-05-23 2023-04-11 南韓商三星電子股份有限公司 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體
KR20150135042A (ko) * 2014-05-23 2015-12-02 삼성전자주식회사 검색을 수행하는 방법 및 장치
CN111046197A (zh) * 2014-05-23 2020-04-21 三星电子株式会社 搜索方法和设备
US20150339348A1 (en) * 2014-05-23 2015-11-26 Samsung Electronics Co., Ltd. Search method and device
CN105446972B (zh) * 2014-06-17 2022-06-10 阿里巴巴集团控股有限公司 基于及融合用户关系数据的搜索方法、装置和***
US9852188B2 (en) * 2014-06-23 2017-12-26 Google Llc Contextual search on multimedia content
US9934331B2 (en) * 2014-07-03 2018-04-03 Microsoft Technology Licensing, Llc Query suggestions
US10558630B2 (en) 2014-08-08 2020-02-11 International Business Machines Corporation Enhancing textual searches with executables
CN104281842A (zh) * 2014-10-13 2015-01-14 北京奇虎科技有限公司 人脸图片人名识别方法和装置
US9904450B2 (en) 2014-12-19 2018-02-27 At&T Intellectual Property I, L.P. System and method for creating and sharing plans through multimodal dialog
KR102361400B1 (ko) * 2014-12-29 2022-02-10 삼성전자주식회사 사용자 단말장치, 서비스제공장치, 사용자 단말장치의 구동방법, 서비스제공장치의 구동방법 및 암호화 색인기반 검색 시스템
US9805141B2 (en) * 2014-12-31 2017-10-31 Ebay Inc. Dynamic content delivery search system
US10346876B2 (en) 2015-03-05 2019-07-09 Ricoh Co., Ltd. Image recognition enhanced crowdsourced question and answer platform
US20160335493A1 (en) * 2015-05-15 2016-11-17 Jichuan Zheng Method, apparatus, and non-transitory computer-readable storage medium for matching text to images
US20170046055A1 (en) * 2015-08-11 2017-02-16 Sap Se Data visualization in a tile-based graphical user interface
CN105005630B (zh) * 2015-08-18 2018-07-13 瑞达昇科技(大连)有限公司 全媒体中多维检测特定目标的方法
CN105045914B (zh) * 2015-08-18 2018-10-09 瑞达昇科技(大连)有限公司 信息归纳分析方法及装置
CN105183812A (zh) * 2015-08-27 2015-12-23 江苏惠居乐信息科技有限公司 多功能信息咨询***
US9984075B2 (en) * 2015-10-06 2018-05-29 Google Llc Media consumption context for personalized instant query suggest
CN105303404A (zh) * 2015-10-23 2016-02-03 北京慧辰资道资讯股份有限公司 一种快速识别用户兴趣点的方法
CN107203572A (zh) * 2016-03-18 2017-09-26 百度在线网络技术(北京)有限公司 一种图片搜索的方法及装置
US10157190B2 (en) * 2016-03-28 2018-12-18 Microsoft Technology Licensing, Llc Image action based on automatic feature extraction
US10706098B1 (en) * 2016-03-29 2020-07-07 A9.Com, Inc. Methods to present search keywords for image-based queries
CN106021402A (zh) * 2016-05-13 2016-10-12 河南师范大学 用于跨模态检索的多模态多类Boosting框架构建方法及装置
US10698908B2 (en) 2016-07-12 2020-06-30 International Business Machines Corporation Multi-field search query ranking using scoring statistics
KR101953839B1 (ko) * 2016-12-29 2019-03-06 서울대학교산학협력단 추가 질의에 대한 쌍별 비교 데이터를 이용한 업데이트된 다중랭킹 추정 방법
US11176189B1 (en) * 2016-12-29 2021-11-16 Shutterstock, Inc. Relevance feedback with faceted search interface
WO2018190792A1 (en) * 2017-04-10 2018-10-18 Hewlett-Packard Development Company, L.P. Machine learning image search
US20190095069A1 (en) * 2017-09-25 2019-03-28 Motorola Solutions, Inc Adaptable interface for retrieving available electronic digital assistant services
US11200241B2 (en) * 2017-11-22 2021-12-14 International Business Machines Corporation Search query enhancement with context analysis
US11676220B2 (en) * 2018-04-20 2023-06-13 Meta Platforms, Inc. Processing multimodal user input for assistant systems
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11010179B2 (en) 2018-04-20 2021-05-18 Facebook, Inc. Aggregating semantic information for improved understanding of users
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US11169668B2 (en) * 2018-05-16 2021-11-09 Google Llc Selecting an input mode for a virtual assistant
TWI697789B (zh) * 2018-06-07 2020-07-01 中華電信股份有限公司 輿情查詢系統及方法
US10740400B2 (en) 2018-08-28 2020-08-11 Google Llc Image analysis for results of textual image queries
US11588759B2 (en) * 2019-04-12 2023-02-21 Asapp, Inc. Automated communications over multiple channels
CN110738061B (zh) * 2019-10-17 2024-05-28 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
CN113127679A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 视频搜索方法及装置、索引构建方法及装置
CN111221782B (zh) * 2020-01-17 2024-04-09 惠州Tcl移动通信有限公司 一种文件查找方法、装置、存储介质及移动终端
CN113139121A (zh) * 2020-01-20 2021-07-20 阿里巴巴集团控股有限公司 查询方法、模型训练方法、装置、设备及存储介质
US11423019B2 (en) 2020-03-24 2022-08-23 Rovi Guides, Inc. Methods and systems for modifying a search query having a non-character-based input
CN111581403B (zh) * 2020-04-01 2023-05-23 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
US11500939B2 (en) 2020-04-21 2022-11-15 Adobe Inc. Unified framework for multi-modal similarity search
CN113297452A (zh) * 2020-05-26 2021-08-24 阿里巴巴集团控股有限公司 多级检索方法、多级检索装置及电子设备
CN113821704B (zh) * 2020-06-18 2024-01-16 华为云计算技术有限公司 构建索引的方法、装置、电子设备和存储介质
CN112004163A (zh) * 2020-08-31 2020-11-27 北京市商汤科技开发有限公司 视频生成方法及装置、电子设备和存储介质
WO2022066907A1 (en) * 2020-09-23 2022-03-31 Google Llc Systems and methods for generating contextual dynamic content
US11461681B2 (en) * 2020-10-14 2022-10-04 Openstream Inc. System and method for multi-modality soft-agent for query population and information mining
CN112579868B (zh) * 2020-12-23 2024-06-04 北京百度网讯科技有限公司 多模态识图搜索方法、装置、设备以及存储介质
KR102600757B1 (ko) * 2021-03-02 2023-11-13 한국전자통신연구원 대화 기반의 몽타주 생성 방법 및 이를 이용한 장치
CN113297475A (zh) * 2021-03-26 2021-08-24 阿里巴巴新加坡控股有限公司 商品对象信息搜索方法、装置及电子设备
CN113656546A (zh) * 2021-08-17 2021-11-16 百度在线网络技术(北京)有限公司 多模态搜索方法、装置、设备、存储介质以及程序产品
TWI784780B (zh) * 2021-11-03 2022-11-21 財團法人資訊工業策進會 多模態影片檢測方法、多模態影片檢測系統及非暫態電腦可讀取媒體
CN116775980B (zh) * 2022-03-07 2024-06-07 腾讯科技(深圳)有限公司 一种跨模态搜索方法及相关设备
CN114372081B (zh) * 2022-03-22 2022-06-24 广州思迈特软件有限公司 数据准备方法、装置和设备
KR102492277B1 (ko) 2022-06-28 2023-01-26 (주)액션파워 멀티모달 정보를 이용한 질의응답 수행 방법
CN115422399B (zh) * 2022-07-21 2023-10-31 中国科学院自动化研究所 视频搜索方法、装置、设备和存储介质
US20240028638A1 (en) * 2022-07-22 2024-01-25 Google Llc Systems and Methods for Efficient Multimodal Search Refinement

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099860B1 (en) * 2000-10-30 2006-08-29 Microsoft Corporation Image retrieval systems and methods with semantic and feature based relevance feedback
US6556710B2 (en) * 2000-12-15 2003-04-29 America Online, Inc. Image searching techniques
US7437363B2 (en) * 2001-01-25 2008-10-14 International Business Machines Corporation Use of special directories for encoding semantic information in a file system
US6901411B2 (en) * 2002-02-11 2005-05-31 Microsoft Corporation Statistical bigram correlation model for image retrieval
DE10333530A1 (de) * 2003-07-23 2005-03-17 Siemens Ag Automatische Indexierung von digitalen Bildarchiven zur inhaltsbasierten, kontextsensitiven Suche
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US7818315B2 (en) * 2006-03-13 2010-10-19 Microsoft Corporation Re-ranking search results based on query log
US7739221B2 (en) * 2006-06-28 2010-06-15 Microsoft Corporation Visual and multi-dimensional search
US7779370B2 (en) * 2006-06-30 2010-08-17 Google Inc. User interface for mobile devices
KR100785928B1 (ko) * 2006-07-04 2007-12-17 삼성전자주식회사 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템
US20080071770A1 (en) * 2006-09-18 2008-03-20 Nokia Corporation Method, Apparatus and Computer Program Product for Viewing a Virtual Database Using Portable Devices
US20090287655A1 (en) * 2008-05-13 2009-11-19 Bennett James D Image search engine employing user suitability feedback
US8254697B2 (en) * 2009-02-02 2012-08-28 Microsoft Corporation Scalable near duplicate image search with geometric constraints
US8452794B2 (en) * 2009-02-11 2013-05-28 Microsoft Corporation Visual and textual query suggestion
US8275759B2 (en) * 2009-02-24 2012-09-25 Microsoft Corporation Contextual query suggestion in result pages

Also Published As

Publication number Publication date
EP2635984A1 (en) 2013-09-11
RU2013119973A (ru) 2014-11-10
CN102402593A (zh) 2012-04-04
IN2013CN03029A (ja) 2015-08-14
AU2011323602A1 (en) 2013-05-23
TW201220099A (en) 2012-05-16
IL225831A0 (en) 2013-07-31
EP2635984A4 (en) 2016-10-19
WO2012061275A1 (en) 2012-05-10
KR20130142121A (ko) 2013-12-27
MX2013005056A (es) 2013-06-28
US20120117051A1 (en) 2012-05-10

Similar Documents

Publication Publication Date Title
JP2013541793A (ja) マルチモード検索クエリー入力手法
US20220035827A1 (en) Tag selection and recommendation to a user of a content hosting service
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
US9031960B1 (en) Query image search
US20220261427A1 (en) Methods and system for semantic search in large databases
JP5596792B2 (ja) コンテンツベースの画像検索
US8433140B2 (en) Image metadata propagation
US9396413B2 (en) Choosing image labels
US20090112830A1 (en) System and methods for searching images in presentations
CN109145110B (zh) 标签查询方法和装置
US20110191336A1 (en) Contextual image search
US8606780B2 (en) Image re-rank based on image annotations
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
KR20160107187A (ko) 검색 결과에서의 논리적인 질문 응답 기법
US11055335B2 (en) Contextual based image search results
Lu et al. Browse-to-search: Interactive exploratory search with visual entities
US10503773B2 (en) Tagging of documents and other resources to enhance their searchability
US8875007B2 (en) Creating and modifying an image wiki page
CN117648504A (zh) 媒体资源序列的生成方法、装置、计算机设备和存储介质
Sevillano et al. Indexing large online multimedia repositories using semantic expansion and visual analysis
WO2022093263A1 (en) Multi-modal hierarchical semantic search engine