JP5420243B2 - 所望リポジトリの判定 - Google Patents

所望リポジトリの判定 Download PDF

Info

Publication number
JP5420243B2
JP5420243B2 JP2008519497A JP2008519497A JP5420243B2 JP 5420243 B2 JP5420243 B2 JP 5420243B2 JP 2008519497 A JP2008519497 A JP 2008519497A JP 2008519497 A JP2008519497 A JP 2008519497A JP 5420243 B2 JP5420243 B2 JP 5420243B2
Authority
JP
Japan
Prior art keywords
repositories
search
repository
user
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008519497A
Other languages
English (en)
Other versions
JP2008545196A (ja
Inventor
アンジェロ,マイケル
ブラジンスキー,デイビッド
ジンスバーグ,ジェレミー
トング,サイモン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2008545196A publication Critical patent/JP2008545196A/ja
Application granted granted Critical
Publication of JP5420243B2 publication Critical patent/JP5420243B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

発明の背景
発明の分野
ここで説明する実装は、一般的には情報取得に関し、より具体的には検索のための所望リポジトリ判定に関する。
関連技術の説明
ワールドワイドウェブ(「ウェブ」)は大量の情報を収容している。ただし、情報の所望部分を突き止めるには困難を伴うことがある。ウェブ上の情報量とウェブ検索に不慣れな新参ユーザ数の急増がこの問題を込み入ったものにしている。
検索エンジンシステムは、ユーザが関心を寄せるウェブページに至るハイパーリンクを返すことを試みる。検索エンジンシステムは一般的に、ユーザによって入力される検索語(検索クエリと呼ばれる)に基づきユーザの関心を判断する。検索エンジンシステムの目標は、この検索クエリに基づき上質の、関連性のある、検索結果(例えばウェブページ)に至るリンクを、ユーザに提供することにある。検索エンジンシステムは通常、予め格納されたウェブページの集積に検索クエリの語を照合することによってこれを達成する。ユーザの検索語を含むウェブページは「ヒット」であり、リンクとしてユーザに返される。
一部の検索エンジンシステムは検索結果として様々なタイプの情報を提供できる。例えば検索エンジンシステムは、ウェブページ、ニュース記事、画像、商品、ユースネットページ、イエローページ項目、スキャンされた書籍、及び/またはその他の情報を提供できる。検索エンジンシステムは通常、これらの各種情報に対し別々のインターフェイスを提供する。
標準的な検索エンジンシステムにユーザが検索クエリを提供すると、通常ならばウェブページに至るリンクがそのユーザに提供される。もしもユーザがタイプの異なる情報(例えば画像またはニュース記事)を所望するなら、ユーザは通常、検索エンジンシステムから提供される別のインターフェイスにアクセスする必要がある。
発明の要旨
一態様によると、方法は、ユーザから検索クエリを受け取ることと、リポジトリの各々につき1セットの検索結果を識別するため、前記検索クエリに基づき前記リポジトリからなるグループを検索することと、前記リポジトリからの情報を前記ユーザが所望する尤度に基づき前記リポジトリの内1つを識別することと、前記識別されたリポジトリに関連する前記検索結果セットを提示することとを含むことができる。
別の態様によると、システムは検索エンジンシステムを含むことができ、同検索エンジンシステムは、ユーザから検索クエリを受け取ることができ、且つリポジトリグループの各々につきスコアを判定でき、ここで前記リポジトリの内1つリポジトリの前記スコアは、前記ユーザが前記1つのリポジトリからの情報を所望する尤度に基づく。検索エンジンシステムはまた、前記1つ以上のリポジトリの各々につき1セットの検索結果を識別するため、前記検索クエリに基づき1つ以上の前記リポジトリで検索を遂行でき、前記スコア
に基づき1つ以上の前記検索結果セットを提供できる。
さらに別の態様によると、データとコンピュータ実行可能命令とを格納するためコンピュータ可読媒体が提供される。前記コンピュータ可読媒体は、ユーザによって提供される検索クエリに基づくリポジトリ検索数に関連するログデータを含むことができる。前記コンピュータ可読媒体はまた、前記ログデータを3つ1組のデータ(u、q、r)として表現する命令と、尚ここでuは検索クエリを提供したユーザに関する情報を表し、qは前記検索クエリに関する情報を表し、rは前記検索クエリに応じて提供された検索結果の出所にあたるリポジトリに関する情報を表し、前記3つ1組のデータ(u、q、r)の各々につきラベルを判定する命令と、尚ここで前記ラベルは、前記ユーザuが前記検索クエリを提供したときに前記リポジトリrからの情報を所望したか否かに関する情報を含み、前記3つ1組のデータ(u、q、r)と前記関連ラベルとに基づきモデルをトレーニングする命令とを含むことができ、尚ここで前記モデルは、ある特定のユーザがある特定の検索クエリを提供する場合に前記ユーザがリポジトリからの情報を所望するか否かを予測する。
さらに他の態様によると、システムは、第1のタイプのデータを格納する第1のリポジトリと、第2のタイプのデータを格納する第2のリポジトリと、検索エンジンシステムとを含むことができる。前記検索エンジンシステムは、ユーザから検索クエリを受け取ることができ、且つ前記ユーザと、前記検索クエリと、前記第1または第2のリポジトリとに関する情報とに基づき前記ユーザが前記第1または第2のリポジトリからの情報を所望する尤度を判定できる。
別の態様によると、システムはモデル生成システムと検索エンジンシステムとを含むことができる。前記モデル生成システムはモデルを生成でき、同モデルは、ある特定のユーザがある特定の検索クエリを提供する場合に前記ユーザがリポジトリからの情報を所望する尤度に関連するスコアを判定する。前記検索エンジンシステムは、ユーザから検索クエリを受け取ることができ、前記モデルに基づき複数のリポジトリの各々につきスコアを判定でき、且つ前記スコアに基づき1つ以上の前記リポジトリから検索結果を提示できる。
さらに別の態様によると、方法は、ユーザから検索クエリを受け取ることと、複数のリポジトリの各々につきスコアを判定することと、尚前記リポジトリの内1つのリポジトリの前記スコアは、前記ユーザが前記1つのリポジトリからの情報を所望する尤度に基づく、前記少なくとも1つのリポジトリの各々につき1セットの検索結果を識別するため、前記検索クエリと前記判定されたスコアとに基づき前記少なくとも1つのリポジトリで検索を遂行することと、1つ以上の前記検索結果セットを提供することとを含むことができる。
さらに他の態様によると、システムは、第1及び第2のモデルを生成するためモデル生成システムを含むことができ、ここで前記第2のモデルを生成するため使用される少なくとも1つのファクタは、前記第1のモデルを生成するときに不在である、または異なる。前記システムはまた検索エンジンシステムを含むことができ、同検索エンジンシステムは、ユーザから検索クエリを受け取り、前記第1のモデルに基づき複数のリポジトリの各々につき第1のスコアを判定し、前記検索クエリと前記第1のスコアとに基づき1つ以上の前記リポジトリで検索を遂行し、前記第2のモデルに基づき前記1つ以上のリポジトリの各々につき第2のスコアを判定し、前記第2のスコアに基づき前記1つ以上のリポジトリの内少なくとも1つのリポジトリから検索結果を提示する。
本明細書に編入されこれの一部をなす添付の図面は、本発明の一実施形態を例示するものであり、その説明とともに本発明を説明する。
詳細な説明
以降の本発明の詳細な説明では添付の図面を参照する。別々の図面において同じまたは類似する構成要素を同じ参照番号で識別することがある。また、以降の詳細な説明は本発明を制限しない。
概要
図1は、本発明の原理に一致するコンセプトを例示する。検索エンジンシステムは、ユーザが所望するかもしれない各種の情報を保守できる。検索エンジンシステムは、各種情報に関係する1セットのリポジトリを保守できる。図1に示すとおり、検索エンジンシステムは、例えばウェブページ、画像、製品、及びニュースに関係するリポジトリと連携できる。ウェブページリポジトリはウェブページに関する情報を含むことができる。画像リポジトリは画像に関する情報を含むことができる。製品リポジトリは商品に関する情報を含むことができる。ニュースリポジトリはニュース文書に関する情報を含むことができる。検索エンジンシステムは、これらのリポジトリの内特定のリポジトリに向けられた検索のため別個のインターフェイスを提供できる。
以降の説明で、用語「文書」は広義に、あらゆるマシン可読及びマシン格納可能産物を含むものと解釈される。文書は、例えばウェブページ、報道事件に関する情報、画像ファイル、商品に関する情報、ユースネットページに関する情報、イエローページ項目、スキャンされた書籍、ファイルの組み合わせ、他のファイルへのリンクが埋め込まれた1つ以上のファイル、ブログ、ウェブ広告、eメール、その他を含むことがある。文書はしばしばテキスト情報を含み、埋め込み情報(メタ情報、ハイパーリンク等)及び/または埋め込み命令(Java(登録商標)スクリプト等)含むことがある。ここで用いる用語としての「リンク」は広義に、ある文書と別の文書との間の、または同一文書の別の部分との間の、あらゆるリファレンスを含むものと解釈される。
図1に示すとおり、ユーザは検索エンジンシステムに対し検索クエリを提供できる。検索エンジンシステムは、ユーザが所望すると見込まれるリポジトリがどれかを判断できる。検索エンジンは検索を遂行でき、ユーザが所望すると見込まれるリポジトリがどれかの判断に基づき1つ以上のリポジトリからの情報を含む検索結果を提示できる。
例えば、もしもユーザが検索エンジンシステムに対する検索クエリとして語「sunset(日没)」を提供するなら、検索エンジンシステムは、同ユーザが日没に関係するウェブページよりむしろ日没の画像に関心を寄せていると判断できる。その結果、検索エンジンシステムは画像リポジトリからの検索結果を、他のリポジトリからの検索結果の代わりに、または他のリポジトリからの検索結果に加えて、ユーザに提示できる。
同様に、もしもユーザが検索エンジンシステムに対する検索クエリとして語句「iraq war(イラク戦争)」を提供するなら、検索エンジンシステムは、同ユーザがイラク戦争に関係するウェブページよりむしろイラク戦争に関係するニュース文書に関心を寄せていると判断できる。その結果、検索エンジンシステムはニュースリポジトリからの検索結果を、他のリポジトリからの検索結果の代わりに、または他のリポジトリからの検索結果に加えて、ユーザに提示できる。
本発明の原理に一致する実装は、ユーザが検索クエリを提供するときに、同ユーザが関心を寄せるリポジトリがどれかを予測するモデルを生成でき、このモデルを用いて関連性のある検索結果をユーザに提供できる。
典型的モデル生成システム
図2は、本発明の原理に一致するモデル生成システム200の典型的図である。システム200は、1つ以上のデバイス210とログデータのストア220とを含み得る。ストア220は1つ以上の論理または物理メモリデバイスを含んでよく、同論理または物理メモリは、後ほど詳述するとおり、モデルの作成とトレーニングに役立つ大きいデータセット(例えば、何百万ものインスタンスと何十万ものフィーチャ)を格納できる。データには、ユーザ情報、クエリ情報、リポジトリ情報等、モデルの作成に役立つ過去の検索に関するログデータが含まれ、同モデルは、ユーザが所望する1つ以上のリポジトリを識別するのに役立てることができる。一実現例において、モデルはユーザが何らかのクエリを提供するときに、同ユーザがある特定のリポジトリからの情報を所望するか否かを予測できる。
ユーザ情報は、ユーザに関連するインターネットプロトコル(IP)アドレス、クッキー情報、言語、及び/または地理情報、ユーザによって提供された以前のクエリ、及び/またはユーザが現在または以前のクエリを提供した時刻及び/または曜日を含み得る。リポジトリ情報は、検索に使われたリポジトリインターフェイス、表示された文書とこれの出所にあたるリポジトリ、及び/または選択された(例えばクリックされた)文書に関する情報を含み得る。別の典型的実現例においては、ストア220によってこれ以外のタイプのデータを代わりに、または追加として、保守できる。
デバイス210は、何らかのタイプの接続機構を通じてストア220にアクセスできるあらゆるタイプの演算デバイスを含み得る。本発明の原理に一致する一実現例によると、システム200は複数のデバイス210を含みえる。別の実現例によると、システム200はただひとつのデバイス210を含み得る。
図3は、本発明の原理に一致する一実現例によるデバイス210の例示的な図である。デバイス210は、バス310と、プロセッサ320と、メインメモリ330と、読み取り専用メモリ(ROM)340と、格納デバイス350と、入力デバイス360と、出力デバイス370と、通信インターフェイス380とを含み得る。バス310は、デバイス210の構成要素間で通信を可能にする経路を含み得る。
プロセッサ320は、プロセッサ、マイクロプロセッサ、または命令を解釈し実行できる処理ロジックを含み得る。メインメモリ330は、ランダムアクセスメモリ(RAM)、またはプロセッサ320によって実行される命令及び情報を格納できるその他の動的格納デバイスを含み得る。ROM340は、ROMデバイス、またはプロセッサ320によって使用される静的命令及び情報を格納できるその他の静的格納デバイスを含み得る。格納デバイス350は、磁気及び/または光記録媒体とこれに対応するドライブとを含み得る。
入力デバイス360は、キーボード、マウス、ペン、音声認識及び/または生体認証機構等、オペレータがデバイス210へ情報を入力することを可能にする機構を含み得る。出力デバイス370は、ディスプレイ、プリンタ、スピーカ等、オペレータへ情報を出力する機構を含み得る。通信インターフェイス380は、デバイス210が他のデバイス及び/またはシステムと通信することを可能にする何らかのトランシーバのような機構を含み得る。例えば通信インターフェイス380は、他のデバイス210またはストア220と通信するための機構を含み得る。
後ほど詳述するとおり、本発明の原理に一致するデバイス210は、モデル生成に関係する操作を遂行できる。デバイス210は、メモリ330等のコンピュータ可読媒体に収容されたソフトウェア命令を実行するプロセッサ320に応じてこれらの操作を遂行できる。コンピュータ可読媒体は、物理的または論理的メモリデバイス及び/または搬送波と
定義できる。
ソフトウェア命令は、データ格納デバイス350等の他のコンピュータ可読媒体から、または他のデバイスから通信インターフェイス380を介して、メモリ330に読み込むことができる。メモリ330に収容されたソフトウェア命令は、後述するプロセスをプロセッサ320に遂行させることができる。あるいは、本発明の原理に一致するプロセスを実装するため、ソフトウェア命令の代わりに、またはこれと組み合わせて、結線回路を使用できる。よって本発明の原理に一致する実装は、ハードウェア回路とソフトウェアとの特定の組み合わせに限定されない。
典型的モデル生成処理
以降の論述を目的とし、ストア220(図2)の中にあるデータは、インスタンスと呼ばれる複数の要素を含み得る。何百万ものインスタンスをストア220に含めることは可能である。各々のインスタンスは3つ1組のデータ(u、q、r)を含むことができ、ここで「u」はユーザ情報を表し、「q」はユーザuが提供したクエリを表し、「r」はクエリqに応じて提供された検索結果の出所にあたるリポジトリを表す。ストア220はまた、ユーザuがクエリqを提供したときにリポジトリrからの情報を所望したか否かに関する情報を格納でき、ここでユーザの所望は、例えば同ユーザがそのリポジトリから文書を選択したか否かを判定することによって評価できる。これよりこの情報をインスタンスの「ラベル」と呼ぶ。
所与の(u、q、r)についていくつかのフィーチャを抽出できる。何十万もの異なるフィーチャをストア220に含めることは可能である。一実現例において、これらのフィーチャのいくつかは、ユーザuが位置するところの国、ユーザuが位置するところの国の言語、ユーザuに関連するクッキー識別子、クエリqの言語、クエリqの中の各語、ユーザuがクエリqを提供した時刻、リポジトリrからユーザuへ提示された文書、リポジトリrからユーザuへ提示された文書の中の語、及び/またはリポジトリrからユーザuへ提示された文書の表題の中の各語の内、1つ以上を含み得る。これ以外のフィーチャを代わりに、または追加として、使用することもできる。
別の実現例において、フィーチャのいくつかは、リポジトリrのインターフェイスへ提供されたクエリの割合、他のリポジトリのインターフェイスと対比したリポジトリrのインターフェイスへ提供されたクエリの割合、他のリポジトリのインターフェイスと対比したリポジトリrのインターフェイスへ提供されたクエリqの中の語を含むクエリの割合、リポジトリrのインターフェイスへ提供されたクエリの総クリック率、リポジトリrのインターフェイスへ提供されたクエリのユーザuのクリック率、リポジトリrのインターフェイスへ提供されたクエリのユーザuと同じ国にいるユーザのクリック率、及び/またはリポジトリrのインターフェイスへ提供されたクエリqのクリック率の内、1つ以上を、上記のフィーチャのいくつかに加えて、または代わりに、含み得る。
さらに他の実現例において、2つのフィーチャ、すなわちリポジトリrのインターフェイスへ提供されたクエリqのユーザuのクリック率と、リポジトリrのインターフェイスへ提供されたクエリqのユーザuの割合もまた含めることができる。これらのフィーチャを直接的に判定する代わりに、従来の手法を使用しこれらのフィーチャを予測するためのモデルを生成し、モデルの出力をフィーチャとして使用することもできる。
このデータに基づきモデルを作成できる。一実現例においては、所与の新しい(u、q、r)について、ユーザuがクエリqを提供した場合に、ユーザuがリポジトリrからの情報を所望するか否かを予測するため、モデルを使用できる。後ほど詳述するとおり、リポジトリを検索するか否か、リポジトリからの検索結果を検索結果文書に含めるか否か、
及び/または検索結果文書の中で検索結果を提示する方法を判断するため、モデルの出力を役立てることができる。
図4は、本発明の原理に一致する一実現例に従いモデルを生成する例示的な処理のフローチャートである。この処理は単一のデバイス210によって、または複数のデバイス210の組み合わせによって、遂行できる。
モデルの生成を容易にするため、ストア220の中のログデータはインスタンスの集まりとして表現できる(ブロック410)。例えば、ユーザ、ユーザが提供したクエリ、入手及び/または選択された検索結果の出所にあたるリポジトリに関する情報等、ユーザによる以前の検索に関する情報を識別できる。この情報から上述した3値(u、q、r)を形成できる。
次に、各インスタンスにつきラベルを判定できる(ブロック420)。例えば、各々の3値(u、q、r)につき、ユーザuがクエリqを提供したときにユーザuがリポジトリrの中にある情報を所望した(例えば文書を選択した)か否かを判定できる。ラベルは、ストア220の中で対応するインスタンスに関連づけることができる。インスタンスの各々に関係するフィーチャもまた判定できる(ブロック430)。
次に、インスタンスと、ラベルと、フィーチャとに基づきモデルを生成できる(ブロック440)。例えば、標準的な機械学習または統計手法を使用し、ユーザuがクエリqを提供するときにユーザuがリポジトリrからの情報を所望する確率を判定でき、すなわち、
P(desire|u,q,show_r)
ここで「show_r」は、リポジトリrから文書が提供されることを意味する。論理回帰、ブースト決定木、ランダム森、サポートベクトルマシン、パーセプトロン、ウィンナウラーナー等、数通りの周知の手法のいずれでもモデルの生成に使用できる。確率を生成する代わりに、ユーザuがクエリqを提供する場合にユーザuがリポジトリrからの情報を所望する信頼性を反映する値をモデルから出力できる。これ以降モデルの出力は、確率出力及び/または出力値を含み得る「スコア」と総称する。
後ほど説明するとおり、リポジトリを検索するか否か、リポジトリからの検索結果を検索結果文書に含めるか否か、及び/または検索結果文書の中で検索結果を提示する方法を判断するため、モデルの出力を役立てることができる。
典型的情報取得ネットワーク
図5は、本発明の原理に一致するシステム及び方法を実現できるネットワーク500の例示的な図である。ネットワーク500は、ネットワーク550を通じて複数のサーバ520〜540へ接続された複数のクライアント510を含み得る。簡潔を図るため、2つのクライアント510と3つのサーバ520〜540とが接続された状態で図示されている。実際にはこれより多い、または少ない、クライアントとサーバとがあってよい。場合によってはクライアントがサーバの機能を遂行でき、サーバがクライアントの機能を遂行できる。
クライアント510はクライアント実体を含み得る。実体は、パーソナルコンピュータ、無線電話機、個人用デジタル補助装置(PDA)、ラップトップ、その他の演算または通信デバイス、これらのデバイスの内1つで実行するスレッドまたはプロセス、及び/またはこれらのデバイスの内1つによって実行できるオブジェクト等、デバイスとして定義できる。サーバ520〜540は、本発明の原理に一致するやり方で文書を収集、処理、検索、及び/または保守するサーバ実体を含み得る。
本発明の原理に一致する一実現例において、サーバ520はクライアント510によって利用される検索エンジンシステム525を含み得る。検索エンジンシステム525は、ウェブページリポジトリ、ニュースリポジトリ、画像リポジトリ、製品リポジトリ、ユースネットリポジトリ、イエローページリポジトリ、スキャン書籍リポジトリ、及び/またはその他のリポジトリ等、いくつかの文書リポジトリ(図示せず)と連携できる。これらのリポジトリは、サーバ520の中にある、またはサーバ520の外にある、1つ以上のメモリデバイス内に物理的に存在してよい。サーバ530及び540は、1つ以上のリポジトリに関連する文書を格納または保守できる。
サーバ520〜540は別々の実体として示されているが、1つ以上のサーバ520〜540が他の1つ以上のサーバ520〜540の1つ以上の機能を遂行することは可能である。例えば、2つ以上のサーバ520〜540を単一のサーバとして実現することは可能である。単一のサーバ520〜540を2つ以上の別々の(ことによると分散された)デバイスとして実現することもまた可能である。
ネットワーク550は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、公衆交換電話網(PSTN)等の電話網、イントラネット、インターネット、またはネットワークの組み合わせを含み得る。クライアント510とサーバ520〜540は、有線、無線、及び/または光接続を通じてネットワーク550へ接続できる。
検索結果を提供する例示的プロセス
図6は、本発明の原理に一致する一実現例に従い検索結果を提供する典型的処理のフローチャートである。処理は検索クエリを受け取ることから始まってよい(ブロック610)。例えばユーザは、クライアント510(図5)等のクライアントでブラウザソフトウェアを使用しながら検索エンジンインターフェイスにアクセスできる。ユーザは検索エンジンインターフェイスに検索クエリを提供できる。
ユーザに関する情報は入手できる(ブロック620)。例えばユーザは、例えばユーザに関連するIPアドレス、クッキー情報、言語、及び/または地理情報を使用し、識別できる。ユーザ情報の収集にあたっては従来の手法を使用できる。
一実現例においては、検索クエリに基づきリポジトリの各々で検索を遂行できる(ブロック630)。リポジトリの各々に応じて1セットの検索結果を入手できる。検索結果セットに含める関連文書の識別にあたっては従来の情報取得法を使用できる。
次に、検索結果をどうのように提示するかをモデルに基づき判断できる(ブロック640)。例えば、ユーザと、ユーザが提供した検索クエリと、各リポジトリとに関する情報をこのモデルへの入力として使用できる。そして各リポジトリにモデルを適用し、モデルの出力(「スコア」)をもとにリポジトリの検索結果を提供するべきか否かを判断できる。例えば、最高のスコアを持つ2つのリポジトリから検索結果を提供すると決めることができる。代わりに、ある特定の1つのリポジトリからの検索結果は常に提供し、他の1つ以上のリポジトリのスコアがこの特定のリポジトリのスコアより大きい場合にはそのリポジトリからの検索結果も併せて提供すると決めることができる。代わりに、スコアが一定の閾値を上回るリポジトリから検索結果を提供し、その閾値を上回るスコアが皆無の場合には、最高のスコアを持つリポジトリから検索結果を提供すると決めることができる。リポジトリの検索結果を提供するか否かを判断するにあたっては、これ以外のルールを代わりに、または追加として、使用することもできる。
代わりに、または加えて、それぞれのリポジトリから検索結果を提供する方法を判断するためモデルの出力を使用することもできる。例えば、スコアがある程度の閾値を下回るリポジトリの検索結果は、ユーザに向けて提示される検索結果文書の上のほうではなく下のほうに提示すると決めることができる。代わりに、または加えて、リポジトリのスコアがある程度の閾値を下回る場合には、そのリポジトリの検索結果に至るリンクを、検索結果そのものの代わりに、提示すると決めることができる。リポジトリの検索結果を提供する方法を判断するにあたっては、これ以外のルールを代わりに、または追加として、使用することもできる。
そして検索結果文書の中で検索結果を配置し、ユーザへ提示できる。各々の検索結果は、例えば該当するリポジトリからの文書に至るリンクを、そしてことによるとその文書の短い説明または抜粋を、含み得る。
別の実現例においては、検索すべきリポジトリをモデルに基づき識別できる(ブロック650)。例えば、ユーザと、ユーザが提供した検索クエリと、各リポジトリとに関する情報をこのモデルの入力として使用できる。そして各リポジトリにモデルを適用し、モデルの出力(「スコア」)をもとに検索すべきリポジトリを判断できる。例えば、最高のスコアを持つ2つのリポジトリを検索すると決めることができる。代わりに、ある特定の1つのリポジトリは常に検索し、他の1つ以上のリポジトリのスコアがこの特定のリポジトリのスコアより大きい場合にはそのリポジトリも併せて検索すると決めることができる。代わりに、スコアが一定の閾値を上回るリポジトリは検索し、その閾値を上回るスコアが皆無の場合には、最高のスコアを持つリポジトリを検索する決めることができる。検索すべきリポジトリを判断するにあたっては、これ以外のルールを代わりに、または追加として、使用することもできる。
識別されたリポジトリの各々から1セットの検索結果を入手するため検索を遂行できる(ブロック660)。検索結果セットに含める関連文書の識別にあたっては従来の情報取得法を使用できる。
そして、モデルに基づき検索結果を提供できる(ブロック670)。例えば、それぞれのリポジトリから検索結果を提供する方法を判断するためモデルの出力を役立てることができる。例えば、スコアがある程度の閾値を下回るリポジトリの検索結果は、ユーザに向けて提示される検索結果文書の上のほうではなく下のほうに提示すると決めることができる。代わりに、または加えて、リポジトリのスコアがある程度の閾値を下回る場合には、そのリポジトリの検索結果に至るリンクを、検索結果そのものの代わりに、提示すると決めることができる。リポジトリの検索結果を提供する方法を判断するにあたっては、これ以外のルールを代わりに、または追加として、使用することもできる。
そして検索結果文書の中で検索結果を配置し、ユーザへ提示できる。各々の検索結果は、例えば該当するリポジトリからの文書に至るリンクを、そしてことによるとその文書の短い説明または抜粋を、含み得る。
別の実現例においては、2つ以上のモデルを使用できる。例えば、第1のモデルはリポジトリを検索するべきか否かを判断するために使用でき、第2のモデルは、検索されたリポジトリのうちの1つからの検索結果を検索結果文書に含めるべきか否かを判断するために使用でき、第2のモデル、あるいはことによると第3のモデルは、検索結果文書内で検索結果を提示する方法を判断するために使用できる。第1、第2、及び/または第3のモデルは、ユーザごとに異なる1つ以上のファクタに基づいて生成できる。例えば一実現例において、第1のモデルの出力を第2のモデルへの入力として使用でき、及び/または第1及び/または第2のモデルの出力を第3のモデルへの入力として使用できる。
この検索に関する情報をログデータとしてストア220へ提供することは可能である。例えば、モデルをトレーニングする、または精緻化するためのトレーニングデータとして情報を使用できる。
実施例
図7〜10は、本発明の原理に一致する例示的な実現例の図である。図7に示すとおり、検索エンジンシステム710はウェブページリポジトリ720と、画像リポジトリ730と、ニュースリポジトリ740とを含む3つの関連リポジトリを有すると仮定する。ウェブページリポジトリ720はウェブページに関する情報を格納できる。画像リポジトリ730は画像に関する情報を格納できる。ニュースリポジトリ740はニュース文書に関する情報を格納できる。検索エンジンシステム710はユーザから検索クエリを受け取ることができ、1つ以上のリポジトリ720〜740から関連性のある検索結果を提供できる。
図8に示すとおり、ユーザは検索エンジンシステム710と連携するインターフェイスにアクセスすると仮定する。このインターフェイスはリポジトリの内1つに連携してよく、あるいはどのリポジトリとも連携しなくてもよい。図8に示すとおり、ユーザは検索エンジンシステム710に対し検索クエリ「sunset(日没)」を提供すると仮定する。検索エンジンシステム710はこの検索クエリに加えて、ユーザに関連するIPアドレス、クッキー情報、言語、及び/または地理情報等、ユーザに関する情報を入手できる。
一実現例において、検索エンジンシステム710は上述したとおりリポジトリ720〜740の各々につき1セットの検索結果を入手するためリポジトリ720〜740の各々で検索を遂行できる。検索エンジンシステム710は検索クエリ「sunset」に対する関連検索結果として、ウェブページリポジトリ720から10件のウェブページ結果と、画像リポジトリ730から10件の画像結果と、ニュースリポジトリ740から10件のニュース文書結果とを識別すると仮定する。
検索エンジンシステム710は、ユーザと、ユーザが提供した検索クエリと、各リポジトリ720〜740とに関する情報を、モデルへの入力として入力できる。このモデルは、ユーザが検索クエリ「sunset」を提供する場合に、各リポジトリ720〜740からの情報をユーザが所望する確率を判定するのに役立てることができる。
例えばモデルによって以下の出力が生成されると仮定し、
P(desire|u,q,show_web page repository)=0.45
P(desire|u,q,show_image repository)=0.91
P(desire|u,q,show_news repository)=0.23
ここで「u」は検索クエリを提供したユーザのユーザ情報を表し、「q」はユーザが提供した検索クエリ(すなわち「sunset」)の情報を表し、「show_x repository」(ここでxは「web page」、「image」、または「news」に相当する)は識別されたリポジトリの情報を表す。この場合、ユーザが検索クエリ「sunset」を提供するときにウェブページリポジトリ720の情報を所望する確率は45%であり、ユーザが検索クエリ「sunset」を提供するときに画像リポジトリ730の情報を所望する確率は91%であり、ユーザが検索クエリ「sunset」を提供するときにニュースリポジトリ740の情報を所望する確率は23%である。
そして検索エンジンシステム710は、リポジトリ720〜740のモデル出力をもとにリポジトリの検索結果を提供するか否かを判断できる。例えば、スコアが最高のリポジトリの検索結果だけを提供することを検索エンジンシステム710に指示するルールを仮
定する。この場合検索エンジンシステム710は、図9に示すとおり、画像リポジトリ730(すなわち最高のスコア0.91を持つリポジトリ)から識別した10件の画像結果に基づいて検索結果文書を形成できる。
代わりに、検索エンジンシステム710がウェブページリポジトリ720からの検索結果を常に提供し、別のリポジトリがウェブページリポジトリ720と関連するスコアより高い関連のスコアを持つ場合には、そのリポジトリからの検索結果を提供することをルールが示すと仮定する。この場合、画像リポジトリ730のスコア(0.91)はウェブページリポジトリ720のスコア(0.45)より大きいから、検索エンジンシステム710は、ウェブページリポジトリ720と画像リポジトリ730の両方から検索結果を提供すると判断できる。
そして検索エンジンシステム710は、図10に示すとおり、ウェブページリポジトリ720からの10件のウェブページ結果と画像リポジトリ730からの10件の画像結果とに基づき検索結果文書を形成できる。画像リポジトリ730のスコアはウェブページリポジトリ720のスコアより高い(または閾値よりある程度高い、またはより高く且つより大きい)から、図10にも見られるとおり、10件の画像結果に関する情報は検索結果文書の中で10件のウェブページ結果より目立つ場所に提示できる。ユーザは、図9に類似する画像結果に関する追加情報を提示させるため10件の画像結果に関連するリンク(例えば「SEE 10 IMAGE RESULTS FOR SUNSET>>(SUNSETに対する10件の画像結果を見る>>)」)を選択できる。
結論
本発明の原理に一致する実現例は、ユーザが検索クエリを提供するときにどのリポジトリに同ユーザが関心を寄せると見込まれるかを予測するのに使用できるモデルを生成でき、このモデルを用いて関連性のある検索結果をユーザに提供できる。
前述した本発明の好適な実施形態の説明は例示と説明とを提供するものであって、網羅的であること、または開示されたとおりの形態に本発明を制限することは意図しない。変形とバリエーションは上の教示を踏まえて可能であり、あるいは本発明の実践を通じて会得できる。
例えば、図4及び6に関して一連の行為を説明したが、これらの行為の順序は、本発明の原理に一致する他の実現例において修正できる。さらに、非依存性の行為を並行して遂行できる。
また、図8〜10に関して典型的なユーザインターフェイスを説明した。ユーザインターフェイスは本発明の原理に一致する他の実装において、より多い、より少ない、または異なる情報を含み得る。
上の説明ではユーザに言及している。「ユーザ」は、クライアント510(図5)等のクライアントを、またはクライアントのオペレータを、指すことを意図する。
さらに、リポジトリを検索するか否かを、リポジトリからの検索結果を検索結果文書に含めるか否かを、及び/または検索結果文書の中で検索結果を提示する方法を、判断するため、モデルの出力(「スコア」)を使用できると説明した。別の実現例においては、リポジトリを検索するか否かを、リポジトリからの検索結果を検索結果文書に含めるか否かを、及び/または検索結果文書の中で検索結果を提示する方法を、判断する機能への複数の入力の内の1入力として、スコアを使用することができる。
さらに、上述したフィーチャの中には、これの判定にあたって他のフィーチャより演算上高くつくものがある。例えば、リポジトリの中にある文書に基づくフィーチャの場合には、それらのリポジトリを照会し、文書を取り出す必要がある。演算の効率を図るには、演算的に高くつかない(例えば安くすむ)フィーチャに基づいて近似メインモデルを作成し、この近似メインモデルを用いて検索すべきリポジトリを判断できる。そのリポジトリから文書を取り出した後には、完全なメインモデルを使って検索結果を提供するリポジトリを判断できる。
また、それぞれのリポジトリについて情報を収集するため「探査」方針に従ってモデルを使用することも可能である。例えば、(例えば、画像ではなくニュース文書を提示する)次善のリポジトリに関する検索結果を提供することが望まれるかもしれない。ある1つの探査方針では、ランダムリポジトリからごく少数のユーザに文書を提示すると指定できる。別の探査方針では、スコアに比例してリポジトリから文書を提示すると指定できる(例えば、画像のスコアがニュース記事のスコアの2倍であることが判明する場合には、ニュース記事の2倍の頻度で画像を提示できる)。
ユーザがリポジトリからの情報を所望する尤度に基づきリポジトリ(または1セットのリポジトリ)を識別するためモデルを生成できると説明した。一実現例においてはルックアップテーブルとしてモデルを構築でき、そのキーは、クエリ(例えばクエリの語)に関係する1つ以上のフィーチャ等、1つ以上のフィーチャに基づき決定できる。このルックアップテーブルの出力には、各リポジトリのクリックスルー率(または推定クリックスルー率)を含めることができる。この場合、ユーザが1リポジトリからの情報を所望する尤度は、そのリポジトリのクリックスルー率の関数であってよい。例えば、リポジトリを検索するか否か、リポジトリからの検索結果を検索結果文書に含めるか否か、及び/または検索結果を提示する方法は、リポジトリのクリックスルー率に基づき判断できる。
図示された実現例において、上述した本発明の態様を様々な形のソフトウェア、ファームウェア、及びハードウェアで実現できることは当業者にとって明白であろう。本発明の原理に一致する態様を実現するために使われる実際のソフトウェアコードまたは特化された制御ハードウェアは、本発明を制限するものではない。したがって、当該態様の動作と挙動は特定のソフトウェアコードに言及せずに説明した。当業者なら、ここでの説明に基づき、当該態様を実現するためソフトウェア及び制御ハードウェアを設計できるものと理解する。
本願の中で使われている構成要素、行為、または命令はどれも、明確な説明がない限り、本発明にとって必要不可欠なものと解釈されるべきではない。また、ここで使用した冠詞「a」は、1つ以上の品目を含むことを意図する。ただひとつの品目が意図されるところには用語「one(1つ)」かこれに類似する言葉が使われている。さらに、語句「based on(基づく)」は、別段の明記がない限り、「based,at least in part,on(少なくとも部分的には基づく)」を意味することを意図する。
本発明の原理に一致するコンセプトを示す。 本発明の原理に一致する一実現例による例示的モデル生成システムの図。 本発明の原理に一致する一実現例による図2のデバイスの例示的図。 本発明の原理に一致する一実現例に従いモデルを生成する例示的処理のフローチャート。 本発明の原理に一致するシステム及び方法を実現できる、例示的情報取得ネットワークの図。 本発明の原理に一致する一実現例に従い検索結果を提供する例示的処理のフローチャート。 本発明の原理に一致する例示的な実現例の図。 本発明の原理に一致する例示的な実現例の図。 本発明の原理に一致する例示的な実現例の図。 本発明の原理に一致する例示的な実現例の図。

Claims (25)

  1. 複数のユーザによる複数の以前の検索に関連するログデータを格納することと、
    ユーザから検索クエリを受け取ることと、
    複数のリポジトリの各々につき検索結果のセットを識別するため、前記検索クエリに基づき前記複数のリポジトリを検索することと、
    前記検索クエリを満足する情報を前記リポジトリが含む尤度を識別するスコアを、前記ログデータに基づいて生成されたモデルであって、前記複数のリポジトリの内の特定のリポジトリが、特定のユーザによって与えられた特定の検索クエリに対応した情報を含む尤度に関連したスコアを判定するモデルに、前記検索クエリに関連する情報と前記ユーザに関する情報とを入力することによって、前記複数のリポジトリの各々につき判定することと、
    前記判定されたスコアに基づき前記複数のリポジトリの内の1つを選択することと、
    前記複数のリポジトリの内の前記選択された1つに関連する検索結果のセットに基づき検索結果文書を生成することと、
    前記ユーザに関連するクライアント装置に前記検索結果文書を与えることと、を備える、コンピュータが実現する方法。
  2. 前記モデルは、
    3つ1組のデータ(u、q、r)として表現されたログデータから生成され、ここでuは検索クエリを提供したユーザに関する情報を表し、qは前記検索クエリに関する情報を表し、rは前記検索クエリに応じて提供された検索結果の出所にあたるリポジトリに関する情報を表す、請求項1に記載の方法。
  3. 前記ログデータは、数百万の前記3つ1組のデータ(u、q、r)を含む、請求項2に記載の方法。
  4. 前記モデルは、
    前記3つ1組のデータ(u、q、r)の各々にラベルを関連付けることによって生成され、ここで前記ラベルは、前記ユーザ検索クエリを提供したときに前記ユーザが文書の中にある前記リポジトリを選択したか否かに関する情報を含む、請求項2に記載の方法。
  5. 前記モデルは、
    前記3つ1組のデータ(u、q、r)と前記3つ1組のデータ(u、q、r)の各々について判定された記ラベルとに基づき、前記ユーザが前記検索クエリを提供するときに前記リポジトリの中にある情報を所望する可能性を判定するための統計手法を使用して生成される、請求項4に記載の方法。
  6. 前記複数のリポジトリの内1つを選択することは、
    前記複数のリポジトリの前記スコアの中で最高スコアを持つ、前記複数のリポジトリの内の1つのリポジトリを選択することを含む、請求項1に記載の方法。
  7. 前記検索結果文書を生成することは、
    前記検索結果文書に含ませるために、前記複数のリポジトリの内の2つ以上のリポジトリに関連した検索結果のセットを、前記複数のリポジトリの内の前記2つ以上のリポジトリについてのスコアに基づき選択することを含む、請求項1に記載の方法。
  8. 前記検索結果文書を生成することは、
    前記複数のリポジトリの内の前記2つ以上のリポジトリに関連する前記スコアに基づき前記検索結果文書の中で前記検索結果セットを配置することを含む、請求項7に記載の方法。
  9. 前記複数のリポジトリの内の前記2つ以上のリポジトリに関連する前記スコアに基づき前記検索結果文書の中で前記検索結果セットを配置することは、
    前記複数のリポジトリの内の前記2つ以上のリポジトリの内の第1のリポジトリに関連する前記スコアが前記複数のリポジトリの内の前記2つ以上のリポジトリの内の第2のリポジトリに関連する前記スコアより高い場合に、前記検索結果文書の中で、前記第1のリポジトリに関連する前記検索結果セットを前記第2のリポジトリに関連する前記検索結果セットより目立つ場所に置くことを含む、請求項8に記載の方法。
  10. 前記2つ以上のリポジトリに関連する前記スコアに基づき検索結果文書の中で前記検索結果セットを配置することは、
    前記2つ以上のリポジトリの内少なくとも1つのリポジトリに関連する前記スコアに基づき前記2つ以上のリポジトリの内の前記少なくとも1つのリポジトリに関連する前記検索結果セットに至るリンクを前記検索結果文書の中で提供することを含む、請求項8に記載の方法。
  11. 前記スコアに基づき、前記複数のリポジトリの内の検索すべきリポジトリのグループを選択することをさらに含み、
    ここで複数のリポジトリを検索することは、
    前記リポジトリのグループについて検索を遂行することを含む、請求項1に記載の方法。
  12. 1つ以上のコンピュータデバイスの中で実現されるシステムであって、
    複数のユーザによる複数の以前の検索に関連するログデータを格納する手段と、
    ユーザから検索クエリを受け取る手段と、
    複数のリポジトリの各々につき検索結果のセットを識別するため、特定の検索クエリに基づき複数のリポジトリを検索する手段と、
    前記検索クエリを満足する情報を前記リポジトリが含む尤度を識別するスコアを、前記ログデータに基づいて生成されたモデルであって、前記複数のリポジトリの内の特定のリポジトリが、特定のユーザによって与えられた特定の検索クエリに対応した情報を含む尤度に関連したスコアを判定するモデルに、前記検索クエリに関連する情報と前記ユーザに関する情報とを入力することによって、前記複数のリポジトリの各々につき識別する手段と、
    前記判定されたスコアに基づき前記複数のリポジトリの内の1つを選択する手段と、
    前記複数のリポジトリの内の前記選択された1つに関連する検索結果のセットに基づき検索結果文書を生成する手段と、
    前記ユーザに関連するクライアント装置に前記検索結果文書を提供する手段を備える、システム。
  13. 前記スコアに基づき検索すべき前記複数のリポジトリのグループを選択する手段をさらに備える、請求項12に記載のシステム。
  14. 1つ以上のコンピュータデバイスの中で実現されるシステムであって、
    複数のユーザにより与えられた検索クエリに基づいたリポジトリの複数の検索に関連するログデータを格納する1つ以上のメモリ装置と、
    検索エンジンシステムを備え、前記検索エンジンシステムは、
    ユーザから検索クエリを受け取り、
    前記検索クエリを満足する情報を前記リポジトリが含む尤度を識別するスコアを、前記ログデータに基づいて生成されたモデルであって、前記複数のリポジトリの内の特定のリポジトリが、特定のユーザによって与えられた特定の検索クエリに対応した情報を含む尤度に関連したスコアを判定するモデルに、前記検索クエリに関連する情報と前記ユーザに関する情報とを入力することによって、前記複数のリポジトリの各々につき識別し、
    前記複数のリポジトリのスコアの中から、最高スコアを持つ、前記複数のリポジトリの内の1つのリポジトリを選択し、
    前記複数のリポジトリの内の前記つのリポジトリにつき1つの検索結果のセットを識別するため、前記検索クエリに基づき前記複数のリポジトリの内の前記1つのリポジトリで検索を遂行し、
    前記ユーザに関連したクライアント装置に、前記スコアに基づき前記つの検索結果セットを提供する、システム。
  15. 前記モデルはルックアップテーブルであり、前記スコアの各々は前記複数のリポジトリの内の対応するリポジトリに関連するクリックスルー率に相当する、請求項14に記載のシステム。
  16. 前記モデルは
    前記ログデータを3つ1組のデータ(u、q、r)として表現するようにさらに構成されており、ここでuは検索クエリを提供したユーザに関する情報を表し、qは前記検索クエリに関する情報を表し、rは前記検索クエリに応じて提供された検索結果の出所にあたるリポジトリに関する情報を表す、請求項14に記載のシステム。
  17. 前記ログデータは、数百万の前記3つ1組のデータ(u、q、r)を含む、請求項16に記載のシステム。
  18. 前記モデルは、
    前記3つ1組のデータ(u、q、r)の各々にラベルを関連付けるように構成されており、ここで前記ラベルは、前記ユーザが前記検索クエリを提供したときに前記ユーザが文書の中にある前記リポジトリを選択したか否かに関する情報を含む、請求項16に記載のシステム。
  19. 前記モデルは、
    前記3つ1組のデータ(u、q、r)と前記3つ1組のデータ(u、q、r)の各々について判定されたラベルとに基づいて、前記ユーザが前記検索クエリを提供するときに前記リポジトリの中にある情報を所望する可能性を判定するように構成されている、請求項18に記載のシステム。
  20. 前記1つの検索結果セットを提供するときに、前記検索エンジンシステムは
    索結果文書の中から前記1つの検索結果のセットを提供するように構成されている、請求項14に記載のシステム。
  21. データとコンピュータ実行可能命令とを格納する物理メモリデバイスであって、
    ユーザによって提供される検索クエリに基づく複数のリポジトリ検索に関連するログデータを含み、
    前記ログデータを3つ1組のデータ(u、q、r)として表現する命令を含み、ここでuは検索クエリを提供したユーザに関する情報を表し、qは前記検索クエリに関する情報を表し、rは前記検索クエリに応じて提供された検索結果の出所にあたるリポジトリに関する情報を表し、
    前記3つ1組のデータ(u、q、r)の各々にラベルを関連付ける命令を含み、ここで前記ラベルは、前記ユーザuが前記検索クエリqを提供したときに前記ユーザが前記リポジトリrからの文書を選択したか否かに関する情報を含むものであり、
    前記3つ1組のデータ(u、q、r)と前記関連ラベルとに基づきモデルを生成するための命令を含み、ここで前記モデルは、ある特定のユーザがある特定の検索クエリを提供する場合にリポジトリからの情報を所望するか否かを予測する、物理メモリデバイス。
  22. 前記ログデータは、数百万の前記3つ1組のデータ(u、q、r)を含む、請求項21に記載の物理メモリデバイス。
  23. 1つ以上のコンピュータデバイスの中で実現されるシステムであって、
    ユーザによる以前の検索に関する情報に基づいて、複数のリポジトリの内の特定のリポジトリが特定のユーザによって与えられた特定の検索クエリに対応する情報を含む尤度を反映するスコアを判定するモデルを生成するモデル生成システムと、
    検索エンジンシステムとを備え、前記検索エンジンシステムは、
    ユーザから検索クエリを受け取り、
    前記モデルに入力する前記検索クエリに関する情報とユーザに関する情報とに基づき前記複数のリポジトリの各々につきレポジトリが前記検索クエリを満足する情報を含む尤度を識別するスコアを判定し、
    前記スコアに基づき前記数のリポジトリの内の1つ以上のリポジトリの検索を実行し、
    前記スコアに基づき、前記複数のリポジトリの内の前記1つ以上のリポジトリからの検索結果を前記ユーザに関連したクライアント装置に提示する、システム。
  24. 前記モデルはルックアップテーブルであり、前記スコアは前記特定のユーザが前記特定の検索クエリを提供する場合の、前記複数のリポジトリの内の対応するリポジトリに関連するクリックスルー率に相当する、請求項23に記載のシステム。
  25. 1つ以上のコンピュータデバイスの中で実現されるシステムであって、
    ユーザによる以前の検索に関する情報に基づいて、第1及び第2のモデルを生成するためのモデル生成システムを備え、ここで前記第1のモデルの出力は前記第2のモデルの入力として用いられ、ここで前記第2のモデルを生成するため使用される少なくとも1つのファクタは、前記第1のモデルを生成するときに不在であり、または異なるものであり、
    検索エンジンシステムを備え、前記検索エンジンシステムは、
    ユーザから検索クエリを受け取り、
    前記第1のモデルに基づき複数のリポジトリの各々につき、レポジトリが前記検索クエリを満足する情報を含む尤度を識別する第1のスコアを判定し、
    前記検索クエリと前記第1のスコアとに基づき1つ以上の前記リポジトリで検索を遂行し、
    前記第2のモデルに基づき前記1つ以上のリポジトリの各々につき第2のスコアを判定し、
    前記第2のスコアに基づき前記1つ以上のリポジトリの内少なくとも1つのリポジトリから検索結果を提示する、システム。
JP2008519497A 2005-06-29 2006-06-27 所望リポジトリの判定 Active JP5420243B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/169,285 2005-06-29
US11/169,285 US7584177B2 (en) 2005-06-29 2005-06-29 Determination of a desired repository
PCT/US2006/025040 WO2007005431A1 (en) 2005-06-29 2006-06-27 Determination of a desired repository

Publications (2)

Publication Number Publication Date
JP2008545196A JP2008545196A (ja) 2008-12-11
JP5420243B2 true JP5420243B2 (ja) 2014-02-19

Family

ID=37141347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008519497A Active JP5420243B2 (ja) 2005-06-29 2006-06-27 所望リポジトリの判定

Country Status (8)

Country Link
US (4) US7584177B2 (ja)
EP (2) EP2385473A1 (ja)
JP (1) JP5420243B2 (ja)
KR (1) KR100944744B1 (ja)
CN (1) CN101248435B (ja)
AU (1) AU2006266103B2 (ja)
CA (1) CA2613859C (ja)
WO (1) WO2007005431A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630976B2 (en) * 2005-05-10 2009-12-08 Microsoft Corporation Method and system for adapting search results to personal information needs
US7584177B2 (en) 2005-06-29 2009-09-01 Google Inc. Determination of a desired repository
US8195654B1 (en) * 2005-07-13 2012-06-05 Google Inc. Prediction of human ratings or rankings of information retrieval quality
US9305088B1 (en) * 2006-11-30 2016-04-05 Google Inc. Personalized search results
US7630972B2 (en) 2007-01-05 2009-12-08 Yahoo! Inc. Clustered search processing
US20090012841A1 (en) * 2007-01-05 2009-01-08 Yahoo! Inc. Event communication platform for mobile device users
US20080195590A1 (en) * 2007-02-08 2008-08-14 Mitsuo Nakamura Network device, image forming device, and data searching method
US8176055B1 (en) * 2007-03-27 2012-05-08 Google Inc. Content entity management
US7792813B2 (en) * 2007-08-31 2010-09-07 Microsoft Corporation Presenting result items based upon user behavior
US20090089246A1 (en) * 2007-09-28 2009-04-02 Yahoo! Inc. System and method for history clustering
US8396851B2 (en) * 2007-11-30 2013-03-12 Kinkadee Systems Gmbh Scalable associative text mining network and method
US20090265328A1 (en) * 2008-04-16 2009-10-22 Yahool Inc. Predicting newsworthy queries using combined online and offline models
US8738436B2 (en) * 2008-09-30 2014-05-27 Yahoo! Inc. Click through rate prediction system and method
US8719298B2 (en) * 2009-05-21 2014-05-06 Microsoft Corporation Click-through prediction for news queries
US8707296B2 (en) * 2010-04-27 2014-04-22 Apple Inc. Dynamic retrieval of installation packages when installing software
US8600979B2 (en) * 2010-06-28 2013-12-03 Yahoo! Inc. Infinite browse
US8606652B2 (en) 2010-12-20 2013-12-10 Target Brands, Inc. Topical page layout
US8972895B2 (en) 2010-12-20 2015-03-03 Target Brands Inc. Actively and passively customizable navigation bars
CN102591880B (zh) * 2011-01-14 2015-02-18 阿里巴巴集团控股有限公司 信息提供方法及装置
US8346815B2 (en) * 2011-05-12 2013-01-01 Google Inc. Dynamic image display area and image display within web search results
US8965788B2 (en) 2011-07-06 2015-02-24 Target Brands, Inc. Search page topology
US8825644B1 (en) * 2011-10-14 2014-09-02 Google Inc. Adjusting a ranking of search results
US9483279B2 (en) * 2011-10-31 2016-11-01 Oracle International Corporation Mechanism for providing unified access to decentralized user assistance repositories
USD715818S1 (en) 2011-12-28 2014-10-21 Target Brands, Inc. Display screen with graphical user interface
US9024954B2 (en) 2011-12-28 2015-05-05 Target Brands, Inc. Displaying partial logos
US9594812B2 (en) 2013-09-09 2017-03-14 Microsoft Technology Licensing, Llc Interfaces for accessing and managing enhanced connection data for shared resources
CA2926897A1 (en) * 2013-10-10 2015-04-16 Calgary Scientific Inc. Methods and systems for intelligent archive searching in multiple repository systems
CN105677931B (zh) * 2016-04-07 2018-06-19 北京百度网讯科技有限公司 信息搜索方法和装置
US10552432B2 (en) * 2016-10-12 2020-02-04 Salesforce.Com, Inc. Ranking search results using hierarchically organized machine learning based models
CN110574021B (zh) * 2017-04-29 2023-10-13 谷歌有限责任公司 使用经过训练的生成模型生成查询变体
JP7476081B2 (ja) * 2020-11-11 2024-04-30 Lineヤフー株式会社 検索装置、検索方法及び検索プログラム

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5227122A (en) * 1989-11-02 1993-07-13 Combustion Engineering, Inc. Display device for indicating the value of a parameter in a process plant
US5689669A (en) * 1994-04-29 1997-11-18 General Magic Graphical user interface for navigating between levels displaying hallway and room metaphors
US5839112A (en) * 1994-12-28 1998-11-17 Automatic Data Processing Method and apparatus for displaying and selecting vehicle parts
US5778227A (en) * 1995-08-01 1998-07-07 Intergraph Corporation System for adding attributes to an object at run time in an object oriented computer environment
JP3159242B2 (ja) * 1997-03-13 2001-04-23 日本電気株式会社 感情生成装置およびその方法
US5960422A (en) * 1997-11-26 1999-09-28 International Business Machines Corporation System and method for optimized source selection in an information retrieval system
JP3225912B2 (ja) * 1998-01-08 2001-11-05 日本電気株式会社 情報検索装置、方法及び記録媒体
US6317722B1 (en) * 1998-09-18 2001-11-13 Amazon.Com, Inc. Use of electronic shopping carts to generate personal recommendations
US6477539B1 (en) * 1998-12-22 2002-11-05 Nortel Networks Limited Method and apparatus for interfacing a manager and a plant
US6594651B2 (en) * 1999-12-22 2003-07-15 Ncr Corporation Method and apparatus for parallel execution of SQL-from within user defined functions
US6546388B1 (en) 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6438539B1 (en) * 2000-02-25 2002-08-20 Agents-4All.Com, Inc. Method for retrieving data from an information network through linking search criteria to search strategy
US6421571B1 (en) * 2000-02-29 2002-07-16 Bently Nevada Corporation Industrial plant asset management system: apparatus and method
KR20000063422A (ko) 2000-07-08 2000-11-06 유인오 인터넷 정보 검색 시 개인의 북마크 파일 데이터를기반으로 필터링하여 개인 맞춤 검색 결과를 도출하는 방법
US6842761B2 (en) * 2000-11-21 2005-01-11 America Online, Inc. Full-text relevancy ranking
JP2002169823A (ja) * 2000-12-01 2002-06-14 Minolta Co Ltd データベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体、データベース検索方法およびデータベース検索装置
JP2002202991A (ja) 2000-12-28 2002-07-19 Canon Inc ネットワークによる印刷データ配信装置、方法、システム、媒体、並びにプログラム
US6643639B2 (en) * 2001-02-07 2003-11-04 International Business Machines Corporation Customer self service subsystem for adaptive indexing of resource solutions and resource lookup
US7149734B2 (en) * 2001-07-06 2006-12-12 Logic Library, Inc. Managing reusable software assets
US7367028B2 (en) * 2001-08-14 2008-04-29 National Instruments Corporation Graphically deploying programs on devices in a system
JP2003167907A (ja) 2001-12-03 2003-06-13 Dainippon Printing Co Ltd 情報提供方法およびシステム
US20030220913A1 (en) 2002-05-24 2003-11-27 International Business Machines Corporation Techniques for personalized and adaptive search services
US7246128B2 (en) * 2002-06-12 2007-07-17 Jordahl Jena J Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
US7454417B2 (en) * 2003-09-12 2008-11-18 Google Inc. Methods and systems for improving a search ranking using population information
US7505964B2 (en) 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US20050076003A1 (en) 2003-10-06 2005-04-07 Dubose Paul A. Method and apparatus for delivering personalized search results
KR100508416B1 (ko) * 2004-01-31 2005-08-17 메타냅주식회사 동적 키워드 추출과 처리 방법
JP2005269819A (ja) * 2004-03-19 2005-09-29 Rohm Co Ltd 圧電トランス駆動回路及びそれを備えた冷陰極管点灯装置
US7529731B2 (en) * 2004-06-29 2009-05-05 Xerox Corporation Automatic discovery of classification related to a category using an indexed document collection
US9070104B2 (en) * 2004-11-12 2015-06-30 Sap Se Cross-context task management
US8302096B2 (en) * 2004-11-12 2012-10-30 Sap Ag Methods and systems to perform individual tasks as a composite task
JP4367355B2 (ja) 2005-02-24 2009-11-18 セイコーエプソン株式会社 写真画像検索装置、写真画像検索方法、記録媒体、およびプログラム
US7630976B2 (en) * 2005-05-10 2009-12-08 Microsoft Corporation Method and system for adapting search results to personal information needs
US7584177B2 (en) 2005-06-29 2009-09-01 Google Inc. Determination of a desired repository

Also Published As

Publication number Publication date
AU2006266103B2 (en) 2010-07-29
US20070005568A1 (en) 2007-01-04
US20150331868A1 (en) 2015-11-19
US9092488B2 (en) 2015-07-28
AU2006266103A1 (en) 2007-01-11
CA2613859A1 (en) 2007-01-11
US7584177B2 (en) 2009-09-01
CN101248435A (zh) 2008-08-20
CN101248435B (zh) 2013-08-28
US20130110831A1 (en) 2013-05-02
WO2007005431A1 (en) 2007-01-11
CA2613859C (en) 2012-11-13
EP2385473A1 (en) 2011-11-09
US8266133B2 (en) 2012-09-11
KR100944744B1 (ko) 2010-03-03
EP1907952A1 (en) 2008-04-09
US9639579B2 (en) 2017-05-02
US20090287664A1 (en) 2009-11-19
KR20080024224A (ko) 2008-03-17
JP2008545196A (ja) 2008-12-11

Similar Documents

Publication Publication Date Title
JP5420243B2 (ja) 所望リポジトリの判定
US11782970B2 (en) Query categorization based on image results
WO2020019565A1 (zh) 搜索排序方法、装置、电子设备和存储介质
US8498984B1 (en) Categorization of search results
US7096214B1 (en) System and method for supporting editorial opinion in the ranking of search results
US8515952B2 (en) Systems and methods for determining document freshness
JP5226095B2 (ja) ローカル項目抽出
JP4714156B2 (ja) 記事情報を用いて検索ランク付けを改良するための方法およびシステム
US9418128B2 (en) Linking documents with entities, actions and applications
US20110314011A1 (en) Automatically generating training data
JP2011238276A (ja) ブログ文書のランク付け
KR20070094941A (ko) 신뢰성 있는 문서 식별
KR20080031262A (ko) 관계 네트워크
JP2008547119A (ja) サーチ結果を提供するためのシステムおよび方法
JP2008536195A (ja) 曖昧な地理的参照の分類
JP2008515049A (ja) 文書構造に基づいた検索結果の表示
US20120233096A1 (en) Optimizing an index of web documents
JP4912384B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
WO2019141043A1 (zh) 提取浏览器搜索引擎的方法、设备及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110404

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131120

R150 Certificate of patent or registration of utility model

Ref document number: 5420243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250