JP2008529173A - 電子文書の意味検索および取り込みのための方法およびシステム - Google Patents
電子文書の意味検索および取り込みのための方法およびシステム Download PDFInfo
- Publication number
- JP2008529173A JP2008529173A JP2007553342A JP2007553342A JP2008529173A JP 2008529173 A JP2008529173 A JP 2008529173A JP 2007553342 A JP2007553342 A JP 2007553342A JP 2007553342 A JP2007553342 A JP 2007553342A JP 2008529173 A JP2008529173 A JP 2008529173A
- Authority
- JP
- Japan
- Prior art keywords
- query
- word
- electronic document
- word usage
- usage pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【選択図】 図1
Description
クエリに対する同義語がどこに存在するのか、を検索エンジンがどのように識別するのか、例えば、”母子お揃いのパジャマ”(mother-daughter matching sleeping gowns.)が”親子お揃いのパジャマ”(adult-child matching sleeping gowns.)と一致するか、
”ベイエリアのスカイライン(Bay Area skyline)”という語句が、”ゴールデンゲートブリッジ(Golden Gate Bridge)”と同義語でないにも拘わらず、”ゴールデンゲートブリッジが見える部屋”(hotel room with a view of the Golden Gate Bridge)”が”ベイエリアのスカイライン全体を見渡せるスイート”(suite that provides a panorama of the entire Bay Area skyline)”と非常に関連が深いことを検索エンジンがどのように識別するのかである。
クエリ中の一連の単語が深い関連性を有しているにも拘わらず、”激しい風の中で飛行機が傾く(bank an aircraft in high wind)”が、”彼の投資銀行は、好調な売り上げにより素晴らしい利益を得ている航空会社を見つけた。(His investment bank funded an aircraft company whose high sales brought in a windfall profit)"と一致しないことを、検索エンジンがどのように識別するのか。
1.単語は、多くの異なる意味を有していること;
2.単語は、各意味において多くの同義語を有すること;
3.ほとんどの同義語自体が、元の単語の同義語と異なる他の意味を有すること;である。
例えば、”バンク(bank)”という単語は、金融機関、川の端部、飛行機の旋回、何かを信じていたい意欲(”ユー キャン バンク オン イット!(you can bank on it!)”)、等を意味することが可能である。これらの意味の二番目を取ると、”バンク(bank)”の有効な同義語である”ターン(turn)”という単語は、”バンク(bank)”の意味では、解釈できない別の意味”あなたの番です(it's your turn)”あるいは”世紀の始まり(the turn of the century)”を持つことになる。このことは、各クエリに対して自動的に同義語を追加することは、通常、関連のないヒットを増やすことはあっても、少なくすることはない、ことを意味する。同義語は、検索エンジンが、より関連する情報を見つけることを可能にするという利点を与えるが、かかる効果は、さらにヒットした沢山の無関係な検索結果によって見劣りするものとなってしまう。したがって、同義語を追加することは、問題を解決するのではなく、事態を悪化させることになってしまう。
1.検索後、ユーザによりどの検索結果がクリックされた(および、どれがクリックされなかった)かを観察し、この情報を保存する。同じ又は別のユーザによって後に全く同じ(又は近い)クエリが提出された場合、前記情報を呼び出し、クリック(クリックされなかった)回数(あるいは、何らかのリニア又は非リニア機能)に比例させ、クリックされたアイテムのランク付けに用いる。
1.テキストの言語資料の意味にタグを付ける(それ自体の標準的な意味に関し各単語にマークを付ける)。”その少数部分が”テスティングデータ(testing data)”として保存されるとともに、トレーニングデータ(training data)”として、ほとんどがこのデータを用いる。
1. 長時間にわたる手作業による労働コストは、信じられないくらいの額になる。そのアルゴリズムに基づき、英語のある単語を明確化するためのトレーニングデータとして必要とされる数千の例文をタグ付けるためには、大学院の学生によって全学期という長い時間を必要とする。通常用いられる英語全体(200、000ワード)から推定するためのかかる努力は想像を絶するものである。
図1に示された好ましい実施形態において、タグ付けモジュール28は、基本的に、ある文書レベルにおいてのみ、言語資料22中の複数の電子文書24をタグ付けする。これにより、従来の検索システムおよび方法で提案された語意レベルではなく、ある文書レベルにおいてのみタグ付けされるので、従来の検索システムおよび方法を超える特定の効果を奏するとともに、労力を大きく節減することができる。こうして認識される節減は、時間とコストが現実的に制限された範囲内で行われるプロジェクトが実行できるかできないか、という違いを生じさせるほど非常に大きいものである。
従来技術のキーワード検索エンジンは、単語のインデックスを中心に展開するが、本発明にかかる意味検索システム10の好ましい実施形態は、そうではない。それに代え、本発明の意味検索システム10は、文書IDに関連づけられた単語用法パターンのIDからなる、生成された単語用法パターンインデックス36を用いて検索を実行する。これにより、後になって行うのではなく、検索自体とほぼ同時に単語の意味変化へのアクセスが実行されるので、驚異的な速度の節約(speed savings)を提供することになる。
上述のように、クエリ前処理モジュール40は、ユーザのクエリを受け取り、クエリ中の推定される用法パターンを決定するため、かかるクエリを分析する。前記ユーザのクエリは、単語の使い方を導き出すため、ある意味概念において、個別的又は確率的のいずれかを意味するよう位置づけられる。前記クエリの推定単語使用パタンーンが決定されると、本発明の意味検索システム10は、既に述べたように、単語用法パターンインデックス36を参照することにより、クエリを満足させる言語資料22から電子文書を検索し、取り込む。
前記クエリから、常に正確な単語用法パターン情報が抽出される訳ではないことが理解されるべきである。クエリ前処理モジュール40による上記分析は、役に立ちそうであるが、クエリは文書全体(あるいはその大部分)よりも短いという簡単な理由から、その一部のみが役に立つだけである。最小の文脈情報が提供されるだけであるので、かかる短い文章では単語用法パターンは不明確である。また、通常、電子文書は、かかる情報に基づき単語用法パターンの分析機能を強化するよう、文書の主題およびコンテントについて、いくつかの糸口を提供するそれ自体に関する分野情報を有しているが、ユーザのクエリには、それに関するかかる分野情報が欠落している場合が多い。かかる場合においては、関連する電子文書を識別し、検索結果として取り入れることができるよう、少なくともクエリの分野を決定するために、追加の情報を得ることが好ましい。単語用法パターンと一致するクエリ自体の中に文脈上の単語が存在する場合であっても、クエリを分析し、クエリ中の推定単語用法パターンを決定するため、前処理モジュールにより予測情報を抽出することができる。
・”ゴルフクラブを構成する異なる材料は何であるか?”は物事についてのクエリであるか;
・”1971年当時の国務省長官はだれであったか”は人物についての質問であるか;
・”次の日食はいつ起こるのか”は時期についての質問であるか等、を判断するため動作してもよい。
前に述べたように、意味検索システム10の後処理モジュール46は、クエリの推定される単語用法パターンと候補電子文書の単語用法パターン間の一致の正確性を判断するため、プロセッサ20により確認され取り込まれた候補電子文書を分析する。この件について、一致の正確性を判断するため、取り込まれた候補文書又はその一部についてのクエリモジュールについて上述の分析は、後処理モジュール46によって実行することもできる。
図1に示した実施形態においては、検索結果とともに有料検索コンテントを提供するためプロセッサ20をさらに適用してもよい。本発明の意味検索システム10による検索エンジンのマーケティングは、(1)ある概念について入力されたクエリを分析するレベル;(2)言語資料を分析するレベル;および/又は(3)広告主の広告文書を分析するレベル、の少なくとも3つのレベルで実行することができる。実際の語意又は用法を推測する能力は、単語に基づいて広告料を支払う代わりに、それがどう言った意味で使われるかに関係なく検索クエリに関連する場合にのみ広告主が支払うことができ、彼らの広告を表示する点で、3つ全てのレベルで明らかに有益である。この件について、好ましい実施形態においては、有料検索コンテントを分析し、有料コンテントが、クエリの単語用法パターンと一致する単語用法パターンを有すると判断された場合にのみ、検索結果とともに提供するようにしてもよい。
ステップ110においては、ユーザからクエリが受け取られ、クエリ中の候補となる単語用法パターンを導き出すため、分析される。ステップ112において、生成されたインデックスは、クエリ中の推定単語用法パターンと一致する単語用法パターンを有する電子文書を識別し、候補電子文書として取り込むために用いられる。ステップ114において、受け取られた候補電子文書は、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため分析される。
Claims (68)
- クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのシステムであって、
各電子文書の一般的な分野(general domain)を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書における単語用法パターンを識別するため、少なくとも前記タグの一部に基づいて分析された複数の電子文書を含む言語資料(corpus)と、
前記複数の電子文書の単語用法パターンならびに前記分野のタグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける(indexes)単語用法パターンのインデックスと、
ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析するクエリ前処理モジュールと、ならびに、
前記クエリ中の前記推定される単語用法パターン(probable word usage patterns)と一致する単語用法パターンを有する前記電子文書の少なくとも一つを、候補となる電子文書(candidate electronic document)として識別するため、前記インデックスを用い、前記候補電子文書を取り込むプロセッサと、
を備えたこと、
を特徴とするシステム。 - 請求項1のシステムであって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記取り込まれた候補電子文書を分析する後処理モジュールを含むこと、
を特徴とするシステム。 - 請求項2のシステムにおいて、前記プロセッサは、一致する単語用法パターンを有すると判断された複数の候補電子文書を識別すること、
を特徴とするシステム。 - 請求項3のシステムにおいて、前記プロセッサは、一致の正確性に基づき、前記取り込んだ候補電子文書をランク付けし、最も高いランクを有する候補電子文書を検索結果として提供すること、
を特徴とするシステム。 - 請求項1のシステムにおいて、前記インデックスの前記単語用法パターンは、前記パターン間の近似性に基づいてクラスタ化されること、
を特徴とするシステム。 - 請求項1のシステムにおいて、前記クエリ前処理モジュールは、さらに、前記クエリ中の語意の明確化(disambiguate word sense)のため適用されること、
を特徴とするシステム。 - 請求項6のシステムにおいて、前記クエリ前処理モジュールは、さらに、ユーザから文脈情報を引き出し、ユーザから単語用法パターンを選択し、あるいは、類義語のセットを受け取り、ランク付けされた候補単語用法パターンを選択すること、の少なくとも一つを実行すること、
を特徴とするシステム。 - 請求項6のシステムにおいて、前記クエリ前処理モジュールは、さらに、
前記クエリの分野内のトピックならびにサブトピックの選択、
前記クエリの存在論的なエレメント(ontological element)の認識、
前記クエリ中の少なくとも1の単語についての類義語あるいは類義語のセットの選択、
前記クエリの疑問型の判断、
前記クエリ中のマルチワード表現(multiword term)の識別、
前記クエリ中の固有名詞(proper name)の識別、
前記クエリ中のマルチワードパターンの綴りならびに文法の訂正、および
前記クエリ中の共通の動詞ならびに形容詞の意味の分析の実行、の少なくとも一つを実行すること、
を特徴とするシステム。 - 請求項2のシステムにおいて、前記後処理モジュールは、一致の正確性を判断するため、前記候補電子文書中の前記クエリの単語相互の近似性を判断すること、
を特徴とするシステム。 - 請求項9のシステムにおいて、前記クエリの前記単語は、当該電子文書を検索結果として提供するため、当該電子文書中において互いに所定の近似性の範囲内になければならないこと、
を特徴とするシステム。 - 請求項10のシステムにおいて、前記クエリの異なるタイプの単語には、異なる近似性の範囲が割り当てられること、
を特徴とするシステム。 - 請求項2のシステムにおいて、前記後処理モジュールは、一致の正確性を判断する際、前記候補電子文書中の前記クエリの単語について語順を判断すること、
を特徴とするシステム。 - 請求項12のシステムにおいて、前記後処理モジュールは、前記判断された語順の一致に基づいて、単語配置スコア(word placement score)を割り当てること、
を特徴とするシステム。 - 請求項13のシステムにおいて、前記後処理モジュールは、前記候補文書中の前記クエリの単語と間に介在する単語の数が増加すると、単語配置スコアをある減少値だけ減少させること、
を特徴とするシステム。 - 請求項2のシステムにおいて、前記後処理モジュールは、さらに、
前記候補電子文書中の存在論的なエレメントの認識、
前記候補電子文書中の類義語あるいは類義語のセットの選択、
前記候補電子文書中のマルチワード表現の識別、
前記候補電子文書中の固有名詞の識別、
前記候補電子文書中のマルチワードパターンの綴りおよび文法の訂正、ならびに
前記候補電子文書中の共通の動詞ならびに形容詞の意味の分析の実行、の少なくとも一つを実行すること、
を特徴とするシステム。 - 請求項1のシステムにおいて、前記プロセッサは、さらに、検索結果とともに有料検索コンテントを提供するため適用されること、
を特徴とするシステム。 - 請求項16のシステムにおいて、前記有料検索コンテントは、当該有料検索コンテントが、前記クエリの単語用法パターンと一致する単語用法パターンを有する場合にのみ、分析され、前記検索結果とともに提供されること、
を特徴とするシステム。 - 請求項1のシステムにおいて、前記クエリ前処理モジュールは、
前記クエリ入力を受ける第一入力領域、ならびに、文脈の糸口となる単語(context clue words)を受ける第二入力領域の提供、
前記クエリが属するどの分野を前記システムが解釈しているかについてユーザへのリアルタイムの合図の提供、
前記クエリを第一の色で表示し、前記クエリが明確化された場合における、前記第一の色の第二の色への変更、および
その明確化を促進するため、前記クエリに関連する追加の単語の入力を続けてもらうための前記ユーザへの催促、の少なくとも一つに適用されるユーザインターフェースを含むこと、
を特徴とするシステム。 - クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのコンピュータで実行可能な方法であって、
各電子文書の一般的な分野(general domain)を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書における単語用法パターンを判断するため、少なくとも前記タグの一部に基づいて分析された複数の電子文書を含む言語資料を提供するステップと、
前記複数の電子文書の単語用法パターンならびに前記分野のタグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける(indexes)単語用法パターンのインデックスを提供するステップと、
ユーザからクエリを受け取るステップと、
当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析するステップと、
前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する、前記電子文書の少なくとも一つを候補となる電子文書として識別するため、前記インデックスを用いるステップと、ならびに、
前記候補電子文書を取り込むステップと、を備えたこと、
を特徴とする方法。 - 請求項19の方法であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析するステップ、を備えたこと、
を特徴とする方法。 - 請求項20の方法であって、さらに、一致する単語用法パターンを有すると判断された複数の候補電子文書を識別するステップを含むこと、
を特徴とする方法。 - 請求項21の方法であって、さらに、一致の正確性に基づき、前記取り込んだ候補電子文書をランク付けし、最も高いランクを有する候補電子文書を検索結果として提供するステップを含むこと、
を特徴とする方法。 - 請求項19の方法において、前記言語資料の前記複数の電子文書は、ある文書レベルにおいて基本的にタグ付けされること、
を特徴とする方法。 - 請求項19の方法であって、さらに、前記パターン間の近似性に基づいて、前記インデックスの前記単語用法パターンをクラスタ化するステップを含むこと、
を特徴とする方法。 - 請求項20の方法であって、さらに、前記クエリ中の語意を明確化するステップを含むこと、
を特徴とする方法。 - 請求項25の方法において、前記クエリを分析するステップは、ユーザから文脈情報を導き出すステップ、ユーザから単語用法パターンの選択、あるいは、類義語のセットを受け取るステップ、ランク付けされた候補単語用法パターンを選択するステップ、の少なくとも一つを含むこと、
を特徴とする方法。 - 請求項25の方法において、前記クエリを分析するステップならびに前記候補電子文書を分析するステップは、
分野内のトピックならびにサブトピックを選択するステップ、
存在論的なエレメントを識別するステップ、
類義語あるいは類義語のセットを選択するステップ、
疑問型を判断するステップ、
マルチワード表現を識別するステップ、
固有名詞を識別するステップ、
前記クエリ中のマルチワードパターンの綴りならびに文法を訂正するステップ、および
前記クエリ中の共通の動詞ならびに形容詞の意味の分析を実行するステップ、の少なくとも一つを含むこと、
を特徴とする方法。 - 請求項25の方法において、前記候補電子文書の一致の正確性を判断する前記ステップは、前記候補電子文書中の前記クエリの単語相互の近似性を判断するステップを含むこと、
を特徴とする方法。 - 請求項28の方法において、前記クエリの前記単語は、検索結果として提供するため、前記電子文書中において互いに所定の近似性の範囲内になければならないこと、
を特徴とする方法。 - 請求項29の方法において、前記クエリの異なるタイプの単語には、異なる近似性の範囲が割り当てられること、
を特徴とする方法。 - 請求項20の方法において、前記候補電子文書の一致の正確性を判断する前記ステップは、語順の一致を判断するステップを含むこと、
を特徴とする方法。 - 請求項31の方法において、語順の一致を判断するステップは、前記判断された語順の一致に基づいた単語配置スコアの割り当てを含むこと、
を特徴とする方法。 - 請求項32の方法において、前記候補文書中の前記クエリの単語と間に介在する単語の数が増加すると、単語配置スコアをある減少値だけ減少させること、
を特徴とする方法。 - 請求項19の方法であって、さらに、前記検索結果とともに有料検索コンテントを提供するステップを含むこと、
を特徴とする方法。 - 請求項34の方法において、前記有料検索コンテントは、当該有料検索コンテントが、前記クエリの単語用法パターンと一致する単語用法パターンを有する場合にのみ分析され、前記検索結果とともに提供されること、
を特徴とする方法。 - 請求項19の方法であって、さらに、
前記クエリ入力を受ける第一入力領域、ならびに、文脈の糸口となる単語を受ける第二入力領域を生成するステップ、
前記クエリが、どの分野を検索しているかについてリアルタイムの合図を提供するステップ、
前記クエリを第一の色で表示し、前記クエリが明確化された場合に、前記第一の色を第二の色に変更するステップ、および
その明確化を促進するため、前記クエリに関連する追加の単語の入力を続けるよう前記ユーザへ催促するステップ、の少なくとも一つを含むこと、
を特徴とするシステム。 - クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのシステムであって、
複数の電子文書の言語資料と、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けするタグ付けモジュールと、
少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断する単語用法モジュールと、ならびに
少なくとも、単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付けるインデックスモジュールと、を備えたこと、
を特徴とするシステム。 - 請求項37のシステムであって、さらに、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析するクエリ前処理モジュールを含むこと、
を特徴とするシステム。 - 請求項38のシステムであって、さらに、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する、少なくとも一のインデックス付き電子文書を、候補となる電子文書として識別し、当該候補電子文書を取り込むプロセッサ、を含むこと、
を特徴とするシステム。 - 請求項39のシステムであって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析する後処理モジュールを含むこと、
を特徴とするシステム。 - 請求項38のシステムにおいて、前記クエリ前処理モジュールは、前記クエリの一般的な分野を識別するため、前記クエリ中の語意を明確化すること、
を特徴とするシステム。 - クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのコンピュータで実行可能な方法であって、
複数の電子文書を含む言語資料を提供するステップと、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けするステップと、
少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断するステップと、ならびに
前記複数の電子文書の単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを生成するステップと、を備えたこと、
を特徴とする方法。 - 請求項42の方法であって、さらに、ユーザからクエリを受け取り、前記クエリにおいて推定される単語用法パターンを導き出すために前記クエリを分析するステップを含むこと、
を特徴とする方法。 - 請求項43の方法であって、さらに、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを候補となる電子文書として識別するため、前記生成されたインデックスを用いるステップ、ならびに、前記候補電子文書を取り込むステップを含むこと、
を特徴とする方法。 - 請求項44の方法であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析するステップを含むこと、
を特徴とする方法。 - 請求項43の方法であって、さらに、前記クエリの一般的な分野を識別するため、前記クエリ中の語意を明確化するステップを含むこと、
を特徴とする方法。 - クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するための実行命令を有するコンピュータ可読媒体であって、
ユーザからクエリを受け取る命令と、
当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析する命令と、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいてタグ付けされた前記複数の電子文書中の単語用法パターンに基づいて、複数の電子文書にインデックスを付ける単語用法パターンのインデックスにアクセスするための命令と、
前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを、候補となる電子文書として識別する命令と、ならびに
前記候補電子文書を取り込む命令と、を備えたこと、
を特徴とする媒体。 - 請求項47のコンピュータ可読媒体であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析する命令、を含むこと、
を特徴とする媒体。 - 請求項48のコンピュータ可読媒体であって、さらに、一致する単語用法パターンを有する複数の候補電子文書を識別する命令、を含むこと、
を特徴とする媒体。 - 請求項49のコンピュータ可読媒体であって、さらに、一致の正確性に基づき、前記取り込んだ候補電子文書をランク付けし、最も高いランクを有する候補電子文書を検索結果として提供する命令、を含むこと、
を特徴とする媒体。 - 請求項47のコンピュータ可読媒体であって、さらに、前記パターン間の近似性に基づいて、前記単語用法パターンをクラスタ化する命令、を含むこと、
を特徴とする媒体。 - 請求項47のコンピュータ可読媒体であって、さらに、前記クエリ中の語意を明確化する命令、を含むこと、
を特徴とする媒体。 - 請求項52のコンピュータ可読媒体において、前記クエリを分析する命令は、ユーザから文脈情報を導き出し、ユーザから単語用法パターンを選択し、あるいは、類義語のセットを受け取り、ランク付けされた確率的な単語用法パターン(ranked, probabilistic word usage pattern)を選択すること、の少なくとも一つの命令を含むこと、
を特徴とする媒体。 - 請求項52のコンピュータ可読媒体において、前記クエリを分析する命令および前記候補電子文書を分析する命令は、
分野内のトピックならびにサブトピックを選択する命令、
存在論的なエレメントを識別する命令、
類義語あるいは類義語のセットを選択する命令、
疑問型を判断する命令、
マルチワード表現を識別する命令、
固有名詞を識別する命令、
マルチワードパターンの綴りならびに文法を訂正する命令、および
共通の動詞ならびに形容詞の意味の分析を実行する命令、の少なくとも一つを含むこと、
を特徴とする媒体。 - 請求項48のコンピュータ可読媒体において、前記候補電子文書を処理する前記命令は、一致の正確性を判断するため、前記候補電子文書中の前記クエリの単語相互の近似性を判断する命令を含むこと、
を特徴とする媒体。 - 請求項55のコンピュータ可読媒体において、検索結果として提供するため、前記クエリの前記単語は、前記電子文書中において互いに所定の近似性の範囲内になければならないこと、
を特徴とする媒体。 - 請求項56のコンピュータ可読媒体において、前記クエリの異なるタイプの単語には、異なる近似性の範囲が割り当てられること、
を特徴とする媒体。 - 請求項55のコンピュータ可読媒体において、前記候補電子文書を処理するための前記命令は、一致の正確性を判断するため、語順の一致を判断する命令を含むこと、
を特徴とする媒体。 - 請求項58のコンピュータ可読媒体において、語順の一致を判断する命令は、前記判断された語順の一致に基づいて、単語配置スコアを割り当てる命令を含むこと、
を特徴とする媒体。 - 請求項59のコンピュータ可読媒体において、前記単語配置スコアを決定する命令は、介在する単語の数が増加すると、単語配置スコアをある減少値だけ減少させる命令を含むこと、
を特徴とする媒体。 - 請求項47のコンピュータ可読媒体であって、さらに、検索結果とともに有料検索コンテントを提供する命令を含むこと、
を特徴とする媒体。 - 請求項61のコンピュータ可読媒体であって、さらに、前記有料検索コンテントが、前記クエリの単語用法パターンと一致する単語用法パターンを有している場合にのみ、検索結果とともに有料検索コンテントを提供する命令を含むこと、
を特徴とする媒体。 - 請求項47のコンピュータ可読媒体であって、さらに、
前記クエリ入力を受ける第一入力領域を生成し、文脈の糸口となる単語を受ける第二入力領域を生成する命令、
前記クエリが、どの分野を検索しているかについてリアルタイムの合図を提供する命令、
前記クエリを第一の色で表示し、前記クエリが明確化された場合に、前記第一の色を第二の色に変更する命令、および
その明確化を促進するため、前記クエリに関連する追加の単語の入力を続けるよう前記ユーザへ催促する命令、の少なくとも一つの命令を含むこと、
を特徴とする媒体。 - クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するための実行命令を有するコンピュータ可読媒体であって、
複数の電子文書の言語資料にアクセスするための命令と、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けする命令と、
少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断する命令と、ならびに
前記複数の電子文書の単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを生成する命令と、を備えたこと、
を特徴とする媒体。 - 請求項64のコンピュータ可読媒体であって、さらに、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析する命令を含むこと、
を特徴とする媒体。 - 請求項65のコンピュータ可読媒体であって、さらに、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを候補となる電子文書として識別するため、前記生成されたインデックスを用い、ならびに、前記候補電子文書を取り込む命令を含むこと、
を特徴とする媒体。 - 請求項66のコンピュータ可読媒体であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記取り込んだ候補電子文書を分析する命令を含むこと、
を特徴とする媒体。 - 請求項65のコンピュータ可読媒体であって、さらに、前記クエリの一般的な分野を識別するため、前記クエリ中の語意を明確化する命令を含むこと、
を特徴とする媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US64776605P | 2005-01-31 | 2005-01-31 | |
PCT/US2006/003312 WO2006086179A2 (en) | 2005-01-31 | 2006-01-31 | Method and system for semantic search and retrieval of electronic documents |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008529173A true JP2008529173A (ja) | 2008-07-31 |
Family
ID=36793564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007553342A Pending JP2008529173A (ja) | 2005-01-31 | 2006-01-31 | 電子文書の意味検索および取り込みのための方法およびシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20060235843A1 (ja) |
EP (1) | EP1846815A2 (ja) |
JP (1) | JP2008529173A (ja) |
WO (1) | WO2006086179A2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012003417A (ja) * | 2010-06-15 | 2012-01-05 | Nec Biglobe Ltd | Ecサイトシステム、ecサイト支援方法 |
US8862573B2 (en) | 2006-04-04 | 2014-10-14 | Textdigger, Inc. | Search system and method with text function tagging |
US9245029B2 (en) | 2006-01-03 | 2016-01-26 | Textdigger, Inc. | Search system with query refinement and search method |
US9400838B2 (en) | 2005-04-11 | 2016-07-26 | Textdigger, Inc. | System and method for searching for a query |
US20220208197A1 (en) * | 2012-06-01 | 2022-06-30 | Google Llc | Providing Answers To Voice Queries Using User Feedback |
Families Citing this family (104)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7490092B2 (en) | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
US8275673B1 (en) | 2002-04-17 | 2012-09-25 | Ebay Inc. | Method and system to recommend further items to a user of a network-based transaction facility upon unsuccessful transacting with respect to an item |
US8732175B2 (en) | 2005-04-21 | 2014-05-20 | Yahoo! Inc. | Interestingness ranking of media objects |
US10210159B2 (en) * | 2005-04-21 | 2019-02-19 | Oath Inc. | Media object metadata association and ranking |
US8200687B2 (en) * | 2005-06-20 | 2012-06-12 | Ebay Inc. | System to generate related search queries |
US20070162481A1 (en) * | 2006-01-10 | 2007-07-12 | Millett Ronald P | Pattern index |
US8266152B2 (en) * | 2006-03-03 | 2012-09-11 | Perfect Search Corporation | Hashed indexing |
EP1999565A4 (en) * | 2006-03-03 | 2012-01-11 | Perfect Search Corp | HYPER SPACE INDEX |
US9772981B2 (en) * | 2006-03-29 | 2017-09-26 | EMC IP Holding Company LLC | Combined content indexing and data reduction |
US7624130B2 (en) * | 2006-03-30 | 2009-11-24 | Microsoft Corporation | System and method for exploring a semantic file network |
US7634471B2 (en) * | 2006-03-30 | 2009-12-15 | Microsoft Corporation | Adaptive grouping in a file network |
US8266145B2 (en) * | 2007-03-16 | 2012-09-11 | 1759304 Ontario Inc. | Contextual data mapping, searching and retrieval |
US20090006358A1 (en) * | 2007-06-27 | 2009-01-01 | Microsoft Corporation | Search results |
US7774347B2 (en) * | 2007-08-30 | 2010-08-10 | Perfect Search Corporation | Vortex searching |
US7912840B2 (en) * | 2007-08-30 | 2011-03-22 | Perfect Search Corporation | Indexing and filtering using composite data stores |
US7774353B2 (en) * | 2007-08-30 | 2010-08-10 | Perfect Search Corporation | Search templates |
US20120317103A1 (en) * | 2007-10-12 | 2012-12-13 | Lexxe Pty Ltd | Ranking data utilizing multiple semantic keys in a search query |
US9875298B2 (en) | 2007-10-12 | 2018-01-23 | Lexxe Pty Ltd | Automatic generation of a search query |
US7761471B1 (en) * | 2007-10-16 | 2010-07-20 | Jpmorgan Chase Bank, N.A. | Document management techniques to account for user-specific patterns in document metadata |
US20090254540A1 (en) * | 2007-11-01 | 2009-10-08 | Textdigger, Inc. | Method and apparatus for automated tag generation for digital content |
US7984035B2 (en) * | 2007-12-28 | 2011-07-19 | Microsoft Corporation | Context-based document search |
US7853587B2 (en) * | 2008-01-31 | 2010-12-14 | Microsoft Corporation | Generating search result summaries |
US8032495B2 (en) * | 2008-06-20 | 2011-10-04 | Perfect Search Corporation | Index compression |
US9251266B2 (en) * | 2008-07-03 | 2016-02-02 | International Business Machines Corporation | Assisting users in searching for tagged content based on historical usage patterns |
US8463808B2 (en) * | 2008-11-07 | 2013-06-11 | Raytheon Company | Expanding concept types in conceptual graphs |
US8386489B2 (en) * | 2008-11-07 | 2013-02-26 | Raytheon Company | Applying formal concept analysis to validate expanded concept types |
US8606815B2 (en) * | 2008-12-09 | 2013-12-10 | International Business Machines Corporation | Systems and methods for analyzing electronic text |
US9158838B2 (en) * | 2008-12-15 | 2015-10-13 | Raytheon Company | Determining query return referents for concept types in conceptual graphs |
US8577924B2 (en) * | 2008-12-15 | 2013-11-05 | Raytheon Company | Determining base attributes for terms |
US9087293B2 (en) * | 2008-12-23 | 2015-07-21 | Raytheon Company | Categorizing concept types of a conceptual graph |
US9442933B2 (en) * | 2008-12-24 | 2016-09-13 | Comcast Interactive Media, Llc | Identification of segments within audio, video, and multimedia items |
US8713016B2 (en) | 2008-12-24 | 2014-04-29 | Comcast Interactive Media, Llc | Method and apparatus for organizing segments of media assets and determining relevance of segments to a query |
US11531668B2 (en) | 2008-12-29 | 2022-12-20 | Comcast Interactive Media, Llc | Merging of multiple data sets |
US8176043B2 (en) | 2009-03-12 | 2012-05-08 | Comcast Interactive Media, Llc | Ranking search results |
US8533223B2 (en) | 2009-05-12 | 2013-09-10 | Comcast Interactive Media, LLC. | Disambiguation and tagging of entities |
US8478779B2 (en) * | 2009-05-19 | 2013-07-02 | Microsoft Corporation | Disambiguating a search query based on a difference between composite domain-confidence factors |
US9892730B2 (en) | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
US20150006563A1 (en) * | 2009-08-14 | 2015-01-01 | Kendra J. Carattini | Transitive Synonym Creation |
US20110040774A1 (en) * | 2009-08-14 | 2011-02-17 | Raytheon Company | Searching Spoken Media According to Phonemes Derived From Expanded Concepts Expressed As Text |
US8392440B1 (en) | 2009-08-15 | 2013-03-05 | Google Inc. | Online de-compounding of query terms |
CN102012900B (zh) * | 2009-09-04 | 2013-01-30 | 阿里巴巴集团控股有限公司 | 信息检索方法和*** |
US8200656B2 (en) * | 2009-11-17 | 2012-06-12 | International Business Machines Corporation | Inference-driven multi-source semantic search |
KR101141498B1 (ko) * | 2010-01-14 | 2012-05-04 | 주식회사 와이즈넛 | 근접성 언어 모델을 이용한 정보 검색 방법 |
US9684683B2 (en) * | 2010-02-09 | 2017-06-20 | Siemens Aktiengesellschaft | Semantic search tool for document tagging, indexing and search |
US10204163B2 (en) * | 2010-04-19 | 2019-02-12 | Microsoft Technology Licensing, Llc | Active prediction of diverse search intent based upon user browsing behavior |
US8380719B2 (en) * | 2010-06-18 | 2013-02-19 | Microsoft Corporation | Semantic content searching |
WO2012061252A2 (en) | 2010-11-04 | 2012-05-10 | Dw Associates, Llc. | Methods and systems for identifying, quantifying, analyzing, and optimizing the level of engagement of components within a defined ecosystem or context |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
US8996359B2 (en) | 2011-05-18 | 2015-03-31 | Dw Associates, Llc | Taxonomy and application of language analysis and processing |
US8952796B1 (en) | 2011-06-28 | 2015-02-10 | Dw Associates, Llc | Enactive perception device |
US9940387B2 (en) * | 2011-07-28 | 2018-04-10 | Lexisnexis, A Division Of Reed Elsevier Inc. | Search query generation using query segments and semantic suggestions |
US20130031097A1 (en) * | 2011-07-29 | 2013-01-31 | Mark Sutter | System and method for assigning source sensitive synonyms for search |
US9406037B1 (en) | 2011-10-20 | 2016-08-02 | BioHeatMap, Inc. | Interactive literature analysis and reporting |
US9269353B1 (en) | 2011-12-07 | 2016-02-23 | Manu Rehani | Methods and systems for measuring semantics in communications |
US8799269B2 (en) | 2012-01-03 | 2014-08-05 | International Business Machines Corporation | Optimizing map/reduce searches by using synthetic events |
US20130185276A1 (en) * | 2012-01-17 | 2013-07-18 | Sackett Solutions & Innovations, LLC | System for Search and Customized Information Updating of New Patents and Research, and Evaluation of New Research Projects' and Current Patents' Potential |
US9836805B2 (en) * | 2012-01-17 | 2017-12-05 | Sackett Solutions & Innovations, LLC | System for search and customized information updating of new patents and research, and evaluation of new research projects' and current patents' potential |
US9020807B2 (en) | 2012-01-18 | 2015-04-28 | Dw Associates, Llc | Format for displaying text analytics results |
US9667513B1 (en) | 2012-01-24 | 2017-05-30 | Dw Associates, Llc | Real-time autonomous organization |
US8903813B2 (en) | 2012-07-02 | 2014-12-02 | International Business Machines Corporation | Context-based electronic document search using a synthetic event |
US8898165B2 (en) | 2012-07-02 | 2014-11-25 | International Business Machines Corporation | Identification of null sets in a context-based electronic document search |
US9460200B2 (en) | 2012-07-02 | 2016-10-04 | International Business Machines Corporation | Activity recommendation based on a context-based electronic files search |
US9262499B2 (en) | 2012-08-08 | 2016-02-16 | International Business Machines Corporation | Context-based graphical database |
US8676857B1 (en) | 2012-08-23 | 2014-03-18 | International Business Machines Corporation | Context-based search for a data store related to a graph node |
US8959119B2 (en) | 2012-08-27 | 2015-02-17 | International Business Machines Corporation | Context-based graph-relational intersect derived database |
US9251237B2 (en) | 2012-09-11 | 2016-02-02 | International Business Machines Corporation | User-specific synthetic context object matching |
US9619580B2 (en) | 2012-09-11 | 2017-04-11 | International Business Machines Corporation | Generation of synthetic context objects |
US8620958B1 (en) | 2012-09-11 | 2013-12-31 | International Business Machines Corporation | Dimensionally constrained synthetic context objects database |
US9223846B2 (en) | 2012-09-18 | 2015-12-29 | International Business Machines Corporation | Context-based navigation through a database |
US8782777B2 (en) | 2012-09-27 | 2014-07-15 | International Business Machines Corporation | Use of synthetic context-based objects to secure data stores |
US9741138B2 (en) | 2012-10-10 | 2017-08-22 | International Business Machines Corporation | Node cluster relationships in a graph database |
US9460069B2 (en) * | 2012-10-19 | 2016-10-04 | International Business Machines Corporation | Generation of test data using text analytics |
US8931109B2 (en) | 2012-11-19 | 2015-01-06 | International Business Machines Corporation | Context-based security screening for accessing data |
US9286379B2 (en) * | 2012-11-26 | 2016-03-15 | Wal-Mart Stores, Inc. | Document quality measurement |
US8914413B2 (en) | 2013-01-02 | 2014-12-16 | International Business Machines Corporation | Context-based data gravity wells |
US8983981B2 (en) | 2013-01-02 | 2015-03-17 | International Business Machines Corporation | Conformed dimensional and context-based data gravity wells |
US9229932B2 (en) | 2013-01-02 | 2016-01-05 | International Business Machines Corporation | Conformed dimensional data gravity wells |
US9053102B2 (en) | 2013-01-31 | 2015-06-09 | International Business Machines Corporation | Generation of synthetic context frameworks for dimensionally constrained hierarchical synthetic context-based objects |
US8856946B2 (en) | 2013-01-31 | 2014-10-07 | International Business Machines Corporation | Security filter for context-based data gravity wells |
US9069752B2 (en) | 2013-01-31 | 2015-06-30 | International Business Machines Corporation | Measuring and displaying facets in context-based conformed dimensional data gravity wells |
US9292506B2 (en) | 2013-02-28 | 2016-03-22 | International Business Machines Corporation | Dynamic generation of demonstrative aids for a meeting |
US9110722B2 (en) | 2013-02-28 | 2015-08-18 | International Business Machines Corporation | Data processing work allocation |
US10152526B2 (en) | 2013-04-11 | 2018-12-11 | International Business Machines Corporation | Generation of synthetic context objects using bounded context objects |
US9262510B2 (en) | 2013-05-10 | 2016-02-16 | International Business Machines Corporation | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries |
US9348794B2 (en) | 2013-05-17 | 2016-05-24 | International Business Machines Corporation | Population of context-based data gravity wells |
US9195608B2 (en) | 2013-05-17 | 2015-11-24 | International Business Machines Corporation | Stored data analysis |
US9251136B2 (en) | 2013-10-16 | 2016-02-02 | International Business Machines Corporation | Document tagging and retrieval using entity specifiers |
US9235638B2 (en) * | 2013-11-12 | 2016-01-12 | International Business Machines Corporation | Document retrieval using internal dictionary-hierarchies to adjust per-subject match results |
US20150186363A1 (en) * | 2013-12-27 | 2015-07-02 | Adobe Systems Incorporated | Search-Powered Language Usage Checks |
CN104809115A (zh) * | 2014-01-24 | 2015-07-29 | 贝壳网际(北京)安全技术有限公司 | 一种搜索方法及终端设备 |
US10229219B2 (en) * | 2015-05-01 | 2019-03-12 | Facebook, Inc. | Systems and methods for demotion of content items in a feed |
US10545920B2 (en) | 2015-08-04 | 2020-01-28 | International Business Machines Corporation | Deduplication by phrase substitution within chunks of substantially similar content |
US10325026B2 (en) * | 2015-09-25 | 2019-06-18 | International Business Machines Corporation | Recombination techniques for natural language generation |
US11157532B2 (en) * | 2015-10-05 | 2021-10-26 | International Business Machines Corporation | Hierarchical target centric pattern generation |
US10460229B1 (en) * | 2016-03-18 | 2019-10-29 | Google Llc | Determining word senses using neural networks |
US11200217B2 (en) | 2016-05-26 | 2021-12-14 | Perfect Search Corporation | Structured document indexing and searching |
US10380124B2 (en) * | 2016-10-06 | 2019-08-13 | Oracle International Corporation | Searching data sets |
US10255271B2 (en) * | 2017-02-06 | 2019-04-09 | International Business Machines Corporation | Disambiguation of the meaning of terms based on context pattern detection |
CN108509449B (zh) * | 2017-02-24 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法及服务器 |
IL258689A (en) | 2018-04-12 | 2018-05-31 | Browarnik Abel | A system and method for computerized semantic indexing and searching |
US11182410B2 (en) * | 2018-04-30 | 2021-11-23 | Innoplexus Ag | Systems and methods for determining contextually-relevant keywords |
US11157538B2 (en) * | 2018-04-30 | 2021-10-26 | Innoplexus Ag | System and method for generating summary of research document |
CN116186203B (zh) * | 2023-03-01 | 2023-10-10 | 人民网股份有限公司 | 文本检索方法、装置、计算设备及计算机存储介质 |
CN116662374B (zh) * | 2023-07-31 | 2023-10-20 | 天津市扬天环保科技有限公司 | 基于相关性分析的信息技术咨询服务*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250919A (ja) * | 1999-02-26 | 2000-09-14 | Fujitsu Ltd | 文書処理装置及びそのプログラム記憶媒体 |
JP2001184358A (ja) * | 1999-12-24 | 2001-07-06 | Fujitsu Ltd | カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 |
Family Cites Families (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4839853A (en) * | 1988-09-15 | 1989-06-13 | Bell Communications Research, Inc. | Computer information retrieval using latent semantic structure |
US5301109A (en) * | 1990-06-11 | 1994-04-05 | Bell Communications Research, Inc. | Computerized cross-language document retrieval using latent semantic indexing |
US5317507A (en) * | 1990-11-07 | 1994-05-31 | Gallant Stephen I | Method for document retrieval and for word sense disambiguation using neural networks |
EP0494573A1 (en) * | 1991-01-08 | 1992-07-15 | International Business Machines Corporation | Method for automatically disambiguating the synonymic links in a dictionary for a natural language processing system |
US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5541836A (en) * | 1991-12-30 | 1996-07-30 | At&T Corp. | Word disambiguation apparatus and methods |
JP3270783B2 (ja) * | 1992-09-29 | 2002-04-02 | ゼロックス・コーポレーション | 複数の文書検索方法 |
US5331556A (en) * | 1993-06-28 | 1994-07-19 | General Electric Company | Method for natural language data processing using morphological and part-of-speech information |
US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US5576954A (en) * | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US6460036B1 (en) * | 1994-11-29 | 2002-10-01 | Pinpoint Incorporated | System and method for providing customized electronic newspapers and target advertisements |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
JP3040945B2 (ja) * | 1995-11-29 | 2000-05-15 | 松下電器産業株式会社 | 文書検索装置 |
US5926811A (en) * | 1996-03-15 | 1999-07-20 | Lexis-Nexis | Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching |
US5913215A (en) * | 1996-04-09 | 1999-06-15 | Seymour I. Rubinstein | Browse by prompted keyword phrases with an improved method for obtaining an initial document set |
US5920854A (en) * | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6128613A (en) * | 1997-06-26 | 2000-10-03 | The Chinese University Of Hong Kong | Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words |
US6029167A (en) * | 1997-07-25 | 2000-02-22 | Claritech Corporation | Method and apparatus for retrieving text using document signatures |
US6081774A (en) * | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
US6070157A (en) * | 1997-09-23 | 2000-05-30 | At&T Corporation | Method for providing more informative results in response to a search of electronic documents |
US6269368B1 (en) * | 1997-10-17 | 2001-07-31 | Textwise Llc | Information retrieval using dynamic evidence combination |
US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
US6182066B1 (en) * | 1997-11-26 | 2001-01-30 | International Business Machines Corp. | Category processing of query topics and electronic document content topics |
US6101492A (en) * | 1998-07-02 | 2000-08-08 | Lucent Technologies Inc. | Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis |
US6480843B2 (en) * | 1998-11-03 | 2002-11-12 | Nec Usa, Inc. | Supporting web-query expansion efficiently using multi-granularity indexing and query processing |
US6256629B1 (en) * | 1998-11-25 | 2001-07-03 | Lucent Technologies Inc. | Method and apparatus for measuring the degree of polysemy in polysemous words |
US6189002B1 (en) * | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
US6460029B1 (en) * | 1998-12-23 | 2002-10-01 | Microsoft Corporation | System for improving search text |
US6405190B1 (en) * | 1999-03-16 | 2002-06-11 | Oracle Corporation | Free format query processing in an information search and retrieval system |
US6519586B2 (en) * | 1999-08-06 | 2003-02-11 | Compaq Computer Corporation | Method and apparatus for automatic construction of faceted terminological feedback for document retrieval |
US6601026B2 (en) * | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6772150B1 (en) * | 1999-12-10 | 2004-08-03 | Amazon.Com, Inc. | Search query refinement using related search phrases |
US6675159B1 (en) * | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
US20030217052A1 (en) * | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
US6766320B1 (en) * | 2000-08-24 | 2004-07-20 | Microsoft Corporation | Search engine with natural language-based robust parsing for user query and relevance feedback learning |
US6823331B1 (en) * | 2000-08-28 | 2004-11-23 | Entrust Limited | Concept identification system and method for use in reducing and/or representing text content of an electronic document |
US7249121B1 (en) * | 2000-10-04 | 2007-07-24 | Google Inc. | Identification of semantic units from within a search query |
NZ508695A (en) * | 2000-12-07 | 2003-04-29 | Compudigm Int Ltd | Method and system of searching a database of records |
US20030018659A1 (en) * | 2001-03-14 | 2003-01-23 | Lingomotors, Inc. | Category-based selections in an information access environment |
US7024400B2 (en) * | 2001-05-08 | 2006-04-04 | Sunflare Co., Ltd. | Differential LSI space-based probabilistic document classifier |
US7284191B2 (en) * | 2001-08-13 | 2007-10-16 | Xerox Corporation | Meta-document management system with document identifiers |
US6732092B2 (en) * | 2001-09-28 | 2004-05-04 | Client Dynamics, Inc. | Method and system for database queries and information delivery |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
US7089188B2 (en) * | 2002-03-27 | 2006-08-08 | Hewlett-Packard Development Company, L.P. | Method to expand inputs for word or document searching |
US7451395B2 (en) * | 2002-12-16 | 2008-11-11 | Palo Alto Research Center Incorporated | Systems and methods for interactive topic-based text summarization |
US8055669B1 (en) * | 2003-03-03 | 2011-11-08 | Google Inc. | Search queries improved based on query semantic information |
US6947930B2 (en) * | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
US7225184B2 (en) * | 2003-07-18 | 2007-05-29 | Overture Services, Inc. | Disambiguation of search phrases using interpretation clusters |
CA2536265C (en) * | 2003-08-21 | 2012-11-13 | Idilia Inc. | System and method for processing a query |
US7254576B1 (en) * | 2004-05-17 | 2007-08-07 | Microsoft Corporation | System and method for locating and presenting electronic documents to a user |
US7809548B2 (en) * | 2004-06-14 | 2010-10-05 | University Of North Texas | Graph-based ranking algorithms for text processing |
US7711679B2 (en) * | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US7447684B2 (en) * | 2006-04-13 | 2008-11-04 | International Business Machines Corporation | Determining searchable criteria of network resources based on a commonality of content |
-
2006
- 2006-01-31 WO PCT/US2006/003312 patent/WO2006086179A2/en active Application Filing
- 2006-01-31 US US11/343,084 patent/US20060235843A1/en not_active Abandoned
- 2006-01-31 JP JP2007553342A patent/JP2008529173A/ja active Pending
- 2006-01-31 EP EP06734097A patent/EP1846815A2/en not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250919A (ja) * | 1999-02-26 | 2000-09-14 | Fujitsu Ltd | 文書処理装置及びそのプログラム記憶媒体 |
JP2001184358A (ja) * | 1999-12-24 | 2001-07-06 | Fujitsu Ltd | カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9400838B2 (en) | 2005-04-11 | 2016-07-26 | Textdigger, Inc. | System and method for searching for a query |
US9245029B2 (en) | 2006-01-03 | 2016-01-26 | Textdigger, Inc. | Search system with query refinement and search method |
US9928299B2 (en) | 2006-01-03 | 2018-03-27 | Textdigger, Inc. | Search system with query refinement and search method |
US8862573B2 (en) | 2006-04-04 | 2014-10-14 | Textdigger, Inc. | Search system and method with text function tagging |
US10540406B2 (en) | 2006-04-04 | 2020-01-21 | Exis Inc. | Search system and method with text function tagging |
JP2012003417A (ja) * | 2010-06-15 | 2012-01-05 | Nec Biglobe Ltd | Ecサイトシステム、ecサイト支援方法 |
US20220208197A1 (en) * | 2012-06-01 | 2022-06-30 | Google Llc | Providing Answers To Voice Queries Using User Feedback |
Also Published As
Publication number | Publication date |
---|---|
US20060235843A1 (en) | 2006-10-19 |
EP1846815A2 (en) | 2007-10-24 |
WO2006086179A2 (en) | 2006-08-17 |
WO2006086179A3 (en) | 2007-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008529173A (ja) | 電子文書の意味検索および取り込みのための方法およびシステム | |
US9400838B2 (en) | System and method for searching for a query | |
US9697249B1 (en) | Estimating confidence for query revision models | |
US7565345B2 (en) | Integration of multiple query revision models | |
Clarke et al. | The influence of caption features on clickthrough patterns in web search | |
Zeng et al. | Learning to cluster web search results | |
Medelyan | Human-competitive automatic topic indexing | |
Bao et al. | Competitor mining with the web | |
US20170242915A1 (en) | Question sentence generating device and computer program | |
US20130041921A1 (en) | Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query | |
Higashinaka et al. | Syntactic filtering and content-based retrieval of twitter sentences for the generation of system utterances in dialogue systems | |
Bando et al. | Constructing query-biased summaries: a comparison of human and system generated snippets | |
Roy et al. | Discovering and understanding word level user intent in web search queries | |
Ferret et al. | How NLP can improve question answering | |
Balasubramanian et al. | Topic pages: An alternative to the ten blue links | |
Leal Bando et al. | Query‐biased summary generation assisted by query expansion | |
Kangavari et al. | Information retrieval: Improving question answering systems by query reformulation and answer validation | |
Ting-Xuan et al. | Identifying popular search goals behind search queries to improve web search ranking | |
Matsuo et al. | Browsing support by highlighting keywords based on a user's browsing history | |
Chaisorn et al. | Known-item search (kis) in video: Survey, experience and trend | |
Guha | Course specific search engines: A study in incorporating context into search | |
Eklou et al. | How can the Web help Wikipedia? a study of information complementation of Wikipedia by the Web | |
Pithyaachariyakul et al. | Automated Question Answering System. | |
Holloway | An Examination of Natural Language Processing, Information Extraction, and Information Retrieval Systems and Their Applications | |
Viriyayudhakorn | Thai-English Translation and Synonym Pairs Extraction in Health-related Web Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080630 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110704 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111004 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111012 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120326 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120903 |