JP4637181B2 - 文書構造に基づいた検索結果の表示 - Google Patents
文書構造に基づいた検索結果の表示 Download PDFInfo
- Publication number
- JP4637181B2 JP4637181B2 JP2007533473A JP2007533473A JP4637181B2 JP 4637181 B2 JP4637181 B2 JP 4637181B2 JP 2007533473 A JP2007533473 A JP 2007533473A JP 2007533473 A JP2007533473 A JP 2007533473A JP 4637181 B2 JP4637181 B2 JP 4637181B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- structural elements
- search
- search term
- smallest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
発明の分野
この発明の本質と一致したシステムおよび方法は、一般に、情報の検索に関し、特に、文書の構造に基づいた検索結果として文書を表示することに関する。
World Wide Web(“web”)は大量の情報を含む。しかしながら、情報の所望の部分を見つけることは難しいことであり得る。この問題は、ウェブ上の情報の量およびウェブ検索での経験のない新しいユーザの数が急増しているため、複雑になっている。
一局面によると、ある方法は検索用語に関連する文書を識別するステップを含んでもよく、文書は構造要素のセットを含む。この方法は、文書において検索用語の出現の分布を判断するステップと、文書において検索用語の出現の分布に基づいて構造要素のうちの1つを識別するステップと、識別された構造要素と関連付けられる情報を表示するステップとを含んでもよい。
この発明の以下の詳細な説明は添付の図面を参照する。異なる図面の同じ参照番号は同じかまたは類似の要素を示し得る。さらに、以下の詳細な説明はこの発明を制限しない。
より多くのタイプの文書が検索エンジンを通じて検索可能となっている。一部のタイプの文書は、それらが部(parts)、章(chapters)、節(sections)、ページ(pages)等の構造要素のセットを含むという点で構造化されている。これらのタイプの文書の例は、書籍、ウェブサイト、雑誌、新聞、記事、特許、およびカタログを含み得る。これら文書はスキャンされてもよく、それらのテキストは光学的文字認識(OCR)を通じて認識される。
図3は、この発明の本質と一致するシステムおよび方法が実現され得るネットワーク300の例示的な図である。ネットワーク300は、ネットワーク350を通じて複数のサーバ320〜340に接続された複数のクライアント310を含んでもよい。ネットワーク350は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、公衆交換電話網(PSTN)などの電話網、イントラネット、インターネット、記憶装置、またはネットワークの組合せを含んでもよい。簡略化のため、2つのクライアント310および3つのサーバ320〜340がネットワーク350に接続されて示される。実際には、より多くのまたはより少ないクライアントおよびサーバがあり得る。さらに
、場合によっては、クライアントはサーバの機能を実行してもよく、および/またはサーバはクライアントの機能を実行してもよい。
図4は、この発明の本質と一致する実現例による、クライアント310およびサーバ320〜340のうちの1つまたは複数に対応し得るクライアントまたはサーバ実体(以降は「クライアント/サーバ実体」と称される)の例示的な図である。クライアント/サーバ実体は、バス410、プロセッサ420、メインメモリ430、読出専用メモリ(ROM)440、記憶装置450、入力装置460、出力装置470、および通信インターフェイス480を含み得る。バス410は、クライアント/サーバ実体の要素間で通信を可能にする経路を含んでもよい。
は、ある検索に関係する動作を実行してもよい。クライアント/サーバ実体は、プロセッサ420がメモリ430などのコンピュータ読取可能な媒体に含まれるソフトウェア命令を実行することに応答して、これらの動作を実行してもよい。コンピュータ読取可能な媒体は、物理的または論理的な記憶装置および/または搬送波として規定され得る。
図5は、この発明の本質と一致する実現例による、検索エンジン325などの検索エンジンの例示的な機能ブロック図である。一実現例によると、以下に説明される機能のうちの1つまたは複数は、サーバ320の別の部分、またはサーバ320と関連付けられるコンピュータなどのサーバ320とは別の実体、もしくはサーバ330または340のうちの1つによって行なわれてもよい。
クラスタ化されるべきかを示してもよい。しきい値は固定されてもよい。またはこれに代えて、しきい値は文書のページ、文書の部、文書の下位部等の数に比例して設定されてもよい。この場合、文書の同じ部内にあるページ上のヒットは、しきい値によって示されるように、ヒットが出現するページの数がその部のページの合計数のある割合より大きいときにクラスタにされてもよい。さらに、クラスタリングは、単一の構造要素内にあるクラスタを、複数の構造要素内にあるクラスタより優先的に扱うために行なわれてもよい。各クラスタに対して、表示ユニット520は、クラスタ全体を含む最小の構造要素を判断し、この構造要素を検索結果として表示してもよい。
もはや潜在的な結果として含まれない。第1章は潜在的な結果として選択されたため、それは0点をその親(すなわち、文書全体)に伝達する。第2章、第3章および第N章は各々しきい値より小さい点数を有し、したがって、その点数をその親に伝達する。親(すなわち、文書)の点数はその章の点数の合計である。この場合、文書は2点を有し、これはしきい値より小さい。したがって、第1章、56ページおよび100ページに関する情報が検索結果として提供され得る。
図7〜9Bは、この発明の本質と一致する実現例による、検索結果を表示するための例示的な処理のフローチャートである。処理は文書の集成を検索するためにユーザが検索用語を検索クエリとして提供することで開始してもよい。一実現例では、文書の集成はインターネットから利用可能な文書を含み、この集成を検索するための手段は、検索エンジン325(図3)などの検索エンジンである。ユーザは、クライアント310(図3)などのクライアント上のウェブブラウザソフトウェアを通じて検索クエリを提供してもよい。
計を含んでもよい。親ノードの点数はしきい値と比較されてもよい。親ノードの点数がしきい値を超えない場合(動作930)、親ノード自身が親ノードを有するか否かが判断されてもよい(動作935)。そのような親ノードが存在する場合、次に処理は動作920に戻ってもよく、ここでノードはその点数を親ノードへと上へ伝達する。
この発明の本質と一致するシステムおよび方法は、基礎となる文書と関連付けられる構造要素および文書内でのヒットの分布に基づいて検索結果を生成し得る。
れてもよい。
Claims (22)
- 1つ以上のサーバ装置によって実行される方法であって、
前記1つ以上のサーバ装置のプロセッサが、検索用語に関係する文書を識別するステップを備え、前記文書は複数の構造要素を含み、前記方法はさらに、
前記1つ以上のサーバ装置のプロセッサが、前記文書において前記検索用語の出現を判断するステップと、
前記1つ以上のサーバ装置のプロセッサが、前記検索用語の出現同士の物理的な近接度に基づいて前記文書において前記検索用語の出現をクラスタに分類するステップと、
前記1つ以上のサーバ装置のプロセッサが、前記クラスタの各々を含む前記構造要素のうち最小のものを識別するステップと、
前記1つ以上のサーバ装置のプロセッサが、前記識別された構造要素のうち最小のものに関連付けられる情報を表示するステップとを備え、前記表示するステップは、前記検索用語の出現とは独立して、前記識別された構造要素のうち最小のものに関連付けられる情報の予め定められた部分を検索結果として表示するステップを含む、方法。 - 前記文書を識別するステップは、
前記検索用語に関係する前記文書を識別するために文書の集成を検索するステップを含む、請求項1に記載の方法。 - 前記文書は、書籍、ウェブサイト、新聞、記事または特許のうちの1つを含む、請求項1または2に記載の方法。
- 前記文書において前記検索用語の出現を判断するステップは、
前記文書の前記構造要素に関して前記検索用語の出現を識別するために前記文書の内容を検索するステップを含む、請求項1〜3のいずれか1項に記載の方法。 - 前記1つ以上のサーバ装置のプロセッサが、物理的な近接度においてどの程度だけ互いに近接した前記検索用語の2つの出現がクラスタ化されなければならないかを特定するしきい値を提供するステップをさらに備え、
前記検索用語の出現をクラスタに分類するステップは、前記しきい値に基づく、請求項1〜4のいずれか1項に記載の方法。 - 前記しきい値は前記文書のページの数に比例する、請求項5に記載の方法。
- 前記検索用語の出現をクラスタに分類するステップは、前記構造要素のうちの1つの中にある出現のクラスタ化を前記構造要素のうちの複数のものの中にある出現のクラスタ化より優先する、請求項1〜6のいずれか1項に記載の方法。
- 前記文書は書籍であり、前記構造要素は、書籍と、書籍の章のセットと、書籍のページのセットとを含む、請求項1〜7のいずれか1項に記載の方法。
- 前記構造要素は、前記文書と、前記文書の部のセットと、前記文書のページのセットとを含み、
前記識別された構造要素のうち最小のものに関連付けられる前記情報は、前記文書が前記識別された構造要素のうち最小のものである場合に前記文書のタイトルのページである、請求項1〜8のいずれか1項に記載の方法。 - 前記構造要素は、前記文書と、前記文書の部のセットと、前記文書のページのセットとを含み、
前記識別された構造要素のうち最小のものに関連付けられる前記情報は、前記部が前記識別された構造要素のうち最小のものである場合に前記部の第1ページである、請求項1〜9のいずれか1項に記載の方法。 - 前記構造要素は、前記文書と、前記文書の部のセットと、前記文書のページのセットとを含み、
前記識別された構造要素のうち最小のものに関連付けられる前記情報は、前記ページが前記識別された構造要素のうち最小のものである場合に前記文書のページである、請求項1〜10のいずれか1項に記載の方法。 - 前記識別された構造要素のうち最小のものに関連付けられる前記情報は、前記検索用語の出現を含む前記文書の部分を含む、請求項1〜11のいずれか1項に記載の方法。
- 前記識別された構造要素のうち最小のものに関連付けられる前記情報は、前記検索用語の出現を含まない前記文書の部分を含む、請求項1〜11のいずれか1項に記載の方法。
- 前記識別された構造要素のうちの最小のものに関連付けられる情報を表示するステップは、
前記識別された構造要素のうち最小のものに関連付けられる前記情報内で前記検索用語を視覚的に区別するステップを含む、請求項1〜13のいずれか1項に記載の方法。 - システムであって、
検索用語に関係する文書を取得するための手段を備え、前記文書は複数の構造要素を含み、前記システムはさらに、
前記構造要素に関して前記文書において前記検索用語の出現を識別するための手段と、
前記検索用語の出現同士の物理的な近接度に基づいて前記文書において前記検索用語の出現をクラスタに分類するための手段と、
前記クラスタの各々を含む前記構造要素のうち最小のものを識別するための手段と
前記識別された構造要素のうち最小のものに関連付けられる情報を表示するための手段とを備え、前記情報を表示するための手段は、前記検索用語の出現とは独立して、前記識別された構造要素のうち最小のものに関連付けられる情報の予め定められた部分を検索結果として表示する手段を含む、システム。 - システムであって、
文書の集成を記憶するためのメモリを備え、前記文書の少なくとも一部は複数の構造要素を備え、前記システムはさらに、
プロセッサを備え、前記プロセッサは、
検索用語を含む検索クエリを受取り、
前記検索用語に関連の文書を文書の集成で識別し、
前記構造要素に基づいて前記文書において前記検索用語の出現を判断し、
前記検索用語の出現同士の物理的な近接度に基づいて前記文書において前記検索用語の出現をクラスタに分類し、
前記クラスタの各々を含む前記構造要素のうち最小のものを識別し、
前記識別された構造要素のうち最小のものに関連付けられる情報を前記検索クエリの結果として提供し、当該情報の提供には、前記検索用語の出現とは独立して、前記識別された構造要素のうち最小のものに関連付けられる情報の予め定められた部分の提供を含む、システム。 - 1つ以上のサーバ装置によって実行される方法であって、
前記1つ以上のサーバ装置のプロセッサが、検索用語に関連の文書を識別するステップを備え、前記文書は複数の構造要素を含み、前記方法はさらに、
前記1つ以上のサーバ装置のプロセッサが、前記文書において前記検索用語の出現を判断するステップと、
前記1つ以上のサーバ装置のプロセッサが、前記検索用語の出現同士の物理的な近接度に基づいて前記検索用語の出現をクラスタに分類するステップと、
前記1つ以上のサーバ装置のプロセッサが、前記クラスタの各々を含む前記構造要素のうち最小のものを判断するステップと、
前記1つ以上のサーバ装置のプロセッサが、前記判断された最小の構造要素に関連付けられる情報を提供するステップとを備え、前記情報を提供するステップは、前記検索用語の出現とは独立して、前記構造要素のうち最小のものに関連付けられる情報の予め定められた部分を検索結果として提供するステップを含む、方法。 - 前記1つ以上のサーバ装置のプロセッサが、物理的な近接度においてどの程度だけ互いに近接した前記検索用語の2つの出現がクラスタ化されなければならないかを特定するしきい値を提供するステップをさらに備え、
前記検索用語の出現をクラスタに分類するステップは前記しきい値に基づく、請求項17に記載の方法。 - 前記しきい値は前記文書のページの数に比例する、請求項18に記載の方法。
- 前記検索用語の出現をクラスタに分類するステップは、前記構造要素のうちの1つの中にある出現のクラスタ化を前記構造要素のうちの複数のものの中にある出現のクラスタ化より優先する、請求項17に記載の方法。
- システムであって、
検索用語に関連の文書を識別するための手段を備え、前記文書は複数の構造要素を含み、前記システムはさらに、
前記文書において前記検索用語の出現を識別するための手段と、
物理的な近接度においてどの程度だけ互いに近接した前記検索用語の2つの出現がクラスタ化されなければならないかを特定するしきい値に基づいて、前記検索用語の出現をクラスタに分類するための手段と、
前記クラスタの各々を含む前記構造要素のうちの最小のものを判断するための手段と、
前記構造要素のうち最小のものに関連付けられる情報を表示するための手段とを備え、前記情報を表示するための手段は、前記検索用語の出現とは独立して、前記構造要素のうち最小のものに関連付けられる情報の予め定められた部分を検索結果として表示する手段を含む、システム。 - コンピュータの実行可能な命令を含むコンピュータ読取可能な媒体であって、
文書が検索用語に関連すると判断するための命令を備え、前記文書は複数の構造要素を備え、前記コンピュータ読取可能な媒体はさらに、
前記文書において前記検索用語の出現を判断するための命令と、
前記検索用語の出現同士の物理的な近接度に基づいて、前記検索用語の出現をクラスタに分類するための命令と、
前記クラスタの各々を含む前記構造要素のうち最小のものを判断するための命令と、
前記構造要素のうち最小のものに関連付けられる情報を表示するための命令とを備え、前記情報を表示するための命令は、前記検索用語の出現とは独立して、前記構造要素のうち最小のものに関連付けられる情報の予め定められた部分を検索結果として表示するための命令を含む、コンピュータ読取可能な媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/949,708 US9031898B2 (en) | 2004-09-27 | 2004-09-27 | Presentation of search results based on document structure |
PCT/US2005/029691 WO2006036376A1 (en) | 2004-09-27 | 2005-08-19 | Presentation of search results based on document structure |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008515049A JP2008515049A (ja) | 2008-05-08 |
JP4637181B2 true JP4637181B2 (ja) | 2011-02-23 |
Family
ID=35414787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007533473A Active JP4637181B2 (ja) | 2004-09-27 | 2005-08-19 | 文書構造に基づいた検索結果の表示 |
Country Status (9)
Country | Link |
---|---|
US (1) | US9031898B2 (ja) |
EP (1) | EP1800226A1 (ja) |
JP (1) | JP4637181B2 (ja) |
KR (1) | KR100957080B1 (ja) |
CN (1) | CN101061479B (ja) |
AU (1) | AU2005290154B2 (ja) |
BR (1) | BRPI0517356B1 (ja) |
CA (1) | CA2581713C (ja) |
WO (1) | WO2006036376A1 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7590657B1 (en) * | 2005-06-10 | 2009-09-15 | At&T Corp. | System and method for identifying hierarchical heavy hitters in a multidimensional environment |
US7539657B1 (en) | 2005-11-12 | 2009-05-26 | Google Inc. | Building parallel hybrid spill trees to facilitate parallel nearest-neighbor matching operations |
US7506011B2 (en) * | 2006-07-26 | 2009-03-17 | International Business Machines Corporation | System and apparatus for optimally trading off the replication overhead and consistency level in distributed applications |
US7660804B2 (en) | 2006-08-16 | 2010-02-09 | Microsoft Corporation | Joint optimization of wrapper generation and template detection |
JP4801555B2 (ja) * | 2006-09-29 | 2011-10-26 | 株式会社ジャストシステム | 文書処理装置、文書処理方法および文書処理プログラム |
JP2008146209A (ja) * | 2006-12-07 | 2008-06-26 | Just Syst Corp | 文書検索装置、文書検索方法および文書検索プログラム |
US9535810B1 (en) | 2007-04-24 | 2017-01-03 | Wal-Mart Stores, Inc. | Layout optimization |
US20080270351A1 (en) * | 2007-04-24 | 2008-10-30 | Interse A/S | System and Method of Generating and External Catalog for Use in Searching for Information Objects in Heterogeneous Data Stores |
JP2009129013A (ja) * | 2007-11-20 | 2009-06-11 | Just Syst Corp | 文書検索方法、文書検索装置および文書検索プログラム |
JP2009129280A (ja) * | 2007-11-26 | 2009-06-11 | Just Syst Corp | 文書検索方法、文書検索装置および文書検索プログラム |
US20100287177A1 (en) * | 2009-05-06 | 2010-11-11 | Foundationip, Llc | Method, System, and Apparatus for Searching an Electronic Document Collection |
US20100287148A1 (en) * | 2009-05-08 | 2010-11-11 | Cpa Global Patent Research Limited | Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection |
JP5096619B2 (ja) | 2009-07-15 | 2012-12-12 | ネオパッド インコーポレーション | ホームページ統合サービス提供システム及び方法 |
US8364679B2 (en) * | 2009-09-17 | 2013-01-29 | Cpa Global Patent Research Limited | Method, system, and apparatus for delivering query results from an electronic document collection |
US20110082839A1 (en) * | 2009-10-02 | 2011-04-07 | Foundationip, Llc | Generating intellectual property intelligence using a patent search engine |
US20110119250A1 (en) * | 2009-11-16 | 2011-05-19 | Cpa Global Patent Research Limited | Forward Progress Search Platform |
CN102279856B (zh) * | 2010-06-09 | 2013-10-02 | 阿里巴巴集团控股有限公司 | 一种网站导航实现方法及*** |
WO2012012916A1 (en) * | 2010-07-30 | 2012-02-02 | Hewlett-Packard Development Company, L.P. | Selection of main content in web pages |
CN102143142A (zh) * | 2010-09-30 | 2011-08-03 | 华为软件技术有限公司 | Ip多媒体子***业务中订阅处理方法和资源列表服务器 |
CN103218719B (zh) | 2012-01-19 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 一种电子商务网站导航方法及*** |
WO2014107809A1 (en) * | 2013-01-11 | 2014-07-17 | La Presse, Ltée | Device, method and system for displaying digital editions |
WO2014146265A1 (en) * | 2013-03-20 | 2014-09-25 | Nokia Corporation | Method and apparatus for personalized resource recommendations |
CN105005562B (zh) * | 2014-04-15 | 2018-09-21 | 索意互动(北京)信息技术有限公司 | 检索结果的显示处理方法及装置 |
US9858251B2 (en) | 2014-08-14 | 2018-01-02 | Rakuten Kobo Inc. | Automatically generating customized annotation document from query search results and user interface thereof |
US20160239161A1 (en) * | 2015-02-12 | 2016-08-18 | Kobo Incorporated | Method and system for term-occurrence-based navigation of apportioned e-book content |
TW201832105A (zh) * | 2017-02-17 | 2018-09-01 | 雲拓科技有限公司 | 專利檢索之檢索關鍵字建議方法 |
US20190130027A1 (en) | 2017-11-02 | 2019-05-02 | International Business Machines Corporation | Data classification |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2048039A1 (en) * | 1991-07-19 | 1993-01-20 | Steven Derose | Data processing system and method for generating a representation for and random access rendering of electronic documents |
US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5694594A (en) * | 1994-11-14 | 1997-12-02 | Chang; Daniel | System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms |
JP3598742B2 (ja) * | 1996-11-25 | 2004-12-08 | 富士ゼロックス株式会社 | 文書検索装置及び文書検索方法 |
US6233575B1 (en) * | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
US6167397A (en) * | 1997-09-23 | 2000-12-26 | At&T Corporation | Method of clustering electronic documents in response to a search query |
US6363378B1 (en) * | 1998-10-13 | 2002-03-26 | Oracle Corporation | Ranking of query feedback terms in an information retrieval system |
WO2000046701A1 (en) * | 1999-02-08 | 2000-08-10 | Huntsman Ici Chemicals Llc | Method for retrieving semantically distant analogies |
US6718363B1 (en) * | 1999-07-30 | 2004-04-06 | Verizon Laboratories, Inc. | Page aggregation for web sites |
US20030050927A1 (en) * | 2001-09-07 | 2003-03-13 | Araha, Inc. | System and method for location, understanding and assimilation of digital documents through abstract indicia |
US6819339B1 (en) * | 2000-02-24 | 2004-11-16 | Eric Morgan Dowling | Web browser with multilevel functions |
US6678692B1 (en) * | 2000-07-10 | 2004-01-13 | Northrop Grumman Corporation | Hierarchy statistical analysis system and method |
JP2002108710A (ja) * | 2000-07-24 | 2002-04-12 | Sony Corp | 情報処理システム、情報処理方法、および情報処理装置、並びにプログラム提供媒体 |
US6678679B1 (en) * | 2000-10-10 | 2004-01-13 | Science Applications International Corporation | Method and system for facilitating the refinement of data queries |
US20070226640A1 (en) * | 2000-11-15 | 2007-09-27 | Holbrook David M | Apparatus and methods for organizing and/or presenting data |
JP3907161B2 (ja) | 2001-06-29 | 2007-04-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | キーワード検索方法、キーワード検索端末、コンピュータプログラム |
CA2358048A1 (en) * | 2001-09-25 | 2003-03-25 | Luis Rueda | A cryptosystem for data security |
US20030115191A1 (en) * | 2001-12-17 | 2003-06-19 | Max Copperman | Efficient and cost-effective content provider for customer relationship management (CRM) or other applications |
AU2003201799A1 (en) * | 2002-01-16 | 2003-07-30 | Elucidon Ab | Information data retrieval, where the data is organized in terms, documents and document corpora |
CA2485546A1 (en) | 2002-05-14 | 2003-11-27 | Verity, Inc. | Apparatus and method for region sensitive dynamically configurable document relevance ranking |
US7085771B2 (en) * | 2002-05-17 | 2006-08-01 | Verity, Inc | System and method for automatically discovering a hierarchy of concepts from a corpus of documents |
WO2003107174A1 (en) * | 2002-06-13 | 2003-12-24 | Cerisent Corporation | Xml database mixed structural-textual classification system |
AU2003245506A1 (en) * | 2002-06-13 | 2003-12-31 | Mark Logic Corporation | Parent-child query indexing for xml databases |
US7383258B2 (en) * | 2002-10-03 | 2008-06-03 | Google, Inc. | Method and apparatus for characterizing documents based on clusters of related words |
JP2004157628A (ja) | 2002-11-05 | 2004-06-03 | Mitsubishi Electric Corp | 文書検索方法及びその装置及びそのプログラム |
US7320000B2 (en) * | 2002-12-04 | 2008-01-15 | International Business Machines Corporation | Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy |
US20040133560A1 (en) * | 2003-01-07 | 2004-07-08 | Simske Steven J. | Methods and systems for organizing electronic documents |
US7512615B2 (en) * | 2003-11-07 | 2009-03-31 | International Business Machines Corporation | Single pass workload directed clustering of XML documents |
US7523109B2 (en) * | 2003-12-24 | 2009-04-21 | Microsoft Corporation | Dynamic grouping of content including captive data |
US7165216B2 (en) * | 2004-01-14 | 2007-01-16 | Xerox Corporation | Systems and methods for converting legacy and proprietary documents into extended mark-up language format |
US20050177555A1 (en) * | 2004-02-11 | 2005-08-11 | Alpert Sherman R. | System and method for providing information on a set of search returned documents |
US20060031219A1 (en) * | 2004-07-22 | 2006-02-09 | Leon Chernyak | Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units |
-
2004
- 2004-09-27 US US10/949,708 patent/US9031898B2/en active Active
-
2005
- 2005-08-19 KR KR1020077009771A patent/KR100957080B1/ko active IP Right Grant
- 2005-08-19 JP JP2007533473A patent/JP4637181B2/ja active Active
- 2005-08-19 CA CA2581713A patent/CA2581713C/en active Active
- 2005-08-19 WO PCT/US2005/029691 patent/WO2006036376A1/en active Application Filing
- 2005-08-19 EP EP05792767A patent/EP1800226A1/en not_active Withdrawn
- 2005-08-19 CN CN2005800399646A patent/CN101061479B/zh active Active
- 2005-08-19 AU AU2005290154A patent/AU2005290154B2/en active Active
- 2005-08-19 BR BRPI0517356-6A patent/BRPI0517356B1/pt active Search and Examination
Also Published As
Publication number | Publication date |
---|---|
AU2005290154B2 (en) | 2010-09-09 |
BRPI0517356B1 (pt) | 2019-09-24 |
US20060074907A1 (en) | 2006-04-06 |
KR20070058685A (ko) | 2007-06-08 |
US9031898B2 (en) | 2015-05-12 |
CN101061479B (zh) | 2011-06-15 |
CA2581713C (en) | 2015-12-29 |
JP2008515049A (ja) | 2008-05-08 |
AU2005290154A1 (en) | 2006-04-06 |
CN101061479A (zh) | 2007-10-24 |
CA2581713A1 (en) | 2006-04-06 |
WO2006036376A1 (en) | 2006-04-06 |
BRPI0517356A (pt) | 2008-10-07 |
EP1800226A1 (en) | 2007-06-27 |
KR100957080B1 (ko) | 2010-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4637181B2 (ja) | 文書構造に基づいた検索結果の表示 | |
US10528650B2 (en) | User interface for presentation of a document | |
US11314824B2 (en) | System and method for block segmenting, identifying and indexing visual elements, and searching documents | |
US9342583B2 (en) | Book content item search | |
US7676745B2 (en) | Document segmentation based on visual gaps | |
JP4837040B2 (ja) | ブログ文書のランク付け | |
US8316032B1 (en) | Book content item search | |
US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
US20150161179A1 (en) | Automatic determination of whether a document includes an image gallery | |
Roy et al. | Discovering and understanding word level user intent in web search queries | |
US20080033953A1 (en) | Method to search transactional web pages | |
CN115203605A (zh) | 网页主内容列表识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091215 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100315 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100622 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101102 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101122 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131203 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4637181 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |