JP2006072744A - 文書処理装置、その制御方法、プログラム、及び記憶媒体 - Google Patents
文書処理装置、その制御方法、プログラム、及び記憶媒体 Download PDFInfo
- Publication number
- JP2006072744A JP2006072744A JP2004255811A JP2004255811A JP2006072744A JP 2006072744 A JP2006072744 A JP 2006072744A JP 2004255811 A JP2004255811 A JP 2004255811A JP 2004255811 A JP2004255811 A JP 2004255811A JP 2006072744 A JP2006072744 A JP 2006072744A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- processing apparatus
- dividing
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 複数の検索手法にそれぞれ対応して、検索対象の文書を複数のブロックに分割し、分割された各ブロックの文字列に基づいて複数の検索手法に対応する前記検索対象の文書のインデックスをそれぞれ生成すると共に、検索要求用のクエリーを生成するための文書中の文字列を検索手法に応じて複数のブロックに分割し、分割された各ブロックの文字列に基づいて検索要求用のクエリーを生成して検索する。
【選択図】 図8
Description
、検索要求用のクエリーを生成するための文書中の文字列を検索手法に応じて複数のブロックに分割する分割手段と、前記分割手段により分割された各ブロックの文字列に基づいて検索要求用のクエリーを生成する生成手段とを有している。
図1は、本発明の実施の形態に係る文書処理装置としての文書検索装置の概略構成を示すブロック図である。
次に、検索処理の概要を、図4のクライアント装置101,102,201,202の動作処理フローチャートに基づいて説明する。
次に、インデキシング処理の概要を、図5のクライアント装置101,102,201,202の動作処理フローチャートに基づいて説明する。
次に、図4のステップS403、図5のステップS504におけるテキストブロック最適化処理の詳細を、図6のクライアント装置101,102,201,202の動作処理フローチャート、図8のデータ例に基づいて説明する。本実施の形態では、分割されたテキストブロックに基づいてクエリーおよびインデックスが作成される。そして、テキストブロックの最適化の処理は、作成したクエリーおよびインデックスが検索手法に応じて適切に作成されるための処理である。
次に、図4のステップS404におけるサーバ装置100,200側の検索処理(類似検索処理)の1例としてのフレーズ検索処理を、図7、図12に基づいて説明する。
次に、図4のステップS404におけるサーバ装置100,200側の検索処理(類似検索処理)の1例としての概念検索処理を、図10のフローチャートに基づいて説明する。
次に、図5のステップS505のサーバ装置100,200側のインデキシング処理(概念検索の登録処理)を、図9、図13、図14に基づいて説明する。
図15は、第2の実施の形態における検索処理を示すフローチャートである。
図16は、第3の実施の形態における検索処理を示すフローチャートである。
2…記憶装置
3…入力装置
4…表示装置
5…記憶媒体読取装置
6…画像読取装置
100,200…サーバ装置
101,102,201,202…クライアント装置
400…端末
Claims (12)
- 複数の検索手法によって文書を検索するための文書処理装置において、
前記複数の検索手法にそれぞれ対応して、検索対象の文書を複数のブロックに分割する分割手段と、
前記分割手段により分割された各ブロックの文字列に基づいて前記複数の検索手法に対応する前記検索対象の文書のインデックスをそれぞれ生成する生成手段と、
を有することを特徴とする文書処理装置。 - 複数の検索手法によって文書を検索するための文書処理装置において、
検索要求用のクエリーを生成するための文書中の文字列を検索手法に応じて複数のブロックに分割する分割手段と、
前記分割手段により分割された各ブロックの文字列に基づいて検索要求用のクエリーを生成する生成手段と、
を有することを特徴とする文書処理装置。 - 前記検索手法が単語間の関連性に基づいて文書を検索する第1の検索手法の場合、前記分割手段は、前記文書中の文字列を文単位でテキストブロックに分割することを特徴とする請求項1または2に記載の文書処理装置。
- 前記検索手法が単語の概念に基づいて文書を検索する第2の検索手法の場合、前記分割手段は、前記第1の検索手法の場合より大きい単位で前記文書中の文字列を分割することを特徴とする請求項3に記載の文書処理装置。
- 前記検索手法が文書中の単語の存在の有無のみによって文書を検索する第3の検索手法の場合、前記分割手段は、前記第2の検索手法より大きい単位で前記文書中の文字列を分割することを特徴とする請求項4に記載の文書処理装置。
- 複数の検索手法によって文書を検索するための文書処理装置の制御方法において、
検索対象の文書中の文字列を検索手法応じて複数のブロックに分割する分割工程と、
前記分割工程により分割された各ブロックの文字列に基づいてインデックスを生成する生成工程と、
を有することを特徴とする文書処理装置の制御方法。 - 複数の検索手法によって文書を検索するための文書処理装置の制御方法において、
検索要求用のクエリーを生成するための文書中の文字列を検索エンジンの特性に応じて複数のブロックに分割する分割工程と、
前記分割工程により分割された各ブロックの文字列に基づいて検索要求用のクエリーを生成する生成工程と、
を有することを特徴とする文書処理装置の制御方法。 - 前記検索手法が単語間の関連性に基づいて文書を検索する第1の検索手法の場合、前記分割工程において、文単位で前記文書中の文字列をテキストブロックに分割することを特徴とする請求項6または7に記載の文書処理装置の制御方法。
- 前記検索手法が単語の概念に基づいて文書を検索する第2の検索手法の場合、前記分割工程において、前記第1の検索手法の場合より大きい単位で前記文書中の文字列を分割することを特徴とする請求項8に記載の文書処理装置の制御方法。
- 前記検索手法が文書中の単語の存在の有無のみによって文書を検索する第3の検索手法の場合、前記分割工程において、前記第2の検索手法より大きい単位で前記文書中の文字列を分割することを特徴とする請求項9に記載の文書処理装置の制御方法。
- 請求項6ないし請求項10のいずれか1項に記載の文書処理装置の制御方法を実行するプログラム。
- 請求項11に記載のプログラムを記憶した記憶媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004255811A JP2006072744A (ja) | 2004-09-02 | 2004-09-02 | 文書処理装置、その制御方法、プログラム、及び記憶媒体 |
US11/219,464 US7647303B2 (en) | 2004-09-02 | 2005-09-02 | Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program |
CNB2005100985748A CN100424695C (zh) | 2004-09-02 | 2005-09-02 | 搜索文档的文档处理装置及其控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004255811A JP2006072744A (ja) | 2004-09-02 | 2004-09-02 | 文書処理装置、その制御方法、プログラム、及び記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006072744A true JP2006072744A (ja) | 2006-03-16 |
Family
ID=35944685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004255811A Pending JP2006072744A (ja) | 2004-09-02 | 2004-09-02 | 文書処理装置、その制御方法、プログラム、及び記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7647303B2 (ja) |
JP (1) | JP2006072744A (ja) |
CN (1) | CN100424695C (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008269069A (ja) * | 2007-04-17 | 2008-11-06 | Hitachi Ltd | 情報処理システム及び情報処理方法 |
JP2013531282A (ja) * | 2010-03-10 | 2013-08-01 | アリババ・グループ・ホールディング・リミテッド | クエリモデルに基づく誘導検索 |
JP7448628B2 (ja) | 2017-09-13 | 2024-03-12 | グーグル エルエルシー | 関連コンテンツを使用した画像の効率的な増強 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4181892B2 (ja) * | 2003-02-21 | 2008-11-19 | キヤノン株式会社 | 画像処理方法 |
US20070005588A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Determining relevance using queries as surrogate content |
CN100498791C (zh) * | 2006-03-14 | 2009-06-10 | 佳能株式会社 | 文档检索***、文档检索装置及其方法 |
US8276064B2 (en) | 2007-05-07 | 2012-09-25 | International Business Machines Corporation | Method and system for effective schema generation via programmatic analysis |
JP5247311B2 (ja) * | 2008-08-29 | 2013-07-24 | キヤノン株式会社 | 電子文書処理装置および電子文書処理方法 |
CN101655835B (zh) * | 2009-08-26 | 2011-08-03 | 北大方正集团有限公司 | 电子文档中文字信息处理、输出和字符检索的方法及装置 |
JP5743443B2 (ja) * | 2010-07-08 | 2015-07-01 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
JP5071539B2 (ja) * | 2010-09-13 | 2012-11-14 | コニカミノルタビジネステクノロジーズ株式会社 | 画像検索装置、画像読取装置、画像検索システム、データベース生成方法およびデータベース生成プログラム |
GB2520936A (en) * | 2013-12-03 | 2015-06-10 | Ibm | Method and system for performing search queries using and building a block-level index |
DE102016206046A1 (de) | 2016-04-12 | 2017-10-12 | Siemens Aktiengesellschaft | Gerät und Verfahren zur Bearbeitung eines binärkodierten Strukturdokuments |
EP3682338A4 (en) * | 2017-09-12 | 2021-05-26 | Services Pétroliers Schlumberger | DATA SEARCH, ENRICHMENT AND CONSUMPTION TECHNIQUES USING EXPLORATION AND / OR PRODUCTION ENTITY RELATIONSHIPS |
CN109670507B (zh) * | 2018-11-27 | 2020-11-06 | 维沃移动通信有限公司 | 图片处理方法、装置及移动终端 |
CN111709247B (zh) * | 2020-05-20 | 2023-04-07 | 北京百度网讯科技有限公司 | 数据集处理方法、装置、电子设备和存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3263963B2 (ja) | 1991-12-25 | 2002-03-11 | 株式会社日立製作所 | 文書検索方法及び装置 |
US5161214A (en) * | 1990-08-28 | 1992-11-03 | International Business Machines Corporation | Method and apparatus for document image management in a case processing system |
JPH08272822A (ja) * | 1995-03-29 | 1996-10-18 | Fuji Xerox Co Ltd | 文書登録装置及び文書検索装置 |
JPH09198398A (ja) * | 1996-01-16 | 1997-07-31 | Fujitsu Ltd | パターン検索装置 |
JP3427692B2 (ja) | 1996-11-20 | 2003-07-22 | 松下電器産業株式会社 | 文字認識方法および文字認識装置 |
JPH1115826A (ja) | 1997-06-25 | 1999-01-22 | Toshiba Corp | 文書解析装置及び方法 |
JPH1145269A (ja) | 1997-07-28 | 1999-02-16 | Just Syst Corp | 文書管理支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3696745B2 (ja) * | 1999-02-09 | 2005-09-21 | 株式会社日立製作所 | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000339345A (ja) * | 1999-03-25 | 2000-12-08 | Sony Corp | 検索システム、検索装置および方法、ならびに、入力装置および方法 |
JP4115048B2 (ja) * | 1999-08-17 | 2008-07-09 | 株式会社リコー | 文書検索システム |
US7031910B2 (en) * | 2001-10-16 | 2006-04-18 | Xerox Corporation | Method and system for encoding and accessing linguistic frequency data |
JP2004086307A (ja) | 2002-08-23 | 2004-03-18 | Canon Inc | 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム |
JP2004240769A (ja) | 2003-02-06 | 2004-08-26 | Canon Inc | 情報検索装置 |
-
2004
- 2004-09-02 JP JP2004255811A patent/JP2006072744A/ja active Pending
-
2005
- 2005-09-02 US US11/219,464 patent/US7647303B2/en not_active Expired - Fee Related
- 2005-09-02 CN CNB2005100985748A patent/CN100424695C/zh not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008269069A (ja) * | 2007-04-17 | 2008-11-06 | Hitachi Ltd | 情報処理システム及び情報処理方法 |
JP2013531282A (ja) * | 2010-03-10 | 2013-08-01 | アリババ・グループ・ホールディング・リミテッド | クエリモデルに基づく誘導検索 |
JP7448628B2 (ja) | 2017-09-13 | 2024-03-12 | グーグル エルエルシー | 関連コンテンツを使用した画像の効率的な増強 |
Also Published As
Publication number | Publication date |
---|---|
CN1744087A (zh) | 2006-03-08 |
US20060047732A1 (en) | 2006-03-02 |
CN100424695C (zh) | 2008-10-08 |
US7647303B2 (en) | 2010-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100424695C (zh) | 搜索文档的文档处理装置及其控制方法 | |
US20220261427A1 (en) | Methods and system for semantic search in large databases | |
JP3694149B2 (ja) | 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US6353840B2 (en) | User-defined search template for extracting information from documents | |
JP2007226729A (ja) | 訳語情報出力処理プログラム,処理方法および処理装置 | |
CN101611406A (zh) | 文档存档*** | |
US7359896B2 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
US20040010556A1 (en) | Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program | |
JP2007025939A (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
JP2021144348A (ja) | 情報処理装置及び情報処理方法 | |
JP2007279978A (ja) | 文書検索装置及び文書検索方法 | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
WO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム | |
JP2005011079A (ja) | 情報検索装置、情報検索方法及びプログラム | |
JP2006227914A (ja) | 情報検索装置、情報検索方法、プログラム、記憶媒体 | |
JP4813312B2 (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
Andrés et al. | Approximate search for keywords in handwritten text images | |
JP5279129B2 (ja) | 言語横断型情報検索システムおよび言語横断型情報検索方法 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JPH10307837A (ja) | 検索装置並びに検索プログラムを記録した記録媒体 | |
JP2009104475A (ja) | 類似文書検索装置、類似文書検索方法およびプログラム | |
JP2008276561A (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
JP4217410B2 (ja) | 情報検索装置及びその制御方法、並びにプログラム | |
WO2023286340A1 (ja) | 情報処理装置および情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051209 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20051209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060118 |
|
RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20070626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090724 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090929 |