JP6050165B2 - 全文検索装置 - Google Patents
全文検索装置 Download PDFInfo
- Publication number
- JP6050165B2 JP6050165B2 JP2013060248A JP2013060248A JP6050165B2 JP 6050165 B2 JP6050165 B2 JP 6050165B2 JP 2013060248 A JP2013060248 A JP 2013060248A JP 2013060248 A JP2013060248 A JP 2013060248A JP 6050165 B2 JP6050165 B2 JP 6050165B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- character
- list
- gram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明による全文検索装置の態様は、複数の文書の各々を所定の文字数の登録用部分文字列に分割し、前記登録用部分文字列ごとに、当該登録用部分文字列の各文書中における文字の位置及び前記文字の出現個数を示す文字位置情報を記憶した文字位置リストと、前記文字位置リストにおける前記文字位置情報が記憶されている領域の開始位置に関する情報と各文書の文書IDとを対応付けて記憶した文書IDリストとを登録する手段と、
取得した検索タームを、前記登録用部分文字列の文字数と同数の検索用部分文字列に分割し、分割した前記検索用部分文字列の各々と同じ前記登録用部分文字列ごとに記憶されている前記文書IDリストのうち前記文書IDを互いに比較することにより、比較した全ての前記文書IDリストに共通して含まれる前記文書IDを全て抽出する手段と、
前記検索用部分文字列ごとに前記文書IDリストから、抽出された共通する前記文書IDの各々に対応付けられた前記文字位置情報が記憶されている領域の開始位置をそれぞれ取得する手段と、
取得した前記文字位置情報が記憶されている領域の前記開始位置に基づいて、前記検索用部分文字列ごとに前記文字位置リストから、前記文書中における、該当する文字の各位置のみをそれぞれ取得する手段と、
抽出された共通する文書IDの各々について、前記検索用部分文字列ごとに取得した前記文書中における文字の各位置に基づいて、分割前の検索タームと同じ順番で各検索用部分文字列が隣接して出現するか否かを判断し、各検索用部分文字列が隣接して出現する場合は当該文書IDの文書に当該検索タームが含まれると判断する手段と、を有する。
図1は本発明における全文検索装置を備えたシステム全体の構成図である。
110は検索クライアント、120はLAN等の通信回線、130は検索サーバを示し、検索クライアント110と検索サーバ130は、通信回線120で接続されている。
なお、以下の図面の説明においては、図1中の符号を参照する場合がある。
文書の登録処理は、検索クライアント110から検索サーバ130に登録処理の要求と登録する文書群を送信することで開始する。(ステップ310)検索サーバ130は、登録対象の文書ごとに文書IDを採番する。
分類したN−gramタームごとに、ハードディスク133上にある文字位置リスト135の末尾に記憶してある文字位置を追加する。このとき、文字位置は昇順で追加する。文字位置を追加するときは、N−gramタームごとに文字位置追加前の末尾の位置をオフセットとして記憶しておく(ステップ340)
120:通信回線
130:検索サーバ
131:全文検索装置
132:検索用メモリ
133:ハードディスク
134:文書IDリスト
135:文字位置リスト
136:N−gramインデクス
210:登録用のN−gramターム“あ”
211:登録用のN−gramターム“い”
134A:“あ”の文書IDリスト
134B:“め”の文書IDリスト
135A:“あ”の文字位置リスト
135B:“め”の文字位置リスト
510:検索ターム
520:検索タームを分割した検索用のN−gramターム
531:“あ”の文書IDリスト
532:“め”の文書IDリスト
533:基準文書IDリスト
534:“あ”の文字位置リスト
535:“め”の文字位置リスト
Claims (1)
- 複数の文書の各々を所定の文字数の登録用部分文字列に分割し、前記登録用部分文字列ごとに、当該登録用部分文字列の各文書中における文字の位置及び前記文字の出現個数を示す文字位置情報を記憶した文字位置リストと、前記文字位置リストにおける前記文字位置情報が記憶されている領域の開始位置に関する情報と各文書の文書IDとを対応付けて記憶した文書IDリストとを登録する手段と、
取得した検索タームを、前記登録用部分文字列の文字数と同数の検索用部分文字列に分割し、分割した前記検索用部分文字列の各々と同じ前記登録用部分文字列ごとに記憶されている前記文書IDリストのうち前記文書IDを互いに比較することにより、比較した全ての前記文書IDリストに共通して含まれる前記文書IDを全て抽出する手段と、
前記検索用部分文字列ごとに前記文書IDリストから、抽出された共通する前記文書IDの各々に対応付けられた前記文字位置情報が記憶されている領域の開始位置をそれぞれ取得する手段と、
取得した前記文字位置情報が記憶されている領域の前記開始位置に基づいて、前記検索用部分文字列ごとに前記文字位置リストから、前記文書中における、該当する文字の各位置のみをそれぞれ取得する手段と、
抽出された共通する文書IDの各々について、前記検索用部分文字列ごとに取得した前記文書中における文字の各位置に基づいて、分割前の検索タームと同じ順番で各検索用部分文字列が隣接して出現するか否かを判断し、各検索用部分文字列が隣接して出現する場合は当該文書IDの文書に当該検索タームが含まれると判断する手段と、を有する
全文検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013060248A JP6050165B2 (ja) | 2013-03-22 | 2013-03-22 | 全文検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013060248A JP6050165B2 (ja) | 2013-03-22 | 2013-03-22 | 全文検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014186482A JP2014186482A (ja) | 2014-10-02 |
JP6050165B2 true JP6050165B2 (ja) | 2016-12-21 |
Family
ID=51834012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013060248A Expired - Fee Related JP6050165B2 (ja) | 2013-03-22 | 2013-03-22 | 全文検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6050165B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3696745B2 (ja) * | 1999-02-09 | 2005-09-21 | 株式会社日立製作所 | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3832545B2 (ja) * | 1999-07-02 | 2006-10-11 | 株式会社日立製作所 | 文書検索方法および装置 |
JP2004013764A (ja) * | 2002-06-11 | 2004-01-15 | Ricoh Co Ltd | 全文検索装置、プログラム、及び記録媒体 |
JP5159277B2 (ja) * | 2007-11-30 | 2013-03-06 | 三菱電機株式会社 | N文字索引生成装置、文書検索装置、n文字索引生成方法、文書検索方法、n文字索引生成プログラムおよび文書検索プログラム |
JP5083367B2 (ja) * | 2010-04-27 | 2012-11-28 | カシオ計算機株式会社 | 検索装置、検索方法、ならびに、コンピュータプログラム |
JP2012198794A (ja) * | 2011-03-22 | 2012-10-18 | Casio Comput Co Ltd | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
-
2013
- 2013-03-22 JP JP2013060248A patent/JP6050165B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014186482A (ja) | 2014-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9195738B2 (en) | Tokenization platform | |
Wang et al. | Efficient approximate entity extraction with edit distance constraints | |
JP5437557B2 (ja) | 検索処理方法及び検索システム | |
US9031935B2 (en) | Search system, search method, and program | |
US9619585B2 (en) | Fast, scalable dictionary construction and maintenance | |
US9465860B2 (en) | Storage medium, trie tree generation method, and trie tree generation device | |
US20140122509A1 (en) | System, method, and computer program product for performing a string search | |
EP3422209B1 (en) | Character string distance calculation method and device | |
JP5930496B2 (ja) | レイアウトファイルにおける構造化情報の取得方法及び装置 | |
US20110258202A1 (en) | Concept extraction using title and emphasized text | |
JP2020123320A (ja) | インデックスを管理するための方法、装置、設備及び記憶媒体 | |
US8364684B2 (en) | Methods for prefix indexing | |
US9965546B2 (en) | Fast substring fulltext search | |
US10318388B2 (en) | Datasets profiling tools, methods, and systems | |
JP3497243B2 (ja) | 文書検索方法及び装置 | |
JP6212639B2 (ja) | 検索方法 | |
JP6050165B2 (ja) | 全文検索装置 | |
JP2004220176A (ja) | データベース検索システム、その検索方法及び検索に用いられるデータファイルの作成方法並びにデータファイルを格納した記録媒体 | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
JPH07146880A (ja) | 文書検索装置及び方法 | |
JP2008197700A (ja) | 文書管理システムおよび文書管理方法 | |
JP2002132789A (ja) | 文書検索方法 | |
JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JP5230664B2 (ja) | 類似語検索サーバ及び方法 | |
JP4634940B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150401 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150413 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150617 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160628 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6050165 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |