JP2006073035A - 電子化文書検索システム、検索装置、および記録媒体 - Google Patents
電子化文書検索システム、検索装置、および記録媒体 Download PDFInfo
- Publication number
- JP2006073035A JP2006073035A JP2005316003A JP2005316003A JP2006073035A JP 2006073035 A JP2006073035 A JP 2006073035A JP 2005316003 A JP2005316003 A JP 2005316003A JP 2005316003 A JP2005316003 A JP 2005316003A JP 2006073035 A JP2006073035 A JP 2006073035A
- Authority
- JP
- Japan
- Prior art keywords
- search
- index
- document
- word
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】索引語、索引語を含む登録文書の文書頻度および文書識別子、索引語の各登録文書内での文書内頻度および出現位置を記憶する索引記憶手段41と、登録文書をn(nは1以上の整数)文字の連鎖である索引語に分割する文書分割手段42と、検索語を覆う1つ以上のn文字連鎖である索引語に分割する検索語分割手段43と、検索語が2つ以上の索引語に分割されるときは複数の索引語の出現位置間の距離を指定する位置演算子で合成した検索条件木を生成する検索条件解析手段44と、検索条件木に基づき検索結果合成処理を実行し検索結果を得る検索条件評価手段45とを備えた。
【選択図】 図7
Description
図1は、この発明の実施の形態1にかかる電子化文書検索システム1のシステム構成の概略を示すブロック図である。この電子化文書検索システム1は、同図に示すように、例えば、クライアント2と、サーバ3とを通信回線4で接続したクライアント/サーバシステムとして実施することができる。
以下では、木構造23の2進木の構造を、“合成処理条件(合成される条件1、合成される条件2、…、合成される条件m)”の形式で記載する。
“0≦DF(#distance〔n〕(q1,q2))
≦min{DF(q1),DF(q2)}” …… (1)
となる。
複数の検索語の積集合や和集合を意味する集合演算(論理演算)も、一般的に文書検索に利用されている。そこで、以下では、このような論理演算を含んでいる場合の処理について説明する。
複数の検索語q1,q2,……の積集合を“#and(q1,q2,……)”で表記することにすると、この“#and(q1,q2,……)”を含む検索条件の解析は図5に示す例のようになる。
変換する。
min{DF(q1)+DF(q2)−N,0}
≦DF(#and(q1,q2))
≦min{DF(q1),DF(q2)} …… (2)
となる。
複数の検索語q1,q2,……の和集合を“#or(q1,q2,……)”で表記することにすると、この和集合による合成の場合は、“#and(q1,q2,……)”の場合とは逆に、文書頻度の大きい方から評価していった方が速くしぼり込めて、文書検索処理を高速化することができる(これにより、この発明の第2検索条件変換手段を実現している)。
max{DF(q1),DF(q2)−N,0}
≦DF(#or(q1,q2))
≦min{DF(q1)+DF(q2),N} …… (3)
となる。
複数の検索語q1,q2,……,qmがあって、検索語q1を含んでいるが、検索語q2,……,qmのいずれも含まないものを検索する、差集合による合成の場合を、“#and−not(q1,q2,……,qm)”と表記すると、これは“#or(q1,q2,……)”の検索結果の補集合と、q1の検索結果との積集合を取る論理演算と同義である。そこで、第2項以下を見積り文書頻度の大きい順に並べれば、早めに絞り込んで文書検索処理を高速化することができる(これにより、この発明の第2検索条件変換手段を実現している)。例えば、“#and−not(空乏層,化合物,GaAs,InP)”が検索条件に含まれていて、“DF(GaAs)<DF(InP)<DF(化合物)”であるときは、“#and−not(空乏層,化合物,InP,GaAs)”と並べ替える。
0≦DF(#and−not(q1,q2,……,qm))
≦DF(q1) …… (4)
となる。
複数の検索語が共通に出現する文書というだけではなく、関連して出現する文書を検索したいというユーザの要望に応じて、近接演算に対応した文書検索システムも用いられている。
前記した、“#distance〔n〕(q1,q2)”や“#window〔n〕(q1,q2)”の評価は、位置条件による吟味を必要とするため、位置条件による吟味を伴わない評価に比べ、時間を要する。そこで、不要な位置条件吟味を削減することができれば、文書検索処理を高速化することができる。“#and(#distance〔3〕(原子力,発電),事故)”を例にとると、“#distance〔3〕(原子力,発電)”から評価していくことになるが、この場合、“事故”を含まない文書に関しても“原子力”と“発電”の位置条件吟味(この発明の例では、“原子力”と“発電”が、この順に出現して、先頭が3文字ずれているか、すなわち、隣接しているか否かを吟味)を行なうこととなる。
検索条件の評価は、より具体的には、その条件を満たす文書の識別子14のリストを得るための処理(これを“retrieve()”と表記することにする)である。識別子14としては、整数や文字列などの全順序関係をもつものを用いるのが一般的であるので、識別子14の下限d0を与えて、その検索条件を満たす文書の識別子14のうちでd0以上で最小のものを得る(以下、“lower_bound(d0)”と表記する)。これにより、“retrieve()”を得る処理は、“lower_bound(d0)”を用いて実現することができる。
図7は、この発明の実施の形態2にかかる電子化文書検索システム40の概要を示す機能ブロック図である。
11 索引
13 索引語
14 識別子
15 出現位置
16 文書数
31 第1、第2予備照合記憶手段
40 電子化文書検索システム
41 索引記憶手段
42 文書分割手段
43 検索語分割手段
44 検索条件解析手段
45 検索条件評価手段
Claims (20)
- 電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶している索引記憶手段と、
前記登録文書を前記索引語に分割する文書分割手段と、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成する検索語分割手段と、
前記検索条件を解析して、この検索条件から、前記検索語分割手段が取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成する検索条件解析手段と、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得る検索条件評価手段とを備え、
nを1以上の整数としたときに、前記文書分割手段は前記登録文書をn文字の連鎖である前記索引語に分割し、前記検索語分割手段は前記検索語を覆う1つ以上のn文字連鎖である前記索引語に分割し、前記検索条件解析手段は前記検索語が2つ以上の前記索引語に分割されるときはこの複数の索引語の出現位置間の距離を指定する位置演算子で合成するものである電子化文書検索システム。 - nが2以上で検索語がn文字未満の場合、検索語分割手段はm文字目(mは1以上で(n−m+1)以下である整数)から検索語と一致するすべての索引語を索引から取り出し、検索条件解析手段は検索語分割手段が取り出した前記複数の索引語を複数の検索結果の和集合をとる和集合演算子で合成するものである請求項1に記載の電子化文書検索システム。
- nが2以上で検索語がn文字以上の場合、検索語分割手段は検索語を覆う最小個数の索引語に分割するものである請求項1に記載の電子化文書検索システム。
- 最小個数の索引語に分割できる場合が複数あるときは、検索語分割手段は検索語を覆う最小個数の各索引語の文書頻度の合計が最小となるように検索語を索引語に分割するものである請求項3に記載の電子化文書検索システム。
- 電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶している索引記憶手段と、
前記登録文書を前記索引語に分割する文書分割手段と、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成する検索語分割手段と、
前記検索条件を解析して、この検索条件から、前記検索語分割手段が取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成する検索条件解析手段と、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得る検索条件評価手段とを備え、
前記検索語分割手段は前記分割で得た複数の索引語のうち前記検索語を覆う他の索引語に包含されるものは除外するものであり、前記検索条件解析手段は前記検索語が2つ以上の前記索引語に分割されるときはこの複数の索引語の出現位置間の距離を指定する位置演算子で合成するものである電子化文書検索システム。 - 検索語分割手段は検索語を覆う最小個数の索引語に分割するものである請求項5に記載の電子化文書検索システム。
- 最小個数の索引語に分割できる場合が複数あるときは、検索語分割手段は検索語を覆う最小個数の各索引語の文書頻度の合計が最小となるように検索語を索引語に分割するものである請求項6に記載の電子化文書検索システム。
- 電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶している索引記憶手段と、
前記登録文書を前記索引語に分割する文書分割手段と、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成する検索語分割手段と、
前記検索条件を解析して、この検索条件から、前記検索語分割手段が取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成する検索条件解析手段と、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得る検索条件評価手段とを備え、
前記検索語分割手段が前記検索語を2つ以上の前記索引語に分割する場合は、前記検索条件解析手段は、これら複数の索引語を複数の検索結果の積集合をとる積集合演算子で合成した条件木である候補決定用条件木と、前記複数の索引語から検索語を覆う最小個数のものを選択してそれを出現位置間の距離を指定する位置演算子で合成した条件木である詳細判定用条件木とを作成し、前記検索条件評価手段は、まず前記候補決定用条件木の前記検索結果合成処理を実行して前記複数の登録文書から該当文書を検索し、次に、この検索後の登録文書を対象に前記詳細判定用条件木の前記検索結果合成処理を実行して前記検索結果を得るものである電子化文書検索システム。 - 電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶している索引記憶手段と、
前記登録文書を前記索引語に分割する文書分割手段と、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成する検索語分割手段と、
前記検索条件を解析して、この検索条件から、前記検索語分割手段が取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成する検索条件解析手段と、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得る検索条件評価手段とを備え、
前記検索語分割手段が前記検索語を2つ以上の前記索引語に分割する場合は、前記検索条件解析手段は、これら複数の索引語を複数の検索結果の積集合をとる積集合演算子で合成した条件木である候補決定用条件木と、前記複数の索引語から前記検索語を覆いかつ索引語ごとの前記文書頻度の合計が最小となるものを選択してそれを出現位置間の距離を指定する位置演算子で合成した条件木である詳細判定用条件木とを作成し、前記検索条件評価手段は、まず前記候補決定用条件木の前記検索結果合成処理を実行して前記複数の登録文書から該当文書を検索し、次に、この検索後の登録文書を対象に前記詳細判定用条件木の前記検索結果合成処理を実行して前記検索結果を得るものである電子化文書検索システム。 - 電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報である転置リストを対応付けて記憶している索引記憶手段と、
前記登録文書を前記索引語に分割する文書分割手段と、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成する検索語分割手段と、
前記検索条件を解析して、この検索条件から、前記検索語分割手段が取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成する検索条件解析手段と、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得る検索条件評価手段とを備え、
前記索引は、固定長のブロックであるページをファイルの読み書きの単位としていて、前記転置リストの大きさが前記ページの大きさより所定程度小さいときは1つのページに1つ以上の転置リストを格納し、前記転置リストの大きさが前記ページより大きいときは1つの転置リストを複数のページに格納しているものである電子化文書検索システム。 - 与えられた検索条件に従って、電子化されて所定の記憶装置に登録されている複数の文書中から所望の検索語を含む文書の検索を前記コンピュータに実行させるためのプログラムを記録した記録媒体であって、
電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶して、
前記登録文書を前記索引語に分割し、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成し、
前記検索条件を解析して、この検索条件から、取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成し、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得るものであり、
nを1以上の整数としたときに、前記文書分割手段は前記登録文書をn文字の連鎖である前記索引語に分割し、前記検索語分割手段は前記検索語を覆う1つ以上のn文字連鎖である前記索引語に分割し、前記検索条件解析手段は前記検索語が2つ以上の前記索引語に分割されるときはこの複数の索引語の出現位置間の距離を指定する位置演算子で合成する、
ことをコンピュータに実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。 - 与えられた検索条件に従って、電子化されて所定の記憶装置に登録されている複数の文書中から所望の検索語を含む文書の検索を前記コンピュータに実行可能とするためのプログラムを記録した記録媒体であって、
電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶して、
前記登録文書を前記索引語に分割し、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成し、
前記検索条件を解析して、この検索条件から、取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成し、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得るものであり、
前記分割で得た複数の索引語のうち前記検索語を覆う他の索引語に包含されるものは除外するものであり、前記検索語が2つ以上の前記索引語に分割されるときはこの複数の索引語の出現位置間の距離を指定する位置演算子で合成する、
ことをコンピュータに実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。 - 与えられた検索条件に従って、電子化されて所定の記憶装置に登録されている複数の文書中から所望の検索語を含む文書の検索を前記コンピュータに実行可能とするためのプログラムを記録した記録媒体であって、
電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶して、
前記登録文書を前記索引語に分割し、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成し、
前記検索条件を解析して、この検索条件から、取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成し、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得るものであり、
前記検索語を2つ以上の前記索引語に分割する場合は、これら複数の索引語を複数の検索結果の積集合をとる積集合演算子で合成した条件木である候補決定用条件木と、前記複数の索引語から検索語を覆う最小個数のものを選択してそれを出現位置間の距離を指定する位置演算子で合成した条件木である詳細判定用条件木とを作成し、まず前記候補決定用条件木の前記検索結果合成処理を実行して前記複数の登録文書から該当文書を検索し、次に、この検索後の登録文書を対象に前記詳細判定用条件木の前記検索結果合成処理を実行して前記検索結果を得る、
ことをコンピュータに実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。 - 与えられた検索条件に従って、電子化されて所定の記憶装置に登録されている複数の文書中から所望の検索語を含む文書の検索を前記コンピュータに実行可能とするためのプログラムを記録した記録媒体であって、
電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶して、
前記登録文書を前記索引語に分割し、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成し、
前記検索条件を解析して、この検索条件から、取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成し、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得るものであり、
前記検索語を2つ以上の前記索引語に分割する場合は、これら複数の索引語を複数の検索結果の積集合をとる積集合演算子で合成した条件木である候補決定用条件木と、前記複数の索引語から前記検索語を覆いかつ索引語ごとの前記文書頻度の合計が最小となるものを選択してそれを出現位置間の距離を指定する位置演算子で合成した条件木である詳細判定用条件木とを作成し、まず前記候補決定用条件木の前記検索結果合成処理を実行して前記複数の登録文書から該当文書を検索し、次に、この検索後の登録文書を対象に前記詳細判定用条件木の前記検索結果合成処理を実行して前記検索結果を得る、
ことをコンピュータに実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。 - 与えられた検索条件に従って、電子化されて所定の記憶装置に登録されている複数の文書中から所望の検索語を含む文書の検索を前記コンピュータに実行可能とするためのプログラムを記録した記録媒体であって、
電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶して、
前記登録文書を前記索引語に分割し、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成し、
前記検索条件を解析して、この検索条件から、取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成し、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得るものであり、
前記索引は、固定長のブロックであるページをファイルの読み書きの単位としていて、前記転置リストの大きさが前記ページの大きさより所定程度小さいときは1つのページに複数の転置リストを格納し、前記転置リストの大きさが前記ページより大きいときは1つの転置リストを複数のページに格納する、
ことをコンピュータに実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。 - 電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶している索引記憶手段と、
前記登録文書を前記索引語に分割する文書分割手段と、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成する検索語分割手段と、
前記検索条件を解析して、この検索条件から、前記検索語分割手段が取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成する検索条件解析手段と、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得る検索条件評価手段とを備え、
nを1以上の整数としたときに、前記文書分割手段は前記登録文書をn文字の連鎖である前記索引語に分割し、前記検索語分割手段は前記検索語を覆う1つ以上のn文字連鎖である前記索引語に分割し、前記検索条件解析手段は前記検索語が2つ以上の前記索引語に分割されるときはこの複数の索引語の出現位置間の距離を指定する位置演算子で合成するものである検索装置。 - 電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶している索引記憶手段と、
前記登録文書を前記索引語に分割する文書分割手段と、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成する検索語分割手段と、
前記検索条件を解析して、この検索条件から、前記検索語分割手段が取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成する検索条件解析手段と、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得る検索条件評価手段とを備え、
前記検索語分割手段は前記分割で得た複数の索引語のうち前記検索語を覆う他の索引語に包含されるものは除外するものであり、前記検索条件解析手段は前記検索語が2つ以上の前記索引語に分割されるときはこの複数の索引語の出現位置間の距離を指定する位置演算子で合成するものである検索装置。 - 電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶している索引記憶手段と、
前記登録文書を前記索引語に分割する文書分割手段と、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成する検索語分割手段と、
前記検索条件を解析して、この検索条件から、前記検索語分割手段が取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成する検索条件解析手段と、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得る検索条件評価手段とを備え、
前記検索語分割手段が前記検索語を2つ以上の前記索引語に分割する場合は、前記検索条件解析手段は、これら複数の索引語を複数の検索結果の積集合をとる積集合演算子で合成した条件木である候補決定用条件木と、前記複数の索引語から検索語を覆う最小個数のものを選択してそれを出現位置間の距離を指定する位置演算子で合成した条件木である詳細判定用条件木とを作成し、前記検索条件評価手段は、まず前記候補決定用条件木の前記検索結果合成処理を実行して前記複数の登録文書から該当文書を検索し、次に、この検索後の登録文書を対象に前記詳細判定用条件木の前記検索結果合成処理を実行して前記検索結果を得るものである検索装置。 - 電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報を対応付けて記憶している索引記憶手段と、
前記登録文書を前記索引語に分割する文書分割手段と、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成する検索語分割手段と、
前記検索条件を解析して、この検索条件から、前記検索語分割手段が取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成する検索条件解析手段と、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得る検索条件評価手段とを備え、
前記検索語分割手段が前記検索語を2つ以上の前記索引語に分割する場合は、前記検索条件解析手段は、これら複数の索引語を複数の検索結果の積集合をとる積集合演算子で合成した条件木である候補決定用条件木と、前記複数の索引語から前記検索語を覆いかつ索引語ごとの前記文書頻度の合計が最小となるものを選択してそれを出現位置間の距離を指定する位置演算子で合成した条件木である詳細判定用条件木とを作成し、前記検索条件評価手段は、まず前記候補決定用条件木の前記検索結果合成処理を実行して前記複数の登録文書から該当文書を検索し、次に、この検索後の登録文書を対象に前記詳細判定用条件木の前記検索結果合成処理を実行して前記検索結果を得るものである検索装置。 - 電子化された複数の登録文書中から所望の検索語を含む文書を検索するための索引を、この索引の見出しとして登録される各索引語に、この索引語を含んでいる前記登録文書の数である文書頻度、前記索引語を含む文書の文書識別子、前記索引語の前記各登録文書内での出現回数である文書内頻度および前記索引語の前記各登録文書内での出現位置の各情報である転置リストを対応付けて記憶している索引記憶手段と、
前記登録文書を前記索引語に分割する文書分割手段と、
与えられた検索条件中の検索語を前記索引語に分割し、また、前記検索語中に前記索引語が1つも含まれていないときは該当文書がない旨を示す空文書集合を作成する検索語分割手段と、
前記検索条件を解析して、この検索条件から、前記検索語分割手段が取得した前記索引語と前記空文書集合とのうちの少なくとも一方を演算子で合成した検索条件木を生成する検索条件解析手段と、
この検索条件木に基づき、前記索引から前記索引語に関する前記情報を取得して検索結果合成処理を実行し検索結果を得る検索条件評価手段とを備え、
前記索引は、固定長のブロックであるページをファイルの読み書きの単位としていて、前記転置リストの大きさが前記ページの大きさより所定程度小さいときは1つのページに1つ以上の転置リストを格納し、前記転置リストの大きさが前記ページより大きいときは1つの転置リストを複数のページに格納しているものである検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005316003A JP4011595B2 (ja) | 1998-02-02 | 2005-10-31 | 電子化文書検索システムおよび記録媒体 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2084098 | 1998-02-02 | ||
JP2005316003A JP4011595B2 (ja) | 1998-02-02 | 2005-10-31 | 電子化文書検索システムおよび記録媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10256974A Division JPH11282880A (ja) | 1998-02-02 | 1998-09-10 | 電子化文書検索システムおよび記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006073035A true JP2006073035A (ja) | 2006-03-16 |
JP4011595B2 JP4011595B2 (ja) | 2007-11-21 |
Family
ID=36153514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005316003A Expired - Lifetime JP4011595B2 (ja) | 1998-02-02 | 2005-10-31 | 電子化文書検索システムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4011595B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8898555B2 (en) | 2007-03-26 | 2014-11-25 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for managing structured documents |
US9600565B2 (en) | 2010-10-15 | 2017-03-21 | Nec Corporation | Data structure, index creation device, data search device, index creation method, data search method, and computer-readable recording medium |
CN112236768A (zh) * | 2018-06-04 | 2021-01-15 | 环球娱乐株式会社 | 搜索文本生成***和搜索文本生成方法 |
-
2005
- 2005-10-31 JP JP2005316003A patent/JP4011595B2/ja not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8898555B2 (en) | 2007-03-26 | 2014-11-25 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for managing structured documents |
US9600565B2 (en) | 2010-10-15 | 2017-03-21 | Nec Corporation | Data structure, index creation device, data search device, index creation method, data search method, and computer-readable recording medium |
CN112236768A (zh) * | 2018-06-04 | 2021-01-15 | 环球娱乐株式会社 | 搜索文本生成***和搜索文本生成方法 |
CN112236768B (zh) * | 2018-06-04 | 2024-07-16 | 环球娱乐株式会社 | 搜索文本生成***和搜索文本生成方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4011595B2 (ja) | 2007-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8037035B2 (en) | Apparatus for searching and managing compressed files | |
US5680612A (en) | Document retrieval apparatus retrieving document data using calculated record identifier | |
US6678687B2 (en) | Method for creating an index and method for searching an index | |
US7880648B2 (en) | Information processing apparatus, information processing method, and computer product | |
US6662189B2 (en) | Method of performing data mining tasks for generating decision tree and apparatus therefor | |
US20090094262A1 (en) | Automatic Generation Of Ontologies Using Word Affinities | |
US8866647B2 (en) | Computer product, information processing apparatus, and information search apparatus | |
US20100005058A1 (en) | Computer product, information retrieving apparatus, and information retrieving method | |
US6735600B1 (en) | Editing protocol for flexible search engines | |
US6714927B1 (en) | Apparatus for retrieving documents | |
JP2888188B2 (ja) | 情報検索装置 | |
US6721753B1 (en) | File processing method, data processing apparatus, and storage medium | |
JP4011595B2 (ja) | 電子化文書検索システムおよび記録媒体 | |
JPH08329116A (ja) | 構造化文書検索方法 | |
JP5812007B2 (ja) | インデックス作成装置、データ検索装置、インデックス作成方法、データ検索方法、インデックス作成プログラムおよびデータ検索プログラム | |
JPH11282880A (ja) | 電子化文書検索システムおよび記憶媒体 | |
JPH08190571A (ja) | 文書検索方法 | |
JP2009245181A (ja) | 分散型全文検索システム、分散型全文検索方法、分散型全文検索プログラム及びそのプログラムを記録した記録媒体 | |
JPH09212523A (ja) | 全文検索方法 | |
JPH1115845A (ja) | 情報検索方法および装置と情報検索プログラムを格納した記録媒体 | |
US8311994B2 (en) | Run total encoded data processing | |
JP3797143B2 (ja) | バルクロードシステム,バルクロード方法及びバルクロードプログラム | |
CN113918684A (zh) | 一种信息搜索方法、装置及设备 | |
CN114238257A (zh) | 日志处理方法、日志处理装置及电子设备 | |
JPH09212524A (ja) | 全文検索方法および電子化辞書装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070424 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070905 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100914 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110914 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110914 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120914 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130914 Year of fee payment: 6 |
|
EXPY | Cancellation because of completion of term |