JPH11282880A - Electronic document retrieval system and storage medium - Google Patents

Electronic document retrieval system and storage medium

Info

Publication number
JPH11282880A
JPH11282880A JP10256974A JP25697498A JPH11282880A JP H11282880 A JPH11282880 A JP H11282880A JP 10256974 A JP10256974 A JP 10256974A JP 25697498 A JP25697498 A JP 25697498A JP H11282880 A JPH11282880 A JP H11282880A
Authority
JP
Japan
Prior art keywords
search
document
index
word
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10256974A
Other languages
Japanese (ja)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Toru Matsuda
透 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10256974A priority Critical patent/JPH11282880A/en
Publication of JPH11282880A publication Critical patent/JPH11282880A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To increase the processing speed of entire retrieval processing by eliminating unnecessary index collation through an appropriate sequence of processing of the index collation in an electronic document retrieval system. SOLUTION: An accepted retrieval condition is converted into composite retrieval of two pieces of tree structure 23 in which retrieval by the index collation regarding each of two new retrieving words is difined as lower nodes 21 and a combined processing conditions 24 of both lower nodes 21 to be restricted by a positional condition of both new retrieving words by comparison of retrieval results of both lower nodes 21 are defined as upper nodes 22. And the upper node is processed according to the retrieval condition after conversion. Namely, identifiers of each of the new retrieving words and information on an appearing position are acquired and compared with each other, when the same identifier exist between the new retrieval words, the appearing positions of the new retrieval words are compared in a document corresponding to the identifier, the appearing positions are judged whether they coincide with the positional condition of the upper nodes 22 or not, display of the document to coincide with the positional condition in all the upper nodes 22 is outputted as the retrieval result to a client. Comparison between the appearing positions is successively performed from the word with the least document frequency.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、電子化された文
書群を索引登録しておき、指定した文字列の検索語を含
む文書を検索する電子化文書検索システムおよび記憶媒
体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an electronic document search system and a storage medium for indexing a group of electronic documents and searching for a document containing a search term of a designated character string.

【0002】[0002]

【従来の技術】電子化文書検索システムとしては、従来
のキーワード検索方式の他に、近年の電子計算機の高速
化と記憶装置の大容量化により、全文検索方式も用いら
れている。この全文検索方式では、基本的には検索の際
に登録されている全文書を走査するものであるため、大
量の文書に対しては膨大な検索処理時間を要することに
鑑み、索引構造の工夫や検索処理の手法の工夫による処
理の高速化が試みられている。
2. Description of the Related Art In addition to the conventional keyword search method, a full-text search method has been used as a digitized document search system in recent years due to the recent increase in the speed of electronic computers and the increase in storage capacity. In this full-text search method, since all registered documents are scanned at the time of search, the index structure is devised in view of the fact that a huge amount of search processing time is required for a large number of documents. Attempts have been made to speed up the processing by devising techniques for searching and searching.

【0003】この索引構造としては、索引語に文書の識
別子のみを対応付けて記憶する方式が従来から行なわれ
ているが、一般には、検索語を構成する文字列を複数の
索引語に分解して索引照合を行なうため検索ノイズ(過
剰ヒット)が避けられず、このノイズの除去のため、全
文書の走査によるあと処理を必要とし、処理の高速化に
限界があった。
Conventionally, as this index structure, a method of storing only an identifier of a document in association with an index word has been used. Generally, a character string constituting a search word is decomposed into a plurality of index words. In order to perform index matching, search noise (excessive hits) is unavoidable. To remove this noise, post-processing by scanning all documents is required, and there is a limit to speeding up the processing.

【0004】そこで、索引語の各文書における出現位置
などの統計情報も索引にもたせる方式も提案されてい
る。例えば、「論文 日本語文書用高速全文検索の一手
法」(電子情報通信学会論文誌 D−1 Vol.J7
5−D−1 No.9 836〜846頁 1992年
9月)には、文字種に応じて1文字または連接2文字を
索引語とする技術が開示されている(以下、従来技術1
という)。また、特開平7−56944号公報には、文
字種によらず連接n文字(n≧2)を索引語とする技術
が開示されている(以下、従来技術2という)。
[0004] Therefore, a method has been proposed in which statistical information such as the appearance position of an index term in each document is also given to the index. For example, “A method of high-speed full-text search for papers and Japanese documents” (Transactions of the Institute of Electronics, Information and Communication Engineers, D-1 Vol. J7)
5-D-1 No. 9 pages 836 to 846 (September 1992) discloses a technique in which one character or two concatenated characters is used as an index word according to the character type (hereinafter referred to as Conventional Technique 1).
). Japanese Patent Application Laid-Open No. 7-56944 discloses a technique in which consecutive n characters (n ≧ 2) are used as an index word regardless of the character type (hereinafter referred to as Conventional Technique 2).

【0005】[0005]

【発明が解決しようとする課題】しかしながら、従来技
術1、2では、索引語が短いと頻出索引語が多くなって
検索処理に要する時間が長くなる一方、索引語が長いと
索引が非常に大きくなるという不具合がある。
However, in the prior arts 1 and 2, when the index term is short, the frequent index terms increase and the time required for the search process increases. On the other hand, when the index terms are long, the index becomes very large. There is a problem that becomes.

【0006】この発明の目的は、検索処理全体の処理速
度を向上などを図った電子化文書検索を可能とすること
にある。
SUMMARY OF THE INVENTION It is an object of the present invention to enable a digitized document search to improve the processing speed of the entire search process.

【0007】[0007]

【課題を解決するための手段】請求項1に記載の発明
は、電子化された複数の文書が登録される文書登録手段
と、この複数の文書中から所望の検索語を含む文書を検
索するための索引を、この索引に登録される各索引語
に、この索引語が前記複数の文書中での出現位置と対応
付けて記憶していて、前記出現位置は前記索引語が出現
する前記文書の識別子および当該文書中での出現位置で
ある索引記憶手段と、前記検索の検索条件を入力する入
力装置と、前記索引に対し検索語の索引照合を行なう索
引照合手段と、この索引照合により、前記検索条件中の
検索語を覆う少なくとも一つの前記索引語を取得し、こ
の索引語の各々を検索語として前記複数の文書中での出
現位置を検索する中間検索手段と、この各検索語につい
ての検索結果から、各検索語の文書頻度を見積る文書頻
度見積手段と、前記中間検索手段で取得した検索語が複
数あるときは、前記検索条件を、2つの検索語の各々に
ついての前記索引照合による検索を下位ノードに、この
両下位ノードの検索結果の比較による両検索語の位置条
件で限定する前記両下位ノードの合成処理を上位ノード
にする複合検索を階層的に連ねた2進木構造に変換する
第1検索条件変換手段と、前記上位ノードの処理を実行
して前記複合検索の結果を作成し、前記上位ノードの処
理は前記各検索語間の出現位置の比較を前記文書頻度の
小さいものから順に行なうものである複合検索手段と、
この検索の結果を出力する出力装置と、を備えている。
According to a first aspect of the present invention, there is provided a document registration unit in which a plurality of digitized documents are registered, and a search for a document including a desired search word from the plurality of documents. For each index word registered in the index, the index word is stored in association with the occurrence position in the plurality of documents, and the occurrence position is the document in which the index word appears. Index storage means that is an identifier and an appearance position in the document, an input device for inputting search conditions for the search, index matching means for performing index matching of a search term with respect to the index, and this index matching, An intermediate search unit that acquires at least one index word covering the search word in the search condition, and searches for an appearance position in the plurality of documents using each of the index words as a search word; From the search results of When there are a plurality of search terms obtained by the document frequency estimating means for estimating the document frequency of the search word and the intermediate search means, the search condition is set to the lower node by performing the search by the index matching for each of the two search terms. A first search for converting a composite search in which the synthesis processing of the both lower nodes is limited to a position condition of both search words based on a comparison of the search results of both lower nodes as an upper node into a hierarchically connected binary tree structure A condition conversion means for executing the processing of the upper node to generate a result of the compound search, wherein the processing of the upper node performs comparison of appearance positions between the search terms in ascending order of the document frequency Compound search means,
And an output device for outputting a result of the search.

【0008】従って、下位ノードの各々の文書頻度を見
積ることで、検索条件評価の中間結果を得られれば、文
書頻度の小さい順に評価を行なうことで、この中間結果
を早めにしぼり込める。
Accordingly, if an intermediate result of the search condition evaluation can be obtained by estimating the document frequency of each lower node, the intermediate result can be narrowed down earlier by evaluating the document in ascending document frequency.

【0009】請求項2に記載の発明は、第1検索条件変
換手段は、文書頻度の小さい下位ノードの順に2進木に
変換し、この変換により文書頻度の小さい下位ノードほ
ど前記木構造の下層となるようにする。
According to a second aspect of the present invention, the first search condition conversion means converts the lower node having the lower document frequency into a binary tree in the order of the lower nodes. So that

【0010】従って、下位ノードは、下層で末端ノード
に近いほど文書頻度が小さいので、さらに中間結果を早
めにしぼり込むことができる。
Therefore, the lower the lower node is, the lower the layer is and the closer to the terminal node, the lower the document frequency is, so that the intermediate result can be narrowed down further.

【0011】請求項3に記載の発明は、第1検索条件変
換手段は、中間検索手段による検索で検索条件中の検索
語を覆う索引語がなかったときは、常に空の検索結果を
返す末端ノードに変換する。
According to a third aspect of the present invention, the first search condition conversion means always returns an empty search result when there is no index word covering the search word in the search condition in the search by the intermediate search means. Convert to a node.

【0012】従って、与えられた検索語が索引登録され
ている索引語で覆うことができないときは、検索結果は
必ず空になるため、2進木構造に変換せず、検索条件の
評価の際には直ちに空の検索結果を返す末端ノードに変
換することができる。
Therefore, when a given search word cannot be covered by an index word registered in the index, the search result is always empty, and is not converted into a binary tree structure. Can be immediately converted to a terminal node that returns an empty search result.

【0013】請求項4に記載の発明は、両検索語の検索
を下位ノードに、この下位ノードの積集合を上位ノード
にする複合検索を階層的に連ねた2進木構造に変換し、
この変換は文書頻度の小さい下位ノードの順に2進木に
変換し、文書頻度の小さい下位ノードほど前記木構造の
下層となるように行なう第1予備変換手段を備えてい
る。
According to a fourth aspect of the present invention, a search of both search terms is converted to a lower node, and a complex search in which an intersection of the lower nodes is set to an upper node is converted into a hierarchically connected binary tree structure.
This conversion is provided with a first preliminary conversion means for converting a binary tree into a binary tree in the order of the lower document frequency, so that the lower node with the lower document frequency is lower in the tree structure.

【0014】従って、この2進木構造を末端ノードから
順に評価していくことで予め粗い評価を行なって検索条
件に該当する文書数を絞っておくことが可能となる。
Therefore, by evaluating this binary tree structure in order from the terminal node, it is possible to perform rough evaluation in advance and to narrow down the number of documents corresponding to the search condition.

【0015】請求項5に記載の発明は、第1予備変換手
段による変換後の木構造での上位ノードの処理を前記木
構造中での最下位層から上位層に向けて順次実行して複
合検索の結果を作成し、前記上位ノードの処理は各検索
語間の出現位置の比較を前記文書頻度の小さいものから
順に行なうものである第1予備検索手段を備え、複合検
索手段は、上位ノードの処理を前記第1予備検索手段に
よる検索で限定された前記各検索語の出現位置について
行なう。
According to a fifth aspect of the present invention, the processing of the upper node in the tree structure after the conversion by the first preliminary conversion means is sequentially executed from the lowest layer to the upper layer in the tree structure to perform the compounding. A first preliminary search unit for generating a search result, wherein the processing of the upper node performs a comparison of the appearance position between the search terms in ascending order of the document frequency; Is performed for the occurrence position of each of the search terms limited by the search by the first preliminary search means.

【0016】従って、第1予備変換手段による変換後の
2進木構造を用いて、粗い評価を行ない、その後、その
結果に基づいて複合検索手段による正確な評価を行なう
ことができる。
Therefore, coarse evaluation is performed using the binary tree structure converted by the first preliminary conversion means, and then accurate evaluation can be performed by the complex search means based on the result.

【0017】請求項6に記載の発明は、検索条件に複数
の検索語の論理演算を含んでいるときは、この各検索語
を覆う索引語の各々を検索語として文書頻度見積手段で
見積もった文書頻度に基づいて、前記各検索語の検索を
下位ノードに、この下位ノードの前記論理演算を上位ノ
ードにする複合検索を階層的に連ねた木構造に変換し、
さらに論理演算による検索条件が他の論理演算で他の検
索条件と結合される入れ子構造になっている場合には、
この入れ子構造の内側の論理演算を下位ノードに、その
外側論理演算を上位ノードにする木構造に変換する第2
検索条件変換手段を備えている。
In the invention according to claim 6, when the search condition includes a logical operation of a plurality of search terms, each of the index words covering each of the search terms is estimated by the document frequency estimating means as a search term. Based on the document frequency, the search of each of the search terms is converted to a lower node, and a complex search in which the logical operation of the lower node is set to an upper node is converted into a tree structure that is hierarchically connected,
Furthermore, when the search condition by the logical operation has a nested structure that is combined with another search condition by another logical operation,
A second structure for converting a logical operation inside the nested structure into a lower node and a logical operation outside the nested structure into an upper node is a second tree structure.
A search condition conversion unit is provided.

【0018】従って、検索条件に複数の検索語の論理演
算を含んでいるときに、文書頻度に従い木構造を組んで
いって、下位ノードの端から評価していくことが可能と
なる。
Therefore, when the search condition includes a logical operation of a plurality of search words, it is possible to construct a tree structure according to the document frequency and evaluate from the end of the lower node.

【0019】請求項7に記載の発明は、第2検索条件変
換手段は、論理演算が複数の検索結果の積集合を作る積
集合演算であるときには、下位ノードを端から評価すれ
ば自ずと文書頻度の小さい順に評価することとなるよう
に、文書頻度の小さい順に前記下位ノードを整列する。
According to a seventh aspect of the present invention, when the logical operation is a product set operation for forming a product set of a plurality of search results, the second search condition conversion means naturally evaluates the lower node from the end. The lower nodes are arranged in ascending order of document frequency so that evaluation is performed in ascending order.

【0020】従って、下位ノードの端から評価していく
ことにより、論理演算が複数の検索結果の積集合の場合
に早めに最終結果に近づくことができるように小さい文
書頻度順に評価することができる。
Therefore, by evaluating from the end of the lower node, the evaluation can be performed in the order of small document frequency so that the logical operation can approach the final result earlier when the logical operation is the intersection of a plurality of search results. .

【0021】請求項8に記載の発明は、第2検索条件変
換手段は、積集合演算で結ばれている複数の検索条件が
入れ子構造になっている場合には、この入れ子構造を外
して前記検索条件を木構造に変換する。
In a preferred embodiment of the present invention, the second search condition conversion means removes the nested structure when the plurality of search conditions connected by the intersection operation have a nested structure. Convert search conditions to a tree structure.

【0022】従って、積集合で結ばれる複数の検索条件
が入れ子構造になっているときは、その入れ子構造を解
いて平坦化しても論理演算の意味に変動はなく、下位ノ
ードの端から評価していけるように並べ替えることがで
きる。
Therefore, when a plurality of search conditions connected by an intersection have a nested structure, the meaning of the logical operation does not change even if the nested structure is solved and flattened. You can sort them as you like.

【0023】請求項9に記載の発明は、第2検索条件変
換手段は、積集合演算で結ばれている検索条件のうち
に、常に空の検索結果を返す末端ノードに変換されるも
のが少なくとも1つあったときは、前記積集合演算全体
を、木構造に変換するのに代えて、常に空の検索結果を
返す末端ノードに変換する。
According to a ninth aspect of the present invention, the second search condition conversion means may include at least one of the search conditions connected by the intersection operation that is converted to a terminal node that always returns an empty search result. If there is one, the whole intersection operation is converted into a terminal node that always returns an empty search result instead of converting it into a tree structure.

【0024】従って、積集合演算で結ばれている検索条
件のうちに、常に空の検索結果を返す末端ノードに変換
されるものが少なくとも1つあったときは、合成の結果
も空であるから、木構造に変換せず、検索条件の評価の
際には直ちに空の検索結果を返す末端ノードに変換する
ことができる。
Therefore, if at least one of the search conditions connected by the intersection operation is converted to a terminal node that always returns an empty search result, the result of the synthesis is also empty. , Without converting to a tree structure, it can be immediately converted to a terminal node that returns an empty search result when the search condition is evaluated.

【0025】請求項10に記載の発明は、第2検索条件
変換手段は、論理演算が複数の検索結果の和集合を作る
和集合演算であるときには、下位ノードを端から評価す
れば自ずと文書頻度の大きい順に評価することとなるよ
うに、文書頻度の大きい順に下位ノードを整列する。
According to a tenth aspect of the present invention, when the logical operation is a union operation for forming a union of a plurality of search results, the second search condition conversion means naturally evaluates the lower node from the end and naturally determines the document frequency. The lower nodes are arranged in descending order of document frequency so that evaluation is performed in descending order of document frequency.

【0026】従って、下位ノードの端から評価していく
ことにより、論理演算が複数の検索結果の和集合を作る
和集合演算の場合に、早めに最終結果に近づくことがで
きるように大きい文書頻度順に評価することができる。
Therefore, by evaluating from the end of the lower node, when the logical operation is a union operation for forming a union of a plurality of search results, a large document frequency is used so that the final result can be approached earlier. Can be evaluated in order.

【0027】請求項11に記載の発明は、第2検索条件
変換手段は、和集合演算で結ばれている複数の検索条件
が入れ子構造になっている場合には、この入れ子構造を
外して前記検索条件を木構造に変換する。
According to an eleventh aspect of the present invention, when the plurality of search conditions connected by the union operation have a nested structure, the second search condition conversion means removes the nested structure and removes the nested structure. Convert search conditions to a tree structure.

【0028】従って、和集合演算で結ばれる複数の検索
条件が入れ子構造になっているときは、その入れ子構造
を解いて平坦化しても論理演算の意味に変動はなく、下
位ノードの端から評価していけるように並べ替えること
ができる。
Therefore, when a plurality of search conditions connected by the union operation have a nested structure, the meaning of the logical operation does not change even if the nested structure is solved and flattened, and the evaluation is performed from the end of the lower node. You can sort them as you like.

【0029】請求項12に記載の発明は、第2検索条件
変換手段は、論理演算が、1つの検索条件による検索結
果から別の1つ以上の検索条件による検索結果に含まれ
るものを除外する差集合演算であるときは、前記論理演
算で結ばれている複数の検索語については、この各検索
語を覆う索引語の各々を検索語として文書頻度見積手段
で見積もった文書頻度に基づいて、前記各検索語の検索
を下位ノードに、この下位ノードの前記論理演算を上位
ノードにする複合検索を階層的に連ねた木構造に変換
し、さらに論理演算による検索条件が他の論理演算で他
の検索条件と結合される入れ子構造になっている場合に
は、この入れ子構造の内側の論理演算を下位ノードに、
その外側論理演算を上位ノードにする木構造に変換す
る。
In a twelfth aspect of the present invention, the second search condition conversion means excludes a logical operation included in a search result based on one or more other search conditions from a search result based on one search condition. When the difference set operation, for a plurality of search words connected by the logical operation, based on the document frequency estimated by the document frequency estimating means as each of the index words covering each search word as search words, The search for each of the search terms is converted to a lower node, and the complex search in which the logical operation of the lower node is set to an upper node is converted into a hierarchically connected tree structure. If the nested structure is combined with the search condition of, the logical operation inside this nested structure is
The outer logical operation is converted into a tree structure having upper nodes.

【0030】従って、下位ノードの端から評価していく
ことにより、文書頻度に応じた評価が可能となり、早め
に結果をしぼり込める。
Therefore, by evaluating from the end of the lower node, the evaluation according to the document frequency becomes possible, and the result can be narrowed down earlier.

【0031】請求項13に記載の発明は、第2検索条件
変換手段は、差集合演算で検索結果を除外する方の検索
条件が複数あるときは、この検索条件を表わす下位ノー
ドを端から評価すれば自ずと文書頻度の大きい順に評価
することとなるように、文書頻度の大きい順に前記下位
ノードを整列する。
According to a thirteenth aspect of the present invention, when there is a plurality of search conditions for excluding the search result by the difference set operation, the second search condition conversion means evaluates a lower node representing the search condition from the end. Then, the lower nodes are arranged in descending order of document frequency so that evaluation is naturally performed in descending order of document frequency.

【0032】従って、下位ノードの端から評価していく
ことで、文書頻度の大きい順に評価が可能となり、早め
に結果をしぼり込める。
Therefore, by evaluating from the end of the lower node, the evaluation can be performed in descending order of the document frequency, and the result can be narrowed down earlier.

【0033】請求項14に記載の発明は、第2検索条件
変換手段は、差集合演算で検索結果を除外する方の検索
条件のうちに和集合演算で検索条件を結合した合成条件
が含まれる場合には、この検索条件の和集合演算とを解
いて、この検索条件を木構造に変換する。
According to a fourteenth aspect of the present invention, the second search condition conversion means includes a synthesis condition obtained by combining search conditions by a union operation among search conditions for excluding a search result by a difference set operation. In this case, the union operation of the search conditions is solved, and the search conditions are converted into a tree structure.

【0034】従って、差集合演算で検索結果を除外する
方の検索条件のうちに和集合演算で検索条件を結合した
合成条件が含まれる場合には、この検索条件の和集合演
算とを解いて平坦化しても論理演算の意味に変動はな
く、下位ノードの端から評価していけるように並べ替え
ることができる。
Therefore, when the search condition for excluding the search result by the difference set operation includes a synthesis condition obtained by combining the search conditions by the union operation, the union operation of the search condition is solved. Even if the flattening is performed, the meaning of the logical operation does not change and can be rearranged so that the evaluation can be performed from the end of the lower node.

【0035】請求項15に記載の発明は、第2検索条件
変換手段は、差集合演算で検索結果を除外する方の検索
条件の少なくとも1つが、常に空の検索結果を返す末端
ノードに変換されるものであったときは、前記差集合演
算の全体を常に空の検索結果を返す末端ノードに変換す
る。
According to a fifteenth aspect of the present invention, the second search condition conversion means converts at least one of the search conditions that excludes the search result by the difference set operation into a terminal node that always returns an empty search result. If so, the whole of the difference set operation is converted into a terminal node that always returns an empty search result.

【0036】従って、元もと空の検索結果から何を取り
除いても結果は空になるため、木構造には変換せず、検
索条件の評価の際にはただちに空の検索結果を返す末端
ノードに変換することができる。
Therefore, no matter what is removed from the originally empty search result, the result will be empty, so it is not converted to a tree structure, and the terminal node that returns an empty search result immediately when the search condition is evaluated. Can be converted to

【0037】請求項16に記載の発明は、論理演算が、
複数の検索語の出現順序を無視した出現位置間の距離の
上限の指定であるときに、下位ノードの端から評価すれ
ば自ずと文書頻度の小さい順に評価することとなるよ
う、文書頻度の小さい順に下位ノードを整列させるよう
に変換を行なう第2予備変換手段を備えている。
According to a sixteenth aspect of the present invention, the logical operation is:
When specifying the upper limit of the distance between appearance positions ignoring the appearance order of multiple search words, if the evaluation is performed from the end of the lower node, the evaluation is naturally performed in the order of the document frequency. There is provided second preliminary conversion means for performing conversion so that lower nodes are aligned.

【0038】従って、子ノードの端から評価していくこ
とにより、位置比較を行なうまでもなく、積集合演算で
も除外できる文書を早めに除外できる小さい文書頻度順
に評価することが可能になる。
Therefore, by performing evaluation from the end of the child node, it is possible to evaluate documents which can be excluded by the intersection set operation in order of small document frequency which can be excluded earlier without performing position comparison.

【0039】請求項17に記載の発明は、第2予備変換
手段は、検索語の検索を下位ノードに、この下位ノード
の検索後の出現位置間の距離の上限の指定を上位ノード
にする複合検索を階層的に連ねた2進木構造に変換し、
この変換は文書頻度の小さい下位ノードの順に2進木に
変換し、文書頻度の小さい下位ノードほど前記木構造の
下層となるように行なう。
According to a seventeenth aspect of the present invention, the second preliminary conversion means sets the retrieval of the search term to the lower node and designates the upper limit of the distance between the appearance positions of the lower node after the retrieval to the upper node. Converts the search into a hierarchically linked binary tree structure,
This conversion is performed in such a manner that a lower-order node having a lower document frequency is converted into a binary tree, and a lower-order node having a lower document frequency is located below the tree structure.

【0040】従って、変換後の木構造を用いて、粗い評
価を行ない、その後、その結果に基づいて正確な評価を
行なうことが可能となる。
Accordingly, it is possible to perform a rough evaluation using the tree structure after the conversion, and then to perform an accurate evaluation based on the result.

【0041】請求項18に記載の発明は、第2予備変換
手段による変換後の木構造での上位ノードの処理を前記
木構造中での最下位層から上位層に向けて順次実行して
複合検索の結果を作成し、前記上位ノードの処理は各検
索語間の出現位置の比較を前記文書頻度の小さいものか
ら順に行なうものである第2予備検索手段を備え、複合
検索手段は、上位ノードの処理を前記第2予備検索手段
による検索で限定された前記各検索語の出現位置につい
て行なう。
According to an eighteenth aspect of the present invention, the processing of the upper node in the tree structure after the conversion by the second preliminary conversion means is sequentially executed from the lowest layer to the upper layer in the tree structure to form a composite. A second preliminary search unit for generating a search result, wherein the processing of the upper node performs a comparison of appearance positions between the search terms in ascending order of the document frequency; Is performed on the occurrence position of each of the search terms limited by the search by the second preliminary search means.

【0042】従って、換後の木構造を用いて、粗い評価
を行ない、その後、その結果に基づいて複合検索手段に
よる正確な評価を行なうことができる。
Therefore, rough evaluation is performed using the tree structure after the replacement, and then accurate evaluation can be performed by the complex search means based on the result.

【0043】請求項19に記載の発明は、索引記憶手段
は、その記憶している索引で文書の識別子に全順序関係
があって、索引語と前記識別子の下限を指定することに
より、この指定された索引語を含む前記文書の前記識別
子のうちで、その識別子の下限以上で最小のものを前記
索引から取得する第1予備照合手段と、前記指定した索
引語、前記取得した識別子、および、前記識別子の下限
値とを関連付けて記憶する第1予備照合記憶手段と、こ
の第1予備照合記憶手段を参照して、索引照合手段の行
なう索引照合の範囲を限定する第1照合範囲指定手段
と、を備えている。
According to a nineteenth aspect of the present invention, the index storage means specifies the index words and the lower limit of the identifiers by specifying the index words and the lower limit of the identifiers in the stored indexes because the identifiers of the documents have a total order relationship. Among the identifiers of the document including the indexed word, the first preliminary collation means for obtaining from the index the minimum one that is equal to or greater than the lower limit of the identifier, the specified indexed word, the obtained identifier, and First preliminary collation storage means for storing the lower limit value of the identifiers in association with each other; first collation range designating means for limiting the range of index collation performed by the index collation means with reference to the first preliminary collation storage means; , Is provided.

【0044】従って、第1予備照合記憶手段を参照し
て、索引照合手段の行なう索引照合の範囲を限定するこ
とで、索引照合を削減することができる。
Therefore, index matching can be reduced by referring to the first preliminary matching storage means and limiting the range of index matching performed by the index matching means.

【0045】請求項20に記載の発明は、第1予備照合
記憶手段は、関連付けて記憶する索引語、識別子、およ
び、下限値を、第1予備照合手段で最新に取得した所定
数の索引語に関するものに限定する。
According to a twentieth aspect of the present invention, the first preliminary collation storage means stores the index words, identifiers, and lower limit values associated with and stored in a predetermined number of index words acquired latest by the first preliminary collation means. Limited to those related to

【0046】従って、第1予備照合記憶手段が過大なも
のとなるのを防止できる。
Therefore, it is possible to prevent the first preliminary collation storage means from becoming excessive.

【0047】請求項21に記載の発明は、索引記憶手段
は、その記憶している索引で文書の識別子に全順序関係
があって、前記識別子の下限を指定することにより、複
合検索の結果を満たす前記識別子のうちで、その識別子
の下限以上で最小のものを前記索引から取得する第2予
備照合手段と、前記指定した索引語、前記取得した識別
子、および、前記識別子の下限値を関連付けて記憶する
第2予備照合記憶手段と、この第2予備照合記憶手段を
参照して、前記複合検索で索引照合手段の行なう索引照
合の範囲を限定する第2照合範囲指定手段と、を備えて
いるとするものである。
According to a twenty-first aspect of the present invention, the index storage means has a total order relationship with the document identifiers in the stored index, and specifies the lower limit of the identifiers, thereby retrieving the result of the compound search. Of the identifiers to be satisfied, the second preliminary collation means for acquiring from the index the smallest one that is equal to or more than the lower limit of the identifier, and the specified index word, the acquired identifier, and the lower limit value of the identifier are associated with each other. A second preparatory collation storage means for storing; and a second collation range designating means for referring to the second preparatory collation storage means to limit a range of index collation performed by the index collation means in the compound search. It is assumed that.

【0048】従って、第2予備照合記憶手段を参照し
て、索引照合手段の行なう索引照合の範囲を限定するこ
とで、索引照合を削減することができる。
Therefore, the index collation can be reduced by limiting the range of the index collation performed by the index collation unit with reference to the second preliminary collation storage unit.

【0049】請求項22に記載の発明は、第2予備照合
記憶手段は、関連付けて記憶する索引語、識別子、およ
び、下限値を、第2予備照合手段で最新に取得した所定
数の索引語に関するものに限定するとするものである。
According to a twenty-second aspect of the present invention, the second preliminary collation storage means stores a predetermined number of index words, identifiers, and lower limit values associated with and stored in the second preliminary collation means. It is to be limited to those related to.

【0050】従って、第2予備照合記憶手段が過大なも
のとなるのを防止できる。
Therefore, it is possible to prevent the second preliminary collation storage means from becoming too large.

【0051】請求項23に記載の発明は、コンピュータ
で読取可能なプログラムを記憶していて、このプログラ
ムは、コンピュータに読み取られることにより、与えら
れた検索条件に従って、電子化されて所定の記憶装置に
登録されている複数の文書中から所望の検索語を含む文
書の検索を前記コンピュータに実行可能とするものであ
り、この検索の実行では、索引語と前記複数の文書中で
の前記索引語の出現位置とを対応付けて所定の記憶装置
に記憶されていて、前記出現位置は前記索引語が出現す
る前記文書の識別子および当該文書中での出現位置であ
る索引に対し、索引照合を行ない、この索引照合によ
り、前記検索条件中の検索語を覆う少なくとも一つの前
記索引語を取得し、この索引語の各々を検索語として前
記複数の文書中での出現位置を検索する中間検索を行な
い、この各検索語についての検索結果から、この各検索
語の文書頻度を見積る文書頻度の見積を行ない、前記中
間検索で取得した検索語が複数あるときは、前記検索条
件を、2つの検索語の各々についての前記索引照合によ
る検索を下位ノードに、この両下位ノードの検索結果の
比較による両検索語の位置条件で限定する前記両下位ノ
ードの合成処理を上位ノードにする複合検索を階層的に
連ねた2進木構造に変換する第1の検索条件の変換を行
ない、前記上位ノードの処理を実行して前記複合検索の
結果を作成し、前記上位ノードの処理は前記各検索語間
の出現位置の比較を前記文書頻度の小さいものから順に
行なう複合検索を行なう。
According to a twenty-third aspect of the present invention, a computer-readable program is stored, and the program is read by the computer, and is digitized in accordance with a given search condition, and is stored in a predetermined storage device. A search for a document containing a desired search word from a plurality of documents registered in the computer, and in the execution of this search, the index word and the index word in the plurality of documents Is stored in a predetermined storage device in association with the appearance position of the document. The occurrence position is compared with the index of the document in which the index word appears and the index of the appearance position in the document by performing index matching. Acquiring the at least one index term covering the search term in the search condition by the index matching, and using each of the index terms as a search term in the plurality of documents. Perform an intermediate search to search the current position, from the search results for each of these search terms, estimate the document frequency to estimate the document frequency of each search term, when there are multiple search terms obtained in the intermediate search, The combining process of the lower nodes is performed by limiting the search condition to the lower nodes by performing the index matching for each of the two search words, and by limiting the search conditions by comparing the search results of the lower nodes. A first search condition is converted to convert a composite search to be a higher node into a hierarchically connected binary tree structure, and the processing of the upper node is executed to generate a result of the composite search. Performs a compound search in which the appearance positions of the search words are compared in ascending order of the document frequency.

【0052】従って、下位ノードの各々の文書頻度を見
積ることで、検索条件評価の中間結果を得られれば、文
書頻度の小さい順に評価を行なうことで、この中間結果
を早めにしぼり込める。
Therefore, if an intermediate result of the search condition evaluation can be obtained by estimating the document frequency of each lower node, the intermediate result can be narrowed down earlier by performing the evaluation in ascending document frequency.

【0053】請求項24に記載の発明は、第1の検索条
件の変換では、文書頻度の小さい下位ノードの順に2進
木に変換し、この変換により文書頻度の小さい下位ノー
ドほど前記木構造の下層となるようにする。
According to a twenty-fourth aspect of the present invention, in the conversion of the first retrieval condition, a lower node having a lower document frequency is converted into a binary tree in the order of the lower nodes. Make it the lower layer.

【0054】従って、下位ノードは、下層で末端ノード
に近いほど文書頻度が小さいので、さらに中間結果を早
めにしぼり込むことができる。
Therefore, since the lower the lower node, the lower the level and the closer to the terminal node, the lower the document frequency, the intermediate result can be narrowed down further.

【0055】請求項25に記載の発明は、第1の検索条
件の変換では、中間検索による検索で検索条件中の検索
語を覆う索引語がなかったときは、常に空の検索結果を
返す末端ノードに変換するものである。
According to a twenty-fifth aspect of the present invention, in the conversion of the first search condition, if there is no index word covering the search word in the search condition in the search by the intermediate search, a terminal that always returns an empty search result. It is converted into a node.

【0056】従って、与えられた検索語が索引登録され
ている索引語で覆うことができないときは、検索結果は
必ず空になるため、2進木構造に変換せず、検索条件の
評価の際には直ちに空の検索結果を返す末端ノードに変
換することができる。
Therefore, when a given search term cannot be covered by an index term registered in the index, the search result is always empty, and is not converted into a binary tree structure. Can be immediately converted to a terminal node that returns an empty search result.

【0057】請求項26に記載の発明は、検索の実行で
は、両検索語の検索を下位ノードに、この下位ノードの
積集合を上位ノードにする複合検索を階層的に連ねた2
進木構造に変換し、この変換は文書頻度の小さい下位ノ
ードの順に2進木に変換し、文書頻度の小さい下位ノー
ドほど前記木構造の下層となるように実行する第1の予
備変換を行なう。
According to a twenty-sixth aspect of the present invention, in the execution of a search, a composite search in which a search of both search terms is set as a lower node and a product set of the lower nodes is set as an upper node is hierarchically connected.
A first pre-transformation is performed in which a lower-order node having a lower document frequency is converted into a binary tree, and the lower-order node having a lower document frequency is executed in a lower layer of the tree structure. .

【0058】従って、この2進木構造を末端ノードから
順に評価していくことで予め粗い評価を行なって検索条
件に該当する文書数を絞っておくことが可能となる。
Therefore, by evaluating this binary tree structure sequentially from the terminal node, it is possible to perform rough evaluation in advance and narrow down the number of documents corresponding to the search condition.

【0059】請求項27に記載の発明は、検索の実行で
は、第1の予備変換による変換後の木構造での上位ノー
ドの処理を前記木構造中での最下位層から上位層に向け
て順次実行して複合検索の結果を作成し、前記上位ノー
ドの処理は各検索語間の出現位置の比較を前記文書頻度
の小さいものから順に実行する第1の予備検索を行な
い、複合検索は、上位ノードの処理を前記第1の予備検
索による検索で限定された前記各検索語の出現位置につ
いて行なう。
According to a twenty-seventh aspect of the present invention, in executing the search, the processing of the upper nodes in the tree structure after the conversion by the first preliminary conversion is performed from the lowest layer to the upper layer in the tree structure. The first node performs a first preliminary search in which the results of the compound search are sequentially executed to create a result of the compound search, and the processing of the upper node performs the comparison of the appearance position between the search words in ascending order of the document frequency. The processing of the upper node is performed for the occurrence position of each of the search terms limited by the search by the first preliminary search.

【0060】従って、第1の予備変換による変換後の2
進木構造を用いて、粗い評価を行ない、その後、その結
果に基づいて複合検索手段による正確な評価を行なうこ
とができる。
Accordingly, 2 after the conversion by the first preliminary conversion is performed.
A coarse evaluation is performed using the tree structure, and then an accurate evaluation can be performed by the complex search means based on the result.

【0061】請求項28に記載の発明は、検索の実行で
は、検索条件に複数の検索語の論理演算を含んでいると
きは、この各検索語を覆う索引語の各々を検索語として
文書頻度見積手段で見積もった文書頻度に基づいて、前
記各検索語の検索を下位ノードに、この下位ノードの前
記論理演算を上位ノードにする複合検索を階層的に連ね
た木構造に変換し、さらに論理演算による検索条件が他
の論理演算で他の検索条件と結合される入れ子構造にな
っている場合には、この入れ子構造の内側の論理演算を
下位ノードに、その外側論理演算を上位ノードにする木
構造に変換する第2の検索条件の変換を行なう。
According to a twenty-eighth aspect of the present invention, in the execution of a search, when a search condition includes a logical operation of a plurality of search terms, each of the index terms covering each of the search terms is used as a search term as a document frequency. Based on the document frequency estimated by the estimating means, the search of each of the search terms is converted to a lower node, and the complex search in which the logical operation of the lower node is set to an upper node is converted into a hierarchically linked tree structure. If the search condition by the operation has a nested structure that is combined with another search condition by another logical operation, the logical operation inside the nested structure is set as a lower node and the outer logical operation is set as an upper node. The second search condition to be converted into a tree structure is converted.

【0062】従って、検索条件に複数の検索語の論理演
算を含んでいるときに、文書頻度に従い木構造を組んで
いって、下位ノードの端から評価していくことが可能と
なる。
Therefore, when a logical condition of a plurality of search words is included in the search condition, it is possible to construct a tree structure according to the document frequency and evaluate from the end of the lower node.

【0063】請求項29に記載の発明は、第2の検索条
件の変換は、論理演算が複数の検索結果の積集合を作る
積集合演算であるときには、下位ノードを端から評価す
れば自ずと文書頻度の小さい順に評価することとなるよ
うに、文書頻度の小さい順に前記下位ノードを整列す
る。
According to a twenty-ninth aspect of the present invention, when the second search condition is converted, when the logical operation is an intersection operation for forming an intersection of a plurality of search results, the document is automatically evaluated by evaluating the lower node from the end. The lower nodes are arranged in ascending order of document frequency so that evaluation is performed in ascending order of frequency.

【0064】従って、下位ノードの端から評価していく
ことにより、論理演算が複数の検索結果の積集合の場合
に早めに最終結果に近づくことができるように小さい文
書頻度順に評価することができる。
Therefore, by evaluating from the end of the lower node, the evaluation can be performed in the order of smaller document frequencies so that the logical operation can approach the final result earlier if the logical operation is the intersection of a plurality of search results. .

【0065】請求項30に記載の発明は、第2の検索条
件の変換は、論理演算が複数の検索結果の和集合を作る
和集合演算であるときには、下位ノードを端から評価す
れば自ずと文書頻度の大きい順に評価することとなるよ
うに、文書頻度の大きい順に下位ノードを整列する。
According to a thirty-first aspect of the present invention, when the second search condition is converted, if the logical operation is a union operation for forming a union of a plurality of search results, the lower node must be evaluated from the end. The lower nodes are arranged in descending order of document frequency so that evaluation is performed in descending order of frequency.

【0066】従って、積集合で結ばれる複数の検索条件
が入れ子構造になっているときは、その入れ子構造を解
いて平坦化しても論理演算の意味に変動はなく、下位ノ
ードの端から評価していけるように並べ替えることがで
きる。
Therefore, when a plurality of search conditions connected by the intersection have a nested structure, the meaning of the logical operation does not change even if the nested structure is solved and flattened. You can sort them as you like.

【0067】請求項31に記載の発明は、第2の検索条
件の変換は、論理演算が、1つの検索条件による検索結
果から別の1つ以上の検索条件による検索結果に含まれ
るものを除外する差集合演算であるときは、前記論理演
算で結ばれている複数の検索語については、この各検索
語を覆う索引語の各々を検索語として文書頻度見積手段
で見積もった文書頻度に基づいて、前記各検索語の検索
を下位ノードに、この下位ノードの前記論理演算を上位
ノードにする複合検索を階層的に連ねた木構造に変換
し、さらに論理演算による検索条件が他の論理演算で他
の検索条件と結合される入れ子構造になっている場合に
は、この入れ子構造の内側の論理演算を下位ノードに、
その外側論理演算を上位ノードにする木構造に変換す
る。
According to a thirty-first aspect of the present invention, the conversion of the second search condition excludes a logical operation included in a search result based on one or more other search conditions from a search result based on another search condition. When the difference set operation is performed, for a plurality of search words connected by the logical operation, each of the index words covering each search word is used as a search word based on the document frequency estimated by the document frequency estimation unit. The search of each of the search terms is converted to a lower node, and the complex search in which the logical operation of the lower node is set to an upper node is converted into a hierarchically connected tree structure, and the search condition by the logical operation is changed by another logical operation. If a nested structure is combined with other search conditions, the logical operation inside this nested structure is
The outer logical operation is converted into a tree structure having upper nodes.

【0068】従って、下位ノードの端から評価していく
ことにより、文書頻度に応じた評価が可能となり、早め
に結果をしぼり込める。
Therefore, by evaluating from the end of the lower node, the evaluation according to the document frequency becomes possible, and the result can be narrowed down earlier.

【0069】請求項32に記載の発明は、検索の実行で
は、論理演算が、複数の検索語の出現順序を無視した出
現位置間の距離の上限の指定であるときに、下位ノード
の端から評価すれば自ずと文書頻度の小さい順に評価す
ることとなるよう、文書頻度の小さい順に下位ノードを
整列させるように変換を行なう第2の予備変換を行な
う。
According to a thirty-second aspect of the present invention, in the execution of the search, when the logical operation is to specify the upper limit of the distance between the appearance positions ignoring the appearance order of the plurality of search words, A second preliminary conversion is performed in which conversion is performed so that lower nodes are arranged in ascending order of document frequency so that evaluation is naturally performed in ascending order of document frequency.

【0070】従って、子ノードの端から評価していくこ
とにより、位置比較を行なうまでもなく、積集合演算で
も除外できる文書を早めに除外できる小さい文書頻度順
に評価することが可能になる。
Therefore, by performing evaluation from the end of the child node, it is possible to evaluate documents which can be excluded even by the intersection operation, in order of small document frequency which allows early exclusion without performing position comparison.

【0071】請求項33に記載の発明は、第2の予備変
換は、検索語の検索を下位ノードに、この下位ノードの
検索後の出現位置間の距離の上限の指定を上位ノードに
する複合検索を階層的に連ねた2進木構造に変換し、こ
の変換は文書頻度の小さい下位ノードの順に2進木に変
換し、文書頻度の小さい下位ノードほど前記木構造の下
層となるように行なう。
According to a thirty-third aspect of the present invention, in the second pre-conversion, the retrieval of the search term is set to the lower node, and the upper limit of the distance between the appearance positions of the lower node after the search is set to the upper node. The search is converted into a hierarchically-structured binary tree structure, and this conversion is performed in the order of a lower node having a lower document frequency into a binary tree, and the lower nodes having a lower document frequency are lower in the tree structure. .

【0072】従って、変換後の木構造を用いて、粗い評
価を行ない、その後、その結果に基づいて正確な評価を
行なうことが可能となる。を小さくして検索処理の高速
化を図ることができる。
Therefore, it is possible to perform a rough evaluation using the tree structure after the conversion, and then to perform an accurate evaluation based on the result. And the speed of the search process can be increased.

【0073】請求項34に記載の発明は、第2の予備変
換による変換後の木構造での上位ノードの処理を前記木
構造中での最下位層から上位層に向けて順次実行して複
合検索の結果を作成し、前記上位ノードの処理は各検索
語間の出現位置の比較を前記文書頻度の小さいものから
順に実行する第2の予備検索を行ない、複合検索は、上
位ノードの処理を前記第2予備検索手段による検索で限
定された前記各検索語の出現位置について行なう。
According to a thirty-fourth aspect of the present invention, the processing of the upper nodes in the tree structure after the conversion by the second preliminary conversion is sequentially executed from the lowest layer to the upper layer in the tree structure to form a composite. A search result is created, and the processing of the upper node performs a second preliminary search in which the occurrence positions of the respective search terms are compared in ascending order of the document frequency. The compound search performs the processing of the upper node. The search is performed on the occurrence position of each of the search words limited by the search by the second preliminary search means.

【0074】従って、換後の木構造を用いて、粗い評価
を行ない、その後、その結果に基づいて複合検索による
正確な評価を行なうことができる。
Therefore, a rough evaluation is performed using the tree structure after the replacement, and then an accurate evaluation can be performed based on the result by the complex search.

【0075】請求項35に記載の発明は、電子化された
複数の登録文書中から所望の検索語を含む文書を検索す
るための索引を、この索引の見出しとして登録される各
索引語に、この索引語を含んでいる前記登録文書の数で
ある文書頻度、前記索引語を含む文書の文書識別子、前
記索引語の前記各登録文書内での出現回数である文書内
頻度および前記索引語の前記各登録文書内での出現位置
の各情報を対応付けて記憶している索引記憶手段と、前
記登録文書を前記索引語に分割する文書分割手段と、与
えられた検索条件中の検索語を前記索引語に分割し、ま
た、前記検索語中に前記索引語が1つも含まれていない
ときは該当文書がない旨を示す空文書集合を作成する検
索語分割手段と、前記検索条件を解析して、この検索条
件から、前記検索語分割手段が取得した前記索引語と前
記空文書集合とのうちの少なくとも一方を演算子で合成
した検索条件木を生成する検索条件解析手段と、この検
索条件木に基づき、前記索引から前記索引語に関する前
記情報を取得して検索結果合成処理を実行し検索結果を
得る検索条件評価手段とを備え、nを1以上の整数とし
たときに、前記文書分割手段は前記登録文書をn文字の
連鎖である前記索引語に分割し、前記検索語分割手段は
前記検索語を覆う1つ以上のn文字連鎖である前記索引
語に分割し、前記検索条件解析手段は前記検索語が2つ
以上の前記索引語に分割されるときはこの複数の索引語
の出現位置間の距離を指定する位置演算子で合成するも
のである。
According to a thirty-fifth aspect of the present invention, an index for searching for a document including a desired search word from a plurality of digitized registered documents is added to each index word registered as a heading of the index. The document frequency which is the number of the registered documents including the index word, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each registered document, and the An index storage unit that stores information of each occurrence position in each of the registered documents in association with each other, a document division unit that divides the registered document into the index words, and a search term in a given search condition. A search term dividing unit for dividing the search term into words and creating an empty document set indicating that there is no corresponding document when the search term does not include any of the index terms; and analyzing the search condition. Then, from this search condition, Search condition analysis means for generating a search condition tree in which at least one of the index word obtained by the dividing means and the empty document set is synthesized by an operator, based on the search condition tree, Search condition estimating means for obtaining the search result by performing the search result synthesizing process to obtain the search result. When n is an integer of 1 or more, the document dividing means converts the registered document into a chain of n characters. And the search term dividing means divides the index term into one or more n-character chains covering the search term, and the search condition analyzing means divides the search term into two or more. When divided into the above-mentioned index words, they are synthesized by a position operator that specifies the distance between the appearance positions of the plurality of index words.

【0076】したがって、索引語は一律にn文字の連鎖
とされるので、膨大な単語辞書を必要とする形態素解析
を用いる手法と比較すると、単語辞書の管理などの手間
が省ける。
Therefore, since the index word is uniformly a chain of n characters, the trouble of managing the word dictionary and the like can be omitted as compared with a method using morphological analysis requiring a huge word dictionary.

【0077】請求項36に記載の発明は、請求項35に
記載の発明において、nが2以上で検索語がn文字未満
の場合、検索語分割手段はm文字目(mは1以上で(n
−m+1)以下である整数)から検索語と一致するすべ
ての索引語を索引から取り出し、検索条件解析手段は検
索語分割手段が取り出した前記複数の索引語を複数の検
索結果の和集合をとる和集合演算子で合成するものであ
る。
According to a thirty-sixth aspect of the present invention, in the invention according to the thirty-fifth aspect, when n is 2 or more and the search word is less than n characters, the search word dividing means performs the m-th character (m is 1 or more and ( n
-M + 1), all index words that match the search term are extracted from the index, and the search condition analysis means takes the union of a plurality of search results for the plurality of index words extracted by the search word division means. It is composed by a union operator.

【0078】したがって、nが2以上で検索語がn文字
未満の場合も正しく検索を行なうことができる。
Therefore, a correct search can be performed even when n is 2 or more and the search word is less than n characters.

【0079】請求項37に記載の発明は、請求項35に
記載の発明において、nが2以上で検索語がn文字以上
の場合、検索語分割手段は検索語を覆う最小個数の索引
語に分割するものである。
According to a thirty-seventh aspect of the present invention, in the invention according to the thirty-fifth aspect, when n is 2 or more and the search word is n characters or more, the search word dividing means determines the minimum number of index words covering the search word. It is to divide.

【0080】したがって、無駄な索引語の使用を省いて
検索処理の高速化を図ることができる。
Therefore, the use of unnecessary index words can be omitted to speed up the search processing.

【0081】請求項38に記載の発明は、請求項37に
記載の発明において、最小個数の索引語に分割できる場
合が複数あるときは、検索語分割手段は検索語を覆う最
小個数の各索引語の文書頻度の合計が最小となるように
検索語を索引語に分割するものである。
According to a thirty-eighth aspect of the present invention, in the invention according to the thirty-seventh aspect, when there are a plurality of cases where the minimum number of index words can be divided, the search word dividing means sets the minimum number of each index word covering the search word The search word is divided into index words so that the sum of the document frequencies of the words is minimized.

【0082】したがって、文書頻度を小さくして検索処
理の高速化を図ることができる。
Therefore, it is possible to reduce the document frequency and to speed up the search processing.

【0083】請求項39に記載の発明は、電子化された
複数の登録文書中から所望の検索語を含む文書を検索す
るための索引を、この索引の見出しとして登録される各
索引語に、この索引語を含んでいる前記登録文書の数で
ある文書頻度、前記索引語を含む文書の文書識別子、前
記索引語の前記各登録文書内での出現回数である文書内
頻度および前記索引語の前記各登録文書内での出現位置
の各情報を対応付けて記憶している索引記憶手段と、前
記登録文書を前記索引語に分割する文書分割手段と、与
えられた検索条件中の検索語を前記索引語に分割し、ま
た、前記検索語中に前記索引語が1つも含まれていない
ときは該当文書がない旨を示す空文書集合を作成する検
索語分割手段と、前記検索条件を解析して、この検索条
件から、前記検索語分割手段が取得した前記索引語と前
記空文書集合とのうちの少なくとも一方を演算子で合成
した検索条件木を生成する検索条件解析手段と、この検
索条件木に基づき、前記索引から前記索引語に関する前
記情報を取得して検索結果合成処理を実行し検索結果を
得る検索条件評価手段とを備え、前記検索語分割手段は
前記分割で得た複数の索引語のうち前記検索語を覆う他
の索引語に包含されるものは除外するものであり、前記
検索条件解析手段は前記検索語が2つ以上の前記索引語
に分割されるときはこの複数の索引語の出現位置間の距
離を指定する位置演算子で合成するものである。
According to a thirty-ninth aspect of the present invention, an index for searching for a document including a desired search word from a plurality of digitized registered documents is added to each index word registered as a heading of the index. The document frequency which is the number of the registered documents including the index word, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each registered document, and the An index storage unit that stores information of each occurrence position in each of the registered documents in association with each other, a document division unit that divides the registered document into the index words, and a search term in a given search condition. A search term dividing unit for dividing the search term into words and creating an empty document set indicating that there is no corresponding document when the search term does not include any of the index terms; and analyzing the search condition. Then, from this search condition, Search condition analysis means for generating a search condition tree in which at least one of the index word obtained by the dividing means and the empty document set is synthesized by an operator, based on the search condition tree, Search condition estimating means for obtaining the search result by executing the search result synthesizing process to obtain the search result, wherein the search word division means covers the search word among the plurality of index words obtained by the division. When the search term is divided into two or more index terms, the search condition analysis means specifies a distance between appearance positions of the plurality of index terms when the search term is divided into two or more index terms. It is composed by the position operator.

【0084】したがって、請求項35に記載の発明に比
較して、検索語を検索向きに索引語に分割して、検索処
理を高速化することができる。
Therefore, as compared with the invention described in claim 35, the search word can be divided into index words in the search direction, and the search processing can be speeded up.

【0085】請求項40に記載の発明は、請求項39に
記載の発明において、検索語分割手段は検索語を覆う最
小個数の索引語に分割するものである。
According to a forty-ninth aspect, in the thirty-ninth aspect, the search word dividing means divides the search word into a minimum number of index words covering the search word.

【0086】したがって、無駄な索引語の使用を省いて
検索処理の高速化を図ることができる。
Therefore, the use of unnecessary index words can be omitted to speed up the search processing.

【0087】請求項41に記載の発明は、請求項40に
記載の発明において、最小個数の索引語に分割できる場
合が複数あるときは、検索語分割手段は検索語を覆う最
小個数の各索引語の文書頻度の合計が最小となるように
検索語を索引語に分割するものである。
In the invention according to claim 41, in the invention according to claim 40, when there are a plurality of cases in which the index word can be divided into the minimum number of index words, the search word dividing means sets the minimum number of each index word covering the search word. The search word is divided into index words so that the sum of the document frequencies of the words is minimized.

【0088】したがって、無駄な索引語の使用を省いて
検索処理の高速化を図ることができる。
Therefore, the use of unnecessary index words can be omitted to speed up the search process.

【0089】請求項42に記載の発明は、電子化された
複数の登録文書中から所望の検索語を含む文書を検索す
るための索引を、この索引の見出しとして登録される各
索引語に、この索引語を含んでいる前記登録文書の数で
ある文書頻度、前記索引語を含む文書の文書識別子、前
記索引語の前記各登録文書内での出現回数である文書内
頻度および前記索引語の前記各登録文書内での出現位置
の各情報を対応付けて記憶している索引記憶手段と、前
記登録文書を前記索引語に分割する文書分割手段と、与
えられた検索条件中の検索語を前記索引語に分割し、ま
た、前記検索語中に前記索引語が1つも含まれていない
ときは該当文書がない旨を示す空文書集合を作成する検
索語分割手段と、前記検索条件を解析して、この検索条
件から、前記検索語分割手段が取得した前記索引語と前
記空文書集合とのうちの少なくとも一方を演算子で合成
した検索条件木を生成する検索条件解析手段と、この検
索条件木に基づき、前記索引から前記索引語に関する前
記情報を取得して検索結果合成処理を実行し検索結果を
得る検索条件評価手段とを備え、前記検索語分割手段が
前記検索語を2つ以上の前記索引語に分割する場合は、
前記検索条件解析手段は、これら複数の索引語を複数の
検索結果の積集合をとる積集合演算子で合成した条件木
である候補決定用条件木と、前記複数の索引語から検索
語を覆う最小個数のものを選択してそれを出現位置間の
距離を指定する位置演算子で合成した条件木である詳細
判定用条件木とを作成し、前記検索条件評価手段は、ま
ず前記候補決定用条件木の前記検索結果合成処理を実行
して前記複数の登録文書から該当文書を検索し、次に、
この検索後の登録文書を対象に前記詳細判定用条件木の
前記検索結果合成処理を実行して前記検索結果を得るも
のである。
According to the present invention, an index for searching for a document including a desired search word from a plurality of digitized registered documents is added to each index word registered as a heading of the index. The document frequency which is the number of the registered documents including the index word, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each registered document, and the An index storage unit that stores information of each occurrence position in each of the registered documents in association with each other, a document division unit that divides the registered document into the index words, and a search term in a given search condition. A search term dividing unit for dividing the search term into words and creating an empty document set indicating that there is no corresponding document when the search term does not include any of the index terms; and analyzing the search condition. Then, from this search condition, Search condition analysis means for generating a search condition tree in which at least one of the index word obtained by the dividing means and the empty document set is synthesized by an operator, based on the search condition tree, Search condition evaluation means for obtaining a search result by executing a search result synthesizing process by acquiring the information about the search term, wherein the search term division means divides the search term into two or more of the index terms,
The search condition analysis means covers a candidate search condition tree, which is a condition tree obtained by combining the plurality of index terms with a product set operator that takes a product set of a plurality of search results, and a search term from the plurality of index terms. A condition tree for detailed judgment, which is a condition tree obtained by selecting a minimum number of items and combining them with a position operator designating a distance between appearance positions, is created. Executing the search result synthesizing process of the condition tree to search for the corresponding document from the plurality of registered documents;
The search result synthesizing process is executed on the registered document after the search to obtain the search result.

【0090】したがって、詳細判定用条件木の検索結果
合成処理に先立って、候補決定用条件木の検索結果合成
処理を実行して対象となる文書に絞りをかけることによ
り、文字位置の突き合せの処理を低減して、検索処理の
高速化を図ることができる。
Therefore, prior to the search result synthesizing process for the condition tree for the detailed judgment, the search result synthesizing process for the candidate determining condition tree is executed to narrow down the target document, so that the matching of the character positions can be performed. The number of processes can be reduced, and the speed of the search process can be increased.

【0091】請求項43に記載の発明は、電子化された
複数の登録文書中から所望の検索語を含む文書を検索す
るための索引を、この索引の見出しとして登録される各
索引語に、この索引語を含んでいる前記登録文書の数で
ある文書頻度、前記索引語を含む文書の文書識別子、前
記索引語の前記各登録文書内での出現回数である文書内
頻度および前記索引語の前記各登録文書内での出現位置
の各情報を対応付けて記憶している索引記憶手段と、前
記登録文書を前記索引語に分割する文書分割手段と、与
えられた検索条件中の検索語を前記索引語に分割し、ま
た、前記検索語中に前記索引語が1つも含まれていない
ときは該当文書がない旨を示す空文書集合を作成する検
索語分割手段と、前記検索条件を解析して、この検索条
件から、前記検索語分割手段が取得した前記索引語と前
記空文書集合とのうちの少なくとも一方を演算子で合成
した検索条件木を生成する検索条件解析手段と、この検
索条件木に基づき、前記索引から前記索引語に関する前
記情報を取得して検索結果合成処理を実行し検索結果を
得る検索条件評価手段とを備え、前記検索語分割手段が
前記検索語を2つ以上の前記索引語に分割する場合は、
前記検索条件解析手段は、これら複数の索引語を複数の
検索結果の積集合をとる積集合演算子で合成した条件木
である候補決定用条件木と、前記複数の索引語から前記
検索語を覆いかつ索引語ごとの前記文書頻度の合計が最
小となるものを選択してそれを出現位置間の距離を指定
する位置演算子で合成した条件木である詳細判定用条件
木とを作成し、前記検索条件評価手段は、まず前記候補
決定用条件木の前記検索結果合成処理を実行して前記複
数の登録文書から該当文書を検索し、次に、この検索後
の登録文書を対象に前記詳細判定用条件木の前記検索結
果合成処理を実行して前記検索結果を得るものである。
According to the invention of claim 43, an index for searching for a document containing a desired search word from a plurality of digitized registered documents is added to each index word registered as a heading of the index. The document frequency which is the number of the registered documents including the index word, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each registered document, and the An index storage unit that stores information of each occurrence position in each of the registered documents in association with each other, a document division unit that divides the registered document into the index words, and a search term in a given search condition. A search term dividing unit for dividing the search term into words and creating an empty document set indicating that there is no corresponding document when the search term does not include any of the index terms; and analyzing the search condition. Then, from this search condition, Search condition analysis means for generating a search condition tree in which at least one of the index word obtained by the dividing means and the empty document set is synthesized by an operator, based on the search condition tree, Search condition evaluation means for obtaining a search result by executing a search result synthesizing process by acquiring the information about the search term, wherein the search term division means divides the search term into two or more of the index terms,
The search condition analyzing means includes: a candidate decision condition tree, which is a condition tree obtained by combining the plurality of index terms with a set intersection operator that takes an intersection of a plurality of search results; and the search term from the plurality of index terms. A detail judgment condition tree, which is a condition tree synthesized by a position operator specifying a distance between appearance positions by selecting a covert and the sum of the document frequencies for each index term, which is the minimum, is created. The search condition evaluation means first executes the search result synthesizing process of the candidate decision condition tree to search for a corresponding document from the plurality of registered documents, and then performs the detailed search on the registered document after the search. The search result synthesis process is performed to obtain the search result.

【0092】したがって、詳細判定用条件木の検索結果
合成処理に先立って、候補決定用条件木の検索結果合成
処理を実行して対象となる文書に絞りをかけることによ
り、文字位置の突き合せの処理を低減して、検索処理の
高速化を図ることができる。
Therefore, prior to the search result synthesizing process for the condition tree for detailed judgment, the search result synthesizing process for the candidate tree is executed to narrow down the target document, thereby making it possible to match the character positions. The number of processes can be reduced, and the speed of the search process can be increased.

【0093】請求項44に記載の発明は、電子化された
複数の登録文書中から所望の検索語を含む文書を検索す
るための索引を、この索引の見出しとして登録される各
索引語に、この索引語を含んでいる前記登録文書の数で
ある文書頻度、前記索引語を含む文書の文書識別子、前
記索引語の前記各登録文書内での出現回数である文書内
頻度および前記索引語の前記各登録文書内での出現位置
の各情報を対応付けて記憶している索引記憶手段と、前
記登録文書を前記索引語に分割する文書分割手段と、与
えられた検索条件中の検索語を前記索引語に分割し、ま
た、前記検索語中に前記索引語が1つも含まれていない
ときは該当文書がない旨を示す空文書集合を作成する検
索語分割手段と、前記検索条件を解析して、この検索条
件から、前記検索語分割手段が取得した前記索引語と前
記空文書集合とのうちの少なくとも一方を演算子で合成
した検索条件木を生成する検索条件解析手段と、この検
索条件木に基づき、前記索引から前記索引語に関する前
記情報を取得して検索結果合成処理を実行し検索結果を
得る検索条件評価手段とを備え、前記索引は、前記索引
語ごとに、前記各文書識別子は前の文書識別子の値との
差分を可変長符号で表現したものであり、前記文書内頻
度は可変長符号で表現されたものであり、前記各出現位
置は文書ごとの前の出現位置の値との差分を可変長符号
で表現したものである。
According to the invention described in claim 44, an index for searching for a document including a desired search word from a plurality of digitized registered documents is added to each index word registered as a heading of the index. The document frequency which is the number of the registered documents including the index word, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each registered document, and the An index storage unit that stores information of each occurrence position in each of the registered documents in association with each other, a document division unit that divides the registered document into the index words, and a search term in a given search condition. A search term dividing unit for dividing the search term into words and creating an empty document set indicating that there is no corresponding document when the search term does not include any of the index terms; and analyzing the search condition. Then, from this search condition, Search condition analysis means for generating a search condition tree in which at least one of the index word obtained by the dividing means and the empty document set is synthesized by an operator, based on the search condition tree, Search condition evaluation means for obtaining a search result by performing a search result synthesizing process by acquiring the information regarding the index, wherein the index is, for each index word, each document identifier is a difference from a previous document identifier value. Is represented by a variable length code, the frequency in the document is represented by a variable length code, and each occurrence position is represented by a variable length code representing a difference from a value of a previous appearance position for each document. It was done.

【0094】したがって、索引に記録する情報を圧縮し
て索引のデータ量を小さくすることができる。
Therefore, the information recorded in the index can be compressed to reduce the data amount of the index.

【0095】請求項45に記載の発明は、請求項44に
記載の発明において、索引は、索引語ごとに、各文書識
別子と各文書内頻度および各出現位置とで格納する領域
を分けているものである。
According to a forty-fifth aspect of the present invention, in the invention of the forty-fourth aspect, the index divides an area for storing each document identifier, each frequency in each document, and each occurrence position for each index word. Things.

【0096】したがって、文書識別子を参照する場合に
伸長するデータ量を少なくできるので、検索処理を高速
化することができる。
Therefore, the amount of data to be expanded when referring to the document identifier can be reduced, so that the search process can be sped up.

【0097】請求項46に記載の発明は、請求項45に
記載の発明において、索引は、索引語ごとの各文書ごと
に対応して、文書内頻度および出現位置を表現するのに
必要なビット数である文書内頻度出現位置表現ビット数
を可変長符号で表現したデータを保持しているものであ
る。
In the invention according to claim 46, in the invention according to claim 45, the index is a bit necessary to represent the frequency and appearance position in the document corresponding to each document for each index word. It holds data in which the number of bits representing the frequency occurrence position in the document, which is a number, is represented by a variable length code.

【0098】したがって、文書内頻度出現位置表現ビッ
ト数を参照することにより、必要とする文書の文書頻
度、出現位置のデータがどこにあるかがわかるので、文
書頻度、出現位置を参照する場合に伸長するデータ量を
少なくして、検索処理を高速化することができる。
Therefore, by referring to the number of bits representing the frequency appearance position in the document, it is possible to know where the document frequency and the data of the appearance position of the required document are. Therefore, when referring to the document frequency and the appearance position, decompression is performed. It is possible to reduce the amount of data to be performed and speed up the search processing.

【0099】請求項47に記載の発明は、請求項45に
記載の発明において、索引は、索引語ごとの各文書ごと
に対応して、文書内頻度が指定された閾値以上である場
合に、出現位置を表現するのに必要なビット数である出
現位置表現ビット数を可変長符号で表現したデータを保
持しているものである。
The invention according to claim 47 is based on the invention according to claim 45, wherein the index corresponds to each document for each index word and the frequency in the document is equal to or more than a specified threshold value. This holds data in which the number of bits representing the appearance position, which is the number of bits required to represent the appearance position, is represented by a variable length code.

【0100】したがって、文書内頻度が大きい場合のみ
出現位置を表現するのに必要なビット数を記録すること
で、請求項46に記載の発明ほど索引を大きくせず、出
現位置を参照する場合に伸長するデータ量を少なくし
て、検索処理を高速化することができる。
Therefore, by recording the number of bits necessary to represent the appearance position only when the frequency in the document is high, the index is not made as large as the invention of claim 46, and the appearance position is referred to. The retrieval process can be sped up by reducing the amount of data to be expanded.

【0101】請求項48に記載の発明は、請求項46ま
たは47に記載の発明において、文書内頻度出現位置表
現ビット数および出現位置表現ビット数は、各文書内頻
度および各出現位置を格納する領域に格納するものであ
る。
In the invention according to claim 48, in the invention according to claim 46 or 47, the number of frequency appearance position expression bits and the number of appearance position expression bits in the document store the frequency and each appearance position in each document. It is stored in the area.

【0102】したがって、文書内頻度出現位置表現ビッ
ト数および出現位置表現ビット数は、各文書内頻度およ
び各出現位置を格納する領域に格納して、検索処理を高
速化することができる。
Therefore, the number of occurrence frequency expression position bits in the document and the number of appearance position expression bits can be stored in the area for storing the frequency in each document and each occurrence position, thereby speeding up the search process.

【0103】請求項49に記載の発明は、電子化された
複数の登録文書中から所望の検索語を含む文書を検索す
るための索引を、この索引の見出しとして登録される各
索引語に、この索引語を含んでいる前記登録文書の数で
ある文書頻度、前記索引語を含む文書の文書識別子、前
記索引語の前記各登録文書内での出現回数である文書内
頻度および前記索引語の前記各登録文書内での出現位置
の各情報である転置リストを対応付けて記憶している索
引記憶手段と、前記登録文書を前記索引語に分割する文
書分割手段と、与えられた検索条件中の検索語を前記索
引語に分割し、また、前記検索語中に前記索引語が1つ
も含まれていないときは該当文書がない旨を示す空文書
集合を作成する検索語分割手段と、前記検索条件を解析
して、この検索条件から、前記検索語分割手段が取得し
た前記索引語と前記空文書集合とのうちの少なくとも一
方を演算子で合成した検索条件木を生成する検索条件解
析手段と、この検索条件木に基づき、前記索引から前記
索引語に関する前記情報を取得して検索結果合成処理を
実行し検索結果を得る検索条件評価手段とを備え、前記
索引は、前記索引語ごとの前記転置リストを文字コード
順にソートしてファイルに格納しているものである。
According to a fifty-ninth aspect of the present invention, an index for searching for a document including a desired search word from a plurality of digitized registered documents is added to each index word registered as a heading of the index. The document frequency which is the number of the registered documents including the index word, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each registered document, and the An index storage unit for storing an inverted list, which is information of each occurrence position in each registered document, in association with each other; a document dividing unit for dividing the registered document into the index words; A search word dividing unit that divides the search word into the index words, and creates an empty document set indicating that there is no corresponding document when none of the index words is included in the search words; Analyzing the search condition, this search condition A search condition analysis unit that generates a search condition tree by combining at least one of the index word and the empty document set obtained by the search word division unit with an operator, based on the search condition tree, Search condition evaluation means for acquiring the information on the index term from the index and executing a search result synthesizing process to obtain a search result, wherein the index sorts the transposed list for each index term in a character code order. It is stored in a file.

【0104】したがって、索引語と同様、文書頻度、文
書識別子、文書内頻度および出現位置のデータである転
置リストも文字コード順にソートしているので、検索時
にこれらのデータを読み出すときに、読み出すデータの
位置を近くして、検索処理を高速化できる。
Therefore, similarly to the index words, the transposition list which is the data of the document frequency, the document identifier, the frequency in the document, and the appearance position is also sorted in the order of the character codes. And the search process can be speeded up.

【0105】請求項50に記載の発明は、電子化された
複数の登録文書中から所望の検索語を含む文書を検索す
るための索引を、この索引の見出しとして登録される各
索引語に、この索引語を含んでいる前記登録文書の数で
ある文書頻度、前記索引語を含む文書の文書識別子、前
記索引語の前記各登録文書内での出現回数である文書内
頻度および前記索引語の前記各登録文書内での出現位置
の各情報である転置リストを対応付けて記憶している索
引記憶手段と、前記登録文書を前記索引語に分割する文
書分割手段と、与えられた検索条件中の検索語を前記索
引語に分割し、また、前記検索語中に前記索引語が1つ
も含まれていないときは該当文書がない旨を示す空文書
集合を作成する検索語分割手段と、前記検索条件を解析
して、この検索条件から、前記検索語分割手段が取得し
た前記索引語と前記空文書集合とのうちの少なくとも一
方を演算子で合成した検索条件木を生成する検索条件解
析手段と、この検索条件木に基づき、前記索引から前記
索引語に関する前記情報を取得して検索結果合成処理を
実行し検索結果を得る検索条件評価手段とを備え、前記
索引は、固定長のブロックであるページをファイルの読
み書きの単位としていて、前記転置リストの大きさが前
記ページの大きさより所定程度小さいときは1つのペー
ジに1つ以上の転置リストを格納し、前記転置リストの
大きさが前記ページより大きいときは1つの転置リスト
を複数のページに格納しているものである。
According to a fiftyth aspect of the present invention, an index for searching for a document including a desired search word from a plurality of digitized registered documents is added to each index word registered as a heading of the index. The document frequency which is the number of the registered documents including the index word, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each registered document, and the An index storage unit for storing an inverted list, which is information of each occurrence position in each registered document, in association with each other; a document dividing unit for dividing the registered document into the index words; A search word dividing unit that divides the search word into the index words, and creates an empty document set indicating that there is no corresponding document when none of the index words is included in the search words; Analyzing the search condition, this search condition A search condition analysis unit that generates a search condition tree by combining at least one of the index word and the empty document set obtained by the search word division unit with an operator, based on the search condition tree, Search condition evaluation means for acquiring the information on the index words from the index and executing a search result synthesizing process to obtain a search result, wherein the index uses a page as a fixed-length block as a unit of reading and writing of a file. When the size of the transposed list is smaller than the size of the page by a predetermined amount, one or more transposed lists are stored in one page, and when the size of the transposed list is larger than the page, one transposed list is stored. It is stored on multiple pages.

【0106】したがって、索引において転置リストを大
きさに合わせてページ単位に管理するので、検索処理を
高速化することができる。
Therefore, since the transposition list is managed in the index in units of pages according to the size, the retrieval processing can be sped up.

【0107】請求項51に記載の発明は、請求項45〜
48のいずれかに記載の発明において、固定長のブロッ
クであるページをファイルの読み書きの単位としてい
て、前記転置リストの大きさが前記ページの大きさより
所定程度小さいときは1つのページに1つ以上の転置リ
ストを格納し、前記転置リストの大きさが前記ページよ
り大きいときは1つの転置リストを複数のページに格納
しているものであって、前記複数のページに格納される
転置リストは、文書頻度、文書識別子およびページの管
理情報を格納するページであるヘッダーページと、文書
内頻度、出現位置および文書内頻度出現位置表現ビット
数もしくは出現位置表現ビット数を格納する文書内頻度
出現ページとにページを分けているものである。
The invention described in claim 51 is the invention according to claims 45 to 45.
48. The invention according to any one of 48, wherein a page which is a fixed-length block is used as a unit for reading / writing a file, and when the size of the transposed list is smaller than the size of the page by a predetermined amount, one or more pages per page When the size of the transposed list is larger than the page, one transposed list is stored in a plurality of pages, and the transposed list stored in the plurality of pages is: A header page that stores the document frequency, the document identifier, and the management information of the page; a document frequency, an appearance position, and a document frequency appearance page that stores the document frequency appearance position expression bit number or the appearance position expression bit number. Is divided into pages.

【0108】したがって、索引に格納するデータを、そ
の登録、検索処理に合わせて配置するので、登録あるい
は検索処理を高速化することができる。
Therefore, the data stored in the index is arranged in accordance with the registration and search processing, so that the registration or search processing can be speeded up.

【0109】請求項52に記載の発明は、請求項51に
記載の発明において、文書識別子は、1つの文書識別子
に対応するデータがページをまたがないものである。
According to a fifty-second aspect of the present invention, in the fifty-first aspect, data corresponding to one document identifier does not extend over pages.

【0110】したがって、登録あるいは検索処理を高速
化することができる。
Therefore, the registration or search process can be sped up.

【0111】請求項53に記載の発明は、請求項51ま
たは52に記載の発明において、文書識別子は複数ペー
ジにまたがって格納されていて、文書識別子ページに格
納しきれない複数の文書識別子の登録順の終わりの1つ
以上の文書識別子はヘッダーページに格納されているも
のである。
The invention according to claim 53 is the invention according to claim 51 or 52, wherein the document identifier is stored over a plurality of pages, and a plurality of document identifiers that cannot be stored in the document identifier page are registered. One or more document identifiers at the end of the sequence are those stored in the header page.

【0112】したがって、文書登録時に、登録順の終わ
りの1つ以上の文書識別子を格納するのに、新たな文書
識別子ページを読み込み、書き込む必要がなくなり、登
録処理を高速化することができる。
Therefore, at the time of document registration, it is not necessary to read and write a new document identifier page to store one or more document identifiers at the end of the registration order, and the registration process can be sped up.

【0113】請求項54に記載の発明は、請求項51ま
たは52に記載の発明において、文書識別子は複数の文
書識別子ページにまたがって格納されていて、この文書
識別子ページの管理情報である文書識別子ページ索引に
文書識別子ページのページ番号と各ページの先頭に記録
された文書識別子とを記録しているものである。
The invention according to claim 54 is the invention according to claim 51 or 52, wherein the document identifier is stored over a plurality of document identifier pages, and the document identifier is management information of the document identifier page. In the page index, the page number of the document identifier page and the document identifier recorded at the top of each page are recorded.

【0114】したがって、必要な文書識別子のデータが
格納された文書識別子ページのみにアクセスすればよい
ので、検索処理を高速化することができる。
Therefore, since only the document identifier page in which the necessary document identifier data is stored needs to be accessed, the search processing can be sped up.

【0115】請求項55に記載の発明は、請求項54に
記載の発明において、文書識別子ページ索引には、文書
識別子ページの各ページの末尾に記録された文書識別子
を記録しているものである。
The invention according to claim 55 is the invention according to claim 54, wherein the document identifier recorded at the end of each page of the document identifier page is recorded in the document identifier page index. .

【0116】したがって、文書識別子ページ索引を参照
するだけで、特定の文書識別子の文書に関してはデータ
が存在しないことを確認することも可能となるので、検
索処理を高速化することができる。
Therefore, it is possible to confirm that no data exists for a document having a specific document identifier only by referring to the document identifier page index, thereby speeding up the search process.

【0117】請求項56に記載の発明は、請求項51ま
たは52に記載の発明において、文書識別子をページの
サイズより小さな固定長ブロックである文書識別子ブロ
ックに分割して格納し、文書識別子ブロックごとにその
はじめの文書の文書識別子は前の文書識別子との差分を
とらずに格納し、文書内頻度、出現位置および文書内頻
度出現位表現ビット数もしくは出現位置表現ビット数が
ある場合には前記文書内頻度出現位表現ビット数または
出現位置表現ビット数は文書識別子ブロックと同じ文書
の情報を格納するブロックである文書内頻度出現位置ブ
ロックに分割して格納している。
The invention according to claim 56 is the invention according to claim 51 or 52, in which the document identifier is divided into document identifier blocks, which are fixed-length blocks smaller than the page size, and stored. The document identifier of the first document is stored without taking the difference from the previous document identifier, and if there is a frequency in the document, an appearance position and the number of appearance frequency expression bits in the document or the number of appearance position expression bits, The number of frequency appearance position expression bits or the number of appearance position expression bits in a document are divided and stored in a document frequency appearance position block which is a block for storing information of the same document as the document identifier block.

【0118】したがって、所望の文書識別子、位置情報
が簡単に得られるので、検索処理を高速化することがで
きる。
Therefore, the desired document identifier and position information can be easily obtained, so that the search process can be sped up.

【0119】請求項57に記載の発明は、コンピュータ
で読取可能なプログラムを記憶していて、このプログラ
ムは、コンピュータに読み取られることにより、与えら
れた検索条件に従って、電子化されて所定の記憶装置に
登録されている複数の文書中から所望の検索語を含む文
書の検索を前記コンピュータに実行可能とするものであ
り、この検索の実行では、電子化された複数の登録文書
中から所望の検索語を含む文書を検索するための索引
を、この索引の見出しとして登録される各索引語に、こ
の索引語を含んでいる前記登録文書の数である文書頻
度、前記索引語を含む文書の文書識別子、前記索引語の
前記各登録文書内での出現回数である文書内頻度および
前記索引語の前記各登録文書内での出現位置の各情報を
対応付けて記憶して、前記登録文書を前記索引語に分割
し、与えられた検索条件中の検索語を前記索引語に分割
し、また、前記検索語中に前記索引語が1つも含まれて
いないときは該当文書がない旨を示す空文書集合を作成
し、前記検索条件を解析して、この検索条件から、取得
した前記索引語と前記空文書集合とのうちの少なくとも
一方を演算子で合成した検索条件木を生成し、この検索
条件木に基づき、前記索引から前記索引語に関する前記
情報を取得して検索結果合成処理を実行し検索結果を得
るものであり、nを1以上の整数としたときに、前記文
書分割手段は前記登録文書をn文字の連鎖である前記索
引語に分割し、前記検索語分割手段は前記検索語を覆う
1つ以上のn文字連鎖である前記索引語に分割し、前記
検索条件解析手段は前記検索語が2つ以上の前記索引語
に分割されるときはこの複数の索引語の出現位置間の距
離を指定する位置演算子で合成するものである記憶媒
体。
According to a fifty-seventh aspect of the present invention, a computer readable program is stored, and the program is read by the computer to be digitized in accordance with a given search condition and to be stored in a predetermined storage device. A search for a document including a desired search word from a plurality of documents registered in the computer. In the execution of this search, a desired search is performed from a plurality of digitized registered documents. For each index term registered as an index for searching for a document including the term, the index frequency is the number of the registered documents including the index term, and the document of the document including the index term is included in the index term. An identifier, a frequency in a document that is the number of appearances of the index word in each of the registered documents, and information on an appearance position of the index word in each of the registered documents in association with each other; The registered document is divided into the index terms, the search term in a given search condition is divided into the index terms, and if the search term does not include any of the index terms, the corresponding document is An empty document set indicating that there is no document is created, the search condition is analyzed, and a search condition tree obtained by combining at least one of the obtained index term and the empty document set with an operator is obtained from the search condition. Generating, based on this search condition tree, acquiring the information on the index term from the index and executing a search result synthesis process to obtain a search result. When n is an integer of 1 or more, A document dividing unit that divides the registered document into the index words that are a chain of n characters; and a search word dividing unit that divides the registered document into the index words that are one or more n character chains that cover the search word. The condition analysis means determines that the search term is two or more. Storage medium when it is divided into the index word is to synthesize in a position operator that specifies the distance between the appearance position of the plurality of index words.

【0120】したがって、索引語は一律にn文字の連鎖
とされるので、膨大な単語辞書を必要とする形態素解析
を用いる手法と比較すると、単語辞書の管理などの手間
が省ける。
Therefore, since the index word is uniformly a chain of n characters, it is possible to save the trouble of managing the word dictionary and the like, as compared with a method using morphological analysis requiring a huge word dictionary.

【0121】請求項58に記載の発明は、コンピュータ
で読取可能なプログラムを記憶していて、このプログラ
ムは、コンピュータに読み取られることにより、与えら
れた検索条件に従って、電子化されて所定の記憶装置に
登録されている複数の文書中から所望の検索語を含む文
書の検索を前記コンピュータに実行可能とするものであ
り、この検索の実行では、電子化された複数の登録文書
中から所望の検索語を含む文書を検索するための索引
を、この索引の見出しとして登録される各索引語に、こ
の索引語を含んでいる前記登録文書の数である文書頻
度、前記索引語を含む文書の文書識別子、前記索引語の
前記各登録文書内での出現回数である文書内頻度および
前記索引語の前記各登録文書内での出現位置の各情報を
対応付けて記憶して、前記登録文書を前記索引語に分割
し、与えられた検索条件中の検索語を前記索引語に分割
し、また、前記検索語中に前記索引語が1つも含まれて
いないときは該当文書がない旨を示す空文書集合を作成
し、前記検索条件を解析して、この検索条件から、取得
した前記索引語と前記空文書集合とのうちの少なくとも
一方を演算子で合成した検索条件木を生成し、この検索
条件木に基づき、前記索引から前記索引語に関する前記
情報を取得して検索結果合成処理を実行し検索結果を得
るものであり、前記分割で得た複数の索引語のうち前記
検索語を覆う他の索引語に包含されるものは除外するも
のであり、前記検索語が2つ以上の前記索引語に分割さ
れるときはこの複数の索引語の出現位置間の距離を指定
する位置演算子で合成するものである記憶媒体。
According to a fifty-eighth aspect of the present invention, a computer-readable program is stored, and the program is read by a computer, and is digitized in accordance with a given search condition and stored in a predetermined storage device. A search for a document including a desired search word from a plurality of documents registered in the computer. In the execution of this search, a desired search is performed from a plurality of digitized registered documents. For each index term registered as an index for searching for a document including the term, the index frequency is the number of the registered documents including the index term, and the document of the document including the index term is included in the index term. An identifier, a frequency in a document that is the number of appearances of the index word in each of the registered documents, and information on an appearance position of the index word in each of the registered documents in association with each other; The registered document is divided into the index terms, the search term in a given search condition is divided into the index terms, and if the search term does not include any of the index terms, the corresponding document is An empty document set indicating that there is no document is created, the search condition is analyzed, and a search condition tree obtained by combining at least one of the obtained index term and the empty document set with an operator is obtained from the search condition. Generating, based on the search condition tree, acquiring the information on the index term from the index and executing a search result synthesizing process to obtain a search result, and among the plurality of index terms obtained by the division, Excludes those included in other index words that cover the search word, and when the search word is divided into two or more index words, specifies the distance between the appearance positions of the plurality of index words Notation that is synthesized by the position operator Media.

【0122】したがって、請求項57に記載の発明に比
較して、検索語を検索向きに索引語に分割して、検索処
理を高速化することができる。
Therefore, as compared with the invention described in claim 57, the search word can be divided into index words in the search direction, and the search processing can be speeded up.

【0123】請求項59に記載の発明は、コンピュータ
で読取可能なプログラムを記憶していて、このプログラ
ムは、コンピュータに読み取られることにより、与えら
れた検索条件に従って、電子化されて所定の記憶装置に
登録されている複数の文書中から所望の検索語を含む文
書の検索を前記コンピュータに実行可能とするものであ
り、この検索の実行では、電子化された複数の登録文書
中から所望の検索語を含む文書を検索するための索引
を、この索引の見出しとして登録される各索引語に、こ
の索引語を含んでいる前記登録文書の数である文書頻
度、前記索引語を含む文書の文書識別子、前記索引語の
前記各登録文書内での出現回数である文書内頻度および
前記索引語の前記各登録文書内での出現位置の各情報を
対応付けて記憶して、前記登録文書を前記索引語に分割
し、与えられた検索条件中の検索語を前記索引語に分割
し、また、前記検索語中に前記索引語が1つも含まれて
いないときは該当文書がない旨を示す空文書集合を作成
し、前記検索条件を解析して、この検索条件から、取得
した前記索引語と前記空文書集合とのうちの少なくとも
一方を演算子で合成した検索条件木を生成し、この検索
条件木に基づき、前記索引から前記索引語に関する前記
情報を取得して検索結果合成処理を実行し検索結果を得
るものであり、前記検索語を2つ以上の前記索引語に分
割する場合は、これら複数の索引語を複数の検索結果の
積集合をとる積集合演算子で合成した条件木である候補
決定用条件木と、前記複数の索引語から検索語を覆う最
小個数のものを選択してそれを出現位置間の距離を指定
する位置演算子で合成した条件木である詳細判定用条件
木とを作成し、まず前記候補決定用条件木の前記検索結
果合成処理を実行して前記複数の登録文書から該当文書
を検索し、次に、この検索後の登録文書を対象に前記詳
細判定用条件木の前記検索結果合成処理を実行して前記
検索結果を得るものである記憶媒体。
According to a fifty-seventh aspect of the present invention, a computer-readable program is stored, and the program is read by a computer to be digitized in accordance with a given search condition and to be stored in a predetermined storage device. A search for a document including a desired search word from a plurality of documents registered in the computer. In the execution of this search, a desired search is performed from a plurality of digitized registered documents. For each index term registered as an index for searching for a document including the term, the index frequency is the number of the registered documents including the index term, and the document of the document including the index term is included in the index term. An identifier, a frequency in a document that is the number of appearances of the index word in each of the registered documents, and information on an appearance position of the index word in each of the registered documents in association with each other; The registered document is divided into the index terms, the search term in a given search condition is divided into the index terms, and if the search term does not include any of the index terms, the corresponding document is An empty document set indicating that there is no document is created, the search condition is analyzed, and a search condition tree obtained by combining at least one of the obtained index term and the empty document set with an operator is obtained from the search condition. Generating, based on the search condition tree, obtaining the information on the index term from the index and executing a search result synthesizing process to obtain a search result, and converting the search term into two or more of the index terms In the case of splitting, a condition tree for candidate determination, which is a condition tree obtained by combining the plurality of index terms with an intersection operator that takes an intersection of a plurality of search results, and a minimum number of the search words covered by the plurality of index terms Select the ones that appear And a detailed judgment condition tree, which is a condition tree synthesized by a position operator that specifies the distance of the candidate document. First, the search result synthesizing process is executed by executing the candidate decision condition tree. And then executing the search result synthesizing process on the detailed determination condition tree for the registered document after the search to obtain the search result.

【0124】したがって、詳細判定用条件木の検索結果
合成処理に先立って、候補決定用条件木の検索結果合成
処理を実行して対象となる文書に絞りをかけることによ
り、文字位置の突き合せの処理を低減して、検索処理の
高速化を図ることができる。
Therefore, prior to the search result synthesizing process for the condition tree for the detailed judgment, the search result synthesizing process for the candidate determining condition tree is executed to narrow down the target document, thereby making it possible to match the character positions. The number of processes can be reduced, and the speed of the search process can be increased.

【0125】請求項60に記載の発明は、コンピュータ
で読取可能なプログラムを記憶していて、このプログラ
ムは、コンピュータに読み取られることにより、与えら
れた検索条件に従って、電子化されて所定の記憶装置に
登録されている複数の文書中から所望の検索語を含む文
書の検索を前記コンピュータに実行可能とするものであ
り、この検索の実行では、電子化された複数の登録文書
中から所望の検索語を含む文書を検索するための索引
を、この索引の見出しとして登録される各索引語に、こ
の索引語を含んでいる前記登録文書の数である文書頻
度、前記索引語を含む文書の文書識別子、前記索引語の
前記各登録文書内での出現回数である文書内頻度および
前記索引語の前記各登録文書内での出現位置の各情報を
対応付けて記憶して、前記登録文書を前記索引語に分割
し、与えられた検索条件中の検索語を前記索引語に分割
し、また、前記検索語中に前記索引語が1つも含まれて
いないときは該当文書がない旨を示す空文書集合を作成
し、前記検索条件を解析して、この検索条件から、取得
した前記索引語と前記空文書集合とのうちの少なくとも
一方を演算子で合成した検索条件木を生成し、この検索
条件木に基づき、前記索引から前記索引語に関する前記
情報を取得して検索結果合成処理を実行し検索結果を得
るものであり、前記検索語を2つ以上の前記索引語に分
割する場合は、これら複数の索引語を複数の検索結果の
積集合をとる積集合演算子で合成した条件木である候補
決定用条件木と、前記複数の索引語から前記検索語を覆
いかつ索引語ごとの前記文書頻度の合計が最小となるも
のを選択してそれを出現位置間の距離を指定する位置演
算子で合成した条件木である詳細判定用条件木とを作成
し、まず前記候補決定用条件木の前記検索結果合成処理
を実行して前記複数の登録文書から該当文書を検索し、
次に、この検索後の登録文書を対象に前記詳細判定用条
件木の前記検索結果合成処理を実行して前記検索結果を
得るものである記憶媒体。
The invention according to claim 60 stores a computer-readable program, and the program is read by the computer to be digitized in accordance with a given search condition and to be stored in a predetermined storage device. A search for a document including a desired search word from a plurality of documents registered in the computer. In the execution of this search, a desired search is performed from a plurality of digitized registered documents. For each index term registered as an index for searching for a document including the term, the index frequency is the number of the registered documents including the index term, and the document of the document including the index term is included in the index term. An identifier, a frequency in a document that is the number of appearances of the index word in each of the registered documents, and information on an appearance position of the index word in each of the registered documents in association with each other; The registered document is divided into the index terms, the search term in a given search condition is divided into the index terms, and if the search term does not include any of the index terms, the corresponding document is An empty document set indicating that there is no document is created, the search condition is analyzed, and a search condition tree obtained by combining at least one of the obtained index term and the empty document set with an operator is obtained from the search condition. Generating, based on the search condition tree, obtaining the information on the index term from the index and executing a search result synthesizing process to obtain a search result, and converting the search term into two or more of the index terms When dividing, the plurality of index terms is a condition tree for candidate determination, which is a condition tree synthesized by an intersection operator that takes the intersection of a plurality of search results, and the search term is covered from the plurality of index terms; Sum of the document frequencies for each index term A condition tree for detailed judgment, which is a condition tree obtained by selecting the smallest one and combining it with a position operator designating a distance between appearance positions, is first created, and the search result synthesis of the candidate decision condition tree is performed first. Executing a process to search for the corresponding document from the plurality of registered documents,
Next, a storage medium for obtaining the search result by executing the search result synthesizing process on the detailed determination condition tree for the registered document after the search.

【0126】したがって、詳細判定用条件木の検索結果
合成処理に先立って、候補決定用条件木の検索結果合成
処理を実行して対象となる文書に絞りをかけることによ
り、文字位置の突き合せの処理を低減して、検索処理の
高速化を図ることができる。
Therefore, prior to the search result synthesizing process for the condition tree for detailed judgment, the search result synthesizing process for the candidate determining condition tree is executed to narrow down the target document, thereby making it possible to match the character positions. The number of processes can be reduced, and the speed of the search process can be increased.

【0127】請求項61に記載の発明は、コンピュータ
で読取可能なプログラムを記憶していて、このプログラ
ムは、コンピュータに読み取られることにより、与えら
れた検索条件に従って、電子化されて所定の記憶装置に
登録されている複数の文書中から所望の検索語を含む文
書の検索を前記コンピュータに実行可能とするものであ
り、この検索の実行では、電子化された複数の登録文書
中から所望の検索語を含む文書を検索するための索引
を、この索引の見出しとして登録される各索引語に、こ
の索引語を含んでいる前記登録文書の数である文書頻
度、前記索引語を含む文書の文書識別子、前記索引語の
前記各登録文書内での出現回数である文書内頻度および
前記索引語の前記各登録文書内での出現位置の各情報を
対応付けて記憶して、前記登録文書を前記索引語に分割
し、与えられた検索条件中の検索語を前記索引語に分割
し、また、前記検索語中に前記索引語が1つも含まれて
いないときは該当文書がない旨を示す空文書集合を作成
し、前記検索条件を解析して、この検索条件から、取得
した前記索引語と前記空文書集合とのうちの少なくとも
一方を演算子で合成した検索条件木を生成し、この検索
条件木に基づき、前記索引から前記索引語に関する前記
情報を取得して検索結果合成処理を実行し検索結果を得
るものであり、前記索引は、前記索引語ごとに、前記各
文書識別子は前の文書識別子の値との差分を可変長符号
で表現したものであり、前記文書内頻度は可変長符号で
表現されたものであり、前記各出現位置は文書ごとの前
の出現位置の値との差分を可変長符号で表現したもので
ある記憶媒体。
The invention according to claim 61 stores a computer-readable program, and the program is read by the computer and is digitized in accordance with a given search condition and stored in a predetermined storage device. A search for a document including a desired search word from a plurality of documents registered in the computer. In the execution of this search, a desired search is performed from a plurality of digitized registered documents. For each index term registered as an index for searching for a document including the term, the index frequency is the number of the registered documents including the index term, and the document of the document including the index term is included in the index term. An identifier, a frequency in a document that is the number of appearances of the index word in each of the registered documents, and information on an appearance position of the index word in each of the registered documents in association with each other; The registered document is divided into the index terms, the search term in a given search condition is divided into the index terms, and if the search term does not include any of the index terms, the corresponding document is An empty document set indicating that there is no document is created, the search condition is analyzed, and a search condition tree obtained by combining at least one of the obtained index term and the empty document set with an operator is obtained from the search condition. Generating, based on the search condition tree, acquiring the information on the index word from the index and executing a search result synthesizing process to obtain a search result, wherein the index is, for each of the index words, The document identifier is a representation of the difference from the value of the previous document identifier in a variable length code, the frequency in the document is represented by a variable length code, and each occurrence position is the previous occurrence of each document. The difference from the position value is represented by a variable-length code. Storage medium in which it revealed.

【0128】したがって、索引に記録する情報を圧縮し
て索引のデータ量を小さくすることができる。
Therefore, information recorded in the index can be compressed to reduce the data amount of the index.

【0129】請求項62に記載の発明は、コンピュータ
で読取可能なプログラムを記憶していて、このプログラ
ムは、コンピュータに読み取られることにより、与えら
れた検索条件に従って、電子化されて所定の記憶装置に
登録されている複数の文書中から所望の検索語を含む文
書の検索を前記コンピュータに実行可能とするものであ
り、この検索の実行では、電子化された複数の登録文書
中から所望の検索語を含む文書を検索するための索引
を、この索引の見出しとして登録される各索引語に、こ
の索引語を含んでいる前記登録文書の数である文書頻
度、前記索引語を含む文書の文書識別子、前記索引語の
前記各登録文書内での出現回数である文書内頻度および
前記索引語の前記各登録文書内での出現位置の各情報を
対応付けて記憶して、前記登録文書を前記索引語に分割
し、与えられた検索条件中の検索語を前記索引語に分割
し、また、前記検索語中に前記索引語が1つも含まれて
いないときは該当文書がない旨を示す空文書集合を作成
し、前記検索条件を解析して、この検索条件から、取得
した前記索引語と前記空文書集合とのうちの少なくとも
一方を演算子で合成した検索条件木を生成し、この検索
条件木に基づき、前記索引から前記索引語に関する前記
情報を取得して検索結果合成処理を実行し検索結果を得
るものであり、前記索引は、前記索引語ごとの前記転置
リストを文字コード順にソートしてファイルに格納して
いるものである記憶媒体。
The invention according to claim 62 stores a computer-readable program, and the program is read by a computer, and is digitized in accordance with a given search condition and stored in a predetermined storage device. A search for a document including a desired search word from a plurality of documents registered in the computer. In the execution of this search, a desired search is performed from a plurality of digitized registered documents. For each index term registered as an index for searching for a document including the term, the index frequency is the number of the registered documents including the index term, and the document of the document including the index term is included in the index term. An identifier, a frequency in a document that is the number of appearances of the index word in each of the registered documents, and information on an appearance position of the index word in each of the registered documents in association with each other; The registered document is divided into the index terms, the search term in a given search condition is divided into the index terms, and if the search term does not include any of the index terms, the corresponding document is An empty document set indicating that there is no document is created, the search condition is analyzed, and a search condition tree obtained by combining at least one of the obtained index term and the empty document set with an operator is obtained from the search condition. Generating, based on the search condition tree, acquiring the information on the index term from the index and executing a search result synthesizing process to obtain a search result, wherein the index is the transposed list for each index term Is a storage medium in which files are sorted in character code order and stored in a file.

【0130】したがって、索引語と同様、文書頻度、文
書識別子、文書内頻度および出現位置のデータである転
置リストも文字コード順にソートしているので、検索時
にこれらのデータを読み出すときに、読み出すデータの
位置を近くして、検索処理を高速化できる。
Therefore, similarly to the index words, the transposition list which is the data of the document frequency, the document identifier, the frequency in the document, and the appearance position is also sorted in the order of the character codes. And the search process can be speeded up.

【0131】請求項63に記載の発明は、コンピュータ
で読取可能なプログラムを記憶していて、このプログラ
ムは、コンピュータに読み取られることにより、与えら
れた検索条件に従って、電子化されて所定の記憶装置に
登録されている複数の文書中から所望の検索語を含む文
書の検索を前記コンピュータに実行可能とするものであ
り、この検索の実行では、電子化された複数の登録文書
中から所望の検索語を含む文書を検索するための索引
を、この索引の見出しとして登録される各索引語に、こ
の索引語を含んでいる前記登録文書の数である文書頻
度、前記索引語を含む文書の文書識別子、前記索引語の
前記各登録文書内での出現回数である文書内頻度および
前記索引語の前記各登録文書内での出現位置の各情報を
対応付けて記憶して、前記登録文書を前記索引語に分割
し、与えられた検索条件中の検索語を前記索引語に分割
し、また、前記検索語中に前記索引語が1つも含まれて
いないときは該当文書がない旨を示す空文書集合を作成
し、前記検索条件を解析して、この検索条件から、取得
した前記索引語と前記空文書集合とのうちの少なくとも
一方を演算子で合成した検索条件木を生成し、この検索
条件木に基づき、前記索引から前記索引語に関する前記
情報を取得して検索結果合成処理を実行し検索結果を得
るものであり、前記索引は、固定長のブロックであるペ
ージをファイルの読み書きの単位としていて、前記転置
リストの大きさが前記ページの大きさより所定程度小さ
いときは1つのページに複数の転置リストを格納し、前
記転置リストの大きさが前記ページより大きいときは1
つの転置リストを複数のページに格納しているものであ
る記憶媒体。
The invention according to claim 63 stores a computer-readable program, and this program is read by a computer, and is digitized in accordance with a given search condition and stored in a predetermined storage device. A search for a document including a desired search word from a plurality of documents registered in the computer. In the execution of this search, a desired search is performed from a plurality of digitized registered documents. For each index term registered as an index for searching for a document including the term, the index frequency is the number of the registered documents including the index term, and the document of the document including the index term is included in the index term. An identifier, a frequency in a document that is the number of appearances of the index word in each of the registered documents, and information on an appearance position of the index word in each of the registered documents in association with each other; The registered document is divided into the index terms, the search term in a given search condition is divided into the index terms, and if the search term does not include any of the index terms, the corresponding document is An empty document set indicating that there is no document is created, the search condition is analyzed, and a search condition tree obtained by combining at least one of the obtained index term and the empty document set with an operator is obtained from the search condition. Generating, based on the search condition tree, acquiring the information on the index words from the index and executing a search result synthesizing process to obtain a search result, wherein the index is a page that is a fixed-length block. When the size of the transposed list is smaller than the size of the page by a predetermined amount, a plurality of transposed lists are stored in one page, and the size of the transposed list is larger than that of the page. When asked 1
A storage medium in which one inverted list is stored in multiple pages.

【0132】したがって、索引において転置リストを大
きさに合わせてページ単位に管理するので、検索処理を
高速化することができる。
Therefore, since the inverted list is managed in the index in units of pages according to the size, the search processing can be sped up.

【0133】[0133]

【発明の実施の形態】[発明の実施の形態1]図1は、
この発明の実施の形態1にかかる電子化文書検索システ
ム1のシステム構成の概略を示すブロック図である。こ
の電子化文書検索システム1は、同図に示すように、例
えば、クライアント2と、サーバ3とを通信回線4で接
続したクライアント/サーバシステムとして実施するこ
とができる。
[First Embodiment of the Invention] FIG.
FIG. 1 is a block diagram illustrating an outline of a system configuration of an electronic document search system 1 according to a first embodiment of the present invention. As shown in FIG. 1, the digitized document search system 1 can be implemented as, for example, a client / server system in which a client 2 and a server 3 are connected via a communication line 4.

【0134】サーバ3は、その外部記憶に、電子化文書
検索プログラムを記憶している。また、多数の電子化さ
れた文書をデータベースにして登録し、さらに、この文
書から所望の検索語を含んでいる文書を検索する索引と
なる索引テーブルを登録している(これにより、この発
明の文書登録手段、索引記憶手段を実現している)。前
記電子化文書検索プログラム、前記データベースのフォ
ーマット、前記索引テーブルなどは、フロッピーディス
ク、光ディスク、光磁気ディスクなどの記憶媒体(この
発明の記憶媒体を実現するものである)に記憶されてい
たものを、サーバ3が読み取って外部記憶に格納したも
のである。そして、この外部記憶に記憶されている、電
子化文書検索プログラム、データベース、索引テーブル
により、以下に説明する各種の処理を実現している。
The server 3 stores an electronic document search program in its external storage. In addition, a large number of digitized documents are registered as a database, and an index table serving as an index for searching a document containing a desired search word from the document is registered. A document registration unit and an index storage unit). The digitized document search program, the format of the database, the index table, and the like are the same as those stored in a storage medium such as a floppy disk, an optical disk, or a magneto-optical disk (which implements the storage medium of the present invention). , Read by the server 3 and stored in the external storage. Various processes described below are realized by the digitized document search program, database, and index table stored in the external storage.

【0135】クライアント2は、文書検索の検索条件を
入力する入力装置や、この検索の結果をディスプレイに
表示したりプリンタにプリントアウトするための出力装
置として機能する。
The client 2 functions as an input device for inputting search conditions for document search and an output device for displaying the result of the search on a display or printing out the result to a printer.

【0136】図2は、前記索引テーブルのデータ構造の
一例を示す表である。この索引テーブル11は、アドレ
ス12と、索引語13と、この索引語13が出現する文
書の識別子14と、この索引語13が出現する文書中で
の索引語13の出現位置15と、索引登録の際に識別子
14の数からわかる索引語13が出現する文書数16と
が対応付けて記憶されている。
FIG. 2 is a table showing an example of the data structure of the index table. The index table 11 includes an address 12, an index word 13, an identifier 14 of the document in which the index word 13 appears, an appearance position 15 of the index word 13 in the document in which the index word 13 appears, and an index registration. At this time, the number of documents 16 in which the index term 13 known from the number of identifiers 14 appears is stored in association with the number of documents.

【0137】サーバ3では、クライアント2から文書検
索の要求を受け付け、受け付けた検索条件を解析して、
その内容に従い、索引テーブル11に対し様々に索引照
合を行なう。すなわち、検索語と索引語13の照合、索
引語13に対応する識別子14の照会、索引語13に対
応する出現位置15の照会のうち、1つまたは複数の処
理を個別にまたは一度に行なうことができる(これによ
り、この発明の索引照合手段を実現している)。
The server 3 receives a document search request from the client 2, analyzes the received search conditions,
According to the contents, various index matchings are performed on the index table 11. That is, one or a plurality of processes of checking the search term against the index term 13, querying the identifier 14 corresponding to the index term 13, and querying the appearance position 15 corresponding to the index term 13 are performed individually or at once. (Thus, the index matching means of the present invention is realized).

【0138】そして、この索引照合により、クライアン
ト2から受け付けた検索語を覆う1または複数の索引語
13を取得する。この検索語が1つの索引語13で覆え
るときは、当該索引語13に対応する識別子14を照会
し、その識別子14の文書の表示を文書検索結果として
クライアント2に返す。例えば、サーバ3が受け付けた
検索語が“原子力”で、この“原子力”がそのまま索引
語13として索引テーブル11に登録されている場合で
ある。
Then, by this index matching, one or a plurality of index words 13 covering the search word received from the client 2 are obtained. When the search term can be covered by one index term 13, the identifier 14 corresponding to the index term 13 is queried, and the display of the document of the identifier 14 is returned to the client 2 as a document search result. For example, this is a case where the search term received by the server 3 is “nuclear power” and this “nuclear power” is registered in the index table 11 as the index word 13 as it is.

【0139】検索語が複数の索引語13でしか覆えない
ときも、その複数の索引語13の各々を新たな検索語と
して、索引照合により、この各検索語が出現する文書の
文書数16を取得することで(これにより、この発明の
中間検索手段を実現している)、この文書数16、すな
わち文書頻度を見積もる(これにより、この発明の文書
頻度見積手段を実現している)。
Even when a search term can be covered only by a plurality of index terms 13, each of the plurality of index terms 13 is used as a new search term, and the number of documents 16 in which each search term appears is determined by index matching. By acquiring the information (which implements the intermediate search means of the present invention), the number of documents 16, that is, the document frequency is estimated (thus, the document frequency estimating means of the present invention is realized).

【0140】そして、この場合は、図3に示すように、
サーバ3が受け付けた検索条件を、新たな2つの検索語
の各々についての索引照合による検索を下位ノード21
に、この両下位ノード21の検索結果の比較による、新
たな両検索語の位置条件で限定する両下位ノード21の
合成処理条件24を上位ノード22とする、2進木の木
構造23の複合検索に変換する(図3(a))。新たな検
索語が3つ以上あるときは、2進木を階層的に並べて、
2進木の木構造23に変換する(図3(b))(これによ
り、この発明の第1検索条件変換手段を実現してい
る)。図3(a)は、受け付けた検索語が“原子力発電”
であるときに、この検索語を覆う索引語13が、“原子
力”、“発電”であるときの例であり、図3(b)は、受
け付けた検索語が“原子力発電”であるときに、この検
索語を覆う索引語13が、“原子力”、“発電”、“設
備”であるときの例である。
Then, in this case, as shown in FIG.
The search condition received by the server 3 is compared with the search by index matching for each of the two new search words.
Then, by comparing the search results of both lower nodes 21, the combination processing condition 24 of both lower nodes 21 limited by the position condition of both new search terms is set as the upper node 22. Convert to search (FIG. 3 (a)). When there are three or more new search terms, the binary trees are arranged hierarchically,
It is converted to a tree structure 23 of a binary tree (FIG. 3B) (this implements the first search condition conversion means of the present invention). FIG. 3A shows that the received search term is “nuclear power”
Is an example in which the index words 13 covering this search word are “nuclear power” and “power generation”, and FIG. 3B shows a case where the received search word is “nuclear power generation”. This is an example in which the index words 13 covering this search word are “nuclear power”, “power generation”, and “equipment”.

【0141】そして、この変換後の検索条件に従い、上
位ノード22の処理を行なう。すなわち、索引照合によ
り、新たな検索語の各々の識別子14と出現位置15の
情報を取得して比較し、新たな検索語同士で同一識別子
14があるときに、その識別子14に対応する文書中で
新たな検索語の出現位置15を比較して、上位ノード2
2の位置条件に合致するか否かを判断し、すべての上位
ノード22で合致する文書の表示を検索結果としてクラ
イアント2に出力する。この出現位置15の比較は、新
たな検索語のうち、文書頻度が小さいものから順に行な
う(これにより、この発明の複合検索手段を実現してい
る)。すなわち、図3(b)の例で、“原子力”、“発
電”、“設備”の順に文書頻度が小さいときは、まず、
“原子力”が出現する文書の中で“発電”も出現する文
書に限定し、この文書の中で、文書中の“原子力”と
“発電”の出現位置が下層の上位ノード22の位置条件
に合致するか否かを判断する。そして、合致するものが
ある文書の中で“設備”も出現する文書に限定し、この
文書の中で上層の上位ノード22の位置条件に合致する
か否かを判断して、最終的な検索結果を取得する。
Then, the processing of the upper node 22 is performed according to the converted search condition. That is, the information of the identifier 14 and the appearance position 15 of each new search word is obtained and compared by index matching, and when the same identifier 14 is present among the new search words, the information corresponding to the identifier 14 in the document corresponding to the identifier 14 is obtained. Compare the appearance position 15 of the new search word with
It is determined whether or not the position condition 2 is satisfied, and the display of the document that matches at all the upper nodes 22 is output to the client 2 as a search result. The comparison of the appearance position 15 is performed in the order of a new search word in which the document frequency is low (this implements the complex search means of the present invention). That is, in the example of FIG. 3B, when the document frequency is low in the order of "nuclear power", "power generation", and "equipment", first,
In the document in which "nuclear power" appears, the "power generation" is limited to those in which the power generation appears. In this document, the appearance positions of "nuclear power" and "power generation" Determine whether they match. Then, the document is limited to those in which “equipment” also appears in the document having a match, and it is determined whether or not the position condition of the upper node 22 in this document is matched. Get the result.

【0142】このように、下位ノード21の各々の文書
頻度を見積ることで、検索条件評価の中間結果を得られ
れば、文書頻度の小さい順に評価を行なうことで、この
中間結果を早めにしぼり込めるので、文書検索処理を従
来より高速化することができる。
As described above, if an intermediate result of the search condition evaluation can be obtained by estimating the document frequency of each of the lower nodes 21, the intermediate results can be narrowed down earlier by performing the evaluation in ascending document frequency. Therefore, the document search process can be performed at a higher speed than before.

【0143】また、この場合に、図3に示すような木構
造23の2進木を作る際に、与えられた検索語を覆う索
引語13の、検索語の中での順番どおりに2進木の下位
ノード21を組み合わせるのではなく、文書頻度の小さ
い下位ノード21の順に2進木に変換し、この変換によ
り文書頻度の小さい下位ノード21ほど木構造23の下
層となるようにしている(これにより、この発明の第1
検索条件変換手段を実現している)。これにより、より
下層でより末端ノードに近いほど、文書頻度の小さい下
位ノード21となるので、さらに中間結果を早めにしぼ
り込むことができ、さらに文書検索処理を高速化するこ
とができる。
In this case, when a binary tree having a tree structure 23 as shown in FIG. 3 is created, the index words 13 covering a given search word are converted into binary numbers in the order of the search word. Instead of combining the lower nodes 21 of the tree, the lower node 21 having the lower document frequency is converted into a binary tree in order, and the lower node 21 having the lower document frequency is lower in the tree structure 23 by this conversion (this Thus, the first aspect of the present invention
It implements search condition conversion means). As a result, the lower node, which is closer to the terminal node, becomes the lower node 21 with a lower document frequency, so that the intermediate result can be narrowed down earlier and the document search processing can be further speeded up.

【0144】与えられた検索語が索引登録されている索
引語13で覆うことができないときは、検索結果は必ず
空になる。このようなときは、2進木に変換するのでは
なく、検索条件の評価の際には直ちに空の検索結果を返
す末端ノードに変換する(これにより、この発明の第1
検索条件変換手段を実現している)。
When the given search word cannot be covered by the index word 13 registered in the index, the search result always becomes empty. In such a case, instead of converting to a binary tree, it is converted to a terminal node that returns an empty search result immediately at the time of evaluation of a search condition.
It implements search condition conversion means).

【0145】よって、検索条件の評価の際に直ちに空の
検索結果を返して、検索処理を高速化することができ
る。
Therefore, an empty search result is immediately returned when the search condition is evaluated, and the search processing can be speeded up.

【0146】以下では、合成処理条件24の具体的内
容、様々な検索条件への対応などについて説明する。
In the following, the specific contents of the synthesizing processing conditions 24 and the correspondence to various search conditions will be described.

【0147】1.新たな検索語間の距離を合成処理条件
24とする場合について 以下では、木構造23の2進木の構造を、“合成処理条
件(合成される条件1、合成される条件2、…、合成さ
れる条件m)”の形式で記載する。
[0147] 1. A case where the distance between new search words is used as the synthesis processing condition 24 Hereinafter, the structure of the binary tree of the tree structure 23 is referred to as “synthesis processing conditions (synthesis condition 1, synthesis condition 2,..., Synthesis). Condition m) ”.

【0148】最初の例は、新たな両検索語の位置条件
を、“検索条件中の検索語を覆う2つの索引語(新たな
2つの検索語)q1,q2の先頭がn文字分ずれてい
て、出現順が一定、すなわち正順序であって逆順序でな
いこと”とするもので(これにより、この発明の第1検
索条件変換手段を実現している)、この位置条件を、以
下では、“#distance〔n〕(q1,q2)”
と表記する。図3(b)の例では、図4に示すとおりとな
る。合成処理条件24による合成後の文書頻度は実際に
合成しないと不明であるが、近似を試みることはでき
る。検索条件qの文書頻度を“DF(q)”、q1とq
2とのうち小さい方の値をとることを、“min{q
1,q2}”と表記すると、“#distance
〔n〕(q1,q2)”の文書頻度は、 “0≦DF(#distance〔n〕(q1,q2)) ≦min{DF(q1),DF(q2)}” …… (1) となる。
In the first example, the position condition of both new search terms is set to “two index terms (two new search terms) q1 and q2 covering the search terms in the search conditions are shifted by n characters. The order of appearance is constant, that is, the order is forward, not the reverse. "(Thus, the first search condition conversion means of the present invention is realized). “#Distance [n] (q1, q2)”
Notation. In the example of FIG. 3B, the result is as shown in FIG. Although the document frequency after combination according to the combination processing condition 24 is unknown unless it is actually combined, an approximation can be attempted. The document frequency of the search condition q is "DF (q)", q1 and q
Taking the smaller value of 2 and “min {q
1, q2}, “#distance
The document frequency of [n] (q1, q2) ”is“ 0 ≦ DF (#distance [n] (q1, q2)) ≦ min {DF (q1), DF (q2)} ”(1) Become.

【0149】そこで、(1)式の範囲内で、“DF(#
distance〔n〕(q1,q2))”の値を適当
な値に近似すればよい。例えば、上限値である、“mi
n{DF(q1),DF(q2)}”に近似することが
できる。
Therefore, within the range of equation (1), "DF (#
distance [n] (q1, q2)) "may be approximated to an appropriate value. For example, the upper limit," mi "
n {DF (q1), DF (q2)} ".

【0150】このように、新たな2つの検索語の出現位
置の距離を上位ノードの位置条件とし、この位置条件を
文書頻度の小さい方から評価することにより、不要な索
引照合を省いて、文書検索速度を向上することができ
る。
As described above, the distance between the appearance positions of the two new search words is used as the position condition of the upper node, and this position condition is evaluated from the one with the lower document frequency, thereby eliminating unnecessary index matching and eliminating the document. Search speed can be improved.

【0151】2.検索条件に複数の検索語の論理演算を
含む場合について 複数の検索語の積集合や和集合を意味する集合演算(論
理演算)も、一般的に文書検索に利用されている。そこ
で、以下では、このような論理演算を含んでいる場合の
処理について説明する。
2. Regarding a case where a search condition includes a logical operation of a plurality of search words A set operation (logical operation) meaning an intersection or union of a plurality of search words is also generally used for document search. Therefore, a process in a case where such a logical operation is included will be described below.

【0152】このような場合には、各検索語を覆う索引
語の各々を検索語として見積もった文書頻度に基づい
て、各検索語の検索を下位ノード21に、この下位ノー
ドの前記論理演算を合成処理条件24として上位ノード
22にする複合検索の木構造23に変換する(これによ
り、この発明の第2検索条件変換手段を実現してい
る)。
In such a case, based on the document frequency estimated as each of the index words covering each search word as a search word, the search for each search word is made to the lower node 21 and the logical operation of this lower node is performed. The composite search condition 24 is converted into a complex search tree structure 23 to be the upper node 22 (this implements the second search condition conversion means of the present invention).

【0153】(1)複数の検索語が積集合で結ばれてい
る場合について 複数の検索語q1,q2,……の積集合を“#and
(q1,q2,……)”で表記することにすると、この
“#and(q1,q2,……)”を含む検索条件の解
析は図5に示す例のようになる。
(1) Regarding a case where a plurality of search terms are connected by an intersection set The intersection of a plurality of search terms q1, q2,...
(Q1, q2,...) ", The analysis of the search condition including"#and (q1, q2,...) "Is as shown in FIG.

【0154】この積集合による合成の場合も、“#di
stance〔n〕(q1,q2)”の場合と同様に、
文書頻度の小さい方から評価していった方が速くしぼり
込むことができるので、文書検索処理を高速化すること
ができる。
In the case of the synthesis by this intersection, "#di
stance [n] (q1, q2) ",
Evaluating from the one with the lowest document frequency can narrow down faster, so that the document search processing can be sped up.

【0155】しかし、“#distance〔n〕(q
1,q2)”が2進木であるのに対し、“#and(q
1,q2,……)”は多進木であるので、検索条件評価
の途中で見積り文書頻度を比較するのは非効率である。
そこで、予め見積り文書頻度の小さい順に並べなおす、
すなわち、文書頻度の小さい下位ノード21の順に木構
造23に変換し、この変換により文書頻度の小さい下位
ノード21ほど木構造23の下層となるようにする(こ
れにより、この発明の第2検索条件変換手段を実現して
いる)。これにより、早めに結果をしぼり込むことがで
きるので、文書検索速度を高速化することができる。例
えば、検索条件に、“#and(カラー,イメージ,プ
リンタ)”があり、“DF(イメージ)<DF(カラ
ー)<DF(プリンタ)”であるときは、“#and
(イメージ,カラー,プリンタ)”と変換する。
However, “#distance [n] (q
1, q2) "is a binary tree, whereas"#and (q
1, q2,...) "Is a multi-ary tree, and it is inefficient to compare estimated document frequencies during the evaluation of search conditions.
Therefore, it is necessary to rearrange the estimated document frequency in ascending order.
That is, the lower node 21 having the lower document frequency is converted into the tree structure 23 in the order, and the lower node 21 having the lower document frequency becomes lower in the tree structure 23 by this conversion. Conversion means). As a result, the result can be narrowed down earlier, so that the document search speed can be increased. For example, when the search condition includes “#and (color, image, printer)” and “DF (image) <DF (color) <DF (printer)”, “#and (color, image, printer)”
(Image, color, printer) ".

【0156】“#and(q1,q2,……)”で合成
される条件に、“#and(q1,q2,……)”を含
むような入れ子構造になっているときは、その入れ子構
造を解いて平坦化しても論理演算の意味に変動はない。
そして、入れ子構造のままで見積り文書頻度による並べ
替えを行なうと、並べ替えの範囲が不必要に狭くなり、
効率が悪くなることがある。例えば、“DF(q2)<
DF(q3)<DF(q4)<DF(q1)”である場
合、“#and(#and(q1,q2),q3,q
4)”に、入れ子構造のまま並べ替えを施すと、“#a
nd(#and(q2,q1),q3,q4)”となる
が、入れ子構造を解いて並べ替えると、“#and(q
2,q3,q4,q1)”となり、この方が早期のしぼ
り込みを期待でき、文書検索を高速化することができる
(これにより、この発明の第2検索条件変換手段を実現
している)。例えば、“#and(#and(カラー,
イメージ),プリンタ)”で、“DF(イメージ)<D
F(カラー)<DF(プリンタ)”であるときは、入れ
子構造を解いて、“#and(カラー,イメージ,プリ
ンタ)”とし、並べ替えを行なって、“#and(イメ
ージ,カラー,プリンタ)”に変換する。また、末端の
ノードが文書頻度が正確であるのに対して、中間ノード
の文書頻度は近似値であるから、合成処理演算の階層は
少ない方が見積り誤差が少なくなるという利点もある。
If the condition synthesized by “#and (q1, q2,...)” Includes a nested structure including “#and (q1, q2,...)”, The nested structure There is no change in the meaning of the logical operation even if it is solved and flattened.
And if you sort by the estimated document frequency with the nested structure, the range of sorting becomes unnecessarily narrow,
Efficiency may be reduced. For example, "DF (q2) <
If DF (q3) <DF (q4) <DF (q1), “#and (#and (q1, q2), q3, q
4) is rearranged with the nested structure, “#a
nd (#and (q2, q1), q3, q4) ", but if the nested structure is solved and rearranged,"#and (q
2, q3, q4, q1) ", which can be expected to be narrowed down earlier and can speed up the document search (thus realizing the second search condition conversion means of the present invention). For example, "#and (#and (color,
Image), printer) ”,“ DF (image) <D
When F (color) <DF (printer), the nesting structure is solved, and “#and (color, image, printer)” is rearranged, and “#and (image, color, printer)” is rearranged. In addition, since the document frequency of the terminal node is accurate while the document frequency of the intermediate node is an approximate value, there is an advantage that the estimation error decreases as the number of layers of the synthesis processing operation decreases. There is also.

【0157】また、積集合の場合、合成される下位ノー
ド21に1つでも空の検索結果を返すものがあれば合成
の結果も空であるから、2進木の木構造23に変換せ
ず、合成処理条件24の際には直ちに空の検索結果を返
す末端ノードに変換する。これにより、文書検索処理を
高速化することができる(これにより、この発明の第2
検索条件変換手段を実現している)。
In the case of an intersection, if at least one of the lower nodes 21 to be synthesized returns an empty search result, the synthesis result is also empty. In the case of the synthesizing processing condition 24, it is immediately converted to a terminal node that returns an empty search result. As a result, the speed of the document search process can be increased.
It implements search condition conversion means).

【0158】なお、積集合の文書頻度は、登録されてい
る全文書数をNとすると、 min{DF(q1)+DF(q2)−N,0} ≦DF(#and(q1,q2)) ≦min{DF(q1),DF(q2)} …… (2) となる。
The document frequency of the intersection is given by: min {DF (q1) + DF (q2) -N, 0} ≤DF (#and (q1, q2)), where N is the total number of registered documents. ≦ min {DF (q1), DF (q2)} (2)

【0159】この範囲を適当な値で近似すれば、文書頻
度の見積りを行なえる。例えば、変位の上限である“m
in{DF(q1),DF(q2)}”で近似すること
ができる。
If this range is approximated by an appropriate value, the document frequency can be estimated. For example, "m" which is the upper limit of displacement
in {DF (q1), DF (q2)} ".

【0160】(2)複数の検索語が和集合で結ばれてい
る場合について 複数の検索語q1,q2,……の和集合を“#or(q
1,q2,……)”で表記することにすると、この和集
合による合成の場合は、“#and(q1,q2,…
…)”の場合とは逆に、文書頻度の大きい方から評価し
ていった方が速くしぼり込めて、文書検索処理を高速化
することができる(これにより、この発明の第2検索条
件変換手段を実現している)。
(2) Regarding a case in which a plurality of search words are connected by a union A union of a plurality of search words q1, q2,.
1, q2,...) ", And in the case of synthesis by this union,"#and (q1, q2,.
..) ”, The evaluation is performed in the order of higher document frequency, thereby narrowing down the search more quickly and speeding up the document search process. Means).

【0161】そして、“#and(q1,q2,…
…)”も多進木であるので、検索条件評価の途中で見積
り文書頻度を比較するのは非効率である。そこで、予め
見積り文書頻度の大きい順に並べなおす、すなわち、文
書頻度の大きい下位ノード21の順に木構造23に変換
していき、この変換により文書頻度の大きい下位ノード
21ほど木構造23の下層となるようにする(これによ
り、この発明の第2検索条件変換手段を実現してい
る)。これにより、早めに結果をしぼり込むことができ
るので、文書検索速度を高速化することができる。例え
ば、検索条件に、“#or(パルス変調,位置変調,P
PM)”があり、“DF(PPM)<DF(パルス)<
DF(位置変調)”であるときは、“#or(位置変
調,パルス,PPM)”と変換する。
Then, “#and (q1, q2,...)
)) Is also a multi-ary tree, it is inefficient to compare the estimated document frequencies during the evaluation of the search condition. 21 so that the lower node 21 having a higher document frequency becomes a lower layer of the tree structure 23 by this conversion (this realizes the second search condition conversion means of the present invention. As a result, the result can be narrowed down earlier, so that the document search speed can be increased, for example, when the search conditions include “#or (pulse modulation, position modulation, P
PM), and “DF (PPM) <DF (pulse) <
DF (position modulation) ", it is converted to"#or (position modulation, pulse, PPM) ".

【0162】また、積集合の場合と同様、和集合の場合
も入れ子構造を有するときは、この入れ子構造を解いて
からの方が、見積り文書頻度による処理が効果的になる
(これにより、この発明の第2検索条件変換手段を実現
している)。例えば、検索条件に、“#or(#or
(パルス変調,位置変調),PPM)”があるときに、
“DF(PPM)<DF(パルス変調)<DF(位置変
調)”であるときは、入れ子構造を解いて“#or(パ
ルス変調,位置変調,PPM)”としてから、“#or
(位置変調,パルス変調,PPM)”に並べ替える。
As in the case of the intersection, if the union also has a nested structure, the processing based on the estimated document frequency becomes more effective after the nested structure is solved (thereby, this is the case). (A second search condition conversion means of the invention is realized.) For example, "#or (#or
(Pulse modulation, position modulation), PPM)
If “DF (PPM) <DF (pulse modulation) <DF (position modulation)”, the nested structure is solved to “#or (pulse modulation, position modulation, PPM)” and then “#or (pulse modulation, position modulation, PPM)”.
(Position modulation, pulse modulation, PPM) ".

【0163】なお、“#or(q1,q2,……)”の
文書頻度は、登録されている全文書数をNとすると、 max{DF(q1),DF(q2)−N,0} ≦DF(#or(q1,q2)) ≦min{DF(q1)+DF(q2),N} …… (3) となる。
The document frequency of “#or (q1, q2,...)” Is defined as max {DF (q1), DF (q2) −N, 0}, where N is the total number of registered documents. ≦ DF (#or (q1, q2)) ≦ min {DF (q1) + DF (q2), N} (3)

【0164】そして、この範囲を適当な値で近似すれ
ば、文書頻度の見積りを行なえる。例えば、範囲の上限
である、限界和“min{DF(q1)+DF(q
2),N}”で近似することができる。算術和“DF
(q1)+DF(q2)”がNを超えるような検索は、
大量の文書から必要な文書を見つけだそうとしている以
上、実際にはめったにないと考えられるので、算術和を
用いても実用上大差ない。
If this range is approximated by an appropriate value, the document frequency can be estimated. For example, the limit sum “min 範 囲 DF (q1) + DF (q
2), N} ". The arithmetic sum" DF
(Q1) + DF (q2) ”is greater than N.
Since it is rare to actually find the necessary document from a large number of documents, there is no practical difference in using arithmetic sum.

【0165】(3)複数の検索語が差集合で結ばれてい
る場合について 複数の検索語q1,q2,……,qmがあって、検索語
q1を含んでいるが、検索語q2,……,qmのいずれ
も含まないものを検索する、差集合による合成の場合
を、“#and−not(q1,q2,……,qm)”
と表記すると、これは“#or(q1,q2,……)”
の検索結果の補集合と、q1の検索結果との積集合を取
る論理演算と同義である。そこで、第2項以下を見積り
文書頻度の大きい順に並べれば、早めに絞り込んで文書
検索処理を高速化することができる(これにより、この
発明の第2検索条件変換手段を実現している)。例え
ば、“#and−not(空乏層,化合物,GaAs,
InP)”が検索条件に含まれていて、“DF(GaA
s)<DF(InP)<DF(化合物)”であるとき
は、“#and−not(空乏層,化合物,InP,G
aAs)”と並べ替える。
(3) A case where a plurality of search terms are connected by a difference set There are a plurality of search terms q1, q2,..., Qm, and includes the search term q1, but the search terms q2,. .., Qm are searched, and the case of combining by difference set is referred to as “# and-not (q1, q2,..., Qm)”.
, This is “#or (q1, q2,...)”
Is a synonym for a logical operation that takes the intersection of the complement of the search result and the search result of q1. Therefore, by arranging the second and subsequent terms in descending order of the estimated document frequency, it is possible to narrow down the search earlier and to speed up the document search process (this implements the second search condition conversion means of the present invention). For example, “# and-not (depletion layer, compound, GaAs,
InP) is included in the search condition, and “DF (GaA
s) <DF (InP) <DF (compound) ”,“ # and-not (depletion layer, compound, InP, G
aAs) ”.

【0166】また、第2項以下に和集合があるときは、
この和集合を解いてからの方が、見積り文書頻度による
処理が効果的である(これにより、この発明の第2検索
条件変換手段を実現している)。例えば、“#and−
not(空乏層,化合物,#or(GaAs,In
P))”が検索条件に含まれていて、“DF(GaA
s)<DF(InP)<DF(化合物)”であるとき
は、3項の和集合を解いて、“#and−not(空乏
層,化合物,InP,GaAs)”とした後、“#an
d−not(空乏層,化合物,InP,GaAs)”と
並べ替える。
When there is a union below the second term,
The process based on the estimated document frequency is more effective after solving the union (this implements the second search condition conversion means of the present invention). For example, "# and-
not (depletion layer, compound, #or (GaAs, In
P)) ”is included in the search condition, and“ DF (GaA
s) <DF (InP) <DF (compound) ”, the union of the three terms is solved to obtain“ # and-not (depletion layer, compound, InP, GaAs) ”, and then“ # an-not (depletion layer, compound, InP, GaAs) ”.
d-not (depletion layer, compound, InP, GaAs) ”.

【0167】さらに、差集合の第1項が空の検索結果を
返すときは、差集合も空になるので、差集合を直ちに空
の検索結果を返すノードに変換することで、文書検索処
理の高速化を図ることができる(これにより、この発明
の第2検索条件変換手段を実現している)。
Furthermore, when the first term of the difference set returns an empty search result, the difference set is also empty. Therefore, the difference set is immediately converted to a node that returns an empty search result, and the document search processing is performed. It is possible to increase the speed (this implements the second search condition conversion means of the present invention).

【0168】なお、“#and−not(q1,q2,
……,qm)”の文書頻度は、 0≦DF(#and−not(q1,q2,……,qm)) ≦DF(q1) …… (4) となる。
Note that "# and-not (q1, q2,
.., Qm) ”is 0 ≦ DF (# and-not (q1, q2,..., Qm)) ≦ DF (q1) (4)

【0169】この範囲で、適当な値で近似すれば、文書
頻度の見積りを行なうことができる。例えば、範囲の上
限である“DF(q1)”で近似することができる。
By approximating with an appropriate value in this range, the document frequency can be estimated. For example, it can be approximated by “DF (q1)” which is the upper limit of the range.

【0170】(4)2つの検索語の出現位置間の距離の
上限を指定する場合について 複数の検索語が共通に出現する文書というだけではな
く、関連して出現する文書を検索したいというユーザの
要望に応じて、近接演算に対応した文書検索システムも
用いられている。
(4) Case of Specifying the Upper Limit of the Distance Between Appearing Positions of Two Search Terms Not only a document in which a plurality of search terms appear in common but also a user who wants to search for a document in which a related appearance appears At the request, a document search system that supports proximity calculation is also used.

【0171】近接演算の例として、出現位置間の距離の
上限を指定するものがあるが、2つの検索語q1,q2
の出現位置間の距離の上限をn字とする場合で、出現順
序を問わない場合を、“#window〔n〕(q1,
q2)”と表記することにする。このような場合は、索
引11に出現位置15の情報を含んでいるので、積集合
とみなした評価の後、位置条件による吟味を行なうこと
で容易に対応することができる。すなわち、各検索語q
1,q2の検索を下位ノード21に、この下位ノード2
1の積集合を上位ノード22にする複合検索の木構造2
3に変換し、この変換は文書頻度の小さい下位ノード2
1の順に2進木に変換し、文書頻度の小さい下位ノード
21ほど木構造23の下層となるように行なう(これに
より、この発明の第2検索条件変換手段を実現してい
る)。
As an example of the proximity calculation, there is one that specifies the upper limit of the distance between the appearance positions.
In the case where the upper limit of the distance between the appearance positions of n is n characters and the appearance order does not matter, "#window [n] (q1,
q2) ". In such a case, since the index 11 includes the information of the appearance position 15, it can be easily dealt with by performing an examination based on the position condition after the evaluation considering the intersection. That is, each search term q
1 and q2 to the lower node 21 and the lower node 2
Tree structure 2 of compound search that sets the intersection of 1 to upper node 22
3 is converted to a lower node 2 having a low document frequency.
The binary tree is converted in the order of 1, so that the lower node 21 having the lower document frequency becomes the lower layer of the tree structure 23 (this implements the second search condition conversion means of the present invention).

【0172】“#window〔n〕(q1,q2)”
の場合も、積集合の場合と同様に、この見積り文書頻度
による並べ替えで処理を高速化することができるが、そ
れは、前記のように量検索語q1,q2の出現順序を考
慮しない場合に限られる。また、入れ子構造をとる場合
でも、この入れ子構造を外すと意味が異なってしまうの
で行なわない。
"#Window [n] (q1, q2)"
In the case of, as in the case of the intersection, the processing can be speeded up by the reordering based on the estimated document frequency. However, as described above, when the appearance order of the quantity search terms q1 and q2 is not considered, Limited. In addition, even when a nested structure is adopted, the meaning is different if the nested structure is removed.

【0173】3.予備的評価について 前記した、“#distance〔n〕(q1,q
2)”や“#window〔n〕(q1,q2)”の評
価は、位置条件による吟味を必要とするため、位置条件
による吟味を伴わない評価に比べ、時間を要する。そこ
で、不要な位置条件吟味を削減することができれば、文
書検索処理を高速化することができる。“#and(#
distance〔3〕(原子力,発電),事故)”を
例にとると、“#distance〔3〕(原子力,発
電)”から評価していくことになるが、この場合、“事
故”を含まない文書に関しても“原子力”と“発電”の
位置条件吟味(この発明の例では、“原子力”と“発
電”が、この順に出現して、先頭が3文字ずれている
か、すなわち、隣接しているか否かを吟味)を行なうこ
ととなる。
[0173] 3. Preliminary Evaluation As described above, “#distance [n] (q1, q
2) ”and“ #window [n] (q1, q2) ”require examination based on the position condition, and therefore require more time than evaluation without examination based on the position condition. If the condition examination can be reduced, the document search process can be sped up.
For example, "distance [3] (nuclear power, power generation)" would be evaluated from "# distance [3] (nuclear power, power generation)". In this case, "accident" is not included. Examining the position conditions of “nuclear power” and “power generation” for the document (in the example of the present invention, “nuclear power” and “power generation” appear in this order, and the leading character is shifted by three characters, that is, Or not).

【0174】そこで、“#distance〔n〕(q
1,q2)”や“#window〔n〕(q1,q
2)”を、“#and(q1,q2)”に置き換えた粗
い評価を予備的評価として行ない、これにより予め絞り
込みを行なって、無駄な位置条件吟味を削減して、文書
検索処理を高速化することができる。
Therefore, “#distance [n] (q
1, q2) ”and“ #window [n] (q1, q
2) is replaced by “#and (q1, q2)” as a preliminary evaluation, thereby narrowing down in advance, reducing unnecessary examination of position conditions, and speeding up document search processing. can do.

【0175】すなわち、各検索語q1,q2の検索を下
位ノード21に、この下位ノード21の“#dista
nce〔n〕(q1,q2)”や“#window
〔n〕(q1,q2)”の位置条件を上位ノード22に
する複合検索の木構造23に変換する。そして、この変
換は文書頻度の小さい下位ノード21の順に2進木に変
換し、文書頻度の小さい下位ノード21ほど木構造23
の下層となるように行なう(これにより、この発明の第
1、第2予備変換手段を実現している)。そして、変換
後の木構造23での上位ノード22の処理を木構造23
中での最下位層から上位層に向けて順次実行して複合検
索の結果を作成し、上位ノード22の処理は各検索語q
1,q2間の出現位置の比較を文書頻度の小さいものか
ら順に行なう(これにより、この発明の第1、第2予備
検索手段を実現している)。あとは、この粗い評価によ
り限定された文書についてのみ、正確な評価を行なう
(これにより、この発明の複合検索手段を実現してい
る)。
That is, the search for each of the search terms q1 and q2 is made to the lower node 21, and “#dista” of this lower node 21 is searched.
nce [n] (q1, q2) "or"#window
[N] (q1, q2) "is converted into a complex search tree structure 23 with the upper node 22. This conversion is converted into a binary tree in the order of the lower node 21 with the lowest document frequency, and The lower-order lower-level node 21 has a tree structure 23
(This implements the first and second preliminary conversion means of the present invention). The processing of the upper node 22 in the tree structure 23 after the conversion is performed by the tree structure 23.
Are sequentially executed from the lowest layer to the upper layer to create a result of the compound search.
The first and second appearance positions are compared in ascending order of document frequency (this implements the first and second preliminary search means of the present invention). Thereafter, accurate evaluation is performed only on the document limited by the rough evaluation (this implements the complex search means of the present invention).

【0176】4.全順序関係をもつ識別子14を用いる
場合について 検索条件の評価は、より具体的には、その条件を満たす
文書の識別子14のリストを得るための処理(これを
“retrieve()”と表記することにする)であ
る。識別子14としては、整数や文字列などの全順序関
係をもつものを用いるのが一般的であるので、識別子1
4の下限d0を与えて、その検索条件を満たす文書の識
別子14のうちでd0以上で最小のものを得る(以下、
“lower_bound(d0)”と表記する)。こ
れにより、“retrieve()”を得る処理は、
“lower_bound(d0)”を用いて実現する
ことができる。
4. In the case of using identifiers 14 having an all-order relationship The evaluation of the search condition is, more specifically, a process for obtaining a list of identifiers 14 of documents satisfying the condition (this is described as “retrieve ()”). To). As the identifier 14, it is common to use an identifier having a total order such as an integer or a character string.
4 is given, and among the identifiers 14 of the documents satisfying the search condition, a minimum one which is equal to or greater than d0 is obtained (hereinafter, referred to as “d0”).
"Lower_bound (d0)"). Thereby, the process of obtaining “retrieve ()” is
This can be realized using “lower_bound (d0)”.

【0177】索引11のデータを電子化文書検索システ
ム1の記憶装置間で転送する際の時間や索引11を格納
する記憶装置の資源の節約のために、通常は索引11は
圧縮されており、圧縮の方式にもよるが、多くの場合、
識別子14の順序に従って走査する方が、順序を無視し
てランダムに識別子14を変更しながら走査するより
も、索引照合がはるかに高速になる場合が多い。このよ
うな索引11(これにより、この発明の索引記憶手段を
実現している)に対して、索引語13であるωと、識別
子14の下限値d0を指定されれば、ωを含む識別子1
4のうちでd0以上で最小のものを得ることができる比
較的高速な索引照合が可能になる(これにより、この発
明の第1予備照合手段を実現している)。これにより、
索引語ωの索引照合に対応する検索条件の“lower
_bound(d0)”は簡単に得ることができる。
The index 11 is usually compressed in order to save the time when transferring the data of the index 11 between the storage devices of the electronic document search system 1 and the resources of the storage device for storing the index 11, Depending on the compression method, in most cases,
In many cases, scanning according to the order of the identifiers 14 is much faster than index scanning compared to scanning while randomly changing the identifiers 14 ignoring the order. For such an index 11 (which implements the index storage means of the present invention), if the index word 13 ω and the lower limit value d0 of the identifier 14 are specified, the identifier 1 including ω
4 makes it possible to perform relatively high-speed index matching in which the smallest one can be obtained at d0 or more (this implements the first preliminary matching means of the present invention). This allows
"Lower" of the search condition corresponding to the index matching of the index word ω
_Bound (d0) "can be easily obtained.

【0178】さらに、“lower_bound(d
0)”に与えられた識別子14の下限値d0と、得られ
た識別子14と、アドレス32と、索引語ωとを関連付
けて、図6に示すような履歴テーブル31として記録し
ておいて(これにより、この発明の第1予備照合記憶手
段を実現している)、これを参照することにより、索引
照合の回数を削減することができる。
Further, “lower_bound (d
0) ”, the lower limit value d0 of the identifier 14, the obtained identifier 14, the address 32, and the index word ω are associated and recorded as a history table 31 as shown in FIG. 6 ( This implements the first preliminary collation storage means of the present invention), and by referring to this, the number of times of index collation can be reduced.

【0179】例えば、“lower_bound(1
0)”が20であれば、“lower_bound(1
1)”も、“lower_bound(15)”も20
であるので、10以上20以下の下限値d0について
は、索引照合することなく、履歴テーブル31参照によ
り、20の値を返すことができる(これにより、この発
明の第1照合範囲指定手段を実現している)。なお、履
歴テーブル31の参照だけで得られたものは履歴テーブ
ル31に追加しない。
For example, “lower_bound (1
0) ”is 20,“ lower_bound (1
1) ”and“ lower_bound (15) ”are both 20.
Therefore, for the lower limit d0 of 10 or more and 20 or less, a value of 20 can be returned by referring to the history table 31 without performing index matching (this realizes the first matching range designating means of the present invention). doing). Note that those obtained only by referring to the history table 31 are not added to the history table 31.

【0180】上位ノード22の合成処理においても、合
成処理条件24を満たす識別子14のうち、下限値d0
以上で最小のものを得て、索引語13、識別子14の下
限値d0、得られた識別子14を対応付けて履歴テーブ
ル31に記憶することで、この履歴テーブル31を参照
することにより下位ノード21の評価回数を削減するこ
とができる(これにより、この発明の第2予備照合手
段、第2予備照合記憶手段、第2照合範囲指定手段を実
現している)。
In the combining process of the upper node 22, among the identifiers 14 satisfying the combining process condition 24, the lower limit d0
The minimum one is obtained as described above, and the index term 13, the lower limit value d0 of the identifier 14, and the obtained identifier 14 are stored in the history table 31 in association with each other. Can be reduced (this implements the second preliminary collation means, the second preliminary collation storage means, and the second collation range designating means of the present invention).

【0181】ただし、“lower_bound(d
0)”の履歴をすべて記憶しておくと、その履歴が膨大
になってしまう可能性がある。そこで、最新の一定数の
もののみに限定することが望ましい(これにより、この
発明の第1、第2予備照合記憶手段を実現している)。
この場合、古い履歴を記録から消してしまうために、無
駄な索引照合や、下位ノード21の評価が発生する場合
があるが、検索条件の評価の大部分は、“retrie
ve()”を得る処理から派生するものであり、“re
trieve()”の処理では、識別子14に関して1
回走査するだけなので、最新の一つだけを履歴に残して
おけば充分である。
However, “lower_bound (d
If all the histories of “0)” are stored, the histories may become enormous. Therefore, it is desirable to limit the histories to only the latest certain number (thereby, the first aspect of the present invention). , A second preliminary collation storage means).
In this case, useless index matching and evaluation of the lower node 21 may occur because the old history is erased from the record. However, most of the evaluation of the search condition is “retrieval”.
ve () ”is derived from the process of obtaining“ re
In the process of “trieve ()”, 1
Since scanning is performed only once, it is sufficient to leave only the latest one in the history.

【0182】[発明の実施の形態2]図7は、この発明
の実施の形態2にかかる電子化文書検索システム40の
概要を示す機能ブロック図である。
[Embodiment 2] FIG. 7 is a functional block diagram showing an outline of an electronic document search system 40 according to Embodiment 2 of the present invention.

【0183】図7に示すように、この電子化文書検索シ
ステム40は、電子化された複数の登録文書中から所望
の検索語を含む文書を検索するための索引を記憶する索
引記憶手段41を備えている。この索引の見出しとして
登録される各索引語には、この索引語を含んでいる登録
文書の数である文書頻度、索引語を含む文書の文書識別
子、索引語の各登録文書内での出現回数である文書内頻
度および索引語の各登録文書内での出現位置の各情報を
対応付けて記憶している(以下では、これら索引語ごと
の一連のデータを「転置リスト」という)。
As shown in FIG. 7, the digitized document search system 40 includes an index storage means 41 for storing an index for searching for a document containing a desired search word from a plurality of digitized registered documents. Have. For each index word registered as a heading of this index, the document frequency, which is the number of registered documents containing this index word, the document identifier of the document containing the index word, the number of times the index word appears in each registered document Is stored in association with the information on the frequency of occurrence in the document and the appearance position of the index term in each registered document (hereinafter, a series of data for each index term is referred to as an “inversion list”).

【0184】文書分割手段42は、登録文書を索引語に
分割する。検索語分割手段43は、与えられた検索条件
中の検索語を索引語に分割し、また、検索語中に索引語
が1つも含まれていないときは該当文書がない旨を示す
空文書集合を作成する。
The document dividing means 42 divides the registered document into index words. The search term dividing means 43 divides the search term in the given search condition into index terms, and when no search term is included in the search term, an empty document set indicating that there is no corresponding document Create

【0185】検索条件解析手段44は、検索条件を解析
して、この検索条件から、検索語分割手段43が取得し
た索引語と空文書集合とのうちの少なくとも一方を演算
子で合成した検索条件木を生成する。
The search condition analysis means 44 analyzes the search condition and, based on the search condition, a search condition obtained by combining at least one of the index word acquired by the search word division means 43 and the empty document set with an operator. Generate a tree.

【0186】検索条件評価手段45は、検索条件木に基
づき、索引から索引語に関する情報を取得して検索結果
合成処理を実行し、検索結果を得る。
The search condition evaluation means 45 obtains information on the index term from the index based on the search condition tree, executes a search result synthesizing process, and obtains a search result.

【0187】(1)nを1以上の整数としたときに、文
書分割手段42は登録文書を一律にn文字の連鎖である
索引語に分割する。これにより、膨大な単語辞書を必要
とする形態素解析を用いる手法と比較して、単語辞書の
管理などの手間を省くことができる。
(1) When n is an integer of 1 or more, the document dividing means 42 uniformly divides the registered document into index words which are a chain of n characters. As a result, it is possible to save trouble such as managing a word dictionary, as compared with a method using morphological analysis that requires a huge word dictionary.

【0188】すなわち、例えば、文書1=“あああ”、
文書2=“あいうえお”、文書3=“あいえ”、文書4
=“いう”を登録していたとすると、n=1なら索引に
は図8のような情報が記録されることになる。ここに、
各文書ごとの出現情報は{,}で囲まれた範囲がひとつ
の文書に対応していて、この{,}内の1番目のフィー
ルドが文書識別子、2番目のフィールドが文書内頻度、
3番目のフィールド(“(,)”で囲まれている)が出
現位置である。
That is, for example, document 1 = “Oh”,
Document 2 = "Aieo", Document 3 = "Aye", Document 4
If "=" is registered, if n = 1, information as shown in FIG. 8 is recorded in the index. here,
In the appearance information for each document, the range enclosed by {,} corresponds to one document, the first field in {,} is the document identifier, the second field is the frequency in the document,
The third field (enclosed by "(,)") is the appearance position.

【0189】検索条件が、検索語の単体で、あるいは、
複数の検索語をAND,ORなどの演算子により結合し
た形式で与えられた場合、まず検索語分割手段43が、
n文字連鎖で索引に記録されている索引語に分割する。
検索条件解析手段44は、検索語が1つの索引語になる
場合はその索引語のみからなる、検索語が2つ以上の索
引語に分割される場合にはそれらの索引語の出現位置間
の距離を指定する位置演算子で、それぞれ合成した検索
条件木を作成する。検索語を、検索語を覆う索引語に分
割できないときは、検索語分割手段43が空文書集合を
出力し、検索条件解析手段44が空文書集合のみからな
る検索条件木を作成する。
When the search condition is a single search word, or
When a plurality of search terms are given in a form combined by operators such as AND and OR, first, the search term division means 43
It is divided into index words recorded in the index in an n-character chain.
The search condition analysis means 44 includes only the index word if the search word is one index word, and if the search word is divided into two or more index words, the search condition A search condition tree synthesized by each of the position operators specifying the distance is created. If the search word cannot be divided into index words covering the search word, the search word dividing means 43 outputs an empty document set, and the search condition analyzing means 44 creates a search condition tree consisting of only the empty document set.

【0190】いま、“#distance〔x〕(A,
B)”で索引語Aと索引語Bが距離x文字にある文書を
検索することを指定するものとする。例えば、n=1
で、検索語が「あいう」であれば、検索語分割手段43
は検索語を3個の索引語「あ」「い」「う」に分割し、
検索条件解析手段44は、#distance〔2〕
(#distance〔1〕(あ,い),う)に相当す
る検索条件木を作成する。
Now, “#distance [x] (A,
B) "designates a search for a document in which the index words A and B are at a distance x characters. For example, n = 1.
If the search word is “Ai”, the search word dividing means 43
Splits the search term into three index words, "a", "i", "u",
The search condition analysis means 44 performs #distance [2]
A search condition tree corresponding to (#distance [1] (a, i), u) is created.

【0191】そして、検索条件評価手段45は、「あ」
「い」「う」に関する転置リストを読み出して、これら
3つの索引語が同時に出現しており、かつ、「あ」
「い」の距離が1である場合の「あ」の出現位置と、
「う」の距離が2であるものを探し出す検索結果合成処
理を行なう。この場合、文書2のみがこれに該当してお
り、これが検索結果となる。
Then, the retrieval condition evaluation means 45 outputs "a"
The transposed list for “i” and “u” is read, and these three index words appear simultaneously, and “a”
The appearance position of "a" when the distance of "i" is 1;
A search result synthesizing process for searching for an object whose distance of “U” is 2 is performed. In this case, only document 2 corresponds to this, and this is the search result.

【0192】前記の場合に、nが2以上で、検索語がn
文字未満である場合も正しく検索できるようにするため
には、次のような処理を行なう。すなわち、検索語分割
手段43でm文字目(mは1以上で(n−m+1)以下
である整数)から検索語と一致するすべての索引語を索
引から取り出し、検索条件解析手段44で、検索語分割
手段43が取り出した複数の索引語を複数の検索結果の
和集合をとる和集合演算子で合成する。
In the above case, when n is 2 or more and the search word is n
The following processing is performed so that a search can be correctly performed even when the number of characters is less than characters. That is, the search term dividing unit 43 extracts all index terms that match the search term from the mth character (m is an integer of 1 or more and (nm + 1) or less) from the index. The plurality of index words extracted by the word division means 43 are synthesized by a union operator that takes the union of a plurality of search results.

【0193】例えば、前記の例で、n=2のときの索引
は図9に示すとおりである。m=1の場合に、検索語が
「あ」であれば、検索語分割手段43は「ああ」「あ
い」を出力し、検索条件解析手段44は、“#or(あ
あ,あい)”という検索条件木をつくる。ここで、“#
or(A,B)”は索引語Aを含む文書集合と、索引語
Bを含む文書集合の和集合を検索することを指定するも
のである。この場合には、前記の例で文書1,2,3が
検索結果となる。
For example, in the above example, the index when n = 2 is as shown in FIG. If m = 1 and the search term is “A”, the search term division unit 43 outputs “Ah” and “Ai”, and the search condition analysis unit 44 calls “#or (Oh, Ai)”. Create a search condition tree. here,"#
or (A, B) "designates to search for the union of the document set including the index term A and the document set including the index term B. In this case, in the above example, the document 1, the document 1, 2 and 3 are the search results.

【0194】nが2以上で、検索語がn文字以上である
場合、次のような処理を行なうことで、無駄な索引語の
処理を省いて検索処理を高速化することができる。
When n is 2 or more and the search word is n characters or more, the following processing can be performed to eliminate unnecessary use of index words and speed up the search processing.

【0195】たとえば、検索語が「あいうえ」であれ
ば、前記の例で、“#distance〔2〕(#di
stance〔1〕(あい,いう),うえ)”が検索条
件木として作成される。しかし、“#distance
〔2〕(あい,うえ)”という検索条件木を満たす文書
は、必ず“#distance〔1〕(あい,いう)”
を満たしているので、無駄な位置のつき合わせ処理を行
なってしまう。そこで、このような場合は、検索語分割
手段43は検索語を覆う最小個数の索引語に分割して、
検索を効率化する。すなわち、この例であれば、検索語
からは「あい」「うえ」の2つの索引語だけに分割さ
れ、“#distance〔2〕(あい,うえ)”とい
う検索条件木が作成される。
For example, if the search word is “aiue”, “#distance [2] (#di
"stand [1] (i, say, upper)" is created as a search condition tree. However, "#distance"
A document that satisfies the search condition tree “[2] (Ai, Ue)” is always “#distance [1] (Ai, Say)”.
Is satisfied, a useless position matching process is performed. Therefore, in such a case, the search term dividing unit 43 divides the search term into the minimum number of index terms covering the search term,
Streamline search. That is, in this example, the search term is divided into only two index words “Ai” and “Ue”, and a search condition tree “#distance [2] (Ai, Ue)” is created.

【0196】また、この場合に、検索語がさらに長いと
きは最小個数の索引語に分割できる場合が複数存在する
ときがある。例えば、検索語が「あいうえお」であれ
ば、「あい」「うえ」「えお」にように分割すること
も、「あい」「いう」「えお」のように分割することも
できる。この場合に、検索語分割手段43は検索語を覆
う最小個数の各索引語の文書頻度の合計が最小となるよ
うに検索語を索引語に分割する。このように文書頻度を
低減して検索処理を高速化することができる。図9の索
引では、「いう」の文書頻度が2であるのに対し、「う
え」は1であるので、検索語分割手段43は「あい」
「うえ」「えお」のように検索語を分割することとな
る。
In this case, when the search term is longer, there may be a plurality of cases where the search term can be divided into the minimum number of index terms. For example, if the search word is "aiueo", it can be divided into "ai", "ue", "eo", or "ai", "sai", "eo". In this case, the search term dividing means 43 divides the search term into index terms so that the total number of document frequencies of the minimum number of index terms covering the search term is minimized. Thus, the search frequency can be increased by reducing the document frequency. In the index shown in FIG. 9, the document frequency of “say” is 2, whereas “up” is 1, so the search word dividing means 43 outputs “ai”.
The search word is divided like "Ue" and "Eo".

【0197】(2)前記の例では、文書分割手段42、
検索語分割手段43ともに、登録文書、検索語を一律に
n文字の連鎖に分割したが、文字列の分割手段として
は、文字種に応じて抽出するnを変化させたり、異なる
nに対する分割の結果を組み合わせたりすることも考え
られる。一例として、n=1とn=2の分割の結果を組
み合わせる場合を考えると、検索語「あいうえお」に対
しては「あ」「い」「う」「え」「お」「あい」「い
う」「うえ」「えお」が得られる。
(2) In the above example, the document dividing means 42,
Both the search word dividing means 43 uniformly divides the registered document and the search word into a chain of n characters. As the character string dividing means, the extracted n is changed according to the character type, or the result of the division for different n is used. May be combined. As an example, considering the case where the results of the division of n = 1 and n = 2 are combined, for the search term "aiueo", "a", "i", "u", "e", "o", "ai" and "sai" ”,“ Ue ”and“ Eo ”are obtained.

【0198】このような場合に、検索語分割手段43が
検索語を分割して得た複数の索引語のうち、検索語を覆
う他の索引語に包含されるものは除外するようにするこ
とで、検索語を検索向きに索引語に分割して、検索処理
を高速化することができる。すなわち、前記の例で検索
語「あいうえお」に対しては、n=2のものに包含され
るn=1のものを除外した、「あい」「いう」「うえ」
「えお」が得られる。
In such a case, among the plurality of index words obtained by dividing the search word by the search word dividing means 43, those included in other index words covering the search word are excluded. Thus, the search word can be divided into index words in the search direction to speed up the search process. That is, for the search term "aiueo" in the above example, the words "ai", "sai", and "ue" are excluded, excluding n = 1 that is included in n = 2.
"Eo" is obtained.

【0199】この場合に、検索語分割手段43は検索語
を覆う最小個数の索引語に分割して、無駄な索引語の使
用を省いて検索処理の高速化を図る。また、最小個数の
索引語に分割できる場合が複数あるときは、検索語分割
手段43は検索語を覆う最小個数の各索引語の文書頻度
の合計が最小となるように検索語を索引語に分割して、
文書頻度を小さくして検索処理の高速化を図る。
In this case, the search word dividing means 43 divides the search word into the minimum number of index words that cover the search word, and eliminates use of unnecessary index words to speed up the search process. Also, when there are a plurality of cases where the search term can be divided into the minimum number of index terms, the search term dividing means 43 converts the search terms into index terms such that the sum of the document frequencies of the minimum number of index terms covering the search terms is minimized. Divide and
Reduce the document frequency to speed up the search process.

【0200】(3)前記(1)(2)の手法では、検索
語が2つ以上の索引語に分割される場合には、位置演算
子で合成した検索条件のみを用いて検索を行なってい
る。しかし、この手法だと無駄な文字位置の突き合せ処
理を生じる可能性がある。例えば(1)の例で、検索語
「あいえお」を処理すると、索引語として「あい」「え
お」が得られ、例えば、文書2=“あいうえお”に関し
ては両索引語が出現しているものの、距離の条件を満た
していないということで、該当文書なしという検索結果
が得られる。しかし、検索語に含まれる索引語「いえ」
を考慮すれば、「あい」「いえ」「えお」を同時に含む
文書は存在しないので、索引語の文書中での出現位置を
調べることなく該当文書なしと判断することができる。
(3) In the method of (1) or (2), when the search word is divided into two or more index words, the search is performed using only the search condition synthesized by the position operator. I have. However, this method may cause useless character position matching processing. For example, in the example of (1), when the search term “Aio” is processed, “Aio” and “Eo” are obtained as index terms. For example, for document 2 = “Aioe”, both index terms appear. However, since the distance condition is not satisfied, a search result indicating that there is no corresponding document is obtained. However, the index term "No" included in the search term
In consideration of the above, there is no document that simultaneously includes “Ai”, “No”, and “Eo”, so that it is possible to determine that there is no corresponding document without checking the appearance position of the index term in the document.

【0201】そこで、検索語分割手段43が検索語を2
つ以上の索引語に分割する場合は次のような処理を行な
ってもよい。すなわち、検索条件解析手段44は、検索
語の分割で得られた複数の索引語を複数の検索結果の積
集合をとる積集合演算子で合成した条件木である候補決
定用条件木と、複数の索引語から検索語を覆う最小個数
のものを選択してそれを出現位置間の距離を指定する位
置演算子で合成した条件木である詳細判定用条件木とを
作成する。そして、検索条件評価手段45は、まず候補
決定用条件木の検索結果合成処理を実行して複数の登録
文書から該当文書を検索し、次に、この検索後の登録文
書を対象に詳細判定用条件木の検索結果合成処理を実行
して検索結果を得るようにする。
Therefore, the search word dividing means 43 sets the search word to 2
When dividing into one or more index words, the following processing may be performed. That is, the search condition analysis unit 44 includes a candidate decision condition tree, which is a condition tree obtained by combining a plurality of index words obtained by dividing a search word with a product set operator that takes a product set of a plurality of search results. From the index words, and a detail judgment condition tree, which is a condition tree synthesized by a position operator that specifies a distance between appearance positions, is created. Then, the search condition evaluation means 45 first executes a search result synthesizing process of the candidate tree for the condition for candidate determination to search for a corresponding document from a plurality of registered documents, and then performs a detailed determination for the registered document after the search. A search result synthesis process is executed to obtain a search result.

【0202】これにより、詳細判定用条件木の検索結果
合成処理に先立って、候補決定用条件木の検索結果合成
処理を実行して対象となる文書に絞りをかけることによ
り、文字位置の突き合せの処理を低減して、検索処理の
高速化を図ることができる。
Thus, prior to the search result synthesizing process for the condition tree for detailed judgment, the search result synthesizing process for the candidate determining condition tree is executed to narrow down the target document, thereby matching the character positions. And the speed of the search process can be increased.

【0203】この場合に、詳細判定用条件木を、複数の
索引語から検索語を覆う最小個数のものを選択してそれ
を出現位置間の距離を指定する位置演算子で合成して作
成するのに代えて、複数の索引語から前記検索語を覆い
かつ索引語ごとの文書頻度の合計が最小となるものを選
択してそれを出現位置間の距離を指定する位置演算子で
合成して作成するようにしてもよい。
In this case, the condition tree for detailed judgment is created by selecting a minimum number of index words covering a search word from a plurality of index words and synthesizing them by a position operator for specifying a distance between appearance positions. Instead of selecting a keyword that covers the search term from a plurality of index terms and minimizes the total document frequency for each index term, synthesizes it with a position operator that specifies the distance between appearance positions. You may make it create.

【0204】(4)文書識別子、文書内頻度、出現位置
などのデータは、通常、固定長(2あるいは4バイト)
で表現される。例えば、4バイトで表現することにする
と、図8の索引語「あ」のデータは、11*4=44バ
イト=1408ビットが必要となる。これに対し、各文
書識別子を前に出現している文書識別子の値との差分を
とることで表現すると、その値は一般に小さな値となる
ので、可変長符号を用いて表現すると索引を小型化でき
る。同様に、文書内頻度は、その値を直接、可変長符号
で表現し、出現位置は文書ごとに各出現位置の前の値と
の差分を可変長符号で表現することにより、索引を小型
化することができる。
(4) Data such as a document identifier, a frequency in a document, and an appearance position are usually fixed length (2 or 4 bytes)
Is represented by For example, if the data is represented by 4 bytes, the data of the index word “A” in FIG. 8 requires 11 * 4 = 44 bytes = 1408 bits. On the other hand, if each document identifier is expressed by taking the difference from the value of the previously appearing document identifier, the value is generally a small value. it can. Similarly, the index in the document is represented by a variable length code, and the difference between the occurrence position and the value before each occurrence position is represented by a variable length code for each document. can do.

【0205】たとえば、可変長符号としてγ符号(I.H.
witten著“Managing Gigabytes”,Van Nostrand Reinh
old,1994年,84頁参照)を用いることとすると、図8
の索引語「あ」の例で、文書識別子は、各々、1,2−
1=1,3−2=1となり、この3つの1を各々“0”
で表現できる。また、文書内頻度は、3,1,1を“1
01”“0”“0”で表現できる。さらに、出現位置
は、文書1での出現が、各々、1,2−1=1,3−2
=1となり、この3つの1を各々“0"で表現でき、文
書2,3での出現はそれぞれ“0”で表現できる。結
局、この場合の転置リストのデータは、{“0”,“1
01”,(“0”,“0”,“0”)},{“0”,
“0”,(“0”)},{“0”,“0”,
(“0”)}のように表現できるので、3*1+(3+
1+1)+(3*1+1+1)=13ビットのデータ量
ですむ。
For example, a γ code (IH
“Managing Gigabytes” by witten, Van Nostrand Reinh
old, 1994, p. 84).
In the example of the index term “A”, the document identifiers are 1,2-
1 = 1, 3-2 = 1, and these three 1s are each set to “0”
Can be expressed by In addition, the frequency in the document is changed from 3,1,1 to “1”.
01, “0”, and “0.” Further, the appearance positions are as follows: 1,2-1 = 1,3-2
= 1, and these three 1s can be represented by “0”, and the appearances in documents 2 and 3 can be represented by “0”. After all, the data of the transposition list in this case is $ “0”, “1”.
01 ", (" 0 "," 0 "," 0 ")}, {" 0 ",
“0”, (“0”)}, {“0”, “0”,
(“0”)} so that 3 * 1 + (3+
1 + 1) + (3 * 1 + 1 + 1) = 13 bits of data.

【0206】しかしながら、このように圧縮した索引で
は、ある転置リストを処理するためには伸長処理が必要
となるので、検索処理を遅くする可能性がある。しか
も、検索語が「あ」であれば、検索処理においては出現
位置は必要ないにもかかわらず、索引が圧縮されている
と、その出現位置を伸長しなければ2番目以降の文書識
別子を得ることができない。
However, in the case of such a compressed index, decompression processing is required to process a certain inverted list, so that the search processing may be delayed. In addition, if the search term is "A", although the appearance position is not required in the search process, if the index is compressed, the second and subsequent document identifiers are obtained unless the appearance position is expanded. Can not do.

【0207】そこで、索引は、索引語ごとに、各文書識
別子と各文書内頻度および各出現位置とで格納する領域
を分けて、文書識別子だけを伸長処理すればよいように
して、検索処理を高速化することができる。
Therefore, the index is divided into areas for storing each document identifier, each document frequency, and each occurrence position in each document, and only the document identifier is decompressed. Speed can be increased.

【0208】例えば、前記の例で、文書識別子を記録す
るデータを、{“0”},{“0”},{“0”}と
し、文書内頻度および出現位置のデータを、{“10
1”,(“0”,“0”,“0”)},{“0”,
(“0”)},{“0”,(“0”)}として分けて記
録する。
For example, in the above example, the data for recording the document identifier is {“0”}, {“0”}, {“0”}, and the data of the frequency and appearance position in the document is {“10”.
1 ", (" 0 "," 0 "," 0 ")}, {" 0 ",
(“0”)} and {“0”, (“0”)}.

【0209】しかし、この場合に、特定の文書識別子の
文書に関して位置の突き合せを行なうときには、その文
書までの文書内頻度、出現位置を全て伸長処理しなけれ
ばならない。
However, in this case, when position matching is performed on a document having a specific document identifier, all the frequencies and appearance positions in the document up to that document must be expanded.

【0210】そこで、索引語ごとの各文書ごとに対応し
て、文書頻度および出現位置を表現するのに必要なビッ
ト数である文書内頻度出現位置表現ビット数を可変長符
号で表現したデータを保持するようにする。これによ
り、文書内頻度出現位置表現ビット数を参照することに
より、必要とする文書の文書頻度、出現位置のデータが
どこにあるかがわかるので、不要な文書については文書
頻度、出現位置のデータを伸長する必要がなくなり、文
書頻度、出現位置を参照する場合に伸長するデータ量を
少なくして、検索処理を高速化することができる。
Therefore, data representing the number of bits representing the frequency of occurrence in the document, which is the number of bits necessary to represent the document frequency and the occurrence position, in a variable length code, corresponding to each document for each index word, To keep. Thus, by referring to the number of bits representing the frequency appearance position in the document, it is possible to know where the document frequency and appearance position data of the required document are. Decompression is not required, and the amount of data to be decompressed when referring to the document frequency and the appearance position can be reduced, thereby speeding up the search process.

【0211】例えば、前記した図8に示した例で、索引
語「あ」に対する文書1の文書内頻度出現位置表現ビッ
ト数は6(γ符号で“11010”)、文書2,3の場
合はいずれも2(γ符号でいずれも“100”)なの
で、前記の文書内頻度、出現位置のデータは、{“11
010”,“101”,(“0”,“0”,
“0”)},{“100”,“0”,(“0”)},
{“100”,“0”,(“0”)}のように表現する
ことができる。この例で、3番目に位置する文書3に関
する文書内頻度、出現位置を参照したい場合、はじめの
2文書に関しては、文書内頻度出現位置表現ビット数の
みを伸長して、そのビット数だけシフトすることで、3
番目の文書に関する文書内頻度、出現位置を得るための
位置を求めることができる。
For example, in the example shown in FIG. 8 described above, the number of bits in the document 1 for the index term “A” is 6 (“11010” in γ code), and in the case of documents 2 and 3, Since both are 2 (γ code is all “100”), the data of the frequency and the appearance position in the document is {“11
010 "," 101 ", (" 0 "," 0 ",
“0”)}, {“100”, “0”, (“0”)},
It can be expressed as {{100}, “0”, (“0”)}. In this example, when the user wants to refer to the frequency and appearance position in the document related to the third document 3, only the number of bits representing the frequency appearance position in the document is expanded for the first two documents and shifted by the number of bits. By 3
The position for obtaining the frequency in the document and the appearance position of the second document can be obtained.

【0212】一方、このような処理では、文書内頻度出
現位置表現ビット数を記録するために索引が大型化する
とともに、文書内頻度、出現位置が必要な文書に関して
は、文書内頻度出現位置表現ビット数を伸長することが
余分な処理として発生する。そこで、文書内頻度が指定
された閾値以上である場合に限って出現位置を表現する
のに必要なビット数である出現位置表現ビット数を可変
長符号で表現したものを記録するようにする。例えば、
図8の前記の例で、閾値を2とすれば、文書内頻度が3
である文書1にのみ出現位置表現ビット数3(γ符号で
“101”)が記録され、文書内頻度、出現位置のデー
タは、{“101”,“101”,(“0”,“0”,
“0”)},{“0”,(“0”)},{“0”,
(“0”)}となる。ここで、先頭の文書1の{,}内
の2番目にある“101”が出現位置表現ビット数であ
る。このように、2番目に置いたのは、検索時には、ま
ず文書内頻度を伸長した後でないと出現位置ビット数が
記録されているのか否かが判定できないためである。
On the other hand, in such a process, the index becomes large in order to record the number of bits representing the frequency occurrence position in the document, and for documents that require the frequency and appearance position in the document, the frequency appearance position expression in the document is required. Extending the number of bits occurs as extra processing. Therefore, only when the frequency in the document is equal to or more than the specified threshold value, the number of bits representing the appearance position, which is the number of bits required to represent the appearance position, is recorded in a variable length code. For example,
In the above example of FIG. 8, if the threshold is 2, the frequency in the document is 3
, The appearance position expression bit number 3 (“101” in γ code) is recorded only in the document 1, and the data of the frequency and appearance position in the document are {“101”, “101”, (“0”, “0” ”,
“0”)}, {“0”, (“0”)}, {“0”,
(“0”)}. Here, the second "101" in {,} of the first document 1 is the number of appearance position expression bits. As described above, the second reason is that at the time of retrieval, it is impossible to determine whether or not the number of appearance position bits has been recorded only after the frequency in the document is expanded.

【0213】なお、文書内頻度出現位置表現ビット数、
出現位置表現ビット数は、前記の説明から明らかなよう
に、文書内頻度および出現位置を格納する領域内に格納
する。
Note that the number of bits representing the frequency appearance position in the document,
As is clear from the above description, the number of appearance position expression bits is stored in an area for storing the frequency in the document and the appearance position.

【0214】(5)前記(1)の場合で、m=1であれ
ば、和集合演算子で結合される索引語は文字コード順に
ソートされたものである。これらに対応する転置リスト
が索引ファイルの近接した領域に格納されていれば、デ
ータの読み出しが高速化できるので、検索処理も高速に
なる。そこで、索引は、索引語ごとの転置リストを文字
コード順にソートしてファイルに格納している。
(5) In the case of the above (1), if m = 1, the index terms combined by the union operator are sorted in the order of the character codes. If the transposed lists corresponding to these are stored in an area adjacent to the index file, the data reading can be speeded up, and the search processing can also be speeded up. Therefore, in the index, the transposed list for each index word is sorted in character code order and stored in a file.

【0215】(6)新聞記事1年分のような大規模な文
書データベースを考えた場合、索引のファイルからのデ
ータの読み書きの効率化が重要である。ハードディスク
装置からのデータの読み書きは、適当な大きさの固定長
ブロック単位で行われるので、索引の読み出しも、この
ブロックの整数倍の固定長ブロックであるページ単位で
行なう。この場合、実際の文書における索引語の出現頻
度にはばらつきがあるため、各索引語の転置リストの大
きさにもばらつきがでる。
(6) When considering a large-scale document database for one year of newspaper articles, it is important to improve the efficiency of reading and writing data from the index file. Since reading and writing of data from the hard disk device is performed in fixed-length block units of an appropriate size, index reading is also performed in page units that are fixed-length blocks that are integral multiples of this block. In this case, since the frequency of appearance of the index words in the actual document varies, the size of the inverted list of each index word also varies.

【0216】そこで、転置リストの大きさがページより
所定程度小さいものは、1つのページに1つ以上の転置
リストを同時に格納し、転置リストの大きさがページよ
り大きいものは複数のページを用いて格納する。このよ
うにすることで、小さな転置リストを効率的に格納で
き、また、転置リストの大きさの上限を取り払うことが
できる。
If the transposed list is smaller than the page by a predetermined degree, one or more transposed lists are stored in one page at the same time. If the transposed list is larger than the page, a plurality of pages are used. And store. In this way, a small transposition list can be stored efficiently, and the upper limit of the size of the transposition list can be eliminated.

【0217】(7)次に、前記(4)の場合と(6)の
場合とを組み合わせるような手法について説明する。大
きな転置リストがあるような索引語のみからなる検索条
件を処理する場合、文書内頻度、出現位置のデータは不
要である。したがって、それらをファイルから読み出す
ことは無駄な処理となり、検索処理を遅くする。そこ
で、大きな配置リストを構成するページを、文書頻度、
文書識別子とページの管理情報を格納するヘッダーペー
ジと、必要であれば文書識別子を格納する文書識別子ペ
ージと、文書内頻度、出現位置、文書内頻度出現位置表
現ビット数あるいは出現位置表現ビット数がある場合は
文書内頻度出現位置表現ビット数あるいは出現位置表現
ビット数を格納する文書内頻度出現位置ページとに分け
て格納する。その結果、文書内頻度、出現位置が不要な
場合には文書内頻度、出現位置の読み出し処理が不要に
なり、検索処理が高速化できる。
(7) Next, a method for combining the cases (4) and (6) will be described. When processing a search condition consisting of only an index term having a large inverted list, data on the frequency and appearance position in the document is unnecessary. Therefore, reading them out from the file is a useless process, and slows down the search process. Therefore, the pages that make up the large placement list are
The header page that stores the document identifier and the management information of the page, the document identifier page that stores the document identifier if necessary, the frequency in the document, the appearance position, the number of bits representing the frequency occurrence position or the number of appearance position bits in the document In some cases, the number of bits representing the frequency appearance position in the document or the number of bits representing the appearance position is stored separately for the frequency appearance position page in the document. As a result, when the frequency and the appearance position in the document are unnecessary, the reading process of the frequency and the appearance position in the document becomes unnecessary, and the search process can be sped up.

【0218】図10は、この場合の転置リストの構成例
を示すものである。同図に示すように、この転置リスト
は、文書識別子ページ(id page)、文書内頻度出現位
置ページ(loc page)、ヘッダーページ(header pag
e)にページが別れている。
FIG. 10 shows an example of the structure of the transposition list in this case. As shown in the figure, the inverted list includes a document identifier page (id page), a document frequency appearance position page (loc page), and a header page (header page).
e) The page is separated.

【0219】ヘッダーページは、文書頻度を格納するヘ
ッダー部分(header)、文書識別子ページの位置を記録
する文書識別子ページ索引(id page index)、文書内
頻度出現位置ページの位置を記録する文書内頻度出現位
置ページ索引(loc page index)、文書識別子の圧縮デ
ータの一部(last id block)、未使用部分(wastage)
から構成されている。
[0219] The header page includes a header portion for storing the document frequency, a document identifier page index (id page index) for recording the position of the document identifier page, and a frequency in the document for recording the position of the document frequency appearance position page. Appearance position page index (loc page index), part of compressed data of document identifier (last id block), unused part (wastage)
It is composed of

【0220】また、文書識別子を複数の文書識別子ペー
ジにまたがって格納し、この文書識別子ページの管理情
報である文書識別子ページ索引に文書識別子のページ番
号と各ページの先頭に記録された文書識別子とを記録す
るようにしてもよい。これにより、必要な文書識別子の
データが格納された文書識別子ページのみにアクセスす
ればよいので、検索処理を高速化することができる。図
11は文書識別子ページ索引の例である。この例で、文
書識別子1010の文書が存在しているか否かを調べる
には文書識別子ページ索引を参照して、2番目のページ
であるページ番号200の文書識別子ページを読み込め
ばよく、ページ番号100のページの読み込みを回避す
ることができる。
The document identifier is stored over a plurality of document identifier pages. The document identifier page index, which is management information of the document identifier page, stores the page number of the document identifier and the document identifier recorded at the head of each page. May be recorded. As a result, only the document identifier page in which the necessary document identifier data is stored needs to be accessed, so that the search process can be sped up. FIG. 11 is an example of a document identifier page index. In this example, to check whether or not the document with the document identifier 1010 exists, the document identifier page with the page number 200 as the second page may be read by referring to the document identifier page index. Page loading can be avoided.

【0221】さらに、図12に例を示すように、文書識
別子ページ索引には、文書識別子ページの各ページの末
尾に記録された文書識別子を記録してもよい。このよう
に、末尾の文書識別子を記録することで、文書識別子ペ
ージ索引を参照するだけで、例えば図12の例では文書
識別子1900の文書は存在しないことが確認でき文書
識別子ページにアクセスする必要がないので、検索処理
が高速化する。
Further, as shown in FIG. 12, a document identifier recorded at the end of each page of the document identifier page may be recorded in the document identifier page index. In this way, by recording the last document identifier, it is necessary to access the document identifier page only by referring to the document identifier page index and confirm that the document with the document identifier 1900 does not exist in the example of FIG. Since there is no search process, the search process speeds up.

【0222】また、文書識別子をページのサイズより小
さな固定長ブロックである文書識別子ブロックに分割し
て格納し、文書識別子ブロックごとにそのはじめの文書
の文書識別子は前の文書識別子との差分をとらずに格納
し、文書内頻度、出現位置および文書内頻度出現位表現
ビット数もしくは出現位置表現ビット数がある場合には
前記文書内頻度出現位表現ビット数または出現位置表現
ビット数は文書識別子ブロックと同じ文書の情報を格納
するブロックである文書内頻度出現位置ブロックに分割
して格納する。
Further, the document identifier is divided and stored in a document identifier block which is a fixed-length block smaller than the page size, and for each document identifier block, the difference between the document identifier of the first document and the previous document identifier is obtained. If there is a frequency in the document, an appearance position, and the number of bits of the frequency occurrence position expression or the number of occurrence position expression bits in the document, the number of bits of the frequency occurrence position expression or the number of appearance position expression bits in the document are the document identifier block. Is divided into and stored in a document frequency appearance position block, which is a block for storing information of the same document.

【0223】図13に、この場合の転置リストの一例を
示す。この転置リストは、図10のものと比較して次の
点が異なっている。すなわち、文書識別子ページ(id p
age)は固定長の文書識別子ブロック(id block)から
構成されている。文書内頻度出現位置ページ(loc pag
e)は文書内頻度出現位置ブロック(loc block)から構
成されている。各文書識別子ブロックが対応する文書内
頻度出現位置ブロックを指している。なお、文書内頻度
出現位置ブロックは必ずしも1つのページに収まらなく
てもかまわない。例えば、図13の左から3番目の文書
内頻度出現位置ブロックがこれに相当する。
FIG. 13 shows an example of the transposition list in this case. This transposition list differs from the transposition list in the following point. That is, the document identifier page (id p
age) is composed of a fixed-length document identifier block (id block). Frequency occurrence page in document (loc pag
e) is composed of a frequency occurrence position block (loc block) in the document. Each document identifier block points to the corresponding document frequency appearance position block. Note that the frequency appearance position block in the document does not necessarily have to fit on one page. For example, the third frequency occurrence position block in the document from the left in FIG. 13 corresponds to this.

【0224】大きな転置リストの構成をこのようにする
ことで、ページ内で特定の文書の存在を調べる場合は、
ページの先頭からすべての文書識別子を伸長する必要は
なく、まず各文書識別子ブロックの先頭に記録されてい
る文書識別子を使って所望の文書識別子が存在するなら
ばどのブロックにあるかを調べることができる。所望の
文書識別子が存在するとすればどのブロックにあるかを
調べるには、ブロックの先頭に記録されている文書識別
子が所望の文書識別子より大きいブロックの1つ前のブ
ロックを探せばよい。もし、比較を開始したブロックの
先頭の文書識別子がすでに所望の文書識別子より大きい
場合には現在の文書識別子ページには所望の文書識別子
は存在しておらず、そのようなブロックが見つかること
なく最終のブロックとの比較が終わった場合には所望の
文書識別子は最終ブロックそのものにあるとする。ま
た、位置の突き合せのため位置情報が必要になった場合
には、文書識別子ブロックに記録されている対応する文
書内頻度出現位置ブロックの位置情報を用いて文書内頻
度出現位置ブロックにアクセスし、所望の位置情報を取
得すればよい。以上のようにして所望の文書識別子、位
置情報が簡単に得られるので、検索処理が高速化でき
る。
By checking the existence of a specific document in a page by configuring a large transposition list in this manner,
It is not necessary to decompress all document identifiers from the beginning of the page. First, it is necessary to use the document identifier recorded at the beginning of each document identifier block to check in which block the desired document identifier is located, if any. it can. If it is determined that the desired document identifier exists, which block is located, it is sufficient to search for the block immediately before the block whose document identifier recorded at the head of the block is larger than the desired document identifier. If the first document identifier of the block from which the comparison is started is already larger than the desired document identifier, the desired document identifier does not exist in the current document identifier page, and the final block is found without finding such a block. When the comparison with this block is completed, it is assumed that the desired document identifier is in the final block itself. When the position information is needed for the position matching, the frequency appearance position block in the document is accessed using the position information of the corresponding frequency frequency position block in the document recorded in the document identifier block. , Desired position information may be obtained. As described above, the desired document identifier and position information can be easily obtained, so that the search processing can be sped up.

【0225】[0225]

【発明の効果】請求項1に記載の発明は、下位ノードの
各々の文書頻度を見積ることで、検索条件評価の中間結
果を得られれば、文書頻度の小さい順に評価を行なうこ
とで、この中間結果を早めにしぼり込めるから、文書検
索処理を高速化することができる。
According to the first aspect of the present invention, if an intermediate result of the search condition evaluation is obtained by estimating the document frequency of each lower node, the evaluation is performed in ascending order of the document frequency. Since the results can be narrowed down earlier, the document search processing can be sped up.

【0226】請求項2に記載の発明は、請求項1に記載
の発明について、下位ノードは、下層で末端ノードに近
いほど文書頻度が小さいので、さらに中間結果を早めに
しぼり込むことができるから、文書検索処理を高速化す
ることができる。
According to the second aspect of the present invention, as to the first aspect of the present invention, since the lower node is closer to the terminal node in the lower layer and has a lower document frequency, the intermediate result can be narrowed down further. In addition, the speed of the document search process can be increased.

【0227】請求項3に記載の発明は、請求項1または
2に記載の発明について、与えられた検索語が索引登録
されている索引語で覆うことができないときは、検索結
果は必ず空になるため、2進木構造に変換せず、検索条
件の評価の際には直ちに空の検索結果を返す末端ノード
に変換することができるから、文書検索処理を高速化す
ることができる。
According to a third aspect of the present invention, in the first or second aspect of the present invention, when a given search term cannot be covered by a registered index term, the search result is always empty. Therefore, when the search condition is evaluated, it can be immediately converted into a terminal node that returns an empty search result without converting to a binary tree structure, so that the document search process can be speeded up.

【0228】請求項4に記載の発明は、請求項1〜3の
いずれかの一に記載の発明について、この2進木構造を
末端ノードから順に評価していくことで予め粗い評価を
行なって検索条件に該当する文書数を絞っておくことが
可能となるから、文書検索処理を高速化することができ
る。
According to a fourth aspect of the present invention, in the first aspect of the invention, a rough evaluation is performed in advance by evaluating the binary tree structure in order from the terminal node. Since it is possible to narrow down the number of documents corresponding to the search condition, it is possible to speed up the document search process.

【0229】請求項5に記載の発明は、請求項4に記載
の発明について、第1予備変換手段による変換後の2進
木構造を用いて、粗い評価を行ない、その後、その結果
に基づいて複合検索手段による正確な評価を行なうこと
ができるから、文書検索処理を高速化することができ
る。
According to a fifth aspect of the present invention, in accordance with the fourth aspect of the present invention, a coarse evaluation is performed using the binary tree structure converted by the first preliminary conversion means, and then, based on the result, Since accurate evaluation can be performed by the complex search means, the document search process can be sped up.

【0230】請求項6に記載の発明は、請求項1〜5の
いずれかの一に記載の発明について、検索条件に複数の
検索語の論理演算を含んでいるときに、文書頻度に従い
木構造を組んでいって、下位ノードの端から評価してい
くことが可能となるから、文書検索処理を高速化するこ
とができる。
The invention according to claim 6 is the invention according to any one of claims 1 to 5, wherein, when the search condition includes a logical operation of a plurality of search words, the tree structure is determined according to the document frequency. And it is possible to evaluate from the end of the lower node, thereby speeding up the document search process.

【0231】請求項7に記載の発明は、請求項6に記載
の発明について、下位ノードの端から評価していくこと
により、論理演算が複数の検索結果の積集合の場合に早
めに最終結果に近づくことができるように小さい文書頻
度順に評価することができるから、文書検索処理を高速
化することができる。
According to the seventh aspect of the present invention, the evaluation of the sixth aspect of the invention is performed from the end of the lower node, so that the final result is obtained early when the logical operation is a set of a plurality of search results. Can be evaluated in order of small document frequency so that the document can be approached, so that the document search process can be speeded up.

【0232】請求項8に記載の発明は、請求項7に記載
の発明について、積集合で結ばれる複数の検索条件が入
れ子構造になっているときは、その入れ子構造を解いて
平坦化しても論理演算の意味に変動はなく、下位ノード
の端から評価していけるように並べ替えることができる
から、文書検索処理を高速化することができる。
According to an eighth aspect of the present invention, when a plurality of search conditions connected by an intersection set have a nested structure, the nested structure is solved and flattened. Since the meaning of the logical operation does not change and can be rearranged so as to be evaluated from the end of the lower node, the speed of the document search process can be increased.

【0233】請求項9に記載の発明は、請求項7または
8に記載の発明について、積集合演算で結ばれている検
索条件のうちに、常に空の検索結果を返す末端ノードに
変換されるものが少なくとも1つあったときは、合成の
結果も空であるから、木構造に変換せず、検索条件の評
価の際には直ちに空の検索結果を返す末端ノードに変換
することができるから、文書検索処理を高速化すること
ができる。
According to a ninth aspect of the present invention, in the invention of the seventh or eighth aspect, of the search conditions connected by the intersection operation, the search condition is converted to a terminal node that always returns an empty search result. When there is at least one, since the result of the composition is also empty, it is not converted to a tree structure, and can be immediately converted to a terminal node that returns an empty search result when the search condition is evaluated. In addition, the speed of the document search process can be increased.

【0234】請求項10に記載の発明は、請求項6〜9
のいずれかの一に記載の発明について、下位ノードの端
から評価していくことにより、論理演算が複数の検索結
果の和集合を作る和集合演算の場合に、早めに最終結果
に近づくことができるように大きい文書頻度順に評価す
ることができるから、文書検索処理を高速化することが
できる。
The invention described in claim 10 is the invention according to claims 6 to 9
By evaluating the invention according to any one of the above from the end of the lower node, in the case of a union operation in which the logical operation is a union of a plurality of search results, it is possible to approach the final result as soon as possible. Since the evaluation can be performed in the order of the largest document frequency as much as possible, the speed of the document search process can be increased.

【0235】請求項11に記載の発明は、請求項10に
記載の発明について、和集合演算で結ばれる複数の検索
条件が入れ子構造になっているときは、その入れ子構造
を解いて平坦化しても論理演算の意味に変動はなく、下
位ノードの端から評価していけるように並べ替えること
ができるから、文書検索処理を高速化することができ
る。
According to an eleventh aspect of the present invention, when a plurality of search conditions connected by a union operation have a nested structure, the nested structure is solved and flattened. Also, since the meaning of the logical operation does not change and can be rearranged so that evaluation can be performed from the end of the lower node, the document search process can be speeded up.

【0236】請求項12に記載の発明は、請求項6〜1
1のいずれかの一に記載の発明について、下位ノードの
端から評価していくことにより、文書頻度に応じた評価
が可能となり、早めに結果をしぼり込めるから、文書検
索処理を高速化することができる。
The invention according to claim 12 is the invention according to claims 6-1.
By evaluating the invention described in any one of the above from the end of the lower node, it becomes possible to evaluate according to the document frequency, and the results can be narrowed down earlier, thereby speeding up the document search process. Can be.

【0237】請求項13に記載の発明は、請求項12に
記載の発明について、下位ノードの端から評価していく
ことで、文書頻度の大きい順に評価が可能となり、早め
に結果をしぼり込めるから、文書検索処理を高速化する
ことができる。
According to the thirteenth aspect of the present invention, by evaluating the invention of the twelfth aspect from the end of the lower node, the evaluation can be performed in descending order of the document frequency, and the result can be narrowed down earlier. In addition, the speed of the document search process can be increased.

【0238】請求項14に記載の発明は、請求項12ま
たは13に記載の発明について、差集合演算で検索結果
を除外する方の検索条件のうちに和集合演算で検索条件
を結合した合成条件が含まれる場合には、この検索条件
の和集合演算とを解いて平坦化しても論理演算の意味に
変動はなく、下位ノードの端から評価していけるように
並べ替えることができるから、文書検索処理を高速化す
ることができる。
The invention according to claim 14 is the invention according to claim 12 or 13, wherein a combination of search conditions by a union operation is combined with a search condition by which a search result is excluded by a difference set operation. Is included, even if the union operation of this search condition is solved and flattened, the meaning of the logical operation does not change, and the order can be rearranged so that evaluation can be performed from the end of the lower node. The search process can be sped up.

【0239】請求項15に記載の発明は、請求項12〜
14のいずれかの一に記載の発明について、元もと空の
検索結果から何を取り除いても結果は空になるため、木
構造には変換せず、検索条件の評価の際にはただちに空
の検索結果を返す末端ノードに変換することができるか
ら、文書検索処理を高速化することができる。
[0239] The invention according to claim 15 provides the invention according to claims 12 to
Regarding the invention described in any one of 14 above, no matter what is removed from the originally empty search result, the result is empty, so that the result is not converted to a tree structure, and the search condition is evaluated immediately. Can be converted to the terminal node that returns the search result of the document search, so that the document search process can be speeded up.

【0240】請求項16に記載の発明は、請求項6〜1
5のいずれかの一に記載の発明について、子ノードの端
から評価していくことにより、位置比較を行なうまでも
なく、積集合演算でも除外できる文書を早めに除外でき
る小さい文書頻度順に評価することが可能になるから、
文書検索処理を高速化することができる。
[0240] The invention of claim 16 provides the invention according to claims 6-1.
In the invention according to any one of the aspects 5, the evaluation is performed from the end of the child node, so that the documents that can be excluded by the intersection set operation are evaluated in order of small document frequency that can be excluded earlier without performing the position comparison. It will be possible
The document search process can be speeded up.

【0241】請求項17に記載の発明は、請求項16に
記載の発明について、変換後の木構造を用いて、粗い評
価を行ない、その後、その結果に基づいて正確な評価を
行なうことが可能となるから、文書検索処理を高速化す
ることができる。
According to the seventeenth aspect of the present invention, it is possible to perform a rough evaluation using the tree structure after the conversion according to the sixteenth aspect of the present invention, and then perform an accurate evaluation based on the result. Therefore, the speed of the document search process can be increased.

【0242】請求項18に記載の発明は、請求項17に
記載の発明について、換後の木構造を用いて、粗い評価
を行ない、その後、その結果に基づいて複合検索手段に
よる正確な評価を行なうことができるから、文書検索処
理を高速化することができる。
According to the eighteenth aspect of the present invention, a rough evaluation is performed on the invention of the seventeenth aspect by using the tree structure after substitution, and then an accurate evaluation by the complex search means is performed based on the result. Therefore, the speed of the document search process can be increased.

【0243】請求項19に記載の発明は、請求項1〜1
8のいずれかの一に記載の発明について、第1予備照合
記憶手段を参照して、索引照合手段の行なう索引照合の
範囲を限定することで、索引照合を削減することができ
るから、文書検索処理を高速化することができる。
[0243] The invention according to claim 19 is the invention according to claims 1-1.
In the invention according to any one of the first to eighth aspects, the index collation can be reduced by limiting the range of the index collation performed by the index collation means with reference to the first preliminary collation storage means. Processing can be sped up.

【0244】請求項20に記載の発明は、請求項19に
記載の発明について、第1予備照合記憶手段が過大なも
のとなるのを防止できる。
According to the twentieth aspect of the present invention, it is possible to prevent the first preliminary collation storage means from being excessively large in the nineteenth aspect.

【0245】請求項21に記載の発明は、請求項1〜2
0のいずれかの一に記載の発明について、第2予備照合
記憶手段を参照して、索引照合手段の行なう索引照合の
範囲を限定することで、索引照合を削減することができ
るから、文書検索処理を高速化することができる。
The invention described in claim 21 is the first or second invention.
0, the index collation can be reduced by limiting the range of index collation performed by the index collation means with reference to the second preliminary collation storage means. Processing can be sped up.

【0246】請求項22に記載の発明は、請求項21に
記載の発明について、第2予備照合記憶手段が過大なも
のとなるのを防止できる。
According to the invention of claim 22, in the invention of claim 21, it is possible to prevent the second preliminary collation storage means from becoming too large.

【0247】請求項23に記載の発明は、下位ノードの
各々の文書頻度を見積ることで、検索条件評価の中間結
果を得られれば、文書頻度の小さい順に評価を行なうこ
とで、この中間結果を早めにしぼり込めるから、文書検
索処理を高速化することができる。
According to the twenty-third aspect of the present invention, if an intermediate result of the search condition evaluation is obtained by estimating the document frequency of each lower node, the evaluation is performed in ascending order of the document frequency. Since the search can be performed earlier, the document search process can be sped up.

【0248】請求項24に記載の発明は、請求項23に
記載の発明について、下位ノードは、下層で末端ノード
に近いほど文書頻度が小さいので、さらに中間結果を早
めにしぼり込むことができるから、文書検索処理を高速
化することができる。
According to a twenty-fourth aspect of the present invention, in the invention according to the twenty-third aspect, since the lower node is closer to the terminal node in the lower layer, the lower the document frequency is, the intermediate result can be narrowed down further. In addition, the speed of the document search process can be increased.

【0249】請求項25に記載の発明は、請求項23ま
たは24に記載の発明について、与えられた検索語が索
引登録されている索引語で覆うことができないときは、
検索結果は必ず空になるため、2進木構造に変換せず、
検索条件の評価の際には直ちに空の検索結果を返す末端
ノードに変換することができるから、文書検索処理を高
速化することができる。
According to the twenty-fifth aspect, the invention according to the twenty-third aspect or the twenty-fourth aspect, when a given search word cannot be covered by an indexed index word,
Since the search result is always empty, it is not converted to a binary tree structure.
When the search condition is evaluated, it can be immediately converted to a terminal node that returns an empty search result, so that the document search process can be speeded up.

【0250】請求項26に記載の発明は、請求項23〜
25のいずれかの一に記載の発明について、この2進木
構造を末端ノードから順に評価していくことで予め粗い
評価を行なって検索条件に該当する文書数を絞っておく
ことが可能となるから、文書検索処理を高速化すること
ができる。
The invention according to claim 26 is the invention according to claims 23 to
In the invention according to any one of the twenty-fifth aspects, by evaluating the binary tree structure in order from the terminal node, it is possible to perform rough evaluation in advance and narrow down the number of documents corresponding to the search condition. Therefore, the document search process can be speeded up.

【0251】請求項27に記載の発明は、請求項26に
記載の発明について、第1の予備変換による変換後の2
進木構造を用いて、粗い評価を行ない、その後、その結
果に基づいて複合検索手段による正確な評価を行なうこ
とができるから、文書検索処理を高速化することができ
る。
The invention according to claim 27 is the invention according to claim 26, wherein the 2nd data after the conversion by the first preliminary conversion is used.
A coarse evaluation is performed by using the tree structure, and then an accurate evaluation can be performed by the complex search means based on the result, so that the document search processing can be sped up.

【0252】請求項28に記載の発明は、請求項23〜
27のいずれかの一に記載の発明について、検索条件に
複数の検索語の論理演算を含んでいるときに、文書頻度
に従い木構造を組んでいって、下位ノードの端から評価
していくことが可能となるから、文書検索処理を高速化
することができる。
[0252] The invention described in claim 28 is the invention according to claims 23 to
27. In the invention according to any one of the items 27, when a search condition includes a logical operation of a plurality of search terms, a tree structure is formed according to a document frequency, and evaluation is performed from an end of a lower node. Therefore, the speed of the document search process can be increased.

【0253】請求項29に記載の発明は、請求項28に
記載の発明について、下位ノードの端から評価していく
ことにより、論理演算が複数の検索結果の積集合の場合
に早めに最終結果に近づくことができるように小さい文
書頻度順に評価することができるから、文書検索処理を
高速化することができる。
According to a twenty-ninth aspect of the present invention, in the invention according to the twenty-eighth aspect, by evaluating from the end of a lower node, the final result is quickly obtained when the logical operation is an intersection of a plurality of search results. Can be evaluated in order of small document frequency so that the document can be approached, so that the document search process can be speeded up.

【0254】請求項30に記載の発明は、請求項28ま
たは29に記載の発明について、積集合で結ばれる複数
の検索条件が入れ子構造になっているときは、その入れ
子構造を解いて平坦化しても論理演算の意味に変動はな
く、下位ノードの端から評価していけるように並べ替え
ることができるから、文書検索処理を高速化することが
できる。
The invention according to claim 30 is directed to the invention according to claim 28 or 29, wherein when a plurality of search conditions connected by an intersection are nested, the nested structure is solved to flatten. However, since the meaning of the logical operation does not change and can be rearranged so that the evaluation can be performed from the end of the lower node, the document search process can be speeded up.

【0255】請求項31に記載の発明は、請求項28〜
30のいずれかの一に記載の発明について、下位ノード
の端から評価していくことにより、文書頻度に応じた評
価が可能となり、早めに結果をしぼり込めるから、文書
検索処理を高速化することができる。
The invention described in claim 31 is the invention according to claims 28 to
The invention according to any one of the items 30 is evaluated from the end of the lower node, whereby the evaluation according to the document frequency becomes possible, and the result can be narrowed down earlier, thereby speeding up the document search process. Can be.

【0256】請求項32に記載の発明は、請求項28〜
31のいずれかの一に記載の発明について、子ノードの
端から評価していくことにより、位置比較を行なうまで
もなく、積集合演算でも除外できる文書を早めに除外で
きる小さい文書頻度順に評価することが可能になるか
ら、文書検索処理を高速化することができる。
The invention according to claim 32 is the invention according to claims 28 to
31 of the invention described in any one of the above, evaluation is performed from the end of the child node, so that documents which can be excluded by the intersection operation are evaluated in order of small document frequency which can be excluded earlier without performing position comparison. This makes it possible to speed up the document search process.

【0257】請求項33に記載の発明は、請求項32に
記載の発明について、変換後の木構造を用いて、粗い評
価を行ない、その後、その結果に基づいて正確な評価を
行なうことが可能となるから、文書検索処理を高速化す
ることができる。
According to the thirty-third aspect of the present invention, it is possible to perform a rough evaluation using the tree structure after the conversion according to the thirty-second aspect of the invention, and then perform an accurate evaluation based on the result. Therefore, the speed of the document search process can be increased.

【0258】請求項34に記載の発明は、請求項33に
記載の発明について、換後の木構造を用いて、粗い評価
を行ない、その後、その結果に基づいて複合検索による
正確な評価を行なうことができるから、文書検索処理を
高速化することができる。
According to a thirty-fourth aspect of the present invention, in the invention according to the thirty-third aspect, a coarse evaluation is performed using the tree structure after substitution, and then an accurate evaluation is performed by a composite search based on the result. Therefore, the speed of the document search process can be increased.

【0259】請求項35に記載の発明は、索引語は一律
にn文字の連鎖とされるので、膨大な単語辞書を必要と
する形態素解析を用いる手法と比較すると、単語辞書の
管理などの手間が省ける。
According to the invention described in claim 35, since the index word is uniformly a chain of n characters, it is troublesome to manage the word dictionary and the like when compared with a method using morphological analysis requiring a huge word dictionary. Can be omitted.

【0260】請求項36に記載の発明は、請求項35に
記載の発明において、nが2以上で検索語がn文字未満
の場合も正しく検索を行なうことができる。
According to a thirty-sixth aspect, in the thirty-fifth aspect, a search can be correctly performed even when n is 2 or more and the search term is less than n characters.

【0261】請求項37に記載の発明は、請求項35に
記載の発明において、無駄な索引語の使用を省いて検索
処理の高速化を図ることができる。
According to the thirty-seventh aspect, in the thirty-fifth aspect, the search processing can be sped up by eliminating use of unnecessary index words.

【0262】請求項38に記載の発明は、請求項37に
記載の発明において、文書頻度を小さくして検索処理の
高速化を図ることができる。
According to the thirty-eighth aspect of the present invention, in the thirty-seventh aspect, the frequency of documents can be reduced to speed up the search processing.

【0263】請求項39に記載の発明は、請求項35に
記載の発明に比較して、検索語を検索向きに索引語に分
割して、検索処理を高速化することができる。
According to the thirty-ninth aspect, as compared with the thirty-fifth aspect, a search word can be divided into index words in a search direction to speed up the search process.

【0264】請求項40に記載の発明は、請求項39に
記載の発明において、無駄な索引語の使用を省いて検索
処理の高速化を図ることができる。
According to the forty-ninth aspect, in the thirty-ninth aspect, useless use of an index word can be omitted to speed up the retrieval process.

【0265】請求項41に記載の発明は、請求項40に
記載の発明において、無駄な索引語の使用を省いて検索
処理の高速化を図ることができる。
According to the invention described in claim 41, in the invention described in claim 40, the use of unnecessary index words can be omitted to speed up the search processing.

【0266】請求項42に記載の発明は、詳細判定用条
件木の検索結果合成処理に先立って、候補決定用条件木
の検索結果合成処理を実行して対象となる文書に絞りを
かけることにより、文字位置の突き合せの処理を低減し
て、検索処理の高速化を図ることができる。
In the invention according to claim 42, prior to the search result synthesizing process for the condition tree for the detailed judgment, the search result synthesizing process for the candidate determining condition tree is executed to narrow down the target documents. In addition, it is possible to reduce the number of character position matching processes and to speed up the search process.

【0267】請求項43に記載の発明は、詳細判定用条
件木の検索結果合成処理に先立って、候補決定用条件木
の検索結果合成処理を実行して対象となる文書に絞りを
かけることにより、文字位置の突き合せの処理を低減し
て、検索処理の高速化を図ることができる。
According to the invention of claim 43, prior to the search result synthesizing process for the condition tree for detailed determination, the search result synthesizing process for the candidate determining condition tree is executed to narrow down the target documents. In addition, it is possible to reduce the number of character position matching processes and to speed up the search process.

【0268】請求項44に記載の発明は、索引に記録す
る情報を圧縮して索引のデータ量を小さくすることがで
きる。
According to the forty-fourth aspect, the information recorded in the index can be compressed to reduce the data amount of the index.

【0269】請求項45に記載の発明は、請求項44に
記載の発明において、文書識別子を参照する場合に伸長
するデータ量を少なくできるので、検索処理を高速化す
ることができる。
According to the invention described in claim 45, in the invention described in claim 44, the amount of data to be decompressed when referring to a document identifier can be reduced, so that the search processing can be sped up.

【0270】請求項46に記載の発明は、請求項45に
記載の発明において、文書内頻度出現位置表現ビット数
を参照することにより、必要とする文書の文書頻度、出
現位置のデータがどこにあるかがわかるので、文書頻
度、出現位置を参照する場合に伸長するデータ量を少な
くして、検索処理を高速化することができる。
According to the invention of claim 46, in the invention of claim 45, by referring to the number of bits representing the frequency appearance position in the document, where is the data of the document frequency and appearance position of the required document? Therefore, it is possible to reduce the amount of data to be expanded when referring to the document frequency and the appearance position, and to speed up the search process.

【0271】請求項47に記載の発明は、請求項45に
記載の発明において、文書内頻度が大きい場合のみ出現
位置を表現するのに必要なビット数を記録することで、
請求項46に記載の発明ほど索引を大きくせず、出現位
置を参照する場合に伸長するデータ量を少なくして、検
索処理を高速化することができる。
The invention according to claim 47 is the invention according to claim 45, wherein the number of bits required to represent the appearance position only when the frequency in the document is large is recorded.
It is possible to speed up the search process by reducing the amount of data to be expanded when referring to the appearance position without increasing the index as in the invention of claim 46.

【0272】請求項48に記載の発明は、請求項46ま
たは47に記載の発明において、文書内頻度出現位置表
現ビット数および出現位置表現ビット数は、各文書内頻
度および各出現位置を格納する領域に格納して、検索処
理を高速化することができる。
In the invention according to claim 48, in the invention according to claim 46 or 47, the number of bits representing the frequency appearance position in the document and the number of bits representing the appearance position store the frequency in each document and each occurrence position. By storing the data in the area, the search processing can be speeded up.

【0273】請求項49に記載の発明は、索引語と同
様、文書頻度、文書識別子、文書内頻度および出現位置
のデータである転置リストも文字コード順にソートして
いるので、検索時にこれらのデータを読み出すときに、
読み出すデータの位置を近くして、検索処理を高速化で
きる。
According to the forty-ninth aspect of the present invention, similarly to the index words, the transposition list which is the data of the document frequency, the document identifier, the frequency in the document, and the appearance position is also sorted in the order of the character codes. When reading
The search processing can be speeded up by making the position of the data to be read closer.

【0274】請求項50に記載の発明は、索引において
転置リストを大きさに合わせてページ単位に管理するの
で、検索処理を高速化することができる。
In the invention according to claim 50, the inverted list is managed in units of pages in accordance with the size in the index, so that the search processing can be sped up.

【0275】請求項51に記載の発明は、請求項45〜
48のいずれかに記載の発明において、索引に格納する
データを、その登録、検索処理に合わせて配置するの
で、登録あるいは検索処理を高速化することができる。
The invention according to claim 51 is the invention according to claims 45 to 45.
In the invention described in any one of the items 48, the data stored in the index is arranged in accordance with the registration and search processing, so that the registration or search processing can be sped up.

【0276】請求項52に記載の発明は、請求項51に
記載の発明において、登録あるいは検索処理を高速化す
ることができる。
According to the invention of claim 52, the registration or search processing can be sped up in the invention of claim 51.

【0277】請求項53に記載の発明は、請求項51ま
たは52に記載の発明において、文書登録時に、登録順
の終わりの1つ以上の文書識別子を格納するのに、新た
な文書識別子ページを読み込み、書き込む必要がなくな
り、登録処理を高速化することができる。
In the invention according to claim 53, in the invention according to claim 51 or 52, a new document identifier page is stored at the time of document registration in order to store one or more document identifiers at the end of the registration order. There is no need to read or write, and the registration process can be sped up.

【0278】請求項54に記載の発明は、請求項51ま
たは52に記載の発明において、必要な文書識別子のデ
ータが格納された文書識別子ページのみにアクセスすれ
ばよいので、検索処理を高速化することができる。
According to the invention described in Item 54, in the invention described in Item 51 or 52, only the document identifier page in which necessary document identifier data is stored can be accessed, so that the search processing can be speeded up. be able to.

【0279】請求項55に記載の発明は、請求項54に
記載の発明において、文書識別子ページ索引を参照する
だけで、特定の文書識別子の文書に関してはデータが存
在しないことを確認することも可能となるので、検索処
理を高速化することができる。
[0279] According to the invention described in Item 55, in the invention described in Item 54, it is also possible to confirm that no data exists for a document having a specific document identifier only by referring to the document identifier page index. Therefore, the search processing can be speeded up.

【0280】請求項56に記載の発明は、請求項51ま
たは52に記載の発明において、所望の文書識別子、位
置情報が簡単に得られるので、検索処理を高速化するこ
とができる。
According to the invention of claim 56, in the invention of claim 51 or 52, a desired document identifier and position information can be easily obtained, so that the search processing can be sped up.

【0281】請求項57に記載の発明は、索引語は一律
にn文字の連鎖とされるので、膨大な単語辞書を必要と
する形態素解析を用いる手法と比較すると、単語辞書の
管理などの手間が省ける。
According to the invention of claim 57, since the index word is uniformly a chain of n characters, it is troublesome to manage the word dictionary and the like when compared with a method using morphological analysis requiring a huge word dictionary. Can be omitted.

【0282】請求項58に記載の発明は、請求項57に
記載の発明に比較して、検索語を検索向きに索引語に分
割して、検索処理を高速化することができる。
According to the invention described in Item 58, the search word can be divided into index words in the search direction as compared with the invention described in Item 57 to speed up the search processing.

【0283】請求項59に記載の発明は、詳細判定用条
件木の検索結果合成処理に先立って、候補決定用条件木
の検索結果合成処理を実行して対象となる文書に絞りを
かけることにより、文字位置の突き合せの処理を低減し
て、検索処理の高速化を図ることができる。
According to the fifty-ninth aspect of the present invention, prior to the search result synthesizing process for the condition tree for detailed judgment, the search result synthesizing process for the candidate determining condition tree is executed to narrow down the target documents. In addition, it is possible to reduce the number of character position matching processes and to speed up the search process.

【0284】請求項60に記載の発明は、詳細判定用条
件木の検索結果合成処理に先立って、候補決定用条件木
の検索結果合成処理を実行して対象となる文書に絞りを
かけることにより、文字位置の突き合せの処理を低減し
て、検索処理の高速化を図ることができる。
In the invention according to claim 60, prior to the search result synthesizing process for the condition tree for detailed judgment, the search result synthesizing process for the candidate determining condition tree is executed to narrow down the target documents. In addition, it is possible to reduce the number of character position matching processes and to speed up the search process.

【0285】請求項61に記載の発明は、索引に記録す
る情報を圧縮して索引のデータ量を小さくすることがで
きる。
According to the invention described in claim 61, the information recorded in the index can be compressed to reduce the data amount of the index.

【0286】請求項62に記載の発明は、索引語と同
様、文書頻度、文書識別子、文書内頻度および出現位置
のデータである転置リストも文字コード順にソートして
いるので、検索時にこれらのデータを読み出すときに、
読み出すデータの位置を近くして、検索処理を高速化で
きる。
In the invention according to claim 62, similarly to the index term, the transposition list which is the data of the document frequency, the document identifier, the frequency in the document and the appearance position is also sorted in the order of the character code. When reading
The search processing can be speeded up by making the position of the data to be read closer.

【0287】請求項63に記載の発明は、索引において
転置リストを大きさに合わせてページ単位に管理するの
で、検索処理を高速化することができる。
According to the invention of claim 63, since the inverted list is managed in the index in units of pages according to the size, the retrieval processing can be sped up.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の実施の形態1である電子化文書検索
システムの全体のシステム構成を示すブロック図であ
る。
FIG. 1 is a block diagram showing an entire system configuration of an electronic document search system according to a first embodiment of the present invention.

【図2】前記電子化文書検索システムの索引テーブル1
1を示す表である。
FIG. 2 is an index table 1 of the digitized document search system.
1 is a table showing the number 1;

【図3】前記電子化文書検索システムで検索条件から変
換して作成する木構造の例を示すブロック図である。
FIG. 3 is a block diagram showing an example of a tree structure created by converting from search conditions in the digitized document search system.

【図4】前記木構造の例を示すブロック図である。FIG. 4 is a block diagram showing an example of the tree structure.

【図5】前記木構造の例を示すブロック図である。FIG. 5 is a block diagram showing an example of the tree structure.

【図6】前記電子化文書検索システムの履歴テーブルを
示す表である。
FIG. 6 is a table showing a history table of the digitized document search system.

【図7】この発明の実施の形態2にかかる電子化文書検
索システムの全体構成を示す機能ブロック図である。
FIG. 7 is a functional block diagram illustrating an entire configuration of an electronic document search system according to a second embodiment of the present invention;

【図8】前記電子化文書検索システムで用いる索引の例
を示す表である。
FIG. 8 is a table showing an example of an index used in the digitized document search system.

【図9】前記電子化文書検索システムで用いる索引の例
を示す表である。
FIG. 9 is a table showing an example of an index used in the digitized document search system.

【図10】前記索引の転置リストの例を示すブロック図
である。
FIG. 10 is a block diagram showing an example of an inverted list of the index.

【図11】前記転置リストの文書識別子ページ索引の例
を示す表である。
FIG. 11 is a table showing an example of a document identifier page index of the transposed list.

【図12】前記転置リストの文書識別子ページ索引の例
を示す表である。
FIG. 12 is a table showing an example of a document identifier page index of the transposed list.

【図13】前記索引の転置リストの例を示すブロック図
である。
FIG. 13 is a block diagram illustrating an example of an inverted list of the index.

【符号の説明】[Explanation of symbols]

1 電子化文書検索システム 11 索引 13 索引語 14 識別子 15 出現位置 16 文書数 31 第1、第2予備照合記憶手段 40 電子化文書検索システム 41 索引記憶手段 42 文書分割手段 43 検索語分割手段 44 検索条件解析手段 45 検索条件評価手段 DESCRIPTION OF SYMBOLS 1 Electronic document search system 11 Index 13 Index term 14 Identifier 15 Appearance position 16 Number of documents 31 First and second preliminary collation storage means 40 Electronic document search system 41 Index storage means 42 Document division means 43 Search term division means 44 Search Condition analysis means 45 Search condition evaluation means

Claims (63)

【特許請求の範囲】[Claims] 【請求項1】 電子化された複数の文書が登録される文
書登録手段と、 この複数の文書中から所望の検索語を含む文書を検索す
るための索引を、この索引に登録される各索引語に、こ
の索引語が前記複数の文書中での出現位置と対応付けて
記憶していて、前記出現位置は前記索引語が出現する前
記文書の識別子および当該文書中での出現位置である索
引記憶手段と、 前記検索の検索条件を入力する入力装置と、 前記索引に対し検索語の索引照合を行なう索引照合手段
と、 この索引照合により、前記検索条件中の検索語を覆う少
なくとも一つの前記索引語を取得し、この索引語の各々
を検索語として前記複数の文書中での出現位置を検索す
る中間検索手段と、 この各検索語についての検索結果から、各検索語の文書
頻度を見積る文書頻度見積手段と、 前記中間検索手段で取得した検索語が複数あるときは、
前記検索条件を、2つの検索語の各々についての前記索
引照合による検索を下位ノードに、この両下位ノードの
検索結果の比較による両検索語の位置条件で限定する前
記両下位ノードの合成処理を上位ノードにする複合検索
を階層的に連ねた2進木構造に変換する第1検索条件変
換手段と、 前記上位ノードの処理を実行して前記複合検索の結果を
作成し、前記上位ノードの処理は前記各検索語間の出現
位置の比較を前記文書頻度の小さいものから順に行なう
ものである複合検索手段と、 この検索の結果を出力する出力装置と、を備えているこ
とを特徴とする電子化文書検索システム。
1. A document registration unit in which a plurality of digitized documents are registered, and an index for searching for a document containing a desired search word from the plurality of documents, each index being registered in the index. The index word is stored in association with the appearance position in the plurality of documents, and the appearance position is an identifier of the document in which the index word appears and an index indicating the appearance position in the document. Storage means, an input device for inputting search conditions for the search, index matching means for performing index matching of a search term with respect to the index, and at least one of the at least one An intermediate search means for acquiring an index word and searching for an appearance position in the plurality of documents by using each of the index words as a search word; and estimating a document frequency of each search word from a search result of each search word. Document frequency estimation And stage, when said search word acquired in the intermediate search means are a plurality,
The combining process of the lower nodes is performed by limiting the search condition to the lower nodes by performing the index matching for each of the two search words, and by limiting the search conditions by comparing the search results of the lower nodes. First search condition conversion means for converting a composite search to be a higher-order node into a hierarchically connected binary tree structure; executing processing of the upper-level node to create a result of the composite search; Is characterized by comprising: a composite search means for comparing the appearance positions of the search terms in ascending order of the document frequency; and an output device for outputting a result of the search. Document retrieval system.
【請求項2】 第1検索条件変換手段は、文書頻度の小
さい下位ノードの順に2進木に変換し、この変換により
文書頻度の小さい下位ノードほど前記木構造の下層とな
るようにすることを特徴とする請求項1に記載の電子化
文書検索システム。
2. The first search condition converting means converts a lower-order node having a lower document frequency into a binary tree in the order of the lower-order nodes. 2. The electronic document search system according to claim 1, wherein:
【請求項3】 第1検索条件変換手段は、中間検索手段
による検索で検索条件中の検索語を覆う索引語がなかっ
たときは、常に空の検索結果を返す末端ノードに変換す
るものであることを特徴とする請求項1または2に記載
の電子化文書検索システム。
3. The first search condition conversion means, when there is no index term covering the search term in the search condition in the search by the intermediate search means, converts the search term into a terminal node which always returns an empty search result. The digitized document search system according to claim 1 or 2, wherein:
【請求項4】 両検索語の検索を下位ノードに、この下
位ノードの積集合を上位ノードにする複合検索を階層的
に連ねた2進木構造に変換し、この変換は文書頻度の小
さい下位ノードの順に2進木に変換し、文書頻度の小さ
い下位ノードほど前記木構造の下層となるように行なう
第1予備変換手段を備えていることを特徴とする請求項
1〜3のいずれかの一に記載の電子化文書検索システ
ム。
4. A binary tree structure in which a search of both search words is set as a lower node and a complex search in which an intersection of the lower nodes is set as an upper node is hierarchically connected. 4. The apparatus according to claim 1, further comprising a first preliminary conversion unit that converts the binary tree into a binary tree in the order of the nodes and performs a lower-level node having a lower document frequency so that the lower-level node has a lower layer of the tree structure. An electronic document search system according to (1).
【請求項5】 第1予備変換手段による変換後の木構造
での上位ノードの処理を前記木構造中での最下位層から
上位層に向けて順次実行して複合検索の結果を作成し、
前記上位ノードの処理は各検索語間の出現位置の比較を
前記文書頻度の小さいものから順に行なうものである第
1予備検索手段を備え、 複合検索手段は、上位ノードの処理を前記第1予備検索
手段による検索で限定された前記各検索語の出現位置に
ついて行なうものであることを特徴とする請求項4に記
載の電子化文書検索システム。
5. A process of an upper node in the tree structure after the conversion by the first preliminary conversion unit is sequentially executed from a lowest layer to an upper layer in the tree structure to generate a result of a compound search;
The processing of the upper node includes first preliminary search means for comparing the appearance positions of the respective search terms in ascending order of the document frequency, and the complex search means performs processing of the upper node by the first preliminary search. 5. The digitized document search system according to claim 4, wherein the search is performed for an occurrence position of each of the search words limited by the search by the search means.
【請求項6】 検索条件に複数の検索語の論理演算を含
んでいるときは、この各検索語を覆う索引語の各々を検
索語として文書頻度見積手段で見積もった文書頻度に基
づいて、前記各検索語の検索を下位ノードに、この下位
ノードの前記論理演算を上位ノードにする複合検索を階
層的に連ねた木構造に変換し、さらに論理演算による検
索条件が他の論理演算で他の検索条件と結合される入れ
子構造になっている場合には、この入れ子構造の内側の
論理演算を下位ノードに、その外側論理演算を上位ノー
ドにする木構造に変換する第2検索条件変換手段を備え
ていることを特徴とする請求項1〜5のいずれかの一に
記載の電子化文書検索システム。
6. When the search condition includes a logical operation of a plurality of search terms, each of the index terms covering each of the search terms is used as a search term based on the document frequency estimated by the document frequency estimation means. The search for each search term is converted to a lower node, and the complex search in which the logical operation of the lower node is set to an upper node is converted into a hierarchically linked tree structure. In the case of a nested structure combined with the search condition, a second search condition conversion means for converting a logical operation inside the nested structure into a lower node and a logical operation outside the nested structure into a tree structure having an upper node is provided. The digitized document search system according to any one of claims 1 to 5, further comprising:
【請求項7】 第2検索条件変換手段は、論理演算が複
数の検索結果の積集合を作る積集合演算であるときに
は、下位ノードを端から評価すれば自ずと文書頻度の小
さい順に評価することとなるように、文書頻度の小さい
順に前記下位ノードを整列することを特徴とする請求項
6に記載の電子化文書検索システム。
7. When the logical operation is a product set operation for forming a product set of a plurality of search results, the second search condition converting means naturally evaluates the lower nodes from the end and evaluates them in ascending order of document frequency. 7. The computerized document search system according to claim 6, wherein the lower nodes are arranged in ascending order of document frequency.
【請求項8】 第2検索条件変換手段は、積集合演算で
結ばれている複数の検索条件が入れ子構造になっている
場合には、この入れ子構造を外して前記検索条件を木構
造に変換するものであることを特徴とする請求項7に記
載の電子化文書検索システム。
8. When a plurality of search conditions connected by an intersection operation have a nested structure, the second search condition conversion means removes the nested structure and converts the search condition into a tree structure. The digitized document search system according to claim 7, wherein the search is performed.
【請求項9】 第2検索条件変換手段は、積集合演算で
結ばれている検索条件のうちに、常に空の検索結果を返
す末端ノードに変換されるものが少なくとも1つあった
ときは、前記積集合演算全体を、木構造に変換するのに
代えて、常に空の検索結果を返す末端ノードに変換する
ものであることを特徴とする請求項7または8に記載の
電子化文書検索システム。
9. The second search condition conversion means, when at least one of the search conditions connected by the intersection operation is converted to a terminal node that always returns an empty search result, 9. The computerized document search system according to claim 7, wherein the entire intersection operation is converted into a terminal node that always returns an empty search result, instead of converting it into a tree structure. .
【請求項10】 第2検索条件変換手段は、論理演算が
複数の検索結果の和集合を作る和集合演算であるときに
は、下位ノードを端から評価すれば自ずと文書頻度の大
きい順に評価することとなるように、文書頻度の大きい
順に下位ノードを整列することを特徴とする請求項6〜
9のいずれかの一に記載の電子化文書検索システム。
10. When the logical operation is a union operation for forming a union of a plurality of search results, the second search condition conversion means naturally evaluates the lower nodes from the end in descending order of the document frequency. The lower nodes are arranged in descending order of the document frequency so that the document frequency becomes higher.
An electronic document search system according to any one of the preceding claims.
【請求項11】 第2検索条件変換手段は、和集合演算
で結ばれている複数の検索条件が入れ子構造になってい
る場合には、この入れ子構造を外して前記検索条件を木
構造に変換するものであることを特徴とする請求項10
に記載の電子化文書検索システム。
11. When a plurality of search conditions connected by a union operation have a nested structure, the second search condition conversion means removes the nested structure and converts the search condition into a tree structure. 11. The method according to claim 10, wherein
Electronic document search system described in 1.
【請求項12】 第2検索条件変換手段は、論理演算
が、1つの検索条件による検索結果から別の1つ以上の
検索条件による検索結果に含まれるものを除外する差集
合演算であるときは、前記論理演算で結ばれている複数
の検索語については、この各検索語を覆う索引語の各々
を検索語として文書頻度見積手段で見積もった文書頻度
に基づいて、前記各検索語の検索を下位ノードに、この
下位ノードの前記論理演算を上位ノードにする複合検索
を階層的に連ねた木構造に変換し、さらに論理演算によ
る検索条件が他の論理演算で他の検索条件と結合される
入れ子構造になっている場合には、この入れ子構造の内
側の論理演算を下位ノードに、その外側論理演算を上位
ノードにする木構造に変換することを特徴とする請求項
6〜11のいずれかの一に記載の電子化文書検索システ
ム。
12. The second search condition conversion means, when the logical operation is a difference set operation for excluding, from a search result based on one search condition, a search result based on one or more other search conditions. For a plurality of search terms connected by the logical operation, the search for each of the search terms is performed based on the document frequency estimated by the document frequency estimation unit using each of the index words covering each of the search terms as a search term. In the lower node, a complex search in which the logical operation of the lower node is set as an upper node is converted into a tree structure in which the logical operation is hierarchically linked, and the search condition by the logical operation is combined with another search condition by another logical operation. 12. The method according to claim 6, wherein in the case of a nested structure, a logical operation inside the nested structure is converted into a lower node, and a logical operation outside the nested structure is converted into a tree structure having an upper node. of An electronic document search system according to (1).
【請求項13】 第2検索条件変換手段は、差集合演算
で検索結果を除外する方の検索条件が複数あるときは、
この検索条件を表わす下位ノードを端から評価すれば自
ずと文書頻度の大きい順に評価することとなるように、
文書頻度の大きい順に前記下位ノードを整列することを
特徴とする請求項12に記載の電子化文書検索システ
ム。
13. The second search condition conversion means, when there are a plurality of search conditions for excluding a search result by a difference set operation,
If the lower node representing this search condition is evaluated from the end, it is naturally evaluated in descending order of the document frequency.
13. The electronic document search system according to claim 12, wherein the lower nodes are arranged in descending order of document frequency.
【請求項14】 第2検索条件変換手段は、差集合演算
で検索結果を除外する方の検索条件のうちに和集合演算
で検索条件を結合した合成条件が含まれる場合には、こ
の検索条件の和集合演算とを解いて、この検索条件を木
構造に変換するものであることを特徴とする請求項12
または13に記載の電子化文書検索システム。
14. The second search condition conversion means, if the synthesis condition obtained by combining the search conditions by the union operation is included in the search conditions for excluding the search result by the difference set operation, 13. The search condition is converted into a tree structure by solving the union operation of
Or the digitized document search system according to 13.
【請求項15】 第2検索条件変換手段は、差集合演算
で検索結果を除外する方の検索条件の少なくとも1つ
が、常に空の検索結果を返す末端ノードに変換されるも
のであったときは、前記差集合演算の全体を常に空の検
索結果を返す末端ノードに変換することを特徴とする請
求項12〜14のいずれかの一に記載の電子化文書検索
システム。
15. The second search condition conversion means, when at least one of the search conditions excluding the search result by the difference set operation is converted to a terminal node that always returns an empty search result. 15. The computerized document search system according to claim 12, wherein the entirety of the difference set operation is always converted into a terminal node that returns an empty search result.
【請求項16】 論理演算が、複数の検索語の出現順序
を無視した出現位置間の距離の上限の指定であるとき
に、下位ノードの端から評価すれば自ずと文書頻度の小
さい順に評価することとなるよう、文書頻度の小さい順
に下位ノードを整列させるように変換を行なう第2予備
変換手段を備えているものであることを特徴とする請求
項6〜15のいずれかの一に記載の電子化文書検索シス
テム。
16. When the logical operation is the specification of the upper limit of the distance between appearance positions ignoring the appearance order of a plurality of search words, evaluation is naturally performed in ascending order of document frequency by evaluating from the end of a lower node. 16. The electronic device according to claim 6, further comprising a second preliminary conversion unit that performs conversion so that lower nodes are arranged in ascending order of document frequency. Document retrieval system.
【請求項17】 第2予備変換手段は、検索語の検索を
下位ノードに、この下位ノードの検索後の出現位置間の
距離の上限の指定を上位ノードにする複合検索を階層的
に連ねた2進木構造に変換し、この変換は文書頻度の小
さい下位ノードの順に2進木に変換し、文書頻度の小さ
い下位ノードほど前記木構造の下層となるように行なう
ものであることを特徴とする請求項16に記載の電子化
文書検索システム。
17. The second preliminary conversion means hierarchically links a compound search in which a search for a search word is set as a lower node and an upper limit of the distance between appearance positions of the lower node after the search is specified as an upper node. The conversion into a binary tree structure is performed, and this conversion is performed in such a manner that the lower node having the lower document frequency is converted into the binary tree, and the lower node having the lower document frequency is located at a lower layer of the tree structure. 17. The computerized document search system according to claim 16, wherein:
【請求項18】 第2予備変換手段による変換後の木構
造での上位ノードの処理を前記木構造中での最下位層か
ら上位層に向けて順次実行して複合検索の結果を作成
し、前記上位ノードの処理は各検索語間の出現位置の比
較を前記文書頻度の小さいものから順に行なうものであ
る第2予備検索手段を備え、 複合検索手段は、上位ノードの処理を前記第2予備検索
手段による検索で限定された前記各検索語の出現位置に
ついて行なうことを特徴とする請求項17に記載の電子
化文書検索システム。
18. A process of an upper node in the tree structure after the conversion by the second preliminary conversion unit is sequentially executed from the lowest layer to the upper layer in the tree structure to generate a result of the compound search; The processing of the upper node includes second preliminary search means for comparing the appearance positions of the respective search terms in ascending order of the document frequency. The complex search means performs processing of the upper node by the second preliminary search. 18. The digitized document search system according to claim 17, wherein the search is performed for an occurrence position of each of the search words limited by the search by the search unit.
【請求項19】 索引記憶手段は、その記憶している索
引で文書の識別子に全順序関係があって、 索引語と前記識別子の下限を指定することにより、この
指定された索引語を含む前記文書の前記識別子のうち
で、その識別子の下限以上で最小のものを前記索引から
取得する第1予備照合手段と、 前記指定した索引語、前記取得した識別子、および、前
記識別子の下限値とを関連付けて記憶する第1予備照合
記憶手段と、 この第1予備照合記憶手段を参照して、索引照合手段の
行なう索引照合の範囲を限定する第1照合範囲指定手段
と、を備えていることを特徴とする請求項1〜18のい
ずれかの一に記載の電子化文書検索システム。
19. The index storage means, wherein the identifiers of the documents have a total order relationship in the stored index, and the index word and the lower limit of the identifier are specified to include the specified index word. A first preliminary collation unit that acquires, from the index, a minimum identifier that is equal to or more than the lower limit of the identifier among the identifiers of the document; and the specified index word, the acquired identifier, and a lower limit value of the identifier. A first preliminary collation storage unit that stores the information in association with each other, and a first collation range designating unit that limits the range of the index collation performed by the index collation unit with reference to the first preliminary collation storage unit. An electronic document search system according to any one of claims 1 to 18, characterized in that:
【請求項20】 第1予備照合記憶手段は、関連付けて
記憶する索引語、識別子、および、下限値を、第1予備
照合手段で最新に取得した所定数の索引語に関するもの
に限定することを特徴とする請求項19に記載の電子化
文書検索システム。
20. The first preliminary collation storage means restricts the index words, identifiers, and lower limit values stored in association with each other with respect to a predetermined number of index words acquired latest by the first preliminary collation means. 20. The electronic document search system according to claim 19, wherein:
【請求項21】 索引記憶手段は、その記憶している索
引で文書の識別子に全順序関係があって、 前記識別子の下限を指定することにより、複合検索の結
果を満たす前記識別子のうちで、その識別子の下限以上
で最小のものを前記索引から取得する第2予備照合手段
と、 前記指定した索引語、前記取得した識別子、および、前
記識別子の下限値を関連付けて記憶する第2予備照合記
憶手段と、 この第2予備照合記憶手段を参照して、前記複合検索で
索引照合手段の行なう索引照合の範囲を限定する第2照
合範囲指定手段と、を備えていることを特徴とする請求
項1〜20のいずれかに記載の電子化文書検索システ
ム。
21. The index storage means, wherein the identifiers of the documents have a total order relationship in the stored index, and by specifying a lower limit of the identifiers, A second preliminary collation unit that acquires the smallest one that is equal to or larger than the lower limit of the identifier from the index, and a second preliminary collation storage that associates and stores the specified index word, the acquired identifier, and the lower limit of the identifier. And means for referring to the second preliminary matching storage means to limit the range of index matching performed by the index matching means in the combined search. 21. An electronic document search system according to any one of 1 to 20.
【請求項22】 第2予備照合記憶手段は、関連付けて
記憶する索引語、識別子、および、下限値を、第2予備
照合手段で最新に取得した所定数の索引語に関するもの
に限定することを特徴とする請求項21に記載の電子化
文書検索システム。
22. The second preliminary collation storage means restricts the index words, identifiers, and lower limit values stored in association with each other with respect to a predetermined number of index words acquired latest by the second preliminary collation means. 22. The electronic document search system according to claim 21, wherein:
【請求項23】 コンピュータで読取可能なプログラム
を記憶していて、 このプログラムは、コンピュータに読み取られることに
より、与えられた検索条件に従って、電子化されて所定
の記憶装置に登録されている複数の文書中から所望の検
索語を含む文書の検索を前記コンピュータに実行可能と
するものであり、 この検索の実行では、 索引語と前記複数の文書中での前記索引語の出現位置と
が対応付けて所定の記憶装置に記憶されていて、前記出
現位置は前記索引語が出現する前記文書の識別子および
当該文書中での出現位置である索引に対し、索引照合を
行ない、 この索引照合により、前記検索条件中の検索語を覆う少
なくとも一つの前記索引語を取得し、この索引語の各々
を検索語として前記複数の文書中での出現位置を検索す
る中間検索を行ない、 この各検索語についての検索結果から、この各検索語の
文書頻度を見積る文書頻度の見積を行ない、 前記中間検索で取得した検索語が複数あるときは、前記
検索条件を、2つの検索語の各々についての前記索引照
合による検索を下位ノードに、この両下位ノードの検索
結果の比較による両検索語の位置条件で限定する前記両
下位ノードの合成処理を上位ノードにする複合検索を階
層的に連ねた2進木構造に変換する第1の検索条件の変
換を行ない、 前記上位ノードの処理を実行して前記複合検索の結果を
作成し、前記上位ノードの処理は前記各検索語間の出現
位置の比較を前記文書頻度の小さいものから順に行なう
複合検索を行なうこと、を特徴とする記憶媒体。
23. A computer-readable program stored in the storage device, the program being read by the computer and being digitized according to a given search condition and registered in a predetermined storage device. The computer is capable of executing a search for a document including a desired search word from a document. In the execution of the search, an index word is associated with an appearance position of the index word in the plurality of documents. Is stored in a predetermined storage device, and the occurrence position is compared with the index of the document in which the index word appears and the index that is the occurrence position in the document, and the index matching is performed. Acquiring at least one index word covering a search word in a search condition, and searching for an appearance position in the plurality of documents using each of the index words as a search word A search is performed, and a document frequency estimation for estimating a document frequency of each of the search terms is performed based on a search result of each of the search terms. When there are a plurality of search terms obtained in the intermediate search, the search condition is set to 2 A compound search in which the search by index matching for each of the two search terms is set to a lower node, and the synthesis processing of the both lower nodes is limited to the position condition of both search terms by comparing the search results of the lower nodes with the upper node. Is converted to a binary tree structure in which a hierarchical tree is formed, and a process of the upper node is executed to create a result of the compound search. A storage medium for performing a compound search in which the appearance positions between words are compared in ascending order of the document frequency.
【請求項24】 第1の検索条件の変換では、文書頻度
の小さい下位ノードの順に2進木に変換し、この変換に
より文書頻度の小さい下位ノードほど前記木構造の下層
となるようにすることを特徴とする請求項23に記載の
記憶媒体。
24. In the conversion of the first search condition, a binary tree is converted in the order of lower nodes having a lower document frequency, and the lower nodes having a lower document frequency become lower layers of the tree structure by this conversion. The storage medium according to claim 23, wherein:
【請求項25】 第1の検索条件の変換では、中間検索
による検索で検索条件中の検索語を覆う索引語がなかっ
たときは、常に空の検索結果を返す末端ノードに変換す
るものであることを特徴とする請求項23または24に
記載の記憶媒体。
25. In the conversion of the first search condition, when there is no index word covering the search word in the search condition in the search by the intermediate search, the search condition is always converted to a terminal node that returns an empty search result. 25. The storage medium according to claim 23, wherein:
【請求項26】 検索の実行では、 両検索語の検索を下位ノードに、この下位ノードの積集
合を上位ノードにする複合検索を階層的に連ねた2進木
構造に変換し、この変換は文書頻度の小さい下位ノード
の順に2進木に変換し、文書頻度の小さい下位ノードほ
ど前記木構造の下層となるように行なう第1の予備変換
を行なうことを特徴とする請求項23〜25のいずれか
の一に記載の記憶媒体。
26. In the execution of the search, a search of both search words is converted to a lower node, and a compound search in which an intersection of the lower nodes is set to an upper node is converted into a hierarchically connected binary tree structure. 26. The method according to claim 23, further comprising: converting a binary tree into lower-order nodes having a lower document frequency, and performing a first preliminary conversion so that the lower-order node having a lower document frequency is located at a lower layer of the tree structure. The storage medium according to any one of the above.
【請求項27】 検索の実行では、 第1の予備変換による変換後の木構造での上位ノードの
処理を前記木構造中での最下位層から上位層に向けて順
次実行して複合検索の結果を作成し、前記上位ノードの
処理は各検索語間の出現位置の比較を前記文書頻度の小
さいものから順に実行する第1の予備検索を行ない、 複合検索は、上位ノードの処理を前記第1の予備検索に
よる検索で限定された前記各検索語の出現位置について
行なうものであることを特徴とする請求項26に記載の
記憶媒体。
27. In the execution of the search, the processing of the upper nodes in the tree structure after the conversion by the first preliminary conversion is sequentially executed from the lowest layer to the upper layer in the tree structure to execute the compound search. A result is created, and the processing of the upper node performs a first preliminary search in which the occurrence positions of the respective search terms are compared in ascending order of the document frequency. The compound search performs the processing of the upper node in the first node. 27. The storage medium according to claim 26, wherein the search is performed for an occurrence position of each of the search words limited by the search by the first preliminary search.
【請求項28】 検索の実行では、 検索条件に複数の検索語の論理演算を含んでいるとき
は、この各検索語を覆う索引語の各々を検索語として文
書頻度見積手段で見積もった文書頻度に基づいて、前記
各検索語の検索を下位ノードに、この下位ノードの前記
論理演算を上位ノードにする複合検索を階層的に連ねた
木構造に変換し、さらに論理演算による検索条件が他の
論理演算で他の検索条件と結合される入れ子構造になっ
ている場合には、この入れ子構造の内側の論理演算を下
位ノードに、その外側論理演算を上位ノードにする木構
造に変換する第2の検索条件の変換を行なうことを特徴
とする請求項23〜27のいずれかの一に記載の記憶媒
体。
28. In the execution of a search, when the search condition includes a logical operation of a plurality of search terms, each of the index words covering each of the search terms is used as a search term, and the document frequency estimated by the document frequency estimation means is used. Is converted to a tree structure in which a composite search in which the search of each of the search terms is set as a lower node and the logical operation of the lower node is set as an upper node is hierarchically connected. If the logical operation has a nested structure that is combined with another search condition, the second logical structure is converted into a tree structure in which the logical operation inside the nested structure is a lower node and the logical operation outside the nested structure is an upper node. 28. The storage medium according to claim 23, wherein the search condition is converted.
【請求項29】 第2の検索条件の変換は、論理演算が
複数の検索結果の積集合を作る積集合演算であるときに
は、下位ノードを端から評価すれば自ずと文書頻度の小
さい順に評価することとなるように、文書頻度の小さい
順に前記下位ノードを整列することを特徴とする請求項
28に記載の記憶媒体。
29. The conversion of the second search condition is such that, when the logical operation is an intersection operation for forming an intersection of a plurality of search results, evaluation is performed in ascending order of document frequency by evaluating lower nodes from the end. 29. The storage medium according to claim 28, wherein the lower nodes are arranged in ascending order of document frequency.
【請求項30】 第2の検索条件の変換は、論理演算が
複数の検索結果の和集合を作る和集合演算であるときに
は、下位ノードを端から評価すれば自ずと文書頻度の大
きい順に評価することとなるように、文書頻度の大きい
順に下位ノードを整列することを特徴とする請求項28
または29に記載の記憶媒体。
30. In the conversion of the second search condition, when the logical operation is a union operation for forming a union of a plurality of search results, if the lower nodes are evaluated from the end, the evaluation is naturally performed in descending order of the document frequency. 29. The low-order nodes are arranged in descending order of the document frequency so that
Or the storage medium according to 29.
【請求項31】 第2の検索条件の変換は、論理演算
が、1つの検索条件による検索結果から別の1つ以上の
検索条件による検索結果に含まれるものを除外する差集
合演算であるときは、前記論理演算で結ばれている複数
の検索語については、この各検索語を覆う索引語の各々
を検索語として文書頻度見積手段で見積もった文書頻度
に基づいて、前記各検索語の検索を下位ノードに、この
下位ノードの前記論理演算を上位ノードにする複合検索
を階層的に連ねた木構造に変換し、さらに論理演算によ
る検索条件が他の論理演算で他の検索条件と結合される
入れ子構造になっている場合には、この入れ子構造の内
側の論理演算を下位ノードに、その外側論理演算を上位
ノードにする木構造に変換することを特徴とする請求項
28〜30のいずれかの一に記載の記憶媒体。
31. The conversion of the second search condition is performed when the logical operation is a difference set operation for excluding, from a search result based on one search condition, a search result based on one or more other search conditions. With respect to a plurality of search terms connected by the logical operation, the search of each of the search terms is performed based on the document frequency estimated by the document frequency estimating means using each of the index words covering each of the search terms as a search term. Is converted to a tree structure in which a complex search in which the logical operation of the lower node is set as an upper node is hierarchically linked, and the search condition by the logical operation is combined with another search condition by another logical operation. 31. When the nested structure has a nested structure, the logical operation inside the nested structure is converted into a lower node, and the logical operation outside the nested structure is converted into a tree structure having an upper node. Or 3. The storage medium according to claim 1.
【請求項32】 検索の実行では、 論理演算が、複数の検索語の出現順序を無視した出現位
置間の距離の上限の指定であるときに、下位ノードの端
から評価すれば自ずと文書頻度の小さい順に評価するこ
ととなるよう、文書頻度の小さい順に下位ノードを整列
させるように変換を行なう第2の予備変換を行なうもの
であることを特徴とする請求項28〜31のいずれかの
一に記載の記憶媒体。
32. In the execution of the search, when the logical operation is the designation of the upper limit of the distance between the appearance positions ignoring the appearance order of a plurality of search words, if the evaluation is made from the end of the lower node, the document frequency naturally becomes 32. The method according to claim 28, wherein the second preliminary conversion is performed so that the lower nodes are arranged in ascending order of the document frequency so that the evaluation is performed in ascending order. The storage medium according to the above.
【請求項33】 第2の予備変換は、検索語の検索を下
位ノードに、この下位ノードの検索後の出現位置間の距
離の上限の指定を上位ノードにする複合検索を階層的に
連ねた2進木構造に変換し、この変換は文書頻度の小さ
い下位ノードの順に2進木に変換し、文書頻度の小さい
下位ノードほど前記木構造の下層となるように行なうも
のであることを特徴とする請求項32に記載の記憶媒
体。
33. The second preliminary conversion hierarchically connects a compound search in which a search for a search word is set as a lower node and an upper limit of a distance between appearance positions of the lower node after the search is specified as an upper node. The conversion into a binary tree structure is performed, and this conversion is performed in such a manner that the lower node having the lower document frequency is converted into the binary tree, and the lower node having the lower document frequency is located at a lower layer of the tree structure. 33. The storage medium according to claim 32, wherein:
【請求項34】 第2の予備変換による変換後の木構造
での上位ノードの処理を前記木構造中での最下位層から
上位層に向けて順次実行して複合検索の結果を作成し、
前記上位ノードの処理は各検索語間の出現位置の比較を
前記文書頻度の小さいものから順に実行する第2の予備
検索を行ない、 複合検索は、上位ノードの処理を前記第2予備検索手段
による検索で限定された前記各検索語の出現位置につい
て行なうことを特徴とする請求項33に記載の記憶媒
体。
34. A process of an upper node in the tree structure after the conversion by the second preliminary conversion is sequentially executed from the lowest layer to the upper layer in the tree structure to generate a result of the compound search;
In the processing of the upper node, a second preliminary search is performed in which the occurrence positions of the search terms are compared in ascending order of the document frequency. In the compound search, the processing of the upper node is performed by the second preliminary search unit. 34. The storage medium according to claim 33, wherein the search is performed for an occurrence position of each of the search words limited by the search.
【請求項35】 電子化された複数の登録文書中から所
望の検索語を含む文書を検索するための索引を、この索
引の見出しとして登録される各索引語に、この索引語を
含んでいる前記登録文書の数である文書頻度、前記索引
語を含む文書の文書識別子、前記索引語の前記各登録文
書内での出現回数である文書内頻度および前記索引語の
前記各登録文書内での出現位置の各情報を対応付けて記
憶している索引記憶手段と、 前記登録文書を前記索引語に分割する文書分割手段と、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成する
検索語分割手段と、 前記検索条件を解析して、この検索条件から、前記検索
語分割手段が取得した前記索引語と前記空文書集合との
うちの少なくとも一方を演算子で合成した検索条件木を
生成する検索条件解析手段と、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得る検索条件評価手段とを備え、 nを1以上の整数としたときに、前記文書分割手段は前
記登録文書をn文字の連鎖である前記索引語に分割し、
前記検索語分割手段は前記検索語を覆う1つ以上のn文
字連鎖である前記索引語に分割し、前記検索条件解析手
段は前記検索語が2つ以上の前記索引語に分割されると
きはこの複数の索引語の出現位置間の距離を指定する位
置演算子で合成するものである電子化文書検索システ
ム。
35. An index for searching for a document including a desired search word from a plurality of digitized registered documents, and each index word registered as a heading of the index includes the index word. The document frequency which is the number of the registered documents, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each of the registered documents, and the index word in each of the registered documents. An index storage unit that stores information of each occurrence position in association with each other, a document division unit that divides the registered document into the index words, and divides a search word in a given search condition into the index words.
A search term division unit for creating an empty document set indicating that there is no corresponding document when the search term does not include at least one of the index terms; analyzing the search condition; A search condition analysis unit that generates a search condition tree by combining at least one of the index word acquired by the search word division unit and the empty document set with an operator, based on the search condition tree, And a search condition evaluation unit that obtains the search result by executing the search result synthesizing process by acquiring the information related to the index word from, and when n is an integer of 1 or more, the document division unit divides the registered document into split into the index terms, which are chains of n characters,
The search term dividing unit divides the search term into one or more n-character strings covering the search term, and the search condition analysis unit determines whether the search term is divided into two or more index terms. An electronic document search system that synthesizes by using a position operator that specifies a distance between the appearance positions of the plurality of index words.
【請求項36】 nが2以上で検索語がn文字未満の場
合、検索語分割手段はm文字目(mは1以上で(n−m
+1)以下である整数)から検索語と一致するすべての
索引語を索引から取り出し、検索条件解析手段は検索語
分割手段が取り出した前記複数の索引語を複数の検索結
果の和集合をとる和集合演算子で合成するものである請
求項35に記載の電子化文書検索システム。
36. When n is 2 or more and the search word is less than n characters, the search word dividing means selects the m-th character (m is 1 or more and (nm)
+1) An index word that matches the search word is extracted from the index from the integer), and the search condition analysis unit extracts the index words extracted by the search word division unit into a union of a plurality of search results. The electronic document search system according to claim 35, wherein the electronic document is synthesized by a set operator.
【請求項37】 nが2以上で検索語がn文字以上の場
合、検索語分割手段は検索語を覆う最小個数の索引語に
分割するものである請求項35に記載の電子化文書検索
システム。
37. The electronic document search system according to claim 35, wherein when n is 2 or more and the search word is n characters or more, the search word dividing means divides the search word into a minimum number of index words covering the search word. .
【請求項38】 最小個数の索引語に分割できる場合が
複数あるときは、検索語分割手段は検索語を覆う最小個
数の各索引語の文書頻度の合計が最小となるように検索
語を索引語に分割するものである請求項37に記載の電
子化文書検索システム。
38. When there are a plurality of cases in which the search term can be divided into the minimum number of index terms, the search term dividing means indexes the search terms so that the sum of the document frequencies of the minimum number of index terms covering the search terms is minimized. The computerized document search system according to claim 37, wherein the system is divided into words.
【請求項39】 電子化された複数の登録文書中から所
望の検索語を含む文書を検索するための索引を、この索
引の見出しとして登録される各索引語に、この索引語を
含んでいる前記登録文書の数である文書頻度、前記索引
語を含む文書の文書識別子、前記索引語の前記各登録文
書内での出現回数である文書内頻度および前記索引語の
前記各登録文書内での出現位置の各情報を対応付けて記
憶している索引記憶手段と、 前記登録文書を前記索引語に分割する文書分割手段と、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成する
検索語分割手段と、 前記検索条件を解析して、この検索条件から、前記検索
語分割手段が取得した前記索引語と前記空文書集合との
うちの少なくとも一方を演算子で合成した検索条件木を
生成する検索条件解析手段と、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得る検索条件評価手段とを備え、 前記検索語分割手段は前記分割で得た複数の索引語のう
ち前記検索語を覆う他の索引語に包含されるものは除外
するものであり、前記検索条件解析手段は前記検索語が
2つ以上の前記索引語に分割されるときはこの複数の索
引語の出現位置間の距離を指定する位置演算子で合成す
るものである電子化文書検索システム。
39. An index for searching for a document including a desired search word from a plurality of digitized registered documents, and each index word registered as a heading of the index includes the index word. The document frequency which is the number of the registered documents, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each of the registered documents, and the index word in each of the registered documents. An index storage unit that stores information of each occurrence position in association with each other, a document division unit that divides the registered document into the index words, and divides a search word in a given search condition into the index words.
A search term division unit for creating an empty document set indicating that there is no corresponding document when the search term does not include at least one of the index terms; analyzing the search condition; A search condition analysis unit that generates a search condition tree by combining at least one of the index word acquired by the search word division unit and the empty document set with an operator, based on the search condition tree, A search condition evaluation unit that obtains the search result by executing the search result synthesizing process by acquiring the information on the index word from the search word, and the search word division unit includes the search word among the plurality of index words obtained by the division. When the search term is divided into two or more of the index terms, the search condition analysis means excludes those included in other index terms covering the index terms. Specify the distance of Electronic document retrieval system is to synthesize in prefix operator.
【請求項40】 検索語分割手段は検索語を覆う最小個
数の索引語に分割するものである請求項39に記載の電
子化文書検索システム。
40. The electronic document search system according to claim 39, wherein the search word dividing means divides the search word into a minimum number of index words covering the search word.
【請求項41】 最小個数の索引語に分割できる場合が
複数あるときは、検索語分割手段は検索語を覆う最小個
数の各索引語の文書頻度の合計が最小となるように検索
語を索引語に分割するものである請求項40に記載の電
子化文書検索システム。
41. When there are a plurality of cases in which the search term can be divided into the minimum number of index terms, the search term dividing means indexes the search term so that the total of the document frequencies of the minimum number of index terms covering the search term becomes the minimum. 41. The computerized document search system according to claim 40, wherein the system is divided into words.
【請求項42】 電子化された複数の登録文書中から所
望の検索語を含む文書を検索するための索引を、この索
引の見出しとして登録される各索引語に、この索引語を
含んでいる前記登録文書の数である文書頻度、前記索引
語を含む文書の文書識別子、前記索引語の前記各登録文
書内での出現回数である文書内頻度および前記索引語の
前記各登録文書内での出現位置の各情報を対応付けて記
憶している索引記憶手段と、 前記登録文書を前記索引語に分割する文書分割手段と、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成する
検索語分割手段と、 前記検索条件を解析して、この検索条件から、前記検索
語分割手段が取得した前記索引語と前記空文書集合との
うちの少なくとも一方を演算子で合成した検索条件木を
生成する検索条件解析手段と、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得る検索条件評価手段とを備え、 前記検索語分割手段が前記検索語を2つ以上の前記索引
語に分割する場合は、前記検索条件解析手段は、これら
複数の索引語を複数の検索結果の積集合をとる積集合演
算子で合成した条件木である候補決定用条件木と、前記
複数の索引語から検索語を覆う最小個数のものを選択し
てそれを出現位置間の距離を指定する位置演算子で合成
した条件木である詳細判定用条件木とを作成し、前記検
索条件評価手段は、まず前記候補決定用条件木の前記検
索結果合成処理を実行して前記複数の登録文書から該当
文書を検索し、次に、この検索後の登録文書を対象に前
記詳細判定用条件木の前記検索結果合成処理を実行して
前記検索結果を得るものである電子化文書検索システ
ム。
42. An index for searching for a document including a desired search word from a plurality of digitized registered documents is included in each index word registered as a heading of the index. The document frequency which is the number of the registered documents, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each of the registered documents, and the index word in each of the registered documents. An index storage unit that stores information of each occurrence position in association with each other, a document division unit that divides the registered document into the index words, and divides a search word in a given search condition into the index words.
A search term division unit for creating an empty document set indicating that there is no corresponding document when the search term does not include at least one of the index terms; analyzing the search condition; A search condition analysis unit that generates a search condition tree by combining at least one of the index word acquired by the search word division unit and the empty document set with an operator, based on the search condition tree, A search condition evaluation unit that obtains the search result by executing the search result synthesizing process by acquiring the information regarding the index word from the search word, and the search word division unit divides the search word into two or more of the index words. In this case, the search condition analysis means may perform a search based on a candidate decision condition tree, which is a condition tree obtained by combining the plurality of index terms with an intersection operator that takes a set of a plurality of search results, and the plurality of index terms. Minimum covering words And a condition tree for detailed judgment, which is a condition tree obtained by synthesizing a number of items and combining them with a position operator designating a distance between the appearance positions, the search condition evaluation means firstly sets the condition for candidate determination. The search result synthesizing process of the tree is executed to search for the corresponding document from the plurality of registered documents, and then the search result synthesizing process of the detailed judgment condition tree is executed for the registered document after the search. And an electronic document search system for obtaining the search result.
【請求項43】 電子化された複数の登録文書中から所
望の検索語を含む文書を検索するための索引を、この索
引の見出しとして登録される各索引語に、この索引語を
含んでいる前記登録文書の数である文書頻度、前記索引
語を含む文書の文書識別子、前記索引語の前記各登録文
書内での出現回数である文書内頻度および前記索引語の
前記各登録文書内での出現位置の各情報を対応付けて記
憶している索引記憶手段と、 前記登録文書を前記索引語に分割する文書分割手段と、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成する
検索語分割手段と、 前記検索条件を解析して、この検索条件から、前記検索
語分割手段が取得した前記索引語と前記空文書集合との
うちの少なくとも一方を演算子で合成した検索条件木を
生成する検索条件解析手段と、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得る検索条件評価手段とを備え、 前記検索語分割手段が前記検索語を2つ以上の前記索引
語に分割する場合は、前記検索条件解析手段は、これら
複数の索引語を複数の検索結果の積集合をとる積集合演
算子で合成した条件木である候補決定用条件木と、前記
複数の索引語から前記検索語を覆いかつ索引語ごとの前
記文書頻度の合計が最小となるものを選択してそれを出
現位置間の距離を指定する位置演算子で合成した条件木
である詳細判定用条件木とを作成し、前記検索条件評価
手段は、まず前記候補決定用条件木の前記検索結果合成
処理を実行して前記複数の登録文書から該当文書を検索
し、次に、この検索後の登録文書を対象に前記詳細判定
用条件木の前記検索結果合成処理を実行して前記検索結
果を得るものである電子化文書検索システム。
43. An index for searching for a document including a desired search word from a plurality of digitized registered documents, and each index word registered as a heading of the index includes the index word. The document frequency which is the number of the registered documents, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each of the registered documents, and the index word in each of the registered documents. An index storage unit that stores information of each occurrence position in association with each other, a document division unit that divides the registered document into the index words, and divides a search word in a given search condition into the index words.
A search term division unit for creating an empty document set indicating that there is no corresponding document when the search term does not include at least one of the index terms; analyzing the search condition; A search condition analysis unit that generates a search condition tree by combining at least one of the index word acquired by the search word division unit and the empty document set with an operator, based on the search condition tree, A search condition evaluation unit that obtains the search result by executing the search result synthesizing process by acquiring the information regarding the index word from the search word, and the search word division unit divides the search word into two or more of the index words. In this case, the search condition analyzing means may include a condition tree for candidate determination, which is a condition tree obtained by combining the plurality of index terms with a product set operator that takes a set of a plurality of search results, and the plurality of index terms. Cover search terms And a condition tree for detailed judgment, which is a condition tree synthesized by a position operator that specifies a distance between appearance positions, by selecting a document having a minimum sum of the document frequencies for each index word, The search condition evaluation means first executes the search result synthesizing process to search for the corresponding document from the plurality of registered documents, and then performs the detailed determination on the registered document after the search. An electronic document search system for obtaining the search result by executing the search result synthesizing process for a use condition tree.
【請求項44】 電子化された複数の登録文書中から所
望の検索語を含む文書を検索するための索引を、この索
引の見出しとして登録される各索引語に、この索引語を
含んでいる前記登録文書の数である文書頻度、前記索引
語を含む文書の文書識別子、前記索引語の前記各登録文
書内での出現回数である文書内頻度および前記索引語の
前記各登録文書内での出現位置の各情報を対応付けて記
憶している索引記憶手段と、 前記登録文書を前記索引語に分割する文書分割手段と、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成する
検索語分割手段と、 前記検索条件を解析して、この検索条件から、前記検索
語分割手段が取得した前記索引語と前記空文書集合との
うちの少なくとも一方を演算子で合成した検索条件木を
生成する検索条件解析手段と、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得る検索条件評価手段とを備え、 前記索引は、前記索引語ごとに、前記各文書識別子は前
の文書識別子の値との差分を可変長符号で表現したもの
であり、前記文書内頻度は可変長符号で表現されたもの
であり、前記各出現位置は文書ごとの前の出現位置の値
との差分を可変長符号で表現したものである電子化文書
検索システム。
44. An index for retrieving a document including a desired search word from a plurality of digitized registered documents is included in each index word registered as a heading of the index. The document frequency which is the number of the registered documents, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each of the registered documents, and the index word in each of the registered documents. An index storage unit that stores information of each occurrence position in association with each other, a document division unit that divides the registered document into the index words, and divides a search word in a given search condition into the index words.
A search term division unit for creating an empty document set indicating that there is no corresponding document when the search term does not include at least one of the index terms; analyzing the search condition; A search condition analysis unit that generates a search condition tree by combining at least one of the index word acquired by the search word division unit and the empty document set with an operator, based on the search condition tree, A search condition evaluation unit that obtains a search result by executing a search result synthesizing process by acquiring the information on the index word from the index. The difference from the value is represented by a variable-length code, the frequency in the document is represented by a variable-length code, and each occurrence position varies the difference from the value of the previous occurrence position for each document. Also expressed in long code Electronic document retrieval system is.
【請求項45】 索引は、索引語ごとに、各文書識別子
と各文書内頻度および各出現位置とで格納する領域を分
けているものである請求項44に記載の電子化文書検索
システム。
45. The digitized document search system according to claim 44, wherein the index separates the storage area for each document identifier, each document frequency, and each appearance position for each index word.
【請求項46】 索引は、索引語ごとの各文書ごとに対
応して、文書内頻度および出現位置を表現するのに必要
なビット数である文書内頻度出現位置表現ビット数を可
変長符号で表現したデータを保持しているものである請
求項45に記載の電子化文書検索システム。
46. The index uses a variable length code to represent the number of bits in the document frequency appearance position, which is the number of bits required to represent the frequency and the appearance position in the document, corresponding to each document for each index word. 46. The digitized document search system according to claim 45, wherein the system stores the expressed data.
【請求項47】 索引は、索引語ごとの各文書ごとに対
応して、文書内頻度が指定された閾値以上である場合
に、出現位置を表現するのに必要なビット数である出現
位置表現ビット数を可変長符号で表現したデータを保持
しているものである請求項45に記載の電子化文書検索
システム。
47. An index corresponding to each document for each index word, an appearance position expression that is the number of bits required to express the appearance position when the frequency in the document is equal to or more than a specified threshold value. 46. The digitized document search system according to claim 45, wherein the digitized document search system holds data in which the number of bits is represented by a variable length code.
【請求項48】 文書内頻度出現位置表現ビット数およ
び出現位置表現ビット数は、各文書内頻度および各出現
位置を格納する領域に格納するものである請求項46ま
たは47に記載の電子化文書検索システム。
48. The digitized document according to claim 46, wherein the number of bits representing the frequency appearance position in the document and the number of bits representing the appearance position are stored in an area for storing the frequency in each document and each occurrence position. Search system.
【請求項49】 電子化された複数の登録文書中から所
望の検索語を含む文書を検索するための索引を、この索
引の見出しとして登録される各索引語に、この索引語を
含んでいる前記登録文書の数である文書頻度、前記索引
語を含む文書の文書識別子、前記索引語の前記各登録文
書内での出現回数である文書内頻度および前記索引語の
前記各登録文書内での出現位置の各情報である転置リス
トを対応付けて記憶している索引記憶手段と、 前記登録文書を前記索引語に分割する文書分割手段と、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成する
検索語分割手段と、 前記検索条件を解析して、この検索条件から、前記検索
語分割手段が取得した前記索引語と前記空文書集合との
うちの少なくとも一方を演算子で合成した検索条件木を
生成する検索条件解析手段と、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得る検索条件評価手段とを備え、 前記索引は、前記索引語ごとの前記転置リストを文字コ
ード順にソートしてファイルに格納しているものである
電子化文書検索システム。
49. An index for retrieving a document including a desired search word from a plurality of digitized registered documents is included in each index word registered as a heading of the index. The document frequency which is the number of the registered documents, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each of the registered documents, and the index word in each of the registered documents. An index storage unit that stores an inverted list, which is information of each occurrence position, in association with each other; a document division unit that divides the registered document into the index terms; and a search term in a given search condition, the index term. Divided into
A search term division unit for creating an empty document set indicating that there is no corresponding document when the search term does not include at least one of the index terms; analyzing the search condition; A search condition analysis unit that generates a search condition tree by combining at least one of the index word acquired by the search word division unit and the empty document set with an operator, based on the search condition tree, A search condition evaluation unit that obtains the search result by executing the search result synthesizing process by acquiring the information regarding the index word from the file. The index is obtained by sorting the transposed list for each index word in the order of the character code, and An electronic document search system that is stored in
【請求項50】 電子化された複数の登録文書中から所
望の検索語を含む文書を検索するための索引を、この索
引の見出しとして登録される各索引語に、この索引語を
含んでいる前記登録文書の数である文書頻度、前記索引
語を含む文書の文書識別子、前記索引語の前記各登録文
書内での出現回数である文書内頻度および前記索引語の
前記各登録文書内での出現位置の各情報である転置リス
トを対応付けて記憶している索引記憶手段と、 前記登録文書を前記索引語に分割する文書分割手段と、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成する
検索語分割手段と、 前記検索条件を解析して、この検索条件から、前記検索
語分割手段が取得した前記索引語と前記空文書集合との
うちの少なくとも一方を演算子で合成した検索条件木を
生成する検索条件解析手段と、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得る検索条件評価手段とを備え、 前記索引は、固定長のブロックであるページをファイル
の読み書きの単位としていて、前記転置リストの大きさ
が前記ページの大きさより所定程度小さいときは1つの
ページに1つ以上の転置リストを格納し、前記転置リス
トの大きさが前記ページより大きいときは1つの転置リ
ストを複数のページに格納しているものである電子化文
書検索システム。
50. An index for retrieving a document including a desired search word from a plurality of digitized registered documents is included in each index word registered as a heading of the index. The document frequency which is the number of the registered documents, the document identifier of the document including the index word, the frequency in the document which is the number of times the index word appears in each of the registered documents, and the index word in each of the registered documents. An index storage unit that stores an inverted list, which is information of each occurrence position, in association with each other; a document division unit that divides the registered document into the index terms; and a search term in a given search condition, the index term. Divided into
A search term division unit for creating an empty document set indicating that there is no corresponding document when the search term does not include at least one of the index terms; analyzing the search condition; A search condition analysis unit that generates a search condition tree by combining at least one of the index word acquired by the search word division unit and the empty document set with an operator, based on the search condition tree, A search condition evaluation unit that obtains the search result by executing the search result synthesizing process by acquiring the information regarding the index word from the index, wherein the index uses a page as a fixed-length block as a file read / write unit, When the size of the transposed list is smaller than the size of the page by a predetermined amount, one or more transposed lists are stored in one page, and the size of the transposed list is larger than the page. Can is one that contains one inverted list multiple pages electronic document retrieval system.
【請求項51】 前記索引は、固定長のブロックである
ページをファイルの読み書きの単位としていて、前記転
置リストの大きさが前記ページの大きさより所定程度小
さいときは1つのページに1つ以上の転置リストを格納
し、前記転置リストの大きさが前記ページより大きいと
きは1つの転置リストを複数のページに格納しているも
のであって、 前記複数のページに格納される転置リストは、文書頻
度、文書識別子およびページの管理情報を格納するペー
ジであるヘッダーページと、文書内頻度、出現位置およ
び文書内頻度出現位置表現ビット数もしくは出現位置表
現ビット数を格納する文書内頻度出現ページとにページ
を分けているものである請求項45〜48のいずれかに
記載の電子化文書検索システム。
51. The index uses a page as a fixed-length block as a unit for reading and writing a file, and when the size of the transposed list is smaller than the size of the page by a predetermined amount, one or more pages are assigned to one page. An inverted list is stored, and when the size of the inverted list is larger than the page, one inverted list is stored on a plurality of pages, and the inverted list stored on the plurality of pages is a document. A header page that stores the frequency, the document identifier, and the page management information, and a document frequency, an appearance position, and a document frequency appearance page that stores the document appearance frequency number or the appearance position expression bit number. 49. The digitized document search system according to claim 45, wherein the pages are divided.
【請求項52】 文書識別子は、1つの文書識別子に対
応するデータがページをまたがないものである請求項5
1に記載の電子化文書検索システム。
52. A document identifier in which data corresponding to one document identifier does not extend over pages.
An electronic document search system according to claim 1.
【請求項53】 文書識別子は複数ページにまたがって
格納されていて、文書識別子ページに格納しきれない複
数の文書識別子の登録順の終わりの1つ以上の文書識別
子はヘッダーページに格納されているものである請求項
51または52に記載の電子化文書検索システム。
53. The document identifier is stored over a plurality of pages, and one or more document identifiers at the end of the registration order of the plurality of document identifiers that cannot be stored in the document identifier page are stored in the header page. 53. The digitized document search system according to claim 51 or 52.
【請求項54】 文書識別子は複数の文書識別子ページ
にまたがって格納されていて、この文書識別子ページの
管理情報である文書識別子ページ索引に文書識別子ペー
ジのページ番号と各ページの先頭に記録された文書識別
子とを記録しているものである請求項51または52に
記載の電子化文書検索システム。
54. The document identifier is stored over a plurality of document identifier pages, and is recorded in the document identifier page index, which is management information of the document identifier page, at the page number of the document identifier page and at the beginning of each page. 53. The electronic document search system according to claim 51, wherein the system stores a document identifier.
【請求項55】 文書識別子ページ索引には、文書識別
子ページの各ページの末尾に記録された文書識別子を記
録しているものである請求項54に記載の電子化文書検
索システム。
55. The digitized document search system according to claim 54, wherein the document identifier page index records a document identifier recorded at the end of each page of the document identifier page.
【請求項56】 文書識別子をページのサイズより小さ
な固定長ブロックである文書識別子ブロックに分割して
格納し、文書識別子ブロックごとにそのはじめの文書の
文書識別子は前の文書識別子との差分をとらずに格納
し、文書内頻度、出現位置および文書内頻度出現位表現
ビット数もしくは出現位置表現ビット数がある場合には
前記文書内頻度出現位表現ビット数または出現位置表現
ビット数は文書識別子ブロックと同じ文書の情報を格納
するブロックである文書内頻度出現位置ブロックに分割
して格納している請求項51または52に記載の電子化
文書検索システム。
56. A document identifier is divided and stored in a document identifier block which is a fixed-length block smaller than a page size, and for each document identifier block, the difference between the document identifier of the first document and the previous document identifier is obtained. If there is a frequency in the document, an appearance position, and the number of bits of the frequency occurrence position expression or the number of occurrence position expression bits in the document, the number of bits of the frequency occurrence position expression or the number of appearance position expression bits in the document are the document identifier block. 53. The digitized document search system according to claim 51, wherein the digitized document search system is divided and stored into frequency occurrence position blocks in the document, which are blocks for storing information of the same document as the document.
【請求項57】 コンピュータで読取可能なプログラム
を記憶していて、 このプログラムは、コンピュータに読み取られることに
より、与えられた検索条件に従って、電子化されて所定
の記憶装置に登録されている複数の文書中から所望の検
索語を含む文書の検索を前記コンピュータに実行可能と
するものであり、 この検索の実行では、 電子化された複数の登録文書中から所望の検索語を含む
文書を検索するための索引を、この索引の見出しとして
登録される各索引語に、この索引語を含んでいる前記登
録文書の数である文書頻度、前記索引語を含む文書の文
書識別子、前記索引語の前記各登録文書内での出現回数
である文書内頻度および前記索引語の前記各登録文書内
での出現位置の各情報を対応付けて記憶して、 前記登録文書を前記索引語に分割し、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成し、 前記検索条件を解析して、この検索条件から、取得した
前記索引語と前記空文書集合とのうちの少なくとも一方
を演算子で合成した検索条件木を生成し、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得るものであり、 nを1以上の整数としたときに、前記文書分割手段は前
記登録文書をn文字の連鎖である前記索引語に分割し、
前記検索語分割手段は前記検索語を覆う1つ以上のn文
字連鎖である前記索引語に分割し、前記検索条件解析手
段は前記検索語が2つ以上の前記索引語に分割されると
きはこの複数の索引語の出現位置間の距離を指定する位
置演算子で合成するものである記憶媒体。
57. A computer-readable program stored therein. The program is read by the computer, and digitized according to a given search condition and registered in a predetermined storage device. The computer can execute a search for a document including a desired search word from a document. In the execution of the search, a document including the desired search word is searched from a plurality of digitized registered documents. For each index word registered as a heading of the index, a document frequency that is the number of the registered documents including the index word, a document identifier of the document including the index word, The information on the frequency of occurrence in the registered document and the information on the appearance position of the index term in each registered document are stored in association with each other. Is divided into words, the search terms in a given search condition is divided into the index word,
Further, when the search term does not include any of the index terms, an empty document set indicating that there is no corresponding document is created, the search condition is analyzed, and the index acquired from the search condition is obtained. A search condition tree is generated by combining at least one of a word and the empty document set with an operator. Based on the search condition tree, the information on the index term is obtained from the index, and a search result combining process is performed. Executing the search result to obtain a search result. When n is an integer of 1 or more, the document dividing unit divides the registered document into the index words which are a chain of n characters,
The search term dividing unit divides the search term into one or more n-character strings covering the search term, and the search condition analysis unit determines whether the search term is divided into two or more index terms. A storage medium that is synthesized by a position operator that specifies a distance between appearance positions of the plurality of index words.
【請求項58】 コンピュータで読取可能なプログラム
を記憶していて、 このプログラムは、コンピュータに読み取られることに
より、与えられた検索条件に従って、電子化されて所定
の記憶装置に登録されている複数の文書中から所望の検
索語を含む文書の検索を前記コンピュータに実行可能と
するものであり、 この検索の実行では、 電子化された複数の登録文書中から所望の検索語を含む
文書を検索するための索引を、この索引の見出しとして
登録される各索引語に、この索引語を含んでいる前記登
録文書の数である文書頻度、前記索引語を含む文書の文
書識別子、前記索引語の前記各登録文書内での出現回数
である文書内頻度および前記索引語の前記各登録文書内
での出現位置の各情報を対応付けて記憶して、 前記登録文書を前記索引語に分割し、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成し、 前記検索条件を解析して、この検索条件から、取得した
前記索引語と前記空文書集合とのうちの少なくとも一方
を演算子で合成した検索条件木を生成し、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得るものであり、 前記分割で得た複数の索引語のうち前記検索語を覆う他
の索引語に包含されるものは除外するものであり、前記
検索語が2つ以上の前記索引語に分割されるときはこの
複数の索引語の出現位置間の距離を指定する位置演算子
で合成するものである記憶媒体。
58. A computer-readable program stored therein, said program being read by a computer, and digitized according to a given search condition and stored in a predetermined storage device. The computer can execute a search for a document including a desired search word from a document. In the execution of the search, a document including the desired search word is searched from a plurality of digitized registered documents. For each index word registered as a heading of the index, a document frequency that is the number of the registered documents including the index word, a document identifier of the document including the index word, The information on the frequency of occurrence in the registered document and the information on the appearance position of the index term in each registered document are stored in association with each other. Is divided into words, the search terms in a given search condition is divided into the index word,
Further, when the search term does not include any of the index terms, an empty document set indicating that there is no corresponding document is created, the search condition is analyzed, and the index acquired from the search condition is obtained. A search condition tree is generated by combining at least one of a word and the empty document set with an operator. Based on the search condition tree, the information on the index term is obtained from the index, and a search result combining process is performed. Executing a search result, excluding a plurality of index words obtained by the division that are included in other index words covering the search word, wherein the search word is two or more. When divided into the index words, a storage medium that is synthesized by a position operator that specifies a distance between appearance positions of the plurality of index words.
【請求項59】 コンピュータで読取可能なプログラム
を記憶していて、 このプログラムは、コンピュータに読み取られることに
より、与えられた検索条件に従って、電子化されて所定
の記憶装置に登録されている複数の文書中から所望の検
索語を含む文書の検索を前記コンピュータに実行可能と
するものであり、 この検索の実行では、 電子化された複数の登録文書中から所望の検索語を含む
文書を検索するための索引を、この索引の見出しとして
登録される各索引語に、この索引語を含んでいる前記登
録文書の数である文書頻度、前記索引語を含む文書の文
書識別子、前記索引語の前記各登録文書内での出現回数
である文書内頻度および前記索引語の前記各登録文書内
での出現位置の各情報を対応付けて記憶して、 前記登録文書を前記索引語に分割し、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成し、 前記検索条件を解析して、この検索条件から、取得した
前記索引語と前記空文書集合とのうちの少なくとも一方
を演算子で合成した検索条件木を生成し、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得るものであり、 前記検索語を2つ以上の前記索引語に分割する場合は、
これら複数の索引語を複数の検索結果の積集合をとる積
集合演算子で合成した条件木である候補決定用条件木
と、前記複数の索引語から検索語を覆う最小個数のもの
を選択してそれを出現位置間の距離を指定する位置演算
子で合成した条件木である詳細判定用条件木とを作成
し、まず前記候補決定用条件木の前記検索結果合成処理
を実行して前記複数の登録文書から該当文書を検索し、
次に、この検索後の登録文書を対象に前記詳細判定用条
件木の前記検索結果合成処理を実行して前記検索結果を
得るものである記憶媒体。
59. A computer-readable program stored therein, said program being read by a computer, and digitized according to a given search condition and stored in a predetermined storage device. The computer can execute a search for a document including a desired search word from a document. In the execution of the search, a document including the desired search word is searched from a plurality of digitized registered documents. For each index word registered as a heading of the index, a document frequency that is the number of the registered documents including the index word, a document identifier of the document including the index word, The information on the frequency of occurrence in the registered document and the information on the appearance position of the index term in each registered document are stored in association with each other. Is divided into words, the search terms in a given search condition is divided into the index word,
Further, when the search term does not include any of the index terms, an empty document set indicating that there is no corresponding document is created, the search condition is analyzed, and the index acquired from the search condition is obtained. A search condition tree is generated by combining at least one of a word and the empty document set with an operator. Based on the search condition tree, the information on the index word is obtained from the index, and a search result synthesis process is performed. Execute to obtain a search result. When the search word is divided into two or more index words,
A candidate decision condition tree, which is a condition tree obtained by combining the plurality of index words with a product set operator that takes a product set of a plurality of search results, and a minimum number covering the search word from the plurality of index words is selected. And a condition tree for detailed determination, which is a condition tree synthesized by a position operator that specifies a distance between appearance positions, and first executes the search result synthesis processing for the condition tree for candidate determination, and Search for the relevant document from the registered document of
Next, a storage medium for obtaining the search result by executing the search result synthesizing process on the detailed determination condition tree for the registered document after the search.
【請求項60】 コンピュータで読取可能なプログラム
を記憶していて、 このプログラムは、コンピュータに読み取られることに
より、与えられた検索条件に従って、電子化されて所定
の記憶装置に登録されている複数の文書中から所望の検
索語を含む文書の検索を前記コンピュータに実行可能と
するものであり、 この検索の実行では、 電子化された複数の登録文書中から所望の検索語を含む
文書を検索するための索引を、この索引の見出しとして
登録される各索引語に、この索引語を含んでいる前記登
録文書の数である文書頻度、前記索引語を含む文書の文
書識別子、前記索引語の前記各登録文書内での出現回数
である文書内頻度および前記索引語の前記各登録文書内
での出現位置の各情報を対応付けて記憶して、 前記登録文書を前記索引語に分割し、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成し、 前記検索条件を解析して、この検索条件から、取得した
前記索引語と前記空文書集合とのうちの少なくとも一方
を演算子で合成した検索条件木を生成し、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得るものであり、 前記検索語を2つ以上の前記索引語に分割する場合は、
これら複数の索引語を複数の検索結果の積集合をとる積
集合演算子で合成した条件木である候補決定用条件木
と、前記複数の索引語から前記検索語を覆いかつ索引語
ごとの前記文書頻度の合計が最小となるものを選択して
それを出現位置間の距離を指定する位置演算子で合成し
た条件木である詳細判定用条件木とを作成し、まず前記
候補決定用条件木の前記検索結果合成処理を実行して前
記複数の登録文書から該当文書を検索し、次に、この検
索後の登録文書を対象に前記詳細判定用条件木の前記検
索結果合成処理を実行して前記検索結果を得るものであ
る記憶媒体。
60. A computer-readable program stored therein. The program is read by the computer, and digitized according to a given search condition and registered in a predetermined storage device. The computer can execute a search for a document including a desired search word from a document. In the execution of the search, a document including the desired search word is searched from a plurality of digitized registered documents. For each index word registered as a heading of the index, a document frequency that is the number of the registered documents including the index word, a document identifier of the document including the index word, The information on the frequency of occurrence in the registered document and the information on the appearance position of the index term in each registered document are stored in association with each other. Is divided into words, the search terms in a given search condition is divided into the index word,
Further, when the search term does not include any of the index terms, an empty document set indicating that there is no corresponding document is created, the search condition is analyzed, and the index acquired from the search condition is obtained. A search condition tree is generated by combining at least one of a word and the empty document set with an operator. Based on the search condition tree, the information on the index term is obtained from the index, and a search result combining process is performed. Execute to obtain a search result. When the search word is divided into two or more index words,
A candidate decision condition tree, which is a condition tree obtained by combining the plurality of index words with an intersection operator that takes the intersection of a plurality of search results, and the candidate tree that covers the search word from the plurality of index words and for each index word A condition tree for detail determination, which is a condition tree synthesized by a position operator that specifies a distance between appearance positions, is selected by selecting a candidate having a minimum total of document frequencies, and the candidate determination condition tree is first generated. Executing the search result synthesizing process to search for a corresponding document from the plurality of registered documents, and then executing the search result synthesizing process for the detailed judgment condition tree for the registered document after the search. A storage medium for obtaining the search result.
【請求項61】 コンピュータで読取可能なプログラム
を記憶していて、 このプログラムは、コンピュータに読み取られることに
より、与えられた検索条件に従って、電子化されて所定
の記憶装置に登録されている複数の文書中から所望の検
索語を含む文書の検索を前記コンピュータに実行可能と
するものであり、 この検索の実行では、 電子化された複数の登録文書中から所望の検索語を含む
文書を検索するための索引を、この索引の見出しとして
登録される各索引語に、この索引語を含んでいる前記登
録文書の数である文書頻度、前記索引語を含む文書の文
書識別子、前記索引語の前記各登録文書内での出現回数
である文書内頻度および前記索引語の前記各登録文書内
での出現位置の各情報を対応付けて記憶して、 前記登録文書を前記索引語に分割し、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成し、 前記検索条件を解析して、この検索条件から、取得した
前記索引語と前記空文書集合とのうちの少なくとも一方
を演算子で合成した検索条件木を生成し、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得るものであり、 前記索引は、前記索引語ごとに、前記各文書識別子は前
の文書識別子の値との差分を可変長符号で表現したもの
であり、前記文書内頻度は可変長符号で表現されたもの
であり、前記各出現位置は文書ごとの前の出現位置の値
との差分を可変長符号で表現したものである記憶媒体。
61. A computer-readable program stored therein. The program is read by the computer, and is digitized in accordance with a given search condition and registered in a predetermined storage device. The computer can execute a search for a document including a desired search word from a document. In the execution of the search, a document including the desired search word is searched from a plurality of digitized registered documents. For each index word registered as a heading of the index, a document frequency that is the number of the registered documents including the index word, a document identifier of the document including the index word, The information on the frequency of occurrence in the registered document and the information on the appearance position of the index term in each registered document are stored in association with each other. Is divided into words, the search terms in a given search condition is divided into the index word,
Further, when the search term does not include any of the index terms, an empty document set indicating that there is no corresponding document is created, the search condition is analyzed, and the index acquired from the search condition is obtained. A search condition tree is generated by combining at least one of a word and the empty document set with an operator. Based on the search condition tree, the information on the index term is obtained from the index, and a search result combining process is performed. Executing, to obtain a search result, the index is, for each index word, each document identifier is a difference from the value of the previous document identifier expressed in a variable length code, the frequency in the document is A storage medium represented by a variable length code, wherein each occurrence position is a variable length code representing a difference from a value of a previous appearance position for each document.
【請求項62】 コンピュータで読取可能なプログラム
を記憶していて、 このプログラムは、コンピュータに読み取られることに
より、与えられた検索条件に従って、電子化されて所定
の記憶装置に登録されている複数の文書中から所望の検
索語を含む文書の検索を前記コンピュータに実行可能と
するものであり、 この検索の実行では、 電子化された複数の登録文書中から所望の検索語を含む
文書を検索するための索引を、この索引の見出しとして
登録される各索引語に、この索引語を含んでいる前記登
録文書の数である文書頻度、前記索引語を含む文書の文
書識別子、前記索引語の前記各登録文書内での出現回数
である文書内頻度および前記索引語の前記各登録文書内
での出現位置の各情報を対応付けて記憶して、 前記登録文書を前記索引語に分割し、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成し、 前記検索条件を解析して、この検索条件から、取得した
前記索引語と前記空文書集合とのうちの少なくとも一方
を演算子で合成した検索条件木を生成し、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得るものであり、 前記索引は、前記索引語ごとの前記転置リストを文字コ
ード順にソートしてファイルに格納しているものである
記憶媒体。
62. A computer-readable program stored therein. The program is read by the computer, and is digitized according to a given search condition and registered in a predetermined storage device. The computer can execute a search for a document including a desired search word from a document. In the execution of the search, a document including the desired search word is searched from a plurality of digitized registered documents. For each index word registered as a heading of the index, a document frequency that is the number of the registered documents including the index word, a document identifier of the document including the index word, The information on the frequency of occurrence in the registered document and the information on the appearance position of the index term in each registered document are stored in association with each other. Is divided into words, the search terms in a given search condition is divided into the index word,
Further, when the search term does not include any of the index terms, an empty document set indicating that there is no corresponding document is created, the search condition is analyzed, and the index acquired from the search condition is obtained. A search condition tree is generated by combining at least one of a word and the empty document set with an operator. Based on the search condition tree, the information on the index term is obtained from the index, and a search result combining process is performed. A storage medium for executing a search result, wherein the index stores the transposed list for each index word in a character code order and stores the sorted list in a file.
【請求項63】 コンピュータで読取可能なプログラム
を記憶していて、 このプログラムは、コンピュータに読み取られることに
より、与えられた検索条件に従って、電子化されて所定
の記憶装置に登録されている複数の文書中から所望の検
索語を含む文書の検索を前記コンピュータに実行可能と
するものであり、 この検索の実行では、 電子化された複数の登録文書中から所望の検索語を含む
文書を検索するための索引を、この索引の見出しとして
登録される各索引語に、この索引語を含んでいる前記登
録文書の数である文書頻度、前記索引語を含む文書の文
書識別子、前記索引語の前記各登録文書内での出現回数
である文書内頻度および前記索引語の前記各登録文書内
での出現位置の各情報を対応付けて記憶して、 前記登録文書を前記索引語に分割し、 与えられた検索条件中の検索語を前記索引語に分割し、
また、前記検索語中に前記索引語が1つも含まれていな
いときは該当文書がない旨を示す空文書集合を作成し、 前記検索条件を解析して、この検索条件から、取得した
前記索引語と前記空文書集合とのうちの少なくとも一方
を演算子で合成した検索条件木を生成し、 この検索条件木に基づき、前記索引から前記索引語に関
する前記情報を取得して検索結果合成処理を実行し検索
結果を得るものであり、 前記索引は、固定長のブロックであるページをファイル
の読み書きの単位としていて、前記転置リストの大きさ
が前記ページの大きさより所定程度小さいときは1つの
ページに複数の転置リストを格納し、前記転置リストの
大きさが前記ページより大きいときは1つの転置リスト
を複数のページに格納しているものである記憶媒体。
63. A computer-readable program stored therein. The program is read by the computer, and digitized according to a given search condition and registered in a predetermined storage device. The computer can execute a search for a document including a desired search word from a document. In the execution of the search, a document including the desired search word is searched from a plurality of digitized registered documents. For each index word registered as a heading of the index, a document frequency that is the number of the registered documents including the index word, a document identifier of the document including the index word, The information on the frequency of occurrence in the registered document and the information on the appearance position of the index term in each registered document are stored in association with each other. Is divided into words, the search terms in a given search condition is divided into the index word,
Further, when the search term does not include any of the index terms, an empty document set indicating that there is no corresponding document is created, the search condition is analyzed, and the index acquired from the search condition is obtained. A search condition tree is generated by combining at least one of a word and the empty document set with an operator. Based on the search condition tree, the information on the index word is obtained from the index, and a search result synthesis process is performed. The index is used as a unit of reading and writing a file, which is a fixed-length block, and when the size of the inverted list is smaller than the size of the page by a predetermined amount, one index is used. A plurality of transposed lists, and when the transposed list is larger than the page, one transposed list is stored in a plurality of pages.
JP10256974A 1998-02-02 1998-09-10 Electronic document retrieval system and storage medium Pending JPH11282880A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10256974A JPH11282880A (en) 1998-02-02 1998-09-10 Electronic document retrieval system and storage medium

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2084098 1998-02-02
JP10-20840 1998-02-02
JP10256974A JPH11282880A (en) 1998-02-02 1998-09-10 Electronic document retrieval system and storage medium

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005316003A Division JP4011595B2 (en) 1998-02-02 2005-10-31 Electronic document retrieval system and recording medium

Publications (1)

Publication Number Publication Date
JPH11282880A true JPH11282880A (en) 1999-10-15

Family

ID=26357832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10256974A Pending JPH11282880A (en) 1998-02-02 1998-09-10 Electronic document retrieval system and storage medium

Country Status (1)

Country Link
JP (1) JPH11282880A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714927B1 (en) 1999-08-17 2004-03-30 Ricoh Company, Ltd. Apparatus for retrieving documents
JP2010044763A (en) * 2008-08-08 2010-02-25 Estsoft Corp File uploading method with function of abstracting index information in real time and web storage system using the same
JP2011210110A (en) * 2010-03-30 2011-10-20 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for predicting number of documents with respect to composite word
US11112955B2 (en) 2017-11-10 2021-09-07 Furuno Electric Co., Ltd. Nautical chart display device, nautical chart display method, and nautical chart display program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57166668A (en) * 1981-04-08 1982-10-14 Agency Of Ind Science & Technol Information retrieving device
JPH03116375A (en) * 1989-09-29 1991-05-17 Ricoh Co Ltd Information retriever
JPH08339383A (en) * 1995-04-11 1996-12-24 Ricoh Co Ltd Document retrieving device and dictionary preparing device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57166668A (en) * 1981-04-08 1982-10-14 Agency Of Ind Science & Technol Information retrieving device
JPH03116375A (en) * 1989-09-29 1991-05-17 Ricoh Co Ltd Information retriever
JPH08339383A (en) * 1995-04-11 1996-12-24 Ricoh Co Ltd Document retrieving device and dictionary preparing device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714927B1 (en) 1999-08-17 2004-03-30 Ricoh Company, Ltd. Apparatus for retrieving documents
US7188104B2 (en) 1999-08-17 2007-03-06 Ricoh Company, Ltd. Apparatus for retrieving documents
JP2010044763A (en) * 2008-08-08 2010-02-25 Estsoft Corp File uploading method with function of abstracting index information in real time and web storage system using the same
JP2011210110A (en) * 2010-03-30 2011-10-20 Nippon Telegr & Teleph Corp <Ntt> Device, method and program for predicting number of documents with respect to composite word
US11112955B2 (en) 2017-11-10 2021-09-07 Furuno Electric Co., Ltd. Nautical chart display device, nautical chart display method, and nautical chart display program

Similar Documents

Publication Publication Date Title
US8171029B2 (en) Automatic generation of ontologies using word affinities
JP2929963B2 (en) Document search device, word index creation method, and document search method
EP0510634B1 (en) Data base retrieval system
US6662189B2 (en) Method of performing data mining tasks for generating decision tree and apparatus therefor
US5680612A (en) Document retrieval apparatus retrieving document data using calculated record identifier
CN111868710B (en) Random extraction forest index structure for searching large-scale unstructured data
US6741985B2 (en) Document retrieval system and search method using word set and character look-up tables
US8095526B2 (en) Efficient retrieval of variable-length character string data
US20030033278A1 (en) Data sort method, data sort apparatus, and data sort program
US7880648B2 (en) Information processing apparatus, information processing method, and computer product
JP4893805B2 (en) Information processing program, information retrieval program, and information processing apparatus
JP2833580B2 (en) Full-text index creation device and full-text database search device
JP2888188B2 (en) Information retrieval device
US9600565B2 (en) Data structure, index creation device, data search device, index creation method, data search method, and computer-readable recording medium
JPH08329116A (en) Method for retrieving structured document
JPH11282880A (en) Electronic document retrieval system and storage medium
JP4011595B2 (en) Electronic document retrieval system and recording medium
JP4208326B2 (en) Information indexing device
JP2993540B2 (en) Ascending integer sequence data compression and decoding system
US6411958B1 (en) Data processing system and method for generating a structured listing of symbols
JP3678615B2 (en) Document search apparatus and document search method
JP2001052024A (en) Method and device for retrieving similar feature amount and storage medium storing retrieval program for similar feature amount
KR100745292B1 (en) Dlectronic dictionary searching system
CN106934002B (en) Search keyword digitalized analysis method and engine
US9350383B2 (en) Run total encoded data processing

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051031

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060105