JPH09293078A - Information retrieving method, information retrieving device and storage medium for storing information retrieving program - Google Patents

Information retrieving method, information retrieving device and storage medium for storing information retrieving program

Info

Publication number
JPH09293078A
JPH09293078A JP8095704A JP9570496A JPH09293078A JP H09293078 A JPH09293078 A JP H09293078A JP 8095704 A JP8095704 A JP 8095704A JP 9570496 A JP9570496 A JP 9570496A JP H09293078 A JPH09293078 A JP H09293078A
Authority
JP
Japan
Prior art keywords
character string
document
input
search
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8095704A
Other languages
Japanese (ja)
Inventor
Rie Kubota
理恵 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP8095704A priority Critical patent/JPH09293078A/en
Publication of JPH09293078A publication Critical patent/JPH09293078A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To input a complicated retrieval intension with a simple operation by compar ing appearance frequency information indicating the apperance of a part of a candidate character string in an input document with position information and evaluating the feature quantity of the candidatae character string. SOLUTION: A partial character string appearing plural times is extracted from inputted sentenses and adopted as the candidate character string (S805). Then, the character string where alphanumerics/KATAKANA (square form of Japanese syllabary) is divided is removed from the candidate character string (S807). The residual candidate character string is given a point (of feature quantity) for indicating how much degree to which the candidate character string becomes the feature of the input document (S809). The candidate character string is choosed based on the inclusion relation and the points of the candidate character strings (S811). A feature character string is decided from the one with the higher points within the candidate character strings (S813). A whole document aggregation is retrieved with the decided feature character string as a retrieval character string (S815). Then, the documents discovered by retrieval are evaluated (S817) and outputted in evaluation order.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、コンピュータに格納
された大量の文書を検索するシステム及び方法に関する
ものである。より具体的には、ある文書に近い内容の文
書を、高速且つ所望の曖昧度を許容しつつ検索するシス
テム及び方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a system and method for retrieving a large number of documents stored in a computer. More specifically, the present invention relates to a system and method for searching a document having contents close to a certain document at high speed while allowing a desired ambiguity.

【0002】[0002]

【従来の技術】電子化された文書テキスト集合から興味
のある文書を探しだすための検索手段においては、興味
の内容を示す文字列を AND, OR, NOTなどの論理演算子
でつないだ検索式を入力する方法が広く行われている。 (例) ( コンピューター OR パソコン ) AND 検索
2. Description of the Related Art In a search means for finding a document of interest from a digitized set of document texts, a search expression in which character strings indicating the content of interest are connected by logical operators such as AND, OR, NOT The method of entering is widely used. (Example) (Computer OR PC) AND Search

【0003】この方法は,興味の内容を検索式に変換す
る作業をすべてユーザーにゆだねるものであり、適当な
検索文字列を思いつくこと、適当な検索式を組み立てる
こと、検索式を入力することが面倒であり,結果の質は
ユーザーの熟練度に負う部分が大きい。
This method entrusts the user with all the work of converting the content of interest into a search expression, and can come up with a suitable search character string, construct a suitable search expression, and input a search expression. It is troublesome, and the quality of the result depends largely on the skill of the user.

【0004】また、各検索文字列に重みをつけて,重み
の大きい検索文字列を含む文書から順に出力する方法も
行われている。 (例) コンピューター.60 パソコン.60 検索.100
Further, a method is also used in which each search character string is weighted and the documents including the search character string having a large weight are sequentially output. (Example) Computer 60 Computer 60 Search 100

【0005】この方法も、興味の内容を検索式に変換す
る作業をすべてユーザーにゆだねるものであり、適当な
検索文字列を思いつくこと、適当な重みをつけること、
検索式を入力することが面倒である。したがって、ユー
ザが検索すべき文書の内容や、使用されている用語を熟
知している必要があり、漠然と「こんな感じの文章が読
みたい」と考えても、そのようなユーザの要求は、実現
されることは困難であった。
This method also entrusts the user with the task of converting the content of interest into a search expression, and comes up with an appropriate search character string, an appropriate weighting,
Entering a search formula is cumbersome. Therefore, it is necessary for the user to be familiar with the content of the document to be searched and the terms used, and even if vaguely "I want to read a sentence like this", such a user's request is realized. It was difficult to be done.

【0006】この一方、特開平6−124305号公報
に記載されている検索方法のように、自然言語を検索の
入力として、検索キーを抽出し、抽出された検索キーを
基に検索を行う技術が存在するが、その抽出には、検索
キー辞書を必要とする。このような検索キー辞書等の語
彙情報(単語辞書)や文法接続規則を元に抽出する方法
は、単語辞書や文法接続規則が、固定的なものであるた
め、「トイザらス」("トイザらス"はトイザラス社の商
標)のような新語や「恐竜の足跡」のようなフレーズ
を、特徴文字列として抽出することは困難である。ま
た、文書の内容を含めたものの「特徴」という概念は、
時代とともに変化していくものである。例えば、一昔前
は、サラリーマンは会社に出社するいるときには必ずス
ーツを着ていたが、最近は、カジュアルデーを多くの企
業が採用しているため、サラリーマンが出社時にスーツ
を着ていないケースも多いのである。これらの問題を解
決するためには、新語や新しい商標、商号、商品名等
や、時代の変化に対応すべく単語辞書を更新し続ける必
要が有るが、かかる作業は非常に労力を必要とし、更
新、新語等の追加によって辞書等を格納する領域も大き
くなり、検索速度に影響を及ぼす事となる。
On the other hand, as in the search method described in Japanese Patent Laid-Open No. 6-124305, a technique for extracting a search key using natural language as an input for the search and performing a search based on the extracted search key Exists, but its extraction requires a search key dictionary. The method of extracting based on vocabulary information (word dictionary) such as a search key dictionary and grammatical connection rules is fixed because the word dictionary and grammatical connection rules are fixed. It is difficult to extract a new word such as the trademark of Toys R Us or a phrase such as "Dinosaur footprints" as a characteristic character string. In addition, the concept of "features" including the contents of documents is
It changes with the times. For example, a long time ago, office workers always wore suits when they came to work, but nowadays, many companies employ casual days, so there are many cases where office workers do not wear suits when they go to work. Of. In order to solve these problems, it is necessary to continue to update the word dictionary to correspond to the new words, new trademarks, trade names, product names, etc., and changes in the times, but such work requires a lot of effort, By updating and adding new words, the area for storing dictionaries and the like becomes large, which affects the search speed.

【0007】また、特開平6−223114号公報に、
本願発明と同様に、単語の出現頻度を用いて文字列を処
理する方法が記載されている。しかし、この技術は、登
録してある単語リスト(単語辞書)に、文書中の単語が
存在するか否か探索することによって、文書の種類を判
断し、または、検索のためのキーワードを抽出するもの
であり、本願発明のような、入力文書、比較文書の双方
において、単語や文字列が出現する出現頻度を調査し、
その双方の出現頻度を利用した技術ではない(単語リス
トには1つの単語は、1回しか出現しえないし、出現頻
度を調べるのは無意味である)。このため、固定的な単
語辞書が必要となり、新語やフレーズを、特徴文字列と
して抽出することは困難であるという前述の課題は以前
存在する。さらに、この技術では、分野別の固定的単語
辞書をもとに、キーワードの検出を行っているので、例
えば、文書の検索方法について記載している文書が複数
あった場合、各文書から抽出されるキーワードは、「検
索」,「文字列」,「高速」等のどれも似たようなキー
ワードとなってしまう可能性が高く、各文書を差別化す
るキーワードを抽出することは困難である。
Further, in Japanese Patent Laid-Open No. 6-223114,
Similar to the present invention, a method of processing a character string by using the frequency of appearance of words is described. However, this technique determines the type of document or extracts a keyword for a search by searching a registered word list (word dictionary) for words in the document. Therefore, as in the present invention, in both the input document and the comparison document, the frequency of appearance of words and character strings is investigated,
It is not a technique that uses both occurrence frequencies (a word can appear only once in a word list, and it is meaningless to check the occurrence frequency). For this reason, a fixed word dictionary is required, and the above-mentioned problem that it is difficult to extract a new word or phrase as a characteristic character string has existed before. Furthermore, in this technique, keywords are detected based on a fixed word dictionary for each field, so if there are multiple documents that describe how to search for a document, they are extracted from each document. It is highly possible that the keywords to be searched are similar keywords such as “search”, “character string”, and “high speed”, and it is difficult to extract the keywords that differentiate each document.

【0008】[0008]

【発明が解決しようとする課題】この発明の目的は、検
索式を考えたり入力したりすることなく、ボタンをクリ
ックするなどのごく簡単な動作で複雑な検索意図を入力
できる検索システムの構築を可能にすることにある。
SUMMARY OF THE INVENTION An object of the present invention is to construct a search system capable of inputting a complicated search intention with a very simple operation such as clicking a button without having to think or input a search expression. To enable.

【0009】この発明の他の目的は、複雑・抽象的な検
索意図を簡単に入力できる、より人間に歩み寄った検索
方法を提供することにある。
Another object of the present invention is to provide a search method that allows humans to easily input complex and abstract search intentions and that is closer to humans.

【0010】この発明の他の目的は、ユーザーが検索文
字列や検索式を考えたり入力したりする労力を軽減し
て、誰にでも使える検索方法、検索に使用すべきキーワ
ードを正確に把握していなくても検索できる検索方法を
提供することにある。
Another object of the present invention is to reduce the labor of the user to think and input a search character string or a search expression, and to accurately grasp a search method usable by anyone and a keyword to be used for the search. It is to provide a search method that can be searched even if not.

【0011】この発明の他の目的は、語彙情報・文法情
報を使わずに、相対的かつ流動的に特徴文字列を抽出す
る文字列検索技法を提供することにある。
Another object of the present invention is to provide a character string retrieval technique for relatively and fluidly extracting characteristic character strings without using vocabulary information and grammatical information.

【0012】この発明の他の目的は、記憶容量が少なく
て済み、高速に特徴文字列を抽出する検索方法を提供す
ることにある。
Another object of the present invention is to provide a retrieval method for quickly extracting a characteristic character string that requires a small storage capacity.

【0013】[0013]

【課題を解決するための手段】本発明は、1.入力文章
から特徴文字列(文書集合全体から見てその文章を特徴
づけている文字列)を抽出し、2.特徴文字列にそれぞ
れ適当な一致度をわりあて、あいまい検索をおこない、
3.見つかった文書を各特徴文字列の入力文章中での出
現頻度情報を重みとして用いて評価し、評価順に並べか
えることにより上記課題を解決する。
The present invention provides: 1. A characteristic character string (character string characterizing the sentence as seen from the entire document set) is extracted from the input sentence, and 2. Assign an appropriate degree of matching to each of the characteristic strings and perform a fuzzy search.
3. The above problem is solved by evaluating the found documents by using the appearance frequency information in the input sentence of each characteristic character string as a weight and rearranging them in the order of evaluation.

【0014】ここでいう「入力された文章」とは、日本
語、英語等の各国言語として意味のとおる文章のまとま
りのことであり、1文書の内容まるごとでも、1段落で
もよい。また、日本語と英語等の複数の言語が混在する
文書でもよい。また、「特徴文字列」は、文書集合全体
から見て、または、他の文書と比較して、その文章を特
徴づけている文字列でる。この特徴文字列を卑近な例で
例えるならば、見知らぬ者が多く集うパーティで、1人
の人物を特定するために用いられるその人物を形容する
語に似る。もし、そのパーティに来ている人のほとんど
が眼鏡をかけているのであれば、「眼鏡をかけている」
という語は、その人物の特徴とはならない、その一方、
そのパーティに来ている人のほとんどがカジュアルな服
装であるのに対し、その人物がスーツを着ているのであ
れば、「スーツを着ている」という語は、その人物の大
きな特徴となる。
The term "input sentence" as used herein refers to a group of sentences that is meaningful as a language of each country such as Japanese and English, and may be the entire content of one document or one paragraph. Further, it may be a document in which a plurality of languages such as Japanese and English are mixed. The "characteristic character string" is a character string that characterizes the sentence as viewed from the entire document set or compared with other documents. If this feature character string is compared with a common example, it is similar to the word describing a person used to identify a person in a party where many strangers gather. If most of the people at the party wear glasses, "wearing glasses"
Is not a feature of that person, while
Most people coming to the party wear casual clothes, whereas if the person is wearing a suit, the word "wearing a suit" is a great feature of that person.

【0015】入力文章から抽出された特徴文字列は、出
現頻度情報で重みづけしてあいまいに検索される。文書
集合は、N文字連鎖の出現位置情報を抽出して索引ファ
イルとしてあらかじめ作成しておくことにより文書中の
あらゆる文字列による高速検索を可能となる。形態素解
析による単語抽出を行わないため、単語辞書保守が不要
で文書の登録が高速であり、文字の並びが似ている文字
列を探すあいまい検索ができる。
The characteristic character string extracted from the input sentence is ambiguously searched by weighting the appearance frequency information. The document set can be searched at high speed by any character string in the document by extracting the appearance position information of N character chains and creating it as an index file in advance. Because word extraction by morphological analysis is not performed, word dictionary maintenance is not required, document registration is fast, and fuzzy search that searches for character strings with similar character sequences is possible.

【0016】本発明の1の態様においては、比較文書か
ら抽出された部分比較文書文字列が存在する比較文書中
の位置情報を部分比較文書文字列と関連付けて管理する
段階と、入力文書から、部分入力文字列を抽出して、候
補文字列とする段階と、候補文字列の一部と、一定の類
似度以上で一致する部分比較文書文字列を特定する段階
と、一定の類似度以上で一致する部分比較文書文字列に
関連付けられた位置情報を特定する段階と、候補文字列
の一部が入力文書中に出現する出現頻度情報と、位置情
報を対比して、候補文字列の特徴量を評価することによ
り候補文字列を特徴文字列と認定する段階とを含む記憶
媒体に格納された比較文書を検索できるコンピュータ・
システムにおいて、コンピュータ・システムに入力され
た入力文書に含まれる特徴文字列を特定する方法が提供
される。このような、特徴文字列が特定されることによ
って、その文書の性質を直感的に把握できる。
In one aspect of the present invention, the position information in the comparative document in which the partial comparative document character string extracted from the comparative document exists is managed in association with the partial comparative document character string, and from the input document, Extracting a partial input character string and making it a candidate character string, specifying a partial comparison document character string that matches a part of the candidate character string with a certain degree of similarity or more, and with a certain degree of similarity or more. The feature quantity of the candidate character string is compared by comparing the position information with the stage of identifying the position information associated with the matching partial comparison document character string and the appearance frequency information in which a part of the candidate character string appears in the input document. A computer capable of searching a comparison document stored in a storage medium including a step of recognizing a candidate character string as a characteristic character string.
A method is provided in a system for identifying a feature string contained in an input document input to a computer system. By specifying such a character string, it is possible to intuitively understand the property of the document.

【0017】ここでいう「記憶媒体に格納された比較文
書」とは、コンピュタ内の記憶装置に格納された文書の
みならず、他のシステムに格納されているが、このコン
ピュータによって検索可能である文書を含む。また、文
書は単数であっても、複数であってもよく、単数また
は、複数の文書の一部分(タイトル、タイトルを除いた
本文、脚注等)であってもよい。さらに、複数文書の場
合は、入力文書を含む文書集合や、検索等によって抽出
された文書集合であってもよい。文書の内容は自然言語
であっても、プログラム言語であってもよい。
The "comparison document stored in the storage medium" here is not only the document stored in the storage device in the computer but also stored in another system, but can be searched by this computer. Contains documents. Further, the document may be a single document or a plurality of documents, and may be a single document or a part of a plurality of documents (title, text without title, footnote, etc.). Further, in the case of a plurality of documents, it may be a document set including an input document or a document set extracted by search or the like. The content of the document may be in natural language or programming language.

【0018】また、「入力文書」は、コンピュタ内の記
憶装置に格納された自然言語、プログラム言語の文書全
体のみならず、文書全体は他のシステムに格納されてい
るが、文書全体の一部が抽出され、このコンピュータに
入力される文書をも含む。また、文書は単数であって
も、複数であってもよい。さらに、入力文書は比較文書
から抽出された一部であってもよい。
The "input document" is not only the entire document in natural language or programming language stored in the storage device in the computer, but the entire document is stored in another system, but a part of the entire document. Include documents that are extracted and entered on this computer. Further, the document may be single or plural. Further, the input document may be a part extracted from the comparison document.

【0019】「入力文書から抽出される部分入力文字
列」は、非デリミタ言語のN文字(Nは1以上の自然
数)の固定的な文字列、非デリミタ言語のN文字以上の
(Nは1以上の自然数)の可変的な文字列だけでなく、
デリミタ言語の1つまたは複数の単語であってもよい。
また、語彙情報(単語辞書)や文法接続規則を元に入力
文書から抽出されたキーワードであってもよい。
The "partial input character string extracted from the input document" is a fixed character string of N characters (N is a natural number of 1 or more) in a non-delimiter language, or N characters or more (N is 1) of a non-delimiter language. Not only a variable character string (natural number above),
It may be one or more words in the delimiter language.
It may also be a keyword extracted from the input document based on vocabulary information (word dictionary) or grammatical connection rules.

【0020】「候補文字列の一部」とは、候補文字列の
全部を含む概念であり、「出現頻度情報」とは、候補文
字列の一部が入力文書中、比較文書等に出現する出現回
数に関連した情報のことであり、各文書中その全部を調
査して導きだした出現回数だけでなく、各文書のサンプ
ルに出現する回数にもとずく情報であってもよい。さら
に、本発明の好適な実施例において述べているように、
候補文字列のN字連鎖に対応する位置情報データの大き
さ(図3に示す位置情報ファイルの大きさ、バイト数)
をQレベルに量子化した値(Qは定数)や、このような値
を圧縮した値等、文書に出現する出現回数に関連した値
を変換した情報であってもよい。
The "part of the candidate character string" is a concept including the entire candidate character string, and the "appearance frequency information" is that a part of the candidate character string appears in the input document, the comparison document or the like. It is information related to the number of appearances, and may be information based on the number of appearances in a sample of each document as well as the number of appearances derived by investigating all of them in each document. Further, as stated in the preferred embodiment of the present invention,
Size of position information data corresponding to N-character chain of candidate character strings (size of position information file and number of bytes shown in FIG. 3)
May be information obtained by converting a value related to the number of appearances in a document, such as a value quantized to Q level (Q is a constant) or a value obtained by compressing such a value.

【0021】「比較文書中の位置情報を部分比較文書文
字列と関連付けて管理」とは、本発明の好適な実施例の
図3に示すような位置情報ファイルによる管理が望まし
いが、比較文書中の位置情報を、部分比較文書文字列と
関連付けて管理すれば、テーブルを用いた管理や、情報
記憶位置へポイントするための情報であってもよい。
The "management of the position information in the comparison document in association with the partial comparison document character string" is preferably management by the position information file as shown in FIG. 3 of the preferred embodiment of the present invention. If the position information of is managed in association with the partial comparison document character string, it may be information for managing using a table or pointing to an information storage position.

【0022】「特徴量」とは、本発明の好適な実施例に
示す候補文字列の点数に対応する概念であるが、これに
限定されず、例えば、候補文字列の点数計算の途中で、
特徴文字列であると認定されるための基準をクリアして
いることを検出し、その候補文字列を、特徴文字列と認
定することも可能であり、係る概念も、本発明に包含さ
れるのもである。
The "feature amount" is a concept corresponding to the score of the candidate character string shown in the preferred embodiment of the present invention, but is not limited to this. For example, during the calculation of the score of the candidate character string,
It is also possible to detect that the standard for being recognized as a characteristic character string is cleared and to judge the candidate character string as a characteristic character string, and such a concept is also included in the present invention. It is also.

【0023】「特徴量を評価」とは、たとえば、特徴量
の高い(入力文書の特徴となる)文字列の上位X個をそ
の入力文書の特徴文字列と評価する場合や、閾値を超え
る特徴量を有する候補文字列をその入力文書の特徴文字
列と評価する場合や、上位X個かつ閾値を超える特徴量
を有する候補文字列をその入力文書の特徴文字列と評価
する場合等種々の条件設定が可能である。この特定され
た特徴文字列は、そのまま検索で使用することや、本発
明の好適な実施例で示すように、他の条件(例えば、重
なり具合を元に取捨選択する等)によって、さらに選別
を行ってもよい。
The "evaluation of characteristic amount" means, for example, a case where the upper X character strings having a high characteristic amount (characteristic of the input document) are evaluated as characteristic character strings of the input document, or a characteristic exceeding a threshold value. Various conditions such as the case of evaluating a candidate character string having a certain amount as a characteristic character string of the input document, the case of evaluating a candidate character string having a top X number and a characteristic amount exceeding a threshold value as a characteristic character string of the input document, etc. Can be set. This specified characteristic character string can be used for the search as it is, or can be further selected by other conditions (for example, selection based on the overlapping degree) as shown in the preferred embodiment of the present invention. You can go.

【0024】本発明の他の態様においては、入力文書か
ら、部分文字列を抽出して、候補文字列とする段階と、
候補文字列の一部が入力文書中に出現する出現頻度情報
と、候補文字列の一部が比較文書中に出現する出現頻度
情報の対比から、候補文字列の特徴量を評価することに
より候補文字列を特徴文字列と認定する段階と、特徴文
字列に類似する文字列を有している被検索文書を複数の
被検索文書から探索する段階とを含むコンピュータによ
って検索可能に記憶されている複数の被検索文書の中か
ら、コンピュータに入力された入力文書に存在する部分
入力文字列に類似する文字列を有している被検索文書を
探索する方法が提供される。
In another aspect of the present invention, a step of extracting a partial character string from an input document and making it a candidate character string,
By comparing the appearance frequency information in which a part of the candidate character string appears in the input document with the appearance frequency information in which a part of the candidate character string appears in the comparison document, the candidate character string is evaluated by evaluating the feature amount. It is stored so that it can be searched by a computer, including the steps of recognizing a character string as a characteristic character string and searching for a searched document having a character string similar to the characteristic character string from a plurality of searched documents. There is provided a method of searching a plurality of searched documents for a searched document having a character string similar to a partial input character string existing in an input document input to a computer.

【0025】「特徴文字列に類似する文字列」とは、一
定の類似度以上で類似する文字列であるが、100%の
類似度、すなわち、完全に一致している文字列をも含む
概念である。また、ここでいう「探索」とは、本発明の
好適な実施例に記載された曖昧検索の検索方法だけでは
なく、文字列から文書を検索することのできる全ての検
索方法を含んでいる。
The "character string similar to the characteristic character string" is a character string which is similar to a character string having a certain degree of similarity or more, but the concept also includes a degree of similarity of 100%, that is, a character string which completely matches. Is. The term "search" as used herein includes not only the fuzzy search search method described in the preferred embodiment of the present invention but also all search methods capable of searching a document from a character string.

【0026】ここにいう「出現頻度情報の対比」とは、
もっとも簡単な例では、"入力文書中の出現頻度/比較
文書中の出現頻度"に基づいた計算式によって算出され
るものであるが、本発明の好適な実施例にも記載してい
るように、種々の計算式によって代替可能である。
The "comparison of appearance frequency information" mentioned here means
In the simplest example, it is calculated by a calculation formula based on "appearance frequency in input document / appearance frequency in comparison document", but as described in the preferred embodiment of the present invention, , Can be replaced by various calculation formulas.

【0027】本発明の他の態様においては、入力文書か
ら、部分文字列を抽出して、候補文字列とする段階と、
候補文字列の一部が入力文書中に出現する出現頻度情報
と、候補文字列の一部が比較文書中に出現する出現頻度
情報の対比から、候補文字列の特徴量を評価することに
より候補文字列を特徴文字列と認定する段階とを含む記
憶媒体に格納された比較文書を検索できるコンピュータ
・システムにおいて、コンピュータ・システムに入力さ
れた入力文書に含まれる特徴文字列を特定する方法が提
供される。
In another aspect of the present invention, a step of extracting a partial character string from an input document and making it a candidate character string,
By comparing the appearance frequency information in which a part of the candidate character string appears in the input document with the appearance frequency information in which a part of the candidate character string appears in the comparison document, the candidate character string is evaluated by evaluating the feature amount. In a computer system capable of retrieving a comparison document stored in a storage medium including a step of recognizing a character string as a characteristic character string, a method for specifying a characteristic character string included in an input document input to the computer system is provided. To be done.

【0028】本発明の他の態様においては、第1の特徴
文字列の一部が入力文書中で出現する出現頻度情報から
第1の特徴文字列に対応した第1の重み値を算出する段
階と、第2の特徴文字列の一部が入力文書中で出現する
出現頻度情報から第2の特徴文字列に対応した第2の重
み値を算出する段階と、第1特徴文字列の一部が比較文
書中に出現する第1の出現頻度値を計算する段階と、第
2特徴文字列の一部が比較文書中に出現する第2の出現
頻度値を計算する段階と、第1の重み値を考慮した第1
の出現頻度値と、第2の重み値を考慮した第2の出現頻
度値から、比較文書の類似度を算出する段階とを含む記
憶媒体に格納された比較文書を検索できるコンピュータ
・システムにおいて、比較文書とコンピュータ・システ
ムに入力された第1の特徴文字列と第2の特徴文字列を
含む入力文書との類似性を評価する方法が提供される。
In another aspect of the present invention, a step of calculating a first weight value corresponding to a first characteristic character string from appearance frequency information in which a part of the first characteristic character string appears in an input document. And a step of calculating a second weight value corresponding to the second feature character string from appearance frequency information in which a part of the second feature character string appears in the input document, and a part of the first feature character string Calculating a first appearance frequency value that appears in the comparison document, calculating a second appearance frequency value in which a part of the second characteristic character string appears in the comparison document, and a first weight. First considering the value
A computer system capable of retrieving a comparison document stored in a storage medium including a step of calculating the similarity of the comparison document from the second appearance frequency value considering the second weight value and A method is provided for assessing the similarity between a comparison document and an input document containing a first feature string and a second feature string input to a computer system.

【0029】本発明の他の態様においては、特徴文字列
の一部が入力文書中で出現する出現頻度情報から特徴文
字列に対応した重み値を算出する手段と、特徴文字列の
一部が比較文書中に出現する出現頻度情報と重み値か
ら、比較文書の類似度を算出する手段とを含む記憶媒体
に格納された比較文書を検索できるコンピュータ・シス
テムにおいて、比較文書とコンピュータ・システムに入
力された特徴文字列を含む入力文書との類似性を評価す
る方法が提供される。
In another aspect of the present invention, a means for calculating a weight value corresponding to a characteristic character string from appearance frequency information in which a part of the characteristic character string appears in an input document, and a part of the characteristic character string are provided. In a computer system capable of retrieving a comparative document stored in a storage medium including a means for calculating the similarity of the comparative document from the appearance frequency information and weight value appearing in the comparative document, the comparative document and the computer system are input. A method for evaluating the similarity with an input document including a specified characteristic string is provided.

【0030】本発明の他の態様においては、比較文書か
ら抽出された部分比較文書文字列が存在する比較文書中
の位置情報を部分比較文書文字列と関連付けて管理する
一情報ファイルを格納する記憶装置と、入力文書から、
候補文字列を抽出する手段と、候補文字列の一部と、一
定の類似度以上で一致する部分比較文書文字列を特定す
る手段と、位置情報ファイルにおいて、一定の類似度以
上で一致する部分比較文書文字列に関連付けられた位置
情報を特定する手段と、候補文字列の一部が入力文書中
に出現する出現頻度情報と、位置情報を対比して、候補
文字列の特徴量を評価することにより候補文字列を特徴
文字列と認定する手段とを含むコンピュータによって検
索可能に記憶された比較文書を含むコンピュータ・シス
テムにおいて、コンピュータに入力された入力文書に含
まれる特徴文字列を特定する装置が提供される。
In another aspect of the present invention, a storage for storing one information file for managing position information in a comparison document in which a partial comparison document character string extracted from the comparison document exists in association with the partial comparison document character string From the device and the input document,
A means for extracting a candidate character string, a part for matching a part of the candidate character string with a certain similarity or higher, a means for specifying a comparison document character string, and a part for matching with a certain similarity or higher in the position information file The feature amount of the candidate character string is evaluated by comparing the position information with the means for identifying the position information associated with the comparison document character string and the appearance frequency information in which a part of the candidate character string appears in the input document. A computer system including a comparison document retrievably stored by a computer including means for recognizing a candidate character string as a characteristic character string, thereby identifying the characteristic character string included in the input document input to the computer Will be provided.

【0031】本発明の他の態様においては、入力文書を
特定し、検索の実行を指示するための入力装置と、入力
装置から、入力文書が特定されたこと、検索の指示が入
力されたことを検出する手段と、入力文書が特定された
こと、検索の指示が入力されたことの検出に応答して、
入力文書から候補文字列を抽出する手段と、候補文字列
の一部が入力文書中に出現する出現頻度情報と、候補文
字列の一部が比較文書中に出現する出現頻度情報の対比
から、候補文字列の特徴量を計算する手段と、特徴量を
評価することにより候補文字列を特徴文字列と認定する
手段と、特徴文字列に類似する文字列を有している被検
索文書を複数の被検索文書から探索する手段と、特徴文
字列に類似する文字列を有している被検索文書を表示す
るための表示装置とを含むコンピュータによって検索可
能に記憶された複数の被検索文書の中から、前記コンピ
ュータに入力された入力文書に存在する部分入力文字列
に類似する文字列を有している被検索文書を探索する装
置が提供される。
According to another aspect of the present invention, an input device for specifying an input document and instructing execution of a search, an input document specified by the input device, and a search instruction input. In response to detecting that the input document has been identified and the search instruction has been input,
From the means of extracting the candidate character string from the input document, the appearance frequency information in which a part of the candidate character string appears in the input document, and the appearance frequency information in which a part of the candidate character string appears in the comparison document, A means for calculating the characteristic amount of the candidate character string, a means for recognizing the characteristic amount to identify the candidate character string as a characteristic character string, and a plurality of searched documents having a character string similar to the characteristic character string. Of the plurality of searched documents stored by the computer so as to be searched by the computer including a searching device for searching the searched document and a display device for displaying the searched document having a character string similar to the characteristic character string. There is provided an apparatus for searching for a searched document having a character string similar to a partial input character string existing in the input document input to the computer.

【0032】本発明の他の態様においては、入力文書か
ら候補文字列を抽出する手段と、候補文字列の一部が入
力文書中に出現する出現頻度情報と、候補文字列の一部
が比較文書中に出現する出現頻度情報の対比から、候補
文字列の特徴量を評価することにより候補文字列を特徴
文字列と認定する手段とを含むコンピュータによって検
索可能に記憶された比較文書を含むコンピュータ・シス
テムにおいて、コンピュータに入力された入力文書に含
まれる特徴文字列を特定する装置が提供される。
In another aspect of the present invention, means for extracting a candidate character string from an input document, appearance frequency information in which a part of the candidate character string appears in the input document, and a part of the candidate character string are compared. A computer including a comparison document stored in a searchable manner by a computer including means for recognizing a candidate character string as a characteristic character string by evaluating a characteristic amount of the candidate character string from a comparison of appearance frequency information that appears in the document. A system is provided with a device for specifying a characteristic character string included in an input document input to a computer.

【0033】本発明の他の態様においては、特徴文字列
の一部が入力文書中で出現する出現頻度情報から特徴文
字列に対応した重み値を算出する手段と、特徴文字列の
一部が比較文書中に出現する出現頻度情報と重み値か
ら、比較文書の類似度を算出する手段とを含むコンピュ
ータによって検索可能に記憶された比較文書を含むコン
ピュータ・システムにおいて、比較文書とコンピュータ
に入力された特徴文字列を含む入力文書との類似性を評
価する装置が提供される。
In another aspect of the present invention, a means for calculating a weight value corresponding to a characteristic character string from appearance frequency information in which a part of the characteristic character string appears in an input document, and a part of the characteristic character string are provided. In a computer system including a comparison document searchably stored by a computer that includes means for calculating the similarity of the comparison document from appearance frequency information that appears in the comparison document and a weight value, the comparison document and the computer are input to the computer. An apparatus is provided for evaluating the similarity with an input document including a feature string.

【0034】本発明の他の態様においては、入力文書か
ら、部分文字列を抽出して、候補文字列とすることをコ
ンピュータに指示するプログラムコード手段と、候補文
字列の一部が入力文書中に出現する出現頻度情報と、候
補文字列の一部が比較文書中に出現する出現頻度情報の
対比から、候補文字列の特徴量を評価することにより候
補文字列を特徴文字列と認定することをコンピュータに
指示するプログラムコード手段とを含むコンピュータに
よって検索可能に記憶された比較文書を含むコンピュー
タ・システムにおいて、コンピュータに入力された入力
文書に含まれる特徴文字列を特定するためのプログラム
を格納するコンピュータによって読み取り可能な記憶媒
体が提供される。
In another aspect of the present invention, a program code means for instructing a computer to extract a partial character string from an input document and use it as a candidate character string, and a part of the candidate character string are included in the input document. The candidate character string is identified as a characteristic character string by evaluating the characteristic amount of the candidate character string based on the comparison between the appearance frequency information that appears in the comparison document and the appearance frequency information that a part of the candidate character string appears in the comparison document. In a computer system that includes a comparison document that is stored in a searchable by a computer and that includes a program code unit that instructs the computer, a program for specifying a characteristic character string included in the input document input to the computer is stored. A computer-readable storage medium is provided.

【0035】この記憶媒体には、フロッピーディスク、
CD−ROM、MO、PD、ネットワークに接続された
記憶装置等がある。プログラムコードは複数に分割し複
数の媒体に格納することもできる。また、このプログラ
ムは圧縮して媒体に格納することも可能である。この媒
体は、フロッピーディスクドライブ等の各種ドライブ
や、モデム、シリアルポート等を介してシステムにロー
ドされる。
The storage medium is a floppy disk,
There are CD-ROMs, MOs, PDs, storage devices connected to the network, and the like. The program code can be divided into a plurality of pieces and stored in a plurality of media. Further, this program can be compressed and stored in the medium. This medium is loaded into the system via various drives such as a floppy disk drive, a modem, a serial port and the like.

【0036】本発明の他の態様においては、特徴文字列
の一部が入力文書中で出現する出現頻度情報から特徴文
字列に対応した重み値を算出することをコンピュータに
指示するプログラムコード手段と、特徴文字列の一部が
比較文書中に出現する出現頻度情報と重み値から、比較
文書の類似度を算出することをコンピュータに指示する
プログラムコード手段とを含むコンピュータによって検
索可能に記憶された比較文書を含むコンピュータ・シス
テムにおいて、比較文書とコンピュータに入力された特
徴文字列を含む入力文書との類似性を評価するためのプ
ログラムを格納するコンピュータによって読み取り可能
な記憶媒体が提供される。
In another aspect of the present invention, program code means for instructing a computer to calculate a weight value corresponding to a characteristic character string from appearance frequency information in which a part of the characteristic character string appears in an input document. , Which is stored searchably by a computer including program code means for instructing the computer to calculate the similarity of the comparison document from the appearance frequency information and the weight value in which a part of the characteristic character string appears in the comparison document. In a computer system including a comparison document, a computer-readable storage medium storing a program for evaluating the similarity between the comparison document and the input document including the characteristic character string input to the computer is provided.

【0037】[0037]

【実施例】以下、図面を参照して本発明の実施例を説明
する。 A.ハードウェア構成 図1を参照すると、本発明を実施するためのシステム構
成の概観図が示されている。この構成は、バス101
に、演算及び入出力制御機能をもつ中央処理装置(CP
U)102、プログラムをロードし、また、CPU10
2のための作業領域を与える主記憶(RAM)104、
コマンドや検索する文字列などをキー入力するためのキ
ーボード106と、中央処理装置を制御するためのオペ
レーティング・システム、データベース・ファイル、検
索エンジン、索引ファイルなどを格納したハードディス
ク108と、データベースの検索結果を表示するための
ディスプレイ装置110と、ディスプレイ装置110の
画面上の任意の位置をポイントしてその位置情報を中央
処理装置に伝えるためのポインティング・デバイス(マ
ウス、トラックボール等を含む)112が接続されてい
る。
Embodiments of the present invention will be described below with reference to the drawings. A. Hardware Configuration Referring to FIG. 1, there is shown an overview of a system configuration for implementing the present invention. This configuration corresponds to the bus 101
In addition, the central processing unit (CP
U) 102, loads the program, and CPU 10
Main memory (RAM) 104, which provides a work area for
A keyboard 106 for keying in commands and character strings to be searched, a hard disk 108 storing an operating system, a database file, a search engine, an index file, etc. for controlling the central processing unit, and a database search result A display device 110 for displaying the information and a pointing device (including a mouse, a trackball, etc.) 112 for pointing an arbitrary position on the screen of the display device 110 and transmitting the position information to the central processing unit are connected. Has been done.

【0038】従って、本発明は、通常のパーソナルコン
ピュータ(PC)、やワークステーションやこれらの組
合せによって実施可能であることを容易に理解できるで
あろう。また、本発明の方法を実行するために、オペレ
ーティング・システムと協働してCPU等に命令を与え
るプログラムコードを格納する記憶媒体114が示され
ている。記憶媒体にはフロッピーディスク、CD−RO
M、MO、PD、ネットワークに接続された記憶装置等
があり、前述のプログラムコードは複数に分割し、また
は圧縮してこの記憶媒体に格納することも可能である。
この記憶媒体114は、フロッピーディスクドライブ等
の各種ドライブや、モデム、シリアルポート等を介して
システムにロードされることによって、図1に示すシス
テムは、本発明のシステムとして構成されることとな
る。
Therefore, it can be easily understood that the present invention can be implemented by a general personal computer (PC), a workstation, or a combination thereof. Also shown is a storage medium 114 that stores program code that provides instructions to a CPU or the like in cooperation with an operating system to perform the methods of the present invention. The storage medium is a floppy disk, CD-RO
There are M, MO, PD, storage devices connected to the network, and the like, and the above-mentioned program code can be divided into a plurality of pieces or compressed and stored in this storage medium.
The storage medium 114 is loaded into the system via various drives such as a floppy disk drive, a modem, a serial port, etc., whereby the system shown in FIG. 1 is configured as the system of the present invention.

【0039】オペレーティング・システムとしては、W
indows(マイクロソフトの商標)、OS/2(I
BMの商標)、AIX(IBMの商標)上のX−WIN
DOWシステム(MITの商標)などの、標準でGUI
マルチウインドウ環境をサポートするものが望ましい
が、本発明は、PC−DOS(IBMの商標)、MS−
DOS(マイクロソフトの登録商標)などのキャラクタ
・ベース環境でも実現可能であり、特定のオペレーティ
ング・システム環境に限定されるものではない。また、
図1は、スタンド・アロン環境のシステムを示している
が、一般的に、データベース・ファイルは大容量のディ
スク装置を要するものであるので、クライアント/サー
バ・システムとして本発明を実現し、サーバ・マシンに
データベース・ファイルと検索エンジンを配置し、クラ
イアント・マシンは、サーバ・マシンに対して、イーサ
ネット、トークン・リングなどでLAN接続し、クライ
アント・マシン側には、入力文書を特定するための入力
制御機能と、検索結果を見るための表示制御部のみを配
置するようにしてもよい。
As the operating system, W
Windows (trademark of Microsoft), OS / 2 (I
BM trademark), X-WIN on AIX (IBM trademark)
GUI as standard, such as DOW system (trademark of MIT)
Although it is desirable to support a multi-window environment, the present invention relates to PC-DOS (trademark of IBM), MS-
It can be realized in a character-based environment such as DOS (registered trademark of Microsoft), and is not limited to a specific operating system environment. Also,
Although FIG. 1 shows a system in a stand-alone environment, since a database file generally requires a large-capacity disk device, the present invention is realized as a client / server system and a server / server system is used. The database file and the search engine are placed on the machine, the client machine is connected to the server machine via LAN by Ethernet, token ring, etc., and the input for identifying the input document is made on the client machine side. Only the control function and the display control unit for viewing the search result may be arranged.

【0040】B.システム構成 次に、図2のブロック図を参照して、本発明のシステム
構成について説明する。尚、図2で個別のブロックで示
されている要素は、図1のハードディスク108に、個
別にまたは集合的に、データ・ファイルまたはプログラ
ム・ファイルとして格納されているものであることに留
意されたい。データベース202として本発明が主に想
定するものは、新聞記事のデータベース、特許公報デー
タベースなどの、複数の文書が格納されたものである。
しかし、本発明の適用範囲は、複数の文書からなるデー
タベースの検索に限定されず、単一の文書内の検索にも
適用できることに留意されたい。
B. System Configuration Next, the system configuration of the present invention will be described with reference to the block diagram of FIG. It should be noted that the elements shown as individual blocks in FIG. 2 are individually or collectively stored in the hard disk 108 in FIG. 1 as a data file or a program file. . What the present invention mainly envisions as the database 202 is a database that stores a plurality of documents such as a newspaper article database and a patent publication database.
However, it should be noted that the scope of the present invention is not limited to searching a database composed of a plurality of documents, but can be applied to searching within a single document.

【0041】このとき、個別の文書のコンテンツは、例
えばテキスト・ファイル形式で、検索可能に格納されて
いるものである。さらに、個々の文書には、一意的な文
書番号が付与されている。好適な文書番号は、1から始
まる昇順の順次番号であるが、特許公報データベースの
場合、出願番号あるいは公開番号を一意的な文書番号と
して使用することもできる。また、個々の文書を識別す
るために順次番号ではなく、"ABC"、"&XYZ"などの記号
を使用してもよい。但し、一般的に、そのような識別記
号を表現するためには、数字よりも多くのバイト数を要
するので、実際上、順次番号で文書を識別する方が好ま
しい。
At this time, the content of each individual document is stored in a searchable manner, for example, in a text file format. Further, a unique document number is given to each document. The preferred document number is an ascending sequential number starting from 1, but in the case of a patent publication database, an application number or a publication number can be used as a unique document number. Further, symbols such as "ABC" and "&XYZ" may be used instead of the sequential numbers to identify individual documents. However, in general, it takes more bytes than numbers to represent such an identification symbol, so in practice it is preferable to identify documents by sequential numbers.

【0042】本発明の好適な実施例においては、日本語
・中国語のような文字の種類が多く表記上、明示的な単
語デリミターを持たない言語(非デリミタ言語)と、英語
のような文字の種類が少なく、明示的な単語デリミター
をともなって表記される言語(デリミタ言語)のどちらで
記述された文書に対しても、高速な検索を実現すること
を可能にする。
In a preferred embodiment of the present invention, there are many kinds of characters such as Japanese and Chinese in the notation, and a language without an explicit word delimiter (non-delimiter language) and a character like English. It makes it possible to realize high-speed search for documents written in either of the languages (delimiter language) that are written with an explicit word delimiter with few types.

【0043】一般的に、データベース202に格納され
ている新聞記事あるいは特許公報のような膨大なコンテ
ンツを直接検索するのは長い処理時間を要するので、デ
ータベース202に格納されている全ての新聞記事のコ
ンテンツを対象として予め、索引ファイル204が、索
引作成・更新モジュール206によって作成されてい
る。本発明の後述する実施例では、日本語等の非デリミ
タ言語のみの場合、索引ファイル204は、文字連鎖フ
ァイルと、位置情報ファイルの2つのファイルで構成さ
れ、英語等のデリミタ言語を含む場合は、文字連鎖ファ
イルと、位置情報ファイルと、拡張文字連鎖ファイル
と、拡張位置情報ファイルの4つのファイルで構成され
ている。
In general, it takes a long processing time to directly retrieve a huge amount of contents such as newspaper articles or patent publications stored in the database 202, so that all newspaper articles stored in the database 202 are searched. The index file 204 is created in advance by the index creation / update module 206 for the contents. In a later-described embodiment of the present invention, when only a non-delimiter language such as Japanese is used, the index file 204 is composed of two files, a character chain file and a position information file. When the index file 204 includes a delimiter language such as English, , A character chain file, a position information file, an extended character chain file, and an extended position information file.

【0044】文字連鎖ファイルには、固定長連鎖・可変
長連鎖・区切りパターンとそれに対応する文書番号・文
書内位置番号が位置情報ファイルのどこに位置するかが
格納される。位置情報ファイルには、文書番号・文書内
位置番号が格納される。拡張文字連鎖ファイルには、拡
張文字連鎖とそれに対応する可変長連鎖番号・可変長連
鎖内位置番号が拡張位置情報ファイルのどこに位置する
かが格納される。拡張位置情報ファイルには、可変長連
鎖番号・可変長連鎖内位置番号が格納される。本発明の
好適な実施例においては、このような検索ファイルを用
いることにより、高速な検索が可能となるのであるが、
ある文字列の出現頻度を計算は、文書の格納の形式に因
らず行うことが可能であるため、かかる索引ファイルを
使用することは、本発明の必須の要件とはならない。
The character chain file stores where fixed length chains, variable length chains, delimiter patterns and corresponding document numbers and in-document position numbers are located in the position information file. The position information file stores the document number and the position number in the document. The extended character chain file stores where the extended character chain and the corresponding variable length chain number / position number in the variable length chain are located in the extended position information file. The extended position information file stores a variable length chain number and a position number within a variable length chain. In the preferred embodiment of the present invention, by using such a search file, high speed search is possible.
Since the appearance frequency of a certain character string can be calculated regardless of the storage format of the document, the use of such index file is not an essential requirement of the present invention.

【0045】データベース202は、個々の文書を、個
別のファイルとして管理するものでもよく、あるいは、
連続する単一のファイルに、全ての文書を順次配列した
ものでもよく、要するに、本質的なのは、個々の文書
に、一意的な番号が付与され、その一意的な番号でもっ
て、個々の文書の内容にアクセスできることである。前
者の場合、データベース202は、個々の文書の一意的
な番号と、文書を格納する実際のファイル名とを対応付
けるテーブルを管理し、後者の場合、データベース20
2は、個々の文書の一意的な番号と、単一のデータベー
ス・ファイル中のオフセット及び文書のサイズとを対応
付けるテーブルを管理することになる。
The database 202 may manage individual documents as individual files, or
All the documents may be arranged sequentially in a single continuous file, in essence, each document is given a unique number, and the unique number of each document Being able to access the content. In the former case, the database 202 manages a table that associates the unique number of each document with the actual file name for storing the document, and in the latter case, the database 20.
2 will manage a table that maps the unique number of each document to the offset and document size in a single database file.

【0046】検索エンジン208は、検索文字入力モジ
ュール210によって与えられた検索文字列を入力とし
て索引ファイル204を検索し、入力された検索文字列
を含む文書の文書番号(複数あり得る)と、その入力さ
れた検索文字列が文書中にあらわれる位置(やはり複数
あり得る)とを返す機能をもつ。検索文字入力モジュー
ル210は、好適には、マルチウインドウ環境における
ダイアログ・ボックスで構成され、その入力ボックス
に、キーボード106で所望の検索すべき文字を入力す
るようにした形式のものである。
The search engine 208 searches the index file 204 by using the search character string provided by the search character input module 210 as an input, and the document number (there may be a plurality) of the document including the input search character string and the document number. It has a function to return the position (again, there can be multiple) where the input search string appears in the document. The search character input module 210 is preferably composed of a dialog box in a multi-window environment, and is of a form in which a desired character to be searched is input by the keyboard 106 in the input box.

【0047】さらに本発明の特徴によれば、検索文字入
力モジュール210は、特徴文字列を抽出する入力文書
を特定することができる。具体的には、入力文書のタイ
トルが表示画面に表示され、ユーザがマウス等のポイン
ティング・デバイス112のポインタによって選択する
ことによって、システムは、その表示されているタイト
ルに対応する文書が選択されたことを認識する。なお、
入力文書の指定は、入力すべき文書を特定するに足る情
報をキーボード106から直接入力することによっても
行うことができる。
Further, according to a feature of the present invention, the search character input module 210 can specify the input document from which the characteristic character string is extracted. Specifically, the title of the input document is displayed on the display screen, and when the user selects it with the pointer of the pointing device 112 such as a mouse, the system selects the document corresponding to the displayed title. Recognize that. In addition,
The input document can also be designated by directly inputting information sufficient for specifying the document to be input from the keyboard 106.

【0048】また、検索文字入力モジュール210は、
後述する特徴文字列の特徴量の設定(候補文字列の点数
が設定した閾値を超えた場合、特徴文字列として抽出す
る)や、特徴文字列の文字列数の設定(候補文字列の点
数の高いものから設定した個数だけ、特徴文字列として
抽出する)することもできる。更に、検索文字入力モジ
ュール210は、曖昧検索の類似度を、0〜1の数値
(百分率を基準として、0〜100の数字でもよい)で
入力することを可能とする。このため、検索文字入力モ
ジュール210は、0〜1間の任意の位置を指し示すハ
ンドルをもつスライダまたはスクロール・バーを表示す
る。そのスライダのハンドルは、例えばデフォールトで
は1を指し示し、さらに、ハンドルをマウス112でド
ラッグして移動することにより、別の値を指し示すよう
に操作可能である。
Further, the search character input module 210 is
Set the feature amount of the characteristic character string described later (extract as a characteristic character string when the score of the candidate character string exceeds the set threshold) or set the number of character strings of the characteristic character string (set the score of the candidate character string It is also possible to extract as many characteristic character strings as the set number from the highest). Furthermore, the search character input module 210 enables the similarity of fuzzy search to be input as a numerical value of 0 to 1 (a numerical value of 0 to 100 may be used on the basis of percentage). Therefore, the search character input module 210 displays a slider or a scroll bar having a handle indicating an arbitrary position between 0 and 1. The handle of the slider can be operated to point to another value by, for example, indicating 1 by default, and further dragging the handle with the mouse 112 to move it.

【0049】結果表示モジュール212は、検索エンジ
ン208から与えられた検索結果である文書番号と、検
索文字が当該文書中にあらわれる位置の値に基づき、デ
ータベース202にアクセスし、その文書のその位置に
対応する行を、好ましくは個別の検索結果表示ウインド
ウに表示する。検索結果がそのウインドウの1画面に収
まらない場合、スクロール・バーがあらわれ、ユーザー
が、それをクリックすることによって、順次検索結果を
眺めることができるようにする。
The result display module 212 accesses the database 202 on the basis of the document number which is the search result given from the search engine 208 and the value of the position where the search character appears in the document, and the result is displayed in that position of the document. Corresponding rows are preferably displayed in a separate search result display window. If the search results do not fit on one screen of the window, a scroll bar will appear to allow the user to click through it to sequentially view the search results.

【0050】また、本発明の好適な実施例において、結
果表示モジュール212は、抽出された特徴文字列を一
旦ディスプレイ110に表示させる機能を有しており、
ユーザは、この特徴文字列を追加、削除または修正する
ことや、各特徴文字列の重み付けの変更、特徴文字列に
and,or等の条件設定を行うことができ、変更を行
った後の特徴文字列を使用して検索を行うことができ
る。
In the preferred embodiment of the present invention, the result display module 212 has a function of temporarily displaying the extracted characteristic character string on the display 110,
The user can add, delete, or modify this characteristic character string, change the weighting of each characteristic character string, and set conditions such as and or for the characteristic character string. You can search using strings.

【0051】C.動作の態様 本発明の好適な実施例における検索方法の手順を図10
に示す。まず、処理はステップ801で開始し、まず、
文章の入力がなされる(ステップ803)。次に、この
入力文章から、複数回出現する部分文字列を抽出して候
補文字列とする(ステップ805)。そして、候補文字
列から英数字/カタカナを分断する文字列を候補文字列
から除外する(ステップ807)。次に残った候補文字
列に、その候補文字列が、どの程度その入力文書の特徴
となっているかを示す(特徴量の)点数をつける(ステ
ップ809)。そして、候補文字列どうしの包含関係と
点数を元に、候補文字列を取捨選択する(ステップ81
1)。また、候補文字列のうち点数が上位のもの等の条
から特徴文字列を決定する(ステップ813)。そし
て、この決定された特徴文字列を検索文字列として文書
集合全体を検索する(ステップ815)。この検索で見
つかった文書を評価し(ステップ817)、文書のタイ
トル等を評価順に出力する(ステップ819)。
C. Mode of Operation FIG. 10 shows the procedure of the search method in the preferred embodiment of the present invention.
Shown in First, the process starts at step 801, and first,
A sentence is input (step 803). Next, a partial character string that appears a plurality of times is extracted from this input sentence and set as a candidate character string (step 805). Then, a character string that divides alphanumeric characters / katakana from the candidate character string is excluded from the candidate character string (step 807). Next, the remaining candidate character strings are given a score (of characteristic amount) indicating to what extent the candidate character strings are features of the input document (step 809). Then, the candidate character strings are selected based on the inclusion relationship between the candidate character strings and the score (step 81).
1). Further, the characteristic character string is determined from the article having the highest score among the candidate character strings (step 813). Then, the entire document set is searched using the determined characteristic character string as a search character string (step 815). The documents found by this search are evaluated (step 817), and the titles of the documents are output in the order of evaluation (step 819).

【0052】かかる本発明の好適な実施例における各処
理手順の具体的内容の説明を行うに先立って、読者の発
明理解の容易化を図るため、本発明によって、どのよう
な検索システムがユーザに提供されるのかを図11乃至
15に示すユーザの動作、システムの動きの例を用いて
説明する。この例では、複数の新聞記事を含むデータベ
ースの検索を行うこととする。ここでは、IBM社("
IBM"は、米国IBMCorporationの商
標)が日本経済新聞社("日本経済新聞"は日本経済新聞
社の商標)から著作権の利用許諾を受けている日経新聞
1年分の記事のデータベースが使用されている。
Prior to explaining the concrete contents of each processing procedure in the preferred embodiment of the present invention, in order to facilitate the reader's understanding of the invention, according to the present invention, any search system is provided to the user. Whether the information is provided will be described with reference to examples of user's actions and system actions shown in FIGS. In this example, a database containing a plurality of newspaper articles is searched. Here, IBM ("
"IBM" is a database of articles for one year of the Nikkei Shimbun, which is a copyright of Nikkei Inc. ("Nihon Keizai Shimbun" is a trademark of Nikkei Inc.) ing.

【0053】(1)図11に示すエントリ901に、ユ
ーザーは、キーボード106を用いて「オリンピック」
と入力し、エンターキーの入力または、検索実行931
のボタンのクリックを行う。
(1) In the entry 901 shown in FIG. 11, the user uses the keyboard 106 to enter “Olympic”
And enter, or enter search key 931
Click the button.

【0054】(2)システムはこのユーザ入力を検出し
て、「オリンピック」という文字列を含む記事を公知の
検索手法または、後述する曖昧検索の手法により検索す
る。
(2) The system detects this user input and searches for articles containing the character string "Olympics" by a known search method or a fuzzy search method described later.

【0055】(3)そして、システムは、検索の結果を
画面出力する。具体的には、数学オリンピック、オリン
ピックという名前の店、長野オリンピックなど様々なオ
リンピックに関する記事のタイトル一覧927が、一致
度順に、連番921、一致度923、新聞記事の日付9
25と伴にウインドウ909に出力される。この実施例
においては、一致度の高い100文書を選択し、その文
書を特定するデータを格納している。また、もっとも一
致度の高い文書の内容をウインドウ907に表示させ、
そのタイトル等をウインドウ905に表示する。ウイン
ドウ909においても、現在ウインドウ907に表示さ
れている文書のタイトル等を反転表示させている。
(3) Then, the system outputs the search result on the screen. Specifically, a list of titles 927 of articles relating to various maths such as the mathematics Olympics, a store named Olympics, Nagano Olympics, and the like, in order of the degree of coincidence, serial number 921, degree of coincidence 923, and date of newspaper article 9
25 is output to the window 909. In this embodiment, 100 documents having a high degree of coincidence are selected, and data specifying the documents are stored. Also, the content of the document with the highest degree of matching is displayed in the window 907,
The title and the like are displayed in the window 905. Also in the window 909, the title and the like of the document currently displayed in the window 907 are highlighted.

【0056】(4)ユーザーはウインドウ909のタイ
トル一覧のタイトル等をクリックすることによって、文
書の内容をウインドウ907に表示させる。そして、い
くつかの記事を読んだ後、図12に示すように、ユーザ
は、「ノルウェー特集−−成功した冬期五輪、環境先進
国アピール。」という記事をウインドウ909から選択
してボタンをクリックする。ユーザは、何年か前に行わ
れた冬期オリンピックの記事を読みたいと思っていた
が、この記事で自分が読みたいと思っていた記事のキー
ワードは、「リレハンメル」であることを知ることがで
きる。
(4) The user displays the content of the document in the window 907 by clicking the title of the title list in the window 909. Then, after reading some articles, as shown in FIG. 12, the user selects an article “Norway Special Feature--Successful Winter Olympic Games, Appeal to Environmentally Advanced Countries” from the window 909 and clicks the button. . The user wanted to read an article about the Winter Olympics that took place several years ago, but in this article he knew that the keyword of the article he wanted to read was "Lillehammer". it can.

【0057】(5)ユーザはこの記事に似ている記事を
読むため、類似検索ボタン947をクリックする(エン
トリ901に「リレハンメル」と入力して、オリンピッ
クの検索で抽出された文書集合を対象に再度検索を行う
ことも可能である。)。
(5) The user clicks the similar search button 947 to read an article similar to this article (enters "Lillehammer" in the entry 901 to target the document set extracted by the Olympic search). It is possible to search again.)

【0058】(6)システムはこの入力を検出し、「ノ
ルウェー特集−−成功した冬期五輪、環境先進国アピー
ル。」という記事を入力として、本発明の方法で検索を
実行する。具体的には、この記事から、特徴文字列が抽
出され、その特徴文字列を使用して、類似検索が実行さ
れる。
(6) The system detects this input, and executes the search by the method of the present invention with the article "Norway special issue--Successful Winter Olympic Games, appealing to advanced environmental countries" as input. Specifically, a characteristic character string is extracted from this article, and a similarity search is executed using the characteristic character string.

【0059】(7)システムは、この検索結果を画面出
力する。具体的には、一致度の高い記事から順番に、記
事のタイトル一覧がウインドウ909に出力される。こ
の実施例においては、もっとも一致度の高い文書の内容
をウインドウ907に表示させ、その文書番号、タイト
ル等をウインドウ905に表示しているが、2番目に一
致度の高い文書の内容をウインドウ907に表示しても
よい。もっとも一致度の高い文書は、検索に使用された
入力文書となるためである。ウインドウ907において
は、検索された文書の内容内の特徴文字列と一致、また
は類似する文字列を反転表示している。ウインドウ90
3には、検索結果にアクセスするための検索のタイトル
が表示される。ここでは、連番と文書数、検索タイトル
等の情報が表示される。ここで、先に検索した「オリン
ピック」のタイトルをクリックすると、ウインドウ90
7及びウインドウ909には、図11と同様の情報が再
び表示される。
(7) The system outputs this search result on the screen. Specifically, the article title list is output to the window 909 in order from the article with the highest degree of coincidence. In this embodiment, the content of the document with the highest degree of matching is displayed in the window 907, and the document number, title, etc. are displayed in the window 905. However, the content of the document with the second highest degree of matching is displayed in the window 907. May be displayed in. This is because the document with the highest degree of matching is the input document used for the search. In the window 907, a character string that matches or is similar to the characteristic character string in the content of the retrieved document is highlighted. Window 90
In 3, the title of the search for accessing the search result is displayed. Here, information such as a serial number, the number of documents, and a search title are displayed. If you click on the title of the "Olympics" you searched for earlier, window 90
7 and window 909, the same information as in FIG. 11 is displayed again.

【0060】(8)ユーザーは、ウインドウ909をス
クロールし、検索の結果出力された記事のいくつかを読
んだ後、今度は、スノーボード関連の記事を読みたいと
考え、ウインドウ909の「五輪に難題スノーボード−
−正式種目で議論..」の記事を選択してボタンをクリ
ックする。
(8) The user scrolls the window 909 and, after reading some of the articles output as a result of the search, wants to read an article related to snowboarding next time. Snowboard-
-Discussion on official events. . ", And click the button.

【0061】(9)ユーザはこの記事に似ている記事を
読むため、類似検索ボタン947をクリックする。
(9) The user clicks the similar search button 947 to read an article similar to this article.

【0062】(10)システムはこの入力を検出し、
「五輪に難題スノーボード−−正式種目で議論..」と
いう記事を入力として、再び本発明の方法で検索を実行
する。
(10) The system detects this input,
The search is executed again by the method of the present invention by using the article "Difficult snowboard for Olympics--discussion in official event ..." as input.

【0063】(11)システムは、図15に示すような
検索結果を画面出力する。
(11) The system outputs the search result as shown in FIG. 15 on the screen.

【0064】本発明の好適な実施例におけるユーザイン
ターフェースにおいては、種々の追加機能が存在する。
例えば、プルダウンメニュー911は、ANDやOR等
の検索条件の入力や、検索結果の集合として抽出する文
書集合の数や、許容する類似度を選択するためのプルダ
ウンメニューである。プルダウンメニュー913は、曖
昧検索を行う時の文字列の一致度を選択するためのプル
ダウンメニューである。また、プルダウンメニュー91
5は、検索対象を文書全体とするか、または、既に検索
された文書集合等の部分的文書集合とするかを選択する
ためのプルダウンメニューである。既に検索された文書
集合を対象として、再度検索を行う場合、入力文書と、
ある分野に限定された検索結果の文書集合が対比され、
特徴文字列の抽出が行われる。このため、似たような内
容を含む複数文書から、その入力文書の特徴となる文字
列を抽出することが可能である。また、プルダウンメニ
ュー915は、文書全体ではなく、タイトルのみを対象
として検索する等文書の一部分に限定して検索すること
も選択することを可能にしている。この場合、タイトル
に含まれる文字列であることを示すように、位置情報フ
ァイルの位置情報にフラグを立てる方法や、タイトルだ
けで索引ファイルを作成する方法、タイトルと本文を識
別するための文字、記号等を文書に埋込み、それを検出
することによって、本文を検索対象から除外する方法、
タイトルは、文書の何文字目、または、何行目に存在す
る等固定的なエリアに存在させ、そのエリアだけを対象
に検索を行う方法等によって実現可能である。そして、
プルダウンメニュー917は、英字の大文字と小文字を
区別して検索するか否かを選択するためのプルダウンメ
ニューである。
There are various additional features in the user interface in the preferred embodiment of the present invention.
For example, the pull-down menu 911 is a pull-down menu for inputting search conditions such as AND and OR, selecting the number of document sets to be extracted as a set of search results, and the allowable similarity. The pull-down menu 913 is a pull-down menu for selecting the degree of matching of character strings when performing an ambiguous search. Also, pull-down menu 91
Reference numeral 5 is a pull-down menu for selecting whether to search the entire document or a partial document set such as a document set that has already been searched. When searching again for a set of documents that have already been searched, input document,
The search result document set limited to a certain area is compared,
The characteristic character string is extracted. Therefore, it is possible to extract a character string that is a feature of the input document from a plurality of documents including similar contents. Further, the pull-down menu 915 makes it possible to select to search only a part of the document such as searching only the title, not the entire document. In this case, to indicate that it is a character string included in the title, a method of setting a flag in the position information of the position information file, a method of creating an index file only by the title, a character for identifying the title and the body, A method to exclude the text from the search target by embedding symbols etc. in the document and detecting it.
The title can be realized by a method in which the title is present in a fixed area such as the letter or line of the document, and the search is performed only in that area. And
The pull-down menu 917 is a pull-down menu for selecting whether to search by distinguishing between uppercase and lowercase English letters.

【0065】ボタン933は、プルダウンメニュー91
1乃至917を初期化するためのボタンである。たとえ
ば、ユーザがプルダウンメニュー913を80%に変更
し、プルダウンメニュー915を文書集合1(文字列
「オリンピック」で検索された結果の文書集合)に変更
していた場合、この初期化ボタン933をクリックする
ことによって、プルダウンメニュー913を100%、
プルダウンメニュー915を全体と、初期設定されてい
る状態に戻す。ボタン935は、検索結果削除ボタンで
ある。これは、システムは、検索結果となる文書集合を
特定するための情報を格納するが、このボタンがクリッ
クされることによって、システムは、現在ウインドウ9
03に反転表示されている文書集合の情報を開放し、ウ
インドウ903から、文書集合のタイトルを削除する。
The button 933 is a pull-down menu 91.
A button for initializing 1 to 917. For example, if the user has changed the pull-down menu 913 to 80% and the pull-down menu 915 to the document set 1 (the document set that is the result of searching for the character string “Olympic”), click the initialization button 933. By doing, pull-down menu 913 is 100%,
The pull-down menu 915 is returned to the initial state with the whole. The button 935 is a search result deletion button. This is because the system stores information for identifying the document set which is the search result, but when this button is clicked, the system stores the current window 9
The document set information highlighted in 03 is released, and the title of the document set is deleted from the window 903.

【0066】ボタン941は、文書中の次の特徴文字列
(または一致文字列、若しくは、類似文字列)を表示さ
せるため、文書をスクロールさせるためのボタンであ
る。また、ボタン943は、次に高い類似度を有する文
書を表示させるためのボタンであり、ボタン945は、
次に低い類似度を有する文書を表示させるためのボタン
である。
The button 941 is a button for scrolling the document in order to display the next characteristic character string (or matching character string or similar character string) in the document. The button 943 is a button for displaying a document having the next highest degree of similarity, and the button 945 is
It is a button for displaying a document having the next lowest similarity.

【0067】この一連の手順において、(1)乃至
(4)は公知の検索手法または、後述する曖昧検索の手
法によって実行される。以後、本発明を含む手順(5)
乃至(11)について説明する。
In this series of procedures, (1) to (4) are executed by a known search method or a fuzzy search method described later. Thereafter, the procedure including the present invention (5)
(11) will be described.

【0068】D.特徴文字列の抽出 本発明の検索方法においては、まず、入力された文書か
ら、特徴文字列が抽出される。特徴文字列は、「(方針
1) 入力文章中での出現頻度が文書集合全体における出
現頻度に比べて大きい文字列を含む文字列を抽出す
る。」、「(方針2) それだけを抜き出しても意味がある
文字列を抽出する。」という2つの方針に従って抽出が
行なわれる。
D. Extraction of Characteristic Character String In the retrieval method of the present invention, first, the characteristic character string is extracted from the input document. The character string is "(policy
1) Extract a character string that includes a character string whose appearance frequency in the input sentence is higher than that in the entire document set. "(Policy 2) Extracting a character string that is meaningful even if only that is extracted."

【0069】(方針1)のために、前述の索引ファイルを
利用する。索引ファイルは、文書集合全体のすべてのN
文字連鎖と、その出現の位置情報データを独自の形式で
圧縮して保持している。位置情報データの大きさは、対
応するN文字連鎖の文書集合全体における出現頻度にほ
ぼ比例して推移し、しかもその索引の構造上、高速に探
索することができる。そこで検索では、位置情報データ
の大きさを、N文字連鎖の文書集合全体での出現頻度を
示す値として利用する。
The above-mentioned index file is used for (policy 1). The index file contains all N of the entire document set.
The character chain and the position information data of its appearance are compressed and stored in a unique format. The size of the position information data changes almost in proportion to the frequency of appearance in the entire document set of the corresponding N character chain, and the index structure allows high-speed searching. Therefore, in the search, the size of the position information data is used as a value indicating the frequency of appearance in the entire N character chained document set.

【0070】以下に、具体的な手順を記述する。The specific procedure will be described below.

【0071】D1.特徴文字列の候補集合の作成 次の規則にもとづいて特徴文字列の候補集合を形成す
る。
D1. Creating a candidate set of characteristic character strings A candidate set of characteristic character strings is formed based on the following rules.

【0072】(抽出規則1) 入力文章中で2度以上出現す
るN文字以上の部分文字列を抽出して、特徴文字列の候
補集合に加える。"。","("など記号文字の一部は対象
としない。Nは索引ファイルで保持している文字連鎖の
文字数で、本発明の好適な実施例においては、N=2に
設定されているが、英語等のデリミタ言語の場合は、そ
の単語が部分文字列として抽出される。なお、この抽出
に際しては、例えば、「ディスプレイ」、「ディスプレ
イ装置」、「CRT」等を「表示装置」に変換する等、
複数の語を、その語の有する意味によって変換し、その
後に部分文字列の抽出を行ってもよい。また、所望によ
り、大文字と小文字の変換、倍角と半角の変換、複数形
と単数形の変換、過去形・過去分詞から現在形へのテン
スの変換等の正規化を行うことも可能である。さらに、
「a」、「the」、「is」、「は、」、「が、」、「と思
われる。」、「であり、」等の経験上その文書の特徴と
ならない文字列を候補集合から除外することにより、効
果的、かつ高速な特徴文字列の抽出を行うことも可能で
ある。
(Extraction Rule 1) A partial character string of N characters or more that appears twice or more in the input sentence is extracted and added to the candidate set of characteristic character strings. ".", "(" And some of the symbol characters are not included. N is the number of characters in the character chain held in the index file. In the preferred embodiment of the present invention, N = 2 is set. However, in the case of a delimiter language such as English, the word is extracted as a partial character string.In this extraction, for example, "display", "display device", "CRT", etc. are referred to as "display device". Convert to
A plurality of words may be converted according to the meaning of the words, and then the partial character string may be extracted. Further, if desired, it is possible to perform normalization such as conversion of uppercase and lowercase letters, conversion of double-width and half-width characters, conversion of plural forms and singular forms, conversion of tense from past tense / past participle to present tense, and the like. further,
From the candidate set, character strings such as “a”, “the”, “is”, “ha,”, “ga,” “it seems.” By excluding it, it is possible to extract the characteristic character string effectively and at high speed.

【0073】(例外規則2) (抽出規則1)でとりだした部
分文字列が開始位置/終了位置で英数字/カタカナの連
続をK文字以下に分断する場合にはその部分文字列を特
徴文字列の候補集合から除外する。例えば、このK文字
を3とすると、「リレハンメル大会」から、「ハンメル
大会」が抽出されることを防止できる。また、「ん」、
「ー」、「っ」等の文字列は、これらの文字で始まる文
字列はほとんど存在しないことから、部分文字列抽出時
に、その直前に存在する文字と分割することを防止する
ことも有効である。例えば「ウインドサーフィン」は
「ウインドサ」と「ーフィン」に分割されることを防止
できる。
(Exception rule 2) When the partial character string extracted in (Extraction rule 1) divides the sequence of alphanumeric characters / katakana at the start position / end position into K characters or less, the partial character string is a characteristic character string. Excluded from the candidate set of. For example, if the K character is set to 3, it is possible to prevent the "Hammel tournament" from being extracted from the "Lillehammer tournament". Also, "n",
For character strings such as “-” and “”, there are almost no character strings that start with these characters, so it is also effective to prevent the character string that immediately precedes it from being separated when extracting a partial character string. is there. For example, "windsurfing" can be prevented from being divided into "windsurfing" and "-fin".

【0074】このステップの目的は、文字どうしの結び
つきが強い文字列、すなわち(方針2)でいう、それだけ
で意味がわかる文字列を抜き出すことにある。(例外規
則2)はカタカナや英数字の連続を細かく刻むと意味不明
になるという日本語表記に関する経験的な知識の利用で
ある。また、英語等の語尾変化を吸収することが可能と
なる。
The purpose of this step is to extract a character string in which characters are strongly connected to each other, that is, a character string in (policy 2) whose meaning can be understood by itself. (Exception rule 2) is the use of empirical knowledge of Japanese notation, where the meaning of katakana or a series of alphanumeric characters becomes incomprehensible. In addition, it is possible to absorb the ending change of English and the like.

【0075】D2.特徴文字列候補の点数づけ 特徴文字列の候補(候補文字列と省略する)に、文書集
合全体で出現頻度が少なく入力文章では出現頻度が高い
候補文字列ほど高点数をつける。このための最も簡単な
計算式は、
D2. Scoring of Characteristic Character String Candidates Characteristic character string candidates (abbreviated as candidate character strings) are given higher scores for candidate character strings that have a lower frequency of appearance in the entire document set and a higher frequency of appearance in the input sentence. The simplest formula for this is

【0076】[0076]

【数1】特徴量 = 候補文字列の入力文章での出現頻
度/ 候補文字列の文書集合全体での出現頻度
[Equation 1] Feature amount = Frequency of appearance of candidate character string in input sentence / Frequency of appearance of candidate character string in entire document set

【0077】また、入力文書、文書集合全体の文字数を
考慮すると、
Considering the number of characters in the input document and the entire document set,

【数2】特徴量 =(候補文字列の入力文章での出現頻
度* 文書集合全体の文字数)/ (候補文字列の文書
集合全体での出現頻度* 入力文書の文字数) という計算式で代用することができる。
[Equation 2] Characteristic amount = (appearance frequency of candidate character string in input sentence * number of characters in entire document set) / (appearance frequency of candidate character string in entire document set * number of input document characters) be able to.

【0078】本発明の好適な実施例においては、図3に
示す位置情報ファイルを使用するので、(1)文書集合全
体で出現頻度が少なく入力文章では出現頻度が高いN文
字連鎖を含む候補文字列ほど高点数(2)入力文章での出
現頻度が高い候補文字列ほど高点数になるように(式1)
にしたがって点数をつけることとする。
Since the position information file shown in FIG. 3 is used in the preferred embodiment of the present invention, (1) candidate characters including N character chains that have a low appearance frequency in the entire document set and a high appearance frequency in the input sentence. Higher scores for columns (2) Higher scores for candidate character strings that appear frequently in input sentences (Equation 1)
The points will be given in accordance with.

【0079】counti : i番目の候補文字列の入力文
章中での出現回数 Ncountij : i番目の候補文字列のj番目のN文字連鎖の
入力文章中での出現回数(英語等のデリミタ言語の場合
は、その単語の入力文章中での出現回数) Nsizeij : i番目の候補文字列のj番目のN文字連鎖に
対応する位置情報データ(図3に示す位置情報ファイル
の文書内位置番号の数等がN文字連鎖の文書集合全体で
の出現頻度情報として利用できる)の大きさ(バイト
数)をQレベルに量子化した値(Qは定数)(英語等のデ
リミタ言語の場合は、その単語の位置情報データが使用
される)。 Nnumi : i番目の候補文字列に含まれるN文字連鎖の
個数(文字数− N +1 )
Counti: the number of occurrences of the i-th candidate character string in the input sentence Ncountij: the number of occurrences of the i-th candidate character string in the input sentence of the jth N character chain (in the case of a delimiter language such as English) Is the number of occurrences of the word in the input sentence) Nsizeij: Position information data corresponding to the j-th N character chain of the i-th candidate character string (the number of position numbers in the document of the position information file shown in FIG. 3, etc.) Can be used as appearance frequency information in the entire document set of N character chains) Quantized to Q level (Q is a constant) (Q is a constant) (in the case of delimiter languages such as English, the word Geolocation data is used). Nnumi: The number of N character chains contained in the i-th candidate character string (number of characters-N + 1)

【0080】[0080]

【数3】 (Equation 3)

【0081】この点数づけの方針は(方針1)に対応して
いる。上述のとおり位置情報データの大きさは、文書集
合全体におけるN文字連鎖の出現頻度の代用であり、量
子化はNcountとNsizeの単位の細かさの違いをそろえる
ためである。Max(Nsizeij)で乗算してMax(Ncounti
j)で除算する目的は、入力文章と文書集合という全体
量の違いをそろえることにある。例えば、「ている」、
「するには」、「今年」のようなありふれた文字列には
低い点数が与えられることになる。
This scoring policy corresponds to (policy 1). As described above, the size of the position information data is a substitute for the appearance frequency of the N character chain in the entire document set, and the quantization is to make the difference in the fineness of the units of Ncount and Nsize uniform. Multiply by Max (Nsizeij) and Max (Ncounti
The purpose of dividing by j) is to make the difference in the total amount of the input sentence and the document set. For example, "is",
Common strings such as "to do" and "this year" will be given a lower score.

【0082】この候補文字列の点数付けを行う手法は、
当業者にとって種々変更を行うことが可能であろう。例
えば、入力文書中の見出し、タイトル等の文書中重要度
の高い場所にある文字列には1回の出現に対して1.5
の加算を行い、脚注、引用文等の文書中重要度の低い場
所にある文字列には1回の出現に対して0.5の加算を
行うといったような、出現回数のカウントも有効であ
る。
The method of scoring this candidate character string is as follows:
It will be possible for those skilled in the art to make various changes. For example, for a character string in a place of high importance in the document such as a heading or a title in the input document, 1.5 times for one occurrence.
It is also effective to count the number of appearances, such as adding 0.5 and adding 0.5 to a character string in a place of low importance in a document such as a footnote or a quote. .

【0083】この式を以下の日本語文書のサンプルを用
いて説明する。ここでは、IBM社が読売新聞社("読
売新聞"は読売新聞社の商標)から著作権の利用許諾を受
けている読売新聞の記事のデータベースが使用されてい
る。
This equation will be described using the following Japanese document sample. In this case, a database of articles of the Yomiuri Shimbun, which is licensed from IBM by the Yomiuri Shimbun ("Yomiuri Shimbun" is a trademark of the Yomiuri Shimbun), is used.

【0084】< 日本語サンプル文書 > 『[データ図観]教育投資、元が取れる?! 学歴
格差開く』 ◆支出の24%、家計を圧迫 大学卒業までに1600
万円教育費 が家計を直撃している。東京都の調査では、消費
支出の四分の一を占めるまでになった。中でも、塾など
補習費の増加が目立つ。とりわけ住宅ローンを抱える家
庭に教育費が重圧となってのしかかる。学歴社会や受験
競争など教育の現状を踏まえながら、膨らむばかりの
育費の実態を探った。仕事を終え自宅に向かう電車やバ
スの中で、塾帰りの子供たちに出会うことが多くなっ
た。「アリのように働く」とクレッソン仏首相にやゆさ
れたサラリーマンと、遊び盛りの小学生が同じ電車やバ
スに揺られて帰宅する。「あの子たちの姿は、日本の
と社会を象徴しているのかもしれない」と、矢野真和
・東工大社会工学科助教授は指摘する。一流大学を卒業
して、一流企業に入社、安定した一生を――。いささか
図式的だが、そんな願いが教育ママやパパを駆り立て
験競争をエスカレートさせているというのだ。三和銀行
の調査によると、大学卒業までの教育費は、幼稚園から
高校が公立、大学自宅外通学私立文系の場合で、千
六百二十五万円。すべて私立で自宅外通学の理科系学生
では、二千二百十一万円に上るという。子供のいる世帯
を対象に実施した東京都の調査でも、一九***の一か
月の教育費は八万二千四百九十三円と、消費支出の二十
四%も占めた。中でも、塾費用が八年間で二倍以上に膨
らんでおり、夜遅くまで塾通いする子供たちが目立つの
もうなずける。教育投資は割に合うのだろうか。矢野
教授の試算によると、教育費生涯賃金などから算出し
大卒の投資収益率は年率換算で約七%という。「学歴
給与生涯賃金を分析すると、高卒大卒の差は中
卒―高卒の差より大きい。そのうえ、大卒には収入だけ
ではない有形無形のプラスアルファがある。それなら、
少々無理をしても大学へ、それもできるだけいい大学
と血眼になるのも無理はない」と、矢野助教授は分析す
る。教育経済学を専攻する渡辺行郎・愛知教育大学教授
は「豊かになるにつれ、経済的な理由だけで進学を断念
せざるを得ないケースが少なくなると、人材は大学に集
まる。その結果、賃金学歴格差はさらに拡大して、
験競争も続く」と予測する。今春の大学入試の現役志願
率が、初めて五割を超えた。学歴、学閥社会が続く限
り、受験戦争はなくならない。だが、一方では、人手不
足をきっかけに労働や収入、生活への価値観が若者を中
心に変わりつつある。受験一辺倒の教育投資が、いずれ
破産しない保証はない。
<Sample document in Japanese> “[Data view] Education investment , can you make the money ? ! Wage in Education
Gold gap opens ”◆ 24% of spending squeezes household budget 1600 before graduating from university
Ten thousand yen educational expenses are directly hitting the household budget . According to a survey in Tokyo, it accounts for a quarter of consumer spending. Above all, the increase in supplementary school fees such as cram schools is noticeable. Education costs become a heavy burden, especially for families with mortgages. Educational society and examination
While based on the current state of education, such as competition, it swells just today
I searched for the actual situation of child support . On the trains and buses heading home after work, I often met children returning from cram school. A salaried worker, who was confused by French Prime Minister Cresson and said, “Work like an ant,” and a playful elementary school student swayed on the same train or bus and returned home. "Figure of that child who is, of Japan Professor
It may symbolize nurturing and society, "says Masakazu Yano , Associate Professor at Tokyo Institute of Technology. After graduating from a first-class university , I joined a first-class company and had a stable life. It's a bit of a diagram, but such a wish motivated educational moms and dads to receive it.
He says he is escalating the test competition . According to a survey of Sanwa Bank, educational expenses of up to university graduation, when high school from kindergarten to the public, the University of the private liberal arts Jitakugaitsugaku, thousand 6,250,000 yen. In all of science students outside the home school by private, that amounts to 22,110,000 yen. According to a survey conducted in Tokyo on households with children, the cost of education per month in 1899 was 82,943 yen, accounting for 24% of consumer spending. . Above all, the cost of the cram school has more than doubled in eight years, and it is nostalgic that children who go to the cram school late at night stand out. Is education investment worth it? According to the estimates of Suke Yano <br/> professor, investment rate of return of university graduates, which is calculated from such as education costs and lifetime wages of about seven percent in annualized. " Education
Another salary, the analysis of the lifetime earnings, High School - difference in college is Junior High - High School greater difference. Moreover, college graduates have a tangible and intangible plus that goes beyond income. in that case,
A little to the University even if the impossible, it and is also not unreasonable also become a frenzy to as much as possible good university ", Yano assistant professor analyzes. As Watanabe Gyoro, Aichi University of Education professor majoring in education economics is "rich, and abandoned forced the case to go only for economic reasons is reduced, people gather in the University. As a result, wages of Education disparity is to further expand, receiving
Test competition will continue. ” The percentage of active applicants for this year's college entrance examination exceeded 50% for the first time. As long as the academic background and academic society continues, the examination war will not disappear. On the other hand, however, the value of labor, income, and life is changing, especially for young people, due to a labor shortage. Investment in education exam full commitment is, is no guarantee that not one bankruptcy.

【0085】〈データ出所〉 ★学歴別給与=労働省「賃金構造基本統計調査」の男性
労働者の学歴別所定内給与から ★教育費=三和銀行「子どもの教育に関する意識調査」
(91年)から。教育費は中、高卒までは公立、大学
私立文系で自宅外通学 ★一世帯当たりの教育費=東京都「教育に要した費用の
調査」(89年)。教育費の内訳は「学校」が授業料、
教材、被服費、通学費など、「塾など」が予備校、学習
塾、家庭教師、学用品など、「けいこごと」は音楽、ス
ポーツなど ★大学の学生納付金=文部省「教育指標の国際比較」
(1990年版)から。大学納付金は日、英、仏、旧西
独は1989年、アメリカは1987年。日本は初年度
納付金、アメリカは州立、私立とも全学年平均金額、
英、仏、旧***は年間納付金
<Data source> ★ Salary by educational background = From the regular salary by educational background of male workers in the Ministry of Labor "Basic Survey on Wage Structure" ★ Educational cost = Sanwa Bank "Awareness survey on education of children"
From (91). Education costs are public until middle and high school, and university is
Private school , out-of- home schoolEducational costs per household = Tokyo Metropolitan Government "Survey of costs required for education " (1989). Breakdown of education expenses "school" is tuition,
Teaching materials, clothing costs, school expenses, etc. are "preparatory schools", preparatory schools, private supplementary schools, tutors, school supplies, etc., "Keikogoto" is music, sports, etc. ★ College student payment = Ministry of Education "International comparison of educational indicators"
(1990 version). University fees are 1989 for Japan, UK, France, and the former West Germany, and 1987 for the United States. Japan is the first year
Payment , average for all grades in the US, both state and private
British, French, and former West Germany are paid annually

【0086】このとき、抽出された特徴文字列は、「教
育,教育費,学歴,賃金,大学,私立,通学,学歴別,
受験,納付金,矢野,大卒,給与,高卒,自宅外通学,
教育投資,受験競争,生涯賃金」となる。
At this time, the extracted characteristic character strings are “education, educational expenses, educational background, wages, university, private, attending school, educational background,
Examination, payment, Yano, university graduate, salary, high school graduate, out-of-home school,
Educational investment, examination competition, lifetime wage ”.

【0087】この被検索文書集合は、新聞1年分に相当
する文書であるとする。ここで、第1の候補文字列が
「学歴」であり、第2の候補文字列が「する」であり、
It is assumed that the searched document set is a document corresponding to one year of the newspaper. Here, the first candidate character string is “educational education”, the second candidate character string is “do”,

【0088】[0088]

【数4】 Nsize1,1 = 2738 Nsize2,1 = 240110 とすると、(Equation 4) Nsize1,1 = 2738 Nsize2,1 = 240110

【数5】 Ncount1,1 = 7 Nnum1 = 1 count1 = 7 であるから、(Equation 5) Ncount1,1 = 7 Nnum1 = 1 count1 = 7, so

【0089】「学歴」の点数は、 score1 = 7 / 2738 / 1 × 7 × 353202 / 21 = 301.00 である。The score of "educational background" is score1 = 7/2738/1 × 7 × 353202/21 = 301.00.

【0090】また、「する」の点数は、 Ncount2,1 = 8 Nnum2 = 1 count2 = 8 であるから、 score2 = 8 / 240110 / 1 × 8 × 353202 / 21 = 4.48 となる。Also, since the score of "do" is Ncount2,1 = 8 Nnum2 = 1 count2 = 8, score2 = 8/240110/1 × 8 × 353202/21 = 4.48.

【0091】また、第1の候補文字列が「教育費」であ
り、第2の候補文字列が「という」であり、 Nsize1,1 = 13690 Nsize1,2 = 2738 Nsize2,1 = 128686 Nsize2,2 = 114996 とすると、
Further, the first candidate character string is "education cost", the second candidate character string is "to", Nsize1,1 = 13690 Nsize1,2 = 2738 Nsize2,1 = 128686 Nsize2,2 = 114996,

【0092】Ncount1,1 = 21 Ncount1,2 = 10 Nnum1 = 2 count1 = 10 であるから、Since Ncount1,1 = 21 Ncount1,2 = 10 Nnum1 = 2 count1 = 10,

【0093】「教育費」の点数は、 score1 = ( 21 / 13690 + 10 / 2738 ) / 2 × 10 × 353202 / 21 = 436.14The score of "educational cost" is score1 = (21/13690 + 10/2738) / 2 × 10 × 353202/21 = 436.14

【0094】また、 Ncount2,1 = 3 Ncount2,2 = 3 Nnum2 = 2 count2 = 3 であるから、Since Ncount2,1 = 3 Ncount2,2 = 3 Nnum2 = 2 count2 = 3,

【0095】「という」の点数は、 score2 = ( 3 / 128686 + 3 / 114996 ) / 2 × 3 × 353202 / 21 = 1.24 となる。このように、入力文書中に多く出現する文字列
であっても、検索対象となる文書集合にも多く出現する
文字列には小さい点数が付与され、検索対象となる文書
集合での出現が少ない文字列には大きな点数が付与され
ることが理解できるであろう。
The score of "tou" is score2 = (3/128686 + 3/114996) /2×3×353202/21=1.24. As described above, even if a character string that frequently appears in the input document, a small score is given to the character string that frequently appears in the document set that is the search target, and the character string that frequently appears in the document set that is the search target rarely appears. It will be understood that the string is given a high score.

【0096】また、この式を以下の英語文書のサンプル
を用いて説明する。
This equation will be described using the following sample English document.

【0097】英語文書のサンプル [ Ranking Search and Fuzzy Operation ]Ranking Sear
ch returns a list of documents in the order of the
scorewhich is level of relevance to specified sea
rch condition. The maximumnumber of the returned d
ocuments is specified by the user program.The Rank
ing Search allows the user to start looking into d
ocumentswith the most desirable one, which realize
s efficient and effectivesearch task.The following
three factors are selectable among the factors to
decidethe score of documents: a. Frequency of search terms in the documentAs the
search term appears more frequently in the docume
nt,the score of the document gets higher. b. Frequency of search terms in the whole set of d
ocumentsAs the search term appears less frequently
in the whole set ofdocuments(all the documents in
dexed), the search term contributes tothe score of
the document more. c. Weight parameter specified explicitly by the us
er programAs the weight of the search term is larg
er, the search term contributes to the score of the
document more. The user program can specify which factors to use:
one of them, two ofthem, or all of them. It is al
lowed to use none of them, and inthat case the sco
re is decided by whether the documentcontains the
search term or not.Usually, specifying a and b is
recommended.The way to choose the documents to be
scored is selectable fromthe following two: - Strict Boolean operation Scoring is done for the set of documents as a resu
lt ofthe traditionalBoolean operation. - Fuzzy operation Scoring is done for all the documents containing a
tleast one searchterm. In this case, the operator
is said to be Fuzzyoperator such as"Fuzzy AND".Fuzzy Operation By Fuzzy AND operation, for example, the result of
"A AND BAND C" is evaluated higher in the foll
owing order: - The document containing all of the three - The document containing two of the three - The document containing one of the three By Fuzzy NOT operation, for example, the result of
"A NOT B"is evaluated higher in the following o
rder: - The document containing "A" and not containing "
B" - The document containing both "A" and "B" The traditional strict Boolean operation has an ad
vantage in thespeed, but it does not allow to eval
uate the intermediate status.By using Fuzzy operat
ion, the intermediate status, such as"The document
contains not all search terms but almostall" is e
valuated, therefore the result is natural to the w
ay ofhuman thinking. Fuzzy operation can be used i
n RankingSearch only.
Sample English document [ Ranking Search and Fuzzy Operation ] Ranking Sear
ch returns a list of documents in the order of the
score which is level of relevance to specified sea
rch condition.The maximumnumber of the returned d
ocuments is specified by the user program.The Rank
ing Search allows the user to start looking into d
ocuments with the most desirable one, which realize
s efficient and effective search task.The following
three factors are selectable among the factors to
decidethe score of documents : a. Frequency of search terms in the document As the
search term appears more frequently in the docume
nt , the score of the document gets higher.b. Frequency of search terms in the whole set of d
ocuments As the search term appears less frequently
in the whole set of documents (all the documents in
dexed), the search term contributes to the score of
the document more.c. Weight parameter specified explicitly by the us
er programAs the weight of the search term is larg
er, the search term contributes to the score of the
document more. The user program can specify which factors to use:
one of them, two of them, or all of them.It is al
lowed to use none of them, and inthat case the sco
re is decided by whether the document contains the
search term or not.Usually, specifying a and b is
recommended.The way to choose the documents to be
scored is selectable from the following two:-Strict Boolean operation Scoring is done for the set of documents as a resu
lt of the traditionalBoolean operation .-- Fuzzy operation Scoring is done for all the documents containing a
tleast one searchterm .In this case, the operator
is said to be Fuzzyoperator such as "Fuzzy AND". Fuzzy Operation By Fuzzy AND operation , for example, the result of
"A AND BAND C" is evaluated higher in the foll
owing order:-The document containing all of the three-The document containing two of the three-The document containing one of the three By Fuzzy NOT operation , for example, the result of
"A NOT B" is evaluated higher in the following o
rder:-The document containing "A" and not containing "
B " -The document containing both" A "and" B "The traditional strict Boolean operation has an ad
vantage in thespeed, but it does not allow to eval
uate the intermediate status.By using Fuzzy operat
ion , the intermediate status, such as "The document
contains not all search terms but almostall "is e
valuated , therefore the result is natural to the w
ay ofhuman thinking. Fuzzy operation can be used i
n RankingSearch only.

【0098】このとき、抽出された特徴文字列は、「fu
zzy,search,document,operation,score,term,con
tain,rank,evaluate」となる。
At this time, the extracted characteristic character string is "fu
zzy, search, document, operation, score, term, con
tain, rank, evaluate ”.

【0099】ここで、第1の候補文字列が「fuzzy」で
あり、第2の候補文字列が「and」であり、
Here, the first candidate character string is "fuzzy", the second candidate character string is "and",

【0100】[0100]

【数6】 Nsize1,1 = 3028 Nsize2,1 = 169568 とすると、 Ncount1,1 = 9 Nnum1 = 1 count1 = 9(Equation 6) Nsize1,1 = 3028 Nsize2,1 = 169568, Ncount1,1 = 9 Nnum1 = 1 count1 = 9

【数7】 であるから、(Equation 7) Because

【0101】「fuzzy」の点数は、 score1 = 9 / 3028 / 1 × 9 × 390612 / 59 = 177.10 となる。The score of "fuzzy" is score1 = 9/3028/1 × 9 × 390612/59 = 177.10.

【0102】また、 Ncount2,1 = 10 Nnum2 = 1 count2 = 10 であるから、Since Ncount2,1 = 10 Nnum2 = 1 count2 = 10,

【0103】「and」の点数は、 score2 = 10 / 169568 / 1 × 10 × 390612 / 59 = 3.90 となる。このように、英語等のデリミタ言語にも、本願
発明を利用できることが理解できるであろう。
The score of "and" is score2 = 10/169568/1 × 10 × 390612/59 = 3.90. As described above, it can be understood that the present invention can be applied to a delimiter language such as English.

【0104】D3.重なり具合を元に候補文字列を取捨
選択 次の条件のどちらかを満たす候補文字列を候補集合から
除く。 (条件1) 2文字目〜最初の非ひらがな(全てひらがなな
らば最終文字)のある文字が、より点数の高い他の候補
文字列の1文字目である。このステップにより、例え
ば、「返還で」、「返還」、「で打ち上げが」、「打ち
上げ」から「で打ち上げが」が除かれる。
D3. Select candidate character strings based on the degree of overlap Remove candidate character strings that meet either of the following conditions from the candidate set. (Condition 1) The character with the second character to the first non-hiragana (the last character if all are hiragana) is the first character of another candidate character string with a higher score. By this step, for example, “by return”, “return”, “at launch”, and “at launch” are excluded from “launch”.

【0105】(条件2) 最後の非ひらがな(全てひらがな
なら1文字目)〜最後から2文字目のある文字が、より点
数の高い他の候補文字列の最終文字である。このステッ
プにより、例えば、「返還で」、「返還」、「で打ち上
げが」、「打ち上げ」から「返還で」が除かれる。
(Condition 2) The last non-Hiragana character (if it is all Hiragana, the first character) to the second character from the end is the last character of another candidate character string having a higher score. By this step, for example, “by return”, “return”, “at launch”, and “by return” are excluded from “launch”.

【0106】除かれる候補文字列が、どの候補文字列と
も重ならない長さN以上の文字列を含んでいるならば、
それをステップ2に従って点数づけして、特徴文字列の
候補集合に追加する。このステップの目的は、前後に結
びつきの弱い文字列がついた候補文字列を落とすことに
ある。
If the candidate character string to be removed includes a character string having a length N or more that does not overlap with any candidate character string,
It is scored according to step 2 and added to the candidate set of characteristic character strings. The purpose of this step is to drop candidate strings that have weakly connected strings before and after.

【0107】D4.候補文字列から特徴文字列を決定 点数が上位X以内であり、しかも点数がY以上である文字
列を特徴文字列と決定する。X, Yは定数とする。
D4. Determining characteristic character strings from candidate character strings Character strings with a score within the top X and a score of Y or more are determined as characteristic character strings. X and Y are constants.

【0108】E.特徴文字列で検索 文書集合全体を対象に、特徴文字列を含む文書検索す
る。本発明の好適な実施例においては、文書集合全体を
対象に、特徴文字列と似ている文字列を含む文書をあい
まい検索で探索がなされる。この曖昧検索の内容は後述
する。なお、各特徴文字列の検索一致度(どの程度のあ
いまいを許容するかを示す検索パラメーター)は適当に
定める。
E. Search by characteristic string Searches the entire document set for documents that include the characteristic string. In a preferred embodiment of the present invention, a document containing a character string similar to a characteristic character string is searched by fuzzy search for the entire document set. The contents of this fuzzy search will be described later. It should be noted that the search matching degree (search parameter indicating how much ambiguity is allowed) of each characteristic character string is appropriately determined.

【0109】F.見つかった文書の番号を評価順に出力 見つかった文書を評価して評価順に並べかえる。各特徴
文字列の入力文章中での出現回数を重みとして、重みの
大きい特徴文字列が多数回出現する文書ほど評価が高く
なるように、文書の類似度を評価する。最も簡単な式
は、前述の特徴量をそのまま重み値として使用し、k番
目の検索文字列(特徴文字列)の重みをweightkとする
と、番号dの文書における文書の類似度score(d)は、
F. Output the number of found documents in order of evaluation. Evaluate the documents found and sort them in order of evaluation. The number of appearances of each characteristic character string in the input sentence is used as a weight, and the similarity of documents is evaluated so that the evaluation of a document in which a characteristic character string having a large weight appears many times is higher. The simplest expression is to use the above-mentioned feature quantity as a weight value as it is, and let the weight of the k-th search character string (feature character string) be weightk, the similarity score (d) of the document in the document of number d is ,

【0110】[0110]

【数8】 という計算式で現すことができる。また、このような類
似度を、0-1の間で分散するように、種々の関数式を用
いて変換してもよい。これに使用される重み値も同様
に、前述の特徴量が0-1の間で分散するように、何らか
の関数で変換した値を用いてもよい。
(Equation 8) Can be expressed by the following formula. Further, such a degree of similarity may be converted using various functional expressions so as to be distributed between 0-1. Similarly, as the weight value used for this, a value converted by some function may be used so that the above-described feature amount is dispersed between 0-1.

【0111】本発明の好適な実施例においては、曖昧検
索を行った結果の一致度を考慮し、各特徴文字列の入力
文章中での出現回数を重みとして、重みの大きい特徴文
字列が多種類、多数回出現する文書ほど評価が高くなる
ように、文書の類似度を(式2)を用いて評価する。
In the preferred embodiment of the present invention, considering the degree of coincidence of the result of the ambiguous search, the number of appearances of each characteristic character string in the input sentence is used as a weight, and a large number of characteristic character strings having a large weight are obtained. The degree of similarity between documents is evaluated using (Equation 2) so that the type and the number of documents that appear many times are higher.

【0112】k番目の検索文字列(特徴文字列)の重みをw
eightk, 番号dの文書におけるl番目のヒット(検索文字列
に似ている文字列)の一致度をpercent(d,k,l) と表記。
The weight of the k-th search character string (characteristic character string) is set to w
The matching degree of the l-th hit (a character string similar to the search character string) in the document of eightk and number d is expressed as percent (d, k, l).

【0113】[0113]

【数9】 [Equation 9]

【0114】この式2は以下の式によって代替可能であ
る。ここで、g(d)は文書dの長さを加味した適当な関数
であり、 長さ/(長さ+C) : C は定数 等の文書dの長さが増加すれば、増加するような適当な
関数である。また、T,W,Sは0より大きく1未満の適当な
定数。
Expression 2 can be replaced by the following expression. Here, g (d) is an appropriate function in which the length of the document d is added, and length / (length + C): C is a constant or the like, which increases as the length of the document d increases. It is an appropriate function. Also, T, W, S are appropriate constants greater than 0 and less than 1.

【0115】[0115]

【数10】f(d,k) = Σ percent(d,k,l) t(d,k) = T + (1 - T) * f(d,k) / (f(d,k) + g(d)) w(d,k) = weightk / Σ weightk × ( W + (1 - W)
* t(d,k))
F (d, k) = Σ percent (d, k, l) t (d, k) = T + (1-T) * f (d, k) / (f (d, k) + g (d)) w (d, k) = weightk / Σ weightk × (W + (1-W)
* t (d, k))

【0116】この"f(d,k)"は、類似検索の結果を考慮し
た出現頻度を示すものである。また、"t(d,k)"は、文書
の長さを考慮し、前述の"f(d,k)"を、0-1に正規化する
ものである。そして、"w(d,k)"は、これに重み値を付加
したものである。
This "f (d, k)" indicates the frequency of appearance in consideration of the result of similarity search. Further, "t (d, k)" normalizes the above-mentioned "f (d, k)" to 0-1 in consideration of the document length. Then, "w (d, k)" is obtained by adding a weight value to this.

【0117】G.索引ファイルの構造及び作成方法 本発明においては、文字集合Cに属する文字の連続(可
変長連鎖)のすべてと、文字集合Cに属さないすべての
連続するN文字(固定長連鎖)とその文書内位置、及び
文書内分割情報を文書と索引づけしたファイルが作成さ
れる(文書連鎖ファイル302、位置情報ファイル30
4)。ここで、「文字集合C」とは、あらかじめ定めら
れた文字の集合であり、好適には英字('A'〜'Z','
a'〜'z')であるが、ドイツ語、フランス語、イタリ
ア語、ロシア語等の他の言語で使用される文字や、半角
であることを条件としたり、全角を含む英数字とした
り、"?"、"!"、"'"等のいくつかの記号文字や特殊記
号等を加えることも考えられる。また、「文書内分割情
報」とは、典型的には、「。」、「、」などの文章の区
切りや、「第1章」、「要約」、ブランク行、ブランク
文字(列)などの、広い意味で文書の区切りである。そし
て、この可変長連鎖に応答して、さらに、すべての可変
長連鎖のすべての連続するN’文字(拡張固定長連鎖)
とその可変長連鎖内位置を可変長連鎖と索引づけしたフ
ァイルが作成される(拡張文字連鎖ファイル306、拡
張位置情報ファイル308)。
G. Structure and Method of Creating Index File In the present invention, all the consecutive characters (variable length chain) belonging to the character set C and all consecutive N characters (fixed length chain) that do not belong to the character set C and their documents A file in which the position and the document division information are indexed with the document is created (the document chain file 302, the position information file 30
4). Here, the "character set C" is a set of predetermined characters, and is preferably an alphabetic character ('A'to'Z','.
a '-' z '), but used in other languages such as German, French, Italian, and Russian, or if they are half-width or alphanumeric including full-width, It is also possible to add some symbol characters such as "?", "!", "'" And special symbols. In addition, "division information within a document" typically means sentence delimiters such as ".", ",", And "Chapter 1", "summary", blank lines, blank characters (columns), etc. , Is a document break in a broad sense. Then, in response to this variable length chain, further, all consecutive N'characters of all variable length chains (extended fixed length chain)
And a file in which the position in the variable length chain is indexed as a variable length chain is created (extended character chain file 306, extended position information file 308).

【0118】但し、この文書連鎖ファイル302、位置
情報ファイル304、拡張文字連鎖ファイル306、拡
張位置情報ファイル308の4つのファイルは、物理的
に異なるファイルである必要はなく、論理的に、各ファ
イルで管理する内容を夫々処理できるように格納されて
いればよい。
However, the four files of the document chain file 302, the position information file 304, the extended character chain file 306, and the extended position information file 308 do not need to be physically different files, and logically each file It suffices if they are stored so that the contents managed by can be processed respectively.

【0119】G1.文字列の正規化 本発明の好適な実施例において、索引ファイルを作成す
るために必要な最初の処理は、文字列の正規化であっ
て、それは次のような処理である。すなわち、検索すべ
き文書が特に日本語テキスト・ファイルである場合、半
角と全角が混在することがあり得る。そこで、例えば、
半角文字を対応する全角文字(またはその逆)小文字を
大文字(またはその逆)に置換する、という処理を行
う。なお、この文字列の正規化は本発明の必須の構成要
素ではない。
G1. String Normalization In the preferred embodiment of the present invention, the first process required to create the index file is string normalization, which is the following process. That is, when the document to be searched is a Japanese text file, half-width characters and full-width characters may be mixed. So, for example,
Performs processing to replace half-width characters with corresponding full-width characters (or vice versa) and lowercase letters to uppercase (or vice versa). The normalization of this character string is not an essential component of the present invention.

【0120】なお、英字以外を半角から全角に正規化す
ることや、非デリミタ言語のみ正規化することや、半角
全角の区別するという検索条件の変更のユーザ指定に伴
って、正規化の内容を変更することも可能である。
The normalization contents are changed according to the user's designation of changing the search condition such as normalizing non-English characters from half-width to full-width, normalizing only non-delimiter language, and distinguishing half-width and full-width. It is also possible to change.

【0121】G2.固定長連鎖情報の取り出し 索引ファイルを作成するための次のステップは、正規化
された文字列の、文字集合Cに属さない文字のうち、検
索対象とするすべての文字について、その文字から始ま
る連続するN個の文字(以下,固定長連鎖と呼ぶ)を取
り出して、文書番号、文書内位置番号とともに索引ファ
イルに格納する。ただし、N≧1であって、日本語・中
国語・韓国語の場合、N=2が適当である。文字集合C
に属する文字と隣接する空白文字の連続を検索対象とし
ないことが、索引ファイルのサイズを小さくするために
望ましい。
G2. Retrieval of fixed-length chain information The next step to create an index file is to start all the characters in the normalized character string that do not belong to the character set C and start with that character. The N characters (hereinafter, referred to as a fixed length chain) to be extracted are extracted and stored in the index file together with the document number and the document position number. However, if N ≧ 1 and Japanese / Chinese / Korean, N = 2 is appropriate. Character set C
In order to reduce the size of the index file, it is desirable not to search for a sequence of blank characters adjacent to the characters belonging to.

【0122】G3.可変長連鎖情報の取り出し 索引ファイルを作成するための次のステップは、正規化
された文字列の、文字集合Cに属する文字の連続(可変
長連鎖)を取り出して、文書番号、文書内位置番号とと
もに索引ファイルに格納する。文字集合Cを英字以外と
定義することもでき、かかる場合、文字列が連続した複
数の可変長連鎖を含むこともあるが、ブランク、改
行、", "、". "、"! "、"? "等を区切りとして、可変長
連鎖の取り出しを行うことができる。例えば、"Boys be
ambitious."や"Boys(改行)be ambitious."の場合、"Bo
ys"、"be"、"ambitious"の3つの可変長連鎖が取り出さ
れる。本願の好適な実施例においては、"-"に連続する"
改行"であって、前後にブランクを含まない場合は、そ
の前後の文字の連続は単一の可変長連鎖と判断すること
もできる。従って、"Boys be ambi-(改行)tious."のよ
うな場合も、"Boys"、"be"、"ambitious"の3つの可変
長連鎖が取り出される。なお、所望により、大文字と小
文字の変換、複数形と単数形の変換、過去形・過去分詞
から現在形へのテンスの変換等の正規化を行うことも可
能である。
G3. Extraction of variable-length chain information The next step to create an index file is to extract a sequence of characters (variable-length chain) belonging to the character set C of a normalized character string, and to extract the document number and the document position number. And store it in the index file. Character set C can also be defined as something other than English, in which case the string may contain multiple concatenated variable length chains, but with blanks, newlines, ",", ".", "!", ". Variable length chains can be extracted by separating "?" Etc. For example, "Boys be
If "ambitious." or "Boys (new line) be ambitious.", then "Bo
Three variable length chains of ys "," be ", and" ambitious "are extracted. In the preferred embodiment of the present application," sequential to "-""
If it is a "new line" and there are no blanks before and after it, the sequence of characters before and after it can be considered as a single variable-length chain. Therefore, like "Boys be ambi- (new line) tious." In any case, three variable-length chains of "Boys", "be", and "ambitious" are extracted, if necessary, from uppercase and lowercase conversion, plural and singular conversion, and past and past participles. It is also possible to perform normalization such as conversion of the tense into the present tense.

【0123】G4.位置情報 本発明の好適な実施例では、個々の単独の文書を、検索
時に意味を持つような分け方でブロックに分割し、分割
情報を索引ファイルに格納する。文書は、改行、ピリオ
ド、句読点、「第何章」や「第何節」等の検出、ブラン
ク行の検出、特許明細書中の段落番号の検出等によって
ブロック化することや一定文字数を1つのブロックにす
ることが可能であり、そのブロックに一連の番号、すな
わちブロック番号が割りふられる。本発明の好適な実施
例においては、特別に定めた区切りパターンを、文書の
文書番号とブロックの境界の文字の文書内位置情報とと
もに格納する。
G4. Position Information In the preferred embodiment of the present invention, each individual document is divided into blocks in a way that makes sense at the time of retrieval, and the division information is stored in the index file. Documents can be divided into blocks by detecting line breaks, periods, punctuation marks, "chapter" or "section", blank lines, paragraph numbers in patent specifications, etc. It can be a block and the block is assigned a series of numbers, i.e. block numbers. In the preferred embodiment of the present invention, the specially defined delimiter pattern is stored together with the document number of the document and the in-document position information of the character at the boundary of the block.

【0124】区切りパターンを数種類定めることによ
り、数種類の異なる分割方法を持つことができるように
なる。ただし、区切りパターンは、正規化された文字列
から取り出される文字連鎖と重複しないように定めなく
てはならない。この実施例では、正規化処理によって、
1バイトのコードも、2バイト・コードに変換されるの
で、2バイトを1ワードと見たときに、その1ワードの
値が255以下である場合は、通常の文字コードには該
当しない。そこで、0〜255の任意のワード値を、複
数種類の区切りパターンに個別に割り当てることができ
る。
By defining several types of delimiter patterns, it becomes possible to have several different division methods. However, the delimiter pattern must be specified so that it does not overlap the character chain extracted from the normalized character string. In this embodiment, the normalization process
Since the 1-byte code is also converted into the 2-byte code, when the 2-byte is regarded as 1 word, and the value of 1 word is 255 or less, it does not correspond to a normal character code. Therefore, an arbitrary word value of 0 to 255 can be individually assigned to a plurality of types of delimiter patterns.

【0125】分割情報を文字連鎖と同様なこのような形
式で格納することの利点は、以下のとおりである。 - 索引の作成・更新が簡単。分割情報のために特別な処
理をする必要がない。 - 索引の容量をいちじるしく増加させることがない。 例えば、文書内位置番号ごとにそれが属するブロック番
号を付加するような形式に比べて容量の増加ははるかに
小さい。
The advantages of storing the division information in such a format similar to the character chain are as follows. -Easy to create and update indexes. No special processing is required for the division information. -Does not significantly increase index capacity. For example, the increase in capacity is much smaller than in a format in which a block number to which a position number in a document belongs is added for each position number in a document.

【0126】文書内位置番号は、文書内の検索対象とな
るすべての文字に文書ブロック内で一意的な番号を順に
つけたものである。そして、文字連鎖の最初の文字の文
書内位置番号を、その文字連鎖の文書内位置番号とす
る。文字集合Cに属さない文字の連続の終わりで固定長
連鎖が後続の文字とあわせてN個に満たない場合には、
X'00'など定められた詰め文字を詰めてあわせてN個
になるようにする。
The in-document position number is obtained by sequentially assigning a unique number in the document block to all characters to be searched in the document. Then, the in-document position number of the first character in the character chain is set as the in-document position number of the character chain. At the end of a sequence of characters that do not belong to character set C and the fixed-length chain together with the following characters is less than N,
The padding characters, such as X'00 ', are padded together to make N pieces.

【0127】G5.拡張固定長連鎖情報の取り出し 索引ファイルを作成するための次のステップは、すべて
の可変長連鎖のすべての文字について、その文字から始
まる連続するN'個の文字(以下、拡張固定長連鎖と呼
ぶ)を取り出して、拡張文字連鎖番号、拡張文字連鎖内
位置番号とともに索引ファイル内に格納する。ただし、
N'≧1であって、文字集合Cを英字とする場合、N'=
3が適当である。可変長連鎖の前後に開始マークと終了
マークをつけてから拡張固定長連鎖を抜き出すと検索速
度を向上させることができる。例えば、開始マークとし
て「$」、終了マーク「¥」として使用すると、可変長
連鎖「cat」からは、拡張固定連鎖「$ca」、「c
at」、「at¥」、「t¥」が取り出される。そし
て、「$ca」等の一致を判断するため、「commu
nication」等のノイズの混入を排除できる。
G5. Retrieval of Extended Fixed-Length Chain Information The next step to create an index file is for every character in every variable-length chain, a sequence of N'characters starting from that character (hereinafter referred to as the extended fixed-length chain). ) Is extracted and stored in the index file together with the extended character chain number and the position number in the extended character chain. However,
When N ′ ≧ 1 and the character set C is an alphabetic character, N ′ =
3 is appropriate. The search speed can be improved by adding a start mark and an end mark before and after the variable length chain and then extracting the extended fixed length chain. For example, if the start mark is “$” and the end mark is “¥”, the variable length chain “cat” starts with the extended fixed chain “$ ca”, “c”.
"at", "at \", and "t \" are retrieved. Then, in order to judge the matching of “$ ca” and the like, “commu
It is possible to eliminate the inclusion of noise such as "nication".

【0128】G6.文書内位置番号の具体例 例えば、「data base systemの、研
究。」という文章を先頭に含む文書がデータベース20
2(図2)に含まれていたとする。上記文字集合Cを英
字であるとし、文字集合Cに属する文字に隣接する空白
文字を検索対象としないことにすると、この文章の各文
字に文書内位置番号を付与すると、次のとおりである。
G6. Specific example of position number in document For example, a document including a sentence “Research of data base system” at the head is the database 20.
2 (FIG. 2). Assuming that the character set C is an alphabetic character and the blank characters adjacent to the characters belonging to the character set C are not to be searched, the in-document position number is given to each character of this sentence as follows.

【表1】 文字の文書内位置番号 1 2 3 4 5 6 7 8 9 10111213141516171819 正規化された文字列 data base systemの、研究。 区切り方その1 | | 区切り方その2 |[Table 1] Character position number in document 1 2 3 4 5 6 7 8 9 10111213141516171819 Study of normalized character string data base system. Separation method 1 | | Separation method 2 |

【0129】そして、その文書の文書番号が1番である
とし、上記固定長連鎖の文字数Nを2であるとする。す
ると、個々の固定長連鎖(長さ2)・区切りパターンと
それに関連付けられる文書番号、及び文書内位置番号
は、次のとおりである。
It is also assumed that the document number of the document is number 1 and the number N of characters in the fixed length chain is 2. Then, the individual fixed-length chain (length 2) / delimiter pattern, the document number associated with it, and the document position number are as follows.

【表2】 固定長連鎖 文書番号 文書内位置番号 ------------------------------------------ の、 1 15 、研 1 16 区切りパターン1 1 16 研究 1 17 究。 1 18 。 1 19 区切りパターン1 1 19 区切りパターン2 1 19[Table 2] Fixed-length chained document number Position number in document ------------------------------------- -----, 1 15, research 1 16 delimiter pattern 1 1 16 research 1 17 research. 1 18. 1 19 Separation Pattern 1 1 19 Separation Pattern 2 1 19

【0130】個々の可変長連鎖とそれに関連付けられる
文書番号、及び文書内位置番号は、次のとおりである。
The individual variable length chains, the document numbers associated with them, and the in-document position numbers are as follows.

【表3】 可変長連鎖 文書番号 文書内位置番号 ------------------------------------------ data 1 1 base 1 5 system 1 9[Table 3] Variable length chained document number Position number in document ------------------------------------- ----- data 1 1 base 1 5 system 1 9

【0131】そして、その可変長連鎖に付与した番号を
順に1番、2番、3番であるとし、上記拡張固定長連鎖
の文字数N'を3であるとする。すると個々の拡張固定
長連鎖(長さ3)とそれに関連付けられる可変長連鎖番
号、及び可変長連鎖内位置番号は、次のとおりである。 拡張固定長連鎖 可変長連鎖番号 可変長連鎖内位置番号 ------------------------------------------ dat 1 1 ata 1 2 ta 1 3 a 1 4 bas 2 1 ase 2 2 se 2 3 e 2 4 sys 3 1 yst 3 2 ste 3 3 tem 3 4 em 3 5 m 3 6
It is assumed that the numbers given to the variable length chain are number 1, 2 and 3 in order, and the number N'of characters in the extended fixed length chain is 3. Then, each extended fixed-length chain (length 3), the variable-length chain number associated with it, and the position number in the variable-length chain are as follows. Extended fixed-length chain Variable-length chain number Position number in variable-length chain ------------------------------------ ------ dat 1 1 ata 1 2 ta 1 3 a 1 4 bas 2 1 ase 2 2 se 2 3 e 2 4 sys 3 1 yst 3 2 ste 3 3 tem 3 4 em 3 5 m 3 6

【0132】この拡張固定長連鎖に対して複数の可変長
連鎖番号、可変長連鎖内位置番号を付与することを許容
することにより、全体の容量を圧縮することができ、特
に重複した単語の多い文書においては高い効果を得るこ
とができる。また、このように重複した文字列をまとめ
ることにより、重複した検索をしなくても済むため、高
速な検索を行うことができる。
By allowing a plurality of variable-length chain numbers and position numbers within the variable-length chain to be given to this extended fixed-length chain, the entire capacity can be compressed, and there are many duplicated words. It can be highly effective in documents. Further, by collecting the duplicated character strings in this way, it is not necessary to carry out the duplicated search, so that the high-speed search can be performed.

【0133】G7.文書内分割情報の役割 次に、検索における、文書内の分割情報(区切り)の利
用価値について説明する。 ・特定ブロックだけを対象にした検索 例えば、文書がタイトル・ 要約・本文という構成にな
っている場合に、タイトルだけ、要約だけなど特定部分
だけを対象にして検索することは 一般的な要望である
といえる。タイトルの終わり、要約の終わりについて、
区切りパターンとその位置情報を格納することにより、
そのような検索が実現できる。
G7. Role of document division information Next, the utility value of document division information (delimiters) in a search will be described. -Search targeting only specific blocks For example, if a document consists of titles, abstracts, and text, it is a general request to search for specific parts such as only titles or abstracts. Can be said. About the end of the title, the end of the summary,
By storing the delimiter pattern and its position information,
Such a search can be realized.

【0134】・複数の文字列どうしの関連が強い文書の
検索 複数の文字列どうしの文脈中での関連の強さを意識した
検索をすることは一般的な要望であるといえる。たとえ
ば、文字列どうしが単に同一文書内にあるだけよりは、
同一段落中にあったほうが関係が強い可能性が高く、同
一文中にあればさらに関係が強いことが予測される。段
落や文の終わりについて、区切りパターンとその位置情
報を格納しておくことにより、複数の文字列どうしが同
一ブロック内にある文書を検索することが可能になり、
関係の強さを意識した検索ができるようになる。
Retrieval of Document with Strong Relationship between Plural Character Strings It can be said that it is a general request to conduct a retrieval in consideration of the strength of relation between plural character strings in the context. For example, rather than just strings being in the same document,
It is highly likely that the relationship is stronger in the same paragraph, and it is predicted that the relationship is stronger in the same sentence. By storing the delimiter pattern and its position information at the end of a paragraph or sentence, it becomes possible to search for documents in which multiple character strings are in the same block,
You will be able to search with awareness of the strength of the relationship.

【0135】G8.索引ファイルの構造 文字連鎖・区切りパターンとその文書番号・文書内位置
番号は、検索時に効率よくとりだせる形で格納する必要
がある。そのために、この実施例では、図3,4に示す
ように、索引ファイルを文字連鎖ファイル302(主に
固定長連鎖・可変長連鎖・区切りパターンを格納するフ
ァイル)、位置情報ファイル304(主に文書番号・文
書内位置番号を格納するファイル)、拡張文字連鎖ファ
イル306(主に拡張固定長連鎖を格納するファイ
ル)、拡張位置情報ファイル308(主に可変長連鎖番
号・可変長連鎖内位置番号を格納するファイル)の4つ
のファイルで構成する。文字連鎖ファイル302には、
固定長連鎖・可変長連鎖・区切りパターンとそれに対応
する文書番号312・文書内位置番号314が位置情報
ファイル304のどこに位置するかの情報を格納する。
位置情報ファイル304には、文書番号312・文書内
位置番号314を格納する。拡張文字連鎖ファイル30
6には、拡張固定長連鎖とそれに対応する可変長連鎖番
号316・可変長連鎖内位置番号318が拡張位置情報
ファイル308のどこに位置するかの情報を格納する。
拡張位置情報ファイル308には、可変長連鎖番号31
6・可変長連鎖内位置番号318を格納する。
G8. Index file structure Character chain / delimiter pattern and its document number / position number in document must be stored in a form that can be efficiently retrieved at the time of retrieval. Therefore, in this embodiment, as shown in FIGS. 3 and 4, the index file is a character chain file 302 (mainly a file storing fixed length chains, variable length chains, and delimiter patterns) and a position information file 304 (mainly Document number / position number in document), extended character chain file 306 (file mainly storing extended fixed length chain), extended position information file 308 (mainly variable length chain number / position number in variable length chain) Is stored). In the character chain file 302,
Information is stored in the position information file 304 where the fixed-length chain, variable-length chain, delimiter pattern, and the corresponding document number 312 and in-document position number 314 are located.
The position information file 304 stores the document number 312 and the in-document position number 314. Extended character chain file 30
6 stores information on where in the extended position information file 308 the extended fixed length chain and the corresponding variable length chain number 316 / variable length chain position number 318 are located.
The extended position information file 308 contains a variable length chain number 31.
6. Store position number 318 in variable length chain.

【0136】本実施例においては、デリミタ言語、非デ
リミタ言語の双方が混在した文書を例に説明を行うが、
デリミタ言語単独文書、非デリミタ言語単独文書に応用
できることは、当業者に容易に理解できる事項であろ
う。なお、一般に非デリミタ言語単独の場合は、可変長
連鎖を考慮する必要が無いため、拡張文字連鎖ファイル
306と拡張位置情報ファイル308は必要とならない
(ただし、特許公報の要約のキーワードを抽出した文書
のように非デリミタ言語においても可変長連鎖となる可
能性がある)。
In the present embodiment, description will be made taking as an example a document in which both delimiter languages and non-delimiter languages are mixed.
It can be easily understood by those skilled in the art that it can be applied to a delimiter language only document and a non-delimiter language only document. In general, in the case of the non-delimiter language alone, it is not necessary to consider the variable length chain, so the extended character chain file 306 and the extended position information file 308 are not necessary (however, the document in which the abstract keyword of the patent publication is extracted). Like in non-delimited languages can be chained variable length).

【0137】図3において、文字連鎖ファイル302の
エントリは、データベース202の全ての文書における
上記固定長連鎖と上記可変長連鎖と上記区切りパターン
である。文字連鎖ファイル302のエントリは、好適に
は、2分探索を可能ならしめるように、正規化された文
字連鎖のコード値で昇順にソートされている。「区切り
パターン1」、「区切りパターン2」、「の研」、「研
究」などが、文字連鎖ファイル302の個別のエントリ
である。尚、例えば、「区切りパターン1」
は、「,」、「、」または「。」などの文・句の区切り
を包括的に示すものであって、特殊な2バイト値が割り
当てられる。
In FIG. 3, the entries of the character chain file 302 are the fixed length chain, the variable length chain, and the delimiter pattern in all the documents in the database 202. The entries in the character chain file 302 are preferably sorted in ascending order by the code value of the normalized character chain to allow a binary search. “Delimiter pattern 1”, “delimiter pattern 2”, “noken”, “research”, etc. are individual entries of the character chain file 302. Note that, for example, "separation pattern 1"
Is a comprehensive delimiter of sentences and phrases such as ",", "," or ".", And a special 2-byte value is assigned.

【0138】図3の位置情報ファイル304は、文字連
鎖ファイル302の個々のエントリに対応する少なくと
も1つの文書番号312及び、その個々の文書番号毎に
関連付けられた少なくとも1つの文書内位置番号314
を格納している。
The position information file 304 in FIG. 3 includes at least one document number 312 corresponding to each entry of the character chain file 302 and at least one in-document position number 314 associated with each individual document number.
Is stored.

【0139】文字連鎖ファイル302のエントリと、位
置情報ファイル304のエントリとを対応付けるため
に、図示しないが、文字連鎖ファイル302の個々のエ
ントリは、対応する位置情報ファイル304のエントリ
の、位置情報ファイル304の先頭からのオフセット、
及び、対応する位置情報ファイル304のエントリのサ
イズの情報をもつ。すなわち、図3で例えば、文字連鎖
ファイル302は、「区切りパターン1」に関連してそ
こに格納されているオフセットの情報から、位置情報フ
ァイル304を先頭からシークし、サイズの情報に指定
されたバイト数だけシークした位置から読取り、これに
よって、「区切りパターン1」に関連して、文書番号1
における16,19・・・という文書内位置番号値と、
文書番号2に関連する文書内位置番号値、・・・(もし
あるなら)文書番号nに関連する文書内位置番号値を一
括して読み取ることが可能となる。また、固定長連鎖、
可変長連鎖及び区切りパターンの格納されている範囲を
示す情報を格納することにより、文字連鎖ファイル30
2に格納されている情報が、固定長連鎖、可変長連鎖ま
たは区切りパターンのいずれに属する情報かを判断する
ことができる。
In order to associate the entry of the character chain file 302 with the entry of the position information file 304, although not shown, each entry of the character chain file 302 is a position information file of the entry of the corresponding position information file 304. Offset from the beginning of 304,
Also, it has information on the size of the entry of the corresponding position information file 304. That is, for example, in FIG. 3, the character chain file 302 is specified as the size information by seeking from the head of the position information file 304 from the offset information stored therein in relation to the “delimiter pattern 1”. Read from the position where the seek is performed by the number of bytes, so that the document number 1
In the document position number value of 16, 19, ...
It is possible to collectively read the in-document position number value associated with document number 2, ... (If any) in-document position number value associated with document number n. Also, fixed length chain,
By storing information indicating the range in which the variable length chain and the delimiter pattern are stored, the character chain file 30
It is possible to determine whether the information stored in 2 belongs to a fixed length chain, a variable length chain, or a delimiter pattern.

【0140】一般に、文書番号iに関連する文書内位置
番号値は、例えば、(文書番号i:4バイト)(文書内
位置番号の数k:4バイト)(1番目の文書内位置番
号:4バイト)・・・(k番目の文書内位置番号:4バ
イト)のような形式で格納されている。この例では、文
書内位置番号を格納するフィールドとして、文書の絶対
位置を格納するために4バイトをとるようにしている
が、実際上、1つ前の文書内位置番号からのオフセット
を格納するようにして、これを1〜3バイトに節約する
ようにした方がよい。また、符号化等による圧縮を行
い、ファイル容量を小さくすることが望ましい。文書番
号及び文書内位置番号の数を格納するフィールドについ
ても同様である。
Generally, the document position number value associated with the document number i is, for example, (document number i: 4 bytes) (number of document position numbers k: 4 bytes) (first document position number: 4). (Byte) ... (k-th document position number: 4 bytes). In this example, the field for storing the in-document position number takes 4 bytes to store the absolute position of the document, but actually stores the offset from the previous in-document position number. Thus it is better to save this to 1-3 bytes. Further, it is desirable to reduce the file size by performing compression by encoding or the like. The same applies to the field for storing the number of the document number and the position number in the document.

【0141】図3,4において、拡張文字連鎖ファイル
306のエントリは、文字連鎖ファイル302の全ての
可変長連鎖における上記拡張固定長連鎖である。拡張文
字連鎖ファイル306のエントリは、好適には、2分探
索を可能ならしめるように、正規化された文字連鎖のコ
ード値で昇順にソートされている。「dat」、「at
a」などが、拡張文字連鎖ファイル306の個別のエン
トリである。
3 and 4, the entry of the extended character chain file 306 is the extended fixed length chain in all the variable length chains of the character chain file 302. The entries in the extended character chain file 306 are preferably sorted in ascending order by normalized character chain code values to allow a binary search. "Dat", "at
“A” and the like are individual entries of the extended character chain file 306.

【0142】図4の拡張位置情報ファイル308は、拡
張文字連鎖ファイル306の個々のエントリに対応する
少なくとも1つの可変長連鎖番号及び、その個々の可変
長連鎖番号毎に関連付けられた少なくとも1つの可変長
連鎖内位置番号を格納している。
The extended position information file 308 of FIG. 4 includes at least one variable length chain number corresponding to each entry of the extended character chain file 306 and at least one variable associated with each individual variable length chain number. The position number in the long chain is stored.

【0143】G9.索引ファイルの作成処理 次に、図5を参照して、索引ファイルの作成処理につい
て説明する。この処理は、最初のデータベース202の
構築時または、データベース202に文書を追加あるい
はデータベース202から文書を削除したときに、図2
の索引作成・更新モジュール206によって行われる処
理である。
G9. Index File Creation Process Next, the index file creation process will be described with reference to FIG. This processing is performed when the first database 202 is constructed or when a document is added to or deleted from the database 202 as shown in FIG.
This is a process performed by the index creation / update module 206 of FIG.

【0144】図5で、先ずステップ402では、メモリ
領域を確保する処理が行われる。これは、例えば、オペ
レーティング・システムの機能を呼び出すことによっ
て、RAM104上で、所定のサイズの作業領域を獲得
する処理である。
In FIG. 5, first, at step 402, a process of securing a memory area is performed. This is a process of acquiring a work area of a predetermined size on the RAM 104 by calling a function of the operating system, for example.

【0145】ステップ404では、データベース202
から1つの文書が、好適には上記ステップ402で獲得
されたメモリ領域に読み込まれる。
In step 404, the database 202
From the document is preferably loaded into the memory area obtained in step 402 above.

【0146】ステップ406では、ステップ404で読
み込まれた文書につき、前述の正規化処理が行われる。
At step 406, the above-mentioned normalization processing is performed on the document read at step 404.

【0147】ステップ408では、正規化された文書を
走査することによって、固定長連鎖・可変長連鎖・区切
りパターンが作成され、固定長連鎖・可変長連鎖・区切
りパターンと、当該文書の文書番号と、固定長連鎖・可
変長連鎖・区切りパターンの文書内位置番号が、上記ス
テップ402で獲得されたメモリ領域に格納される。
In step 408, the fixed-length chain / variable-length chain / delimiter pattern is created by scanning the normalized document, and the fixed-length chain / variable-length chain / delimiter pattern and the document number of the document. , The fixed-length chain / variable-length chain / delimiter pattern position numbers in the document are stored in the memory area acquired in step 402.

【0148】ステップ408の処理において、固定長連
鎖、可変長連鎖、区切りパターン、文書番号及び文書内
位置番号をステップ402で予め獲得されたメモリ領域
に格納していくにつれて、その獲得されたメモリ領域の
空き領域が不足してくることがあり得る。そこで、ステ
ップ410では、獲得されたメモリ領域が満杯かどうか
を調べる処理が行われ、もしそうなら、ステップ412
で、メモリ領域に格納されている固定長連鎖・可変長連
鎖・区切りパターンと、文書の文書番号と、固定長連鎖
・可変長連鎖・区切りパターンの文書内位置情報とが、
例えば、固定長連鎖・可変長連鎖・区切りパターンの文
字コード値・文書番号・文書内位置番号に基づきソート
されて、中間ファイルとしてディスク108(図1)に
書き出され、これによって、中間ファイルに書き出され
たデータが格納されていたメモリ領域は、以下の処理で
使用可能に開放される。そして、この後処理は、ステッ
プ414に進む。
In the processing of step 408, as the fixed length chain, the variable length chain, the delimiter pattern, the document number and the position number within the document are stored in the memory area previously acquired in step 402, the acquired memory area is acquired. There is a possibility that the free space of will become insufficient. Therefore, in step 410, processing is performed to check whether the acquired memory area is full, and if so, step 412.
, The fixed-length chain / variable-length chain / delimiter pattern stored in the memory area, the document number of the document, and the position information in the document of the fixed-length chain / variable-length chain / delimiter pattern
For example, it is sorted based on the character code value of fixed length chain, variable length chain, delimiter pattern, document number, and position number in document, and is written to the disk 108 (FIG. 1) as an intermediate file. The memory area in which the written data is stored is released so that it can be used in the following process. Then, the post-processing proceeds to step 414.

【0149】ステップ410で、メモリ領域にまだ余裕
があると判断されたなら、処理は直ちにステップ414
に進む。
If it is determined in step 410 that there is still room in the memory area, the process immediately proceeds to step 414.
Proceed to.

【0150】ステップ414では、ステップ404でま
だ読み込んでいない文書がデータベース202に残って
いるかどうかが判断される。もしそうなら、処理は、ス
テップ404に戻る。
In step 414, it is judged whether or not the document which has not been read in step 404 remains in the database 202. If so, the process returns to step 404.

【0151】ステップ414で、データベース202の
全ての文書の読み込み処理が完了したと判断されると、
ステップ402で獲得されたメモリ領域に書き出されな
いで残っている固定長連鎖・可変長連鎖・区切りパター
ンと、文書の文書番号と、固定長連鎖・可変長連鎖・区
切りパターンの文書内位置番号とが、やはり固定長連鎖
・可変長連鎖・区切りパターンの文字コード値・文書番
号・文書内位置番号に基づきソートされて、中間ファイ
ルとしてディスク108(図1)に書き出される。
When it is determined in step 414 that the reading process of all the documents in the database 202 is completed,
The fixed-length chain / variable-length chain / delimiter pattern remaining without being written in the memory area acquired in step 402, the document number of the document, and the position number in the document of the fixed-length chain / variable-length chain / delimiter pattern Are sorted based on the fixed length chain, the variable length chain, the character code value of the delimiter pattern, the document number, and the position number within the document, and are written to the disk 108 (FIG. 1) as an intermediate file.

【0152】ステップ412とステップ416での中間
ファイルの書き出しによって、ディスク108には、複
数の中間ファイルが存在し、また、その各々の中間ファ
イルは予めソートされているので、ステップ418で
は、周知のマージ・ソートの技法で、それらの複数の中
間ファイルから、図3に示す文字連鎖ファイル302
と、位置情報ファイル304とを作成しディスク108
に格納する処理が行われる。尚、もとの複数の中間ファ
イルには、文字連鎖は重複して何度もあらわれ得るの
で、ここでは、重複する同一の文字連鎖のエントリを1
つにまとめて、それに関連する文書番号及び文書内位置
番号を関連付ける処理が行われる。その後、中間ファイ
ルは最早不要なので削除される。
By writing the intermediate files in steps 412 and 416, there are a plurality of intermediate files on the disk 108, and each of the intermediate files is presorted. The character chain file 302 shown in FIG. 3 is extracted from the plurality of intermediate files by the technique of merge sort.
And the position information file 304 are created, and the disk 108 is created.
The process of storing in. It should be noted that, since the character chains may appear repeatedly in the original plurality of intermediate files, the duplicated entry of the same character chain is set to 1 here.
A process for associating the document number and the in-document position number related to the document data is performed. After that, the intermediate files are no longer needed and are deleted.

【0153】ステップ420では、文字連鎖ファイル3
02から1つの可変長連鎖が、好適には上記ステップ4
02で獲得されたメモリ領域に読み込まれる。本発明の
好適な実施例においては、文字連鎖ファイル302にお
ける可変長連鎖の記憶位置は、文字連鎖ファイル302
作成時に、文字連鎖ファイル302に格納されているた
め、文字連鎖ファイル302における可変長連鎖先頭位
置に即座にアクセスすることができる。
At step 420, the character chain file 3
02 to 1 variable length chain, preferably in step 4 above.
It is read in the memory area acquired in 02. In the preferred embodiment of the present invention, the storage location of the variable length chain in the character chain file 302 is the character chain file 302.
Since it is stored in the character chain file 302 at the time of creation, the variable-length chain start position in the character chain file 302 can be immediately accessed.

【0154】ステップ422では、可変長連鎖を走査す
ることによって、拡張固定長連鎖が作成され、拡張固定
長連鎖と、当該可変長連鎖の可変長連鎖番号と、拡張固
定長連鎖の可変長連鎖内位置番号が、上記ステップ40
2で獲得されたメモリ領域に格納される。
At step 422, an extended fixed length chain is created by scanning the variable length chain, and the extended fixed length chain, the variable length chain number of the variable length chain, and the variable length chain of the extended fixed length chain are included. The position number is the above step 40.
It is stored in the memory area acquired in 2.

【0155】ステップ422の処理において、拡張固定
長連鎖、可変長連鎖番号及び可変長連鎖内位置番号をス
テップ402で予め獲得されたメモリ領域に格納してい
くにつれて、その獲得されたメモリ領域の空き領域が不
足してくることがあり得る。そこで、ステップ424で
は、獲得されたメモリ領域が満杯かどうかを調べる処理
が行われ、もしそうなら、ステップ426で、メモリ領
域に格納されている拡張固定長連鎖と、可変長連鎖番号
と、可変長連鎖内位置情報とが、例えば、拡張固定長連
鎖の文字コード値・可変長連鎖番号・可変長連鎖内位置
番号に基づきソートされて、中間ファイルとしてディス
ク108(図1)に書き出され、これによって、中間フ
ァイルに書き出されたデータが格納されていたメモリ領
域は、以下の処理で使用可能に開放される。そして、こ
の後処理は、ステップ428に進む。
In the processing of step 422, as the extended fixed length chain, the variable length chain number and the position number within the variable length chain are stored in the memory area previously acquired in step 402, the acquired memory area becomes free. There may be a shortage of space. Therefore, in step 424, processing is performed to check whether the acquired memory area is full. If so, in step 426, the extended fixed-length chain stored in the memory area, the variable-length chain number, and the variable length chain number are stored. The position information in the long chain is sorted based on, for example, the character code value of the extended fixed length chain, the variable length chain number, and the position number in the variable length chain, and is written to the disk 108 (FIG. 1) as an intermediate file. As a result, the memory area in which the data written in the intermediate file was stored is released for use in the following process. Then, the post-processing proceeds to step 428.

【0156】ステップ424で、メモリ領域にまだ余裕
があると判断されたなら、処理は直ちにステップ428
に進む。
If it is determined in step 424 that there is still room in the memory area, the process immediately proceeds to step 428.
Proceed to.

【0157】ステップ428では、ステップ420でま
だ読み込んでいない可変長連鎖が文字連鎖ファイル30
2に残っているかどうかが判断される。もしそうなら、
処理は、ステップ421に戻る。
At step 428, the variable length chain that has not been read at step 420 is the character chain file 30.
It is judged whether it remains in 2. If so,
The process returns to step 421.

【0158】ステップ428で、文字連鎖ファイル30
2の全ての可変長連鎖の読み込み処理が完了したと判断
されると、ステップ402で獲得されたメモリ領域に書
き出されないで残っている拡張固定長連鎖と、可変長連
鎖番号と、可変長連鎖内位置番号とが、やはり拡張固定
長連鎖の文字コード値・可変長連鎖番号・可変長連鎖内
位置番号に基づきソートされて、中間ファイルとしてデ
ィスク108(図1)に書き出される。
In step 428, the character chain file 30
When it is judged that the reading processing of all the variable length chains of No. 2 is completed, the extended fixed length chains which are not written in the memory area acquired in step 402, the variable length chain numbers, and the variable length chains. The inner position number is sorted based on the character code value of the extended fixed length chain, the variable length chain number, and the position number in the variable length chain, and is written to the disk 108 (FIG. 1) as an intermediate file.

【0159】ステップ426とステップ430での中間
ファイルの書き出しによって、ディスク108には、複
数の中間ファイルが存在し、また、その各々の中間ファ
イルは予めソートされているので、ステップ432で
は、周知のマージ・ソートの技法で、それらの複数の中
間ファイルから、図7に示す拡張文字連鎖ファイル30
6と、位置情報ファイル308とを作成しディスク10
8に格納する処理が行われる。尚、もとの複数の中間フ
ァイルには、文字連鎖は重複して何度もあらわれ得るの
で、ここでは、重複する同一の文字連鎖のエントリを1
つにまとめて、それに関連する可変長連鎖番号及び可変
長連鎖内位置番号を関連付ける処理が行われる。その
後、中間ファイルは最早不要なので削除される。
By writing the intermediate files in steps 426 and 430, a plurality of intermediate files are present on the disk 108, and each of the intermediate files is presorted. With the technique of merge sort, the extended character chain file 30 shown in FIG.
6 and the position information file 308 are created and the disk 10
The process of storing in 8 is performed. It should be noted that, since the character chains may appear repeatedly in the original plurality of intermediate files, the duplicated entry of the same character chain is set to 1 here.
A process for associating the variable-length chain number and the position number within the variable-length chain that are related to each other is performed. After that, the intermediate files are no longer needed and are deleted.

【0160】H.索引ファイルを使用した検索処理 次に、上述のようにして作成された索引ファイルを使用
して、文字列検索を行う処理の例について、図7のフロ
ーチャートを参照して説明する。ステップ502では、
先ず、例えば、入力ボックスをもつダイアログ・ボック
スを表示し、ユーザーに、その入力ボックスに検索文字
列を入力するようにプロンプトする処理が行われる。
H. Search Process Using Index File Next, an example of a process of performing a character string search using the index file created as described above will be described with reference to the flowchart of FIG. 7. In step 502,
First, for example, a process of displaying a dialog box having an input box and prompting the user to input a search character string in the input box is performed.

【0161】ユーザーが入力ボックスに検索文字列を入
力し、OKボタンをクリックすると、必要に応じて検索
文字列の正規化処理が行われた後で、ステップ504
で、その検索文字列から索引ファイルを作ったときと同
じ規則に基づいてN文字の固定長連鎖と可変長連鎖を作
成する。
When the user inputs the search character string in the input box and clicks the OK button, the search character string is normalized as necessary, and then step 504 is performed.
Then, a fixed length chain and a variable length chain of N characters are created based on the same rule as when the index file was created from the search character string.

【0162】ステップ506で、固定長連鎖を文字連鎖
ファイルから検索する。
At step 506, the fixed length chain is searched from the character chain file.

【0163】ステップ508で、固定長連鎖が見つから
なかったと判断されると、好適には、検索文字列が見つ
からなかったことを示すメッセージ・ボックスがステッ
プ526で表示され、処理は終了する。
If it is determined at step 508 that the fixed length chain was not found, then preferably a message box indicating that the search string was not found is displayed at step 526 and the process ends.

【0164】ステップ508で、固定長連鎖が見つかっ
たと判断されると、位置情報ファイルからは、1つ以上
の文書番号とその文書番号における少なくとも1つの文
書内位置番号が返されるので、この情報は、ステップ5
10で後の処理のため主記憶またはディスク上の所定の
バッファ領域に一旦格納される。
If it is determined in step 508 that a fixed-length chain is found, one or more document numbers and at least one in-document position number in the document number are returned from the position information file. , Step 5
In step 10, the data is temporarily stored in the main memory or a predetermined buffer area on the disk for later processing.

【0165】ステップ512では、検索文字列から作成
したすべての固定長連鎖を検索してしまったかどうかが
判断され、もしそうなら、処理はステップ514に進
む。もしそうでないなら、ステップ506に戻り、次の
固定長連鎖で以って上記文字連鎖ファイルを使用した検
索処理が行われる。
In step 512, it is judged whether or not all the fixed length chains created from the search character string have been searched, and if so, the process proceeds to step 514. If not, the process returns to step 506, and the search process using the character chain file is performed by the next fixed length chain.

【0166】ステップ514で、可変長連鎖を拡張文字
連鎖ファイル・拡張位置情報ファイルから検索する。こ
のとき、前後に過剰な文字がある可変長連鎖を除外する
と、「cat」→「communication」のよ
うなノイズを避けることができる。具体的には、一致文
字列の前に3文字または、後ろに4文字以上文字が存在
する場合は、除外する場合や、一致文字列の前又は後ろ
に存在する1文字に対して、ペナルティとして類似度か
ら所定の数値を減じるまたは所定の数値(1未満の正
数)を乗じることも可能である。
In step 514, the variable length chain is searched from the extended character chain file / extended position information file. At this time, if a variable length chain having excessive characters before and after is excluded, noise such as “cat” → “communication” can be avoided. Specifically, if there are 3 characters before the matching character string or 4 or more characters after the matching character string, it is excluded as a penalty for 1 character existing before or after the matching character string. It is also possible to subtract a predetermined numerical value from the similarity or multiply it by a predetermined numerical value (a positive number less than 1).

【0167】ステップ516で、可変長連鎖が見つから
なかったと判断されると、好適には、検索文字列が見つ
からなかったことを示すメッセージ・ボックスがステッ
プ526で表示され、処理は終了する。本発明の好適な
実施例においては、メッセージは図1のディスプレイ装
置110に表示されるが、メッセージをネットワーク経
由で他の場所に送信することも可能である。
If it is determined at step 516 that the variable length chain was not found, then preferably a message box indicating that the search string was not found is displayed at step 526 and the process ends. In the preferred embodiment of the present invention, the message is displayed on the display device 110 of FIG. 1, but it is also possible to send the message to another location via the network.

【0168】ステップ516で、可変長連鎖が見つかっ
たと判断されると、拡張位置情報ファイル308から
は、1つ以上の可変長連鎖番号316が返されるので、
この情報を元に、ステップ518で後の処理のため位置
情報ファイル304から1つ以上の文書番号312と、
その文書番号における少なくとも1つの文書内位置番号
314が返されて、主記憶またはディスク上の所定のバ
ッファ領域に一旦格納される。
When it is determined in step 516 that a variable length chain is found, one or more variable length chain numbers 316 are returned from the extended position information file 308.
Based on this information, at step 518, one or more document numbers 312 from the position information file 304 for later processing,
At least one in-document position number 314 corresponding to the document number is returned and temporarily stored in the main memory or a predetermined buffer area on the disk.

【0169】ステップ520では、検索文字列から作成
したすべての可変長連鎖を検索してしまったかどうかが
判断され、もしそうなら、処理はステップ522に進
む。もしそうでないなら、ステップ514に戻り、次の
可変長連鎖で以って上記拡張文字連鎖ファイル・上記拡
張位置情報ファイルを使用した検索処理が行われる。
In step 520, it is judged whether or not all variable length chains created from the search character string have been searched, and if so, the process proceeds to step 522. If not, the process returns to step 514, and the search process using the extended character chain file and the extended position information file is performed in the next variable length chain.

【0170】ステップ522で、ステップ510でバッ
ファに格納した固定長連鎖の位置情報と、ステップ51
8でバッファに格納した可変長連鎖の位置情報を調べて
検索文字列と一致する文字列を含む文書番号と位置番号
をバッファ領域に一旦格納する。検索文字列が見つかっ
たと判断されたら、ステップ528では、その文書番号
と文書内位置番号から、データベース202の文書のコ
ンテンツがアクセスされ、文書検索文字列が存在する文
書の該当行が、好適には個別のウインドウ内に表示され
る。
At step 522, the position information of the fixed length chain stored in the buffer at step 510 and the step 51
In step 8, the position information of the variable length chain stored in the buffer is checked, and the document number and position number including the character string matching the search character string are temporarily stored in the buffer area. When it is determined that the search character string is found, in step 528, the content of the document in the database 202 is accessed from the document number and the position number in the document, and the corresponding line of the document in which the document search character string exists is preferably Displayed in a separate window.

【0171】ステップ524で、検索文字列が見つから
なかったと判断されると、好適には、検索文字列が見つ
からなかったことを示すメッセージ・ボックスがステッ
プ526で表示され、処理は終了する。
If it is determined at step 524 that the search string was not found, then preferably a message box indicating that the search string was not found is displayed at step 526 and the process ends.

【0172】尚、検索文字列が文書内の特定ブロック
(例:3番目のブロック)にあらわれることを調べるた
めには、上記検索文字列が文書中にあらわれる位置まで
にあらわれる上記文書内の区切り位置を数えて、上記検
索文字列が上記文書内でどのブロック(何番目のブロッ
ク)に位置するかを調べて、指定のブロック番号と比較
すればよい。
In order to check that the search character string appears in a specific block (eg, the third block) in the document, the delimiter position in the document appearing up to the position where the search character string appears in the document. By counting which block (numbered block) the search character string is located in the document, and comparing it with the designated block number.

【0173】I.曖昧検索処理 図7で示す処理は、索引ファイルを使用して、いわば厳
密検索を行う処理であったが、本発明に従えば、索引フ
ァイルを使用して、指定された文字列と文字の並びが似
ている文字列を含む、いわゆる曖昧検索処理をも、デー
タベースの個々の文書に関して高速に実行することが可
能である。特に、この方式では、検索したい文字列と、
検索精度(0より大きく1以下)とを指定し、検索した
い文字列との"似ている度合"が指定の検索精度以上であ
る"似ている文字列"を含む文書および"似ている文字列"
の文書内位置を特定するものである。
I. Ambiguous search process The process shown in FIG. 7 is, so to speak, a strict search using an index file. A so-called fuzzy search process that includes character strings similar to each other can be executed at high speed for each document in the database. Especially, in this method, the character string you want to search,
Specify the search precision (greater than 0 and less than or equal to 1), and documents containing "similar character strings" and "similar characters" whose "similarity" with the character string you want to search is greater than or equal to the specified search precision Column "
To identify the position within the document.

【0174】I1.文字列を似ていると感じる人間の感
覚 日本語のわかる人間が見て、文字の並びが似ていてしか
も意味が近いと感じる日本語の文字列には,次のような
ものがある。
I1. Human sense of feeling that character strings are similar There are the following Japanese character strings that humans who understand Japanese feel that the arrangement of characters is similar and the meaning is similar.

【表4】(1)カタカナ語の異表記 小さい字と大きい字 「ソフトウェア」「ソフトウエ
ア」 長音「ー」の有無 「コンパイラー」「コンパイラ」 中黒「・」の有無 「アイビーエム」「アイ・ビー・
エム」 その他 「ビルディング」「ビルヂング」 (2)漢字熟語と漢字熟語の間に助詞等が入ったもの 「在宅起訴」「在宅のまま起訴」 「政界再編」「政界の再編」 (3)漢字熟語の複合語と一部が欠けた組み合わせの複
合語 「国立民族博物館」「国立博物館」「民族博物館」 (4)省略語などにより一部がかけたもの 「ソフトウェア開発」「ソフト開発」 (5)入力まちがい 「カリフォルニア」「カリフォリニア」
[Table 4] (1) Different katakana notation Small and large letters "Software""Software" Presence of long sound "-""Compiler""Compiler" Presence of Nakaguro "・""IBM""I-B"・
"M" and others "Building""Building" (2) Particles inserted between Kanji compound words and Kanji compound words "In-house prosecution""In-homeprosecution""Political world reorganization""Political world reorganization" (3) Kanji compound words The compound word of the compound and the compound word with a missing part “National Museum of Ethnology”, “National Museum”, “Ethnic Museum” (4) Partially applied by abbreviations, etc. “Software Development” “Software Development” (5) Wrong input "California""California"

【0175】これらに共通しているのは、ほとんどの文
字は連続して一致しているが不足文字や余分な文字があ
る、ということである。
What is common to these is that most of the characters match in succession, but there are missing characters and extra characters.

【0176】次に、どちらが似ているかという観点から
いくつかの言葉を考えてみると、「ソフトメーカー」に
似ているのは、「ソフトのメーカー」、「ソフト開発メ
ーカー」、「ソフトの開発メーカー」の順であるし、
「政治資金規正法案」と比べるならば、「政治資金規正
法」、「政治資金規正」、「政治資金」の順に似ている
と感じる。
Next, considering some words from the viewpoint of which one is similar, what is similar to "software maker" is "software maker", "software development maker", "software development". In order of "maker",
Compared to the "Political Funds Control Bill," I feel that the order is similar to "Political Funds Control Act", "Political Funds Control", and "Political Funds".

【0177】また、文字が一致するとはいっても、「ソ
フトクリーム製造機械の製造を主業務とする機械メーカ
ー」を「ソフトメーカー」を似ている文字列と言うには
無理があると感じられる。
Even if the characters match, it seems unreasonable to call "a machine maker whose main business is the manufacture of soft ice cream making machines" as a similar character string to "software maker".

【0178】これらのことから、文字列を似ていると感
じるかどうかの人間の感覚をまとめると、
From these things, the human sense of whether or not character strings are similar to each other can be summarized as follows.

【0179】(A) 連続して一致する文字が多いほど似て
いると感じ、(B) 途中にはさまる不一致文字が多いほど
似ていないと感じ、(C) 途中にはさまる不一致文字が多
すぎると一つの文字列とは感じられないということがい
える。
(A) The more consecutive characters match, the more similar the characters are, (B) The more mismatched characters that are trapped in the middle, the less similar they are, and (C) The more mismatched characters are trapped in the middle, the more It can be said that it does not feel like a single character string.

【0180】このとき、入力文字列のある部分が文書中
の近い位置で重複して出現する特殊な場合を考慮しなく
てはならない。例をあげると、入力文字列が「理学部長
に就任」、文書中に「理学部部長に就任」とあった場合
である。重複して出現している「部」という文字の一方
は余分な文字であるが、「理学部の長に就任」の「の」
のようにまったく無関係な文字よりは、一致文字に近い
文字と考えるのが妥当である。
At this time, it is necessary to consider a special case where a certain part of the input character string appears in duplicate at a close position in the document. For example, a case where the input character string is "Included as Dean of Science" and the document indicates "Inducted as Dean of Science" is described in the document. One of the characters "Dub" appearing redundantly is an extra character, but "No"
It is more reasonable to think that it is a character closer to the matching character than a completely unrelated character such as.

【0181】デリミタ言語である英語を例に考えると、
文字の並びが似ていてしかも意味が近いと感じる英語の
文字列には,次のようなものがある。 (1)異表記 「database」「data base」「dat
a−base」 (2)語尾変化 「communicate」「communicati
on」 (3)タイプミス 「communication」の場合、 「comunication」 : 文字の不足 「commnuication」 : 文字の逆転 「commuanication」: 文字の過剰等が
ある。 (4)ハイフネーション 「communication」「communi−c
ation」 (5)フレーズのバリエーション 「new technology」「new CMOS
technology」
Taking English as a delimiter language as an example,
The following are English character strings that have similar character sequences and have similar meanings. (1) Different notation "database", "data base", "dat"
a-base ”(2) Inflection change“ communicate ”“ communicati ”
(3) Typo In case of "communication", "communication": lack of characters "communication": reversal of characters "communication": excessive characters. (4) Hyphenation "communication""communi-c
ation ”(5) Phrase variations“ new technology ”“ new CMOS ”
technology "

【0182】これらに共通しているのは、日本語と同様
にほとんどの文字は連続して一致しているが不足文字や
余分な文字がある、ということである。韓国語、中国語
についても同様の例を挙げることができる。
What is common to these is that, as in Japanese, most of the characters are consecutively matched, but there are missing characters and extra characters. Similar examples can be given for Korean and Chinese.

【0183】I2.似ている文字列と似ている度合いの
決定ルール まず、固定長連鎖だけからなる検索文字列の場合に似て
いる文字列と似ている度合いを決定するルールを説明す
る。入力文字列とM文字以上連続で一致する文字列の中
から、互いに入力文字列中と同じ順序関係である程度近
くにあるものを集めて似ている文字列とし、一致する文
字数、一致しない文字数から、似ている度合いを決める
のがルールの概要である。
I2. Rule for Determining Similarity to Similar Character String First, a rule for deciding the degree of similarity to a similar character string in the case of a search character string consisting only of fixed length chains will be described. From the character strings that match the input character string continuously for more than M characters, those that are close to each other to some extent in the same order relationship as the input character string are collected as similar character strings. The outline of the rule is to determine the degree of similarity.

【0184】まず、説明で使う言葉を定義する。First, the words used in the explanation will be defined.

【0185】一致文字列:検索したい文字列と文書テキ
ストとがM文字以上連続して一致する部分。同じ文字か
ら始めた中では長さが最大になるものを選ぶ。
Matching character string: A part where the character string to be searched and the document text continuously match for M characters or more. Choose the one with the largest length starting with the same letter.

【0186】 (例)検索したい文字列 : 政治資金規正法案 文書テキスト : ...資金規正のために法の力で...(Example) Character string to be searched: Political fund regulation bill Document text: ... by law to regulate funds ...

【0187】M=2とする。すると、「資金規正」 が
一致文字列。このとき、最長選択のため「資金」や「資
金規」は一致文字列とは呼ばない。また、「法」は2文
字未満なので一致文字列にはならない。
Let M = 2. Then, "Fund control" is a matching character string. At this time, the “fund” and the “fund rule” are not called the matching character strings because they are the longest selection. In addition, since "mod" is less than two characters, it does not become a matching character string.

【0188】有効一致文字列:似ている文字列を構成す
るM文字の一致文字列をいい、検索文字列中の有効一致
文字列を有効一致検索文字列といい、文書中の有効一致
文字列を有効一致文書文字列という。有効一致検索文字
列と有効一致文書文字列は、その内容が一致しているた
め、特に区別の必要でない場合は、単に有効一致文字列
とする。
Valid matching character string: A matching character string of M characters that form a similar character string, a valid matching character string in a search character string is called a valid matching search character string, and a valid matching character string in a document. Is called a valid matching document character string. Since the contents of the valid match search character string and the valid match document character string match, if there is no particular need for distinction, they are simply defined as the valid match character string.

【0189】最大不一致文字列長L:似ている文字列中
に含める不一致文字は連続L文字までとする。Lは1以
上の定数とする。
Maximum non-matching character string length L: The number of non-matching characters included in a similar character string is limited to consecutive L characters. L is a constant of 1 or more.

【0190】"似ている文字列"の選びだし方と、"似て
いる度合い"の数値化の方法について説明する。
A method of selecting "similar character strings" and a method of digitizing "similarity" will be described.

【0191】(1) 1番目の有効一致文字列の決定 文書中での順序で、1番目の一致文字列を、1番目の有
効一致文字列とする。ここで、
(1) Determination of the first valid matching character string In the order in the document, the first matching character string is set as the first valid matching character string. here,

【0192】i番目の有効一致文書文字列の開始位置を
s(D, i) i番目の有効一致文書文字列の終了位置を e(D, i) i番目の有効一致検索文字列の開始位置を s(C, i) i番目の有効一致検索文字列の終了位置を e(C, i) と表記することにする。
The start position of the i-th valid matching document character string is
s (D, i) The end position of the i-th valid matching document character string is e (D, i) The start position of the i-th valid matching search character string is s (C, i) i-th valid matching search character string The end position of is denoted by e (C, i).

【0193】(2) 次の有効一致文字列の決定 i番目の有効一致文書文字列が決定しているとき、i+
1番目の有効一致文書文字列を次のようにして決定す
る。
(2) Determination of next valid matching character string When the i-th valid matching document character string is determined, i +
The first valid matching document character string is determined as follows.

【0194】次の2つの条件a),b)を満たす最初の一致
文字列を、i+1番目の有効一致文書文字列とする。
The first matching character string satisfying the following two conditions a) and b) is set as the i + 1th valid matching document character string.

【0195】[0195]

【数11】 a) e(D, i) + 1 ≦ s(D, i+1) ≦ e(D, i) + L + 1[Equation 11] a) e (D, i) + 1 ≤ s (D, i + 1) ≤ e (D, i) + L + 1

【0196】これはi番目の有効一致文書文字列とi+
1番目の有効一致文書文字列の間に入る余分な文字はL
文字まで許すことを意味する。(後述する例3参照)
This is the i-th valid matching document character string and i +
The extra character that falls between the first valid matching document character string is L
It means allowing letters. (See Example 3 below)

【数12】b) s(C, i+1) > e(C, i) - (M-1)[Equation 12] b) s (C, i + 1)> e (C, i)-(M-1)

【0197】そのような有効一致文書文字列が選べなく
なるまで繰り返す。
Repeat until such a valid matching document character string cannot be selected.

【0198】(3) "似ている文字列"とその"似ている度
合い"(類似度)の決定 それ以上有効一致文書文字列が選べなくなったら1番目
の有効一致文字列の最初の文字から最後の有効一致文字
列の最後の文字までを"似ている文字列"とし、次の式
で"似ている度合い"を計算する。
(3) Determination of "similar character string" and its "similarity" (similarity) When no more valid matching document character strings can be selected, the first character of the first valid matching character string is selected. The characters up to the last character of the last valid matching character string are defined as "similar character string", and the "similarity" is calculated by the following formula.

【数13】類似度 =minimum ( 検索したい文字列中で有
効一致検索文字列に属している文字数/ 検索したい文字
列の文字数,"似ている文字列"中で有効一致文書文字列
に属している文字数/ "似ている文字列"の文字数)
[Equation 13] Similarity = minimum (Number of characters that belong to the valid match search character string in the character string you want to search / Number of characters in the character string that you want to search, Number of characters / Number of characters in "similar character string")

【0199】なお、類似度の計算においては、有効一致
文書文字列に属していない文字数からも計算することが
できる。
Note that the similarity can be calculated from the number of characters that do not belong to the valid matching document character string.

【数14】類似度 = 1 -maxmum ( 検索したい文字列中
で有効一致検索文字列に属していない文字数/ 検索した
い文字列の文字数,"似ている文字列"中で有効一致文書
文字列に属していない文字数/ "似ている文字列"の文字
数)
[Equation 14] Similarity = 1 -maxmum (Number of characters that do not belong to the valid match search character string in the search target string / Number of characters in the search target character string, Number of characters that do not belong / number of "similar character string" characters)

【0200】I3."似ている文字列"中で有効一致文字
列に属している文字数の数え方 2つの文字が、検索したい文字列の同一文字と対応して
いる場合には1つ目は1と数え、2つ目は0.5と数え
る。その他の場合には1文字を1と数える。(後述する
例4を参照)
I3. How to count the number of characters that belong to a valid matching character string in "similar character strings" If the two characters correspond to the same character in the character string you want to search, count the first as 1 and 2 The second counts as 0.5. In other cases, 1 character is counted as 1. (See Example 4 below)

【0201】I4."似ている文字列"の決定順序 1番目の"似ている文字列"は文書の先頭から比較を始め
て決定する。i番目の"似ている文字列"が決定している
時、i+1番目の"似ている文字列"は、i番目の"似て
いる文字列"の先頭の文字より後ろで、i番目の"似てい
る文字列"を構成する有効一致文字列に属さない最初の
文字から比較を始めて決定する。
I4. Order of determination of "similar character string" The first "similar character string" is determined by starting the comparison from the beginning of the document. When the i-th "similar character string" is determined, the (i + 1) th "similar character string" is after the first character of the i-th "similar character string" and the i-th "similar character string" Determine by starting the comparison with the first character that does not belong to a valid match string that constitutes a "similar string".

【0202】定数L,Mを適当な値に設定することによ
り、文字の並びが似ているかどうかについて、人間の一
般的な判断とかなり一致した"似ている度合い"を算出す
ることができる。
By setting the constants L and M to appropriate values, it is possible to calculate the "degree of resemblance", which is in good agreement with general human judgment as to whether or not the character sequences are similar.

【0203】なお、"似ている度合い"が最高値1になる
とき、文字列は完全に一致しており、また、文字列が完
全に一致していれば必ず"似ている度合い"は1になる。
When the "similarity" reaches the maximum value of 1, the character strings are completely matched, and if the character strings are completely matched, the "similarity" is always 1. become.

【0204】I5.曖昧検索の処理フローチャート 以上の処理をフローチャートであらわすと、図8のよう
になる。図8では先ず、ステップ602で、検索文字列
の入力がプロンプトされる。また、ステップ604で
は、0〜1の類似度の入力がプロンプトされる。通常、
ステップ602とステップ604における文字列及び値
の入力は、単一のダイアログ・ボックスで、入力ボック
スとスクロール・バーを使用して行われる。
I5. Ambiguous search processing flowchart The above processing is shown in a flowchart of FIG. In FIG. 8, first, in step 602, a search character string is prompted for input. Also, in step 604, the user is prompted to enter a degree of similarity of 0-1. Normal,
Input of character strings and values in steps 602 and 604 is performed using a single dialog box using an input box and a scroll bar.

【0205】ステップ606では、有効一致文字列の番
号iが1にセットされ、ステップ608では、有効一致
文字列の検索が行われる。今、有効一致文字列の長さが
M以上であるという条件があったとすると、図7の処理
で、M文字連鎖の索引ファイルを作成しておけば有利で
ある。というのは、そのような索引ファイルが予め存在
すると、任意のM文字連鎖の検索が、索引ファイルの2
分探索によって高速に実行されるからである。続いて、
検索文字列での、M文字連鎖をとる開始位置を1つずら
しM文字連鎖の検索を索引ファイルで行い、その結果得
られた文書番号が一回前のM文字連鎖の検索と同一であ
り、且つ、文書内位置番号が順次的であれば、M+1の
長さの有効一致文字列が得られたことになる。そのよう
にして、文書番号が一回前のM文字連鎖の検索と同一で
あり、且つ、文書内位置番号が順次的である、という条
件が満たされる毎に、有効一致文字列の長さも1つ増分
される。しかし、索引ファイルを使用したM文字連鎖の
探索で何も見つからないか、返される文書番号が不一致
か、文書内位置番号が順次的でなくなれば、有効一致文
字列の終了位置が見出されたことになる。
At step 606, the number i of the valid matching character string is set to 1, and at step 608, the valid matching character string is searched. If there is a condition that the length of the valid matching character string is M or more, it is advantageous to create an index file of M character chains in the process of FIG. This is because, if such an index file exists in advance, a search for an arbitrary M character
This is because it is executed at high speed by the minute search. continue,
In the search character string, the start position for taking the M character chain is shifted by one, and the search for the M character chain is performed in the index file. The resulting document number is the same as the previous search for the M character chain. If the position numbers in the document are sequential, it means that a valid matching character string with a length of M + 1 has been obtained. In this way, each time the condition that the document number is the same as the search of the M character chain one time before and the position numbers in the document are sequential is satisfied, the length of the valid matching character string is also 1 Is incremented by one. However, if nothing is found in the search of the M character chain using the index file, the returned document numbers do not match, or the position numbers in the document are not sequential, the end position of the valid matching character string is found. It will be.

【0206】場合によっては、全く有効一致文字列が見
出されないこともあり、そのような場合、ステップ61
0での判断で、ステップ626に進み、そこで、見つか
らなかったことを表示して処理を終了する。
In some cases, no valid matching character string can be found. In such a case, step 61
If the result is 0, the process proceeds to step 626, where the message "not found" is displayed and the process ends.

【0207】ステップ610で、有効一致文字列が見つ
かったと判断されると処理は、ステップ612に進み、
文書中ではs(D,i)からe(D,i)、検索文字列中ではs(C,i)
からe(C,i)までが、有効文字列であるとしてマークされ
る。
If it is determined in step 610 that a valid matching character string has been found, the process proceeds to step 612.
S (D, i) to e (D, i) in the document, s (C, i) in the search string
From to e (C, i) are marked as valid strings.

【0208】ステップ614では、At step 614,

【数15】 a) e(D, i) + 1 ≦ s(D, i+1) ≦ e(D, i) + L + 1 且つ、 b) s(C, i) > e(C, i) - (M-1)(15) a) e (D, i) + 1 ≤ s (D, i + 1) ≤ e (D, i) + L + 1 and b) s (C, i)> e (C, i )-(M-1)

【0209】という条件をみたす、i+1番目の有効一致
文字列がやはり索引ファイルを使用して検索され、もし
見つかると、ステップ612に戻って、そのi+1番目の
有効一致文字列に関して、文書中ではs(D,i+1)からe(D,
i+1)、検索文字列中ではs(C,i+1)からe(C,i+1)までが、
有効文字列であるとしてマークされる(ステップ618
でのiの増分は、次の有効一致文字列に注目することを
示す)。
The i + 1-th valid matching character string satisfying the condition of "I + 1" is also searched using the index file, and if found, the process returns to step 612 and, regarding the i + 1-th valid matching character string, In the document, s (D, i + 1) to e (D,
i + 1), s (C, i + 1) to e (C, i + 1) in the search string,
Marked as a valid string (step 618)
The increment of i in indicates that we are looking at the next valid match string).

【0210】一方、ステップ616で、最早有効一致文
字列が見つからなくなると、ステップ620で、類似度
の計算が行われる。これは、上述のように例えば、
On the other hand, if no valid matching character string is found anymore in step 616, the similarity is calculated in step 620. This is, for example,

【0211】[0211]

【数16】類似度 =minimum ( 検索したい文字列中で有
効一致文字列に属している文字数/ 検索したい文字列の
文字数,"似ている文字列"中で有効一致文字列に属して
いる文字数/ "似ている文字列"の文字数)
[Equation 16] Similarity = minimum (Number of characters that belong to valid matching character string in search string / Number of characters of searching character string, Number of characters that belong to valid matching character string in "similar character string" / Number of characters in "similar character string")

【0212】で与えられる。このとき、"似ている文字
列"とは、文書中の、最初の有効一致文字列の開始位置
から、最後の有効一致文字列の最後の位置までの間の文
字列である。
It is given by. At this time, the “similar character string” is a character string in the document from the start position of the first valid matching character string to the last position of the last valid matching character string.

【0213】ステップ622では、ステップ620で計
算された類似度と、ステップ604で入力された類似度
とから、結果の選別が行われ、結果がステップ604で
入力された類似度以上であるもののみ、ステップ624
で結果表示を行う。
In step 622, the results are sorted based on the similarity calculated in step 620 and the similarity input in step 604, and only the results which are equal to or higher than the similarity input in step 604 are selected. , Step 624
To display the result.

【0214】ステップ624では、ステップ608、ス
テップ614での索引ファイルの検索の結果返された文
書番号と、文書内位置番号に基づいて、データベースに
格納されている文書コンテンツにアクセスし、該当箇所
を含む行を表示する処理が行われる。
At step 624, the document content stored in the database is accessed based on the document number returned as a result of the index file search at steps 608 and 614 and the position number in the document, and the corresponding portion is searched. The process of displaying the containing line is performed.

【0215】尚、1つの検索文字列に対する"似ている
文字列"は、複数の文書で同時に見つかることがあり得
るが、単一の文書内でも、複数の箇所で見つかることが
ある。従って、ステップ606〜622は、そのような
複数の"似ている文字列"の個々に対して適用され、ステ
ップ624では、複数の"似ている文字列"のうち、類似
度の条件を満たすもののみが選別して表示される、とい
うことに留意されたい。
The "similar character string" for one search character string may be found in a plurality of documents at the same time, but may be found in a plurality of places within a single document. Therefore, steps 606 to 622 are applied to each of the plurality of “similar character strings”, and in step 624, the similarity condition is satisfied among the plurality of “similar character strings”. Note that only the items are sorted and displayed.

【0216】I6."似ている文字列"と類似度の決定例 M = 2, L = 3として例を示す。I6. Example of determining “similar character string” and similarity M = 2, L = 3.

【0217】(例1) (*アイビーエムは、IBM社の商標である)(Example 1) (* IBM is a trademark of IBM Corporation)

【0218】 [0218]

【0219】最初に一致する最長文字列は"アイ" だか
[0219] The longest matching first character string is "eye".

【0220】 1番目の有効一致文字列は"アイ" s(C,1) = 1 e(C,1) = 2 s(D,1) = 1 e(D,1) = 2The first valid matching character string is "eye" s (C, 1) = 1 e (C, 1) = 2 s (D, 1) = 1 e (D, 1) = 2

【0221】e(C,1)-(M-1) = 1 なので、検索したい文
字列の2文字目以降から始まる文字列を、文書の3,
4,5または6文字目から始まる文字列と比較して2番
目の有効一致文字列を探す( e(D,1)+1 = 3, e(D,1)+L+1
= 6 なので )。
Since e (C, 1)-(M-1) = 1, the character string starting from the second character onward of the character string to be searched is set to 3,
Search for the second valid matching character string by comparing the character string starting from the fourth, fifth or sixth character (e (D, 1) +1 = 3, e (D, 1) + L + 1
= 6).

【0222】 2番目の有効一致文字列 "ビー" s(C,2) = 3 e(C,2) = 4 s(D,2) = 4 e(D,2) = 5Second valid matching string "Bee" s (C, 2) = 3 e (C, 2) = 4 s (D, 2) = 4 e (D, 2) = 5

【0223】e(C,1)-(M-1) = 3 なので、検索したい文
字列の4文字目以降から始まる文字列を文書の5,6,
7または8文字目から始まる文字列と比較して3番目の
有効一致文字列を探す( e(D,2)+1 = 5, e(D,2)+L+1 = 8
なので )。 3番目の有効一致文字列 "エム" s(C,3) = 5 e(C,3) = 6 s(D,3) = 7 e(D,3) = 8
Since e (C, 1)-(M-1) = 3, the character strings starting from the fourth character onward of the character string to be searched are 5, 6, and 6 in the document.
Search for the third valid matching character string by comparing the character string starting from the 7th or 8th character (e (D, 2) +1 = 5, e (D, 2) + L + 1 = 8
So). Third valid match string "M" s (C, 3) = 5 e (C, 3) = 6 s (D, 3) = 7 e (D, 3) = 8

【0224】検索したい文字列の最後に到達したので有
効一致文字列は3番目が最後となる。
Since the end of the character string to be searched has been reached, the third valid matching character string is the last.

【0225】[0225]

【表5】 [Table 5]

【0226】番号は有効一致文字列の番号。The number is the number of the valid matching character string.

【0227】したがって"似ている文字列"は s(D, 1)
から e(D, 3) までの"アイ・ビー・エム"。 "類似度" = minimum( 6 / 6 , 6 / 8 ) = 6 / 8 = 0.75
Therefore "similar character string" is s (D, 1)
"IBM" from to e (D, 3). "Similarity" = minimum (6/6, 6/8) = 6/8 = 0.75

【0228】(例2)(Example 2)

【表6】 [Table 6]

【0229】[0229]

【表7】 [Table 7]

【0230】似ている文字列 = "ソフト開発メーカー" 類似度 = minimum( 7 / 10 , 7 / 9 ) = 0.7Similar character string = "software development maker" Similarity = minimum (7/10, 7/9) = 0.7

【0231】(例3)(Example 3)

【表8】 [Table 8]

【表9】 [Table 9]

【0232】最初に一致する最長文字列は"在宅" だか
[0232] The longest matching first character string is "at home".

【数17】 1番目の有効一致文字列は在宅 s(C, 1) = 1 e(C, 1) = 2 s(D, 1) = 1 e(D, 1) = 2[Equation 17] The first valid matching character string is at home s (C, 1) = 1 e (C, 1) = 2 s (D, 1) = 1 e (D, 1) = 2

【0233】文書の3,4,5または6文字目から始ま
る文字列と( e(D,1)+1 = 3, e(D,1)+L+1 = 6 なので )
検索したい文字列の2文字目以降から始まる文字列を(
e(C,1)-(M-1) = 1なので )比較して2番目の有効一致文
字列を探す。
A character string starting from the 3rd, 4th, 5th, or 6th character in the document ((e (D, 1) +1 = 3, e (D, 1) + L + 1 = 6)
Replace the character string starting from the second character of the character string you want to search with (
e (C, 1)-(M-1) = 1) to find the second valid match.

【0234】2番目の有効一致文字列は見つからないの
で、検索したい文字列の最後に到達したので有効一致文
字列は1番目のみとなる。
Since the second valid matching character string is not found, the end of the character string to be searched has been reached, so the only valid matching character string is the first.

【表10】 [Table 10]

【0235】したがって1番目の"似ている文字列"は s
(D, 1) から e(D, 1) までの"在宅"。 "類似度" = minimum( 2 / 4 , 2 / 2 ) = 2 / 4 = 0.5
Therefore, the first "similar character string" is s
"At home" from (D, 1) to e (D, 1). "Similarity" = minimum (2/4, 2/2) = 2/4 = 0.5

【0236】"在"より後ろで最初の非有効一致文字は"
の"。"の"から後ろで2番目の"似ている文字列"を探す
と、
The first non-valid matching character after "present" is "
If you search for the second "similar string" after "." Of ",

【表11】 [Table 11]

【0237】但し、文書で、「在 宅」と「起 訴」と
は、4文字離れており、この例では、L=3なので、上
記の「起 訴」は、有効一致文字列とは見なさない。
However, in the document, “at home” and “prosecution” are separated by 4 characters, and in this example, L = 3, so the above “promotion” is regarded as a valid matching character string. Absent.

【0238】(例4)(Example 4)

【表12】 [Table 12]

【0239】最初に一致する最長文字列は"銀行" だか
[0239] The longest string that matches first is "bank".

【0240】[0240]

【数18】 1番目の有効一致文字列は"銀行" s(C,1) = 1 e(C,1) = 2 s(D,1) = 2 e(D,1) = 3[Equation 18] The first valid matching string is "bank" s (C, 1) = 1 e (C, 1) = 2 s (D, 1) = 2 e (D, 1) = 3

【0241】検索したい文字列の2文字目以降から始ま
る文字列を( e(C,1)-(M-1)=1なので)文書の4,5,6
または7文字目から始まる文字列と( e(D,1)+1 = 4, e
(D,1)+L+1 = 7 なので )比較して2番目の有効一致文字
列を探す。
The character string starting from the second character onward of the character string to be searched (because e (C, 1)-(M-1) = 1) is 4, 5, 6 of the document.
Or the character string starting from the 7th character and (e (D, 1) +1 = 4, e
(D, 1) + L + 1 = 7 (because this is the case) and find the second valid matching character string.

【0242】 2番目の有効一致文字列は"行員" s(C,2) = 2 e(C,2) = 3 s(D,2) = 4 e(D,2) = 5The second valid matching character string is “row member” s (C, 2) = 2 e (C, 2) = 3 s (D, 2) = 4 e (D, 2) = 5

【0243】検索したい文字列の最後に到達したので有
効一致文字列は2つ。
There are two valid matching character strings because the end of the character string to be searched has been reached.

【表13】 [Table 13]

【0244】"似ている文字列"は s(D, 1) から e(D,
2) までの"銀行行員"。"類似度" = minimum( 3 / 3 ,
3.5 / 4 ) = 3.5 / 4 = 0.875
"Similar character string" is from s (D, 1) to e (D,
2) Up to "bank clerk". "Similarity" = minimum (3/3,
3.5 / 4) = 3.5 / 4 = 0.875

【0245】I7.人間の感覚に近い曖昧の例I7. Examples of vagueness close to human sense

【表14】 ソフトウェアメーカー ソフトウェアメーカー 0.909 ソフトウェア開発メーカー 0.833 ソフトウェアの開発メーカー 0.769[Table 14] Software Maker Software Maker 0.909 Software Development Maker 0.833 Software Development Maker 0.769

【0246】この例は、余分な文字が入るにつれて"類
似度"が低下することを示す。
This example shows that the "similarity" decreases as extra characters are entered.

【表15】 ニットウェアメーカー 0.800 ソフトメーカー 0.700 ソフトウェア 0.600[Table 15] Knitting Towea Studio 0.800 software maker 0.700 software 0.600

【0247】この例は、一致する文字が減るにつれて"
類似度"が低下することを示す。
In this example, as the number of matching characters decreases, ""
"Similarity" decreases.

【表16】 理学部長選挙 理学部長選挙 1.000 理学部部長選挙 0.929 理学部長選挙 0.857[Table 16] Faculty of Science Elections Faculty of Science Elections 1.000 Faculty of Science Elections 0.929 Science Director Elections 0.857

【0248】I8.可変長連鎖の検索 以上、固定長連鎖だけからなる検索文字列の場合につい
て似ている文字列を検索する方法を説明した。これを可
変長連鎖を含む検索文字列について拡張すると次のよう
になる。なお、検索文字列から取り出した可変長連鎖を
拡張検索文字列と呼ぶことにする。
I8. Retrieval of variable-length chain Up to this point, the method of retrieving a similar character string in the case of a retrieval character string consisting of only fixed-length chain has been described. The following is an extension of this for a search character string containing a variable length chain. The variable length chain extracted from the search character string will be referred to as an extended search character string.

【0249】まず、拡張文字連鎖ファイル・拡張位置情
報ファイルを検索して、次のような拡張文字連鎖を得
る。その検索方法は、固定長連鎖だけからなる検索文字
列を文字連鎖ファイル・位置情報ファイルから検索する
方法と同様である。定数MにあたるものとしてM'を用
いる。
First, the extended character chain file / extended position information file is searched to obtain the following extended character chain. The search method is the same as the method for searching a character string file / position information file for a search character string consisting of a fixed length chain only. M ′ is used as a constant M.

【0250】(1)拡張検索文字列と指定の検索一致度
以上で一致する可変長連鎖を探す。このとき、拡張検索
文字列の最初の文字と一致しない可変長連鎖を除外する
とノイズを減らすのに有効である。この場合、拡張固定
連鎖作成時に、スタートを示す「$」を使用し、「$co」なる
拡張固定連鎖を作成し、これに一致しない可変長連鎖を
除外することにより高速に処理することが可能である。
ただし、スタートを示す「$」を使用しない場合であって
も、拡張位置情報ファイルにおける可変長連鎖内位置番
号やデリミタの情報から可変長連鎖のスタート位置を特
定することは可能である。
(1) A variable length chain that matches the extended search character string with a specified search matching degree or higher is searched for. At this time, it is effective to reduce noise by excluding the variable length chain that does not match the first character of the extended search character string. In this case, at the time of creating the extended fixed chain, "$" indicating the start is used, the extended fixed chain of "$ co" is created, and the variable length chain that does not match this is excluded, which enables high-speed processing. Is.
However, even if “$” indicating the start is not used, it is possible to specify the start position of the variable length chain from the position number in the variable length chain in the extended position information file and the delimiter information.

【0251】(例) 拡張検索文字列 : "communication" 見つかった可変長連鎖 : "commuication"(Example) Extended search character string: "communication" Variable length chain found: "commuication"

【0252】(2)拡張検索文字列どうしを接合して新
たに作成した拡張検索文字列と指定の検索一致度以上で
一致する可変長連鎖を探す。
(2) A variable length chain that matches the newly created extended search character string by joining the extended search character strings with each other at a specified search matching degree or higher is searched.

【0253】(例) 検索文字列 : "data-base" 拡張検索文字列 : "data", "base" 接合で作った拡張検索文字列 : "database" 接合の数は2つまで、または3つまでという設定をする
ことも可能である。この処理によって、"data base"の
ような分割された検索文字列の場合でも、文書中の文字
列から接合された"database"を捜し出す事が可能とな
る。
(Example) Search string: "data-base" Extended search string: "data", "base" Extended search string created by joining: "database" Up to 2 or 3 joinings It is also possible to set up to. By this process, even in the case of a divided search character string such as "data base", it is possible to find the joined "database" from the character string in the document.

【0254】(3)拡張検索文字列と0より大きい一致
度で一致する可変長連鎖の中から次の条件をすべて満た
す可変長連鎖を残す。
(3) Among the variable length chains that match the extended search character string with a degree of matching greater than 0, variable length chains that satisfy all the following conditions are left.

【0255】・可変長連鎖の最初の文字が一致部分に含
まれる。
The first character of the variable length chain is included in the matching part.

【表17】(例) (一致部分に下線) [Table 17] (Example) (Underlined in the matching part)

【0256】・拡張検索文字列の最初の文字または最後
の文字が一致部分に含まれる。この場合、拡張固定連鎖
作成時に、スタートを示す「$」とエンドを示す「\」を使用
し、「$co」および「se\」なる拡張固定連鎖を作成し、この
いずれかに一致しない可変長連鎖を除外することにより
高速に処理することができる。
The first character or the last character of the extended search character string is included in the matching portion. In this case, when creating the extended fixed chain, "$" indicating the start and "\" indicating the end are used to create the extended fixed chain consisting of "$ co" and "se \". It can be processed at high speed by excluding long chains.

【表18】 [Table 18]

【0257】この処理によって、"database"のような接
合された検索文字列の場合でも、文書中の文字列から分
割された"data"及び"base"を捜し出す事が可能となる。
なお、拡張検索文字列の最初の文字が一致部分に含まれ
る場合(拡張検索文字列"database"に対する可変長連鎖"
data"がこれに該当する)、や拡張検索文字列の最後の文
字が一致部分に含まれる場合(拡張検索文字列"databas
e"に対する可変長連鎖"base"がこれに該当する)、可変
長連鎖に一定文字以上の不一致文字を含む場合検索の対
象から除外することもでき、これにより、検索対象の絞
り込みによる検索速度の高速化を図ることができる。
By this processing, even in the case of a joined search character string such as "database", it is possible to find "data" and "base" which are divided from the character string in the document.
If the first character of the extended search string is included in the matching part (variable length chain for the extended search string "database")
"data" corresponds to this), or when the last character of the extended search string is included in the matching part (extended search string "databas
This applies to the variable-length chain "base" for e "), and if the variable-length chain contains a certain number of non-matching characters, it can be excluded from the search target. This will reduce the search speed by narrowing down the search target. The speed can be increased.

【0258】本発明の好適な実施例においては、以上説
明した(1),(2),(3)の処理で対象となった可
変長連鎖(すなわち、(1)+(2)+(3))がステ
ップ708の「条件を満たす可変長連鎖」となる。但
し、(1)+(2)+(3)ではなく、(1)のみ、
(3)のみ、(1)+(2)等設定によって色々変える
事ができる。
In the preferred embodiment of the present invention, the variable length chain (that is, (1) + (2) + (3) which is the object of the processing of (1), (2) and (3) described above. )) Is the “variable length chain satisfying the condition” in step 708. However, instead of (1) + (2) + (3), only (1)
Only (3) can be variously changed by setting (1) + (2).

【0259】(1),(2),(3)の可変長連鎖を探
して拡張索引を検索するときの一致度の決定において、
文字の逆転に対して通常の一致より低く,通常の不一致
より高い評価を与えると、英語のタイプミスにありがち
な、文字の逆転した単語を探すのによい効果がある。
In determining the degree of coincidence when searching the extended index by searching the variable length chain of (1), (2), and (3),
Giving a lower than normal match and a higher than normal mismatch for letter reversals has a good effect in finding words with letter reversals, which are common in English typos.

【0260】[0260]

【表19】(文字の逆転の例) [Table 19] (Example of character inversion)

【0261】この例では、検索文字列中の不一致文字列
は「un」であり、文書文字列中の不一致文字列は「nu」
である。このような場合、例えば、検索文字列中の不一
致文字列の「u」および「n」が、文書文字列中の不一致
文字列に含まれているか否かを判断することによりこの
ようなタイプミスによる不一致を検出することができ
る。
In this example, the unmatched character string in the search character string is "un", and the unmatched character string in the document character string is "nu".
It is. In such a case, for example, by determining whether or not the unmatched character strings “u” and “n” in the search character string are included in the unmatched character string in the document character string, such a typo Can be detected.

【0262】この可変長連鎖を含む検索文字列の検索方
法は、図9に示す手順で実施される。この手順を具体例
とともに説明する。本実施例においては、検索文字が
「datacommunication」であり、文書文字列中には、「d
ata....... communication」,「data comminucation」,
「daily communication」が存在している。「dat
a....... communication」における「data」と「commun
ication」は十分離れているとする。
The search method for the search character string including the variable length chain is executed by the procedure shown in FIG. This procedure will be described with a specific example. In this embodiment, the search character is "data communication", and the search character is "d" in the document character string.
ata ....... communication ”,“ data comminucation ”,
"Daily communication" exists. "Dat
a ....... communication ”,“ data ”and“ commun
"ication" is sufficiently far away.

【0263】文字連鎖ファイルの情報と位置情報ファイ
ルの情報は、 文字連鎖ファイル 位置情報ファイル 1. data 1-1,2-1 2. daily 3-1 3. comminucation 2-6 4. communication 1-35,3-7
Character chain file information and position information file information are: character chain file position information file 1. data 1-1,2-1 2. daily 3-1 3. communication 2-6 4. communication 1-35 , 3-7

【0264】 と仮定する(M'=3)。[0264] (M '= 3).

【0265】ここでは理解の容易化を図るため、ソート
を行っていないファイルを示す。ここで「1. data 1-
1,2-1」の「1.」は可変長連鎖番号、「data」は、可変
長連鎖、「1-1」,「2-1」は夫々「文書番号−文書内位
置番号」を示す。また、「$da1-1,2-1」の「$da」は拡
張文字連鎖、「1-1」,「2-1」は夫々「可変長連鎖番号
−可変長連鎖内位置」を示す。従って、「$da 1-1,2-
1」は、可変長連鎖番号1(data)の1文字目と可変長連鎖
番号2(daily)の1文字目とを表している。
Here, for ease of understanding, a file that is not sorted is shown. Here, "1. data 1-
"1." of "1,2-1" indicates a variable length chain number, "data" indicates a variable length chain, and "1-1" and "2-1" indicate "document number-position number within document", respectively. . Further, "$ da" of "$ da1-1,2-1" indicates an extended character chain, and "1-1" and "2-1" respectively indicate "variable length chain number-position in variable length chain". Therefore, "$ da 1-1,2-
"1" represents the first character of the variable length chain number 1 (data) and the first character of the variable length chain number 2 (daily).

【0266】図9の手順が開始されると、まず、検索文
字列「data communication」が入力される(ステップ7
02)。そして、類似度が入力される(ステップ70
4)。この類似度はデフォルトとして定め、入力を省略
してもよい。ここでは類似度0.80と入力する。
When the procedure of FIG. 9 is started, first, the search character string "data communication" is input (step 7
02). Then, the degree of similarity is input (step 70).
4). This similarity may be set as a default and the input may be omitted. Here, the similarity is input as 0.80.

【0267】次に、検索文字列から固定長連鎖と可変長
検索文字列が作成される(ステップ706)。この例で
は、デリミタ言語のみを有する文書で説明しているた
め、固定長連鎖は存在しない。
Next, a fixed length chain and a variable length search character string are created from the search character string (step 706). In this example, there is no fixed length chain because it is described in the document having only the delimiter language.

【0268】条件を満たす可変長連鎖を拡張文字連鎖フ
ァイル・拡張位置情報ファイルから検索する(ステップ
708)。ここで、上記(1),(2),(3)の可変
長連鎖を探す処理が行われる。すなわち、(1)拡張検
索文字列と指定の検索一致度以上で一致する可変長連鎖
を探す。このときのの検索一致度は、文書全体の類似度
と同じ値を設定することも可能であるが、文書全体の類
似度よりも低い方が好ましい。例えば、「communicatio
n」と「comminucation」13文字中10文字が一致し、3文
字が不一致であるため、単純な類似度の算出方法(ここ
では、読者の理解の容易化を図るため、単純な類似度の
算出方法を用いて説明する)では、類似度は10/13=0.77
であるが、「data communication」と「data comminuca
tion」の類似度は、デリミタを含めて、18文字中15文字
が一致し、3文字が不一致であるため、単純な類似度の
算出方法では、類似度は15/18=0.83となる。このよう
に、可変長連鎖同士の類似度が低くても文字列全体の類
似度が高くなる場合が多く、文字列が長くなるにつれ、
この傾向は顕著になるためである。
A variable length chain satisfying the conditions is searched from the extended character chain file / extended position information file (step 708). Here, the processing for searching the variable length chain of the above (1), (2), and (3) is performed. That is, (1) a variable length chain that matches the extended search character string with a specified search matching degree or higher is searched. The search matching degree at this time can be set to the same value as the similarity degree of the entire document, but it is preferably lower than the similarity degree of the entire document. For example, "communicatio
10 out of 13 characters of “n” and “comminucation” match and 3 of them do not match, so a simple calculation method of similarity (Here, in order to facilitate the reader's understanding, simple calculation of similarity Method, the similarity is 10/13 = 0.77.
However, "data communication" and "data comminuca
The similarity of “tion” includes 15 characters out of 18 characters including delimiters, and 3 characters do not match. Therefore, the similarity is 15/18 = 0.83 in a simple similarity calculation method. Thus, even if the similarity between variable length chains is low, the similarity of the entire character string is often high, and as the character string becomes longer,
This tendency is remarkable.

【0269】本実施例においては、「指定の検索一致
度」は「data」について0.60、「communication」につ
いては0.72と設定する。「指定の検索一致度」は、検索
文字列の文字数と可変長連鎖の文字数の比率によって変
更することも可能である。この例に示すように「commun
ication」と10文字以上一致する可変長連鎖でないと、
文字列全体の類似度は0.80以上にならないのに対し、
「data」は、1文字のみ一致する場合であっても、文字
列全体の類似度は0.80以上となる可能性が存在するのた
めである。但し、「data」に対し余りにも低い一致度を
許容すると、一致する可変長連鎖が多くなり、検索速度
に影響を及ぼすため0.6を下限として設定している。な
お、本発明の好適な実施例においては、文書全体の類似
度に大きな影響を与えない可変長連鎖は(1)の可変長
連鎖探索処理の対象から除外される。これにより、検索
速度を向上させることが可能となる。
In this embodiment, the "specified search matching degree" is set to 0.60 for "data" and 0.72 for "communication". The “specified search matching degree” can be changed by the ratio of the number of characters in the search character string to the number of characters in the variable length chain. As shown in this example, "commun
If it is not a variable length chain that matches 10 or more characters with "ication",
While the similarity of the entire character string does not exceed 0.80,
This is because the similarity of the entire character string may be 0.80 or more even if only one character is matched for “data”. However, if a too low degree of matching is allowed for “data”, the number of matching variable length chains increases, which affects the search speed, so 0.6 is set as the lower limit. In the preferred embodiment of the present invention, the variable length chain that does not significantly affect the similarity of the entire document is excluded from the target of the variable length chain search process (1). This makes it possible to improve the search speed.

【0270】また、本実施例においては、類似度×検索
する可変長連鎖の文字数(=0.72×13=9.3
6)未満の可変長連鎖は検索の対象から除外されること
により高速な検索を可能にしている。これは、例えば、 のように、可変長連鎖の文字数を管理することにより実
施することができる。なお、「$da 1-1-4,2-1-5」の「1
-1-4」,「2-1-5」は夫々「可変長連鎖番号−可変長連鎖
内位置−可変長連鎖文字数」を示す。
Further, in this embodiment, the degree of similarity × the number of characters in the variable length chain to be searched (= 0.72 × 13 = 9.3).
Variable length chains less than 6) are excluded from the search target, thereby enabling high-speed search. This is, for example, As described above, it can be implemented by managing the number of characters in the variable length chain. In addition, "1 of $ da 1-1-4, 2-1-5"
"-1-4" and "2-1-5" respectively indicate "variable length chain number-position in variable length chain-number of variable length chain characters".

【0271】「data」に対し0.60、「communication」
に対し0.72以上の検索一致度を有する可変長連鎖は、固
定長連鎖と同様の方法で「data」に対し「data」(100%)
「communication」に対し「comminucation」(77%)、「c
ommunication」(100%)が見つけることができる。
0.60 for "data", "communication"
On the other hand, a variable length chain with a search match of 0.72 or more is "data" (100%) for "data" in the same way as a fixed length chain.
For “communication”, “comminucation” (77%), “c
ommunication "(100%) can be found.

【0272】例えば、検索文字列「communication」の
場合、これに対応する拡張検索文字連鎖に一致する連鎖
は、拡張文字連鎖中の、 であり、拡張位置情報ファイルの情報から、文字連鎖フ
ァイルの「3. comminucation」、「4. communication」
を見つけることができる。
For example, in the case of the search character string "communication", a chain that matches the corresponding extended search character chain is And, from the information of the extended position information file, "3. comminucation", "4. communication" of the character chain file
Can be found.

【0273】次に、(2)拡張検索文字列どうしを接合
して新たに作成した拡張検索文字列と指定の検索一致度
以上で一致する可変長連鎖を探す。従って検索文字列
「datacommunication」と指定の検索一致度以上で一致
する可変長連鎖が探索される。このときの「指定の検索
一致度」は、文字列全体の類似度と同じ値を設定するこ
とも可能であるが、文書全体の類似度よりも低くするこ
とも可能である。例えば、検索文字列が"data base sys
tem"である場合、接合で作った拡張検索文字列は、"dat
abase""basesystem""databasesystem"の3種類が存在す
が、これらの接合検索文字列が文書全体の類似度に与え
る影響は、接合検索文字列の文字数によって変化するた
めである。本実施例においては(2)の「指定の検索一
致度」は0.80に設定されるため、検索文字列「datacomm
unication」と指定の検索一致度以上で一致する可変長
連鎖は存在しない。
Next, (2) a variable length chain that matches the extended search character string newly created by joining the extended search character strings with each other at a specified search matching degree or higher is searched. Therefore, a variable length chain that matches the search character string “data communication” with a specified search matching degree or higher is searched. The "specified search matching degree" at this time can be set to the same value as the similarity degree of the entire character string, or can be set lower than the similarity degree of the entire document. For example, the search string is "data base sys
tem ", the extended search string created by joining is" dat
There are three types, abase "" basesystem "" databasesystem ", and the influence of these splicing search strings on the similarity of the entire document is because it changes depending on the number of characters in the splicing search string. Is set to 0.80 for the "specified search match" of (2), so the search string "datacomm
There is no variable-length chain that matches "unication" with a specified search match or higher.

【0274】そして、上記の(3)拡張検索文字列と0
より大きい一致度で一致する可変長連鎖の中から「1.
可変長連鎖の最初の文字が一致部分に含まれる。」、
「2.拡張検索文字列の最初の文字または最後の文字が
一致部分に含まれる。」の条件をすべて満たす可変長連
鎖を探す。この条件に合致する可変長連鎖は、(1)と
同様に、「data」、「comminucation」、「communicati
on」である。
Then, the above (3) extended search character string and 0
From among variable length chains that match with a higher degree of matching, “1.
The first character of the variable length chain is included in the match. "
A variable length chain that satisfies all the conditions of "2. The first character or the last character of the extended search character string is included in the matching portion" is searched. Variable length chains that meet this condition are "data", "comminucation", and "communicati" as in (1).
on ".

【0275】再び図9を参照すると、ステップ710に
おいて、可変長連鎖が見つかったか否か判断される。本
実施例においては、「1. data」,「3. comminucatio
n」,「4. communication」が見つかっている。これらの
可変長連鎖の番号が、バッファに格納される(ステップ
712)。本実施例においては可変長連鎖番号1,3,
4が格納される。本発明の好適な実施例においては、検
索文字列「data communication」の可変長連鎖文字列
「data」,「communication」の夫々に番号(可変長連鎖
検索文字列番号)が付けられており、この番号との関連
で、上記可変長連鎖番号1,3,4が格納される。従っ
て格納される情報は、(1−1),(2−3,4)が格
納される。この(2−3,4)は可変長連鎖検索文字列
番号2に対し一定の一致度以上で一致する文書中の可変
長連鎖の可変長連鎖番号3,4を示している。
Referring again to FIG. 9, in step 710, it is determined whether a variable length chain has been found. In the present embodiment, "1. data", "3. comminucatio
"n" and "4. communication" are found. The numbers of these variable length chains are stored in the buffer (step 712). In this embodiment, variable length chain numbers 1, 3,
4 is stored. In a preferred embodiment of the present invention, a number (variable length chained search string number) is assigned to each of the variable length chained character strings "data" and "communication" of the search string "data communication". The variable length chain numbers 1, 3, and 4 are stored in relation to the numbers. Therefore, the information stored is (1-1), (2-3, 4). This (2-3, 4) indicates the variable length chain numbers 3 and 4 of the variable length chain in the document that matches the variable length chain search character string number 2 with a certain degree of matching or more.

【0276】そして、ステップ714において、固定長
連鎖の位置情報と可変長連鎖の位置情報の位置関係から
文字列全体の類似度が計算される。具体的には、前述の
ように可変長連鎖検索文字列番号に対して文書中の可変
長連鎖番号1,3,4が格納される。従って、接合され
うる文書内の可変長連鎖は、1−3,1−4である
(「1.」は「data」、「3.」は「comminucation」、
「4.」は「communication」に対応)。
Then, in step 714, the similarity of the entire character string is calculated from the positional relationship between the position information of the fixed length chain and the position information of the variable length chain. Specifically, as described above, the variable length chain numbers 1, 3, and 4 in the document are stored for the variable length chain search character string numbers. Therefore, the variable length chains in documents that can be spliced together are 1-3, 1-4.
("1." is "data", "3." is "comminucation",
"4." corresponds to "communication".

【0277】文字連鎖ファイル302、位置情報ファイ
ル304の内容を参照すると、 文字連鎖ファイル 位置情報ファイル 1. data 1-1,2-1 3. comminucation 2-6 4. communication 1-35,3-7 であるため、(1-1,2-1)−(2-6),(1-1,2-1)−(1-35,3-
7)の組合せ、すなわち、 (1-1)−(2-6), (2-1)−(2-6), (1-1)−(1-35) (1-1)−(3-7) (2-1)−(1-35) (2-1)−(3-7) の組合せが候補となる。
Referring to the contents of the character chain file 302 and the position information file 304, the character chain file position information file 1. data 1-1,2-1 3.communication 2-6 4. communication 1-35,3-7 Therefore, (1-1,2-1) − (2-6), (1-1,2-1) − (1-35,3-
7) combination, that is, (1-1) − (2-6), (2-1) − (2-6), (1-1) − (1-35) (1-1) − (3 -7) The combination of (2-1)-(1-35) (2-1)-(3-7) is a candidate.

【0278】しかし、1.文書番号が異なる場合、2.L=
3の条件を満たさない場合、3.文書内位置番号に逆転が
起こっている場合は類似度計算の候補から除外される。
この条件を具備する可変長連鎖の組合せは(2-1)−(2-6)
のみとなる。従って「data comminucation」が類似度計
算の対象となる。ただし、「2.L=3の条件を満たさな
い場合」や「3.文書内位置番号に逆転が起こっている場
合」という要件は、「data comminucation」のように、
その並び方が重要な場合に採用されるが、例えば、特許
公報の要約のキーワード(可変長連鎖)を抽出した文字列
を検索する場合のように、並び方が重要でない場合には
採用されない。
However, 1. If the document numbers are different, 2.L =
If the condition of 3 is not satisfied, or if the position number in the document 3 is reversed, it is excluded from the candidates for similarity calculation.
The combination of variable length chains that satisfy this condition is (2-1)-(2-6)
Only. Therefore, "data comminucation" is the target of similarity calculation. However, the requirements such as “when the condition of 2.L = 3 is not satisfied” and “3. when the position number in the document is reversed” are described as “data comminucation”.
It is adopted when the arrangement is important, but is not adopted when the arrangement is not important, for example, when searching for a character string in which a keyword (variable length chain) of the abstract of patent publication is extracted.

【0279】以上の説明においては、ステップ712に
おいて、可変長連鎖検索文字列番号との関連で、可変長
連鎖番号を格納している。しかし、可変長連鎖検索文字
列番号の格納は、本発明の必須の構成要素ではなく、可
変長連鎖検索文字列番号の情報なしに可変長連鎖の組合
せを決定できる。
In the above description, in step 712, the variable length chain number is stored in association with the variable length chain search character string number. However, the storage of the variable length chain search character string numbers is not an essential component of the present invention, and the combination of variable length chain can be determined without the information of the variable length chain search character string numbers.

【0280】これを具体的に説明すると、ステップ71
2で格納された可変長連鎖番号から、文字連鎖ファイル
302、位置情報ファイル304の内容が参照される。 文字連鎖ファイル 位置情報ファイル 1. data 1-1,2-1 3. comminucation 2-6 4. communication 1-35,3-7
This will be described in detail. Step 71
The contents of the character chain file 302 and the position information file 304 are referenced from the variable length chain number stored in 2. Character chain file Position information file 1.data 1-1,2-1 3.communication 2-6 4.communication 1-35,3-7

【0281】この文字連鎖ファイルは位置情報ファイル
の内容に従って分割される。 文字連鎖ファイル 位置情報ファイル 1. data 1-1 1. data 2-1 3. comminucation 2-6 4. communication 1-35 4. communication 3-7
This character chain file is divided according to the contents of the position information file. Character chain file Position information file 1.data 1-1 1.data 2-1 3.communication 2-6 4.communication 1-35 4.communication 3-7

【0282】そして、文字連鎖ファイルは位置情報ファ
イルの内容に従ってソートされる。 文字連鎖ファイル 位置情報ファイル 1. data 1-1 4. communication 1-35 1. data 2-1 3. comminucation 2-6 4. communication 3-7
Then, the character chain file is sorted according to the contents of the position information file. Character chain file Position information file 1.data 1-1 4.communication 1-35 1.data 2-1 3.communication 2-6 4.communication 3-7

【0283】L=3とすると、 1. data 1-1 4. communication 1-35 4. communication 3-7 は、位置情報ファイルの内容から、組合せる他の可変長
連鎖は存在しないことが分かる。
When L = 3, it can be seen from the contents of the position information file that 1.data 1-1.communication 1-35 4.communication 3-7 do not have other variable length chains to be combined.

【0284】これに対し、 1. data 2-1 3. comminucation 2-6 はL=3の条件を満たすため、組み合わされて類似度が
判断される。
On the other hand, 1.data 2-1 3.communication 2-6 satisfies the condition of L = 3, and therefore the similarity is judged by combining them.

【0285】従って、類似度計算の候補は、 1. data 1-1 4. communication 1-35 4. communication 3-7 1-3. data comminucation 2-1Therefore, the candidates for similarity calculation are: 1. data 1-1 4. communication 1-35 4. communication 3-7 1-3. Data comminucation 2-1

【0286】重複した類似度計算を防止するため、可変
長連鎖番号でまとめると、 1. data 1-1 4. communication 1-35,3-7 1-3. data comminucation 2-1
To prevent duplicate similarity calculation, the variable length chain numbers are summarized as follows: 1. data 1-1 4. communication 1-35,3-7 1-3. Data communication 2-1

【0287】そして、検索文字列(18:デリミタ含
む)×類似度(0.80)未満の文字列(14.4未満
の文字列)は類似度計算の対象から除外される(実際は
可変長連鎖番号でまとめる操作の前に行うことが望まし
い)。従って、類似度計算の候補は、 1-3. data comminucation 2-1 のみとなる。
Then, the search character string (18: including delimiter) × character string less than similarity (0.80) (character string less than 14.4) is excluded from the target of similarity calculation (actually, variable length chaining). It is desirable to do it before the operation of grouping by number). Therefore, 1-3. Data comminucation 2-1 is the only candidate for similarity calculation.

【0288】検索文字列、「data communication」と
「data comminucation」の類似度は、18文字中15文
字一致し、3文字不一致であるため、類似度0.83が
算出される。なお、ステップ712において、可変長連
鎖の番号とともに、可変長連鎖の類似度を格納する事に
より、ステップ714における文字列の類似度計算を軽
減できる。すなわち、ステップ712で、(1−1.0
0),(3−0.77),(4−1.00)が格納さ
れ、この数値が利用される。
[0288] The similarity between the search character strings "data communication" and "data comminucation" is 15 out of 18 characters and 3 characters do not match, so a similarity of 0.83 is calculated. By storing the variable length chain number and the variable length chain similarity in step 712, it is possible to reduce the similarity calculation of the character string in step 714. That is, in step 712, (1-1.0
0), (3-0.77), (4-1.00) are stored, and this numerical value is used.

【0289】単純な類似度計算においては、以下の式か
ら類似度を算出することが可能となる。
In a simple similarity calculation, the similarity can be calculated from the following formula.

【数19】類似度 = (可変長連鎖1の文字数×可変
長連鎖1の一致度+ 可変長連鎖2の文字数×可変長連
鎖2の一致度 + ...+ デリミタの文字数) /
検索文字列の文字数 従って、本実施例における類似度は、(4×1.00+
13×0.77+1)/18=0.83となる。なお、
デリミタを1文字とカウントするか否かは設計によって
変更することができる。
[Equation 19] Similarity degree = (number of characters of variable length chain 1 × match degree of variable length chain 1 + number of characters of variable length chain 2 × match degree of variable length chain 2 + ... + number of delimiter characters) /
Therefore, the similarity in this embodiment is (4 × 1.00 +)
13 × 0.77 + 1) /18=0.83. In addition,
Whether or not the delimiter is counted as one character can be changed by design.

【0290】次に、ステップ716において、入力され
た類似度と、上記計算された類似度が比較される。入力
された類似度よりも大きい類似度を有する文字列が存在
しない場合は、見つからなかった旨の表示がディスプレ
イ110上に表示される(ステップ718)。また、見
つかった場合は、該当文書の該当行を表示する(ステッ
プ720)。ただし、該当文書の該当行の表示または、
見つからなかった旨の表示は、必須の構成要素ではな
く、これらの情報を他のコンピュータ(クライアントを
含む)に送信することもできる。また、該当文書の該当
行の表示は、類似度や文書番号、文書内位置番号等とと
もに、入力した類似度以上の文字列をすべて表示して
も、予め定められた数のみ表示してもよい。表示の順序
は、文書中に出現する順序または類似度の高い順序で表
示してもよい。さらに、複数文書の場合、各文書で条件
を満たす文字列の一定の数表示させることも可能であ
る。これらは設計の段階でさまざまに設定することがで
きる。
Next, in step 716, the input similarity is compared with the calculated similarity. If there is no character string having a degree of similarity higher than the inputted degree of similarity, an indication that the character string is not found is displayed on the display 110 (step 718). If found, the relevant line of the relevant document is displayed (step 720). However, the display of the relevant line of the relevant document or
The indication not found is not an essential component, and this information can be sent to other computers (including clients). In addition, the display of the relevant line of the relevant document may display all the character strings having the input similarity or more, or a predetermined number together with the similarity, the document number, the position number in the document, and the like. . The display order may be the order of appearance in the document or the order of high similarity. Further, in the case of a plurality of documents, it is possible to display a fixed number of character strings satisfying the condition in each document. These can be variously set at the design stage.

【0291】本発明は、文書の曖昧検索に用いるための
手法について述べているが、文書中の単語のスペルチェ
ックにも応用することができる。この場合、まず、文書
中の辞書にない単語が従来の手法に従って検出される。
次に、検出された辞書にない単語が検索文字列としても
ちいられ、辞書に存在する単語に対し曖昧検索を行う。
そして、曖昧検索で一定の類似度以上であった単語を、
その辞書にない単語の正しいスペルの候補として表示す
る。
Although the present invention describes a technique for use in a fuzzy search of a document, it can also be applied to spell checking words in a document. In this case, first the words in the document that are not in the dictionary are detected according to conventional techniques.
Next, the detected word that is not in the dictionary is used as a search character string, and an ambiguous search is performed for the word that exists in the dictionary.
Then, the words that have a certain degree of similarity in the fuzzy search are
Display as a candidate for correct spelling of a word that is not in the dictionary.

【0292】以上、可変長連鎖のみからなる文字列の検
索を説明したが、可変長連鎖と固定長連鎖の混在する文
書においては、ステップ714において、固定長連鎖の
位置情報と可変長連鎖の位置情報の位置関係から文字列
全体の類似度が計算される。この処理について具体例を
挙げて説明する。この具体例においては、検索文字列
「ASEAN加盟国」、そして、文書中に「ASEAに
加盟」が存在する。「ASEAN」及び「ASEA」は
可変長連鎖である。
The search for the character string consisting of only the variable length chain has been described above. However, in a document in which the variable length chain and the fixed length chain coexist, in step 714, the position information of the fixed length chain and the position of the variable length chain are stored. The similarity of the entire character string is calculated from the positional relationship of the information. This process will be described with a specific example. In this specific example, the search string "ASEAN member countries" and "member of ASEAN" are present in the document. "ASEAN" and "ASEA" are variable length chains.

【0293】かかる場合、文字連鎖ファイル302、位
置情報ファイル304の内容は、 文字連鎖ファイル 位置情報ファイル 1. ASEA 1-1 2. に加 1-5 3. 加盟 1-6 である。可変長連鎖検索文字列「ASEAN」に類似す
る可変長連鎖文書文字列「ASEA」は前述の方法で見
つけだされている。この文字列に対して、固定長連鎖に
おいて説明した方法と同様に、有効一致文字列の検出、
類似度の計算が行われる。
In such a case, the contents of the character chain file 302 and the position information file 304 are character chain file position information file 1. ASEA 1-1. 2 and addition 1-5. The variable length chained document character string "ASEA", which is similar to the variable length chained search character string "ASEAN", has been found by the method described above. For this character string, similar to the method explained in the fixed length chain, detection of valid matching character string,
Similarity calculation is performed.

【0294】(例 )(Example)

【表20】 [Table 20]

【0295】[0295]

【表21】 [Table 21]

【0296】似ている文字列 = "ASEAに加盟" 類似度 = minimum( 6 / 8 , 6 / 7 ) = 0.75Similar string = "Join ASEA" Similarity = minimum (6/8, 6/7) = 0.75

【0297】なお、類似度の計算において、可変長連鎖
のみを含む文字列の類似度計算で説明したように、可変
長連鎖の類似度計算の結果を文字列全体の類似度計算に
用いることもできる。 単純な類似度計算においては、
以下の式から類似度を算出することが可能となる。
In the calculation of the similarity, the result of the similarity calculation of the variable length chain may be used for the similarity calculation of the entire character string, as described in the similarity calculation of the character string including only the variable length chain. it can. In a simple similarity calculation,
The degree of similarity can be calculated from the following formula.

【数20】類似度 = (可変長連鎖1の文字数×可変
長連鎖1の一致度+ 固定長連鎖の有効一致文字列の文
字数+ デリミタの文字数) / 検索文字列の文字数
[Equation 20] Similarity == (number of characters in variable-length chain 1 × degree of matching in variable-length chain 1 + number of valid matching character strings in fixed-length chain + number of delimiter characters) / number of characters in search character string

【0298】従って、本実施例における検索文字列の類
似度は、(5×0.80+2+0)/8=0.75、文
書文字列の類似度は、(4×0.80+2+0)/7=
0.74となる。従って、検索文字列の類似度は、 類似度 = minimum( 0.75 , 0.74 ) = 0.74 となる。この類似度の計算において、可変長連鎖と、固
定長連鎖の重み付けを変えて計算することもできる。例
えば、
Therefore, the similarity of the search character string in this embodiment is (5 × 0.80 + 2 + 0) /8=0.75, and the similarity of the document character string is (4 × 0.80 + 2 + 0) / 7 =
It becomes 0.74. Therefore, the similarity of the search character string is similarity = minimum (0.75, 0.74) = 0.74. In the calculation of the degree of similarity, the variable-length chain and the fixed-length chain may be weighted differently. For example,

【数21】類似度 = (可変長連鎖1の文字数×可変
長連鎖1の一致度×0.5+ 固定長連鎖の有効一致文
字列の文字数+ デリミタの文字数×0.2)/ (検
索文字列中の可変長連鎖の文字数×0.5+ 検索文字
列中の固定長連鎖の文字数+ 検索文字列中のデリミタ
の文字数×0.2)
[Equation 21] Similarity degree = (number of characters of variable length chain 1 × degree of matching of variable length chain 1 × 0.5 + number of valid matching character strings of fixed length chain + number of delimiter characters × 0.2) / (search character string Number of characters in variable length chain in x + number of characters in fixed length chain in search character string + Number of delimiter characters in search character string x 0.2)

【0299】E9.検索式への応用 以上に説明した検索は一定の文字列を例とした検索であ
るが、これを検索式に応用した場合について説明する。
たとえば、 (理学部部長 OR 理学部主任) AND 就任決定 のような検索式(「理学部部長」または「理学部主任」
を含んでいて、しかも、「就任決定」を含む文書を探す
検索式)において、それぞれの検索文字列について検索
一致度を指定してあいまい検索をすることが考えられ
る。どの検索文字列についても80%以上の一致度で検索
した場合、たとえば次のような文書を見つけることがで
きる。 「理学部長」と「就任が決定」を含む文書 「理学部の主任」と「就任決定」を含む文書 また,見つかった文書を,探しているものに近い可能性
が高い順に並べる場合、検索の結果得られる一致度を手
がかりとすることが可能である。
E9. Application to Search Formula The search described above is a search using a fixed character string as an example, but a case where this is applied to a search formula will be described.
For example, a search formula such as (dean of science department OR chief of science department) AND appointed decision (“dean of science department” or “chief of science department”)
In addition, it is conceivable that a fuzzy search is performed by specifying a search matching degree for each search character string in a search expression that searches for a document that includes "and has the" appointment decision ". If you search 80% or more of all search strings, you can find the following documents. Documents containing "Dean of Science" and "Decision to take office" Documents containing "Chief of Science" and "Decision to take office" Also, if the documents found are arranged in the order that is likely to be close to what you are looking for, the search results The degree of agreement obtained can be used as a clue.

【0300】E10.索引の構造と"似ている文字列"の
検索の関係 Mの値を適当に定めることにより、"似ている文字列"を
探すあいまい検索は、本発明の索引の構造でかなり高速
に実現できる。
E10. Relationship between Index Structure and Search for "Similar String" By appropriately determining the value of M, the fuzzy search for "similar string" can be realized at a considerably high speed by the index structure of the present invention. .

【0301】定数N,Mの定め方 How to determine constants N and M

【表22】N: 索引に格納する文字連鎖の文字数 M: あいまい検索における有効一致文字列の最低長 L: あいまい検索において、"似ている文字列"中の非有
効一致文字列の最大長
[Table 22] N: Number of characters of character chain stored in index M: Minimum length of valid matching character string in fuzzy search L: Maximum length of non-valid matching character string in "similar character string" in fuzzy search

【0302】N、N'を大きくすると、文字連鎖の種類
数が増加し、文字連鎖1つあたりのデータ量は減少する
ので、検索はより速くなるが、索引ファイルの容量は増
加する。平均的な日本語・中国語・韓国語・英語の文書
では、N = 2、N'= 3 で充分な検索速度が得られ
る。
When N and N ′ are increased, the number of types of character chains increases, and the amount of data per character chain decreases, so the search becomes faster, but the index file capacity increases. For average Japanese / Chinese / Korean / English documents, N = 2 and N '= 3 provide sufficient search speed.

【0303】また、M≧N、M'≧N'となるようにM、
M'を定めれば、あいまい検索において充分な検索速度
が得られる。M、M'は小さいほど、きめ細かなあいま
い検索ができることから考えると、M=N、M'=N'とな
るように決めることがよいと思われる。
Further, M so that M ≧ N and M ′ ≧ N ′,
If M'is defined, sufficient search speed can be obtained in fuzzy search. Considering that the smaller M and M ′ are, the more detailed and ambiguous search can be performed, it may be better to determine M = N and M ′ = N ′.

【0304】E11.類似度決定の第2の実施例E11. Second Embodiment of Determining Similarity

【0305】第2の実施例の曖昧検索処理では特に、
「途中にはさまる不一致文字が多いほど似ていないと感
じる」ということと、「途中にはさまる不一致文字が多
すぎると一つの文字列とは感じられない」ということの
かねあいについて考慮される。文書中に入力文字列と一
致する文字列、不一致な文字列、一致する文字列の順に
並んでいた場合に、後者の一致文字列までを似ている文
字列として取りこむことによって、似ている度合いが下
がるのは不自然である。たとえば、入力文字列が「在宅
起訴」、文書1には「在宅のまま起訴」、文書2には
「在宅」とあった場合、 ”文書1は「在宅のまま起
訴」、文書2は「在宅」が似ている文字列であり、似て
いる度合いは「在宅」の方が高い”とするようなルール
は人間の感覚に反している。文書1が「起訴」というさ
らなる一致文字列があるがために、逆に低い評価を受け
るのは不自然である。「在宅のまま起訴」の似ている度
合いが「在宅」より高くなるか、あるいは、文書1の似
ている文字列は「在宅」と「起訴」の2つであると判断
されるかのどちらかが、自然である。
In the ambiguous search processing of the second embodiment,
A consideration is given to the fact that "the more mismatched characters that are trapped in the middle, the more dissimilar it feels" and "There are too many unmatched characters that are trapped in the middle to make us feel that it is not a single character string". If a document matches a character string that matches the input character string, a non-matching character string, and a matching character string in that order, the similarity is obtained by capturing the latter matching character string as a similar character string. It is unnatural for the to drop. For example, if the input character strings are “charged at home,” document 1 is “charged at home,” and document 2 is “charged at home,” document 1 is “charged at home,” and document 2 is “charged at home. Is a similar character string, and the degree of similarity is higher for "at home". This rule is contrary to human perception. On the contrary, it is unnatural to receive a low rating. Either the degree of similarity of “in-charge at home” is higher than “at-home”, or the similar character strings in document 1 are determined to be “at-home” and “indictment” But it is natural.

【0306】次に、第2の実施例の処理について説明す
る。図8のフローチャートを参照すると、この実施例で
は、ステップ602〜612までは同一であり、i+1番
目の有効一致文字列を検索するための条件を示すステッ
プ614の処理が次のように変更される。
Next, the processing of the second embodiment will be described. Referring to the flowchart of FIG. 8, in this embodiment, steps 602 to 612 are the same, and the processing of step 614 indicating the condition for searching the i + 1th valid matching character string is changed as follows. To be done.

【0307】[0307]

【数22】 s(C, i+1) > e(C, i) - (M - 1) ... (式1) s(D, i+1) > e(D, i) ... (式2) 且つ s(D, i+1) - e(D, i) - 1 + max(e(C, i) - s(C, i+1) + 1, 0) ≦ L ・・・ (式3)S (C, i + 1)> e (C, i)-(M-1) ... (Equation 1) s (D, i + 1)> e (D, i) ... (Equation 2) and s (D, i + 1)-e (D, i)-1 + max (e (C, i)-s (C, i + 1) + 1, 0) ≤ L ・ ・ ・(Formula 3)

【0308】尚、s(C, i)、e(C, i)、s(D, i)、s(D, i)
などの定義は、前述のとおりである。
It should be noted that s (C, i), e (C, i), s (D, i), s (D, i)
The definitions such as are as described above.

【0309】式1は、前述の「理学部部長」の「部」の
ような重複出現文字をM−1文字(まで許容し、それ以
外は入力文字列中での文字の順序と同じ順序で出現する
文字列を有効とすることを意味する。
Expression 1 allows duplicate occurrence characters up to M-1 characters (such as "section" of "Department of Science Department" above, and otherwise appears in the same order as the order of characters in the input character string). Means that the character string to be valid is valid.

【0310】式2は、文書中で有効一致文字列どうしが
重ならないことを意味する。
Expression 2 means that valid matching character strings do not overlap each other in the document.

【0311】式3は、間にはさまる不一致文字と「理学
部部長」の「部」のような重複出現文字を、あわせてL
文字まで許容することを意味する。
In the expression 3, the non-matching characters sandwiched between the characters and the duplicate occurrence character such as "section" of "Department of Science" are combined into L
It means that even letters are allowed.

【0312】この実施例では、前の実施例のように、検
索文字列と、文書中の似ている文字列の各々で、有効一
致文字列が占める割合を計算し、そのうちの小さい方を
類似度として選ぶのではなく、似ている文字列に点数を
つけて、満点(完全に一致している場合の点数)で割っ
て割合を出すことによって算出する。似ている文字列の
点数は、各文字に次の規則で点数をつけてそれを加算す
ることで算出する。従って、図8のステップ620での
処理は次のようになる。
In this embodiment, as in the previous embodiment, the ratio of valid matching character strings is calculated for each of the search character string and the similar character strings in the document, and the smaller one is calculated. Rather than selecting as a degree, calculate by scoring similar character strings and dividing by a perfect score (score in the case of perfect match) to obtain a ratio. The score of a similar character string is calculated by adding a score to each character according to the following rules and adding them. Therefore, the processing in step 620 of FIG. 8 is as follows.

【0313】 1番目の有効一致文字列に属する文字 ・・・ 1 点 i番目(i > 1)の有効一致文字列に属していて 検索文字列における位置≧e(C,i-1)+1 (式4) ・・・ 1 点 検索文字列における位置≦e(C,i-1) (式5) ・・・ -1/(2*L) 点 有効一致文字列に属していない文字 ・・・ -1 / L 点Character belonging to first valid matching character string: 1 point Position in search character string belonging to i-th (i> 1) valid matching character string ≧ e (C, i-1) +1 (Formula 4) ・ ・ ・ 1 point Position in search character string ≤ e (C, i-1) (Formula 5) ・ ・ ・ -1 / (2 * L) points Characters that do not belong to valid matching character string ・ ・・ -1 / L point

【0314】この実施例でも、i番目の似ている文字列
が決定している時、i+1番目の似ている文字列は、i
番目の似ている文字列の先頭の文字より後ろで、i番目
の似ている文字列を構成する有効一致文字列に属さない
最初の文字から比較を始めて決定する。
Also in this embodiment, when the i-th similar character string is determined, the i + 1-th similar character string is i
The comparison is determined starting from the first character after the first character of the second similar character string and not belonging to the valid matching character string forming the i-th similar character string.

【0315】有効一致文字列に属していない文字のマイ
ナス点は、「途中にはさまる不一致文字が多いほど似て
いないと感じる」ということと、「途中にはさまる不一
致文字が多すぎると一つの文字列とは感じられない」と
いうことのかねあいを考慮して設定している。一つの非
一致文字列のマイナス点の合計の最大は1 / L * L =1,
次の一致文字列を取り入れることによるプラス点の最小
はN ≧ 1 (特に日本語の場合は2が推奨されている)
でマイナス点がプラス点を上回ることがない。また、式
5は前述の「理学部部長」の「部」のような重複出現文
字を示し、式4は重複出現文字でない単純な一致文字を
示している。式5で表される文字には単純な非一致文字
より小さなマイナス点をつけることで、重複して文字が
あらわれる場合に対処している。
The minus point of the characters that do not belong to the valid matching character string is that "the more the number of non-matching characters trapped in the middle, the more dissimilar it feels", and the "there are too many non-matching characters trapped in the middle of one character string. It is set in consideration of the fact that "I can not feel it." The maximum of the sum of the negative points of one non-matching string is 1 / L * L = 1,
The minimum positive point by incorporating the following matching character string is N ≧ 1 (2 is recommended especially for Japanese)
Therefore, the negative point does not exceed the positive point. In addition, Expression 5 indicates a duplicate occurrence character such as “part” of the above-mentioned “Department of Science”, and Expression 4 indicates a simple matching character that is not a duplicate occurrence character. By adding a minus point smaller than that of a simple non-matching character to the character represented by Expression 5, it is possible to deal with the case where the character appears in duplicate.

【0316】E12.第2の実施例での似ている文字列
と似ている度合いの決定例 やはり、N = 2, L = 3 として例を示す。
E12. Example of Determining Similarity of Character String and Similarity in Second Embodiment An example will be shown again with N = 2 and L = 3.

【表23】 [Table 23]

【0317】最初の一致文字列は「アイ」だから1番目
の有効一致文字列は「アイ」
The first matching character string is "eye", so the first valid matching character string is "eye".

【数23】s(C,1) = 1 e(C,1) = 2 s(D,1) = 1 e(D,1) = 2S (C, 1) = 1 e (C, 1) = 2 s (D, 1) = 1 e (D, 1) = 2

【0318】式1、式2、式3により2番目の有効一致
文字列は「ビー」
The second valid matching character string is "B" according to Expression 1, Expression 2 and Expression 3.

【数24】s(C,2) = 3 e(C,2) = 4 s(D,2) = 4 e(D,2) = 5S (C, 2) = 3 e (C, 2) = 4 s (D, 2) = 4 e (D, 2) = 5

【0319】式1、式2、式3により3番目の有効一致
文字列「エム」
The third valid matching character string "M" according to Expression 1, Expression 2 and Expression 3

【数25】s(C,3) = 5 e(C,3) = 6 s(D,3) = 7 e(D,3) = 8S (C, 3) = 5 e (C, 3) = 6 s (D, 3) = 7 e (D, 3) = 8

【0320】入力文字列の最後に到達したので有効一致
文字列は3つとなる。
Since the end of the input character string has been reached, there are three valid matching character strings.

【表24】 [Table 24]

【0321】似ている文字列は s(D, 1) から e(D, 3)
までの「アイ・ビー・エム」。似ている度合い = (( 1
* 6 + (-1/3) * 2 ) / 6 ) = 0.88
Similar strings are from s (D, 1) to e (D, 3)
Up to "IBM". Degree of similarity = ((1
* 6 + (-1/3) * 2) / 6) = 0.88

【0322】[0322]

【表25】 [Table 25]

【0323】[0323]

【表26】 似ている文字列 = "ソフト開発メーカー" 似ている度合い = ( ( 1 * 7 + (-1/3) * 2 ) / 10 ) =
0.63
[Table 26] Similar string = "Software developer" Similarity = ((1 * 7 + (-1/3) * 2) / 10) =
0.63

【0324】[0324]

【表27】 [Table 27]

【0325】最初の一致文字列は「在宅」だから1番目
の有効一致文字列は「在宅」次の一致文字列「起訴」は
式3を満たさないので、有効一致文字列は1番目のみと
なる。
Since the first matching character string is "at home", the first valid matching character string is "at home", and the next matching character string "prosecution" does not satisfy the expression 3, so the only valid matching character string is the first. .

【表28】 [Table 28]

【0326】似ている文字列は「在宅」。似ている度合
い = 2 / 4 = 0.5
A similar character string is “at home”. Similarity = 2/4 = 0.5

【0327】「在」より後ろで最初の非有効一致文字は
「の」。2番目の似ている文字列は、「の」から後ろで
探す。
The first non-valid matching character after "present" is "no". The second similar string is searched after "no".

【0328】[0328]

【表29】 [Table 29]

【0329】従って、2番目の似ている文字列は、「起
訴」。
Therefore, the second similar character string is "prosecution".

【0330】[0330]

【表30】 [Table 30]

【0331】有効一致文字列は「理学部」、「部長に就
任」の2つ。
There are two valid matching character strings: "Faculty of Science" and "Appointed as Director".

【0332】[0332]

【表31】 [Table 31]

【0333】似ている文字列は「理学部部長に就任」。
2つ目の「部」は式5を満たしている。そこで、似てい
る度合い = (( 1 * 7 + (-1/6) * 1 ) / 7 ) = 0.97
となる。
A similar character string is "Appointed as Dean of Faculty of Science."
The second “part” satisfies Expression 5. So the degree of similarity = ((1 * 7 + (-1/6) * 1) / 7) = 0.97
Becomes

【0334】E13.第2の実施例の結果のまとめE13. Summary of the results of the second example

【表32】 入力文字列 文書中 類似度 ===================================================== ソフトメーカー ソフトのメーカー 0.95 ソフトの開発メーカー 0.85 政治資金規正法案 政治資金規正法 0.87 政治資金 0.50 理学部長に就任 理学部部長に就任 0.97 理学部の長に就任 0.95[Table 32] Input string similarity in document ======================================== ============== Software Maker Software Maker 0.95 Software Development Maker 0.85 Political Funds Control Law 0.85 Political Funds Control Law 0.87 Political Funds 0.50 Appointed as Dean of Science Department 0.97 Appointed as Dean of Science Department 0.97 Inauguration 0.95

【0335】本発明の好適な実施例において、第2の実
施例の曖昧検索処理を固定長連鎖の類似度計算において
説明したが、これを可変長連鎖を含む文字列に応用する
ことは当業者に容易に理解できる事項であろう。
In the preferred embodiment of the present invention, the fuzzy search process of the second embodiment is described in the similarity calculation of a fixed length chain, but it can be applied to a character string including a variable length chain by those skilled in the art. It will be easy to understand.

【0336】[0336]

【発明の効果】以上説明したように、この発明によれ
ば、ユーザの漠然とした文書検索の要求に対応して、文
書検索を行うことができる。また、本発明によれば、語
彙情報・文法情報を使わずに、特徴文字列を抽出する文
字列検索技法が提供されるため、語彙情報・文法情報の
メンテナンスは不要であり、新語やフレーズに常に対応
できる検索システムを提供できる。さらに本発明によれ
ば、相対的かつ流動的に特徴文字列を抽出する文字列検
索技法が提供されるため、特殊な種類の文書から、似た
ような特徴文字列ではなく、入力文書に、ユニークな特
徴文字列を抽出することができるという効果が得られ
る。
As described above, according to the present invention, it is possible to perform a document search in response to a vague document search request of a user. Further, according to the present invention, since a character string search technique for extracting a characteristic character string is provided without using vocabulary information / grammar information, maintenance of the vocabulary information / grammar information is unnecessary, and a new word or phrase can be written. We can provide a search system that is always available. Further, according to the present invention, since a character string search technique for extracting characteristic character strings in a relative and fluid manner is provided, a special type of document is input into an input document instead of a similar characteristic character string. The effect that a unique characteristic character string can be extracted is obtained.

【0337】[0337]

【図面の簡単な説明】[Brief description of drawings]

【図1】 ハードウェア構成を示すブロック図である。FIG. 1 is a block diagram showing a hardware configuration.

【図2】 処理要素のブロック図である。FIG. 2 is a block diagram of a processing element.

【図3】 索引ファイルの構造を示す図である。FIG. 3 is a diagram showing a structure of an index file.

【図4】 索引ファイルの構造を示す図である。FIG. 4 is a diagram showing a structure of an index file.

【図5】 索引ファイル作成処理を示すフローチャート
である。
FIG. 5 is a flowchart showing an index file creation process.

【図6】 索引ファイル作成処理を示すフローチャート
である。
FIG. 6 is a flowchart showing an index file creation process.

【図7】 索引ファイルを使用した文字列検索処理のフ
ローチャートである。
FIG. 7 is a flowchart of a character string search process using an index file.

【図8】 索引ファイルを使用した曖昧検索処理のフロ
ーチャートである。
FIG. 8 is a flowchart of a fuzzy search process using an index file.

【図9】 索引ファイルを使用した曖昧検索処理のフロ
ーチャートである。
FIG. 9 is a flowchart of a fuzzy search process using an index file.

【図10】入力文書からの特徴文字列の抽出を使用した
検索処理のフローチャートである。
FIG. 10 is a flowchart of a search process using extraction of a characteristic character string from an input document.

【図11】本発明の好適な実施例におけるユーザインタ
ーフェースを示す図である。
FIG. 11 is a diagram showing a user interface in a preferred embodiment of the present invention.

【図12】本発明の好適な実施例におけるユーザインタ
ーフェースを示す図である。
FIG. 12 is a diagram showing a user interface in a preferred embodiment of the present invention.

【図13】本発明の好適な実施例におけるユーザインタ
ーフェースを示す図である。
FIG. 13 is a diagram showing a user interface in a preferred embodiment of the present invention.

【図14】本発明の好適な実施例におけるユーザインタ
ーフェースを示す図である。
FIG. 14 is a diagram showing a user interface in a preferred embodiment of the present invention.

【図15】本発明の好適な実施例におけるユーザインタ
ーフェースを示す図である。
FIG. 15 is a diagram showing a user interface in a preferred embodiment of the present invention.

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】記憶媒体に格納された比較文書を検索でき
るコンピュータ・システムにおいて、前記コンピュータ
・システムに入力された入力文書に含まれる特徴文字列
を特定する方法であって、(a) 前記比較文書から抽出さ
れた部分比較文書文字列が存在する前記比較文書中の位
置情報を前記部分比較文書文字列と関連付けて管理する
段階と、(b) 前記入力文書から、部分入力文字列を抽出
して、候補文字列とする段階と、(c) 前記候補文字列の
一部と、一定の類似度以上で一致する部分比較文書文字
列を特定する段階と、(d) 前記一定の類似度以上で一致
する部分比較文書文字列に関連付けられた位置情報を特
定する段階と、(e) 前記候補文字列の一部が前記入力文
書中に出現する出現頻度情報と、前記位置情報を対比し
て、前記候補文字列の特徴量を評価することにより前記
候補文字列を特徴文字列と認定する段階と、 を含む方法。
1. A computer system capable of retrieving a comparison document stored in a storage medium, which is a method for specifying a characteristic character string included in an input document input to the computer system, comprising: (a) the comparison. Managing the position information in the comparison document in which the partial comparison document character string extracted from the document exists in association with the partial comparison document character string, and (b) extracting the partial input character string from the input document. A candidate character string, (c) specifying a partial comparison document character string that matches a part of the candidate character string with a certain degree of similarity or more, and (d) has a certain degree of similarity or more. In the step of identifying the position information associated with the partial comparison document character string that matches with, (e) the appearance frequency information in which a part of the candidate character string appears in the input document, and the position information are compared. , The characteristics of the candidate character string Method comprising the steps of certified characterized string the candidate character string by evaluating the amount.
【請求項2】コンピュータによって検索可能に記憶され
ている複数の被検索文書の中から、前記コンピュータに
入力された入力文書に存在する部分入力文字列に類似す
る文字列を有している被検索文書を探索する方法であっ
て、(a) 前記入力文書から、部分文字列を抽出して、候
補文字列とする段階と、(b) 前記候補文字列の一部が前
記入力文書中に出現する出現頻度情報と、前記候補文字
列の一部が前記比較文書中に出現する出現頻度情報の対
比から、前記候補文字列の特徴量を評価することにより
前記候補文字列を特徴文字列と認定する段階と、(c) 前
記特徴文字列に類似する文字列を有している被検索文書
を前記複数の被検索文書から探索する段階と、 を含む方法。
2. A search target having a character string similar to a partial input character string existing in an input document input to the computer from among a plurality of search target documents stored so as to be searchable by a computer. A method for searching a document, comprising the steps of: (a) extracting a partial character string from the input document to make a candidate character string; and (b) a part of the candidate character string appearing in the input document. The candidate character string is identified as a characteristic character string by evaluating the characteristic amount of the candidate character string from the comparison between the appearance frequency information and the appearance frequency information in which a part of the candidate character string appears in the comparison document. And (c) searching the searched documents having a character string similar to the characteristic string from the plurality of searched documents.
【請求項3】記憶媒体に格納された比較文書を検索でき
るコンピュータ・システムにおいて、前記コンピュータ
・システムに入力された入力文書に含まれる特徴文字列
を特定する方法であって、(a) 前記入力文書から、部分
文字列を抽出して、候補文字列とする段階と、(b) 前記
候補文字列の一部が前記入力文書中に出現する出現頻度
情報と、前記候補文字列の一部が前記比較文書中に出現
する出現頻度情報の対比から、前記候補文字列の特徴量
を評価することにより前記候補文字列を特徴文字列と認
定する段階と、 を含む方法。
3. A computer system capable of retrieving a comparison document stored in a storage medium, which is a method for specifying a characteristic character string included in an input document input to the computer system, comprising: (a) the input From the document, extracting a partial character string, a step of making a candidate character string, (b) appearance frequency information that part of the candidate character string appears in the input document, and a part of the candidate character string Recognizing the candidate character string as a characteristic character string by evaluating the characteristic amount of the candidate character string from the comparison of the appearance frequency information that appears in the comparison document.
【請求項4】記憶媒体に格納された比較文書を検索でき
るコンピュータ・システムにおいて、前記比較文書と前
記コンピュータ・システムに入力された第1の特徴文字
列と第2の特徴文字列を含む入力文書との類似性を評価
する方法であって、(a) 前記第1の特徴文字列の一部が
前記入力文書中で出現する出現頻度情報から前記第1の
特徴文字列に対応した第1の重み値を算出する段階と、
(b) 前記第2の特徴文字列の一部が前記入力文書中で出
現する出現頻度情報から前記第2の特徴文字列に対応し
た第2の重み値を算出する段階と、(c) 前記第1特徴文
字列の一部が前記比較文書中に出現する第1の出現頻度
値を計算する段階と、(d) 前記第2特徴文字列の一部が
前記比較文書中に出現する第2の出現頻度値を計算する
段階と、(e) 前記第1の重み値を考慮した第1の出現頻
度値と、前記第2の重み値を考慮した第2の出現頻度値
から、前記比較文書の類似度を算出する段階と、 を含む方法。
4. A computer system capable of retrieving a comparative document stored in a storage medium, the input document including the first characteristic character string and the second characteristic character string input to the comparative document and the computer system. Is a method of evaluating the similarity to the first feature character string from the appearance frequency information in which a part of the first feature character string appears in the input document. Calculating a weight value,
(b) calculating a second weight value corresponding to the second characteristic character string from appearance frequency information in which a part of the second characteristic character string appears in the input document, and (c) the Calculating a first appearance frequency value in which a part of the first characteristic character string appears in the comparison document; and (d) a second appearance of a part of the second characteristic character string in the comparison document. Calculating the appearance frequency value of the comparison document from the first appearance frequency value considering the first weight value and the second appearance frequency value considering the second weight value. Calculating the degree of similarity of the method.
【請求項5】記憶媒体に格納された比較文書を検索でき
るコンピュータ・システムにおいて、前記比較文書と前
記コンピュータ・システムに入力された特徴文字列を含
む入力文書との類似性を評価する方法であって、(a) 前
記特徴文字列の一部が前記入力文書中で出現する出現頻
度情報から前記特徴文字列に対応した重み値を算出する
手段と、(b) 前記特徴文字列の一部が前記比較文書中に
出現する出現頻度情報と前記重み値から、前記比較文書
の類似度を算出する手段と、 を含む方法。
5. A method for evaluating the similarity between a comparative document and an input document including a characteristic character string input to the computer system, in a computer system capable of searching a comparative document stored in a storage medium. (A) means for calculating a weight value corresponding to the feature character string from appearance frequency information in which a part of the feature character string appears in the input document, and (b) a part of the feature character string Means for calculating the similarity of the comparison document from the appearance frequency information that appears in the comparison document and the weight value.
【請求項6】コンピュータによって検索可能に記憶され
た比較文書を含むコンピュータ・システムにおいて、前
記コンピュータに入力された入力文書に含まれる特徴文
字列を特定する装置であって、(a) 前記比較文書から抽
出された部分比較文書文字列が存在する前記比較文書中
の位置情報を前記部分比較文書文字列と関連付けて管理
する一情報ファイルを格納する記憶装置と、(b) 前記入
力文書から、候補文字列を抽出する手段と、(c) 前記候
補文字列の一部と、一定の類似度以上で一致する部分比
較文書文字列を特定する手段と、(d) 前記位置情報ファ
イルにおいて、前記一定の類似度以上で一致する部分比
較文書文字列に関連付けられた位置情報を特定する手段
と、(e) 前記候補文字列の一部が前記入力文書中に出現
する出現頻度情報と、前記位置情報を対比して、前記候
補文字列の特徴量を評価することにより前記候補文字列
を特徴文字列と認定する手段と、 を含む装置。
6. A computer system including a comparison document stored so as to be searchable by a computer, which is an apparatus for specifying a characteristic character string included in an input document input to the computer, comprising: (a) the comparison document. A storage device that stores one information file that manages position information in the comparison document in which the partial comparison document character string extracted from exists in association with the partial comparison document character string, and (b) from the input document, a candidate A unit for extracting a character string; (c) a unit for identifying a partial comparison document character string that matches a part of the candidate character string with a certain degree of similarity or more; Means for identifying position information associated with a partial comparison document character string that matches at a degree of similarity or more, and (e) appearance frequency information in which a part of the candidate character string appears in the input document, and By comparing the position information, apparatus and means for Certification characterized string the candidate character string by evaluating the feature quantity of the candidate character strings.
【請求項7】コンピュータによって検索可能に記憶され
た複数の被検索文書の中から、前記コンピュータに入力
された入力文書に存在する部分入力文字列に類似する文
字列を有している被検索文書を探索する装置であって、
(a) 前記入力文書を特定し、検索の実行を指示するため
の入力装置と、(b) 前記入力装置から、前記入力文書が
特定されたこと、前記検索の指示が入力されたことを検
出する手段と、(c) 前記入力文書が特定されたこと、前
記検索の指示が入力されたことの検出に応答して、前記
入力文書から候補文字列を抽出する手段と、(d) 前記候
補文字列の一部が前記入力文書中に出現する出現頻度情
報と、前記候補文字列の一部が前記比較文書中に出現す
る出現頻度情報の対比から、前記候補文字列の特徴量を
計算する手段と、(e) 前記特徴量を評価することにより
前記候補文字列を特徴文字列と認定する手段と、(f) 前
記特徴文字列に類似する文字列を有している被検索文書
を前記複数の被検索文書から探索する手段と、(g) 前記
特徴文字列に類似する文字列を有している被検索文書を
表示するための表示装置と、 を含む装置。
7. A search target document having a character string similar to a partial input character string existing in an input document input to the computer from among a plurality of search target documents stored so as to be searchable by a computer. A device for searching for
(a) an input device for specifying the input document and instructing execution of a search; and (b) detecting that the input document has been specified and the search instruction has been input from the input device. And (c) means for extracting a candidate character string from the input document in response to detection that the input document has been identified and the search instruction has been input, and (d) the candidate The feature amount of the candidate character string is calculated from the comparison between the appearance frequency information in which a part of the character string appears in the input document and the appearance frequency information in which a part of the candidate character string appears in the comparison document. Means, (e) means for recognizing the candidate character string as a characteristic character string by evaluating the characteristic amount, and (f) a searched document having a character string similar to the characteristic character string, Means for searching from a plurality of searched documents, and (g) a character string similar to the characteristic character string A display device for displaying a searched document having a.
【請求項8】コンピュータによって検索可能に記憶され
た比較文書を含むコンピュータ・システムにおいて、前
記コンピュータに入力された入力文書に含まれる特徴文
字列を特定する装置であって、(a) 前記入力文書から候
補文字列を抽出する手段と、(b) 前記候補文字列の一部
が前記入力文書中に出現する出現頻度情報と、前記候補
文字列の一部が前記比較文書中に出現する出現頻度情報
の対比から、前記候補文字列の特徴量を評価することに
より前記候補文字列を特徴文字列と認定する手段と、 を含む装置。
8. A computer system including a comparison document stored so as to be searchable by a computer, which is an apparatus for specifying a characteristic character string included in an input document input to the computer, the apparatus comprising: (a) the input document. Means for extracting a candidate character string from, (b) appearance frequency information in which a part of the candidate character string appears in the input document, and an appearance frequency in which a part of the candidate character string appears in the comparison document A means for recognizing the candidate character string as a characteristic character string by evaluating the characteristic amount of the candidate character string from the comparison of information.
【請求項9】コンピュータによって検索可能に記憶され
た比較文書を含むコンピュータ・システムにおいて、前
記比較文書と前記コンピュータに入力された特徴文字列
を含む入力文書との類似性を評価する装置であって、
(a) 前記特徴文字列の一部が前記入力文書中で出現する
出現頻度情報から前記特徴文字列に対応した重み値を算
出する手段と、(b) 前記特徴文字列の一部が前記比較文
書中に出現する出現頻度情報と前記重み値から、前記比
較文書の類似度を算出する手段と、 を含む装置。
9. A computer system including a comparison document stored so as to be searchable by a computer, wherein the comparison document and the input document including the characteristic character string input to the computer are evaluated. ,
(a) means for calculating a weight value corresponding to the characteristic character string from appearance frequency information in which a portion of the characteristic character string appears in the input document, and (b) a portion of the characteristic character string is compared A device for calculating the similarity of the comparative document from the appearance frequency information appearing in the document and the weight value.
【請求項10】コンピュータによって検索可能に記憶さ
れた比較文書を含むコンピュータ・システムにおいて、
前記コンピュータに入力された入力文書に含まれる特徴
文字列を特定するためのプログラムを格納するコンピュ
ータによって読み取り可能な記憶媒体であって、 該プログラムは、(a) 前記入力文書から、部分文字列を
抽出して、候補文字列とすることを前記コンピュータに
指示するプログラムコード手段と、(b) 前記候補文字列
の一部が前記入力文書中に出現する出現頻度情報と、前
記候補文字列の一部が前記比較文書中に出現する出現頻
度情報の対比から、前記候補文字列の特徴量を評価する
ことにより前記候補文字列を特徴文字列と認定すること
を前記コンピュータに指示するプログラムコード手段
と、 を含む記憶媒体。
10. A computer system including a comparison document retrievably stored by a computer, comprising:
A computer-readable storage medium that stores a program for specifying a characteristic character string included in an input document input to the computer, the program comprising: (a) a partial character string from the input document. Program code means for instructing the computer to extract the candidate character string, (b) appearance frequency information in which a part of the candidate character string appears in the input document, and one of the candidate character strings Program code means for instructing the computer to recognize the candidate character string as a characteristic character string by evaluating the characteristic amount of the candidate character string from the comparison of the appearance frequency information that appears in the comparison document. , A storage medium including.
【請求項11】コンピュータによって検索可能に記憶さ
れた比較文書を含むコンピュータ・システムにおいて、
前記比較文書と前記コンピュータに入力された特徴文字
列を含む入力文書との類似性を評価するためのプログラ
ムを格納するコンピュータによって読み取り可能な記憶
媒体であって、 該プログラムは、(a) 前記特徴文字列の一部が前記入力
文書中で出現する出現頻度情報から前記特徴文字列に対
応した重み値を算出することを前記コンピュータに指示
するプログラムコード手段と、(b) 前記特徴文字列の一
部が前記比較文書中に出現する出現頻度情報と前記重み
値から、前記比較文書の類似度を算出することを前記コ
ンピュータに指示するプログラムコード手段と、 を含む記憶媒体。
11. A computer system including a comparison document retrievably stored by a computer, comprising:
A computer-readable storage medium that stores a program for evaluating the similarity between the comparison document and an input document including a characteristic character string input to the computer, the program comprising: (a) the characteristic Program code means for instructing the computer to calculate a weight value corresponding to the characteristic character string from appearance frequency information in which a part of the character string appears in the input document, and (b) one of the characteristic character strings And a program code means for instructing the computer to calculate the similarity of the comparison document from the appearance frequency information that appears in the comparison document and the weight value.
JP8095704A 1996-04-17 1996-04-17 Information retrieving method, information retrieving device and storage medium for storing information retrieving program Pending JPH09293078A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8095704A JPH09293078A (en) 1996-04-17 1996-04-17 Information retrieving method, information retrieving device and storage medium for storing information retrieving program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8095704A JPH09293078A (en) 1996-04-17 1996-04-17 Information retrieving method, information retrieving device and storage medium for storing information retrieving program

Publications (1)

Publication Number Publication Date
JPH09293078A true JPH09293078A (en) 1997-11-11

Family

ID=14144900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8095704A Pending JPH09293078A (en) 1996-04-17 1996-04-17 Information retrieving method, information retrieving device and storage medium for storing information retrieving program

Country Status (1)

Country Link
JP (1) JPH09293078A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143902A (en) * 1997-11-11 1999-05-28 Hitachi Ltd Similar document retrieval method using n-gram
JP2001125915A (en) * 1999-10-28 2001-05-11 Fujitsu Ltd Information retrieving device
JP2004110835A (en) * 2002-09-19 2004-04-08 Microsoft Corp Method and system for retrieving confirmation text
JP2009086944A (en) * 2007-09-28 2009-04-23 Fuji Xerox Co Ltd Information processor and information processing program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143902A (en) * 1997-11-11 1999-05-28 Hitachi Ltd Similar document retrieval method using n-gram
JP2001125915A (en) * 1999-10-28 2001-05-11 Fujitsu Ltd Information retrieving device
JP2004110835A (en) * 2002-09-19 2004-04-08 Microsoft Corp Method and system for retrieving confirmation text
US7974963B2 (en) 2002-09-19 2011-07-05 Joseph R. Kelly Method and system for retrieving confirming sentences
JP2009086944A (en) * 2007-09-28 2009-04-23 Fuji Xerox Co Ltd Information processor and information processing program

Similar Documents

Publication Publication Date Title
JP3113814B2 (en) Information search method and information search device
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
JP3160201B2 (en) Information retrieval method and information retrieval device
US8606796B2 (en) Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files
CN109213925B (en) Legal text searching method
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
JP4595692B2 (en) Time-series document aggregation method and apparatus, program, and storage medium storing program
JPH03172966A (en) Similar document retrieving device
CN113886604A (en) Job knowledge map generation method and system
JP2669601B2 (en) Information retrieval method and system
CN110321561A (en) A kind of keyword extracting method and device
CN114064851A (en) Multi-machine retrieval method and system for government office documents
CN105786971B (en) A kind of grammer point recognition methods towards international Chinese teaching
Shi et al. Mining chinese reviews
JP3654850B2 (en) Information retrieval system
CN111259645A (en) Referee document structuring method and device
JPH1049543A (en) Document retrieval device
JPH09293078A (en) Information retrieving method, information retrieving device and storage medium for storing information retrieving program
JPH09293079A (en) Information retrieving method, information retrieving device and storage medium for storing information retrieving program
JP2002278982A (en) Information extracting method and information retrieving method
JP4783563B2 (en) Index generation program, search program, index generation method, search method, index generation device, and search device
JPH09319767A (en) Synonym dictionary registering method
JP2009217406A (en) Document retrieval device, method, and program
TWI595371B (en) Legal information search system,? search processing method and computer readable media recorder
JP2732661B2 (en) Text type database device