JPH06162092A - Information retrieval device - Google Patents

Information retrieval device

Info

Publication number
JPH06162092A
JPH06162092A JP4308355A JP30835592A JPH06162092A JP H06162092 A JPH06162092 A JP H06162092A JP 4308355 A JP4308355 A JP 4308355A JP 30835592 A JP30835592 A JP 30835592A JP H06162092 A JPH06162092 A JP H06162092A
Authority
JP
Japan
Prior art keywords
word
index
character
text
heading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4308355A
Other languages
Japanese (ja)
Inventor
Hide Fuji
秀 富士
Toshihiro Kakimoto
俊博 柿元
Makoto Yoshioka
誠 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP4308355A priority Critical patent/JPH06162092A/en
Publication of JPH06162092A publication Critical patent/JPH06162092A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To reduce the labor of maintenance of dictionary, to reduce index capacity and to retrieve text data by retrieving the corresponding character string from a text by means of n-character index and word index. CONSTITUTION:A word division processing section 6 divides the text into words and a word index preparation section 8 prepares the word index 3 linking the text while taking the word as a word index. An n-character index preparation section 9 prepares an n-character index 4 to be linked from an n-character index taken out from the start on the word index. In this case, an unregistered word processing section 7 makes a word index on the character string unregistered in a word dictionary 12 in a batch based on the character information. According to the retrieval direction with a keyword specified, the corresponding word index of a word index 3 to be linked is found from the n-character from the corresponding n-character index of an n-character index 4. Then the corresponding character string in the text 2 is retrieved and outputted.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文書の検索を行う情報
検索装置に関するものである。近年、多量の電子化文書
が出回るようになるにつれ、これらの文書の中から必要
な情報を取り出す検索技術が必要となってきている。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information retrieval device for retrieving documents. In recent years, as a large amount of electronic documents have become available, a search technique for extracting necessary information from these documents is required.

【0002】検索は、インデックスファイルを持つこと
によって高速化できる。このインデックスファイルを最
小化することが検索システムを構築する上で要求されて
いる。また、一方、インデックスファイルに入っている
文字列かどうかにかかわらず、どんな文字列でも検索し
たいという要求がある。これらの際に、単語辞書などの
整備作業が少ないことも要求されている。
Searches can be sped up by having an index file. Minimizing this index file is required to build a search system. On the other hand, there is a demand to search for any character string regardless of whether or not the character string is contained in the index file. In these cases, it is also required that there is little maintenance work on word dictionaries.

【0003】[0003]

【従来の技術】従来、文書中の単語などを検索する手法
として以下が用いられていた。 (1) 形態素解析を利用したキーワードインデックス
法:これは、文書を形態素解析して抽出したキーワード
に対してインデックスを付けるので、インデックスファ
イルが小さくて済む。また、各キーワードは辞書属性な
どを持っているので、単語の知識を利用した処理が可能
となる。しかし、単語辞書を整備する必要がある。ま
た、未登録語抽出に失敗すると、この未登録語の文字列
が検索できなくなる。
2. Description of the Related Art Conventionally, the following has been used as a method for searching a word in a document. (1) Keyword index method using morphological analysis: This is because a keyword extracted by performing morphological analysis on a document is indexed, so that an index file can be small. Moreover, since each keyword has a dictionary attribute or the like, it is possible to perform processing using knowledge of words. However, it is necessary to maintain a word dictionary. Further, if the unregistered word extraction fails, the character string of this unregistered word cannot be searched.

【0004】(2) n文字インデックス法:文書の全
ての文字に対してインデックスを付けるので、辞書など
の単語の知識が必要なく、結果として辞書メンテナンス
のコストが削減できる。また、出現する文字列全てが検
索対象となるので検索もれがない。しかし、インデック
スの量が膨大になる。
(2) n-character index method: Since all characters in a document are indexed, knowledge of words in a dictionary or the like is not required, and as a result, dictionary maintenance costs can be reduced. Further, since all the appearing character strings are the search targets, there is no omission in the search. However, the amount of indexes becomes huge.

【0005】[0005]

【発明が解決しようとする課題】上述した(1)の単語
辞書を利用した形態素解析をベースにしたキーワードイ
ンデックス法は、精度を保つためには単語辞書の整備を
行う必要があり、その労力が大変であるという問題があ
る。また、上述した(2)のn文字インデックス法によ
りn文字単位の転置ファイル(例えば1文字単位)を作
成したのでは、インデックスの量が増加して、元のテキ
ストよりも大きくなり、インデックス容量が膨大となっ
てしまう問題がある。
The keyword index method based on the morphological analysis using the word dictionary of (1) described above requires maintenance of the word dictionary in order to maintain accuracy, and the labor thereof is great. There is a problem that it is difficult. In addition, if a transposed file in units of n characters (for example, in units of 1 character) is created by the n-character index method of (2) described above, the amount of index increases and becomes larger than the original text. There is a huge problem.

【0006】本発明は、これらの問題を解決するため、
辞書のメンテナンスの労力を省き、インデックス容量を
削減してテキストデータの検索を可能にすることを目的
としている。
The present invention solves these problems.
The purpose is to reduce the maintenance work of the dictionary, reduce the index capacity, and enable text data search.

【0007】[0007]

【課題を解決するための手段】図1および図2を参照し
て課題を解決するための手段を説明する。図1および図
2において、語分割処理部6は、テキストを語分割して
単語にするものである。
Means for solving the problems will be described with reference to FIGS. 1 and 2. FIG. 1 and 2, the word division processing unit 6 divides the text into words to form words.

【0008】未登録語処理部7は、単語辞書12に登録
されていない文字列について、文字種情報などでまとめ
るものである。単語インデックス作成部8は、テキスト
を分割した単語を単語見出しとしてテキストの該当する
位置をリンクする単語インデックス3を作成するもので
ある。
The unregistered word processing unit 7 collects character strings not registered in the word dictionary 12 by character type information or the like. The word index creation unit 8 creates a word index 3 that links a corresponding position in the text with the word obtained by dividing the text as a word heading.

【0009】n文字インデックス作成部9は、単語イン
デックス3の単語見出しについて、先頭などから取り出
したn文字見出しからリンクするn文字インデックス4
を作成するものである。
The n-character index creation unit 9 links the word index of the word index 3 with the n-character index 4 that is linked from the n-character index extracted from the beginning or the like.
Is to create.

【0010】[0010]

【作用】本発明は、図1および図2に示すように、語分
割処理部6がテキストを語分割して単語にし、単語イン
デックス作成部8がこの単語を単語見出しとしてテキス
トをリンクする単語インデックス3を作成し、n文字イ
ンデックス作成部9がこれらの単語見出しについて、先
頭などから取り出したn文字見出しからリンクするn文
字インデックス4を作成するようにしている。この際、
未登録語処理部7が単語辞書12に登録されていない文
字列について、文字種情報をもとにまとめて単語見出し
とするようにしている。
According to the present invention, as shown in FIGS. 1 and 2, the word division processing unit 6 divides the text into words, and the word index creation unit 8 links the texts using the words as word headings. 3 is created, and the n-character index creating unit 9 creates an n-character index 4 that links these word headings from the n-character headings extracted from the beginning or the like. On this occasion,
The unregistered word processing unit 7 collects the character strings that are not registered in the word dictionary 12 based on the character type information to form a word heading.

【0011】また、キーワードを指定した検索指示に対
応して、n文字インデックス4の該当するn文字見出し
からリンクする単語インデックス3の該当する単語見出
しを見つけ、これからリンクからテキスト2中の該当す
る文字列を検索して出力するようにしている。
Further, in response to the search instruction specifying the keyword, the corresponding word heading of the word index 3 to be linked is found from the corresponding n character heading of the n character index 4, and from this link the corresponding character in the text 2 is searched. I am trying to search for a column and output it.

【0012】これらの際に、n文字インデックス4とし
て、1文字インデックスとするようにしている。従っ
て、n文字インデックス4および単語インデックス3を
利用してテキスト2から該当する文字列を検索すること
により、単語辞書12のメンテナンスの労力を省き、イ
ンデックス容量を削減してテキストデータの検索を行う
ことが可能となる。特に、単語インデックス3を作成し
たことによって、単語辞書12に登録されている単語
(2文字、3文字、4文字など)および文字種情報でま
とめた未登録語にインデックスを付与でき、インデック
ス量を削減できる。また、この単語インデックス3の単
語見出しについて、n文字インデックス4、特に1文字
インデックスからリンクすることにより、デキスト中の
文字列の取りこぼしを無くすことが可能となる。
In these cases, the n-character index 4 is a 1-character index. Therefore, by searching the corresponding character string from the text 2 using the n-character index 4 and the word index 3, the maintenance work of the word dictionary 12 can be saved and the index capacity can be reduced to search the text data. Is possible. In particular, by creating the word index 3, it is possible to add an index to a word (2 characters, 3 characters, 4 characters, etc.) registered in the word dictionary 12 and an unregistered word collected by character type information, and reduce the index amount. it can. Also, by linking the word heading of this word index 3 from the n-character index 4, especially the 1-character index, it becomes possible to eliminate the omission of the character string in the text.

【0013】[0013]

【実施例】次に、図1から図3を用いて本発明の実施例
の構成および動作を順次詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, the construction and operation of an embodiment of the present invention will be described in detail with reference to FIGS.

【0014】図1は、本発明の1実施例構成図を示す。
図1において、テキストデータ1は、検索対象のテキス
トデータであって、複数のテキスト2を格納したもので
ある。
FIG. 1 shows a block diagram of an embodiment of the present invention.
In FIG. 1, text data 1 is text data to be searched and stores a plurality of texts 2.

【0015】単語インデックス3は、単語見出しおよび
リンクの複数の組から構成され、テキスト2を語分割し
た単語および文字種情報でまとめた未登録語を単語見出
しとし、この単語見出しからテキスト2中の該当する文
字列をリンクしたものである。例えば図示のように、 単語見出し リンク “情報” テキスト2の該当する文字列“情報”へのリンク といように、単語見出し“情報”についてテキスト2中
の該当する文字列“情報”へのリンク(ポインタ)を設
定する。
The word index 3 is composed of a plurality of sets of word headings and links, and a word heading is an unregistered word obtained by dividing the text 2 into words and character type information. It is a linked string of characters. For example, as shown in the figure, the word heading link “information” is a link to the corresponding character string “information” in the text 2, and the word heading “information” is a link to the corresponding character string “information” in the text 2 ( Pointer).

【0016】n文字インデックス4は、単語インデック
ス3の単語見出しの先頭など(例えば先頭あるいは全
体)からn文字を取り出してn文字見出しとし、このn
文字見出しから該当する単語をリンクするようにしたも
のである。例えば図示のように、 n文字見出し リンク 情 “情報”へのリンク、“情勢”へのリンク “情報検索”へのリンク というように、n文字見出し、ここでは、1文字見出し
“情”について単語インデックス3中の該当する文字列
“情報”、“情勢”、“情報検索”などへのリンクを設
定する。これにより、キーワードの先頭のn文字、特に
1文字の検索を高速に行うことができる。1文字インデ
ックス4でキーワードの先頭の1文字が存在することが
判明したとき、リンクする単語インデックス3の見出し
から先頭の1文字を含む文字列を取り出し、キーワード
との一致を高速に判定できる。一致したときは、更に単
語インデックス3の単語見出しのリンクを辿ってテキス
ト2中の該当する文字列を検索できる。
The n-character index 4 is an n-character index obtained by extracting n characters from the beginning (for example, the beginning or the whole) of the word index of the word index 3.
The corresponding word is linked from the character heading. For example, as shown in the figure, n-letter heading link information link to "information", link to "condition" link to "information search" Links to the corresponding character strings “information”, “condition”, “information search”, etc. in the index 3 are set. As a result, the search for the first n characters of the keyword, especially one character, can be performed at high speed. When it is determined by the one-character index 4 that the first character of the keyword is present, a character string including the first one character can be extracted from the heading of the linked word index 3 and the matching with the keyword can be determined at high speed. When they match, the corresponding character string in the text 2 can be searched by further following the link of the word heading of the word index 3.

【0017】キーワードは、検索対象の文字列である。
検索するときは、このキーワードの先頭の1文字“情”
をn文字インデックス4である1文字インデックス4か
ら見つけ、この見つけた1文字のリンクから単語インデ
ックス3の単語に当該キーワードを含むものを見つけ
る。見つかったときは、この単語のリンクによりテキス
ト中から該当する文字列を取り出し、表示などする。
The keyword is a character string to be searched.
When searching, the first character of the keyword is "JO"
Is found from the 1-character index 4 which is the n-character index 4, and the word of the word index 3 containing the keyword is found from the found 1-character link. When found, the relevant character string is extracted from the text by the link of this word and displayed.

【0018】次に、図2を用いて、図1の単語インデッ
クス3およびn文字インデックス4を作成するインデッ
クス作成系11、および作成したn文字インデックス4
および単語インデックス3を利用して文字列を検索する
ときの検索系21の動作を順次詳細に説明する。
Next, referring to FIG. 2, an index creating system 11 for creating the word index 3 and the n-character index 4 in FIG. 1 and the created n-character index 4 will be described.
The operation of the search system 21 when searching for a character string using the word index 3 will be sequentially described in detail.

【0019】(1) インデックス作成系11について
説明する。図2において、S1は、テキストデータ1を
取り込む。S2は、前処理部5が前処理を行う。テキス
トデータ1について、改行などを取り、1行1文にす
る。
(1) The index creating system 11 will be described. In FIG. 2, S1 takes in the text data 1. In S2, the preprocessing unit 5 performs preprocessing. For text data 1, take line breaks and make one sentence per line.

【0020】S3は、語分割処理部6がテキストデータ
1の語分割を行う。これは、単語辞書12を参照して、
例えば後述する図3の語分割結果に示すように、/の区
切り記号によって、 /に/ついて/の/情報/を/集め/・・・ のように語分割する。
In S3, the word division processing unit 6 divides the text data 1 into words. This refers to the word dictionary 12,
For example, as shown in a word division result of FIG. 3 described later, the word is divided into ////////// collect / ... by the / delimiter.

【0021】S4は、未登録語処理部7が未登録語の処
理を行う。これは、単語辞書12にないテキストデータ
1について、文字種情報、例えばカタカナの一連の文字
列を未登録語としたり、一連の漢字のつながりを未登録
語としたりする。
In step S4, the unregistered word processing unit 7 processes the unregistered word. For text data 1 that is not in the word dictionary 12, character type information, such as a series of katakana character strings, is an unregistered word, or a series of kanji characters is an unregistered word.

【0022】S5は、語分割処理部6が語分割した単語
および未登録語処理部7が分割した未登録語について、
単語インデックス作成部8がこれら単語および未登録語
を見出しとすると共にリンクによってテキストデータ1
中の該当する位置をリンクする。これらにより、S6の
単語インデックス3が作成できたこととなる。
In S5, the words divided by the word division processing unit 6 and the unregistered words divided by the unregistered word processing unit 7 are
The word index creation unit 8 uses these words and unregistered words as headings and links the text data 1
Link the corresponding position in. As a result, the word index 3 in S6 has been created.

【0023】S7は、n文字インデックス作成部9が単
語インデックス3の単語見出しについて先頭のn文字
(例えば先頭の1文字)を抽出し、この抽出したn文字
をn文字見出しとすると共に単語見出しをリンクするn
文字インデックス4を作成する。これらにより、一連の
単語インデックス3およびn文字インデックス4が作成
でき、テキストデータ1を検索する準備ができたことと
なる。
In step S7, the n-character index creating unit 9 extracts the first n characters (for example, the first character) of the word heading of the word index 3, sets the extracted n characters as an n-character heading, and sets the word heading. Link n
Create character index 4. As a result, a series of word index 3 and n-character index 4 can be created, and the text data 1 is ready to be searched.

【0024】また、辞書エディタ13は、単語インデッ
クス3の効率を向上させるために、単語辞書12をチュ
ーニング(新たな単語を登録したり、修正したり、未登
録語を新たな単語として登録したりなどしてチェーニン
グ)する。
In order to improve the efficiency of the word index 3, the dictionary editor 13 tunes the word dictionary 12 (registers a new word, corrects it, or registers an unregistered word as a new word). And so on).

【0025】以上によって、テキストデータ1から任意
の単語および未登録語を検索するための、n文字インデ
ッスク4および単語インデックス3が作成できたことと
なる。
As described above, the n-character index 4 and the word index 3 for searching an arbitrary word and unregistered word from the text data 1 can be created.

【0026】(2) 検索系21について説明する。こ
こでは、n文字インデックス4は、1文字インデックス
とする。図2において、S11は、キーワードを入力す
る。これは、オペレータが画面上から検索しようとする
キーワードを入力する。
(2) The search system 21 will be described. Here, the n-character index 4 is a 1-character index. In FIG. 2, in S11, a keyword is input. For this, the operator inputs a keyword to be searched from the screen.

【0027】S12は、キーワードの先頭1文字と1文
字見出しを比較する。これは、例えばキーワード“情
報”について先頭の1文字“情”と、1文字インデック
ス4の1文字見出しと比較し、一致するものを見つけ
る。ない場合には、ない旨のメッセージを画面上に表示
する。ありの場合には、S13に進む。
In step S12, the first character of the keyword is compared with the one-character headline. This compares, for example, the leading one character “information” with respect to the keyword “information” and the one character index of the one character index 4, and finds a match. If there is not, a message indicating that there is no is displayed on the screen. If there is, go to S13.

【0028】S13は、単語インデックス3の単語見出
しとキーワードと比較する。これは、S12のありでキ
ーワードの先頭の1文字例えば“情”が1文字インデッ
クス4の1文字見出しにありと判明したので、この1文
字見出しのリンク先の単語インデックス3の単語と、キ
ーワードとを比較する。ない場合、即ちキーワードと一
致しないあるいは一致する部分を含まない場合には、な
い旨のメッセージを画面上に表示する。ありの場合に
は、S14に進む。
In step S13, the word index of word index 3 is compared with the keyword. This is because it is found in S12 that one character at the beginning of the keyword, for example, "information", exists in the one-character index of the one-character index 4, so the word of the word index 3 of the link destination of this one-character index and the keyword To compare. If there is no match, that is, if there is no match with the keyword or no matching part is included, a message indicating that there is no match is displayed on the screen. If there is, go to S14.

【0029】S14は、テキストとキーワードを比較す
る。これは、S13のありでキーワードと単語見出しと
が一致あるいはキーワードが一部単語見出しに含まれて
いたので、リンク先のテキストとキーワードを比較す
る。ない場合、即ちキーワードがテキストと一致しない
場合には、ない旨のメッセージを画面上に表示する。あ
りの場合には、S15に進む。
In step S14, the text is compared with the keyword. This is because in S13, the keyword matches the word heading or the keyword is partially included in the word heading, so the text of the link destination and the keyword are compared. When there is no keyword, that is, when the keyword does not match the text, a message indicating that there is no keyword is displayed on the screen. If yes, the process proceeds to S15.

【0030】S15は、S14でキーワードとテキスト
の文字列とが一致すると判明したので、このテキストの
位置(単語見出しのリンク先の位置)の内容を画面上に
表示する。これにより、検索指示したキーワードの存在
するテキスト(例えば文単位、段落単位、ページ単位の
テキスト)が画面上に表示されたこととなる。
In S15, since it is found in S14 that the keyword matches the character string of the text, the contents of the position of this text (the position of the link destination of the word heading) is displayed on the screen. As a result, the text in which the keyword instructed to search is present (for example, text unit, paragraph unit, page unit text) is displayed on the screen.

【0031】以上によって、画面上からキーワードを入
力したことに対応して、キーワードの先頭1文字と一致
する1文字インデックス4の1文字見出しを見つけ、こ
の1文字見出しのリンク先の単語インデックス3の単語
見出しのうち一致するものを見つけ、更にこの一致した
単語見出しのリンク先のテキストとキーワードが一致し
たときに、この範囲のテキストを画面上に検索結果とし
て表示する。これらにより、キーワードが存在するテキ
スト上の文字列が表示されることとなる。
As described above, in response to the input of a keyword on the screen, a one-character index having a one-character index 4 matching the leading one character of the keyword is found, and the word index 3 of the link destination of this one-character index is searched. When a matching one of the word headings is found, and when the linked text of the matching word heading and the keyword match, the text in this range is displayed as a search result on the screen. As a result, the character string on the text in which the keyword exists is displayed.

【0032】図3は、本発明の単語インデックスの作成
説明図を示す。テキストデータ1は、文書であって、図
示のT2(文単位、段落単位、あるいはページ単位な
ど)の場合には、“ある事柄についての情報を集め、こ
れをファイルに蓄える。そして必要に応じ・・・・・”
である。
FIG. 3 is a diagram for explaining the creation of the word index according to the present invention. The text data 1 is a document, and in the case of T2 shown in the figure (sentence unit, paragraph unit, page unit, etc.), "collects information about a certain matter and stores it in a file. ... "
Is.

【0033】前処理結果は、ここでは、文単位にまとめ
たものである。語分割結果は、前処理結果について、単
語辞書12を参照して単語に分割し、更に未登録語につ
いては文字種情報をもとに単語に分割したものである。
ここでは、図示の/に示す区切り記号で単語に下記のよ
うに分割する。
Here, the preprocessing results are summarized in sentence units. The word division result is obtained by dividing the preprocessing result into words by referring to the word dictionary 12 and further dividing the unregistered words into words based on the character type information.
Here, the words are divided into the following words with the delimiters shown in / as shown below.

【0034】 T2 /に/ついて/の/情報/を/集め/・・・ また、これら分割した単語およびリンクを分かり易く並
べると下記のようになる。
T2 / on / on / on / information / collecting / ... Further, the divided words and links are arranged in an easy-to-understand manner as follows.

【0035】 単語見出し リンク について T2 の T2 情報 T2 を T2 単語インデックス3は、語分割結果について、単語見出
しおよびリンクとして下記のように重複しないように、
単語インデックス3に格納する。
Regarding the word heading link T2 information of T2 T2 is T2 The word index 3 is, as to the word division result, as the word heading and the link, as shown below,
Store in word index 3.

【0036】 単語見出し リンク 情報 T2、T3、T10・・・ 情勢 T8、T9、T23・・・ そして、これらの単語インデックス3の単語見出しの先
頭の1文字をとりだし、1文字インデックス3の1文字
見出しとすると共にリンクによって単語見出しの位置を
ポイントする。
Word heading link information T2, T3, T10 ... Situation T8, T9, T23 ... And the first character of the word heading of these word index 3 is taken out and one character heading of 1 character index 3 is taken out. And the link points to the position of the word heading.

【0037】以上によって、テキストデータを指定した
ことに対応して、前処理結果を得て、次に語分割結果を
得て、この語分割結果をもとに単語インデックス3の見
出しおよびリンクを登録する。そして、単語見出しの先
頭1文字を1文字インデックス4の1文字見出しとする
と共に単語見出しをリンクする。これらにより、テキス
トデータから自動的に単語インデックス3および1文字
インデックス4を作成することが可能となる。
As described above, the preprocessing result is obtained corresponding to the designation of the text data, the word division result is obtained next, and the heading and the link of the word index 3 are registered based on the word division result. To do. Then, the first one character of the word heading is set as the one-character heading of the one-character index 4, and the word heading is linked. As a result, it becomes possible to automatically create the word index 3 and the one-character index 4 from the text data.

【0038】[0038]

【発明の効果】以上説明したように、本発明によれば、
テキストデータ1から語分割して単語インデックス3を
作成およびこの単語インデックス3の単語見出しのn文
字をn文字インデックス4に設定およりリンクを設定
し、単語インデックス3およびn文字インデックス4を
作成する構成を採用しているため、テキストデータ1か
ら任意文字列の単語および文字種情報でまとめた未登録
語を取り出して単語インデックス3の単語見出しとし、
エントリ数を削減してメモリ容量を小さくできると共
に、単語見出しの先頭n文字(例えば先頭1文字)をn
文字インデックス4に設定し、単語もれを無くすことが
できる。これらにより、単語辞書のメンテナンスの労力
を省き、インデックス容量を削減してテキストデータの
検索を行うことができる。特に、単語インデックス3を
作成したことによって、単語辞書に登録されている単語
(2文字、3文字、4文字など)を1つとしておよび文
字種情報でまとめた未登録語を1つとしてインデックス
を付与でき、インデックス量を削減できる。また、この
単語インデックス3の単語見出しについて、n文字イン
デックス4、特に1文字インデックスからリンクするこ
とにより、テキスト中の文字列の取りこぼしを無くすこ
とが可能となる。
As described above, according to the present invention,
A configuration in which the word index 3 is created by dividing the word from the text data 1 and the n characters of the word heading of this word index 3 are set to the n character index 4 and a link is set to create the word index 3 and the n character index 4. Therefore, the unregistered word that is collected by the word of the arbitrary character string and the character type information is extracted from the text data 1 as the word index of the word index 3,
The number of entries can be reduced to reduce the memory capacity, and the first n characters (for example, the first character) of the word heading can be changed to n.
By setting the character index to 4, it is possible to eliminate word leakage. As a result, the labor of maintaining the word dictionary can be saved, the index capacity can be reduced, and the text data can be searched. In particular, by creating the word index 3, an index is given by setting one word (two characters, three characters, four characters, etc.) registered in the word dictionary and one unregistered word collected by the character type information. Yes, the amount of indexes can be reduced. Also, by linking the word heading of the word index 3 from the n-character index 4, especially the 1-character index, it becomes possible to eliminate the omission of the character string in the text.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の1実施例構成図である。FIG. 1 is a configuration diagram of an embodiment of the present invention.

【図2】本発明の動作説明図である。FIG. 2 is an operation explanatory diagram of the present invention.

【図3】本発明の単語インデックスの作成説明図であ
る。
FIG. 3 is an explanatory diagram of creating a word index according to the present invention.

【符号の説明】[Explanation of symbols]

1:テキストデータ 2:テキスト 3:単語インデックス 4:n文字インデックス 5:前処理部 6:語分割処理部 7:未登録語処理部 8:単語インデックス作成部 9:n文字インデックス作成部 12:単語辞書 13:辞書エディタ 1: Text data 2: Text 3: Word index 4: N character index 5: Pre-processing unit 6: Word division processing unit 7: Unregistered word processing unit 8: Word index creation unit 9: N character index creation unit 12: Word Dictionary 13: Dictionary editor

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】文書の検索を行う情報検索装置において、 テキストを語分割して単語にし、この単語を単語見出し
として該当テキストへのリンクを設定する単語インデッ
クス(3)と、 これらの単語見出しについて、先頭などから取り出した
n文字見出しから該当単語見出しへのリンクを設定する
n文字インデックス(4)とを作成するように構成した
ことを特徴とする情報検索装置。
1. An information retrieval apparatus for retrieving a document, wherein a text is word-divided into words, and a word index (3) for setting a link to the corresponding text as a word heading, and these word headings. , An n-character index (4) for setting a link to the corresponding word heading from an n-character heading taken out from the beginning or the like, and an information retrieving apparatus.
【請求項2】上記テキストを語分割して単語にする際
に、単語辞書(12)に登録されていない未登録語を文
字種情報でまとめて単語見出しとするように構成したこ
とを特徴とする請求項1記載の情報検索装置。
2. When the above-mentioned text is word-divided into words, unregistered words that are not registered in the word dictionary (12) are grouped by character type information into word headings. The information search device according to claim 1.
【請求項3】キーワードを指定した検索指示に対応し
て、上記n文字インデックス(4)の該当するn文字見
出しからリンクする上記単語インデックス(3)の該当
する単語見出しを見つけ、この単語見出しのリンクから
該当テキストの文字列を検索し、出力するように構成し
たことを特徴とする請求項1記載の情報検索装置。
3. A corresponding word heading of the word index (3) linked from the corresponding n character heading of the n character index (4) is found in response to a search instruction specifying a keyword, and this word heading The information retrieval apparatus according to claim 1, wherein the information retrieval apparatus is configured to retrieve and output a character string of the corresponding text from the link.
【請求項4】上記n文字インデックス(4)として、1
文字インデックスとしたことを特徴とする請求項1記載
から請求項3記載の情報検索装置。
4. The n character index (4) is 1
The information retrieval device according to claim 1, wherein the information retrieval device is a character index.
JP4308355A 1992-11-18 1992-11-18 Information retrieval device Withdrawn JPH06162092A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4308355A JPH06162092A (en) 1992-11-18 1992-11-18 Information retrieval device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4308355A JPH06162092A (en) 1992-11-18 1992-11-18 Information retrieval device

Publications (1)

Publication Number Publication Date
JPH06162092A true JPH06162092A (en) 1994-06-10

Family

ID=17980068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4308355A Withdrawn JPH06162092A (en) 1992-11-18 1992-11-18 Information retrieval device

Country Status (1)

Country Link
JP (1) JPH06162092A (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180066A (en) * 1994-12-26 1996-07-12 Toshiba Corp Index preparation method, document retrieval method and document retrieval device
JPH0991303A (en) * 1995-09-22 1997-04-04 Fujitsu Ltd Data management device
JP2007179329A (en) * 2005-12-28 2007-07-12 Alps Sha:Kk Address character string acquisition method and address character string acquisition system
WO2008023470A1 (en) * 2006-08-21 2008-02-28 Kyoto University Sentence search method, sentence search engine, computer program, recording medium, and document storage
JP2009134609A (en) * 2007-11-30 2009-06-18 Seiko Epson Corp Variable length data storage device, variable length data storage method, variable length data reading method, and program for the same
JP2009157765A (en) * 2007-12-27 2009-07-16 Dainippon Printing Co Ltd Retrieval device
WO2010095179A1 (en) * 2009-02-23 2010-08-26 株式会社エスグランツ Code sequence retrival device, retrival method, and program
WO2010106605A1 (en) * 2009-03-18 2010-09-23 株式会社エスグランツ Code string search device, search method and program
WO2010116435A1 (en) * 2009-03-29 2010-10-14 株式会社エスグランツ Code string retrieval device, retrieval method, and program
JP2011138365A (en) * 2009-12-28 2011-07-14 Yahoo Japan Corp Term extraction device, method, and data structure of term dictionary
US8095526B2 (en) 2003-12-02 2012-01-10 Nec Corporation Efficient retrieval of variable-length character string data
US9009655B2 (en) 2008-09-28 2015-04-14 KOUSOKUYA, Inc. Code string search apparatus, search method, and program

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180066A (en) * 1994-12-26 1996-07-12 Toshiba Corp Index preparation method, document retrieval method and document retrieval device
JPH0991303A (en) * 1995-09-22 1997-04-04 Fujitsu Ltd Data management device
US8200646B2 (en) 2003-12-02 2012-06-12 Nec Corporation Efficient retrieval of variable-length character string data
US8095526B2 (en) 2003-12-02 2012-01-10 Nec Corporation Efficient retrieval of variable-length character string data
JP2007179329A (en) * 2005-12-28 2007-07-12 Alps Sha:Kk Address character string acquisition method and address character string acquisition system
JPWO2008023470A1 (en) * 2006-08-21 2010-01-07 国立大学法人京都大学 SENTENCE UNIT SEARCH METHOD, SENTENCE UNIT SEARCH DEVICE, COMPUTER PROGRAM, RECORDING MEDIUM, AND DOCUMENT STORAGE DEVICE
WO2008023470A1 (en) * 2006-08-21 2008-02-28 Kyoto University Sentence search method, sentence search engine, computer program, recording medium, and document storage
JP5167546B2 (en) * 2006-08-21 2013-03-21 国立大学法人京都大学 Sentence search method, sentence search device, computer program, recording medium, and document storage device
JP2009134609A (en) * 2007-11-30 2009-06-18 Seiko Epson Corp Variable length data storage device, variable length data storage method, variable length data reading method, and program for the same
JP2009157765A (en) * 2007-12-27 2009-07-16 Dainippon Printing Co Ltd Retrieval device
US9009655B2 (en) 2008-09-28 2015-04-14 KOUSOKUYA, Inc. Code string search apparatus, search method, and program
WO2010095179A1 (en) * 2009-02-23 2010-08-26 株式会社エスグランツ Code sequence retrival device, retrival method, and program
WO2010106605A1 (en) * 2009-03-18 2010-09-23 株式会社エスグランツ Code string search device, search method and program
WO2010116435A1 (en) * 2009-03-29 2010-10-14 株式会社エスグランツ Code string retrieval device, retrieval method, and program
JP2011138365A (en) * 2009-12-28 2011-07-14 Yahoo Japan Corp Term extraction device, method, and data structure of term dictionary

Similar Documents

Publication Publication Date Title
JP3143079B2 (en) Dictionary index creation device and document search device
KR100235223B1 (en) Mapping method and device
JPH06162092A (en) Information retrieval device
JPH0628403A (en) Document retrieving device
JP2000132560A (en) Chinese teletext processing method and processor therefor
JPH07319920A (en) Method and device for retrieving document
JP3253657B2 (en) Document search method
JPH056398A (en) Document register and document retrieving device
JP3325677B2 (en) Document search device
JPH0773187A (en) Retrieving system
JP2000067070A (en) Method for retrieving information and method for preparing retrieval file and device for retrieving information
JPH05165889A (en) Document retrieval device
JPH0991305A (en) Method and device for information processing
JPH08221443A (en) Method and device for retrieving text including kanji
JP4183767B2 (en) Character string search device and search method thereof
JP2897191B2 (en) Japanese morphological analysis system and morphological analysis method
JP3508312B2 (en) Keyword extraction device
JPH0748218B2 (en) Information processing equipment
JP2967995B2 (en) Document processing apparatus and document processing method
JPH041853A (en) Document retrieving device
JP2000200288A (en) Retrieval result analysis system
JPH09212524A (en) Entire sentence retrieval method and electronic dictionary formation device
JPH0388070A (en) Free word retrieving system
JPH1139346A (en) Document retrieval device, index generation device and recording medium which computer can read
JPS63226765A (en) Document processor

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20000201