JPH0452765A - Keyword extraction device - Google Patents

Keyword extraction device

Info

Publication number
JPH0452765A
JPH0452765A JP2155733A JP15573390A JPH0452765A JP H0452765 A JPH0452765 A JP H0452765A JP 2155733 A JP2155733 A JP 2155733A JP 15573390 A JP15573390 A JP 15573390A JP H0452765 A JPH0452765 A JP H0452765A
Authority
JP
Japan
Prior art keywords
word
keyword
words
keyword candidate
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2155733A
Other languages
Japanese (ja)
Inventor
Shiyou Imasato
詔 今郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2155733A priority Critical patent/JPH0452765A/en
Publication of JPH0452765A publication Critical patent/JPH0452765A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To prevent an unnecessary word from being extracted as a keyword by dividing a composite word among extracted keyword candidates into simple words and dismissing the keyword candidate of the simple word, which coincides with the simple word forming the keyword candidate of the other composite word. CONSTITUTION:A keyword candidate extraction means extracts a word which possibly becomes the keyword from document information and a composite word division means divides the composite word among the key keyword candidates as the extracted result into the simple words. Then, a keyword candidate dismissing means dismisses the keyword candidate of the simple word which the keyword candidate extraction means extracts and which coincides with the simple word forming the keyword candidate of the other composite word. Thus, the unnecessary word is prevented from being extracted as the keyword without using an unnecessary word dictionary.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、データベースシステム、ワードプロセッサ等
の電子機器において、文書情報の検索時に用いられる可
能性のある語句をキーワードとして抽出するキーワード
抽出装置に関する。
DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to a keyword extraction device for extracting words and phrases that may be used when searching document information as keywords in electronic devices such as database systems and word processors.

従来の技術 従来、データベースシステム、ワードプロセッサ等の電
子機器において、既に作成された大量の情報から希望す
る情報の検索を行う場合、予め個々の情報に対してキー
ワードを付与して蓄積しておき、その検索時にキーワー
ドを含む条件式を入力し、この検索条件に基づき、それ
にマツチするキーワードを有する情報、z 47索し、
て出力゛4るというのが一般的である4゜ このような電子機器の場合、一般に、情報の登録時に使
用者がキーワードの登録を行わなければならない。この
作業は非常に面倒であり、一つの情報に対して十分な数
のキーワードを付与するにとは運用−L不可能なことで
ある。
Conventional technology Conventionally, when searching for desired information from a large amount of information that has already been created in electronic devices such as database systems and word processors, keywords are assigned to each piece of information in advance and stored. When searching, enter a conditional expression that includes a keyword, and based on this search condition, search for information that has the keyword that matches it,
In the case of such electronic devices, the user generally has to register keywords when registering information. This work is extremely troublesome, and it is impossible to assign a sufficient number of keywords to one piece of information.

また、情報を一つの観点から見た場合のキーワードしか
付与しないため、情報の登忌後にお(する検索時に他の
観点から見たキーワ・−ドを検索条件どして入力した場
合には、目的とする情報を得る、でとが出来ないことに
なる。
In addition, since we only assign keywords when viewing information from one perspective, if you enter a keyword from another perspective as a search condition when searching for information after the memorial service, You will be unable to obtain the desired information.

さらに、一つの情報に最低 つのキーワードを登録しな
ければならないため、人足(多種類)の情報を短時間に
登録するこ二とが出来ない。
Furthermore, since at least one keyword must be registered for one piece of information, it is not possible to register a large number of people (of many types) in a short period of time.

このような問題を解決するため、ギ〜ワー ドを自動的
に抽出する研究か以前から行われている。
In order to solve such problems, research on automatically extracting keywords has been conducted for some time.

ここで、従来のキーワードの自動抽出方法の例とし7て
、「日本語文章からのキーワード自動抽出」 (金子朝
男他、情報処理学会第35回全国大会、pp1277−
1278.1987)に開示された技術を説明する。
Here, as an example of a conventional automatic keyword extraction method, we will introduce "Automatic extraction of keywords from Japanese texts" (Asao Kaneko et al., Information Processing Society of Japan 35th National Conference, pp1277-
1278.1987) will be described.

このキーワード抽出方法は、検索対象を文書情報とし7
たものであり、ます、字種の違いに注目したり、早語テ
ーブル等を参照したりして、文章からキーワードとなる
可能性がある語句を抽出する。
This keyword extraction method uses document information as the search target.
This method extracts words and phrases that may become keywords from a text by paying attention to the differences in character types and referring to quick word tables.

次に、キーワードとならない語句を集めた不用語辞書に
上述の抽出結果としての語句で一致するものがあるか否
かを調べ、不用語辞書に一致するものがある場合にはキ
ーワードとせず、不用語辞書に一致するものがない場合
にはその語句をキーワードとして抽出する。
Next, check whether there is a match in the above-mentioned extraction result in the non-word dictionary that collects words that are not keywords, and if there is a match in the non-word dictionary, it is not set as a keyword and is not used as a keyword. If there is no matching word in the term dictionary, that word is extracted as a keyword.

発明が解決しようとする課題 二のようなキーワ・−ド抽出方法において、不用語辞書
はキーワードとならない語句を予め登B(2ておくもの
である。
In the method for extracting keywords, which is the second problem to be solved by the invention, words that are not keywords are registered in advance in the dictionary of unused words.

しかし、無数にある語句の中からキーワードとならない
語句をすべて選択し、不用語辞書に登録しておくことは
、実際には不可能なことである。
However, it is actually impossible to select all words that are not keywords from among the countless words and phrases and register them in a dictionary of unused words.

また、検索の対象となる文書が扱う分野や、その文書が
利用される目的等により、ある同一の語句が不用語にな
る場合とならない場合がある。
Furthermore, depending on the field covered by the document to be searched, the purpose for which the document is used, etc., the same word or phrase may or may not become an obsolete term.

(5,たがって、多くの語句を無条件に予め不用語辞書
に登録し7た場合、本来ギ・−ワードとなるべき語句を
棄却してしまうという事態が多発する恐れがある、 このような理由(・Jより、不用語辞書は、その初期状
態においては、少数の語句を登録した状態に留めざ5タ
ー得ない。
(5. Therefore, if many words are unconditionally registered in advance in a non-word dictionary, there is a risk that words that should originally be used as gi-words will be rejected. Reason (J) In its initial state, a dictionary of unused words must only contain a small number of words and phrases.

このため、予め提供されている不用語辞書に対し、利用
行が自分で不用語の追加を行っていかなければ、自分に
とっては不用でよ)る語句がいつもキーワードとして抽
出さ;it、TLまうことになる1、したがっ丁 キー
ワード抽出結果を調べ、不用なものが抽出されていれば
、子の語句を不用語辞書に登録するという作業を行わな
(′jればならない。
Therefore, unless users add unnecessary words to the pre-provided dictionary of unnecessary words, words that are unnecessary to them will always be extracted as keywords; it, TL mau 1. Therefore, if you check the keyword extraction results and find unnecessary words, do not register the child words in the dictionary.

このような作業を交書登録の度に繰り返すことは、利用
者にとってかなりの負担になる。
Repeating such work every time a correspondence is registered is a considerable burden on the user.

課題を解決するだめの手段 請求項1記載の発明は、文書情報からキーワードとなる
可能性のある語句を抽出するキーワード候補抽出手段と
、このキーワード抽出手段により抽出されたキーワード
候補のうち複合語であるものを単純語に分割する複合語
分割手段と、この複合語分割手段による分割結果に基づ
き前記キーワード候補抽出手段により抽出された単純語
のキーワード候補のうち他の複合語のキーワード候補を
形成する単純語と一致するものを棄却するキーワード候
補棄却手段とより構成した。
Means for Solving the Problem The invention as set forth in claim 1 provides a keyword candidate extracting means for extracting words that may become keywords from document information, and a compound word among the keyword candidates extracted by the keyword extracting means. Compound word dividing means for dividing something into simple words; and forming keyword candidates for other compound words among the simple word keyword candidates extracted by the keyword candidate extracting means based on the division result by the compound word dividing means. It consists of keyword candidate rejection means for rejecting keyword candidates that match simple words.

また、請求項2記載の発明は、キーワードにならない語
句を予め登録した不用語辞書を設け、キーワード候補抽
出手段により抽出されたキーワード候補で前記不用語辞
書に登録されているものを棄却する不用語棄却手段を設
け、キーワード候補棄却手段により棄却されたキーワー
ド候補を前記不用語辞書に登録する不用語登録手段を設
けた。
Further, the invention according to claim 2 provides an unused word dictionary in which words and phrases that are not keywords are registered in advance, and rejects keyword candidates extracted by the keyword candidate extracting means and registered in the unused word dictionary. A rejection means is provided, and an unused word registration means is provided for registering keyword candidates rejected by the keyword candidate rejection means in the unused word dictionary.

作用 請求項1記載の発明は、文書情報からキーワードとなる
可能性のある語句をキーワード候補抽出手段により抽出
し、この抽出結果としてのキーワード候補のうち複合語
であるものを複合語分割手段により単純語に分割し、こ
の分割結果に基づき、キーワード候補抽出手段により抽
出された単純語のキーワード候補で他の複合語のキーワ
ード候補を形成する単純語と一致するものをキーワード
候補棄却手段により棄却するので、不用語辞書を用いる
ことなく、不用語がキーワードとして抽出されるのを防
ぐことが出来る。
The invention according to claim 1 extracts words that may become keywords from document information by a keyword candidate extracting means, and extracts compound words among the keyword candidates as a result of this extraction by a compound word dividing means. Based on the result of this division, the keyword candidate rejection means rejects the keyword candidates of the simple words extracted by the keyword candidate extraction means that match the simple words forming the keyword candidates of other compound words. , it is possible to prevent unused words from being extracted as keywords without using an unused word dictionary.

また、請求項2記載の発明は、キーワード候補抽出手段
により抽出されたキーワード候補で不用語辞書に登録さ
れているものを不用語棄却手段により棄却し7、キーワ
ード候補棄却手段により棄却されたキーワード候補を不
用語登録手段により不用語辞書へ登録するので、利用者
による不用語の登録を不要とし、さらに、キーワード候
補棄却手段により棄却されたキーワード候補が他の文書
で現れた場合であっても、その語句を不用語棄却手段に
より直ちに棄却することが出来る。
Further, the invention according to claim 2 further provides that the keyword candidates extracted by the keyword candidate extracting means and registered in the non-word dictionary are rejected by the non-word rejecting means 7, and the keyword candidates rejected by the keyword candidate rejecting means are is registered in the non-word dictionary by the non-word registration means, so there is no need for the user to register non-words.Furthermore, even if the keyword candidate rejected by the keyword candidate rejection method appears in another document, The word or phrase can be immediately rejected by the non-word rejection means.

実施例 本発明の第一の実施例を第1図ないし第3図に基づいて
説明する。このキーワード抽出装置は、第1図に示すよ
うに、文書情報からキーワード候補を抽出するキーワー
ド候補抽出手段と、この抽出結果としてのキーワード候
補のうち複合語であるものを単純語に分割する複合語分
割手段と、この複合語分割手段による分割結果に基づき
単純語のキーワード候補で他の複合語のキーワード候補
を形成する単純語と一致するものを棄却するキーワード
候補棄却手段とよりなるものである。
Embodiment A first embodiment of the present invention will be described with reference to FIGS. 1 to 3. As shown in Fig. 1, this keyword extraction device includes a keyword candidate extraction means that extracts keyword candidates from document information, and a compound word that divides compound words among the keyword candidates as a result of this extraction into simple words. The compound word dividing means comprises a dividing means, and a keyword candidate rejecting means for rejecting simple word keyword candidates that match simple words forming keyword candidates for other compound words based on the dividing result by the compound word dividing means.

但し、前記キーワード候補抽出手段は、ひらがな以外の
文字の連続列を全てキーワード候補として文書から抽出
するものである。また、前記単純語とはそれ以上分割す
ることが出来ない語句のことであり、前記複合語とは、
この単純語を複数個組合せて形成された語句のことであ
る。
However, the keyword candidate extraction means extracts all continuous strings of characters other than hiragana from the document as keyword candidates. In addition, the simple word is a word that cannot be further divided, and the compound word is a word that cannot be divided any further.
It is a phrase formed by combining multiple simple words.

一方、前記複合語分割手段は、第2図に示すように、表
記と品詞とからなる単語テーブルを有するものであり、
この単語テーブルを用い、・複合語の先頭は名詞か接頭
辞である。
On the other hand, the compound word dividing means has a word table consisting of notation and part of speech, as shown in FIG.
Using this word table, ・The beginning of a compound word is a noun or a prefix.

・複合語の末尾は名詞か接尾辞である。-The end of a compound word is a noun or a suffix.

・接頭辞の直後には接尾辞は続かない。- A suffix does not immediately follow a prefix.

という一定の規則に基づいて複合語のキーワード候補を
単純語に分割する。なお、分割パターンが複数ある場合
には、構成単語数が最小の分割パターンを採用する。
The compound word keyword candidates are divided into simple words based on certain rules. Note that if there are multiple division patterns, the division pattern with the smallest number of constituent words is adopted.

さらに、キーワード候補棄却手段は、前記複合語分割手
段による分割結果に基づき、前記キーワード候補抽出手
段により抽出された単純語のキーワード候補のうち、他
の複合語のキーワード候補を形成する単純語のうちの末
尾の単純語と一致するものを棄却する。
Further, the keyword candidate rejection means selects among the simple word keyword candidates that form the keyword candidates of other compound words, among the simple word keyword candidates extracted by the keyword candidate extraction means, based on the division result by the compound word division means. Reject those that match the simple word at the end of.

一般に、複合語は、その末尾の単純語か表す概念の下位
概念を表すものである。
Generally, a compound word represents a subordinate concept of the simple word at the end of the word.

そして、ある複合語と、その末尾の単純語と同一の単純
語とが同一文書に存在するということは、ある特定概念
を表す語句とその上位概念を表す語句とが同一文書に存
在しているということになる。
The presence of a compound word and a simple word that is the same as the simple word at the end of the compound word in the same document means that a word expressing a specific concept and a word expressing its superordinate concept exist in the same document. It turns out that.

このような関係を有する語句を有する文書は、特定概念
に関係する事柄が述べらたものであるということになり
、同時に、上位概念を表す語句は、その文書内容よりも
漠然とした事柄を指すものであり、キーワードとしては
ふされしくないものである。
A document that contains words and phrases that have this kind of relationship is said to state matters related to a specific concept, and at the same time, words that express a general concept refer to matters that are more vague than the content of the document. Therefore, it is inappropriate as a keyword.

本発明は、このような思想に基つくものである。The present invention is based on this idea.

このような構成において、キーワードを抽出する場合、
第3図に示すように、文書情報としての文章からキーワ
ードとなる可能性のある語句全てがキーワード候補抽出
手段によりキーワード候補として抽出され、これらのキ
ーワード候補のうち複合語であるもの全てが複合語分割
手段により単純語に分割される。
In such a configuration, when extracting keywords,
As shown in Figure 3, all words and phrases that have the potential to become keywords from sentences as document information are extracted as keyword candidates by the keyword candidate extraction means, and all of these keyword candidates that are compound words are compound words. It is divided into simple words by the dividing means.

そして、キーワード候補抽出手段により抽出されたキー
ワード候補が単純語であるか否かを判定する。
Then, it is determined whether the keyword candidate extracted by the keyword candidate extraction means is a simple word.

キーワード候補が単純語である場合には、他のキーワー
ド候補で複合語のものがあるか否かを判定する。
If the keyword candidate is a simple word, it is determined whether there are any other keyword candidates that are compound words.

他のキーワード候補で複合語のものがある場合には、そ
の末尾の単純語と上述の単純語のキーワード候補とが一
致するか否かを判定する。
If there is another keyword candidate that is a compound word, it is determined whether the simple word at the end of the compound word matches the above-mentioned simple word keyword candidate.

単純語のキーワード候補と複合語のキーワード候補の末
尾の単純語とが一致しない場合には、上述の他のキーワ
ード候補で複合語のものがあるか否かの判定以降の上述
の処理を繰返し、単純語のキーワード候補と複合語のキ
ーワード候補の末尾の単純語とが一致する場合には、単
純語のキーワード候補を棄却し、一つのキーワード候補
についての抽出処理を終了する。
If the simple word keyword candidate and the simple word at the end of the compound word keyword candidate do not match, repeat the above-mentioned process after determining whether there is a compound word among the other keyword candidates, and If the simple word keyword candidate matches the simple word at the end of the compound word keyword candidate, the simple word keyword candidate is rejected and the extraction process for one keyword candidate is ended.

但し、キーワード候補抽出手段により抽出されたキーワ
ード候補が単純語であるか否かの判定以降のと述の処理
はキーワード候補棄却手段により行なわれるものである
However, the processing described above after determining whether the keyword candidate extracted by the keyword candidate extraction means is a simple word is performed by the keyword candidate rejection means.

また、キーワード候補抽出手段により抽出されたキーワ
ード候補が単純語であるか否かの−に述の判定処理にお
いてキーワード候補が単純語でない、すなわち、キーワ
ード候補が複合語であると判定された場合、または、他
のキーワード候補で複合語のものがあるか否かの上述の
判定処理において他のキーワード候補で複合語のものが
ないと判定された場合には、キーワード候補をキーワー
ドとして抽出した後、一つのキーワード候補についての
抽出処理を終了する。
Further, in the above-mentioned determination process of whether the keyword candidate extracted by the keyword candidate extracting means is a simple word, if it is determined that the keyword candidate is not a simple word, that is, the keyword candidate is a compound word, Alternatively, if it is determined that there are no other keyword candidates that are compound words in the above-described determination process of whether or not there are compound words among other keyword candidates, after extracting the keyword candidates as keywords, The extraction process for one keyword candidate ends.

このような処理を全てのキーワード候補に対して行ない
、キーワードの抽出処理を終了する。
Such processing is performed for all keyword candidates, and the keyword extraction processing is completed.

このようにしてキーワードを抽出するので、不用語辞書
を用いることなく、不用語がキーワードとして抽出され
るのを防ぐことが出来る。
Since keywords are extracted in this way, it is possible to prevent unused words from being extracted as keywords without using an unused word dictionary.

なお、本実施例において、キーワード候補抽出手段は文
字種の変化点を基準にキーワード候補を抽出するもので
あるが、これに限られたものではなく、例えば、公知技
術である形態素解析を行ない、名詞や接辞が連続してい
る部分をキーワード候補とすることも出来る。
In this embodiment, the keyword candidate extracting means extracts keyword candidates based on the change points of character types, but is not limited to this. It is also possible to use parts with consecutive affixes as keyword candidates.

さらに、このようにしてキーワード候補の抽出を行なう
場合には、既にそれぞれの単語の境界と品詞が定まって
いるため、複合語分割手段は、複合語の分割時に単語テ
ーブルを使用する必要がなくなり、単語の境界に従って
複合語を分割すれば良い。
Furthermore, when keyword candidates are extracted in this way, the boundaries and parts of speech of each word have already been determined, so the compound word segmentation means no longer needs to use a word table when segmenting compound words. All you have to do is divide the compound word according to the word boundaries.

次に、本発明の第二の実施例を第4図ないし第6図に基
づいて説明する。このキーワード抽出装置は、第4図に
示すように、第1図に示したキーワード抽出装置に、キ
ーワードにならない語句を予め登録した不用語辞書と、
キーワード候補抽出手段により抽出されたキーワード候
補で前記不用語辞書に登録されているものを棄却する不
用語棄却手段と、キーワード候補棄却手段により棄却さ
れたキーワード候補の前記不用語辞書への登録を行なう
不用語登録手段とを設けたものであり、第一・の実施例
において説明した部分と同一部分についての説明は省略
する。
Next, a second embodiment of the present invention will be described based on FIGS. 4 to 6. As shown in FIG. 4, this keyword extraction device includes an unused word dictionary in which words and phrases that are not keywords are registered in advance in the keyword extraction device shown in FIG.
unword-rejecting means for rejecting keyword candidates extracted by the keyword candidate extracting means and registered in the unused word dictionary; and keyword candidates rejected by the keyword candidate rejecting means being registered in the unused word dictionary. The explanation of the same parts as those explained in the first embodiment will be omitted.

但し、前記不用語辞書は、第5図に示すようなものであ
る。
However, the unused word dictionary is as shown in FIG.

このような構成において、キーワードを抽出する場合、
第6図に示すように、キーワード候補抽出手段によりキ
ーワー ド候補か抽出され、これらのキーワード候補が
複合語分割手段により単純語に分割された後、キーワー
ド候補が不用語辞書に登録されているか否かを判定する
In such a configuration, when extracting keywords,
As shown in Figure 6, keyword candidates are extracted by the keyword candidate extracting means, and after these keyword candidates are divided into simple words by the compound word dividing means, it is determined whether the keyword candidates are registered in the non-word dictionary. Determine whether

キーワード候補が不用語辞書に登録されている場合には
、そのキーワード候補を不用語棄却手段により棄却した
後、一つのキーワード候補についての抽出処理を終了す
る。
If the keyword candidate is registered in the non-word dictionary, the keyword candidate is rejected by the non-word rejection means, and then the extraction process for one keyword candidate is ended.

また、キーワード候補が不用語辞書に登録されていない
場合には、そのキーワード候補が単純語であり、且つ、
他のキーワード候補で複合語のものが有り、且つ、その
末尾の単純語と上述の単純語のキーワード候補とが一致
するとき、そのキーワード候補を不用語登録手段により
不用語辞書に登録した後にこのキーワード候補を棄却し
、一つのキーワード候補についての抽出処理を終了する
In addition, if the keyword candidate is not registered in the non-word dictionary, the keyword candidate is a simple word, and
If there is another keyword candidate that is a compound word, and the simple word at the end matches the above-mentioned simple word keyword candidate, the keyword candidate is registered in the non-word dictionary by the non-word registration means, and then this The keyword candidate is rejected, and the extraction process for one keyword candidate is ended.

このような処理を全てのキーワード候補に対して行ない
、キーワードの抽出処理を終了する。
Such processing is performed for all keyword candidates, and the keyword extraction processing is completed.

ここで、このようなキーワード抽出処理を具体例に基づ
いて説明する。
Here, such keyword extraction processing will be explained based on a specific example.

キーワード候補抽出手段により抽出されたキーワード候
補が[実装技術jと「技術」とである場合、「実装技術
」は、単語テーブル(第2図参照)に基づき、複合語分
割手段により「実装」と「技術」とに分割される。
If the keyword candidates extracted by the keyword candidate extraction means are "implementation technology j" and "technology", "implementation technology" is divided into "implementation" and "implementation" by the compound word division means based on the word table (see Figure 2). It is divided into "Technology".

「実装」も「技術」も不用語辞書(第5図参照)には登
録されていない。
Neither "implementation" nor "technology" are registered in the dictionary of unused words (see Figure 5).

また、「技術」は「実装技術」の末尾の単純語である「
技術」と一致する。
In addition, "technology" is a simple word at the end of "implementation technology".
technology”.

このため、「技術」は不用語登録手段により不用語辞書
に登録される。
Therefore, "technique" is registered in the non-word dictionary by the non-word registration means.

さらに、「技術」は棄却され、「実装技術」のみがキー
ワードとして抽出される。
Furthermore, "technology" is rejected and only "implementation technology" is extracted as a keyword.

このようにしてキーワードを抽出するので、利用者によ
る不用語の登録を不要とし、さらに、キーワード候補棄
却手段により棄却されたキーワード候補(上述の「技術
」)が他の文書で現れた場合であっても、その語句を不
用語棄却手段によす直ちに棄却することが出来る。
Since keywords are extracted in this way, it is not necessary for the user to register unused words, and furthermore, even if the keyword candidate (the above-mentioned "technique") rejected by the keyword candidate rejection means appears in another document, However, the word can be immediately rejected by using the meaningless word rejection method.

発明の効果 請求項1記載の発明は上述のように、文書情報からキー
ワードとなる可能性のある語句をキーワード候補抽出手
段により抽出し、この抽出結果としてのキーワード候補
のうち複合語であるものを複合語分割手段により単純語
に分割し、この分割結果に基づき、キーワード候補抽出
手段により抽出された単純語のキーワード候補で他の複
合語のキーワード候補を形成する単純語と一致するもの
をキーワード候補棄却手段により棄却するので、不用語
辞書を用いることなく、不用語がキーワードとして抽出
されるのを防ぐことが出来る。
Effects of the Invention As described above, the invention as described in claim 1 extracts words and phrases that may become keywords from document information using a keyword candidate extraction means, and extracts compound words among the keyword candidates as the extraction result. The compound word dividing means divides the word into simple words, and based on the result of this division, the keyword candidate for the simple word extracted by the keyword candidate extracting means matches the simple words that form the keyword candidates for other compound words. Since the rejection means rejects the words, it is possible to prevent unused words from being extracted as keywords without using an unused word dictionary.

また、請求項2記載の発明は上述のように、キーワード
候補抽出手段により抽出されたキーワード候補で不用語
辞書に登録されているものを不用語棄却手段により棄却
し、キーワード候補棄却手段により棄却されたキーワー
ド候補を不用語登録手段により不用語辞書へ登録するの
で、利用者による不用語の登録を不要とし、さらに、キ
ーワード候補棄却手段により棄却されたキーワード候補
が他の文書で現れた場合であっても、その語句を不用語
棄却手段により直ちに棄却することが出来る。
In addition, as described above, the invention according to claim 2 is such that the keyword candidates extracted by the keyword candidate extraction means and registered in the non-word dictionary are rejected by the non-word rejection means, and the keyword candidates are rejected by the keyword candidate rejection means. Since the keyword candidates that have been found are registered in the unused word dictionary by the unused word registration means, there is no need for the user to register unused words. Even if the word or phrase is rejected, it can be immediately rejected by the non-word rejection means.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の第一の実施例を示すブロック図、第2
図は単語テーブルの内容を示す説明図、第3図は一つの
キーワード候補に対する抽出処理を示すフローチャート
、第4図は本発明の第二の実施例を示すブロック図、第
5図は不用語辞書の内容を示す説明図、第6図は一つの
キーワード候補に対する抽出処理を示すフローチャート
である。 出 願 人   株式会社 リコー 二二ロー −S+1−IH
FIG. 1 is a block diagram showing a first embodiment of the present invention, and FIG.
Figure 3 is an explanatory diagram showing the contents of the word table, Figure 3 is a flowchart showing extraction processing for one keyword candidate, Figure 4 is a block diagram showing the second embodiment of the present invention, Figure 5 is a dictionary of unused words. FIG. 6 is a flowchart showing extraction processing for one keyword candidate. Applicant Ricoh 22RO Co., Ltd.-S+1-IH

Claims (1)

【特許請求の範囲】 1、文書情報からキーワードとなる可能性のある語句を
抽出するキーワード候補抽出手段と、このキーワード抽
出手段により抽出されたキーワード候補のうち複合語で
あるものを単純語に分割する複合語分割手段と、この複
合語分割手段による分割結果に基づき前記キーワード候
補抽出手段により抽出された単純語のキーワード候補の
うち他の複合語のキーワード候補を形成する単純語と一
致するものを棄却するキーワード候補棄却手段とよりな
ることを特徴とするキーワード抽出装置。 2、キーワードにならない語句を予め登録した不用語辞
書を設け、キーワード候補抽出手段により抽出されたキ
ーワード候補で前記不用語辞書に登録されているものを
棄却する不用語棄却手段を設け、キーワード候補棄却手
段により棄却されたキーワード候補を前記不用語辞書に
登録する不用語登録手段を設けたことを特徴とする請求
項1記載のキーワード抽出装置。
[Scope of Claims] 1. Keyword candidate extraction means for extracting words that may become keywords from document information, and compound words among the keyword candidates extracted by this keyword extraction means, which are divided into simple words. and a compound word dividing means to select a keyword candidate for the simple word extracted by the keyword candidate extracting means based on the division result by the compound word dividing means, which matches a simple word forming a keyword candidate for another compound word. A keyword extraction device characterized by comprising a means for rejecting keyword candidates to be rejected. 2. An unused word dictionary is provided in which words and phrases that cannot be used as keywords are registered in advance, and an unused word rejection means is provided for rejecting keyword candidates extracted by the keyword candidate extracting means and registered in the unused word dictionary, thereby rejecting the keyword candidates. 2. The keyword extracting device according to claim 1, further comprising unused word registration means for registering keyword candidates rejected by said unused word dictionary.
JP2155733A 1990-06-14 1990-06-14 Keyword extraction device Pending JPH0452765A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2155733A JPH0452765A (en) 1990-06-14 1990-06-14 Keyword extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2155733A JPH0452765A (en) 1990-06-14 1990-06-14 Keyword extraction device

Publications (1)

Publication Number Publication Date
JPH0452765A true JPH0452765A (en) 1992-02-20

Family

ID=15612266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2155733A Pending JPH0452765A (en) 1990-06-14 1990-06-14 Keyword extraction device

Country Status (1)

Country Link
JP (1) JPH0452765A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320421A (en) * 1997-03-19 1998-12-04 Ricoh Co Ltd Document retrieving method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320421A (en) * 1997-03-19 1998-12-04 Ricoh Co Ltd Document retrieving method

Similar Documents

Publication Publication Date Title
Wacholder et al. Disambiguation of proper names in text
JP3254642B2 (en) How to display the index
Blair-Goldensohn et al. Columbia university at duc 2004
Vilares et al. LyS at CLEF RepLab 2014: Creating the State of the Art in Author Influence Ranking and Reputation Classification on Twitter.
JPH05120345A (en) Keyword extracting device
JPH0619959A (en) Proper noun specifying processing system
JPH0944523A (en) Relative word display device
JPH0452765A (en) Keyword extraction device
Clews et al. Rudimentary lexicon based method for sarcasm detection
JP2828692B2 (en) Information retrieval device
JPH06208588A (en) Document retrieving system
JP4281899B2 (en) Question document summarizing device, question answering search device, question document summarizing program
KR910017312A (en) Information retrieval system using approximate match between input string and keyword and matching method
JPH03125265A (en) Key word extracting device
JPH0944521A (en) Index generating device and document retrieval device
JPH10269205A (en) Document management device
JPH0773200A (en) Key word extracting method
JP2000112969A (en) Information extractor
RU2003104608A (en) METHOD FOR AUTOMATED PROCESSING OF INFORMATION TEXT MATERIALS
Schlaikjer et al. Columbia University at DUC 2004
JPH05233689A (en) Automatic document abstracting method
JPS6395573A (en) Method for processing unknown word in analysis of japanese sentence morpheme
JPH0785040A (en) Inscription nonuniformity detecting method and kana/ kanji converting method
JPS6368972A (en) Unregistered word processing system
JPH04188364A (en) Device for extracting intrinsic wording of japanese sentence