JP4360167B2 - Keyword extraction device, keyword extraction method, and computer program - Google Patents

Keyword extraction device, keyword extraction method, and computer program Download PDF

Info

Publication number
JP4360167B2
JP4360167B2 JP2003339365A JP2003339365A JP4360167B2 JP 4360167 B2 JP4360167 B2 JP 4360167B2 JP 2003339365 A JP2003339365 A JP 2003339365A JP 2003339365 A JP2003339365 A JP 2003339365A JP 4360167 B2 JP4360167 B2 JP 4360167B2
Authority
JP
Japan
Prior art keywords
keyword
extraction
candidate
extracted
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003339365A
Other languages
Japanese (ja)
Other versions
JP2005107793A (en
Inventor
崇 北尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003339365A priority Critical patent/JP4360167B2/en
Publication of JP2005107793A publication Critical patent/JP2005107793A/en
Application granted granted Critical
Publication of JP4360167B2 publication Critical patent/JP4360167B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラムに関する。さらに、詳細には、データベースに蓄積されたデータあるいはインターネットを介して取得されるデータなど、様々な文書データの分類に有効なキーワードの効率的な抽出を可能としたキーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラムに関する。   The present invention relates to a keyword extraction device, a keyword extraction method, and a computer program. In more detail, a keyword extraction device and a keyword extraction method that enable efficient extraction of keywords effective for classification of various document data, such as data stored in a database or data acquired via the Internet And a computer program.

データベースに蓄積された文書データあるいはインターネットを介して取得される文書データなどを分類する手法として、これまでに、様々な手法が提案されている。例えば、文書データに含まれる特徴となる複数の単語(キーワード)を選択し、その分布や出現位置などを解析し、この解析結果に基づいて分類を行う手法が広く知られている。   Various methods have been proposed so far to classify document data stored in a database or document data acquired via the Internet. For example, a technique is widely known in which a plurality of words (keywords) that are features included in document data are selected, their distribution and appearance position are analyzed, and classification is performed based on the analysis result.

文書データの分類処理を行う際に重要なのが、「分類を行うのに有効な単語」、すなわち、キーワードの選定である。従来から知られるキーワード選定手法を大きく分類すると、以下の(1)〜(3)の3つの手法に分類される。   What is important when performing document data classification processing is selection of “words effective for classification”, that is, keyword selection. Conventional keyword selection methods can be broadly classified into the following three methods (1) to (3).

(1)辞書データを用いるキーワード選定手法
辞書データを用いるキーワード選定手法は、あらかじめ文書データの分類に有効と考えられる単語群を辞書データとして登録し、登録された単語をキーワードとして用いる手法である。この辞書データをキーワードとして利用する手法は、例えば特許文献1、特許文献2に記載されている。
(1) Keyword selection method using dictionary data The keyword selection method using dictionary data is a method in which word groups that are considered to be effective for classifying document data are registered in advance as dictionary data, and the registered words are used as keywords. A method of using this dictionary data as a keyword is described in Patent Document 1 and Patent Document 2, for example.

(2)分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法
分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法は、分類対象の文書データに含まれる文書の文法に基づいた形態素解析、あるいは独自の文法ルールによる解析を行い、その結果として抽出される単語をキーワードまたはその候補として用いる手法である。この手法は、例えば特許文献3、特許文献4に記載されている。
(2) Keyword selection method by grammatical analysis of documents included in document data to be classified The keyword selection method by grammatical analysis of documents included in document data to be classified is based on the grammar of documents included in the document data to be classified. Morphological analysis or analysis based on original grammatical rules, and a word extracted as a result is used as a keyword or a candidate thereof. This technique is described in Patent Document 3 and Patent Document 4, for example.

(3)分類対象の文書データの総比較によるキーワード選定手法
分類対象の文書データの総比較によるキーワード選定手法は、分類対象とる様々な文書データ各々の総比較を行い、様々な単語の出現頻度やその組み合わせデータを解析し、その解析結果に基づいてキーワードまたはキーワード候補を抽出する手法である。この手法は、例えば特許文献5に記載されている。
(3) Keyword selection method based on total comparison of classification target document data The keyword selection method based on total comparison of classification target document data performs a total comparison of various document data to be classified, This is a method of analyzing the combination data and extracting keywords or keyword candidates based on the analysis result. This technique is described in Patent Document 5, for example.

上述したように、キーワードの抽出手法としては、様々な手法が既に提案されている。しかし、例えば上述の「(1)辞書データを用いるキーワード選定手法」は、前提となる辞書を作成するのに専門的な知識と時間がかかる上に、作成された辞書は、想定外の分野の文章に関しては十分な効果をあげないという問題がある。例えば特定の専門分野、例えば医療や金融といった専門分野の文書の分類に有効なキーワードが不十分となったり、あるいは、新しく出現してきた単語に対する対応ができないといった問題がある。   As described above, various methods have already been proposed as keyword extraction methods. However, for example, the above-mentioned “(1) Keyword selection method using dictionary data” takes specialized knowledge and time to create a prerequisite dictionary, and the created dictionary is in an unexpected field. There is a problem that the text is not effective enough. For example, there are problems that keywords that are effective for classification of documents in a specific specialized field such as medical care and finance are insufficient, or that new words that appear cannot be handled.

また、「(2)分類対象の文書データに含まれる文書の文法解析によるキーワード選定手法」は、文法ルールを定型処理化するのに専門的な知識が必要である上に、想定外の言語や、文法的に成立しない自由形式の文章に対して十分な効果をあげないという問題点がある。   In addition, “(2) Keyword selection method by grammatical analysis of documents included in document data to be classified” requires specialized knowledge to standardize grammar rules, and it is not possible to There is a problem that it does not have a sufficient effect on free-form sentences that are not grammatically established.

さらに、「(3)分類対象の文書データの総比較によるキーワード選定手法」は、処理対象となる文書データ量が増えると、その比較の処理にかかる時間が指数的に増え、処理効率が低下するという問題があり、また、日本語であれば文書中に頻出する「です」「ます」など、分類に有効な単語以外の語句が抽出されてしまうといという問題点がある。   Furthermore, in “(3) Keyword selection method based on total comparison of document data to be classified”, when the amount of document data to be processed increases, the time required for the comparison processing increases exponentially and processing efficiency decreases. In addition, there is a problem that phrases other than words that are effective for classification are extracted, such as “is” and “mass” that appear frequently in documents in Japanese.

特開2002−215647JP 2002-215647 A 特開2002−108888JP 2002-108888 特開2003−36261JP 2003-36261 A 特開2002−245061JP 2002-245061 特開2001−22752JP-A-2001-22752

本発明は、このような状況に鑑みてなされたものであり、上述した従来のキーワード抽出手法における問題点を解決したキーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラムを提供することを目的とする。   The present invention has been made in view of such circumstances, and an object of the present invention is to provide a keyword extraction device, a keyword extraction method, and a computer program that have solved the problems in the conventional keyword extraction method described above. To do.

具体的には、
a.前提となる知識(辞書、文法データ)を使用しない
b.自由形式(含、多言語)の文章に対応可能
c.高速な処理が可能
d.分類に有効な単語のみを抽出する
上記a〜dを満足することを可能としたキーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラムを提供することを目的とする。
In particular,
a. Do not use prerequisite knowledge (dictionary, grammar data) b. Can handle free-form (including multilingual) sentences c. High-speed processing is possible d. It is an object of the present invention to provide a keyword extraction device, a keyword extraction method, and a computer program that can satisfy only the above items a to d that extract only words effective for classification.

本発明の第1の側面は、
文書データからキーワードを抽出する処理を実行するキーワード抽出装置であり、
キーワード抽出処理対象となる複数の文書データから選択された2つの文書各々の共通カテゴリの特定部分データ領域を抽出し、抽出した2文書各々の特定部分データ領域を比較する照合処理を実行して、一致する文字列をキーワード候補として抽出するキーワード候補抽出手段と、
前記キーワード候補抽出手段において抽出したキーワード候補が、キーワード抽出処理対象となる複数の文書データ内に含まれる確率を示す出現確率Rを、
出現確率R=キーワード候補を含んでいた文書数/処理対象とした文書数
上記式に従って算出する存在確率算出手段と、
前記存在確率算出手段において算出した出現確率Rが、予め定めた許容値を満足する場合に、該キーワード候補を抽出キーワードとして登録するキーワード選定手段と、
を有することを特徴とするキーワード抽出装置にある。
The first aspect of the present invention is:
A keyword extraction device that executes a process of extracting a keyword from document data,
Extracting a specific partial data area of a common category of each of two documents selected from a plurality of document data to be subjected to keyword extraction processing, and performing a matching process for comparing the specific partial data areas of each of the two extracted documents; Keyword candidate extraction means for extracting matching character strings as keyword candidates;
Appearance probability R indicating the probability that the keyword candidates extracted by the keyword candidate extraction means are included in a plurality of document data to be subjected to keyword extraction processing ,
Appearance probability R = number of documents containing keyword candidates / number of documents to be processed
An existence probability calculating means for calculating according to the above formula ;
A keyword selection means for registering the keyword candidate as an extraction keyword when the appearance probability R calculated by the existence probability calculation means satisfies a predetermined allowable value;
In the keyword extraction device,

さらに、本発明のキーワード抽出装置の一実施態様において、前記特定部分データ領域は、文書データにおけるタイトル領域であり、前記キーワード候補抽出手段は、キーワード抽出処理対象となる複数の文書データから選択した2つの文書各々のタイトル領域を比較する照合処理を実行して、一致する文字列をキーワード候補として抽出する処理を実行する構成であることを特徴とする。 Further, in one embodiment of the keyword extracting device of the present invention, the specific partial data area is a title area in the document data, and the keyword candidate extracting means is selected from a plurality of document data to be subjected to keyword extraction processing. The present invention is characterized in that collation processing for comparing the title areas of two documents is executed, and processing for extracting matching character strings as keyword candidates is executed.

さらに、本発明のキーワード抽出装置の一実施態様において、前記キーワード候補抽出手段は、キーワード抽出処理対象となる複数の文書データから選択した2つの文書各々の特定部分データ領域を比較する照合処理を実行して、一致する文字列であり、かつ、予め定めた規定長以上の文字列のみをキーワード候補として抽出する処理を実行する構成であることを特徴とする。 Furthermore, in one embodiment of the keyword extracting device of the present invention, the keyword candidate extracting means executes a matching process for comparing specific partial data areas of each of two documents selected from a plurality of document data to be subjected to keyword extraction processing. to a matching string, and characterized in that it is configured to perform a process of extracting only the predetermined specified length or more strings as a keyword candidate.

さらに、本発明のキーワード抽出装置の一実施態様において、記キーワード選定手段は、前記存在確率算出手段において算出した前記出現確率Rが、予め定めた許容値を満足する場合に、該キーワード候補を抽出キーワードとして登録する処理を実行する構成であることを特徴とする。 Further, in an embodiment of the keyword extracting device of the present invention, before Symbol keyword selection unit, the occurrence probability R calculated in the existence probability calculation means, in the case of satisfying a predetermined allowable value, the keyword candidate The present invention is characterized in that a process of registering as an extracted keyword is executed.

さらに、本発明のキーワード抽出装置の一実施態様において、前記キーワード選定手段は、前記存在確率算出手段において算出した前記出現確率Rが、予め定めた下限許容値から上限許容値の範囲内にあることを条件として、該キーワード候補を抽出キーワードとして登録する処理を実行する構成であることを特徴とする。 Furthermore, in one embodiment of the keyword extracting device of the present invention, the keyword selecting means is such that the appearance probability R calculated by the existence probability calculating means is within a range from a predetermined lower limit allowable value to an upper limit allowable value. As a condition, the process of registering the keyword candidate as an extracted keyword is executed.

さらに、本発明のキーワード抽出装置の一実施態様において、前記キーワード候補抽出手段は、前記照合処理により抽出した文字列と、既に抽出済みのキーワード候補との2つの文字列の一方が、他方の文字列を含む包含関係にあるか否かを判定し、包含関係にある場合に、前記2つの文字列中、文字列長の短い文字列のみをキーワード候補として選択する処理を実行する構成であることを特徴とする。 Furthermore, in one embodiment of the keyword extracting device of the present invention, the keyword candidate extracting means is configured such that one of two character strings of the character string extracted by the matching process and the already extracted keyword candidate is the other character. It is determined whether or not there is an inclusive relationship including a column, and when there is an inclusive relationship, a process of executing only a character string having a short character string length as a keyword candidate from the two character strings is executed. It is characterized by.

さらに、本発明のキーワード抽出装置の一実施態様において、前記キーワード抽出装置は、さらに、キーワード抽出処理対象となる複数の文書データを格納するデータ蓄積手段と、抽出キーワードを格納する抽出キーワード格納部と、を有する構成であることを特徴とする。   Furthermore, in one embodiment of the keyword extracting device of the present invention, the keyword extracting device further includes data storage means for storing a plurality of document data to be subjected to keyword extraction processing, and an extracted keyword storage for storing extracted keywords. It is the structure which has these.

さらに、本発明の第2の側面は、
キーワード抽出装置において、文書データからキーワードを抽出する処理を実行するキーワード抽出方法であり、
キーワード候補抽出手段が、キーワード抽出処理対象となる複数の文書データから選択された2つの文書各々の共通カテゴリの特定部分データ領域を抽出し、抽出した2文書各々の特定部分データ領域を比較する照合処理を実行して、一致する文字列をキーワード候補として抽出するキーワード候補抽出ステップと、
存在確率算出手段が、前記キーワード候補抽出ステップにおいて抽出したキーワード候補が、キーワード抽出処理対象となる複数の文書データ内に含まれる確率を示す出現確率Rを、
出現確率R=キーワード候補を含んでいた文書数/処理対象とした文書数
上記式に従って算出する存在確率算出ステップと、
キーワード選定手段が、前記存在確率算出ステップにおいて算出した出現確率Rが、予め定めた許容値を満足する場合に、該キーワード候補を抽出キーワードとして登録するキーワード選定ステップと、
を有することを特徴とするキーワード抽出方法にある。
Furthermore, the second aspect of the present invention provides
In the keyword extraction device, a keyword extraction method for executing a process of extracting a keyword from document data,
A keyword candidate extraction unit extracts a specific partial data area of a common category of each of two documents selected from a plurality of document data to be subjected to keyword extraction processing, and compares the specific partial data areas of each of the two extracted documents A keyword candidate extraction step that executes processing and extracts matching character strings as keyword candidates;
The presence probability calculating means calculates an appearance probability R indicating the probability that the keyword candidates extracted in the keyword candidate extraction step are included in a plurality of document data to be subjected to keyword extraction processing .
Appearance probability R = number of documents containing keyword candidates / number of documents to be processed
An existence probability calculation step calculated according to the above formula ;
A keyword selection step in which the keyword selection means registers the keyword candidate as an extraction keyword when the appearance probability R calculated in the existence probability calculation step satisfies a predetermined tolerance;
The keyword extraction method is characterized by comprising:

さらに、本発明のキーワード抽出方法の一実施態様において、前記特定部分データ領域は、文書データにおけるタイトル領域であり、前記キーワード候補抽出ステップは、キーワード抽出処理対象となる複数の文書データから選択した2つの文書各々のタイトル領域を比較する照合処理を実行して、一致する文字列をキーワード候補として抽出する処理を実行するステップであることを特徴とする。 Furthermore, in one embodiment of the keyword extraction method of the present invention, the specific partial data area is a title area in the document data, and the keyword candidate extraction step is selected from a plurality of document data to be subjected to keyword extraction processing. This is a step of executing a matching process for comparing the title areas of two documents and extracting a matching character string as a keyword candidate.

さらに、本発明のキーワード抽出方法の一実施態様において、前記キーワード候補抽出ステップは、キーワード抽出処理対象となる複数の文書データから選択した2つの文書各々の特定部分データ領域を比較する照合処理を実行して、一致する文字列であり、かつ、予め定めた規定長以上の文字列のみをキーワード候補として抽出する処理を実行するステップであることを特徴とする。 Furthermore, in one embodiment of the keyword extraction method of the present invention, the keyword candidate extraction step executes a collation process for comparing specific partial data areas of each of two documents selected from a plurality of document data to be subjected to keyword extraction processing. Then, the process is a step of executing a process of extracting only character strings that match and have a predetermined length or more as keyword candidates.

さらに、本発明のキーワード抽出方法の一実施態様において、記キーワード選定ステップは、前記存在確率算出ステップにおいて算出した前記出現確率Rが、予め定めた許容値を満足する場合に、該キーワード候補を抽出キーワードとして登録する処理を実行するステップであることを特徴とする。 Furthermore, in an embodiment of the keyword extraction process of the present invention, before Symbol keyword selection step, the occurrence probability R calculated in the existence probability calculation step, if that satisfies the predetermined permissible value, the keyword candidate It is a step of executing a process of registering as an extracted keyword.

さらに、本発明のキーワード抽出方法の一実施態様において、前記キーワード選定ステップは、前記存在確率算出ステップにおいて算出した前記出現確率Rが、予め定めた下限許容値から上限許容値の範囲内にあることを条件として、該キーワード候補を抽出キーワードとして登録する処理を実行するステップであることを特徴とする。 Furthermore, in one embodiment of the keyword extraction method of the present invention, in the keyword selection step, the appearance probability R calculated in the existence probability calculation step is within a range between a predetermined lower limit allowable value and an upper limit allowable value. This is a step of executing a process of registering the keyword candidate as an extracted keyword under the above conditions.

さらに、本発明のキーワード抽出方法の一実施態様において、前記キーワード候補抽出ステップは、前記照合処理により抽出した文字列と、既に抽出済みのキーワード候補との2つの文字列の一方が、他方の文字列を含む包含関係にあるか否かを判定し、包含関係にある場合に、前記2つの文字列中、文字列長の短い文字列のみをキーワード候補として選択する処理を実行するステップであることを特徴とする。 Furthermore, in one embodiment of the keyword extraction method of the present invention, the keyword candidate extraction step includes: one of two character strings of the character string extracted by the matching process and the keyword candidate already extracted is the other character. It is a step of determining whether or not there is an inclusion relationship including a column, and executing a process of selecting only a character string having a short character string length as a keyword candidate from the two character strings in the case of the inclusion relationship It is characterized by.

さらに、本発明のキーワード抽出方法の一実施態様において、前記キーワード抽出方法は、さらに、抽出キーワードを格納する抽出キーワード格納ステップを有することを特徴とする。   Furthermore, in one embodiment of the keyword extracting method of the present invention, the keyword extracting method further includes an extracted keyword storing step for storing the extracted keyword.

さらに、本発明の第3の側面は、
キーワード抽出装置に、文書データからキーワードを抽出する処理を実行させるコンピュータ・プログラムであり、
キーワード候補抽出手段に、キーワード抽出処理対象となる複数の文書データから選択された2つの文書各々の共通カテゴリの特定部分データ領域を抽出し、抽出した2文書各々の特定部分データ領域を比較する照合処理を実行させ、一致する文字列をキーワード候補として抽出させるキーワード候補抽出ステップと、
存在確率算出手段に、前記キーワード候補抽出ステップにおいて抽出したキーワード候補が、キーワード抽出処理対象となる複数の文書データ内に含まれる確率を示す出現確率Rを、
出現確率R=キーワード候補を含んでいた文書数/処理対象とした文書数
上記式に従って算出させる存在確率算出ステップと、
キーワード選定手段に、前記存在確率算出ステップにおいて算出した出現確率Rが、予め定めた許容値を満足する場合に、該キーワード候補を抽出キーワードとして登録させるキーワード選定ステップと、
実行させることを特徴とするコンピュータ・プログラムにある。
Furthermore, the third aspect of the present invention provides
A computer program that causes a keyword extraction device to execute processing for extracting keywords from document data,
The keyword candidate extraction unit extracts a specific partial data area of a common category of each of two documents selected from a plurality of document data to be subjected to keyword extraction processing, and compares the specific partial data areas of each of the two extracted documents. A keyword candidate extraction step for executing processing and extracting matching character strings as keyword candidates;
In the presence probability calculation means, an appearance probability R indicating the probability that the keyword candidates extracted in the keyword candidate extraction step are included in a plurality of document data to be subjected to keyword extraction processing is calculated .
Appearance probability R = number of documents containing keyword candidates / number of documents to be processed
An existence probability calculating step for calculating according to the above formula ;
A keyword selection unit, occurrence probability R calculated in the existence probability calculation step, if that satisfies the predetermined permissible value, the keyword selection step of causing registers the keyword candidate as extracted keyword,
In a computer program characterized by causing

なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。   The computer program of the present invention is, for example, a storage medium or communication medium provided in a computer-readable format to a computer system capable of executing various program codes, such as a CD, FD, or MO. It is a computer program that can be provided by a recording medium or a communication medium such as a network. By providing such a program in a computer-readable format, processing corresponding to the program is realized on the computer system.

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。   Other objects, features, and advantages of the present invention will become apparent from a more detailed description based on embodiments of the present invention described later and the accompanying drawings. In this specification, the system is a logical set configuration of a plurality of devices, and is not limited to one in which the devices of each configuration are in the same casing.

本発明の構成によれば、キーワードの抽出処理において、キーワード抽出処理対象となる複数の文書データ各々のタイトル等の特定部分データ領域のみを対象とした文字列の照合処理を実行し、さらに文字列長や、包含関係判定などによる絞込みを行なってキーワード候補を選定し、その限られたキーワード候補について、文書データ中の存在確率を算出し、存在確率が許容確率にある場合にのみ、キーワードとして登録する処理を実行する構成としたので、例えば全文検索に基づく出現頻度算出処理を必要とするような従来のキーワード選定技術に比べて高速なキーワード抽出が可能となる。   According to the configuration of the present invention, in the keyword extraction process, a character string matching process is performed only for a specific partial data area such as a title of each of a plurality of document data to be subjected to the keyword extraction process. Select keyword candidates by narrowing down by length and inclusion relation determination, etc., calculate the existence probability in the document data for the limited keyword candidates, and register it as a keyword only when the existence probability is within the allowable probability Therefore, it is possible to extract a keyword at a higher speed than a conventional keyword selection technique that requires an appearance frequency calculation process based on a full text search, for example.

本発明の構成によれば、上述のように、高速なキーワード検出が可能であり、例えば、入力された文章からリアルタイムにキーワードを取り出し、取り出したキーワードに基づいて新たな文書検索処理を行うといった処理に適用することも可能となる。例えば自由文章入力方式の検索システムなどに応用することも可能となる。   According to the configuration of the present invention, as described above, it is possible to detect a keyword at high speed. For example, a process in which a keyword is extracted from an input sentence in real time and a new document search process is performed based on the extracted keyword. It is also possible to apply to. For example, it can be applied to a free text input type search system.

また、本発明によるキーワード抽出処理は、前提とする知識を一切必要としない構成であり、キーワード抽出処理対象となる文書データを入力するのみで、何らの事前知識を持たないユーザであっても容易にキーワードの抽出が可能となる。従って、例えば未知の言語の解読の補助材料として使用するといった応用も可能となる。   Further, the keyword extraction process according to the present invention does not require any pre-requisite knowledge, and it is easy even for a user who does not have any prior knowledge only by inputting document data to be subjected to the keyword extraction process. It is possible to extract keywords. Therefore, for example, an application such as use as an auxiliary material for decoding an unknown language is possible.

また、本発明の構成によれば、
a.前提となる知識(辞書、文法データ)を使用しない
b.自由形式(含、多言語)の文章に対応可能
c.高速な処理が可能
d.分類に有効な単語のみを抽出する
これらa〜dの条件を満足するキーワード抽出処理構成が実現される。
Moreover, according to the configuration of the present invention,
a. Do not use prerequisite knowledge (dictionary, grammar data) b. Can handle free-form (including multilingual) sentences c. High-speed processing is possible d. Only a word effective for classification is extracted. A keyword extraction processing configuration that satisfies these conditions a to d is realized.

以下、図面を参照しながら本発明のキーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラムの詳細について説明する。   Details of the keyword extraction device, the keyword extraction method, and the computer program of the present invention will be described below with reference to the drawings.

本発明のキーワード抽出装置、およびキーワード抽出方法においては、処理対象となるデータ、すなわちキーワードの抽出処理対象データは、「人間が読むことを前提とした文章」全般であり、言語やその形式は一切問わない。   In the keyword extraction device and the keyword extraction method of the present invention, the data to be processed, that is, the keyword extraction processing target data is “sentences that are supposed to be read by humans” in general, and the language and its format are not at all. It doesn't matter.

例えばインターネットを介して閲覧可能なサイトのコンテンツ、あるいは、データベースに格納されたコンテンツなどから、ユーザの希望するカテゴリのコンテンツを的確に検索するためには、コンテンツ中の文書データに含まれる単語、すなわちキーワードを的確に選定することが必要となる。本発明のキーワード抽出装置、およびキーワード抽出方法では、このような、的確なキーワード検索を実行するものであり、
a.前提となる知識(辞書、文法データ)を使用しない
b.自由形式(含、多言語)の文章に対応可能
c.高速な処理が可能
d.分類に有効な単語のみを抽出する
上記a〜dを満足することを可能とした処理を実現する。
For example, in order to accurately search content of a category desired by a user from content of a site that can be browsed via the Internet or content stored in a database, words included in document data in the content, that is, It is necessary to select keywords accurately. In the keyword extraction device and the keyword extraction method of the present invention, such an accurate keyword search is executed.
a. Do not use prerequisite knowledge (dictionary, grammar data) b. Can handle free-form (including multilingual) sentences c. High-speed processing is possible d. Only a word effective for classification is extracted. Processing that makes it possible to satisfy the above a to d is realized.

例えばインターネット等を介して閲覧可能なホームページ等の情報は、HTML(Hypertext Markup Language)によって記述されたデータファイルによって構成され、例えばヘッダ情報、タイトル情報などを予め定められたタグによって区分して記述する構成となっている。   For example, information such as a homepage that can be browsed via the Internet is configured by a data file described in HTML (Hypertext Markup Language), and for example, header information, title information, and the like are classified and described by predetermined tags. It has a configuration.

HTML記述データのみならず、「人間が読むことを前提とした文章」は、多くの場合、目的とする対象の人に読んでもらうために、タイトルがついている場合が多い。タイトルつきの文書データの具体例としては、上述したインターネット上で公開されているホームページの他に、電子メールのメッセージ、また小説、エッセイなどの様々な文書データがある。   In many cases, not only HTML description data but also “sentences that are presumed to be read by humans” have titles in order to be read by the intended target person. Specific examples of document data with a title include various document data such as e-mail messages, novels, and essays, in addition to the above-described homepage published on the Internet.

本発明のキーワード抽出処理においては、主にタイトルつきの文書データに注目することでキーワードの抽出を行う。   In the keyword extraction process of the present invention, keywords are extracted mainly by paying attention to document data with a title.

本発明のキーワード抽出処理手順をまとめると、以下の通りである。   The keyword extraction processing procedure of the present invention is summarized as follows.

ステップ1.文章データの入力(タイトルのある、なしに関わらず)
ステップ2.文章データの蓄積
ステップ3.タイトルつき文章データのタイトルを比較して、最も長く一致する文字列、すなわち、一致文字列領域から選択される最長文字列を取得
ステップ4.抽出した文字列が規定値以上の長さならばキーワード候補として蓄積
ステップ5.新しいキーワード候補が既出のキーワード候補と包含関係にある場合は、長さの短いキーワード候補のみを残す
ステップ6.キーワード候補の全文章(含、タイトルなしデータ)における存在頻度(その単語の存在する文章数/検索対象文章数)を調査
ステップ7.存在頻度の高すぎるキーワード候補と低すぎるキーワード候補を削除
ステップ8.残ったキーワード候補を分類に用いるキーワードとして蓄積
Step 1. Text data input (with or without title)
Step 2. Accumulation of sentence data Step 3. 3. Compare the titles of the text data with titles to obtain the longest matching character string, that is, the longest character string selected from the matching character string region. 4. If the extracted character string is longer than the specified value, it is stored as a keyword candidate. If the new keyword candidate is in an inclusive relationship with the existing keyword candidate, leave only the short keyword candidate. Investigate the presence frequency (number of sentences in which the word exists / number of sentences to be searched) in all sentences (including data without title) of keyword candidates Step 7. Delete keyword candidates that are too frequent and keyword candidates that are too low Step 8 Accumulate remaining keyword candidates as keywords to be used for classification

以上の処理手順に従って、キーワード抽出処理を実行する。図1を参照して本発明のキーワード抽出装置の構成について説明する。   The keyword extraction process is executed according to the above processing procedure. The configuration of the keyword extracting device of the present invention will be described with reference to FIG.

本発明のキーワード抽出装置は、図1に示すように、文字列からなる文書データを入力するための入力手段101、入力手段101から入力した文書データを記憶格納するデータ蓄積手段105、データ蓄積手段105に格納した複数の文書データから各々特定部分データ領域、例えばタイトルデータ領域を抽出し、抽出した複数の特定部分データ領域(タイトル)に含まれる文字列中から一致文字列領域を抽出し、一致文字列領域から選択される最長文字列を抽出し、抽出した文字列をキーワード候補とするか否かの判定処理を実行するキーワード候補抽出手段102を有する。   As shown in FIG. 1, the keyword extraction apparatus of the present invention includes an input unit 101 for inputting document data consisting of character strings, a data storage unit 105 for storing and storing document data input from the input unit 101, and a data storage unit. 105, a specific partial data area, for example, a title data area, is extracted from each of the plurality of document data stored in 105, and a matching character string area is extracted from the character strings included in the extracted specific partial data areas (titles). The longest character string selected from the character string area is extracted, and a keyword candidate extraction unit 102 for executing a process for determining whether or not the extracted character string is a keyword candidate.

さらに、キーワード候補抽出手段102により抽出されたキーワード候補を格納するキーワード候補格納部106、キーワード候補抽出手段102により抽出されたキーワード候補の存在頻度(確率)、すなわち、多数の処理対象文書データ中のキーワード候補の存在確率を計算する存在確率算出手段103と、存在確率算出手段103の算出した各キーワードの存在確率データに基づいてキーワード候補から、最終的な抽出キーワードとして選定するか否かを判定する最終抽出キーワード選定手段104、最終抽出キーワード選定手段104の選択した最終的な抽出キーワードを格納するキーワード格納部107を有する。   Further, the keyword candidate storage unit 106 for storing the keyword candidates extracted by the keyword candidate extraction unit 102, the existence frequency (probability) of the keyword candidates extracted by the keyword candidate extraction unit 102, that is, in a large number of processing target document data Existence probability calculating means 103 for calculating the existence probability of the keyword candidate, and determining whether or not to select as a final extracted keyword from the keyword candidates based on the existence probability data of each keyword calculated by the existence probability calculating means 103 The final extraction keyword selection unit 104 has a keyword storage unit 107 that stores the final extraction keyword selected by the final extraction keyword selection unit 104.

図1に示すキーワード抽出装置は、本発明のキーワード抽出装置の実行する処理を説明するために、本発明のキーワード抽出装置の実行する処理、機能毎にブロックとして示したブロック図である。本発明のキーワード抽出装置は、例えばパーソナル・コンピュータなどの情報処理装置によって構成可能であり、後段で説明する本発明のキーワード抽出処理シーケンスを実行するプログラムを実行する制御部(CPU)を備え、主記憶装置、外部記憶装置、入力手段101としてのマウスおよびキーボード、ならびに表示手段としてのディスプレイ等を備えた構成において実現される。   The keyword extraction device shown in FIG. 1 is a block diagram shown as a block for each process and function executed by the keyword extraction device of the present invention in order to explain the processing executed by the keyword extraction device of the present invention. The keyword extraction device of the present invention can be configured by an information processing device such as a personal computer, and includes a control unit (CPU) that executes a program for executing the keyword extraction processing sequence of the present invention described later. The present invention is realized in a configuration including a storage device, an external storage device, a mouse and keyboard as input means 101, a display as display means, and the like.

図2を参照して、本発明のキーワード抽出装置を構成するパーソナル・コンピュータ等の情報処理装置のハードウェア構成例を説明する。   With reference to FIG. 2, a hardware configuration example of an information processing apparatus such as a personal computer constituting the keyword extracting apparatus of the present invention will be described.

CPU(Central Processing Unit)301は、各種プログラムを実行するプロセッサである。例えばROM(Read Only Memory)302、またはHDD304等に記憶されているプログラムに従って、各種の処理を実行し、データ処理手段、あるいは通信制御処理手段として機能する。ROM(Read-Only-Memory)302は、CPU301が実行するプログラム、あるいは演算パラメータとしての固定データを格納する。RAM(Random Access Memory)303は、CPU301の処理において実行されるプログラム、およびプログラム処理において適宜変化するパラメータの格納エリア、ワーク領域として使用される。CPU301、ROM302、およびRAM303、HDD304は、バス305を介して相互に接続されている。   A CPU (Central Processing Unit) 301 is a processor that executes various programs. For example, various processes are executed in accordance with a program stored in a ROM (Read Only Memory) 302, an HDD 304, or the like, and functions as a data processing unit or a communication control processing unit. A ROM (Read-Only-Memory) 302 stores programs executed by the CPU 301 or fixed data as calculation parameters. A RAM (Random Access Memory) 303 is used as a storage area and work area for programs executed in the processing of the CPU 301 and parameters that change as appropriate in the program processing. The CPU 301, ROM 302, RAM 303, and HDD 304 are connected to each other via a bus 305.

バス305は、例えばPCI(Peripheral Component Internet/Interface)バス等により構成され、各モジュール、入出力インタフェース306を介した各入出力装置とのデータ転送を可能にしている。   The bus 305 is configured by a PCI (Peripheral Component Internet / Interface) bus, for example, and enables data transfer with each module and each input / output device via the input / output interface 306.

入出力インタフェース306には、例えば、ユーザにより操作されるキーボード、スイッチ、ボタン、あるいはマウス等により構成される入力部307、ユーザに各種の情報を提示するLCD、CRT、スピーカ等により構成される出力部308が接続される。さらに、データ送受信手段として機能する通信部309、さらに、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体311を装着可能で、これらのリムーバブル記録媒体311からのデータ読み出しあるいは書き込み処理を実行するドライブ310が接続される。   The input / output interface 306 includes, for example, an input unit 307 configured with a keyboard, a switch, a button, or a mouse operated by the user, an output configured with an LCD, a CRT, a speaker, etc. that presents various information to the user. The unit 308 is connected. Further, a communication unit 309 functioning as a data transmission / reception means, and a removable recording medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory can be mounted, and data reading or writing processing from these removable recording media 311 is possible. Is connected.

図1に示す入力手段101から入力する文書データは、図2において、ユーザにより操作されるキーボード、スイッチ、ボタン、あるいはマウス等により構成される入力部307、または、通信部309、あるいは磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体311から入力される。   Document data input from the input unit 101 shown in FIG. 1 includes an input unit 307 configured by a keyboard, a switch, a button, or a mouse operated by a user, a communication unit 309, or a magnetic disk in FIG. It is input from a removable recording medium 311 such as an optical disk, a magneto-optical disk, or a semiconductor memory.

すなわち、図1に示す入力手段101から入力される文書データは、ユーザがキーボードを操作して入力する文書データ、あるいは通信部を介して例えばインターネット等の通信網から入力するデータ、あるいは、リムーバブル記録媒体からの入力データなど、様々な文書データであり、これらの様々な文書データを対象としてキーワード抽出処理が実行される。   That is, the document data input from the input unit 101 shown in FIG. 1 is document data input by the user by operating the keyboard, data input from a communication network such as the Internet via the communication unit, or removable recording. Various types of document data such as input data from a medium, and keyword extraction processing is executed on these various types of document data.

また、図1に示すキーワード候補抽出手段102、存在確率算出手段103、最終抽出キーワード選定手段104は、具体的には、データ処理手段として機能する図2に示すCPU301に対応する。CPU301が、例えばHDD304、あるいはRAM303に格納された処理プログラムにしたがって図1に示すキーワード候補抽出手段102、存在確率算出手段103、最終抽出キーワード選定手段104に対応した各処理を実行する。具体的な処理シーケンスについては後述する。   Further, the keyword candidate extraction unit 102, the existence probability calculation unit 103, and the final extraction keyword selection unit 104 shown in FIG. 1 correspond to the CPU 301 shown in FIG. 2 that functions as a data processing unit. The CPU 301 executes each process corresponding to the keyword candidate extraction unit 102, the existence probability calculation unit 103, and the final extraction keyword selection unit 104 shown in FIG. 1 according to a processing program stored in the HDD 304 or the RAM 303, for example. A specific processing sequence will be described later.

さらに、図1に示すデータ蓄積手段105、キーワード候補格納部106、キーワード格納部107は、図2に示すHDD304、リムーバブル記録媒体311、RAM303など、の各種のデータ記憶手段に対応する。   Further, the data storage unit 105, the keyword candidate storage unit 106, and the keyword storage unit 107 shown in FIG. 1 correspond to various data storage units such as the HDD 304, the removable recording medium 311, and the RAM 303 shown in FIG.

次に、図3を参照して、本発明のキーワード抽出処理の処理アルゴリズムについて説明する。図3に示すフローは、入力文書データからキーワード候補を抽出するアルゴリズムを説明するフロー図である。すなわち、図1に示すキーワード候補抽出手段102の実行する処理の詳細を説明するフロー図である。   Next, a processing algorithm for keyword extraction processing according to the present invention will be described with reference to FIG. The flow shown in FIG. 3 is a flowchart illustrating an algorithm for extracting keyword candidates from input document data. That is, it is a flowchart for explaining details of processing executed by the keyword candidate extraction unit 102 shown in FIG.

また図4は、抽出されたキーワード候補から最終的な抽出キーワードを選択するアルゴリズムを説明するフロー図である。すなわち、図1に示す存在確率算手段103、および最終抽出キーワード選定手段104の実行する処理の詳細を説明するフロー図である。   FIG. 4 is a flowchart for explaining an algorithm for selecting a final extracted keyword from extracted keyword candidates. That is, it is a flowchart for explaining the details of processing executed by the existence probability calculating means 103 and the final extracted keyword selecting means 104 shown in FIG.

まず、図3を参照して、キーワード候補抽出手段102の実行する処理、すなわち、入力文書データからキーワード候補を抽出する処理の詳細を説明する。   First, with reference to FIG. 3, the details of the process executed by the keyword candidate extraction unit 102, that is, the process of extracting the keyword candidate from the input document data will be described.

まず、ステップS101において、データ蓄積手段105からキーワードを抽出する任意の2つの文書データを取り出し、取り出した2つの文書データの各々の特定部分データ領域、例えばタイトルデータ領域を抽出する。なお、ここでは、文書データ中の特定部分データ領域としてタイトルデータ領域を抽出し、タイトル中の文字列に対する処理例として説明するが、処理対象とする特定部分データ領域は、必ずしもタイトルとして定義されたデータに限るものではなく、例えば文書データを構成する「見出し語」、文書データを構成する文字列中の最初のn文字などを処理対象の特定部分データ領域として抽出して、これらをキーワード抽出処理対象データ領域と設定する構成としてもよい。   First, in step S101, two arbitrary document data from which keywords are extracted are extracted from the data storage unit 105, and specific partial data areas, for example, title data areas, of the two extracted document data are extracted. Here, the title data area is extracted as the specific partial data area in the document data and will be described as a processing example for the character string in the title. However, the specific partial data area to be processed is not necessarily defined as a title. Not limited to data, for example, “headwords” constituting document data, the first n characters in a character string constituting document data are extracted as specific partial data areas to be processed, and these are subjected to keyword extraction processing It is good also as a structure set with an object data area.

処理対象データから容易にタイトルを抽出可能なデータ、例えばHTMLデータなどの文書データにおいては、タイトルタグによって識別される文字列を、各文書データから抽出する。このようなタグのない文書データについては、最初のn文字を抽出する、あるいは、ユーザが入力するタイトル対応の文字列データを適用してもよい。タイトルのない、あるいはタイトル抽出の不可能な文書については、図3に示す処理フローは省略する。ただし、データ蓄積手段105への文書データの格納は実行される。これらのタイトル抽出の不可能な文書データについては、後段で説明する図3に示す処理フロー中の存在確率算出処理などにおいて利用される。   In data that can easily extract a title from processing target data, for example, document data such as HTML data, a character string identified by a title tag is extracted from each document data. For document data without such a tag, the first n characters may be extracted, or the character string data corresponding to the title input by the user may be applied. The processing flow shown in FIG. 3 is omitted for a document with no title or title extraction impossible. However, storage of document data in the data storage means 105 is executed. Such document data that cannot be extracted is used in the existence probability calculation processing in the processing flow shown in FIG. 3 described later.

なお、図3に示す処理フローは、処理対象となる入力文書データのすべての組み合わせについて行う。以下、説明するステップS101以下の処理は、その1つの組み合わせ、すなわち、2つの文書データから抽出した2つのタイトルに対応する処理例である。すなわち、キーワード候補抽出手段102は、入力文書データのすべての組み合わせについて、図3に示すフローを実行し、キーワード候補の抽出処理を実行する。   Note that the processing flow shown in FIG. 3 is performed for all combinations of input document data to be processed. Hereinafter, the processing after step S101 to be described is a processing example corresponding to one combination, that is, two titles extracted from two document data. That is, the keyword candidate extraction unit 102 executes the flow shown in FIG. 3 for all combinations of input document data, and executes keyword candidate extraction processing.

ステップS101において選択した2つの文書データ中のタイトルをX,Yとする。ステップS102では、キーワード抽出処理対象となる複数の文書データ各々の特定部分データ領域、すなわち、2つのタイトルX,Y中に含まれる文字列の照合処理を実行しタイトルX,Y中に含まれる一致文字列領域から選択される最長文字列の集合(最も長く一致する文字列集合)を検索する。   The titles in the two document data selected in step S101 are X and Y. In step S102, collation processing of character strings included in the specific partial data areas of each of the plurality of document data to be subjected to keyword extraction processing, that is, the two titles X and Y, is performed, and the matching included in the titles X and Y is performed. The longest character string set selected from the character string area (longest matching character string set) is searched.

例えば、キーワード抽出対象として、
X=「フラワーロックとおもちゃのサイト」というタイトルと、
Y=「全国のフラワーショップサイトの紹介」というタイトルと、
を選んだ場合は、まず、2つのタイトルX,Y中の一致文字列領域から選択される最長文字列の集合[文字列集合A]として、「の」「フラワー」「サイト」の3つの文字列を要素とした集合が検出される。
For example, as a keyword extraction target,
X = “Flower Rock and Toy Site”
Y = “Introducing flower shop sites nationwide”
Is selected, the three characters “NO”, “FLOWER”, and “SITE” are set as the longest character string set [character string set A] selected from the matching character string areas in the two titles X and Y. A set whose elements are columns is detected.

すなわち、
X=「フラワーロックとおもちゃのサイト」というタイトルと、
Y=「全国のフラワーショップサイトの紹介」というタイトルと、
を選んだ場合の文字列集合Aは、
文字列集合A={の,フラワー,サイト}
となる。
That is,
X = “Flower Rock and Toy Site”
Y = “Introducing flower shop sites nationwide”
When A is selected, the character string set A is
String set A = {no, flower, site}
It becomes.

なお、「フラワー」の部分集合にあたる「フラ」「ラワー」などの文字列は、一致文字列領域から選択される最長文字列(最も長く一致する文字列)という条件を満たさないため検出されることはない。   Note that character strings such as “Hula” and “Lower”, which are a subset of “Flower”, are detected because they do not satisfy the condition of the longest character string (longest matching character string) selected from the matching character string area. There is no.

ステップS103では、ステップS102において検出した文字列集合Aから文字列をひとつずつ取り出し、文字列Sとして設定する。例えば、
文字列集合A={の,フラワー,サイト}
である場合、
第1番目の文字列Sには、
文字列S=[の]
として設定される。
In step S103, character strings are extracted one by one from the character string set A detected in step S102 and set as the character string S. For example,
String set A = {no, flower, site}
If it is,
In the first character string S,
String S = [no]
Set as

ステップS104では、文字列Sの文字数が、あらかじめ定めた規定値よりも少ないか否かを判定する。文字列Sの文字数が、あらかじめ定めた規定値よりも少ない場合は、キーワード候補として登録しない。例えば規定値が3であった場合は、上述の文字列集合Aに含まれる文字列「の」「フラワー」「サイト」のうち、「の」がキーワード候補から外れる。   In step S104, it is determined whether or not the number of characters in the character string S is less than a predetermined value. If the number of characters in the character string S is less than a predetermined value, it is not registered as a keyword candidate. For example, when the specified value is 3, “no” is excluded from the keyword candidates among the character strings “no”, “flower”, and “site” included in the character string set A described above.

ステップS105では、文字列Sが既出のキーワード候補Kと包含関係にないか判定を行う。例えばすでにキーワード候補Kとして「フラワーズ」という文字列が登録されていた場合(キーワード候補格納部106に格納済みである場合)、文字列S=「フラワー」は、キーワード候補K=「フラワーズ」に含まれる文字列、すなわち包含関係にあるため、ステップS105の判定はYesとなり、後述のステップS108に進む。   In step S105, it is determined whether or not the character string S is in an inclusive relationship with the keyword candidate K described above. For example, when the character string “Flowers” has already been registered as the keyword candidate K (when stored in the keyword candidate storage unit 106), the character string S = “flower” is included in the keyword candidate K = “flowers”. Since the character string is in an inclusive relationship, the determination in step S105 is Yes, and the process proceeds to step S108 described later.

包含関係にある文字列とは、文字列Aと文字列Bの各構成文字列を比較した場合、一方の構成文字列がすべて他方の構成文字列に含まれる関係をいう。   A character string in an inclusive relationship refers to a relationship in which one constituent character string is included in the other constituent character string when the constituent character strings of the character string A and the character string B are compared.

ステップS105において、文字列Sが既出のキーワード候補Kと包含関係にないと判定した場合は、ステップS105の判定はNoとなり、ステップS106に進み、文字列Sはキーワード候補として登録される。すなわち、文字列Sは、キーワード候補として、図1に示すキーワード候補格納部106に格納される。   If it is determined in step S105 that the character string S is not in an inclusive relationship with the keyword candidate K, the determination in step S105 is No, the process proceeds to step S106, and the character string S is registered as a keyword candidate. That is, the character string S is stored as a keyword candidate in the keyword candidate storage unit 106 shown in FIG.

ステップS105の判定がYes、すなわち、文字列Sが既出のキーワード候補Kと包含関係にあると判定した場合は、ステップS108に進み、文字列Sと包含関係にあると判定されたキーワード候補格納部106に格納済みのキーワード候補Kと、文字列Sとの文字列の長さの比較を行う。   If the determination in step S105 is Yes, that is, if it is determined that the character string S is in an inclusive relationship with the keyword candidate K, the keyword candidate storage unit determined to be in an inclusive relationship with the character string S is advanced to step S108. The lengths of the character strings of the keyword candidate K stored in 106 and the character string S are compared.

文字列Sの文字列長が、キーワード候補Kの文字列長より短い場合、すなわち、
Sの文字列長≧Kの文字列長
が否定される場合(ステップS108:No)
にのみ、ステップS109に進み、文字列Sをキーワード候補Kに置き換えてキーワード候補として登録する。この置き換え処理において、文字列Sは、キーワード候補として、図1に示すキーワード候補格納部106に格納され、キーワード候補Kは、キーワード候補格納部106から削除される。
When the character string length of the character string S is shorter than the character string length of the keyword candidate K, that is,
When the character string length of S ≧ character string length of K is denied (step S108: No)
In step S109, the character string S is replaced with the keyword candidate K and registered as a keyword candidate. In this replacement process, the character string S is stored as a keyword candidate in the keyword candidate storage unit 106 shown in FIG. 1, and the keyword candidate K is deleted from the keyword candidate storage unit 106.

Sの文字列長≧Kの文字列長
が肯定される場合(ステップS108:Yes)
には、文字列Sは、キーワード候補として登録することなく、キーワード候補Kのキーワード候補格納部106への格納状態を維持する。
When the character string length of S ≧ character string length of K is affirmed (step S108: Yes)
The character string S is not registered as a keyword candidate, but maintains the storage state of the keyword candidate K in the keyword candidate storage unit 106.

このように、包含関係にある場合は、より短い文字列長の文字列が、キーワード候補として選択し、登録する。   As described above, when the relationship is inclusive, a character string having a shorter character string length is selected and registered as a keyword candidate.

前述の例、すなわち、
文字列S=「フラワー」
キーワード候補K=「フラワーズ」
の場合は、
キーワード候補K=「フラワーズ」がキーワード候補格納部106から削除され、文字列S=「フラワー」が新たに、キーワード候補としてキーワード候補格納部106に格納される。
The previous example, ie
String S = "Flower"
Keyword candidate K = "Flowers"
In the case of,
The keyword candidate K = “flowers” is deleted from the keyword candidate storage unit 106, and the character string S = “flower” is newly stored in the keyword candidate storage unit 106 as a keyword candidate.

ステップS107では、文字列集合Aに含まれる文字列についての処理がすべて実行されたか否かを判定し、未処理文字列がある場合は、ステップS103以下の処理を未処理文字列について実行し、文字列集合Aに含まれる文字列についての処理がすべて実行されたことがステップS107において確認されると処理を終了する。   In step S107, it is determined whether or not all the processes for the character strings included in the character string set A have been executed. If there are unprocessed character strings, the processes in and after step S103 are executed for the unprocessed character strings. When it is confirmed in step S107 that all the processes for the character strings included in the character string set A have been executed, the process ends.

以上の処理によって、キーワード候補抽出手段102の処理が終了する。なお、前述したように、キーワード候補抽出手段102は、入力する複数の文書データのすべての組み合わせについて、図3に示すフローを実行し、キーワード候補の抽出処理を実行する。従って、キーワード候補格納部106には、入力する複数の文書データのすべての組み合わせについて、図3に示すフローに従って抽出されたキーワード候補が格納されることになる。   With the above processing, the processing of the keyword candidate extraction unit 102 ends. As described above, the keyword candidate extraction unit 102 performs the keyword candidate extraction process by executing the flow shown in FIG. 3 for all combinations of a plurality of input document data. Therefore, keyword candidates extracted according to the flow shown in FIG. 3 for all combinations of a plurality of input document data are stored in the keyword candidate storage unit 106.

次に、図4を参照して、抽出キーワード候補から最終的な抽出キーワードを選択するアルゴリズムについて説明する。この図4に示す処理フローは、図1に示す存在確率算手段103、および最終抽出キーワード選定手段104が実行する処理である。   Next, an algorithm for selecting a final extracted keyword from extracted keyword candidates will be described with reference to FIG. The processing flow shown in FIG. 4 is processing executed by the existence probability calculating means 103 and the final extracted keyword selecting means 104 shown in FIG.

なお、図4に示す処理は、キーワード候補格納部106に格納されたキーワード候補Kについて、順次実行する処理である。   Note that the process illustrated in FIG. 4 is a process that is sequentially executed for the keyword candidate K stored in the keyword candidate storage unit 106.

まず、図1に示す存在確率算手段103は、ステップS201において、キーワード候補格納部106に格納された1つのキーワード候補Kを取り出し、キーワード候補Kが、処理対象文書データ、すなわち、図1に示すデータ蓄積手段105に格納された文書データの各々に存在している(使用されている)か否かを調べる。   First, the existence probability calculation means 103 shown in FIG. 1 takes out one keyword candidate K stored in the keyword candidate storage unit 106 in step S201, and the keyword candidate K is processed document data, that is, shown in FIG. It is checked whether or not each document data stored in the data storage means 105 exists (is used).

ここで、存在有無の調査対象となる文書データは、データ蓄積手段105に格納された文書データであり、タイトルの抽出不可能な文書データも含むデータである。例えば50の文書データがデータ蓄積手段105に格納されている場合は、50の文書データの各々について、キーワード候補Kが使用されているか否かを調べる。   Here, the document data to be examined for presence / absence is document data stored in the data storage means 105, and is data including document data from which titles cannot be extracted. For example, when 50 document data are stored in the data storage unit 105, it is checked whether or not the keyword candidate K is used for each of the 50 document data.

ただし、データ蓄積手段105に格納されている文書数が大量である場合は、蓄積文書データから無作為に抽出した所定数の文書データのみを、キーワード候補Kの存在有無の調査対象として選択してもよい。   However, when the number of documents stored in the data storage unit 105 is large, only a predetermined number of document data randomly extracted from the stored document data are selected as the investigation targets for the existence of the keyword candidate K. Also good.

なお、ここではより高速な処理を行うため、キーワード候補Kが、データ蓄積手段105に格納されている文書データ中に含まれるか否かの存在の有無、すなわち、文書データ内に含まれる確率としてのキーワード存在確率のみを調べる処理例としているが、キーワード候補Kが、データ蓄積手段105に格納されている文書データ中に出現する頻度、すなわち出現頻度を調べる構成としてもよい。   Here, in order to perform higher-speed processing, whether or not the keyword candidate K is included in the document data stored in the data storage unit 105 is present, that is, as a probability of being included in the document data. However, it is also possible to adopt a configuration in which the frequency at which the keyword candidate K appears in the document data stored in the data storage unit 105, that is, the appearance frequency is checked.

ステップS202でキーワード候補Kについての出現確率Rを計算する。出現確率Rは、
出現確率R=キーワード候補Kを含んでいた文章数/検索対象とした文章数
という式で計算される。
In step S202, the appearance probability R for the keyword candidate K is calculated. The appearance probability R is
Appearance probability R = the number of sentences including keyword candidate K / the number of sentences to be searched is calculated by the following formula.

たとえば、
検索対象とした文章数=50
キーワード候補Kを含んでいた文章数=25
の場合は、
出現確率R=25/50=0.5
と計算される。
For example,
Number of sentences to be searched = 50
Number of sentences containing keyword candidate K = 25
In the case of,
Appearance probability R = 25/50 = 0.5
Is calculated.

続くステップS203、S204、S205の処理は、最終抽出キーワード選定手段104が実行する処理である。まず、ステップS203では、キーワード候補Kの存在確率Rが予め定めた上限閾値[Lmax]以上であるかが判定され、ステップS204では、キーワード候補Kの存在確率Rが予め定めた下限閾値[Lmin]以下であるかが判定される。   The subsequent steps S203, S204, and S205 are processes executed by the final extracted keyword selection unit 104. First, in step S203, it is determined whether the existence probability R of the keyword candidate K is equal to or higher than a predetermined upper limit threshold [Lmax]. In step S204, the existence probability R of the keyword candidate K is set to a predetermined lower threshold [Lmin]. It is determined whether or not:

存在確率Rが、予め定めた上限閾値[Lmax]以上である場合、または、
存在確率Rが、予め定めた下限閾値[Lmin]以下である場合、
には、このキーワード候補Kを最終的な抽出キーワードとして登録することなく処理を終了する。
When the existence probability R is equal to or higher than a predetermined upper threshold [Lmax], or
When the existence probability R is equal to or lower than a predetermined lower threshold [Lmin],
The process ends without registering the keyword candidate K as the final extracted keyword.

キーワード候補Kの存在確率Rが、許容確率を持つ場合、すなわち、下記条件、
下限閾値[Lmin]<存在確率R<上限閾値[Lmax]
を満足する場合にのみ、ステップS205に進み、キーワード候補Kを最終的な抽出キーワードとして登録する。すなわち、図1に示す抽出キーワード格納部107に最終的な抽出キーワードとして格納する。
When the probability R of the keyword candidate K has an allowable probability, that is, the following condition:
Lower threshold [Lmin] <existence probability R <upper threshold [Lmax]
Only when the condition is satisfied, the process proceeds to step S205, and the keyword candidate K is registered as the final extracted keyword. That is, the extracted keyword is stored in the extracted keyword storage unit 107 shown in FIG.

例えば許容確率が3%〜50%で、
「フラワー」という候補の存在確率が5%、
「サイト」というキーワード候補の存在確率が60%
であった場合は、
「フラワー」のみが最終的な抽出キーワードとして採用され、抽出キーワード格納部107に格納される。
For example, the allowable probability is 3% to 50%,
The probability of existence of the candidate “flower” is 5%,
Presence probability of keyword candidate “site” is 60%
If it was
Only “flower” is adopted as the final extracted keyword and stored in the extracted keyword storage unit 107.

以上の処理により、入力され、データ蓄積手段105に格納された複数の文書データを処理対象としたキーワード抽出処理が終了し、最終的な抽出キーワードが抽出キーワード格納部107に格納されることになる。   Through the above processing, the keyword extraction processing for a plurality of document data input and stored in the data storage unit 105 is completed, and the final extracted keyword is stored in the extracted keyword storage unit 107. .

上述したように、本発明によるキーワード抽出処理は、各文書データのタイトルデータのみを対象としたキーワード検索を実行し、さらに文字列比較による絞込みを行なってキーワード候補を選定し、その限られたキーワード候補について、文書データ中の存在確率を算出し、存在確率が許容確率にある場合にのみ、キーワードとして登録する処理を実行する構成である。   As described above, the keyword extraction process according to the present invention performs keyword search for only the title data of each document data, further narrows down by character string comparison, selects keyword candidates, and the limited keyword For the candidate, the existence probability in the document data is calculated, and the process of registering as a keyword is executed only when the existence probability is an allowable probability.

本発明によるキーワード抽出処理は、例えば全文検索に基づく出現頻度算出処理を必要とするような従来のキーワード選定技術に比べて高速なキーワード検出が可能となる。従って、入力された文章からリアルタイムにキーワードを取り出し、取り出したキーワードに基づいて検索等の処理を行うといったことが可能であり、例えば自由文章入力方式の検索システムへの応用が可能である。   The keyword extraction processing according to the present invention enables fast keyword detection as compared with a conventional keyword selection technique that requires, for example, appearance frequency calculation processing based on full-text search. Accordingly, it is possible to take out a keyword from the inputted sentence in real time and perform a process such as a search based on the taken out keyword. For example, the invention can be applied to a free sentence input type retrieval system.

また、本発明によるキーワード抽出処理は、前提とする知識を一切必要としないため、抽出されたキーワードを、未知の言語の解読の補助材料として使用するといった応用も可能である。   Further, since the keyword extraction processing according to the present invention does not require any pre-requisite knowledge, it can be applied to use the extracted keyword as an auxiliary material for decoding an unknown language.

なお、前述したように、図4を参照して説明した実施例では、より高速な処理を行うため、キーワード候補Kの存在の有無のみを調べる処理としているが、必要に応じて出現頻度を調べる構成としてもよい。   As described above, in the embodiment described with reference to FIG. 4, in order to perform faster processing, only the presence / absence of the keyword candidate K is checked, but the appearance frequency is checked as necessary. It is good also as a structure.

すなわち、キーワード候補抽出手段102において抽出したキーワード候補Kが、キーワード抽出処理対象となる複数の文書データ内に出現する頻度を検出し、キーワード選定手段103は、キーワード出現頻度が、予め定めた許容値を満足する場合に、そのキーワード候補を抽出キーワードとして登録する処理を実行する。   That is, the frequency at which the keyword candidate K extracted by the keyword candidate extraction unit 102 appears in a plurality of document data to be subjected to keyword extraction processing is detected, and the keyword selection unit 103 determines that the keyword appearance frequency is a predetermined allowable value. Is satisfied, the keyword candidate is registered as an extracted keyword.

キーワード出現頻度は、例えば予め定めた一定のデータ量のデータ領域内にそのキーワード候補が、何回出現するかをカウントすることによって計測される。このような出現頻度の検出によって、キーワード候補からの最終抽出キーワードの選定を行なう構成としてもよい。   The keyword appearance frequency is measured, for example, by counting how many times the keyword candidate appears in a data area having a predetermined fixed data amount. A configuration may be adopted in which the final extracted keyword is selected from the keyword candidates by detecting the appearance frequency.

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。   The present invention has been described in detail above with reference to specific embodiments. However, it is obvious that those skilled in the art can make modifications and substitutions of the embodiments without departing from the gist of the present invention. In other words, the present invention has been disclosed in the form of exemplification, and should not be interpreted in a limited manner. In order to determine the gist of the present invention, the claims section described at the beginning should be considered.

なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。   The series of processes described in the specification can be executed by hardware, software, or a combined configuration of both. When executing processing by software, the program recording the processing sequence is installed in a memory in a computer incorporated in dedicated hardware and executed, or the program is executed on a general-purpose computer capable of executing various processing. It can be installed and run.

例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。   For example, the program can be recorded in advance on a hard disk or ROM (Read Only Memory) as a recording medium. Alternatively, the program is temporarily or permanently stored on a removable recording medium such as a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto optical) disk, a DVD (Digital Versatile Disc), a magnetic disk, or a semiconductor memory. It can be stored (recorded). Such a removable recording medium can be provided as so-called package software.

なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。   The program is installed on the computer from the removable recording medium as described above, or is wirelessly transferred from the download site to the computer, or is wired to the computer via a network such as a LAN (Local Area Network) or the Internet. The computer can receive the program transferred in this manner and install it on a recording medium such as a built-in hard disk.

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。   Note that the various processes described in the specification are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Further, in this specification, the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same casing.

以上、説明したように、本発明の構成によれば、キーワードの抽出処理において、キーワード抽出処理対象となる複数の文書データ各々のタイトル等の特定部分データ領域のみを対象とした文字列の照合処理を実行し、さらに文字列長や、包含関係判定などによる絞込みを行なってキーワード候補を選定し、その限られたキーワード候補について、文書データ中の存在確率を算出し、存在確率が許容確率にある場合にのみ、キーワードとして登録する処理を実行する構成としたので、例えば全文検索に基づく出現頻度算出処理を必要とするような従来のキーワード選定技術に比べて高速なキーワード抽出が可能となる。従って、例えば、入力された文章からリアルタイムにキーワードを取り出し、取り出したキーワードに基づいて新たな文書検索処理を行うといった処理に適用可能であり、自由文章入力方式の検索システムなどへの応用も可能となる。   As described above, according to the configuration of the present invention, in the keyword extraction process, the character string matching process only for a specific partial data area such as the title of each of a plurality of document data to be subjected to the keyword extraction process is performed. And select keyword candidates by narrowing down by character string length and inclusion relation determination, etc., and calculate the existence probability in the document data for the limited keyword candidates, and the existence probability is the allowable probability Only in such a case, since the process of registering as a keyword is executed, it is possible to extract a keyword at a higher speed than a conventional keyword selection technique that requires, for example, an appearance frequency calculation process based on a full-text search. Therefore, for example, it can be applied to a process in which a keyword is extracted from an input sentence in real time and a new document search process is performed based on the extracted keyword, and can be applied to a search system using a free sentence input method. Become.

また、本発明によるキーワード抽出処理は、前提とする知識を一切必要としない構成であり、キーワード抽出処理対象となる文書データを入力するのみで、何らの事前知識を持たないユーザであっても容易にキーワードの抽出が可能となる。従って、例えば未知の言語の解読の補助材料として使用するといった応用も可能となる。   Further, the keyword extraction process according to the present invention does not require any pre-requisite knowledge, and it is easy even for a user who does not have any prior knowledge only by inputting document data to be subjected to the keyword extraction process. It is possible to extract keywords. Therefore, for example, an application such as use as an auxiliary material for decoding an unknown language is possible.

本発明のキーワード抽出装置の構成を示すブロック図である。It is a block diagram which shows the structure of the keyword extraction apparatus of this invention. 本発明のキーワード抽出装置に適用可能な情報処理装置の構成を示す図である。It is a figure which shows the structure of the information processing apparatus applicable to the keyword extraction apparatus of this invention. 本発明のキーワード抽出処理におけるキーワード候補抽出アルゴリズムについて説明するフロー図である。It is a flowchart explaining the keyword candidate extraction algorithm in the keyword extraction process of this invention. 本発明のキーワード抽出処理におけるキーワード候補から最終抽出キーワードを選定する処理アルゴリズムについて説明するフロー図である。It is a flowchart explaining the process algorithm which selects the last extraction keyword from the keyword candidate in the keyword extraction process of this invention.

符号の説明Explanation of symbols

101 入力手段
102 キーワード候補抽出手段
103 存在確率算出手段
104 最終抽出キーワード選定手段
105 データ蓄積手段
106 キーワード候補格納部
107 キーワード格納部
301 CPU(Central Processing Unit)
302 ROM(Read Only Memory)
303 RAM(Random Access Memory)
304 HDD
305 バス
306 入出力インタフェース
307 入力部
308 出力部
309 通信部
310 ドライブ
311 リムーバブル記録媒体
DESCRIPTION OF SYMBOLS 101 Input means 102 Keyword candidate extraction means 103 Existence probability calculation means 104 Final extraction keyword selection means 105 Data storage means 106 Keyword candidate storage part 107 Keyword storage part 301 CPU (Central Processing Unit)
302 ROM (Read Only Memory)
303 RAM (Random Access Memory)
304 HDD
305 Bus 306 Input / output interface 307 Input unit 308 Output unit 309 Communication unit 310 Drive 311 Removable recording medium

Claims (15)

文書データからキーワードを抽出する処理を実行するキーワード抽出装置であり、
キーワード抽出処理対象となる複数の文書データから選択された2つの文書各々の共通カテゴリの特定部分データ領域を抽出し、抽出した2文書各々の特定部分データ領域を比較する照合処理を実行して、一致する文字列をキーワード候補として抽出するキーワード候補抽出手段と、
前記キーワード候補抽出手段において抽出したキーワード候補が、キーワード抽出処理対象となる複数の文書データ内に含まれる確率を示す出現確率Rを、
出現確率R=キーワード候補を含んでいた文書数/処理対象とした文書数
上記式に従って算出する存在確率算出手段と、
前記存在確率算出手段において算出した出現確率Rが、予め定めた許容値を満足する場合に、該キーワード候補を抽出キーワードとして登録するキーワード選定手段と、
を有することを特徴とするキーワード抽出装置。
A keyword extraction device that executes a process of extracting a keyword from document data,
Extracting a specific partial data area of a common category of each of two documents selected from a plurality of document data to be subjected to keyword extraction processing, and performing a matching process for comparing the specific partial data areas of each of the two extracted documents; Keyword candidate extraction means for extracting matching character strings as keyword candidates;
Appearance probability R indicating the probability that the keyword candidates extracted by the keyword candidate extraction means are included in a plurality of document data to be subjected to keyword extraction processing ,
Appearance probability R = number of documents containing keyword candidates / number of documents to be processed
An existence probability calculating means for calculating according to the above formula ;
A keyword selection means for registering the keyword candidate as an extraction keyword when the appearance probability R calculated by the existence probability calculation means satisfies a predetermined allowable value;
A keyword extracting device characterized by comprising:
前記特定部分データ領域は、文書データにおけるタイトル領域であり、
前記キーワード候補抽出手段は、
キーワード抽出処理対象となる複数の文書データから選択した2つの文書各々のタイトル領域を比較する照合処理を実行して、一致する文字列をキーワード候補として抽出する処理を実行する構成であることを特徴とする請求項1に記載のキーワード抽出装置。
The specific partial data area is a title area in document data;
The keyword candidate extraction means includes:
A configuration in which collation processing for comparing the title areas of two documents selected from a plurality of document data to be subjected to keyword extraction processing is performed, and processing for extracting matching character strings as keyword candidates is performed. The keyword extracting device according to claim 1.
前記キーワード候補抽出手段は、
キーワード抽出処理対象となる複数の文書データから選択した2つの文書各々の特定部分データ領域を比較する照合処理を実行して、一致する文字列であり、かつ、予め定めた規定長以上の文字列のみをキーワード候補として抽出する処理を実行する構成であることを特徴とする請求項1に記載のキーワード抽出装置。
The keyword candidate extraction means includes:
A matching process that compares specific partial data areas of each of two documents selected from a plurality of document data to be subjected to keyword extraction processing, and is a matching character string and a character string having a predetermined length or more The keyword extracting apparatus according to claim 1, wherein a process for extracting only as a keyword candidate is executed.
記キーワード選定手段は、
前記存在確率算出手段において算出した前記出現確率Rが、予め定めた許容値を満足する場合に、該キーワード候補を抽出キーワードとして登録する処理を実行する構成であることを特徴とする請求項1に記載のキーワード抽出装置。
Before Symbol keyword selection means,
The configuration according to claim 1, wherein when the appearance probability R calculated by the existence probability calculating unit satisfies a predetermined allowable value, a process of registering the keyword candidate as an extracted keyword is executed. The keyword extraction device described.
前記キーワード選定手段は、
前記存在確率算出手段において算出した前記出現確率Rが、予め定めた下限許容値から上限許容値の範囲内にあることを条件として、該キーワード候補を抽出キーワードとして登録する処理を実行する構成であることを特徴とする請求項1に記載のキーワード抽出装置。
The keyword selection means is:
It is a configuration that executes processing for registering the keyword candidate as an extracted keyword on condition that the appearance probability R calculated by the existence probability calculating means is within a range from a predetermined lower limit allowable value to an upper limit allowable value. The keyword extracting device according to claim 1, wherein:
前記キーワード候補抽出手段は、
前記照合処理により抽出した文字列と、既に抽出済みのキーワード候補との2つの文字列の一方が、他方の文字列を含む包含関係にあるか否かを判定し、包含関係にある場合に、前記2つの文字列中、文字列長の短い文字列のみをキーワード候補として選択する処理を実行する構成であることを特徴とする請求項1に記載のキーワード抽出装置。
The keyword candidate extraction means includes:
When one of the two character strings of the character string extracted by the matching process and the already extracted keyword candidate is in an inclusive relationship including the other character string, The keyword extracting apparatus according to claim 1, wherein the keyword extracting device is configured to execute a process of selecting only a character string having a short character string length as a keyword candidate from the two character strings .
前記キーワード抽出装置は、さらに、
キーワード抽出処理対象となる複数の文書データを格納するデータ蓄積手段と、
抽出キーワードを格納する抽出キーワード格納部と、
を有する構成であることを特徴とする請求項1に記載のキーワード抽出装置。
The keyword extraction device further includes:
Data storage means for storing a plurality of document data to be subjected to keyword extraction processing;
An extracted keyword storage for storing extracted keywords;
The keyword extracting device according to claim 1, wherein the keyword extracting device is configured to include:
キーワード抽出装置において、文書データからキーワードを抽出する処理を実行するキーワード抽出方法であり、
キーワード候補抽出手段が、キーワード抽出処理対象となる複数の文書データから選択された2つの文書各々の共通カテゴリの特定部分データ領域を抽出し、抽出した2文書各々の特定部分データ領域を比較する照合処理を実行して、一致する文字列をキーワード候補として抽出するキーワード候補抽出ステップと、
存在確率算出手段が、前記キーワード候補抽出ステップにおいて抽出したキーワード候補が、キーワード抽出処理対象となる複数の文書データ内に含まれる確率を示す出現確率Rを、
出現確率R=キーワード候補を含んでいた文書数/処理対象とした文書数
上記式に従って算出する存在確率算出ステップと、
キーワード選定手段が、前記存在確率算出ステップにおいて算出した出現確率Rが、予め定めた許容値を満足する場合に、該キーワード候補を抽出キーワードとして登録するキーワード選定ステップと、
を有することを特徴とするキーワード抽出方法。
In the keyword extraction device, a keyword extraction method for executing a process of extracting a keyword from document data,
A keyword candidate extraction unit extracts a specific partial data area of a common category of each of two documents selected from a plurality of document data to be subjected to keyword extraction processing, and compares the specific partial data areas of each of the two extracted documents A keyword candidate extraction step that executes processing and extracts matching character strings as keyword candidates;
The presence probability calculating means calculates an appearance probability R indicating the probability that the keyword candidates extracted in the keyword candidate extraction step are included in a plurality of document data to be subjected to keyword extraction processing .
Appearance probability R = number of documents containing keyword candidates / number of documents to be processed
An existence probability calculation step calculated according to the above formula ;
A keyword selection step in which the keyword selection means registers the keyword candidate as an extraction keyword when the appearance probability R calculated in the existence probability calculation step satisfies a predetermined tolerance;
A keyword extraction method characterized by comprising:
前記特定部分データ領域は、文書データにおけるタイトル領域であり、
前記キーワード候補抽出ステップは、
キーワード抽出処理対象となる複数の文書データから選択した2つの文書各々のタイトル領域を比較する照合処理を実行して、一致する文字列をキーワード候補として抽出する処理を実行するステップであることを特徴とする請求項に記載のキーワード抽出方法。
The specific partial data area is a title area in document data;
The keyword candidate extraction step includes:
It is a step of executing a collation process for comparing the title areas of two documents selected from a plurality of document data to be subjected to keyword extraction processing and extracting a matching character string as a keyword candidate. The keyword extraction method according to claim 8 .
前記キーワード候補抽出ステップは、
キーワード抽出処理対象となる複数の文書データから選択した2つの文書各々の特定部分データ領域を比較する照合処理を実行して、一致する文字列であり、かつ、予め定めた規定長以上の文字列のみをキーワード候補として抽出する処理を実行するステップであることを特徴とする請求項に記載のキーワード抽出方法。
The keyword candidate extraction step includes:
A matching process that compares specific partial data areas of each of two documents selected from a plurality of document data to be subjected to keyword extraction processing, and is a matching character string and a character string having a predetermined length or more The keyword extraction method according to claim 8 , wherein the keyword extraction method is a step of executing a process of extracting only as a keyword candidate.
記キーワード選定ステップは、
前記存在確率算出ステップにおいて算出した前記出現確率Rが、予め定めた許容値を満足する場合に、該キーワード候補を抽出キーワードとして登録する処理を実行するステップであることを特徴とする請求項に記載のキーワード抽出方法。
Before Symbol keyword selection step,
The occurrence probability R calculated in the existence probability calculation step, in the case of satisfying a predetermined tolerance, to claim 8, characterized in that the step of executing a process of registering the keyword candidate as the extracted keyword The keyword extraction method described.
前記キーワード選定ステップは、
前記存在確率算出ステップにおいて算出した前記出現確率Rが、予め定めた下限許容値から上限許容値の範囲内にあることを条件として、該キーワード候補を抽出キーワードとして登録する処理を実行するステップであることを特徴とする請求項に記載のキーワード抽出方法。
The keyword selection step includes
A step of executing processing for registering the keyword candidate as an extracted keyword on condition that the appearance probability R calculated in the existence probability calculating step is within a range of a predetermined lower limit allowable value to an upper limit allowable value. The keyword extraction method according to claim 8 , wherein:
前記キーワード候補抽出ステップは、
前記照合処理により抽出した文字列と、既に抽出済みのキーワード候補との2つの文字列の一方が、他方の文字列を含む包含関係にあるか否かを判定し、包含関係にある場合に、前記2つの文字列中、文字列長の短い文字列のみをキーワード候補として選択する処理を実行するステップであることを特徴とする請求項に記載のキーワード抽出方法。
The keyword candidate extraction step includes:
When one of the two character strings of the character string extracted by the matching process and the already extracted keyword candidate is in an inclusive relationship including the other character string, 9. The keyword extraction method according to claim 8 , wherein the keyword extraction method is a step of selecting only a character string having a short character string length as a keyword candidate from the two character strings .
前記キーワード抽出方法は、さらに、
抽出キーワードを格納する抽出キーワード格納ステップを有することを特徴とする請求項に記載のキーワード抽出方法。
The keyword extraction method further includes:
The keyword extraction method according to claim 8 , further comprising an extraction keyword storage step of storing an extraction keyword.
キーワード抽出装置に、文書データからキーワードを抽出する処理を実行させるコンピュータ・プログラムであり、
キーワード候補抽出手段に、キーワード抽出処理対象となる複数の文書データから選択された2つの文書各々の共通カテゴリの特定部分データ領域を抽出し、抽出した2文書各々の特定部分データ領域を比較する照合処理を実行させ、一致する文字列をキーワード候補として抽出させるキーワード候補抽出ステップと、
存在確率算出手段に、前記キーワード候補抽出ステップにおいて抽出したキーワード候補が、キーワード抽出処理対象となる複数の文書データ内に含まれる確率を示す出現確率Rを、
出現確率R=キーワード候補を含んでいた文書数/処理対象とした文書数
上記式に従って算出させる存在確率算出ステップと、
キーワード選定手段に、前記存在確率算出ステップにおいて算出した出現確率Rが、予め定めた許容値を満足する場合に、該キーワード候補を抽出キーワードとして登録させるキーワード選定ステップと、
実行させることを特徴とするコンピュータ・プログラム。
A computer program that causes a keyword extraction device to execute processing for extracting keywords from document data,
The keyword candidate extraction unit extracts a specific partial data area of a common category of each of two documents selected from a plurality of document data to be subjected to keyword extraction processing, and compares the specific partial data areas of each of the two extracted documents. A keyword candidate extraction step for executing processing and extracting matching character strings as keyword candidates;
In the presence probability calculation means, an appearance probability R indicating the probability that the keyword candidates extracted in the keyword candidate extraction step are included in a plurality of document data to be subjected to keyword extraction processing is calculated .
Appearance probability R = number of documents containing keyword candidates / number of documents to be processed
An existence probability calculating step for calculating according to the above formula ;
A keyword selection unit, occurrence probability R calculated in the existence probability calculation step, if that satisfies the predetermined permissible value, the keyword selection step of causing registers the keyword candidate as extracted keyword,
A computer program for executing
JP2003339365A 2003-09-30 2003-09-30 Keyword extraction device, keyword extraction method, and computer program Expired - Fee Related JP4360167B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003339365A JP4360167B2 (en) 2003-09-30 2003-09-30 Keyword extraction device, keyword extraction method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003339365A JP4360167B2 (en) 2003-09-30 2003-09-30 Keyword extraction device, keyword extraction method, and computer program

Publications (2)

Publication Number Publication Date
JP2005107793A JP2005107793A (en) 2005-04-21
JP4360167B2 true JP4360167B2 (en) 2009-11-11

Family

ID=34534568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003339365A Expired - Fee Related JP4360167B2 (en) 2003-09-30 2003-09-30 Keyword extraction device, keyword extraction method, and computer program

Country Status (1)

Country Link
JP (1) JP4360167B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120284271A1 (en) * 2010-01-18 2012-11-08 Nec Corporation Requirement extraction system, requirement extraction method and requirement extraction program
JP5679400B2 (en) * 2010-01-22 2015-03-04 日本電信電話株式会社 Category theme phrase extracting device, hierarchical tagging device and method, program, and computer-readable recording medium
CN102456057B (en) * 2010-11-01 2016-08-17 阿里巴巴集团控股有限公司 Search method based on online trade platform, device and server
KR101868936B1 (en) * 2011-10-25 2018-06-20 주식회사 케이티 Keyword extracting and refining system, and method thereof
JP7339148B2 (en) * 2019-12-19 2023-09-05 株式会社Nttドコモ Search support device

Also Published As

Publication number Publication date
JP2005107793A (en) 2005-04-21

Similar Documents

Publication Publication Date Title
US8938384B2 (en) Language identification for documents containing multiple languages
Stamatatos A survey of modern authorship attribution methods
JP4701292B2 (en) Computer system, method and computer program for creating term dictionary from specific expressions or technical terms contained in text data
US7599926B2 (en) Reputation information processing program, method, and apparatus
US20090319449A1 (en) Providing context for web articles
Ehsan et al. Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information
US20100114560A1 (en) Systems and methods for evaluating a sequence of characters
Daas Natural language processing
US8862586B2 (en) Document analysis system
CN112214984A (en) Content plagiarism identification method, device, equipment and storage medium
JP5072832B2 (en) Signature generation and matching engine with relevance
US8224642B2 (en) Automated identification of documents as not belonging to any language
Gupta et al. Designing and development of stemmer of Dogri using unsupervised learning
JP4360167B2 (en) Keyword extraction device, keyword extraction method, and computer program
JP4143085B2 (en) Synonym acquisition method and apparatus, program, and computer-readable recording medium
Zhang et al. Chinese novelty mining
JP5447368B2 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
JP5317638B2 (en) Web document main content extraction apparatus and program
JP5757551B2 (en) Semantic classification assignment device, semantic classification provision method, semantic classification provision program
Mekki et al. Tokenization of Tunisian Arabic: a comparison between three Machine Learning models
US8195686B2 (en) Search method and search program
JP2006215850A (en) Apparatus and method for creating concept information database, program, and recording medium
JP4985096B2 (en) Document analysis system, document analysis method, and computer program
JP2000207404A (en) Method and device for retrieving document and record medium
CN111061869A (en) Application preference text classification method based on TextRank

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090721

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090803

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120821

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees