JP2013016106A - Summary sentence generation device - Google Patents

Summary sentence generation device Download PDF

Info

Publication number
JP2013016106A
JP2013016106A JP2011149884A JP2011149884A JP2013016106A JP 2013016106 A JP2013016106 A JP 2013016106A JP 2011149884 A JP2011149884 A JP 2011149884A JP 2011149884 A JP2011149884 A JP 2011149884A JP 2013016106 A JP2013016106 A JP 2013016106A
Authority
JP
Japan
Prior art keywords
sentence
importance
word
sentences
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011149884A
Other languages
Japanese (ja)
Inventor
Keiichi Masuda
景一 増田
Tomoki Endo
友基 遠藤
Taketo Tatsumi
健人 巽
Keisuke Kimura
恵介 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Communication Systems Co Ltd
Original Assignee
Kyocera Communication Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Communication Systems Co Ltd filed Critical Kyocera Communication Systems Co Ltd
Priority to JP2011149884A priority Critical patent/JP2013016106A/en
Publication of JP2013016106A publication Critical patent/JP2013016106A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a device for creating a summary sentence by appropriately extracting significant sentences.SOLUTION: Sentence/word extraction means 2 is configured to extract sentences composing a text, and to extract nouns included in each sentence as words. Significance calculation means 4 is configured to calculate the significance of each of those extracted words, and to calculate the significance of each sentence on the basis of the significance of each word included in each sentence. Sentence selection means 6 is configured to successively select the sentences recorded by a text recording part 12 in descending order of significance, and to select as many sentences as possible, for example, within a range in which the number of characters of the selected sentences does not exceed the predetermined number of characters. Rearrangement means 8 is configured to generate summary sentence data by rearranging the selected sentences in the order of arrangement in an original text.

Description

この発明は、要約文を生成する装置に関するものである。   The present invention relates to an apparatus for generating a summary sentence.

文書の要約を自動的に作成する装置が実用化され提案されている。たとえば、特許文献1には、与えられた文書の構造を解析し、当該構造と予め設定した条件とに基づいて重要文を抽出して要約を作成する装置が開示されている。この装置を用いることにより、自動的に重要文を抽出することができる。   Devices for automatically creating document summaries have been put into practical use and proposed. For example, Patent Document 1 discloses an apparatus that analyzes the structure of a given document, extracts important sentences based on the structure and preset conditions, and creates a summary. By using this apparatus, important sentences can be automatically extracted.

特開2001−325273JP 2001-325273 A

しかしながら、上記のような従来技術では、事前に定められた特定の語を含んでいたり、限定された文法構造をもっていたりするものを手がかりに重要度を定めているため、それらに該当しない文書については、適切に重要文を抽出することができないという問題があった。   However, since the prior art as described above determines the importance based on clues that include specific words that are defined in advance or have a limited grammatical structure, for documents that do not fall under those There was a problem that important sentences could not be extracted properly.

この発明は、上記のような問題点を解決して、適切に重要文を抽出して要約文を作成する装置を提供することを目的とする。   An object of the present invention is to provide an apparatus that solves the above-described problems and appropriately extracts important sentences and creates a summary sentence.

(1)(2)この発明に係る要約文生成装置は、解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、選択した文を配して要約文を生成する配列手段とを備えている。 (1) (2) The summary sentence generation device according to the present invention analyzes a sentence to be analyzed, extracts sentences constituting the sentence, and extracts at least nouns included in each sentence as words. Importance calculating means for calculating importance of words included in the sentence extracted by the extraction means and the sentence / word extracting means, and calculating importance of each sentence based on importance of the words included in each sentence And sentence selecting means for selecting sentences so as to satisfy a predetermined condition in descending order of importance, and arrangement means for generating a summary sentence by arranging the selected sentences.

したがって、重要度の高い文によって要約を構成することができ、適切な要約文を得ることができる。   Therefore, a summary can be composed of sentences with high importance, and an appropriate summary sentence can be obtained.

(3)この発明に係る要約文生成装置は、配列手段が、解析対象となる元の文章における文の順に沿って、前記選択した文を配することを特徴としている。 (3) The summary sentence generation device according to the present invention is characterized in that the arranging means arranges the selected sentences in the order of sentences in the original sentence to be analyzed.

したがって、元の文章における順に沿って配置された文を要約文として得ることができるので、文章として流れのよい要約文を得ることができる。   Therefore, since sentences arranged along the order in the original sentence can be obtained as a summary sentence, a summary sentence having a good flow as a sentence can be obtained.

(4)この発明に係る要約文生成装置は、重要度算出手段が、当該単語が当該文章中において使用されている回数が多いほど、重要度が高いと判断することを特徴としている。 (4) The summary sentence generation device according to the present invention is characterized in that the importance calculation means determines that the importance is higher as the number of times the word is used in the sentence is higher.

したがって、文章中における当該単語の強調度に基づいて、各単語の重要度を決定することができる。   Therefore, the importance of each word can be determined based on the degree of emphasis of the word in the sentence.

(5)この発明に係る要約文生成装置は、重要度算出手段が、当該単語が一般の文章中において用いられている度合いが小さいほど、重要度が高いと判断することを特徴としている。 (5) The summary sentence generation device according to the present invention is characterized in that the importance degree calculation means determines that the importance degree is higher as the degree that the word is used in a general sentence is smaller.

したがって、当該単語の一般的な希少度に基づいて、各単語の重要度を決定することができる。   Therefore, the importance of each word can be determined based on the general rarity of the word.

(6)この発明に係る要約文生成装置は、重要度算出手段が、当該単語を検索サイトにて検索し、当該検索サイトに登録されているページ数と、検索結果として得られた当該単語を含むページ数との比率に基づいて、当該単語が一般の文章中において用いられている度合いを算出することを特徴としている。 (6) In the summary sentence generation device according to the present invention, the importance degree calculation means searches for the word on the search site, and calculates the number of pages registered in the search site and the word obtained as a search result. Based on the ratio with the number of pages to be included, the degree to which the word is used in a general sentence is calculated.

したがって、当該単語の一般の文章中において用いられている度合いに基づいて、各単語の希少度を決定することができる。   Therefore, the rarity degree of each word can be determined based on the degree used in the general sentence of the word.

(7)この発明に係る要約文生成装置は、重要度算出手段が、当該単語を辞書サイトにて検索し、当該単語についての説明の更新頻度が高いほど重要度が高いと判断することを特徴としている。 (7) The summary sentence generation device according to the present invention is characterized in that the importance calculation means searches for the word on a dictionary site, and determines that the importance is higher as the update frequency of the explanation for the word is higher. It is said.

したがって、当該単語の辞書サイトにおける更新頻度に基づいて、各単語の重要度を決定することができる。   Therefore, the importance of each word can be determined based on the update frequency of the word at the dictionary site.

(8)この発明に係る要約文生成装置は、文選択手段が、選択した文の文字数合計が、所定の文字数を超えないように、可能な限り多くの文を重要度の高い順に選択することを特徴としている。 (8) In the summary sentence generation device according to the present invention, the sentence selection means selects as many sentences as possible in descending order of importance so that the total number of characters of the selected sentence does not exceed a predetermined number of characters. It is characterized by.

したがって、所定の文字数以内において、可能な限りの多くの文を重要度の高い順に選択して、要約文を得ることができる。   Therefore, within the predetermined number of characters, as many sentences as possible can be selected in descending order of importance to obtain a summary sentence.

(9)この発明にかかる要約文生成装置は、複数の文章を表示面に配置して表示するにあたり、それぞれの文章を当該表示面中のいずれの領域に表示すべきかを示すレイアウト情報を受け、当該レイアウト情報に基づいて領域ごとに表示可能な文字数を算出する文字数算出手段をさらに備え、文選択手段が、各領域について、算出した前記文字数を超えない範囲において、可能な限り多くの文を重要度の高い順に選択することを特徴としている。 (9) The summary sentence generation device according to the present invention receives layout information indicating in which area in the display surface each sentence should be displayed when arranging and displaying a plurality of sentences on the display surface. It further comprises a character number calculating means for calculating the number of characters that can be displayed for each area based on the layout information, and the sentence selecting means assigns as many sentences as possible within a range not exceeding the calculated number of characters for each area. It is characterized by selecting in descending order.

したがって、与えられたレイアウトの各領域の大きさに応じて、適切な要約文を生成することができる。   Therefore, an appropriate summary sentence can be generated according to the size of each area of a given layout.

(10)この発明に係る要約文生成装置は、各領域について生成した要約文を対応する領域に配置するとともに、当該領域内に対応する文章へのリンクを配置する配置手段をさらに備えたことを特徴としている。 (10) The summary sentence generation device according to the present invention further includes an arrangement unit that arranges the summary sentence generated for each area in the corresponding area and arranges a link to the corresponding sentence in the area. It is a feature.

したがって、領域の大きさに応じて要約文を表示し、リンクによって完全な文章を表示させることが可能となる。   Therefore, a summary sentence can be displayed according to the size of the area, and a complete sentence can be displayed by a link.

(11)この発明に係る要約文生成方法は、コンピュータによって要約文を生成する方法であって、解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出し、当該抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出し、重要度の高い順から、所定の条件を満足するように文を選択し、選択した文を配して要約文を生成することを特徴としている。 (11) A summary sentence generation method according to the present invention is a method for generating a summary sentence by a computer, analyzes sentences to be analyzed, extracts sentences constituting the sentences, and includes at least the sentences included in each sentence Extract nouns as words, calculate the importance of the words included in the extracted sentences, calculate the importance of each sentence based on the importance of the words included in each sentence, and in descending order of importance Thus, a sentence is selected so as to satisfy a predetermined condition, and a summary sentence is generated by arranging the selected sentence.

したがって、重要度の高い文によって要約を構成することができ、適切な要約文を得ることができる。   Therefore, a summary can be composed of sentences with high importance, and an appropriate summary sentence can be obtained.

「文・単語抽出手段」は、実施形態においては、ステップS1、S2がこれに対応する。   In the embodiment, the “sentence / word extracting means” corresponds to steps S1 and S2.

「重要度算出手段」は、実施形態においては、ステップS3〜S7がこれに対応する。   In the embodiment, “importance calculation means” corresponds to steps S3 to S7.

「文選択手段」は、実施形態においては、ステップS8〜S13がこれに対応する。   In the embodiment, “sentence selection means” corresponds to steps S8 to S13.

「配列手段」は、実施形態においては、ステップS14がこれに対応する。   “Sequencer” corresponds to step S14 in the embodiment.

「プログラム」とは、CPUにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。   The “program” is a concept that includes not only a program that can be directly executed by the CPU, but also a source format program, a compressed program, an encrypted program, and the like.

この発明の一実施形態による要約文作成装置の機能ブロック図である。It is a functional block diagram of the summary sentence creation apparatus by one Embodiment of this invention. 要約文作成装置のハードウエア構成である。It is the hardware constitutions of the summary sentence preparation apparatus. 要約文作成プログラムのフローチャートである。It is a flowchart of a summary sentence creation program. 要約文作成プログラムのフローチャートである。It is a flowchart of a summary sentence creation program. 要約対象となる文章の例である。It is an example of the sentence used as the summary object. 文番号を付して分解された文を記憶するテーブルを示す図である。It is a figure which shows the table which memorize | stores the sentence decomposed | attached with the sentence number. 形態素解析処理の詳細である。It is the detail of a morphological analysis process. 形態素解析の結果例を示す図である。It is a figure which shows the example of a result of a morphological analysis. 形態素解析の結果例を示す図である。It is a figure which shows the example of a result of a morphological analysis. 各単語のTF値、IDF値、Hot係数、重要度を記録したテーブルの例を示す図である。It is a figure which shows the example of the table which recorded TF value, IDF value, Hot coefficient, and importance of each word. IDF値算出処理の詳細である。It is the detail of IDF value calculation processing. Hot係数算出処理の詳細である。It is the detail of a Hot coefficient calculation process. ウエブ上の辞書からの返信データを示す図である。It is a figure which shows the reply data from the dictionary on a web. Hot係数を算出するための係数表である。It is a coefficient table | surface for calculating a Hot coefficient. 重要度の順に選択した文を示す図である。It is a figure which shows the sentence selected in order of importance. 選択した文を元の文章における順に従って並び替えたものを示す図である。It is a figure which shows what selected the sentence according to the order in the original sentence. 応用例としてのシステム構成を示す図である。It is a figure which shows the system configuration as an application example. 表示レイアウトの一例を示す図である。It is a figure which shows an example of a display layout.

1.機能ブロック図
図1に、この発明の一実施形態による要約文生成装置の機能ブロック図を示す。文・単語抽出手段2は、文章記録部12に記録されている文章データを読み出し、当該文章データによって示される文章を構成する文を抽出する。さらに、各文に含まれる名詞を単語として抽出する。
1. Functional Block Diagram FIG. 1 shows a functional block diagram of a summary sentence generation device according to an embodiment of the present invention. The sentence / word extracting means 2 reads the sentence data recorded in the sentence recording unit 12 and extracts sentences constituting the sentence indicated by the sentence data. Furthermore, nouns included in each sentence are extracted as words.

重要度算出手段4は、前記抽出された各単語の重要度を算出する。さらに、各文に含まれる各単語の重要度に基づいて、各文の重要度を算出する。文選択手段6は、文章記録部12に記録された文のうち、重要度の高いものから順に選択する。たとえば、選択した文の文字数が所定の文字数を超えない範囲において、できるだけ多くの文を選択する。   The importance calculation means 4 calculates the importance of each extracted word. Furthermore, the importance of each sentence is calculated based on the importance of each word included in each sentence. The sentence selection means 6 selects the sentences recorded in the sentence recording unit 12 in descending order of importance. For example, as many sentences as possible are selected as long as the number of characters of the selected sentence does not exceed a predetermined number of characters.

配列手段8は、選択された文を、元の文章における並び順に沿って配置することで、要約文データを生成する。
The arranging unit 8 generates summary sentence data by arranging the selected sentences along the arrangement order in the original sentences.

2.ハードウエア構成
図2に、図1に示す要約文生成装置のハードウエア構成を示す。CPU14には、メモリ16、ディスプレイ18、ハードディスク20、CD−ROMドライブ22、キーボード/マウス24、通信回路26が接続されている。通信回路26は、インターネットなどに接続するためのものである。
2. Hardware Configuration FIG. 2 shows a hardware configuration of the summary sentence generation device shown in FIG. A memory 16, a display 18, a hard disk 20, a CD-ROM drive 22, a keyboard / mouse 24, and a communication circuit 26 are connected to the CPU 14. The communication circuit 26 is for connecting to the Internet or the like.

ハードディスク20には、WINDOWS(商標)などのオペレーティングシステム30、要約文生成プログラム32、形態素辞書34が記録されている。オペレーティングシステム30、要約文生成プログラム32は、CD−ROM28に記録されていたものをCD−ROMドライブ22を介して、インストールしたものである。形態素辞書34には、単語とその品詞が対応づけて記録されている。
The hard disk 20 stores an operating system 30 such as WINDOWS (trademark), a summary sentence generation program 32, and a morpheme dictionary 34. The operating system 30 and the summary sentence generation program 32 are installed on the CD-ROM 28 via the CD-ROM drive 22. In the morpheme dictionary 34, words and their parts of speech are recorded in association with each other.

3.要約文生成プログラム
要約文生成プログラム32のフローチャートを、図3、図4に示す。
3. Summary sentence generation program The flowchart of the summary sentence generation program 32 is shown in FIGS.

(1)文の抽出
CPU14は、ステップS1において、ハードディスク20に記録された文章データから、文を抽出する(ステップS1)。この実施形態では、句点(「。」や「.」)に基づいて、文を抽出するようにしている。すなわち、句点が見いだされるまでを一つの文として抽出する。
(1) Sentence Extraction The CPU 14 extracts a sentence from the sentence data recorded on the hard disk 20 in step S1 (step S1). In this embodiment, a sentence is extracted based on a punctuation mark (“.” Or “.”). That is, a sentence until a punctuation is found is extracted as one sentence.

たとえば、図5に示すような文章データであれば、図6に示すように、文番号「1」〜「6」までの6つの文が抽出されることになる。CPU14は、このようにして抽出した文を、順番を示す文番号とともにハードディスク20に記録する。この際、CPU14は、各文の文字数を併せて記録する。   For example, in the case of sentence data as shown in FIG. 5, as shown in FIG. 6, six sentences with sentence numbers “1” to “6” are extracted. The CPU 14 records the sentence extracted in this way on the hard disk 20 together with the sentence number indicating the order. At this time, the CPU 14 also records the number of characters in each sentence.

(2)形態素解析
次に、CPU14は、文章データに含まれる全ての文を対象として、形態素解析を行う(ステップS2)。図7に、形態素解析処理の詳細を示す。まず、CPU14は、ハードディスク20に記録されている形態素辞書34を参照して、文章データの形態素を解析する(ステップS21)。この形態素解析は、従来より行われている一般的な手法を用いることができる。形態素解析の結果を、図8aに示す。
(2) Morphological Analysis Next, the CPU 14 performs morphological analysis on all sentences included in the sentence data (step S2). FIG. 7 shows details of the morphological analysis process. First, the CPU 14 analyzes the morpheme of the text data with reference to the morpheme dictionary 34 recorded on the hard disk 20 (step S21). This morphological analysis can be performed by using a general method that has been conventionally performed. The result of morphological analysis is shown in FIG. 8a.

次に、CPU14は、通信回路26を使用して、インターネットを介して、ウエブ上の百科事典や辞書(たとえばWikipedia(商標)やe-Words(商標))にアクセスする。そして、図8に示す形態素解析によって得られた連続する単語を結合し、これをウエブ上の百科事典や辞書、検索サイトにて検索する(ステップS22)。たとえば、「平素」と「は」を結合して「平素は」という単語を生成し、この単語が見出し語としてウエブ上の百科事典や辞書に存在するかどうか、あるいは検索サイトにおいて所定件数以上(たとえば1万件以上)ヒットするかどうかを検索する。たとえば、「平素+は」「格別+の」「IT+ソリューション」などは、ウエブ上で文節として使用されている例が多くあるので、検索サイトにおける検索で所定件数以上のヒットを得ることができる。また、「電子+書籍」などの単語は、百科事典や辞書の見出し語として存在する可能性がある。   Next, the CPU 14 uses the communication circuit 26 to access an encyclopedia and a dictionary (for example, Wikipedia (trademark) and e-Words (trademark)) on the web via the Internet. Then, consecutive words obtained by the morphological analysis shown in FIG. 8 are combined, and this is searched in an encyclopedia, dictionary, or search site on the web (step S22). For example, “plain” and “ha” are combined to generate the word “plain is” and whether this word is found as an entry word in an encyclopedia or dictionary on the web, or more than a predetermined number ( (For example, 10,000 or more) Search whether it hits. For example, “Plain + Ha”, “Extraordinary +”, “IT + Solution”, etc. are often used as clauses on the web, so it is possible to obtain more than a predetermined number of hits in a search on a search site. In addition, words such as “electronic + book” may exist as headwords in encyclopedias and dictionaries.

なお、この実施形態では、文の初めの単語を対象単語として、後続の単語を順次結合して行き、最も長い単語としてウェブ上の百科事典・辞書に存在する、または検索サイトにて所定件数以上ヒットするものを抽出する。CPU14は、このようにして抽出した結合単語(たとえば「平素は」)を、図8aのテーブルに記録するとともに、結合単語を構成する個々の単語(たとえば「平素」「は」)を図8aのテーブルから削除する。これにより、テーブルは、図8bに示すようになる。さらに、CPU14は、見いだされた結合単語を、形態素辞書34に追加登録する。   In this embodiment, the first word of the sentence is used as the target word, the subsequent words are sequentially combined, and the longest word exists in the encyclopedia / dictionary on the web, or a predetermined number or more on the search site. Extract hits. The CPU 14 records the combined words (for example, “plain”) extracted in this way in the table of FIG. 8a, and the individual words (for example, “plain” “ha”) constituting the combined word in FIG. 8a. Delete from the table. As a result, the table becomes as shown in FIG. Further, the CPU 14 additionally registers the found combined word in the morpheme dictionary 34.

続いて、抽出された単語の次の単語(抽出されなかった場合は対象単語の次の単語)を次の対象単語として、後続の単語を順次結合して行き、最も長い単語としてウェブ上の辞書に存在するものを抽出する。この処理を、文末まで繰り返す。   Next, the next word after the extracted word (or the next word after the target word if it is not extracted) is used as the next target word, and subsequent words are sequentially combined, and the dictionary on the web as the longest word Extract what exists in. This process is repeated until the end of the sentence.

したがって、この実施形態によれば、形態素辞書34に登録されていない単語であっても、これを単語として抽出することができる。   Therefore, according to this embodiment, even a word that is not registered in the morpheme dictionary 34 can be extracted as a word.

続いて、CPU14は、上記で得た単語を結合する処理を行う(ステップS23)。たとえば、名詞が連続する場合にはこれを結合して一つの名詞とする。「福島」「第一」「原子力」「発電所」という4つの名詞が連続する場合、これを「福島第一原子力発電所」とする。同様に、人名の姓と名が連続する場合、これを結合する。その他、形態素の結合として一般に行われている手法を用いて、単語の結合を行う。CPU14は、得られた結合単語(たとえば、「福島第一原子力発電所」)を、図8のテーブルに記録するとともに、結合単語を構成する個々の単語(たとえば、「福島」「第一」「原子力」「発電所」)を図8bのテーブルから削除する。   Subsequently, the CPU 14 performs a process of combining the words obtained above (step S23). For example, when nouns are continuous, they are combined into one noun. If the four nouns “Fukushima”, “Daily”, “Nuclear Power”, and “Power Plant” are consecutive, this is designated as “Fukushima Daiichi Nuclear Power Plant”. Similarly, if the surname and first name of a person name are consecutive, they are combined. In addition, words are combined using a method generally used for combining morphemes. The CPU 14 records the obtained combined word (for example, “Fukushima Daiichi Nuclear Power Station”) in the table of FIG. 8 and also makes individual words (for example, “Fukushima”, “First”, “ Nuclear power "" Power station ") is deleted from the table of FIG. 8b.

以上のようにして、形態素解析を行うことができる。   As described above, morphological analysis can be performed.

(3)TF値算出
次に、CPU14は、上記にて抽出した単語(この実施形態では名詞を含む単語のみを対象とする)について、TF(Term Frequency)値を算出する(ステップS3)。つまり、図8bのテーブルに記録した品詞が名詞である単語および名詞を品詞として含む単語について、TF値を算出する。
(3) TF Value Calculation Next, the CPU 14 calculates a TF (Term Frequency) value for the word extracted above (in this embodiment, only words including nouns are targeted) (step S3). That is, the TF value is calculated for a word whose part of speech recorded in the table of FIG. 8b is a noun and a word including the noun as a part of speech.

ここで、TF値とは、当該単語が当該文章中において出現する回数を、文章中の延べ単語数で除した値である。   Here, the TF value is a value obtained by dividing the number of times the word appears in the sentence by the total number of words in the sentence.

TF=単語の出現回数/各単語の出現回数の合計
図9に、各単語について算出したTF値を示す。CPU14は、算出したTF値をハードディスク20に記録する。
TF = number of appearances of words / total number of appearances of each word FIG. 9 shows the TF values calculated for each word. The CPU 14 records the calculated TF value on the hard disk 20.

この実施形態では、当該文章中における各単語の出現頻度を得ることで、各単語が当該文章中において、どの程度強調されているのかを算出するようにしている。   In this embodiment, by obtaining the appearance frequency of each word in the sentence, how much each word is emphasized in the sentence is calculated.

(4)IDF値算出
次に、CPU14は、各単語についてIDF(Inverse Document Frequency)値を算出する(ステップS4)。ここで、IDF値は、各単語の希少性(世間に流通している単語として一般的でないこと)を表すものである。当該単語の希少性が高いほど、IDF値は高くなる。
(4) IDF Value Calculation Next, the CPU 14 calculates an IDF (Inverse Document Frequency) value for each word (step S4). Here, the IDF value represents the rarity of each word (that is not common as a word circulating in the world). The higher the rarity of the word, the higher the IDF value.

この実施形態では、IDF値は、以下の式により算出するようにしている。   In this embodiment, the IDF value is calculated by the following equation.

IDF=log(当該単語の検索エンジンでのヒット数(ページ数)/検索エンジン上の総ページ数)
図10に、IDF値算出処理の詳細を示す。CPU14は、図8bのテーブルに記録された最初の単語(この実施形態では名詞を含む単語のみを対象とする)を対象単語とする(ステップS41)。CPU14は、対象単語(たとえば「平素は」)を、インターネット上の検索サイト(たとえばYahoo!(商標)や***(商標)など)にて検索する(ステップS42)。
IDF = log (number of hits (number of pages) in the search engine of the word / total number of pages on the search engine)
FIG. 10 shows details of the IDF value calculation processing. The CPU 14 sets the first word recorded in the table of FIG. 8B (in this embodiment, only words including nouns as targets) as target words (step S41). The CPU 14 searches for a target word (for example, “plain is”) on a search site (for example, Yahoo! (trademark) or *** (trademark)) on the Internet (step S42).

この検索リクエストに応じて、検索サイトから検索結果が返信されてくるので、CPU14はこれを受信する。CPU14は、検索結果に含まれる対象単語のヒット数(当該単語が含まれるページ数)および検索サイトが対象としている総ページ数を取得し、メモリ16に記録する(ステップS43)。   In response to this search request, the search result is returned from the search site, and the CPU 14 receives this. The CPU 14 acquires the number of hits of the target word included in the search result (the number of pages including the word) and the total number of pages targeted by the search site, and records them in the memory 16 (step S43).

続いて、CPU14は、log(当該単語の検索エンジンでのヒット数(ページ数)/検索エンジン上の総ページ数)を計算して、IDF値を算出する(ステップS44)。この実施形態では、logは自然対数を用いている。なお、検索エンジン上の総ページ数は、例えば250億ヒット程度のオーダーとなる。CPU14は、算出したIDF値を、各単語に対応づけてハードディスク20に記録する(図9参照)。   Subsequently, the CPU 14 calculates log (the number of hits (number of pages) in the search engine of the word / the total number of pages on the search engine) to calculate the IDF value (step S44). In this embodiment, log uses a natural logarithm. The total number of pages on the search engine is on the order of about 25 billion hits, for example. The CPU 14 records the calculated IDF value on the hard disk 20 in association with each word (see FIG. 9).

CPU14は、すべての単語についてIDF値を算出したかどうかを判断する(ステップS45)。図8bのテーブルにおいて未処理の単語が残っていれば、CPU14は、次の単語を対象単語とする(ステップS46)。そして、ステップS42以下を繰り返す。このようにして、対象となる全ての単語についてIDF値を算出する。   The CPU 14 determines whether or not IDF values have been calculated for all words (step S45). If an unprocessed word remains in the table of FIG. 8b, the CPU 14 sets the next word as a target word (step S46). Then, step S42 and subsequent steps are repeated. In this way, IDF values are calculated for all target words.

(5)TF−IDF値算出
続いて、CPU14は、各単語につき、算出したTF値とIDF値に基づいて、TF−IDF値を計算する(ステップS5)。この実施形態では、TF値とIDF値との積を算出することにより、TF−IDF値を算出するようにしている。
(5) TF-IDF value calculation Subsequently, the CPU 14 calculates a TF-IDF value for each word based on the calculated TF value and IDF value (step S5). In this embodiment, the TF-IDF value is calculated by calculating the product of the TF value and the IDF value.

(6)Hot係数算出
続いて、CPU14は、Hot係数を算出する(ステップS6)。ここで、Hot係数とは、対象となる単語の現在における注目度を表す指数である。この実施形態では、ウエブ上の辞書において対象単語を検索し、当該対象単語がどの程度の頻度で、どの程度現在に近い時間で更新されているかを取得し、これに基づいて算出するようにしている。
(6) Hot coefficient calculation Subsequently, the CPU 14 calculates a Hot coefficient (step S6). Here, the Hot coefficient is an index representing the current attention level of the target word. In this embodiment, a target word is searched in a dictionary on the web, and how often the target word is updated and how close it is to the present time is acquired and calculated based on this. Yes.

具体的には、当該単語について、最新の更新日から所定件数(たとえば100件)の更新日を取得し、これら更新日の平均日を算出して、現在の日との差を求める。この差が小さいほど、Hot係数を大きくする。   Specifically, for the word, a predetermined number (for example, 100) of update dates are acquired from the latest update date, an average date of these update dates is calculated, and a difference from the current date is obtained. The smaller the difference, the larger the Hot coefficient.

図11に、Hot係数算出処理の詳細を示す。CPU14は、図8bのテーブルに記録された最初の単語(この実施形態では名詞を含む単語のみを対象とする)を対象単語とする(ステップS61)。CPU14は、対象単語を、インターネット上の辞書(ウエブ辞書)にアクセスし検索する(ステップS62)。   FIG. 11 shows details of the Hot coefficient calculation process. The CPU 14 sets the first word recorded in the table of FIG. 8B (in this embodiment, only words including nouns as targets) as the target word (step S61). The CPU 14 accesses and searches a dictionary (web dictionary) on the Internet for the target word (step S62).

対象単語が見出し語として存在すれば、当該対象単語に対する説明などのデータが返信されてくる。見出し語として存在しなければ、存在しない旨(あるいはエラー)が返信されてくる。CPU14は、これを受けて、対象単語がウエブ上の辞書に見出し語として存在するかどうかを判断する(ステップS63)。   If the target word exists as a headword, data such as an explanation for the target word is returned. If it does not exist as a headword, a message that it does not exist (or an error) is returned. In response to this, the CPU 14 determines whether or not the target word exists as a headword in the dictionary on the web (step S63).

見出し語として存在する場合、CPU14は、返信されてきた解説データ中に記録されている更新日を、最新のものから所定件数(ここでは100件)取得する(ステップS64)。   If it exists as a headword, the CPU 14 acquires a predetermined number (in this case, 100) of update dates recorded in the returned commentary data from the latest (step S64).

図12に、返信されてくる解説データの例を示す。見出し語、内容などの項目の他、更新日の項目が設けられている。この更新日には、内容等について更新が行われた履歴が順に示されている。CPU14は、この更新日を最新のものから100件取得する。なお、更新が100件以下の場合には、当該単語のHot係数を1.0として、ステップS68に進む。   FIG. 12 shows an example of comment data returned. In addition to items such as headwords and contents, items of update date are provided. On this update date, the history in which the contents etc. have been updated is shown in order. The CPU 14 acquires 100 update dates from the latest. If the number of updates is 100 or less, the hot coefficient of the word is set to 1.0 and the process proceeds to step S68.

次に、CPU14は、取得した100件の更新日の平均日を算出する。次に、CPU14は、現在日(内部時計に基づく)と平均日との差(絶対値)を算出する(ステップS66)。さらに、算出した差に基づいてHot係数を算出する(ステップS67)。   Next, the CPU 14 calculates the average date of 100 acquired update dates. Next, the CPU 14 calculates the difference (absolute value) between the current date (based on the internal clock) and the average date (step S66). Further, a Hot coefficient is calculated based on the calculated difference (step S67).

この実施形態では、ハードディスク20に予め記録された係数テーブル(図13参照)に基づいてHot係数を決定する。たとえば、算出した差が10日であれば、Hot係数は2.6として決定される。CPU14は、算出したHot係数を、対象単語に対応づけて記録する(図9参照)。   In this embodiment, the Hot coefficient is determined based on a coefficient table (see FIG. 13) recorded in advance on the hard disk 20. For example, if the calculated difference is 10 days, the Hot coefficient is determined as 2.6. The CPU 14 records the calculated Hot coefficient in association with the target word (see FIG. 9).

CPU14は、すべての単語についてHot係数を算出したかどうかを判断する(ステップS68)。図8bのテーブルにおいて未処理の単語が残っていれば、CPU14は、次の単語を対象単語とする(ステップS69)。そして、ステップS62以下を繰り返す。このようにして、対象となる全ての単語についてHot係数を算出する。   The CPU 14 determines whether or not the Hot coefficient has been calculated for all words (step S68). If an unprocessed word remains in the table of FIG. 8b, the CPU 14 sets the next word as a target word (step S69). Then, step S62 and subsequent steps are repeated. In this way, the Hot coefficient is calculated for all target words.

なお、対象単語がウエブ上の辞書に見出し語として存在しない場合には、Hot係数を1.0とする(ステップS70)。   If the target word does not exist as an entry word in the dictionary on the web, the Hot coefficient is set to 1.0 (step S70).

(7)重要度の算出
CPU14は、各単語につき、TF−IDF値にHot係数を乗じて、重要度を算出する(図3のステップS7)。CPU14は、このようにして算出した重要度を、対象単語に対応づけて記録する(図9参照)。
(7) Calculation of Importance The CPU 14 calculates the importance by multiplying the TF-IDF value by the Hot coefficient for each word (step S7 in FIG. 3). The CPU 14 records the importance calculated in this way in association with the target word (see FIG. 9).

次に、CPU14は、各単語の重要度に基づいて重要単語を決定する(ステップS8)。この実施形態では、単語の重要度の平均値を算出し、この平均値を超える重要度を有する単語を重要単語として抽出している。たとえば、図9に示す場合であれば、単語の重要度の平均値は11.40135438である。したがって、CPU14は、この平均値を超える重要度を有する単語「電子書籍」「図書館」「書籍」・・・「利用価値」を重要単語として選択することになる。   Next, CPU14 determines an important word based on the importance of each word (step S8). In this embodiment, an average value of importance levels of words is calculated, and words having importance levels exceeding the average value are extracted as important words. For example, in the case shown in FIG. 9, the average value of word importance is 11.40135438. Therefore, the CPU 14 selects the words “electronic book”, “library”, “book”,... “Use value” having importance exceeding the average value as important words.

次に、CPU14は、各文のうち重要単語が含まれる文について重要度を算出する。重要度は、当該文に含まれる各単語の重要度を合計することによって算出する(ステップS9)。たとえば、図6に示す文章の第1文「平素は、・・・申し上げます。」には、重要単語が含まれていないので、第1文についての重要度は算出しない。第2文「当社は従来より・・・参りました。」には、重要単語「当社」「図書館」「書籍」がふくまれているので重要度を算出する。CPU14は、各単語の重要度を図9を参照して取得し、これを合計して重要度57.83187を得る。   Next, CPU14 calculates importance about the sentence in which an important word is contained among each sentence. The importance is calculated by summing the importance of each word included in the sentence (step S9). For example, since the first sentence of the sentence shown in FIG. 6 “Plain is plain ...” does not include an important word, the importance of the first sentence is not calculated. In the second sentence “Our company has been here ...”, the important words “Our company”, “Library” and “Book” are included, so the importance is calculated. CPU14 acquires the importance of each word with reference to FIG. 9, and adds this, and obtains importance 57.83187.

CPU14は、算出した各文の重要度を、各文に対応づけてハードディスク20に記録する(図6参照)。   The CPU 14 records the calculated importance of each sentence on the hard disk 20 in association with each sentence (see FIG. 6).

(8)要約文の生成
次に、CPU14は、算出した各文の重要度に基づき、最も重要度の高い文を抽出する(ステップS10)。ここでは、図6に示す第4文の重要度が最も高いので、第4文が選択される。CPU14は、選択した文の文字数の合計が、予め定められた指定文字数を超えているかどうかを判断する(ステップS11)。ここで、指定文字数とは、当該文字数を超えない範囲で要約を作成するように予め指定された(あるいは他の条件より算出された)文字数である。ここでは、指定文字数が、250文字であるとして説明を進める。
(8) Generation of summary sentence Next, the CPU 14 extracts the sentence with the highest importance based on the calculated importance of each sentence (step S10). Here, since the 4th sentence shown in FIG. 6 has the highest importance, the 4th sentence is selected. The CPU 14 determines whether or not the total number of characters of the selected sentence exceeds a predetermined designated number of characters (step S11). Here, the designated number of characters is the number of characters designated in advance (or calculated from other conditions) so as to create a summary within a range not exceeding the number of characters. Here, the description proceeds assuming that the designated number of characters is 250 characters.

第4文の文字数は、62文字である(図6参照)。したがって、指定文字数である250文字を超えていないので、ステップS12に進む。ステップS12では、次に重要度の高い文を抽出する。ここでは、第5文が選択されることになる。第5分の文字数は97文字である。したがって、選択された文の合計文字数は、62文字と97文字を合計して、160文字となる。よって、指定文字数である250文字を超えていないので、ステップS11からステップS12に進む。   The number of characters in the fourth sentence is 62 characters (see FIG. 6). Therefore, since the designated number of characters does not exceed 250, the process proceeds to step S12. In step S12, the next most important sentence is extracted. Here, the fifth sentence is selected. The fifth character number is 97 characters. Therefore, the total number of characters of the selected sentence is 160 characters, which is the sum of 62 characters and 97 characters. Therefore, since the designated number of characters does not exceed 250, the process proceeds from step S11 to step S12.

ステップS12では、さらに次に重要度の高い文を抽出する。このような処理を、選択された文の合計文字数が指定文字数250文字を超えるまで繰り返す。ここでは、第4文(62文字)、第5文(97文字)、第3文(74文字)、第2文(56文字)を抽出した時点で、合計文字数が289文字となって指定文字数を超える。   In step S12, the next most important sentence is extracted. Such processing is repeated until the total number of characters of the selected sentence exceeds the designated number of characters 250. Here, when the fourth sentence (62 characters), the fifth sentence (97 characters), the third sentence (74 characters), and the second sentence (56 characters) are extracted, the total number of characters becomes 289 characters and the designated number of characters. Over.

指定文字数を超えると、CPU14は、最後に抽出した文を抽出文から外す(ステップS13)。ここでは、第2文が最後に抽出した文であるから、第2文を抽出したものから外す。その結果、図14に示すように、第4文、第5文、第3文が抽出されることになる。   When the specified number of characters is exceeded, the CPU 14 removes the last extracted sentence from the extracted sentence (step S13). Here, since the 2nd sentence is the sentence extracted last, it removes from what extracted the 2nd sentence. As a result, as shown in FIG. 14, the fourth sentence, the fifth sentence, and the third sentence are extracted.

次に、CPU14は、抽出した文を、元の文章における順番(つまり文番号の若い順)に従って並び替える(ステップS14)。これにより、図15に示すような順番の抽出文を得ることができる。   Next, the CPU 14 rearranges the extracted sentences according to the order in the original sentence (that is, the sentence number is in ascending order) (step S14). Thereby, the extracted sentences in the order as shown in FIG. 15 can be obtained.

CPU14は、このようにして並び替えた抽出文を要約として出力する(ステップS15)。ここでは、図15に示す「書籍の電子化が・・・繋げたいと考えております。」という要約を出力する。
The CPU 14 outputs the extracted sentences rearranged in this way as a summary (step S15). Here, the summary “The digitization of the book… I want to connect” shown in FIG. 15 is output.

4.応用例
上記のような要約文作成装置は、指定された文字数を超えない範囲での要約作成一般に応用することができる。たとえば、次のような応用が可能である。
4). Application Example The summary sentence creating apparatus as described above can be applied to general summary creation within a range not exceeding the specified number of characters. For example, the following applications are possible.

図16に示すように、ニュースなどを配信するサーバ装置Sがインターネット上に配置されている。端末装置Tは、サーバ装置Sからのニュースを受信して、表示するためのものである。端末装置Tのハードウエア構成は図2に示すものと同等であり、ハードウエア20には、要約文作成プログラムの他、ニュース記事閲覧のための閲覧プログラムが記録されている。   As shown in FIG. 16, a server device S that distributes news and the like is arranged on the Internet. The terminal device T is for receiving and displaying news from the server device S. The hardware configuration of the terminal device T is the same as that shown in FIG. 2, and the browsing program for browsing news articles is recorded in the hardware 20 in addition to the summary sentence creating program.

サーバ装置Sからは、複数の記事が送信されてくる。このとき、サーバ装置Sは、各記事につき記事識別符号を付して送信する。これを受けた端末装置Tの閲覧プログラムは、全ての記事をハードディスクに一旦記録する。そして、図17に示す予め定められたレイアウトに、各記事が収まるように表示を行う。端末装置Tは、レイアウトに示される各領域に対し、記事識別符号を対応づけて、いずれの領域にいずれの記事を表示するかを決定する。この決定方法としては、たとえば、記事識別符号の順番に、右上、左下、左上、右下という順に配置するなどである。   A plurality of articles are transmitted from the server device S. At this time, the server device S transmits each article with an article identification code. Upon receiving this, the browsing program of the terminal device T once records all articles on the hard disk. Then, the display is performed so that each article fits in the predetermined layout shown in FIG. The terminal device T associates an article identification code with each area shown in the layout, and determines which article is displayed in which area. As this determination method, for example, they are arranged in the order of article identification codes in the order of upper right, lower left, upper left, and lower right.

次に、端末装置Tは、領域の大きさと、指定されている表示フォントの種類および大きさとに基づいて、各領域に表示可能な文字数を決定する。このようにして算出した表示可能文字数を指定文字数として、当該領域に表示すべき記事につき、上述の要約文作成処理を行う。   Next, the terminal device T determines the number of characters that can be displayed in each area based on the size of the area and the type and size of the designated display font. With the number of displayable characters calculated in this way as the designated number of characters, the above-described summary sentence creation processing is performed for articles to be displayed in the area.

これにより、各領域には要約文が表示されることになる。端末装置Tは、要約文表示の際に、対応する記事全文へのリンクも併せて表示する。したがって、要約文を読んで興味を持ったユーザが、当該リンクをクリックすれば、画面全体に記事全文が表示されることになる。
As a result, a summary sentence is displayed in each area. The terminal device T also displays a link to the corresponding full article when displaying the summary sentence. Therefore, if a user who is interested in reading the summary text clicks the link, the entire article is displayed on the entire screen.

5.その他の実施形態
(1)上記実施形態では、TF値(強調度)、IDF値(希少度)、Hot係数(注目度)に基づいて単語の重要度を算出するようにしている。しかしながら、これらのうちのいずれか一つを用いて重要度を算出したり、これらのうちのいずれか二つを組み合わせて重要度を算出するようにしてもよい。
5. Other embodiments
(1) In the above embodiment, the importance level of a word is calculated based on the TF value (enhancement level), IDF value (rareness level), and Hot coefficient (attention level). However, the importance may be calculated using any one of these, or the importance may be calculated by combining any two of these.

(2)上記実施形態では、当該文章における単語の出現回数に基づいて単語の強調度を算出するようにしている。しかし、文章中における単語の出現位置に基づいて、単語の強調度を判断するようにしてもよい。たとえば、文の後ろの方に出てくる単語の方が強調度を高くするようにしてもよい。さらに。出現回数と出現位置とを組み合わせて強調度を算出するようにしてもよい。 (2) In the above embodiment, the word emphasis degree is calculated based on the number of appearances of the word in the sentence. However, the degree of word emphasis may be determined based on the appearance position of the word in the sentence. For example, the word appearing at the back of the sentence may be enhanced. further. The enhancement degree may be calculated by combining the number of appearances and the appearance position.

(3)上記実施形態では、検索サイトにおける当該単語のヒット数と、検索対象の全ページ数との比率に基づいて希少度(IDF値)を算出するようにしている。しかし、辞書や百科事典(ウエブ上にあるものローカルにあるものを問わない)などにおいて当該単語が何回使用されているか(見出し項目だけでなく内容中に用いられている場合も含む回数)に基づいて、当該単語の希少度を算出するようにしてもよい。 (3) In the above embodiment, the rarity (IDF value) is calculated based on the ratio between the number of hits of the word on the search site and the total number of pages to be searched. However, how many times the word is used in dictionaries and encyclopedias (regardless of whether they are on the web or local), including how many times the word is used in the content Based on this, the degree of rarity of the word may be calculated.

(4)上記実施形態では、ウエブ上の辞書の更新日の平均値と現在日の差に基づいて、現在の注目度(Hot係数)を算出するようにしている。しかしながら、最新の更新日との差に基づいて、現在の注目度を算出するようにしてもよい。あるいは、所定期間内に更新が行われた回数を算出し、これに基づいて現在の注目度を算出するようにしてもよい(更新回数が多いほど、注目度が大きい)。 (4) In the above embodiment, the current attention level (Hot coefficient) is calculated based on the difference between the average value of the updated dictionaries on the web and the current date. However, the current attention level may be calculated based on the difference from the latest update date. Alternatively, the number of updates performed within a predetermined period may be calculated, and the current attention level may be calculated based on this (the higher the update count, the higher the attention level).

(5)上記実施形態では、各単語の重要度の平均値をしきい値として重要単語を抽出するようにしている。しかし、標準偏差、分散なども考慮して重要単語を抽出するようにしてもよい。 (5) In the above embodiment, important words are extracted using the average value of the importance of each word as a threshold value. However, important words may be extracted in consideration of standard deviation and variance.

(6)上記実施形態では、重要単語を含む文についてのみ重要度を算出するようにしている。しかし、全ての文について重要度を算出するようにしてもよい。 (6) In the above embodiment, the importance is calculated only for the sentence including the important word. However, importance may be calculated for all sentences.

(7)上記実施形態では、指定文字数を超えない範囲で、文を選択するようにしている。しかし、指定文字数と合計文字数の差の絶対値が最も小さくなるように文を選択するようにしてもよい。 (7) In the above embodiment, sentences are selected within a range not exceeding the specified number of characters. However, the sentence may be selected so that the absolute value of the difference between the specified number of characters and the total number of characters is minimized.

(8)上記実施形態では、指定文字数に基づいて文を選択するようにしている。しかし、文の合計数(指定文数)、行の合計数(指定行数)、文章の合計データ量(指定データ量)などに基づいて文を選択するようにしてもよい。すなわち、文字数、行数、文数、データ量、面積などで指定された文章の大きさに合致するように、文を選択するようにしてもよい。 (8) In the above embodiment, a sentence is selected based on the designated number of characters. However, the sentence may be selected based on the total number of sentences (the number of designated sentences), the total number of lines (the number of designated lines), the total data amount of the sentences (the designated data amount), and the like. That is, the sentence may be selected so as to match the size of the sentence specified by the number of characters, the number of lines, the number of sentences, the data amount, the area, and the like.

(9)上記実施形態では、指定文字数などの文の選択基準は予め定められているものとしている。しかし、対象とする文章の文字数などに応じて、指定文字数などを可変にするようにしてもよい(たとえば、文章の文字数の半分を指定文字数とするなど)。これにより、文章の長さに対応した長さの要約文を得ることができる。 (9) In the above embodiment, it is assumed that sentence selection criteria such as the number of designated characters are predetermined. However, the number of designated characters may be made variable according to the number of characters in the target sentence (for example, half the number of characters in the sentence is designated as the designated number of characters). Thereby, a summary sentence having a length corresponding to the length of the sentence can be obtained.

(10)上記実施形態では、端末装置側において要約文作成処理を行っている。しかしながら、サーバ装置側において、要約文作成処理を行うようにしてもよい。 (10) In the above embodiment, the summary sentence creation process is performed on the terminal device side. However, the summary sentence creation process may be performed on the server device side.

(11)上記実施形態では、句点に基づいて文章中から「文」を抽出するようにしている。しかし、見出しなどのように句点のない文もある。そこで、見出しであると判断した部分(他の部分よりフォントが大きい、見出しであるとの属性が付与されている等により判断する)については、全体を一文であると判断するようにしてもよい。 (11) In the above embodiment, “sentence” is extracted from the sentence based on the punctuation mark. However, some sentences, such as headings, have no punctuation. Therefore, the part determined to be a headline (determined based on the fact that the font is larger than the other parts, the attribute of being a headline, etc.) may be determined as a whole sentence. .

(12)上記実施形態では、単語の重要度を算出する際に、文章全体のジャンルや属性(社会面の記事であるか、三面記事であるかや、論文であるか雑文であるかなど)により、単語について係数を設けるようにしてもよい。たとえば、社会面における「国会」は、通常出てくる単語であるから係数を低くする。一方、三面記事における「国会」は、あまり出てこない単語であるから係数を高くする。この係数を、算出した重要度に乗じて、最終的な重要度を得る。 (12) In the above embodiment, when calculating the importance of a word, the genre and attributes of the whole sentence (whether it is a social article, a three-faced article, a paper or a miscellaneous sentence, etc.) Thus, a coefficient may be provided for the word. For example, the “National Diet” in society is a word that usually appears, so the coefficient is set low. On the other hand, “National Diet” in the three-page article is a word that does not appear so often, so the coefficient is increased. Multiply the calculated importance by this coefficient to obtain the final importance.

(13)上記実施形態では、文の重要度を算出する際に、文と文の関連性を考慮せずに行っている。しかし、文と文の関連性も考慮して重要度を算出するようにしてもよい。たとえば、「その」「彼」等の指示代名詞が当該文に出てくる場合、重要度によって選択され、並び替えられた抽出文において、当該文より前の文が抽出されていない場合には、当該指示代名詞を含む文の係数を小さくする。一方、「したがって」「つまり」などの、話題を展開する接続詞が文に含まれる場合、当該文の係数を大きくする。この係数を、算出した重要度に乗じて、最終的な重要度を得る。 (13) In the above embodiment, the importance of a sentence is calculated without considering the relation between the sentence and the sentence. However, the importance may be calculated in consideration of the relationship between sentences. For example, when the pronouns such as “that” and “he” appear in the sentence, in the extracted sentence selected according to the importance and rearranged, the sentence before the sentence is not extracted. Reduce the coefficient of sentences containing the pronoun. On the other hand, if the sentence contains a conjunction that expands the topic, such as “so” or “that is”, the coefficient of the sentence is increased. Multiply the calculated importance by this coefficient to obtain the final importance.

(14)上記実施形態では、指定文字数以内に収まるように重要度の順に文を選択して予約を生成するようにしている。しかし、最も重要度の高い文の文字数が、指定文字数を超えている場合には、要約が生成できないことになる。そこで、このような場合には、従来用いられている、長い文を簡略化して文字数を減らす処理を行い、当該最も重要度の高い文を指定文字数以下になるようにして要約を生成するようにしてもよい。 (14) In the above embodiment, a reservation is generated by selecting sentences in order of importance so as to be within the specified number of characters. However, if the number of characters in the most important sentence exceeds the specified number of characters, a summary cannot be generated. Therefore, in such a case, a long sentence that has been used in the past is simplified to reduce the number of characters, and a summary is generated so that the most important sentence is less than the specified number of characters. May be.

(15)上記実施形態では、重要度に従って抽出した文を、元の文章における順番に並び替えて要約文を生成している。しかし、重要度に従って元の文章中の文に選択マーク(フラグなど)を付しておき、選択マークが付された文のみを元の文章の順に従って抽出し、要約文を得るようにしてもよい。 (15) In the above embodiment, a summary sentence is generated by rearranging sentences extracted according to importance in the order in the original sentence. However, a selection mark (such as a flag) is attached to the sentence in the original sentence according to the importance, and only the sentence with the selection mark is extracted according to the order of the original sentence to obtain a summary sentence. Good.

また、上記実施形態では、元の文章における順に従った要約文を生成するようにした。しかし、重要度に従って選択した文を重要度に従って並べ、これを要約文としてもよい。   Moreover, in the said embodiment, the summary sentence according to the order in the original sentence was produced | generated. However, the sentences selected according to the importance may be arranged according to the importance, and this may be used as a summary sentence.

(16)上記実施形態では、文を構成する全ての単語の重要度を合計して文の重要度を算出するようにしている。しかし、文を構成する単語のうち所定条件を満たす単語のみ(たとえば、文章全体としての単語の重要度の上位15個(所定個)のみ)の重要度を合計して文の重要度を算出するようにしてもよい。










(16) In the above embodiment, the importance of all words constituting the sentence is summed to calculate the importance of the sentence. However, the importance of the sentence is calculated by adding the importance of only the words that satisfy the predetermined condition (for example, only the top 15 (predetermined) of the importance of the word as a whole sentence) among the words constituting the sentence. You may do it.










Claims (11)

解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、
文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、
重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、
選択した文を配して要約文を生成する配列手段と、
を備えた要約文生成装置。
A sentence / word extracting means for analyzing a sentence to be analyzed, extracting a sentence constituting the sentence, and extracting at least a noun contained in each sentence as a word;
Importance calculating means for calculating importance of words included in the sentence extracted by the sentence / word extracting means, and calculating importance of each sentence based on importance of the words included in each sentence;
Sentence selection means for selecting sentences so as to satisfy a predetermined condition in descending order of importance;
An arrangement means for arranging the selected sentences and generating a summary sentence;
A summary sentence generation device comprising:
コンピュータによって要約文生成装置を実現するための要約文生成プログラムであって、当該プログラムは、コンピュータを、
解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、
文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、
重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、
選択した文を配して要約文を生成する配列手段と、
して機能させるための要約文生成プログラム。
A summary sentence generation program for realizing a summary sentence generation apparatus by a computer, the program comprising:
A sentence / word extracting means for analyzing a sentence to be analyzed, extracting a sentence constituting the sentence, and extracting at least a noun contained in each sentence as a word;
Importance calculating means for calculating importance of words included in the sentence extracted by the sentence / word extracting means, and calculating importance of each sentence based on importance of the words included in each sentence;
Sentence selection means for selecting sentences so as to satisfy a predetermined condition in descending order of importance;
An arrangement means for arranging the selected sentences and generating a summary sentence;
Summary sentence generation program to make it function.
請求項1の装置または請求項2のプログラムにおいて、
前記配列手段は、解析対象となる元の文章における文の順に沿って、前記選択した文を配することを特徴とする装置またはプログラム。
In the apparatus of claim 1 or the program of claim 2,
The arrangement means arranges the selected sentence along the order of sentences in the original sentence to be analyzed.
請求項1〜3のいずれかのプログラムにおいて、
前記重要度算出手段は、当該単語が当該文章中において使用されている回数が多いほど、重要度が高いと判断することを特徴とする装置またはプログラム。
In the program in any one of Claims 1-3,
The apparatus or program according to claim 1, wherein the importance calculation means determines that the importance is higher as the number of times the word is used in the sentence is higher.
請求項1〜4のいずれかの装置またはプログラムにおいて、
前記重要度算出手段は、当該単語が一般の文章中において用いられている度合いが小さいほど、重要度が高いと判断することを特徴とする装置またはプログラム。
In the apparatus or program in any one of Claims 1-4,
The apparatus or program according to claim 1, wherein the importance calculation means determines that the importance is higher as the degree of use of the word in a general sentence is smaller.
請求項5の装置またはプログラムにおいて、
前記重要度算出手段は、当該単語を検索サイトにて検索し、当該検索サイトに登録されているページ数と、検索結果として得られた当該単語を含むページ数との比率に基づいて、当該単語が一般の文章中において用いられている度合いを算出することを特徴とする装置またはプログラム。
In the apparatus or program of Claim 5,
The importance calculating means searches the word on a search site, and based on the ratio between the number of pages registered in the search site and the number of pages including the word obtained as a search result, A device or a program for calculating the degree to which is used in a general sentence.
請求項1〜6のいずれかの装置またはプログラムにおいて、
前記重要度算出手段は、当該単語を辞書サイトにて検索し、当該単語についての説明の更新頻度が高いほど重要度が高いと判断することを特徴とする装置またはプログラム。
In the apparatus or program in any one of Claims 1-6,
The importance calculation means searches for the word on a dictionary site, and determines that the importance is higher as the update frequency of the explanation for the word is higher.
請求項1〜7のいずれかの装置またはプログラムにおいて、
前記文選択手段は、選択した文の文字数合計が、所定の文字数を超えないように、可能な限り多くの文を重要度の高い順に選択することを特徴とする装置またはプログラム。
In the apparatus or program in any one of Claims 1-7,
The apparatus or program, wherein the sentence selection means selects as many sentences as possible in descending order of importance so that the total number of characters of the selected sentence does not exceed a predetermined number of characters.
請求項1〜8のいずれかの装置またはプログラムにおいて、
前記装置は、複数の文章を表示面に配置して表示するにあたり、それぞれの文章を当該表示面中のいずれの領域に表示すべきかを示すレイアウト情報を受け、当該レイアウト情報に基づいて領域ごとに表示可能な文字数を算出する文字数算出手段をさらに備え、
前記文選択手段は、各領域について、算出した前記文字数を超えない範囲において、可能な限り多くの文を重要度の高い順に選択することを特徴とする装置またはプログラム。
In the apparatus or program in any one of Claims 1-8,
When the apparatus arranges and displays a plurality of sentences on the display surface, the apparatus receives layout information indicating in which area on the display surface each sentence should be displayed, and for each area based on the layout information. A character number calculating means for calculating the number of displayable characters;
The sentence selecting means selects as many sentences as possible in descending order of importance within a range not exceeding the calculated number of characters for each area.
請求項9の装置またはプログラムにおいて、
前記装置は、各領域について生成した要約文を対応する領域に配置するとともに、当該領域内に対応する文章へのリンクを配置する配置手段をさらに備えたことを特徴とする装置またはプログラム。
The apparatus or program according to claim 9.
The apparatus or program further includes an arrangement unit that arranges the summary sentence generated for each area in a corresponding area and arranges a link to the corresponding sentence in the area.
コンピュータによって要約文を生成する方法であって、
解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出し、
当該抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出し、
重要度の高い順から、所定の条件を満足するように文を選択し、
選択した文を配して要約文を生成することを特徴とする要約文生成方法。














A method of generating a summary sentence by a computer,
Analyzes the sentence to be analyzed, extracts sentences that compose the sentence, extracts at least nouns contained in each sentence as words,
Calculate the importance of words included in the extracted sentence, calculate the importance of each sentence based on the importance of words included in each sentence,
Select sentences from the order of importance in order to satisfy the specified conditions,
A summary sentence generation method, wherein a summary sentence is generated by arranging selected sentences.














JP2011149884A 2011-07-06 2011-07-06 Summary sentence generation device Pending JP2013016106A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011149884A JP2013016106A (en) 2011-07-06 2011-07-06 Summary sentence generation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011149884A JP2013016106A (en) 2011-07-06 2011-07-06 Summary sentence generation device

Publications (1)

Publication Number Publication Date
JP2013016106A true JP2013016106A (en) 2013-01-24

Family

ID=47688722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011149884A Pending JP2013016106A (en) 2011-07-06 2011-07-06 Summary sentence generation device

Country Status (1)

Country Link
JP (1) JP2013016106A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015194919A (en) * 2014-03-31 2015-11-05 大日本印刷株式会社 Document summarization device, document summarization method, and program
JP5933863B1 (en) * 2015-05-22 2016-06-15 株式会社Ubic Data analysis system, control method, control program, and recording medium
JP2017076176A (en) * 2015-10-13 2017-04-20 三菱電機株式会社 Document output control device
KR20180108441A (en) * 2017-03-24 2018-10-04 오정록 A System of Formation of Estimate Sheet with Advertisement URL
JP2019121075A (en) * 2017-12-28 2019-07-22 株式会社日立ソリューションズ Method for creating summary from audio data in conference
US10606875B2 (en) 2014-09-16 2020-03-31 Kabushiki Kaisha Toshiba Search support apparatus and method
JP2020071675A (en) * 2018-10-31 2020-05-07 株式会社eVOICE Speech summary generation apparatus, speech summary generation method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11345233A (en) * 1998-04-02 1999-12-14 Sony Corp Method and device for processing document and recording medium
JP2000048025A (en) * 1998-07-28 2000-02-18 Brother Ind Ltd Communication equipment
US20060206806A1 (en) * 2004-11-04 2006-09-14 Motorola, Inc. Text summarization
JP2011022914A (en) * 2009-07-17 2011-02-03 Casio Computer Co Ltd Information processing device and control program thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11345233A (en) * 1998-04-02 1999-12-14 Sony Corp Method and device for processing document and recording medium
JP2000048025A (en) * 1998-07-28 2000-02-18 Brother Ind Ltd Communication equipment
US20060206806A1 (en) * 2004-11-04 2006-09-14 Motorola, Inc. Text summarization
JP2011022914A (en) * 2009-07-17 2011-02-03 Casio Computer Co Ltd Information processing device and control program thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6014051961; 後藤淳、外3名: 'Wikipedia の変更履歴を利用した関連番組検索' 映像情報メディア学会年次大会講演予稿集 , 20100831, 一般社団法人映像情報メディア学会 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015194919A (en) * 2014-03-31 2015-11-05 大日本印刷株式会社 Document summarization device, document summarization method, and program
US10606875B2 (en) 2014-09-16 2020-03-31 Kabushiki Kaisha Toshiba Search support apparatus and method
JP5933863B1 (en) * 2015-05-22 2016-06-15 株式会社Ubic Data analysis system, control method, control program, and recording medium
WO2016189606A1 (en) * 2015-05-22 2016-12-01 株式会社Ubic Data analysis system, control method, control program, and recording medium
JP2017076176A (en) * 2015-10-13 2017-04-20 三菱電機株式会社 Document output control device
KR20180108441A (en) * 2017-03-24 2018-10-04 오정록 A System of Formation of Estimate Sheet with Advertisement URL
KR101965527B1 (en) * 2017-03-24 2019-04-03 오정록 A System of Formation of Estimate Sheet with Advertisement URL
JP2019121075A (en) * 2017-12-28 2019-07-22 株式会社日立ソリューションズ Method for creating summary from audio data in conference
JP2020071675A (en) * 2018-10-31 2020-05-07 株式会社eVOICE Speech summary generation apparatus, speech summary generation method, and program

Similar Documents

Publication Publication Date Title
JP2013016106A (en) Summary sentence generation device
US9589071B2 (en) Query suggestions from documents
Yasseri et al. A practical approach to language complexity: a Wikipedia case study
Ambati et al. Assessing relative sentence complexity using an incremental CCG parser
Reijnierse et al. How polysemy affects concreteness ratings: The case of metaphor
JP2016164724A (en) Vocabulary knowledge acquisition device, vocabulary knowledge acquisition method, and vocabulary knowledge acquisition program
Strzelecki et al. Direct answers in Google search results
JP6653169B2 (en) Keyword extraction device, content generation system, keyword extraction method, and program
Kabadjov et al. Multilingual statistical news summarization
JP2010055155A (en) Server device, information processing method, and program
JP2008112310A (en) Retrieval device, information retrieval system, retrieval method, retrieval program and recording medium
Sidiropoulou Shaping public view: Critical media literacy through English-Greek translated press headlines
Yang et al. An Opinion-aware Approach to Contextual Suggestion.
Pollard Analyzing the accessibility of Illinois public library homepages: Are we accessible to all?
JP2013016135A (en) Article arrangement determination device
Sunayama et al. Panoramic view system for extracting key sentences based on viewpoints and application to a search engine
US10217143B2 (en) Information processing system, information processing method, and information processing program
JP2016040723A (en) Article arrangement determination device
JP7139271B2 (en) Information processing device, information processing method, and program
Murai et al. based recommendation of attractive sentences in a novel for effective browsing
Ahmed Lulu A Robust System for Local Reuse Detection of Arabic Text on the Web
Li DICTIONARIES, CORPORA AND ARCHAIC WORDS: THE CHANGE OF CHINESE CHARACTERS WITH THE WOMAN RADICAL
JP5602980B1 (en) Information processing system, information processing method, and information processing program
Hemming The Arthurian Place Names of Wales
Jackson Indefinite articles in'Titus Andronicus,'Peele, and Shakespeare

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130305

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130313

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150413