JP2013016106A - Summary sentence generation device - Google Patents
Summary sentence generation device Download PDFInfo
- Publication number
- JP2013016106A JP2013016106A JP2011149884A JP2011149884A JP2013016106A JP 2013016106 A JP2013016106 A JP 2013016106A JP 2011149884 A JP2011149884 A JP 2011149884A JP 2011149884 A JP2011149884 A JP 2011149884A JP 2013016106 A JP2013016106 A JP 2013016106A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- importance
- word
- sentences
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、要約文を生成する装置に関するものである。 The present invention relates to an apparatus for generating a summary sentence.
文書の要約を自動的に作成する装置が実用化され提案されている。たとえば、特許文献1には、与えられた文書の構造を解析し、当該構造と予め設定した条件とに基づいて重要文を抽出して要約を作成する装置が開示されている。この装置を用いることにより、自動的に重要文を抽出することができる。
Devices for automatically creating document summaries have been put into practical use and proposed. For example,
しかしながら、上記のような従来技術では、事前に定められた特定の語を含んでいたり、限定された文法構造をもっていたりするものを手がかりに重要度を定めているため、それらに該当しない文書については、適切に重要文を抽出することができないという問題があった。 However, since the prior art as described above determines the importance based on clues that include specific words that are defined in advance or have a limited grammatical structure, for documents that do not fall under those There was a problem that important sentences could not be extracted properly.
この発明は、上記のような問題点を解決して、適切に重要文を抽出して要約文を作成する装置を提供することを目的とする。 An object of the present invention is to provide an apparatus that solves the above-described problems and appropriately extracts important sentences and creates a summary sentence.
(1)(2)この発明に係る要約文生成装置は、解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、選択した文を配して要約文を生成する配列手段とを備えている。 (1) (2) The summary sentence generation device according to the present invention analyzes a sentence to be analyzed, extracts sentences constituting the sentence, and extracts at least nouns included in each sentence as words. Importance calculating means for calculating importance of words included in the sentence extracted by the extraction means and the sentence / word extracting means, and calculating importance of each sentence based on importance of the words included in each sentence And sentence selecting means for selecting sentences so as to satisfy a predetermined condition in descending order of importance, and arrangement means for generating a summary sentence by arranging the selected sentences.
したがって、重要度の高い文によって要約を構成することができ、適切な要約文を得ることができる。 Therefore, a summary can be composed of sentences with high importance, and an appropriate summary sentence can be obtained.
(3)この発明に係る要約文生成装置は、配列手段が、解析対象となる元の文章における文の順に沿って、前記選択した文を配することを特徴としている。 (3) The summary sentence generation device according to the present invention is characterized in that the arranging means arranges the selected sentences in the order of sentences in the original sentence to be analyzed.
したがって、元の文章における順に沿って配置された文を要約文として得ることができるので、文章として流れのよい要約文を得ることができる。 Therefore, since sentences arranged along the order in the original sentence can be obtained as a summary sentence, a summary sentence having a good flow as a sentence can be obtained.
(4)この発明に係る要約文生成装置は、重要度算出手段が、当該単語が当該文章中において使用されている回数が多いほど、重要度が高いと判断することを特徴としている。 (4) The summary sentence generation device according to the present invention is characterized in that the importance calculation means determines that the importance is higher as the number of times the word is used in the sentence is higher.
したがって、文章中における当該単語の強調度に基づいて、各単語の重要度を決定することができる。 Therefore, the importance of each word can be determined based on the degree of emphasis of the word in the sentence.
(5)この発明に係る要約文生成装置は、重要度算出手段が、当該単語が一般の文章中において用いられている度合いが小さいほど、重要度が高いと判断することを特徴としている。 (5) The summary sentence generation device according to the present invention is characterized in that the importance degree calculation means determines that the importance degree is higher as the degree that the word is used in a general sentence is smaller.
したがって、当該単語の一般的な希少度に基づいて、各単語の重要度を決定することができる。 Therefore, the importance of each word can be determined based on the general rarity of the word.
(6)この発明に係る要約文生成装置は、重要度算出手段が、当該単語を検索サイトにて検索し、当該検索サイトに登録されているページ数と、検索結果として得られた当該単語を含むページ数との比率に基づいて、当該単語が一般の文章中において用いられている度合いを算出することを特徴としている。 (6) In the summary sentence generation device according to the present invention, the importance degree calculation means searches for the word on the search site, and calculates the number of pages registered in the search site and the word obtained as a search result. Based on the ratio with the number of pages to be included, the degree to which the word is used in a general sentence is calculated.
したがって、当該単語の一般の文章中において用いられている度合いに基づいて、各単語の希少度を決定することができる。 Therefore, the rarity degree of each word can be determined based on the degree used in the general sentence of the word.
(7)この発明に係る要約文生成装置は、重要度算出手段が、当該単語を辞書サイトにて検索し、当該単語についての説明の更新頻度が高いほど重要度が高いと判断することを特徴としている。 (7) The summary sentence generation device according to the present invention is characterized in that the importance calculation means searches for the word on a dictionary site, and determines that the importance is higher as the update frequency of the explanation for the word is higher. It is said.
したがって、当該単語の辞書サイトにおける更新頻度に基づいて、各単語の重要度を決定することができる。 Therefore, the importance of each word can be determined based on the update frequency of the word at the dictionary site.
(8)この発明に係る要約文生成装置は、文選択手段が、選択した文の文字数合計が、所定の文字数を超えないように、可能な限り多くの文を重要度の高い順に選択することを特徴としている。 (8) In the summary sentence generation device according to the present invention, the sentence selection means selects as many sentences as possible in descending order of importance so that the total number of characters of the selected sentence does not exceed a predetermined number of characters. It is characterized by.
したがって、所定の文字数以内において、可能な限りの多くの文を重要度の高い順に選択して、要約文を得ることができる。 Therefore, within the predetermined number of characters, as many sentences as possible can be selected in descending order of importance to obtain a summary sentence.
(9)この発明にかかる要約文生成装置は、複数の文章を表示面に配置して表示するにあたり、それぞれの文章を当該表示面中のいずれの領域に表示すべきかを示すレイアウト情報を受け、当該レイアウト情報に基づいて領域ごとに表示可能な文字数を算出する文字数算出手段をさらに備え、文選択手段が、各領域について、算出した前記文字数を超えない範囲において、可能な限り多くの文を重要度の高い順に選択することを特徴としている。 (9) The summary sentence generation device according to the present invention receives layout information indicating in which area in the display surface each sentence should be displayed when arranging and displaying a plurality of sentences on the display surface. It further comprises a character number calculating means for calculating the number of characters that can be displayed for each area based on the layout information, and the sentence selecting means assigns as many sentences as possible within a range not exceeding the calculated number of characters for each area. It is characterized by selecting in descending order.
したがって、与えられたレイアウトの各領域の大きさに応じて、適切な要約文を生成することができる。 Therefore, an appropriate summary sentence can be generated according to the size of each area of a given layout.
(10)この発明に係る要約文生成装置は、各領域について生成した要約文を対応する領域に配置するとともに、当該領域内に対応する文章へのリンクを配置する配置手段をさらに備えたことを特徴としている。 (10) The summary sentence generation device according to the present invention further includes an arrangement unit that arranges the summary sentence generated for each area in the corresponding area and arranges a link to the corresponding sentence in the area. It is a feature.
したがって、領域の大きさに応じて要約文を表示し、リンクによって完全な文章を表示させることが可能となる。 Therefore, a summary sentence can be displayed according to the size of the area, and a complete sentence can be displayed by a link.
(11)この発明に係る要約文生成方法は、コンピュータによって要約文を生成する方法であって、解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出し、当該抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出し、重要度の高い順から、所定の条件を満足するように文を選択し、選択した文を配して要約文を生成することを特徴としている。 (11) A summary sentence generation method according to the present invention is a method for generating a summary sentence by a computer, analyzes sentences to be analyzed, extracts sentences constituting the sentences, and includes at least the sentences included in each sentence Extract nouns as words, calculate the importance of the words included in the extracted sentences, calculate the importance of each sentence based on the importance of the words included in each sentence, and in descending order of importance Thus, a sentence is selected so as to satisfy a predetermined condition, and a summary sentence is generated by arranging the selected sentence.
したがって、重要度の高い文によって要約を構成することができ、適切な要約文を得ることができる。 Therefore, a summary can be composed of sentences with high importance, and an appropriate summary sentence can be obtained.
「文・単語抽出手段」は、実施形態においては、ステップS1、S2がこれに対応する。 In the embodiment, the “sentence / word extracting means” corresponds to steps S1 and S2.
「重要度算出手段」は、実施形態においては、ステップS3〜S7がこれに対応する。 In the embodiment, “importance calculation means” corresponds to steps S3 to S7.
「文選択手段」は、実施形態においては、ステップS8〜S13がこれに対応する。 In the embodiment, “sentence selection means” corresponds to steps S8 to S13.
「配列手段」は、実施形態においては、ステップS14がこれに対応する。 “Sequencer” corresponds to step S14 in the embodiment.
「プログラム」とは、CPUにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。 The “program” is a concept that includes not only a program that can be directly executed by the CPU, but also a source format program, a compressed program, an encrypted program, and the like.
1.機能ブロック図
図1に、この発明の一実施形態による要約文生成装置の機能ブロック図を示す。文・単語抽出手段2は、文章記録部12に記録されている文章データを読み出し、当該文章データによって示される文章を構成する文を抽出する。さらに、各文に含まれる名詞を単語として抽出する。
1. Functional Block Diagram FIG. 1 shows a functional block diagram of a summary sentence generation device according to an embodiment of the present invention. The sentence / word extracting means 2 reads the sentence data recorded in the
重要度算出手段4は、前記抽出された各単語の重要度を算出する。さらに、各文に含まれる各単語の重要度に基づいて、各文の重要度を算出する。文選択手段6は、文章記録部12に記録された文のうち、重要度の高いものから順に選択する。たとえば、選択した文の文字数が所定の文字数を超えない範囲において、できるだけ多くの文を選択する。
The importance calculation means 4 calculates the importance of each extracted word. Furthermore, the importance of each sentence is calculated based on the importance of each word included in each sentence. The sentence selection means 6 selects the sentences recorded in the
配列手段8は、選択された文を、元の文章における並び順に沿って配置することで、要約文データを生成する。
The arranging
2.ハードウエア構成
図2に、図1に示す要約文生成装置のハードウエア構成を示す。CPU14には、メモリ16、ディスプレイ18、ハードディスク20、CD−ROMドライブ22、キーボード/マウス24、通信回路26が接続されている。通信回路26は、インターネットなどに接続するためのものである。
2. Hardware Configuration FIG. 2 shows a hardware configuration of the summary sentence generation device shown in FIG. A
ハードディスク20には、WINDOWS(商標)などのオペレーティングシステム30、要約文生成プログラム32、形態素辞書34が記録されている。オペレーティングシステム30、要約文生成プログラム32は、CD−ROM28に記録されていたものをCD−ROMドライブ22を介して、インストールしたものである。形態素辞書34には、単語とその品詞が対応づけて記録されている。
The
3.要約文生成プログラム
要約文生成プログラム32のフローチャートを、図3、図4に示す。
3. Summary sentence generation program The flowchart of the summary
(1)文の抽出
CPU14は、ステップS1において、ハードディスク20に記録された文章データから、文を抽出する(ステップS1)。この実施形態では、句点(「。」や「.」)に基づいて、文を抽出するようにしている。すなわち、句点が見いだされるまでを一つの文として抽出する。
(1) Sentence Extraction The
たとえば、図5に示すような文章データであれば、図6に示すように、文番号「1」〜「6」までの6つの文が抽出されることになる。CPU14は、このようにして抽出した文を、順番を示す文番号とともにハードディスク20に記録する。この際、CPU14は、各文の文字数を併せて記録する。
For example, in the case of sentence data as shown in FIG. 5, as shown in FIG. 6, six sentences with sentence numbers “1” to “6” are extracted. The
(2)形態素解析
次に、CPU14は、文章データに含まれる全ての文を対象として、形態素解析を行う(ステップS2)。図7に、形態素解析処理の詳細を示す。まず、CPU14は、ハードディスク20に記録されている形態素辞書34を参照して、文章データの形態素を解析する(ステップS21)。この形態素解析は、従来より行われている一般的な手法を用いることができる。形態素解析の結果を、図8aに示す。
(2) Morphological Analysis Next, the
次に、CPU14は、通信回路26を使用して、インターネットを介して、ウエブ上の百科事典や辞書(たとえばWikipedia(商標)やe-Words(商標))にアクセスする。そして、図8に示す形態素解析によって得られた連続する単語を結合し、これをウエブ上の百科事典や辞書、検索サイトにて検索する(ステップS22)。たとえば、「平素」と「は」を結合して「平素は」という単語を生成し、この単語が見出し語としてウエブ上の百科事典や辞書に存在するかどうか、あるいは検索サイトにおいて所定件数以上(たとえば1万件以上)ヒットするかどうかを検索する。たとえば、「平素+は」「格別+の」「IT+ソリューション」などは、ウエブ上で文節として使用されている例が多くあるので、検索サイトにおける検索で所定件数以上のヒットを得ることができる。また、「電子+書籍」などの単語は、百科事典や辞書の見出し語として存在する可能性がある。
Next, the
なお、この実施形態では、文の初めの単語を対象単語として、後続の単語を順次結合して行き、最も長い単語としてウェブ上の百科事典・辞書に存在する、または検索サイトにて所定件数以上ヒットするものを抽出する。CPU14は、このようにして抽出した結合単語(たとえば「平素は」)を、図8aのテーブルに記録するとともに、結合単語を構成する個々の単語(たとえば「平素」「は」)を図8aのテーブルから削除する。これにより、テーブルは、図8bに示すようになる。さらに、CPU14は、見いだされた結合単語を、形態素辞書34に追加登録する。
In this embodiment, the first word of the sentence is used as the target word, the subsequent words are sequentially combined, and the longest word exists in the encyclopedia / dictionary on the web, or a predetermined number or more on the search site. Extract hits. The
続いて、抽出された単語の次の単語(抽出されなかった場合は対象単語の次の単語)を次の対象単語として、後続の単語を順次結合して行き、最も長い単語としてウェブ上の辞書に存在するものを抽出する。この処理を、文末まで繰り返す。 Next, the next word after the extracted word (or the next word after the target word if it is not extracted) is used as the next target word, and subsequent words are sequentially combined, and the dictionary on the web as the longest word Extract what exists in. This process is repeated until the end of the sentence.
したがって、この実施形態によれば、形態素辞書34に登録されていない単語であっても、これを単語として抽出することができる。
Therefore, according to this embodiment, even a word that is not registered in the
続いて、CPU14は、上記で得た単語を結合する処理を行う(ステップS23)。たとえば、名詞が連続する場合にはこれを結合して一つの名詞とする。「福島」「第一」「原子力」「発電所」という4つの名詞が連続する場合、これを「福島第一原子力発電所」とする。同様に、人名の姓と名が連続する場合、これを結合する。その他、形態素の結合として一般に行われている手法を用いて、単語の結合を行う。CPU14は、得られた結合単語(たとえば、「福島第一原子力発電所」)を、図8のテーブルに記録するとともに、結合単語を構成する個々の単語(たとえば、「福島」「第一」「原子力」「発電所」)を図8bのテーブルから削除する。
Subsequently, the
以上のようにして、形態素解析を行うことができる。 As described above, morphological analysis can be performed.
(3)TF値算出
次に、CPU14は、上記にて抽出した単語(この実施形態では名詞を含む単語のみを対象とする)について、TF(Term Frequency)値を算出する(ステップS3)。つまり、図8bのテーブルに記録した品詞が名詞である単語および名詞を品詞として含む単語について、TF値を算出する。
(3) TF Value Calculation Next, the
ここで、TF値とは、当該単語が当該文章中において出現する回数を、文章中の延べ単語数で除した値である。 Here, the TF value is a value obtained by dividing the number of times the word appears in the sentence by the total number of words in the sentence.
TF=単語の出現回数/各単語の出現回数の合計
図9に、各単語について算出したTF値を示す。CPU14は、算出したTF値をハードディスク20に記録する。
TF = number of appearances of words / total number of appearances of each word FIG. 9 shows the TF values calculated for each word. The
この実施形態では、当該文章中における各単語の出現頻度を得ることで、各単語が当該文章中において、どの程度強調されているのかを算出するようにしている。 In this embodiment, by obtaining the appearance frequency of each word in the sentence, how much each word is emphasized in the sentence is calculated.
(4)IDF値算出
次に、CPU14は、各単語についてIDF(Inverse Document Frequency)値を算出する(ステップS4)。ここで、IDF値は、各単語の希少性(世間に流通している単語として一般的でないこと)を表すものである。当該単語の希少性が高いほど、IDF値は高くなる。
(4) IDF Value Calculation Next, the
この実施形態では、IDF値は、以下の式により算出するようにしている。 In this embodiment, the IDF value is calculated by the following equation.
IDF=log(当該単語の検索エンジンでのヒット数(ページ数)/検索エンジン上の総ページ数)
図10に、IDF値算出処理の詳細を示す。CPU14は、図8bのテーブルに記録された最初の単語(この実施形態では名詞を含む単語のみを対象とする)を対象単語とする(ステップS41)。CPU14は、対象単語(たとえば「平素は」)を、インターネット上の検索サイト(たとえばYahoo!(商標)や***(商標)など)にて検索する(ステップS42)。
IDF = log (number of hits (number of pages) in the search engine of the word / total number of pages on the search engine)
FIG. 10 shows details of the IDF value calculation processing. The
この検索リクエストに応じて、検索サイトから検索結果が返信されてくるので、CPU14はこれを受信する。CPU14は、検索結果に含まれる対象単語のヒット数(当該単語が含まれるページ数)および検索サイトが対象としている総ページ数を取得し、メモリ16に記録する(ステップS43)。
In response to this search request, the search result is returned from the search site, and the
続いて、CPU14は、log(当該単語の検索エンジンでのヒット数(ページ数)/検索エンジン上の総ページ数)を計算して、IDF値を算出する(ステップS44)。この実施形態では、logは自然対数を用いている。なお、検索エンジン上の総ページ数は、例えば250億ヒット程度のオーダーとなる。CPU14は、算出したIDF値を、各単語に対応づけてハードディスク20に記録する(図9参照)。
Subsequently, the
CPU14は、すべての単語についてIDF値を算出したかどうかを判断する(ステップS45)。図8bのテーブルにおいて未処理の単語が残っていれば、CPU14は、次の単語を対象単語とする(ステップS46)。そして、ステップS42以下を繰り返す。このようにして、対象となる全ての単語についてIDF値を算出する。
The
(5)TF−IDF値算出
続いて、CPU14は、各単語につき、算出したTF値とIDF値に基づいて、TF−IDF値を計算する(ステップS5)。この実施形態では、TF値とIDF値との積を算出することにより、TF−IDF値を算出するようにしている。
(5) TF-IDF value calculation Subsequently, the
(6)Hot係数算出
続いて、CPU14は、Hot係数を算出する(ステップS6)。ここで、Hot係数とは、対象となる単語の現在における注目度を表す指数である。この実施形態では、ウエブ上の辞書において対象単語を検索し、当該対象単語がどの程度の頻度で、どの程度現在に近い時間で更新されているかを取得し、これに基づいて算出するようにしている。
(6) Hot coefficient calculation Subsequently, the
具体的には、当該単語について、最新の更新日から所定件数(たとえば100件)の更新日を取得し、これら更新日の平均日を算出して、現在の日との差を求める。この差が小さいほど、Hot係数を大きくする。 Specifically, for the word, a predetermined number (for example, 100) of update dates are acquired from the latest update date, an average date of these update dates is calculated, and a difference from the current date is obtained. The smaller the difference, the larger the Hot coefficient.
図11に、Hot係数算出処理の詳細を示す。CPU14は、図8bのテーブルに記録された最初の単語(この実施形態では名詞を含む単語のみを対象とする)を対象単語とする(ステップS61)。CPU14は、対象単語を、インターネット上の辞書(ウエブ辞書)にアクセスし検索する(ステップS62)。
FIG. 11 shows details of the Hot coefficient calculation process. The
対象単語が見出し語として存在すれば、当該対象単語に対する説明などのデータが返信されてくる。見出し語として存在しなければ、存在しない旨(あるいはエラー)が返信されてくる。CPU14は、これを受けて、対象単語がウエブ上の辞書に見出し語として存在するかどうかを判断する(ステップS63)。
If the target word exists as a headword, data such as an explanation for the target word is returned. If it does not exist as a headword, a message that it does not exist (or an error) is returned. In response to this, the
見出し語として存在する場合、CPU14は、返信されてきた解説データ中に記録されている更新日を、最新のものから所定件数(ここでは100件)取得する(ステップS64)。
If it exists as a headword, the
図12に、返信されてくる解説データの例を示す。見出し語、内容などの項目の他、更新日の項目が設けられている。この更新日には、内容等について更新が行われた履歴が順に示されている。CPU14は、この更新日を最新のものから100件取得する。なお、更新が100件以下の場合には、当該単語のHot係数を1.0として、ステップS68に進む。
FIG. 12 shows an example of comment data returned. In addition to items such as headwords and contents, items of update date are provided. On this update date, the history in which the contents etc. have been updated is shown in order. The
次に、CPU14は、取得した100件の更新日の平均日を算出する。次に、CPU14は、現在日(内部時計に基づく)と平均日との差(絶対値)を算出する(ステップS66)。さらに、算出した差に基づいてHot係数を算出する(ステップS67)。
Next, the
この実施形態では、ハードディスク20に予め記録された係数テーブル(図13参照)に基づいてHot係数を決定する。たとえば、算出した差が10日であれば、Hot係数は2.6として決定される。CPU14は、算出したHot係数を、対象単語に対応づけて記録する(図9参照)。
In this embodiment, the Hot coefficient is determined based on a coefficient table (see FIG. 13) recorded in advance on the
CPU14は、すべての単語についてHot係数を算出したかどうかを判断する(ステップS68)。図8bのテーブルにおいて未処理の単語が残っていれば、CPU14は、次の単語を対象単語とする(ステップS69)。そして、ステップS62以下を繰り返す。このようにして、対象となる全ての単語についてHot係数を算出する。
The
なお、対象単語がウエブ上の辞書に見出し語として存在しない場合には、Hot係数を1.0とする(ステップS70)。 If the target word does not exist as an entry word in the dictionary on the web, the Hot coefficient is set to 1.0 (step S70).
(7)重要度の算出
CPU14は、各単語につき、TF−IDF値にHot係数を乗じて、重要度を算出する(図3のステップS7)。CPU14は、このようにして算出した重要度を、対象単語に対応づけて記録する(図9参照)。
(7) Calculation of
次に、CPU14は、各単語の重要度に基づいて重要単語を決定する(ステップS8)。この実施形態では、単語の重要度の平均値を算出し、この平均値を超える重要度を有する単語を重要単語として抽出している。たとえば、図9に示す場合であれば、単語の重要度の平均値は11.40135438である。したがって、CPU14は、この平均値を超える重要度を有する単語「電子書籍」「図書館」「書籍」・・・「利用価値」を重要単語として選択することになる。
Next, CPU14 determines an important word based on the importance of each word (step S8). In this embodiment, an average value of importance levels of words is calculated, and words having importance levels exceeding the average value are extracted as important words. For example, in the case shown in FIG. 9, the average value of word importance is 11.40135438. Therefore, the
次に、CPU14は、各文のうち重要単語が含まれる文について重要度を算出する。重要度は、当該文に含まれる各単語の重要度を合計することによって算出する(ステップS9)。たとえば、図6に示す文章の第1文「平素は、・・・申し上げます。」には、重要単語が含まれていないので、第1文についての重要度は算出しない。第2文「当社は従来より・・・参りました。」には、重要単語「当社」「図書館」「書籍」がふくまれているので重要度を算出する。CPU14は、各単語の重要度を図9を参照して取得し、これを合計して重要度57.83187を得る。 Next, CPU14 calculates importance about the sentence in which an important word is contained among each sentence. The importance is calculated by summing the importance of each word included in the sentence (step S9). For example, since the first sentence of the sentence shown in FIG. 6 “Plain is plain ...” does not include an important word, the importance of the first sentence is not calculated. In the second sentence “Our company has been here ...”, the important words “Our company”, “Library” and “Book” are included, so the importance is calculated. CPU14 acquires the importance of each word with reference to FIG. 9, and adds this, and obtains importance 57.83187.
CPU14は、算出した各文の重要度を、各文に対応づけてハードディスク20に記録する(図6参照)。
The
(8)要約文の生成
次に、CPU14は、算出した各文の重要度に基づき、最も重要度の高い文を抽出する(ステップS10)。ここでは、図6に示す第4文の重要度が最も高いので、第4文が選択される。CPU14は、選択した文の文字数の合計が、予め定められた指定文字数を超えているかどうかを判断する(ステップS11)。ここで、指定文字数とは、当該文字数を超えない範囲で要約を作成するように予め指定された(あるいは他の条件より算出された)文字数である。ここでは、指定文字数が、250文字であるとして説明を進める。
(8) Generation of summary sentence Next, the
第4文の文字数は、62文字である(図6参照)。したがって、指定文字数である250文字を超えていないので、ステップS12に進む。ステップS12では、次に重要度の高い文を抽出する。ここでは、第5文が選択されることになる。第5分の文字数は97文字である。したがって、選択された文の合計文字数は、62文字と97文字を合計して、160文字となる。よって、指定文字数である250文字を超えていないので、ステップS11からステップS12に進む。 The number of characters in the fourth sentence is 62 characters (see FIG. 6). Therefore, since the designated number of characters does not exceed 250, the process proceeds to step S12. In step S12, the next most important sentence is extracted. Here, the fifth sentence is selected. The fifth character number is 97 characters. Therefore, the total number of characters of the selected sentence is 160 characters, which is the sum of 62 characters and 97 characters. Therefore, since the designated number of characters does not exceed 250, the process proceeds from step S11 to step S12.
ステップS12では、さらに次に重要度の高い文を抽出する。このような処理を、選択された文の合計文字数が指定文字数250文字を超えるまで繰り返す。ここでは、第4文(62文字)、第5文(97文字)、第3文(74文字)、第2文(56文字)を抽出した時点で、合計文字数が289文字となって指定文字数を超える。 In step S12, the next most important sentence is extracted. Such processing is repeated until the total number of characters of the selected sentence exceeds the designated number of characters 250. Here, when the fourth sentence (62 characters), the fifth sentence (97 characters), the third sentence (74 characters), and the second sentence (56 characters) are extracted, the total number of characters becomes 289 characters and the designated number of characters. Over.
指定文字数を超えると、CPU14は、最後に抽出した文を抽出文から外す(ステップS13)。ここでは、第2文が最後に抽出した文であるから、第2文を抽出したものから外す。その結果、図14に示すように、第4文、第5文、第3文が抽出されることになる。
When the specified number of characters is exceeded, the
次に、CPU14は、抽出した文を、元の文章における順番(つまり文番号の若い順)に従って並び替える(ステップS14)。これにより、図15に示すような順番の抽出文を得ることができる。
Next, the
CPU14は、このようにして並び替えた抽出文を要約として出力する(ステップS15)。ここでは、図15に示す「書籍の電子化が・・・繋げたいと考えております。」という要約を出力する。
The
4.応用例
上記のような要約文作成装置は、指定された文字数を超えない範囲での要約作成一般に応用することができる。たとえば、次のような応用が可能である。
4). Application Example The summary sentence creating apparatus as described above can be applied to general summary creation within a range not exceeding the specified number of characters. For example, the following applications are possible.
図16に示すように、ニュースなどを配信するサーバ装置Sがインターネット上に配置されている。端末装置Tは、サーバ装置Sからのニュースを受信して、表示するためのものである。端末装置Tのハードウエア構成は図2に示すものと同等であり、ハードウエア20には、要約文作成プログラムの他、ニュース記事閲覧のための閲覧プログラムが記録されている。
As shown in FIG. 16, a server device S that distributes news and the like is arranged on the Internet. The terminal device T is for receiving and displaying news from the server device S. The hardware configuration of the terminal device T is the same as that shown in FIG. 2, and the browsing program for browsing news articles is recorded in the
サーバ装置Sからは、複数の記事が送信されてくる。このとき、サーバ装置Sは、各記事につき記事識別符号を付して送信する。これを受けた端末装置Tの閲覧プログラムは、全ての記事をハードディスクに一旦記録する。そして、図17に示す予め定められたレイアウトに、各記事が収まるように表示を行う。端末装置Tは、レイアウトに示される各領域に対し、記事識別符号を対応づけて、いずれの領域にいずれの記事を表示するかを決定する。この決定方法としては、たとえば、記事識別符号の順番に、右上、左下、左上、右下という順に配置するなどである。 A plurality of articles are transmitted from the server device S. At this time, the server device S transmits each article with an article identification code. Upon receiving this, the browsing program of the terminal device T once records all articles on the hard disk. Then, the display is performed so that each article fits in the predetermined layout shown in FIG. The terminal device T associates an article identification code with each area shown in the layout, and determines which article is displayed in which area. As this determination method, for example, they are arranged in the order of article identification codes in the order of upper right, lower left, upper left, and lower right.
次に、端末装置Tは、領域の大きさと、指定されている表示フォントの種類および大きさとに基づいて、各領域に表示可能な文字数を決定する。このようにして算出した表示可能文字数を指定文字数として、当該領域に表示すべき記事につき、上述の要約文作成処理を行う。 Next, the terminal device T determines the number of characters that can be displayed in each area based on the size of the area and the type and size of the designated display font. With the number of displayable characters calculated in this way as the designated number of characters, the above-described summary sentence creation processing is performed for articles to be displayed in the area.
これにより、各領域には要約文が表示されることになる。端末装置Tは、要約文表示の際に、対応する記事全文へのリンクも併せて表示する。したがって、要約文を読んで興味を持ったユーザが、当該リンクをクリックすれば、画面全体に記事全文が表示されることになる。
As a result, a summary sentence is displayed in each area. The terminal device T also displays a link to the corresponding full article when displaying the summary sentence. Therefore, if a user who is interested in reading the summary text clicks the link, the entire article is displayed on the entire screen.
5.その他の実施形態
(1)上記実施形態では、TF値(強調度)、IDF値(希少度)、Hot係数(注目度)に基づいて単語の重要度を算出するようにしている。しかしながら、これらのうちのいずれか一つを用いて重要度を算出したり、これらのうちのいずれか二つを組み合わせて重要度を算出するようにしてもよい。
5. Other embodiments
(1) In the above embodiment, the importance level of a word is calculated based on the TF value (enhancement level), IDF value (rareness level), and Hot coefficient (attention level). However, the importance may be calculated using any one of these, or the importance may be calculated by combining any two of these.
(2)上記実施形態では、当該文章における単語の出現回数に基づいて単語の強調度を算出するようにしている。しかし、文章中における単語の出現位置に基づいて、単語の強調度を判断するようにしてもよい。たとえば、文の後ろの方に出てくる単語の方が強調度を高くするようにしてもよい。さらに。出現回数と出現位置とを組み合わせて強調度を算出するようにしてもよい。 (2) In the above embodiment, the word emphasis degree is calculated based on the number of appearances of the word in the sentence. However, the degree of word emphasis may be determined based on the appearance position of the word in the sentence. For example, the word appearing at the back of the sentence may be enhanced. further. The enhancement degree may be calculated by combining the number of appearances and the appearance position.
(3)上記実施形態では、検索サイトにおける当該単語のヒット数と、検索対象の全ページ数との比率に基づいて希少度(IDF値)を算出するようにしている。しかし、辞書や百科事典(ウエブ上にあるものローカルにあるものを問わない)などにおいて当該単語が何回使用されているか(見出し項目だけでなく内容中に用いられている場合も含む回数)に基づいて、当該単語の希少度を算出するようにしてもよい。 (3) In the above embodiment, the rarity (IDF value) is calculated based on the ratio between the number of hits of the word on the search site and the total number of pages to be searched. However, how many times the word is used in dictionaries and encyclopedias (regardless of whether they are on the web or local), including how many times the word is used in the content Based on this, the degree of rarity of the word may be calculated.
(4)上記実施形態では、ウエブ上の辞書の更新日の平均値と現在日の差に基づいて、現在の注目度(Hot係数)を算出するようにしている。しかしながら、最新の更新日との差に基づいて、現在の注目度を算出するようにしてもよい。あるいは、所定期間内に更新が行われた回数を算出し、これに基づいて現在の注目度を算出するようにしてもよい(更新回数が多いほど、注目度が大きい)。 (4) In the above embodiment, the current attention level (Hot coefficient) is calculated based on the difference between the average value of the updated dictionaries on the web and the current date. However, the current attention level may be calculated based on the difference from the latest update date. Alternatively, the number of updates performed within a predetermined period may be calculated, and the current attention level may be calculated based on this (the higher the update count, the higher the attention level).
(5)上記実施形態では、各単語の重要度の平均値をしきい値として重要単語を抽出するようにしている。しかし、標準偏差、分散なども考慮して重要単語を抽出するようにしてもよい。 (5) In the above embodiment, important words are extracted using the average value of the importance of each word as a threshold value. However, important words may be extracted in consideration of standard deviation and variance.
(6)上記実施形態では、重要単語を含む文についてのみ重要度を算出するようにしている。しかし、全ての文について重要度を算出するようにしてもよい。 (6) In the above embodiment, the importance is calculated only for the sentence including the important word. However, importance may be calculated for all sentences.
(7)上記実施形態では、指定文字数を超えない範囲で、文を選択するようにしている。しかし、指定文字数と合計文字数の差の絶対値が最も小さくなるように文を選択するようにしてもよい。 (7) In the above embodiment, sentences are selected within a range not exceeding the specified number of characters. However, the sentence may be selected so that the absolute value of the difference between the specified number of characters and the total number of characters is minimized.
(8)上記実施形態では、指定文字数に基づいて文を選択するようにしている。しかし、文の合計数(指定文数)、行の合計数(指定行数)、文章の合計データ量(指定データ量)などに基づいて文を選択するようにしてもよい。すなわち、文字数、行数、文数、データ量、面積などで指定された文章の大きさに合致するように、文を選択するようにしてもよい。 (8) In the above embodiment, a sentence is selected based on the designated number of characters. However, the sentence may be selected based on the total number of sentences (the number of designated sentences), the total number of lines (the number of designated lines), the total data amount of the sentences (the designated data amount), and the like. That is, the sentence may be selected so as to match the size of the sentence specified by the number of characters, the number of lines, the number of sentences, the data amount, the area, and the like.
(9)上記実施形態では、指定文字数などの文の選択基準は予め定められているものとしている。しかし、対象とする文章の文字数などに応じて、指定文字数などを可変にするようにしてもよい(たとえば、文章の文字数の半分を指定文字数とするなど)。これにより、文章の長さに対応した長さの要約文を得ることができる。 (9) In the above embodiment, it is assumed that sentence selection criteria such as the number of designated characters are predetermined. However, the number of designated characters may be made variable according to the number of characters in the target sentence (for example, half the number of characters in the sentence is designated as the designated number of characters). Thereby, a summary sentence having a length corresponding to the length of the sentence can be obtained.
(10)上記実施形態では、端末装置側において要約文作成処理を行っている。しかしながら、サーバ装置側において、要約文作成処理を行うようにしてもよい。 (10) In the above embodiment, the summary sentence creation process is performed on the terminal device side. However, the summary sentence creation process may be performed on the server device side.
(11)上記実施形態では、句点に基づいて文章中から「文」を抽出するようにしている。しかし、見出しなどのように句点のない文もある。そこで、見出しであると判断した部分(他の部分よりフォントが大きい、見出しであるとの属性が付与されている等により判断する)については、全体を一文であると判断するようにしてもよい。 (11) In the above embodiment, “sentence” is extracted from the sentence based on the punctuation mark. However, some sentences, such as headings, have no punctuation. Therefore, the part determined to be a headline (determined based on the fact that the font is larger than the other parts, the attribute of being a headline, etc.) may be determined as a whole sentence. .
(12)上記実施形態では、単語の重要度を算出する際に、文章全体のジャンルや属性(社会面の記事であるか、三面記事であるかや、論文であるか雑文であるかなど)により、単語について係数を設けるようにしてもよい。たとえば、社会面における「国会」は、通常出てくる単語であるから係数を低くする。一方、三面記事における「国会」は、あまり出てこない単語であるから係数を高くする。この係数を、算出した重要度に乗じて、最終的な重要度を得る。 (12) In the above embodiment, when calculating the importance of a word, the genre and attributes of the whole sentence (whether it is a social article, a three-faced article, a paper or a miscellaneous sentence, etc.) Thus, a coefficient may be provided for the word. For example, the “National Diet” in society is a word that usually appears, so the coefficient is set low. On the other hand, “National Diet” in the three-page article is a word that does not appear so often, so the coefficient is increased. Multiply the calculated importance by this coefficient to obtain the final importance.
(13)上記実施形態では、文の重要度を算出する際に、文と文の関連性を考慮せずに行っている。しかし、文と文の関連性も考慮して重要度を算出するようにしてもよい。たとえば、「その」「彼」等の指示代名詞が当該文に出てくる場合、重要度によって選択され、並び替えられた抽出文において、当該文より前の文が抽出されていない場合には、当該指示代名詞を含む文の係数を小さくする。一方、「したがって」「つまり」などの、話題を展開する接続詞が文に含まれる場合、当該文の係数を大きくする。この係数を、算出した重要度に乗じて、最終的な重要度を得る。 (13) In the above embodiment, the importance of a sentence is calculated without considering the relation between the sentence and the sentence. However, the importance may be calculated in consideration of the relationship between sentences. For example, when the pronouns such as “that” and “he” appear in the sentence, in the extracted sentence selected according to the importance and rearranged, the sentence before the sentence is not extracted. Reduce the coefficient of sentences containing the pronoun. On the other hand, if the sentence contains a conjunction that expands the topic, such as “so” or “that is”, the coefficient of the sentence is increased. Multiply the calculated importance by this coefficient to obtain the final importance.
(14)上記実施形態では、指定文字数以内に収まるように重要度の順に文を選択して予約を生成するようにしている。しかし、最も重要度の高い文の文字数が、指定文字数を超えている場合には、要約が生成できないことになる。そこで、このような場合には、従来用いられている、長い文を簡略化して文字数を減らす処理を行い、当該最も重要度の高い文を指定文字数以下になるようにして要約を生成するようにしてもよい。 (14) In the above embodiment, a reservation is generated by selecting sentences in order of importance so as to be within the specified number of characters. However, if the number of characters in the most important sentence exceeds the specified number of characters, a summary cannot be generated. Therefore, in such a case, a long sentence that has been used in the past is simplified to reduce the number of characters, and a summary is generated so that the most important sentence is less than the specified number of characters. May be.
(15)上記実施形態では、重要度に従って抽出した文を、元の文章における順番に並び替えて要約文を生成している。しかし、重要度に従って元の文章中の文に選択マーク(フラグなど)を付しておき、選択マークが付された文のみを元の文章の順に従って抽出し、要約文を得るようにしてもよい。 (15) In the above embodiment, a summary sentence is generated by rearranging sentences extracted according to importance in the order in the original sentence. However, a selection mark (such as a flag) is attached to the sentence in the original sentence according to the importance, and only the sentence with the selection mark is extracted according to the order of the original sentence to obtain a summary sentence. Good.
また、上記実施形態では、元の文章における順に従った要約文を生成するようにした。しかし、重要度に従って選択した文を重要度に従って並べ、これを要約文としてもよい。 Moreover, in the said embodiment, the summary sentence according to the order in the original sentence was produced | generated. However, the sentences selected according to the importance may be arranged according to the importance, and this may be used as a summary sentence.
(16)上記実施形態では、文を構成する全ての単語の重要度を合計して文の重要度を算出するようにしている。しかし、文を構成する単語のうち所定条件を満たす単語のみ(たとえば、文章全体としての単語の重要度の上位15個(所定個)のみ)の重要度を合計して文の重要度を算出するようにしてもよい。
(16) In the above embodiment, the importance of all words constituting the sentence is summed to calculate the importance of the sentence. However, the importance of the sentence is calculated by adding the importance of only the words that satisfy the predetermined condition (for example, only the top 15 (predetermined) of the importance of the word as a whole sentence) among the words constituting the sentence. You may do it.
Claims (11)
文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、
重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、
選択した文を配して要約文を生成する配列手段と、
を備えた要約文生成装置。 A sentence / word extracting means for analyzing a sentence to be analyzed, extracting a sentence constituting the sentence, and extracting at least a noun contained in each sentence as a word;
Importance calculating means for calculating importance of words included in the sentence extracted by the sentence / word extracting means, and calculating importance of each sentence based on importance of the words included in each sentence;
Sentence selection means for selecting sentences so as to satisfy a predetermined condition in descending order of importance;
An arrangement means for arranging the selected sentences and generating a summary sentence;
A summary sentence generation device comprising:
解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、
文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、
重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、
選択した文を配して要約文を生成する配列手段と、
して機能させるための要約文生成プログラム。 A summary sentence generation program for realizing a summary sentence generation apparatus by a computer, the program comprising:
A sentence / word extracting means for analyzing a sentence to be analyzed, extracting a sentence constituting the sentence, and extracting at least a noun contained in each sentence as a word;
Importance calculating means for calculating importance of words included in the sentence extracted by the sentence / word extracting means, and calculating importance of each sentence based on importance of the words included in each sentence;
Sentence selection means for selecting sentences so as to satisfy a predetermined condition in descending order of importance;
An arrangement means for arranging the selected sentences and generating a summary sentence;
Summary sentence generation program to make it function.
前記配列手段は、解析対象となる元の文章における文の順に沿って、前記選択した文を配することを特徴とする装置またはプログラム。 In the apparatus of claim 1 or the program of claim 2,
The arrangement means arranges the selected sentence along the order of sentences in the original sentence to be analyzed.
前記重要度算出手段は、当該単語が当該文章中において使用されている回数が多いほど、重要度が高いと判断することを特徴とする装置またはプログラム。 In the program in any one of Claims 1-3,
The apparatus or program according to claim 1, wherein the importance calculation means determines that the importance is higher as the number of times the word is used in the sentence is higher.
前記重要度算出手段は、当該単語が一般の文章中において用いられている度合いが小さいほど、重要度が高いと判断することを特徴とする装置またはプログラム。 In the apparatus or program in any one of Claims 1-4,
The apparatus or program according to claim 1, wherein the importance calculation means determines that the importance is higher as the degree of use of the word in a general sentence is smaller.
前記重要度算出手段は、当該単語を検索サイトにて検索し、当該検索サイトに登録されているページ数と、検索結果として得られた当該単語を含むページ数との比率に基づいて、当該単語が一般の文章中において用いられている度合いを算出することを特徴とする装置またはプログラム。 In the apparatus or program of Claim 5,
The importance calculating means searches the word on a search site, and based on the ratio between the number of pages registered in the search site and the number of pages including the word obtained as a search result, A device or a program for calculating the degree to which is used in a general sentence.
前記重要度算出手段は、当該単語を辞書サイトにて検索し、当該単語についての説明の更新頻度が高いほど重要度が高いと判断することを特徴とする装置またはプログラム。 In the apparatus or program in any one of Claims 1-6,
The importance calculation means searches for the word on a dictionary site, and determines that the importance is higher as the update frequency of the explanation for the word is higher.
前記文選択手段は、選択した文の文字数合計が、所定の文字数を超えないように、可能な限り多くの文を重要度の高い順に選択することを特徴とする装置またはプログラム。 In the apparatus or program in any one of Claims 1-7,
The apparatus or program, wherein the sentence selection means selects as many sentences as possible in descending order of importance so that the total number of characters of the selected sentence does not exceed a predetermined number of characters.
前記装置は、複数の文章を表示面に配置して表示するにあたり、それぞれの文章を当該表示面中のいずれの領域に表示すべきかを示すレイアウト情報を受け、当該レイアウト情報に基づいて領域ごとに表示可能な文字数を算出する文字数算出手段をさらに備え、
前記文選択手段は、各領域について、算出した前記文字数を超えない範囲において、可能な限り多くの文を重要度の高い順に選択することを特徴とする装置またはプログラム。 In the apparatus or program in any one of Claims 1-8,
When the apparatus arranges and displays a plurality of sentences on the display surface, the apparatus receives layout information indicating in which area on the display surface each sentence should be displayed, and for each area based on the layout information. A character number calculating means for calculating the number of displayable characters;
The sentence selecting means selects as many sentences as possible in descending order of importance within a range not exceeding the calculated number of characters for each area.
前記装置は、各領域について生成した要約文を対応する領域に配置するとともに、当該領域内に対応する文章へのリンクを配置する配置手段をさらに備えたことを特徴とする装置またはプログラム。 The apparatus or program according to claim 9.
The apparatus or program further includes an arrangement unit that arranges the summary sentence generated for each area in a corresponding area and arranges a link to the corresponding sentence in the area.
解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出し、
当該抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出し、
重要度の高い順から、所定の条件を満足するように文を選択し、
選択した文を配して要約文を生成することを特徴とする要約文生成方法。
A method of generating a summary sentence by a computer,
Analyzes the sentence to be analyzed, extracts sentences that compose the sentence, extracts at least nouns contained in each sentence as words,
Calculate the importance of words included in the extracted sentence, calculate the importance of each sentence based on the importance of words included in each sentence,
Select sentences from the order of importance in order to satisfy the specified conditions,
A summary sentence generation method, wherein a summary sentence is generated by arranging selected sentences.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011149884A JP2013016106A (en) | 2011-07-06 | 2011-07-06 | Summary sentence generation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011149884A JP2013016106A (en) | 2011-07-06 | 2011-07-06 | Summary sentence generation device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013016106A true JP2013016106A (en) | 2013-01-24 |
Family
ID=47688722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011149884A Pending JP2013016106A (en) | 2011-07-06 | 2011-07-06 | Summary sentence generation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013016106A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015194919A (en) * | 2014-03-31 | 2015-11-05 | 大日本印刷株式会社 | Document summarization device, document summarization method, and program |
JP5933863B1 (en) * | 2015-05-22 | 2016-06-15 | 株式会社Ubic | Data analysis system, control method, control program, and recording medium |
JP2017076176A (en) * | 2015-10-13 | 2017-04-20 | 三菱電機株式会社 | Document output control device |
KR20180108441A (en) * | 2017-03-24 | 2018-10-04 | 오정록 | A System of Formation of Estimate Sheet with Advertisement URL |
JP2019121075A (en) * | 2017-12-28 | 2019-07-22 | 株式会社日立ソリューションズ | Method for creating summary from audio data in conference |
US10606875B2 (en) | 2014-09-16 | 2020-03-31 | Kabushiki Kaisha Toshiba | Search support apparatus and method |
JP2020071675A (en) * | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | Speech summary generation apparatus, speech summary generation method, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11345233A (en) * | 1998-04-02 | 1999-12-14 | Sony Corp | Method and device for processing document and recording medium |
JP2000048025A (en) * | 1998-07-28 | 2000-02-18 | Brother Ind Ltd | Communication equipment |
US20060206806A1 (en) * | 2004-11-04 | 2006-09-14 | Motorola, Inc. | Text summarization |
JP2011022914A (en) * | 2009-07-17 | 2011-02-03 | Casio Computer Co Ltd | Information processing device and control program thereof |
-
2011
- 2011-07-06 JP JP2011149884A patent/JP2013016106A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11345233A (en) * | 1998-04-02 | 1999-12-14 | Sony Corp | Method and device for processing document and recording medium |
JP2000048025A (en) * | 1998-07-28 | 2000-02-18 | Brother Ind Ltd | Communication equipment |
US20060206806A1 (en) * | 2004-11-04 | 2006-09-14 | Motorola, Inc. | Text summarization |
JP2011022914A (en) * | 2009-07-17 | 2011-02-03 | Casio Computer Co Ltd | Information processing device and control program thereof |
Non-Patent Citations (1)
Title |
---|
JPN6014051961; 後藤淳、外3名: 'Wikipedia の変更履歴を利用した関連番組検索' 映像情報メディア学会年次大会講演予稿集 , 20100831, 一般社団法人映像情報メディア学会 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015194919A (en) * | 2014-03-31 | 2015-11-05 | 大日本印刷株式会社 | Document summarization device, document summarization method, and program |
US10606875B2 (en) | 2014-09-16 | 2020-03-31 | Kabushiki Kaisha Toshiba | Search support apparatus and method |
JP5933863B1 (en) * | 2015-05-22 | 2016-06-15 | 株式会社Ubic | Data analysis system, control method, control program, and recording medium |
WO2016189606A1 (en) * | 2015-05-22 | 2016-12-01 | 株式会社Ubic | Data analysis system, control method, control program, and recording medium |
JP2017076176A (en) * | 2015-10-13 | 2017-04-20 | 三菱電機株式会社 | Document output control device |
KR20180108441A (en) * | 2017-03-24 | 2018-10-04 | 오정록 | A System of Formation of Estimate Sheet with Advertisement URL |
KR101965527B1 (en) * | 2017-03-24 | 2019-04-03 | 오정록 | A System of Formation of Estimate Sheet with Advertisement URL |
JP2019121075A (en) * | 2017-12-28 | 2019-07-22 | 株式会社日立ソリューションズ | Method for creating summary from audio data in conference |
JP2020071675A (en) * | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | Speech summary generation apparatus, speech summary generation method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013016106A (en) | Summary sentence generation device | |
US9589071B2 (en) | Query suggestions from documents | |
Yasseri et al. | A practical approach to language complexity: a Wikipedia case study | |
Ambati et al. | Assessing relative sentence complexity using an incremental CCG parser | |
Reijnierse et al. | How polysemy affects concreteness ratings: The case of metaphor | |
JP2016164724A (en) | Vocabulary knowledge acquisition device, vocabulary knowledge acquisition method, and vocabulary knowledge acquisition program | |
Strzelecki et al. | Direct answers in Google search results | |
JP6653169B2 (en) | Keyword extraction device, content generation system, keyword extraction method, and program | |
Kabadjov et al. | Multilingual statistical news summarization | |
JP2010055155A (en) | Server device, information processing method, and program | |
JP2008112310A (en) | Retrieval device, information retrieval system, retrieval method, retrieval program and recording medium | |
Sidiropoulou | Shaping public view: Critical media literacy through English-Greek translated press headlines | |
Yang et al. | An Opinion-aware Approach to Contextual Suggestion. | |
Pollard | Analyzing the accessibility of Illinois public library homepages: Are we accessible to all? | |
JP2013016135A (en) | Article arrangement determination device | |
Sunayama et al. | Panoramic view system for extracting key sentences based on viewpoints and application to a search engine | |
US10217143B2 (en) | Information processing system, information processing method, and information processing program | |
JP2016040723A (en) | Article arrangement determination device | |
JP7139271B2 (en) | Information processing device, information processing method, and program | |
Murai et al. | based recommendation of attractive sentences in a novel for effective browsing | |
Ahmed Lulu | A Robust System for Local Reuse Detection of Arabic Text on the Web | |
Li | DICTIONARIES, CORPORA AND ARCHAIC WORDS: THE CHANGE OF CHINESE CHARACTERS WITH THE WOMAN RADICAL | |
JP5602980B1 (en) | Information processing system, information processing method, and information processing program | |
Hemming | The Arthurian Place Names of Wales | |
Jackson | Indefinite articles in'Titus Andronicus,'Peele, and Shakespeare |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130305 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130313 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140602 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141215 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150413 |