JP2013016106A - 要約文生成装置 - Google Patents

要約文生成装置 Download PDF

Info

Publication number
JP2013016106A
JP2013016106A JP2011149884A JP2011149884A JP2013016106A JP 2013016106 A JP2013016106 A JP 2013016106A JP 2011149884 A JP2011149884 A JP 2011149884A JP 2011149884 A JP2011149884 A JP 2011149884A JP 2013016106 A JP2013016106 A JP 2013016106A
Authority
JP
Japan
Prior art keywords
sentence
importance
word
sentences
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011149884A
Other languages
English (en)
Inventor
Keiichi Masuda
景一 増田
Tomoki Endo
友基 遠藤
Taketo Tatsumi
健人 巽
Keisuke Kimura
恵介 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Communication Systems Co Ltd
Kyocera Maruzen System Integration Co Ltd
Original Assignee
Kyocera Communication Systems Co Ltd
Kyocera Maruzen System Integration Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Communication Systems Co Ltd, Kyocera Maruzen System Integration Co Ltd filed Critical Kyocera Communication Systems Co Ltd
Priority to JP2011149884A priority Critical patent/JP2013016106A/ja
Publication of JP2013016106A publication Critical patent/JP2013016106A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 適切に重要文を抽出して要約文を作成することのできる装置を提供する。
【手段】 文・単語抽出手段2は、文章を構成する文を抽出し、各文に含まれる名詞を単語として抽出する。重要度算出手段4は、前記抽出された各単語の重要度を算出する。さらに、各文に含まれる各単語の重要度に基づいて、各文の重要度を算出する。文選択手段6は、文章記録部12に記録された文のうち、重要度の高いものから順に選択する。たとえば、選択した文の文字数が所定の文字数を超えない範囲において、できるだけ多くの文を選択する。並替手段8は、選択された文を、元の文章における並び順に並び替えることで、要約文データを生成する。
【選択図】 図1

Description

この発明は、要約文を生成する装置に関するものである。
文書の要約を自動的に作成する装置が実用化され提案されている。たとえば、特許文献1には、与えられた文書の構造を解析し、当該構造と予め設定した条件とに基づいて重要文を抽出して要約を作成する装置が開示されている。この装置を用いることにより、自動的に重要文を抽出することができる。
特開2001−325273
しかしながら、上記のような従来技術では、事前に定められた特定の語を含んでいたり、限定された文法構造をもっていたりするものを手がかりに重要度を定めているため、それらに該当しない文書については、適切に重要文を抽出することができないという問題があった。
この発明は、上記のような問題点を解決して、適切に重要文を抽出して要約文を作成する装置を提供することを目的とする。
(1)(2)この発明に係る要約文生成装置は、解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、選択した文を配して要約文を生成する配列手段とを備えている。
したがって、重要度の高い文によって要約を構成することができ、適切な要約文を得ることができる。
(3)この発明に係る要約文生成装置は、配列手段が、解析対象となる元の文章における文の順に沿って、前記選択した文を配することを特徴としている。
したがって、元の文章における順に沿って配置された文を要約文として得ることができるので、文章として流れのよい要約文を得ることができる。
(4)この発明に係る要約文生成装置は、重要度算出手段が、当該単語が当該文章中において使用されている回数が多いほど、重要度が高いと判断することを特徴としている。
したがって、文章中における当該単語の強調度に基づいて、各単語の重要度を決定することができる。
(5)この発明に係る要約文生成装置は、重要度算出手段が、当該単語が一般の文章中において用いられている度合いが小さいほど、重要度が高いと判断することを特徴としている。
したがって、当該単語の一般的な希少度に基づいて、各単語の重要度を決定することができる。
(6)この発明に係る要約文生成装置は、重要度算出手段が、当該単語を検索サイトにて検索し、当該検索サイトに登録されているページ数と、検索結果として得られた当該単語を含むページ数との比率に基づいて、当該単語が一般の文章中において用いられている度合いを算出することを特徴としている。
したがって、当該単語の一般の文章中において用いられている度合いに基づいて、各単語の希少度を決定することができる。
(7)この発明に係る要約文生成装置は、重要度算出手段が、当該単語を辞書サイトにて検索し、当該単語についての説明の更新頻度が高いほど重要度が高いと判断することを特徴としている。
したがって、当該単語の辞書サイトにおける更新頻度に基づいて、各単語の重要度を決定することができる。
(8)この発明に係る要約文生成装置は、文選択手段が、選択した文の文字数合計が、所定の文字数を超えないように、可能な限り多くの文を重要度の高い順に選択することを特徴としている。
したがって、所定の文字数以内において、可能な限りの多くの文を重要度の高い順に選択して、要約文を得ることができる。
(9)この発明にかかる要約文生成装置は、複数の文章を表示面に配置して表示するにあたり、それぞれの文章を当該表示面中のいずれの領域に表示すべきかを示すレイアウト情報を受け、当該レイアウト情報に基づいて領域ごとに表示可能な文字数を算出する文字数算出手段をさらに備え、文選択手段が、各領域について、算出した前記文字数を超えない範囲において、可能な限り多くの文を重要度の高い順に選択することを特徴としている。
したがって、与えられたレイアウトの各領域の大きさに応じて、適切な要約文を生成することができる。
(10)この発明に係る要約文生成装置は、各領域について生成した要約文を対応する領域に配置するとともに、当該領域内に対応する文章へのリンクを配置する配置手段をさらに備えたことを特徴としている。
したがって、領域の大きさに応じて要約文を表示し、リンクによって完全な文章を表示させることが可能となる。
(11)この発明に係る要約文生成方法は、コンピュータによって要約文を生成する方法であって、解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出し、当該抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出し、重要度の高い順から、所定の条件を満足するように文を選択し、選択した文を配して要約文を生成することを特徴としている。
したがって、重要度の高い文によって要約を構成することができ、適切な要約文を得ることができる。
「文・単語抽出手段」は、実施形態においては、ステップS1、S2がこれに対応する。
「重要度算出手段」は、実施形態においては、ステップS3〜S7がこれに対応する。
「文選択手段」は、実施形態においては、ステップS8〜S13がこれに対応する。
「配列手段」は、実施形態においては、ステップS14がこれに対応する。
「プログラム」とは、CPUにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。
この発明の一実施形態による要約文作成装置の機能ブロック図である。 要約文作成装置のハードウエア構成である。 要約文作成プログラムのフローチャートである。 要約文作成プログラムのフローチャートである。 要約対象となる文章の例である。 文番号を付して分解された文を記憶するテーブルを示す図である。 形態素解析処理の詳細である。 形態素解析の結果例を示す図である。 形態素解析の結果例を示す図である。 各単語のTF値、IDF値、Hot係数、重要度を記録したテーブルの例を示す図である。 IDF値算出処理の詳細である。 Hot係数算出処理の詳細である。 ウエブ上の辞書からの返信データを示す図である。 Hot係数を算出するための係数表である。 重要度の順に選択した文を示す図である。 選択した文を元の文章における順に従って並び替えたものを示す図である。 応用例としてのシステム構成を示す図である。 表示レイアウトの一例を示す図である。
1.機能ブロック図
図1に、この発明の一実施形態による要約文生成装置の機能ブロック図を示す。文・単語抽出手段2は、文章記録部12に記録されている文章データを読み出し、当該文章データによって示される文章を構成する文を抽出する。さらに、各文に含まれる名詞を単語として抽出する。
重要度算出手段4は、前記抽出された各単語の重要度を算出する。さらに、各文に含まれる各単語の重要度に基づいて、各文の重要度を算出する。文選択手段6は、文章記録部12に記録された文のうち、重要度の高いものから順に選択する。たとえば、選択した文の文字数が所定の文字数を超えない範囲において、できるだけ多くの文を選択する。
配列手段8は、選択された文を、元の文章における並び順に沿って配置することで、要約文データを生成する。
2.ハードウエア構成
図2に、図1に示す要約文生成装置のハードウエア構成を示す。CPU14には、メモリ16、ディスプレイ18、ハードディスク20、CD−ROMドライブ22、キーボード/マウス24、通信回路26が接続されている。通信回路26は、インターネットなどに接続するためのものである。
ハードディスク20には、WINDOWS(商標)などのオペレーティングシステム30、要約文生成プログラム32、形態素辞書34が記録されている。オペレーティングシステム30、要約文生成プログラム32は、CD−ROM28に記録されていたものをCD−ROMドライブ22を介して、インストールしたものである。形態素辞書34には、単語とその品詞が対応づけて記録されている。
3.要約文生成プログラム
要約文生成プログラム32のフローチャートを、図3、図4に示す。
(1)文の抽出
CPU14は、ステップS1において、ハードディスク20に記録された文章データから、文を抽出する(ステップS1)。この実施形態では、句点(「。」や「.」)に基づいて、文を抽出するようにしている。すなわち、句点が見いだされるまでを一つの文として抽出する。
たとえば、図5に示すような文章データであれば、図6に示すように、文番号「1」〜「6」までの6つの文が抽出されることになる。CPU14は、このようにして抽出した文を、順番を示す文番号とともにハードディスク20に記録する。この際、CPU14は、各文の文字数を併せて記録する。
(2)形態素解析
次に、CPU14は、文章データに含まれる全ての文を対象として、形態素解析を行う(ステップS2)。図7に、形態素解析処理の詳細を示す。まず、CPU14は、ハードディスク20に記録されている形態素辞書34を参照して、文章データの形態素を解析する(ステップS21)。この形態素解析は、従来より行われている一般的な手法を用いることができる。形態素解析の結果を、図8aに示す。
次に、CPU14は、通信回路26を使用して、インターネットを介して、ウエブ上の百科事典や辞書(たとえばWikipedia(商標)やe-Words(商標))にアクセスする。そして、図8に示す形態素解析によって得られた連続する単語を結合し、これをウエブ上の百科事典や辞書、検索サイトにて検索する(ステップS22)。たとえば、「平素」と「は」を結合して「平素は」という単語を生成し、この単語が見出し語としてウエブ上の百科事典や辞書に存在するかどうか、あるいは検索サイトにおいて所定件数以上(たとえば1万件以上)ヒットするかどうかを検索する。たとえば、「平素+は」「格別+の」「IT+ソリューション」などは、ウエブ上で文節として使用されている例が多くあるので、検索サイトにおける検索で所定件数以上のヒットを得ることができる。また、「電子+書籍」などの単語は、百科事典や辞書の見出し語として存在する可能性がある。
なお、この実施形態では、文の初めの単語を対象単語として、後続の単語を順次結合して行き、最も長い単語としてウェブ上の百科事典・辞書に存在する、または検索サイトにて所定件数以上ヒットするものを抽出する。CPU14は、このようにして抽出した結合単語(たとえば「平素は」)を、図8aのテーブルに記録するとともに、結合単語を構成する個々の単語(たとえば「平素」「は」)を図8aのテーブルから削除する。これにより、テーブルは、図8bに示すようになる。さらに、CPU14は、見いだされた結合単語を、形態素辞書34に追加登録する。
続いて、抽出された単語の次の単語(抽出されなかった場合は対象単語の次の単語)を次の対象単語として、後続の単語を順次結合して行き、最も長い単語としてウェブ上の辞書に存在するものを抽出する。この処理を、文末まで繰り返す。
したがって、この実施形態によれば、形態素辞書34に登録されていない単語であっても、これを単語として抽出することができる。
続いて、CPU14は、上記で得た単語を結合する処理を行う(ステップS23)。たとえば、名詞が連続する場合にはこれを結合して一つの名詞とする。「福島」「第一」「原子力」「発電所」という4つの名詞が連続する場合、これを「福島第一原子力発電所」とする。同様に、人名の姓と名が連続する場合、これを結合する。その他、形態素の結合として一般に行われている手法を用いて、単語の結合を行う。CPU14は、得られた結合単語(たとえば、「福島第一原子力発電所」)を、図8のテーブルに記録するとともに、結合単語を構成する個々の単語(たとえば、「福島」「第一」「原子力」「発電所」)を図8bのテーブルから削除する。
以上のようにして、形態素解析を行うことができる。
(3)TF値算出
次に、CPU14は、上記にて抽出した単語(この実施形態では名詞を含む単語のみを対象とする)について、TF(Term Frequency)値を算出する(ステップS3)。つまり、図8bのテーブルに記録した品詞が名詞である単語および名詞を品詞として含む単語について、TF値を算出する。
ここで、TF値とは、当該単語が当該文章中において出現する回数を、文章中の延べ単語数で除した値である。
TF=単語の出現回数/各単語の出現回数の合計
図9に、各単語について算出したTF値を示す。CPU14は、算出したTF値をハードディスク20に記録する。
この実施形態では、当該文章中における各単語の出現頻度を得ることで、各単語が当該文章中において、どの程度強調されているのかを算出するようにしている。
(4)IDF値算出
次に、CPU14は、各単語についてIDF(Inverse Document Frequency)値を算出する(ステップS4)。ここで、IDF値は、各単語の希少性(世間に流通している単語として一般的でないこと)を表すものである。当該単語の希少性が高いほど、IDF値は高くなる。
この実施形態では、IDF値は、以下の式により算出するようにしている。
IDF=log(当該単語の検索エンジンでのヒット数(ページ数)/検索エンジン上の総ページ数)
図10に、IDF値算出処理の詳細を示す。CPU14は、図8bのテーブルに記録された最初の単語(この実施形態では名詞を含む単語のみを対象とする)を対象単語とする(ステップS41)。CPU14は、対象単語(たとえば「平素は」)を、インターネット上の検索サイト(たとえばYahoo!(商標)や***(商標)など)にて検索する(ステップS42)。
この検索リクエストに応じて、検索サイトから検索結果が返信されてくるので、CPU14はこれを受信する。CPU14は、検索結果に含まれる対象単語のヒット数(当該単語が含まれるページ数)および検索サイトが対象としている総ページ数を取得し、メモリ16に記録する(ステップS43)。
続いて、CPU14は、log(当該単語の検索エンジンでのヒット数(ページ数)/検索エンジン上の総ページ数)を計算して、IDF値を算出する(ステップS44)。この実施形態では、logは自然対数を用いている。なお、検索エンジン上の総ページ数は、例えば250億ヒット程度のオーダーとなる。CPU14は、算出したIDF値を、各単語に対応づけてハードディスク20に記録する(図9参照)。
CPU14は、すべての単語についてIDF値を算出したかどうかを判断する(ステップS45)。図8bのテーブルにおいて未処理の単語が残っていれば、CPU14は、次の単語を対象単語とする(ステップS46)。そして、ステップS42以下を繰り返す。このようにして、対象となる全ての単語についてIDF値を算出する。
(5)TF−IDF値算出
続いて、CPU14は、各単語につき、算出したTF値とIDF値に基づいて、TF−IDF値を計算する(ステップS5)。この実施形態では、TF値とIDF値との積を算出することにより、TF−IDF値を算出するようにしている。
(6)Hot係数算出
続いて、CPU14は、Hot係数を算出する(ステップS6)。ここで、Hot係数とは、対象となる単語の現在における注目度を表す指数である。この実施形態では、ウエブ上の辞書において対象単語を検索し、当該対象単語がどの程度の頻度で、どの程度現在に近い時間で更新されているかを取得し、これに基づいて算出するようにしている。
具体的には、当該単語について、最新の更新日から所定件数(たとえば100件)の更新日を取得し、これら更新日の平均日を算出して、現在の日との差を求める。この差が小さいほど、Hot係数を大きくする。
図11に、Hot係数算出処理の詳細を示す。CPU14は、図8bのテーブルに記録された最初の単語(この実施形態では名詞を含む単語のみを対象とする)を対象単語とする(ステップS61)。CPU14は、対象単語を、インターネット上の辞書(ウエブ辞書)にアクセスし検索する(ステップS62)。
対象単語が見出し語として存在すれば、当該対象単語に対する説明などのデータが返信されてくる。見出し語として存在しなければ、存在しない旨(あるいはエラー)が返信されてくる。CPU14は、これを受けて、対象単語がウエブ上の辞書に見出し語として存在するかどうかを判断する(ステップS63)。
見出し語として存在する場合、CPU14は、返信されてきた解説データ中に記録されている更新日を、最新のものから所定件数(ここでは100件)取得する(ステップS64)。
図12に、返信されてくる解説データの例を示す。見出し語、内容などの項目の他、更新日の項目が設けられている。この更新日には、内容等について更新が行われた履歴が順に示されている。CPU14は、この更新日を最新のものから100件取得する。なお、更新が100件以下の場合には、当該単語のHot係数を1.0として、ステップS68に進む。
次に、CPU14は、取得した100件の更新日の平均日を算出する。次に、CPU14は、現在日(内部時計に基づく)と平均日との差(絶対値)を算出する(ステップS66)。さらに、算出した差に基づいてHot係数を算出する(ステップS67)。
この実施形態では、ハードディスク20に予め記録された係数テーブル(図13参照)に基づいてHot係数を決定する。たとえば、算出した差が10日であれば、Hot係数は2.6として決定される。CPU14は、算出したHot係数を、対象単語に対応づけて記録する(図9参照)。
CPU14は、すべての単語についてHot係数を算出したかどうかを判断する(ステップS68)。図8bのテーブルにおいて未処理の単語が残っていれば、CPU14は、次の単語を対象単語とする(ステップS69)。そして、ステップS62以下を繰り返す。このようにして、対象となる全ての単語についてHot係数を算出する。
なお、対象単語がウエブ上の辞書に見出し語として存在しない場合には、Hot係数を1.0とする(ステップS70)。
(7)重要度の算出
CPU14は、各単語につき、TF−IDF値にHot係数を乗じて、重要度を算出する(図3のステップS7)。CPU14は、このようにして算出した重要度を、対象単語に対応づけて記録する(図9参照)。
次に、CPU14は、各単語の重要度に基づいて重要単語を決定する(ステップS8)。この実施形態では、単語の重要度の平均値を算出し、この平均値を超える重要度を有する単語を重要単語として抽出している。たとえば、図9に示す場合であれば、単語の重要度の平均値は11.40135438である。したがって、CPU14は、この平均値を超える重要度を有する単語「電子書籍」「図書館」「書籍」・・・「利用価値」を重要単語として選択することになる。
次に、CPU14は、各文のうち重要単語が含まれる文について重要度を算出する。重要度は、当該文に含まれる各単語の重要度を合計することによって算出する(ステップS9)。たとえば、図6に示す文章の第1文「平素は、・・・申し上げます。」には、重要単語が含まれていないので、第1文についての重要度は算出しない。第2文「当社は従来より・・・参りました。」には、重要単語「当社」「図書館」「書籍」がふくまれているので重要度を算出する。CPU14は、各単語の重要度を図9を参照して取得し、これを合計して重要度57.83187を得る。
CPU14は、算出した各文の重要度を、各文に対応づけてハードディスク20に記録する(図6参照)。
(8)要約文の生成
次に、CPU14は、算出した各文の重要度に基づき、最も重要度の高い文を抽出する(ステップS10)。ここでは、図6に示す第4文の重要度が最も高いので、第4文が選択される。CPU14は、選択した文の文字数の合計が、予め定められた指定文字数を超えているかどうかを判断する(ステップS11)。ここで、指定文字数とは、当該文字数を超えない範囲で要約を作成するように予め指定された(あるいは他の条件より算出された)文字数である。ここでは、指定文字数が、250文字であるとして説明を進める。
第4文の文字数は、62文字である(図6参照)。したがって、指定文字数である250文字を超えていないので、ステップS12に進む。ステップS12では、次に重要度の高い文を抽出する。ここでは、第5文が選択されることになる。第5分の文字数は97文字である。したがって、選択された文の合計文字数は、62文字と97文字を合計して、160文字となる。よって、指定文字数である250文字を超えていないので、ステップS11からステップS12に進む。
ステップS12では、さらに次に重要度の高い文を抽出する。このような処理を、選択された文の合計文字数が指定文字数250文字を超えるまで繰り返す。ここでは、第4文(62文字)、第5文(97文字)、第3文(74文字)、第2文(56文字)を抽出した時点で、合計文字数が289文字となって指定文字数を超える。
指定文字数を超えると、CPU14は、最後に抽出した文を抽出文から外す(ステップS13)。ここでは、第2文が最後に抽出した文であるから、第2文を抽出したものから外す。その結果、図14に示すように、第4文、第5文、第3文が抽出されることになる。
次に、CPU14は、抽出した文を、元の文章における順番(つまり文番号の若い順)に従って並び替える(ステップS14)。これにより、図15に示すような順番の抽出文を得ることができる。
CPU14は、このようにして並び替えた抽出文を要約として出力する(ステップS15)。ここでは、図15に示す「書籍の電子化が・・・繋げたいと考えております。」という要約を出力する。
4.応用例
上記のような要約文作成装置は、指定された文字数を超えない範囲での要約作成一般に応用することができる。たとえば、次のような応用が可能である。
図16に示すように、ニュースなどを配信するサーバ装置Sがインターネット上に配置されている。端末装置Tは、サーバ装置Sからのニュースを受信して、表示するためのものである。端末装置Tのハードウエア構成は図2に示すものと同等であり、ハードウエア20には、要約文作成プログラムの他、ニュース記事閲覧のための閲覧プログラムが記録されている。
サーバ装置Sからは、複数の記事が送信されてくる。このとき、サーバ装置Sは、各記事につき記事識別符号を付して送信する。これを受けた端末装置Tの閲覧プログラムは、全ての記事をハードディスクに一旦記録する。そして、図17に示す予め定められたレイアウトに、各記事が収まるように表示を行う。端末装置Tは、レイアウトに示される各領域に対し、記事識別符号を対応づけて、いずれの領域にいずれの記事を表示するかを決定する。この決定方法としては、たとえば、記事識別符号の順番に、右上、左下、左上、右下という順に配置するなどである。
次に、端末装置Tは、領域の大きさと、指定されている表示フォントの種類および大きさとに基づいて、各領域に表示可能な文字数を決定する。このようにして算出した表示可能文字数を指定文字数として、当該領域に表示すべき記事につき、上述の要約文作成処理を行う。
これにより、各領域には要約文が表示されることになる。端末装置Tは、要約文表示の際に、対応する記事全文へのリンクも併せて表示する。したがって、要約文を読んで興味を持ったユーザが、当該リンクをクリックすれば、画面全体に記事全文が表示されることになる。
5.その他の実施形態
(1)上記実施形態では、TF値(強調度)、IDF値(希少度)、Hot係数(注目度)に基づいて単語の重要度を算出するようにしている。しかしながら、これらのうちのいずれか一つを用いて重要度を算出したり、これらのうちのいずれか二つを組み合わせて重要度を算出するようにしてもよい。
(2)上記実施形態では、当該文章における単語の出現回数に基づいて単語の強調度を算出するようにしている。しかし、文章中における単語の出現位置に基づいて、単語の強調度を判断するようにしてもよい。たとえば、文の後ろの方に出てくる単語の方が強調度を高くするようにしてもよい。さらに。出現回数と出現位置とを組み合わせて強調度を算出するようにしてもよい。
(3)上記実施形態では、検索サイトにおける当該単語のヒット数と、検索対象の全ページ数との比率に基づいて希少度(IDF値)を算出するようにしている。しかし、辞書や百科事典(ウエブ上にあるものローカルにあるものを問わない)などにおいて当該単語が何回使用されているか(見出し項目だけでなく内容中に用いられている場合も含む回数)に基づいて、当該単語の希少度を算出するようにしてもよい。
(4)上記実施形態では、ウエブ上の辞書の更新日の平均値と現在日の差に基づいて、現在の注目度(Hot係数)を算出するようにしている。しかしながら、最新の更新日との差に基づいて、現在の注目度を算出するようにしてもよい。あるいは、所定期間内に更新が行われた回数を算出し、これに基づいて現在の注目度を算出するようにしてもよい(更新回数が多いほど、注目度が大きい)。
(5)上記実施形態では、各単語の重要度の平均値をしきい値として重要単語を抽出するようにしている。しかし、標準偏差、分散なども考慮して重要単語を抽出するようにしてもよい。
(6)上記実施形態では、重要単語を含む文についてのみ重要度を算出するようにしている。しかし、全ての文について重要度を算出するようにしてもよい。
(7)上記実施形態では、指定文字数を超えない範囲で、文を選択するようにしている。しかし、指定文字数と合計文字数の差の絶対値が最も小さくなるように文を選択するようにしてもよい。
(8)上記実施形態では、指定文字数に基づいて文を選択するようにしている。しかし、文の合計数(指定文数)、行の合計数(指定行数)、文章の合計データ量(指定データ量)などに基づいて文を選択するようにしてもよい。すなわち、文字数、行数、文数、データ量、面積などで指定された文章の大きさに合致するように、文を選択するようにしてもよい。
(9)上記実施形態では、指定文字数などの文の選択基準は予め定められているものとしている。しかし、対象とする文章の文字数などに応じて、指定文字数などを可変にするようにしてもよい(たとえば、文章の文字数の半分を指定文字数とするなど)。これにより、文章の長さに対応した長さの要約文を得ることができる。
(10)上記実施形態では、端末装置側において要約文作成処理を行っている。しかしながら、サーバ装置側において、要約文作成処理を行うようにしてもよい。
(11)上記実施形態では、句点に基づいて文章中から「文」を抽出するようにしている。しかし、見出しなどのように句点のない文もある。そこで、見出しであると判断した部分(他の部分よりフォントが大きい、見出しであるとの属性が付与されている等により判断する)については、全体を一文であると判断するようにしてもよい。
(12)上記実施形態では、単語の重要度を算出する際に、文章全体のジャンルや属性(社会面の記事であるか、三面記事であるかや、論文であるか雑文であるかなど)により、単語について係数を設けるようにしてもよい。たとえば、社会面における「国会」は、通常出てくる単語であるから係数を低くする。一方、三面記事における「国会」は、あまり出てこない単語であるから係数を高くする。この係数を、算出した重要度に乗じて、最終的な重要度を得る。
(13)上記実施形態では、文の重要度を算出する際に、文と文の関連性を考慮せずに行っている。しかし、文と文の関連性も考慮して重要度を算出するようにしてもよい。たとえば、「その」「彼」等の指示代名詞が当該文に出てくる場合、重要度によって選択され、並び替えられた抽出文において、当該文より前の文が抽出されていない場合には、当該指示代名詞を含む文の係数を小さくする。一方、「したがって」「つまり」などの、話題を展開する接続詞が文に含まれる場合、当該文の係数を大きくする。この係数を、算出した重要度に乗じて、最終的な重要度を得る。
(14)上記実施形態では、指定文字数以内に収まるように重要度の順に文を選択して予約を生成するようにしている。しかし、最も重要度の高い文の文字数が、指定文字数を超えている場合には、要約が生成できないことになる。そこで、このような場合には、従来用いられている、長い文を簡略化して文字数を減らす処理を行い、当該最も重要度の高い文を指定文字数以下になるようにして要約を生成するようにしてもよい。
(15)上記実施形態では、重要度に従って抽出した文を、元の文章における順番に並び替えて要約文を生成している。しかし、重要度に従って元の文章中の文に選択マーク(フラグなど)を付しておき、選択マークが付された文のみを元の文章の順に従って抽出し、要約文を得るようにしてもよい。
また、上記実施形態では、元の文章における順に従った要約文を生成するようにした。しかし、重要度に従って選択した文を重要度に従って並べ、これを要約文としてもよい。
(16)上記実施形態では、文を構成する全ての単語の重要度を合計して文の重要度を算出するようにしている。しかし、文を構成する単語のうち所定条件を満たす単語のみ(たとえば、文章全体としての単語の重要度の上位15個(所定個)のみ)の重要度を合計して文の重要度を算出するようにしてもよい。










Claims (11)

  1. 解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、
    文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、
    重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、
    選択した文を配して要約文を生成する配列手段と、
    を備えた要約文生成装置。
  2. コンピュータによって要約文生成装置を実現するための要約文生成プログラムであって、当該プログラムは、コンピュータを、
    解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、
    文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、
    重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、
    選択した文を配して要約文を生成する配列手段と、
    して機能させるための要約文生成プログラム。
  3. 請求項1の装置または請求項2のプログラムにおいて、
    前記配列手段は、解析対象となる元の文章における文の順に沿って、前記選択した文を配することを特徴とする装置またはプログラム。
  4. 請求項1〜3のいずれかのプログラムにおいて、
    前記重要度算出手段は、当該単語が当該文章中において使用されている回数が多いほど、重要度が高いと判断することを特徴とする装置またはプログラム。
  5. 請求項1〜4のいずれかの装置またはプログラムにおいて、
    前記重要度算出手段は、当該単語が一般の文章中において用いられている度合いが小さいほど、重要度が高いと判断することを特徴とする装置またはプログラム。
  6. 請求項5の装置またはプログラムにおいて、
    前記重要度算出手段は、当該単語を検索サイトにて検索し、当該検索サイトに登録されているページ数と、検索結果として得られた当該単語を含むページ数との比率に基づいて、当該単語が一般の文章中において用いられている度合いを算出することを特徴とする装置またはプログラム。
  7. 請求項1〜6のいずれかの装置またはプログラムにおいて、
    前記重要度算出手段は、当該単語を辞書サイトにて検索し、当該単語についての説明の更新頻度が高いほど重要度が高いと判断することを特徴とする装置またはプログラム。
  8. 請求項1〜7のいずれかの装置またはプログラムにおいて、
    前記文選択手段は、選択した文の文字数合計が、所定の文字数を超えないように、可能な限り多くの文を重要度の高い順に選択することを特徴とする装置またはプログラム。
  9. 請求項1〜8のいずれかの装置またはプログラムにおいて、
    前記装置は、複数の文章を表示面に配置して表示するにあたり、それぞれの文章を当該表示面中のいずれの領域に表示すべきかを示すレイアウト情報を受け、当該レイアウト情報に基づいて領域ごとに表示可能な文字数を算出する文字数算出手段をさらに備え、
    前記文選択手段は、各領域について、算出した前記文字数を超えない範囲において、可能な限り多くの文を重要度の高い順に選択することを特徴とする装置またはプログラム。
  10. 請求項9の装置またはプログラムにおいて、
    前記装置は、各領域について生成した要約文を対応する領域に配置するとともに、当該領域内に対応する文章へのリンクを配置する配置手段をさらに備えたことを特徴とする装置またはプログラム。
  11. コンピュータによって要約文を生成する方法であって、
    解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出し、
    当該抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出し、
    重要度の高い順から、所定の条件を満足するように文を選択し、
    選択した文を配して要約文を生成することを特徴とする要約文生成方法。














JP2011149884A 2011-07-06 2011-07-06 要約文生成装置 Pending JP2013016106A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011149884A JP2013016106A (ja) 2011-07-06 2011-07-06 要約文生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011149884A JP2013016106A (ja) 2011-07-06 2011-07-06 要約文生成装置

Publications (1)

Publication Number Publication Date
JP2013016106A true JP2013016106A (ja) 2013-01-24

Family

ID=47688722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011149884A Pending JP2013016106A (ja) 2011-07-06 2011-07-06 要約文生成装置

Country Status (1)

Country Link
JP (1) JP2013016106A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015194919A (ja) * 2014-03-31 2015-11-05 大日本印刷株式会社 文書要約装置、文書要約方法、及び、プログラム
JP5933863B1 (ja) * 2015-05-22 2016-06-15 株式会社Ubic データ分析システム、制御方法、制御プログラム、および記録媒体
JP2017076176A (ja) * 2015-10-13 2017-04-20 三菱電機株式会社 文書出力制御装置
KR20180108441A (ko) * 2017-03-24 2018-10-04 오정록 광고 url이 포함된 견적서 생성 시스템
JP2019121075A (ja) * 2017-12-28 2019-07-22 株式会社日立ソリューションズ 会議の音声データから要約書を作成する方法
US10606875B2 (en) 2014-09-16 2020-03-31 Kabushiki Kaisha Toshiba Search support apparatus and method
JP2020071675A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11345233A (ja) * 1998-04-02 1999-12-14 Sony Corp 文書処理方法および装置ならびに記録媒体
JP2000048025A (ja) * 1998-07-28 2000-02-18 Brother Ind Ltd 通信装置
US20060206806A1 (en) * 2004-11-04 2006-09-14 Motorola, Inc. Text summarization
JP2011022914A (ja) * 2009-07-17 2011-02-03 Casio Computer Co Ltd 情報処理装置およびその制御プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11345233A (ja) * 1998-04-02 1999-12-14 Sony Corp 文書処理方法および装置ならびに記録媒体
JP2000048025A (ja) * 1998-07-28 2000-02-18 Brother Ind Ltd 通信装置
US20060206806A1 (en) * 2004-11-04 2006-09-14 Motorola, Inc. Text summarization
JP2011022914A (ja) * 2009-07-17 2011-02-03 Casio Computer Co Ltd 情報処理装置およびその制御プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6014051961; 後藤淳、外3名: 'Wikipedia の変更履歴を利用した関連番組検索' 映像情報メディア学会年次大会講演予稿集 , 20100831, 一般社団法人映像情報メディア学会 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015194919A (ja) * 2014-03-31 2015-11-05 大日本印刷株式会社 文書要約装置、文書要約方法、及び、プログラム
US10606875B2 (en) 2014-09-16 2020-03-31 Kabushiki Kaisha Toshiba Search support apparatus and method
JP5933863B1 (ja) * 2015-05-22 2016-06-15 株式会社Ubic データ分析システム、制御方法、制御プログラム、および記録媒体
WO2016189606A1 (ja) * 2015-05-22 2016-12-01 株式会社Ubic データ分析システム、制御方法、制御プログラム、および記録媒体
JP2017076176A (ja) * 2015-10-13 2017-04-20 三菱電機株式会社 文書出力制御装置
KR20180108441A (ko) * 2017-03-24 2018-10-04 오정록 광고 url이 포함된 견적서 생성 시스템
KR101965527B1 (ko) * 2017-03-24 2019-04-03 오정록 광고 url이 포함된 견적서 생성 시스템
JP2019121075A (ja) * 2017-12-28 2019-07-22 株式会社日立ソリューションズ 会議の音声データから要約書を作成する方法
JP2020071675A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム

Similar Documents

Publication Publication Date Title
JP2013016106A (ja) 要約文生成装置
US9589071B2 (en) Query suggestions from documents
JP4587236B2 (ja) 情報検索装置、情報検索方法、およびプログラム
US20020133483A1 (en) Systems and methods for computer based searching for relevant texts
JP2016164724A (ja) 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム
Strzelecki et al. Direct answers in Google search results
Pingali et al. WebKhoj: Indian language IR from multiple character encodings
JP6653169B2 (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
Rasheed et al. Building a text collection for Urdu information retrieval
Dimitrova et al. Implementation of the Bulgarian-Polish online dictionary
Harper et al. A language modelling approach to relevance profiling for document browsing
Steinberger et al. Coreference applications to summarization
JP2008112310A (ja) 検索装置、情報検索システム、検索方法、検索プログラム、及び記録媒体
Jaćimović Textometric methods and the TXM platform for corpus analysis and visual presentation
Choi et al. Consento: a new framework for opinion based entity search and summarization
Pollard Analyzing the accessibility of Illinois public library homepages: Are we accessible to all?
JP2013016135A (ja) 記事配置決定装置
Sunayama et al. Panoramic view system for extracting key sentences based on viewpoints and application to a search engine
US10217143B2 (en) Information processing system, information processing method, and information processing program
Murai et al. based recommendation of attractive sentences in a novel for effective browsing
JP2016040723A (ja) 記事配置決定装置
Huang Measuring Similarity Between Texts in Python
JP7139271B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Ahmed Lulu A Robust System for Local Reuse Detection of Arabic Text on the Web
Rao Recall oriented approaches for improved indian language information access

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130305

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130313

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150413