JP2013016106A

JP2013016106A - 要約文生成装置

Info

Publication number: JP2013016106A
Application number: JP2011149884A
Authority: JP
Inventors: Keiichi Masuda; 景一増田; Tomoki Endo; 友基遠藤; Taketo Tatsumi; 健人巽; Keisuke Kimura; 恵介木村
Original assignee: Kyocera Communication Systems Co Ltd; Kyocera Maruzen System Integration Co Ltd
Current assignee: Kyocera Communication Systems Co Ltd; Kyocera Maruzen System Integration Co Ltd
Priority date: 2011-07-06
Filing date: 2011-07-06
Publication date: 2013-01-24

Abstract

【課題】適切に重要文を抽出して要約文を作成することのできる装置を提供する。
【手段】文・単語抽出手段２は、文章を構成する文を抽出し、各文に含まれる名詞を単語として抽出する。重要度算出手段４は、前記抽出された各単語の重要度を算出する。さらに、各文に含まれる各単語の重要度に基づいて、各文の重要度を算出する。文選択手段６は、文章記録部１２に記録された文のうち、重要度の高いものから順に選択する。たとえば、選択した文の文字数が所定の文字数を超えない範囲において、できるだけ多くの文を選択する。並替手段８は、選択された文を、元の文章における並び順に並び替えることで、要約文データを生成する。
【選択図】図１

Description

この発明は、要約文を生成する装置に関するものである。

文書の要約を自動的に作成する装置が実用化され提案されている。たとえば、特許文献１には、与えられた文書の構造を解析し、当該構造と予め設定した条件とに基づいて重要文を抽出して要約を作成する装置が開示されている。この装置を用いることにより、自動的に重要文を抽出することができる。

特開２００１−３２５２７３

しかしながら、上記のような従来技術では、事前に定められた特定の語を含んでいたり、限定された文法構造をもっていたりするものを手がかりに重要度を定めているため、それらに該当しない文書については、適切に重要文を抽出することができないという問題があった。

この発明は、上記のような問題点を解決して、適切に重要文を抽出して要約文を作成する装置を提供することを目的とする。

(1)(2)この発明に係る要約文生成装置は、解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、選択した文を配して要約文を生成する配列手段とを備えている。

したがって、重要度の高い文によって要約を構成することができ、適切な要約文を得ることができる。

(3)この発明に係る要約文生成装置は、配列手段が、解析対象となる元の文章における文の順に沿って、前記選択した文を配することを特徴としている。

したがって、元の文章における順に沿って配置された文を要約文として得ることができるので、文章として流れのよい要約文を得ることができる。

(4)この発明に係る要約文生成装置は、重要度算出手段が、当該単語が当該文章中において使用されている回数が多いほど、重要度が高いと判断することを特徴としている。

したがって、文章中における当該単語の強調度に基づいて、各単語の重要度を決定することができる。

(5)この発明に係る要約文生成装置は、重要度算出手段が、当該単語が一般の文章中において用いられている度合いが小さいほど、重要度が高いと判断することを特徴としている。

したがって、当該単語の一般的な希少度に基づいて、各単語の重要度を決定することができる。

(6)この発明に係る要約文生成装置は、重要度算出手段が、当該単語を検索サイトにて検索し、当該検索サイトに登録されているページ数と、検索結果として得られた当該単語を含むページ数との比率に基づいて、当該単語が一般の文章中において用いられている度合いを算出することを特徴としている。

したがって、当該単語の一般の文章中において用いられている度合いに基づいて、各単語の希少度を決定することができる。

(7)この発明に係る要約文生成装置は、重要度算出手段が、当該単語を辞書サイトにて検索し、当該単語についての説明の更新頻度が高いほど重要度が高いと判断することを特徴としている。

したがって、当該単語の辞書サイトにおける更新頻度に基づいて、各単語の重要度を決定することができる。

(8)この発明に係る要約文生成装置は、文選択手段が、選択した文の文字数合計が、所定の文字数を超えないように、可能な限り多くの文を重要度の高い順に選択することを特徴としている。

したがって、所定の文字数以内において、可能な限りの多くの文を重要度の高い順に選択して、要約文を得ることができる。

(9)この発明にかかる要約文生成装置は、複数の文章を表示面に配置して表示するにあたり、それぞれの文章を当該表示面中のいずれの領域に表示すべきかを示すレイアウト情報を受け、当該レイアウト情報に基づいて領域ごとに表示可能な文字数を算出する文字数算出手段をさらに備え、文選択手段が、各領域について、算出した前記文字数を超えない範囲において、可能な限り多くの文を重要度の高い順に選択することを特徴としている。

したがって、与えられたレイアウトの各領域の大きさに応じて、適切な要約文を生成することができる。

(10)この発明に係る要約文生成装置は、各領域について生成した要約文を対応する領域に配置するとともに、当該領域内に対応する文章へのリンクを配置する配置手段をさらに備えたことを特徴としている。

したがって、領域の大きさに応じて要約文を表示し、リンクによって完全な文章を表示させることが可能となる。

(11)この発明に係る要約文生成方法は、コンピュータによって要約文を生成する方法であって、解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出し、当該抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出し、重要度の高い順から、所定の条件を満足するように文を選択し、選択した文を配して要約文を生成することを特徴としている。

「文・単語抽出手段」は、実施形態においては、ステップＳ１、Ｓ２がこれに対応する。

「重要度算出手段」は、実施形態においては、ステップＳ３〜Ｓ７がこれに対応する。

「文選択手段」は、実施形態においては、ステップＳ８〜Ｓ１３がこれに対応する。

「配列手段」は、実施形態においては、ステップＳ１４がこれに対応する。

「プログラム」とは、ＣＰＵにより直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む概念である。

この発明の一実施形態による要約文作成装置の機能ブロック図である。要約文作成装置のハードウエア構成である。要約文作成プログラムのフローチャートである。要約文作成プログラムのフローチャートである。要約対象となる文章の例である。文番号を付して分解された文を記憶するテーブルを示す図である。形態素解析処理の詳細である。形態素解析の結果例を示す図である。形態素解析の結果例を示す図である。各単語のＴＦ値、ＩＤＦ値、Ｈｏｔ係数、重要度を記録したテーブルの例を示す図である。ＩＤＦ値算出処理の詳細である。Ｈｏｔ係数算出処理の詳細である。ウエブ上の辞書からの返信データを示す図である。Ｈｏｔ係数を算出するための係数表である。重要度の順に選択した文を示す図である。選択した文を元の文章における順に従って並び替えたものを示す図である。応用例としてのシステム構成を示す図である。表示レイアウトの一例を示す図である。

１．機能ブロック図
図１に、この発明の一実施形態による要約文生成装置の機能ブロック図を示す。文・単語抽出手段２は、文章記録部１２に記録されている文章データを読み出し、当該文章データによって示される文章を構成する文を抽出する。さらに、各文に含まれる名詞を単語として抽出する。

重要度算出手段４は、前記抽出された各単語の重要度を算出する。さらに、各文に含まれる各単語の重要度に基づいて、各文の重要度を算出する。文選択手段６は、文章記録部１２に記録された文のうち、重要度の高いものから順に選択する。たとえば、選択した文の文字数が所定の文字数を超えない範囲において、できるだけ多くの文を選択する。

配列手段８は、選択された文を、元の文章における並び順に沿って配置することで、要約文データを生成する。

２．ハードウエア構成
図２に、図１に示す要約文生成装置のハードウエア構成を示す。ＣＰＵ１４には、メモリ１６、ディスプレイ１８、ハードディスク２０、ＣＤ−ＲＯＭドライブ２２、キーボード／マウス２４、通信回路２６が接続されている。通信回路２６は、インターネットなどに接続するためのものである。

ハードディスク２０には、WINDOWS（商標）などのオペレーティングシステム３０、要約文生成プログラム３２、形態素辞書３４が記録されている。オペレーティングシステム３０、要約文生成プログラム３２は、ＣＤ−ＲＯＭ２８に記録されていたものをＣＤ−ＲＯＭドライブ２２を介して、インストールしたものである。形態素辞書３４には、単語とその品詞が対応づけて記録されている。

３．要約文生成プログラム
要約文生成プログラム３２のフローチャートを、図３、図４に示す。

(1)文の抽出
ＣＰＵ１４は、ステップＳ１において、ハードディスク２０に記録された文章データから、文を抽出する（ステップＳ１）。この実施形態では、句点（「。」や「．」）に基づいて、文を抽出するようにしている。すなわち、句点が見いだされるまでを一つの文として抽出する。

たとえば、図５に示すような文章データであれば、図６に示すように、文番号「１」〜「６」までの６つの文が抽出されることになる。ＣＰＵ１４は、このようにして抽出した文を、順番を示す文番号とともにハードディスク２０に記録する。この際、ＣＰＵ１４は、各文の文字数を併せて記録する。

(2)形態素解析
次に、ＣＰＵ１４は、文章データに含まれる全ての文を対象として、形態素解析を行う（ステップＳ２）。図７に、形態素解析処理の詳細を示す。まず、ＣＰＵ１４は、ハードディスク２０に記録されている形態素辞書３４を参照して、文章データの形態素を解析する（ステップＳ２１）。この形態素解析は、従来より行われている一般的な手法を用いることができる。形態素解析の結果を、図８ａに示す。

次に、ＣＰＵ１４は、通信回路２６を使用して、インターネットを介して、ウエブ上の百科事典や辞書（たとえばWikipedia（商標）やe-Words（商標））にアクセスする。そして、図８に示す形態素解析によって得られた連続する単語を結合し、これをウエブ上の百科事典や辞書、検索サイトにて検索する（ステップＳ２２）。たとえば、「平素」と「は」を結合して「平素は」という単語を生成し、この単語が見出し語としてウエブ上の百科事典や辞書に存在するかどうか、あるいは検索サイトにおいて所定件数以上（たとえば１万件以上）ヒットするかどうかを検索する。たとえば、「平素＋は」「格別＋の」「ＩＴ＋ソリューション」などは、ウエブ上で文節として使用されている例が多くあるので、検索サイトにおける検索で所定件数以上のヒットを得ることができる。また、「電子＋書籍」などの単語は、百科事典や辞書の見出し語として存在する可能性がある。

なお、この実施形態では、文の初めの単語を対象単語として、後続の単語を順次結合して行き、最も長い単語としてウェブ上の百科事典・辞書に存在する、または検索サイトにて所定件数以上ヒットするものを抽出する。ＣＰＵ１４は、このようにして抽出した結合単語（たとえば「平素は」）を、図８ａのテーブルに記録するとともに、結合単語を構成する個々の単語（たとえば「平素」「は」）を図８ａのテーブルから削除する。これにより、テーブルは、図８ｂに示すようになる。さらに、ＣＰＵ１４は、見いだされた結合単語を、形態素辞書３４に追加登録する。

続いて、抽出された単語の次の単語（抽出されなかった場合は対象単語の次の単語）を次の対象単語として、後続の単語を順次結合して行き、最も長い単語としてウェブ上の辞書に存在するものを抽出する。この処理を、文末まで繰り返す。

したがって、この実施形態によれば、形態素辞書３４に登録されていない単語であっても、これを単語として抽出することができる。

続いて、ＣＰＵ１４は、上記で得た単語を結合する処理を行う（ステップＳ２３）。たとえば、名詞が連続する場合にはこれを結合して一つの名詞とする。「福島」「第一」「原子力」「発電所」という４つの名詞が連続する場合、これを「福島第一原子力発電所」とする。同様に、人名の姓と名が連続する場合、これを結合する。その他、形態素の結合として一般に行われている手法を用いて、単語の結合を行う。ＣＰＵ１４は、得られた結合単語（たとえば、「福島第一原子力発電所」）を、図８のテーブルに記録するとともに、結合単語を構成する個々の単語（たとえば、「福島」「第一」「原子力」「発電所」）を図８ｂのテーブルから削除する。

以上のようにして、形態素解析を行うことができる。

(3)ＴＦ値算出
次に、ＣＰＵ１４は、上記にて抽出した単語（この実施形態では名詞を含む単語のみを対象とする）について、ＴＦ(Term Frequency)値を算出する（ステップＳ３）。つまり、図８ｂのテーブルに記録した品詞が名詞である単語および名詞を品詞として含む単語について、ＴＦ値を算出する。

ここで、ＴＦ値とは、当該単語が当該文章中において出現する回数を、文章中の延べ単語数で除した値である。

ＴＦ＝単語の出現回数／各単語の出現回数の合計
図９に、各単語について算出したＴＦ値を示す。ＣＰＵ１４は、算出したＴＦ値をハードディスク２０に記録する。

この実施形態では、当該文章中における各単語の出現頻度を得ることで、各単語が当該文章中において、どの程度強調されているのかを算出するようにしている。

(4)ＩＤＦ値算出
次に、ＣＰＵ１４は、各単語についてＩＤＦ(Inverse Document Frequency)値を算出する（ステップＳ４）。ここで、ＩＤＦ値は、各単語の希少性（世間に流通している単語として一般的でないこと）を表すものである。当該単語の希少性が高いほど、ＩＤＦ値は高くなる。

この実施形態では、ＩＤＦ値は、以下の式により算出するようにしている。

ＩＤＦ＝ｌｏｇ（当該単語の検索エンジンでのヒット数（ページ数）／検索エンジン上の総ページ数）
図１０に、ＩＤＦ値算出処理の詳細を示す。ＣＰＵ１４は、図８ｂのテーブルに記録された最初の単語（この実施形態では名詞を含む単語のみを対象とする）を対象単語とする（ステップＳ４１）。ＣＰＵ１４は、対象単語（たとえば「平素は」）を、インターネット上の検索サイト（たとえばYahoo!（商標）や***（商標）など）にて検索する（ステップＳ４２）。

この検索リクエストに応じて、検索サイトから検索結果が返信されてくるので、ＣＰＵ１４はこれを受信する。ＣＰＵ１４は、検索結果に含まれる対象単語のヒット数（当該単語が含まれるページ数）および検索サイトが対象としている総ページ数を取得し、メモリ１６に記録する（ステップＳ４３）。

続いて、ＣＰＵ１４は、ｌｏｇ（当該単語の検索エンジンでのヒット数（ページ数）／検索エンジン上の総ページ数）を計算して、ＩＤＦ値を算出する（ステップＳ４４）。この実施形態では、ｌｏｇは自然対数を用いている。なお、検索エンジン上の総ページ数は、例えば２５０億ヒット程度のオーダーとなる。ＣＰＵ１４は、算出したＩＤＦ値を、各単語に対応づけてハードディスク２０に記録する（図９参照）。

ＣＰＵ１４は、すべての単語についてＩＤＦ値を算出したかどうかを判断する（ステップＳ４５）。図８ｂのテーブルにおいて未処理の単語が残っていれば、ＣＰＵ１４は、次の単語を対象単語とする（ステップＳ４６）。そして、ステップＳ４２以下を繰り返す。このようにして、対象となる全ての単語についてＩＤＦ値を算出する。

(5)ＴＦ−ＩＤＦ値算出
続いて、ＣＰＵ１４は、各単語につき、算出したＴＦ値とＩＤＦ値に基づいて、ＴＦ−ＩＤＦ値を計算する（ステップＳ５）。この実施形態では、ＴＦ値とＩＤＦ値との積を算出することにより、ＴＦ−ＩＤＦ値を算出するようにしている。

(6)Ｈｏｔ係数算出
続いて、ＣＰＵ１４は、Ｈｏｔ係数を算出する（ステップＳ６）。ここで、Ｈｏｔ係数とは、対象となる単語の現在における注目度を表す指数である。この実施形態では、ウエブ上の辞書において対象単語を検索し、当該対象単語がどの程度の頻度で、どの程度現在に近い時間で更新されているかを取得し、これに基づいて算出するようにしている。

具体的には、当該単語について、最新の更新日から所定件数（たとえば１００件）の更新日を取得し、これら更新日の平均日を算出して、現在の日との差を求める。この差が小さいほど、Ｈｏｔ係数を大きくする。

図１１に、Ｈｏｔ係数算出処理の詳細を示す。ＣＰＵ１４は、図８ｂのテーブルに記録された最初の単語（この実施形態では名詞を含む単語のみを対象とする）を対象単語とする（ステップＳ６１）。ＣＰＵ１４は、対象単語を、インターネット上の辞書（ウエブ辞書）にアクセスし検索する（ステップＳ６２）。

対象単語が見出し語として存在すれば、当該対象単語に対する説明などのデータが返信されてくる。見出し語として存在しなければ、存在しない旨（あるいはエラー）が返信されてくる。ＣＰＵ１４は、これを受けて、対象単語がウエブ上の辞書に見出し語として存在するかどうかを判断する（ステップＳ６３）。

見出し語として存在する場合、ＣＰＵ１４は、返信されてきた解説データ中に記録されている更新日を、最新のものから所定件数（ここでは１００件）取得する（ステップＳ６４）。

図１２に、返信されてくる解説データの例を示す。見出し語、内容などの項目の他、更新日の項目が設けられている。この更新日には、内容等について更新が行われた履歴が順に示されている。ＣＰＵ１４は、この更新日を最新のものから１００件取得する。なお、更新が１００件以下の場合には、当該単語のＨｏｔ係数を１．０として、ステップＳ６８に進む。

次に、ＣＰＵ１４は、取得した１００件の更新日の平均日を算出する。次に、ＣＰＵ１４は、現在日（内部時計に基づく）と平均日との差（絶対値）を算出する（ステップＳ６６）。さらに、算出した差に基づいてＨｏｔ係数を算出する（ステップＳ６７）。

この実施形態では、ハードディスク２０に予め記録された係数テーブル（図１３参照）に基づいてＨｏｔ係数を決定する。たとえば、算出した差が１０日であれば、Ｈｏｔ係数は２．６として決定される。ＣＰＵ１４は、算出したＨｏｔ係数を、対象単語に対応づけて記録する（図９参照）。

ＣＰＵ１４は、すべての単語についてＨｏｔ係数を算出したかどうかを判断する（ステップＳ６８）。図８ｂのテーブルにおいて未処理の単語が残っていれば、ＣＰＵ１４は、次の単語を対象単語とする（ステップＳ６９）。そして、ステップＳ６２以下を繰り返す。このようにして、対象となる全ての単語についてＨｏｔ係数を算出する。

なお、対象単語がウエブ上の辞書に見出し語として存在しない場合には、Ｈｏｔ係数を１．０とする（ステップＳ７０）。

(7)重要度の算出
ＣＰＵ１４は、各単語につき、ＴＦ−ＩＤＦ値にＨｏｔ係数を乗じて、重要度を算出する（図３のステップＳ７）。ＣＰＵ１４は、このようにして算出した重要度を、対象単語に対応づけて記録する（図９参照）。

次に、ＣＰＵ１４は、各単語の重要度に基づいて重要単語を決定する（ステップＳ８）。この実施形態では、単語の重要度の平均値を算出し、この平均値を超える重要度を有する単語を重要単語として抽出している。たとえば、図９に示す場合であれば、単語の重要度の平均値は11.40135438である。したがって、ＣＰＵ１４は、この平均値を超える重要度を有する単語「電子書籍」「図書館」「書籍」・・・「利用価値」を重要単語として選択することになる。

次に、ＣＰＵ１４は、各文のうち重要単語が含まれる文について重要度を算出する。重要度は、当該文に含まれる各単語の重要度を合計することによって算出する（ステップＳ９）。たとえば、図６に示す文章の第１文「平素は、・・・申し上げます。」には、重要単語が含まれていないので、第１文についての重要度は算出しない。第２文「当社は従来より・・・参りました。」には、重要単語「当社」「図書館」「書籍」がふくまれているので重要度を算出する。ＣＰＵ１４は、各単語の重要度を図９を参照して取得し、これを合計して重要度57.83187を得る。

ＣＰＵ１４は、算出した各文の重要度を、各文に対応づけてハードディスク２０に記録する（図６参照）。

(8)要約文の生成
次に、ＣＰＵ１４は、算出した各文の重要度に基づき、最も重要度の高い文を抽出する（ステップＳ１０）。ここでは、図６に示す第４文の重要度が最も高いので、第４文が選択される。ＣＰＵ１４は、選択した文の文字数の合計が、予め定められた指定文字数を超えているかどうかを判断する（ステップＳ１１）。ここで、指定文字数とは、当該文字数を超えない範囲で要約を作成するように予め指定された（あるいは他の条件より算出された）文字数である。ここでは、指定文字数が、２５０文字であるとして説明を進める。

第４文の文字数は、６２文字である（図６参照）。したがって、指定文字数である２５０文字を超えていないので、ステップＳ１２に進む。ステップＳ１２では、次に重要度の高い文を抽出する。ここでは、第５文が選択されることになる。第５分の文字数は９７文字である。したがって、選択された文の合計文字数は、６２文字と９７文字を合計して、１６０文字となる。よって、指定文字数である２５０文字を超えていないので、ステップＳ１１からステップＳ１２に進む。

ステップＳ１２では、さらに次に重要度の高い文を抽出する。このような処理を、選択された文の合計文字数が指定文字数２５０文字を超えるまで繰り返す。ここでは、第４文（６２文字）、第５文（９７文字）、第３文（７４文字）、第２文（５６文字）を抽出した時点で、合計文字数が２８９文字となって指定文字数を超える。

指定文字数を超えると、ＣＰＵ１４は、最後に抽出した文を抽出文から外す（ステップＳ１３）。ここでは、第２文が最後に抽出した文であるから、第２文を抽出したものから外す。その結果、図１４に示すように、第４文、第５文、第３文が抽出されることになる。

次に、ＣＰＵ１４は、抽出した文を、元の文章における順番（つまり文番号の若い順）に従って並び替える（ステップＳ１４）。これにより、図１５に示すような順番の抽出文を得ることができる。

ＣＰＵ１４は、このようにして並び替えた抽出文を要約として出力する（ステップＳ１５）。ここでは、図１５に示す「書籍の電子化が・・・繋げたいと考えております。」という要約を出力する。

４．応用例
上記のような要約文作成装置は、指定された文字数を超えない範囲での要約作成一般に応用することができる。たとえば、次のような応用が可能である。

図１６に示すように、ニュースなどを配信するサーバ装置Ｓがインターネット上に配置されている。端末装置Ｔは、サーバ装置Ｓからのニュースを受信して、表示するためのものである。端末装置Ｔのハードウエア構成は図２に示すものと同等であり、ハードウエア２０には、要約文作成プログラムの他、ニュース記事閲覧のための閲覧プログラムが記録されている。

サーバ装置Ｓからは、複数の記事が送信されてくる。このとき、サーバ装置Ｓは、各記事につき記事識別符号を付して送信する。これを受けた端末装置Ｔの閲覧プログラムは、全ての記事をハードディスクに一旦記録する。そして、図１７に示す予め定められたレイアウトに、各記事が収まるように表示を行う。端末装置Ｔは、レイアウトに示される各領域に対し、記事識別符号を対応づけて、いずれの領域にいずれの記事を表示するかを決定する。この決定方法としては、たとえば、記事識別符号の順番に、右上、左下、左上、右下という順に配置するなどである。

次に、端末装置Ｔは、領域の大きさと、指定されている表示フォントの種類および大きさとに基づいて、各領域に表示可能な文字数を決定する。このようにして算出した表示可能文字数を指定文字数として、当該領域に表示すべき記事につき、上述の要約文作成処理を行う。

これにより、各領域には要約文が表示されることになる。端末装置Ｔは、要約文表示の際に、対応する記事全文へのリンクも併せて表示する。したがって、要約文を読んで興味を持ったユーザが、当該リンクをクリックすれば、画面全体に記事全文が表示されることになる。

５．その他の実施形態
(1)上記実施形態では、ＴＦ値（強調度）、ＩＤＦ値（希少度）、Ｈｏｔ係数（注目度）に基づいて単語の重要度を算出するようにしている。しかしながら、これらのうちのいずれか一つを用いて重要度を算出したり、これらのうちのいずれか二つを組み合わせて重要度を算出するようにしてもよい。

(2)上記実施形態では、当該文章における単語の出現回数に基づいて単語の強調度を算出するようにしている。しかし、文章中における単語の出現位置に基づいて、単語の強調度を判断するようにしてもよい。たとえば、文の後ろの方に出てくる単語の方が強調度を高くするようにしてもよい。さらに。出現回数と出現位置とを組み合わせて強調度を算出するようにしてもよい。

(3)上記実施形態では、検索サイトにおける当該単語のヒット数と、検索対象の全ページ数との比率に基づいて希少度（ＩＤＦ値）を算出するようにしている。しかし、辞書や百科事典（ウエブ上にあるものローカルにあるものを問わない）などにおいて当該単語が何回使用されているか（見出し項目だけでなく内容中に用いられている場合も含む回数）に基づいて、当該単語の希少度を算出するようにしてもよい。

(4)上記実施形態では、ウエブ上の辞書の更新日の平均値と現在日の差に基づいて、現在の注目度（Ｈｏｔ係数）を算出するようにしている。しかしながら、最新の更新日との差に基づいて、現在の注目度を算出するようにしてもよい。あるいは、所定期間内に更新が行われた回数を算出し、これに基づいて現在の注目度を算出するようにしてもよい（更新回数が多いほど、注目度が大きい）。

(5)上記実施形態では、各単語の重要度の平均値をしきい値として重要単語を抽出するようにしている。しかし、標準偏差、分散なども考慮して重要単語を抽出するようにしてもよい。

(6)上記実施形態では、重要単語を含む文についてのみ重要度を算出するようにしている。しかし、全ての文について重要度を算出するようにしてもよい。

(7)上記実施形態では、指定文字数を超えない範囲で、文を選択するようにしている。しかし、指定文字数と合計文字数の差の絶対値が最も小さくなるように文を選択するようにしてもよい。

(8)上記実施形態では、指定文字数に基づいて文を選択するようにしている。しかし、文の合計数（指定文数）、行の合計数（指定行数）、文章の合計データ量（指定データ量）などに基づいて文を選択するようにしてもよい。すなわち、文字数、行数、文数、データ量、面積などで指定された文章の大きさに合致するように、文を選択するようにしてもよい。

(9)上記実施形態では、指定文字数などの文の選択基準は予め定められているものとしている。しかし、対象とする文章の文字数などに応じて、指定文字数などを可変にするようにしてもよい（たとえば、文章の文字数の半分を指定文字数とするなど）。これにより、文章の長さに対応した長さの要約文を得ることができる。

(10)上記実施形態では、端末装置側において要約文作成処理を行っている。しかしながら、サーバ装置側において、要約文作成処理を行うようにしてもよい。

(11)上記実施形態では、句点に基づいて文章中から「文」を抽出するようにしている。しかし、見出しなどのように句点のない文もある。そこで、見出しであると判断した部分（他の部分よりフォントが大きい、見出しであるとの属性が付与されている等により判断する）については、全体を一文であると判断するようにしてもよい。

(12)上記実施形態では、単語の重要度を算出する際に、文章全体のジャンルや属性（社会面の記事であるか、三面記事であるかや、論文であるか雑文であるかなど）により、単語について係数を設けるようにしてもよい。たとえば、社会面における「国会」は、通常出てくる単語であるから係数を低くする。一方、三面記事における「国会」は、あまり出てこない単語であるから係数を高くする。この係数を、算出した重要度に乗じて、最終的な重要度を得る。

(13)上記実施形態では、文の重要度を算出する際に、文と文の関連性を考慮せずに行っている。しかし、文と文の関連性も考慮して重要度を算出するようにしてもよい。たとえば、「その」「彼」等の指示代名詞が当該文に出てくる場合、重要度によって選択され、並び替えられた抽出文において、当該文より前の文が抽出されていない場合には、当該指示代名詞を含む文の係数を小さくする。一方、「したがって」「つまり」などの、話題を展開する接続詞が文に含まれる場合、当該文の係数を大きくする。この係数を、算出した重要度に乗じて、最終的な重要度を得る。

(14)上記実施形態では、指定文字数以内に収まるように重要度の順に文を選択して予約を生成するようにしている。しかし、最も重要度の高い文の文字数が、指定文字数を超えている場合には、要約が生成できないことになる。そこで、このような場合には、従来用いられている、長い文を簡略化して文字数を減らす処理を行い、当該最も重要度の高い文を指定文字数以下になるようにして要約を生成するようにしてもよい。

(15)上記実施形態では、重要度に従って抽出した文を、元の文章における順番に並び替えて要約文を生成している。しかし、重要度に従って元の文章中の文に選択マーク（フラグなど）を付しておき、選択マークが付された文のみを元の文章の順に従って抽出し、要約文を得るようにしてもよい。

また、上記実施形態では、元の文章における順に従った要約文を生成するようにした。しかし、重要度に従って選択した文を重要度に従って並べ、これを要約文としてもよい。

(16)上記実施形態では、文を構成する全ての単語の重要度を合計して文の重要度を算出するようにしている。しかし、文を構成する単語のうち所定条件を満たす単語のみ（たとえば、文章全体としての単語の重要度の上位１５個（所定個）のみ）の重要度を合計して文の重要度を算出するようにしてもよい。

Claims

解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、
文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、
重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、
選択した文を配して要約文を生成する配列手段と、
を備えた要約文生成装置。
コンピュータによって要約文生成装置を実現するための要約文生成プログラムであって、当該プログラムは、コンピュータを、
解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、
文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、
重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、
選択した文を配して要約文を生成する配列手段と、
して機能させるための要約文生成プログラム。
請求項１の装置または請求項２のプログラムにおいて、
前記配列手段は、解析対象となる元の文章における文の順に沿って、前記選択した文を配することを特徴とする装置またはプログラム。
請求項１〜３のいずれかのプログラムにおいて、
前記重要度算出手段は、当該単語が当該文章中において使用されている回数が多いほど、重要度が高いと判断することを特徴とする装置またはプログラム。
請求項１〜４のいずれかの装置またはプログラムにおいて、
前記重要度算出手段は、当該単語が一般の文章中において用いられている度合いが小さいほど、重要度が高いと判断することを特徴とする装置またはプログラム。
請求項５の装置またはプログラムにおいて、
前記重要度算出手段は、当該単語を検索サイトにて検索し、当該検索サイトに登録されているページ数と、検索結果として得られた当該単語を含むページ数との比率に基づいて、当該単語が一般の文章中において用いられている度合いを算出することを特徴とする装置またはプログラム。
請求項１〜６のいずれかの装置またはプログラムにおいて、
前記重要度算出手段は、当該単語を辞書サイトにて検索し、当該単語についての説明の更新頻度が高いほど重要度が高いと判断することを特徴とする装置またはプログラム。
請求項１〜７のいずれかの装置またはプログラムにおいて、
前記文選択手段は、選択した文の文字数合計が、所定の文字数を超えないように、可能な限り多くの文を重要度の高い順に選択することを特徴とする装置またはプログラム。
請求項１〜８のいずれかの装置またはプログラムにおいて、
前記装置は、複数の文章を表示面に配置して表示するにあたり、それぞれの文章を当該表示面中のいずれの領域に表示すべきかを示すレイアウト情報を受け、当該レイアウト情報に基づいて領域ごとに表示可能な文字数を算出する文字数算出手段をさらに備え、
前記文選択手段は、各領域について、算出した前記文字数を超えない範囲において、可能な限り多くの文を重要度の高い順に選択することを特徴とする装置またはプログラム。
請求項９の装置またはプログラムにおいて、
前記装置は、各領域について生成した要約文を対応する領域に配置するとともに、当該領域内に対応する文章へのリンクを配置する配置手段をさらに備えたことを特徴とする装置またはプログラム。
コンピュータによって要約文を生成する方法であって、
解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出し、
当該抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出し、
重要度の高い順から、所定の条件を満足するように文を選択し、
選択した文を配して要約文を生成することを特徴とする要約文生成方法。