JP2013016106A - 要約文生成装置 - Google Patents
要約文生成装置 Download PDFInfo
- Publication number
- JP2013016106A JP2013016106A JP2011149884A JP2011149884A JP2013016106A JP 2013016106 A JP2013016106 A JP 2013016106A JP 2011149884 A JP2011149884 A JP 2011149884A JP 2011149884 A JP2011149884 A JP 2011149884A JP 2013016106 A JP2013016106 A JP 2013016106A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- importance
- word
- sentences
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000008707 rearrangement Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 10
- 230000000877 morphologic effect Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000037213 diet Effects 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【手段】 文・単語抽出手段2は、文章を構成する文を抽出し、各文に含まれる名詞を単語として抽出する。重要度算出手段4は、前記抽出された各単語の重要度を算出する。さらに、各文に含まれる各単語の重要度に基づいて、各文の重要度を算出する。文選択手段6は、文章記録部12に記録された文のうち、重要度の高いものから順に選択する。たとえば、選択した文の文字数が所定の文字数を超えない範囲において、できるだけ多くの文を選択する。並替手段8は、選択された文を、元の文章における並び順に並び替えることで、要約文データを生成する。
【選択図】 図1
Description
図1に、この発明の一実施形態による要約文生成装置の機能ブロック図を示す。文・単語抽出手段2は、文章記録部12に記録されている文章データを読み出し、当該文章データによって示される文章を構成する文を抽出する。さらに、各文に含まれる名詞を単語として抽出する。
図2に、図1に示す要約文生成装置のハードウエア構成を示す。CPU14には、メモリ16、ディスプレイ18、ハードディスク20、CD−ROMドライブ22、キーボード/マウス24、通信回路26が接続されている。通信回路26は、インターネットなどに接続するためのものである。
要約文生成プログラム32のフローチャートを、図3、図4に示す。
CPU14は、ステップS1において、ハードディスク20に記録された文章データから、文を抽出する(ステップS1)。この実施形態では、句点(「。」や「.」)に基づいて、文を抽出するようにしている。すなわち、句点が見いだされるまでを一つの文として抽出する。
次に、CPU14は、文章データに含まれる全ての文を対象として、形態素解析を行う(ステップS2)。図7に、形態素解析処理の詳細を示す。まず、CPU14は、ハードディスク20に記録されている形態素辞書34を参照して、文章データの形態素を解析する(ステップS21)。この形態素解析は、従来より行われている一般的な手法を用いることができる。形態素解析の結果を、図8aに示す。
次に、CPU14は、上記にて抽出した単語(この実施形態では名詞を含む単語のみを対象とする)について、TF(Term Frequency)値を算出する(ステップS3)。つまり、図8bのテーブルに記録した品詞が名詞である単語および名詞を品詞として含む単語について、TF値を算出する。
図9に、各単語について算出したTF値を示す。CPU14は、算出したTF値をハードディスク20に記録する。
次に、CPU14は、各単語についてIDF(Inverse Document Frequency)値を算出する(ステップS4)。ここで、IDF値は、各単語の希少性(世間に流通している単語として一般的でないこと)を表すものである。当該単語の希少性が高いほど、IDF値は高くなる。
図10に、IDF値算出処理の詳細を示す。CPU14は、図8bのテーブルに記録された最初の単語(この実施形態では名詞を含む単語のみを対象とする)を対象単語とする(ステップS41)。CPU14は、対象単語(たとえば「平素は」)を、インターネット上の検索サイト(たとえばYahoo!(商標)や***(商標)など)にて検索する(ステップS42)。
続いて、CPU14は、各単語につき、算出したTF値とIDF値に基づいて、TF−IDF値を計算する(ステップS5)。この実施形態では、TF値とIDF値との積を算出することにより、TF−IDF値を算出するようにしている。
続いて、CPU14は、Hot係数を算出する(ステップS6)。ここで、Hot係数とは、対象となる単語の現在における注目度を表す指数である。この実施形態では、ウエブ上の辞書において対象単語を検索し、当該対象単語がどの程度の頻度で、どの程度現在に近い時間で更新されているかを取得し、これに基づいて算出するようにしている。
CPU14は、各単語につき、TF−IDF値にHot係数を乗じて、重要度を算出する(図3のステップS7)。CPU14は、このようにして算出した重要度を、対象単語に対応づけて記録する(図9参照)。
次に、CPU14は、算出した各文の重要度に基づき、最も重要度の高い文を抽出する(ステップS10)。ここでは、図6に示す第4文の重要度が最も高いので、第4文が選択される。CPU14は、選択した文の文字数の合計が、予め定められた指定文字数を超えているかどうかを判断する(ステップS11)。ここで、指定文字数とは、当該文字数を超えない範囲で要約を作成するように予め指定された(あるいは他の条件より算出された)文字数である。ここでは、指定文字数が、250文字であるとして説明を進める。
上記のような要約文作成装置は、指定された文字数を超えない範囲での要約作成一般に応用することができる。たとえば、次のような応用が可能である。
(1)上記実施形態では、TF値(強調度)、IDF値(希少度)、Hot係数(注目度)に基づいて単語の重要度を算出するようにしている。しかしながら、これらのうちのいずれか一つを用いて重要度を算出したり、これらのうちのいずれか二つを組み合わせて重要度を算出するようにしてもよい。
Claims (11)
- 解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、
文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、
重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、
選択した文を配して要約文を生成する配列手段と、
を備えた要約文生成装置。 - コンピュータによって要約文生成装置を実現するための要約文生成プログラムであって、当該プログラムは、コンピュータを、
解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出する文・単語抽出手段と、
文・単語抽出手段によって抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出する重要度算出手段と、
重要度の高い順から、所定の条件を満足するように文を選択する文選択手段と、
選択した文を配して要約文を生成する配列手段と、
して機能させるための要約文生成プログラム。 - 請求項1の装置または請求項2のプログラムにおいて、
前記配列手段は、解析対象となる元の文章における文の順に沿って、前記選択した文を配することを特徴とする装置またはプログラム。 - 請求項1〜3のいずれかのプログラムにおいて、
前記重要度算出手段は、当該単語が当該文章中において使用されている回数が多いほど、重要度が高いと判断することを特徴とする装置またはプログラム。 - 請求項1〜4のいずれかの装置またはプログラムにおいて、
前記重要度算出手段は、当該単語が一般の文章中において用いられている度合いが小さいほど、重要度が高いと判断することを特徴とする装置またはプログラム。 - 請求項5の装置またはプログラムにおいて、
前記重要度算出手段は、当該単語を検索サイトにて検索し、当該検索サイトに登録されているページ数と、検索結果として得られた当該単語を含むページ数との比率に基づいて、当該単語が一般の文章中において用いられている度合いを算出することを特徴とする装置またはプログラム。 - 請求項1〜6のいずれかの装置またはプログラムにおいて、
前記重要度算出手段は、当該単語を辞書サイトにて検索し、当該単語についての説明の更新頻度が高いほど重要度が高いと判断することを特徴とする装置またはプログラム。 - 請求項1〜7のいずれかの装置またはプログラムにおいて、
前記文選択手段は、選択した文の文字数合計が、所定の文字数を超えないように、可能な限り多くの文を重要度の高い順に選択することを特徴とする装置またはプログラム。 - 請求項1〜8のいずれかの装置またはプログラムにおいて、
前記装置は、複数の文章を表示面に配置して表示するにあたり、それぞれの文章を当該表示面中のいずれの領域に表示すべきかを示すレイアウト情報を受け、当該レイアウト情報に基づいて領域ごとに表示可能な文字数を算出する文字数算出手段をさらに備え、
前記文選択手段は、各領域について、算出した前記文字数を超えない範囲において、可能な限り多くの文を重要度の高い順に選択することを特徴とする装置またはプログラム。 - 請求項9の装置またはプログラムにおいて、
前記装置は、各領域について生成した要約文を対応する領域に配置するとともに、当該領域内に対応する文章へのリンクを配置する配置手段をさらに備えたことを特徴とする装置またはプログラム。 - コンピュータによって要約文を生成する方法であって、
解析対象となる文章を解析し、文章を構成する文を抽出するとともに、各文に含まれる少なくとも名詞を単語として抽出し、
当該抽出された文に含まれる単語の重要度を算出し、各文に含まれる単語の重要度に基づいて、各文の重要度を算出し、
重要度の高い順から、所定の条件を満足するように文を選択し、
選択した文を配して要約文を生成することを特徴とする要約文生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011149884A JP2013016106A (ja) | 2011-07-06 | 2011-07-06 | 要約文生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011149884A JP2013016106A (ja) | 2011-07-06 | 2011-07-06 | 要約文生成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013016106A true JP2013016106A (ja) | 2013-01-24 |
Family
ID=47688722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011149884A Pending JP2013016106A (ja) | 2011-07-06 | 2011-07-06 | 要約文生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013016106A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015194919A (ja) * | 2014-03-31 | 2015-11-05 | 大日本印刷株式会社 | 文書要約装置、文書要約方法、及び、プログラム |
JP5933863B1 (ja) * | 2015-05-22 | 2016-06-15 | 株式会社Ubic | データ分析システム、制御方法、制御プログラム、および記録媒体 |
JP2017076176A (ja) * | 2015-10-13 | 2017-04-20 | 三菱電機株式会社 | 文書出力制御装置 |
KR20180108441A (ko) * | 2017-03-24 | 2018-10-04 | 오정록 | 광고 url이 포함된 견적서 생성 시스템 |
JP2019121075A (ja) * | 2017-12-28 | 2019-07-22 | 株式会社日立ソリューションズ | 会議の音声データから要約書を作成する方法 |
US10606875B2 (en) | 2014-09-16 | 2020-03-31 | Kabushiki Kaisha Toshiba | Search support apparatus and method |
JP2020071675A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | 対話要約生成装置、対話要約生成方法およびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11345233A (ja) * | 1998-04-02 | 1999-12-14 | Sony Corp | 文書処理方法および装置ならびに記録媒体 |
JP2000048025A (ja) * | 1998-07-28 | 2000-02-18 | Brother Ind Ltd | 通信装置 |
US20060206806A1 (en) * | 2004-11-04 | 2006-09-14 | Motorola, Inc. | Text summarization |
JP2011022914A (ja) * | 2009-07-17 | 2011-02-03 | Casio Computer Co Ltd | 情報処理装置およびその制御プログラム |
-
2011
- 2011-07-06 JP JP2011149884A patent/JP2013016106A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11345233A (ja) * | 1998-04-02 | 1999-12-14 | Sony Corp | 文書処理方法および装置ならびに記録媒体 |
JP2000048025A (ja) * | 1998-07-28 | 2000-02-18 | Brother Ind Ltd | 通信装置 |
US20060206806A1 (en) * | 2004-11-04 | 2006-09-14 | Motorola, Inc. | Text summarization |
JP2011022914A (ja) * | 2009-07-17 | 2011-02-03 | Casio Computer Co Ltd | 情報処理装置およびその制御プログラム |
Non-Patent Citations (1)
Title |
---|
JPN6014051961; 後藤淳、外3名: 'Wikipedia の変更履歴を利用した関連番組検索' 映像情報メディア学会年次大会講演予稿集 , 20100831, 一般社団法人映像情報メディア学会 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015194919A (ja) * | 2014-03-31 | 2015-11-05 | 大日本印刷株式会社 | 文書要約装置、文書要約方法、及び、プログラム |
US10606875B2 (en) | 2014-09-16 | 2020-03-31 | Kabushiki Kaisha Toshiba | Search support apparatus and method |
JP5933863B1 (ja) * | 2015-05-22 | 2016-06-15 | 株式会社Ubic | データ分析システム、制御方法、制御プログラム、および記録媒体 |
WO2016189606A1 (ja) * | 2015-05-22 | 2016-12-01 | 株式会社Ubic | データ分析システム、制御方法、制御プログラム、および記録媒体 |
JP2017076176A (ja) * | 2015-10-13 | 2017-04-20 | 三菱電機株式会社 | 文書出力制御装置 |
KR20180108441A (ko) * | 2017-03-24 | 2018-10-04 | 오정록 | 광고 url이 포함된 견적서 생성 시스템 |
KR101965527B1 (ko) * | 2017-03-24 | 2019-04-03 | 오정록 | 광고 url이 포함된 견적서 생성 시스템 |
JP2019121075A (ja) * | 2017-12-28 | 2019-07-22 | 株式会社日立ソリューションズ | 会議の音声データから要約書を作成する方法 |
JP2020071675A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | 対話要約生成装置、対話要約生成方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013016106A (ja) | 要約文生成装置 | |
US9589071B2 (en) | Query suggestions from documents | |
JP4587236B2 (ja) | 情報検索装置、情報検索方法、およびプログラム | |
US20020133483A1 (en) | Systems and methods for computer based searching for relevant texts | |
JP2016164724A (ja) | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム | |
Strzelecki et al. | Direct answers in Google search results | |
Pingali et al. | WebKhoj: Indian language IR from multiple character encodings | |
JP6653169B2 (ja) | キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム | |
Rasheed et al. | Building a text collection for Urdu information retrieval | |
Dimitrova et al. | Implementation of the Bulgarian-Polish online dictionary | |
Harper et al. | A language modelling approach to relevance profiling for document browsing | |
Steinberger et al. | Coreference applications to summarization | |
JP2008112310A (ja) | 検索装置、情報検索システム、検索方法、検索プログラム、及び記録媒体 | |
Jaćimović | Textometric methods and the TXM platform for corpus analysis and visual presentation | |
Choi et al. | Consento: a new framework for opinion based entity search and summarization | |
Pollard | Analyzing the accessibility of Illinois public library homepages: Are we accessible to all? | |
JP2013016135A (ja) | 記事配置決定装置 | |
Sunayama et al. | Panoramic view system for extracting key sentences based on viewpoints and application to a search engine | |
US10217143B2 (en) | Information processing system, information processing method, and information processing program | |
Murai et al. | based recommendation of attractive sentences in a novel for effective browsing | |
JP2016040723A (ja) | 記事配置決定装置 | |
Huang | Measuring Similarity Between Texts in Python | |
JP7139271B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Ahmed Lulu | A Robust System for Local Reuse Detection of Arabic Text on the Web | |
Rao | Recall oriented approaches for improved indian language information access |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130305 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130313 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140602 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141215 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150413 |