JPH03191475A - 文書要約方式 - Google Patents

文書要約方式

Info

Publication number
JPH03191475A
JPH03191475A JP1332091A JP33209189A JPH03191475A JP H03191475 A JPH03191475 A JP H03191475A JP 1332091 A JP1332091 A JP 1332091A JP 33209189 A JP33209189 A JP 33209189A JP H03191475 A JPH03191475 A JP H03191475A
Authority
JP
Japan
Prior art keywords
paragraph
important
sentence
document
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1332091A
Other languages
English (en)
Inventor
Takeshi Nishimura
健士 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1332091A priority Critical patent/JPH03191475A/ja
Publication of JPH03191475A publication Critical patent/JPH03191475A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は計算機を用いて文書の要約文を生成する文書要
約方式に関する。
〔従来の技術〕
従来、文書の内容を要約する技術として、岩淵他著:全
文情報からの意味的情報の抽出と加工(情報処理学会第
38口金国大会予稿集(1989年。
222頁)に記載されたものが知られている。これは字
種や助詞などの情報から文書中の重要語を切り出し、重
要語の出現頻度で最重要語を決定し、重要語と最重要語
が含まれているか否かで重要文を決定することを基本と
している。また、要約文を生成する際には、抽出された
重要文から「上記」、「ここでは」などの特殊な語句を
削除することに関して自動化を行なっている。
〔発明が解決しようとする課題〕
上記の技術では一文単位にそれが重要か否かを判定して
いるが、実際の文書では、あるまとまった部分が他のま
とまった部分に対して相対的な重要性を持っている。ま
とまった部分としては、例えば段落が考えられる。重要
語が文中に存在すること以外に全体に対してのその文の
含まれている段落の重要度を考慮する必要がある。
誌な、ある語句が文書全体の内容を表す的確さと、その
語句の文書全体での出現頻度とは必ずしも一致しない。
さらに、文中での位置によってその語句には多様な構文
的意味的役割が考えられるので、単に文中に出現するか
どうかをチエツクするだけでなく、さらに詳細な解析を
行なうことが望ましい。
〔課題を解決するための手段〕
本発明の文書要約方式は、与えられた文書を見出しのつ
いた段落単位に分割し、段落の種類に対応した重要文抽
出規則群を段落毎に選択し、前記重要文抽出規則群と段
落の種類に依存しない重要文抽出規則群の双方を参照し
て前記各段落における重要文を抽出し、前記各段落で抽
出された重要文と前記各段落の見出しの対の集合を前記
与えられた文書全体の重要部分と判定し出力するように
して実現される。
また本発明の文書要約方式は、各重要文抽出規則に対し
てあらかじめ対応づけられた要約文生成規則を適用して
前記重要文を変形し連結し出力するようにして実現され
る。
さらにまた本発明の文書要約方式は、各重要文抽出規則
に対してあらかじめ設定された重要度を参照してあらか
じめ定義された境界値を越えた前記重要文のみを選択し
要約文を生成するようにして実現される。
〔作用〕
本発明では文書を段落単位に分割し、その段落の性質を
反映させた重要文の抽出を行なう。その際、二種類の規
則群を参照する。従来技術の範囲内である文書全体に共
通した重要度情報は段落に依存しない重要文抽出規則群
に格納されており、段落の種類に依存した規則は個別の
重要文抽出規則群として格納されている。前者は一つ、
後者は段落の種類だけ用意されている。
例えば、次のような段落から構成されている文書がある
とする。
1、はじめに 2、研究の目的 3、実験装置 4、実験結果 5、考察 6、参考文献 第1段落の見出し「はじめに」より、この段落の処理の
ための「導入部規則群」が選択されるが、この規則群で
は文書の主題に関する文を抽出するような規則が記述さ
れている。−例を挙げると、「〜について述べる。」と
いう文が抽出される。同様に、第5段落では「意見記述
部規則群」。
第6段落では「非重要部規則群」が選択される。
前者では著者の主張、意見を表した表現を含む文の抽出
が強化されており、後者では文の抽出を極力抑制するよ
うな規則が記述される。このようにして本方式において
は文に含まれる段落の特徴を反映した重要文の抽出が可
能となる。
また、各規則は段落の種類に依存した詳細なものである
から、各規則に対し、その規則によって抽出されるべき
文の重要度を記述しておくことができる0例えば上記の
例で、「導入部規則群」中の各規則よりは「意見記述部
規則群」中の規則の方が平均的に重要であるし、第4段
落において数値表現を含む文は他の段落の数値表現を含
む文に比べて重要だと判断できる。
同様の理由で、各規則に対し、要約文生成時の文生成規
則を記述することができる0例えば、「意見記述部規則
群」中で「αであると結論を得た。その理由はβである
。Jという文を抽出する規則があれば、これを要約文生
成時に、「βだからαである」と簡単に表現することが
できる。
〔実施例〕
以下、本発明について図面を参照しながら説明する。
第1図は本発明の第一の実施例を示す流れ図である。ま
ず、段落の切り出し11において文書中の未処理の段落
が一つ切り出される0次に、段落の種類判定12におい
て、見出しの言葉を基にその段落の種類が判定される。
そして規則群選択13において、段落の種類に基づいて
適切な重要文抽出規則群が選択される。
抽出処理14では、選択された段落の種類に依存する重
要文抽出規則群とどの種類の段落にも適用可能な重要文
抽出規則群の2つを用いて、段落中から重要な文を抽出
する。この際、前者の重要文抽出規則群中には後者の重
要文抽出規則群中の規則の適用を押えるような規則も書
けるようにしておけば柔軟性が高い抽出方式にすること
が可能である。抽出された文は抽出データ格納15にお
いて、段落の番号、見出しとともに格納される。
文書中の全ての段落に対して以上の処理が繰り返され(
ステップ16)、最後に表示17において段落の番号順
に、段落の番号2段落の見出し。
抽出された文の3者が表示される。
第2図は本発明の第二の実施例を示す流れ図である。同
図において段落の切り出し21から判定処理26までは
、抽出データ格納25を除いて、第一の実施例(第1図
参照)と同じ処理である。
抽出データ格納25においては、抽出文、要約文生成規
則番号の三者が格納される。
ここで、第4図に重要文抽出規則群の構成を、第5図に
要約文生成規則群の構成を示す0重要文抽出規則群40
は文抽出規則内容41と抽出された文を要約文に変換す
るときに用いる規則を指す要約文生成規則番号42の項
目を含む、要約文生成規則群50はシステムにおいて一
意に決まる規則の番号51と要約文生成規則内容52の
2つの項目からなる。抽出データ格納25において格納
される要約文生成番号はこの要約文生成規則番号42に
格納されているものである。
次に、抽出文取り出し27において、処理の終っていな
い抽出文のうち最も文書の前方に現れる文が一つ選択さ
れる。その文に対応する要約文生成規則が要約文生成規
則番号をもとに要約文生成規則群50から検索され、要
約文生成が要約文生成28で行なわれる。生成された文
は表示29で表示される。処理は未処理の抽出文がなく
なるまで繰り返される(ステップ20)。
第3図は本発明の第三の実施例を示す流れ図である。同
図において段落の切り出し31から判定処理36までは
、抽出データ格納35を除いて、第一の実施例(第1図
参照)と同じ処理である。
抽出データ格納35においては、抽出文、抽出文重要度
の2者が格納される。第4図の重要文抽出規則群40に
は、抽出された文の重要度を示す重要度43の項目が含
まれている。抽出データ格納35において格納される抽
出文重要度は重要度43に格納されているものである。
次に、抽出文取り出し37において、処理の終っていな
い抽出文のうち最も文書の前方に現れる文が一つ選択さ
れる。その文があらかじめ決められている重要度を越え
ているかどうがか抽出文判定38によって判定され、条
件を満たしていれば表示39において出力される0条件
を満たしていなければ次の抽出文の判定に移る。処理は
未処理の抽出文がなくなるまで繰り返される(ステップ
30)。
第6図は上記の文書要約方式の構成を示す説明図である
。同図において段落の種類判定プログラム61は段落の
種類判定を行ない、抽出処理プログラム62は重要文抽
出規則ベース67を参照して重要文の抽出を行なう0重
要文抽出規則ベース67には段落に依存しない重要文抽
出規則群と各種の段落に対応した重要文抽出規則群が格
納されている。
抽出文選択プログラム63はあらかじめ決められている
重要度の境界を越えた抽出文の選択を行なう、要約文生
成プログラム64は要約文生成規則ベース68を参照し
て要約文を生成する。要約文生成規則ベース68には要
約文生成規則群が格納されている。
表示プログラム65は抽出文や要約文をCRT66に表
示する。全体制御部60は以上の各プログラムの制御を
行なう0作業用メモリ69は第1図、第2図、第3図に
おける抽出データ格納15.25.35に用いられる。
〔発明の効果〕
本発明の重要文抽出処理では、各段落の種類に依存した
意味で重要な文を抽出し表示時に段落の見出しと対応づ
けて提示するので、文書全体の内容とともに文書全体の
主題の流れを容易に把握することができる。
また、要約文生成処理においては、重要文抽出規則に対
して要約文生成規則の対応づけを行っているので、要約
文生成の記述がより詳細に指定できるようになり、要約
文生成の自動化が促進される。また、重要文抽出規則に
対してその抽出文の重要度が定義可能になったので、要
約レベルに応じた抽出文の絞り込みの手段が提供される
ことになる。
本発明の文書要約方式は、段落が存在しないような短い
文書ではなく、段落によって構造化された比較的長い文
書を対象としている0段落の存在しない文書の要約は段
落に依存しない重要文抽出規則のみによって要約するこ
とに相当する。つまり、本方式は段落のない文書への要
約方式の拡張になっている。
【図面の簡単な説明】
第1図は本発明の第一の実施例を示す流れ図、第2図は
第二の実施例を示す流れ図、第3図は第三の実施例を示
す流れ図、第4図は重要文抽出規則群の構成を示す説明
図、第5図は要約文生成規則群の構成を示す説明図、第
6図は構成例を示す説明図である。 40・・・重要文抽出規則群、50・・・要約文生成規
則群、60・・・全体制御プログラム、61・・・段落
の種類判定プログラム、62・・・抽出処理プログラム
、63・・・抽出文選択プログラム、64・・・要約文
生成プログラム、65・・・表示プログラム。

Claims (1)

  1. 【特許請求の範囲】 1、計算機を用いて文書の要約文を生成する文書要約方
    式において、与えられた文書を見出しのついた段落単位
    に分割し、段落の種類に対応した重要文抽出規則群を段
    落毎に選択し、前記重要文抽出規則群と段落の種類に依
    存しない重要文抽出規則群の双方を参照して前記各段落
    における重要文を抽出し、前記各段落で抽出された重要
    文と前記各段落の見出しの対の集合を前記与えられた文
    書全体の重要部分と判定し出力することを特徴とする文
    書要約方式。 2、請求項1記載の文書要約方式において、各重要文抽
    出規則に対してあらかじめ対応づけられた要約文生成規
    則を適用して前記重要文を変形し連結し出力することを
    特徴とする文書要約方式。 3、請求項1または2記載の文書要約方式において、各
    重要文抽出規則に対してあらかじめ設定された重要度を
    参照してあらかじめ定義された境界値を越えた前記重要
    文のみを選択し要約文を生成することを特徴とする文書
    要約方式。
JP1332091A 1989-12-20 1989-12-20 文書要約方式 Pending JPH03191475A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1332091A JPH03191475A (ja) 1989-12-20 1989-12-20 文書要約方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1332091A JPH03191475A (ja) 1989-12-20 1989-12-20 文書要約方式

Publications (1)

Publication Number Publication Date
JPH03191475A true JPH03191475A (ja) 1991-08-21

Family

ID=18251043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1332091A Pending JPH03191475A (ja) 1989-12-20 1989-12-20 文書要約方式

Country Status (1)

Country Link
JP (1) JPH03191475A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713967A (ja) * 1992-09-25 1995-01-17 Maruzen Kk 抄録文作成装置
JPH08255172A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 文書検索システム
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
JPH10340265A (ja) * 1997-03-27 1998-12-22 Maruzen Kk 抄録文編集装置
JP2001202389A (ja) * 2000-12-11 2001-07-27 Toshiba Corp 文書検索装置及び文書検索方法
US6338034B2 (en) 1997-04-17 2002-01-08 Nec Corporation Method, apparatus, and computer program product for generating a summary of a document based on common expressions appearing in the document
US6537325B1 (en) 1998-03-13 2003-03-25 Fujitsu Limited Apparatus and method for generating a summarized text from an original text
CN112559729A (zh) * 2020-12-08 2021-03-26 申德周 一种基于层次多维变压器模型的文档摘要计算方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713967A (ja) * 1992-09-25 1995-01-17 Maruzen Kk 抄録文作成装置
JPH08255172A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 文書検索システム
JPH1040267A (ja) * 1996-07-26 1998-02-13 Nec Corp 文書要約ビューア
JPH10340265A (ja) * 1997-03-27 1998-12-22 Maruzen Kk 抄録文編集装置
US6338034B2 (en) 1997-04-17 2002-01-08 Nec Corporation Method, apparatus, and computer program product for generating a summary of a document based on common expressions appearing in the document
US6537325B1 (en) 1998-03-13 2003-03-25 Fujitsu Limited Apparatus and method for generating a summarized text from an original text
JP2001202389A (ja) * 2000-12-11 2001-07-27 Toshiba Corp 文書検索装置及び文書検索方法
CN112559729A (zh) * 2020-12-08 2021-03-26 申德周 一种基于层次多维变压器模型的文档摘要计算方法

Similar Documents

Publication Publication Date Title
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5907840A (en) Overlapping subdocuments in a vector space search process
JP2937519B2 (ja) 文書検索装置
US11436278B2 (en) Database creation apparatus and search system
JPH0484271A (ja) 文書内情報検索装置
JPH03191475A (ja) 文書要約方式
JP2957875B2 (ja) 文書情報検索装置及び文書検索結果表示方法
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP3123836B2 (ja) テキスト型データベース装置
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JP3202381B2 (ja) 文書検索装置及び文書検索方法
JP2638187B2 (ja) 文章要約装置
JPH06215035A (ja) テキスト検索装置
JP2002297635A (ja) 要約文作成システム及びその方法
JP3652086B2 (ja) 速読支援装置
JP2785692B2 (ja) 辞書検索表示装置
JP4074687B2 (ja) 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体
JPH04167049A (ja) 文書処理装置
JPH1145238A (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPS63175965A (ja) 文書処理装置
JPH0561902A (ja) 機械翻訳システム
Wachowiak Introduction to Text Analysis In R
JP3281361B2 (ja) 文書検索装置及び文書検索方法
JPH0490052A (ja) 文書内容検索装置