JP2009146446A - テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム - Google Patents

テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム Download PDF

Info

Publication number
JP2009146446A
JP2009146446A JP2009069851A JP2009069851A JP2009146446A JP 2009146446 A JP2009146446 A JP 2009146446A JP 2009069851 A JP2009069851 A JP 2009069851A JP 2009069851 A JP2009069851 A JP 2009069851A JP 2009146446 A JP2009146446 A JP 2009146446A
Authority
JP
Japan
Prior art keywords
unit
constituent
sentence
importance
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009069851A
Other languages
English (en)
Inventor
Hiraki Ishikawa
開 石川
Shinichi Ando
真一 安藤
Shinichi Doi
伸一 土井
Akitoshi Okumura
明俊 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009069851A priority Critical patent/JP2009146446A/ja
Publication of JP2009146446A publication Critical patent/JP2009146446A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】短時間で、かつ、品質の良い要約を生成することができるテキスト要約の実現。
【解決手段】要約構成単位の認定手段101が、入力テキストの各文に対して要約構成単位認定用言語知識情報104を適用して述部を含む節を最小とする単位を要約構成単位として認定し、次に、要約構成単位の重要度計算手段102が要約構成単位に対して、テキスト中での要約構成単位の位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、要約結果出力手段103が抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
【選択図】 図1

Description

本発明は、テキスト要約システム、テキスト要約方法、および、テキスト要約プログラムに関し、特に、要約構成単位の認定を実施するテキスト要約システム、テキスト要約方法、および、テキスト要約プログラムに関する。
特許文献1記載の技術は、「関係解析手段において、入力された文書中のテキストに対して係り受け解析を行い、単語同士の2項関係を抽出し、指示入力手段で要約結果に対してユーザから詳細化する単語や情報の種類の指示を受け付け、その指示を優先すべき2項関係の条件を示す優先条件に指示解釈手段で変換し、この優先条件と、抽出しておいた2項関係から、重要な2項関係を関係選択手段で選択し、選択した重要な2項関係に補完すべき2項関係を関係補完手段で追加し、このようにして得られた2項関係から、句合成手段で句要約を合成する技術」である。
また、特許文献2記載の技術は、「日本語文の入力を読み込む入力読み込み手段と、入力文に対する辞書引き機能と辞書引き後の辞書情報を用いて入力文を解析する形態素解析手段、構文解析手段、意味解析手段とメモリとを備えた日本語処理システムに用いる日本語文解析方式において、日本語における、係助詞「は」で示される主題、もしくは格助詞「が」で示される主格の複数の用言間での共有を規定する語彙に関する情報をあらかじめ収集して前記メモリ内に保持している主題・主格共有語彙情報保持手段と、前記主題・主格共有語彙情報保持手段に保持された語彙情報を用いて、主題・主格の共有が存在するか否かを推定する主題・主格共有推定手段を備え、構文解析・意味解析に先立って主題・主格の共有の存在を推定する技術」である。
また、計算機によってテキスト要約を行う従来法としては、重要文抽出法がある。これは、テキスト中において、文を要約構成単位と認定し、その重要度を評価し、重要度の高い要約構成単位を抽出し、元テキストの出現順に並べることで要約文を構成する方法である(たとえば、非特許文献1)。
この方式は多くの要約システムで用いられている基本方式であり、基本的には文の位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し、重要度の高いものを元のテキストの出現順に並べることで要約を生成する(たとえば、非特許文献2、3)。
また、これに関連する方式として、文節を要約構成単位として認定するテキスト要約方式がある(たとえば、非特許文献4)。この方式では、文の構文構造における格要素などの主要な構造の構成素は保存しつつ、重要度の低い文節を削除することによって要約文を生成する方法である。
また、文内文脈に関する解析をする手段に関する技術がある(たとえば、非特許文献5)。
特開2000−250937号公報
特開平05−113994号公報
H. P. Luhn,"The Automatic Creation of Literature Abstracts",IBM Journal ,1958, p.159−165
H. P. Edmundson,"New Methods in automatic extracting.", Journal of the Association for Computing Machinery, 16(2), 1968, p.264−285
奥村等,"テキスト自動要約に関する研究動向(巻頭言に代えて)"自然言語処理, Vol.6, No.6, 1999, p.1−26
三上等, "ニュース番組における字幕生成のための文内短縮による要約",自然言語処理 Vol.6, No.6, 1999, p.65−82
亀井等, "Lexical Discourse Grammarの提案", 電子情報通信学会 言語理解とコミュニケーション研究会, NLC86−7, ,1986, p.1−5
重要文抽出法は文を要約の構成単位として抽出するために、簡易な処理によって可読性の高い要約を生成できるという利点がある。しかし一方で、短くて品質の良い要約を生成する上で、文を最小単位として要約を構成する方法には限界がある。短い要約を生成する場合には、要約を構成する単位の組み合わせが制限されるためである。またテキストに長文が含まれる場合、一部重要でない部分があっても除くことができず、このことも品質の良い要約を得る上での限界を生じる。
一方、文節を要約構成単位とするテキスト要約方法では、重要文抽出法に比べてより小さい要約構成単位を用いるために要約生成の自由度が高く、短い要約の生成における限界や品質の低下が生じにくい。しかし、文節を要約構成単位に用いることが結果として要約文生成において構文構造の変更を伴うことになり、生成された要約文の構文的正しさや意味的な正しさの保証といった文生成の難しい課題を生じる。正確で詳細な構文構造の情報を得るには、精度良い本格的な構文解析手段が必要となるが、このような方法は要約生成の計算コストが大きい。
本発明の目的は、適切な要約構成単位の利用による要約品質向上と要約生成処理の簡易化による処理の高速化を同時に実現することができるテキスト要約方法を提供することである。これにより、利用者が短い要約を要求する場合にも、従来の要約方法に比べて短時間でかつ品質の良い要約を生成することが可能となる。
本発明の第1のテキスト要約システムは、文の述部を含む節を要約構成単位とする情報を含む要約構成単位認定用言語知識情報を記憶装置から読み出し、読み出した要約構成単位認定用言語知識情報を用いて要約構成単位を認定する要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。
本発明の第2のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。
本発明の第3のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コストを含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、適用コストを考慮し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。
本発明の第4のテキスト要約システムは、前記第1、第2、または、第3のテキスト要約システムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の認定手段により認定された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約構成単位の重要度計算手段に出力する要約構成単位の補完修正手段を有することを特徴とする。
本発明の第5のテキスト要約システムは、前記第1、第2、または、第3のテキスト要約システムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の重要度計算手段により重要度が評価された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約結果出力手段に出力する要約構成単位の補完修正手段を有することを特徴とする。
本発明の第6のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手段と、重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。
本発明の第7のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コスト、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手段と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手段と、適用コストを考慮し重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。
本発明の第8のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手段と、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約構成単位に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手段と、前記要約構成単位の補完修正手段からの要約構成単位の重要度を評価する要約構成単位の重要度計算手段と、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、要約構成単位に対し隣接する要約構成単位間での補完や修正については元の表現を適用する表現の還元手段と、前記還元手段からの要約構成単位に対し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手段とを有することを特徴とする。
本発明の第9のテキスト要約システムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る要約文候補の生成手段と、照合条件、補完修正情報、適用コストを含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約文候補に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手段と、前記要約構成単位の補完修正手段からの要約文候補の重要度を評価する要約構成単位の重要度計算手段と、要約文候補に対する重要度に基づいて、各文での要約文候補を探索し、要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う要約文候補の探索手段と、決定された最尤の要約文候補の組み合わせを、出現順に並べ、要約結果として出力する要約結果出力手段とを有することを特徴とする。
本発明の第1のテキスト要約方法は、文の述部を含む節を要約構成単位とする情報を含む要約構成単位認定用言語知識情報を記憶装置から読み出し、読み出した要約構成単位認定用言語知識情報を用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。
本発明の第2のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。
本発明の第3のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位、適用コストを含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、適用コストを考慮し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。
本発明の第4のテキスト要約方法は、前記第1、第2、または、第3のテキスト要約方法であって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の認定手順により認定された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約構成単位の重要度計算手順に出力する要約構成単位の補完修正手順を有することを特徴とする。
本発明の第5のテキスト要約方法は、前記第1、第2、または、第3のテキスト要約方法であって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の重要度計算手順により重要度が評価された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約結果出力手順に出力する要約構成単位の補完修正手順を有することを特徴とする。
本発明の第6のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。
本発明の第7のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位、適用コスト、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、適用コストを考慮し重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。
本発明の第8のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約構成単位に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、要約構成単位に対し隣接する要約構成単位間での補完や修正については元の表現を適用する表現の還元手順と、前記還元手順からの要約構成単位に対し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とを有することを特徴とする。
本発明の第9のテキスト要約方法は、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る要約文候補の生成手順と、照合条件、補完修正情報、適用コストを含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約文候補に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約文候補の重要度を評価する要約構成単位の重要度計算手順と、要約文候補に対する重要度に基づいて、各文での要約文候補を探索し、要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う要約文候補の探索手順と、決定された最尤の要約文候補の組み合わせを、出現順に並べ、要約結果として出力する要約結果出力手順とを有することを特徴とする。
本発明の第1のテキスト要約プログラムは、文の述部を含む節を要約構成単位とする情報を含む要約構成単位認定用言語知識情報を記憶装置から読み出し、読み出した要約構成単位認定用言語知識情報を用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。
本発明の第2のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。
本発明の第3のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コストを含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、適用コストを考慮し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。
本発明の第4のテキスト要約プログラムは、前記第1、第2、または、第3のテキスト要約プログラムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の認定手順により認定された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約構成単位の重要度計算手順に出力する要約構成単位の補完修正手順をコンピュータに実行させることを特徴とする。
本発明の第5のテキスト要約プログラムは、前記第1、第2、または、第3のテキスト要約プログラムであって、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、前記要約構成単位の重要度計算手順により重要度が評価された要約構成単位に対し文の表現に基づいて補完・修正を実施し、補完・修正した要約構成単位を前記要約結果出力手順に出力する要約構成単位の補完修正手順をコンピュータに実行させることを特徴とする。
本発明の第6のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。
本発明の第7のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位、適用コスト、抽出順序制約を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位間の接続関係、または、引用関係を考慮し要約構成単位を認定し、要約構成単位の認定手順と、認定した要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、重要度の評価された要約構成単位に対し抽出順序制約を用いて抽出順序を考慮する抽出順序に関する制約の設定手順と、適用コストを考慮し重要度が高く抽出順序の考慮された要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。
本発明の第8のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて要約構成単位を認定する要約構成単位の認定手順と、照合条件、補完修正情報を含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約構成単位に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約構成単位の重要度を評価する要約構成単位の重要度計算手順と、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、要約構成単位に対し隣接する要約構成単位間での補完や修正については元の表現を適用する表現の還元手順と、前記還元手順からの要約構成単位に対し重要度の高い要約構成単位を抽出して要約を作成する要約結果出力手順とをコンピュータに実行させることを特徴とする。
本発明の第9のテキスト要約プログラムは、照合条件、文の述部を含む節を単位とする要約構成単位を含む要約構成単位認定パタンを記憶装置から読み出し、読み出した要約構成単位認定パタンを用いて述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る要約文候補の生成手順と、照合条件、補完修正情報、適用コストを含む要約構成単位補完修正パタンを前記記憶装置から読み出し、読み出した要約構成単位補完修正パタンを用いて、要約文候補に対し文の表現に基づいて補完・修正を実施し出力する要約構成単位の補完修正手順と、前記要約構成単位の補完修正手順からの要約文候補の重要度を評価する要約構成単位の重要度計算手順と、要約文候補に対する重要度に基づいて、各文での要約文候補を探索し、要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う要約文候補の探索手順と、決定された最尤の要約文候補の組み合わせを、出現順に並べ、要約結果として出力する要約結果出力手順とをコンピュータに実行させることを特徴とする。
第1の効果は、適切な要約構成単位の利用による要約品質向上と要約生成処理の簡易化による処理の高速化を同時に実現することができることである。
その理由は、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、従来の文を要約構成単位とする要約方法に比べて短い要約の生成における限界や品質の低下が生じにくいためであり、また、文節を要約構成単位とする要約方法と比べて荒い構文構造で要約構成単位を認定できるために、より簡易な処理によって要約を生成することができるためである。
第2の効果は、要約中における読みにくい表現や意味の分からない表現の発生を抑制できることである。
その理由は、文中から抽出された要約構成単位が要約文中の独立した文として不適切な表現であっても、元文書における文の表現に基づいて適切に補完もしくは修正するためであり、また、引用関係や接続関係などの関係にある抽出の順序によって誤解や読みにくさを生じる要約構成単位の抽出において、抽出の順序に関する抑制を設定するためであり、要約において不要な分割に基づく補完や修正箇所を元の表現に還元することで、文間の連続性が失われることを防ぐためである。
第3の効果は、より柔軟な要約構成単位に基づくより高品質な要約文が生成されることである。
その理由は、入力テキストの各文に対して要約構成単位認定パタンの逐次的な照合を、可能なものすべての組み合わせについて実施することで、各文に対して複数の要約文候補を作成し、その中から最尤の候補を選択するためであり、また同時に信頼度の低い単位認定パタンの適用および補完修正の適用に大きなコストを与えることにより、コストの高い単位認定パタンの適用や補完修正が抑制され、信頼度の低い要約公正単位や補完修正の適用による要約文の抑制が要約品質の向上をもたらすためである。
本発明の第1の実施の形態の構成を示すブロック図である。 本発明の第2の実施の形態の構成を示すブロック図である。 本発明の第3の実施の形態の構成を示すブロック図である。 本発明の第4の実施の形態の構成を示すブロック図である。 本発明の第5の実施の形態の構成を示すブロック図である。 本発明の第6の実施の形態の構成を示すブロック図である。 本発明の第7の実施の形態の構成を示すブロック図である。 本発明の第8の実施の形態の構成を示すブロック図である。 本発明の第9の実施の形態の構成を示すブロック図である。 本発明の第10の実施の形態の構成を示すブロック図である。 本発明の第2、第6、第7、第9の実施の形態の要約構成単位認定パタンの例を示す説明図である。 本発明の第6、第9の実施の形態の要約構成単位補完修正パタンの例を示す説明図である。 本発明の第8の実施の形態の要約構成単位認定パタンの例を示す説明図である。 本発明の第3、第10の実施の形態の要約構成単位認定パタンの例を示す説明図である。 本発明の第7、第10の実施の形態の要約構成単位補完修正パタンの例を示す説明図である。 本発明の第10の実施の形態において得られる要約文候補の一例を示す説明図である。
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。
図1は、本発明の第1の実施の形態の構成を示すブロック図である。
図1を参照すると、本発明の第1の実施の形態は、要約構成単位の認定手段101と、要約構成単位の重要度計算手段102と、要約結果出力手段103と、要約構成単位認定用言語知識情報104とから構成されている。
要約構成単位認定用言語知識情報104は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
これらの手段はそれぞれ概略つぎのように機能する。
要約構成単位の認定手段101は、テキストを入力し、入力したテキストの各文に対して要約構成単位認定用言語知識情報104を用いて述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段102は、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段103は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
ここで、要約構成単位の認定手段101としては、たとえば、構文解析を実施する手段、あるいは、文内文脈に関する解析を実施する手段(たとえば、非特許文献5)を用いることが可能である。また、構文解析の結果から述部を含む節を抽出する規則を要約構成単位認定用言語知識情報104として用いることが可能である。
次に、本発明の第1の実施の形態の動作について詳細に説明する。
まず、入力テキストの各文に対して要約構成単位認定用言語知識情報104を用いて述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段101)、次に、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段102)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段103)。
次に、本発明の第1の実施の形態の効果について説明する。
本発明の第1の実施の形態では、要約構成単位の認定手段101によって、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、短い要約の生成にいても品質の良い要約を生成することができる。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
図2は、本発明の第2の実施の形態の構成を示すブロック図である。
図2を参照すると、本発明の第2の実施の形態は、要約構成単位の認定手段201と、要約構成単位の重要度計算手段202と、要約結果出力手段203と、要約構成単位認定パタン204とから構成されている。要約構成単位認定パタン204は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
これらの手段はそれぞれ概略つぎのように機能する。
要約構成単位の認定手段201は、入力テキストの各文に対して要約構成単位を認定するための要約構成単位認定パタン204を用いて述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段202は、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段203は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
次に、本発明の第2の実施の形態の動作について詳細に説明する。
まず、入力テキストの各文に対して要約構成単位認定するための要約構成単位認定パタン204を用いて述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段201)、次に、要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段202)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段203)。
次に、本発明の第2の実施の形態の効果について説明する。
本発明の第2の実施の形態では、要約構成単位の認定手段201によって、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、短い要約の生成にいても品質の良い要約を生成することができ、また、文節を要約構成単位とする要約方法と比べて粗い構文解析で要約構成単位を認定できるために、より簡易な処理によって要約を生成することができる。
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。
図3は、本発明の第3の実施の形態の構成を示すブロック図である。
図3を参照すると、本発明の第3の実施の形態は、要約構成単位の認定手段301と、要約構成単位の重要度計算手段302と、要約結果出力手段303と、要約構成単位認定パタン304とから構成されている。要約構成単位認定パタン304は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
これらの手段はそれぞれ概略つぎのように機能する。
要約構成単位の認定手段301は、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位を認定するためのコストが設定できる要約構成単位認定パタン304を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段302は、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段303は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を認定するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
次に、本発明の第3の実施の形態の動作について詳細に説明する。
まず、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位認定パタン304のなかの要約構成単位を認定するためのコストが設定できる要約構成単位認定パタン304を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段301)、次に、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段302)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を認定するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段303)。
次に、本発明の第3の実施の形態の効果について説明する。
本発明の第3の実施の形態では、要約構成単位の認定手段201によって、入力テキストの各文に対して述部を含む節を最小とする単位を要約構成単位として認定し、これを単位として要約を生成するので、要約生成の自由度が高く、短い要約の生成にいても品質の良い要約を生成することができ、また、文節を要約構成単位とする要約方法と比べて粗い構文解析で要約構成単位を認定できるために、より簡易な処理によって要約を生成することができ、また、コストの高い単位認定パタンの適用を抑制することができるため、信頼度の低いパタンに大きなコストを与えることにより、信頼度の低い要約構成単位の要約文への抽出が抑制され、高品質な要約文が生成される効果が得られる。
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。
図4は、本発明の第4の実施の形態の構成を示すブロック図である。
図4を参照すると、本発明の第4の実施の形態は、要約構成単位の認定手段401と、要約構成単位の補完修正手段402と、要約構成単位の重要度計算手段403と、要約結果出力手段404と、要約構成単位認定用言語知識情報405と、要約構成単位補完修正用言語知識情報406とから構成されている。ここで、要約構成単位の補完修正手段402としては、たとえば、主題・主格の共有の存在を推定する文解析方式を実施する手段(たとえば、特許文献2)を用いることが可能である。要約構成単位認定用言語知識情報405、要約構成単位補完修正用言語知識情報406は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
これらの手段はそれぞれ概略つぎのように動作する。
要約構成単位の認定手段401は、入力テキストの各文に対して要約構成単位認定用言語知識情報405を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段402は、要約構成単位補完修正用言語知識情報406を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。
要約構成単位の重要度計算手段403は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段404は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
次に、本発明の第4の実施の形態の動作について詳細に説明する。
まず、入力テキストの各文に対して要約構成単位認定用言語知識情報405を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段401)、次に、要約構成単位補完修正用言語知識情報406を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し(要約構成単位の補完修正手段402)、さらに、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段403)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段404)。
次に、本発明の第4の実施の形態の効果について説明する。
本発明の第4の実施の形態では、要約構成単位の補完修正手段402によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、また補完された要約構成単位の情報によってその重要度が適切に評価されるので、要約の品質を改善することができる。
次に、本発明の第5の実施の形態について図面を参照して詳細に説明する。
図5は、本発明の第5の実施の形態の構成を示すブロック図である。
図5を参照すると、本発明の第5の実施の形態は、要約構成単位の認定手段501と、要約構成単位の重要度計算手段502と、要約構成単位の補完修正手段503と、要約結果出力手段504と、要約構成単位認定用言語知識情報505と、要約構成単位補完修正用言語知識情報506とから構成されている。要約構成単位認定用言語知識情報505、要約構成単位補完修正用言語知識情報506は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
これらの手段はそれぞれ概略つぎのように機能する。
要約構成単位の認定手段501は、入力テキストの各文に対して要約構成単位認定用言語知識情報505を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の重要度計算手段502は、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約構成単位の補完修正手段503は、要約構成単位補完修正用言語知識情報506を適用することにより、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。要約結果出力手段504は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
次に、本発明の第5の実施の形態の動作について詳細に説明する。
まず、入力テキストの各文に対して要約構成単位認定用言語知識情報505を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段501)、次に、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段502)、さらに、要約構成単位補完修正用言語知識情報506を適用することにより、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し(要約構成単位の補完修正手段503)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段504)。
次に、本発明の第5の実施の形態の効果について説明する。
本発明の第5の実施の形態では、要約構成単位の補完修正手段503によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、要約の品質を改善することができる。
次に、本発明の第6の実施の形態について図面を参照して詳細に説明する。
図6は、本発明の第6の実施の形態の構成を示すブロック図である。
図6を参照すると、本発明の第6の実施の形態は、要約構成単位の認定手段601と、要約構成単位の補完修正手段602と、要約構成単位の重要度計算手段603と、要約結果出力手段604と、要約構成単位認定パタン605と、要約構成単位補完修正パタン606とから構成されている。要約構成単位認定パタン605、要約構成単位補完修正パタン606は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
これらの手段はそれぞれ概略つぎのように機能する。
要約構成単位の認定手段601は、入力テキストの各文に対して要約構成単位認定パタン605を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段602は、要約構成単位補完修正パタン606を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。要約構成単位の重要度計算手段603は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段604は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
次に、本発明の第6の実施の形態の動作について詳細に説明する。
まず、入力テキストの各文に対して要約構成単位認定パタン605を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段601)、次に、要約構成単位補完修正パタン606を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し(要約構成単位の補完修正手段602)、さらに、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段603)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段604)。
次に、本発明の第6の実施の形態の効果について説明する。
本発明の第6の実施の形態では、要約構成単位の補完修正手段602によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、また補完された要約構成単位の情報によってその重要度が適切に評価されるので、要約の品質を改善することができる。
次に、本発明の第7の実施の形態について図面を参照して詳細に説明する。
図7は、本発明の第7の実施の形態の構成を示すブロック図である。
図7を参照すると、本発明の第7の実施の形態は、要約構成単位の認定手段701と、要約構成単位の補完修正手段702と、要約構成単位の重要度計算手段703と、要約結果出力手段704と、要約構成単位認定パタン705と、要約構成単位補完修正パタン706とから構成されている。要約構成単位認定パタン705、要約構成単位補完修正パタン706は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
これらの手段はそれぞれ概略つぎのように機能する。
要約構成単位の認定手段701は、入力テキストの各文に対して要約構成単位認定パタン705を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段702は、要約構成単位補完修正パタン706を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し、さらにそれぞれの要約構成単位補完修正パタン706で要約構成単位を補完修正するためのコストを設定する。
要約構成単位の重要度計算手段703は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約結果出力手段704は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を補完修正するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
次に、本発明の第7の実施の形態の動作について詳細に説明する。
まず、入力テキストの各文に対して要約構成単位認定パタン705を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段701)、次に、要約構成単位補完修正パタン706を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正し、さらにそれぞれの要約構成単位補完修正パタン706で要約構成単位を補完修正するためのコストを設定し(要約構成単位の補完修正手段702)、さらに、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段703)、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、要約構成単位を補完修正するためのコストも考慮して抽出を行い、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段704)。
次に、本発明の第7の実施の形態の効果について説明する。
本発明の第7の実施の形態では、要約構成単位の補完修正手段702によって、文中から抽出された要約構成単位を元文書における文の表現に基づいて適切に補完もしくは修正するため、要約構成単位が要約文中に抽出されても文として不完全な表現が生じず、また補完された要約構成単位の情報によってその重要度が適切に評価されるので、要約の品質を改善することができる。また、それぞれの要約構成単位補完修正パタン706で要約構成単位を補完修正するためのコストを設定することができるので、信頼度の低いパタンに大きなコストを与えることにより、信頼度の低い補完修正の適用による要約文が抑制され、これにより、より高品質な要約文が生成できる。
次に、本発明の第8の実施の形態について図面を参照して詳細に説明する。
図8は、本発明の第8の実施の形態の構成を示すブロック図である。
図8を参照すると、本発明の第8の実施の形態は、要約構成単位の認定手段801と、要約構成単位の重要度計算手段802と、要約構成単位の抽出順序に関する制約の設定手段803と、要約結果出力手段804と、要約構成単位認定パタン805とから構成されている。要約構成単位認定パタン805は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
これらの手段はそれぞれ概略つぎのように機能する。
要約構成単位の認定手段801は、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位認定パタン805で認定される要約構成単位の間における接続関係や引用関係を認定し、要約構成単位認定パタン805を用いて、述部を含む節を最小とする単位を要約構成単位として認定し、さらにそれぞれの要約構成単位を抽出する際にこれらの関係を考慮した抽出順序に関する制約が設定できる。要約構成単位の重要度計算手段802は、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約構成単位の抽出順序に関する制約の設定手段803は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、それぞれの要約構成単位間の関係を考慮した抽出順序に関する制約も考慮して抽出を行う。要約結果出力手段804は、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
次に、本発明の第8の実施の形態の動作について詳細に説明する。
まず、入力テキストの各文に対して要約構成単位を認定し、さらにそれぞれの要約構成単位認定パタン805で認定される要約構成単位の間における接続関係や引用関係を認定し、要約構成単位認定パタン805を用いて、述部を含む節を最小とする単位を要約構成単位として認定し、さらにそれぞれの要約構成単位を抽出する際にこれらの関係を考慮した抽出順序に関する制約を設定し(要約構成単位の認定手段801)、次に、これらの要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段802)、さらに、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、それぞれの要約構成単位間の関係を考慮した抽出順序に関する制約も考慮して抽出し(要約構成単位の抽出順序に関する制約の設定手段803)、最後に、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段804)。
次に、本発明の第8の実施の形態の効果について説明する。
本発明の第8の実施の形態では、要約構成単位の抽出順序に関する制約の設定手段803によって、要約構成単位の間に認定された関係をそれぞれの要約構成単位を抽出する際に考慮するので、たとえば引用関係や接続関係などにおいて従文のみが抽出されることによって生じる元の文と意味の異なる要約文の生成が抑制され、高品質な要約文が生成される効果が得られる。
次に、本発明の第9の実施の形態について図面を参照して詳細に説明する。
図9は、本発明の第9の実施の形態の構成を示すブロック図である。
図9を参照すると、本発明の第9の実施の形態は、要約構成単位の認定手段901と、要約構成単位の補完修正手段902と、要約構成単位の重要度計算手段903と、隣接する要約構成単位における表現の還元手段904と、要約結果出力手段905と、要約構成単位認定パタン906と、要約構成単位補完修正パタン907とから構成されている。要約構成単位認定パタン906、要約構成単位補完修正パタン907は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
これらの手段はそれぞれ概略つぎのように動作する。
要約構成単位の認定手段901は、入力テキストの各文に対して要約構成単位認定パタン906を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。要約構成単位の補完修正手段902は、要約構成単位補完修正パタン907を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。
要約構成単位の重要度計算手段903は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。
隣接する要約構成単位における表現の還元手段904は、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については補完修正前の表現を用いる。要約結果出力手段905は、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
次に、本発明の第9の実施の形態の動作について詳細に説明する。
まず、入力テキストの各文に対して要約構成単位認定パタン906を用いて、述部を含む節を最小とする単位を要約構成単位として認定し(要約構成単位の認定手段901)、次に、要約構成単位補完修正パタン907を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に適切に補完し、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて適切に修正する(要約構成単位の補完修正手段902)。
そして、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段903)、さらに、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については補完修正前の表現を用い、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し(隣接する要約構成単位における表現の還元手段904)、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段905)。
次に、本発明の第9の実施の形態の効果について説明する。
本発明の第9の実施の形態では、隣接する要約構成単位における表現の還元手段904によって、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については補完修正前の表現を用いるので、補完や修正によって文間の連続性が失われることを緩和する効果が得られ、要約の可読性を改善することができる。
次に、本発明の第10の実施の形態について図面を参照して詳細に説明する。
図10は、本発明の第10の実施の形態の構成を示すブロック図である。
図10を参照すると、本発明の第10の実施の形態は、要約文候補の生成手段1001と、要約構成単位の補完修正手段1002と、要約構成単位の重要度計算手段1003と、要約文候補の探索手段1004と、要約結果出力手段1005と、要約構成単位認定パタン1006と、要約構成単位補完修正パタン1007とから構成されている。要約構成単位認定パタン1006、要約構成単位補完修正パタン1007は、メモリ、ハードディスク等の記憶装置に格納されており、読み出されて利用されるが、以下、いちいち記述しない。
これらの手段はそれぞれ概略つぎのように動作する。
要約文候補の生成手段1001は、入力テキストの各文に対して要約構成単位認定パタン1006の逐次的な照合によって、可能なすべての述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る。要約構成単位の補完修正手段1002は、要約構成単位補完修正パタン1007を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。
要約構成単位の重要度計算手段1003は、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算する。要約文候補の探索手段1004は、これらの要約文候補に対する重要度に基づいて、テキスト中の各文での要約文候補を探索し、入力テキストに対する要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出を行う。要約結果出力手段1005は、決定された最尤の要約文候補の組み合わせを、元のテキストにおける出現順に並べ、要約結果として出力する。
次に、本発明の第10の実施の形態の動作について詳細に説明する。
まず、入力テキストの各文に対して要約構成単位認定パタン1006の逐次的な照合によって、可能なすべての述部を含む節を最小とする単位を要約構成単位として認定し、これから要約文候補を得る(要約文候補の生成手段1001)。この際、要約文候補中の要約構成単位に対して、要約構成単位補完修正パタン1007を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する(要約構成単位の補完修正手段1002)。
次に、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し(要約構成単位の重要度計算手段1003)、これらの要約文候補に対する重要度に基づいて、テキスト中の各文での要約文候補を探索し、入力テキストに対する要約として最尤の要約文候補の組み合わせを決定する際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮して抽出し(要約文候補の探索手段1004)、決定された最尤の要約文候補の組み合わせを、元のテキストにおける出現順に並べ、要約結果として出力する(要約結果出力手段1005)。
次に、本発明の第10の実施の形態の効果について説明する。
本発明の第10の実施の形態では、要約文候補の生成手段1001と要約文候補の探索手段1004とによって、可能なすべての述部を含む節を最小とする単位を要約構成単位として認定し、これから複数の要約文候補を作成するので、より柔軟な要約構成単位からの要約文の選択を実現することができる。またこのとき、最尤の要約文候補のからの探索の際、要約構成単位を認定するためのコストと要約構成単位を補完修正するためのコストも考慮するので、要約中における読みにくい表現や意味の分からない表現の発生を同時に抑制することができ、柔軟な要約構成単位に基づくより高品質な要約を生成する効果が得られる。
次に、本発明の第1〜第3の実施の形態の実施例について図面を参照して詳細に説明する。
図11は、要約構成単位認定パタン204、要約構成単位認定パタン605、要約構成単位認定パタン705、要約構成単位認定パタン906の例を示す説明図である。
図14は、要約構成単位認定パタン304、要約構成単位認定パタン1006の例を示す説明図である。
第1の実施の形態における要約構成単位認定用言語知識情報104の具体的な実施の一例が第2の実施の形態における要約構成単位認定パタン204であるため、ここでは、第2の実施の形態について説明する。
まず、要約構成単位の認定手段201が、要約構成単位認定パタン204において、入力テキストの各文に対して要約構成単位を認定するための要約構成単位認定パタン204を用いて述部を含む節を最小とする単位を要約構成単位として認定する。このとき、テキスト中に「従来、点数で機械的に生徒を切り捨てる傾向があったが、ここ数年で生徒の面倒をみていこうという機運が出てきた。」という文が存在し、また要約構成単位認定パタン204が、図11中に示すようなものであったとする。各パタンは文もしくは要約構成単位に対してパタンを適用するかどうかの条件を記述した「照合条件」と、適用によって得られる要約構成単位の形態を記述した「要約構成単位」とから構成されている。
照合条件における「S」は、パタンを適用する対象を現し、「P1」や「P2」は、「P1=」または「P2=」で定義された式に照合するSの部分を表す。「用言」は動詞、形容詞、形容動詞のいずれかに照合し、「*」は長さ0以上の任意の文字列に照合する。その結果、パタン1は、たとえば、接続詞「が」によって二つの単文が接続されているような文に照合し、それぞれの単文を要約構成単位として認定するように機能する。したがって、テキスト中の文は、図11中のパタン1の照合条件に適合し、その結果として、要約構成単位S1とS2とに相当する「従来、点数で機械的に生徒を切り捨てる傾向があった。」と「ここ数年で生徒の面倒をみていこうという機運が出てきた。」とがそれぞれ要約構成単位として得られる。
次に、要約構成単位の重要度計算手段202では、これら2つの単位を含めたすべての要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、要約結果出力手段203が、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
また、第3の実施の形態では、第2の実施の形態と同様の構成であるが、それぞれの要約構成単位を認定するためのコストが設定できる要約構成単位認定パタン304を用いる点が異なる。これについては、第10の実施の形態の実施例において詳細に説明する。
次に、本発明の第4〜第7、第9の実施の形態の実施例について図面を参照して詳細に説明する。
図12は、要約構成単位補完修正パタン606、要約構成単位補完修正パタン907の例を示す説明図である。
第4の実施の形態における要約構成単位認定用言語知識情報405、および、要約構成単位補完修正用言語知識情報406、あるいは、第5の実施の形態における要約構成単位認定用言語知識情報505、および要約構成単位補完修正用言語知識情報506、の具体的な実施の一例が第6の実施の形態における要約構成単位認定パタン605、および要約構成単位補完修正パタン606であるため、ここでは、第6の実施の形態について説明する。
まず、要約構成単位の認定手段601が、入力テキストの各文に対して要約構成単位認定パタン605を用いて、述部を含む節を最小とする単位を要約構成単位として認定する。このとき、テキスト中に「映画ファンは映画館には足を運ばなくなり、レンタルビデオで済ませるようになった。」という文が存在し、また要約構成単位認定パタン605が、図11中に示すようなものであったとする。
すると、テキスト中の文は、図11中のパタン2の照合条件に適合し、その結果として、要約構成単位S1とS2に相当する「映画ファンは映画館には足を運ばなくなる。」と「レンタルビデオで済ませるようになった。」がそれぞれ要約構成単位として得られる。
次に、要約構成単位の補完修正手段602が、要約構成単位補完修正パタン606を適用することにより、要約構成単位の情報のみでテキスト中におけるその重要度が適切に判断されるように、元の文で共有されていた情報を要約構成単位に補完する、もしくは、要約構成単位の表現が要約文中の独立した文として適切な表現となるように元文書における文の表現に基づいて修正する。
このとき、要約構成単位補完修正パタン606が、図12中に示すようなものであったとする。各パタンは文もしくは要約構成単位に対してパタンを適用するかどうかの条件を記述した「照合条件」と、適用によって補完修正が行われた結果として得られる要約構成単位の形態を記述した「補完修正」とから構成されている。照合条件における「S」は、パタンを適用する対象である、要約構成単位の列で表現された文の単位を現し、「S1」、「Sk」、「Sn」は、「S1=」、「Sk=」、「Sn=」で定義された式に照合するS中の要約構成単位を表す。ここでS1は、図12のパタン2の照合条件に適合するので補完修正を適用する。ここでは、S2の時制が過去であるため、S1の補完修正の結果として「映画ファンは映画館には足を運ばなくなった。」を得る。また、S2はパタン1の照合条件に適合するので同様に補完修正を適用する。
ここで、PはS1の主語「映画ファン」に照合しているので、S2の補完修正の結果として「映画ファンはレンタルビデオで済ませるようになった。」を得る。さらに、要約構成単位の重要度計算手段603が、これらの情報の補完もしくは表現の修正が適切に行われた要約構成単位に対して要約構成単位のテキスト中での位置、手がかり語、タイトル、単語の重要度、キーワードなどの情報を手がかりとして、テキスト中における各要約構成単位の重要度を計算し、最後に、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出し、要約結果出力手段604が、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
また、第5の実施の形態では、第6の実施の形態とほぼ同様の構成であるが、要約構成単位の補完修正手段602が、要約構成単位の重要度計算手段603よりも前に実施される点が異なる。このため、第4、第6の実施の形態においては補完修正の結果が重要度計算に影響を与えるが、第5の実施の形態では影響を与えない点が異なる。
また、第7の実施の形態では、第6の実施の形態と同様の構成であるが、それぞれの要約構成単位を補完修正するためのコストが設定できる要約構成単位補完修正パタン706を用いる点が異なる。これについては、第10の実施の形態の実施例において詳細に説明する。
また、第9の実施の形態では、第6の実施の形態とほぼ同様の構成であるが、隣接する要約構成単位における表現の還元手段904が加わっている点が異なっている。例文「映画ファンは映画館には足を運ばなくなり、レンタルビデオで済ませるようになった。」に対して、第6の実施の形態と第9の実施の形態では共に、「映画ファンは映画館には足を運ばなくなった。」、および、「映画ファンはレンタルビデオで済ませるようになった。」の二つの要約構成単位を得るが、両者とも要約中に抽出される場合、第9の実施の形態では、要約中において隣接する要約構成単位が元の文書の同一文中においても隣接する場合、隣接する要約構成単位間での補完や修正については元の表現を用いるため、「映画ファンは映画館には足を運ばなくなり、レンタルビデオで済ませるようになった。」が要約に出力される点が異なる。
次に、本発明の第8の実施の形態の実施例について図面を参照して詳細に説明する。
図13は、要約構成単位認定パタン805の例を示す説明図である。
要約構成単位の認定手段801では、まず、入力テキストの各文に対して要約構成単位を認定し、さらに、それぞれ認定される要約構成単位の間における接続関係や引用関係を認定し、要約構成単位認定パタン805を用いて、述部を含む節を最小とする単位を要約構成単位として認定し、さらにそれぞれの要約構成単位を抽出する際にこれらの関係を考慮した抽出順序に関する制約を設定する。
たとえば、テキスト中に「寿命に関わる遺伝子が解明されれば、不老長寿の薬は実現すると思う。」という文が存在し、また、要約構成単位認定パタン805が、図13に示すようなものであったとする。パタンは、「照合条件」、「要約構成単位」の他に、「抽出順序制約」が加わっている。例文に対してはパタン3が照合し、その結果として要約構成単位S1とS2に相当する「寿命に関わる遺伝子が解明され。」と「不老長寿の薬は実現すると思う。」がそれぞれ要約構成単位として得られる。パタン3における抽出順序制約における表現「S2>S1」は、要約構成単位として得られるS1とS2を要約に抽出する際、S1を抽出する場合は必ずS2を伴って抽出するという制約を表現している。
要約構成単位の重要度計算手段802が、テキスト中における各要約構成単位の重要度を計算し、要約構成単位の抽出順序に関する制約の設定手段803が、各要約構成単位に対する重要度に基づいて、最も重要度の高い要約構成単位から順に、利用者が要求する要約長に達するまで順次抽出する際、それぞれの要約構成単位間の関係を考慮した抽出順序に関する制約も考慮して抽出し、最後に、要約結果出力手段804が、抽出された要約構成単位を元のテキストにおける出現順に並べ、要約結果として出力する。
次に、本発明の第10の実施の形態の実施例について図面を参照して詳細に説明する。
図15は、要約構成単位補完修正パタン706、要約構成単位補完修正パタン1007の例を示す説明図である。
図16は、要約文候補の例を示す説明図である。
たとえば、テキスト中に「消費税率引き上げについては、社会党などの理解を得るのは困難な状況であり、首相は「連立という状況の中でのかじ取りであるため、与党合意を得る交渉をしながらギリギリの努力をするしかない。」と釈明した。」という文が存在する。要約文候補の生成手段1001において、まず、要約構成単位認定パタン1006の逐次的な照合で可能なものすべての組み合わせを実施することで、すべての要約構成単位を作成し、これから要約文候補を得る。
図14に示す要約構成単位認定パタン1006のうち、まず照合可能なのは、パタン2とパタン5である。パタン2によって得られる要約構成単位S1、S2から、それぞれ、図16に示す要約文の候補1、および、候補2を得る。図中の候補1は、要約構成単位の補完修正手段1002において、表現補完修正パタンのパタン2が適用されたものを示している。
次に、パタン5の適用によって得られる要約文候補を作成する。パタン5には、抽出順序制約で、要約構成単位S1またはS2を単独で抽出できないため、これらは要約候補とならないがS2に対しては、さらにパタン4の適用が可能である。パタン5のS1は、S2にパタン4を適用して得られる2つのいずれかを伴えば、抽出順序制約を満たすので要約文候補となり得る。
パタン5のS1とパタン4のS1の組み合わせによって図16に示す候補3を、パタン5のS1とパタン4のS2の組み合わせによって候補4をそれぞれ得る。残された独立な要約文候補は、候補3と候補4にパタン2を適用して得られる要約文候補であり、それぞれの候補にパタン2を適用して得られるS2から、候補5および候補6を得る。各要約文候補へ適用された単位認定パタンのコストの合計値、および各要約文候補へ適用された補完修正パタンのコストの合計値は、要約構成単位の重要度計算手段1003において各要約文候補の重要度と共に、要約文候補の探索手段1004における候補選択に用いる。
要約文候補の探索手段1004は、文ごとに入力文を出力するか、何も出力しないか、もしくは、いずれかの要約文候補を要約中に抽出するかのうちから一つを選択して組み合わせ、利用者の要求する要約長にあった要約の候補を作成する。要約結果出力手段1005は、このようにして得られる要約の候補のうち、要約スコア(要約スコア=重要度の値の合計−α×単位認定コストの合計―β×補完修正コストの合計)の値が最大のものを要約結果として出力する。ここで、α、βはパラメータ(正の実数)をあらわす。
αを大きくすると、文への単位認定パタンの適用が抑制されるので、元のテキスト中の文をそのまま要約文として用いる傾向が強くなり、βを大きくすると、コストの大きい補完修正パタンが適用された要約文候補の要約中での出現が抑制されるので、信頼度の低い補完修正に大きなコストを与えることによって、信頼度の低い補完修正を行った要約文候補が出現しない傾向が強くなる。ここで示した要約スコアの計算式は一例であり、これ以外のものを用いても良い。
次に、本発明の第11の実施の形態について図面を参照して説明する。
本発明の第11の実施の形態は、図1〜図10の各手段を各手順とする方法である。
次に、本発明の第12の実施の形態について図面を参照して説明する。
本発明の第12の実施の形態は、本発明の第11の実施の形態の各手順をコンピュータに実行させるプログラムである。
101 要約構成単位の認定手段
102 要約構成単位の重要度計算手段
103 要約結果出力手段
104 要約構成単位認定用言語知識情報
201 要約構成単位の認定手段
202 要約構成単位の重要度計算手段
203 要約結果出力手段
204 要約構成単位認定パタン
301 要約構成単位の認定手段
302 要約構成単位の重要度計算手段
303 要約結果出力手段
304 要約構成単位認定パタン
401 要約構成単位の認定手段
402 要約構成単位の補完修正手段
403 要約構成単位の重要度計算手段
404 要約結果出力手段
405 要約構成単位認定用言語知識情報
406 要約構成単位補完修正用言語知識情報
501 要約構成単位の認定手段
502 要約構成単位の重要度計算手段
503 要約構成単位の補完修正手段
504 要約結果出力手段
505 要約構成単位認定用言語知識情報
506 要約構成単位補完修正用言語知識情報
601 要約構成単位の認定手段
602 要約構成単位の補完修正手段
603 要約構成単位の重要度計算手段
604 要約結果出力手段
605 要約構成単位認定パタン
606 要約構成単位補完修正パタン
701 要約構成単位の認定手段
702 要約構成単位の補完修正手段
703 要約構成単位の重要度計算手段
704 要約結果出力手段
705 要約構成単位認定パタン
706 要約構成単位補完修正パタン
801 要約構成単位の認定手段
802 要約構成単位の重要度計算手段
803 要約構成単位の抽出順序に関する制約の設定手段
804 要約結果出力手段
805 要約構成単位認定パタン
901 要約構成単位の認定手段
902 要約構成単位の補完修正手段
903 要約構成単位の重要度計算手段
904 隣接する要約構成単位における表現の還元手段
905 要約結果出力手段
906 要約構成単位認定パタン
907 要約構成単位補完修正パタン
1001 要約文候補の生成手段
1002 要約構成単位の補完修正手段
1003 要約構成単位の重要度計算手段
1004 要約文候補の探索手段
1005 要約結果出力手段
1006 要約構成単位認定パタン
1007 要約構成単位補完修正パタン

Claims (3)

  1. 入力文全体に照合するパタンであって、かつ、該パタンの中に文の述部を含む節に照合するパタンである抽出部を包含するパタンである、照合条件と、前記抽出部を包含する複数の要約構成単位の形態を対応させた要約構成単位認定パタンとを格納する要約構成単位認定パタン記憶部と、
    文を入力して、当該入力文と前記照合条件を照合して合致すると、当該入力文から前記照合条件の前記抽出部に相当する部分(相当部分)を抽出して、前記要約構成単位の形態の前記抽出部を前記相当部分で置換して、複数の要約構成単位を得る要約構成単位の認定手段と、
    前記複数の要約構成単位に関するパタンである補完・修正条件と、前記複数の要約構成単位の少なくとも一つを補完・修正する為の補完・修正情報を対応させた要約構成単位補完修正パタンを格納する要約構成単位補完修正パタン記憶部と、
    前記複数の要約構成単位と前記補完・修正条件を照合して合致すると、前記補完・修正情報に基づいて、第1の前記要約構成単位から得られる情報で第2の前記要約構成単位を補完・修正する要約構成単位の補完修正手段と、
    前記補完修正手段によって補完・修正された要約構成単位を選択して組み合わせ、所定の要約長の要約の候補を複数作成する探索手段と、
    前記探索手段によって得られるそれぞれの要約の候補において、当該要約の候補に含まれる第1の前記要約構成単位と第2の前記要約構成単位が当該要約の候補中において隣接する関係にあり、かつ、第1の前記要約構成単位と第2の前記要約構成単位が前記入力文から抽出された際のそれぞれの相当部分が同一文中の隣接する部分である場合に、第1と第2の要約構成単位間での補完・修正箇所は、補完・修正前の表現に還元する表現の還元手段と、
    前記表現の還元手段によって得られた要約の候補を構成する要約構成単位の重要度を計算する要約構成単位の重要度計算手段と、
    前記要約の候補に含まれる前記要約構成単位の重要度の合計から、前記要約の候補の要約スコアを計算し、最大の当該要約スコアを持つ前記要約の候補を選択して出力する前記要約結果出力手段と、
    を有することを特徴とするテキスト要約システム。
  2. 入力文全体に照合するパタンであって、かつ、該パタンの中に文の述部を含む節に照合するパタンである抽出部を包含するパタンである、照合条件と、前記抽出部を包含する複数の要約構成単位の形態を対応させた要約構成単位認定パタンとを要約構成単位認定パタン記憶部から読み出し、
    文を入力して、当該入力文と前記照合条件を照合して合致すると、当該入力文から前記照合条件の前記抽出部に相当する部分(相当部分)を抽出して、前記要約構成単位の形態の前記抽出部を前記相当部分で置換して、複数の要約構成単位を取得し、
    前記複数の要約構成単位に関するパタンである補完・修正条件と、前記複数の要約構成単位の少なくとも一つを補完・修正する為の補完・修正情報を対応させた要約構成単位補完修正パタンを要約構成単位補完修正パタン記憶部から読み出し、
    前記複数の要約構成単位と前記補完・修正条件を照合して合致すると、前記補完・修正情報に基づいて、第1の前記要約構成単位から得られる情報で第2の前記要約構成単位の補完・修正を行い、
    前記補完・修正が行われた要約構成単位を選択して組み合わせ、所定の要約長の要約の候補を複数作成し、
    前記複数作成されたそれぞれの要約の候補において、当該要約の候補に含まれる第1の前記要約構成単位と第2の前記要約構成単位が当該要約の候補中において隣接する関係にあり、かつ、第1の前記要約構成単位と第2の前記要約構成単位が前記入力文から抽出された際のそれぞれの相当部分が同一文中の隣接する部分である場合に、第1と第2の要約構成単位間での補完・修正箇所は、補完・修正前の表現に還元し、
    前記還元する処理が行われた要約の候補を構成する要約構成単位の重要度を計算し、
    前記要約の候補に含まれる前記要約構成単位の重要度の合計から、前記要約の候補の要約スコアを計算し、最大の当該要約スコアを持つ前記要約の候補を選択して出力する、
    ことを特徴とするテキスト要約方法。
  3. 入力文全体に照合するパタンであって、かつ、該パタンの中に文の述部を含む節に照合するパタンである抽出部を包含するパタンである、照合条件と、前記抽出部を包含する複数の要約構成単位の形態を対応させた要約構成単位認定パタンとを要約構成単位認定パタン記憶部から読み出し、
    文を入力して、当該入力文と前記照合条件を照合して合致すると、当該入力文から前記照合条件の前記抽出部に相当する部分(相当部分)を抽出して、前記要約構成単位の形態の前記抽出部を前記相当部分で置換して、複数の要約構成単位を得る要約構成単位の認定ステップと、
    前記複数の要約構成単位に関するパタンである補完・修正条件と、前記複数の要約構成単位の少なくとも一つを補完・修正する為の補完・修正情報を対応させた要約構成単位補完修正パタンを要約構成単位補完修正パタン記憶部から読み出し、
    前記複数の要約構成単位と前記補完・修正条件を照合して合致すると、前記補完・修正情報に基づいて、第1の前記要約構成単位から得られる情報で第2の前記要約構成単位を補完・修正する要約構成単位の補完修正ステップと、
    前記補完修正ステップによって補完・修正された要約構成単位を選択して組み合わせ、所定の要約長の要約の候補を複数作成する探索ステップと、
    前記探索ステップによって得られるそれぞれの要約の候補において、当該要約の候補に含まれる第1の前記要約構成単位と第2の前記要約構成単位が当該要約の候補中において隣接する関係にあり、かつ、第1の前記要約構成単位と第2の前記要約構成単位が前記入力文から抽出された際のそれぞれの相当部分が同一文中の隣接する部分である場合に、第1と第2の要約構成単位間での補完・修正箇所は、補完・修正前の表現に還元する表現の還元ステップと、
    前記表現の還元ステップによって得られた要約の候補を構成する要約構成単位の重要度を計算する要約構成単位の重要度計算ステップと、
    前記要約の候補に含まれる前記要約構成単位の重要度の合計から、前記要約の候補の要約スコアを計算し、最大の当該要約スコアを持つ前記要約の候補を選択して出力する前記要約結果出力ステップと、
    をコンピュータに実行させることを特徴とするテキスト要約プログラム。
JP2009069851A 2009-03-23 2009-03-23 テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム Pending JP2009146446A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009069851A JP2009146446A (ja) 2009-03-23 2009-03-23 テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009069851A JP2009146446A (ja) 2009-03-23 2009-03-23 テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002281212A Division JP2004118545A (ja) 2002-09-26 2002-09-26 テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム

Publications (1)

Publication Number Publication Date
JP2009146446A true JP2009146446A (ja) 2009-07-02

Family

ID=40916901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009069851A Pending JP2009146446A (ja) 2009-03-23 2009-03-23 テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム

Country Status (1)

Country Link
JP (1) JP2009146446A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713967A (ja) * 1992-09-25 1995-01-17 Maruzen Kk 抄録文作成装置
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JPH08255172A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 文書検索システム
JPH1063658A (ja) * 1996-08-22 1998-03-06 Nippon Hoso Kyokai <Nhk> 自然言語処理装置および方法
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713967A (ja) * 1992-09-25 1995-01-17 Maruzen Kk 抄録文作成装置
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JPH08255172A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 文書検索システム
JPH1063658A (ja) * 1996-08-22 1998-03-06 Nippon Hoso Kyokai <Nhk> 自然言語処理装置および方法
JPH10207891A (ja) * 1997-01-17 1998-08-07 Fujitsu Ltd 文書要約装置およびその方法

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US7058567B2 (en) Natural language parser
US8543374B2 (en) Translation system combining hierarchical and phrase-based models
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
US9047275B2 (en) Methods and systems for alignment of parallel text corpora
JP6902945B2 (ja) テキスト要約システム
US20140350913A1 (en) Translation device and method
EP2643770A2 (en) Text segmentation with multiple granularity levels
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
WO2009076252A1 (en) Indexing and searching audio using text indexers
Sagae et al. HPSG parsing with shallow dependency constraints
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
Popowich et al. Machine translation of closed captions
US8065283B2 (en) Term synonym generation
KR101064950B1 (ko) 번역 오류 후처리 보정 장치 및 방법
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
WO2009113505A1 (ja) 映像分割装置、方法及びプログラム
JP2009146447A (ja) テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
Roark et al. Finite-state chart constraints for reduced complexity context-free parsing pipelines
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
JP5366849B2 (ja) 機能表現補完装置、方法及びプログラム
JP2009146446A (ja) テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2004118545A (ja) テキスト要約システム、テキスト要約方法、および、テキスト要約プログラム
JP2009176148A (ja) 未知語判定システム、方法及びプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090512

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120207