WO2020031959A1

WO2020031959A1 - 要約文算出装置、要約文算出方法、及びプログラム

Info

Publication number: WO2020031959A1
Application number: PCT/JP2019/030728
Authority: WO
Inventors: 暁渡邉; 光希池内
Original assignee: 日本電信電話株式会社
Priority date: 2018-08-06
Filing date: 2019-08-05
Publication date: 2020-02-13
Also published as: US20210303774A1; JP2020024512A; JP7035893B2

Abstract

要約文算出装置において、文の集合を入力する入力手段と、前記文の集合から要約文集合を算出する要約文算出手段と、を備え、前記要約文算出手段は、前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第１の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第１の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行する。

Description

要約文算出装置、要約文算出方法、及びプログラム

　本発明は、文の集合から要約文を算出する技術に関連するものである。当該技術の適用分野の例として、作業記録文書からアクション列を可視化する業務フロー可視化システムがある。

　大規模化・構成機器の多様化が進むＩＴシステムにおいては、発生故障の種類の多様化と故障の複雑化が問題となっている。故障の多様化と複雑化は、発生した異常の原因の特定と対処の判断を困難にして、故障から復旧までの時間を長期化させる。

　対応判断の遅れによる復旧の遅延を防ぐために、故障対応のプロセスをワークフローと呼ばれる形式で可視化する技術（非特許文献１、特許文献１～３）がある。当該技術では、故障発生時に、過去に同じ故障原因が発生したときの作業を記録した文書をデータベースから取り出し、文書から故障対応のプロセスを解析し、ワークフローと呼ぶグラフで可視化する。ワークフローの可視化は、同一の作業や状態を示す文やシンボル列（アクション）の抽出と、アクションの遷移を可視化することからなる。

　各アクションの内容を表示する最も単純な方法は、同一アクションとみなされた文を、全て表示することである。しかし、この方法では入力に与えられたデータのアクションに該当する文の全てが表示される。例えば一つのアクションを示す文が十数個も出現すると、視認性を著しく低下させる。同じアクションを示す文である以上、冗長な記述を減らすことが求められる。

　すなわち、アクションの表示においては、可読性の観点で、必要最低限の文でアクションを記述することが求められる。

　必要最低限の文でアクションを記述するために、例えば同じアクションを示す文の内いずれか一つだけを表示する方法が考えられる。しかしながら、この方法では重要な記述が見逃される可能性がある。同一のアクションを示す文の判定は、ミスなく行われるとは限らない。仮に重要なアクションを示す文が誤って他のアクションと同一とみなされた場合、単一文の表示ではどちらかのアクションがワークフロー上に表示されなくなる。また、アクションの記述の中には補足情報が記載されていることもあり、ランダムな文の選択では、価値のある補足情報が非表示になる可能性もある。システムオペレーションにおいては作業漏れが障害を起こし得るため、必要な情報は残さず表示されることが望ましい。

　必要最低限の文でアクションを記述するために、従来の要約文算出手法を用いることが考えられる。従来の要約文算出手法として、与えられた文の集合に含まれる単語を一定割合以上含んだ、最も単語数の少ない文の組み合わせを選び出すＬｉｎらの最適化問題定義（非特許文献２）及び貪欲法によるその解法（非特許文献３）が提案されている。この手法の概要は下記のとおりである。

　入力となる文の集合をＳとし、Ｓのうちいずれかの文を選択した部分集合をＶ⊆Ｓとする。更に、Ｓに含まれる全ての単語のうち、Ｖのいずれかの文に含まれる単語の割合をｆ_Ｓ（Ｖ）で表す。ｆ_Ｓ（Ｖ）はＶの単語だけでＳの単語をどれだけカバーできているかを表すため、カバー率と呼ばれる。Ｖ＝Ｓのときｆ_Ｓ（Ｖ）＝１であり、Ｖ＝Φのときｆ_Ｓ（Ｖ）＝０である。Ｌｉｎらの手法を用いた要約文算出では、指定した閾値０≦ｒ≦１よりもｆ_Ｓ（Ｖ）が大きいＶの内、Ｖに含まれる文の単語数の合計が最も少ないＶを求める。

　上記の問題を数式で表すと、次のようになる。

　ｍｉｎ．Σ_ｓ∈Ｖ｜ｓ｜、ｓｕｂｊｅｃｔ　ｔｏ．ｆ_Ｓ（Ｖ）≧ｒ。

　上記の式において、｜ｓ｜は文ｓに含まれる単語の数を表す。上記の最小化問題はＮＰ困難であるが、非特許文献３の貪欲法に基づく解法では、精度が保証された近似解が得られる。この方法では、Ｓの内、ｆ_Ｓ（Ｖ）を最も増加させる文ｖ＊を一つずつ選んで、ｆ_Ｓ（Ｖ）≧ｒとなるまでＶに追加していく。この方法の擬似コードを下記に示す。

　Ｖ＝Φとする。

　Ｗｈｉｌｅ　ｆ_Ｓ（Ｖ）≦ｒ：
　ｖ＊＝ａｒｇｍａｘ_ｓ∈Ｓ（ｆ_Ｓ（Ｖ∪｛ｓ｝）－ｆ_Ｓ（Ｖ））／｜ｓ｜
　Ｖ＝Ｖ∪｛ｖ＊｝
　Ｖを解として返す。

　なお、この手法は複数文書要約で最も多く用いられる、単語数の上限を制約とした手法とは異なる。複数文書要約では、一定の単語数以下に要約文が収まるよう、Σ_ｓ∈Ｖ｜ｓ｜を目的関数でなく制約条件とした手法が多い。しかしながら、ワークフローの可視化においては単語数に特定の限定がなく、必要な情報を網羅していることが重要な制約となる。

　そのため、制約条件は文書の情報の網羅性を示すカバー関数ｆ_Ｓ（Ｖ）であり、利用者によって指定される制約の閾値は、単語数ではなくカバー率の下限ｒで与えられる。

　Ｌｉｎらの手法により、冗長な文を除いた要約文が作成可能となる。上述したとおり、アクションの説明表示においては、同一アクションと判定された文の集合に含まれる情報全てを、冗長な記述を省きながら表示する必要がある。Ｌｉｎらの手法で、Ｓ中の文に多数含まれる単語があったとき、その単語を含む文ｓをＶに追加すると、その単語を含まない文を追加した場合に比べて、ｆ_Ｓ（Ｖ）は大きくなりやすい。加えて、既にＶに含まれている単語は、新たに追加されてもｆ_Ｓ（Ｖ）を大きくしない。そのため、少ない単語数でｆ_Ｓ（Ｖ）を大きくするために、Ｌｉｎらの手法では、同一の単語を要約文に含むことを避けるように、要約文を作成することができる。

特開２０１６－５３８７１号公報特開２０１８－５５３２７号公報特開２０１７－２２８０９４号公報

Akio Watanabe, Keisuke Ishibashi, Tsuyoshi Toyono, Keishiro Watanabe, Tatsuaki Kimura, Yoichi Matsuo, Kohei Shiomoto and Ryoichi Kawahara ``Workflow Extraction for Service Operation Using Multiple Unstructured Trouble Tickets,'' IEICE Transactions on Information and Systems, E101-D, No.4, pp. 1030-1041, 2018. Hui Lin and Jeff Bilmes, "A Class of Submodular Functions for Document Summarization,'' In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Vol. 1, pp. 510-520. 2011 Laurence A. Wolsey, ``An analysis of the greedy algorithm for the submodular set covering problem,'' Combinatorica, Vol. 2, No. 4, pp. 385-393, 1982.

　従来技術であるＬｉｎらの手法に基づく貪欲法では、ｆ_Ｓ（Ｖ）を最も増加させる文を一つずつ選択する処理を繰り返し、これまでに選択した文で全文の単語のどれだけをカバーしたかのみを文の選択基準にする。

　しかし、実際には、作業記録には装置名や装置番号のような、事象ごとに異なる単語が存在するために、閾値ｒによるアルゴリズム終了判定が適切に動作しない場合がある。そのような例を図１を参照して説明する。

　図１の（ａ）に示すように、"ポート１交換"、"ポート２交換"、…という、ポート番号のみが異なる文が５０個集まった集合を考える。このとき、文集合全体に対して不変箇所の"交換"という単語のカバー率が全体の約半数、可変箇所であるポート番号ごとのカバー率が０．０１であるため、カバー率の下限ｒを仮に０．７と設定すると、図１の（ｂ）に示したように、殆ど同じ意味を示す文が２０個選択されてしまう。

　このように作業記録では、装置名のような文ごとに異なる単語が、カバー率の多くを占めることがある。そのために従来技術では、カバー率を上昇させるために、僅かな単語の違いのみを持つ文も網羅するように要約を作成してしまい、冗長な記述が多く残る不十分な要約となる課題があった。

　本発明は上記の点に鑑みてなされたものであり、文の集合から、必要最低限の文の集合からなる要約を算出する技術を提供することを目的とする。

　開示の技術によれば、文の集合を入力する入力手段と、
　前記文の集合から要約文集合を算出する要約文算出手段と、を備え、
　前記要約文算出手段は、
　前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第１の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第１の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行する
　ことを特徴とする要約文算出装置が提供される。

　開示の技術によれば、文の集合から、必要最低限の文の集合からなる要約を算出することが可能となる。

課題を説明するための図である。実施の形態における要約文表示装置の機能構成図である。作業記録ＤＢに格納された情報の例を示す図である。ワークフロー生成部により生成されるワークフローの例を示す図である。要約文算出部によりアクションを簡易表示したワークフローの例を示す図である。要約文表示装置のハードウェア構成図である。要約文算出部の処理のフローチャートである。要約文算出部の処理の具体例を説明するための図である。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　以下で説明する実施の形態では、本発明をワークフローの表示に適用する例を示しているが、本発明は、ワークフローの表示に限らずに、様々な技術分野に適用可能である。

　（装置の機能構成、全体動作）
　図２に、本発明の実施の形態における要約文表示装置１００の機能構成図を示す。本実施の形態における要約文表示装置１００は、ワークフローにおける、アクションと呼ばれるグラフの各ノードに表示する文を決定し、ワークフローを表示する装置である。

　図２に示すように、要約文表示装置１００は、作業記録ＤＢ１１０、ワークフロー生成部１２０、要約文算出部１３０、及び入出力インタフェース１４０を有する。なお、要約文表示装置１００を、要約文算出装置と称してもよい。また、要約文算出部１３０を１つの装置として構成してもよく、当該装置を要約文算出部１３０と称してもよい。

　作業記録ＤＢ１１０は、過去の故障における原因及び作業記録の情報を蓄積する。作業記録の情報は、作業内容を記録した作業記録文の集合である。当該作業記録文の集合は、入出力インタフェース１４０から入力され、作業記録ＤＢ１１０に格納される。作業記録ＤＢ１１０に格納される文の集合の例を図３に示す。図３に示されるように、当該文書データにおいては、同一の内容が異なる表現で記録されている。

　ワークフロー生成部１２０は、入出力インタフェース１４０からのワークフローを生成する作業記録の指定に基づき、作業記録ＤＢ１１０から作業記録の文の集合を読み出し、例えば非特許文献１に示す方法を用いて、アクションとアクション間の遷移を持つグラフをワークフローとして生成する。ワークフローはアクションとその遷移から構成され、アクションとは入力の作業記録における同一の動作等を示す文の集合である。

　より具体的には、ワークフロー生成部１１０は、文同士の類似度を定義し、類似度を最大化する文の組み合わせを見つけることで、文書中の同一アクションを示す文を発見する。そして、発見したアクションを、文書中の文の記述順序に従って繋ぐことで、アクションと次のアクションへの遷移を描き、ワークフローを可視化する。図３の作業記録に基づいて生成されたワークフローの例を図４に示す。

　要約文算出部１３０は、ワークフロー生成部１２０で得たワークフローに含まれる、それぞれのアクションに対して要約処理を行う。要約文算出部１３０へは、入力として、同一のアクションを示す文全ての集合が与えられる。また、要約文算出部１３０は、アクションを示すグラフの各ノードに表示する文又は文の集合を出力する。出力の文又は文の集合が、入力の文の集合より長くなることは無く、より簡約化されて表示される。

　すなわち、要約文算出部１３０は、ワークフローにおける各アクションで表示を行う文を、与えられた文集合に含まれる情報を網羅的に表示でき、かつ僅かな単語の違いは網羅不要として非表示とするような、必要最低限の文として算出する。そして表示文を、入出力インタフェース１４０を通じて利用者に提示する。

　図５に、図３で示した作業記録を用いた場合において、要約文算出部１３０により算出された要約文を用いたワークフローの例を示す。図５に示すとおり、殆どのアクションでは、記述内容が同一であるため、１文のみが表示されている。６つ目のアクションのみ、補足情報である予備部材の手配について触れていることから、要約されずに２文が表示されている。このように図５ではアクションを示す各ノードの表示量が削減され、図４のワークフローと比較して可読性が高いことがわかる。

　このように、同一アクションと判定された文に含まれる情報全てを、冗長な記述を省きながら表示することで、冗長なアクションの記述による視認性低下と、作業の表示漏れによるオペレーションミスの防止の２点を防ぐことができる。

　要約文算出部１３０におけるより詳細な処理内容については後述する。

　（ハードウェア構成例）
　上述した要約文表示装置１００は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。

　すなわち、要約文表示装置１００は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、要約文表示装置１００で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図６は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図６のコンピュータは、それぞれバスＢで相互に接続されているドライブ装置１５０、補助記憶装置１５２、メモリ装置１５３、ＣＰＵ１５４、インタフェース装置１５５、表示装置１５６、及び入力装置１５７等を有する。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１５１によって提供される。プログラムを記憶した記録媒体１５１がドライブ装置１５０にセットされると、プログラムが記録媒体１５１からドライブ装置１５０を介して補助記憶装置１５２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１５１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１５２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１５３は、プログラムの起動指示があった場合に、補助記憶装置１５２からプログラムを読み出して格納する。ＣＰＵ１５４は、メモリ装置１５３に格納されたプログラムに従って、要約文表示装置１００に係る機能を実現する。インタフェース装置１５５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１５６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置１５７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。

　（要約文算出部１３０の処理の詳細）
　以下、本実施の形態における要約文算出部１３０の処理内容をより詳細に説明する。

　要約文算出部１３０において、Ｌｉｎらの手法（非特許文献２、３）を踏襲しつつ、新たに追加される文によって情報量（具体的にはカバー率）がどれだけ増加するかも判定条件に用いることとしている。具体的には下記のとおりである。

　要約文算出部１３０への入力となる文の集合をＳとし、Ｓのうちいずれかの文を選択した部分集合をＶ⊆Ｓとする。このＶは、要約となる文の集合（文の数が１つである場合を含む）を表すので、これを要約文集合と呼んでもよい。更に、Ｓに含まれる全ての単語のうち、Ｖのいずれかの文に含まれる単語の割合をｆ_Ｓ（Ｖ）で表す。既に説明したとおり、ｆ_Ｓ（Ｖ）はＶの単語だけでＳの単語をどれだけカバーできているかを表すため、カバー率と呼ばれる。

　要約文算出部１３０は、基本的には、Ｓの内、ｆ_Ｓ（Ｖ）を最も増加させる文ｓ＊を一つずつ選んで、ｆ_Ｓ（Ｖ）≧ｒとなるまでＶに追加していく。ただし、要約文算出部１３０は、Ｖに対して、新たに文ｓ＊を選択した際に、ｆｓ（Ｖ∪｛ｓ＊｝）－ｆｓ（Ｖ）を計算し、ｆｓ（Ｖ∪｛ｓ＊｝）－ｆｓ（Ｖ）＜θであれば、文ｓ＊をＶに追加せず、その時点のＶを出力して処理を終了する。θは予め与えられる閾値である。すなわち、要約文算出部１３０は、カバー率の増加量が、ある閾値未満であれば、その時点のＶを出力して処理を終了する。

　要約文算出部１３０の処理手順を示す疑似コードは下記のとおりである。既に説明したように、｜ｓ｜は文ｓに含まれる単語の数を表す。なお、下記のコードに示される処理内容（及び図７を参照して後述する処理手順）は一例である。新たに追加される文によって情報量がどれだけ増加するかを判定条件に用いる方法であれば、下記のコードで示される処理内容（及び図７を参照して後述する処理手順）に限定されるわけではない。
Ｖ＝Φとする。
Ｗｈｉｌｅ　ｆ_Ｓ（Ｖ）≦ｒ：
　ｓ＊＝ａｒｇｍａｘ_ｓ∈Ｓ（ｆ_Ｓ（Ｖ∪｛ｓ｝）－ｆ_Ｓ（Ｖ））／｜ｓ｜
　ｉｆ　ｆｓ（Ｖ∪｛ｓ＊｝）－ｆｓ（Ｖ）＜θ：
　Ｖを解として返す。

　Ｖ＝Ｖ∪｛ｓ＊｝
Ｖを解として返す。

　閾値ｒでの終了判定がカバー率の総量を用いるのに対し、上記のｉｆでの条件は、新たにｓ＊を追加したときのカバー率の増加量が閾値未満であることを示す。即ち、新規に追加される文でカバー率が一定以上上昇しない場合、ｓよりも前にＶに追加した文と情報の重なりが大きいと考えて、追加を行わない。

　なお、従来の多くの文書要約では決められた文字数等条件に収まるよう文書を要約するため、情報量が所定の要件を満たすことに主眼をおいた本実施の形態における上記のような終了条件を使用する処理は、従来技術において類似したものがない。

　上記の擬似コードに基づいて要約文算出部１３０が実行する処理手順を図７のフローチャートを参照して説明する。図７のフローチャートの前提として、要約文算出部１３０にはＳが既に入力されているとする。

　Ｓ１（ステップ１）において、要約文算出部１３０はＶを空集合に初期化する。

　Ｓ２において、要約文算出部１３０は、カバー率がｒ以下であるか否かを判定し、判定結果がＮｏであればＳ５に進んでＶを解として出力する。判定結果がＹｅｓであればＳ３に進む。

　Ｓ３において、要約文算出部１３０は、「（ｆ_Ｓ（Ｖ∪｛ｓ｝）－ｆ_Ｓ（Ｖ））／｜ｓ｜」を最大化する文である文ｓ＊をＳから選択する。

　Ｓ４において、要約文算出部１３０は、文ｓ＊を追加したときのカバー率の増加量が閾値θ未満であるか否かを判定する。判定結果がＹｅｓであればＳ５に進んでＶを解として出力する。判定結果がＮｏであればＳ６に進む。

　Ｓ６において、要約文算出部１３０は、Ｖに文ｓ＊を追加したものを新たなＶとする。Ｓ６の後、再びＳ２から処理が実行される。

　上述した要約文算出部１３０の処理の具体例を図８を参照して説明する。図８の（ａ）に示すように、図１の場合と同じく、"ポート１交換"、"ポート２交換"、…という、ポート番号のみが異なる文が５０個集まった集合をＳとする。また、カバー率の下限ｒを０．７とし、θを０．０２とする。

　（ｂ）に示すように、まず、要約文算出部１３０は、文ｓ＊として文１（ｐｏｒｔ０１交換）を選択する。このとき、ｆｓ（Ｖ∪｛ｓ＊｝）－ｆｓ（Ｖ）は０．５１であり、「ｆｓ（Ｖ∪｛ｓ＊｝）－ｆｓ（Ｖ）＜θ」の条件を満たさず、また、ｆｓ（Ｖ∪｛ｓ＊｝）＝０．５１であり、「ｆ_Ｓ（Ｖ）≦ｒ」を満たす。

　よって、（ｃ）に進み、要約文算出部１３０は、文ｓ＊として文２（ｐｏｒｔ０２交換）を選択する。このとき、ｆｓ（Ｖ∪｛ｓ＊｝）－ｆｓ（Ｖ）は０．５２－０．５１＝０．０１であり、「ｆｓ（Ｖ∪｛ｓ＊｝）－ｆｓ（Ｖ）＜θ」の条件を満たす。よって、「ｆ_Ｓ（Ｖ）≦ｒ」を満たしていても、（ｄ）に示すように、Ｖ（＝ｐｏｒｔ０１交換）を出力して処理を終了する。

　このように、要約文算出部１３０の処理により、重なりの多い分の不要な表示を回避できる。

　（実施の形態の効果）
　本実施の形態により、従来技術のワークフローと比べて、各アクションの示す動作がより簡潔なワークフローを作成可能となる。そのため、迅速な故障対応が求められるシステム運用において、いち早く行うべき動作を把握し、迅速な対処が可能となる。

　（実施の形態のまとめ）
　以上説明したように、本実施の形態によれば、文の集合を入力する入力手段と、前記文の集合から要約文集合を算出する要約文算出手段と、を備え、前記要約文算出手段は、前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第１の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第１の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行することを特徴とする要約文算出装置が提供される。

　要約文算出部１３０は、入力手段及び要約文算出手段の例であり、要約文表示装置１００は、要約文算出装置の例である。

　前記要約文算出手段は、例えば、前記追加後の要約文集合のカバー率が第２の閾値よりも大きい場合に、前記追加後の要約文集合を出力し、処理を終了する。また、前記所定の文は、例えば、前記追加前の要約文集合のカバー率に対する前記追加後の要約文集合のカバー率を最も増加させる文である。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００　要約文表示装置
１１０　作業記録ＤＢ
１２０　ワークフロー生成部
１３０　要約文算出部
１４０　入出力インタフェース
１５０　ドライブ装置
１５１　記録媒体
１５２　補助記憶装置
１５３　メモリ装置
１５４　ＣＰＵ
１５５　インターフェース装置
１５６　表示装置
１５７　入力装置

Claims

　文の集合を入力する入力手段と、
　前記文の集合から要約文集合を算出する要約文算出手段と、を備え、
　前記要約文算出手段は、
　前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第１の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第１の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行する
　ことを特徴とする要約文算出装置。
　前記要約文算出手段は、前記追加後の要約文集合のカバー率が第２の閾値よりも大きい場合に、前記追加後の要約文集合を出力し、処理を終了する
　ことを特徴とする請求項１に記載の要約文算出装置。
　前記所定の文は、前記追加前の要約文集合のカバー率に対する前記追加後の要約文集合のカバー率を最も増加させる文である
　ことを特徴とする請求項１又は２に記載の要約文算出装置。
　要約文算出装置が実行する要約文算出方法であって、
　文の集合を入力する入力ステップと、
　前記文の集合から要約文集合を算出する要約文算出ステップと、を備え、
　前記要約文算出ステップにおいて、前記要約文算出装置は、
　前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第１の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第１の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行する
　ことを特徴とする要約文算出方法。
　前記要約文算出ステップにおいて、前記要約文算出装置は、前記追加後の要約文集合のカバー率が第２の閾値よりも大きい場合に、前記追加後の要約文集合を出力し、処理を終了する
　ことを特徴とする請求項４に記載の要約文算出方法。
　前記所定の文は、前記追加前の要約文集合のカバー率に対する前記追加後の要約文集合のカバー率を最も増加させる文である
　ことを特徴とする請求項４又は５に記載の要約文算出方法。
　コンピュータを、請求項１ないし３のうちいずれか１項に記載の要約文算出装置における各手段として機能させるためのプログラム。