JP3791879B2

JP3791879B2 - 文書要約装置およびその方法

Info

Publication number: JP3791879B2
Application number: JP20506199A
Authority: JP
Inventors: 由雄仲尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-07-19
Filing date: 1999-07-19
Publication date: 2006-06-28
Anticipated expiration: 2019-07-19
Also published as: JP2001034624A; EP1071023A3; EP1071023A2; EP1071023B1; US6963830B1

Description

【０００１】
【発明の属する技術分野】
本発明は、自然言語などで書かれた機械可読文書の要約を行う装置およびその方法に関する。特に、本発明をコンピュータディスプレイ上での文書閲覧の支援へ応用し、マニュアルや報告書、あるいは１冊の本などの長い文書を１画面に納まる程度に要約して、文書内容の骨子の理解を助けることを意図している。
【０００２】
【従来の技術】
現時点で実際的に使用されている主要な文書要約技術として、文書において重要な文を認定し、それを抜粋することで要約を作成する技術がある。この技術は、さらに、何を手掛かりに文の重要性を評価するかによっていくつかの方法に分類される。代表的な方法としては、次の２つが挙げられる。
（１）文書中に出現する単語の頻度と分布を手掛かりとする方法
（２）文と文とのつながり方や文の出現位置を手掛かりとする方法
これらのうち、（１）の方法は、まず、文書中に含まれる単語（語句）の重要度を決定し、次に、重要な単語をどれ位含んでいるかによって文の重要度を評価する。そして、評価結果に基づいて重要な文を選択して要約を作成する。
【０００３】
単語の重要度を決定する方法としては、文書中の単語の出現頻度（出現度数）そのものを用いる方法、単語の出現度数と一般的な文書集合におけるその単語の出現度数とのずれなどを加味して重みを付ける方法、単語の出現位置に応じて重みを付ける方法などが知られている。単語の出現位置に応じて重みを付ける場合は、例えば、見出しに出現する語を重要とみなすなどの処理が付加される。
【０００４】
このような要約作成方法には、例えば、次のようなものがある。
特開平６−２５９４２４「文書表示装置及び文書要約装置並びにディジタル複写装置」とその発明者による文献（亀田雅之、擬似キーワード相関法による重要キーワードと重要文の抽出、言語処理学会第２回年次大会発表論文集、ｐｐ．９７−１００、１９９６年３月．）では、見出しに含まれる単語を多く含む部分を、見出しに関連の深い重要な部分として抜粋することで要約を作成している。
【０００５】
特開平７−３６８９６「文書を要約する方法および装置」では、文書中に現れる表現（単語など）の複雑さ（語の長さなど）から重要な表現の候補（シード）を選び、重要性の高いシードをより多く含む文を抜粋することで要約を作成している。
【０００６】
特開平８−２９７６７７「主題の要約を生成する自動的な方法」では、文書内の単語の出現頻度が大きい順に「主題の用語」を認定し、重要な「主題の用語」を多く含む文を抽出することで要約を作成している。
【０００７】
また、（２）の方法は、順接・逆接・展開などの文の接続関係や、文が出現している文書中の位置などをもとに、文の（相対的）重要性を判定し、重要な文を選択する。
【０００８】
この方法を紹介している文献としては、例えば、特開平６−１２４４７「要約文章作成装置」、特開平７−１８２３７３「文書情報検索装置及び文書検索結果表示方法」、およびこれらの出願の発明者らによる文献（住田一男（Kazuo Sumita）、知野哲朗（Tetsuro Chino ）、小野顕司（Kenji Ono）、三池誠司（Seiji Miike ）、文書構造解析に基づく自動抄録生成と検索提示機能としての評価、電気情報通信学会論文誌、Ｖｏｌ．Ｊ７８−Ｄ−ＩＩ、Ｎｏ．３、ｐｐ．５１１−５１９、１９９５年３月．）、あるいは別の著者による文献（山本和英（Kazuhide Yamamoto ）、増山繁（Shigeru Masuyama）、内藤昭三（Shozo Naito ）、文章内構造を複合的に利用した論説文要約システムＧＲＥＥＮ、情報研報ＮＬ−９９−３、情報処理学会、１９９４年１月．）がある。
【０００９】
これらの文書要約技術は、新聞記事や社説、論文などの内容的に１つにまとまっている文書に対しては有効であるが、いくつかの話題に関する文章が混在した長い文書の要約は難しい。
【００１０】
（１）の方法では、複数の話題に関する文章が混在している場合、話題毎に重要な単語が異なる可能性が高いので、文書中で出現頻度の大きい単語を単純に重要語とみなすことができない。単純に重要語を決定してしまうと、ある話題に関する重要性を手掛かりに、別の話題の部分から重要でない文が抜粋されてしまうことがあるからである。
【００１１】
また、（２）の方法でも、接続詞などで表される文間のつながりは局所的なものであるため、ある論旨に沿って記述された複数の文章が緩やかな関連性の下に並べ置かれている場合には、それぞれの文章の重要性を判定することが困難である。
【００１２】
そこで、この問題を解決するため、文書中の話題のまとまりを認定する技術と組み合わせて要約を作成する技術が開発されている。
例えば、本発明の発明者による文献（仲尾由雄（Yoshio Nakao）、文書の意味的階層構造の自動認定に基づく要約作成、第４回年次大会併設ワークショップ「テキスト要約の現状と将来」論文集、ｐｐ．７２−７９、言語処理学会、１９９８年３月．）および先願の特願平１０−０７２７２４「文書要約装置およびその方法」には、文書中の話題の階層的構成を認定し、それぞれの話題に特徴的な語を多く含む文を抜粋する技術が示されている。
【００１３】
また、特開平１１−４５２７８「文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法」では、文書全体をいくつかのサブ文書に分割し、サブ文書間の類似度を調べて話題の変わり目を認識し、話題毎に文書を要約するというアイディアが示されている。
【００１４】
なお、この文献では、話題の変わり目の認定方法が抽象的なレベルでごく簡単にしか示されていないが、その手法は、Saltonらの文献（Gerard Salton, Amit Singhal, Chris Buckley, and Mandar Mitra. Automatic text decomposition using text segments and text themes. In Proc. of Hypertext '96, pp.53-65. the Association for Computing Machinery, March 1996. ）などで従来より知られていた技術を簡略化したものと考えられる。
【００１５】
また、長い文書の要約を目的とはしていないが、特開平２−２５４５６６にも、内容的に関連度の高い一連の型式段落（字下げなどにより形式的に区切られた段落）を意味段落として自動認定し、文書全体で出現頻度の大きい語だけでなく、それぞれの意味段落で出現頻度の大きい語も重要語として抽出して、要約を作成している。
【００１６】
【発明が解決しようとする課題】
しかしながら、上述した従来の要約技術で長い文書を要約した場合、話題毎に主要な文を抜粋しても、理解しがたい要約になりやすいという問題がある。
【００１７】
例えば、話題毎に分けた部分でもまだ大きすぎる場合などに重要語が多く出現する文を抜粋すると、たまたま論の半ば付近の文が抜粋されて、要約が理解不能になってしまうことがある。詳細な議論を行っている箇所を前提となる説明なしに抜粋してしまうと、読者には何を議論しているのかが掴めない可能性が高いからである。また、１％程度以下の極端に短い要約を作成する場合、重要な文の中から少数の文を選択しなければならないため、要約が関連性のない文の羅列になってしまう可能性も大きくなる。
【００１８】
もう１つの問題として、長い文書を要約する場合、必然的に要約結果の分量も大きくなり、結果として読みにくい要約になってしまうという問題もある。例えば、１００頁の本を要約した場合、１％に縮めても、要約は１頁になってしまう。１頁の文書は、少なくとも数段落に分けて見出しなどを付与し、内容の区切りの目印をつけない限り、読みづらい。従来の要約技術の主たる対象は、多くとも十数頁程度の論文などであったこともあり、この問題を解決する汎用の技術は現状では見当たらない。
【００１９】
例えば、前述の特開平６−１２４４７では、論文などを対象として、書式などの手掛かりに認定した章や節毎に要約を作成し、章立ての構造に基づいて要約結果を再構成して提示する技術が示されている。しかし、数十頁を越える長い文書を対象とする場合、そもそも、上述した理由により、それぞれの章や節毎に主要な文を抜粋しても、簡潔で理解しやすい要約とはならない可能性が高い。また、書式は、ある種類の文書における約束毎であるため、文書の種類毎に経験的な規則を用意しなければならず、汎用性という点にも問題がある。
【００２０】
本発明の第１の課題は、長い文書に対して理解しやすい要約を作成する文書要約装置およびその方法を提供することである。また、本発明の第２の課題は、長い要約を読みやすく提示する文書要約装置およびその方法を提供することである。
【００２１】
【課題を解決するための手段】
図１は、本発明の文書要約装置の原理図である。図１の文書要約装置は、構成認定手段１、話題文抽出手段２、および要約成形手段３を備える。
【００２２】
構成認定手段１は、与えられた文書中の話題の階層的構成を認定する。話題文抽出手段２は、各話題の導入部を検出し、検出された導入部から集中的に、話題内容を端的に表す１つ以上の文を話題文として抽出する。要約成形手段３は、抽出された話題文を話題毎にまとめて要約を生成する。
【００２３】
構成認定手段１は、例えば、文書全体の大きさの１／４〜１／１０程度から段落程度の大きさまで、数種類の大きさの窓幅を設定し、語彙的結束性の強さを表す結束度を各窓幅で測定する。これにより、大きな間隔で繰り返される語などによる大局的な結束性と、小さな間隔で繰り返される語などによる局所的な結束性の両方を捉えることができ、語彙の繰り返し状況によって、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定することができる。
【００２４】
ここで、話題の階層的構成とは、文書を構成する複数の話題のまとまりが２段以上の階層構造を成していることを意味する。この階層的構成は、例えば、文書を構成する複数の大きな話題のまとまりの各々が、１つ以上のより小さな話題のまとまりを含み、小さな話題のまとまりの各々が、１つ以上のさらに小さな話題のまとまりを含むというような話題の包含関係に対応する。
【００２５】
話題文抽出手段２は、話題の階層的構成を利用して適切な粒度（大きさ）の話題を選び、その話題の導入部から話題文を抽出する。話題の導入部としては、例えば、話題の開始位置付近の所定領域が指定され、その領域から集中的に（局所的に）話題文が抽出される。
【００２６】
例えば、話題文抽出手段２は、大きな話題に関しては、大きな話題の導入部だけでなく、大きな話題と開始位置がほぼ一致する、より小さな話題の導入部からも話題文を抽出する。さらに、抜粋量に余裕がある場合には、大きな話題のまとまりに包含される、より小さな話題の導入部からも話題文を抽出する。このように、比較的狭い範囲から集中的に文を抽出して要約に取り込むので、要約が関連性のない文の羅列になることが少なくなる。
【００２７】
また、話題文抽出手段２は、それぞれの話題境界の近傍領域内の数文を文書における出現順に取り出し、各文中の語彙の直前・直後の話題のまとまりにおける情報量（語彙の出現により伝達される情報の量を出現確率によって評価した値）に基づき、文と話題境界の直後の話題のまとまりとの関連度（順方向関連度）と、文と話題境界の直前の話題のまとまりとの関連度（逆方向関連度）を求める。
【００２８】
そして、順方向関連度と逆方向関連度との差を直後の話題のまとまりに対する相対的な関連度（順方向相対関連度）として求め、順方向相対関連度に基づいて、話題の転換点に対応する文を第１種の話題文（境界文）として抽出する。例えば、順方向相対関連度が大きく上昇する文が境界文として抽出される。また、話題文抽出手段２は、抽出された境界文の位置を、話題の導入部の開始位置に設定する。こうして、導入部が検出される。
【００２９】
これにより、直前の話題から直後の話題への転換点に対応する文を抽出することができるので、書式情報などの手掛かりを併用しなくても、話題の開始位置に掲げられている見出しなど、話題内容を端的に表す文を抽出できる可能性が高くなる。
【００３０】
さらに、話題文抽出手段２は、境界文から始まる数文の範囲を導入部として採用し、その範囲から候補文を取り出して順方向関連度を求める。そして、順方向関連度に基づいて、話題を導入する役割を持つ文を第２種の話題文（話題導入文）として抽出する。例えば、順方向関連度が最大となる文が話題導入文として抽出される。
【００３１】
これにより、話題の転換点の少し後ろから、話題を導入する役割を持つ文（後続の話題に関連の深い文）を抽出できるので、話題に関する情報を補足する役割を持った文が抽出できる可能性が高くなる。
【００３２】
要約成形手段３は、話題文抽出手段２により抽出された文を、適切な粒度の話題毎に区別して（まとめて）要約に出力する。例えば、話題文抽出手段２により、２つの話題に関する文が抽出された場合、抽出された文を、いずれの話題に対して抽出されたかによって２つのグループに分け、それぞれのグループを空行などで区切って要約に出力する。
【００３３】
これにより、要約を適切な粒度のまとまりに区切ることができるので、要約文書が長くなった場合でも、内容の区切りが一目で把握できる読みやすい要約が作成できる。
【００３４】
このとき、話題文抽出手段２は、要約の出力量に応じて、要約に取り入れる話題の大きさを決定し、構成認定手段１が認定した話題のまとまりの中から、決定された大きさの話題に関する話題のまとまりであって、文章としてのまとまりを備えているものを、話題文抽出対象として選択する。そして、それぞれの話題の導入部を検出し、そこから話題文を抽出する。これにより、望ましい粒度の話題を効率よく要約に取り込むことが可能になる。
【００３５】
さらに、要約成形手段３は、抽出された話題文に章番号などの順序ラベル情報の付いた見出しが含まれる場合、順序ラベル情報を話題文から分離して、順序ラベル情報を含まない話題文を出力する。これにより、ユーザは、要約中では大きな意味を持たない順序ラベルに煩わされることなく、要約を読み進められるようになる。
【００３６】
また、要約成形手段３は、分離された順序ラベル情報を加工して、順序ラベル情報を含まない話題文と原文書の対応関係を示す補足情報として出力することもできる。このとき、順序ラベル情報は、要約の読解の邪魔にならない形に変形されて出力される。
本発明の別の文書要約装置は、構成認定手段１、話題文抽出手段２、要約成形手段３、およびメモリを備える。構成認定手段１は、与えられた文書中の各位置の前後に設定した２つの窓中に出現している語彙をもとにそれらの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、大きさの異なる複数の窓幅を用いて話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定し、認定された話題の階層的構成のデータをメモリに格納する。話題文抽出手段２は、文に含まれる単語が話題のまとまりに高い頻度で出現するほど大きな値になるような関連度の計算式を用いて、メモリに格納された話題の階層的構成に含まれる話題境界の近傍で語彙的結束度が小さい領域に含まれる文と話題境界の直後の話題のまとまりとの関連度を表す順方向関連度と、語彙的結束度が小さい領域に含まれる文と話題境界の直前の話題のまとまりとの関連度を表す逆方向関連度を計算し、それぞれの文について得られた順方向関連度と逆方向関連度の差を順番に調べていき、順方向関連度と逆方向関連度の差が大きく増加する文を、話題境界の直後の話題内容を端的に表す話題文として抽出し、その話題文のデータをメモリに格納する。要約成形手段３は、メモリに格納された話題文を話題毎にまとめて要約を生成する。
【００３７】
例えば、図１の構成認定手段１は、後述する図２の話題構成認定部２５に対応し、図１の話題文抽出手段２は図２の話題文抽出部２７に対応し、図１の要約成形手段３は図２の出力部２８に対応する。
【００３８】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
図２は、本発明の文書要約装置の基本構成を示している。図２において、文書要約装置（digest generator）１２は、要約対象文書（input document）１１が入力されると、その要約文書１３を作成して出力する。
【００３９】
文書要約装置１２は、入力部（input unit）２１、単語認定部（tokenizer ）２２、単語辞書（machine readable dictionary ）２４、話題構成認定部（topic structure detector）２５、話題文抽出部（leading sentence extractor）２７、および出力部（output unit ）２８を備える。
【００４０】
入力部２１は、要約対象文書１１を読み込み、単語認定部２２に渡す。単語認定部２２は、サブモジュールの形態素解析部（morphological analyzer）２３を含み、それを用いて要約対象文書１１を言語的に解析して、文書１１に含まれる内容語（名詞・動詞・形容詞・形容動詞など）を切り出す。このとき、形態素解析部２３は、単語辞書２４を参照して、文書１１中の文を、品詞情報付きの単語リストに変換する。単語辞書２４は、形態素解析用の単語辞書であって、単語の表記文字列と品詞・活用の情報との対応関係などを記述している。
【００４１】
話題構成認定部２５は、サブモジュールの話題境界候補区間認定部（topic boundary detector ）２６を含み、それを用いて共通の話題について記述している文書の部分（話題のまとまり）を自動認定する。話題境界候補区間認定部２６は、語彙的結束度の小さい区間を話題境界の近傍領域（候補区間）として認定する。語彙的結束度とは、文書１１中の各位置の近傍領域における語彙的結束性の強さを表す指標であり、例えば、各位置の前後に設定したある幅の窓内に出現する語彙の類似性から求められる。
【００４２】
話題文抽出部２７は、まず、話題構成認定部２５で認定した各々の話題のまとまりに対して、話題の開始位置付近にある導入部を検出し、検出された導入部から話題文を認定する。次に、文書１１の大きさと望ましい要約の大きさから、要約として抽出すべき話題の数を計算し、要約作成の単位とする話題のまとまりの大きさを決定する。そして、決定した大きさ程度の話題のまとまりに属する話題文を、要約に取り入れる文として抽出する。
【００４３】
出力部２８は、話題文抽出部２７が抽出した文を、話題毎にまとめて要約文書１３を作成し、処理結果として出力する。
図２の文書要約装置１２によれば、話題構成認定部２５が、共通の話題について記述している文書の部分を話題のまとまりとして認定し、話題文抽出部２７が、それぞれの話題の開始位置付近から集中的に文を抽出する。このように、比較的狭い範囲から集中的に文を抽出して要約に取り込むので、要約が関連性のない文の羅列になることが少なくなる。
【００４４】
また、話題文抽出部２７は、それぞれの話題境界付近の数文を文書の出現順に取り出し、文中の単語と直前・直後の話題のまとまりとの関連度に基づき、直後の話題との関連度（順方向関連度）が直前の話題との関連度（逆方向関連度）に比べて急激に大きくなる文を境界文として認定する。これにより、書式情報などの手掛かりを併用しなくても、直前の話題から直後の話題への転換点に対応する文を精度よく抽出することができる。
【００４５】
さらに、話題文抽出部２７は、境界文以降の数文の範囲で候補文を取り出し、境界文以降の文について順方向関連度を求め、順方向関連度が最大となる文を話題導入文として抽出する。これにより、話題の転換点の少し後ろから、話題を導入する役割を持つ文（後続の話題に関連の深い文）を抽出できるので、話題に関する情報を補足する役割を持った文が抽出できる可能性が高くなる。
【００４６】
また、話題文抽出部２７は、話題構成認定部２５が認定した話題のまとまりの中から、適切な粒度の話題のまとまりで、結束性（文章としてのまとまり）の強いものを話題文抽出処理対象として選択し、そこから話題文を抽出する。これにより、望ましい粒度の話題を効率よく要約に取り込むことが可能になる。
【００４７】
出力部２８は、話題文抽出部２７が抽出した文を、適切な粒度の話題毎にまとめて要約文書１３を作成し、出力する。これにより、要約を適切な粒度のまとまりに区切ることができるので、要約文書１３が長くなった場合でも、内容の区切りが一目で把握できる読みやすい要約が作成できる。
【００４８】
さらに、出力部２８は、章番号などの順序ラベル付きの見出しに対しては、順序ラベルを、本文との対応関係を示す補足情報の形に加工して出力する。これにより、ユーザは、要約中では大きな意味をもたない順序ラベルに煩わされることなく、要約を読み進められるようになる。また、要約文書１３の内容を要約対象文書１１の内容との対応関係も把握しやすくなる。
【００４９】
図２の文書要約装置１２は、例えば、図３に示すような情報処理装置（コンピュータ）を用いて構成することができる。図３の情報処理装置は、出力装置４１、入力装置４２、ＣＰＵ（中央処理装置）４３、ネットワーク接続装置４４、媒体駆動装置４５、補助記憶装置４６、およびメモリ（主記憶）４７を備え、それらはバス４８により互いに接続されている。
【００５０】
メモリ４７は、例えば、ＲＯＭ（read only memory）、ＲＡＭ（random access memory）などを含み、文書要約処理に用いられるプログラムとデータを格納する。ここでは、図２に示した入力部２１、単語認定部２２、形態素解析部２３、話題構成認定部２５、話題境界候補区間認定部２６、話題文抽出部２７、および出力部２８が、プログラムモジュールとして格納されている。ＣＰＵ４３は、メモリ４７を利用してプログラムを実行することにより、必要な処理を行う。
【００５１】
出力装置４１は、例えば、ディスプレイやプリンタなどであり、ユーザへの問い合わせや要約文書１３などの出力に用いられる。入力装置４２は、例えば、キーボード、ポインティングデバイス、タッチパネルなどであり、ユーザからの指示や要約対象文書１１の入力に用いられる。
【００５２】
補助記憶装置４６は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク（magneto-optical disk）装置などであり、要約対象文書１１、要約文書１３、単語辞書２４などの情報を格納する。情報処理装置は、この補助記憶装置４６に、上述のプログラムとデータを保存しておき、必要に応じて、それらをメモリ４７にロードして使用することもできる。
【００５３】
媒体駆動装置４５は、可搬記録媒体４９を駆動し、その記録内容にアクセスする。可搬記録媒体４９としては、メモリカード、フロッピーディスク、ＣＤ−ＲＯＭ（compact disk read only memory ）、光ディスク、光磁気ディスクなど、任意のコンピュータ読み取り可能な記録媒体が用いられる。ユーザは、この可搬記録媒体４９に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ４７にロードして使用することもできる。
【００５４】
ネットワーク接続装置４４は、ＬＡＮ（local area network）などの任意のネットワーク（回線）を介して外部の装置と通信し、通信に伴うデータ変換を行う。また、情報処理装置は、必要に応じて、上述のプログラムとデータを外部の装置から受け取り、それらをメモリ４７にロードして使用することもできる。
【００５５】
図４は、図３の情報処理装置にプログラムとデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体４９や外部のデータベース５０に保存されたプログラムとデータは、メモリ４７にロードされる。そして、ＣＰＵ４３は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。
【００５６】
次に、図２の文書要約装置１２の各モジュールの動作を、具体例を用いてより詳細に説明する。要約対象文書としては、（社）電子工業振興協会「自然言語処理システムの動向に関する調査報告書」（平成９年３月）第４章「ネットワークアクセス技術専門委員会活動報告」（ｐｐ．１１７−１９７）を用いた。以下の実施形態では、この文書から文を抜粋してＡ４、１〜２枚（１５００文字）程度の要約の作成を試みる。
【００５７】
従来、要約の大きさとしては、原文書の１／４程度の大きさが目安とされてきたが、この要約対象文書は８１ページの大きさを持ち、従来の自動要約技術が対象としてきた新聞の社説や記事、数頁程度の論文などに比べて巨大である。また、オンラインで文書を閲覧する場合、画面に一度に表示できるのは２ページ程度が限度である。これらの条件を考慮して、上述のような要約の大きさが決められている。
【００５８】
要約対象文書の全体を掲載することは適当ではないので、参考として、要約対象文書中の見出しの一覧を図５から図７に示す。図５は、４．１節および４．２節の見出しを出現順に示しており、図６は、４．３節の見出しを出現順に示しており、図７は、４．４節の見出しを出現順に示している。
【００５９】
図８は、単語認定部２２による単語認定処理のフローチャートである。単語認定部２２は、まず、要約対象文書に形態素解析を施し、品詞付きの単語リストを作成する（ステップＳ１１）。次に、品詞を手掛かりに内容語（名詞・動詞・形容詞・形容動詞）を認定し、内容語に対応する文書の部分に印を付けて（ステップＳ１２）、処理を終了する。図９は、要約対象文書の冒頭部分を示しており、図１０は、単語認定部２２からの対応する出力を示している。
【００６０】
図８のステップＳ１１において、形態素解析部２３は、図１１に示すような形態素解析処理を行う。形態素解析部２３は、まず、単語リストをクリアし（ステップＳ２１）、文書の先頭から句点（またはピリオド）などを手掛かりに文の取り出しを試み（ステップＳ２２）、文が取り出せたかどうかを判定する（ステップＳ２３）。
【００６１】
文が取り出せれば、次に、単語辞書２４を参照して、文に含まれている単語の候補を求める（ステップＳ２４）。日本語の場合は、図９に示したように、単語と単語の境界が形式的に明示されていないので、文に含まれる部分文字列に対応するすべての単語を候補として求める。例えば、「東京都は大都市だ」という文が取り出された場合、図１２に示すように、この文に含まれるすべての部分文字列が単語の候補となる。
【００６２】
これに対して、英語の場合は、単語の境界が空白（スペース）により明示されているため、空白で区切られた文字列に対応する単語について、品詞の候補を求めることが主な処理となる。例えば、“Tokyo is the Japanese capital.”という文が取り出された場合、図１３に示すように、この文に明示的に含まれる５つの単語の基本形と品詞が求められる。
【００６３】
次に、形態素解析部２３は、品詞レベルの連接の観点から、妥当な単語の並びを選択し（ステップＳ２５）、選択された単語の並びに品詞と出現位置の情報を付加して、出現順に単語リストに追加する（ステップＳ２６）。次に、次の文の取り出しを試み（ステップＳ２７）、ステップＳ２３以降の処理を繰り返す。そして、ステップＳ２３において文が取り出せなくなると、処理を終了する。
【００６４】
図１０の単語認定結果において、墨付き括弧で括られた部分が形態素解析部２３の認定した内容語である。内容語が活用語（動詞・形容詞）の場合、墨付き括弧内で、スラッシュ（／）の前の部分は語幹を表し、スラッシュの後の部分は終止形の活用語尾を表す。これは、後の処理で単語の区別を行うために用いられる情報であるが、この情報の代わりに、品詞と活用を付加しておいてもよい。要するに、例えば、「い／る」と「い／く」のように、語幹だけでは区別の付かない単語を区別するための識別情報であれば、任意のものを用いることができる。
【００６５】
また、ステップＳ２５において、単語の並びの妥当性を評価する方法は、形態素解析法として各種のものが知られており、任意のものを用いることができる。例えば、単語の並びの妥当性を訓練データにより推定された出現確率を用いて評価する方法が報告されている（Eugene Charniak. Hidden markov models and two applications. In Statistical Language Learning, chapter 3, pp.37-73. The MIT Press, 1993. ／ Masaaki Nagata. A stochastic japanese morphological analyzer using a forward-DP backward-A^*N-best search algorithm. In Proceedings of COLING'94, pp.201-207, 1994.／永田昌明、前向きＤＰ後向きＡ^*アルゴリズムを用いた確率的日本語形態素解析システム、情処研報ＮＬ−１０１−１０、情報処理学会、１９９４年５月．）。
【００６６】
なお、図１０の例では、単語認定部２２がすべての内容語を切り出しているが、切り出しの対象を名詞だけに絞っても構わない。また、英語の文書を対象に処理する場合には、形態素解析処理を行う代わりに、空白で区切られたすべての語のうち、話題に関わらずどこにでも出現する語彙（冠詞、前置詞などの機能語や特に高い頻度で出現する語）を取り除いて、単語を切り出してもよい。このような処理は、単語辞書２４の代わりに、機能語や特に高い頻度で出現する語を格納したストップワードリスト（stop word list）を用意すれば、容易に実現できる。
【００６７】
次に、話題構成認定部２５の処理について説明する。本実施形態においては、話題のまとまりを、先願の特願平１０−０７２７２４「文書要約装置およびその方法」に示された技術に基づいて認定することにする。この方法では、以下の手順で話題の階層構成が認定される。
１．話題境界位置の区間推定
ある窓幅で計算した結束度に基づき、話題境界が存在しそうな区間を、話題境界候補区間として求める。この話題境界候補区間は、話題境界の近傍領域の１つであると考えられる。そして、大きさの異なる複数の窓幅に対してこの処理を繰り返し、大きな話題の切れ目を示す境界から小さな話題の切れ目を示す境界まで、話題の大きさ別に話題境界候補区間を求める。
２．話題の階層関係の認定
異なる窓幅により求めた話題境界候補区間を統合し、話題の階層構成とそれぞれの話題境界の位置を決定する。
【００６８】
これに対して、本実施形態では、話題の階層関係の認定の処理を簡略化し、大きな窓幅による話題境界候補区間と小さな窓幅による話題境界候補区間とで、境界位置が候補区間の範囲内で一致するとみなせるもの同士を、互いに関係付けるだけにとどめている。最終的な話題境界位置は、後述するように、話題文抽出部２７による話題文認定処理で決定される。
【００６９】
図１４は、話題構成認定部２６による話題構成認定処理のフローチャートである。話題構成認定部２６は、まず、最大窓幅ｗ₁、最小窓幅ｗ_min、窓幅比ｒの３つのパラメータをユーザから受け取り（ステップＳ４１）、結束度を測定するための窓幅の集合Ｗを求める（ステップＳ４２）。図１４では、図面の見やすさを考慮して、記号“ｗ_min”の添字を、“ｗｍｉｎ”のように記している。窓幅の集合Ｗは、初項をｗ₁とし、公比を１／ｒとする等比級数から、ｗ_min以上の大きさの項を集めて作成される。
【００７０】
このとき、Ｗにおける最大窓幅ｗ₁としては、文書全体の１／２〜１／４程度の大きさを与え、最小窓幅ｗ_minとしては、段落程度の大きさ（例えば、４０語）を与え、窓幅比ｒとしては２を与えておけば、実用上十分である。そこで、以下では、ｗ₁＝５，１２０（語）、ｗ_min＝４０（語）、ｒ＝２の値を用いている。
【００７１】
次に、話題構成認定部２５は、図１０に示したように、内容語に印が付けられた文書をもとに、文書中の各位置の結束度を、Ｗ中のそれぞれの窓幅毎に計算し、結束度系列として記録する（ステップＳ４３）。
【００７２】
ここでは、まず、文書の各位置（基準点）の前後に設定した２つの窓の中に出現している語彙（ここでは内容語）を比較し、共通している語彙が多い程大きくなるような値を計算して、その位置における結束度とする。そして、窓の位置を文書の冒頭から末尾に向かって一定の刻み幅ｔｉｃでずらしながら、結束度の計算を繰り返し、計算した結束度を、文書の冒頭から末尾に向かう系列として記録する。
【００７３】
なお、刻み幅ｔｉｃは、窓幅より小さければいずれの値でも構わないが、処理効率を考慮して、ここでは、窓幅の１／８の値を用いた。このｔｉｃの値は、ユーザが指定することもできる。
【００７４】
結束度の計算方法としては各種の方法が考えられるが、以下では、情報検索などの分野で類似度の指標として広く用いられてきた余弦測度（cosine measure）を用いている。この余弦測度は、次式により求められる。
【００７５】
【数１】

【００７６】
ここで、ｂ_lとｂ_rは、それぞれ、左窓（文書の冒頭側の窓）、右窓（文書の末尾側の窓）に含まれる文書の部分を表し、ｗ_t,bl、ｗ_t,brは、それぞれ、左窓、右窓に出現する単語ｔの出現頻度を表す。また、（１）式の右辺のΣ_tは、単語ｔに関する総和を表す。
【００７７】
（１）式の類似度は、左右の窓に含まれる語彙に共通のものが多いほど大きくなり（最大１）、共通のものがない時に０となる。つまり、この値が大きい部分は、左右の窓で共通の話題を扱っている可能性が高く、逆に、この値が小さい部分は、話題の境界である可能性が高いことになる。
【００７８】
次に、図１５は、ステップＳ４３で記録された結束度の系列を示している。ここでは、窓幅ｗの１／４が刻み幅ｔｉｃとして用いられており、文書領域ａ１〜ａ１１は、刻み幅ｔｉｃに対応する一定幅の領域である。また、ｃ１は、文書中のａ４とａ５の境界を基準点として計算した、窓幅ｗの結束度を表す。すなわち、ｃ１は、文書領域ａ１〜ａ４の部分を左窓の範囲とし、ａ５〜ａ８の部分を右窓の範囲として計算された結束度である。
【００７９】
次のｃ２は、窓をｔｉｃ分だけ右へずらして計算された結束度を表し、ａ５とａ６の境界を基準点とする窓幅ｗの結束度である。このようにして、窓をｔｉｃ分ずつ順に右へずらして計算したｃ１，ｃ２，ｃ３，ｃ４，．．．を、文書の冒頭から末尾へ向かう窓幅ｗの結束度系列と呼んでいる。
【００８０】
図１６は、上述の単語認定結果において、文書の冒頭から各基準点までの間に出現した内容語の延べ数を横軸にとり、６４０語の窓幅の結束度系列をプロットしたグラフである。例えば、図１５の結束度ｃ２の場合は、ａ１〜ａ５の領域中の内容語の延べ数が、文書における基準点の位置となる。ここでは、６４０語の窓幅の１／８（８０語）を刻み幅ｔｉｃとして、文書の冒頭から末尾に向かって結束度を計算している。
【００８１】
次に、話題構成認定部２５は、サブモジュールの話題境界候補区間認定部２６を使って、それぞれの窓幅の結束度系列を解析し、結束度の低い区間を話題境界候補区間として認定する（ステップＳ４４）。
【００８２】
図１６に示したように、結束度系列における極小点は、実際の話題境界（点線で示した節の境界）に対応することが多いが、すべての極小点が話題境界に対応するわけではない。話題境界候補区間認定部２６は、結束度系列の極小点を手掛かりに、それぞれの結束度系列の窓幅程度の大きさの話題のまとまりの境界位置を区間推定する。本実施形態では、この処理を、移動平均法を用いて実現している。
【００８３】
次に、話題構成認定部２５は、異なる窓幅の結束度系列に基づいて求めた話題境界候補区間を互いに関連付けて出力する（ステップＳ４５）。これにより、話題構成認定処理が終了する。
【００８４】
次に、図１４のステップＳ４４における話題境界候補区間認定処理について、図１５および図１７を使って説明する。ここで用いられる移動平均法は、株価の変動などの統計的分析方法である時系列分析（time series analysis）において、細かい変動を取り除いて大局的な傾向を把握するために使われている。本実施形態では、結束度系列の移動平均値を細かい変動を無視するために用いるだけでなく、それを移動平均の開始点における順方向結束力および移動平均の終了点における逆方向結束力とみなすことで、話題境界候補区間認定のための直接的な手掛かりとしている。
【００８５】
図１５は、前述したように、結束度の系列ｃ１〜ｃ４と文書領域ａ１〜ａ１１との関係を示している。結束度系列の移動平均値とは、例えば、（ｃ１＋ｃ２）／２（２項の移動平均）、（ｃ１＋ｃ２＋ｃ３）／３（３項の移動平均）、（ｃ１＋ｃ２＋ｃ３＋ｃ４）／４（４項の移動平均）のように、結束度系列において連続するｎ個の値を算術平均した値である。
【００８６】
図１７は、図１５の結束度系列の移動平均の例と文書領域との関係を示している。ここでは、移動平均の例として、図１５の結束度の２項〜４項の移動平均が示され、それぞれの移動平均に関わる結束度の計算において、各文書領域が使用された回数が示されている。このうち、下線を付けた値は、対応する文書領域が移動平均に関わるすべての結束度の計算に用いられていることを表す。
【００８７】
例えば、左上角の値“１”は、ｃ１〜ｃ４までの４項の移動平均において、文書領域ａ１が一度だけ左窓の一部として扱われたことを示している。また、その右の値“２”は、ｃ１〜ｃ４までの４項の移動平均において、文書領域ａ２が２回左窓の一部として扱われたことを示している。他の使用回数についても、同様である。
【００８８】
結束度は境界の前後の部分の結び付きの強さを表す指標であるので、領域ａ１を左窓に含んで得られた結束度ｃ１を用いて計算された移動平均値も、領域ａ１がそれより右側（文書の末尾側）の部分に結び付いているかどうかを示す指標の１つと考えられる。
【００８９】
言い換えれば、移動平均値は、移動平均をとった結束度の左窓部分の領域（ｃ１〜ｃ４の４項平均に対してはａ１〜ａ７）が文書の末尾方向（順方向：図１５では右方向）に引っ張られる強さの指標（順方向結束力）になっていると言える。一方、逆に、移動平均をとった結束度の右窓部分の領域（ｃ１〜ｃ４の４項平均に対してａ５〜ａ１１）が文章の冒頭方向（逆方向：図１５では左方向）に引っ張られる強さの指標（逆方向結束力）になっているとも言える。
【００９０】
ここで、結束力とそれぞれの文書領域との関連性を考察すると、結束度の計算においてより多く窓に含まれていた領域との関連が強いと考えられる。また、語彙的結束性は、一般に、近傍で繰り返される語彙に基づくものほど強いと考えられるので、移動平均をとった結束度の基準点（左右の窓の境界位置）に近い位置にある領域ほど関連が強いとも言える。
【００９１】
例えば、図１７の４項の移動平均については、結束度の基準点は、ａ４とａ５の境界、ａ５とａ６の境界、ａ６とａ７の境界、およびａ７とａ８の境界の４つである。この場合、ａ４は最も多く左窓に含まれており、かつ、これらの基準点に最も近いことが分かる。また、ａ８は最も多く右窓に含まれており、かつ、これらの基準点に最も近いことが分かる。したがって、移動平均値と最も関連の強い領域は、左窓についてはａ４、右窓についてはａ８となる。
【００９２】
同様にして、３項の移動平均と最も関連の強い領域を選ぶと、左窓についてはａ４、右窓についてはａ７となり、２項の移動平均と最も関連の強い領域を選ぶと、左窓についてはａ４、右窓についてはａ６となる。これらの領域の使用回数は、図１７では斜線を付けて示されている。
【００９３】
以上の考察に基づき、話題境界候補区間認定部２６は、結束度の移動平均値を、移動平均をとった領域内の最初の基準点における順方向結束力および最後の基準点における逆方向結束力の指標として取り扱う。例えば、ｃ１〜ｃ４の４項の移動平均値は、ａ４とａ５の境界における順方向結束力およびａ７とａ８の境界における逆方向結束力となる。図１８は、話題境界候補区間認定部２６による話題境界候補区間認定処理のフローチャートである。候補区間認定部２６は、まず、話題構成認定部２５から結束度系列の刻み幅ｔｉｃを受け取り、ユーザから移動平均の項数ｎを受け取る（ステップＳ５１）。
【００９４】
これらのパラメータの値の目安は、刻み幅ｔｉｃについては、例えば、窓幅ｗの１／８〜１／１０程度の大きさであり、項数ｎについては、ｗ／ｔｉｃの半分（４〜５）程度である。また、移動平均をとる領域の最初の基準点から最後の基準点までの隔たりを、（ｎ−１）＊ｔｉｃにより計算して、それを移動平均の幅ｄ（語）とする。
【００９５】
次に、文書中の各位置ｐについて、ｐ〜ｐ＋ｄの範囲内で結束度の移動平均をとり、平均値を位置ｐにおける順方向結束力として記録する（ステップＳ５２）。この値は、同時に、移動平均をとった範囲の終了位置ｐ＋ｄにおける逆方向結束力としても記録される。
【００９６】
次に、記録された順方向結束力をもとに、文書中の冒頭から末尾に向かって各位置における順方向結束力と逆方向結束力の差（順方向結束力−逆方向結束力）を調べ、その値が負から正に変化する位置を負の結束力拮抗点ｍｐとして記録する（ステップＳ５３）。
【００９７】
負の結束力拮抗点とは、その位置の左では逆方向結束力が優勢であり、その位置の右では順方向結束力が優勢であるような点である。したがって、この点の左右の部分は意味的な結び付きが弱いと考えられ、負の結束力拮抗点は話題境界の候補位置となる。
【００９８】
次に、記録された負の結束力拮抗点ｍｐの直前・直後のｄ語以内の範囲［ｍｐ−ｄ，ｍｐ＋ｄ］を話題境界候補区間と認定して（ステップＳ５３）、処理を終了する。
【００９９】
ここで、順・逆方向の結束力の差に基づいて話題境界候補区間を認定する意味を、図１９を使って説明する。図１９は、図１６の１２０００語の手前付近（１１０００語〜１１５００語付近）における３２０語幅の窓による結束度と順・逆方向の結束力の分布を示している。刻み幅ｔｉｃとしては、窓幅の１／８を採用している。
【０１００】
図１９において、記号＋でプロットした折れ線グラフは、結束度Ｃの系列を表し、記号＊でプロットした折れ線グラフは、順方向結束力ＦＣの系列を表し、記号□でプロットした折れ線グラフは、逆方向結束力ＢＣの系列を表す。話題境界候補区間と結束力拮抗点を表す２重矩形で示された領域については、後述することにする。
【０１０１】
また、点線で示されたｅｐ１、ｅｐ２、ｅｐ３は、順・逆方向の結束力の差が０になる３つの点（結束力拮抗点）を表す。最初の点ｅｐ１の左側では、逆方向結束力が順方向結束力より優勢であり、その右側から次の点ｅｐ２までは、順方向結束力が逆方向結束力より優勢である。さらに、その右側から最後の点ｅｐ３までは、逆方向結束力が順方向結束力より優勢であり、その右側では、順方向結束力が逆方向結束力より優勢である。
【０１０２】
したがって、ｅｐ１とｅｐ３は、順方向結束力と逆方向結束力の差が負から正に変化する負の結束力拮抗点であり、ｅｐ２は、その差が正から負に変化する正の結束力拮抗点である。
【０１０３】
このような結束力の変化から、最初の点ｅｐ１の左側の領域は、それより左側のいずれかの部分へ向かって結束し、真中の点ｅｐ２の両側の領域は、ｅｐ２に向かって結束し、最後の点ｅｐ３の右側の領域は、それより右側のいずれかの部分ヘ向かって結束していることが分かる。実際、順・逆方向の結束力と共にプロットした結束度は、ｅｐ１とｅｐ３の近傍で極小値をとり、ｅｐ２の近傍で極大値をとっている。このように、順・逆方向の結束力の変化と結束度の変化は密接に関連している。
【０１０４】
例えば、図１９の結束力拮抗点ｅｐ３の近傍の水平の矢印で示した部分Ｐ１は、結束度が極小となる部分の１つである。このため、この部分Ｐ１の移動平均（ここでは、ｃ１〜ｃ４の４項平均）の値も、Ｐ２およびＰ３における結束力が示しているように、通常は、極小値をとる。ただし、移動平均をとる領域より狭い範囲で細かい変動がある場合には、移動平均の平滑化作用により、移動平均値すなわち結束力が極小値をとらないこともある。
【０１０５】
また、順方向結束力は移動平均値を移動平均をとる領域の開始位置に記録した指標であるので、順方向結束力の極小位置は結束度の極小位置の左になる。同様の理由により、逆方向結束力の極小位置は結束度の極小位置の右になる。そして、結束度の変動が十分に大きければ、移動平均をとる領域内に結束力拮抗点が生成されることになる。
【０１０６】
図２０は、図１４のステップＳ４５において行われる話題境界候補区間関連付け処理のフローチャートである。話題構成認定部２５は、まず、認定された話題境界候補区間を、認定に使った結束度系列の窓幅と、話題境界候補区間内の結束力拮抗点の文書における出現位置とによってソートしてまとめ、話題境界候補区間データの系列Ｂ（ｊ）［ｐ］を作成する（ステップＳ６１）。
【０１０７】
ここで、制御変数ｊは、窓幅ｗ_jの結束度系列により認定されたことを表す系列番号であり、制御変数ｐは、系列内の各話題境界候補区間を表すデータ番号である。実際には、ｊは、窓幅の大きい順に０，１，２，．．．のような値をとり、ｐは、結束力拮抗点の出現順に１，２，．．．のような値をとる。なお、系列番号０に対応するデータＢ（０）は、文書全体に対応して作成される特殊なデータであり、その話題境界候補区間は結束度系列とは独立に設定される。それぞれのデータＢ（ｊ）［ｐ］は、次のような要素データを含む。
【０１０８】
・Ｂ（ｊ）［ｐ］．ｒａｎｇｅ：話題境界候補区間。（開始位置、終了位置）の組。
・Ｂ（ｊ）［ｐ］．ｂｐ：結束力拮抗点。
【０１０９】
・Ｂ（ｊ）［ｐ］．ｃｈｉｌｄ：境界位置の話題境界候補区間の範囲で一致するＢ（ｊ＋１）系列の話題境界候補区間（子候補区間）。
ここで、結束力拮抗点は理論的には点であるが、前述のように、順方向結束力と逆方向結束力の差の符号が反転する地点を拮抗点として認定しているので、実際には、差が負の点（開始位置）と差が正の点（終了位置）の組が得られる。そこで、本実施形態では、結束力拮抗点の開始位置ｌｐと終了位置ｒｐにおける（順方向結束力−逆方向結束力）の値を、それぞれ、ＤＣ（ｌｐ）とＤＣ（ｒｐ）として、左右の結束力が０になる点ｂｐを、次式により補間して求める。

そして、得られたｂｐを、Ｂ（ｊ）［ｐ］．ｂｐとする。
【０１１０】
次に、話題構成認定部２５は、窓幅の異なる話題境界候補区間データを関連付ける処理を行う。ここでは、１つの系列に属するＢ（ｊ）［ｐ］をまとめてＢ（ｊ）と記し、さらに、次のような表記法を用いて、以下の処理を説明する。
【０１１１】
・ｉｅ：最小窓幅ｗ_minに対応する系列番号。
・｜Ｂ（ｊ）｜：Ｂ（ｊ）におけるデータ番号ｐの最大値。
まず、処理対象を表す系列番号ｉを１に初期化する（ステップＳ６２）。これにより、最大窓幅ｗ₁による話題境界候補区間の系列が処理対象に設定される。そして、ｊ＋１≦ｊｅである限り、ｊをインクリメントしながら、Ｂ（ｊ＋１）を関連付け対象の系列とする関連付け処理を行う。
【０１１２】
この関連付け処理では、処理対象系列中のそれぞれの話題境界候補区間データＢ（ｊ）［ｐ］（ｐ＝１，．．．，｜Ｂ（ｊ）｜）について、それと同じ付近を境界候補としている関連付け対象系列中のデータＢ（ｊ＋１）［ｑ］のうち、Ｂ（ｊ＋１）［ｑ］．ｂｐがＢ（ｊ）［ｐ］．ｂｐに最も近いデータが選ばれ、関連境界候補区間データとしてＢ（ｊ）［ｐ］．ｃｈｉｌｄに格納される。
【０１１３】
具体的な手順は以下の通りである。まず、ｊ＋１とｊｅを比較し（ステップＳ６３）、ｊ＋１≦ｊｅであれば、ｐに１を代入して（ステップＳ６４）、ｐと｜Ｂ（ｊ）｜を比較する（ステップＳ６５）。ｐ≦｜Ｂ（ｊ）｜であれば、ステップＳ６６以降の関連付け処理を行い、ｐが｜Ｂ（ｊ）｜を越えれば、ｊ＝ｊ＋１とおいて（ステップＳ７１）、ステップＳ６３以降の処理を繰り返す。
【０１１４】
ステップＳ６６では、話題構成認定部２５は、関連付け候補となる系列中のデータＢ（ｊ＋１）［ｑ］（ｑ＝１，．．．，｜Ｂ（ｊ＋１）｜）の中から、Ｂ（ｊ＋１）［ｑ］．ｂｐ∈Ｂ（ｊ）［ｐ］．ｒａｎｇｅとなるデータでＢ（ｊ＋１）［ｑ］．ｂｐがＢ（ｊ）［ｐ］．ｂｐに最も近いデータを、関連付け対象データとして選択し、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄに格納する。
【０１１５】
ここで、Ｂ（ｊ＋１）［ｑ］．ｂｐ∈Ｂ（ｊ）［ｐ］．ｒａｎｇｅという条件は、Ｂ（ｊ）［ｐ］の話題境界候補区間の中にＢ（ｊ＋１）［ｑ］の結束力拮抗点が含まれていることを表す。また、処理対象データＢ（ｊ）［ｐ］と関連付け対象データＢ（ｊ＋１）［ｑ］は、双方向のリンクで関連付けてもよく、片方向のリンクで関連付けてもよい。
【０１１６】
図２１は、関連付け対象データの選択例を示している。図２１において、記号＋でプロットした折れ線グラフは、処理対象に対応する６４０語幅の窓による順方向結束力の系列を表し、記号×でプロットした折れ線グラフは、６４０語幅の窓による逆方向結束力の系列を表す。また、記号＊でプロットした折れ線グラフは、関連付け対象に対応する３２０語幅の窓による順方向結束力の系列を表し、記号□でプロットした折れ線グラフは、３２０語幅の窓による逆方向結束力の系列を表す。
【０１１７】
また、２重矩形で示された領域のうち、大きな矩形領域が話題境界候補区間に対応し、それに含まれている小さな矩形領域が結束力拮抗点に対応する。ここでは、結束力拮抗点は、開始位置と終了位置により区切られた小さな区間として表されている。
【０１１８】
例えば、処理対象データをＢ（４）［１２］とすると、その話題境界候補区間Ｂ（４）［１２］．ｒａｎｇｅには、関連付け対象系列の２つのデータの結束力拮抗点Ｂ（５）［２４］．ｂｐとＢ（５）［２５］．ｂｐが含まれている。このため、Ｂ（５）［２４］とＢ（５）［２５］が関連付け対象データの候補となる。これらのうち、Ｂ（５）［２５］．ｂｐの方が、処理対象データの結束力拮抗点Ｂ（４）［１２］．ｂｐにより近いので、Ｂ（５）［２５］が関連付け対象データとして選択される。
【０１１９】
次に、話題構成認定部２５は、関連付け対象データが選択できたかどうかを判定する（ステップＳ６７）。ここでは、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄが空でなければ、関連付け対象データが選択できたと判定され、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄが空であれば、関連付け対象データが選択できなかったと判定される。そして、関連付け対象データが選択できた場合は、ｐ＝ｐ＋１とおいて（ステップＳ７０）、ステップＳ６５以降の処理を繰り返す。
【０１２０】
関連付け対象データが選択できなかった場合には、Ｂ（ｊ）［ｐ］と同じ話題境界候補区間を持つ疑似的な関連付け対象データ（ダミーデータ）Ｂ（ｊ＋１）［ｑ］を作成し、Ｂ（ｊ＋１）の系列に挿入する（ステップＳ６８）。
【０１２１】
ステップＳ６８では、まず、Ｂ（ｊ＋１）［ｑ］．ｒａｎｇｅとＢ（ｊ＋１）［ｑ］．ｂｐに、それぞれ、Ｂ（ｊ）［ｐ］．ｒａｎｇｅとＢ（ｊ）［ｐ］．ｂｐの値を設定して、新たなデータＢ（ｊ＋１）［ｑ］を作成する。そして、系列Ｂ（ｊ＋１）の中で、Ｂ（ｊ＋１）［ｑ−１］．ｂｐ＜Ｂ（ｊ＋１）［ｑ］．ｂｐかつＢ（ｊ＋１）［ｑ］．ｂｐ＜Ｂ（ｊ＋１）［ｑ＋１］．ｂｐとなるような位置に、作成したデータＢ（ｊ＋１）［ｑ］を挿入する。
【０１２２】
これにより、疑似的な関連付け対象データのデータ番号ｑが決定され、それ以降の既存データのデータ番号は書き換えられる。ここで、擬似的な話題境界候補区間データを作成するのは、以降の処理において、ｊ以下のすべての系列番号の話題階層において話題文を抽出するためである。
【０１２３】
次に、作成されたダミーデータＢ（ｊ＋１）［ｑ］をＢ（ｊ）［ｐ］．ｃｈｉｌｄに格納し（ステップＳ６９）、ステップＳ７０以降の処理を行う。そして、ステップＳ６３においてｊ＋１がｊｅを越えれば、処理を終了する。
【０１２４】
最終的には、ｊｅ未満のすべての系列番号ｊのデータに対して、その話題境界候補区間内に結束力拮抗点を持つ系列番号ｊ＋１のデータが、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄに設定される。したがって、Ｂ（ｊ）［ｐ］．ｃｈｉｌｄにより、複数の階層の話題境界候補区間データが連鎖的に関連付けられることになる。
【０１２５】
図２２は、こうして得られた話題境界の認定結果を示している。図２２において、５１２０語、２５６０語、１２８０語、６４０語の各窓幅に対応して２重矩形で示された領域のうち、大きな矩形領域が話題境界候補区間に対応し、それに含まれている小さな矩形領域が結束力拮抗点に対応する。Ｂ（１）、Ｂ（２）、Ｂ（３）、Ｂ（４）は、それぞれ、５１２０語、２５６０語、１２８０語、６４０語の各窓幅に対応する系列を表し、２重矩形に添えられた番号［１］，［２］，．．．などは、各系列内のデータ番号を表す。
【０１２６】
また、各系列には、文書全体の開始位置に対応する番号［０］の境界データが加えられている。これは、番号［０］のデータから、文書の先頭の話題のまとまりに対する話題文、特に、文書全体のまとまり（Ｂ（０））に対する話題文を抽出するための措置である。いずれの系列の番号［０］のデータについても、その話題境界候補区間の幅は、最小窓幅による移動平均幅程度（２５語）に設定されている。
【０１２７】
図２２の認定結果では、大きな窓幅によって認定された境界ほど大きな話題の切れ目に対応するという傾向にあることが見てとれる。例えば、最大窓幅（５１２０語幅）による話題境界が４．３節、４．４節というような大きな節の開始位置とよく対応しており、その次に大きな窓幅（２５６０語幅）による話題境界が４．３．１節、４．３．２節などの次に大きな節の開始位置とよく対応している。
【０１２８】
次に、話題文抽出部２７の処理について説明する。話題文抽出部２７の処理には、大きく分けて２種類の処理が含まれる。第１の処理は、話題文認定処理であり、話題構成認定部２５が認定したそれぞれの話題のまとまりに対して、話題文を認定し、境界位置を確定するために行われる。第２の処理は、話題文抽出処理であり、要約の出力量に応じて要約に取り入れる話題の粒度を調整するための処理である。
【０１２９】
話題文抽出部２７は、話題文認定処理において、まず、話題構成認定部２５が認定した話題境界候補区間のそれぞれに対して、その範囲内の文を候補として、直後の話題が立ち上がる位置にあたる文を検出する。そして、この文を第１種の話題文（境界文）として認定する。
【０１３０】
次に、この境界文の位置を話題の導入部の開始位置として記録し、候補区間内の境界文以降の部分を導入部と認定する。そして、話題文抽出部２７は、導入部の文の中で、直後の話題のまとまりとの関連度が最大となる文を第２種の話題文（話題導入文）として認定する。
【０１３１】
話題文抽出部２７は、境界文および話題導入文を認定するために、順方向関連度および逆方向関連度という２種類の関連度を用いる。順方向関連度とは、話題構成認定部２５が認定した話題境界候補区間内のそれぞれの文と、その直後の話題のまとまりとの関連性の度合いを示す指標である。逆方向関連度とは、話題境界候補区間内のそれぞれの文と、その直前の話題のまとまりとの関連性の度合いを示す指標である。
【０１３２】
ここで、文Ｓと話題のまとまりｂとの関連度ｒ_S,bは、語彙の繰り返し状況によって定義することができ、例えば、次式により求められる。
【０１３３】
【数２】

【０１３４】
（３）式において、｜Ｓ｜は、文Ｓに含まれる延べ単語数を表し、｜ｂ｜は、話題のまとまりｂに含まれる延べ単語数を表し、ｔｆ_w,bは、話題のまとまりｂにおける単語ｗの出現頻度を表し、｜Ｄ｜は、文書全体を固定幅（８０語）刻みに区切って得られるブロックの数を表し、ｄｆ_wは、単語ｗが出現しているブロックの数を表す。
【０１３５】
（３）式は、発明者による文献（仲尾由雄、文書の話題構成に基づく重要語の抽出、情処研報ＦＩ−５０−１、情報処理学会、１９９８年７月．）において、単語の重要度の評価用に取り上げられた尺度の１つ（「情報量型複数ブロックｔｆ×ｉｄｆ法」）を応用したものである。この文献では、（３）式のΣ内の部分の数式を用いて文書内の単語の重要度を評価する実験を行ったところ、評価値が高い順に単語を抽出することで、見出しに出現する単語（重要語）が効率よく抽出できたことが報告されている。
【０１３６】
文Ｓと話題のまとまりｂとの関連度ｒ_s,bの計算方法は（３）式に限られず、各種の方法を用いることも可能である。ただし、（３）式に基づく関連度には以下のような望ましい性質があることから、本実施形態では、この計算方法を採用した。
（１）話題のまとまり中の高頻度語が重視される。
【０１３７】
文Ｓ中の単語が、計算対象の話題のまとまりに高い頻度で出現すると、ｔｆ_w,bの値が大きくなるので、関連度が大きくなる。
（２）話題のまとまりに特徴的に出現する単語が重視される。
【０１３８】
語の文書全体における出現密度が低いほど、ｌｏｇの部分の値が大きくなるので、文書全体では出現密度が低い単語が文Ｓと話題のまとまりの両方に出現した場合、関連度が大きくなる。（３）主要な話題として取り上げられている単語が重視される傾向にある。
【０１３９】
ｌｏｇ内の部分は、局所的に集中して出現する単語の出現頻度を低めに補正した出現密度の逆数の形をとっている。このため、文Ｓ中の単語が話題のまとまりの中で１ヶ所に集中して出現している場合に、関連度が大きくなる。
【０１４０】
なお、それぞれの話題のまとまりの最終的な境界位置は、境界文の開始位置であるため、話題文認定処理の途中では決定されていない場合がある。そこで、話題文認定処理では、決定されていない境界位置に対しては、話題構成認定部２５が認定した結束力拮抗点の位置を話題境界の仮位置として用いて、上記の関連度を計算することにする。
【０１４１】
図２３および図２４は、話題文抽出部２７による話題文認定処理のフローチャートである。話題文認定部２７は、まず、文書全体を固定幅のブロックに分割し、文書内に出現するそれぞれの単語ｗが出現するブロックの数を集計し、ブロック出現頻度ｄｆ_wとして記録する（図２３、ステップＳ８１）。次に、処理対象の系列番号を示す制御変数ｊの初期値として系列番号の最大値ｊｅを代入する（ステップＳ８２）。これにより、最小の話題に関する話題境界候補区間データが処理対象に位置付けられる。
【０１４２】
続いて、ｊ≧０である限り、Ｂ（ｊ）系列を話題文認定系列とする処理を行う。まず、ｊが０以上であるか否かを判定し（ステップＳ８３）、ｊが０未満の場合には処理を終了する。次に、ｐに０を代入して（ステップＳ８４）、ｐと｜Ｂ（ｊ）｜を比較する（ステップＳ８５）。ｐ≦｜Ｂ（ｊ）｜であれば、ステップＳ８６以降の処理を行い、ｐが｜Ｂ（ｊ）｜を越えれば、ｊ＝ｊ−１として（ステップＳ９１）、ステップＳ８３以降の処理を繰り返す。
【０１４３】
ステップＳ８６では、Ｂ（ｊ）［ｐ］に関連付けられたより小さい話題に関する話題境界候補区間データ（子候補区間データ）があるか否かを判定する。そして、子候補区間データがあれば、Ｂ（ｊ）［ｐ］．ｒａｎｇｅを子候補区間データの話題境界候補区間Ｂ（ｊ）［ｐ］．ｃｈｉｌｄ．ｒａｎｇｅに合わせて修正し（ステップＳ８７）、子候補区間データがなければ、ステップＳ８７の処理をスキップする。
【０１４４】
次に、Ｂ（ｊ）［ｐ］がダミーデータであるか否かを判定し（ステップＳ８９）、それがダミーデータの場合には、図２４の処理をスキップし、ｐ＝ｐ＋１として（ステップＳ９０）、次のデータの処理に移る。
【０１４５】
Ｂ（ｊ）［ｐ］がダミーデータでなければ、話題文認定部２７は、Ｂ（ｊ）［ｐ］．ｒａｎｇｅ内に少なくともその一部分が含まれる文を話題文の候補ｓ［ｉ］（１≦ｉ≦ｉｅ）として取り出し（図２４、ステップＳ９２）、２種類の話題文（境界文と話題導入文）の認定処理を行う。ここで、ｉｅは、取り出された話題文の候補の数を表す。
【０１４６】
まず、話題文認定部２７は、取り出された候補ｓ［ｉ］のすべてに対して、順方向関連度と逆方向関連度を（３）式に基づいて計算する（ステップＳ９３）。次に、順方向相対関連度、すなわち、順方向関連度と逆方向関連度との差を、候補中の先頭の文から末尾の文まで調べる（ステップＳ９４）。そして、順方向相対関連度が正で、かつ、直前の順方向相対関連度からの増分が最大となる文を境界文と認定し、その境界文以降の候補を導入部と認定する。
【０１４７】
話題の境界においては、一般に、順方向関連度と逆方向関連度がともに急激に変化することが多い。このため、順方向関連度と逆方向関連度との差の増分を指標として用いることで、境界文の検出精度が向上すると考えられる。
【０１４８】
次に、境界文が認定できたか否かを判定し（ステップＳ９５）、境界文が認定できた場合には、その境界文以降（または、境界文より後ろ）にある候補の中で、順方向関連度が最大となる文を話題導入文として認定する（ステップＳ９６）。また、境界文が認定できなかった場合には、すべての候補の中で、順方向関連度が最大となる文を、境界文かつ話題導入文として認定する（ステップ９７）。
【０１４９】
次に、Ｂ（ｊ）［ｐ］．ｒａｎｇｅの終端を認定された境界文の位置に合わせ（ステップＳ９８）、ｐ＝ｐ＋１として（図２３、ステップＳ９０）、ステップＳ８５以降の処理を繰り返す。これにより、次の話題境界候補区間データの話題文認定処理が行われる。
【０１５０】
ステップＳ９８において、話題境界候補区間の終了位置を修正しているのは、以降の処理で、より大きな話題のまとまりに対する境界文を、現在の処理対象の話題に対する境界文以前の範囲から認定するためである。これにより、例えば、章見出しの直後に節見出しがある場合に、小さい話題に関する境界文として節見出しを、大きな話題に関する境界文として章見出しを認定できる可能性を高めることができる。
【０１５１】
図２５は、要約対象文書の４．４節の開始位置付近（図２２の横軸の１２，０００語の手前付近）の話題文の認定例を示している。図２５において、＜外＞の印が付けられた文（１２００２語の位置）の次の文から最後の文（１２０５５語の位置）までが話題文の候補であり、それらの文の少なくとも一部分が話題境界候補区間（ここでは、［１２０２６，１２０５９］の３５語幅の区間）にかかっている。ここでは、境界文より後ろにある候補の中から話題導入文が選択されている。
【０１５２】
＜境＞の印が付けられた文（１２０３１語の位置）においては、順方向関連度（“対直後”の列の値）と逆方向関連度（“対直前”の列の値）との差、すなわち、順方向相対関連度（“後−前”の列の値）が正（０．０１６）であり、かつ、直前の順方向相対関連度（−０．００８）からの増分が最大（０．０２４）となっている。したがって、この文は、境界文と認定されている。
【０１５３】
また、＜導＞の印が付けられた文（１２０３３語の位置）においては、境界文より後ろにある文（この場合は２文）の中で、順方向関連度が最大（０．０２３）となっている。したがって、この文は、話題導入文と認定されている。
【０１５４】
なお、後続の要約成形処理においては、境界文は見出しであることが望ましく、話題導入文は、後続の話題を紹介する文であることが望ましい。そこで、図２４の処理において、それぞれの話題文候補の文末表現や文型などの手掛かりを併用することで、この性質を満たす境界文と話題導入文を増やすことも可能である。
【０１５５】
例えば、見出しは、日本語であれば句点で終わらない文であることが多く、英語であればピリオドで終わらない文であることが多い。そこで、ステップＳ９４において、まず、話題文の候補の中で句点／ピリオドで終わらない文だけを対象に境界文の認定を試み、それが認定できなかった場合にだけ、その他の文を対象に境界文の認定処理を行うようにすれば、認定される境界文が文書中の見出しと一致する可能性を高めることができる。
【０１５６】
また、後続の話題を紹介する文は、日本語であれば、“〜する”のように終止形の動詞で終わる文であることが多く、英語であれば、“Ｉ”、“ｗｅ”のような１人称の代名詞や“Ｔｈｉｓｓｅｃｔｉｏｎ”のような章などを表す名詞句から始まる現在時制／未来時制の文であることが多い。そこで、ステップＳ９６において、まず、そのような性質を満たす文だけを対象に話題導入文の認定を試み、それが認定できなかった場合にだけ、その他の文を対象に話題導入文の認定処理を行うようにすれば、認定される話題導入文が後続の話題を紹介する文と一致する可能性を高めることができる。
【０１５７】
次に、図２６は、話題文抽出部２７による話題文抽出処理のフローチャートである。話題文抽出部２７は、まず、望ましい要約の大きさＳａ、望ましい各話題の抜粋量Ｓｔの２つのパラメータをユーザから受け取る（ステップＳ１０１）。
【０１５８】
次に、ＳａをＳｔで割って抽出すべき話題の概数Ｎｔを求め（ステップＳ１０２）、Ｎｔ個以下の境界からなる最下層の話題の話題境界候補区間データ系列を求め、その系列番号を制御変数ｊに設定する（ステップＳ１０３）。これにより、Ｂ（ｊ）が話題文抽出処理の基本的な対象に位置付けられ、話題の粒度が決定される。
【０１５９】
具体例では、Ｓａとして１５００文字程度を与え、Ｓｔとして１５０文字程度を与えているので、Ｎｔ＝１０となる。この場合、図２２の話題構成の認定結果によれば、１２８０語の窓幅による話題境界候補区間データ（系列番号は３）が話題文抽出処理の基本的な対象となる。
【０１６０】
次に、系列番号ｊのすべての話題境界候補区間データＢ（ｊ）［ｐ］について、それぞれの話題境界候補区間の中で最も前にある境界文、すなわち最大の話題のまとまりに対する境界文の開始位置を、話題境界表示記号の出力位置に指定する（ステップＳ１０４）。この指定を行うことで、出力部２８が要約を成形する際に、話題のまとまり毎に話題文を区切って出力することが可能になる。
【０１６１】
続いて、ｊ≧０である限り、Ｂ（ｊ）系列から話題文を抽出する処理を行う。まず、ｊが０以上であるか否かを判定し（ステップＳ１０５）、ｊが０未満の場合には処理を終了する。
【０１６２】
ｊが０以上の場合には、Ｂ（ｊ）を話題文抽出系列として、Ｂ（ｊ）中の個々の話題境界候補区間データＢ（ｊ）［ｐ］について、それと関連付けられているより大きな話題の中で最大のものに対応する系列番号を求める。そして、それらのＢ（ｊ）［ｐ］を得られた系列番号順にソートする（ステップＳ１０６）。これにより、Ｂ（ｊ）［ｐ］のデータ番号ｐはソート順に置き換えられる。
【０１６３】
このような操作は、必須ではないが、より大きな話題から優先的に話題文を抽出するために行われる。これにより、ステップＳ１０９において要約の出力量に関する制約から話題文抽出処理が打ち切られた場合でも、大きな話題に関する話題文が要約に取り入れられるようにすることができる。
【０１６４】
次に、話題文抽出部２７は、ｐに０を代入して（ステップＳ１０７）、ｐと｜Ｂ（ｊ）｜を比較する（ステップＳ１０８）。ｐ≦｜Ｂ（ｊ）｜であれば、ステップＳ１０９以降の処理を行い、ｐが｜Ｂ（ｊ）｜を越えれば、ｊ＝ｊ＋１とおいて（ステップＳ１１２）、ステップＳ１０５以降の処理を繰り返す。
【０１６５】
次に、話題文抽出部２７は、ＳａおよびＳｔの制約の範囲内で文を抜粋する余地があるか否かを調べ（ステップＳ１０９）、抜粋する余地がなければ、話題文抽出処理を終了する。抜粋する余地があれば、処理対象のＢ（ｊ）［ｐ］の境界文と話題導入文、および、その話題境界候補区間に含まれている境界文の中で最も前にあるものを、抜粋対象の文として抽出する（ステップＳ１１０）。
【０１６６】
次に、ｐ＝ｐ＋１とおいて次のデータを処理対象に位置付け（ステップＳ１１１）、ステップＳ１０８以降の処理を繰り返す。
なお、結束度が低い話題のまとまりは、例えば、項目を羅列しただけの部分のように、内容が薄い部分であることが多いので、そこからの話題文の抽出をスキップすることも考えられる。抽出をスキップする場合には、ステップＳ１１０に先立って、所定の方法で話題のまとまりの結束度を計算し、得られた結束度を何らかの基準値と比較する。そして、結束度が基準値より小さい場合に、その話題のまとまりの開始位置に対応する話題境界候補区間を求め、その区間についてのステップＳ１１０の処理を行わないようにすればよい。
【０１６７】
図２７は、このような場合に行われる結束度計算処理のフローチャートである。話題文抽出部２７は、まず、処理対象話題区間ｂとその話題区間の窓幅ｗを受け取り（ステップＳ１２１）、話題区間ｂの大きさとｗを比較する（ステップＳ１２２）。
【０１６８】
話題区間ｂの大きさがｗより大きければ、話題区間ｂから、その両端ｗ／２の部分を除外した区間における最大結束度を求め、その値を中央結束度として記録して（ステップＳ１２３）、処理を終了する。また、話題区間ｂの大きさがｗ以下であれば、話題区間ｂの中心位置における結束度を中央結束度として記録し（ステップＳ１２４）、処理を終了する。こうして得られた中央結束度を基準値と比較して、話題文の抽出をスキップするか否かが判定される。
【０１６９】
次に、図２８は、出力部２８による要約成形処理のフローチャートである。出力部２８は、まず、話題文抽出部２７が抽出したｉｅ個の話題文をｓ［ｉ］（１≦ｉ≦ｉｅ）とし、それらを要約対象文書１１における出現位置順にソートする（ステップＳ１３１）。次に、話題文抽出部２７が設定したｊｅ個の話題境界表示記号の出力位置（話題境界出力位置）をｂ［ｊ］（１≦ｊ≦ｊｅ）とし、それらを同様にソートする（ステップＳ１３２）。
【０１７０】
次に、制御変数ｉとｊにそれぞれ１を代入し、先頭の話題文と話題境界出力位置を処理対象に位置付ける（ステップＳ１３３）。続いて、ｉ≦ｉｅである限り、話題文の出力処理を行う。
【０１７１】
この処理において、出力部２８は、まず、ｉとｉｅを比較し（ステップＳ１３４）、ｉ＞ｉｅであれば処理を終了する。ｉ≦ｉｅであれば、次に、話題境界出力位置ｂ［ｊ］の位置データＬＯＣ（ｂ［ｊ］）と出力対象の話題文ｓ［ｉ］の位置データＬＯＣ（ｓ［ｉ］）を比較する（ステップＳ１３５）。
【０１７２】
話題文ｓ［ｉ］が話題境界出力位置ｂ［ｊ］以降にある場合には、話題境界表示記号を出力し（ステップＳ１３６）、ｊ＝ｊ＋１とおいて（ステップＳ１３７）、ステップＳ１３５以降の処理を繰り返す。話題境界表示記号は、話題文抽出部２７が抽出対象として決定した粒度の話題の間に区切りを付けるための記号であり、例えば、空行などである。
【０１７３】
また、話題文ｓ［ｉ］が話題境界出力位置ｂ［ｊ］より前にある場合には、その話題文ｓ［ｉ］を出力し（ステップＳ１３８）、ｉ＝ｉ＋１とおいて次の話題文を出力対象に位置付け（ステップＳ１３９）、ステップＳ１３４以降の処理を繰り返す。
【０１７４】
図２９、３０、３１は、このような処理によって作成された要約文書を示している。この要約文書は、１４４９文字（要約対象文書との文字数比で１．５％）の長さを持ち、１０個の空行（話題境界表示記号）により１１個の部分に分けて出力されている。この要約結果によれば、話題文抽出部２７に条件として与えたパラメータに従って、適切な粒度の話題が適切な分量で要約に取り入れられたことが分かる。
【０１７５】
また、この要約結果において、空行により区切られた部分の中には、その中に含まれる文の相互の関連性が明確であるものが多い。また、文の内容も、調査内容の紹介などに関するものが多く、理解するのは容易である。ただし、比較的数は少ないものの、図３０の「（４）分散検索」から始まる部分に含まれている「４．３．３電子出版及び電子図書館」のように、より大きな話題の見出しと考えられる文を含む部分などもある。
【０１７６】
しかし、全体的に見れば、図２９、３０、３１の要約結果は、長い文書に対しても本発明の狙い通りに要約が作成可能なことを示している。また、空行で区切られた各部分の先頭には、適切な見出しが抽出されていることが多いという事実は、本発明の方法によれば、文書の書式を参照しなくても、適切な話題境界が認定できることを示唆している。
【０１７７】
なお、空行で区切られた部分の先頭に見出しが抽出されることが多いことを利用して、要約中の話題のまとまりをより強調して提示することも可能である。例えば、空行の直後にある文を見出しとして扱い、独立した行に出力し、後続の文を段下げして表示すれば、話題の切れ目をより強調して提示することができる。
【０１７８】
図３２は、このような方法で要約中の話題のまとまりを強調した例を示している。この要約結果は、要約全体の長さのパラメータ（望ましい要約の大きさＳａ）を５００文字に変更して話題文を抽出した後、話題境界表示記号（空行）の直後にある見出しを強調して出力することにより得られたものである。
【０１７９】
なお、図３２の要約文書には、４．１節、４．３節、および４．４節の見出しが含まれているのに、４．２節の見出しが含まれていない。そのため、要約文書のユーザが４．２節に何が書いてあるのかを気にすることも考えられる。この場合、節番号のような順序を規定するラベル（順序ラベル）が付加された見出しを特別に処理し、順序ラベルを外すことで、ユーザの心理的な負荷を軽減することも可能である。
【０１８０】
例えば、順序ラベルを見出しから分離し、まず、見出しを出力してから、順序ラベルを「（４．参照）」のような形に加工し、原文書（要約対象文書）との対応関係を示す補足情報（対応箇所表示表現）として見出しに添えてやると、図３３のような要約文書を作成することができる。図３３では、「（４．参照）」、「（４．３参照）」、および「（４．４．参照）」が対応箇所表示表現として、各見出しに添えられている。
【０１８１】
図３４は、このような話題文出力処理のフローチャートである。この処理は、図２８のステップＳ１３８において、通常の出力処理の代わりに行われる。出力部２８は、まず、出力対象の話題文ｓ［ｉ］の位置が話題境界表示記号の直後か否かを判定する（ステップＳ１４１）。それが話題境界表示記号の直後であれば、次に、ｓ［ｉ］は順序ラベル付きの見出しであるか否かを判定する（ステップＳ１４２）。
【０１８２】
ｓ［ｉ］が順序ラベル付きの見出しであれば、順序ラベルを見出しから分離し（ステップＳ１４３）、順序ラベルを用いて対応箇所表示表現を作成する（ステップＳ１４４）。そして、見出しと対応箇所表示表現を出力して（ステップＳ１４５）、処理を終了する。
【０１８３】
ステップＳ１４１において、ｓ［ｉ］の位置が話題境界表示記号の直後でない場合、および、ステップＳ１４２において、ｓ［ｉ］が順序ラベル付きの見出しでない場合は、ｓ［ｉ］を通常通り出力して（ステップＳ１４６）、処理を終了する。
【０１８４】
上述の要約成形処理においては、話題境界表示記号として、空行以外にも罫線などの任意の表示情報を用いることができ、順序ラベルには、節番号以外にも章番号やアルファベットなどの任意の順序情報が含まれる。さらに、対応箇所表示表現としては、「（４．参照）」のような表現以外の任意の表現を用いることができる。
【０１８５】
また、上述の要約成形処理においては、１階層の話題境界（図３３では、Ｂ（１）系列の境界データ）のみを用いて要約結果中の話題を区切って出力しているが、複数階層の話題境界を併用すれば、要約結果中の大きな話題と小さな話題を区別して出力することも可能である。
【０１８６】
例えば、図３３の「ネットワーク上の検索サービス（４．３参照）」で始まる部分には、Ｂ（２）系列の境界データＢ（２）［２］とＢ（２）［３］に対する境界文「（１）キーワード抽出」と「（４）分散検索」が含まれている。それらを見出しとして扱って、同様の手順で出力すれば、図３５のような要約結果が得られる。
【０１８７】
次に、英語の要約対象文書として、米国出願の明細書の原稿（２３，０００語）を用いた例について説明する。ここでは、次のような処理方法およびパラメータを採用した。
（１）単語認定の方法：ストップワードリストを用いた方法
（２）結束度計算用の窓の幅：
最大窓幅ｗ₁＝６，５５６（語）
最小窓幅ｗ_min＝１０４（語）
刻み幅ｔｉｃ＝１３（語）（要約対象文書における１文あたりの平均語数）
（３）話題文抽出における抜粋量：
望ましい要約の大きさＳａ：１０００文字程度
望ましい各話題の抜粋量Ｓｔ：３００文字程度
要約対象文書の全体を掲載することは適当ではないので、参考として、要約対象文書中の見出しの一覧を図３６に示す。図３６において、（）内の表現は、説明のために付加された見出しの省略形であり、要約対象文書には含まれていない。
【０１８８】
図３７は、入力された要約対象文書の先頭部分を示しており、図３８は、その部分に対する単語認定処理の結果を示している。図３８において、［］で括られた部分が、認定された単語に対応する。先頭の１文字のみが大文字の単語は、［］では、すべて小文字に置き換えられている。
【０１８９】
ここでは、空白および“，”、“．”、“：”、“；”などの区切り記号を手掛かりに単語が切り出され、それらの単語のうち、図３９に示すストップワードリストに含まれる単語が取り除かれた。ストップワードリストとは、重要語として抽出したくない冠詞、前置詞などの単語を、あらかじめ定義したリストである。
【０１９０】
図４０は、話題構成認定部２５による話題構成の認定結果を示している。図４０において、節境界の近くに記された（Ｂｇ）、＜１＞などは、図３６に示された見出しの省略形を表している。
【０１９１】
図４１は、要約対象文書の＜２＞の見出しの開始位置付近（図４０の横軸の６，０００語の手前付近）の話題文の認定例を示している。図４１において、最初の文（５５２２語の位置）から最後の文（５５７１語の位置）までが話題文の候補であり、それらの文の少なくとも一部分が話題境界候補区間（ここでは、［５５４５，５５８５］の４１語幅の区間）にかかっている。
【０１９２】
＜境＞の印が付けられた文（５５６４語の位置）においては、順方向関連度（“対直後”の列の値）と逆方向関連度（“対直前”の列の値）との差、すなわち、順方向相対関連度（“後−前”の列の値）が正（０．０８９）であり、かつ、直前の順方向相対関連度（−０．０２６）からの増分が最大（０．１１５）となっている。したがって、この文は、境界文と認定されている。
【０１９３】
また、＜導＞の印が付けられた文（５５６７語の位置）においては、境界文より後ろにある文（この場合は２文）の中で、順方向関連度が最大（０．０５１）となっている。したがって、この文は、話題導入文と認定されている。
【０１９４】
こうして抽出された話題文を話題毎にまとめて出力すると、図４２のような要約文書が生成された。この要約文書は、９１４文字（要約対象文書との文字数比で０．７％）の長さを持ち、４つの部分に分けて出力されている。ここでは、各話題の先頭の文を見出しとして出力し、さらに、各話題の先頭にピリオドで終わっていない文が続いている場合には、そのようなすべての文を見出し扱いにして出力している。
【０１９５】
以上説明した実施形態においては、日本語および英語の文書を例に挙げて要約処理を説明したが、本発明は、これらの文書以外にも、任意の言語および任意の形式の文書に対して適用され、同様の結果を得ることができる。
【０１９６】
また、要約対象文書は、必ずしもディジタル化された電子文書である必要はなく、例えば、紙媒体などに記載された文書でもよい。この場合、イメージスキャナなどの光電変換装置により文書画像を取り込み、文字認識を行うことで、単語認定可能な文書データを作成することができる。
【０１９７】
【発明の効果】
本発明によれば、数十頁に渡るような長い文書についても、文書サイズの１／２〜１／４程度の大きな話題のまとまりから、段落程度の大きさ（数十語から１００語程度）の話題のまとまりまでを含む話題の階層的構成を認定することができる。そして、この階層的構成を利用して、話題を端的に示す文を多く含み、かつ、意味的なまとまりの強い要約を作成することができる。また、話題の階層的構成を活用して、要約を適切な粒度の話題に分けて出力することもできる。
【０１９８】
これにより、長い文書に対しても、内容の理解が容易で読みやすい要約が作成できるようになり、長い要約を読みやすく提示することも可能になる。
【図面の簡単な説明】
【図１】本発明の文書要約装置の原理図である。
【図２】文書要約装置の構成図である。
【図３】情報処理装置の構成図である。
【図４】記録媒体を示す図である。
【図５】第１の要約対象文書中の見出しを示す図（その１）である。
【図６】第１の要約対象文書中の見出しを示す図（その２）である。
【図７】第１の要約対象文書中の見出しを示す図（その３）である。
【図８】単語認定処理のフローチャートである。
【図９】第１の入力文書を示す図である。
【図１０】第１の単語認定結果を示す図である。
【図１１】形態素解析処理のフローチャートである。
【図１２】日本語の辞書引きの例を示す図である。
【図１３】英語の辞書引きの例を示すである。
【図１４】話題構成認定処理のフローチャートである。
【図１５】結束度の系列を示す図である。
【図１６】結束度分布を示す図である。
【図１７】移動平均値と文書領域の関係を示す図である。
【図１８】話題境界候補区間認定処理のフローチャートである。
【図１９】結束力分布を示す図である。
【図２０】話題境界候補区間関連付け処理のフローチャートである。
【図２１】関連付け対象データを示す図である。
【図２２】話題構成の第１の認定結果を示す図である。
【図２３】話題文認定処理のフローチャート（その１）である。
【図２４】話題文認定処理のフローチャート（その２）である。
【図２５】境界文と話題導入文の第１の認定例を示す図である。
【図２６】話題文抽出処理のフローチャートである。
【図２７】中央結束度計算処理のフローチャートである。
【図２８】要約成形処理のフローチャートである。
【図２９】第１の要約結果を示す図（その１）である。
【図３０】第１の要約結果を示す図（その２）である。
【図３１】第１の要約結果を示す図（その３）である。
【図３２】第２の要約結果を示す図である。
【図３３】第２の要約結果の第１の改良例を示す図である。
【図３４】話題文出力処理のフローチャートである。
【図３５】第２の要約結果の第２の改良例を示す図である。
【図３６】第２の要約対象文書中の見出しを示す図である。
【図３７】第２の入力文書を示す図である。
【図３８】第２の単語認定結果を示す図である。
【図３９】ストップワードを示す図である。
【図４０】話題構成の第２の認定結果を示す図である。
【図４１】境界文と話題導入文の第２の認定例を示す図である。
【図４２】第３の要約結果を示す図である。
【符号の説明】
１構成認定手段
２話題文抽出手段
３出力手段
１１要約対象文書
１２文書要約装置
１３要約文書
２１入力部
２２単語認定部
２３形態素解析部
２４単語辞書
２５話題構成認定部
２６話題境界候補区間認定部
２７話題文抽出部
２８出力部
４１出力装置
４２入力装置
４３ＣＰＵ
４４ネットワーク接続装置
４５媒体駆動装置
４６補助記憶装置
４７メモリ
４８バス
４９可搬記録媒体
５０データベース

Claims

与えられた文書中の各位置の前後に設定した２つの窓中に出現している語彙をもとに該２つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、大きさの異なる複数の窓幅を用いて話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定する構成認定手段と、
認定された話題の階層的構成のデータを格納するメモリと、
文に含まれる単語が話題のまとまりに高い頻度で出現するほど大きな値になるような関連度の計算式を用いて、前記メモリに格納された話題の階層的構成に含まれる話題境界の近傍で語彙的結束度が小さい領域に含まれる文と該話題境界の直後の話題のまとまりとの関連度を表す順方向関連度と、該語彙的結束度が小さい領域に含まれる文と該話題境界の直前の話題のまとまりとの関連度を表す逆方向関連度を計算し、それぞれの文について得られた順方向関連度と逆方向関連度の差を順番に調べていき、該順方向関連度と逆方向関連度の差が大きく増加する文を、該話題境界の直後の話題内容を端的に表す話題文として抽出し、該話題文のデータを前記メモリに格納する話題文抽出手段と、
前記メモリに格納された話題文を話題毎にまとめて要約を生成する要約成形手段と
を備えることを特徴とする文書要約装置。
前記話題文抽出手段は、抽出された話題文から始まる話題導入部の文の中から、大きな順方向関連度を有する文を話題文としてさらに抽出することを特徴とする請求項１記載の文書要約装置。
前記要約成形手段は、前記話題文を適切な大きさの話題毎にグループ分けし、グループ毎に区別して出力することを特徴とする請求項１または２記載の文書要約装置。
前記話題文抽出手段は、指定された前記要約の出力量を指定された各話題の抜粋量で割り算して、該要約に取り入れる話題の大きさを求めることを特徴とする請求項３記載の文書要約装置。
前記要約成形手段は、前記話題文に含まれる見出しの順序ラベル情報を該話題文から分離して、該順序ラベル情報を含まない話題文を出力することを特徴とする請求項１または２記載の文書要約装置。
前記要約成形手段は、前記順序ラベル情報を加工して、前記順序ラベル情報を含まない話題文の補足情報として出力することを特徴とする請求項５記載の文書要約装置。
コンピュータのためのプログラムを記録した記録媒体であって、
与えられた文書中の各位置の前後に設定した２つの窓中に出現している語彙をもとに該２つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、大きさの異なる複数の窓幅を用いて話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定するステップと、
認定された話題の階層的構成のデータをメモリに格納し、
文に含まれる単語が話題のまとまりに高い頻度で出現するほど大きな値になるような関連度の計算式を用いて、前記メモリに格納された話題の階層的構成に含まれる話題境界の近傍で語彙的結束度が小さい領域に含まれる文と該話題境界の直後の話題のまとまりとの関連度を表す順方向関連度と、該語彙的結束度が小さい領域に含まれる文と該話題境界の直前の話題のまとまりとの関連度を表す逆方向関連度を計算し、それぞれの文について得られた順方向関連度と逆方向関連度の差を順番に調べていき、該順方向関連度と逆方向関連度の差が大きく増加する文を、該話題境界の直後の話題内容を端的に表す話題文として抽出し、該話題文のデータを前記メモリに格納するステップと、
前記メモリに格納された話題文を話題毎にまとめて要約を生成するステップと
を含む処理を前記コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
構成認定手段が、与えられた文書中の各位置の前後に設定した２つの窓中に出現している語彙をもとに該２つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、大きさの異なる複数の窓幅を用いて話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定し、認定された話題の階層的構成のデータをメモリに格納し、
話題文抽出手段が、文に含まれる単語が話題のまとまりに高い頻度で出現するほど大きな値になるような関連度の計算式を用いて、前記メモリに格納された話題の階層的構成に含まれる話題境界の近傍で語彙的結束度が小さい領域に含まれる文と該話題境界の直後の話題のまとまりとの関連度を表す順方向関連度と、該語彙的結束度が小さい領域に含まれる文と該話題境界の直前の話題のまとまりとの関連度を表す逆方向関連度を計算し、それぞれの文について得られた順方向関連度と逆方向関連度の差を順番に調べていき、該順方向関連度と逆方向関連度の差が大きく増加する文を、該話題境界の直後の話題内容を端的に表す話題文として抽出して、該話題文のデータを該メモリに格納し、
要約成形手段が、前記メモリに格納された話題文を話題毎にまとめて要約を生成する
ことを特徴とする文書要約方法。