JP3791879B2 - 文書要約装置およびその方法 - Google Patents

文書要約装置およびその方法 Download PDF

Info

Publication number
JP3791879B2
JP3791879B2 JP20506199A JP20506199A JP3791879B2 JP 3791879 B2 JP3791879 B2 JP 3791879B2 JP 20506199 A JP20506199 A JP 20506199A JP 20506199 A JP20506199 A JP 20506199A JP 3791879 B2 JP3791879 B2 JP 3791879B2
Authority
JP
Japan
Prior art keywords
topic
sentence
relevance
boundary
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20506199A
Other languages
English (en)
Other versions
JP2001034624A (ja
Inventor
由雄 仲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP20506199A priority Critical patent/JP3791879B2/ja
Priority to US09/593,151 priority patent/US6963830B1/en
Priority to EP00305732.0A priority patent/EP1071023B1/en
Publication of JP2001034624A publication Critical patent/JP2001034624A/ja
Application granted granted Critical
Publication of JP3791879B2 publication Critical patent/JP3791879B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、自然言語などで書かれた機械可読文書の要約を行う装置およびその方法に関する。特に、本発明をコンピュータディスプレイ上での文書閲覧の支援へ応用し、マニュアルや報告書、あるいは1冊の本などの長い文書を1画面に納まる程度に要約して、文書内容の骨子の理解を助けることを意図している。
【0002】
【従来の技術】
現時点で実際的に使用されている主要な文書要約技術として、文書において重要な文を認定し、それを抜粋することで要約を作成する技術がある。この技術は、さらに、何を手掛かりに文の重要性を評価するかによっていくつかの方法に分類される。代表的な方法としては、次の2つが挙げられる。
(1)文書中に出現する単語の頻度と分布を手掛かりとする方法
(2)文と文とのつながり方や文の出現位置を手掛かりとする方法
これらのうち、(1)の方法は、まず、文書中に含まれる単語(語句)の重要度を決定し、次に、重要な単語をどれ位含んでいるかによって文の重要度を評価する。そして、評価結果に基づいて重要な文を選択して要約を作成する。
【0003】
単語の重要度を決定する方法としては、文書中の単語の出現頻度(出現度数)そのものを用いる方法、単語の出現度数と一般的な文書集合におけるその単語の出現度数とのずれなどを加味して重みを付ける方法、単語の出現位置に応じて重みを付ける方法などが知られている。単語の出現位置に応じて重みを付ける場合は、例えば、見出しに出現する語を重要とみなすなどの処理が付加される。
【0004】
このような要約作成方法には、例えば、次のようなものがある。
特開平6−259424「文書表示装置及び文書要約装置並びにディジタル複写装置」とその発明者による文献(亀田雅之、擬似キーワード相関法による重要キーワードと重要文の抽出、言語処理学会第2回年次大会発表論文集、pp.97−100、1996年3月.)では、見出しに含まれる単語を多く含む部分を、見出しに関連の深い重要な部分として抜粋することで要約を作成している。
【0005】
特開平7−36896「文書を要約する方法および装置」では、文書中に現れる表現(単語など)の複雑さ(語の長さなど)から重要な表現の候補(シード)を選び、重要性の高いシードをより多く含む文を抜粋することで要約を作成している。
【0006】
特開平8−297677「主題の要約を生成する自動的な方法」では、文書内の単語の出現頻度が大きい順に「主題の用語」を認定し、重要な「主題の用語」を多く含む文を抽出することで要約を作成している。
【0007】
また、(2)の方法は、順接・逆接・展開などの文の接続関係や、文が出現している文書中の位置などをもとに、文の(相対的)重要性を判定し、重要な文を選択する。
【0008】
この方法を紹介している文献としては、例えば、特開平6−12447「要約文章作成装置」、特開平7−182373「文書情報検索装置及び文書検索結果表示方法」、およびこれらの出願の発明者らによる文献(住田一男(Kazuo Sumita)、知野哲朗(Tetsuro Chino )、小野顕司(Kenji Ono)、三池誠司(Seiji Miike )、文書構造解析に基づく自動抄録生成と検索提示機能としての評価、電気情報通信学会論文誌、Vol.J78−D−II、No.3、pp.511−519、1995年3月.)、あるいは別の著者による文献(山本和英(Kazuhide Yamamoto )、増山繁(Shigeru Masuyama)、内藤昭三(Shozo Naito )、文章内構造を複合的に利用した論説文要約システムGREEN、情報研報 NL−99−3、情報処理学会、1994年1月.)がある。
【0009】
これらの文書要約技術は、新聞記事や社説、論文などの内容的に1つにまとまっている文書に対しては有効であるが、いくつかの話題に関する文章が混在した長い文書の要約は難しい。
【0010】
(1)の方法では、複数の話題に関する文章が混在している場合、話題毎に重要な単語が異なる可能性が高いので、文書中で出現頻度の大きい単語を単純に重要語とみなすことができない。単純に重要語を決定してしまうと、ある話題に関する重要性を手掛かりに、別の話題の部分から重要でない文が抜粋されてしまうことがあるからである。
【0011】
また、(2)の方法でも、接続詞などで表される文間のつながりは局所的なものであるため、ある論旨に沿って記述された複数の文章が緩やかな関連性の下に並べ置かれている場合には、それぞれの文章の重要性を判定することが困難である。
【0012】
そこで、この問題を解決するため、文書中の話題のまとまりを認定する技術と組み合わせて要約を作成する技術が開発されている。
例えば、本発明の発明者による文献(仲尾由雄(Yoshio Nakao)、文書の意味的階層構造の自動認定に基づく要約作成、第4回年次大会併設ワークショップ「テキスト要約の現状と将来」論文集、pp.72−79、言語処理学会、1998年3月.)および先願の特願平10−072724「文書要約装置およびその方法」には、文書中の話題の階層的構成を認定し、それぞれの話題に特徴的な語を多く含む文を抜粋する技術が示されている。
【0013】
また、特開平11−45278「文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法」では、文書全体をいくつかのサブ文書に分割し、サブ文書間の類似度を調べて話題の変わり目を認識し、話題毎に文書を要約するというアイディアが示されている。
【0014】
なお、この文献では、話題の変わり目の認定方法が抽象的なレベルでごく簡単にしか示されていないが、その手法は、Saltonらの文献(Gerard Salton, Amit Singhal, Chris Buckley, and Mandar Mitra. Automatic text decomposition using text segments and text themes. In Proc. of Hypertext '96, pp.53-65. the Association for Computing Machinery, March 1996. )などで従来より知られていた技術を簡略化したものと考えられる。
【0015】
また、長い文書の要約を目的とはしていないが、特開平2−254566にも、内容的に関連度の高い一連の型式段落(字下げなどにより形式的に区切られた段落)を意味段落として自動認定し、文書全体で出現頻度の大きい語だけでなく、それぞれの意味段落で出現頻度の大きい語も重要語として抽出して、要約を作成している。
【0016】
【発明が解決しようとする課題】
しかしながら、上述した従来の要約技術で長い文書を要約した場合、話題毎に主要な文を抜粋しても、理解しがたい要約になりやすいという問題がある。
【0017】
例えば、話題毎に分けた部分でもまだ大きすぎる場合などに重要語が多く出現する文を抜粋すると、たまたま論の半ば付近の文が抜粋されて、要約が理解不能になってしまうことがある。詳細な議論を行っている箇所を前提となる説明なしに抜粋してしまうと、読者には何を議論しているのかが掴めない可能性が高いからである。また、1%程度以下の極端に短い要約を作成する場合、重要な文の中から少数の文を選択しなければならないため、要約が関連性のない文の羅列になってしまう可能性も大きくなる。
【0018】
もう1つの問題として、長い文書を要約する場合、必然的に要約結果の分量も大きくなり、結果として読みにくい要約になってしまうという問題もある。例えば、100頁の本を要約した場合、1%に縮めても、要約は1頁になってしまう。1頁の文書は、少なくとも数段落に分けて見出しなどを付与し、内容の区切りの目印をつけない限り、読みづらい。従来の要約技術の主たる対象は、多くとも十数頁程度の論文などであったこともあり、この問題を解決する汎用の技術は現状では見当たらない。
【0019】
例えば、前述の特開平6−12447では、論文などを対象として、書式などの手掛かりに認定した章や節毎に要約を作成し、章立ての構造に基づいて要約結果を再構成して提示する技術が示されている。しかし、数十頁を越える長い文書を対象とする場合、そもそも、上述した理由により、それぞれの章や節毎に主要な文を抜粋しても、簡潔で理解しやすい要約とはならない可能性が高い。また、書式は、ある種類の文書における約束毎であるため、文書の種類毎に経験的な規則を用意しなければならず、汎用性という点にも問題がある。
【0020】
本発明の第1の課題は、長い文書に対して理解しやすい要約を作成する文書要約装置およびその方法を提供することである。また、本発明の第2の課題は、長い要約を読みやすく提示する文書要約装置およびその方法を提供することである。
【0021】
【課題を解決するための手段】
図1は、本発明の文書要約装置の原理図である。図1の文書要約装置は、構成認定手段1、話題文抽出手段2、および要約成形手段3を備える。
【0022】
構成認定手段1は、与えられた文書中の話題の階層的構成を認定する。話題文抽出手段2は、各話題の導入部を検出し、検出された導入部から集中的に、話題内容を端的に表す1つ以上の文を話題文として抽出する。要約成形手段3は、抽出された話題文を話題毎にまとめて要約を生成する。
【0023】
構成認定手段1は、例えば、文書全体の大きさの1/4〜1/10程度から段落程度の大きさまで、数種類の大きさの窓幅を設定し、語彙的結束性の強さを表す結束度を各窓幅で測定する。これにより、大きな間隔で繰り返される語などによる大局的な結束性と、小さな間隔で繰り返される語などによる局所的な結束性の両方を捉えることができ、語彙の繰り返し状況によって、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定することができる。
【0024】
ここで、話題の階層的構成とは、文書を構成する複数の話題のまとまりが2段以上の階層構造を成していることを意味する。この階層的構成は、例えば、文書を構成する複数の大きな話題のまとまりの各々が、1つ以上のより小さな話題のまとまりを含み、小さな話題のまとまりの各々が、1つ以上のさらに小さな話題のまとまりを含むというような話題の包含関係に対応する。
【0025】
話題文抽出手段2は、話題の階層的構成を利用して適切な粒度(大きさ)の話題を選び、その話題の導入部から話題文を抽出する。話題の導入部としては、例えば、話題の開始位置付近の所定領域が指定され、その領域から集中的に(局所的に)話題文が抽出される。
【0026】
例えば、話題文抽出手段2は、大きな話題に関しては、大きな話題の導入部だけでなく、大きな話題と開始位置がほぼ一致する、より小さな話題の導入部からも話題文を抽出する。さらに、抜粋量に余裕がある場合には、大きな話題のまとまりに包含される、より小さな話題の導入部からも話題文を抽出する。このように、比較的狭い範囲から集中的に文を抽出して要約に取り込むので、要約が関連性のない文の羅列になることが少なくなる。
【0027】
また、話題文抽出手段2は、それぞれの話題境界の近傍領域内の数文を文書における出現順に取り出し、各文中の語彙の直前・直後の話題のまとまりにおける情報量(語彙の出現により伝達される情報の量を出現確率によって評価した値)に基づき、文と話題境界の直後の話題のまとまりとの関連度(順方向関連度)と、文と話題境界の直前の話題のまとまりとの関連度(逆方向関連度)を求める。
【0028】
そして、順方向関連度と逆方向関連度との差を直後の話題のまとまりに対する相対的な関連度(順方向相対関連度)として求め、順方向相対関連度に基づいて、話題の転換点に対応する文を第1種の話題文(境界文)として抽出する。例えば、順方向相対関連度が大きく上昇する文が境界文として抽出される。また、話題文抽出手段2は、抽出された境界文の位置を、話題の導入部の開始位置に設定する。こうして、導入部が検出される。
【0029】
これにより、直前の話題から直後の話題への転換点に対応する文を抽出することができるので、書式情報などの手掛かりを併用しなくても、話題の開始位置に掲げられている見出しなど、話題内容を端的に表す文を抽出できる可能性が高くなる。
【0030】
さらに、話題文抽出手段2は、境界文から始まる数文の範囲を導入部として採用し、その範囲から候補文を取り出して順方向関連度を求める。そして、順方向関連度に基づいて、話題を導入する役割を持つ文を第2種の話題文(話題導入文)として抽出する。例えば、順方向関連度が最大となる文が話題導入文として抽出される。
【0031】
これにより、話題の転換点の少し後ろから、話題を導入する役割を持つ文(後続の話題に関連の深い文)を抽出できるので、話題に関する情報を補足する役割を持った文が抽出できる可能性が高くなる。
【0032】
要約成形手段3は、話題文抽出手段2により抽出された文を、適切な粒度の話題毎に区別して(まとめて)要約に出力する。例えば、話題文抽出手段2により、2つの話題に関する文が抽出された場合、抽出された文を、いずれの話題に対して抽出されたかによって2つのグループに分け、それぞれのグループを空行などで区切って要約に出力する。
【0033】
これにより、要約を適切な粒度のまとまりに区切ることができるので、要約文書が長くなった場合でも、内容の区切りが一目で把握できる読みやすい要約が作成できる。
【0034】
このとき、話題文抽出手段2は、要約の出力量に応じて、要約に取り入れる話題の大きさを決定し、構成認定手段1が認定した話題のまとまりの中から、決定された大きさの話題に関する話題のまとまりであって、文章としてのまとまりを備えているものを、話題文抽出対象として選択する。そして、それぞれの話題の導入部を検出し、そこから話題文を抽出する。これにより、望ましい粒度の話題を効率よく要約に取り込むことが可能になる。
【0035】
さらに、要約成形手段3は、抽出された話題文に章番号などの順序ラベル情報の付いた見出しが含まれる場合、順序ラベル情報を話題文から分離して、順序ラベル情報を含まない話題文を出力する。これにより、ユーザは、要約中では大きな意味を持たない順序ラベルに煩わされることなく、要約を読み進められるようになる。
【0036】
また、要約成形手段3は、分離された順序ラベル情報を加工して、順序ラベル情報を含まない話題文と原文書の対応関係を示す補足情報として出力することもできる。このとき、順序ラベル情報は、要約の読解の邪魔にならない形に変形されて出力される。
本発明の別の文書要約装置は、構成認定手段1、話題文抽出手段2、要約成形手段3、およびメモリを備える。構成認定手段1は、与えられた文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとにそれらの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、大きさの異なる複数の窓幅を用いて話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定し、認定された話題の階層的構成のデータをメモリに格納する。話題文抽出手段2は、文に含まれる単語が話題のまとまりに高い頻度で出現するほど大きな値になるような関連度の計算式を用いて、メモリに格納された話題の階層的構成に含まれる話題境界の近傍で語彙的結束度が小さい領域に含まれる文と話題境界の直後の話題のまとまりとの関連度を表す順方向関連度と、語彙的結束度が小さい領域に含まれる文と話題境界の直前の話題のまとまりとの関連度を表す逆方向関連度を計算し、それぞれの文について得られた順方向関連度と逆方向関連度の差を順番に調べていき、順方向関連度と逆方向関連度の差が大きく増加する文を、話題境界の直後の話題内容を端的に表す話題文として抽出し、その話題文のデータをメモリに格納する。要約成形手段3は、メモリに格納された話題文を話題毎にまとめて要約を生成する。
【0037】
例えば、図1の構成認定手段1は、後述する図2の話題構成認定部25に対応し、図1の話題文抽出手段2は図2の話題文抽出部27に対応し、図1の要約成形手段3は図2の出力部28に対応する。
【0038】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
図2は、本発明の文書要約装置の基本構成を示している。図2において、文書要約装置(digest generator)12は、要約対象文書(input document)11が入力されると、その要約文書13を作成して出力する。
【0039】
文書要約装置12は、入力部(input unit)21、単語認定部(tokenizer )22、単語辞書(machine readable dictionary )24、話題構成認定部(topic structure detector)25、話題文抽出部(leading sentence extractor)27、および出力部(output unit )28を備える。
【0040】
入力部21は、要約対象文書11を読み込み、単語認定部22に渡す。単語認定部22は、サブモジュールの形態素解析部(morphological analyzer)23を含み、それを用いて要約対象文書11を言語的に解析して、文書11に含まれる内容語(名詞・動詞・形容詞・形容動詞など)を切り出す。このとき、形態素解析部23は、単語辞書24を参照して、文書11中の文を、品詞情報付きの単語リストに変換する。単語辞書24は、形態素解析用の単語辞書であって、単語の表記文字列と品詞・活用の情報との対応関係などを記述している。
【0041】
話題構成認定部25は、サブモジュールの話題境界候補区間認定部(topic boundary detector )26を含み、それを用いて共通の話題について記述している文書の部分(話題のまとまり)を自動認定する。話題境界候補区間認定部26は、語彙的結束度の小さい区間を話題境界の近傍領域(候補区間)として認定する。語彙的結束度とは、文書11中の各位置の近傍領域における語彙的結束性の強さを表す指標であり、例えば、各位置の前後に設定したある幅の窓内に出現する語彙の類似性から求められる。
【0042】
話題文抽出部27は、まず、話題構成認定部25で認定した各々の話題のまとまりに対して、話題の開始位置付近にある導入部を検出し、検出された導入部から話題文を認定する。次に、文書11の大きさと望ましい要約の大きさから、要約として抽出すべき話題の数を計算し、要約作成の単位とする話題のまとまりの大きさを決定する。そして、決定した大きさ程度の話題のまとまりに属する話題文を、要約に取り入れる文として抽出する。
【0043】
出力部28は、話題文抽出部27が抽出した文を、話題毎にまとめて要約文書13を作成し、処理結果として出力する。
図2の文書要約装置12によれば、話題構成認定部25が、共通の話題について記述している文書の部分を話題のまとまりとして認定し、話題文抽出部27が、それぞれの話題の開始位置付近から集中的に文を抽出する。このように、比較的狭い範囲から集中的に文を抽出して要約に取り込むので、要約が関連性のない文の羅列になることが少なくなる。
【0044】
また、話題文抽出部27は、それぞれの話題境界付近の数文を文書の出現順に取り出し、文中の単語と直前・直後の話題のまとまりとの関連度に基づき、直後の話題との関連度(順方向関連度)が直前の話題との関連度(逆方向関連度)に比べて急激に大きくなる文を境界文として認定する。これにより、書式情報などの手掛かりを併用しなくても、直前の話題から直後の話題への転換点に対応する文を精度よく抽出することができる。
【0045】
さらに、話題文抽出部27は、境界文以降の数文の範囲で候補文を取り出し、境界文以降の文について順方向関連度を求め、順方向関連度が最大となる文を話題導入文として抽出する。これにより、話題の転換点の少し後ろから、話題を導入する役割を持つ文(後続の話題に関連の深い文)を抽出できるので、話題に関する情報を補足する役割を持った文が抽出できる可能性が高くなる。
【0046】
また、話題文抽出部27は、話題構成認定部25が認定した話題のまとまりの中から、適切な粒度の話題のまとまりで、結束性(文章としてのまとまり)の強いものを話題文抽出処理対象として選択し、そこから話題文を抽出する。これにより、望ましい粒度の話題を効率よく要約に取り込むことが可能になる。
【0047】
出力部28は、話題文抽出部27が抽出した文を、適切な粒度の話題毎にまとめて要約文書13を作成し、出力する。これにより、要約を適切な粒度のまとまりに区切ることができるので、要約文書13が長くなった場合でも、内容の区切りが一目で把握できる読みやすい要約が作成できる。
【0048】
さらに、出力部28は、章番号などの順序ラベル付きの見出しに対しては、順序ラベルを、本文との対応関係を示す補足情報の形に加工して出力する。これにより、ユーザは、要約中では大きな意味をもたない順序ラベルに煩わされることなく、要約を読み進められるようになる。また、要約文書13の内容を要約対象文書11の内容との対応関係も把握しやすくなる。
【0049】
図2の文書要約装置12は、例えば、図3に示すような情報処理装置(コンピュータ)を用いて構成することができる。図3の情報処理装置は、出力装置41、入力装置42、CPU(中央処理装置)43、ネットワーク接続装置44、媒体駆動装置45、補助記憶装置46、およびメモリ(主記憶)47を備え、それらはバス48により互いに接続されている。
【0050】
メモリ47は、例えば、ROM(read only memory)、RAM(random access memory)などを含み、文書要約処理に用いられるプログラムとデータを格納する。ここでは、図2に示した入力部21、単語認定部22、形態素解析部23、話題構成認定部25、話題境界候補区間認定部26、話題文抽出部27、および出力部28が、プログラムモジュールとして格納されている。CPU43は、メモリ47を利用してプログラムを実行することにより、必要な処理を行う。
【0051】
出力装置41は、例えば、ディスプレイやプリンタなどであり、ユーザへの問い合わせや要約文書13などの出力に用いられる。入力装置42は、例えば、キーボード、ポインティングデバイス、タッチパネルなどであり、ユーザからの指示や要約対象文書11の入力に用いられる。
【0052】
補助記憶装置46は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク(magneto-optical disk)装置などであり、要約対象文書11、要約文書13、単語辞書24などの情報を格納する。情報処理装置は、この補助記憶装置46に、上述のプログラムとデータを保存しておき、必要に応じて、それらをメモリ47にロードして使用することもできる。
【0053】
媒体駆動装置45は、可搬記録媒体49を駆動し、その記録内容にアクセスする。可搬記録媒体49としては、メモリカード、フロッピーディスク、CD−ROM(compact disk read only memory )、光ディスク、光磁気ディスクなど、任意のコンピュータ読み取り可能な記録媒体が用いられる。ユーザは、この可搬記録媒体49に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ47にロードして使用することもできる。
【0054】
ネットワーク接続装置44は、LAN(local area network)などの任意のネットワーク(回線)を介して外部の装置と通信し、通信に伴うデータ変換を行う。また、情報処理装置は、必要に応じて、上述のプログラムとデータを外部の装置から受け取り、それらをメモリ47にロードして使用することもできる。
【0055】
図4は、図3の情報処理装置にプログラムとデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体49や外部のデータベース50に保存されたプログラムとデータは、メモリ47にロードされる。そして、CPU43は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。
【0056】
次に、図2の文書要約装置12の各モジュールの動作を、具体例を用いてより詳細に説明する。要約対象文書としては、(社)電子工業振興協会「自然言語処理システムの動向に関する調査報告書」(平成9年3月)第4章「ネットワークアクセス技術専門委員会活動報告」(pp.117−197)を用いた。以下の実施形態では、この文書から文を抜粋してA4、1〜2枚(1500文字)程度の要約の作成を試みる。
【0057】
従来、要約の大きさとしては、原文書の1/4程度の大きさが目安とされてきたが、この要約対象文書は81ページの大きさを持ち、従来の自動要約技術が対象としてきた新聞の社説や記事、数頁程度の論文などに比べて巨大である。また、オンラインで文書を閲覧する場合、画面に一度に表示できるのは2ページ程度が限度である。これらの条件を考慮して、上述のような要約の大きさが決められている。
【0058】
要約対象文書の全体を掲載することは適当ではないので、参考として、要約対象文書中の見出しの一覧を図5から図7に示す。図5は、4.1節および4.2節の見出しを出現順に示しており、図6は、4.3節の見出しを出現順に示しており、図7は、4.4節の見出しを出現順に示している。
【0059】
図8は、単語認定部22による単語認定処理のフローチャートである。単語認定部22は、まず、要約対象文書に形態素解析を施し、品詞付きの単語リストを作成する(ステップS11)。次に、品詞を手掛かりに内容語(名詞・動詞・形容詞・形容動詞)を認定し、内容語に対応する文書の部分に印を付けて(ステップS12)、処理を終了する。図9は、要約対象文書の冒頭部分を示しており、図10は、単語認定部22からの対応する出力を示している。
【0060】
図8のステップS11において、形態素解析部23は、図11に示すような形態素解析処理を行う。形態素解析部23は、まず、単語リストをクリアし(ステップS21)、文書の先頭から句点(またはピリオド)などを手掛かりに文の取り出しを試み(ステップS22)、文が取り出せたかどうかを判定する(ステップS23)。
【0061】
文が取り出せれば、次に、単語辞書24を参照して、文に含まれている単語の候補を求める(ステップS24)。日本語の場合は、図9に示したように、単語と単語の境界が形式的に明示されていないので、文に含まれる部分文字列に対応するすべての単語を候補として求める。例えば、「東京都は大都市だ」という文が取り出された場合、図12に示すように、この文に含まれるすべての部分文字列が単語の候補となる。
【0062】
これに対して、英語の場合は、単語の境界が空白(スペース)により明示されているため、空白で区切られた文字列に対応する単語について、品詞の候補を求めることが主な処理となる。例えば、“Tokyo is the Japanese capital.”という文が取り出された場合、図13に示すように、この文に明示的に含まれる5つの単語の基本形と品詞が求められる。
【0063】
次に、形態素解析部23は、品詞レベルの連接の観点から、妥当な単語の並びを選択し(ステップS25)、選択された単語の並びに品詞と出現位置の情報を付加して、出現順に単語リストに追加する(ステップS26)。次に、次の文の取り出しを試み(ステップS27)、ステップS23以降の処理を繰り返す。そして、ステップS23において文が取り出せなくなると、処理を終了する。
【0064】
図10の単語認定結果において、墨付き括弧で括られた部分が形態素解析部23の認定した内容語である。内容語が活用語(動詞・形容詞)の場合、墨付き括弧内で、スラッシュ(/)の前の部分は語幹を表し、スラッシュの後の部分は終止形の活用語尾を表す。これは、後の処理で単語の区別を行うために用いられる情報であるが、この情報の代わりに、品詞と活用を付加しておいてもよい。要するに、例えば、「い/る」と「い/く」のように、語幹だけでは区別の付かない単語を区別するための識別情報であれば、任意のものを用いることができる。
【0065】
また、ステップS25において、単語の並びの妥当性を評価する方法は、形態素解析法として各種のものが知られており、任意のものを用いることができる。例えば、単語の並びの妥当性を訓練データにより推定された出現確率を用いて評価する方法が報告されている(Eugene Charniak. Hidden markov models and two applications. In Statistical Language Learning, chapter 3, pp.37-73. The MIT Press, 1993. / Masaaki Nagata. A stochastic japanese morphological analyzer using a forward-DP backward-A*N-best search algorithm. In Proceedings of COLING'94, pp.201-207, 1994./ 永田昌明、前向きDP後向きA* アルゴリズムを用いた確率的日本語形態素解析システム、情処研報 NL−101−10、情報処理学会、1994年5月.)。
【0066】
なお、図10の例では、単語認定部22がすべての内容語を切り出しているが、切り出しの対象を名詞だけに絞っても構わない。また、英語の文書を対象に処理する場合には、形態素解析処理を行う代わりに、空白で区切られたすべての語のうち、話題に関わらずどこにでも出現する語彙(冠詞、前置詞などの機能語や特に高い頻度で出現する語)を取り除いて、単語を切り出してもよい。このような処理は、単語辞書24の代わりに、機能語や特に高い頻度で出現する語を格納したストップワードリスト(stop word list)を用意すれば、容易に実現できる。
【0067】
次に、話題構成認定部25の処理について説明する。本実施形態においては、話題のまとまりを、先願の特願平10−072724「文書要約装置およびその方法」に示された技術に基づいて認定することにする。この方法では、以下の手順で話題の階層構成が認定される。
1.話題境界位置の区間推定
ある窓幅で計算した結束度に基づき、話題境界が存在しそうな区間を、話題境界候補区間として求める。この話題境界候補区間は、話題境界の近傍領域の1つであると考えられる。そして、大きさの異なる複数の窓幅に対してこの処理を繰り返し、大きな話題の切れ目を示す境界から小さな話題の切れ目を示す境界まで、話題の大きさ別に話題境界候補区間を求める。
2.話題の階層関係の認定
異なる窓幅により求めた話題境界候補区間を統合し、話題の階層構成とそれぞれの話題境界の位置を決定する。
【0068】
これに対して、本実施形態では、話題の階層関係の認定の処理を簡略化し、大きな窓幅による話題境界候補区間と小さな窓幅による話題境界候補区間とで、境界位置が候補区間の範囲内で一致するとみなせるもの同士を、互いに関係付けるだけにとどめている。最終的な話題境界位置は、後述するように、話題文抽出部27による話題文認定処理で決定される。
【0069】
図14は、話題構成認定部26による話題構成認定処理のフローチャートである。話題構成認定部26は、まず、最大窓幅w1 、最小窓幅wmin 、窓幅比rの3つのパラメータをユーザから受け取り(ステップS41)、結束度を測定するための窓幅の集合Wを求める(ステップS42)。図14では、図面の見やすさを考慮して、記号“wmin ”の添字を、“w min”のように記している。窓幅の集合Wは、初項をw1 とし、公比を1/rとする等比級数から、wmin 以上の大きさの項を集めて作成される。
【0070】
このとき、Wにおける最大窓幅w1 としては、文書全体の1/2〜1/4程度の大きさを与え、最小窓幅wmin としては、段落程度の大きさ(例えば、40語)を与え、窓幅比rとしては2を与えておけば、実用上十分である。そこで、以下では、w1 =5,120(語)、wmin =40(語)、r=2の値を用いている。
【0071】
次に、話題構成認定部25は、図10に示したように、内容語に印が付けられた文書をもとに、文書中の各位置の結束度を、W中のそれぞれの窓幅毎に計算し、結束度系列として記録する(ステップS43)。
【0072】
ここでは、まず、文書の各位置(基準点)の前後に設定した2つの窓の中に出現している語彙(ここでは内容語)を比較し、共通している語彙が多い程大きくなるような値を計算して、その位置における結束度とする。そして、窓の位置を文書の冒頭から末尾に向かって一定の刻み幅ticでずらしながら、結束度の計算を繰り返し、計算した結束度を、文書の冒頭から末尾に向かう系列として記録する。
【0073】
なお、刻み幅ticは、窓幅より小さければいずれの値でも構わないが、処理効率を考慮して、ここでは、窓幅の1/8の値を用いた。このticの値は、ユーザが指定することもできる。
【0074】
結束度の計算方法としては各種の方法が考えられるが、以下では、情報検索などの分野で類似度の指標として広く用いられてきた余弦測度(cosine measure)を用いている。この余弦測度は、次式により求められる。
【0075】
【数1】
Figure 0003791879
【0076】
ここで、bl とbr は、それぞれ、左窓(文書の冒頭側の窓)、右窓(文書の末尾側の窓)に含まれる文書の部分を表し、wt,bl、wt,brは、それぞれ、左窓、右窓に出現する単語tの出現頻度を表す。また、(1)式の右辺のΣt は、単語tに関する総和を表す。
【0077】
(1)式の類似度は、左右の窓に含まれる語彙に共通のものが多いほど大きくなり(最大1)、共通のものがない時に0となる。つまり、この値が大きい部分は、左右の窓で共通の話題を扱っている可能性が高く、逆に、この値が小さい部分は、話題の境界である可能性が高いことになる。
【0078】
次に、図15は、ステップS43で記録された結束度の系列を示している。ここでは、窓幅wの1/4が刻み幅ticとして用いられており、文書領域a1〜a11は、刻み幅ticに対応する一定幅の領域である。また、c1は、文書中のa4とa5の境界を基準点として計算した、窓幅wの結束度を表す。すなわち、c1は、文書領域a1〜a4の部分を左窓の範囲とし、a5〜a8の部分を右窓の範囲として計算された結束度である。
【0079】
次のc2は、窓をtic分だけ右へずらして計算された結束度を表し、a5とa6の境界を基準点とする窓幅wの結束度である。このようにして、窓をtic分ずつ順に右へずらして計算したc1,c2,c3,c4,...を、文書の冒頭から末尾へ向かう窓幅wの結束度系列と呼んでいる。
【0080】
図16は、上述の単語認定結果において、文書の冒頭から各基準点までの間に出現した内容語の延べ数を横軸にとり、640語の窓幅の結束度系列をプロットしたグラフである。例えば、図15の結束度c2の場合は、a1〜a5の領域中の内容語の延べ数が、文書における基準点の位置となる。ここでは、640語の窓幅の1/8(80語)を刻み幅ticとして、文書の冒頭から末尾に向かって結束度を計算している。
【0081】
次に、話題構成認定部25は、サブモジュールの話題境界候補区間認定部26を使って、それぞれの窓幅の結束度系列を解析し、結束度の低い区間を話題境界候補区間として認定する(ステップS44)。
【0082】
図16に示したように、結束度系列における極小点は、実際の話題境界(点線で示した節の境界)に対応することが多いが、すべての極小点が話題境界に対応するわけではない。話題境界候補区間認定部26は、結束度系列の極小点を手掛かりに、それぞれの結束度系列の窓幅程度の大きさの話題のまとまりの境界位置を区間推定する。本実施形態では、この処理を、移動平均法を用いて実現している。
【0083】
次に、話題構成認定部25は、異なる窓幅の結束度系列に基づいて求めた話題境界候補区間を互いに関連付けて出力する(ステップS45)。これにより、話題構成認定処理が終了する。
【0084】
次に、図14のステップS44における話題境界候補区間認定処理について、図15および図17を使って説明する。ここで用いられる移動平均法は、株価の変動などの統計的分析方法である時系列分析(time series analysis)において、細かい変動を取り除いて大局的な傾向を把握するために使われている。本実施形態では、結束度系列の移動平均値を細かい変動を無視するために用いるだけでなく、それを移動平均の開始点における順方向結束力および移動平均の終了点における逆方向結束力とみなすことで、話題境界候補区間認定のための直接的な手掛かりとしている。
【0085】
図15は、前述したように、結束度の系列c1〜c4と文書領域a1〜a11との関係を示している。結束度系列の移動平均値とは、例えば、(c1+c2)/2(2項の移動平均)、(c1+c2+c3)/3(3項の移動平均)、(c1+c2+c3+c4)/4(4項の移動平均)のように、結束度系列において連続するn個の値を算術平均した値である。
【0086】
図17は、図15の結束度系列の移動平均の例と文書領域との関係を示している。ここでは、移動平均の例として、図15の結束度の2項〜4項の移動平均が示され、それぞれの移動平均に関わる結束度の計算において、各文書領域が使用された回数が示されている。このうち、下線を付けた値は、対応する文書領域が移動平均に関わるすべての結束度の計算に用いられていることを表す。
【0087】
例えば、左上角の値“1”は、c1〜c4までの4項の移動平均において、文書領域a1が一度だけ左窓の一部として扱われたことを示している。また、その右の値“2”は、c1〜c4までの4項の移動平均において、文書領域a2が2回左窓の一部として扱われたことを示している。他の使用回数についても、同様である。
【0088】
結束度は境界の前後の部分の結び付きの強さを表す指標であるので、領域a1を左窓に含んで得られた結束度c1を用いて計算された移動平均値も、領域a1がそれより右側(文書の末尾側)の部分に結び付いているかどうかを示す指標の1つと考えられる。
【0089】
言い換えれば、移動平均値は、移動平均をとった結束度の左窓部分の領域(c1〜c4の4項平均に対してはa1〜a7)が文書の末尾方向(順方向:図15では右方向)に引っ張られる強さの指標(順方向結束力)になっていると言える。一方、逆に、移動平均をとった結束度の右窓部分の領域(c1〜c4の4項平均に対してa5〜a11)が文章の冒頭方向(逆方向:図15では左方向)に引っ張られる強さの指標(逆方向結束力)になっているとも言える。
【0090】
ここで、結束力とそれぞれの文書領域との関連性を考察すると、結束度の計算においてより多く窓に含まれていた領域との関連が強いと考えられる。また、語彙的結束性は、一般に、近傍で繰り返される語彙に基づくものほど強いと考えられるので、移動平均をとった結束度の基準点(左右の窓の境界位置)に近い位置にある領域ほど関連が強いとも言える。
【0091】
例えば、図17の4項の移動平均については、結束度の基準点は、a4とa5の境界、a5とa6の境界、a6とa7の境界、およびa7とa8の境界の4つである。この場合、a4は最も多く左窓に含まれており、かつ、これらの基準点に最も近いことが分かる。また、a8は最も多く右窓に含まれており、かつ、これらの基準点に最も近いことが分かる。したがって、移動平均値と最も関連の強い領域は、左窓についてはa4、右窓についてはa8となる。
【0092】
同様にして、3項の移動平均と最も関連の強い領域を選ぶと、左窓についてはa4、右窓についてはa7となり、2項の移動平均と最も関連の強い領域を選ぶと、左窓についてはa4、右窓についてはa6となる。これらの領域の使用回数は、図17では斜線を付けて示されている。
【0093】
以上の考察に基づき、話題境界候補区間認定部26は、結束度の移動平均値を、移動平均をとった領域内の最初の基準点における順方向結束力および最後の基準点における逆方向結束力の指標として取り扱う。例えば、c1〜c4の4項の移動平均値は、a4とa5の境界における順方向結束力およびa7とa8の境界における逆方向結束力となる。 図18は、話題境界候補区間認定部26による話題境界候補区間認定処理のフローチャートである。候補区間認定部26は、まず、話題構成認定部25から結束度系列の刻み幅ticを受け取り、ユーザから移動平均の項数nを受け取る(ステップS51)。
【0094】
これらのパラメータの値の目安は、刻み幅ticについては、例えば、窓幅wの1/8〜1/10程度の大きさであり、項数nについては、w/ticの半分(4〜5)程度である。また、移動平均をとる領域の最初の基準点から最後の基準点までの隔たりを、(n−1)*ticにより計算して、それを移動平均の幅d(語)とする。
【0095】
次に、文書中の各位置pについて、p〜p+dの範囲内で結束度の移動平均をとり、平均値を位置pにおける順方向結束力として記録する(ステップS52)。この値は、同時に、移動平均をとった範囲の終了位置p+dにおける逆方向結束力としても記録される。
【0096】
次に、記録された順方向結束力をもとに、文書中の冒頭から末尾に向かって各位置における順方向結束力と逆方向結束力の差(順方向結束力−逆方向結束力)を調べ、その値が負から正に変化する位置を負の結束力拮抗点mpとして記録する(ステップS53)。
【0097】
負の結束力拮抗点とは、その位置の左では逆方向結束力が優勢であり、その位置の右では順方向結束力が優勢であるような点である。したがって、この点の左右の部分は意味的な結び付きが弱いと考えられ、負の結束力拮抗点は話題境界の候補位置となる。
【0098】
次に、記録された負の結束力拮抗点mpの直前・直後のd語以内の範囲[mp−d,mp+d]を話題境界候補区間と認定して(ステップS53)、処理を終了する。
【0099】
ここで、順・逆方向の結束力の差に基づいて話題境界候補区間を認定する意味を、図19を使って説明する。図19は、図16の12000語の手前付近(11000語〜11500語付近)における320語幅の窓による結束度と順・逆方向の結束力の分布を示している。刻み幅ticとしては、窓幅の1/8を採用している。
【0100】
図19において、記号+でプロットした折れ線グラフは、結束度Cの系列を表し、記号*でプロットした折れ線グラフは、順方向結束力FCの系列を表し、記号□でプロットした折れ線グラフは、逆方向結束力BCの系列を表す。話題境界候補区間と結束力拮抗点を表す2重矩形で示された領域については、後述することにする。
【0101】
また、点線で示されたep1、ep2、ep3は、順・逆方向の結束力の差が0になる3つの点(結束力拮抗点)を表す。最初の点ep1の左側では、逆方向結束力が順方向結束力より優勢であり、その右側から次の点ep2までは、順方向結束力が逆方向結束力より優勢である。さらに、その右側から最後の点ep3までは、逆方向結束力が順方向結束力より優勢であり、その右側では、順方向結束力が逆方向結束力より優勢である。
【0102】
したがって、ep1とep3は、順方向結束力と逆方向結束力の差が負から正に変化する負の結束力拮抗点であり、ep2は、その差が正から負に変化する正の結束力拮抗点である。
【0103】
このような結束力の変化から、最初の点ep1の左側の領域は、それより左側のいずれかの部分へ向かって結束し、真中の点ep2の両側の領域は、ep2に向かって結束し、最後の点ep3の右側の領域は、それより右側のいずれかの部分ヘ向かって結束していることが分かる。実際、順・逆方向の結束力と共にプロットした結束度は、ep1とep3の近傍で極小値をとり、ep2の近傍で極大値をとっている。このように、順・逆方向の結束力の変化と結束度の変化は密接に関連している。
【0104】
例えば、図19の結束力拮抗点ep3の近傍の水平の矢印で示した部分P1は、結束度が極小となる部分の1つである。このため、この部分P1の移動平均(ここでは、c1〜c4の4項平均)の値も、P2およびP3における結束力が示しているように、通常は、極小値をとる。ただし、移動平均をとる領域より狭い範囲で細かい変動がある場合には、移動平均の平滑化作用により、移動平均値すなわち結束力が極小値をとらないこともある。
【0105】
また、順方向結束力は移動平均値を移動平均をとる領域の開始位置に記録した指標であるので、順方向結束力の極小位置は結束度の極小位置の左になる。同様の理由により、逆方向結束力の極小位置は結束度の極小位置の右になる。そして、結束度の変動が十分に大きければ、移動平均をとる領域内に結束力拮抗点が生成されることになる。
【0106】
図20は、図14のステップS45において行われる話題境界候補区間関連付け処理のフローチャートである。話題構成認定部25は、まず、認定された話題境界候補区間を、認定に使った結束度系列の窓幅と、話題境界候補区間内の結束力拮抗点の文書における出現位置とによってソートしてまとめ、話題境界候補区間データの系列B(j)[p]を作成する(ステップS61)。
【0107】
ここで、制御変数jは、窓幅wj の結束度系列により認定されたことを表す系列番号であり、制御変数pは、系列内の各話題境界候補区間を表すデータ番号である。実際には、jは、窓幅の大きい順に0,1,2,...のような値をとり、pは、結束力拮抗点の出現順に1,2,...のような値をとる。なお、系列番号0に対応するデータB(0)は、文書全体に対応して作成される特殊なデータであり、その話題境界候補区間は結束度系列とは独立に設定される。それぞれのデータB(j)[p]は、次のような要素データを含む。
【0108】
・B(j)[p].range:話題境界候補区間。(開始位置、終了位置)の組。
・B(j)[p].bp:結束力拮抗点。
【0109】
・B(j)[p].child:境界位置の話題境界候補区間の範囲で一致するB(j+1)系列の話題境界候補区間(子候補区間)。
ここで、結束力拮抗点は理論的には点であるが、前述のように、順方向結束力と逆方向結束力の差の符号が反転する地点を拮抗点として認定しているので、実際には、差が負の点(開始位置)と差が正の点(終了位置)の組が得られる。そこで、本実施形態では、結束力拮抗点の開始位置lpと終了位置rpにおける(順方向結束力−逆方向結束力)の値を、それぞれ、DC(lp)とDC(rp)として、左右の結束力が0になる点bpを、次式により補間して求める。
Figure 0003791879
そして、得られたbpを、B(j)[p].bpとする。
【0110】
次に、話題構成認定部25は、窓幅の異なる話題境界候補区間データを関連付ける処理を行う。ここでは、1つの系列に属するB(j)[p]をまとめてB(j)と記し、さらに、次のような表記法を用いて、以下の処理を説明する。
【0111】
・ie:最小窓幅wmin に対応する系列番号。
・|B(j)|:B(j)におけるデータ番号pの最大値。
まず、処理対象を表す系列番号iを1に初期化する(ステップS62)。これにより、最大窓幅w1 による話題境界候補区間の系列が処理対象に設定される。そして、j+1≦jeである限り、jをインクリメントしながら、B(j+1)を関連付け対象の系列とする関連付け処理を行う。
【0112】
この関連付け処理では、処理対象系列中のそれぞれの話題境界候補区間データB(j)[p](p=1,...,|B(j)|)について、それと同じ付近を境界候補としている関連付け対象系列中のデータB(j+1)[q]のうち、B(j+1)[q].bpがB(j)[p].bpに最も近いデータが選ばれ、関連境界候補区間データとしてB(j)[p].childに格納される。
【0113】
具体的な手順は以下の通りである。まず、j+1とjeを比較し(ステップS63)、j+1≦jeであれば、pに1を代入して(ステップS64)、pと|B(j)|を比較する(ステップS65)。p≦|B(j)|であれば、ステップS66以降の関連付け処理を行い、pが|B(j)|を越えれば、j=j+1とおいて(ステップS71)、ステップS63以降の処理を繰り返す。
【0114】
ステップS66では、話題構成認定部25は、関連付け候補となる系列中のデータB(j+1)[q](q=1,...,|B(j+1)|)の中から、B(j+1)[q].bp∈B(j)[p].rangeとなるデータでB(j+1)[q].bpがB(j)[p].bpに最も近いデータを、関連付け対象データとして選択し、B(j)[p].childに格納する。
【0115】
ここで、B(j+1)[q].bp∈B(j)[p].rangeという条件は、B(j)[p]の話題境界候補区間の中にB(j+1)[q]の結束力拮抗点が含まれていることを表す。また、処理対象データB(j)[p]と関連付け対象データB(j+1)[q]は、双方向のリンクで関連付けてもよく、片方向のリンクで関連付けてもよい。
【0116】
図21は、関連付け対象データの選択例を示している。図21において、記号+でプロットした折れ線グラフは、処理対象に対応する640語幅の窓による順方向結束力の系列を表し、記号×でプロットした折れ線グラフは、640語幅の窓による逆方向結束力の系列を表す。また、記号*でプロットした折れ線グラフは、関連付け対象に対応する320語幅の窓による順方向結束力の系列を表し、記号□でプロットした折れ線グラフは、320語幅の窓による逆方向結束力の系列を表す。
【0117】
また、2重矩形で示された領域のうち、大きな矩形領域が話題境界候補区間に対応し、それに含まれている小さな矩形領域が結束力拮抗点に対応する。ここでは、結束力拮抗点は、開始位置と終了位置により区切られた小さな区間として表されている。
【0118】
例えば、処理対象データをB(4)[12]とすると、その話題境界候補区間B(4)[12].rangeには、関連付け対象系列の2つのデータの結束力拮抗点B(5)[24].bpとB(5)[25].bpが含まれている。このため、B(5)[24]とB(5)[25]が関連付け対象データの候補となる。これらのうち、B(5)[25].bpの方が、処理対象データの結束力拮抗点B(4)[12].bpにより近いので、B(5)[25]が関連付け対象データとして選択される。
【0119】
次に、話題構成認定部25は、関連付け対象データが選択できたかどうかを判定する(ステップS67)。ここでは、B(j)[p].childが空でなければ、関連付け対象データが選択できたと判定され、B(j)[p].childが空であれば、関連付け対象データが選択できなかったと判定される。そして、関連付け対象データが選択できた場合は、p=p+1とおいて(ステップS70)、ステップS65以降の処理を繰り返す。
【0120】
関連付け対象データが選択できなかった場合には、B(j)[p]と同じ話題境界候補区間を持つ疑似的な関連付け対象データ(ダミーデータ)B(j+1)[q]を作成し、B(j+1)の系列に挿入する(ステップS68)。
【0121】
ステップS68では、まず、B(j+1)[q].rangeとB(j+1)[q].bpに、それぞれ、B(j)[p].rangeとB(j)[p].bpの値を設定して、新たなデータB(j+1)[q]を作成する。そして、系列B(j+1)の中で、B(j+1)[q−1].bp<B(j+1)[q].bpかつB(j+1)[q].bp<B(j+1)[q+1].bpとなるような位置に、作成したデータB(j+1)[q]を挿入する。
【0122】
これにより、疑似的な関連付け対象データのデータ番号qが決定され、それ以降の既存データのデータ番号は書き換えられる。ここで、擬似的な話題境界候補区間データを作成するのは、以降の処理において、j以下のすべての系列番号の話題階層において話題文を抽出するためである。
【0123】
次に、作成されたダミーデータB(j+1)[q]をB(j)[p].childに格納し(ステップS69)、ステップS70以降の処理を行う。そして、ステップS63においてj+1がjeを越えれば、処理を終了する。
【0124】
最終的には、je未満のすべての系列番号jのデータに対して、その話題境界候補区間内に結束力拮抗点を持つ系列番号j+1のデータが、B(j)[p].childに設定される。したがって、B(j)[p].childにより、複数の階層の話題境界候補区間データが連鎖的に関連付けられることになる。
【0125】
図22は、こうして得られた話題境界の認定結果を示している。図22において、5120語、2560語、1280語、640語の各窓幅に対応して2重矩形で示された領域のうち、大きな矩形領域が話題境界候補区間に対応し、それに含まれている小さな矩形領域が結束力拮抗点に対応する。B(1)、B(2)、B(3)、B(4)は、それぞれ、5120語、2560語、1280語、640語の各窓幅に対応する系列を表し、2重矩形に添えられた番号[1],[2],...などは、各系列内のデータ番号を表す。
【0126】
また、各系列には、文書全体の開始位置に対応する番号[0]の境界データが加えられている。これは、番号[0]のデータから、文書の先頭の話題のまとまりに対する話題文、特に、文書全体のまとまり(B(0))に対する話題文を抽出するための措置である。いずれの系列の番号[0]のデータについても、その話題境界候補区間の幅は、最小窓幅による移動平均幅程度(25語)に設定されている。
【0127】
図22の認定結果では、大きな窓幅によって認定された境界ほど大きな話題の切れ目に対応するという傾向にあることが見てとれる。例えば、最大窓幅(5120語幅)による話題境界が4.3節、4.4節というような大きな節の開始位置とよく対応しており、その次に大きな窓幅(2560語幅)による話題境界が4.3.1節、4.3.2節などの次に大きな節の開始位置とよく対応している。
【0128】
次に、話題文抽出部27の処理について説明する。話題文抽出部27の処理には、大きく分けて2種類の処理が含まれる。第1の処理は、話題文認定処理であり、話題構成認定部25が認定したそれぞれの話題のまとまりに対して、話題文を認定し、境界位置を確定するために行われる。第2の処理は、話題文抽出処理であり、要約の出力量に応じて要約に取り入れる話題の粒度を調整するための処理である。
【0129】
話題文抽出部27は、話題文認定処理において、まず、話題構成認定部25が認定した話題境界候補区間のそれぞれに対して、その範囲内の文を候補として、直後の話題が立ち上がる位置にあたる文を検出する。そして、この文を第1種の話題文(境界文)として認定する。
【0130】
次に、この境界文の位置を話題の導入部の開始位置として記録し、候補区間内の境界文以降の部分を導入部と認定する。そして、話題文抽出部27は、導入部の文の中で、直後の話題のまとまりとの関連度が最大となる文を第2種の話題文(話題導入文)として認定する。
【0131】
話題文抽出部27は、境界文および話題導入文を認定するために、順方向関連度および逆方向関連度という2種類の関連度を用いる。順方向関連度とは、話題構成認定部25が認定した話題境界候補区間内のそれぞれの文と、その直後の話題のまとまりとの関連性の度合いを示す指標である。逆方向関連度とは、話題境界候補区間内のそれぞれの文と、その直前の話題のまとまりとの関連性の度合いを示す指標である。
【0132】
ここで、文Sと話題のまとまりbとの関連度rS,b は、語彙の繰り返し状況によって定義することができ、例えば、次式により求められる。
【0133】
【数2】
Figure 0003791879
【0134】
(3)式において、|S|は、文Sに含まれる延べ単語数を表し、|b|は、話題のまとまりbに含まれる延べ単語数を表し、tfw,b は、話題のまとまりbにおける単語wの出現頻度を表し、|D|は、文書全体を固定幅(80語)刻みに区切って得られるブロックの数を表し、dfw は、単語wが出現しているブロックの数を表す。
【0135】
(3)式は、発明者による文献(仲尾由雄、文書の話題構成に基づく重要語の抽出、情処研報 FI−50−1、情報処理学会、1998年7月.)において、単語の重要度の評価用に取り上げられた尺度の1つ(「情報量型複数ブロックtf×idf法」)を応用したものである。この文献では、(3)式のΣ内の部分の数式を用いて文書内の単語の重要度を評価する実験を行ったところ、評価値が高い順に単語を抽出することで、見出しに出現する単語(重要語)が効率よく抽出できたことが報告されている。
【0136】
文Sと話題のまとまりbとの関連度rs,b の計算方法は(3)式に限られず、各種の方法を用いることも可能である。ただし、(3)式に基づく関連度には以下のような望ましい性質があることから、本実施形態では、この計算方法を採用した。
(1)話題のまとまり中の高頻度語が重視される。
【0137】
文S中の単語が、計算対象の話題のまとまりに高い頻度で出現すると、tfw,b の値が大きくなるので、関連度が大きくなる。
(2)話題のまとまりに特徴的に出現する単語が重視される。
【0138】
語の文書全体における出現密度が低いほど、logの部分の値が大きくなるので、文書全体では出現密度が低い単語が文Sと話題のまとまりの両方に出現した場合、関連度が大きくなる。(3)主要な話題として取り上げられている単語が重視される傾向にある。
【0139】
log内の部分は、局所的に集中して出現する単語の出現頻度を低めに補正した出現密度の逆数の形をとっている。このため、文S中の単語が話題のまとまりの中で1ヶ所に集中して出現している場合に、関連度が大きくなる。
【0140】
なお、それぞれの話題のまとまりの最終的な境界位置は、境界文の開始位置であるため、話題文認定処理の途中では決定されていない場合がある。そこで、話題文認定処理では、決定されていない境界位置に対しては、話題構成認定部25が認定した結束力拮抗点の位置を話題境界の仮位置として用いて、上記の関連度を計算することにする。
【0141】
図23および図24は、話題文抽出部27による話題文認定処理のフローチャートである。話題文認定部27は、まず、文書全体を固定幅のブロックに分割し、文書内に出現するそれぞれの単語wが出現するブロックの数を集計し、ブロック出現頻度dfw として記録する(図23、ステップS81)。次に、処理対象の系列番号を示す制御変数jの初期値として系列番号の最大値jeを代入する(ステップS82)。これにより、最小の話題に関する話題境界候補区間データが処理対象に位置付けられる。
【0142】
続いて、j≧0である限り、B(j)系列を話題文認定系列とする処理を行う。まず、jが0以上であるか否かを判定し(ステップS83)、jが0未満の場合には処理を終了する。次に、pに0を代入して(ステップS84)、pと|B(j)|を比較する(ステップS85)。p≦|B(j)|であれば、ステップS86以降の処理を行い、pが|B(j)|を越えれば、j=j−1として(ステップS91)、ステップS83以降の処理を繰り返す。
【0143】
ステップS86では、B(j)[p]に関連付けられたより小さい話題に関する話題境界候補区間データ(子候補区間データ)があるか否かを判定する。そして、子候補区間データがあれば、B(j)[p].rangeを子候補区間データの話題境界候補区間B(j)[p].child.rangeに合わせて修正し(ステップS87)、子候補区間データがなければ、ステップS87の処理をスキップする。
【0144】
次に、B(j)[p]がダミーデータであるか否かを判定し(ステップS89)、それがダミーデータの場合には、図24の処理をスキップし、p=p+1として(ステップS90)、次のデータの処理に移る。
【0145】
B(j)[p]がダミーデータでなければ、話題文認定部27は、B(j)[p].range内に少なくともその一部分が含まれる文を話題文の候補s[i](1≦i≦ie)として取り出し(図24、ステップS92)、2種類の話題文(境界文と話題導入文)の認定処理を行う。ここで、ieは、取り出された話題文の候補の数を表す。
【0146】
まず、話題文認定部27は、取り出された候補s[i]のすべてに対して、順方向関連度と逆方向関連度を(3)式に基づいて計算する(ステップS93)。次に、順方向相対関連度、すなわち、順方向関連度と逆方向関連度との差を、候補中の先頭の文から末尾の文まで調べる(ステップS94)。そして、順方向相対関連度が正で、かつ、直前の順方向相対関連度からの増分が最大となる文を境界文と認定し、その境界文以降の候補を導入部と認定する。
【0147】
話題の境界においては、一般に、順方向関連度と逆方向関連度がともに急激に変化することが多い。このため、順方向関連度と逆方向関連度との差の増分を指標として用いることで、境界文の検出精度が向上すると考えられる。
【0148】
次に、境界文が認定できたか否かを判定し(ステップS95)、境界文が認定できた場合には、その境界文以降(または、境界文より後ろ)にある候補の中で、順方向関連度が最大となる文を話題導入文として認定する(ステップS96)。また、境界文が認定できなかった場合には、すべての候補の中で、順方向関連度が最大となる文を、境界文かつ話題導入文として認定する(ステップ97)。
【0149】
次に、B(j)[p].rangeの終端を認定された境界文の位置に合わせ(ステップS98)、p=p+1として(図23、ステップS90)、ステップS85以降の処理を繰り返す。これにより、次の話題境界候補区間データの話題文認定処理が行われる。
【0150】
ステップS98において、話題境界候補区間の終了位置を修正しているのは、以降の処理で、より大きな話題のまとまりに対する境界文を、現在の処理対象の話題に対する境界文以前の範囲から認定するためである。これにより、例えば、章見出しの直後に節見出しがある場合に、小さい話題に関する境界文として節見出しを、大きな話題に関する境界文として章見出しを認定できる可能性を高めることができる。
【0151】
図25は、要約対象文書の4.4節の開始位置付近(図22の横軸の12,000語の手前付近)の話題文の認定例を示している。図25において、<外>の印が付けられた文(12002語の位置)の次の文から最後の文(12055語の位置)までが話題文の候補であり、それらの文の少なくとも一部分が話題境界候補区間(ここでは、[12026,12059]の35語幅の区間)にかかっている。ここでは、境界文より後ろにある候補の中から話題導入文が選択されている。
【0152】
<境>の印が付けられた文(12031語の位置)においては、順方向関連度(“対直後”の列の値)と逆方向関連度(“対直前”の列の値)との差、すなわち、順方向相対関連度(“後−前”の列の値)が正(0.016)であり、かつ、直前の順方向相対関連度(−0.008)からの増分が最大(0.024)となっている。したがって、この文は、境界文と認定されている。
【0153】
また、<導>の印が付けられた文(12033語の位置)においては、境界文より後ろにある文(この場合は2文)の中で、順方向関連度が最大(0.023)となっている。したがって、この文は、話題導入文と認定されている。
【0154】
なお、後続の要約成形処理においては、境界文は見出しであることが望ましく、話題導入文は、後続の話題を紹介する文であることが望ましい。そこで、図24の処理において、それぞれの話題文候補の文末表現や文型などの手掛かりを併用することで、この性質を満たす境界文と話題導入文を増やすことも可能である。
【0155】
例えば、見出しは、日本語であれば句点で終わらない文であることが多く、英語であればピリオドで終わらない文であることが多い。そこで、ステップS94において、まず、話題文の候補の中で句点/ピリオドで終わらない文だけを対象に境界文の認定を試み、それが認定できなかった場合にだけ、その他の文を対象に境界文の認定処理を行うようにすれば、認定される境界文が文書中の見出しと一致する可能性を高めることができる。
【0156】
また、後続の話題を紹介する文は、日本語であれば、“〜する”のように終止形の動詞で終わる文であることが多く、英語であれば、“I”、“we”のような1人称の代名詞や“This section”のような章などを表す名詞句から始まる現在時制/未来時制の文であることが多い。そこで、ステップS96において、まず、そのような性質を満たす文だけを対象に話題導入文の認定を試み、それが認定できなかった場合にだけ、その他の文を対象に話題導入文の認定処理を行うようにすれば、認定される話題導入文が後続の話題を紹介する文と一致する可能性を高めることができる。
【0157】
次に、図26は、話題文抽出部27による話題文抽出処理のフローチャートである。話題文抽出部27は、まず、望ましい要約の大きさSa、望ましい各話題の抜粋量Stの2つのパラメータをユーザから受け取る(ステップS101)。
【0158】
次に、SaをStで割って抽出すべき話題の概数Ntを求め(ステップS102)、Nt個以下の境界からなる最下層の話題の話題境界候補区間データ系列を求め、その系列番号を制御変数jに設定する(ステップS103)。これにより、B(j)が話題文抽出処理の基本的な対象に位置付けられ、話題の粒度が決定される。
【0159】
具体例では、Saとして1500文字程度を与え、Stとして150文字程度を与えているので、Nt=10となる。この場合、図22の話題構成の認定結果によれば、1280語の窓幅による話題境界候補区間データ(系列番号は3)が話題文抽出処理の基本的な対象となる。
【0160】
次に、系列番号jのすべての話題境界候補区間データB(j)[p]について、それぞれの話題境界候補区間の中で最も前にある境界文、すなわち最大の話題のまとまりに対する境界文の開始位置を、話題境界表示記号の出力位置に指定する(ステップS104)。この指定を行うことで、出力部28が要約を成形する際に、話題のまとまり毎に話題文を区切って出力することが可能になる。
【0161】
続いて、j≧0である限り、B(j)系列から話題文を抽出する処理を行う。まず、jが0以上であるか否かを判定し(ステップS105)、jが0未満の場合には処理を終了する。
【0162】
jが0以上の場合には、B(j)を話題文抽出系列として、B(j)中の個々の話題境界候補区間データB(j)[p]について、それと関連付けられているより大きな話題の中で最大のものに対応する系列番号を求める。そして、それらのB(j)[p]を得られた系列番号順にソートする(ステップS106)。これにより、B(j)[p]のデータ番号pはソート順に置き換えられる。
【0163】
このような操作は、必須ではないが、より大きな話題から優先的に話題文を抽出するために行われる。これにより、ステップS109において要約の出力量に関する制約から話題文抽出処理が打ち切られた場合でも、大きな話題に関する話題文が要約に取り入れられるようにすることができる。
【0164】
次に、話題文抽出部27は、pに0を代入して(ステップS107)、pと|B(j)|を比較する(ステップS108)。p≦|B(j)|であれば、ステップS109以降の処理を行い、pが|B(j)|を越えれば、j=j+1とおいて(ステップS112)、ステップS105以降の処理を繰り返す。
【0165】
次に、話題文抽出部27は、SaおよびStの制約の範囲内で文を抜粋する余地があるか否かを調べ(ステップS109)、抜粋する余地がなければ、話題文抽出処理を終了する。抜粋する余地があれば、処理対象のB(j)[p]の境界文と話題導入文、および、その話題境界候補区間に含まれている境界文の中で最も前にあるものを、抜粋対象の文として抽出する(ステップS110)。
【0166】
次に、p=p+1とおいて次のデータを処理対象に位置付け(ステップS111)、ステップS108以降の処理を繰り返す。
なお、結束度が低い話題のまとまりは、例えば、項目を羅列しただけの部分のように、内容が薄い部分であることが多いので、そこからの話題文の抽出をスキップすることも考えられる。抽出をスキップする場合には、ステップS110に先立って、所定の方法で話題のまとまりの結束度を計算し、得られた結束度を何らかの基準値と比較する。そして、結束度が基準値より小さい場合に、その話題のまとまりの開始位置に対応する話題境界候補区間を求め、その区間についてのステップS110の処理を行わないようにすればよい。
【0167】
図27は、このような場合に行われる結束度計算処理のフローチャートである。話題文抽出部27は、まず、処理対象話題区間bとその話題区間の窓幅wを受け取り(ステップS121)、話題区間bの大きさとwを比較する(ステップS122)。
【0168】
話題区間bの大きさがwより大きければ、話題区間bから、その両端w/2の部分を除外した区間における最大結束度を求め、その値を中央結束度として記録して(ステップS123)、処理を終了する。また、話題区間bの大きさがw以下であれば、話題区間bの中心位置における結束度を中央結束度として記録し(ステップS124)、処理を終了する。こうして得られた中央結束度を基準値と比較して、話題文の抽出をスキップするか否かが判定される。
【0169】
次に、図28は、出力部28による要約成形処理のフローチャートである。出力部28は、まず、話題文抽出部27が抽出したie個の話題文をs[i](1≦i≦ie)とし、それらを要約対象文書11における出現位置順にソートする(ステップS131)。次に、話題文抽出部27が設定したje個の話題境界表示記号の出力位置(話題境界出力位置)をb[j](1≦j≦je)とし、それらを同様にソートする(ステップS132)。
【0170】
次に、制御変数iとjにそれぞれ1を代入し、先頭の話題文と話題境界出力位置を処理対象に位置付ける(ステップS133)。続いて、i≦ieである限り、話題文の出力処理を行う。
【0171】
この処理において、出力部28は、まず、iとieを比較し(ステップS134)、i>ieであれば処理を終了する。i≦ieであれば、次に、話題境界出力位置b[j]の位置データLOC(b[j])と出力対象の話題文s[i]の位置データLOC(s[i])を比較する(ステップS135)。
【0172】
話題文s[i]が話題境界出力位置b[j]以降にある場合には、話題境界表示記号を出力し(ステップS136)、j=j+1とおいて(ステップS137)、ステップS135以降の処理を繰り返す。話題境界表示記号は、話題文抽出部27が抽出対象として決定した粒度の話題の間に区切りを付けるための記号であり、例えば、空行などである。
【0173】
また、話題文s[i]が話題境界出力位置b[j]より前にある場合には、その話題文s[i]を出力し(ステップS138)、i=i+1とおいて次の話題文を出力対象に位置付け(ステップS139)、ステップS134以降の処理を繰り返す。
【0174】
図29、30、31は、このような処理によって作成された要約文書を示している。この要約文書は、1449文字(要約対象文書との文字数比で1.5%)の長さを持ち、10個の空行(話題境界表示記号)により11個の部分に分けて出力されている。この要約結果によれば、話題文抽出部27に条件として与えたパラメータに従って、適切な粒度の話題が適切な分量で要約に取り入れられたことが分かる。
【0175】
また、この要約結果において、空行により区切られた部分の中には、その中に含まれる文の相互の関連性が明確であるものが多い。また、文の内容も、調査内容の紹介などに関するものが多く、理解するのは容易である。ただし、比較的数は少ないものの、図30の「(4)分散検索」から始まる部分に含まれている「4.3.3 電子出版及び電子図書館」のように、より大きな話題の見出しと考えられる文を含む部分などもある。
【0176】
しかし、全体的に見れば、図29、30、31の要約結果は、長い文書に対しても本発明の狙い通りに要約が作成可能なことを示している。また、空行で区切られた各部分の先頭には、適切な見出しが抽出されていることが多いという事実は、本発明の方法によれば、文書の書式を参照しなくても、適切な話題境界が認定できることを示唆している。
【0177】
なお、空行で区切られた部分の先頭に見出しが抽出されることが多いことを利用して、要約中の話題のまとまりをより強調して提示することも可能である。例えば、空行の直後にある文を見出しとして扱い、独立した行に出力し、後続の文を段下げして表示すれば、話題の切れ目をより強調して提示することができる。
【0178】
図32は、このような方法で要約中の話題のまとまりを強調した例を示している。この要約結果は、要約全体の長さのパラメータ(望ましい要約の大きさSa)を500文字に変更して話題文を抽出した後、話題境界表示記号(空行)の直後にある見出しを強調して出力することにより得られたものである。
【0179】
なお、図32の要約文書には、4.1節、4.3節、および4.4節の見出しが含まれているのに、4.2節の見出しが含まれていない。そのため、要約文書のユーザが4.2節に何が書いてあるのかを気にすることも考えられる。この場合、節番号のような順序を規定するラベル(順序ラベル)が付加された見出しを特別に処理し、順序ラベルを外すことで、ユーザの心理的な負荷を軽減することも可能である。
【0180】
例えば、順序ラベルを見出しから分離し、まず、見出しを出力してから、順序ラベルを「(4.参照)」のような形に加工し、原文書(要約対象文書)との対応関係を示す補足情報(対応箇所表示表現)として見出しに添えてやると、図33のような要約文書を作成することができる。図33では、「(4.参照)」、「(4.3参照)」、および「(4.4.参照)」が対応箇所表示表現として、各見出しに添えられている。
【0181】
図34は、このような話題文出力処理のフローチャートである。この処理は、図28のステップS138において、通常の出力処理の代わりに行われる。出力部28は、まず、出力対象の話題文s[i]の位置が話題境界表示記号の直後か否かを判定する(ステップS141)。それが話題境界表示記号の直後であれば、次に、s[i]は順序ラベル付きの見出しであるか否かを判定する(ステップS142)。
【0182】
s[i]が順序ラベル付きの見出しであれば、順序ラベルを見出しから分離し(ステップS143)、順序ラベルを用いて対応箇所表示表現を作成する(ステップS144)。そして、見出しと対応箇所表示表現を出力して(ステップS145)、処理を終了する。
【0183】
ステップS141において、s[i]の位置が話題境界表示記号の直後でない場合、および、ステップS142において、s[i]が順序ラベル付きの見出しでない場合は、s[i]を通常通り出力して(ステップS146)、処理を終了する。
【0184】
上述の要約成形処理においては、話題境界表示記号として、空行以外にも罫線などの任意の表示情報を用いることができ、順序ラベルには、節番号以外にも章番号やアルファベットなどの任意の順序情報が含まれる。さらに、対応箇所表示表現としては、「(4.参照)」のような表現以外の任意の表現を用いることができる。
【0185】
また、上述の要約成形処理においては、1階層の話題境界(図33では、B(1)系列の境界データ)のみを用いて要約結果中の話題を区切って出力しているが、複数階層の話題境界を併用すれば、要約結果中の大きな話題と小さな話題を区別して出力することも可能である。
【0186】
例えば、図33の「ネットワーク上の検索サービス(4.3参照)」で始まる部分には、B(2)系列の境界データB(2)[2]とB(2)[3]に対する境界文「(1)キーワード抽出」と「(4)分散検索」が含まれている。それらを見出しとして扱って、同様の手順で出力すれば、図35のような要約結果が得られる。
【0187】
次に、英語の要約対象文書として、米国出願の明細書の原稿(23,000語)を用いた例について説明する。ここでは、次のような処理方法およびパラメータを採用した。
(1)単語認定の方法:ストップワードリストを用いた方法
(2)結束度計算用の窓の幅:
最大窓幅w1 =6,556(語)
最小窓幅wmin =104(語)
刻み幅tic=13(語)(要約対象文書における1文あたりの平均語数)
(3)話題文抽出における抜粋量:
望ましい要約の大きさSa:1000文字程度
望ましい各話題の抜粋量St:300文字程度
要約対象文書の全体を掲載することは適当ではないので、参考として、要約対象文書中の見出しの一覧を図36に示す。図36において、()内の表現は、説明のために付加された見出しの省略形であり、要約対象文書には含まれていない。
【0188】
図37は、入力された要約対象文書の先頭部分を示しており、図38は、その部分に対する単語認定処理の結果を示している。図38において、[]で括られた部分が、認定された単語に対応する。先頭の1文字のみが大文字の単語は、[]では、すべて小文字に置き換えられている。
【0189】
ここでは、空白および“,”、“.”、“:”、“;”などの区切り記号を手掛かりに単語が切り出され、それらの単語のうち、図39に示すストップワードリストに含まれる単語が取り除かれた。ストップワードリストとは、重要語として抽出したくない冠詞、前置詞などの単語を、あらかじめ定義したリストである。
【0190】
図40は、話題構成認定部25による話題構成の認定結果を示している。図40において、節境界の近くに記された(Bg)、<1>などは、図36に示された見出しの省略形を表している。
【0191】
図41は、要約対象文書の<2>の見出しの開始位置付近(図40の横軸の6,000語の手前付近)の話題文の認定例を示している。図41において、最初の文(5522語の位置)から最後の文(5571語の位置)までが話題文の候補であり、それらの文の少なくとも一部分が話題境界候補区間(ここでは、[5545,5585]の41語幅の区間)にかかっている。
【0192】
<境>の印が付けられた文(5564語の位置)においては、順方向関連度(“対直後”の列の値)と逆方向関連度(“対直前”の列の値)との差、すなわち、順方向相対関連度(“後−前”の列の値)が正(0.089)であり、かつ、直前の順方向相対関連度(−0.026)からの増分が最大(0.115)となっている。したがって、この文は、境界文と認定されている。
【0193】
また、<導>の印が付けられた文(5567語の位置)においては、境界文より後ろにある文(この場合は2文)の中で、順方向関連度が最大(0.051)となっている。したがって、この文は、話題導入文と認定されている。
【0194】
こうして抽出された話題文を話題毎にまとめて出力すると、図42のような要約文書が生成された。この要約文書は、914文字(要約対象文書との文字数比で0.7%)の長さを持ち、4つの部分に分けて出力されている。ここでは、各話題の先頭の文を見出しとして出力し、さらに、各話題の先頭にピリオドで終わっていない文が続いている場合には、そのようなすべての文を見出し扱いにして出力している。
【0195】
以上説明した実施形態においては、日本語および英語の文書を例に挙げて要約処理を説明したが、本発明は、これらの文書以外にも、任意の言語および任意の形式の文書に対して適用され、同様の結果を得ることができる。
【0196】
また、要約対象文書は、必ずしもディジタル化された電子文書である必要はなく、例えば、紙媒体などに記載された文書でもよい。この場合、イメージスキャナなどの光電変換装置により文書画像を取り込み、文字認識を行うことで、単語認定可能な文書データを作成することができる。
【0197】
【発明の効果】
本発明によれば、数十頁に渡るような長い文書についても、文書サイズの1/2〜1/4程度の大きな話題のまとまりから、段落程度の大きさ(数十語から100語程度)の話題のまとまりまでを含む話題の階層的構成を認定することができる。そして、この階層的構成を利用して、話題を端的に示す文を多く含み、かつ、意味的なまとまりの強い要約を作成することができる。また、話題の階層的構成を活用して、要約を適切な粒度の話題に分けて出力することもできる。
【0198】
これにより、長い文書に対しても、内容の理解が容易で読みやすい要約が作成できるようになり、長い要約を読みやすく提示することも可能になる。
【図面の簡単な説明】
【図1】本発明の文書要約装置の原理図である。
【図2】文書要約装置の構成図である。
【図3】情報処理装置の構成図である。
【図4】記録媒体を示す図である。
【図5】第1の要約対象文書中の見出しを示す図(その1)である。
【図6】第1の要約対象文書中の見出しを示す図(その2)である。
【図7】第1の要約対象文書中の見出しを示す図(その3)である。
【図8】単語認定処理のフローチャートである。
【図9】第1の入力文書を示す図である。
【図10】第1の単語認定結果を示す図である。
【図11】形態素解析処理のフローチャートである。
【図12】日本語の辞書引きの例を示す図である。
【図13】英語の辞書引きの例を示すである。
【図14】話題構成認定処理のフローチャートである。
【図15】結束度の系列を示す図である。
【図16】結束度分布を示す図である。
【図17】移動平均値と文書領域の関係を示す図である。
【図18】話題境界候補区間認定処理のフローチャートである。
【図19】結束力分布を示す図である。
【図20】話題境界候補区間関連付け処理のフローチャートである。
【図21】関連付け対象データを示す図である。
【図22】話題構成の第1の認定結果を示す図である。
【図23】話題文認定処理のフローチャート(その1)である。
【図24】話題文認定処理のフローチャート(その2)である。
【図25】境界文と話題導入文の第1の認定例を示す図である。
【図26】話題文抽出処理のフローチャートである。
【図27】中央結束度計算処理のフローチャートである。
【図28】要約成形処理のフローチャートである。
【図29】第1の要約結果を示す図(その1)である。
【図30】第1の要約結果を示す図(その2)である。
【図31】第1の要約結果を示す図(その3)である。
【図32】第2の要約結果を示す図である。
【図33】第2の要約結果の第1の改良例を示す図である。
【図34】話題文出力処理のフローチャートである。
【図35】第2の要約結果の第2の改良例を示す図である。
【図36】第2の要約対象文書中の見出しを示す図である。
【図37】第2の入力文書を示す図である。
【図38】第2の単語認定結果を示す図である。
【図39】ストップワードを示す図である。
【図40】話題構成の第2の認定結果を示す図である。
【図41】境界文と話題導入文の第2の認定例を示す図である。
【図42】第3の要約結果を示す図である。
【符号の説明】
1 構成認定手段
2 話題文抽出手段
3 出力手段
11 要約対象文書
12 文書要約装置
13 要約文書
21 入力部
22 単語認定部
23 形態素解析部
24 単語辞書
25 話題構成認定部
26 話題境界候補区間認定部
27 話題文抽出部
28 出力部
41 出力装置
42 入力装置
43 CPU
44 ネットワーク接続装置
45 媒体駆動装置
46 補助記憶装置
47 メモリ
48 バス
49 可搬記録媒体
50 データベース

Claims (8)

  1. 与えられた文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとに該2つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、大きさの異なる複数の窓幅を用いて話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定する構成認定手段と、
    認定された話題の階層的構成のデータを格納するメモリと、
    文に含まれる単語が話題のまとまりに高い頻度で出現するほど大きな値になるような関連度の計算式を用いて、前記メモリに格納された話題の階層的構成に含まれる話題境界の近傍で語彙的結束度が小さい領域に含まれる文と該話題境界の直後の話題のまとまりとの関連度を表す順方向関連度と、該語彙的結束度が小さい領域に含まれる文と該話題境界の直前の話題のまとまりとの関連度を表す逆方向関連度を計算し、それぞれの文について得られた順方向関連度と逆方向関連度の差を順番に調べていき、該順方向関連度と逆方向関連度の差が大きく増加する文を、該話題境界の直後の話題内容を端的に表す話題文として抽出し、該話題文のデータを前記メモリに格納する話題文抽出手段と、
    前記メモリに格納された話題文を話題毎にまとめて要約を生成する要約成形手段と
    を備えることを特徴とする文書要約装置。
  2. 前記話題文抽出手段は、抽出された話題文から始まる話題導入部の文の中から、大きな順方向関連度を有する文を話題文としてさらに抽出することを特徴とする請求項記載の文書要約装置。
  3. 前記要約成形手段は、前記話題文を適切な大きさの話題毎にグループ分けし、グループ毎に区別して出力することを特徴とする請求項1または2記載の文書要約装置。
  4. 前記話題文抽出手段は、指定された前記要約の出力量を指定された各話題の抜粋量で割り算して、該要約に取り入れる話題の大きさを求めることを特徴とする請求項記載の文書要約装置。
  5. 前記要約成形手段は、前記話題文に含まれる見出しの順序ラベル情報を該話題文から分離して、該順序ラベル情報を含まない話題文を出力することを特徴とする請求項1または2記載の文書要約装置。
  6. 前記要約成形手段は、前記順序ラベル情報を加工して、前記順序ラベル情報を含まない話題文の補足情報として出力することを特徴とする請求項記載の文書要約装置。
  7. コンピュータのためのプログラムを記録した記録媒体であって、
    与えられた文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとに該2つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、大きさの異なる複数の窓幅を用いて話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定するステップと、
    認定された話題の階層的構成のデータをメモリに格納し、
    文に含まれる単語が話題のまとまりに高い頻度で出現するほど大きな値になるような関連度の計算式を用いて、前記メモリに格納された話題の階層的構成に含まれる話題境界の近傍で語彙的結束度が小さい領域に含まれる文と該話題境界の直後の話題のまとまりとの関連度を表す順方向関連度と、該語彙的結束度が小さい領域に含まれる文と該話題境界の直前の話題のまとまりとの関連度を表す逆方向関連度を計算し、それぞれの文について得られた順方向関連度と逆方向関連度の差を順番に調べていき、該順方向関連度と逆方向関連度の差が大きく増加する文を、該話題境界の直後の話題内容を端的に表す話題文として抽出し、該話題文のデータを前記メモリに格納するステップと、
    前記メモリに格納された話題文を話題毎にまとめて要約を生成するステップと
    を含む処理を前記コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  8. 構成認定手段が、与えられた文書中の各位置の前後に設定した2つの 窓中に出現している語彙をもとに該2つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、大きさの異なる複数の窓幅を用いて話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成認定し、認定された話題の階層的構成のデータをメモリに格納し、
    話題文抽出手段が、文に含まれる単語が話題のまとまりに高い頻度で出現するほど大きな値になるような関連度の計算式を用いて、前記メモリに格納された話題の階層的構成に含まれる話題境界の近傍で語彙的結束度が小さい領域に含まれる文と該話題境界の直後の話題のまとまりとの関連度を表す順方向関連度と、該語彙的結束度が小さい領域に含まれる文と該話題境界の直前の話題のまとまりとの関連度を表す逆方向関連度を計算し、それぞれの文について得られた順方向関連度と逆方向関連度の差を順番に調べていき、該順方向関連度と逆方向関連度の差が大きく増加する文を、該話題境界の直後の話題内容を端的に表す話題文として抽出して、該話題文のデータを該メモリに格納し、
    要約成形手段が、前記メモリに格納された話題文を話題毎にまとめて要約を生成する
    ことを特徴とする文書要約方法。
JP20506199A 1999-07-19 1999-07-19 文書要約装置およびその方法 Expired - Fee Related JP3791879B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP20506199A JP3791879B2 (ja) 1999-07-19 1999-07-19 文書要約装置およびその方法
US09/593,151 US6963830B1 (en) 1999-07-19 2000-06-14 Apparatus and method for generating a summary according to hierarchical structure of topic
EP00305732.0A EP1071023B1 (en) 1999-07-19 2000-07-07 Apparatus and method for generating a summary according to hierarchical structure of topic

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20506199A JP3791879B2 (ja) 1999-07-19 1999-07-19 文書要約装置およびその方法

Publications (2)

Publication Number Publication Date
JP2001034624A JP2001034624A (ja) 2001-02-09
JP3791879B2 true JP3791879B2 (ja) 2006-06-28

Family

ID=16500797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20506199A Expired - Fee Related JP3791879B2 (ja) 1999-07-19 1999-07-19 文書要約装置およびその方法

Country Status (3)

Country Link
US (1) US6963830B1 (ja)
EP (1) EP1071023B1 (ja)
JP (1) JP3791879B2 (ja)

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7509572B1 (en) * 1999-07-16 2009-03-24 Oracle International Corporation Automatic generation of document summaries through use of structured text
JP4843867B2 (ja) * 2001-05-10 2011-12-21 ソニー株式会社 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
GB2390704A (en) * 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
KR100481580B1 (ko) * 2002-10-09 2005-04-08 한국전자통신연구원 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
JP2004220215A (ja) * 2003-01-14 2004-08-05 Hitachi Ltd 計算機を利用した業務誘導支援システムおよび業務誘導支援方法
GB2399427A (en) 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
JP2004348241A (ja) * 2003-05-20 2004-12-09 Hitachi Ltd 情報提供方法、サーバ及びプログラム
US7676358B2 (en) * 2003-09-24 2010-03-09 International Business Machines Corporation System and method for the recognition of organic chemical names in text documents
US20050149498A1 (en) * 2003-12-31 2005-07-07 Stephen Lawrence Methods and systems for improving a search ranking using article information
US8954420B1 (en) 2003-12-31 2015-02-10 Google Inc. Methods and systems for improving a search ranking using article information
US8631076B1 (en) 2004-03-31 2014-01-14 Google Inc. Methods and systems for associating instant messenger events
US7272601B1 (en) 2004-03-31 2007-09-18 Google Inc. Systems and methods for associating a keyword with a user interface area
US8346777B1 (en) 2004-03-31 2013-01-01 Google Inc. Systems and methods for selectively storing event data
US8099407B2 (en) 2004-03-31 2012-01-17 Google Inc. Methods and systems for processing media files
US7725508B2 (en) 2004-03-31 2010-05-25 Google Inc. Methods and systems for information capture and retrieval
US8275839B2 (en) 2004-03-31 2012-09-25 Google Inc. Methods and systems for processing email messages
US8041713B2 (en) 2004-03-31 2011-10-18 Google Inc. Systems and methods for analyzing boilerplate
US7581227B1 (en) 2004-03-31 2009-08-25 Google Inc. Systems and methods of synchronizing indexes
US7707142B1 (en) 2004-03-31 2010-04-27 Google Inc. Methods and systems for performing an offline search
US7333976B1 (en) 2004-03-31 2008-02-19 Google Inc. Methods and systems for processing contact information
US20080040315A1 (en) * 2004-03-31 2008-02-14 Auerbach David B Systems and methods for generating a user interface
US7680888B1 (en) 2004-03-31 2010-03-16 Google Inc. Methods and systems for processing instant messenger messages
US8631001B2 (en) 2004-03-31 2014-01-14 Google Inc. Systems and methods for weighting a search query result
US7941439B1 (en) 2004-03-31 2011-05-10 Google Inc. Methods and systems for information capture
US7412708B1 (en) 2004-03-31 2008-08-12 Google Inc. Methods and systems for capturing information
US8161053B1 (en) 2004-03-31 2012-04-17 Google Inc. Methods and systems for eliminating duplicate events
US9009153B2 (en) 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
US7693825B2 (en) 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US8386728B1 (en) 2004-03-31 2013-02-26 Google Inc. Methods and systems for prioritizing a crawl
US7664734B2 (en) * 2004-03-31 2010-02-16 Google Inc. Systems and methods for generating multiple implicit search queries
JP4254623B2 (ja) * 2004-06-09 2009-04-15 日本電気株式会社 トピック分析方法及びその装置並びにプログラム
US7788274B1 (en) 2004-06-30 2010-08-31 Google Inc. Systems and methods for category-based search
US8131754B1 (en) 2004-06-30 2012-03-06 Google Inc. Systems and methods for determining an article association measure
US7853445B2 (en) * 2004-12-10 2010-12-14 Deception Discovery Technologies LLC Method and system for the automatic recognition of deceptive language
GB2424972A (en) * 2005-04-08 2006-10-11 Motorola Inc Monitoring content topics in a communication system
KR100731283B1 (ko) * 2005-05-04 2007-06-21 주식회사 알에스엔 질의어에 따른 대량문서기반 성향 분석시스템
US7565372B2 (en) * 2005-09-13 2009-07-21 Microsoft Corporation Evaluating and generating summaries using normalized probabilities
US20070112833A1 (en) * 2005-11-17 2007-05-17 International Business Machines Corporation System and method for annotating patents with MeSH data
US9495349B2 (en) * 2005-11-17 2016-11-15 International Business Machines Corporation System and method for using text analytics to identify a set of related documents from a source document
JP2007156745A (ja) * 2005-12-02 2007-06-21 Konica Minolta Business Technologies Inc 処理装置、ジョブ実行装置、処理装置制御方法、およびコンピュータプログラム
US20070143329A1 (en) * 2005-12-16 2007-06-21 Eric Arno Vigen System and method for analyzing communications using multi-dimensional hierarchical structures
US20070143310A1 (en) * 2005-12-16 2007-06-21 Vigen Eric A System and method for analyzing communications using multi-dimensional hierarchical structures
US9262446B1 (en) 2005-12-29 2016-02-16 Google Inc. Dynamically ranking entries in a personal data book
JP4635891B2 (ja) * 2006-02-08 2011-02-23 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7552047B2 (en) * 2006-05-02 2009-06-23 International Business Machines Corporation Instance-based sentence boundary determination by optimization
US8631005B2 (en) * 2006-12-28 2014-01-14 Ebay Inc. Header-token driven automatic text segmentation
US20080270119A1 (en) * 2007-04-30 2008-10-30 Microsoft Corporation Generating sentence variations for automatic summarization
WO2009026140A2 (en) 2007-08-16 2009-02-26 Hollingsworth William A Automatic text skimming using lexical chains
US20090083026A1 (en) * 2007-09-24 2009-03-26 Microsoft Corporation Summarizing document with marked points
US20090198488A1 (en) * 2008-02-05 2009-08-06 Eric Arno Vigen System and method for analyzing communications using multi-placement hierarchical structures
JP2009277183A (ja) * 2008-05-19 2009-11-26 Hitachi Ltd 情報識別装置及び情報識別システム
JP5440815B2 (ja) * 2009-06-26 2014-03-12 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
US9646079B2 (en) 2012-05-04 2017-05-09 Pearl.com LLC Method and apparatus for identifiying similar questions in a consultation system
US9904436B2 (en) 2009-08-11 2018-02-27 Pearl.com LLC Method and apparatus for creating a personalized question feed platform
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US8510098B2 (en) * 2010-01-29 2013-08-13 Ipar, Llc Systems and methods for word offensiveness processing using aggregated offensive word filters
US8977540B2 (en) * 2010-02-03 2015-03-10 Syed Yasin Self-learning methods for automatically generating a summary of a document, knowledge extraction and contextual mapping
JP5678774B2 (ja) * 2011-03-31 2015-03-04 国立大学法人鳥取大学 テキストデータの冗長性を解析する情報解析装置
US9275038B2 (en) 2012-05-04 2016-03-01 Pearl.com LLC Method and apparatus for identifying customer service and duplicate questions in an online consultation system
US8280888B1 (en) 2012-05-04 2012-10-02 Pearl.com LLC Method and apparatus for creation of web document titles optimized for search engines
US9501580B2 (en) 2012-05-04 2016-11-22 Pearl.com LLC Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website
US9569413B2 (en) * 2012-05-07 2017-02-14 Sap Se Document text processing using edge detection
US11468243B2 (en) 2012-09-24 2022-10-11 Amazon Technologies, Inc. Identity-based display of text
JP6099046B2 (ja) * 2013-06-11 2017-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文を検索する装置および方法
US10778618B2 (en) * 2014-01-09 2020-09-15 Oath Inc. Method and system for classifying man vs. machine generated e-mail
WO2016179755A1 (en) * 2015-05-08 2016-11-17 Microsoft Technology Licensing, Llc. Mixed proposal based model training system
US9946924B2 (en) * 2015-06-10 2018-04-17 Accenture Global Services Limited System and method for automating information abstraction process for documents
JP6815184B2 (ja) * 2016-12-13 2021-01-20 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
US20180189266A1 (en) * 2017-01-03 2018-07-05 Wipro Limited Method and a system to summarize a conversation
CN107967257B (zh) * 2017-11-20 2021-01-12 哈尔滨工业大学 一种级联式作文生成方法
US10838996B2 (en) * 2018-03-15 2020-11-17 International Business Machines Corporation Document revision change summarization
US10534846B1 (en) * 2018-10-17 2020-01-14 Pricewaterhousecoopers Llp Page stream segmentation
US10936796B2 (en) * 2019-05-01 2021-03-02 International Business Machines Corporation Enhanced text summarizer
US11281854B2 (en) * 2019-08-21 2022-03-22 Primer Technologies, Inc. Limiting a dictionary used by a natural language model to summarize a document
US11061951B2 (en) * 2019-11-21 2021-07-13 International Business Machines Corporation Unsupervised attention based scientific document summarization
US11630869B2 (en) 2020-03-02 2023-04-18 International Business Machines Corporation Identification of changes between document versions
US11157537B2 (en) 2020-03-26 2021-10-26 Wipro Limited Method and system for summarizing content based on user preferences
WO2021234798A1 (ja) * 2020-05-18 2021-11-25 日本電信電話株式会社 生成装置、生成方法および生成プログラム
CN111639175B (zh) * 2020-05-29 2023-05-02 电子科技大学 一种自监督的对话文本摘要方法及***
CN112231468A (zh) * 2020-10-15 2021-01-15 平安科技(深圳)有限公司 信息生成方法、装置、电子设备及存储介质
WO2022164796A1 (en) 2021-01-26 2022-08-04 California Institute Of Technology Allosteric conditional guide rnas for cell-selective regulation of crispr/cas
CN113033163A (zh) * 2021-03-24 2021-06-25 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
US11947916B1 (en) * 2021-08-19 2024-04-02 Wells Fargo Bank, N.A. Dynamic topic definition generator
CN114741499B (zh) * 2022-06-08 2022-09-06 杭州费尔斯通科技有限公司 一种基于句子语义模型的文本摘要生成方法和***

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2957875B2 (ja) 1993-03-17 1999-10-06 株式会社東芝 文書情報検索装置及び文書検索結果表示方法
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
US5838323A (en) * 1995-09-29 1998-11-17 Apple Computer, Inc. Document summary computer system user interface
US5924108A (en) * 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
JP3579204B2 (ja) 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JP4025391B2 (ja) 1997-07-27 2007-12-19 株式会社ジャストシステム 文書処理装置、文書処理プログラムが記憶されたコンピュータ読取り可能な記憶媒体、及び文書処理方法
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
JP3597697B2 (ja) 1998-03-20 2004-12-08 富士通株式会社 文書要約装置およびその方法

Also Published As

Publication number Publication date
JP2001034624A (ja) 2001-02-09
EP1071023A3 (en) 2002-12-18
EP1071023A2 (en) 2001-01-24
EP1071023B1 (en) 2014-03-19
US6963830B1 (en) 2005-11-08

Similar Documents

Publication Publication Date Title
JP3791879B2 (ja) 文書要約装置およびその方法
JP3597697B2 (ja) 文書要約装置およびその方法
US7251781B2 (en) Computer based summarization of natural language documents
US7813915B2 (en) Apparatus for reading a plurality of documents and a method thereof
JP3653141B2 (ja) 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
US7756871B2 (en) Article extraction
US20100161313A1 (en) Region-Matching Transducers for Natural Language Processing
EP0530993A2 (en) An iterative technique for phrase query formation and an information retrieval system employing same
US20100161639A1 (en) Complex Queries for Corpus Indexing and Search
Lu et al. Information retrieval in document image databases
US20100161314A1 (en) Region-Matching Transducers for Text-Characterization
Jagadeesh et al. Sentence extraction based single document summarization
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
CN112711666B (zh) 期货标签抽取方法及装置
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
Séaghdha Annotating and learning compound noun semantics
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Doyle et al. Automatic categorization of author gender via n-gram analysis
JP4108948B2 (ja) 複数の文書を閲覧するための装置および方法
Heidary et al. Automatic Persian text summarization using linguistic features from text structure analysis
Manne et al. A Feature Terms based Method for Improving Text Summarization with Supervised POS Tagging
CN117648917B (zh) 一种版式文件对比方法及***
JP3578618B2 (ja) 文書分割装置
Pattanayak et al. Computational Linguistics & NLP: Summarization of Odia Text using TF-IDF
Rosner et al. Multisum: query-based multi-document summarization

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060403

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090414

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100414

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110414

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110414

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120414

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130414

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140414

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees