JP3759242B2

JP3759242B2 - 特徴確率自動生成方法及びシステム

Info

Publication number: JP3759242B2
Application number: JP18013696A
Authority: JP
Inventors: エム．クピエクジュリアン; オー．ペダーセンジャン; アール．チェンフランシヌ; シー．ブロツキーダニエル; ビー．プッツスティーブン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1995-06-28
Filing date: 1996-06-20
Publication date: 2006-03-22
Anticipated expiration: 2016-06-20
Also published as: EP0751470A1; US5778397A; DE69618089T2; JPH0916631A; DE69618089D1; EP0751470B1

Description

【０００１】
【発明の属する技術分野】
本発明は、自動テキスト処理方法に関する。特に本発明は、後で自然言語テキストから抄録抽出物(summary extract) を自動的に作成するために使用され得る特徴確率の自動生成方法に関する。
【０００２】
【従来技術及び発明が解決しようとする課題】
抄録(summaries) 及び抽出物(extract) は、ドキュメント（文書) のタイトル（表題）よりも参考になる、簡潔であるが一見して十分に吸収できるほど簡単であるドキュメント描写を提供する。
【０００３】
著者により提供される従来の直接的抄録(indicative abstract) は、それが得られると、簡潔なドキュメント描写に対する必要性を満たす。著者により提供される抄録がない場合は自動的に作成されるドキュメント抄録を用いて克服することができる。多くの研究者が自動的なドキュメントの要約に取り組んだ。ドキュメントの概要をなす一貫性のある記述を作成する一般的タスクは、現在、あまりにも問題が多いと考えられている。その理由は、ドキュメントが内容の理解、抽出、及び言語生成を該タスクが含有するからである。より単純なアプローチは、ドキュメント概要を抽出による抄録と定義することにより言語理解についての中心的な困難を回避することである。即ち、このアプローチの目的は、ドキュメントのコンテント（内容) を示すドキュメントセンテンスの部分集合を見つけることである。典型的には、このアプローチ下ではドキュメントセンテンスをスコア（評価) して、ハイスコアセンテンスを選択して抽出する。
【０００４】
数々のヒューリスティック（発見的方法）は概要(summarization) を抽出するためにセンテンスをスコアすることを提案した。少なくとも１つの従来の抽出手段は複数の特徴を使用し、これらの特徴は主観的推定により手作業で重み付けされる。特徴の重みを手作業で割り当てて最適な成果を得ることは、多くの特徴が使用される時に困難である。
【０００５】
概要を抽出するために使用された従来の特徴は、頻度の高いキーワードヒューリスティック、ロケーションヒューリステック、及びキューワード(cue word)を含む。
【０００６】
本発明の目的は、上記記載した従来技術の欠点を克服することである。
【０００７】
【課題を解決するための手段】
請求項１に記載の発明は、自動的にドキュメントの抜粋を生成するために、機械可読形態であるドキュメントコーパス及び該ドキュメントコーパスのモデル抄録である抄録コーパスからドキュメントの特徴確率を自動的に生成するコンピュータシステムにおいて、前記特徴確率を自動的に生成する方法であって、前記コンピュータシステムはメモリとプロセッサを含み、ドキュメントコーパスの各ドキュメントが複数のセンテンスを含み、前記複数のセンテンスが前記抄録コーパスのセンテンスと整合する複数の整合センテンスを含み、前記方法は、前記コンピュータシステムのプロセッサに、
（ａ）選択ドキュメントとして前記ドキュメントコーパスのドキュメントを選択するステップと、
（ｂ）選択センテンスとして前記選択ドキュメントのセンテンスのうち１つを選択するステップと、
（ｃ）前記選択センテンスについて、特徴集合の各特徴の値を決定するステップであって、
特徴集合は該センテンスが抜粋に抽出される可能性の高いセンテンスであるかどうかの判定に使用されるセンテンスの特徴の集合であり、前記特徴集合は、ドキュメントにおけるセンテンスの位置を示すロケーション特徴と、センテンスが大文字を使用するワードを有するかどうかを示す大文字特徴とを含み、
ロケーション特徴は第１ロケーション値、第２ロケーション値、及び第３ロケーション値を有し、第１ロケーション値は選択センテンスが選択ドキュメントの開始部分内に含まれることを示し、第２ロケーション値は選択センテンスが選択ドキュメントの中間部分内に含まれることを示し、第３ロケーション値は選択センテンスが選択ドキュメントの終わり部分内に含まれることを示し、
大文字特徴は第１大文字値及び第２大文字値を有し、第１大文字値は選択センテンスが複数の選択大文字フレーズを全く含まないことを示し、第２大文字値は選択センテンスが選択大文字フレーズのうち１つを含むことを示し、
各特徴の値は各々トータルカウンタ値と整合カウンタ値を有する、ステップと、
（ｄ）選択センテンスにおいて各特徴が発生するごとにその特徴値のトータルカウンタ値を増分するステップと、
（ｅ）選択センテンスが複数の整合センテンスの１つである場合、選択センテンスにおいて各特徴が発生するごとにその特徴値の整合カウンタ値を増分するステップと、
（ｆ）選択ドキュメントの全センテンスが選択センテンスとして選択されていない場合、ステップ（ｂ）乃至（ｅ）を繰り返すステップと、
（ｇ）ドキュメントコーパスの全ドキュメントが選択ドキュメントとして選択されていない場合、ステップ（ａ）乃至（ｆ）を繰り返すステップと、
（ｈ）各特徴の各値のトータルカウンタ値及び整合カウンタ値を用い、
前記整合カウンタ値をトータルカウンタ値で除算すること
により該特徴が発生する確率を決定するステップと、
（ｉ）ユーザに機械可読形態で示されたドキュメントについて、前記特徴集合及び各特徴値の確率を用いて抜粋を作成するステップと、
を実行させることを特徴とする。
【０００８】
請求項２に記載の特徴確率自動生成方法は、請求項１に記載の特徴確率自動生成方法において、前記特徴集合が更に直接テーマ特徴を含み、直接テーマ特徴は、選択センテンスが選択ドキュメントのテーマを表すことを示す第１値と、選択センテンスが選択ドキュメントのテーマを表さないことを示す第２値とを有する。
【０００９】
請求項３に記載の特徴確率自動生成方法は、請求項２に記載の特徴確率自動生成方法において、特徴集合が更にキューワード特徴を含み、キューワード特徴は、選択センテンスが選択ドキュメントを抄録することを示す第１の値と、選択センテンスが選択ドキュメントを抄録しないことを示す第２の値とを有する。
【００１０】
請求項４に記載の発明は、自動的にドキュメントの抜粋を生成するために、ドキュメントコーパス及び該ドキュメントコーパスから手作業で作成された抄録の抄録コーパスからドキュメントの特徴確率を自動的に作成するコンピュータシステムであって、各ドキュメントが複数のセンテンスを含み、前記複数のセンテンスが前記抄録コーパスのセンテンスと整合する複数の整合センテンスを含み、前記コンピュータシステムは、
（ａ）メモリと、
（ｂ）プロセッサと、
（ｃ）メモリにより格納されるデータであって、該格納データが特徴確率を自動的に作成するためにアクセス可能であるデータと、
を備え、
前記プロセッサが、
（ａ）選択ドキュメントとして前記ドキュメントコーパスのドキュメントを選択するステップと、
（ｂ）選択センテンスとして前記選択ドキュメントのセンテンスのうち１つを選択するステップと、
（ｃ）前記選択センテンスについて、特徴集合の各特徴の値を決定するステップであって、
特徴集合は該センテンスが抜粋に抽出される可能性の高いセンテンスであるかどうかの判定に使用されるセンテンスの特徴の集合であり、前記特徴集合は、ドキュメントにおけるセンテンスの位置を示すロケーション特徴と、センテンスが大文字を使用するワードを有するかどうかを示す大文字特徴とを含み、
ロケーション特徴は第１ロケーション値、第２ロケーション値、及び第３ロケーション値を有し、第１ロケーション値は選択センテンスが選択ドキュメントの開始部分内に含まれることを示し、第２ロケーション値は選択センテンスが選択ドキュメントの中間部分内に含まれることを示し、第３ロケーション値は選択センテンスが選択ドキュメントの終わり部分内に含まれることを示し、
大文字特徴は第１大文字値及び第２大文字値を有し、第１大文字値は選択センテンスが複数の選択大文字フレーズを全く含まないことを示し、第２大文字値は選択センテンスが選択大文字フレーズのうち１つを含むことを示し、
各特徴の値は各々トータルカウンタ値と整合カウンタ値を有する、ステップと、
（ｄ）選択センテンスにおいて各特徴が発生するごとにその特徴値のトータルカウンタ値を増分するステップと、
（ｅ）選択センテンスが複数の整合センテンスの１つである場合、選択センテンスにおいて各特徴が発生するごとにその特徴値の整合カウンタ値を増分するステップと、
（ｆ）選択ドキュメントの全センテンスが選択センテンスとして選択されていない場合、ステップ（ｂ）乃至（ｅ）を繰り返すステップと、
（ｇ）ドキュメントコーパスの全ドキュメントが選択ドキュメントとして選択されていない場合、ステップ（ａ）乃至（ｆ）を繰り返すステップと、
（ｈ）各特徴の各値のトータルカウンタ値及び整合カウンタ値を用い、
前記整合カウンタ値をトータルカウンタ値で除算すること
により該特徴が発生する確率を決定するステップと、
を該コンピュータシステムに実行させることを特徴とする。
【００１１】
【発明の実施の形態】
ベイズの法則(Bayes' rule) は、本発明の方法及び自動概要抽出の両方の基礎となる。ベイズの法則によれば、特徴(feature) 、Ｆ_j；ｊ＝１，２，．．．ｋと称されるセンテンス特性(characteristic)の集合ｋが与えられると、抄録Ｓに含まれるセンテンスｓの確率は、下記式（１）のように数学的に表され得る。
【００１２】
【数１】

【００１３】
特徴の統計的独立を仮定すると、センテンスｓが抄録Ｓに含まれる確率は下記式（２）のように再び表され得る。
【００１４】
【数２】

【００１５】
即ち、センテンスｓが抄録Ｓに含まれる全体の確率は、センテンスｓに対して個々に評価された各特徴により提供された確率の積に比例する。記載するトレイニング（学習）方法は、この事実を利用して、特徴の集合に対して確率を手作業により作成した抄録が整合するトレイニングコーパスから生成する。コンピュータシステム１０は、特徴ｊに対する値を抄録のセンテンス中で観察する確率、即ちＰ（Ｆ_j｜ｓ∈Ｓ）と、特徴ｊが観察された値Ｐ（Ｆ_j）をとる確率とを、単にトレイニングコーパス内のこれらの値の発生を計数することにより決定する。トレイニング後、コンピュータシステム１０はそれらの確率を使用して、エキスパートが抽出し得るのと同じセンテンスの集合をドキュメントから自動的に抽出する。そのようにする方法についてもまた本明細書で詳細に記載する。
【００１６】
特徴
特徴の記述
コンピュータシステム１０は特徴として既知のセンテンス特性を使用して、手作業により作成される抄録中に選択的に含められる可能性の高いセンテンスを自動的に抽出する。好ましくはコンピュータシステム１０は、５つの特徴を用いてドキュメント抽出物、即ち抜粋を作成するが、それよりも少ない又は多い数の特徴もまた使用可能である。好ましくは、使用される５つの特徴は、センテンス長さ、キューワード、センテンスロケーション、大文字（アッパーケース）センテンス、及び直接的テーマセンテンスである。性能は、使用される特徴の組み合わせに応じて変化する。
【００１７】
センテンス長さ特徴は、センテンス中のワード（語）数が最低長さと整合するか又はそれを越えるかを示す。最低長さは、部分ヘッディング（見出し）のような、手作業により作成される抄録にめったに含まれない短いセンテンスを識別するために選択される。
【００１８】
直接的テーマ特徴は、センテンスがドキュメントの主題（メインテーマ）の内の１つをアドレスするか否かを決定する。直接的テーマ特徴は、ドキュメント内で頻繁に使用されるコンテント（内容）ワードが、そのドキュメントのテーマを同様に示すという直観(intuition) を使用する。直接的テーマ特徴の値は、センテンスがドキュメントの直接的テーマセンテンスの内の１つであるか否かを示す。
【００１９】
大文字特徴はセンテンスが重要な固有名詞又は頭字語(acronyms)を含むか否かを示し、固有名詞又は頭字語は、手作業により生成される抄録に高い頻度で含まれる。この特徴は、固有名詞及び頭字語が典型的にはそれらの位置に関係なく、センテンス内で大文字を用いて表されるためにそのように名付けられる。
【００２０】
キューワード特徴は、ドキュメントを要約することを示すワードシーケンスをセンンテンスが含んでいるか否かを示す。このようなワードシーケンスは、「この論説」、「その論説」、「この調査」、「本調査」、「この論文」、「この研究」、「この作品」、「本作品」、「この文筆」、「要するに」、「〜と推論される」、「〜と結論を下す」、「我々は〜と締めくくる」、「要約すると」、「結果」、「我々の結果」、「結果が〜を示す」、「結果が〜を表す」、「結果は〜である」等を、含む。
【００２１】
キューワードのこのリストは全てを網羅することは意図しない。キューワードを含むセンテンスの識別方法は当業者に明白になるであろう。
【００２２】
ロケーション特徴は、ドキュメント内のセンテンスのロケーション（位置）が抄録に含まれそうなものであるか否かを示す。パラグラフの始まり及び終わりで検出されるセンテンスは、パラグラフの中間にあるセンテンスよりも手作業で作成される抄録に含まれる可能性が高い。更に、ドキュメントの始まり及び終わりのセンテンスは、ドキュメントの中間にあるセンテンスと比べて、短い抄録に含まれる可能性が高い。ドキュメントの始まりを、テキストの始まり部分から最初の５パラグラフと定義し、ドキュメントの終わりをドキュメントの最後の５パラグラフと定義する。そして中間部分は残りの全パラグラフを含む。更にパラグラフの始まりをパラグラフの最初のセンテンス、及び終わりをパラグラフの最後のセンテンスと定義し、そして中間はパラグラフ内の残りの全センテンスを含む。従って、ロケーション特徴は、２よりも大きな値を取り得る。
【００２３】
特徴評価
抄録のトレイニング及び抽出中に使用されるトークン化手段(tokenizer) は、上記記載した特徴の評価を容易にする。トークン化手段は自然言語ドキュメントの機械可読表現を分析して、パラグラフ境界、センテンス境界及び各センテンス内のワードを識別する。好ましくは、トークン化手段は、特徴評価に有用な３つの情報、即ちセンテンスＩ．Ｄ．、センテンス位置、及びセンテンス長さを含むセンテンス構造をドキュメントのセンテンス毎に生成する。センテンスＩ．Ｄ．はドキュメントの始まり部分に対してセンテンスのロケーションを示す一意の番号である。センテンス位置はそのパラグラフ内のセンテンスの位置を示す。センテンス長さはセンテンス内に含まれるワード数を表し、これがセンテンス長さ特徴の迅速な評価を容易にする。
【００２４】
ロケーション特徴の評価
ロケーション特徴の評価は、テキストのメインボディ内のセンテンスロケーションが既知である場合は真っ直ぐ進む。好ましくは、センテンス位置及びパラグラフ番号を使用してセンテンスロケーションを示す。パラグラフ番号はドキュメント内のセンテンスパラグラフのロケーションを示す。センテンス位置とセンテンスのパラグラフ番号の両方が与えられると、ロケーション特徴を容易に評価することができる。従って、センテンス位置とパラグラフ番号が与えられたロケーション特徴の評価については本明細書では詳細に記載する必要はない。
【００２５】
論じる必要があるのは、パラグラフの特徴を評価するのに必要なセンテンス数及びパラグラフ番号を得ることである。そのタスクはテキストのメインボディの始まり箇所、及び著者が提供したタイトル又は要約が存在する場合にはそれを識別することを伴う。その理由は、これらはにはドキュメント抽出に関係のない日付、住所、名前及び他の注釈(notation)がついていることがよくあるからである。
【００２６】
プロセッサ１１はステップ２８を用いて、命令２７を実行し始め、このステップ中にセンテンスカウンタが０に初期設定される。プロセッサ１１はセンテンスカウンタを用いて、最低長さよりも長い連続センテンスが幾つ検出されたかをトラックする。カウンタが初期設定されると、プロセッサ１１はステップ２９へ分岐する。
【００２７】
ステップ２９の間に、プロセッサ１１は選択ドキュメントのセンテンスの内の１つを選択センテンスとして示す。プロセッサ１１は、先ず選択センテンスとしてドキュメントの第１センテンスを示し、その後でテキストのメインボディの始まりを検出するか又はドキュメントの最後に達するまで、連続的にセンテンスを示す。プロセッサ１１はステップ３０に分岐して、テキストのメインボディの最初の部分の探索を始める準備をする。
【００２８】
ステップ３０中にプロセッサ１１は最初の試験を行い、選択センテンスがテキストのメインボディの第１（最初の）パラグラフの部分を形成しているか否かを識別する。プロセッサ１１は、センテンス境界、即ち終端句読点を探すために選択センテンスのトークンを探索する。テキストのメインボディに付いている注釈は、句読点を入れられないことがしばしばあるので、プロセッサ１１は、選択センテンスがセンテンス境界を欠く場合に、それをメインテキストボディの部分とみなさない。選択センテンスがセンテンス境界を欠くことが発見されると、プロセッサ１１はステップ３３へ進む。一方、選択センテンスがセンテンス境界を含む場合、選択センテンスはメインテキストボディの第１パラグラフの部分を形成し得る。その確率を調査するために、更にプロセッサ１１はステップ３１へ分岐する。
【００２９】
ステップ３１の間にプロセッサ１１は第２試験を行い、選択センテンスがメインテキストボディの第１パラグラフの部分を形成するか否かをを決定する。プロセッサ１１は、選択センテンスが句読点を除いて長さが少なくとも最低のワード数であるか否かを決定する。メインテキストボディについている注釈が短いことはよくある。従って、プロセッサ１１は、ドキュメントの最初の少ししかない短いセンテンスを、メインテキストボディの部分とみなさない。選択センテンスが短すぎる場合は、プロセッサ１１はステップ３３へ進む。反対に、選択センテンスの長さが最低長さに整合するか、又はそれを越える場合、プロセッサ１１はステップ３２へ分岐する。
【００３０】
ステップ３２へのエントリは、選択センテンスがメインテキストボディの第１パラグラフの部分を形成し得ることを意味する。プロセッサ１１はステップ３２の間に選択センテンスの最後の試験を行う。プロセッサ１１は、選択センテンスが次のセンテンスから、パラグラフ境界、あるいはパラグラフ境界が示されない場合には字下げ(indentation) 若しくは任意のホワイト空間介在により分割した２つのキャリッジリターン（復帰）により、分割されるか否かを決定した。選択センテンスと次のセンテンスとの間のこの分割は、それらが同一パラグラフの部分でないことを示す。２つのセンテンスが異なるパラグラフに属す場合、プロセッサ１１はメインテキストボディの第１パラグラフを発見してなかった。その場合、プロセッサ１１はステップ３３へ分岐する。一方、選択センテンスと次のセンテンスが同一パラグラフに属す場合、プロセッサ１１はメインテキストボディの第１パラグラフのセンテンスの内の１つを識別した可能性がある。その確率に応答して、プロセッサ１１はステップ３４へ進み、センテンスカウンタを増分する。
【００３１】
センテンスカウンタを増分すると、プロセッサ１１は、ステップ３５の間に、最低長さの連続センテンスの最小数を既に発見したか否かを決定する。センテンスカウンタが３よりも少ない値を有する場合、プロセッサ１１は第１パラグラフをまだ識別していなかった。現行パラグラフの更なる評価が可能であるか否を決定するために、プロセッサ１１はステップ３６へ進む。一方、センテンスカウンタが最小数である場合、プロセッサはメインテキストボディの第１パラグラフを検出した。これに応答して、プロッセッサ１１はステップ３７へ進む。
【００３２】
ステップ３７の間に、プロセッサ１１はメインテキストボディの第１センテンスとして、センテンスＩ．Ｄ．が選択センテンスのセンテンスＩ．Ｄ．よりも２少ないセンテンスを識別する。メインテキストボディの第１パラグラフの第１センテンスを識別したので、テキストのメインボディに対するセンテンス位置とパラグラフ番号を容易に決定することができ、これにより次々にドキュメントの全センテンスに対してロケーション特徴を容易に評価することができる。プセッサ１１はステップ３９へ分岐する。
【００３３】
次に、ステップ３３及び３６へのエントリの作用を考察する。いずれかのステップへのエントリは、プロセッサ１１がメインテキストボディの第１パラグラフをまだ発見していなかったことを示す。この両方のステップの間に、プロセッサ１１は、選択された全ドキュメントが調べられたか否かを尋ねることにより、その第１パラグラフを探索し続けることができるか否かを決定する。全センテンスがまだ調べられていないという発見に対するプロセッサ１１の応答は、２つのステップ間で異なる。その理由は、異なるイベントがステップ３３とステップ３６へのエントリを命令するからである。プロセッサ１１は、選択センテンスがメインテキストボディの第１パラグラフの部分を形成すると思われない時はいつでも、いかなる理由であれステップ３３へ分岐する。その結果として、ドキュメントがまだ調べられていないセンテンスを含む場合、プロセッサ１１が重要視する事は、選択センテンスを含まない１パラグラフ中の最低長さの連続センテンスの集合を識別することである。従って、プロセッサ１１はステップ２８へ分岐して、センテンスカウンタを再び初期設定する。命令２７の実行は、既に論じられた方法でなされる。反対に、ステップ３６へのエントリは、選択センテンスが単一パラグラフにおいて最低長さの連続センテンスの集合の部分を形成し得ることを意味する。従って、ドキュメントが選択センテンスの後にセンテンスを含む時、プロセッサ１１はステップ２９へ分岐して選択センテンスと同一パラグラフ内で他の最低長さセンテンスを探索する。その地点からの命令２７の実行は先に論じた方法で行う。
【００３４】
プロセッサ１１がステップ３３か又は３６の間に、全センテンスを調べたが、単一パラグラフにおいて終端句読点を有する３つの連続センテンスが見つけられなかったと決定する場合、プロセッサ１１はステップ３８へ進む。ステップ３８の間にプロセッサ１１はドキュメントの第１センテンスを、メインテキストボディの第１パラグラフの第１センテンスとして識別する。次にプロセッサ１１はステップ３９へ進む。
【００３５】
直接的テーマ特徴の評価
必要に応じて、命令４０の実行開始前に、コンピュータユーザは直接的テーマセンテンスとして選択されたセンテンスの数「Ｚ」をデフォルト数(default number)から変更することができる。デフォルト数は任意のセンテンス数に設定され得る。ドキュメント走査検索が意図される実施の形態では、デフォルト数は１０個のセンテンスに設定される。
【００３６】
プロセッサ１１は、トークン化された機械可読ドキュメントの入力に、ステップ４２へ分岐することにより応答する。このステップに関しては、プロセッサ１１はドキュメント内に含まれるターム（語）リストを、ドキュメントから１ワード（語）を選択することにより構築するように試み始める。それが成されると、プロセッサ１１はステップ４３へ分岐する。
【００３７】
ステップ４３の間に、プロセッサ１１は選択ワードをストップワードのリストと比較する。本明細書で使用されるように、「ストップワード」とは主題的な意味を伝達せず、自然言語テキスト中に非常に頻繁に発生するワードである。ストップワードとして、大半の代名詞、前置詞、省略形、限定詞、及び動詞「to be 」の不定詞の活用形が分類される。ドキュメント内のストップワードは、ドキュメント用のワードトークンをストップワードのリストと比較することにより識別される。選択ワードがストップワードであれば、プロセッサ１１はステップ４７へ進む。反対に、選択ワードがストップワードでない場合、プロセッサ１１はステップ４４へ分岐する。
【００３８】
ステップ４４中、プロセッサ１１は選択ワードをタームインデックス（ドキュメントのワードをそのタームの発生毎にロケーションと関係付けるデータ構造）の中に既に含まれているタームと比較する。選択ワードがまだインデックス中に含まれていなければ、プロセッサ１１はステップ４５に分岐して、選択ワードに対するタームインデックスにエントリを追加する。各タームインデックスエントリはターム自体と、そのタームがドキュメント中で何回発生したかを示すカウンタと、各タームが発生するセンテンスに対応するセンテンスＩ．Ｄ．とを含む。一方、選択ワードに関してインデックスエントリが既に存在する場合、プロセッサ１１はステップ４６へ分岐する。ステップ４６の間に、プロセッサ１１は選択ワードに対するタームインデックスエントリを検出し、タームカウント（計数）を増分し、選択ワードに対するセンテンスＩ．Ｄ．をインデックスエントリに加える。
【００３９】
ステップ４５又は４６の間に、タームインデックスを選択ワードに応答して変更すると、プロセッサ１１はステップ４７へ進む。次に、プロセッサ１１は、ドキュメント中の全ワードが既に調べられたか否かを決定する。調べられていなかった場合、プロセッサ１１はタームインデックスを完了しない。それに応答して、プロセッサ１１はステップ４２へ戻り、記載した方法でタームリストを構築し続ける。一方、ドキュメントの全ワードが調べられていた場合、タームインデックスは完了して、プロセッサ１１はそのアテンションを他のタスクに向けることができる。この場合、プロセッサ１１はステップ５０へ分岐する。
【００４０】
ステップ４７の実行の開始後でステップ５０の実行前のステップ４８の間に、プロセッサ１１は主題的センテンスを選択する際に使用される主題的タームの数を決定する。「Ｋ」で示されるその数は、直接的テーマ（主題）センテンスとして選択されたセンテンスの数に基づいて、即ち「Ｚ」に基づいて、決定される。一般的に、ＫはＺよりも小さく、また１よりも大きくなるべきである。Ｚよりも小さなＫを要求することにより、選択された主題的なセンテンス同士の間でテーマの幾らかの属性の共有(commonality) が保証される。好ましくは、Ｋは、下記式（３）により決定される。
【００４１】
【数３】

【００４２】
Ｋの値及びステップ４６中に生成されたタームカウントが与えられると、プロセッサ１１はＫ個の主題的タームを選択する処理を開始する。ステップ５０の間に、プロセッサ１１は、タームインデックスのタームをそれらのカウント、即ちドキュメント中の各タームの発生総数、に従ってソートする。同じカウントを有する２つのタームは、好ましくはキャラクタが多い順にソートされ、キャラクタ数が同じ場合には、任意順序にソートされる。ソートされたタームインデックスを作成して、そのインデックスをメモリ中に格納すると、プロセッサ１１はステップ５２へ分岐する。ステップ５２の間に、プロセッサ１１はソートされたタームインデッスクからハイカウントを有するＫ個のタームを選択する。それが成されると、プロセッサ１１はステップ５４へ進む。
【００４３】
ステップ５４の間に、プロセッサ１１はドキュメント中のＫ個の主題的タームの総発生数を計算する。「Ｎ」で示されたその数は、Ｋ個の主題的タームのカウントを総計することにより計算される。プロセッサ１１はステップ５６へ分岐する。
【００４４】
主題的タームを選択してそれらのカウントが決定すると、プロセッサ１１はドキュメントのセンテンスの主題的コンテントを評価し始める準備をする。ステップ５６、５８、６０及び６２の間に、プロセッサ１１はＫ個の主題的タームのうちの少なくとも１個を含むセンテンスだけを考察する。これは、タームインデックスに含まれる情報が与えられると容易に行われる。プロセッサ１１は、ソートされたタームインデックスのＫ個のハイスコアタームを調べることによりその処理を行う。ステップ５６の間にｔ_sで示されるタームを選択した後、プロセッサ１１はステップ５８の間にｔ_sと関係する各センテンスＩ．Ｄ．を調べる。ｔ_sと関係する各センテンスＩ．Ｄ．に対して、プロセッサ１１はそのセンテンスのスコアを増分する。好ましくは、各センテンスに対するスコアはδだけ増分され、ここでδは、下記式（４）により表される。
【００４５】
【数４】

【００４６】
ステップ５８の間に、センテンススコアはセンテンススコアリストを作成することによりトラックされ得る。プロセッサ１１がセンテンスＩ．Ｄ．を選択する度に、センテンススコアリストは調べられ、リストがそのセンテンスＩ．Ｄ．を含んでいるか否かを見る。含んでいなければ、センテンスＩ．Ｄ．は、センテンススコアリストに加えられ、そのスコアは適切に増やされる。一方、センテンススコアリストが既に特定のセンテンスＩ．Ｄ．を含んでいる場合、センテンスと既に関係したスコアは、先に論じた方法で増分される。
【００４７】
選択タームｔ₂と関係する全センテンスのスコアを増分した後、プロセッサ１１はステップ６０へ分岐する。ステップ６０の間にプロセッサ１１は全部の主題的タームが評価されたか否かを決定する。評価されてない場合、プロセッサ１１はステップ５６へ戻り、選択タームとして別の主題的タームを選択する。プロセッサ１１は、主題的タームの全てが調べられるまで、ステップ５６、５８及び６０を通って、既に記載したように分岐する。イベントが発生すると、プロセッサ１１はステップ６２へ分岐する。
【００４８】
ステップ６２の間にプロセッサ１１は主題的センテンスとしてハイスコアを有するＺ個のセンテンスを選択する。プロセッサ１１はこの選択をセンテンススコアリストをスコアでソートすることにより行う。主題的センテンスを選択すると、ステップ６２の間にプロセッサ１１は、これらのセンテンスに対して直接的テーマ特徴を真に設定する。続くステップの間に、プロセッサ１１はドキュメント内の他の全センテンスに対して直接テーマ特徴を偽に設定する。好ましくは各センテンスに対する直接テーマ特徴値は、センテンス構造と関係し、特徴確率の生成及び抄録センテンスの抽出を促進する。その後、プロセッサ１１はステップ６４へ分岐する。
【００４９】
大文字特徴の評価
プロセッサ１１は、機械可読形態のドキュメントが選択されてトークン化された後、ステップ８０でドキュメントの大文字特徴の評価を開始する。ステップ８０の間に、プロセッサ１１はドキュメントからワードを選択する。次に、プロセッサ１１はステップ８２へ進み、許容可能な大文字ワードを識別する工程を開始する。ステップ８２の間に、プロセッサ１１は選択ワードがストップワードであるか否かを決定する。ストップワードは頭字語又は固有名詞と関係する可能性が低い。選択ワードがストップワードでない場合、プロセッサ１１はステップ８４へ進む。そのステップの間に、プロセッサ１１は、選択ワードが大文字で始まるか否かを、そのＡＳＣＩＩ表現を調べることにより決定する。そのワードが大文字から始まる場合、選択ワードが固有名詞又は頭字語を表す可能性がある。プロセッサ１１はステップ８６へ分岐することによりこの確率に応答する。ステップ８６の間に、プロッセッサ１１は選択ワードがセンテンスの第１ワードであるか否かを決定する。選択ワードがセンテンスの第１ワードでなければ、選択ワードは固有名詞又は頭字語で有り得る。プロセッサ１１はステップ８８へ進んで、選択ワードにある最後の試験を施す。ステップ８８の間にプロセッサ１１は、選択ワードが１レターよりも多いレターを含むか否かを決定する。１レターよりも多いレターを含む場合、ステップ８８の次のステップの間に、プロセッサ１１は選択ワードを許容可能な大文字ワードとして処理する。
【００５０】
ステップ９０の間に、プロセッサ１１は選択ワードが大文字リストにすでに載っているか否かを決定する。載っていなければ、ステップ９２の間に、プロセッサ１１は選択ワードを大文字リストに加えて、そのワードに対してカウントを１に設定する。一方、選択ワードが既に大文字リストにある場合、ステップ９４の間に、プロセッサ１１は大文字リスト上の選択ワードと関係するカウントを単に増やす。それが成されると、プロセッサ１１はステップ９６へ分岐して、ドキュメントのワードのその評価を続ける。プロセッサ１１はステップ８０、８２、８４、８６、８８、９０、９２、９４及び９６を、選択ドキュメントの全ワードが評価されるまで実行する。ドキュメントの全ワードが評価されると、プロセッサ１１はステップ９８へ進む。
【００５１】
プロセッサ１１は、ステップ９８の間に選択ドキュメントの各センテンスをスコアする準備を始める。先ず、プロセッサ１１はワードを大文字リスト中に、より多くのカウントを有するワードをより少ないカウントを有するワードよりも高いランクにランク付けする。プロセッサ１１は頻度の低い大文字ワードをランクしない。ステップ１００の間に、プロセッサ１１は大文字リストのワードランキングを使用して「ＴｏｔａｌＵｐｐｅｒ（大文字総数）」で示される頻度の高い大文字ワードの発生総数を決定する。それを行うと、プロセッサ１１は、ドキュメントの各センテンスを開始する用意をして、ステップ１０２へ分岐する。
【００５２】
ステップ１０２の間に、プロセッサ１１はセンテンスを選択してスコアする。次のステップの間に、プロセッサ１１は選択センテンスを１度に１ワード調べる。先ず、ステップ１０４の間に、プロセッサ１１はセンテンスに対してスコアを０に初期設定する。その後、ステップ１０６の間に、プロセッサ１１は選択センテンスのワードの内の１つを選択する。プロセッサ１１は、ステップ１０８の間に選択ワードが頻度の高い大文字ワードか否かを決定する。もしそうであれば、プロセッサ１１はステップ１１０へ進む。ステップ１１０の間にプロセッサ１１は選択センテンスのスコアを、選択された大文字ワードの頻度に比例する量だけ増分する。好ましくは、プロセッサ１１はｌ_sだけセンテンススコアを増分し、ここでｌ_sは下記式（５）により表される。
【００５３】
【数５】

【００５４】
次に、ステップ１１２及び１１４の間に、プロセッサ１１は選択センテンスのスコアを、このスコアがドキュメント内の選択ワードの最初の発生である場合に、更に増やす。その後、プロセッサ１１はステップ１１６へ進み、選択センテンスの各ワードが調べられるまで、ステップ１０６、１０８、１１０、１１２及び１１４を実行することにより選択センテンスのワードを調べ続ける。それが行われると、プロセッサ１１はステップ１１８へ分岐する。ステップ１１８では、プロセッサ１１はそのアテンションを出来るかぎりドキュメントの別のセンテンスのスコアリングに向ける。プロセッサ１１はステップ１０２、１０４、１０６、１０８、１１０、１１２、１１４及び１１６を、選択ドキュメントの全センテンスがスコアされるまで実行する。それが行われると、プロセッサ１１はステップ１２０へ分岐する。
【００５５】
ステップ１２０の間に、プロセッサ１１はセンテンススコアをランクする。センテンスのスコアは高くなるに従って、より高いランキングを有する。プロセッサ１１はステップ１２２の間に、センテンスのこのランキングを使用して、大文字センテンスとして、ハイスコアセンテンスの部分集合を選択する。その後、ステップ１２４の間にプロッセッサ１１は大文字センテンスに対して大文字特徴値を真に設定する。また、プロセッサ１１は、ドキュメントの他の全てのセンテンスに対して大文字特徴を偽に設定する。
【００５６】
特徴確率を生成するトレイニング方法
統計的アプローチを使用して、プロセッサ１１は、特徴確率をトレイニングドキュメントのコーパス及び短い抄録の関連コーパスから各ドキュメントに対して１つ生成する。特徴確率の生成は各抄録センテンスの特徴を評価することを必要とする。幾つかの特徴値を抄録だけから決定すること又は正確に決定することはできない。更に、幾つかの特徴値は適切な抄録センテンスを用いても正確に決定されないこともある。その理由は、幾つかの抄録センテンスは元のセンテンスの連結や変更であるためである。従って、各抄録センテンスの特徴評価は、抄録の対応するドキュメント内で整合センテンスを識別する必要がある。これはトレイニング開始前になされなくてはならない。
【００５７】
抄録センテンスとドキュメントセンテンスの整合
命令２００の実行は、トレイニングドキュメントのコーパス及びそれらと対応する手作業で作成された抄録のコーパスの識別及び選択により開始され、それらは全て機械可読形態である。開始すると、プロセッサ１１はステップ２０２へ進み、１つのドキュメントとそれに対応する抄録とを選択する。その後、ステップ２０４の間に、プロセッサ１１は抄録センテンスを選択し、その抄録センテンスの整合を識別する。次に、プロセッサ１１は元のセンテンスを選択し、選択ドキュメントセンテンスを選択抄録センテンスと比較する。次に、プロセッサ１１はステップ２０８へ進み、選択ドキュメントセンテンスの評価を開始する前に追加のタスクを行う。ステップ２０８の間に、プロセッサ１１は選択ドキュメントセンテンスに対してスコアを０に設定する。プロセッサ１１はステップ２１０へ分岐する。
【００５８】
ステップ２１０の間に、プロセッサ１１は選択抄録センテンスのワードの内の１つを適切に選択し、それを選択抄録ワードｗ_tとする。プロセッサ１１は次にステップ２１２へ進み、選択抄録ワードを選択ドキュメントセンテンス内で探索する。選択ドキュメントセンテンスが選択抄録ワードを含まない場合、プロセッサ１１はステップ２４８へ分岐する。一方、選択ドキュメントセンテンスが選択抄録ワードを含む場合、その最初の発生時に、プロセッサ１１はステップ２１４へ進む。
【００５９】
選択ドキュメントセンテンス内の選択抄録ワードの発見は、プロセッサ１１が選択ドキュメントセンテンスのスコアを増やすことを意味する。プロセッサ１１が単なる選択抄録の存在に対してスコアをどのくらい増やすかは、下記２つの式に対する答えに依存する；
１．選択抄録ワードはストップワードか？
２．これは選択抄録ワードの選択ドキュメントセンテンスにおける最初の発生か？
【００６０】
ステップ２１４の間に、プロセッサ１１は選択抄録ワードがストップワードであるか否かを決定することにより第１の問いに答える。もしもストップワードであれば、ステップ２２０の間にプロセッサ１１は選択ドキュメントセンテンスに対してスコアを、幾分か、好ましくは１だけ増やす。次に、プロセッサ１１はステップ２３４に進む。一方、選択抄録ワードがストップワードでない場合、プロセッサ１１はステップ２１６へ分岐する。ステップ２１６の間に、増分されるべきスコアの量を提供する第２の問いについて考察する。プロセッサ１１はステップ２１６の間に、選択抄録ワードの現在の発生が選択ドキュメントセンテンス内でのその最初の発生であるか否かを決定する。もし最初の発生であれば、プロセッサ１１はステップ２１８の間にセンテンススコアを幾分、好ましくは３だけ増やす。その後、プロセッサ１１はステップ２３０へ進む。一方、現在の発生が、選択ドキュメントセンテンス内での選択抄録ワードの最初の発生でない場合、プロセッサ１１はステップ２１７の間に、ステップ２１８の量よりも少ない幾らかの量、好ましくは１だけセンテンススコアを増やす。プロセッサ１１は次にステップ２３０へ進む。
【００６１】
ステップ２３０の間に、プロセッサ１１は、選択センテンス内において、選択抄録ワードの大文字使用(capitalization)が選択抄録センンテンス内のその大文字使用と整合するか否かを決定する。整合する場合には、プロセッサ１１はステップ２３２へ進み、選択ドキュメントセンテンスに対してスコアを、幾分、好ましくは３だけ増やす。その後、プロセッサ１１はステップ２３４へ分岐する。プロセッサ１１は、選択抄録ワードの大文字使用が選択抄録センテンス及び選択ドキュメントセンテンス内の大文字使用と同一でない時、ステップ２３４へ直接進む。
【００６２】
ステップ２３４の間に、プロセッサ１１は、ワード順（オーダー）を、選択抄録センテンスと選択ドキュメントセンテンスとの間の類似性のインジケータとして考察する。プロッセッサ１１は、選択抄録ワードが、既に選択された抄録ワードｗ_t-1の発生に次いで、選択ドキュメントセンテンス内で発生するか否かを決定する。ｗ_tがそのｗ_t-1での発生後に選択ドキュメントセンテンス内で発生しない場合、プロセッサ１１は選択ドキュメントセンテンスのスコアを、選択ドキュメントセンテンス内の選択抄録ワードの現在の発生に基づいてそれ以上増やさない。既に選択された抄録ワードが現在選択された抄録ワードよりも選択ドキュメントセンテンス内で先に生じない時、プロセッサ１１はステップ２３４を出る。選択抄録ワードに基づいて、選択ドキュメントセンテンスのスコアリングは終了する。それに応答して、プロセッサ１１はステップ２４８へ進む。一方、選択抄録ワードが、既に選択された抄録ワードの後で選択ドキュメントセンテンス内に生じる場合、選択抄録ワードの現在の発生に基づく選択ドキュメントセンテンスのスコアに対する更なる増加は、正当であると認められる。その場合、プロセッサ１１はステップ２３６へ進む。
【００６３】
ステップ２３６の間に、プロセッサ１１は選択ドキュメントセンテンスを幾分か増やし、ワードオーダー試験を満足させる。次に、プロセッサ１１はステップ２３８へ進み、更なる増加が容認されるか否かを調べる。
【００６４】
選択抄録ワードがストップワードである場合、プロセッサ１１はスコアの更なる増加は容認されないと見なす。その理由は、ストップワードは選択ドキュメントセンテンス及び選択抄録センテンスとの共通のコンテントを示していないからである。選択抄録ワードがストップワードであることを発見すると、プロセッサ１１はステップ２４８へ進む。逆に言えば、選択抄録ワードがストップワードでない時に、プロセッサ１１は選択ドキュメントセンテンスのスコアに対する更なる増加が容認されるとみなす。このシチュエーション（状況）では、プロセッサ１１はステップ２４０へ分岐して、どのくらい多くの増加がなされれるべきかを決定する。そのステップの間に、プロセッサ１１は選択ドキュメントセンテンス中の選択抄録ワードの現在の発生が第１の発生であるか否かを決定する。もし第１の発生であれば、プロセッサ１１はステップ２４２へ進み、幾分かスコアを増加する。その後、プロセッサ１１はステップ２４８へ進む。一方、選択抄録ワードの現在の発生が、第１発生でない場合、プロセッサ１１はステップ２４４へ分岐する。ステップ２４４の間に、プロセッサ１１は幾分かスコアを増す。その後、プロセッサ１１はステップ２４８へ進む。
【００６５】
ステップ２４８の間に、プロセッサ１１は選択抄録センテンスに関して選択ドキュメントセンテンスをスコアすることを終えたか否かを決定する。プロセッサ１１がまだ選択抄録センテンスの境界に出会わない場合、選択ドキュメントセンテンスのスコアリングは完成していない。プロセッサ１１はステップ２１０に分岐することによりこのシチュエーションに応答する。ステップ２４８では、プロセッサ１１は選択抄録センテンスの別のワードを選択することより、その選択ドキュメントセンテンスのスコアリングを続ける。やがてステップ２４８の間に、プロセッサ１１はプロセッサ１１が選択ドキュメントセンテンス内の選択抄録センテンスの各ワードに対して探索したことを発見する。これは、選択抄録センテンスに関して選択ドキュメントセンテンスのスコアリングの完成を示す。それが生じると、プロセッサ１１はステップ２４９へ分岐する。
【００６６】
プロセッサ１１はステップ２４９の間に、選択抄録センテンスに関して元のセンテンスのスコアリングを完成したか否かを決定する。完成していなければ、プロセッサ１１はステップ２０６へ戻り、選択ドキュメントセンテンスとして別の元のセンテンスを示す。スコアリングは先に論じられたようになされる。一度、全ドキュメントセンテンスがスコアされると、プロセッサ１１は抄録センテンスと整合するドキュメントセンテンスを選択することができる。そうするために、プロセッサ１１はステップ２５０へ分岐する。
【００６７】
プロセッサ１１は、ステップ２５０の間に、ドキュメントの元のセンテンスの部分集合を、選択抄録センテンスに対して整合しうるものとして選択する。プロセッサ１１は、選択抄録センテンスに関してハイスコアを有する元のセンテンスに基づいて部分集合を選択する。好ましくは、プロセッサ１１は１つよりも多い元のセンテンスを可能な整合として示す。その理由は、ハイスコアリングセンテンスが選択抄録センテンスに良好に整合しないという確率が存在するからである。
【００６８】
整合し得るセンテンスの部分集合を選択すると、プロセッサ１１は２５０を出て、ステップ２６０へ進む。
【００６９】
ステップ２６０の間に、プロセッサ１１は抄録の各センテンスに整合する元のセンテンスを選択したか否かを決定する。選択していなければ、プロセッサ１１はステップ２０４へ戻り、選択抄録の別の抄録センテンスに整合する元のセンテンスを識別する方法を開始する。一方、もしも整合が選択抄録の全センテンスに対して見つけられた場合、プロセッサ１１はステップ２６２へ進む。プロセッサ１１はステップ２６２の間に、コーパスの全抄録に整合するセンテンスを見つけたか否かを決定する。みつけていなければ、プロセッサ１１は、ステップ２０２へ戻るように分岐し、トレイニングコーパスに別のドキュメント抄録対に関して再び処理を開始する。一方、全体のコーパスに対して整合が識別されると、プロセッサ１１はステップ２６４へ進み、その現行タスクを完成する。
【００７０】
各抄録センテンスに整合し得る多数のセンテンスが命令２００を用いて識別されると、整合ドキュメントセンテンスを手作業により選択することができる、また手作業により選択することが好ましい。整合するドキュメントセンテンスの最終的な手作業による選択は、以下２つの理由のために望ましい。先ず第１に、手作業による選択により、整合しないドキュメントセンテンスが存在する抄録センテンスを識別することができるからである。抄録センテンスは、抄録作成のエキスパート（熟練者）により構成されたので、整合するドキュメントセンテンスを有していないこともあり得るからである。第２に、手作業による整合センテンスの選択は、抄録センテンスが２つの結合されたドキュメントセンテンスから作られたものである時に有用であり、そのうちの１つだけが整合センテンスとして示される。
【００７１】
特徴確率の生成トレイニング
トレイニングは、後で使用されエキスパートが抄録のために選択し得るのと同じセンテンスの集合をドキュメントから自動的に抽出する特徴確率を決定する。トレイニングは特徴集合及び整合したトレイニングコーパスを必要とする。これらの事前要求が与えられると、トレイニング中にプロセッサ１１は、各特徴をトレイニング集合内の各センテンスに対して個々に評価して、各特徴が、抄録センテンスと整合するセンテンス内及び全センテンス内で取り得る値の各々を取る回数を計数する。プロセッサ１１はこれらのカウントを使用して、下記２種類の確率を決定する。
１．特徴ｊの値を抄録Ｓに含まれるセンテンスｓ中で観察する確率、Ｐ（Ｆ_j｜ｓ∈Ｓ）。
２．特徴ｊが観察された値を取る確率、Ｐ（Ｆ_j）。
【００７２】
プロセッサ１１はステップ３０１を用いて命令３００の実行を開始する。そのステップの間に、プロセッサ１１は、コーパスのドキュメントを選択ドキュメントＤ_Sとして示す。次のステップの間に、プロセッサ１１は抄録センテンスと整合するドキュメントセンテンスを含むＤ_Sの全センテンスに対して特徴の値を決定する。それが成されると、プロセッサ１１はステップ３０２へ進み、特徴を選択し、その選択特徴Ｆ_Sを評価する。下記論議は、各特徴に対して値を別個に評価するとするが、一方、適切なデータ構造が与えられれば、全特徴に対して値を同時に評価することができる。特徴値を決定する両方の方法は、本発明と一致する。プロセッサ１１はステップ３０４へ分岐する。
【００７３】
ステップ３０４の間に、プロセッサ１１は選択ドキュメントからセンテンスを選択し、そのセンテンスに対して選択特徴の値を決定する。プロセッサ１１は、その値を選択センテンスと関係付ける。次に、プロセッサ１１はステップ３０６の間に、選択特徴に対する値が選択ドキュメントの全センテンスに対して決定されたか否かを決定する。プロセッサ１１は、選択特徴の値が選択ドキュメントの全センテンスに対して決定されるまで、ステップ３０４へ戻るように分岐する。全センテンスが評価されると、プロセッサ１１はステップ３０８へ進む。
【００７４】
ステップ３０８の間に、プロセッサ１１は選択特徴がドキュメント内の全センテンスに対してその可能な値の各々を取る回数を決定する。例えば、Ｆ_sが真及び偽の値だけを取る特徴である場合、プロセッサ１１はＦ_sが真ｔである選択ドキュメント内のセンテンスの数、及びＦ_sが偽ｆである回数を決定する。これらの量を概略的に「ＤｏｃＮ_FV」で示し、それは、単一ドキュメント内で特徴Ｆが特定の値Ｖを取る回数Ｎを表す。従って、選択特徴が２つの値、即ち真及び偽を取り得る場合、ステップ３０８の間に、プロセッサ１１は２つの量をＤｏｃＮ_FT及びＤｏｃＮ_FFを計算する。ステップ３０８の間に、プロセッサ１１はドキュメントに対する値をトレイニングコーパスに対する移動総数(running totals)に加え、これはＴｏｔａｌＤｏｃＮ_FVとして概略的に示される。次に、プロセッサ１１はステップ３１０へ進み同様のタスクを実行する。
【００７５】
ステップ３１０の間に、プロセッサ１１はＦ_Sがその可能値の各々を、Ｄ_Sが整合する元のセンテンス内で取る回数を決定する。これらの量を概略的に「ＭａｔｃｈＮ_FV」として表す。次に、この特定のドキュメントに対する値は、「ＴｏｔａｌＭａｔｃｈＮ_FV」で示される移動総数に加えられる。選択特徴の評価が完了すると、プロセッサ１１はステップ３１２に進む。
【００７６】
プロセッサ１１は、ステップ３１２の間に、選択ドキュメントに対して全特徴を決定したか否かを決定する。プロセッサ１１がまだ全特徴を評価していなかった場合、プロセッサ１１はステップ３０２へ戻る。次に、プロセッサ１１は、各特徴に対して特徴値が決定されるまで、ステップ３０２、３０４、３０６、３０８、３１０及び３１２を上記記載した方法で実行する。
【００７７】
プロセッサ１１は、ステップ３１４の間に特徴値がトレイニングコーパス内の全ドキュメントに対して計算されたか否かを決定する。計算されていなければ、プロセッサ１１はステップ３０１へ戻り、全特徴値がトレイニングコーパス内の全ドキュメントに対して計算されるまで、ステップ３０１、３０２、３０４、３０６、３０８、３１０、３１２及び３１４を記載した方法で実行する。それが行われると、プロセッサ１１は特徴確率を計算する準備ができ、ステップ３１６へ進む。
【００７８】
特徴確率の計算は、使用される特徴の選択集合から１つの特徴を選択することによりステップ３１６において始まる。次に、ステップ３１８の間に、プロセッサ１１は選択特徴の各値に関係する可能性を計算する。プロセッサ１１は、整合センテンスが特定の特徴値ＴｏｔａｌＭａｔｃｈ_FVを取った総回数を、トレイニングコーパス内のセンテンスがその同じ特徴値ＴｏｔａｌＤｏｃ_FVを取った総回数で割ることにより前記可能性を計算する。ステップ３１８の間に特徴に対して計算された確率の数は、特徴が取ることができる数となる。選択特徴と関係する全確率を計算後、プロセッサ１１はステップ３２０へ分岐する。
【００７９】
プロセッサ１１は、ステップ３２０の間に、特徴全部に対して確率を計算したか否かを決定する。計算されていなければ、プロセッサ１１はステップ３１６へ戻り、全特徴確率が計算されるまでステップ３１６、３１８及び３２０を繰り返す。それが行われると、プロセッサ１１はステップ３２４へ分岐して、トレイニングを完了する。次にプロセッサ１１はこれらの特徴確率を使用して、手作業により作成された抄録に匹敵する品質のドキュメント抄録を自動的に作成することができる。
【００８０】
抄録センテンスの自動抽出方法
図１１は、フロー図形態で、プロセッサ１１により使用される命令３５０を示し、エキスパートがドキュメントから抽出するかもしれないセンテンスと同じセンテンスの集合を自動的に抽出する。
【００８１】
簡潔に記載すると、命令３５０は機械可読ドキュメントからセンテンススコアに基づいて抽出されるセンテンスの選択を指示し、センテンススコアは、各センテンスに対して個々に評価された各特徴により提供された確率の積である。ドキュメントの各センテンスをスコアリング後、プロセッサ１１はハイスコアリングセンテンスを抽出し、それらをドキュメントの抽出物としてコンピュータユーザに呈する。
【００８２】
命令３５０の実行は、コンピュータユーザがドキュメントを抽出物が作成されるべき機械可読形態で示すと開始する。特定のドキュメントの選択に応答して、プロセッサ１１はステップ３５２へ分岐してセンテンスを選択ドキュメントから選択する。その後、プロセッサ１１はステップ３５４へ進み、選択センテンスに対するスコアを、ある非０の数、好ましくは１に初期設定する。次にプロセッサ１１はステップ３５６へ分岐する。
【００８３】
ステップ３５６に関しては、プロセッサ１１は選択ドキュメントの抽出物に含まれる選択センテンスの適正を決定する工程を開始する。プロセッサ１１はこの工程を、ステップ３５６の間に、特徴集合から評価用の特徴を選択することにより開始する。次に、プロセッサ１１はステップ３５８の間に、選択センテンスに対して特徴の値を決定する。次に、プロセッサ１１はステップ３６０へ進む。特徴値が与えられると、ステップ３６０の間に、プロセッサ１１はその特徴値と関係する確率を探索（ルックアップ）する。次に、ステップ３６２の間に、プロセッサ１１は選択センテンスに対してスコアを丁度探索された確率と比例する量だけ変更する。
【００８４】
１つの特徴の評価を完了すると、プロセッサ１１はステップ３６４の間に、選択センテンスに対して全特徴の全値が決定されたか否かを決定する。決定されていなければ、プロセッサ１１は選択センテンスのそのスコアリングを完了しない。その場合、プロセッサ１１はステップ３５６へ戻り、選択センテンスのスコアを調整して全特徴の値を反映するまで、ステップ３５６、３５８、３６０、３６２及び３６４を実行する。プロセッサ１１が選択センテンスのスコアリングを完了すると、プロセッサ１１はステップ３６６へ分岐する。
【００８５】
ステップ３６６の間に、プロセッサ１１は将来の参考のために選択センテンスに対して最終スコアを格納する。１センテンスのスコアリングを完了すると、プロセッサ１１は、後続ステップ３６８の間に選択ドキュメントの各センテンスをスコアしたか否かを決定する。スコアしていなければ、プロセッサ１１はステップ３５２へ戻り、評価のために選択ドキュメントから別のセンテンスを選択する。プロセッサ１１は、選択ドキュメントの各センテンスに対して最終スコアを生成するまで、ステップ３５２、３５４、３５６、３５８、３６０、３６２、３６４、３６６及び３６８を実行する。プロセッサ１１が全センテンスをスコアしたことを決定すると、プロセッサ１１はステップ３７０へ進む。
【００８６】
プロセッサ１１はステップ３７０の間に、ハイスコアリングセンテンスの部分集合を選択して、ドキュメント抽出物を作成する。
【図面の簡単な説明】
【図１】本発明が適用可能なコンピュータシステムを示す。
【図２】ドキュメント内でテキストの開始箇所を検出する方法のフロー図である。
【図３】ドキュメントの主題の抄録の作成する方法のフロー図である。
【図４】ドキュメントの主題の抄録の作成する方法の図３から続くフロー図である。
【図５】大文字センテンスを識別する方法のフロー図である。
【図６】大文字センテンスを識別する方法の図５から続くフロー図である。
【図７】ドキュメント内でセンテンスを検出する方法のフロー図であり、そのセンテンスはそのドキュメントに関して手作業で作成された抄録内のセンテンスと整合する。
【図８】ドキュメント内でセンテンスを検出する方法の図７から続くフロー図であり、そのセンテンスはそのドキュメントに関して手作業で作成された抄録内のセンテンスと整合する。
【図９】コーパスを与えられる特徴確率を生成する方法のフロー図である。
【図１０】コーパスを与えられる特徴確率を生成する方法の図９から続くフロー図である。
【図１１】抽出物を自動的に生成する方法のフロー図である。

Claims

自動的にドキュメントの抜粋を生成するために、機械可読形態であるドキュメントコーパス及び該ドキュメントコーパスのモデル抄録である抄録コーパスからドキュメントの特徴確率を自動的に生成するコンピュータシステムにおいて、前記特徴確率を自動的に生成する方法であって、前記コンピュータシステムはメモリとプロセッサを含み、ドキュメントコーパスの各ドキュメントが複数のセンテンスを含み、前記複数のセンテンスが前記抄録コーパスのセンテンスと整合する複数の整合センテンスを含み、前記方法は、前記コンピュータシステムのプロセッサに、
（ａ）選択ドキュメントとして前記ドキュメントコーパスのドキュメントを選択するステップと、
（ｂ）選択センテンスとして前記選択ドキュメントのセンテンスのうち１つを選択するステップと、
（ｃ）前記選択センテンスについて、特徴集合の各特徴の値を決定するステップであって、
特徴集合は該センテンスが抜粋に抽出される可能性の高いセンテンスであるかどうかの判定に使用されるセンテンスの特徴の集合であり、前記特徴集合は、ドキュメントにおけるセンテンスの位置を示すロケーション特徴と、センテンスが大文字を使用するワードを有するかどうかを示す大文字特徴とを含み、
ロケーション特徴は第１ロケーション値、第２ロケーション値、及び第３ロケーション値を有し、第１ロケーション値は選択センテンスが選択ドキュメントの開始部分内に含まれることを示し、第２ロケーション値は選択センテンスが選択ドキュメントの中間部分内に含まれることを示し、第３ロケーション値は選択センテンスが選択ドキュメントの終わり部分内に含まれることを示し、
大文字特徴は第１大文字値及び第２大文字値を有し、第１大文字値は選択センテンスが複数の選択大文字フレーズを全く含まないことを示し、第２大文字値は選択センテンスが選択大文字フレーズのうち１つを含むことを示し、
各特徴の値は各々トータルカウンタ値と整合カウンタ値を有する、ステップと、
（ｄ）選択センテンスにおいて各特徴が発生するごとにその特徴値のトータルカウンタ値を増分するステップと、
（ｅ）選択センテンスが複数の整合センテンスの１つである場合、選択センテンスにおいて各特徴が発生するごとにその特徴値の整合カウンタ値を増分するステップと、
（ｆ）選択ドキュメントの全センテンスが選択センテンスとして選択されていない場合、ステップ（ｂ）乃至（ｅ）を繰り返すステップと、
（ｇ）ドキュメントコーパスの全ドキュメントが選択ドキュメントとして選択されていない場合、ステップ（ａ）乃至（ｆ）を繰り返すステップと、
（ｈ）各特徴の各値のトータルカウンタ値及び整合カウンタ値を用い、
前記整合カウンタ値をトータルカウンタ値で除算すること
により該特徴が発生する確率を決定するステップと、
（ｉ）ユーザに機械可読形態で示されたドキュメントについて、前記特徴集合及び各特徴値の確率を用いて抜粋を作成するステップと、
を実行させる、
特徴確率自動生成方法。
前記特徴集合が更に直接テーマ特徴を含み、直接テーマ特徴は、選択センテンスが選択ドキュメントのテーマを表すことを示す第１値と、選択センテンスが選択ドキュメントのテーマを表さないことを示す第２値とを有する、請求項１に記載の特徴確率自動生成方法。
特徴集合が更にキューワード特徴を含み、キューワード特徴は、選択センテンスが選択ドキュメントを抄録することを示す第１の値と、選択センテンスが選択ドキュメントを抄録しないことを示す第２の値とを有する、請求項２に記載の特徴確率自動生成方法。
自動的にドキュメントの抜粋を生成するために、ドキュメントコーパス及び該ドキュメントコーパスから手作業で作成された抄録の抄録コーパスからドキュメントの特徴確率を自動的に作成するコンピュータシステムであって、各ドキュメントが複数のセンテンスを含み、前記複数のセンテンスが前記抄録コーパスのセンテンスと整合する複数の整合センテンスを含み、前記コンピュータシステムは、
（ａ）メモリと、
（ｂ）プロセッサと、
（ｃ）メモリにより格納されるデータであって、該格納データが特徴確率を自動的に作成するためにアクセス可能であるデータと、
を備え、
前記プロセッサが、
（ａ）選択ドキュメントとして前記ドキュメントコーパスのドキュメントを選択するステップと、
（ｂ）選択センテンスとして前記選択ドキュメントのセンテンスのうち１つを選択するステップと、
（ｃ）前記選択センテンスについて、特徴集合の各特徴の値を決定するステップであって、
特徴集合は該センテンスが抜粋に抽出される可能性の高いセンテンスであるかどうかの判定に使用されるセンテンスの特徴の集合であり、前記特徴集合は、ドキュメントにおけるセンテンスの位置を示すロケーション特徴と、センテンスが大文字を使用するワードを有するかどうかを示す大文字特徴とを含み、
ロケーション特徴は第１ロケーション値、第２ロケーション値、及び第３ロケーション値を有し、第１ロケーション値は選択センテンスが選択ドキュメントの開始部分内に含まれることを示し、第２ロケーション値は選択センテンスが選択ドキュメントの中間部分内に含まれることを示し、第３ロケーション値は選択センテンスが選択ドキュメントの終わり部分内に含まれることを示し、
大文字特徴は第１大文字値及び第２大文字値を有し、第１大文字値は選択センテンスが複数の選択大文字フレーズを全く含まないことを示し、第２大文字値は選択センテンスが選択大文字フレーズのうち１つを含むことを示し、
各特徴の値は各々トータルカウンタ値と整合カウンタ値を有する、ステップと、
（ｄ）選択センテンスにおいて各特徴が発生するごとにその特徴値のトータルカウンタ値を増分するステップと、
（ｅ）選択センテンスが複数の整合センテンスの１つである場合、選択センテンスにおいて各特徴が発生するごとにその特徴値の整合カウンタ値を増分するステップと、
（ｆ）選択ドキュメントの全センテンスが選択センテンスとして選択されていない場合、ステップ（ｂ）乃至（ｅ）を繰り返すステップと、
（ｇ）ドキュメントコーパスの全ドキュメントが選択ドキュメントとして選択されていない場合、ステップ（ａ）乃至（ｆ）を繰り返すステップと、
（ｈ）各特徴の各値のトータルカウンタ値及び整合カウンタ値を用い、
前記整合カウンタ値をトータルカウンタ値で除算すること
により該特徴が発生する確率を決定するステップと、
を該コンピュータシステムに実行させる、コンピュータシステム。