JP3759242B2 - 特徴確率自動生成方法及びシステム - Google Patents

特徴確率自動生成方法及びシステム Download PDF

Info

Publication number
JP3759242B2
JP3759242B2 JP18013696A JP18013696A JP3759242B2 JP 3759242 B2 JP3759242 B2 JP 3759242B2 JP 18013696 A JP18013696 A JP 18013696A JP 18013696 A JP18013696 A JP 18013696A JP 3759242 B2 JP3759242 B2 JP 3759242B2
Authority
JP
Japan
Prior art keywords
sentence
feature
document
value
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP18013696A
Other languages
English (en)
Other versions
JPH0916631A (ja
Inventor
エム.クピエク ジュリアン
オー.ペダーセン ジャン
アール.チェン フランシヌ
シー.ブロツキー ダニエル
ビー.プッツ スティーブン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH0916631A publication Critical patent/JPH0916631A/ja
Application granted granted Critical
Publication of JP3759242B2 publication Critical patent/JP3759242B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、自動テキスト処理方法に関する。特に本発明は、後で自然言語テキストから抄録抽出物(summary extract) を自動的に作成するために使用され得る特徴確率の自動生成方法に関する。
【0002】
【従来技術及び発明が解決しようとする課題】
抄録(summaries) 及び抽出物(extract) は、ドキュメント(文書) のタイトル(表題)よりも参考になる、簡潔であるが一見して十分に吸収できるほど簡単であるドキュメント描写を提供する。
【0003】
著者により提供される従来の直接的抄録(indicative abstract) は、それが得られると、簡潔なドキュメント描写に対する必要性を満たす。著者により提供される抄録がない場合は自動的に作成されるドキュメント抄録を用いて克服することができる。多くの研究者が自動的なドキュメントの要約に取り組んだ。ドキュメントの概要をなす一貫性のある記述を作成する一般的タスクは、現在、あまりにも問題が多いと考えられている。その理由は、ドキュメントが内容の理解、抽出、及び言語生成を該タスクが含有するからである。より単純なアプローチは、ドキュメント概要を抽出による抄録と定義することにより言語理解についての中心的な困難を回避することである。即ち、このアプローチの目的は、ドキュメントのコンテント(内容) を示すドキュメントセンテンスの部分集合を見つけることである。典型的には、このアプローチ下ではドキュメントセンテンスをスコア(評価) して、ハイスコアセンテンスを選択して抽出する。
【0004】
数々のヒューリスティック(発見的方法)は概要(summarization) を抽出するためにセンテンスをスコアすることを提案した。少なくとも1つの従来の抽出手段は複数の特徴を使用し、これらの特徴は主観的推定により手作業で重み付けされる。特徴の重みを手作業で割り当てて最適な成果を得ることは、多くの特徴が使用される時に困難である。
【0005】
概要を抽出するために使用された従来の特徴は、頻度の高いキーワードヒューリスティック、ロケーションヒューリステック、及びキューワード(cue word)を含む。
【0006】
本発明の目的は、上記記載した従来技術の欠点を克服することである。
【0007】
【課題を解決するための手段】
請求項1に記載の発明は、自動的にドキュメントの抜粋を生成するために、機械可読形態であるドキュメントコーパス及び該ドキュメントコーパスのモデル抄録である抄録コーパスからドキュメントの特徴確率を自動的に生成するコンピュータシステムにおいて、前記特徴確率を自動的に生成する方法であって、前記コンピュータシステムはメモリとプロセッサを含み、ドキュメントコーパスの各ドキュメントが複数のセンテンスを含み、前記複数のセンテンスが前記抄録コーパスのセンテンスと整合する複数の整合センテンスを含み、前記方法は、前記コンピュータシステムのプロセッサに、
(a)選択ドキュメントとして前記ドキュメントコーパスのドキュメントを選択するステップと、
(b)選択センテンスとして前記選択ドキュメントのセンテンスのうち1つを選択するステップと、
(c)前記選択センテンスについて、特徴集合の各特徴の値を決定するステップであって、
特徴集合は該センテンスが抜粋に抽出される可能性の高いセンテンスであるかどうかの判定に使用されるセンテンスの特徴の集合であり、前記特徴集合は、ドキュメントにおけるセンテンスの位置を示すロケーション特徴と、センテンスが大文字を使用するワードを有するかどうかを示す大文字特徴とを含み、
ロケーション特徴は第1ロケーション値、第2ロケーション値、及び第3ロケーション値を有し、第1ロケーション値は選択センテンスが選択ドキュメントの開始部分内に含まれることを示し、第2ロケーション値は選択センテンスが選択ドキュメントの中間部分内に含まれることを示し、第3ロケーション値は選択センテンスが選択ドキュメントの終わり部分内に含まれることを示し、
大文字特徴は第1大文字値及び第2大文字値を有し、第1大文字値は選択センテンスが複数の選択大文字フレーズを全く含まないことを示し、第2大文字値は選択センテンスが選択大文字フレーズのうち1つを含むことを示し、
各特徴の値は各々トータルカウンタ値と整合カウンタ値を有する、ステップと、
(d)選択センテンスにおいて各特徴が発生するごとにその特徴値のトータルカウンタ値を増分するステップと、
(e)選択センテンスが複数の整合センテンスの1つである場合、選択センテンスにおいて各特徴が発生するごとにその特徴値の整合カウンタ値を増分するステップと、
(f)選択ドキュメントの全センテンスが選択センテンスとして選択されていない場合、ステップ(b)乃至(e)を繰り返すステップと、
(g)ドキュメントコーパスの全ドキュメントが選択ドキュメントとして選択されていない場合、ステップ(a)乃至(f)を繰り返すステップと、
(h)各特徴の各値のトータルカウンタ値及び整合カウンタ値を用い、
前記整合カウンタ値をトータルカウンタ値で除算すること
により該特徴が発生する確率を決定するステップと、
(i)ユーザに機械可読形態で示されたドキュメントについて、前記特徴集合及び各特徴値の確率を用いて抜粋を作成するステップと、
実行させることを特徴とする。
【0008】
請求項2に記載の特徴確率自動生成方法は、請求項1に記載の特徴確率自動生成方法において、前記特徴集合が更に直接テーマ特徴を含み、直接テーマ特徴、選択センテンスが選択ドキュメントのテーマを表すことを示す第1値、選択センテンスが選択ドキュメントのテーマを表さないことを示す第2値を有する。
【0009】
請求項3に記載の特徴確率自動生成方法は、請求項2に記載の特徴確率自動生成方法において、特徴集合が更にキューワード特徴を含み、キューワード特徴は、選択センテンスが選択ドキュメントを抄録することを示す第1の値、選択センテンスが選択ドキュメントを抄録しないことを示す第2の値を有する。
【0010】
請求項4に記載の発明は、自動的にドキュメントの抜粋を生成するために、ドキュメントコーパス及び該ドキュメントコーパスから手作業で作成された抄録の抄録コーパスからドキュメントの特徴確率を自動的に作成するコンピュータシステムであって、各ドキュメントが複数のセンテンスを含み、前記複数のセンテンスが前記抄録コーパスのセンテンスと整合する複数の整合センテンスを含み、前記コンピュータシステムは、
(a)メモリと、
(b)プロセッサと、
(c)メモリにより格納されるデータであって、該格納データが特徴確率を自動的に作成するためにアクセス可能であるデータと、
を備え、
前記プロセッサが、
(a)選択ドキュメントとして前記ドキュメントコーパスのドキュメントを選択するステップと、
(b)選択センテンスとして前記選択ドキュメントのセンテンスのうち1つを選択するステップと、
(c)前記選択センテンスについて、特徴集合の各特徴の値を決定するステップであって、
特徴集合は該センテンスが抜粋に抽出される可能性の高いセンテンスであるかどうかの判定に使用されるセンテンスの特徴の集合であり、前記特徴集合は、ドキュメントにおけるセンテンスの位置を示すロケーション特徴と、センテンスが大文字を使用するワードを有するかどうかを示す大文字特徴とを含み、
ロケーション特徴は第1ロケーション値、第2ロケーション値、及び第3ロケーション値を有し、第1ロケーション値は選択センテンスが選択ドキュメントの開始部分内に含まれることを示し、第2ロケーション値は選択センテンスが選択ドキュメントの中間部分内に含まれることを示し、第3ロケーション値は選択センテンスが選択ドキュメントの終わり部分内に含まれることを示し、
大文字特徴は第1大文字値及び第2大文字値を有し、第1大文字値は選択センテンスが複数の選択大文字フレーズを全く含まないことを示し、第2大文字値は選択センテンスが選択大文字フレーズのうち1つを含むことを示し、
各特徴の値は各々トータルカウンタ値と整合カウンタ値を有する、ステップと、
(d)選択センテンスにおいて各特徴が発生するごとにその特徴値のトータルカウンタ値を増分するステップと、
(e)選択センテンスが複数の整合センテンスの1つである場合、選択センテンスにおいて各特徴が発生するごとにその特徴値の整合カウンタ値を増分するステップと、
(f)選択ドキュメントの全センテンスが選択センテンスとして選択されていない場合、ステップ(b)乃至(e)を繰り返すステップと、
(g)ドキュメントコーパスの全ドキュメントが選択ドキュメントとして選択されていない場合、ステップ(a)乃至(f)を繰り返すステップと、
(h)各特徴の各値のトータルカウンタ値及び整合カウンタ値を用い、
前記整合カウンタ値をトータルカウンタ値で除算すること
により該特徴が発生する確率を決定するステップと、
コンピュータシステムに実行させることを特徴とする。
【0011】
【発明の実施の形態】
ベイズの法則(Bayes' rule) は、本発明の方法及び自動概要抽出の両方の基礎となる。ベイズの法則によれば、特徴(feature) 、Fj ;j=1,2,...kと称されるセンテンス特性(characteristic)の集合kが与えられると、抄録Sに含まれるセンテンスsの確率は、下記式(1)のように数学的に表され得る。
【0012】
【数1】
Figure 0003759242
【0013】
特徴の統計的独立を仮定すると、センテンスsが抄録Sに含まれる確率は下記式(2)のように再び表され得る。
【0014】
【数2】
Figure 0003759242
【0015】
即ち、センテンスsが抄録Sに含まれる全体の確率は、センテンスsに対して個々に評価された各特徴により提供された確率の積に比例する。記載するトレイニング(学習)方法は、この事実を利用して、特徴の集合に対して確率を手作業により作成した抄録が整合するトレイニングコーパスから生成する。コンピュータシステム10は、特徴jに対する値を抄録のセンテンス中で観察する確率、即ちP(Fj |s∈S)と、特徴jが観察された値P(Fj )をとる確率とを、単にトレイニングコーパス内のこれらの値の発生を計数することにより決定する。トレイニング後、コンピュータシステム10はそれらの確率を使用して、エキスパートが抽出し得るのと同じセンテンスの集合をドキュメントから自動的に抽出する。そのようにする方法についてもまた本明細書で詳細に記載する。
【0016】
特徴
特徴の記述
コンピュータシステム10は特徴として既知のセンテンス特性を使用して、手作業により作成される抄録中に選択的に含められる可能性の高いセンテンスを自動的に抽出する。好ましくはコンピュータシステム10は、5つの特徴を用いてドキュメント抽出物、即ち抜粋を作成するが、それよりも少ない又は多い数の特徴もまた使用可能である。好ましくは、使用される5つの特徴は、センテンス長さ、キューワード、センテンスロケーション、大文字(アッパーケース)センテンス、及び直接的テーマセンテンスである。性能は、使用される特徴の組み合わせに応じて変化する。
【0017】
センテンス長さ特徴は、センテンス中のワード(語)数が最低長さと整合するか又はそれを越えるかを示す。最低長さは、部分ヘッディング(見出し)のような、手作業により作成される抄録にめったに含まれない短いセンテンスを識別するために選択される。
【0018】
直接的テーマ特徴は、センテンスがドキュメントの主題(メインテーマ)の内の1つをアドレスするか否かを決定する。直接的テーマ特徴は、ドキュメント内で頻繁に使用されるコンテント(内容)ワードが、そのドキュメントのテーマを同様に示すという直観(intuition) を使用する。直接的テーマ特徴の値は、センテンスがドキュメントの直接的テーマセンテンスの内の1つであるか否かを示す。
【0019】
大文字特徴はセンテンスが重要な固有名詞又は頭字語(acronyms)を含むか否かを示し、固有名詞又は頭字語は、手作業により生成される抄録に高い頻度で含まれる。この特徴は、固有名詞及び頭字語が典型的にはそれらの位置に関係なく、センテンス内で大文字を用いて表されるためにそのように名付けられる。
【0020】
キューワード特徴は、ドキュメントを要約することを示すワードシーケンスをセンンテンスが含んでいるか否かを示す。このようなワードシーケンスは、「この論説」、「その論説」、「この調査」、「本調査」、「この論文」、「この研究」、「この作品」、「本作品」、「この文筆」、「要するに」、「〜と推論される」、「〜と結論を下す」、「我々は〜と締めくくる」、「要約すると」、「結果」、「我々の結果」、「結果が〜を示す」、「結果が〜を表す」、「結果は〜である」等を、含む。
【0021】
キューワードのこのリストは全てを網羅することは意図しない。キューワードを含むセンテンスの識別方法は当業者に明白になるであろう。
【0022】
ロケーション特徴は、ドキュメント内のセンテンスのロケーション(位置)が抄録に含まれそうなものであるか否かを示す。パラグラフの始まり及び終わりで検出されるセンテンスは、パラグラフの中間にあるセンテンスよりも手作業で作成される抄録に含まれる可能性が高い。更に、ドキュメントの始まり及び終わりのセンテンスは、ドキュメントの中間にあるセンテンスと比べて、短い抄録に含まれる可能性が高い。ドキュメントの始まりを、テキストの始まり部分から最初の5パラグラフと定義し、ドキュメントの終わりをドキュメントの最後の5パラグラフと定義する。そして中間部分は残りの全パラグラフを含む。更にパラグラフの始まりをパラグラフの最初のセンテンス、及び終わりをパラグラフの最後のセンテンスと定義し、そして中間はパラグラフ内の残りの全センテンスを含む。従って、ロケーション特徴は、2よりも大きな値を取り得る。
【0023】
特徴評価
抄録のトレイニング及び抽出中に使用されるトークン化手段(tokenizer) は、上記記載した特徴の評価を容易にする。トークン化手段は自然言語ドキュメントの機械可読表現を分析して、パラグラフ境界、センテンス境界及び各センテンス内のワードを識別する。好ましくは、トークン化手段は、特徴評価に有用な3つの情報、即ちセンテンスI.D.、センテンス位置、及びセンテンス長さを含むセンテンス構造をドキュメントのセンテンス毎に生成する。センテンスI.D.はドキュメントの始まり部分に対してセンテンスのロケーションを示す一意の番号である。センテンス位置はそのパラグラフ内のセンテンスの位置を示す。センテンス長さはセンテンス内に含まれるワード数を表し、これがセンテンス長さ特徴の迅速な評価を容易にする。
【0024】
ロケーション特徴の評価
ロケーション特徴の評価は、テキストのメインボディ内のセンテンスロケーションが既知である場合は真っ直ぐ進む。好ましくは、センテンス位置及びパラグラフ番号を使用してセンテンスロケーションを示す。パラグラフ番号はドキュメント内のセンテンスパラグラフのロケーションを示す。センテンス位置とセンテンスのパラグラフ番号の両方が与えられると、ロケーション特徴を容易に評価することができる。従って、センテンス位置とパラグラフ番号が与えられたロケーション特徴の評価については本明細書では詳細に記載する必要はない。
【0025】
論じる必要があるのは、パラグラフの特徴を評価するのに必要なセンテンス数及びパラグラフ番号を得ることである。そのタスクはテキストのメインボディの始まり箇所、及び著者が提供したタイトル又は要約が存在する場合にはそれを識別することを伴う。その理由は、これらはにはドキュメント抽出に関係のない日付、住所、名前及び他の注釈(notation)がついていることがよくあるからである。
【0026】
プロセッサ11はステップ28を用いて、命令27を実行し始め、このステップ中にセンテンスカウンタが0に初期設定される。プロセッサ11はセンテンスカウンタを用いて、最低長さよりも長い連続センテンスが幾つ検出されたかをトラックする。カウンタが初期設定されると、プロセッサ11はステップ29へ分岐する。
【0027】
ステップ29の間に、プロセッサ11は選択ドキュメントのセンテンスの内の1つを選択センテンスとして示す。プロセッサ11は、先ず選択センテンスとしてドキュメントの第1センテンスを示し、その後でテキストのメインボディの始まりを検出するか又はドキュメントの最後に達するまで、連続的にセンテンスを示す。プロセッサ11はステップ30に分岐して、テキストのメインボディの最初の部分の探索を始める準備をする。
【0028】
ステップ30中にプロセッサ11は最初の試験を行い、選択センテンスがテキストのメインボディの第1(最初の)パラグラフの部分を形成しているか否かを識別する。プロセッサ11は、センテンス境界、即ち終端句読点を探すために選択センテンスのトークンを探索する。テキストのメインボディに付いている注釈は、句読点を入れられないことがしばしばあるので、プロセッサ11は、選択センテンスがセンテンス境界を欠く場合に、それをメインテキストボディの部分とみなさない。選択センテンスがセンテンス境界を欠くことが発見されると、プロセッサ11はステップ33へ進む。一方、選択センテンスがセンテンス境界を含む場合、選択センテンスはメインテキストボディの第1パラグラフの部分を形成し得る。その確率を調査するために、更にプロセッサ11はステップ31へ分岐する。
【0029】
ステップ31の間にプロセッサ11は第2試験を行い、選択センテンスがメインテキストボディの第1パラグラフの部分を形成するか否かをを決定する。プロセッサ11は、選択センテンスが句読点を除いて長さが少なくとも最低のワード数であるか否かを決定する。メインテキストボディについている注釈が短いことはよくある。従って、プロセッサ11は、ドキュメントの最初の少ししかない短いセンテンスを、メインテキストボディの部分とみなさない。選択センテンスが短すぎる場合は、プロセッサ11はステップ33へ進む。反対に、選択センテンスの長さが最低長さに整合するか、又はそれを越える場合、プロセッサ11はステップ32へ分岐する。
【0030】
ステップ32へのエントリは、選択センテンスがメインテキストボディの第1パラグラフの部分を形成し得ることを意味する。プロセッサ11はステップ32の間に選択センテンスの最後の試験を行う。プロセッサ11は、選択センテンスが次のセンテンスから、パラグラフ境界、あるいはパラグラフ境界が示されない場合には字下げ(indentation) 若しくは任意のホワイト空間介在により分割した2つのキャリッジリターン(復帰)により、分割されるか否かを決定した。選択センテンスと次のセンテンスとの間のこの分割は、それらが同一パラグラフの部分でないことを示す。2つのセンテンスが異なるパラグラフに属す場合、プロセッサ11はメインテキストボディの第1パラグラフを発見してなかった。その場合、プロセッサ11はステップ33へ分岐する。一方、選択センテンスと次のセンテンスが同一パラグラフに属す場合、プロセッサ11はメインテキストボディの第1パラグラフのセンテンスの内の1つを識別した可能性がある。その確率に応答して、プロセッサ11はステップ34へ進み、センテンスカウンタを増分する。
【0031】
センテンスカウンタを増分すると、プロセッサ11は、ステップ35の間に、最低長さの連続センテンスの最小数を既に発見したか否かを決定する。センテンスカウンタが3よりも少ない値を有する場合、プロセッサ11は第1パラグラフをまだ識別していなかった。現行パラグラフの更なる評価が可能であるか否を決定するために、プロセッサ11はステップ36へ進む。一方、センテンスカウンタが最小数である場合、プロセッサはメインテキストボディの第1パラグラフを検出した。これに応答して、プロッセッサ11はステップ37へ進む。
【0032】
ステップ37の間に、プロセッサ11はメインテキストボディの第1センテンスとして、センテンスI.D.が選択センテンスのセンテンスI.D.よりも2少ないセンテンスを識別する。メインテキストボディの第1パラグラフの第1センテンスを識別したので、テキストのメインボディに対するセンテンス位置とパラグラフ番号を容易に決定することができ、これにより次々にドキュメントの全センテンスに対してロケーション特徴を容易に評価することができる。プセッサ11はステップ39へ分岐する。
【0033】
次に、ステップ33及び36へのエントリの作用を考察する。いずれかのステップへのエントリは、プロセッサ11がメインテキストボディの第1パラグラフをまだ発見していなかったことを示す。この両方のステップの間に、プロセッサ11は、選択された全ドキュメントが調べられたか否かを尋ねることにより、その第1パラグラフを探索し続けることができるか否かを決定する。全センテンスがまだ調べられていないという発見に対するプロセッサ11の応答は、2つのステップ間で異なる。その理由は、異なるイベントがステップ33とステップ36へのエントリを命令するからである。プロセッサ11は、選択センテンスがメインテキストボディの第1パラグラフの部分を形成すると思われない時はいつでも、いかなる理由であれステップ33へ分岐する。その結果として、ドキュメントがまだ調べられていないセンテンスを含む場合、プロセッサ11が重要視する事は、選択センテンスを含まない1パラグラフ中の最低長さの連続センテンスの集合を識別することである。従って、プロセッサ11はステップ28へ分岐して、センテンスカウンタを再び初期設定する。命令27の実行は、既に論じられた方法でなされる。反対に、ステップ36へのエントリは、選択センテンスが単一パラグラフにおいて最低長さの連続センテンスの集合の部分を形成し得ることを意味する。従って、ドキュメントが選択センテンスの後にセンテンスを含む時、プロセッサ11はステップ29へ分岐して選択センテンスと同一パラグラフ内で他の最低長さセンテンスを探索する。その地点からの命令27の実行は先に論じた方法で行う。
【0034】
プロセッサ11がステップ33か又は36の間に、全センテンスを調べたが、単一パラグラフにおいて終端句読点を有する3つの連続センテンスが見つけられなかったと決定する場合、プロセッサ11はステップ38へ進む。ステップ38の間にプロセッサ11はドキュメントの第1センテンスを、メインテキストボディの第1パラグラフの第1センテンスとして識別する。次にプロセッサ11はステップ39へ進む。
【0035】
直接的テーマ特徴の評価
必要に応じて、命令40の実行開始前に、コンピュータユーザは直接的テーマセンテンスとして選択されたセンテンスの数「Z」をデフォルト数(default number)から変更することができる。デフォルト数は任意のセンテンス数に設定され得る。ドキュメント走査検索が意図される実施の形態では、デフォルト数は10個のセンテンスに設定される。
【0036】
プロセッサ11は、トークン化された機械可読ドキュメントの入力に、ステップ42へ分岐することにより応答する。このステップに関しては、プロセッサ11はドキュメント内に含まれるターム(語)リストを、ドキュメントから1ワード(語)を選択することにより構築するように試み始める。それが成されると、プロセッサ11はステップ43へ分岐する。
【0037】
ステップ43の間に、プロセッサ11は選択ワードをストップワードのリストと比較する。本明細書で使用されるように、「ストップワード」とは主題的な意味を伝達せず、自然言語テキスト中に非常に頻繁に発生するワードである。ストップワードとして、大半の代名詞、前置詞、省略形、限定詞、及び動詞「to be 」の不定詞の活用形が分類される。ドキュメント内のストップワードは、ドキュメント用のワードトークンをストップワードのリストと比較することにより識別される。選択ワードがストップワードであれば、プロセッサ11はステップ47へ進む。反対に、選択ワードがストップワードでない場合、プロセッサ11はステップ44へ分岐する。
【0038】
ステップ44中、プロセッサ11は選択ワードをタームインデックス(ドキュメントのワードをそのタームの発生毎にロケーションと関係付けるデータ構造)の中に既に含まれているタームと比較する。選択ワードがまだインデックス中に含まれていなければ、プロセッサ11はステップ45に分岐して、選択ワードに対するタームインデックスにエントリを追加する。各タームインデックスエントリはターム自体と、そのタームがドキュメント中で何回発生したかを示すカウンタと、各タームが発生するセンテンスに対応するセンテンスI.D.とを含む。一方、選択ワードに関してインデックスエントリが既に存在する場合、プロセッサ11はステップ46へ分岐する。ステップ46の間に、プロセッサ11は選択ワードに対するタームインデックスエントリを検出し、タームカウント(計数)を増分し、選択ワードに対するセンテンスI.D.をインデックスエントリに加える。
【0039】
ステップ45又は46の間に、タームインデックスを選択ワードに応答して変更すると、プロセッサ11はステップ47へ進む。次に、プロセッサ11は、ドキュメント中の全ワードが既に調べられたか否かを決定する。調べられていなかった場合、プロセッサ11はタームインデックスを完了しない。それに応答して、プロセッサ11はステップ42へ戻り、記載した方法でタームリストを構築し続ける。一方、ドキュメントの全ワードが調べられていた場合、タームインデックスは完了して、プロセッサ11はそのアテンションを他のタスクに向けることができる。この場合、プロセッサ11はステップ50へ分岐する。
【0040】
ステップ47の実行の開始後でステップ50の実行前のステップ48の間に、プロセッサ11は主題的センテンスを選択する際に使用される主題的タームの数を決定する。「K」で示されるその数は、直接的テーマ(主題)センテンスとして選択されたセンテンスの数に基づいて、即ち「Z」に基づいて、決定される。一般的に、KはZよりも小さく、また1よりも大きくなるべきである。Zよりも小さなKを要求することにより、選択された主題的なセンテンス同士の間でテーマの幾らかの属性の共有(commonality) が保証される。好ましくは、Kは、下記式(3)により決定される。
【0041】
【数3】
Figure 0003759242
【0042】
Kの値及びステップ46中に生成されたタームカウントが与えられると、プロセッサ11はK個の主題的タームを選択する処理を開始する。ステップ50の間に、プロセッサ11は、タームインデックスのタームをそれらのカウント、即ちドキュメント中の各タームの発生総数、に従ってソートする。同じカウントを有する2つのタームは、好ましくはキャラクタが多い順にソートされ、キャラクタ数が同じ場合には、任意順序にソートされる。ソートされたタームインデックスを作成して、そのインデックスをメモリ中に格納すると、プロセッサ11はステップ52へ分岐する。ステップ52の間に、プロセッサ11はソートされたタームインデッスクからハイカウントを有するK個のタームを選択する。それが成されると、プロセッサ11はステップ54へ進む。
【0043】
ステップ54の間に、プロセッサ11はドキュメント中のK個の主題的タームの総発生数を計算する。「N」で示されたその数は、K個の主題的タームのカウントを総計することにより計算される。プロセッサ11はステップ56へ分岐する。
【0044】
主題的タームを選択してそれらのカウントが決定すると、プロセッサ11はドキュメントのセンテンスの主題的コンテントを評価し始める準備をする。ステップ56、58、60及び62の間に、プロセッサ11はK個の主題的タームのうちの少なくとも1個を含むセンテンスだけを考察する。これは、タームインデックスに含まれる情報が与えられると容易に行われる。プロセッサ11は、ソートされたタームインデックスのK個のハイスコアタームを調べることによりその処理を行う。ステップ56の間にts で示されるタームを選択した後、プロセッサ11はステップ58の間にts と関係する各センテンスI.D.を調べる。ts と関係する各センテンスI.D.に対して、プロセッサ11はそのセンテンスのスコアを増分する。好ましくは、各センテンスに対するスコアはδだけ増分され、ここでδは、下記式(4)により表される。
【0045】
【数4】
Figure 0003759242
【0046】
ステップ58の間に、センテンススコアはセンテンススコアリストを作成することによりトラックされ得る。プロセッサ11がセンテンスI.D.を選択する度に、センテンススコアリストは調べられ、リストがそのセンテンスI.D.を含んでいるか否かを見る。含んでいなければ、センテンスI.D.は、センテンススコアリストに加えられ、そのスコアは適切に増やされる。一方、センテンススコアリストが既に特定のセンテンスI.D.を含んでいる場合、センテンスと既に関係したスコアは、先に論じた方法で増分される。
【0047】
選択タームt2 と関係する全センテンスのスコアを増分した後、プロセッサ11はステップ60へ分岐する。ステップ60の間にプロセッサ11は全部の主題的タームが評価されたか否かを決定する。評価されてない場合、プロセッサ11はステップ56へ戻り、選択タームとして別の主題的タームを選択する。プロセッサ11は、主題的タームの全てが調べられるまで、ステップ56、58及び60を通って、既に記載したように分岐する。イベントが発生すると、プロセッサ11はステップ62へ分岐する。
【0048】
ステップ62の間にプロセッサ11は主題的センテンスとしてハイスコアを有するZ個のセンテンスを選択する。プロセッサ11はこの選択をセンテンススコアリストをスコアでソートすることにより行う。主題的センテンスを選択すると、ステップ62の間にプロセッサ11は、これらのセンテンスに対して直接的テーマ特徴を真に設定する。続くステップの間に、プロセッサ11はドキュメント内の他の全センテンスに対して直接テーマ特徴を偽に設定する。好ましくは各センテンスに対する直接テーマ特徴値は、センテンス構造と関係し、特徴確率の生成及び抄録センテンスの抽出を促進する。その後、プロセッサ11はステップ64へ分岐する。
【0049】
大文字特徴の評価
プロセッサ11は、機械可読形態のドキュメントが選択されてトークン化された後、ステップ80でドキュメントの大文字特徴の評価を開始する。ステップ80の間に、プロセッサ11はドキュメントからワードを選択する。次に、プロセッサ11はステップ82へ進み、許容可能な大文字ワードを識別する工程を開始する。ステップ82の間に、プロセッサ11は選択ワードがストップワードであるか否かを決定する。ストップワードは頭字語又は固有名詞と関係する可能性が低い。選択ワードがストップワードでない場合、プロセッサ11はステップ84へ進む。そのステップの間に、プロセッサ11は、選択ワードが大文字で始まるか否かを、そのASCII表現を調べることにより決定する。そのワードが大文字から始まる場合、選択ワードが固有名詞又は頭字語を表す可能性がある。プロセッサ11はステップ86へ分岐することによりこの確率に応答する。ステップ86の間に、プロッセッサ11は選択ワードがセンテンスの第1ワードであるか否かを決定する。選択ワードがセンテンスの第1ワードでなければ、選択ワードは固有名詞又は頭字語で有り得る。プロセッサ11はステップ88へ進んで、選択ワードにある最後の試験を施す。ステップ88の間にプロセッサ11は、選択ワードが1レターよりも多いレターを含むか否かを決定する。1レターよりも多いレターを含む場合、ステップ88の次のステップの間に、プロセッサ11は選択ワードを許容可能な大文字ワードとして処理する。
【0050】
ステップ90の間に、プロセッサ11は選択ワードが大文字リストにすでに載っているか否かを決定する。載っていなければ、ステップ92の間に、プロセッサ11は選択ワードを大文字リストに加えて、そのワードに対してカウントを1に設定する。一方、選択ワードが既に大文字リストにある場合、ステップ94の間に、プロセッサ11は大文字リスト上の選択ワードと関係するカウントを単に増やす。それが成されると、プロセッサ11はステップ96へ分岐して、ドキュメントのワードのその評価を続ける。プロセッサ11はステップ80、82、84、86、88、90、92、94及び96を、選択ドキュメントの全ワードが評価されるまで実行する。ドキュメントの全ワードが評価されると、プロセッサ11はステップ98へ進む。
【0051】
プロセッサ11は、ステップ98の間に選択ドキュメントの各センテンスをスコアする準備を始める。先ず、プロセッサ11はワードを大文字リスト中に、より多くのカウントを有するワードをより少ないカウントを有するワードよりも高いランクにランク付けする。プロセッサ11は頻度の低い大文字ワードをランクしない。ステップ100の間に、プロセッサ11は大文字リストのワードランキングを使用して「Total Upper(大文字総数)」で示される頻度の高い大文字ワードの発生総数を決定する。それを行うと、プロセッサ11は、ドキュメントの各センテンスを開始する用意をして、ステップ102へ分岐する。
【0052】
ステップ102の間に、プロセッサ11はセンテンスを選択してスコアする。次のステップの間に、プロセッサ11は選択センテンスを1度に1ワード調べる。先ず、ステップ104の間に、プロセッサ11はセンテンスに対してスコアを0に初期設定する。その後、ステップ106の間に、プロセッサ11は選択センテンスのワードの内の1つを選択する。プロセッサ11は、ステップ108の間に選択ワードが頻度の高い大文字ワードか否かを決定する。もしそうであれば、プロセッサ11はステップ110へ進む。ステップ110の間にプロセッサ11は選択センテンスのスコアを、選択された大文字ワードの頻度に比例する量だけ増分する。好ましくは、プロセッサ11はls だけセンテンススコアを増分し、ここでls は下記式(5)により表される。
【0053】
【数5】
Figure 0003759242
【0054】
次に、ステップ112及び114の間に、プロセッサ11は選択センテンスのスコアを、このスコアがドキュメント内の選択ワードの最初の発生である場合に、更に増やす。その後、プロセッサ11はステップ116へ進み、選択センテンスの各ワードが調べられるまで、ステップ106、108、110、112及び114を実行することにより選択センテンスのワードを調べ続ける。それが行われると、プロセッサ11はステップ118へ分岐する。ステップ118では、プロセッサ11はそのアテンションを出来るかぎりドキュメントの別のセンテンスのスコアリングに向ける。プロセッサ11はステップ102、104、106、108、110、112、114及び116を、選択ドキュメントの全センテンスがスコアされるまで実行する。それが行われると、プロセッサ11はステップ120へ分岐する。
【0055】
ステップ120の間に、プロセッサ11はセンテンススコアをランクする。センテンスのスコアは高くなるに従って、より高いランキングを有する。プロセッサ11はステップ122の間に、センテンスのこのランキングを使用して、大文字センテンスとして、ハイスコアセンテンスの部分集合を選択する。その後、ステップ124の間にプロッセッサ11は大文字センテンスに対して大文字特徴値を真に設定する。また、プロセッサ11は、ドキュメントの他の全てのセンテンスに対して大文字特徴を偽に設定する。
【0056】
特徴確率を生成するトレイニング方法
統計的アプローチを使用して、プロセッサ11は、特徴確率をトレイニングドキュメントのコーパス及び短い抄録の関連コーパスから各ドキュメントに対して1つ生成する。特徴確率の生成は各抄録センテンスの特徴を評価することを必要とする。幾つかの特徴値を抄録だけから決定すること又は正確に決定することはできない。更に、幾つかの特徴値は適切な抄録センテンスを用いても正確に決定されないこともある。その理由は、幾つかの抄録センテンスは元のセンテンスの連結や変更であるためである。従って、各抄録センテンスの特徴評価は、抄録の対応するドキュメント内で整合センテンスを識別する必要がある。これはトレイニング開始前になされなくてはならない。
【0057】
抄録センテンスとドキュメントセンテンスの整合
命令200の実行は、トレイニングドキュメントのコーパス及びそれらと対応する手作業で作成された抄録のコーパスの識別及び選択により開始され、それらは全て機械可読形態である。開始すると、プロセッサ11はステップ202へ進み、1つのドキュメントとそれに対応する抄録とを選択する。その後、ステップ204の間に、プロセッサ11は抄録センテンスを選択し、その抄録センテンスの整合を識別する。次に、プロセッサ11は元のセンテンスを選択し、選択ドキュメントセンテンスを選択抄録センテンスと比較する。次に、プロセッサ11はステップ208へ進み、選択ドキュメントセンテンスの評価を開始する前に追加のタスクを行う。ステップ208の間に、プロセッサ11は選択ドキュメントセンテンスに対してスコアを0に設定する。プロセッサ11はステップ210へ分岐する。
【0058】
ステップ210の間に、プロセッサ11は選択抄録センテンスのワードの内の1つを適切に選択し、それを選択抄録ワードwt とする。プロセッサ11は次にステップ212へ進み、選択抄録ワードを選択ドキュメントセンテンス内で探索する。選択ドキュメントセンテンスが選択抄録ワードを含まない場合、プロセッサ11はステップ248へ分岐する。一方、選択ドキュメントセンテンスが選択抄録ワードを含む場合、その最初の発生時に、プロセッサ11はステップ214へ進む。
【0059】
選択ドキュメントセンテンス内の選択抄録ワードの発見は、プロセッサ11が選択ドキュメントセンテンスのスコアを増やすことを意味する。プロセッサ11が単なる選択抄録の存在に対してスコアをどのくらい増やすかは、下記2つの式に対する答えに依存する;
1.選択抄録ワードはストップワードか?
2.これは選択抄録ワードの選択ドキュメントセンテンスにおける最初の発生か?
【0060】
ステップ214の間に、プロセッサ11は選択抄録ワードがストップワードであるか否かを決定することにより第1の問いに答える。もしもストップワードであれば、ステップ220の間にプロセッサ11は選択ドキュメントセンテンスに対してスコアを、幾分か、好ましくは1だけ増やす。次に、プロセッサ11はステップ234に進む。一方、選択抄録ワードがストップワードでない場合、プロセッサ11はステップ216へ分岐する。ステップ216の間に、増分されるべきスコアの量を提供する第2の問いについて考察する。プロセッサ11はステップ216の間に、選択抄録ワードの現在の発生が選択ドキュメントセンテンス内でのその最初の発生であるか否かを決定する。もし最初の発生であれば、プロセッサ11はステップ218の間にセンテンススコアを幾分、好ましくは3だけ増やす。その後、プロセッサ11はステップ230へ進む。一方、現在の発生が、選択ドキュメントセンテンス内での選択抄録ワードの最初の発生でない場合、プロセッサ11はステップ217の間に、ステップ218の量よりも少ない幾らかの量、好ましくは1だけセンテンススコアを増やす。プロセッサ11は次にステップ230へ進む。
【0061】
ステップ230の間に、プロセッサ11は、選択センテンス内において、選択抄録ワードの大文字使用(capitalization)が選択抄録センンテンス内のその大文字使用と整合するか否かを決定する。整合する場合には、プロセッサ11はステップ232へ進み、選択ドキュメントセンテンスに対してスコアを、幾分、好ましくは3だけ増やす。その後、プロセッサ11はステップ234へ分岐する。プロセッサ11は、選択抄録ワードの大文字使用が選択抄録センテンス及び選択ドキュメントセンテンス内の大文字使用と同一でない時、ステップ234へ直接進む。
【0062】
ステップ234の間に、プロセッサ11は、ワード順(オーダー)を、選択抄録センテンスと選択ドキュメントセンテンスとの間の類似性のインジケータとして考察する。プロッセッサ11は、選択抄録ワードが、既に選択された抄録ワードwt-1 の発生に次いで、選択ドキュメントセンテンス内で発生するか否かを決定する。wt がそのwt-1 での発生後に選択ドキュメントセンテンス内で発生しない場合、プロセッサ11は選択ドキュメントセンテンスのスコアを、選択ドキュメントセンテンス内の選択抄録ワードの現在の発生に基づいてそれ以上増やさない。既に選択された抄録ワードが現在選択された抄録ワードよりも選択ドキュメントセンテンス内で先に生じない時、プロセッサ11はステップ234を出る。選択抄録ワードに基づいて、選択ドキュメントセンテンスのスコアリングは終了する。それに応答して、プロセッサ11はステップ248へ進む。一方、選択抄録ワードが、既に選択された抄録ワードの後で選択ドキュメントセンテンス内に生じる場合、選択抄録ワードの現在の発生に基づく選択ドキュメントセンテンスのスコアに対する更なる増加は、正当であると認められる。その場合、プロセッサ11はステップ236へ進む。
【0063】
ステップ236の間に、プロセッサ11は選択ドキュメントセンテンスを幾分か増やし、ワードオーダー試験を満足させる。次に、プロセッサ11はステップ238へ進み、更なる増加が容認されるか否かを調べる。
【0064】
選択抄録ワードがストップワードである場合、プロセッサ11はスコアの更なる増加は容認されないと見なす。その理由は、ストップワードは選択ドキュメントセンテンス及び選択抄録センテンスとの共通のコンテントを示していないからである。選択抄録ワードがストップワードであることを発見すると、プロセッサ11はステップ248へ進む。逆に言えば、選択抄録ワードがストップワードでない時に、プロセッサ11は選択ドキュメントセンテンスのスコアに対する更なる増加が容認されるとみなす。このシチュエーション(状況)では、プロセッサ11はステップ240へ分岐して、どのくらい多くの増加がなされれるべきかを決定する。そのステップの間に、プロセッサ11は選択ドキュメントセンテンス中の選択抄録ワードの現在の発生が第1の発生であるか否かを決定する。もし第1の発生であれば、プロセッサ11はステップ242へ進み、幾分かスコアを増加する。その後、プロセッサ11はステップ248へ進む。一方、選択抄録ワードの現在の発生が、第1発生でない場合、プロセッサ11はステップ244へ分岐する。ステップ244の間に、プロセッサ11は幾分かスコアを増す。その後、プロセッサ11はステップ248へ進む。
【0065】
ステップ248の間に、プロセッサ11は選択抄録センテンスに関して選択ドキュメントセンテンスをスコアすることを終えたか否かを決定する。プロセッサ11がまだ選択抄録センテンスの境界に出会わない場合、選択ドキュメントセンテンスのスコアリングは完成していない。プロセッサ11はステップ210に分岐することによりこのシチュエーションに応答する。ステップ248では、プロセッサ11は選択抄録センテンスの別のワードを選択することより、その選択ドキュメントセンテンスのスコアリングを続ける。やがてステップ248の間に、プロセッサ11はプロセッサ11が選択ドキュメントセンテンス内の選択抄録センテンスの各ワードに対して探索したことを発見する。これは、選択抄録センテンスに関して選択ドキュメントセンテンスのスコアリングの完成を示す。それが生じると、プロセッサ11はステップ249へ分岐する。
【0066】
プロセッサ11はステップ249の間に、選択抄録センテンスに関して元のセンテンスのスコアリングを完成したか否かを決定する。完成していなければ、プロセッサ11はステップ206へ戻り、選択ドキュメントセンテンスとして別の元のセンテンスを示す。スコアリングは先に論じられたようになされる。一度、全ドキュメントセンテンスがスコアされると、プロセッサ11は抄録センテンスと整合するドキュメントセンテンスを選択することができる。そうするために、プロセッサ11はステップ250へ分岐する。
【0067】
プロセッサ11は、ステップ250の間に、ドキュメントの元のセンテンスの部分集合を、選択抄録センテンスに対して整合しうるものとして選択する。プロセッサ11は、選択抄録センテンスに関してハイスコアを有する元のセンテンスに基づいて部分集合を選択する。好ましくは、プロセッサ11は1つよりも多い元のセンテンスを可能な整合として示す。その理由は、ハイスコアリングセンテンスが選択抄録センテンスに良好に整合しないという確率が存在するからである。
【0068】
整合し得るセンテンスの部分集合を選択すると、プロセッサ11は250を出て、ステップ260へ進む。
【0069】
ステップ260の間に、プロセッサ11は抄録の各センテンスに整合する元のセンテンスを選択したか否かを決定する。選択していなければ、プロセッサ11はステップ204へ戻り、選択抄録の別の抄録センテンスに整合する元のセンテンスを識別する方法を開始する。一方、もしも整合が選択抄録の全センテンスに対して見つけられた場合、プロセッサ11はステップ262へ進む。プロセッサ11はステップ262の間に、コーパスの全抄録に整合するセンテンスを見つけたか否かを決定する。みつけていなければ、プロセッサ11は、ステップ202へ戻るように分岐し、トレイニングコーパスに別のドキュメント抄録対に関して再び処理を開始する。一方、全体のコーパスに対して整合が識別されると、プロセッサ11はステップ264へ進み、その現行タスクを完成する。
【0070】
各抄録センテンスに整合し得る多数のセンテンスが命令200を用いて識別されると、整合ドキュメントセンテンスを手作業により選択することができる、また手作業により選択することが好ましい。整合するドキュメントセンテンスの最終的な手作業による選択は、以下2つの理由のために望ましい。先ず第1に、手作業による選択により、整合しないドキュメントセンテンスが存在する抄録センテンスを識別することができるからである。抄録センテンスは、抄録作成のエキスパート(熟練者)により構成されたので、整合するドキュメントセンテンスを有していないこともあり得るからである。第2に、手作業による整合センテンスの選択は、抄録センテンスが2つの結合されたドキュメントセンテンスから作られたものである時に有用であり、そのうちの1つだけが整合センテンスとして示される。
【0071】
特徴確率の生成トレイニング
トレイニングは、後で使用されエキスパートが抄録のために選択し得るのと同じセンテンスの集合をドキュメントから自動的に抽出する特徴確率を決定する。トレイニングは特徴集合及び整合したトレイニングコーパスを必要とする。これらの事前要求が与えられると、トレイニング中にプロセッサ11は、各特徴をトレイニング集合内の各センテンスに対して個々に評価して、各特徴が、抄録センテンスと整合するセンテンス内及び全センテンス内で取り得る値の各々を取る回数を計数する。プロセッサ11はこれらのカウントを使用して、下記2種類の確率を決定する。
1.特徴jの値を抄録Sに含まれるセンテンスs中で観察する確率、P(Fj |s∈S)。
2.特徴jが観察された値を取る確率、P(Fj )。
【0072】
プロセッサ11はステップ301を用いて命令300の実行を開始する。そのステップの間に、プロセッサ11は、コーパスのドキュメントを選択ドキュメントDS として示す。次のステップの間に、プロセッサ11は抄録センテンスと整合するドキュメントセンテンスを含むDS の全センテンスに対して特徴の値を決定する。それが成されると、プロセッサ11はステップ302へ進み、特徴を選択し、その選択特徴FS を評価する。下記論議は、各特徴に対して値を別個に評価するとするが、一方、適切なデータ構造が与えられれば、全特徴に対して値を同時に評価することができる。特徴値を決定する両方の方法は、本発明と一致する。プロセッサ11はステップ304へ分岐する。
【0073】
ステップ304の間に、プロセッサ11は選択ドキュメントからセンテンスを選択し、そのセンテンスに対して選択特徴の値を決定する。プロセッサ11は、その値を選択センテンスと関係付ける。次に、プロセッサ11はステップ306の間に、選択特徴に対する値が選択ドキュメントの全センテンスに対して決定されたか否かを決定する。プロセッサ11は、選択特徴の値が選択ドキュメントの全センテンスに対して決定されるまで、ステップ304へ戻るように分岐する。全センテンスが評価されると、プロセッサ11はステップ308へ進む。
【0074】
ステップ308の間に、プロセッサ11は選択特徴がドキュメント内の全センテンスに対してその可能な値の各々を取る回数を決定する。例えば、Fs が真及び偽の値だけを取る特徴である場合、プロセッサ11はFs が真tである選択ドキュメント内のセンテンスの数、及びFs が偽fである回数を決定する。これらの量を概略的に「DocNFV」で示し、それは、単一ドキュメント内で特徴Fが特定の値Vを取る回数Nを表す。従って、選択特徴が2つの値、即ち真及び偽を取り得る場合、ステップ308の間に、プロセッサ11は2つの量をDocNFT及びDocNFFを計算する。ステップ308の間に、プロセッサ11はドキュメントに対する値をトレイニングコーパスに対する移動総数(running totals)に加え、これはTotalDocNFVとして概略的に示される。次に、プロセッサ11はステップ310へ進み同様のタスクを実行する。
【0075】
ステップ310の間に、プロセッサ11はFS がその可能値の各々を、DS が整合する元のセンテンス内で取る回数を決定する。これらの量を概略的に「MatchNFV」として表す。次に、この特定のドキュメントに対する値は、「TotalMatchNFV」で示される移動総数に加えられる。選択特徴の評価が完了すると、プロセッサ11はステップ312に進む。
【0076】
プロセッサ11は、ステップ312の間に、選択ドキュメントに対して全特徴を決定したか否かを決定する。プロセッサ11がまだ全特徴を評価していなかった場合、プロセッサ11はステップ302へ戻る。次に、プロセッサ11は、各特徴に対して特徴値が決定されるまで、ステップ302、304、306、308、310及び312を上記記載した方法で実行する。
【0077】
プロセッサ11は、ステップ314の間に特徴値がトレイニングコーパス内の全ドキュメントに対して計算されたか否かを決定する。計算されていなければ、プロセッサ11はステップ301へ戻り、全特徴値がトレイニングコーパス内の全ドキュメントに対して計算されるまで、ステップ301、302、304、306、308、310、312及び314を記載した方法で実行する。それが行われると、プロセッサ11は特徴確率を計算する準備ができ、ステップ316へ進む。
【0078】
特徴確率の計算は、使用される特徴の選択集合から1つの特徴を選択することによりステップ316において始まる。次に、ステップ318の間に、プロセッサ11は選択特徴の各値に関係する可能性を計算する。プロセッサ11は、整合センテンスが特定の特徴値TotalMatchFVを取った総回数を、トレイニングコーパス内のセンテンスがその同じ特徴値TotalDocFVを取った総回数で割ることにより前記可能性を計算する。ステップ318の間に特徴に対して計算された確率の数は、特徴が取ることができる数となる。選択特徴と関係する全確率を計算後、プロセッサ11はステップ320へ分岐する。
【0079】
プロセッサ11は、ステップ320の間に、特徴全部に対して確率を計算したか否かを決定する。計算されていなければ、プロセッサ11はステップ316へ戻り、全特徴確率が計算されるまでステップ316、318及び320を繰り返す。それが行われると、プロセッサ11はステップ324へ分岐して、トレイニングを完了する。次にプロセッサ11はこれらの特徴確率を使用して、手作業により作成された抄録に匹敵する品質のドキュメント抄録を自動的に作成することができる。
【0080】
抄録センテンスの自動抽出方法
図11は、フロー図形態で、プロセッサ11により使用される命令350を示し、エキスパートがドキュメントから抽出するかもしれないセンテンスと同じセンテンスの集合を自動的に抽出する。
【0081】
簡潔に記載すると、命令350は機械可読ドキュメントからセンテンススコアに基づいて抽出されるセンテンスの選択を指示し、センテンススコアは、各センテンスに対して個々に評価された各特徴により提供された確率の積である。ドキュメントの各センテンスをスコアリング後、プロセッサ11はハイスコアリングセンテンスを抽出し、それらをドキュメントの抽出物としてコンピュータユーザに呈する。
【0082】
命令350の実行は、コンピュータユーザがドキュメントを抽出物が作成されるべき機械可読形態で示すと開始する。特定のドキュメントの選択に応答して、プロセッサ11はステップ352へ分岐してセンテンスを選択ドキュメントから選択する。その後、プロセッサ11はステップ354へ進み、選択センテンスに対するスコアを、ある非0の数、好ましくは1に初期設定する。次にプロセッサ11はステップ356へ分岐する。
【0083】
ステップ356に関しては、プロセッサ11は選択ドキュメントの抽出物に含まれる選択センテンスの適正を決定する工程を開始する。プロセッサ11はこの工程を、ステップ356の間に、特徴集合から評価用の特徴を選択することにより開始する。次に、プロセッサ11はステップ358の間に、選択センテンスに対して特徴の値を決定する。次に、プロセッサ11はステップ360へ進む。特徴値が与えられると、ステップ360の間に、プロセッサ11はその特徴値と関係する確率を探索(ルックアップ)する。次に、ステップ362の間に、プロセッサ11は選択センテンスに対してスコアを丁度探索された確率と比例する量だけ変更する。
【0084】
1つの特徴の評価を完了すると、プロセッサ11はステップ364の間に、選択センテンスに対して全特徴の全値が決定されたか否かを決定する。決定されていなければ、プロセッサ11は選択センテンスのそのスコアリングを完了しない。その場合、プロセッサ11はステップ356へ戻り、選択センテンスのスコアを調整して全特徴の値を反映するまで、ステップ356、358、360、362及び364を実行する。プロセッサ11が選択センテンスのスコアリングを完了すると、プロセッサ11はステップ366へ分岐する。
【0085】
ステップ366の間に、プロセッサ11は将来の参考のために選択センテンスに対して最終スコアを格納する。1センテンスのスコアリングを完了すると、プロセッサ11は、後続ステップ368の間に選択ドキュメントの各センテンスをスコアしたか否かを決定する。スコアしていなければ、プロセッサ11はステップ352へ戻り、評価のために選択ドキュメントから別のセンテンスを選択する。プロセッサ11は、選択ドキュメントの各センテンスに対して最終スコアを生成するまで、ステップ352、354、356、358、360、362、364、366及び368を実行する。プロセッサ11が全センテンスをスコアしたことを決定すると、プロセッサ11はステップ370へ進む。
【0086】
プロセッサ11はステップ370の間に、ハイスコアリングセンテンスの部分集合を選択して、ドキュメント抽出物を作成する。
【図面の簡単な説明】
【図1】本発明が適用可能なコンピュータシステムを示す。
【図2】ドキュメント内でテキストの開始箇所を検出する方法のフロー図である。
【図3】ドキュメントの主題の抄録の作成する方法のフロー図である。
【図4】ドキュメントの主題の抄録の作成する方法の図3から続くフロー図である。
【図5】大文字センテンスを識別する方法のフロー図である。
【図6】大文字センテンスを識別する方法の図5から続くフロー図である。
【図7】ドキュメント内でセンテンスを検出する方法のフロー図であり、そのセンテンスはそのドキュメントに関して手作業で作成された抄録内のセンテンスと整合する。
【図8】ドキュメント内でセンテンスを検出する方法の図7から続くフロー図であり、そのセンテンスはそのドキュメントに関して手作業で作成された抄録内のセンテンスと整合する。
【図9】コーパスを与えられる特徴確率を生成する方法のフロー図である。
【図10】コーパスを与えられる特徴確率を生成する方法の図9から続くフロー図である。
【図11】抽出物を自動的に生成する方法のフロー図である。

Claims (4)

  1. 自動的にドキュメントの抜粋を生成するために、機械可読形態であるドキュメントコーパス及び該ドキュメントコーパスのモデル抄録である抄録コーパスからドキュメントの特徴確率を自動的に生成するコンピュータシステムにおいて、前記特徴確率を自動的に生成する方法であって、前記コンピュータシステムはメモリとプロセッサを含み、ドキュメントコーパスの各ドキュメントが複数のセンテンスを含み、前記複数のセンテンスが前記抄録コーパスのセンテンスと整合する複数の整合センテンスを含み、前記方法は、前記コンピュータシステムのプロセッサに、
    (a)選択ドキュメントとして前記ドキュメントコーパスのドキュメントを選択するステップと、
    (b)選択センテンスとして前記選択ドキュメントのセンテンスのうち1つを選択するステップと、
    (c)前記選択センテンスについて、特徴集合の各特徴の値を決定するステップであって、
    特徴集合は該センテンスが抜粋に抽出される可能性の高いセンテンスであるかどうかの判定に使用されるセンテンスの特徴の集合であり、前記特徴集合は、ドキュメントにおけるセンテンスの位置を示すロケーション特徴と、センテンスが大文字を使用するワードを有するかどうかを示す大文字特徴とを含み、
    ロケーション特徴は第1ロケーション値、第2ロケーション値、及び第3ロケーション値を有し、第1ロケーション値は選択センテンスが選択ドキュメントの開始部分内に含まれることを示し、第2ロケーション値は選択センテンスが選択ドキュメントの中間部分内に含まれることを示し、第3ロケーション値は選択センテンスが選択ドキュメントの終わり部分内に含まれることを示し、
    大文字特徴は第1大文字値及び第2大文字値を有し、第1大文字値は選択センテンスが複数の選択大文字フレーズを全く含まないことを示し、第2大文字値は選択センテンスが選択大文字フレーズのうち1つを含むことを示し、
    各特徴の値は各々トータルカウンタ値と整合カウンタ値を有する、ステップと、
    (d)選択センテンスにおいて各特徴が発生するごとにその特徴値のトータルカウンタ値を増分するステップと、
    (e)選択センテンスが複数の整合センテンスの1つである場合、選択センテンスにおいて各特徴が発生するごとにその特徴値の整合カウンタ値を増分するステップと、
    (f)選択ドキュメントの全センテンスが選択センテンスとして選択されていない場合、ステップ(b)乃至(e)を繰り返すステップと、
    (g)ドキュメントコーパスの全ドキュメントが選択ドキュメントとして選択されていない場合、ステップ(a)乃至(f)を繰り返すステップと、
    (h)各特徴の各値のトータルカウンタ値及び整合カウンタ値を用い、
    前記整合カウンタ値をトータルカウンタ値で除算すること
    により該特徴が発生する確率を決定するステップと、
    (i)ユーザに機械可読形態で示されたドキュメントについて、前記特徴集合及び各特徴値の確率を用いて抜粋を作成するステップと、
    実行させる、
    特徴確率自動生成方法。
  2. 前記特徴集合が更に直接テーマ特徴を含み、直接テーマ特徴は、選択センテンスが選択ドキュメントのテーマを表すことを示す第1値と、選択センテンスが選択ドキュメントのテーマを表さないことを示す第2値とを有する、請求項1に記載の特徴確率自動生成方法。
  3. 特徴集合が更にキューワード特徴を含み、キューワード特徴は、選択センテンスが選択ドキュメントを抄録することを示す第1の値と、選択センテンスが選択ドキュメントを抄録しないことを示す第2の値とを有する、請求項2に記載の特徴確率自動生成方法。
  4. 自動的にドキュメントの抜粋を生成するために、ドキュメントコーパス及び該ドキュメントコーパスから手作業で作成された抄録の抄録コーパスからドキュメントの特徴確率を自動的に作成するコンピュータシステムであって、各ドキュメントが複数のセンテンスを含み、前記複数のセンテンスが前記抄録コーパスのセンテンスと整合する複数の整合センテンスを含み、前記コンピュータシステムは、
    (a)メモリと、
    (b)プロセッサと、
    (c)メモリにより格納されるデータであって、該格納データが特徴確率を自動的に作成するためにアクセス可能であるデータと、
    を備え、
    前記プロセッサが、
    (a)選択ドキュメントとして前記ドキュメントコーパスのドキュメントを選択するステップと、
    (b)選択センテンスとして前記選択ドキュメントのセンテンスのうち1つを選択するステップと、
    (c)前記選択センテンスについて、特徴集合の各特徴の値を決定するステップであって、
    特徴集合は該センテンスが抜粋に抽出される可能性の高いセンテンスであるかどうかの判定に使用されるセンテンスの特徴の集合であり、前記特徴集合は、ドキュメントにおけるセンテンスの位置を示すロケーション特徴と、センテンスが大文字を使用するワードを有するかどうかを示す大文字特徴とを含み、
    ロケーション特徴は第1ロケーション値、第2ロケーション値、及び第3ロケーション値を有し、第1ロケーション値は選択センテンスが選択ドキュメントの開始部分内に含まれることを示し、第2ロケーション値は選択センテンスが選択ドキュメントの中間部分内に含まれることを示し、第3ロケーション値は選択センテンスが選択ドキュメントの終わり部分内に含まれることを示し、
    大文字特徴は第1大文字値及び第2大文字値を有し、第1大文字値は選択センテンスが複数の選択大文字フレーズを全く含まないことを示し、第2大文字値は選択センテンスが選択大文字フレーズのうち1つを含むことを示し、
    各特徴の値は各々トータルカウンタ値と整合カウンタ値を有する、ステップと、
    (d)選択センテンスにおいて各特徴が発生するごとにその特徴値のトータルカウンタ値を増分するステップと、
    (e)選択センテンスが複数の整合センテンスの1つである場合、選択センテンスにおいて各特徴が発生するごとにその特徴値の整合カウンタ値を増分するステップと、
    (f)選択ドキュメントの全センテンスが選択センテンスとして選択されていない場合、ステップ(b)乃至(e)を繰り返すステップと、
    (g)ドキュメントコーパスの全ドキュメントが選択ドキュメントとして選択されていない場合、ステップ(a)乃至(f)を繰り返すステップと、
    (h)各特徴の各値のトータルカウンタ値及び整合カウンタ値を用い、
    前記整合カウンタ値をトータルカウンタ値で除算すること
    により該特徴が発生する確率を決定するステップと、
    コンピュータシステムに実行させる、コンピュータシステム。
JP18013696A 1995-06-28 1996-06-20 特徴確率自動生成方法及びシステム Expired - Lifetime JP3759242B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US495865 1990-03-19
US08/495,865 US5778397A (en) 1995-06-28 1995-06-28 Automatic method of generating feature probabilities for automatic extracting summarization

Publications (2)

Publication Number Publication Date
JPH0916631A JPH0916631A (ja) 1997-01-17
JP3759242B2 true JP3759242B2 (ja) 2006-03-22

Family

ID=23970297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18013696A Expired - Lifetime JP3759242B2 (ja) 1995-06-28 1996-06-20 特徴確率自動生成方法及びシステム

Country Status (4)

Country Link
US (1) US5778397A (ja)
EP (1) EP0751470B1 (ja)
JP (1) JP3759242B2 (ja)
DE (1) DE69618089T2 (ja)

Families Citing this family (139)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US6112201A (en) * 1995-08-29 2000-08-29 Oracle Corporation Virtual bookshelf
US5924108A (en) * 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
US7051024B2 (en) * 1999-04-08 2006-05-23 Microsoft Corporation Document summarizer for word processors
US5918236A (en) * 1996-06-28 1999-06-29 Oracle Corporation Point of view gists and generic gists in a document browsing system
US5864863A (en) * 1996-08-09 1999-01-26 Digital Equipment Corporation Method for parsing, indexing and searching world-wide-web pages
US5832500A (en) * 1996-08-09 1998-11-03 Digital Equipment Corporation Method for searching an index
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
JP3270351B2 (ja) 1997-01-31 2002-04-02 株式会社東芝 電子化文書処理装置
US5960383A (en) * 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
EP0968478A1 (de) 1997-03-18 2000-01-05 Siemens Aktiengesellschaft Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner
JP3001047B2 (ja) * 1997-04-17 2000-01-17 日本電気株式会社 文書要約装置
US5963969A (en) * 1997-05-08 1999-10-05 William A. Tidwell Document abstraction system and method thereof
US5909510A (en) * 1997-05-19 1999-06-01 Xerox Corporation Method and apparatus for document classification from degraded images
US6098066A (en) * 1997-06-13 2000-08-01 Sun Microsystems, Inc. Method and apparatus for searching for documents stored within a document directory hierarchy
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US6088711A (en) * 1997-07-01 2000-07-11 Microsoft Corporation Method and system for defining and applying a style to a paragraph
US6009442A (en) * 1997-10-08 1999-12-28 Caere Corporation Computer-based document management system
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US6562077B2 (en) 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US6353824B1 (en) * 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
US7263659B2 (en) 1998-09-09 2007-08-28 Ricoh Company, Ltd. Paper-based interface for multimedia information
US7257589B1 (en) * 1997-12-22 2007-08-14 Ricoh Company, Ltd. Techniques for targeting information to users
US7954056B2 (en) 1997-12-22 2011-05-31 Ricoh Company, Ltd. Television-based visualization and navigation interface
US20080028292A1 (en) * 1997-12-22 2008-01-31 Ricoh Company, Ltd. Techniques to facilitate reading of a document
US7124093B1 (en) 1997-12-22 2006-10-17 Ricoh Company, Ltd. Method, system and computer code for content based web advertising
US7596755B2 (en) * 1997-12-22 2009-09-29 Ricoh Company, Ltd. Multimedia visualization and integration environment
JP4183311B2 (ja) * 1997-12-22 2008-11-19 株式会社リコー 文書の注釈方法、注釈装置および記録媒体
US6533822B2 (en) * 1998-01-30 2003-03-18 Xerox Corporation Creating summaries along with indicators, and automatically positioned tabs
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6598045B2 (en) * 1998-04-07 2003-07-22 Intel Corporation System and method for piecemeal relevance evaluation
US6178417B1 (en) * 1998-06-29 2001-01-23 Xerox Corporation Method and means of matching documents based on text genre
US7197451B1 (en) * 1998-07-02 2007-03-27 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US7152031B1 (en) * 2000-02-25 2006-12-19 Novell, Inc. Construction, manipulation, and comparison of a multi-dimensional semantic space
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
US6582475B2 (en) 1998-09-09 2003-06-24 Ricoh Company Limited Automatic adaptive document printing help system
US7263671B2 (en) * 1998-09-09 2007-08-28 Ricoh Company, Ltd. Techniques for annotating multimedia information
US7266782B2 (en) * 1998-09-09 2007-09-04 Ricoh Company, Ltd. Techniques for generating a coversheet for a paper-based interface for multimedia information
US7215436B2 (en) * 1998-09-09 2007-05-08 Ricoh Company, Ltd. Device for generating a multimedia paper document
US6369811B1 (en) 1998-09-09 2002-04-09 Ricoh Company Limited Automatic adaptive document help for paper documents
US6598046B1 (en) * 1998-09-29 2003-07-22 Qwest Communications International Inc. System and method for retrieving documents responsive to a given user's role and scenario
US6715130B1 (en) * 1998-10-05 2004-03-30 Lockheed Martin Corporation Software requirements metrics and evaluation process
US6317708B1 (en) 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
US7366711B1 (en) * 1999-02-19 2008-04-29 The Trustees Of Columbia University In The City Of New York Multi-document summarization system and method
AU778394B2 (en) * 1999-02-19 2004-12-02 Trustees Of Columbia University In The City Of New York, The Cut and paste document summarization system and method
IL144951A0 (en) * 1999-02-19 2002-06-30 Univ Columbia Multi-document summarization system and method
US6310633B1 (en) * 1999-03-23 2001-10-30 Ricoh Company Limited Method and system for organizing document information
US6647534B1 (en) 1999-06-30 2003-11-11 Ricoh Company Limited Method and system for organizing document information in a non-directed arrangement of documents
US7228492B1 (en) 1999-07-06 2007-06-05 Ricoh Company, Ltd. 2D graph displaying document locations of user-specified concept of interest
US7162413B1 (en) * 1999-07-09 2007-01-09 International Business Machines Corporation Rule induction for summarizing documents in a classified document collection
US6766287B1 (en) 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
EP1128278B1 (en) * 2000-02-23 2003-09-17 SER Solutions, Inc Method and apparatus for processing electronic documents
US6581057B1 (en) 2000-05-09 2003-06-17 Justsystem Corporation Method and apparatus for rapidly producing document summaries and document browsing aids
US6941513B2 (en) 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
US7389225B1 (en) 2000-10-18 2008-06-17 Novell, Inc. Method and mechanism for superpositioning state vectors in a semantic abstract
US7672952B2 (en) * 2000-07-13 2010-03-02 Novell, Inc. System and method of semantic correlation of rich content
US7286977B1 (en) * 2000-09-05 2007-10-23 Novell, Inc. Intentional-stance characterization of a general content stream or repository
US7653530B2 (en) * 2000-07-13 2010-01-26 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US6714941B1 (en) 2000-07-19 2004-03-30 University Of Southern California Learning data prototypes for information extraction
US7702541B2 (en) * 2000-08-01 2010-04-20 Yahoo! Inc. Targeted e-commerce system
US7464086B2 (en) 2000-08-01 2008-12-09 Yahoo! Inc. Metatag-based datamining
US20100122312A1 (en) * 2008-11-07 2010-05-13 Novell, Inc. Predictive service systems
US7177922B1 (en) 2000-09-05 2007-02-13 Novell, Inc. Policy enforcement using the semantic characterization of traffic
US20090234718A1 (en) * 2000-09-05 2009-09-17 Novell, Inc. Predictive service systems using emotion detection
US7398196B1 (en) 2000-09-07 2008-07-08 Intel Corporation Method and apparatus for summarizing multiple documents using a subsumption model
JP4299963B2 (ja) * 2000-10-02 2009-07-22 ヒューレット・パッカード・カンパニー 意味的まとまりに基づいて文書を分割する装置および方法
CA2436740A1 (en) 2001-01-23 2002-08-01 Educational Testing Service Methods for automated essay analysis
JP2002283301A (ja) * 2001-03-26 2002-10-03 Makita Corp 際切りマルノコ
US6900361B2 (en) * 2001-05-08 2005-05-31 Battelle Memorial Institute Process for lactose conversion to polyols
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
US6925433B2 (en) * 2001-05-09 2005-08-02 International Business Machines Corporation System and method for context-dependent probabilistic modeling of words and documents
US7062498B2 (en) * 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
US7703044B2 (en) * 2001-11-19 2010-04-20 Ricoh Company, Ltd. Techniques for generating a static representation for time-based media information
US8635531B2 (en) * 2002-02-21 2014-01-21 Ricoh Company, Ltd. Techniques for displaying information stored in multiple multimedia documents
US7861169B2 (en) 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US7149957B2 (en) 2001-11-19 2006-12-12 Ricoh Company, Ltd. Techniques for retrieving multimedia information using a paper-based interface
US8539344B2 (en) 2001-11-19 2013-09-17 Ricoh Company, Ltd. Paper-based interface for multimedia information stored by multiple multimedia documents
US7747655B2 (en) 2001-11-19 2010-06-29 Ricoh Co. Ltd. Printable representations for time-based media
US7495795B2 (en) * 2002-02-21 2009-02-24 Ricoh Company, Ltd. Interface for printing multimedia information
US7788080B2 (en) * 2001-11-19 2010-08-31 Ricoh Company, Ltd. Paper interface for simulation environments
US7743347B2 (en) 2001-11-19 2010-06-22 Ricoh Company, Ltd. Paper-based interface for specifying ranges
US7127208B2 (en) 2002-01-23 2006-10-24 Educational Testing Service Automated annotation
JP3682529B2 (ja) * 2002-01-31 2005-08-10 独立行政法人情報通信研究機構 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
US8370761B2 (en) * 2002-02-21 2013-02-05 Xerox Corporation Methods and systems for interactive classification of objects
US7549114B2 (en) 2002-02-21 2009-06-16 Xerox Corporation Methods and systems for incrementally changing text representation
US7650562B2 (en) * 2002-02-21 2010-01-19 Xerox Corporation Methods and systems for incrementally changing text representation
US7228507B2 (en) 2002-02-21 2007-06-05 Xerox Corporation Methods and systems for navigating a workspace
US7487462B2 (en) 2002-02-21 2009-02-03 Xerox Corporation Methods and systems for indicating invisible contents of workspace
JP2003248676A (ja) * 2002-02-22 2003-09-05 Communication Research Laboratory 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
JP3624186B2 (ja) * 2002-03-15 2005-03-02 Tdk株式会社 スイッチング電源装置用の制御回路及びこれを用いたスイッチング電源装置
US7406458B1 (en) * 2002-09-17 2008-07-29 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
US9280603B2 (en) 2002-09-17 2016-03-08 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
US7376893B2 (en) * 2002-12-16 2008-05-20 Palo Alto Research Center Incorporated Systems and methods for sentence based interactive topic-based text summarization
US7451395B2 (en) * 2002-12-16 2008-11-11 Palo Alto Research Center Incorporated Systems and methods for interactive topic-based text summarization
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US7292972B2 (en) * 2003-01-30 2007-11-06 Hewlett-Packard Development Company, L.P. System and method for combining text summarizations
US7552381B2 (en) * 2003-03-31 2009-06-23 Ricoh Co., Ltd. Check boxes for identifying and processing stored documents
US7509569B2 (en) 2003-03-31 2009-03-24 Ricoh Co., Ltd. Action stickers for nested collections
US7703002B2 (en) 2003-03-31 2010-04-20 Ricoh Company, Ltd. Method and apparatus for composing multimedia documents
US7757162B2 (en) * 2003-03-31 2010-07-13 Ricoh Co. Ltd. Document collection manipulation
US20070050696A1 (en) * 2003-03-31 2007-03-01 Piersol Kurt W Physical key for accessing a securely stored digital document
US7739583B2 (en) * 2003-03-31 2010-06-15 Ricoh Company, Ltd. Multimedia document sharing method and apparatus
US7536638B2 (en) * 2003-03-31 2009-05-19 Ricoh Co., Ltd. Action stickers for identifying and processing stored documents
US20040230415A1 (en) * 2003-05-12 2004-11-18 Stefan Riezler Systems and methods for grammatical text condensation
US7363214B2 (en) * 2003-08-08 2008-04-22 Cnet Networks, Inc. System and method for determining quality of written product reviews in an automated manner
US7275159B2 (en) 2003-08-11 2007-09-25 Ricoh Company, Ltd. Multimedia output device having embedded encryption functionality
JP4995072B2 (ja) * 2003-12-31 2012-08-08 トムソン ルーターズ グローバル リソーシーズ 判例と訴訟事件摘要書、訴訟文書、および/または他の訴訟立証文書とを統合するためのシステム、方法、ソフトウェア、およびインターフェース
US20070162272A1 (en) * 2004-01-16 2007-07-12 Nec Corporation Text-processing method, program, program recording medium, and device thereof
US7779355B1 (en) 2004-03-30 2010-08-17 Ricoh Company, Ltd. Techniques for using paper documents as media templates
US20060020448A1 (en) * 2004-07-21 2006-01-26 Microsoft Corporation Method and apparatus for capitalizing text using maximum entropy
US7860314B2 (en) * 2004-07-21 2010-12-28 Microsoft Corporation Adaptation of exponential models
US7389299B2 (en) * 2004-09-02 2008-06-17 International Business Machines Corporation Document content analysis technology for reducing cognitive load
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
US8375026B1 (en) 2006-01-13 2013-02-12 CareerBuilder, LLC Method and system for matching data sets of non-standard formats
US8090725B1 (en) 2006-01-13 2012-01-03 CareerBuilder, LLC Method and system for matching data sets of non-standard formats
US8103679B1 (en) * 2006-01-13 2012-01-24 CareerBuilder, LLC Method and system for matching data sets of non-standard formats
US7324389B2 (en) * 2006-03-24 2008-01-29 Sandisk Corporation Non-volatile memory with redundancy data buffered in remote buffer circuits
WO2007146100A2 (en) * 2006-06-07 2007-12-21 Cnet Networks, Inc. Evaluative information system and method
US7725442B2 (en) * 2007-02-06 2010-05-25 Microsoft Corporation Automatic evaluation of summaries
US9292601B2 (en) * 2008-01-09 2016-03-22 International Business Machines Corporation Determining a purpose of a document
US8074171B2 (en) * 2008-06-06 2011-12-06 International Business Machines Corporation System and method to provide warnings associated with natural language searches to determine intended actions and accidental omissions
US8301622B2 (en) * 2008-12-30 2012-10-30 Novell, Inc. Identity analysis and correlation
US8386475B2 (en) * 2008-12-30 2013-02-26 Novell, Inc. Attribution analysis and correlation
US8296297B2 (en) * 2008-12-30 2012-10-23 Novell, Inc. Content analysis and correlation
US7958109B2 (en) * 2009-02-06 2011-06-07 Yahoo! Inc. Intent driven search result rich abstracts
US8874529B2 (en) * 2009-03-16 2014-10-28 Bert A. Silich User-determinable method and system for manipulating and displaying textual and graphical information
US20100250479A1 (en) * 2009-03-31 2010-09-30 Novell, Inc. Intellectual property discovery and mapping systems and methods
US8554542B2 (en) * 2010-05-05 2013-10-08 Xerox Corporation Textual entailment method for linking text of an abstract to text in the main body of a document
US8457948B2 (en) * 2010-05-13 2013-06-04 Expedia, Inc. Systems and methods for automated content generation
US20110320478A1 (en) * 2010-06-29 2011-12-29 International Business Machines Corporation User management of electronic documents
US20120233112A1 (en) * 2011-03-10 2012-09-13 GM Global Technology Operations LLC Developing fault model from unstructured text documents
US8488916B2 (en) * 2011-07-22 2013-07-16 David S Terman Knowledge acquisition nexus for facilitating concept capture and promoting time on task
JP2017167433A (ja) * 2016-03-17 2017-09-21 株式会社東芝 サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
US10936796B2 (en) * 2019-05-01 2021-03-02 International Business Machines Corporation Enhanced text summarizer
US11061951B2 (en) * 2019-11-21 2021-07-13 International Business Machines Corporation Unsupervised attention based scientific document summarization
US10885436B1 (en) * 2020-05-07 2021-01-05 Google Llc Training text summarization neural networks with an extracted segments prediction objective

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
JPH0743717B2 (ja) * 1989-02-06 1995-05-15 株式会社テレマティーク国際研究所 抄録文作成装置
US5495349A (en) * 1990-01-13 1996-02-27 Canon Kabushiki Kaisha Color image processing apparatus that stores processing parameters by character data
JPH0418673A (ja) * 1990-05-11 1992-01-22 Hitachi Ltd テキスト情報抽出方法および装置
JP3691844B2 (ja) * 1990-05-21 2005-09-07 株式会社東芝 文書処理方法
CA2077274C (en) * 1991-11-19 1997-07-15 M. Margaret Withgott Method and apparatus for summarizing a document without document image decoding
US5384863A (en) * 1991-11-19 1995-01-24 Xerox Corporation Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding
CA2077604C (en) * 1991-11-19 1999-07-06 Todd A. Cass Method and apparatus for determining the frequency of words in a document without document image decoding
US5537586A (en) * 1992-04-30 1996-07-16 Individual, Inc. Enhanced apparatus and methods for retrieving and selecting profiled textural information records from a database of defined category structures
US5331556A (en) * 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme

Also Published As

Publication number Publication date
EP0751470A1 (en) 1997-01-02
US5778397A (en) 1998-07-07
DE69618089T2 (de) 2002-06-13
JPH0916631A (ja) 1997-01-17
DE69618089D1 (de) 2002-01-31
EP0751470B1 (en) 2001-12-19

Similar Documents

Publication Publication Date Title
JP3759242B2 (ja) 特徴確率自動生成方法及びシステム
JP2810650B2 (ja) 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及び装置
US6876998B2 (en) Method for cross-linguistic document retrieval
US7017114B2 (en) Automatic correlation method for generating summaries for text documents
JPH09153066A (ja) 文書検索装置
US8375033B2 (en) Information retrieval through identification of prominent notions
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
JPH03172966A (ja) 類似文書検索装置
Efat et al. Automated Bangla text summarization by sentence scoring and ranking
JP3198932B2 (ja) 文書検索装置
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
US6973423B1 (en) Article and method of automatically determining text genre using surface features of untagged texts
Pai Text summarizer using abstractive and extractive method
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JPH06208588A (ja) 文書検索方式
JP2007122525A (ja) 言い換え処理方法及び装置
JPH09297766A (ja) 類似文書検索装置
JP3369127B2 (ja) 形態素解析装置
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP3562243B2 (ja) 文書検索装置
JP3558854B2 (ja) データ検索装置及びコンピュータ読み取り可能な記録媒体
JP4281899B2 (ja) 質問文書要約装置、質問応答検索装置、質問文書要約プログラム
JPH09319766A (ja) 文書検索システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051228

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090113

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100113

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110113

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110113

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120113

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130113

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term