JP3001460B2 - 文書分類装置 - Google Patents

文書分類装置

Info

Publication number
JP3001460B2
JP3001460B2 JP9131071A JP13107197A JP3001460B2 JP 3001460 B2 JP3001460 B2 JP 3001460B2 JP 9131071 A JP9131071 A JP 9131071A JP 13107197 A JP13107197 A JP 13107197A JP 3001460 B2 JP3001460 B2 JP 3001460B2
Authority
JP
Japan
Prior art keywords
classification
keyword
document
attribute
vertical axis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP9131071A
Other languages
English (en)
Other versions
JPH10320411A (ja
Inventor
崇博 池田
明俊 奥村
尚良 落合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9131071A priority Critical patent/JP3001460B2/ja
Priority to US09/082,190 priority patent/US6243723B1/en
Publication of JPH10320411A publication Critical patent/JPH10320411A/ja
Application granted granted Critical
Publication of JP3001460B2 publication Critical patent/JP3001460B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大量の文書を、内
容が類似するものごとに分類する文書分類装置に関し、
特に、文書中から抽出したキーワードを利用して、文書
を自動的に分類する文書分類装置に関する。
【0002】
【従来の技術】ユーザーに対して情報を提供するサービ
スにおいては、提供する情報が多い場合に、ユーザーが
その中から適当な情報を選択することができるように、
情報を分類・整理してから提供する必要がある。例え
ば、インターネット・パソコン通信サービスで公開され
ている各種の文書や、グループで共有している文書、個
人で保持している文書等のさまざまな文書を対象とし
て、ユーザーが必要とする情報を提供するサービスは、
ユーザーに必要な情報の条件を入力させ、それに適合す
る文書を検索するという形態や、ユーザーが予め設定し
た条件に適合する新着情報を配信するという形態が存在
するが、検索結果としての文書や配信される文書が多い
場合には、ユーザーがすべてを読むことが困難である。
しかしながら、検索結果としての文書や配信される文書
を予め分類してからユーザーに提示することで、ユーザ
ーがその中から必要なものだけを選択して読むことがで
きるようになる。
【0003】複数の文書を複数の範疇に分類するシステ
ムとしては、従来より、各文書に予め人手で分類キーワ
ードを付与したり、各文書からキーワードを抽出したり
して、文書をキーワードで表現しておき、文書間でのキ
ーワードの一致性や類似性に従って分類を行うものが存
在している。
【0004】例えば、特開平8−153121号公報に
記載の文書情報分類方法及び文書情報分類装置では、文
書を形態素解析等の処理により単語に分割してキーワー
ドを抽出し、同一のキーワードを有する文書が同一の範
疇となるように分類を行っている。この従来例では、さ
らに、範疇どうしの類似性をその範疇が含む文書間の類
似性で判定し、複数の範疇の統合を行うことにより、最
終的に木構造の文書の分類体系を形成する。
【0005】一方、特開平6−282587号公報に記
載の文書の自動分類方法及び装置並びに分類用の辞書作
成方法及び装置では、キーワードを抽出する際に、その
キーワードの文章中における主語・目的語等の役割も抽
出しておき、単語としてのキーワードが同じでも、役割
が異なればキーワードと同一として扱わない方法を採っ
ている。この例では、最終的に、同一キーワード対が出
現する頻度の高い文書を同じ範疇にまとめ、1次元的な
分類を行っている。
【0006】また、特開平8−263514号公報に記
載の文書の自動分類方法、及び情報空間の可視化方法、
ならびに情報検索システムでは、各文書からキーワード
を抽出し、各文書におけるそのキーワードの出現頻度を
そのキーワードに対応する重みとして、各文書を各キー
ワードの重みを成分とするベクトルとして表現し、対応
するベクトルの類似するものどうしが近くのセルに集ま
るように、各文書を2次元のマトリックスに分類してい
る。マトリックスの2つの軸には特に意味はなく、双方
の軸を対等に扱っている。
【0007】一方、特開平8−320881号公報に記
載の文書検索システムにおいては、ユーザーが設定した
キーワードを分類キーとして、2次元のマトリックス状
に文書の分類を行っている。すなわち、マトリックス内
の各セルに、その行に対応する縦軸の分類キーとその列
に対応する横軸の分類キーの両方を含む文書が分類され
るようにしている。
【0008】
【発明が解決しようとする課題】従来例の文書分類装置
における第1の問題点は、分類軸が対象に即した意味の
あるものにならないことである。特開平8−15312
1号公報に記載の文書情報分類方法及び文書情報分類装
置や特開平6−282587号公報に記載の文書の自動
分類方法及び装置並びに分類用の辞書作成方法及び装置
では、類似文書どうしをまとめてボトムアップに体系化
しているが、この場合、最終的に、トップダウンの視点
から見たときに、意味のある分類軸に沿った分類になる
とは限らない。一方、特開平8−263514号公報に
記載の文書の自動分類方法、及び情報空間の可視化方
法、ならびに情報検索システムでは、2次元のマトリッ
クスへと文書を分類するが、縦軸、横軸に特別な意味が
ないため、ユーザーが分類結果を利用しにくくなる。ま
た、特開平8−320881号公報に記載の文書検索シ
ステムにおいては、ユーザーが選択したキーワードを用
いて分類を行っているが、ユーザー自身が対象に合わせ
て適切にキーワードを選択することは困難である。キー
ワードの選択が不適切な場合、同一の範疇に文書が集中
してしまう可能性がある。
【0009】従来例の文書分類装置における第2の問題
点は、対象に合わせて複数の分類軸を組み合わせられな
いことである。特開平8−153121号公報に記載の
文書情報分類方法及び文書情報分類装置や特開平6−2
82587号公報に記載の文書の自動分類方法及び装置
並びに分類用の辞書作成方法及び装置のような木構造の
体系に沿った分類では、複数の分類視点を組み合わせて
分類することはできない。一方、特開平8−26351
4号公報に記載の文書の自動分類方法、及び情報空間の
可視化方法、ならびに情報検索システムについても、分
類軸に意味があるわけではないので、複数軸の組み合わ
せにはなっていない。対象に合わせて複数の分類軸を組
み合わせられないと、複数の視点からの分類で、一方の
視点で分類構造が異なる場合の、他方の視点での文書の
分布の相違等を比較することが困難になる。特開平8−
320881号公報に記載の文書検索システムのよう
に、ユーザーが選択したキーワードを用いて2次元マト
リックス状に分類すると、複数視点からの分類が可能に
なるものの、縦軸のキーワードに対しユーザーが必ずし
も適当な組み合わせとなる横軸のキーワードを設定でき
ず、それら双方を含む文書が殆どない可能性があり、対
象にあった分類になるとは限らない。
【0010】
【課題を解決するための手段】本発明の第1の文書分類
装置は、入力文書から5W1H属性付きでキーワードを
抽出し、縦軸と横軸の分類項目としてそれぞれ指定され
た5W1H属性を持つキーワードを選択し、選択された
分類項目に従って2次元マトリックスへと文書を分類す
る。より具体的には、文書中から5W1H属性付きでキ
ーワードを抽出する5W1Hキーワード抽出装置(図1
の2)と、ユーザーが入力した縦軸用と横軸用の5W1
H属性を読み取る分類キー設定装置(図1の3)と、抽
出したキーワードから分類の縦軸の項目を選択する縦軸
用分類項目選択装置(図1の4)と、抽出したキーワー
ドから分類の横軸の項目を選択する横軸用分類項目選択
装置(図1の5)と、選択された分類項目に合わせて2
次元マトリックスの各セルに文書を分配する文書分配装
置(図1の6)とを有する。
【0011】文書分配装置は、縦軸用の分類項目を、横
軸用に選択された5W1H属性付きで含み、横軸用の分
類項目を、横軸用に選択された5W1H属性付きで含む
文書を、2次元マトリックスにおいて、その縦軸用の分
類項目に対応する行とその横軸用の分類項目に対応する
列の交点にあるセルに分配する。
【0012】本発明の第2の文書分類装置は、分類項目
として、文書から抽出したキーワードではなく、指定さ
れたレベルのその上位概念の単語を利用して文書を分類
する。より具体的には、ユーザーが入力した縦軸と横軸
の分類に用いる単語のレベルを読み取る分類レベル設定
装置(図4の8)と、単語をレベルに分けて、それらの
間の上位概念・下位概念の関係を保持する概念データベ
ース(図4の9)とを有する。
【0013】第2の文書分類装置においては、縦軸用分
類項目選択装置及び横軸用分類項目選択装置は、抽出さ
れたキーワードに対して、概念データベースにおいて、
分類レベル設定装置により指定されたレベルにある、そ
のキーワードの上位概念の単語を分類項目として選択す
る。また、文書分配装置は、縦軸用に指定されたレベル
における上位概念の単語として縦軸用の分類項目を持つ
キーワードを、縦軸用に選択された5W1H属性付きで
含み、横軸用に指定されたレベルにおける上位概念の単
語として横軸用の分類項目を持つキーワードを、横軸用
に選択された5W1H属性付きで含む文書を、2次元マ
トリックスにおいて、その縦軸用の分類項目に対応する
行とその横軸用の分類項目に対応する列の交点にあるセ
ルに分配する。
【0014】
【発明の実施の形態】本発明の第1の実施の形態につい
て、図面を参照して詳細に説明する。
【0015】図1を参照すると、本発明の第1の実施の
形態は、入力装置1と、5W1Hキーワード抽出装置2
と、分類キー設定装置3と、縦軸用分類項目選択装置4
と、横軸用分類項目選択装置5と、文書分配装置6と、
出力装置7とを含む。
【0016】分類対象の文書群は、入力装置1を通して
入力される。
【0017】5W1Hキーワード抽出装置2は、入力装
置1より入力された各文書から、5W1H属性付きでキ
ーワードを抽出する。5W1H属性とは、そのキーワー
ドが文書中で果たしている、Who(だれが)、Whe
n(いつ)、Where(どこで)、What(なに
を)、Why(なぜ)、How(どうした)という5W
1Hの何れかの役割のことである。例えば、「A社が商
品Xを発売した。」という文から、「A社」、「商品
X」、「発売」という3つのキーワードを抽出する場
合、「A社」の5W1H属性はWho、「商品X」の5
W1H属性はWhat、「発売」の5W1H属性はHo
wとする。抽出した5W1H属性付きキーワードは、縦
軸用分類項目選択装置4、及び、横軸用分類項目選択装
置5に送られる。
【0018】分類キー設定装置3は、分類の縦軸と横軸
にどの5W1H属性を使用するかをユーザーに選択させ
る。ユーザーからの入力を受け、選択された縦軸と横軸
の5W1H属性を、それぞれ、縦軸用分類項目選択装置
4と、横軸用分類項目選択装置5に送る。
【0019】縦軸用分類項目選択装置4は、分類キー設
定装置3により設定された縦軸用の5W1H属性に基づ
き、5W1Hキーワード抽出装置2により抽出した5W
1H属性付きキーワードから、分類の縦軸の項目として
用いるキーワードを選択する。
【0020】横軸用分類項目選択装置5は、分類キー設
定装置3により設定された横軸用の5W1H属性に基づ
き、5W1Hキーワード抽出装置2により抽出した5W
1H属性付きキーワードから、分類の横軸の項目として
用いるキーワードを選択する。
【0021】文書分配装置6は、縦軸用分類項目選択装
置4、及び、横軸用分類項目選択装置5によって選択さ
れたキーワードに合わせて、項目ごとに文書を分配す
る。文書は、2次元マトリックスの各セルに分配し、結
果を出力装置7を通して出力する。2次元マトリックス
の各行には、縦軸用分類項目選択装置4によって選択さ
れた各キーワードが対応し、マトリックスの各列には、
縦軸用分類項目選択装置5によって選択された各キーワ
ードが対応する。このとき、各セルに、その行に対応す
るキーワードを縦軸に対応する5W1H属性付きで含
み、且つ、その列に対応するキーワードを横軸に対応す
る5W1H属性付きで含む文書を分配する。マトリック
スの行のうち1行は、縦軸用分類項目選択装置4によっ
て選択されなかったキーワードすべてに対応するものと
し、それ以外の行に対応するどのキーワードも縦軸に対
応している5W1H属性付きでは含まない文書は、この
行のセルに分類する。ここでは、この行を「デフォルト
行」と呼ぶことにする。また、マトリックスの列のうち
1列は、横軸用分類項目選択装置5によって選択されな
かったキーワードすべてに対応するものとし、それ以外
の列に対応しているどのキーワードも縦軸に対応する5
W1H属性付きでは含まない文書は、この列のセルに分
類する。ここでは、この列を「デフォルト列」と呼ぶこ
とにする。このように、デフォルト行、及び、デフォル
ト列を用意することで、分配すべきセルがない文書をな
くすことができる。デフォルト行、及び、デフォルト列
を作らない形態も可能であるが、その場合、一部の文書
は、マトリックスには分配されないことになる。
【0022】図2は、本発明の文書分配装置6が文書を
分配する対象の2次元マトリックスの一例である。これ
は、分類キー設定装置3により、縦軸の5W1H属性と
してWhoが選択され、横軸の5W1HぞとしてWha
tが選択されているとき、縦軸用分類項目選択装置4に
よって「A社」・「B社」・「C大学」というキーワー
ドが選択され、横軸用分類項目選択装置5によって「製
品X」・「商品Y」・「装置Z」というキーワードが選
択された場合の例である。デフォルト行及びデフォルト
列に対応する項目は、項目名を「その他」と表記してい
る。この例では、例えば、5W1H属性がWhoの「A
社」というキーワードを含み、5W1H属性がWhat
「商品Y」というキーワードを含む文書は、セル12に
分配される。また、5W1H属性がWhoの「C大学」
というキーワードを含み、5W1H属性がWhatのキ
ーワードとして「製品X」・「商品Y」・「装置Z」の
いずれも含まない文書は、セル34に分配される。
【0023】出力装置7は、ディスプレイ装置や印刷装
置等の文書が分類された結果を出力するための装置であ
る。
【0024】次に、図1および図3を参照して、本発明
の第1の実施の形態の動作について説明する。
【0025】5W1Hキーワード抽出装置2は、まず、
入力装置1を介して、分類対象の文書を読み込み、文書
中の各文に対して形態素解析を行い、各文を単語に分
け、各単語の品詞を決定する(ステップA1)。次に、
各文からキーワードを抽出する(ステップA2)。キー
ワードの抽出処理は、例えば、各文から名詞と動詞等の
特定の品詞のみを抽出することによって行うことができ
る。つづいて、抽出したキーワードそれぞれに対して5
W1H属性を付与する(ステップA3)。各キーワード
に付与する5W1H属性は、文中でキーワードの後に続
く単語列やキーワード自身が含む文字、キーワード自身
の品詞等によって判別可能である。例えば、「が」が後
に続くキーワードの5W1H属性はWho、「月」ある
いは「日」等の日時を表す文字を含み、「に」が後に続
くキーワードの5W1H属性はWhen、「県」あるい
は「市」等の場所を表す文字を含み、「に」が後に続く
キーワードの5W1H属性はWhen、「を」が後に続
くキーワードの5W1H属性はWhat、「のため」が
後に続くキーワードの5W1H属性はWhy、品詞が動
詞であるキーワードの5W1H属性はHowなどとする
ことができる。このほかにも、組織名や地名を表す単語
等を前もって収集しておき、キーワードをそれらと照ら
し合わせて、組織名なら5W1H属性をWhoに、地名
なら5W1H属性をWhereにする等も可能である。
また、文書が発行された日をWhen属性のキーワード
として採用する等、文書の本文以外の文書に付けられて
いる属性を利用することもできる。
【0026】この後、分類キー設定装置3が、入力装置
1を介して、ユーザーが指定する、分類の縦軸と横軸に
使用する5W1H属性を読み込む(ステップA4)。
【0027】縦軸用分類項目選択装置4は、ステップA
4において分類キー設定装置3により設定された縦軸用
の5W1H属性に従い、ステップA1からA3において
5W1Hキーワード抽出装置2により抽出された5W1
H属性付きキーワードの中から、縦軸用の分類項目を選
択する(ステップA5)。この処理は、抽出された5W
1H属性付きキーワードの中から、縦軸用に選択された
5W1H属性を持つものを、出現頻度の高い順に選択す
ることで行う。選択する項目数は、予め定めておいても
よいが、すでに分類項目として選択したキーワードと同
じ5W1H属性付きで含む文書数が全文書数に対して一
定割合を超えるまで選択を続けるようにすることも可能
である。
【0028】ステップA5における分類項目の選択処理
では、単純に、全文書に対する出現頻度の高いキーワー
ドから順に選択することもできるが、すでに選択したキ
ーワードを、縦軸用の5W1H属性付きで含む文書を除
いた、それ以外の文書において出現頻度の高いキーワー
ドを順に選択することも可能である。この場合、選択さ
れたキーワードを含む文書の数が多くなるため、デフォ
ルト行のセルに分配される文書数を少なくすることがで
きる。
【0029】横軸用分類項目選択装置5は、ステップA
4において分類キー設定装置3により設定された横軸用
の5W1H属性に従い、ステップA1からA3において
5W1Hキーワード抽出装置2により抽出された5W1
H属性付きキーワードの中から、横軸用の分類項目を選
択する(ステップA6)。ステップA5において選択さ
れた縦軸用のキーワードを、縦軸用に選択された5W1
H属性つきで含む文書を縦軸キーワード対応文書と呼ぶ
ことにすると、ステップA6の処理は抽出された5W1
H属性付きキーワードで、横軸用に選択された5W1H
属性を持つもののうち、縦軸キーワード対応文書に出現
するものを、出現頻度の高い順に選択することで行う。
【0030】ステップA6における分類項目の選択処理
では、縦軸キーワード対応文書すべてに対する出現頻度
の高いキーワードから順に選択するほかに、当該文書か
ら、すでに選択したキーワードを横軸用の5W1H属性
付きで含む文書を除いたものに対する出現頻度の高いキ
ーワードを順に選択することが可能である。この場合、
選択されたキーワードを含む文書の数が多くなるため、
デフォルト行のセルに分配される文書数を少なくするこ
とができる。
【0031】文書分配装置6は、ステップA5において
選択された縦軸用のキーワードを、縦軸用に選択された
5W1H属性付きで含み、ステップA6において選択さ
れた横軸用のキーワードを、横軸用に選択された5W1
H属性付きで含む文書を、2次元マトリックスにおい
て、該縦軸用キーワードに対応する行と該横軸用キーワ
ードに対する列の交点にあるセルに分配する(ステップ
A7)。このとき、ステップA5において選択された縦
軸用のキーワードを、縦軸用に選択された5W1H属性
付きで含むが、ステップA6において選択された横軸用
のどのキーワードも、横軸用に選択された5W1H属性
付きでは含まない文書は、2次元マトリックスにおい
て、該縦軸用キーワードに対応する行とデフォルト列の
交点にあるセルに分配する。また、ステップA5におい
て選択された縦軸用のどのキーワードも、縦軸用に選択
された5W1H属性付きでは含まないが、ステップA6
において選択された横軸用のキーワードを、横軸用に選
択された5W1H属性付きで含む文書は、2次元マトリ
ックスにおいて、デフォルト行と該横軸用キーワードに
対応する列の交点にあるセルに分配する。
【0032】ステップA7における文書の分配処理が終
了すると、文書分配装置6は、出力装置7を通して、文
書が各セルに分配された2次元マトリックスを、表とし
て出力する(ステップA8)。出力する表の形式として
は、2次元マトリックスの各セルに文書そのものを埋め
込んで出力する基本的な形式以外にも、2次元マトリッ
クスの各セルには文書の表題のみを埋め込んて出力し、
文書本体へは表題からリンクを張っておく形式、2次元
マトリックスの各セルにはそのセルに分類された文書数
を埋め込んで出力し、文書の表題のみをリストアップし
たものに各セルからリンクを張っておき、文書本体へは
その表題からリンクを張っておく形式等がある。デフォ
ルト行やデフォルト列がない形態では、マトリックスの
どのセルにも分配されない文書が存在するが、この場
合、そのような文書を出力しない形態のほかに、表以外
に、分配されなかった文書をまとめて出力する形態をと
ることも可能である。
【0033】次に、本発明の第1の実施の形態の効果に
ついて説明する。
【0034】本発明の第1の実施の形態は、キーワード
を5W1H属性付きで抽出し、5W1Hの特定の属性を
軸として選んで文書を分類する。このため、ユーザーに
対して、意味のある視点からの文書の分類結果を提示で
きる。また、本実施の形態では、分類軸を2つ選び、2
次元のマトリックスへと文書を分類する。このため、ユ
ーザーが同時に複数の視点から分類結果を見ることがで
きる。さらに、本実施の形態では、横軸の分類項目とし
て、縦軸の分類項目のキーワードを含む文書中で出現頻
度の高いキーワードを選択している。このため、縦軸の
キーワードと無関係のキーワードが横軸のキーワードと
して選択されなくなる。また、本実施の形態では、分類
項目を選ぶ際に、分類対象の文書中で出現頻度の高いキ
ーワードを選んでいる。このため、分類対象の文書の傾
向を容易に把握できるようになる。
【0035】次に、本発明の第2の実施の形態について
図面を参照して詳細に説明する。
【0036】図4を参照すると、本発明の第2の実施の
形態は、図1に示された第1の実施の形態の構成に加
え、分類レベル設定装置8と概念データベース9を有す
る点で異なる。
【0037】分類レベル設定装置8は、分類の縦軸と横
軸において概念データベース9におけるどのレベルの語
を分類項目として用いるかをユーザーに選択させる。ユ
ーザーからの入力を受け、選択された縦軸と横軸の分類
レベルを、それぞれ、縦軸用分類項目選択装置4と、横
軸用分類項目選択装置5に送る。
【0038】概念データベース9は、キーワードになり
うる各種の単語に対して、その上位概念に対する単語を
格納しているデータベースである。例えば、A社・B社
・C社が、いずれも電機メーカーである場合、「A社」
・「B社」・「C社」の共通の上位概念として「電気メ
ーカー」という語が概念データベース9に格納される。
また、例えば、東京都・神奈川県・千葉県は、いずれも
関東地方の都県なので、「東京都」・「神奈川県」・
「千葉県」の共通の上位概念として「関東地方」という
語が概念データベース9に格納される。一般に、ある単
語の上位概念に当たる語に対して、さらにその上位概念
にあたる語が再帰的に存在しうるため、単語とその上位
概念にあたる語は、階層構造を成す。各階層には絶対的
なレベルを付与しておく。概念データベース9は、この
階層構造全体を格納しており、任意の単語に対して、指
定したレベルの上位概念の単語を検索することができる
形態をしている。
【0039】本発明の第2の実施の形態の動作を、図面
を参照して詳細に説明する。
【0040】図5のステップA1−A4およびA8で示
される、第2の実施の形態における5W1Hキーワード
抽出装置2・分類キー設定装置3・文書分配装置6の動
作は、図1の実施の形態における各装置2・3・6の動
作と同一のため、説明は省略する。
【0041】ステップA1−A4の処理の後、分類レベ
ル設定装置8は、入力装置1を介して、ユーザーが指定
する、分類の縦軸と横軸に対する分類レベルを読み込む
(ステップB1)。なお、以下では、ここで読み込まれ
た縦軸用の分類レベルをLV、横軸用の分類レベルをL
Hと表記する。
【0042】第2の実施の形態においては、縦軸用分類
構造選択装置4は、縦軸用の分類構造として、縦軸用の
5W1H属性を持つキーワード自身またはその上位概念
にあたる単語を、ステップB1において分類レベル設定
装置8により設定された縦軸用の分類レベルLVに応じ
て、概念データベース9より選択する(ステップB
2)。この処理は、抽出された5W1H属性付きキーワ
ードで、縦軸用に選択された5W1H属性を持つものそ
れぞれに対して、概念データベース9においてレベルL
Vにある、その上位概念の単語を求め、それらの単語の
中から出現頻度の高いものを順に選択することで行う。
ただし、縦軸用の5W1H属性がWhenのときの日時
を表すキーワードに対しては、上位概念として一定の期
間を採用する。例えば、1996年4月24日の上位概
念として1996年の4月1ヶ月間を採用し、さらにそ
の上位概念として1996年1年間を採用することがで
きる。どの長さの期間をどのレベルの階層にするかは予
め定めておく。なお、ステップB2で選択する分類項目
数は、予め定めておいてもよいが、すでに分類項目とし
て選択した単語をレベルLVにおける上位概念の単語と
して持つキーワードを、縦軸用の5W1H属性付きで含
む文書数が、全文書数に対して一定割合を超えるまで選
択を続けるようにすることも可能である。ステップB2
の処理は、第1の実施の形態におけるステップA5の処
理で、選択する分類項目として、抽出したキーワードそ
のものを用いる代わりに、レベルLVにおけるそのキー
ワードの上位概念にあたる単語を用いることに相当す
る。
【0043】ステップB2における分類項目の選択処理
では、第1の実施の形態におけるステップA5の処理と
同様に、全文書に対する出現頻度の高い単語から順に選
択することもできるが、すでに選択した分類項目の単語
をレベルLVにおける上位概念の単語として持つキーワ
ードを、縦軸用の5W1H属性付きで含む文書を除い
た、それ以外の文書において出現頻度の高い単語を順に
選択することも可能である。
【0044】横軸用キーワード選択装置5は、横軸用の
分類項目として、横軸用の5W1H属性を持つキーワー
ド自身またはその上位概念にあたる語を、ステップB1
において分類レベル設定装置8により設定された横軸用
の分類レベルLHに応じて、概念データベース9より選
択する(ステップB3)。ステップB2において選択さ
れた縦軸用の分類項目をレベルLVにおける上位概念の
単語として持つキーワードを、縦軸用に選択された5W
1H属性付きで含む文書を、縦軸分類項目対応文書と呼
ぶことにすると、この処理は、抽出された5W1H属性
付きキーワードで、横軸用に選択された5W1H属性を
持つものうち、縦軸分類項目対応文書に出現するものそ
れぞれに対して、概念データベース9においてレベルL
Hにある、その上位概念の単語を求め、それらの単語の
中から出現頻度の高いものを順に選択することで行う。
ただし、ステップB2の処理と同様に、横軸用の5W1
H属性がWhenのときの日時を表すキーワードに対し
ては、上位概念として一定の期間を採用する。なお、ス
テップB3で選択する分類項目数は、予め定めておいて
もよいが、すでに分類項目として選択した単語をレベル
LHにおける上位概念の単語として持つキーワードを、
横軸用の5W1H属性付きで含む文書数が、全文書数に
対して一定割合を超えるまで選択を続けるようにするこ
とも可能である。ステップB3の処理は、第1の実施の
形態におけるステップA6の処理で、選択する分類項目
として、抽出したキーワードそのものを用いる代わり
に、レベルLHにおけるそのキーワードの上位概念にあ
たる単語を用いることに相当する。
【0045】ステップB3における分類項目の選択処理
においても、第1の実施の形態におけるステップA6の
処理と同様に、縦軸分類項目対応文書すべてに対する出
現頻度の高い単語から順に選択するほかに、当該文書か
ら、すでに選択した分類項目の単語をレベルLHにおけ
る上位概念の単語として持つキーワードを、横軸用の5
W1H属性付きで含む文書を除いたものに対する出現頻
度の高いキーワードを順に選択することも可能である。
【0046】文書分配装置6は、ステップB2において
選択された縦軸用の分類項目をレベルLVにおける上位
概念の単語として持つキーワードを、縦軸用に選択され
た5W1H属性付きで含み、ステップB3において選択
された横軸用の分類項目をレベルLHにおける上位概念
の単語として持つキーワードを、横軸用に選択された5
W1H属性付きで含む文書を、2次元マトリックスにお
いて、該縦軸用分類項目に対応する行と該横軸用分類項
目に対応する列の交点にあるセルに分配する(ステップ
B4)。このとき、ステップB2において選択された縦
軸用の分類項目をレベルLVにおける上位概念の単語と
して持つキーワードを、縦軸用に選択された5W1H属
性付きで含むが、ステップB3において選択された横軸
用の分類項目をレベルLHにおける上位概念の単語とし
て持つどのキーワードも、横軸用に選択された5W1H
属性付きでは含まない文書は、2次元マトリックスにお
て、該縦軸用分類項目に対応する行とデフォルト列の交
点にあるセルに分配する。また、ステップB2において
選択された縦軸用の分類項目をレベルLVにおける上位
概念の単語として持つどのキーワードも、縦軸用に選択
された5W1H属性付きでは含まないが、ステップB3
において選択された横軸用の分類項目をレベルLHにお
ける上位概念の単語として持つキーワードを、横軸用に
選択された5W1H属性付きで含む文書は、2次元マト
リックスにおいて、デフォルト行と該横軸用分類項目に
対応する列の交点にあるセルに分配する。
【0047】第2の実施の形態において、縦軸用の分類
レベルLVおよび横軸用の分類レベルLHは、分類レベ
ル設定装置8がユーザーの入力を読み取ることによって
設定することになっているが、これを、縦軸用分類項目
選択装置4および横軸用分類項目選択装置5において、
ある条件を満たすように自動的に設定するようにするこ
ともできる。例えば、縦軸用分類項目選択装置4によっ
て縦軸用の分類項目を一定の個数選択することにし、こ
のとき、選択した縦軸用の分類項目をレベルLVにおけ
る上位概念の単語として持つキーワードを、縦軸用に選
択された5W1H属性付きで含む文書数が全文書数に対
して一定の割合を超えるようにLVを設定することがで
きる。同様に、例えば、横軸用分類項目選択装置5によ
って縦軸用の分類項目を一定の個数選択することにし、
このとき、選択した縦軸用の分類項目をレベルLHにお
ける上位概念の単語として持つキーワードを、横軸用に
選択された5W1H属性付きで含む文書数が全文書数に
対して一定の割合を超えるようにLHを設定することが
できる。
【0048】次に本発明の第2の実施の形態の効果につ
いて説明する。
【0049】本発明の第2の実施の形態は、縦軸用分類
項目選択装置4および横軸用分類項目選択装置5が、概
念データベース9を参照して、抽出されたキーワード自
身ではなく、指定されたレベルのその上位概念の単語を
分類項目として選択する。このため、分類のキーとなる
単語を、ユーザーの意図するレベルに揃えることができ
る。これは、特に、分類に用いる5W1H属性としてW
henやWhereを指定する場合に有効である。Wh
enを軸とする分類では、一定の期間ごとに文書を分類
できる。また、Whereを軸とする分類では、一定の
地域ごとに文書を分類できる。
【0050】本発明の第3の実施の形態について、図面
を参照して説明する。
【0051】図15を参照すると、本発明の第3の実施
の形態は、文書分類プログラムを記録した記録媒体13
を備える。この記録媒体13は磁気ディスク、半導体メ
モリその他の記録媒体であってよい。
【0052】文書分類プログラムは記録媒体13からデ
ータ処理装置11に読み込まれ、データ処理装置11の
動作を制御する。データ処理装置11は文書分類プログ
ラムの制御により以下の処理を実行する。
【0053】入力装置10から文書が与えられると、デ
ータ処理装置11は、文書中から5W1H属性付きでキ
ーワードを抽出し、ユーザーが入力した分類用の5W1
H属性を分類キーとして読み取り、前記キーワードか
ら、前記分類キーとして設定された5W1H属性を持つ
ものを分類項目として選択し、前記分類項目を含む文書
を前記分類項目に対応するセルに分配し、ディスプレイ
装置や印刷装置等の出力装置12に出力する。そして、
出力装置12は、分配された結果をユーザーに表示す
る。
【0054】
【実施例】次に、本発明の第1の実施の形態の一実施例
の動作を詳細に説明する。
【0055】例えば、本発明の文書分類装置により、図
6に示す#1−#16の16の文書を分類することにす
る。このとき、まず、5W1Hキーワード抽出手段2
が、各文書中の文を形態素解析して各文からキーワード
を抽出し、各キーワードに5W1H属性を付与する(ス
テップA1−A3)。今、例えば、以下のような規則に
従い、各キーワードに5W1H属性を付与することにす
ると、各文書ごとの5W1H属性付きキーワードは図7
のようになる。
【0056】(1)助詞「が」または助詞「は」が後に
続くキーワードの5W1H属性はWhoとする。 (2)「年」・「月」・「日」のいずれかの文字を含
み、かつ数字を含むキーワードの5W1H属性はWhe
nとする。 (3)国名・都道府県名の5W1H属性はWhereと
する。また、「市」・「町」のいずれかの文字を含み、
直後に助詞「に」または助詞「で」が続くキーワードの
5W1H属性はWhereとする。 (4)助詞「を」が後に続くキーワードの5W1H属性
はWhatとする。 (5)助詞「の」および名詞「ため」が連続して後に続
くキーワードの5W1H属性はWhyとする。 (6)各文中で最も後ろに出現する、品詞が動詞または
サ行変格活用名詞であるキーワードの5W1H属性はH
owとする。
【0057】なお、この例では、When・Where
・Whyの各属性を持つキーワードは抽出されないの
で、図7では、これらを省略している。
【0058】分類キー設定装置3は、ユーザーが指定す
る、縦軸と横軸の分類に用いる5W1H属性をそれぞれ
読み込む(ステップA4)。ここでは、縦軸用の5W1
H属性としてWhoが、横軸用の5W1H属性としてW
hatが指定されたとする。
【0059】縦軸用分類項目選択装置4は、抽出された
5W1H属性付きキーワードの中でWho属性を持つも
のを出現頻度の高い順に選択する(ステップA5)。
今、全文書に対する出現頻度の高い順に3つの分類項目
を選択するものとする。図7を参照すると、Who属性
の各キーワードの出現頻度は、「A社」が8、「B社」
が7、「C社」が5、「D社」が1、「E社」が1であ
るから、「A社」「B社」・「C社」の3つのキーワー
ドが、この順に縦軸の分類項目として選択される。
【0060】図7を参照すると、「A社」・「B社」・
「C社」のいずれかをWho属性のキーワードとして含
む文書は、#5・#9以外の14の文書である。横軸用
分類項目選択装置5は、抽出された5W1H属性付きキ
ーワードの中で、What属性を持つもののうち、上記
の14の文書中に出現するものを出現頻度の高い順に選
択する(ステップA6)。今、上記の14の文書すべて
に対する出現頻度の高い順に3つの分類項目を選択する
ものとする。図7を参照すると、上記の14文書中にお
けるWhat属性のキーワードの出現頻度は、「PC」
が9、「プリンタ」が4、「ディスプレイ」が3、「キ
ーボード」が2、「マウス」が2であるから、「PC」
・「プリンタ」・「ディスプレイ」の3つのキーワード
が、この順に横軸の分類項目として選択される。
【0061】文書分配装置6は、縦軸用のキーワードを
Who属性付きで含み、横軸用のキーワードをWhat
属性付きで含む文書を、2次元マトリックスにおいて、
その縦軸用キーワードに対応する行とその横軸用キーワ
ードに対応する列の交点にあるセルに分配する(ステッ
プA7)。縦軸用のキーワードをWho属性付きで含ま
ない文書は、デフォルト行の各セルに分配され、横軸用
のキーワードをWhat属性付きで含まない文書は、デ
フォルト列の各セルに分配される。例えば、文書#2
は、Who属性のキーワードとして「B社」を含み、W
hat属性のキーワードとして「PC」を含むので、
「B社」に対応する行の「PC」に対応する列のセルに
配される。また、例えば、文書#10は、Who属性の
キーワードとして「C社」を含むが、What属性のキ
ーワードとして「PC」・「プリンタ」・「ディスプレ
イ」のいずれも含まないので、「C社」に対応する列の
デフォルト列のセルに配される。
【0062】すべての文書を配置すると、文書分配装置
6は、結果を表の形式で出力する(ステップA8)。2
次元マトリックスの各セルに文書番号を埋め込む形式で
出力するものとすると、出力結果は図8のようになる。
【0063】なお、縦軸用分類項目選択装置4や横軸用
分類項目選択装置5において、分類項目を頻度順に選択
する際、全対象文書に対する出現頻度ではなく、すでに
選択したキーワードを、対応する軸の5W1H属性付き
で含む文書を除いた、それ以外の文書における出現頻度
に基づいて、頻度順にキーワードを選択することも可能
である。
【0064】以下では、前述の実施例において、縦軸の
分類項目は前述の例と同じ方法で選択するが、横軸用分
類項目選択装置5が横軸用の分類項目を選択する際に、
すでに選択したキーワードをWhat属性付きで含む文
書を除いて、それ以外の文書において出現頻度の高いW
hat属性付きキーワードを3つ選択する場合について
説明する。
【0065】この場合、ステップA6において、横軸ユ
ーザ分類項目選択装置6は、まず、#5・#9以外の1
4の文書中で最も多く出現するWhat属性のキーワー
ドを第1の横軸用分類項目として選択する。図7を参照
すると、上記の14文書中におけるWhat属性のキー
ワードの出現頻度は、「PC」が9、「プリンタ」が
4、「ディスプレイ」が3、「キーボード」が2、「マ
ウス」が2であるから、第1の横軸用分類項目として
は、「PC」が選択される。図7を参照すると、上記の
14の文書中で、「PC」を含まないものは、#6・#
8・#10・#12・#14の5つの文書である。した
がって、第2の横軸用分類項目には、上記の5つの文書
中で最も多く出現するWhat属性のキーワードが選択
される。図7を参照すると、上記の5つの文書中におけ
るWhat属性のキーワードの出現頻度は、「キーボー
ド」が2、「マウス」が2、「ディスプレイ」が1であ
る。この場合、「キーボード」と「マウス」のどちらか
を、第2の横軸用分類項目として選択することになる
が、ここでは「キーボード」が選択されたとする。図7
を参照すると、上記の5つの文書中で、「キーボード」
を含まないものは、#6・#10・#14の3つの文書
である。したがって、第3の横軸用分類項目には、上記
の3つの文書中で最も多く出現するWhat属性のキー
ワードが選択される。図7を参照すると、上記の3つの
文書中におけるWhat属性のキーワードの出現頻度
は、「マウス」が2、「ディスプレイ」が1であるか
ら、第3の横軸用分類項目としては、「マウス」が選択
される。
【0066】ステップA7・A8において、文書分配装
置6は、前述の例と同様の処理を行うが、この例では、
出力結果は、図9のようになる。前述の例における結果
の図8と比較すると、横軸の分類項目の選択方法を変え
たことにより、デフォルト列に分類される文書の数が減
少している。
【0067】次に、本発明の第2の実施の形態の一実施
例の動作を詳細に説明する。
【0068】例えば、本発明の文書分類装置により、図
10に示す#1−#10の10の文書を分類することに
する。このとき、まず、5W1Hキーワード抽出手段2
が、各文書中の文を形態素解析して各文からキーワード
を抽出し、各キーワードに5W1H属性を付与する(ス
テップA1−A3)。今、前述の、本発明の第1の実施
の形態の一実施例における動作例と同じ規則に従い、各
キーワードに5W1H属性を付与することにすると、各
文書ごとの5W1H属性付きキーワードは図11のよう
になる。なお、この例では、When・Whyの各属性
を持つキーワードは抽出されないので、図11では、こ
れらを省略している。
【0069】分類キー設定装置3は、ユーザーが指定す
る、縦軸と横軸の分類に用いる5W1H属性をそれぞれ
読み込む(ステップA4)。ここでは、縦軸用の5W1
H属性としてWhereが、横軸用の5W1H属性とし
てWhoが指定されたとする。
【0070】図12を参照すると、例えば、概念データ
ベース9は、地名のキーワード間の階層的な関係や、組
織名のキーワード間の階層的な関係を含み、それぞれの
関係において、各階層に対応して、絶対的なレベルを保
持している。
【0071】分類レベル設定装置8は、ユーザーが指定
する、縦軸の分類レベルLVと横軸の分類レベルLHを
それぞれ読み込む(ステップB1)。ここでは、LVと
して1が、LHとして2が指定されたとする。
【0072】縦軸用分類項目選択装置4は、抽出された
5W1H属性付きキーワードの中でWhere属性を持
つものに対して、概念データベース9においてレベル1
にある、その上位概念の単語を求め、それらの単語の中
から出現頻度の高いものを順に選択する(ステップB
2)。今、全文書に対する出現頻度の高い順に3つの分
類項目を選択するものとする。図12を参照すると、各
文書中のWhere属性の各キーワードと、それに対す
るレベル1の上位概念の単語との対応は、図13のよう
になる。図13を参照すると、求めたレベル1の上位概
念の単語の出現頻度は、「関東地方」が5、「近畿地
方」が4、「東北地方」が2、「九州地方」が1である
から、「関東地方」・「近畿地方」・「東北地方」の3
つの単語が、この順に縦軸の分類項目として選択され
る。
【0073】図13を参照すると、「関東地方」・「近
畿地方」・「東北地方」のいずれかをレベル1における
上位概念の単語として持つキーワードを、Where属
性のキーワードとして含む文書は、#5以外の9つの文
書である。横軸用分類項目選択装置5は、抽出された5
W1H属性付きキーワードの中で、Who属性を持つも
ののうち、上記の9つの文書中に出現するものそれぞれ
に対して、概念データベース9においてレベル2にあ
る、その上位概念の単語を求め、それらの単語の中か
ら、出現頻度の高いものを順に選択する(ステップB
3)。今、上記の9つの文書すべてに対する出現頻度の
高い順に3つの分類項目を選択するものとする。図12
を参照すると、この例では、各文書中のWho属性の各
キーワードは、概念データベース9において、すべてそ
れ自身がレベル2の階層の単語になっている。図11を
参照すると、上記の9つの文書中におけるWho属性の
キーワードの出現頻度は、「A社」が5、「B社」が
3、「C社」が2、「D社」が1であるから、「A社」
・「B社」・「C社」の3つのキーワードが、この順に
横軸の分類項目として選択される。
【0074】文書分配装置6は、縦軸用の分類項目をレ
ベル1における上位概念の単語として持つキーワード
を、Where属性のキーワードとして含み、横軸用の
分類項目をレベル2における上位概念の単語として持つ
キーワードを、Who属性付きのキーワードとして含む
文書を、2次元マトリックスにおいて、その縦軸用分類
項目に対応する行とその横軸用分類項目に対応する列の
交点にあるセルに分配する(ステップB4)。Wher
e属性のキーワードとして、縦軸用の分類項目をレベル
1における上位概念の単語として持つキーワードを含ま
ない文書は、デフォルト行の各セルに分配され、Who
属性のキーワードとして、横軸用の分類項目をレベル2
における上位概念の単語として持つキーワードを含まな
い文書は、デフォルト列の各セルに分配される。例え
ば、文書#1は、Where属性のキーワードとして
「白石市」を含み、Who属性のキーワードとして「A
社」を含んでいる。図12を参照すると、「白石市」に
対するレベル1の上位概念の単語は「東北地方」であ
り、「A社」に対するレベル2の上位概念の単語は「A
社」である。したがって、文書#1は、「東北地方」に
対応する行の「A社」に対応する列のセルに配される。
また、例えば、文書#5は、Where属性のキーワー
ドとして「福岡市」を含み、Who属性のキーワードと
して「B社」を含んでいる。図12を参照すると、「福
岡市」に対するレベル1の上位概念の単語は「九州地
方」であり、「B社」に対するレベル2の上位概念の単
語は「B社」である。横軸に「B社」という分類項目は
存在するが、縦軸に「九州地方」という分類項目は存在
しないので、文書#5は、デフォルト行の「B社」に対
応する列のセルに配される。
【0075】すべての文書を配置すると、文書分配装置
6は、結果を表の形式で出力する(ステップA8)。2
次元マトリックスの各セルに文書番号を埋め込む形式で
出力するものとすると、出力結果は図14のようにな
る。
【0076】
【発明の効果】この発明の第1の効果は、5W1Hとい
う意味のある視点から文書を分類できることである。W
hoを軸にすると、文書に記述されている出来事の主体
者別の分類に、Whenを軸にすると、時間別の分類
に、Whereを軸にすると、地域別の分類に、Wha
tを軸にすると、対象物別の分類に、Whyを軸にする
と、理由別の分類に、Howを軸にすると、行為別の分
類になる。
【0077】その理由は、5W1Hキーワード抽出装置
2が、文書中からキーワードを抽出する際に、キーワー
ドに5W1H属性を付与しておき、指定された5W1H
属性を持つキーワードを選択して、それをキーとして文
書を分類するためである。
【0078】第2の効果は、ユーザーが複数の視点から
分類結果を分析できることである。このため、異なる縦
軸のキーワードに対する横軸キーワード間での文書の分
布の比較等を容易に行うことができ、関連する文書どう
しの比較が容易になっている。このとき、横軸のキーワ
ードは、縦軸のキーワードに関連するものが選択されて
おり、結び付きのない複数視点の組み合わせになること
はない。
【0079】その理由は、縦軸用分類項目選択装置4お
よび横軸用分類項目選択装置5が、ユーザーが指定した
縦軸および横軸の5W1H属性に合わせて、縦軸および
横軸の分類項目を選択し、文書分配装置6が、それをキ
ーとして文書を2次元マトリックスへと分類するからで
ある。特に、横軸用分類項目選択装置5が横軸の分類項
目を選択する際に、縦軸の各分類項目に分類される文書
のみに対象文書を絞り込むので、横軸の分類項目とし
て、縦軸の分類項目と関連するものが選択されることに
なる。
【0080】第3の効果は、分類対象の文書群中でよく
用いられているキーワードが分類項目として選択される
ことである。この結果、対象文書中には、どのような傾
向の文書が多いのか等を容易に把握できるようになる。
【0081】その理由は、縦軸横軸分類項目選択装置4
および横軸用分類項目選択装置5が、対象文書中での出
現頻度の高い順に分類項目を選択しているからである。
【0082】第4の効果は、分類項目となる単語を、一
定のレベルの単語に揃えることができることである。こ
の結果、分類項目の単語が指し示す空間を一定のものに
することができ、分類結果のマトリックスにおいて行ど
うしあるいは列どうしを単純に比較することが可能にな
る。
【0083】その理由は、本発明の第2の実施の形態に
おいて、縦軸用分類項目選択装置4および横軸用分類項
目選択装置5が、概念データベース9を参照して、文書
から抽出されたキーワード自身ではなく、指定されたレ
ベルのその上位概念の単語を分類項目として選択するか
らである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を表すブロッ
ク図である。
【図2】本発明の文書分配装置6で利用する2次元マト
リックスの一例を示す図である。
【図3】本発明の第1の実施の形態の動作を示すフロー
チャートである。
【図4】本発明の第2の実施の形態の構成を表すブロッ
ク図である。
【図5】本発明の第2の実施の形態の動作を示すフロー
チャートである。
【図6】本発明の第1の実施の形態の一実施例における
入力文書のリストである。
【図7】本発明の第1の実施の形態の一実施例におい
て、5W1Hキーワード抽出装置2によって各文書から
抽出された5W1H属性付きキーワードを示す表であ
る。
【図8】本発明の第1の実施の形態の一実施例において
出力される結果を示す図である。
【図9】本発明の第1の実施の形態の変形例の一実施例
において出力される結果を示す図である。
【図10】本発明の第2の実施の形態の一実施例におけ
る入力文書のリストである。
【図11】本発明の第2の実施の形態の一実施例におい
て、5W1Hキーワード抽出装置2によって各文書から
抽出された5W1H属性付きキーワードを示す表であ
る。
【図12】本発明の第2の実施の形態の一実施例におけ
る概念データベース9の内容を示す図である。
【図13】本発明の第2の実施の形態の一実施例におい
て、5W1Hキーワード抽出装置2によって各文書から
抽出されたWhere属性のキーワードと、概念データ
ベース9においてレベル1にあるそれらの上位概念の単
語との対応を示す表である。
【図14】本発明の第2の実施の形態の一実施例におい
て出力される結果を示す図である。
【図15】本発明の第3の実施の形態を示す図である。
【符号の説明】
1 入力装置 2 5W1Hキーワード抽出装置 3 分類キー設定装置 4 縦軸用分類項目選択装置 5 横軸用分類項目選択装置 6 文書分配装置 7 出力装置 8 分類レベル設定装置 9 概念データベース
───────────────────────────────────────────────────── フロントページの続き (72)発明者 落合 尚良 神奈川県川崎市高津区坂戸3−2−1 株式会社エヌイーシー情報システムズ内 (56)参考文献 特開 平7−319905(JP,A) 特開 平7−282087(JP,A) 特開 平6−124308(JP,A) 特開 平9−218878(JP,A) 高橋,外3名「歴史系文献資料の索引 作成作業支援のための知識型分析ツー ル」情報処理学会第50回(平成7年前 期)全国大会講演論文集(1)p.329 −330(平7−3−15) 安藤,外2名「キーワードと構文構造 に基づくテキストからの情報抽出システ ム」情報処理学会第47回(平成5年後 期)全国大会講演論文集(3)p.83− 84(平5−10−6) 岩本,外3名「インターネット上の技 術情報ファイリング」電子情報通信学会 技術研究報告(IN96−140),Vol. 96,No.543,1997)(平9−2−21) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】文書中から5W1H属性付きでキーワード
    を抽出する5W1Hキーワード抽出装置と、 ユーザーが入力した縦軸用と横軸用の5W1H属性を読
    み取る分類キー設定装置と、 前記キーワードから、前記分類キー設定装置により縦軸
    用の分類キーとして設定された5W1H属性を持つもの
    を分類の縦軸の項目として選択する縦軸用の分類項目選
    択装置と、 前記5W1Hキーワード抽出手段により抽出されたキー
    ワードから、前記分類キー設定装置により横軸用の分類
    キーとして設定された5W1H属性を持つものを分類の
    横軸の項目として選択する横軸用の分類項目選択装置
    あり、前記5W1Hキーワード抽出手段により抽出され
    たキーワードのうち、前記縦軸用の分類項目選択装置に
    より選択された縦軸用の分類項目を前記分類キー設定装
    置により設定された縦軸用の分類キーとして設定された
    5W1H属性付きで含む文書中に出現するものの中か
    ら、分類の横軸の項目を選択する横軸用の分類項目選択
    装置と、 前記縦軸用の分類項目選択装置により選択された縦軸用
    の分類項目を前記分類キー設定装置により縦軸用の分類
    キーとして設定された5W1H属性付きで含み、且つ、
    前記横軸用の分類項目選択装置により選択された横軸用
    の分類項目を前記分類キー設定装置により横軸用の分類
    キーとして設定された5W1H属性付きで含む文書を2
    次元マトリックスにおいて該縦軸用の分類項目に対応す
    る行と該横軸用の分類項目に対応する列の交点にあるセ
    ルに分配する文書分配装置とを備えたことを特徴とする
    文書分類装置。
  2. 【請求項2】前記分類項目選択装置は、前記5W1Hキ
    ーワード抽出装置により抽出されたキーワードのうち、
    前記分類キー設定装置により対応する分類キーとして設
    定された5W1H属性を持つものを、該キーワードが分
    類対象の文書に出現する頻度の順に抽出することを特徴
    とする請求項記載の文書分類装置。
  3. 【請求項3】前記分類項目選択装置は、前記5W1Hキ
    ーワード抽出装置により抽出されたキーワードのうち、
    前記分類キー設定装置により対応する分類キーとして設
    定された5W1H属性を持つものを、該キーワードが、
    すでに分類項目として選択したキーワードを含まない文
    書中に出現する頻度の順に抽出することを特徴とする請
    求項1記載の文書分類装置。
  4. 【請求項4】文書中から5W1H属性つきでキーワード
    を抽出する5W1Hキーワード抽出装置と、 ユーザーが入力した縦軸用と横軸用の5W1H属性を読
    み取る分類キー設定装置と、 ユーザーが入力した縦軸用と横軸用の分類レベルを読み
    取る分類レベル設定装置と、 単語をレベルに分けて、それらの間の上位概念・下位概
    念の関係を保持する概念データベースと、 前記分類キー設定装置により縦軸用の分類キーとして設
    定された5W1H属性を持つ前記5W1Hキーワード抽
    出装置により抽出されたキーワードに対して、前記概念
    出ベースにおいて上位概念にあたり、且つ、前記分類レ
    ベル設定装置により縦軸用に設定された分類レベルにあ
    る単語から分類の縦軸の項目を選択する縦軸用の分類項
    目選択装置と、 前記分類キー設定装置により横軸用の分類キーとして設
    定された5W1H属性を持つ前記5W1Hキーワード抽
    出装置により抽出されたキーワードに対して、前記概念
    データベースにおいて上位概念にあたり、且つ、前記分
    類レベル設定装置により横軸用に設定された分類レベル
    にある単語から、分類の横軸の項目を選択する横軸用の
    分類項目選択装置であり、前記分類キー設定装置により
    横軸用の分類キーとして設定された5W1H属性を持つ
    前記5W1Hキーワード抽出装置により抽出されたキー
    ワードのうち、前記概念データベースにおいて前記縦軸
    用の分類項目選択装置により選択された縦軸用の分類レ
    ベルにおける上位概念の単語として前記縦軸用の分類項
    目選択装置により選択された縦軸用の分類項目の単 語を
    持つキーワードを、前記分類キー設定装置により設定さ
    れた縦軸用の5W1H属性付きで含む文書中に出現する
    ものに対して、前記概念データベースにおいて上位概念
    にあたり、且つ、前記分類レベル設定装置により横軸用
    に設定された分類レベルにある単語の中から、分類の横
    軸の項目を選択する横軸用の分類項目選択装置と、 前記概念データベースにおいて、前記分類レベル設定装
    置により縦軸用に設定されたレベルにおける上位概念の
    単語として前記縦軸用の分類項目選択装置により選択さ
    れた縦軸用の分類項目の単語を持つキーワードを、前記
    分類キー設定装置により縦軸用の分類キーとして設定さ
    れた5W1H属性付きで含み、且つ、前記概念データベ
    ースにおいて、前記分類レベル設定装置により横軸用に
    設定されたレベルにおける上位概念の単語として前記横
    軸用の分類項目選択装置により選択された横軸用の分類
    項目を持つキーワードを、前記分類キー設定装置により
    横軸用の分類キーとして設定された5W1H属性付きで
    含む文書を、2次元マトリックスにおいて該縦軸用の分
    類項目に対応する行と該横軸用の分類項目に対応する列
    の交点にあるセルに分配する文書分配装置とを備えたこ
    とを特徴とする文書分類装置。
  5. 【請求項5】前記分類項目選択装置は、前記分類キー設
    定装置により対応する分類キーとして設定された5W1
    H属性を持つ前記5W1Hキーワード抽出装置により抽
    出されたキーワードに対して、前記概念データベースに
    おいて上位概念にあたり、且つ、前記分類レベル設定装
    置により設定された分類レベルにある単語を、前記概念
    データベースにおいて前記分類レベル設定装置により設
    定された分類レベルに該単語を上位概念として持つキー
    ワードが分類対象の文書に出現する頻度の順に抽出する
    ことを特徴とする請求項記載の文書分類装置。
  6. 【請求項6】前記分類項目選択装置は、前記分類キー設
    定装置により対応する分類キーとして設定された5W1
    H属性を持つ前記5W1Hキーワード抽出装置により抽
    出されたキーワードに対して、前記概念データベースに
    おいて上位概念にあたり、且つ、前記分類レベル設定装
    置により設定された分類レベルにある単語を、前記概念
    データベースにおいて前記分類レベル設定装置により設
    定された分類レベルに該単語を上位概念として持つキー
    ワードが、前記概念データベースにおいて前記分類レベ
    ル設定装置により設定された分類レベルにすでに分類項
    目として選択した単語を上位概念として持つキーワード
    を含まない文書中に出現する頻度の順に抽出することを
    特徴とする請求項記載の文書分類装置。
JP9131071A 1997-05-21 1997-05-21 文書分類装置 Expired - Lifetime JP3001460B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9131071A JP3001460B2 (ja) 1997-05-21 1997-05-21 文書分類装置
US09/082,190 US6243723B1 (en) 1997-05-21 1998-05-21 Document classification apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9131071A JP3001460B2 (ja) 1997-05-21 1997-05-21 文書分類装置

Publications (2)

Publication Number Publication Date
JPH10320411A JPH10320411A (ja) 1998-12-04
JP3001460B2 true JP3001460B2 (ja) 2000-01-24

Family

ID=15049323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9131071A Expired - Lifetime JP3001460B2 (ja) 1997-05-21 1997-05-21 文書分類装置

Country Status (2)

Country Link
US (1) US6243723B1 (ja)
JP (1) JP3001460B2 (ja)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3597370B2 (ja) * 1998-03-10 2004-12-08 富士通株式会社 文書処理装置および記録媒体
JP3665480B2 (ja) * 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
US7047486B1 (en) * 1999-01-21 2006-05-16 Sony Corporation Method and device for processing documents and recording medium
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
WO2000058863A1 (en) 1999-03-31 2000-10-05 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
US8572069B2 (en) 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
US6408294B1 (en) * 1999-03-31 2002-06-18 Verizon Laboratories Inc. Common term optimization
US6924828B1 (en) 1999-04-27 2005-08-02 Surfnotes Method and apparatus for improved information representation
US6836768B1 (en) 1999-04-27 2004-12-28 Surfnotes Method and apparatus for improved information representation
EP1212699A4 (en) * 1999-05-05 2006-01-11 West Publishing Co SYSTEM, METHOD AND SOFTWARE FOR CLASSIFYING DOCUMENTS
JP2000348041A (ja) * 1999-06-03 2000-12-15 Nec Corp 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
US6718363B1 (en) * 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
JP3925003B2 (ja) * 1999-09-29 2007-06-06 富士ゼロックス株式会社 文書処理装置および文書処理方法
US6912525B1 (en) * 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
US6625335B1 (en) * 2000-05-11 2003-09-23 Matsushita Electric Industrial Co., Ltd. Method and apparatus for assigning keywords to documents
US7010606B1 (en) 2000-06-05 2006-03-07 International Business Machines Corporation System and method for caching a network connection
US7016917B2 (en) * 2000-06-05 2006-03-21 International Business Machines Corporation System and method for storing conceptual information
US7493308B1 (en) 2000-10-03 2009-02-17 A9.Com, Inc. Searching documents using a dimensional database
JP2002288220A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 文書分類装置、文書分類方法ならびに、プログラム
JP4617015B2 (ja) * 2001-03-26 2011-01-19 株式会社MetaMoJi 文書表示装置、文書表示方法ならびに、プログラム
JP3737710B2 (ja) * 2001-03-28 2006-01-25 株式会社ジャストシステム ファイル管理方法および装置
JP3842573B2 (ja) * 2001-03-30 2006-11-08 株式会社東芝 構造化文書検索方法、構造化文書管理装置及びプログラム
US7171626B2 (en) * 2001-10-29 2007-01-30 Microsoft Corporation System and method for presenting the contents of a content collection based on content type
US8380491B2 (en) * 2002-04-19 2013-02-19 Educational Testing Service System for rating constructed responses based on concepts and a model answer
JP2003333096A (ja) * 2002-05-08 2003-11-21 Nec Corp メール着信拒否システム,メール着信拒否方法およびメール着信拒否プログラム
US7203694B2 (en) 2002-12-20 2007-04-10 International Business Machines Corporation System and method for multicolumn sorting in a single column
US20040139042A1 (en) * 2002-12-31 2004-07-15 Schirmer Andrew L. System and method for improving data analysis through data grouping
JP4382526B2 (ja) * 2003-07-01 2009-12-16 株式会社山武 文章分類装置および方法
US7769759B1 (en) * 2003-08-28 2010-08-03 Biz360, Inc. Data classification based on point-of-view dependency
JP5059282B2 (ja) * 2003-10-14 2012-10-24 ソニー株式会社 情報提供システム,情報提供サーバ,ユーザ端末装置,コンテンツ表示装置,コンピュータプログラム,およびコンテンツ表示方法
US20050246333A1 (en) * 2004-04-30 2005-11-03 Jiang-Liang Hou Method and apparatus for classifying documents
JP4394517B2 (ja) * 2004-05-12 2010-01-06 富士通株式会社 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置
US20060036649A1 (en) * 2004-08-12 2006-02-16 Simske Steven J Index extraction from documents
US7444323B2 (en) * 2004-09-02 2008-10-28 International Business Machines Corporation System and method for focused routing of content to dynamically determined groups of reviewers
US20060074980A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
TWI254880B (en) * 2004-10-18 2006-05-11 Avectec Com Inc Method for classifying electronic document analysis
US8688673B2 (en) * 2005-09-27 2014-04-01 Sarkar Pte Ltd System for communication and collaboration
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
WO2007050646A2 (en) * 2005-10-24 2007-05-03 Capsilon Fsg, Inc. A business method using the automated processing of paper and unstructured electronic documents
JP4819483B2 (ja) * 2005-11-14 2011-11-24 旭化成株式会社 危険予知管理システム
US8380696B1 (en) 2005-12-20 2013-02-19 Emc Corporation Methods and apparatus for dynamically classifying objects
JP2007287134A (ja) * 2006-03-20 2007-11-01 Ricoh Co Ltd 情報抽出装置、及び情報抽出方法
US20080040150A1 (en) * 2006-08-09 2008-02-14 Kao Philip M Methods and apparatus for searching and identifying diseases
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
KR100895535B1 (ko) 2007-05-10 2009-04-30 (주) 지육공팔 컨설팅그룹 데이터 검색 장치 및 그 방법
US8086608B2 (en) * 2007-10-12 2011-12-27 International Business Machines Corporation Management of resource identifiers
JP5112027B2 (ja) * 2007-11-29 2013-01-09 株式会社日立ソリューションズ 文書群提示装置および文書群提示プログラム
US20090187551A1 (en) * 2008-01-17 2009-07-23 Oracle International Corporation Search results when searching for records of a business object
US20090204921A1 (en) * 2008-02-07 2009-08-13 Vestyck Anthony R System and Method for Organizing, Managing, and Using Electronic Files
US8745079B2 (en) * 2008-07-29 2014-06-03 Oracle International Corporation Reducing lag time when searching a repository using a keyword search
US8650198B2 (en) * 2011-08-15 2014-02-11 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence
US8831361B2 (en) 2012-03-09 2014-09-09 Ancora Software Inc. Method and system for commercial document image classification
JP5948132B2 (ja) * 2012-04-27 2016-07-06 日本放送協会 情報処理装置およびプログラム
US9256836B2 (en) 2012-10-31 2016-02-09 Open Text Corporation Reconfigurable model for auto-classification system and method
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
WO2015193827A1 (en) * 2014-06-18 2015-12-23 Dubizzle Middle East Fz-Llc Systems for electronic exchange of information about available items
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
JP6540268B2 (ja) * 2015-06-24 2019-07-10 富士ゼロックス株式会社 オブジェクト分類装置及びプログラム
JP7309489B2 (ja) * 2019-07-09 2023-07-18 株式会社日立製作所 要約文作成方法、及び要約文作成システム
GB201911760D0 (en) 2019-08-16 2019-10-02 Eigen Tech Ltd Training and applying structured data extraction models

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5408607A (en) * 1990-03-19 1995-04-18 Hitachi, Ltd. Information transfer system
JPH06124308A (ja) * 1992-10-14 1994-05-06 Fujitsu Ltd 情報整理処理装置
JPH06282587A (ja) 1993-03-24 1994-10-07 Tokyo Electric Power Co Inc:The 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
JP3381378B2 (ja) * 1994-04-07 2003-02-24 富士ゼロックス株式会社 情報構造化表示装置
JPH07319905A (ja) * 1994-05-25 1995-12-08 Fujitsu Ltd 情報検索装置
JP3669016B2 (ja) 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
JPH08255172A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 文書検索システム
JP3385297B2 (ja) 1995-03-27 2003-03-10 三菱電機株式会社 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
JPH08320881A (ja) 1995-05-25 1996-12-03 Tokyo Gas Co Ltd 文書検索システム
DE19522451C2 (de) * 1995-06-21 1997-11-06 Bernd Hansen Vorrichtung zur Abgabe eines fließfähigen Stoffes aus einem Behälter
US5907836A (en) * 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
JP3577822B2 (ja) * 1996-02-14 2004-10-20 富士ゼロックス株式会社 情報提示装置及び情報提示方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
安藤,外2名「キーワードと構文構造に基づくテキストからの情報抽出システム」情報処理学会第47回(平成5年後期)全国大会講演論文集(3)p.83−84(平5−10−6)
岩本,外3名「インターネット上の技術情報ファイリング」電子情報通信学会技術研究報告(IN96−140),Vol.96,No.543,1997)(平9−2−21)
高橋,外3名「歴史系文献資料の索引作成作業支援のための知識型分析ツール」情報処理学会第50回(平成7年前期)全国大会講演論文集(1)p.329−330(平7−3−15)

Also Published As

Publication number Publication date
JPH10320411A (ja) 1998-12-04
US6243723B1 (en) 2001-06-05

Similar Documents

Publication Publication Date Title
JP3001460B2 (ja) 文書分類装置
US6532469B1 (en) Determining trends using text mining
JP3883810B2 (ja) 情報管理、検索及び表示システム及び関連方法
EP0722145B1 (en) Information retrieval system and method of operation
US6505195B1 (en) Classification of retrievable documents according to types of attribute elements
US6044365A (en) System for indexing and retrieving graphic and sound data
Allen et al. An interface for navigating clustered document sets returned by queries
JP3030533B2 (ja) 情報分類装置
US20050226511A1 (en) Apparatus and method for organizing and presenting content
JPH0991314A (ja) 情報探索装置
CN101208694A (zh) 信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法
WO1996030845A1 (en) Method and apparatus for improved information storage and retrieval system
JPH09218878A (ja) 情報提示装置
JPH09231238A (ja) テキスト検索結果表示方法及び装置
JP2008305268A (ja) 文書分類装置及び分類方法
Buzydlowski A comparison of self-organizing maps and pathfinder networks for the mapping of co-cited authors
JP2000020538A (ja) 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
JPH07121565A (ja) 情報提示装置
JP7078244B2 (ja) データ処理装置、データ処理方法、データ処理システム及びプログラム
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JPH09311862A (ja) データのドリルダウン方式
JPS63175965A (ja) 文書処理装置
JP2003058559A (ja) 文書分類方法、検索方法、分類システム及び検索システム
JPH08314973A (ja) 情報単位群操作装置
JP2001101226A (ja) 文書群分類装置および文書群分類方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991012

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 14

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term