JP2000222431A - 文書分類装置 - Google Patents

文書分類装置

Info

Publication number
JP2000222431A
JP2000222431A JP11026483A JP2648399A JP2000222431A JP 2000222431 A JP2000222431 A JP 2000222431A JP 11026483 A JP11026483 A JP 11026483A JP 2648399 A JP2648399 A JP 2648399A JP 2000222431 A JP2000222431 A JP 2000222431A
Authority
JP
Japan
Prior art keywords
category
document
feature pattern
document information
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11026483A
Other languages
English (en)
Inventor
Hiroyoshi Konaka
裕喜 小中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP11026483A priority Critical patent/JP2000222431A/ja
Publication of JP2000222431A publication Critical patent/JP2000222431A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 未分類の文書を最適なカテゴリに分類して登
録することができなかった。 【解決手段】 前記格納手段の各カテゴリを特徴付ける
ための情報であって、前記カテゴリに格納された文書情
報のキーワード集合に含まれる割合が高いキーワードを
有する特徴パターンを前記格納手段の各カテゴリ毎に抽
出するとともに、前記抽出した特徴パターンに重みを付
与する抽出手段と、未だ分類されていない文書情報のキ
ーワード集合の一部または全部を含む特徴パターンをカ
テゴリ毎に収集する特徴パターン収集手段と、前記特徴
パターン収集手段により収集した特徴パターンのうち、
その重みが最も高い特徴パターンを抽出したカテゴリを
選定し、前記選定したカテゴリへ未だ分類されていない
文書情報を格納する選定手段とを備えたものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はあらかじめ文書情報
を分類し格納したものの中に未だ分類がなされていない
文書情報(未分類文書情報と称す)を、その内容に適し
たカテゴリを選定した後、このカテゴリへ格納する文書
分類装置に関するものである。
【0002】
【従来の技術】個々のキーワードの統計情報に基づいて
分類を行う技術としては、特開昭63−214832号
公報、特開平1−188934号公報、特開平5−54
037号公報、特開平5−342272号公報、特開平
6−75995号公報などがある。これら公報に記載さ
れたものは、あるカテゴリに属する文書における個々の
キーワードの出現頻度といった情報をカテゴリへの貢献
度とするとともに、未分類文書情報に含まれる個々の単
語の貢献度をカテゴリごとに加算して各カテゴリへの関
連度とし、最大の関連度をもつカテゴリへと分類し、格
納するものである。また特開平8−221439号公報
はニューラルネットワークを利用して分類を行うもので
ある。
【0003】分類決定木によるものとしては特開平5−
233706号公報、特開平5−234726号公報、
特開平9−16570号公報などがある。これらの公報
に記載されたものは、キーワードやその他の文書情報の
有無をもとに分類を決定する木を予め構成しておき、そ
れを利用して分類を決定するものである。
【0004】
【発明が解決しようとする課題】個々のキーワードの統
計情報に基づいて分類を行う場合、各キーワードのカテ
ゴリへの貢献度が加算される結果、分類に寄与したキー
ワードの組合せを判別するのが困難であり、利用者がそ
の分類の良否を判断することが難しい。また例えば複数
ある内のあるカテゴリ(例えばカテゴリAとする)には
キーワードa及びキーワードbを共に含む文書を、その他
のカテゴリ(つまりカテゴリA以外のカテゴリ)にはキ
ーワードaもしくはキーワードbのうちのいずれか一方と
共に他のキーワードを含むような文書を分類していて、
そこにキーワードa、キーワードb両方のキーワードを含
む未分類文書を分類する場合を考える。
【0005】各キーワードの貢献度の算出において、キ
ーワードの総出現文書数に応じて重みが小さくなるよう
な重みづけの方法を用いている場合、キーワードa、キ
ーワードbの両方を含む未分類の文書情報のカテゴリAへ
の関連度が小さく算出され、その未分類の文書情報に含
まれるキーワードのうち総出現文書数が少ないキーワー
ドの貢献度に左右されて、他のカテゴリに分類されると
いった問題があった。
【0006】一方、分類決定木を構成する方法では、冗
長性のない決定木を構成するため、例えば複数あるカテ
ゴリのうちのあるカテゴリ(カテゴリBとする)にある
いくつかのキーワード(キーワードa、キーワードbと
する)のいずれかを含む文書を分類しようとしたとき、
たまたま予めカテゴリBに分類された文書がキーワードb
を含むものばかりとなっていれば、決定木として例えば
キーワードbがあればカテゴリBに分類するというものが
構成され、キーワードaだけを含む文書を分類する知識
が得られないことになる。
【0007】本発明の目的は、従来技術における上記の
ような問題点を解決するためになされたものであり、い
くつかのカテゴリに分類された文書情報集合と未分類文
書情報とが与えられ、キーワードの組合せで出現する場
合にも対応し、かつ適切な分類すべきカテゴリを選定し
格納することが可能となる文書分類装置を得ることであ
る。
【0008】
【課題を解決するための手段】この発明に係る文書分類
装置は、文書番号および前記文書番号に対応する文書の
内容を特徴づけるキーワードを有するキーワード集合を
有する文書情報を対応するカテゴリに分類して格納する
格納手段と、前記格納手段の各カテゴリを特徴付けるた
めの情報であって、前記カテゴリに格納された文書情報
のキーワード集合に含まれる割合が高いキーワードを有
する特徴パターンを前記格納手段の各カテゴリ毎に抽出
するとともに、前記抽出した特徴パターンに重みを付与
する抽出手段と、未だ分類されていない文書情報のキー
ワード集合の一部または全部を含む特徴パターンをカテ
ゴリ毎に収集する特徴パターン収集手段と、前記特徴パ
ターン収集手段により収集した特徴パターンのうち、そ
の重みが最も高い特徴パターンを抽出したカテゴリを選
定し、前記選定したカテゴリへ未だ分類されていない文
書情報を格納する選定手段とを備えたことを特徴とする
ものである。
【0009】この発明に係る文書分類装置は、抽出した
特徴パターンに付与する重みを、特徴パターンに対応す
るカテゴリに格納された全ての文書情報のうち、前記特
徴パターンを含むキーワード集合を有する文書情報の割
合としたことを特徴とするものである。
【0010】この発明に係る文書分類装置は、抽出した
特徴パターンに付与する重みを、特徴パターンを含むキ
ーワード集合をもつ全カテゴリの文書のうち、当該特徴
パターンに対応するカテゴリに属する文書の割合とした
ことを特徴とするものである。
【0011】この発明に係る文書分類装置は、格納手段
に格納した所定の文書情報の集合において、カテゴリの
特徴パターンに対する条件付きエントロピーを前記特徴
パターンに付与する重みとしたことを特徴とするもので
ある。
【0012】この発明に係る文書分類装置は、抽出した
特徴パターンに付与する重みに前記特徴パターンを構成
するキーワード数を乗じたものを前記特徴パターンに付
与する重みとしたことを特徴とするものである。
【0013】この発明に係る文書分類装置は、文書番号
および前記文書番号に対応する文書の内容を特徴づける
キーワードを有するキーワード集合を有する文書情報を
対応するカテゴリに分類して格納する格納手段と、前記
格納手段の各カテゴリを特徴付けるための情報であっ
て、前記カテゴリに格納された文書情報のキーワード集
合に含まれる割合が高いキーワードを有する特徴パター
ンを前記格納手段の各カテゴリ毎に抽出する抽出手段
と、未だ分類されていない文書情報のキーワード集合の
一部または全部を含む特徴パターンをカテゴリ毎に収集
する特徴パターン収集手段と、前記未だ分類されていな
い文書情報がカテゴリへ属するのが適切とするべき確率
を各カテゴリ毎に算出するとともに、前記確率が最も大
きなカテゴリを選定し、前記選定したカテゴリへ未だ分
類されていない文書情報を格納する選定手段とを備えた
ことを特徴とするものである。
【0014】この発明に係る文書分類装置は、選定手段
は、前記特徴パターン収集手段により収集した特徴パタ
ーンのうち、その重みが高い特徴パターンを抽出したカ
テゴリまたは前記未だ分類されていない文書情報がカテ
ゴリへ属するのが適切とするべき確率が高い特徴パター
ンを抽出したカテゴリを選定し、前記選定手段により選
定したカテゴリの情報を表示するように構成したことを
特徴とするものである。
【0015】この発明に係る文書分類装置は、入力した
特徴パターンが格納手段に格納された文書情報の中にあ
るかどうかを検索する文書情報検索手段を備えたことを
特徴とするものである。
【0016】
【発明の実施の形態】実施の形態1.以下本発明の実施
の一形態を説明する。図1は実施の形態1の文書分類装
置を説明するための図である。図において、10は格納
手段、20は抽出手段、30は特徴パターン収集手段、
選定手段、40は選定手段、50は文書情報入力手段で
ある。
【0017】格納手段10は、例えばハードディスク、
フィレキシブルディスク等のような磁気記録媒体、MOデ
ィスクなどのような光磁気記録媒体といったように高い
記憶容量を有する情報記憶媒体を有するものである。格
納手段10は予めその内部にいくつかのカテゴリを有す
る。各カテゴリには予め文書に対応する番号を付与した
文書番号である文書ID、およびこの文書の内容を特徴
づけるキーワードを少なくとも1つ有するキーワード集
合を含む文書情報が格納されている。
【0018】カテゴリへの分類は例えばK平均法など何
らかのクラスタリングアルゴリズムを用いたものでもよ
いし、あるいは人手で行ったものでもよい。格納データ
形式の簡単な例としては、例えば各カテゴリに 文書ID1:キーワード1、キーワード2... 文書ID2:キーワード1、キーワード2... というように、複数の文書情報を文書情報の集合として
1つのファイルとしたものなどがある。
【0019】文書の内容そのものは、この文書の文書I
Dと対応づけて取り出せるように格納している。例え
ば、文書に対応する格納手段10の各カテゴリに文書の
内容に関する情報を格納しても良いし、または格納手段
10とは別体の格納手段(図示せず)に格納してもよ
い。
【0020】キーワード集合は文書情報の内容から予め
人手で付与しておいてもよいし、予め機械(図示せず)
などにより文書情報の内容を解析し、その結果を利用し
て付与してもよい。また「コンピューター」、「計算
機」などを例えば「コンピュータ」という統一したキー
ワードとして表すというようにその意味が同じである用
語を1つの統一したキーワードとして表すようにすれ
ば、いわゆる表記ゆれ、同義語を考慮しかつ、統一した
キーワードの付与が可能となる。
【0021】特徴パターン抽出手段20は、格納手段1
0に格納された文書情報のキーワード集合から、各カテ
ゴリの文書情報を特徴づける1つもしくはそれ以上のキ
ーワードの連言である特徴パターンをカテゴリごとに抽
出するとともに、抽出した特徴パターンに重みを付与す
るものである。以上の処理は実際に未分類の文書情報を
与えられて分類を行う前に処理しておくことが可能であ
る。
【0022】未分類文書入力手段50は格納手段10に
未だ分類されていない文書の文書情報(未分類文書情報
と称す)に含まれるキーワード集合を特徴パターン収集
手段30へ送る。特徴パターン収集手段30は、特徴パ
ターン抽出手段20が抽出した特徴パターンのうち、未
分類文書情報のキーワード集合の一部または全部を含む
特徴パターンをカテゴリ毎に収集する。
【0023】選定手段40は特徴パターン収集手段によ
り収集した各カテゴリの特徴パターンのうち、その重み
が最大となるものを、そのカテゴリへの関連度とし、関
連度が最大のカテゴリを選定した後、選定したカテゴリ
へ未分類文書情報を格納する。
【0024】このように構成することにより、未分類文
書情報を文書の内容に応じたカテゴリへ逐次格納するこ
とが可能となる。
【0025】特徴パターン抽出手段20により各カテゴ
リから抽出する特徴パターンとしては、例えばカテゴリ
の支持率が高い特徴パターン、カテゴリの確信度が高い
特徴パターン、これら2つがいずれも高い特徴パターン
等がある。
【0026】ここで、支持率、確信度を以下のように定
義する。カテゴリの支持率とは、少なくとも1つのキー
ワードを有する特徴パターンを備えた文書情報に対し、
カテゴリに属する文書情報集合のうち、当該特徴パター
ンを構成する全てのキーワードを含むキーワード集合を
備えた文書情報の割合とする。カテゴリの確信度とは、
当該特徴パターンを構成する全てのキーワードを含むキ
ーワード集合を備えた文書情報を格納する全てのカテゴ
リのうち、当該カテゴリに属する文書情報の割合とす
る。このように支持率、確信度が高い特徴パターンはそ
のカテゴリに属する文書情報を特徴づけるもの情報とな
りうる。
【0027】特徴パターン抽出手段20より抽出した特
徴パターンとして例えば、格納する文書情報の数が50
であるカテゴリCに対応して「コンピュータ」および
「ネットワーク」を共にキーワードとして有する特徴パ
ターンが支持率40%、確信度80%で抽出されたとす
る。これはカテゴリCに格納された全文書情報のうち、
「コンピュータ」および「ネットワーク」というキーワ
ードを含むキーワード集合を有するものがカテゴリCの
全文書情報のうちの40%すなわち20の文書情報がこ
れに相当し、それは格納手段10の中の全カテゴリに格
納された文書情報の中で、「コンピュータ」および「ネ
ットワーク」というキーワードを含むキーワード集合を
有する文書情報のうちの80%がカテゴリCに格納され
た文書情報であることを意味する。
【0028】実施の形態1では、特徴パターン抽出手段
20は、例えばあるカテゴリにおいて、予め定められた
値以上の最小支持率と予め定められた値以上の最小確信
度とを有するものを特徴パターンとして抽出するものを
例に説明する。
【0029】図2は、格納手段10、特徴パターン抽出
手段20の具体的な構成の一例を説明するための図であ
る。図において図1と同一の符号を付したものは同一ま
たはこれに相当するものである。図において、11は、
文書ID、文書IDに対応するキーワード集合をカテゴ
リに分類して、格納する記録部であり、記録部11は例
えばハードディスク装置、MOディスクまたはフロッピ
ーディスクなどを装着したディスク駆動装置などであ
る。12は、記録部11に記録された文書ID、文書I
Dに対応するキーワード集合をカテゴリ毎に読み出して
記憶するとともに、後述する制御部21により指定され
たカテゴリに格納された文書ID、文書IDに対応する
キーワード集合を有する文書情報を後述する候補パター
ン生成部24に出力する文書情報記憶部である。
【0030】また文書情報記憶部12は、多支持パター
ン集合生成部22または高確信度パターン出力部23に
よりカテゴリとパターンが指定されると、指定されたカ
テゴリにおいて、指定されたパターンを含むキーワード
集合をが出現する文書情報の数を計算し、多支持パター
ン集合生成部22または高確信度パターン出力部23に
出力する。文書情報記憶部12は、各文書情報におい
て、指定されたパターンが出現するか否かを検査する場
合、その文書情報を構成するキーワード集合の一部また
は全部がそのパターンに一致するか否かを検査する。
【0031】したがって、この検査を効率的に行うため
に、ハッシュテーブルやハッシュ木を用いて各文書情報
のキーワード集合に対して部分集合となる可能性のある
パターンを絞り込んだり、各パターン、文書情報におい
てキーワード集合を整列したり、あるいはビットパター
ンで表すようにしてもよい。なお、文書情報記憶部12
を所定のコンピュータネットワークに接続し、そのコン
ピュータネットワークを介して他の記録部から文書情報
を読み出すようにしてもよい。
【0032】24は、文書情報記憶部12より供給され
たあるカテゴリの文書IDに対応する各キーワードに対
し、1つのキーワードにより構成される候補パターンを
生成して、多支持パターン集合生成部22に出力すると
ともに、多支持パターン集合生成部22より供給され、
その多支持パターン集合の多支持パターンを構成するキ
ーワードの数をnとしたとき、(n−1)個のキーワー
ドが共通する任意の2つの多支持パターンから(n+
1)個のキーワードからなるパターンを生成し、そのパ
ターンの任意のn個のキーワードが多支持パターン集合
に含まれるものを候補パターンとして、新たな候補パタ
ーン集合を生成し、多支持パターン集合生成部22に出
力する候補パターン集合生成部である。
【0033】22は、候補パターン集合生成部24より
供給される各候補パターンについて、制御部21により
指定されたカテゴリにおいて、その候補パターンが出現
する文書情報の数とそのカテゴリに属するすべての文書
情報の数との比である支持率を、文書情報記憶部12を
利用して計算し、その支持率が所定のしきい値(または
最小支持率)以上であるパターンを新たな多支持パター
ンとして選択し、それらの多支持パターンの集合を高確
信度パターン出力部23と候補パターン集合生成部24
に出力する多支持パターン集合生成部である。
【0034】23は、多支持パターン集合生成部22よ
り供給される各パターンについて、制御部21により指
定されたクラスタにおいてそのパターンが出現する文書
情報の数とすべてのクラスタにおいてそのパターンが出
現する文書情報の数との比である確信度を、文書集合記
憶部12を利用して計算し、多支持パターン集合生成部
22より供給されたパターン集合から、確信度が所定の
最小確信度以上であるパターンを選択し、そのパターン
を出力する高確信度パターン出力部である。21は、文
書集合記憶部12、多支持パターン集合生成部22、高
確信度パターン出力部23、および候補パターン集合生
成部24を制御する制御部である。
【0035】図2に示すように構成すれば、多支持パタ
ーン集合生成部22より支持率の高い特徴パターンを抽
出することができ、高確信度パターン出力部23より確
信度の高い特徴パターンを抽出することができる。
【0036】このように支持率、確信度が高い特徴パタ
ーンはそのカテゴリに属する文書情報を特徴づけるもの
情報となりうる。未分類文書情報に対応する文書ID、
これに対応するキーワード集合を適切なカテゴリへ分類
するのに有用であるばかりか、キーワード検索を行う場
合において、キーワードの内容に関連するカテゴリを優
先して検索するようにすれば、検索時間の短縮が可能と
なる。
【0037】一般に、抽出する支持率のしきい値(最小
支持率)と抽出する確信度のしきい値(最小確信度)を
与えた場合、あるカテゴリに対応する特徴パターンは複
数のものが抽出される。しかしながら、最小支持率また
は最小確信度が高過ぎると特徴パターンが一つも抽出で
きない場合も考えられる。逆に最小支持率または最小確
信度が低過ぎると特徴パターンの抽出に時間がかかる
か、または必要以上に多くの特徴パターンが抽出されや
すくなる。
【0038】従って、最小支持率、最小確信度を予め高
い値に設定し、特徴パターンに対応するカテゴリの抽出
ができなければ、適切な数の特徴パターンの抽出ができ
るまで最小支持率、最小確信度を徐々に小さくするする
ように構成するのが望ましい。また特徴パターンの抽出
において、特徴パターンに含まれるキーワードの数を制
限することにより、あまりに複雑なパターンの抽出を抑
制することが可能である。
【0039】特徴パターン抽出手段20は抽出した各特
徴パターンに対し、相互比較可能な重みを与える。カテ
ゴリCiにおいて抽出された個々の特徴パターンpij
重みwijとしては、カテゴリCiに対する特徴パターン
ijの支持率、確信度、または条件つきエントロピーを
用いることなどが考えられる。または、カテゴリCi
おいて抽出された個々の特徴パターンpijの重みwij
して、特徴パターンpijを構成するキーワードの数その
ものをカテゴリCiの個々の特徴パターンpijの重みw
ijとしてもよい。
【0040】ここで、格納手段10に格納された所定の
文書情報の集合を文書集合Dとする。文書集合Dは格納
手段10に格納された一部または全ての文書情報であ
る。文書集合DにおけるカテゴリCiのパターンpに対
する条件付エントロピーEnti (D|p)とすると、
【0041】
【数1】
【0042】ここで、Dpは文書集合Dのうちパターン
pをキーワード集合の一部に含む文書の集合であり、
【0043】
【数2】
【0044】とする。ここで、Enti(D)は文書集
合DにおけるクラスタCiのエントロピーであり、
【0045】
【数3】
【0046】とすると、(3a)、(3b)よりEnt
i(D)は次式で表される。
【0047】
【数4】
【0048】以上いずれかの指標に従って、特徴パター
ン抽出手段20は抽出した各特徴パターンに重みを付与
していく。以上の処理は実際に未分類文書情報を与えら
れて分類を行う前に処理しておくことが可能である。
【0049】特徴パターン収集手段30は、未分類文書
情報のキーワード集合の一部または全部を含む特徴パタ
ーンをカテゴリごとに収集する。例えばカテゴリCの特
徴パターンとして「コンピュータ」および「ネットワー
ク」からなるものを特徴パターンとするもの、「コンピ
ュータ」および「制御」からなるものを特徴パターンと
するもの、「コンピュータ」を特徴パターンとするもの
が抽出されていて、未分類の文書情報のキーワード集合
が「コンピュータ、プロセッサ、ネットワーク、計算、
プログラム」であるとする。このとき、特徴パターン収
集手段30は、「コンピュータ」および「ネットワー
ク」と「コンピュータ」が未分類の文書情報のキーワー
ド集合に関連するカテゴリCの特徴パターンとして収集
する。
【0050】選定手段40は特徴パターン収集手段30
により収集した各カテゴリの特徴パターンのうち、その
重みが最大となるものを、そのカテゴリへの関連度と
し、関連度が最大となるカテゴリを選定した後、選定し
たカテゴリへ未分類の文書情報を格納する。
【0051】例えば特徴パターンの重みとして確信度を
用いていて、特徴パターン収集手段30が収集した特徴
パターンがカテゴリCに対応する確信度80%の「コン
ピュータ」および「ネットワーク」に対応する特徴パタ
ーン、同じくカテゴリCで確信度50%の「コンピュー
タ」に対応する特徴パターン、そしてカテゴリDで確信
度60%の「プロセッサ」に対応する特徴パターンであ
れば、選定手段40は未分類文書情報を格納手段10の
カテゴリの1つであるカテゴリCへ格納する。
【0052】このように実施の形態1によれば、各カテ
ゴリの文書情報を特徴づける1つもしくはそれ以上のキ
ーワードを有する特徴パターンをカテゴリごとに抽出
し、この抽出した特徴パターンに相互比較可能な重み
(例えば、支持率、確信度、条件付きエントロピー、特
徴パターンの重みにキーワード数を乗じたもの等)を与
えておき、各カテゴリより抽出された複数の特徴パター
ンに付与した重みのうち、その値が最大となるものをカ
テゴリへの関連度とし、この関連度が最大であるカテゴ
リを選択し、選択したカテゴリへ未分類文書の分類を行
うことにより、重みが最大となる特徴パターンを格納す
るカテゴリを選択し、このカテゴリへ未分類の文書情報
を格納することが可能となる。
【0053】更に格納された文書情報の集合から各カテ
ゴリの文書情報を特徴づけるキーワードの組合せパター
ンを抽出し、それを利用して分類するので、キーワード
が組合せで出現する場合にも対応することが可能である
とともに、分類の根拠がキーワードの組合せパターンで
あるため、利用者にとっても直観的に理解しやすく、分
類の良否の判断が容易になる。
【0054】個々の特徴パターンに付与する重みとして
確信度を用いた場合、その特徴パターンを含むキーワー
ド集合を有する文書情報が偏って格納されているカテゴ
リへる未分類の文書情報が格納される。
【0055】また、複数のカテゴリにおいて同一の特徴
パターンが収集された場合、個々のカテゴリで抽出され
た特徴パターンの重みとして支持率を用いれば、あるカ
テゴリにおいて最も出現する文書情報の割合が高い特徴
パターンに対応したカテゴリへ未分類の文書情報が格納
される。
【0056】また、個々の特徴パターンに付与する重み
として条件つきエントロピーを用いる場合、支持率と確
信度との両方を考慮することに相当する。これは、カテ
ゴリにおいて出現する文書情報の割合も高く、また他の
カテゴリにはあまり出現しないような特徴パターンに対
応したカテゴリへ未分類の文書情報が格納される。よっ
て、未分類の文書情報のキーワード集合に含まれるキー
ワードが多く格納されているカテゴリであって、未分類
の文書情報のキーワード集合に含まれるキーワードを含
む文書情報の割合が高いカテゴリへ格納することができ
るので、未分類の文書情報をより適切なカテゴリへ格納
することができる。
【0057】また、上述したいずれかの各特徴パターン
の重みと、この特徴パターンを構成するキーワードの数
とを乗じ、これを新たな重みとし、選定手段はこの新た
な重みが最大なものに対応する特徴パターンを格納する
カテゴリを選定するように構成すれば、特徴パターンを
構成するキーワードの数が多い特徴パターンに対応する
カテゴリへ未分類の文書情報が格納される。
【0058】実施の形態2.特徴パターン抽出手段20
は、格納手段10に格納された文書情報集合から、各カ
テゴリを特徴づける特徴パターンをカテゴリごとに抽出
した後、実施の形態1のように各特徴パターンに重みを
付与するのではなく、各特徴パターンを含む文書情報の
数を、対応するカテゴリとその他の全カテゴリの合計に
ついてそれぞれ付与し、選定手段40は未分類文書があ
るカテゴリに属するのが適切とするべき確率(推定確率
と称す)を算出するとともに、この推定確率をそのカテ
ゴリへの関連度とし、関連度が最大のカテゴリに未分類
文書を格納するように構成したことを特徴とするもので
ある。
【0059】各カテゴリにおける推定確率は以下のよう
に計算する。まず、あるカテゴリにおいて、未分類の文
書情報に含まれるキーワードに対応する特徴パターンが
全く収集されなければ、推定確率は0とする。次に、特
徴パターンが1つしか収集されなければ、その確信度が
そのまま推定確率として用いられる。一方、あるカテゴ
リに対応して複数の特徴パターンが収集された場合、当
該カテゴリに対する推定確率を計算する方法として、さ
まざまなものが考えられる。
【0060】例えば、各特徴パターンの確信度を推定確
率とするような構成の場合は、実施の形態1において説
明したものの一例と同じになる。
【0061】別の方法として、あるカテゴリに対応して
収集された複数の特徴パターンが同時に出現しているこ
とに着目した推定方法が考えられる。以下にその推定方
法を示す。
【0062】まず単純なケースとして、格納手段に格納
されている文書情報の数がNである文書情報の集合Dの
中のカテゴリCiにおいて、キーワードaからなる特徴パ
ターンpaとキーワードbからなる特徴パターンpbが収
集されたとする。また、各特徴パターンを含むキーワー
ド集合を持つ文書情報の集合をそれぞれDpa、Dpb
し、
【0063】
【数5】
【0064】とする。このときパターンpaとpbとを同
時に含む未分類文書がカテゴリCiに属する推定確率は
以下のように表される。
【0065】
【数6】
【0066】但し、N(X)は文書情報の集合Xに属す
る文書の数とする。ここで、例えばN(Ci∩Dpa
pb)は実際に文書情報の中から算出することも可能だ
が、そのような文書情報がたまたま存在しない場合もあ
り、また存在したとしても文書情報の数が小さくて統計
的に意味を持たない場合がある。ここでは、対応するカ
テゴリとその他の全カテゴリにおける各特徴パターンの
出現文書数から、間接的に算出する方法を考える。その
ための仮定として、Dpa及びDpbがCi及び
【0067】
【数7】
【0068】においてそれぞれ独立であるとする。この
とき、
【0069】
【数8】
【0070】となり、上記条件つき確率は各特徴パター
ンの対応するカテゴリとその他の全カテゴリにおける出
現文書数及び各カテゴリの総文書数から
【0071】
【数9】
【0072】のように計算できるため、これを用いると
P(Ci|Dpa∩Dpb)は、
【0073】
【数10】
【0074】ただし、
【0075】
【数11】
【0076】とする。このように(9)式により推定確
率を求めることが可能となる。
【0077】次にあるカテゴリにおいて収集された特徴
パターンのうちの少なくとも1つが複数のキーワードを
有するような場合を考える。複数の特徴パターンが重複
した構成キーワードを持っていない場合は、上記と同様
に考えればよい。重複したキーワードを持っている場合
は、そのキーワードが上記確率にどの程度寄与するかを
考慮する必要がある。
【0078】例えばカテゴリCiにおいてキーワードc、
dからなる特徴パターンpc,dとキーワードc、e、fか
らなる特徴パターンpc,e,fが収集されたとする。このと
き(9)式に従ってそのまま計算するとキーワードcの
寄与分が重複して考慮されることになる。これを避ける
ためには、各キーワードによる寄与分をそれぞれ考慮す
る必要があるが、その推定を容易にするための仮定とし
て、例えばある特徴パターンにおける各キーワードはそ
れぞれ独立しており、それぞれの寄与は均等であるとす
る。この仮定によれば特徴パターンpc,dに含まれるキー
ワードc、dの(9)式に対する寄与は
【0079】
【数12】
【0080】となる。同様に特徴パターンpc,e,fにおい
てはキーワードc、e、fの寄与は
【0081】
【数13】
【0082】と計算される。あるキーワードが収集され
た複数の特徴パターンに含まれる時、そのキーワードの
寄与は例えばそれぞれの特徴パターンにおいて算出され
た寄与の最大値とする。このようにしてあるカテゴリC
iにおいて収集された特徴パターンpに含まれるすべて
のキーワードkについてそれぞれの寄与Ri(k)を上
記により計算すれば、推定確率は
【0083】
【数14】
【0084】と計算される。このように実施の形態2に
よれば、未分類文書情報に応じてカテゴリごとに収集さ
れた特徴パターンから、未分類文書が各カテゴリに属す
るのが適切とするべき推定確率を各カテゴリごとに算出
し、推定確率が最大となるカテゴリを選定し、このカテ
ゴリへ未分類の文書情報を格納するようにしたので、未
分類の文書情報を適切なカテゴリへ格納することができ
る。特にカテゴリごとに収集された特徴パターンの構成
キーワードまで考慮した推定確率を算出するようにすれ
ば、実施の形態1より計算量は大きくなるものの、従来
頻出しなかった新たなキーワードの組合せにも対応した
分類が可能となる。
【0085】実施の形態3.図3は実施の形態3の文書
分類装置の構成を説明するための図である。図におい
て、図1、2と同一の符号を付したものは同一またはこ
れに相当するものである。60は分類決定インタフェー
ス、70は文書情報検索手段である。分類決定インタフ
ェース50は、表示画面を有し、表示画面には選定手段
40が選定したカテゴリと、その選定に関する情報、例
えば各カテゴリに対して収集された特徴パターン、特徴
パターンに対する重み、または未分類の文書情報とカテ
ゴリとの関連度等を表示するものである。利用者はその
表示された情報をもとに最終的に分類すべきカテゴリを
決定する。また、利用者は必要に応じて特徴パターンを
選択して文書情報検索手段70に送出し、その結果を参
照することが可能である。
【0086】文書情報検索手段70は与えられた特徴パ
ターンを含むキーワード集合をもつ文書情報を格納手段
10に格納された文書情報の集合から検索し、結果を分
類決定インタフェース60に表示する。必ずしも必要で
はないが、検索対象を特定のカテゴリに絞ったり、複数
の特徴パターンに関するAND検索、OR検索などが実行可
能であれば、より効率のよい検索を行うことが可能とな
る。
【0087】このように実施の形態3によれば、利用者
が分類選定に関する情報を参照しながら、分類を最終的
に決定することが可能である。特に、各カテゴリで収集
された特徴パターンはキーワードの連言であり、利用者
にとって直観的にわかりやすいため、必要に応じて特徴
パターンによる文書情報検索を行いながら、各カテゴリ
の特徴を把握した上で分類を最終的に決定することが可
能である。
【0088】上述した各実施の形態は、本発明の実施の
一形態として示したものであり、本発明はこれらに限定
されるべきものではない。本願発明は特許請求の範囲に
記載されたもの、またはその均等物を含むものである。
【0089】
【発明の効果】この発明に係る文書分類装置によれば、
文書番号および前記文書番号に対応する文書の内容を特
徴づけるキーワードを有するキーワード集合を有する文
書情報を対応するカテゴリに分類して格納する格納手段
と、前記格納手段の各カテゴリを特徴付けるための情報
であって、前記カテゴリに格納された文書情報のキーワ
ード集合に含まれる割合が高いキーワードを有する特徴
パターンを前記格納手段の各カテゴリ毎に抽出するとと
もに、前記抽出した特徴パターンに重みを付与する抽出
手段と、未だ分類されていない文書情報のキーワード集
合の一部または全部を含む特徴パターンをカテゴリ毎に
収集する特徴パターン収集手段と、前記特徴パターン収
集手段により収集した特徴パターンのうち、その重みが
最も高い特徴パターンを抽出したカテゴリを選定し、前
記選定したカテゴリへ未だ分類されていない文書情報を
格納する選定手段とを備えたので、未だ分類されていな
い文書情報を適切なカテゴリへ格納することができる。
【0090】この発明に係る文書分類装置によれば、抽
出した特徴パターンに付与する重みを、特徴パターンに
対応するカテゴリに格納された全ての文書情報のキーワ
ード集合うち、前記特徴パターンを含むキーワード集合
を有する文書情報の割合としたので、未だ分類されてい
ない文書情報を適切なカテゴリへ格納することができ
る。
【0091】この発明に係る文書分類装置によれば、抽
出した特徴パターンに付与する重みを、特徴パターンを
含むキーワード集合をもつ全カテゴリの文書のうち、当
該特徴パターンに対応するカテゴリに属する文書の割合
としたので、未だ分類されていない文書情報を適切なカ
テゴリへ格納することができる。
【0092】この発明に係る文書分類装置によれば、格
納手段に格納した所定の文書情報の集合において、カテ
ゴリの特徴パターンに対する条件付きエントロピーを前
記特徴パターンに付与する重みとしたので、未だ分類さ
れていない文書情報をより適切なカテゴリへ格納するこ
とができる。
【0093】この発明に係る文書分類装置によれば、抽
出した特徴パターンに付与する重みに前記特徴パターン
を構成するキーワード数を乗じたものを前記特徴パター
ンに付与する重みとしたので、未だ分類されていない文
書情報をより適切なカテゴリへ格納することができる。
【0094】この発明に係る文書分類装置によれば、文
書番号および前記文書番号に対応する文書の内容を特徴
づけるキーワードを有するキーワード集合を有する文書
情報を対応するカテゴリに分類して格納する格納手段
と、前記格納手段の各カテゴリを特徴付けるための情報
であって、前記カテゴリに格納された文書情報のキーワ
ード集合に含まれる割合が高いキーワードを有する特徴
パターンを前記格納手段の各カテゴリ毎に抽出する抽出
手段と、未だ分類されていない文書情報のキーワード集
合の一部または全部を含む特徴パターンをカテゴリ毎に
収集する特徴パターン収集手段と、前記未だ分類されて
いない文書情報がカテゴリへ属するのが適切とするべき
確率を各カテゴリ毎に算出するとともに、前記確率が最
も大きなカテゴリを選定し、前記選定したカテゴリへ未
だ分類されていない文書情報を格納する選定手段とを備
えたので、未だ分類されていない文書情報をより適切な
カテゴリへ格納することができる。
【0095】この発明に係る文書分類装置によれば、選
定手段は、前記特徴パターン収集手段により収集した特
徴パターンのうち、その重みが高い特徴パターンを抽出
したカテゴリまたは前記未だ分類されていない文書情報
がカテゴリへ属するのが適切とするべき確率が高い特徴
パターンを抽出したカテゴリを選定し、前記選定手段に
より選定したカテゴリの情報を表示するように構成した
ので、装置を使用するものが選定したカテゴリに対し適
宜判断することが可能となる。
【0096】この発明に係る文書分類装置は、入力した
特徴パターンが格納手段に格納された文書情報の中にあ
るかどうかを検索する文書情報検索手段を備えたので、
装置を利用するものは特徴パターンによる文書情報検索
を行いながら、各カテゴリの特徴を把握した上で分類を
最終的に決定することが可能である。
【図面の簡単な説明】
【図1】 実施の形態1の文書分類装置を説明するため
の図である。
【図2】 実施の形態1の文書分類装置を説明するため
の図である。
【図3】 実施の形態1の文書分類装置を説明するため
の図である。
【符号の説明】
10:格納手段 20:抽出
手段 30:特徴パターン収集手段 40:選定
手段 50:未文書情報入力手段

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文書番号および前記文書番号に対応する
    文書の内容を特徴づけるキーワードを有するキーワード
    集合を有する文書情報を対応するカテゴリに分類して格
    納する格納手段と、 前記格納手段の各カテゴリを特徴付けるための情報であ
    って、前記カテゴリに格納された文書情報のキーワード
    集合に含まれる割合が高いキーワードを有する特徴パタ
    ーンを前記格納手段の各カテゴリ毎に抽出するととも
    に、前記抽出した特徴パターンに重みを付与する抽出手
    段と、 未だ分類されていない文書情報のキーワード集合の一部
    または全部を含む特徴パターンをカテゴリ毎に収集する
    特徴パターン収集手段と、 前記特徴パターン収集手段により収集した特徴パターン
    のうち、その重みが最も高い特徴パターンを抽出したカ
    テゴリを選定し、前記選定したカテゴリへ未だ分類され
    ていない文書情報を格納する選定手段とを備えたことを
    特徴とする文書分類装置。
  2. 【請求項2】 抽出した特徴パターンに付与する重み
    を、 特徴パターンに対応するカテゴリに格納された全ての文
    書情報のうち、前記特徴パターンを含むキーワード集合
    を有する文書情報の割合としたことを特徴とする請求項
    1に記載の文書分類装置。
  3. 【請求項3】 抽出した特徴パターンに付与する重み
    を、 特徴パターンを含むキーワード集合をもつ全カテゴリの
    文書のうち、当該特徴パターンに対応するカテゴリに属
    する文書の割合としたことを特徴とする請求項1に記載
    の文書分類装置。
  4. 【請求項4】 格納手段に格納した所定の文書情報の集
    合において、 カテゴリの特徴パターンに対する条件付きエントロピー
    を前記特徴パターンに付与する重みとしたことを特徴と
    する請求項1に記載の文書分類装置。
  5. 【請求項5】 抽出した特徴パターンに付与する重みに
    前記特徴パターンを構成するキーワード数を乗じたもの
    を前記特徴パターンに付与する重みとしたことを特徴と
    する請求項2から4のいずれか1項に記載の文書分類装
    置。
  6. 【請求項6】 文書番号および前記文書番号に対応する
    文書の内容を特徴づけるキーワードを有するキーワード
    集合を有する文書情報を対応するカテゴリに分類して格
    納する格納手段と、 前記格納手段の各カテゴリを特徴付けるための情報であ
    って、前記カテゴリに格納された文書情報のキーワード
    集合に含まれる割合が高いキーワードを有する特徴パタ
    ーンを前記格納手段の各カテゴリ毎に抽出する抽出手段
    と、 未だ分類されていない文書情報のキーワード集合の一部
    または全部を含む特徴パターンをカテゴリ毎に収集する
    特徴パターン収集手段と、 前記未だ分類されていない文書情報がカテゴリへ属する
    のが適切とするべき確率を各カテゴリ毎に算出するとと
    もに、前記確率が最も大きなカテゴリを選定し、前記選
    定したカテゴリへ未だ分類されていない文書情報を格納
    する選定手段とを備えたことを特徴とする文書分類装
    置。
  7. 【請求項7】 選定手段は、前記特徴パターン収集手段
    により収集した特徴パターンのうち、その重みが高い特
    徴パターンを抽出したカテゴリまたは前記未だ分類され
    ていない文書情報がカテゴリへ属するのが適切とするべ
    き確率が高い特徴パターンを抽出したカテゴリを選定
    し、 前記選定手段により選定したカテゴリの情報を表示する
    ように構成したことを特徴とする請求項1から6のいず
    れかに記載の文書分類装置。
  8. 【請求項8】 入力した特徴パターンが格納手段に格納
    された文書情報の中にあるかどうかを検索する文書情報
    検索手段を備えたことを特徴とする請求項7に記載の文
    書分類装置。
JP11026483A 1999-02-03 1999-02-03 文書分類装置 Pending JP2000222431A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11026483A JP2000222431A (ja) 1999-02-03 1999-02-03 文書分類装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11026483A JP2000222431A (ja) 1999-02-03 1999-02-03 文書分類装置

Publications (1)

Publication Number Publication Date
JP2000222431A true JP2000222431A (ja) 2000-08-11

Family

ID=12194756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11026483A Pending JP2000222431A (ja) 1999-02-03 1999-02-03 文書分類装置

Country Status (1)

Country Link
JP (1) JP2000222431A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010088653A (ko) * 2001-08-17 2001-09-28 우연근 온오프라인 자료의 분류 표기방법
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
JP2003203082A (ja) * 2001-11-01 2003-07-18 Matsushita Electric Ind Co Ltd 文書分類システム
US6985908B2 (en) 2001-11-01 2006-01-10 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
JP2009163771A (ja) * 2001-11-02 2009-07-23 Thomson Reuters Global Resources ドキュメントを分類するシステム、方法、およびソフトウェア
WO2011086820A1 (ja) * 2010-01-15 2011-07-21 日本電気株式会社 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体
JP2013545189A (ja) * 2010-11-02 2013-12-19 アリババ・グループ・ホールディング・リミテッド マルチステージを使用したカテゴリ情報の決定
WO2017138549A1 (ja) * 2016-02-12 2017-08-17 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JP2018049478A (ja) * 2016-09-21 2018-03-29 日本電信電話株式会社 テキスト分析方法、テキスト分析装置、及びプログラム
JP2019021253A (ja) * 2017-07-21 2019-02-07 株式会社日立情報通信エンジニアリング 行動特徴量解析システムおよび行動特徴量解析方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
KR20010088653A (ko) * 2001-08-17 2001-09-28 우연근 온오프라인 자료의 분류 표기방법
JP2003203082A (ja) * 2001-11-01 2003-07-18 Matsushita Electric Ind Co Ltd 文書分類システム
US6985908B2 (en) 2001-11-01 2006-01-10 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
JP2009163771A (ja) * 2001-11-02 2009-07-23 Thomson Reuters Global Resources ドキュメントを分類するシステム、方法、およびソフトウェア
US9824142B2 (en) 2010-01-15 2017-11-21 Nec Corporation Information processing device, information processing method, and computer-readable recording medium
WO2011086820A1 (ja) * 2010-01-15 2011-07-21 日本電気株式会社 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体
JP2013545189A (ja) * 2010-11-02 2013-12-19 アリババ・グループ・ホールディング・リミテッド マルチステージを使用したカテゴリ情報の決定
WO2017138549A1 (ja) * 2016-02-12 2017-08-17 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
JPWO2017138549A1 (ja) * 2016-02-12 2018-12-13 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
US10803358B2 (en) 2016-02-12 2020-10-13 Nec Corporation Information processing device, information processing method, and recording medium
JP2018049478A (ja) * 2016-09-21 2018-03-29 日本電信電話株式会社 テキスト分析方法、テキスト分析装置、及びプログラム
JP2019021253A (ja) * 2017-07-21 2019-02-07 株式会社日立情報通信エンジニアリング 行動特徴量解析システムおよび行動特徴量解析方法

Similar Documents

Publication Publication Date Title
JP4141460B2 (ja) 自動分類生成
WO2021068683A1 (zh) 正则表达式生成方法、装置、服务器及计算机可读存储介质
RU2583716C2 (ru) Метод построения и обнаружения тематической структуры корпуса
JPWO2019102533A1 (ja) 文献分類装置
US8639643B2 (en) Classification of a document according to a weighted search tree created by genetic algorithms
JP2000222431A (ja) 文書分類装置
JP2009294939A (ja) 文書分類装置
Silla Jr et al. Automatic text summarization with genetic algorithm-based attribute selection
Vandic et al. A framework for product description classification in e-commerce
JP6936014B2 (ja) 教師データ収集装置、教師データ収集方法、及びプログラム
CN110347821B (zh) 一种文本类别标注的方法、电子设备和可读存储介质
JP4754849B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
EP1973045A1 (en) Organising and storing documents
JP2006251975A (ja) テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
KR100837797B1 (ko) 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치
JP4460417B2 (ja) 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置
Fors-Isalguez et al. Query-oriented text summarization based on multiobjective evolutionary algorithms and word embeddings
Hajlaoui et al. Enhancing patent expertise through automatic matching with scientific papers
JP6039057B2 (ja) 文書分析装置及び文書分析プログラム
Garnes Feature selection for text categorisation
JP2006072787A (ja) 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム
Kompan et al. News article classification based on a vector representation including words’ collocations
JP4125951B2 (ja) テキスト自動分類方法及び装置並びにプログラム及び記録媒体
JP2002183194A (ja) 検索式生成装置およびその方法
JP3772401B2 (ja) 文書分類装置