JP2002108894A - 文書分類装置、文書分類方法及び該方法を実行するための記録媒体 - Google Patents

文書分類装置、文書分類方法及び該方法を実行するための記録媒体

Info

Publication number
JP2002108894A
JP2002108894A JP2000293597A JP2000293597A JP2002108894A JP 2002108894 A JP2002108894 A JP 2002108894A JP 2000293597 A JP2000293597 A JP 2000293597A JP 2000293597 A JP2000293597 A JP 2000293597A JP 2002108894 A JP2002108894 A JP 2002108894A
Authority
JP
Japan
Prior art keywords
document
word
classification
partial
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000293597A
Other languages
English (en)
Inventor
Eiji Kenmochi
栄治 剣持
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000293597A priority Critical patent/JP2002108894A/ja
Publication of JP2002108894A publication Critical patent/JP2002108894A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 部分文書集合の分析に有効な情報を提供し、
文書集合からより多くの分析情報を抽出しうる文書分類
装置を提供する。 【解決手段】 文書解析部102は、文書入力部101
から入力した文書から単語情報を抽出し、文書分類部1
03がこれをもとに文書を部分文書集合に分類する。代
表語抽出部104は、部分文書集合から代表語セットを
抽出し、関連語抽出部105が、関連語辞書を用いて部
分文書集合の関連語セットを抽出する。部分文書集合情
報生成部106は、関連語セット及び代表語セットと部
分文書集合の文書集合に関する情報をもとに個々の部分
文書集合及びこれらの間の関連情報を生成し、分類結果
保存部107が文書分類部103の分類結果と部分集合
情報生成部106で生成された情報とをあわせて保存す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書分類装置、文
書分類方法及び該方法を実行するための記録媒体に関
し、情報分類、情報分析、情報検索等に応用可能な文書
分類技術に関する。
【0002】
【従来の技術】インターネット等の普及により大量の文
書情報へのアクセスが可能になり、収集した大量の文書
情報を意味のあるグループに分類し、文書集合の構造を
把握するなどの知的作業が行われ始めている。大量な文
書集合を分析する場合、まず文書集合をいくつかの話題
で分類し、得られた部分文書集合(ある基準で集められ
た複数の文書)を単位としてさまざまな作業を行うこと
で、分析作業を効率的に行うことができるものと考えら
れる。大量の文書情報をユーザが手動で分類する場合、
人的/時間的コストが膨大なものになるため、文書集合
を文書の内容により自動分類できる装置が望まれてい
る。
【0003】従来、膨大な文書集合からの質の高い分類
結果を得るための発明が広く行われている。例えば、特
開平7−36897号公報に記載の発明は、分類対象文
書集合に含まれる単語を特徴量とする文書特徴ベクトル
を用い、その文書特徴ベクトルに対してクラスタリング
手法を適用して分類を行うものである。上記の発明では
ユーザの意図を反映した分類を行うためにクラスタリン
グの初期重心ベクトルをユーザが指定することも示唆し
ている。
【0004】また、特開平11−296552号公報に
記載の発明は、単語の多義性/同義性を考慮するために
文書間の内積行列に特異値分解を適用することにより文
書間の単語の共起性を基に潜在的意味空間を生成して、
文書と単語を潜在的意味空間に射影し、その潜在的意味
空間においてクラスタリング手法などを用いて文書分類
を行うものである。このように膨大な文書集合からの質
の高い分類結果を得るための発明は種々提案されている
が、文書集合の分析を行うためには文書集合を分類する
だけは不十分であり、生成された部分文書集合からどの
ように有効な情報を抽出するかということも重要な問題
であるが、この点についての発明はあまり見られない。
【0005】また、形態素解析などの自然言語処理を用
いて文書からそれらを構成する単語を抽出することによ
り文書を単語頻度のベクトル(文書特徴ベクトル)とし
て空間表現することが可能となるが、これは文書ベクト
ル空間モデルと呼ばれ、広く用いられている。上述した
特開平7−36897号公報の発明は、このような文書
ベクトル空間において、クラスタリング手法を適用する
ことにより文書分類を行うものである。
【0006】このように文書ベクトル空間で統計的手法
を用いて文書分類処理や文書検索処理等を行う場合、文
書ベクトル空間が異なれば得られる結果の質も変わると
考えられるので、如何にして良い文書ベクトル空間を生
成するかが高品位な処理結果を得るためには重要な問題
となる。
【0007】前述したように、通常文書ベクトル空間の
各軸は分類対象文書データに形態素解析を適用した結果
抽出される単語をもとに構成されるため、例えば、特開
平11−110408号公報や特開平11−25948
7号公報に代表される発明は、検索問い合わせ語や検索
対象文書に対し、形態素解析を適用し、その結果抽出さ
れる単語から適切な条件のもとに複合語を生成し、これ
らの複合語の情報も前記文書ベクトル空間の生成に用い
ることで、文書ベクトル空間上で行う文書検索の精度の
向上を目的としている。従って、文書ベクトル空間で文
書分類処理を行う場合においても、複合語を考慮して文
書ベクトル空間を生成することで高品位な分類結果を得
ることが期待される。
【0008】ところで、上記先願を含め、通常複合語を
考慮する場合は、品詞が名詞もしくはそれに類するもの
が対象とされているが、名詞だけでなく他の結合可能な
品詞も適切に結合させることで、より高品位な文書ベク
トル空間を構成することが可能になると考えられる。す
なわち、先願の発明等ではあまり扱われることのなかっ
た、接頭詞、接尾詞、助数詞、及びそれらに類する品詞
を有する単語について、適切な基準でそれらの前後の単
語と結合することで生成される単語と置き換えるとも
に、品詞も適切なものに置き換えることを考える。
【0009】例えば、“イタリア製の車”という文字列
に対して形態素解析を適用し、“イタリア[普通名
詞]、製[接頭詞]、の[格助詞]、車”という結果が
得られた場合、接頭詞である“製”という単語に着目
し、これをこの直前に抽出されている“イタリア”とい
う普通名詞と結合し、“イタリア製”という単語を生成
し、これを普通名詞の品詞を有する単語として、“製”
という単語と置き換える。そして、この文字列に加え、
“イタリアの特色”、“イタリア製の皿”という文字列
で構成するベクトル空間を生成することを考えてみる。
【0010】名詞だけで空間を生成することを考えた場
合、前記の結合・置き換え処理を行わない場合、ベクト
ル空間を構成する単語は、“イタリア、車、特色、皿”
であり、前記文字列は、単語の出現頻度を座標値と考え
た場合、(1,0,1,0)、(1,0,0,0)、
(1,0,0,1)となる。この場合、前記3つの文字
列の相互の類似度をベクトル間の内積で計算すると、前
記3つの文字列の相互の類似度は同じものとなる。一
方、前記の結合・置き換え処理を行った後、名詞で空間
を生成すると、ベクトル空間を構成する単語は、“イタ
リア、イタリア製、車、特色、皿”となる。同様に、前
記3文書のこの空間でのベクトルは、(1,1,0,
1,0)、(1,0,0,0,0)、(1,1,0,
0,1)となる。この場合、前記3つの文字列の相互の
類似度には、差異が生じ、最初の文字列と最後の文字列
が2番目の文字列より高い類似度を持つことになる。す
なわち、この結合・置き換え処理によりベクトル空間に
より限定化された意味を測る特徴次元を加えることがで
き、これによりこのベクトル空間で行う文書分類等の質
も向上するものと考えられる。
【0011】また、“2000年の目標”という文字列
に対し形態素解析を適用し、“2000[数詞]、年
[助数詞]、の[格助詞]、目標[普通名詞]”のよう
な結果が得られているとする。このとき、助数詞である
“年”という単語に着目し、これをこの直前に抽出され
ている“2000”という数詞と結合し、“2000
年”という単語を生成し、これを普通名詞の品詞を有す
る単語として、“年”という単語と置き換え、かつ“2
000”という数詞を削除する。これにより、非常に漠
然とした意味しか有していない助数詞である“年”や
“2000”という単語にかえて、“2000年”とい
うより意味的に限定された、それゆえ変数としてはより
重要な単語をもとにして文書ベクトル空間が構成可能に
なることが期待される。
【0012】また、上述のようにインターネット等の普
及により大量の文書データへのアクセスが可能になり、
その結果として興味のある情報が記述されている文書デ
ータを簡単にかつ大量に収集できるようになったが、し
かしその一方で、収集した文書データが大量であるがた
めに、それら文書データから有効な情報を読み取る作業
は非常に困難なものになってしまっている。このため、
大量の文書データから自動もしくは半自動で有効な情報
を簡単に抽出することを目的として、文書検索や文書自
動分類に関する研究・開発が盛んに行われている。特
に、文書分類手法は、生成される複数の部分文書データ
集合個々を文書データに含まれる複数の話題を示すもの
と考えると、文書データ全体の構造を把握する手法とし
て非常に有効なものである。
【0013】上述のような目的のために開発された手法
の代表的なものに、Scatter/Gather法(D.Cutting et.a
l., Scater/Gather: A Cluster-based Approach to B r
owsing Large Document Collections., Proc. ACM SIGI
R ’92)がある。Scatter/Gather法では、文書データ集
合の話題を代表文書と代表単語によリ表現するととも
に、話題が不明瞭な文書集合に対して逐次クラスタリン
グを適用し、複数の部分文書データ集合に分割していく
ことで文書集合に含まれる様々な話題を理解していく。
文書集合の構造を理解するためには、文書集合に含まれ
る部分文書集合個々を理解することはもちろん必要であ
るが、加えて部分文書集合間の関係に関する情報も必要
であると考えられる。しかしながら、Scatter/Gather法
では個々の部分文書集合に関する情報しか提示されてい
ないため、Scatter/Gather法のみでは文書集合の構造を
把握することは困難であると考えられる。
【0014】また、一般的に文書分類手法においては、
生成する部分文書集合の数が実行前に必要であるが、最
適な部分文書集合の数を予測することは極めて困難であ
る。しかも、一方で生成する部分文書集合の数が異なれ
ば生成される部分文書集合の構造も変化してしまう。こ
のため、必要な情報を得るためには生成する部分文書集
合の数をかえながら、繰り返し文書分類を行わなければ
ないらない。Scatter/Gather法はこの点についても一つ
の解決法を提示しており、ユーザがより詳細な構造を知
りたいと考える部分文書集合のみに対し逐次クラスタリ
ングを適用し、あらたな部分文書集合を生成し、それら
を詳細に分析することで所望の情報を得ることができる
とともに、この行為により文書集合全体の構造を理解す
ることも容易になっていると考えられる。
【0015】すなわち、ユーザが行いたいことは文書集
合の構造の把握であり、部分文書集合を生成するという
行為は本来ユーザが行う必要がないものと考えられる。
そして、ユーザが、事前に文書集合から様々な数の部分
文書集合を生成し、生成された多数の部分文書集合間の
関係を算出しておくことで、ユーザは始めから構造の把
握を行う作業に集中できると考えられる。しかしなが
ら、前述の通りScatter/Gather法は部分文書間の関連に
関しては考慮されていない。
【0016】
【発明が解決しようとする課題】本発明の請求項1〜
4,14〜17,及び27〜30の発明では、文書分類
を行うとともに、単語の関連語情報を基に生成された部
分文書集合個々及びそれらの関連情報をさらに生成する
ことで部分文書集合の分析に有効な情報を提供すること
を目的とする。さらに、関連語として反対語に着目する
ことで、各部分文書集合の代表語セットの反対語を含む
部分文書集合が、生成された部分文書集合にはない場
合、反対語を含むあらたな部分文書集合を生成すること
で、文書集合からより多くの分析情報を抽出しうる文書
分類装置を提供することを目的とする。
【0017】従って請求項1,14及び27の発明は、
生成された部分文書集合それぞれの代表語セットを抽出
し、さらにそれら代表語それぞれについて関連語を求
め、これらの情報をもとに各部分文書集合および部分文
書集合間の関連情報を生成することで、部分文書集合の
分析に有効な情報を提供する文書分類装置、方法または
記録媒体を提供することを目的とする。
【0018】請求項2,15及び28の発明は、関連語
として同義語、類義語、反対語のすくなくとも一つ以上
の組合わせを用いることで主に類似性に関す情報を提供
する文書分類装置、方法または記録媒体を提供すること
を目的とする。
【0019】請求項3,4,16,17,29及び30
の発明は、各部分文書集合の代表語セットの関連語とし
て反対語を用い、反対語が自分を含む他のどの部分文書
集合の代表語セットとも一致しない場合、その反対語を
含む文書を文書集合から抽出し、それを新たな部分文書
集合とすることで、文書集合からより多くの分析情報を
抽出する文書分類装置、方法または記録媒体を提供する
ことを目的とする。
【0020】また請求項5,18及び31の発明は、分
類対象文書に形態素解析し、得られた解析結果をもとに
分類対象文書を幾つかの文書集合に分類する文書分類装
置において、形態素解析の結果得られる単語のうち指定
される品詞をもつ単語について、その前後の単語と適切
に組合わせた単語と置き換え、かつ品詞もまた適切なも
のに置き換える処理を施すことによって、高品位な文書
ベクトル空間を構成し、この文書ベクトル空間で統計処
理を用いて文書分類を行うことで高品質な文書分類結果
を得ることができる文書分類装置、方法または記録媒体
を提供することを目的とする。
【0021】請求項6,19及び32の発明は、文書分
類を行うための統計手法として、クラスタリング手法を
用いることで、簡便に高品質な文書分類結果を得ること
ができる文書分類装置、方法または記録媒体を提供する
ことを目的とする。
【0022】請求項7,20及び33の発明は、分類対
象文書に形態素解析を適用することで抽出される単語の
中で、特に、品詞が、接頭詞、接尾詞、助数詞、及びそ
れらに類する品詞である単語について、適切な結合処理
を施こすことで、高品質な文書ベクトル空間を得ること
ができる文書分類装置、方法または記録媒体を提供する
ことを目的とする。
【0023】請求項8,21及び34の発明は、単語の
結合処理において特定の品詞の単語が出現するまで単語
の結合を続けることによって新たな単語を生成すること
で、高品質な文書ベクトル空間を得ることができる文書
分類装置、方法または記録媒体を提供することを目的と
する。
【0024】請求項9,22及び35の発明は、単語の
結合処理において、品詞が数詞接尾詞もしくは助数詞の
単語について、結合される複数の単語を削除し、文書ベ
クトル空間を生成する際にはそれらの単語の情報は用い
ないことで、高品質な文書ベクトル空間を得ることがで
きる文書分類装置、方法または記録媒体を提供すること
を目的とする。
【0025】また本発明の請求項10〜13,23〜2
6及び36〜39の発明では、事前に文書集合から様々
な数の部分文書集合を生成し、生成された多数の部分文
書集合間の関係を算出することで、ユーザが始めから文
書集合の構造の把握を行う作業に集中できる情報を提供
することを目的とする。
【0026】従って請求項10,23及び36の発明
は、文書のベクトル空間モデルを用い、生成する部分文
書集合の数をパラメータとして繰り返し文書分類処理を
行うことで、多数の部分文書集合を生成し、さらに生成
された多数の文書集合について相互の関係を算出するこ
とで、文書集合の構造の把握を支援しうる情報を生成す
る文書分類装置を提供する文書分類装置、方法または記
録媒体を提供することを目的とする。
【0027】請求項11,24及び37の発明は、文書
分類を行う統計手法として、非階層クラスタリング手法
を用いることで、簡便に多数の部分文書集合を生成する
文書分類装置、方法または記録媒体を提供することを目
的とする。
【0028】請求項12,25及び38の発明は、生成
された多数の文書集合について相互の関係として、類似
関係と包含関係を算出することで、容易に文書集合の構
造を把握しうる情報を提供する文書分類装置、方法また
は記録媒体を提供することを目的とする。
【0029】請求項13,26及び39の発明は、生成
された多数の文書集合が有する情報のうち、単語に関す
る情報のみを用いて相互の関係を算出することで、汎用
性・再利用性の高い関係情報を算出する文書分類装置、
方法または記録媒体を提供することを目的とする。
【0030】
【課題を解決するための手段】請求項1の発明は、文書
集合をその内容に従って分類する文書分類装置であっ
て、複数の文書を入力する文書入力部と、該文書入力部
にて入力された各文書から該各文書を構成する単語情報
を抽出する文書解析部と、該文書解析部にて抽出された
各文書の単語情報をもとに前記複数の文書による文書集
合をいくつかの部分文書集合に分類する文書分類部と、
該文書分類部にて分類された各部分文書集合からそれら
の代表語セットを抽出する代表語抽出部と、任意の単語
についてその関連語が記述された関連語辞書を用いて前
記代表語抽出部にて抽出した各部分文書集合の代表語セ
ットそれぞれについて関連語セットを抽出する関連語抽
出部と、該関連語抽出部にて抽出した関連語セットと前
記代表語抽出部で抽出した代表語セットと各部分文書集
合に所属する文書に関する情報とをもとに個々の部分文
書集合及び部分文書集合間の関連情報を生成する部分文
書集合情報生成部と、前記文書分類部での分類結果を前
記部分文書集合情報生成部にて生成された情報と合わせ
て保存する分類結果保存部とを含むことを特徴としたも
のである。
【0031】請求項2の発明は、請求項1の発明におい
て、前記関連語抽出部にて抽出される関連語セットが、
同義語、類義語、反対語のうちの少なくとも一つ以上の
組合わせであることを特徴としたものである。
【0032】請求項3の発明は、請求項1の発明におい
て、前記関連語抽出部にて抽出される関連語セットが少
なくとも反対語を含み、ある部分文書集合の代表語セッ
トから抽出された反対語セットが、自分を含む他のどの
部分文書集合の代表語セットとも一致しない場合、該一
致しない反対語セットを含む文書を文書集合から抽出
し、あらたな部分文書集合を生成する処理を全部分文書
集合に対し再帰的に繰り返す反意部分文書集合生成部を
さらに含むことを特徴としたものである。
【0033】請求項4の発明は、請求項1の発明におい
て、前記関連語抽出部にて抽出される関連語が少なくと
も反対語を含み、ある部分文書集合の代表語セットから
抽出された反対語セットが、自分を含む他のどの部分文
書集合の代表語セットとも一致しない場合、該一致しな
い反対語セットと代表語セットから反対語セットに対応
する代表語を除いた単語セットを含む文書を文書集合か
ら抽出し、あらたな部分文書集合を生成する処理を全部
分文書集合に対し再帰的に繰り返す反意部分文書集合生
成部をさらに含むことを特徴としたものである。
【0034】請求項5の発明は、文書の内容に従って文
書の分類を行う文書分類装置であって、文書データを入
力する文書入力部と、前記文書データに形態素解析を適
用し、前記文書データを構成する単語をそれらの品詞情
報等とともに抽出する文書解析部と、該文書解析部にて
抽出された文書データの解析情報から文書データを多次
元ベクトル空間で表現するための文書ベクトル空間を生
成する文書ベクトル空間生成部と、該文書ベクトル空間
生成部にて生成した文書ベクトル空間において統計手法
を用いることにより文書データの分類を行う文書分類部
とを含み、前記文書解析部にて抽出される特定の品詞を
有する単語を、該特定の品詞の品詞情報に基づき、該特
定の品詞の前後に抽出される一つ以上の単語と結合する
ことにより生成される単語と置き換え、かつ該特定の品
詞の品詞情報も適切に置き換えることを特徴としたもの
である。
【0035】請求項6の発明は、請求項5の発明におい
て、前記文書分類部において統計手法としてクラスタリ
ング法を用いることで文書データの分類を行うことを特
徴としたものである。
【0036】請求項7の発明は、請求項5または6の発
明において、前記文書解析部において品詞が接頭詞、接
尾詞、助数詞、及びそれらに類する品詞である単語につ
いて、単語および品詞の置き換えを行うことを特徴とし
たものである。
【0037】請求項8の発明は、請求項5ないし7のい
ずれか1の発明において、前記文書解析部において特定
の品詞の単語が出現するまで単語の結合を続けることを
特徴としたものである。
【0038】請求項9の発明は、請求項5ないし8のい
ずれか1の発明において、前記文書解析部において品詞
が数詞接尾詞もしくは助数詞の単語について、該数詞接
尾詞もしくは助数詞の単語に結合される複数の単語を削
除し、前記文書分類部では削除した単語の情報を用いな
いことを特徴としたものである。
【0039】請求項10の発明は、文書の内容に従って
文書データ集合を分類する文書分類装置であって、文書
データ集合を入力する文書入力部と、すべての文書デー
タに形態素解析を適用し、前記文書データを構成する単
語をそれらの品詞情報等とともに抽出する文書解析部
と、該文書解析部にて抽出された文書データの解析結果
を記憶する文書解析結果記憶部と、前記文書解析部にて
抽出された文書データの解析情報から前記文書データを
多次元ベクトル空間で表現するためのベクトル空間を生
成する文書ベクトル空間生成部と、該文書ベクトル空間
生成部にて生成された文書ベクトル空間の各文書データ
のベクトルデータを記憶する文書ベクトルデータ記憶部
と、指定される条件から文書データ集合の分類数を決定
する分類数決定部と、前記文書ベクトル空間生成部にて
生成した文書ベクトル空間において統計手法を用いるこ
とにより文書データを前記指定された分類数の部分文書
集合に分類する文書分類部と、該文書分類部で生成され
た分類結果を記憶する分類結果記憶部と、前記分類数決
定部から前記分類結果記憶部までの処理を繰り返し行う
か否かの判定をおこなう繰り返し判定部と、前記文書ベ
クトルデータ記憶部と前記分類結果記憶部に記憶された
情報を用いて生成されたすべての部分文書集合間の関係
情報を算出する部分文書集合間関係算出部と、該部分文
書集合間関係算出部にて生成された部分文書集合間の関
係情報を記憶する部分文書集合間関係記憶部とを含むこ
とを特徴としたものである。
【0040】請求項11の発明は、請求項10の発明に
おいて、前記文書分類部にて用いられる統計手法が非階
層クラスタリング手法であることを特徴としたものであ
る。
【0041】請求項12の発明は、請求項10または1
1の発明において、前記部分文書集合間関係算出部にて
算出される関係が、類似関係と包含関係であることを特
徴としたものである。
【0042】請求項13の発明は、請求項12の発明に
おいて、前記部分文書集合間の関係は各部分文書集合か
ら抽出される単語情報のみを用いて算出されることを特
徴としたものである。
【0043】請求項14の発明は、文書集合をその内容
に従って分類する文書分類方法であって、複数の文書を
入力する文書入力ステップと、該文書入力ステップにて
入力された各文書から該各文書を構成する単語情報を抽
出する文書解析ステップと、該文書解析ステップにて抽
出された各文書の単語情報をもとに前記複数の文書によ
る文書集合をいくつかの部分文書集合に分類する文書分
類ステップと、該文書分類ステップにて分類された各部
分文書集合からそれらの代表語セットを抽出する代表語
抽出ステップと、任意の単語についてその関連語が記述
された関連語辞書を用いて前記代表語抽出ステップにて
抽出した各部分文書集合の代表語セットそれぞれについ
て関連語セットを抽出する関連語抽出ステップと、該関
連語抽出ステップにて抽出した関連語セットと前記代表
語抽出ステップで抽出した代表語セットと各部分文書集
合に所属する文書に関する情報とをもとに個々の部分文
書集合及び部分文書集合間の関連情報を生成する部分文
書集合情報生成ステップと、前記文書分類ステップでの
分類結果を前記部分文書集合情報生成部にて生成された
情報と合わせて保存する分類結果保存ステップとを含む
ことを特徴としたものである。
【0044】請求項15の発明は、請求項14の発明に
おいて、前記関連語抽出ステップにて抽出される関連語
セットが、同義語、類義語、反対語のうちの少なくとも
一つ以上の組合わせであることを特徴としたものであ
る。
【0045】請求項16の発明は、請求項14の発明に
おいて、前記関連語抽出ステップにて抽出される関連語
セットが少なくとも反対語を含み、ある部分文書集合の
代表語セットから抽出された反対語セットが、自分を含
む他のどの部分文書集合の代表語セットとも一致しない
場合、該一致しない反対語セットを含む文書を文書集合
から抽出し、あらたな部分文書集合を生成する処理を全
部分文書集合に対し再帰的に繰り返す反意部分文書集合
生成ステップをさらに含むことを特徴としたものであ
る。
【0046】請求項17の発明は、請求項14の発明に
おいて、前記関連語抽出ステップにて抽出される関連語
が少なくとも反対語を含み、ある部分文書集合の代表語
セットから抽出された反対語セットが、自分を含む他の
どの部分文書集合の代表語セットとも一致しない場合、
該一致しない反対語セットと代表語セットから反対語セ
ットに対応する代表語を除いた単語セットを含む文書を
文書集合から抽出し、あらたな部分文書集合を生成する
処理を全部分文書集合に対し再帰的に繰り返す反意部分
文書集合生成ステップをさらに含むことを特徴としたも
のである。
【0047】請求項18の発明は、文書の内容に従って
文書の分類を行う文書分類方法であって、文書データを
入力する文書入力ステップと、前記文書データに形態素
解析を適用し、前記文書データを構成する単語をそれら
の品詞情報等とともに抽出する文書解析ステップと、該
文書解析ステップにて抽出された文書データの解析情報
から文書データを多次元ベクトル空間で表現するための
文書ベクトル空間を生成する文書ベクトル空間生成ステ
ップと、該文書ベクトル空間生成ステップにて生成した
文書ベクトル空間において統計手法を用いることにより
文書データの分類を行う文書分類ステップとを含み、前
記文書解析ステップにて抽出される特定の品詞を有する
単語を、該特定の品詞の品詞情報に基づき、該特定の品
詞の前後に抽出される一つ以上の単語と結合することに
より生成される単語と置き換え、かつ該特定の品詞の品
詞情報も適切に置き換えることを特徴としたものであ
る。
【0048】請求項19の発明は、請求項18の発明に
おいて、前記文書分類ステップにおいて統計手法として
クラスタリング法を用いることで文書データの分類を行
うことを特徴としたものである。
【0049】請求項20の発明は、請求項18または1
9の発明において、前記文書解析ステップにおいて品詞
が接頭詞、接尾詞、助数詞、及びそれらに類する品詞で
ある単語について、単語および品詞の置き換えを行うこ
とを特徴としたものである。
【0050】請求項21の発明は、請求項18ないし2
0のいずれか1の発明において、前記文書解析ステップ
において特定の品詞の単語が出現するまで単語の結合を
続けることを特徴としたものである。
【0051】請求項22の発明は、請求項18ないし2
1のいずれか1の発明において、前記文書解析ステップ
において品詞が数詞接尾詞もしくは助数詞の単語につい
て、該数詞接尾詞もしくは助数詞の単語に結合される複
数の単語を削除し、前記文書分類ステップでは削除した
単語の情報を用いないことを特徴としたものである。
【0052】請求項23の発明は、文書の内容に従って
文書データ集合を分類する文書分類方法であって、文書
データ集合を入力する文書入力ステップと、すべての文
書データに形態素解析を適用し、前記文書データを構成
する単語をそれらの品詞情報等とともに抽出する文書解
析ステップと、該文書解析ステップにて抽出された文書
データの解析結果を記憶する文書解析結果記憶ステップ
と、前記文書解析ステップにて抽出された文書データの
解析情報から前記文書データを多次元ベクトル空間で表
現するためのベクトル空間を生成する文書ベクトル空間
生成ステップと、該文書ベクトル空間生成ステップにて
生成された文書ベクトル空間の各文書データのベクトル
データを記憶する文書ベクトルデータ記憶ステップと、
指定される条件から文書データ集合の分類数を決定する
分類数決定ステップと、前記文書ベクトル空間生成ステ
ップにて生成した文書ベクトル空間において統計手法を
用いることにより文書データを前記指定された分類数の
部分文書集合に分類する文書分類ステップと、該文書分
類ステップで生成された分類結果を記憶する分類結果記
憶ステップと、前記分類数決定ステップから前記分類結
果記憶ステップまでの処理を繰り返し行うか否かの判定
をおこなう繰り返し判定ステップと、前記文書ベクトル
データ記憶ステップと前記分類結果記憶ステップにて記
憶された情報を用いて生成されたすべての部分文書集合
間の関係情報を算出する部分文書集合間関係算出ステッ
プと、該部分文書集合間関係算出ステップにて生成され
た部分文書集合間の関係情報を記憶する部分文書集合間
関係記憶ステップとを含むことを特徴としたものであ
る。
【0053】請求項24の発明は、請求項23の発明に
おいて、前記文書分類ステップにて用いられる統計手法
が非階層クラスタリング手法であることを特徴としたも
のである。
【0054】請求項25の発明は、請求項23または2
4の発明において、前記部分文書集合間関係算出ステッ
プにて算出される関係が、類似関係と包含関係であるこ
とを特徴としたものである。
【0055】請求項26の発明は、請求項25の発明に
おいて、前記部分文書集合間の関係は各部分文書集合か
ら抽出される単語情報のみを用いて算出されることを特
徴としたものである。
【0056】請求項27の発明は、文書集合をその内容
に従って分類する文書分類方法を実行するためのプログ
ラムを記録したコンピュータ読み取り可能な記録媒体で
あって、複数の文書を入力する文書入力ステップと、該
文書入力ステップにて入力された各文書から該各文書を
構成する単語情報を抽出する文書解析ステップと、該文
書解析ステップにて抽出された各文書の単語情報をもと
に前記複数の文書による文書集合をいくつかの部分文書
集合に分類する文書分類ステップと、該文書分類ステッ
プにて分類された各部分文書集合からそれらの代表語セ
ットを抽出する代表語抽出ステップと、任意の単語につ
いてその関連語が記述された関連語辞書を用いて前記代
表語抽出ステップにて抽出した各部分文書集合の代表語
セットそれぞれについて関連語セットを抽出する関連語
抽出ステップと、該関連語抽出ステップにて抽出した関
連語セットと前記代表語抽出ステップで抽出した代表語
セットと各部分文書集合に所属する文書に関する情報と
をもとに個々の部分文書集合及び部分文書集合間の関連
情報を生成する部分文書集合情報生成ステップと、前記
文書分類ステップでの分類結果を前記部分文書集合情報
生成部にて生成された情報と合わせて保存する分類結果
保存ステップとを含む文書分類方法を実行するためのプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体である。
【0057】請求項28の発明は、請求項27に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記関連
語抽出ステップにて抽出される関連語セットが、同義
語、類義語、反対語のうちの少なくとも一つ以上の組合
わせである文書分類方法を実行するためのプログラムを
記録したコンピュータ読み取り可能な記録媒体である。
【0058】請求項29の発明は、請求項27に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記関連
語抽出ステップにて抽出される関連語セットが少なくと
も反対語を含み、ある部分文書集合の代表語セットから
抽出された反対語セットが、自分を含む他のどの部分文
書集合の代表語セットとも一致しない場合、該一致しな
い反対語セットを含む文書を文書集合から抽出し、あら
たな部分文書集合を生成する処理を全部分文書集合に対
し再帰的に繰り返す反意部分文書集合生成ステップをさ
らに含む文書分類方法を実行するためのプログラムを記
録したコンピュータ読み取り可能な記録媒体である。
【0059】請求項30の発明は、請求項27に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記関連
語抽出ステップにて抽出される関連語が少なくとも反対
語を含み、ある部分文書集合の代表語セットから抽出さ
れた反対語セットが、自分を含む他のどの部分文書集合
の代表語セットとも一致しない場合、該一致しない反対
語セットと代表語セットから反対語セットに対応する代
表語を除いた単語セットを含む文書を文書集合から抽出
し、あらたな部分文書集合を生成する処理を全部分文書
集合に対し再帰的に繰り返す反意部分文書集合生成ステ
ップをさらに含む文書分類方法を実行するためのプログ
ラムを記録したコンピュータ読み取り可能な記録媒体で
ある。
【0060】請求項31の発明は、文書の内容に従って
文書の分類を行う文書分類方法を実行するためのプログ
ラムを記録したコンピュータ読み取り可能な記録媒体で
あって、文書データを入力する文書入力ステップと、前
記文書データに形態素解析を適用し、前記文書データを
構成する単語をそれらの品詞情報等とともに抽出する文
書解析ステップと、該文書解析ステップにて抽出された
文書データの解析情報から文書データを多次元ベクトル
空間で表現するための文書ベクトル空間を生成する文書
ベクトル空間生成ステップと、該文書ベクトル空間生成
ステップにて生成した文書ベクトル空間において統計手
法を用いることにより文書データの分類を行う文書分類
ステップとを含み、前記文書解析ステップにて抽出され
る特定の品詞を有する単語を、該特定の品詞の品詞情報
に基づき、該特定の品詞の前後に抽出される一つ以上の
単語と結合することにより生成される単語と置き換え、
かつ該特定の品詞の品詞情報も適切に置き換える文書分
類方法を実行するためのプログラムを記録したコンピュ
ータ読み取り可能な記録媒体である。
【0061】請求項32の発明は、請求項31に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記文書
分類ステップにおいて統計手法としてクラスタリング法
を用いることで文書データの分類を行う文書分類方法を
実行するためのプログラムを記録したコンピュータ読み
取り可能な記録媒体である。
【0062】請求項33の発明は、請求項31または3
2に記載の文書分類方法を実行するためのプログラムを
記録したコンピュータ読み取り可能な記録媒体におい
て、前記文書解析ステップにおいて品詞が接頭詞、接尾
詞、助数詞、及びそれらに類する品詞である単語につい
て、単語及び品詞の置き換えを行う文書分類方法を実行
するためのプログラムを記録したコンピュータ読み取り
可能な記録媒体である。
【0063】請求項34の発明は、請求項31ないし3
3のいずれか1に記載の文書分類方法を実行するための
プログラムを記録したコンピュータ読み取り可能な記録
媒体において、前記文書解析ステップにおいて特定の品
詞の単語が出現するまで単語の結合を続ける文書分類方
法を実行するためのプログラムを記録したコンピュータ
読み取り可能な記録媒体である。
【0064】請求項35の発明は、請求項31ないし3
4のいずれか1に記載の文書分類方法を実行するための
プログラムを記録したコンピュータ読み取り可能な記録
媒体において、前記文書解析ステップにおいて品詞が数
詞接尾詞もしくは助数詞の単語について、該数詞接尾詞
もしくは助数詞の単語に結合される複数の単語を削除
し、前記文書分類ステップでは削除した単語の情報を用
いない文書分類方法を実行するためのプログラムを記録
したコンピュータ読み取り可能な記録媒体である。
【0065】請求項36の発明は、文書の内容に従って
文書データ集合を分類する文書分類方法を実行するため
のプログラムを記録したコンピュータ読み取り可能な記
録媒体であって、文書データ集合を入力する文書入力ス
テップと、すべての文書データに形態素解析を適用し、
前記文書データを構成する単語をそれらの品詞情報等と
ともに抽出する文書解析ステップと、該文書解析ステッ
プにて抽出された文書データの解析結果を記憶する文書
解析結果記憶ステップと、前記文書解析ステップにて抽
出された文書データの解析情報から前記文書データを多
次元ベクトル空間で表現するためのベクトル空間を生成
する文書ベクトル空間生成ステップと、該文書ベクトル
空間生成ステップにて生成された文書ベクトル空間の各
文書データのベクトルデータを記憶する文書ベクトルデ
ータ記憶ステップと、指定される条件から文書データ集
合の分類数を決定する分類数決定ステップと、前記文書
ベクトル空間生成ステップにて生成した文書ベクトル空
間において統計手法を用いることにより文書データを前
記指定された分類数の部分文書集合に分類する文書分類
ステップと、該文書分類ステップで生成された分類結果
を記憶する分類結果記憶ステップと、前記分類数決定ス
テップから前記分類結果記憶ステップまでの処理を繰り
返し行うか否かの判定をおこなう繰り返し判定ステップ
と、前記文書ベクトルデータ記憶ステップと前記分類結
果記憶ステップにて記憶された情報を用いて生成された
すべての部分文書集合間の関係情報を算出する部分文書
集合間関係算出ステップと、該部分文書集合間関係算出
ステップにて生成された部分文書集合間の関係情報を記
憶する部分文書集合間関係記憶ステップとを含む文書分
類方法を実行するためのプログラムを記録したコンピュ
ータ読み取り可能な記録媒体である。
【0066】請求項37の発明は、請求項36に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記文書
分類ステップにて用いられる統計手法が非階層クラスタ
リング手法である文書分類方法を実行するためのプログ
ラムを記録したコンピュータ読み取り可能な記録媒体で
ある。
【0067】請求項38の発明は、請求項36または3
7に記載の文書分類方法を実行するためのプログラムを
記録したコンピュータ読み取り可能な記録媒体におい
て、前記部分文書集合間関係算出ステップにて算出され
る関係が、類似関係と包含関係である文書分類方法を実
行するためのプログラムを記録したコンピュータ読み取
り可能な記録媒体である。
【0068】請求項39の発明は、請求項38に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記部分
文書集合間の関係は各部分文書集合から抽出される単語
情報のみを用いて算出される文書分類方法を実行するた
めのプログラムを記録したコンピュータ読み取り可能な
記録媒体である。
【0069】
【発明の実施の形態】本発明の実施例の説明において
は、自然言語で記述された1つ以上の文の集まりで、そ
れが分類対象となる場合は、これを文書と言う。また、
ひとつの文書の終端には、それが判別可能な文書終端記
号が付置されているものとする。具体的な例をあげれ
ば、公開特許公報や特定の新聞記事も文書であるし、そ
れらから請求項や特定の1文を取り出したものであって
もこれを文書と見なす。
【0070】図1は本発明の請求項1,2,14,1
5,27及び28の発明に対応する実施例を説明するた
めの文書分類装置のブロック構成図である。文書入力部
101は、キーボード、OCR装置、ハードディスク等
の補助記憶装置等の入力手段が文書分類装置100に直
接に、または、ネットワーク経由で接続され、このよう
な入力手段から文書や文書群を獲得し、文書データを入
力するインターフェースである。図2は、文書データを
入力する処理の一例を示すフローチャートである。
【0071】図1における文書解析部102では、入力
された文書それぞれに対し、自然言語解析を行い、単語
やその品詞などを抽出する。さらに、文書内での単語の
出現順序や、文書の作成者や作成日などの文書のメタ情
報なども含めることができる。その後、文書群で出現し
た単語に対しユニークな単語IDを付与し、文書内での
単語出現回数を計数する。一例として、文書に対し形態
素解析を適用することで、文書内の単語表記と品詞を抽
出し、その結果をもとに文書群で出現したユニークな単
語の表記、品詞、識別番号を抽出し、また各文書を抽出
されたユニークな単語識別番号とその頻度で表現する例
を示すこととし、そのフローチャートを図3に示す。
【0072】例えば、図4(A)に示す文書1と文書2
に対し、形態素解析を適用すると図4(B)のような結
果が得られる。図4(B)において各切り出された単語
の下の数値はそれらの品詞を示しており、その対応表は
図4(C)に示す。文書群が図4(A)に示す2つの文
書のみで構成されているとすると、文書群で出現したユ
ニークな単語の表記、品詞、識別番号と各文書を単語識
別番号とその頻度で表現した結果は図5(A)〜図5
(C)のようになる。ただし、簡単のため品詞としては
名詞と未登録語のみを採用する。
【0073】文書分類部103では、文書解析部102
で生成された情報をもとに文書群の分類をおこなう。本
発明では、分類手法は特に限定しないが、ここでは一例
として、上記文書解析部102における実施例を継承し
て、各文書を文書群でユニークな単語の出現頻度のベク
トルで表現し、これらのベクトルをもとにクラスタリン
グ手法の1つであるk means法を用いて文書分類
を行う例を示すこととし、そのフローチャートを図6に
示す。ここで、ベクトル間の類似度は0 1の間の実
数、かつ最大類似度は1であるとする。
【0074】図7(A)に示す15個の文書を図3及び
図5に示すアルゴリズムを基に3つの部分文書集合に分
類した結果を図7(B)に示す。ここで、品詞としては
名詞と未登録語のみを採用し、またk means法に
おける類似測度は余弦測度であり、反復停止条件は繰返
し回数5回としている。代表語抽出部104では、文書
解析部102で生成した各文書の単語情報及び文書分類
部で生成した部分文書グループに関する情報をもとに各
部分文書集合における代表語セットを抽出する。
【0075】本発明では、代表語の抽出方法を特に限定
しないが、ここでは一例として、上記文書分類部におけ
る実施例を継承し、各部分文書集合においてそれらに所
属する文書をひとつの仮想的な文書とみなした時の、文
書群でユニークな単語の出現頻度が指定されたしきい値
以上の単語をそれらの部分文書集合の代表語セットとす
る例を示すこととし、そのフローチャートを図8に示
す。
【0076】上記文書分類部における実施例の各部分文
書集合について上記のフローチャートに従って求めた代
表語セットを図9に示す。ここで、出現頻度のしきい値
は2としている。
【0077】関連語抽出部105では、代表語抽出部1
04にて抽出した各部分文書集合の代表語それぞれにつ
いて、関連語辞書を用いて関連語を抽出し、それらを各
部分文書集合の関連語セットとする。関連語辞書として
は、同義語辞書、広義語辞書、狭義語辞書、類義語辞
書、反対語辞書、兄弟語辞書、上位概念語辞書、下位概
念語辞書等を用いることができるが、ここでは一例とし
て、上記代表語抽出部における実施例を継承し、任意の
一つの関連語辞書を用いて各部分文書集合の関連語セッ
トを求める例を示すこととし、そのフローチャートを図
10に示す。なお、複数の辞書を用いる場合には、前記
処理を各辞書について繰り返し行えばよい。簡単のため
関連語として同義語のみを扱うとして、前記代表語抽出
部の実施例で求めた各代表語の同義語が図11(A)に
示されるような場合、各部分文書集合の関連語セットは
図11(B)のように示される。
【0078】部分文書集合情報生成部106では、文書
解析部102で生成した各文書の単語情報、文書分類部
103で生成した部分文書グループに関する情報、代表
語抽出部104で抽出した各部分文書集合の代表語セッ
ト、及び関連語抽出部105で生成した各部分文書集合
の関連語セットを基に個々の部分文書集合及び部分文書
集合間の関連情報を生成する。
【0079】各部分文書集合固有の情報としては、代表
語セットの集合、関連語セットの集合、及び各部分文書
集合が多重分類を許す分類手法により生成されている場
合は、代表語及び/または関連語を指定されるしきい値
個数以上含む部分文書集合に所属する文書の部分集合等
の情報を用いることができる。また、部分文書集合間の
関連情報としては、部分文書集合間の代表語セット集合
の積集合や和集合や差集合、関連語セットの集合の積集
合や和集合や差集合、及び各部分文書集合が多重分類を
許す分類手法により生成されている場合は、部分文書集
合に所属する文書の積集合や和集合や差集合、代表語及
び/または関連語を多く含む部分文書集合に所属する文
書の部分集合間の積集合や和集合や差集合等の情報を用
いることができる。
【0080】ここでは一例として、上記関連語抽出部に
おける実施例を継承し、文書部分集合が多重分類を許す
分類手法により生成されているとしたときに、部分文書
集合情報として、代表語セットの集合、関連語セットの
集合、部分文書集合間の代表語セット集合の積集合と和
集合と差集合、部分文書集合間の関連語セット集合の積
集合と和集合と差集合を生成する例を示すこととし、そ
のフローチャートを図12に示す。これらの情報によ
り、特に部分文書集合間の類似性、関連性、及び包含関
係などを把握することが可能になる。
【0081】分類結果保存部107では、文書解析部1
02で生成した各文書の単語情報、文書分類部103で
生成した部分文書グループに関する情報、代表語抽出部
104で抽出した各部分文書集合の代表語セット、関連
語抽出部105で生成した各部分文書集合の関連語セッ
ト、及び部分文書集合情報生成部106で生成した個々
の部分文書集合及び部分文書集合間の関連情報を適切な
形式で保存する。保存された関連情報は、出力部108
からユーザの要求に応じて、または予め定められた条件
に従って所定の出力手段に適宜出力される。
【0082】図13は本発明の請求項3,4,16,1
7,29及び30に対応する実施例を説明するための文
書分類装置200のブロック構成図である。なお、図1
と同様の機能を有する部分には図1と同一の番号を付し
ている。反意部分文書集合生成部201では、関連語抽
出部105にて生成される関連語としてすくなくとも反
対語が抽出されるとき、任意の文書部分集合が有する反
対語が、自分を含む他のどの部分文書集合の代表語とも
一致しない場合、この反対語を含む文書を文書群から抽
出し、それを新しい部分文書集合とする処理をすべての
部分文書集合について再帰的におこなう。
【0083】ここでは一例として、上記実施例を継承し
て、関連語抽出部105にて反対語のみが抽出されるこ
ととし、各部分文書集合が有する反意語セットについて
それが自分を含む他の部分文書集合の代表語と一致する
か否かを判定し、反意語がどの代表語とも一致しない場
合、検索手法を用いて文書群からその反意語を含む文書
を抽出し、それらを新しい部分文書集合とする例を示す
こととし、そのフローチャートを図14に示す。
【0084】例えば、図7(A)に示す文書群を分類し
た結果得られている図7(B)の部分文書集合3の代表
語セットに着目してみる。この場合、代表語“商用”の
反対語として、“無料、フリー”という単語が得られた
とする。この場合、これらの単語はどの代表語とも一致
せず、単語“無料”で文書群を検索した結果は該当0件
であるが、単語“フリー”で検索した場合は、文書4、
文書5、文書12が検索される。これをあらたな部分文
書集合とした場合、代表語として、“リナックス、フリ
ー、ディストリビューション”を得ることができる。
【0085】これにより文書群から任意の部分文書集合
とは反対の意味を有する部分文書集合が文書分類部では
生成されなかった場合にも、反対の意味を有する部分文
書集合を生成することができるため、文書群からより広
範囲な話題を抽出することが可能となる。
【0086】請求項4,17,30の発明では、反対語
からあらたな部分文書集合を求める際に、反対語を生成
した代表語以外の部分文書集合の代表語も合わせて部分
文書集合を求めることにより、より対象の部分文書集合
とは反対の意味をもつ部分文書集合を生成することが可
能となるが、基本的な処理は上記実施例と同様の処理で
求めることができる。すなわち、例えば、図14に示す
フローチャートにおいて反対語を用いて文書群を検索す
るステップを反対語と反対語を生成した代表語以外の部
分文書集合の代表語を組合わせた論理式を用いればよ
い。
【0087】図15は、本発明の請求項5〜9,18〜
22及び31〜35に対応する実施例を説明するための
文書分類装置のブロック構成図である。文書入力部30
1は、キーボード、OCR装置、ハードディスク等の補
助記憶装置等の入力手段が文書分類装置300に直接
に、または、ネットワーク経由で接続され、このような
入力手段から文書や文書群を獲得し、文書データを入力
するインターフェースである。この際、各文書データを
一意に識別するために、例えばユニークな数などの、識
別子を各文書に割り当てる。
【0088】文書解析部302では、入力された文書そ
れぞれに対し形態素解析を適用し、各文書を構成する単
語を品詞情報等とともに抽出する。この際、抽出した単
語を識別するために、抽出した単語のうちユニークな表
記を持つものについては、ユニークな識別子を付置して
おく。さらに、形態素解析の結果得られる単語のうち指
定される品詞をもつ単語について、その前後の単語と適
切に組合わせた単語と置き換え、かつ品詞もまた適切な
ものに置き換える処理を施す。例として、品詞が接頭詞
全般、接尾詞全般、及び助数詞である単語について前記
の結合及び置き換え処理を行う動作を説明する。
【0089】まず、本例では、前記の結合および置き換
え処理を品詞が、1.接頭詞全般、2.数詞接尾詞以外
の接尾詞全般、3.数詞接尾詞もしくは数助詞の場合別
に以下のような規則でおこなうこととする。ただし、本
発明における結合及び置き換え処理の規則はこれらに限
定するものではない。
【0090】 ○接頭詞全般 もし{対象単語の品詞が接頭詞である}ならば{ 計数用変数:iに1を代入する 繰り返す{ 対象単語の先頭に対象単語よりi回前に抽出された単語を結合させる もし{i回前に抽出されている単語の品詞が分類時使用品詞である}ならば{ 繰り返しループを抜ける } さもなくば{ iを1増加する } } 対象単語の品詞を変更する }
【0091】 ○数詞接尾詞以外の接尾詞全般 もし{対象単語の品詞が数詞接尾詞以外の接尾詞である}ならば{ 計数用変数:iに1を代入する 繰り返す{ 対象単語の終端に対象単語よりi回後に抽出された単語を結合させる もし{i回前に抽出されている単語の品詞が分類時使用品詞である}ならば{ 繰り返しループを抜ける } さもなくば{ iを1増加する } } 対象単語の品詞を変更する }
【0092】 ○数詞接尾詞もしくは助数詞 もし{対象単語の品詞が数詞接尾詞もしくは助数詞である}ならば{ 繰り返す{ もし{対象単語の直前に抽出されている単語の品詞が数詞である}ならば{ 対象単語の先頭に対象単語の直前に抽出された単語を結合させる 対象単語のi回前に抽出された単語を削除する } さもなくば{ 繰り返しループを抜ける } } 対象単語の品詞を変更する }
【0093】図16に示す6つの文書データを分類対象
文書データとし、この文書データに対して形態素解析を
適用し、単語及びそれらの品詞を抽出したものを図17
に示す。ただし、本発明では形態素解析系については特
に規定しない。また、分類時使用品詞を普通名詞、サ変
名詞、固有名詞、数詞、形容詞、接頭詞全般、接尾詞全
般、助数詞賭した場合の文書データの解析結果を図18
に示す。
【0094】図18に示されている結果において、品詞
が接頭詞全般、接尾詞、もしくは数助詞である単語に対
し前記規則に従い、結合・置き換え処理を施した結果を
図19に示す。例えば、文書1における{千葉[普通名
詞]、氏[固有名詞接尾詞]}という文字列は、数詞接
尾詞以外の接尾詞全般の規則を用いて、{千葉[普通名
詞]、千葉氏[固有名詞]}という文字列になり、また
{1[数詞]、9[数詞]、5[数詞]、0[数詞]、
年[助数詞]}という文字列は、数詞接尾詞もしくは助
数詞の規則を用いて、{1950年[普通名詞]}とい
う文字列になる。
【0095】文書ベクトル空間生成部303では、前記
文書解析部にて抽出された各文書データの単語情報をも
とに文書データをベクトル表現するための空間を生成す
る。例として、前記文書解析部での例をもとに、文書デ
ータ全体でユニークな単語の頻度により文書ベクトル空
間を生成することとする場合の各文書データのベクトル
表現を生成する動作を説明する。ただし、本発明では、
ベクトル空間生成手法はこれに限定するものではなく、
例えば、全単語の線形変換によりベクトル空間を生成す
ることもできる。
【0096】図18及び図19に示す文書解析結果から
ユニークな単語を抽出し、各文書での該当単語の頻度を
計数し、それらの結果を、単語を列方向に、文書データ
を行方向に付置することで、行列表現したものをそれぞ
れ図20と図21に示す。これら行列において、列ベク
トルが各文書データのベクトルデータとなる。
【0097】文書分類部304では、前記文書ベクトル
空間生成部にて生成された文書データベクトルを統計手
法を用いることで幾つかの集合に分類する。出力部30
5では、文書分類部304で分類された文書データベク
トルの集合をユーザの要求に応じてまたは予め定められ
た条件に従って所定の出力手段に適宜出力する。文書分
類部304における統計処理は様々なものが利用可能で
あるが、請求項5の発明ではアルゴリズムの簡潔さやパ
ラメータの有無等の理由からクラスタリング手法を用い
ることに限定している。例として、前記文書ベクトル空
間生成部での例をもとに、クラスタリング手法を用いて
文書ベクトルを分類する動作を説明する。
【0098】ここでは、クラスタリング手法の1つであ
るWarrd法を用いることとし、また類似測度は標準
化ユークリッド距離測度を使用する。なお、クラスタリ
ング手法に関しては、“多変量解析入門(森北出版)”
に詳しい。図20及び図21に示されている文書データ
に対し、Warrd法を適用した結果を図22と図23
に示す。ここで、図20は前記結合・置き換えの処理を
適用した結果で文書ベクトル空間を構成したデータであ
り、図21は結合・置き換え処理を適用していない結果
で文書ベクトル空間を構成したデータである。また、図
22と図23の図中の数値は各クラスタ間の距離であ
る。
【0099】図22及び図23の結果を比較した場合、
文書4の位置の差異が非常に特徴的であり、結合・置き
換えの処理を適用した場合は、文書4は文書2や文書5
と類似していると判断され、結合・置き換えの処理を適
用しない場合は、文書4は文書1や文書6と類似してい
ると判断される。主観的な語彙の適合度などから判断し
て文書4は{文書2、文書5}の集合よりも{文書1、
文書3、文書6}の集合に含まれる方が適切であると思
われる。従って、この結果から、結合・置き換えの処理
を適用することにより、より質の高い文書ベクトル空間
を構成でき、この文書ベクトル空間で分類処理をおこな
うことで、質の高い文書分類結果を得ることができる。
【0100】図24は本発明の請求項10〜13,23
〜26及び36〜39に対応する実施例を説明するため
の文書分類装置のブロック構成図である。文書入力部4
01は、キーボード、OCR装置、ハードディスク等の
補助記憶装置による入力手段が文書分類装置400に直
接に、または、ネットワーク経由で接続され、このよう
な入力手段から文書や文書群を獲得し、文書データを入
力するインターフェースである。この際、各文書データ
を一意に識別するために、例えばユニークな数などの、
識別子を各文書に割り当てる。
【0101】文書解析部402では、入力された文書そ
れぞれに対し形態素語解析を適用し、各文書を構成する
単語を品詞情報等とともに抽出する。この際、抽出した
単語を識別するために、抽出した単語のうちユニークな
表記を持つものについては、前記文書データと同様にユ
ニークな識別子を付置しておく。例として、文書データ
に対し形態素解析を適用し、文書データ全体で表記と品
詞がユニークである単語を同定し、それらに一意な識別
番号を付与するとともに、各文書データを、それを構成
する単語の識別番号とその出現頻度を表現するための擬
似コードを図25に示す。なお、本発明では、形態素解
析系は必要な情報を抽出できるものであれば、どのよう
なものでもよい。
【0102】文書解析結果記憶部403では、文書解析
部402にて抽出された文書データの形態素解析結果を
適切な形式で記憶する。文書ベクトル空間生成部404
では、文書解析部402にて抽出された各文書データの
単語情報をもとに文書データをベクトル表現するための
空間を生成する。例として、文書解析部402での例を
もとに、文書データ全体でユニークな単語の正規化され
た頻度により文書ベクトル空間を生成する場合の、各文
書データのベクトル表現を生成する擬似コードを図26
に示す。ただし、本発明では、ベクトル空間生成手法は
これに限定するものではなく、例えば、特異値分解など
を使用して全単語の線形変換によりベクトル空間を生成
することもできる。
【0103】文書ベクトルデータ記憶部405では、文
書ベクトル空間生成部404にて生成された文書データ
ベクトルを適切な形式で記憶する。分類数決定部406
では、繰り返し文書分類を行う際の分類数を決定する
(分類数を定数×繰返し数とした場合の擬似コードを図
27に含む)。文書分類部407では、文書ベクトル空
間生成部404にて生成された文書データベクトルを統
計手法を用いることで分類数決定部集合に分類する。
【0104】統計処理は様々なものが利用可能である
が、請求項11の発明ではアルゴリズムの簡潔さやクラ
スタ数の変化により分類構造が動的に変化する特性等か
ら非階層クラスタリング手法を用いることに限定してい
る。例として、クラスタ数を繰返し数と定数Nを乗じた
数としてクラスタリング手法を用いて文書ベクトルを分
類する擬似コードを図27に示す。ここでは、クラスタ
リング手法の1つであるk means法を一部変更し
たもの用いることとし、また類似測度は余弦測度を使用
する。なお、クラスタリング手法に関しては、“多変量
解析入門(森北出版)”に詳しい。
【0105】文書分類結果記憶部408では、文書分類
部407で生成される文書分類結果を適切な形式で記憶
する。繰り返し判定部409では、繰り返し文書分類を
おこなう際の繰り返しを継続するか否かの判定を行う
(繰り返し判定を指定された最大数を限度とした場合の
擬似コードを図27に含む)。部分文書集合間関係算出
部410では、文書分類結果記憶部408に記憶されて
いる複数の部分文書集合間の関係情報を、文書解析結果
記憶部403と文書ベクトルデータ記憶部405にて記
憶されている種々の文書データに関する情報を用いて算
出する。例として、部分文書集合間の類似関係と包含関
係を文書データ及び/または文書データを構成する単語
情報で算出する動作を説明する。
【0106】まず、部分文書集合間の類似関係と包含関
係を文書データで表現するための定式化を行う。文書分
類結果記憶部408に記憶されている複数の部分文書集
合はユニークな識別番号が付与されているものとする。
第m番目の部分文書集合の特性ベクトル:Vmを以下の
ように定義する。
【0107】・Vmの次元数は全文書データ数に等しい ・Vmの各要素はそれぞれ1つの文書データに対応し、
重複はない。 ・要素iに対応する文書データと部分文書集合との類似
度が閾値以上の場合、要素iは1となる。 ・要素iに対応する文書データと部分文書集合との類似
度が閾値未満の場合、要素iは0となる。
【0108】上記定義を用いて、第m番目の部分文書集
合と第n番目の部分文書集合の関係:RmnとRnmを
以下のように定義する。 (1)Rmn=<Vm,Vn>/<Vm,Vm> (2)Rnm=<Vm,Vn>/<Vn,Vn> ただし、<,>は内積を示す。
【0109】上記のRmnとRnmの値により、部分文
書集合間の類似関係と包含関係を算出することが可能と
なる。図28はRmnとRnmの値による幾何学的解釈
を示したものである。すなわち、Rmnが1に近い場合
は、部分文書集合mは部分文書集合nに包含されている
といえる。また、RmnとRmnが両方1に近いほど部
分文書集合mと部分文書集合nは類似しているものとい
える。さらに、(Rmn,Rnm)がRmn=Rnmの
直線に近いほど、同じ程度の割合で相互に文書データを
包含していることなども読み取れる。
【0110】次に、部分文書集合間の類似関係と包含関
係を文書データを構成する単語の出現頻度情報で表現す
るための定式化をおこなう。第m番目の部分文書集合の
特性ベクトル:Wmを以下のように定義する。
【0111】Wmの次元数は全文書データでユニークな
単語数に等しい。Wmの各要素はそれぞれユニークな単
語に対応し、重複はないWmの第I番目の要素値をwm
(i)と示す。部分文書集合との類似度が閾値以上の文
書すべてにおける、要素iに対応する単語の出現頻度
(出現回数)を要素iの要素値とする。
【0112】上記定義を用いて、第m番目の部分文書集
合と第n番目の部分文書集合の関係:R’mnとR’nmを
以下のように定義する。 (3)R’mn = Σf(wm(k),wn(k)) /Σf(wm(k),wm(k)) (4)R’mn = Σf(wm(k),wn(k)) /Σf(wn(k),wn(k)) (5)f(wm(k),wn(k)) = 0 for wm(k)×wn(k) = 0= wm
(k)×(a + b /|wn(k) - wn(k)|+ 1) for forwm(k)
×wn(k) != 0 ただし、a,bは定数で、a + b = 1, a,b >= 0
【0113】上記のR’mnとR’nmの値を用いても
図28に示すRmnとRmnの関係と同様の解釈がで
き、したがって、部分文書集合間の類似関係と包含関係
を算出することが可能となる。さらに、R’mnとR’
nmを用いて部分文書集合の関係を定義する場合、文書
データのレベルでは得ることのできない関係を得ること
が可能になるとともに、例えば内容は一致してても、分
析対象の文書データが異なっている場合にも部分文書集
合間の関係を算出することが可能となる。また、部分文
書集合間関係記憶部411では、部分文書集合間関係算
出部410にて生成された部分文書集合間の関係情報を
適切な形式で記憶する。また、出力部412は、部分文
書集合間関係記憶部411で記憶された関係情報をユー
ザの要求に応じて、または予め定められた条件に従って
出力手段に適宜出力する。
【0114】
【発明の効果】請求項1,14及び27の発明によれ
ば、生成された部分文書集合それぞれの代表語セットを
抽出し、さらにそれら代表語それぞれについて関連語を
求め、これらの情報をもとに各部分文書集合および部分
文書集合間の関連情報を生成することで、部分文書集合
の分析に有効な情報を提供することができる。
【0115】請求項2,15及び28の発明によれば、
関連語として同義語、類義語、反対語のすくなくとも一
つ以上の組合わせを用いることで主に類似性に関す情報
を提供することができる。
【0116】請求項3,4,16,17,29及び30
の発明によれば、各部分文書集合の代表語セットの関連
語として反対語を用い、反対語が自分を含む他のどの部
分文書集合の代表語セットとも一致しない場合、その反
対語を含む文書を文書集合から抽出し、それを新たな部
分文書集合とすることで、文書集合からより多くの分析
情報を抽出することができる。
【0117】請求項5,18及び31の発明によれば、
分類対象文書に形態素解析し、得られた解析結果をもと
に分類対象文書を幾つかの文書集合に分類する文書分類
装置において、形態素解析の結果得られる単語のうち指
定される品詞をもつ単語について、その前後の単語と適
切に組合わせた単語と置き換え、かつ品詞もまた適切な
ものに置き換える処理を施すことによって、高品位な文
書ベクトル空間を構成し、この文書ベクトル空間で統計
処理を用いて文書分類を行うことで高品質な文書分類結
果を得ることができる。
【0118】請求項6,19及び32の発明によれば、
文書分類をおこなうための統計手法として、クラスタリ
ング手法を用いることで、簡便に高品質な文書分類結果
を得ることができる。
【0119】請求項7,20及び33の発明によれば、
分類対象文書に形態素解析を適用することで抽出される
単語の中で、特に、品詞が、接頭詞、接尾詞、助数詞、
及びそれらに類する品詞である単語について、適切な結
合処理を施こすことで、高品質な文書ベクトル空間を得
ることができる。
【0120】請求項8,21及び34の発明によれば、
単語の結合処理において特定の品詞の単語が出現するま
で単語の結合を続けることによって新たな単語を生成す
ることで、高品質な文書ベクトル空間を得ることができ
る。
【0121】請求項9,22及び35の発明によれば、
単語の結合処理において、品詞が数詞接尾詞もしくは助
数詞の単語について、結合される複数の単語を削除し、
文書ベクトル空間を生成する際にはそれらの単語の情報
は用いないことで、高品質な文書ベクトル空間を得るこ
とができる。
【0122】請求項10,23及び36の発明によれ
ば、文書のベクトル空間モデルを用い、生成する部分文
書集合の数をパラメータとして繰り返し文書分類処理を
おこなうことで、多数の部分文書集合を生成し、さらに
生成された多数の文書集合について相互の関係を算出す
ることで、文書集合の構造の把握を支援しうる情報を生
成する文書分類装置を提供することができる。
【0123】請求項11,24及び37の発明によれ
ば、上記目的に加え、文書分類をおこなう統計手法とし
て、非階層クラスタリング手法を用いることで、簡便に
多数の部分文書集合を生成することができる。
【0124】請求項12,25及び38の発明によれ
ば、上記目的に加え、生成された多数の文書集合につい
て相互の関係として、類似関係と包含関係を算出するこ
とで、容易に文書集合の構造の把握しうる情報を提供す
ることができる。
【0125】請求項13,26及び39の発明によれ
ば、上記目的に加え、生成された多数の文書集合が有す
る情報のうち、単語に関する情報のみを用いて相互の関
係を算出することで、汎用性・再利用性の高い関係情報
を算出することができる。
【図面の簡単な説明】
【図1】 本発明の請求項1,2,14,15,27及
び28の発明に対応する実施例を説明するための文書分
類装置のブロック構成図である。
【図2】 文書データを入力する処理の一例を示すフロ
ーチャートである。
【図3】 文書に対し形態素解析を適用する処理の一例
を示すフローチャートである。
【図4】 形態素解析の適用例について説明するための
図である。
【図5】 形態素解析の適用結果の一例について説明す
るための図である。
【図6】 文書解析部で生成された情報をもとに文書群
の分類を行う処理の一例を示すフローチャートである。
【図7】 文書の部分文書集合への分類を説明するため
の図である。
【図8】 代表語の抽出の処理の一例を示すフローチャ
ートである。
【図9】 図8に示すフローチャートに従って求めた代
表語セットの一例を示す図である。
【図10】 各部分文書集合の代表語セットのそれぞれ
について関連語辞書を用いて関連語を抽出する処理の一
例を示すフローチャートである。
【図11】 代表語抽出部で求め各代表語の同義語及び
各部分文書集合の関連語セットの一例を示す図である。
【図12】 抽出または生成した代表語セット及び関連
語セットを共に個々の部分文書集合及び部分文書集合間
の関連情報を生成する処理の一例を示すフローチャート
である。
【図13】 本発明の請求項3,4,16,17,29
及び30に対応する実施例を説明するための文書分類装
置のブロック構成図である。
【図14】 反対語を含む文書を抽出して新しい部分文
書集合とする処理の一例を示すフローチャートである。
【図15】 本発明の請求項5〜9,18〜22及び3
1〜35に対応する実施例を説明するための文書分類装
置のブロック構成図である。
【図16】 分類対象文書データの例を示す図である。
【図17】 図16に示す文書データに形態素解析を適
用して単語及び品詞を抽出した例を示す図である。
【図18】 文書データの解析結果の一例を示す図であ
る。
【図19】 文書データの解析結果の他の例を示す図で
ある。
【図20】 文書データを行方向に位置することで行列
表現した例を示す図である。
【図21】 文書データを行方向に位置することで行列
表現した他の例を示す図である。
【図22】 図20の文書データに対しWarrd法を
適用した結果を示す図である。
【図23】 図21の文書データに対しWarrd法を
適用した結果を示す図である。
【図24】 本発明の請求項10〜13,23〜26及
び36〜39に対応する実施例を説明するための文書分
類装置のブロック構成図である。
【図25】 文書データの単語の識別番号とその出現頻
度を表現するための擬似コードの一例を示す図である。
【図26】 各文書データのベクトル表現を生成する擬
似コードの一例を示す図である。
【図27】 クラスタリング手法を用いて文書ベクトル
を分類する擬似コードの一例を示す図である。
【図28】 RmnとRnmの値による幾何学的解釈を
示したものである。
【符号の説明】
100,200,300,400…文書分類装置、10
1,301,401…文書入力部、102,302,4
02…文書解析部、103,304,407…文書分類
部、104…代表語抽出部、105…関連語抽出部、1
06…部分文書集合情報生成部、107…分類結果保存
部、108,305,412…出力部、201…反意部
分文書集合生成部、303,404…文書ベクトル空間
生成部、403…文書解析結果記憶部、405…文書ベ
クトルデータ記憶部、406…分類数決定部、408…
文書分類結果記憶部、409…繰り返し判定部、410
…部分文書集合間関係算出部、411…部分文書集合間
関係記憶部。

Claims (39)

    【特許請求の範囲】
  1. 【請求項1】 文書集合をその内容に従って分類する文
    書分類装置であって、複数の文書を入力する文書入力部
    と、該文書入力部にて入力された各文書から該各文書を
    構成する単語情報を抽出する文書解析部と、該文書解析
    部にて抽出された各文書の単語情報をもとに前記複数の
    文書による文書集合をいくつかの部分文書集合に分類す
    る文書分類部と、該文書分類部にて分類された各部分文
    書集合からそれらの代表語セットを抽出する代表語抽出
    部と、任意の単語についてその関連語が記述された関連
    語辞書を用いて前記代表語抽出部にて抽出した各部分文
    書集合の代表語セットそれぞれについて関連語セットを
    抽出する関連語抽出部と、該関連語抽出部にて抽出した
    関連語セットと前記代表語抽出部で抽出した代表語セッ
    トと各部分文書集合に所属する文書に関する情報とをも
    とに個々の部分文書集合及び部分文書集合間の関連情報
    を生成する部分文書集合情報生成部と、前記文書分類部
    での分類結果を前記部分文書集合情報生成部にて生成さ
    れた情報と合わせて保存する分類結果保存部とを含むこ
    とを特徴とする文書分類装置。
  2. 【請求項2】 請求項1に記載の文書分類装置におい
    て、前記関連語抽出部にて抽出される関連語セットが、
    同義語、類義語、反対語のうちの少なくとも一つ以上の
    組合わせであることを特徴とする文書分類装置。
  3. 【請求項3】 請求項1に記載の文書分類装置におい
    て、前記関連語抽出部にて抽出される関連語セットが少
    なくとも反対語を含み、ある部分文書集合の代表語セッ
    トから抽出された反対語セットが、自分を含む他のどの
    部分文書集合の代表語セットとも一致しない場合、該一
    致しない反対語セットを含む文書を文書集合から抽出
    し、あらたな部分文書集合を生成する処理を全部分文書
    集合に対し再帰的に繰り返す反意部分文書集合生成部を
    さらに含むことを特徴とする文書分類装置。
  4. 【請求項4】 請求項1に記載の文書分類装置におい
    て、前記関連語抽出部にて抽出される関連語が少なくと
    も反対語を含み、ある部分文書集合の代表語セットから
    抽出された反対語セットが、自分を含む他のどの部分文
    書集合の代表語セットとも一致しない場合、該一致しな
    い反対語セットと代表語セットから反対語セットに対応
    する代表語を除いた単語セットを含む文書を文書集合か
    ら抽出し、あらたな部分文書集合を生成する処理を全部
    分文書集合に対し再帰的に繰り返す反意部分文書集合生
    成部をさらに含むことを特徴とする文書分類装置。
  5. 【請求項5】 文書の内容に従って文書の分類を行う文
    書分類装置であって、文書データを入力する文書入力部
    と、前記文書データに形態素解析を適用し、前記文書デ
    ータを構成する単語をそれらの品詞情報等とともに抽出
    する文書解析部と、該文書解析部にて抽出された文書デ
    ータの解析情報から文書データを多次元ベクトル空間で
    表現するための文書ベクトル空間を生成する文書ベクト
    ル空間生成部と、該文書ベクトル空間生成部にて生成し
    た文書ベクトル空間において統計手法を用いることによ
    り文書データの分類を行う文書分類部とを含み、前記文
    書解析部にて抽出される特定の品詞を有する単語を、該
    特定の品詞の品詞情報に基づき、該特定の品詞の前後に
    抽出される一つ以上の単語と結合することにより生成さ
    れる単語と置き換え、かつ該特定の品詞の品詞情報も適
    切に置き換えることを特徴とする文書分類装置。
  6. 【請求項6】 請求項5に記載の文書分類装置におい
    て、前記文書分類部において統計手法としてクラスタリ
    ング法を用いることで文書データの分類を行うことを特
    徴とする文書分類装置。
  7. 【請求項7】 請求項5または6に記載の文書分類装置
    において、前記文書解析部において品詞が接頭詞、接尾
    詞、助数詞、及びそれらに類する品詞である単語につい
    て、単語および品詞の置き換えを行うことを特徴とする
    文書分類装置。
  8. 【請求項8】 請求項5ないし7のいずれか1に記載の
    文書分類装置において、前記文書解析部において特定の
    品詞の単語が出現するまで単語の結合を続けることを特
    徴とする文書分類装置。
  9. 【請求項9】 請求項5ないし8のいずれか1に記載の
    文書分類装置において、前記文書解析部において品詞が
    数詞接尾詞もしくは助数詞の単語について、該数詞接尾
    詞もしくは助数詞の単語に結合される複数の単語を削除
    し、前記文書分類部では削除した単語の情報を用いない
    ことを特徴とする文書分類装置。
  10. 【請求項10】 文書の内容に従って文書データ集合を
    分類する文書分類装置であって、文書データ集合を入力
    する文書入力部と、すべての文書データに形態素解析を
    適用し、前記文書データを構成する単語をそれらの品詞
    情報等とともに抽出する文書解析部と、該文書解析部に
    て抽出された文書データの解析結果を記憶する文書解析
    結果記憶部と、前記文書解析部にて抽出された文書デー
    タの解析情報から前記文書データを多次元ベクトル空間
    で表現するためのベクトル空間を生成する文書ベクトル
    空間生成部と、該文書ベクトル空間生成部にて生成され
    た文書ベクトル空間の各文書データのベクトルデータを
    記憶する文書ベクトルデータ記憶部と、指定される条件
    から文書データ集合の分類数を決定する分類数決定部
    と、前記文書ベクトル空間生成部にて生成した文書ベク
    トル空間において統計手法を用いることにより文書デー
    タを前記指定された分類数の部分文書集合に分類する文
    書分類部と、該文書分類部で生成された分類結果を記憶
    する分類結果記憶部と、前記分類数決定部から前記分類
    結果記憶部までの処理を繰り返し行うか否かの判定をお
    こなう繰り返し判定部と、前記文書ベクトルデータ記憶
    部と前記分類結果記憶部に記憶された情報を用いて生成
    されたすべての部分文書集合間の関係情報を算出する部
    分文書集合間関係算出部と、該部分文書集合間関係算出
    部にて生成された部分文書集合間の関係情報を記憶する
    部分文書集合間関係記憶部とを含むことを特徴とする文
    書分類装置。
  11. 【請求項11】 請求項10に記載の文書分類装置にお
    いて、前記文書分類部にて用いられる統計手法が非階層
    クラスタリング手法であることを特徴とする文書分類装
    置。
  12. 【請求項12】 請求項10または11に記載の文書分
    類装置において、前記部分文書集合間関係算出部にて算
    出される関係が、類似関係と包含関係であることを特徴
    とする文書分類装置。
  13. 【請求項13】 請求項12に記載の文書分類装置にお
    いて、前記部分文書集合間の関係は各部分文書集合から
    抽出される単語情報のみを用いて算出されることを特徴
    とする文書分類装置。
  14. 【請求項14】 文書集合をその内容に従って分類する
    文書分類方法であって、複数の文書を入力する文書入力
    ステップと、該文書入力ステップにて入力された各文書
    から該各文書を構成する単語情報を抽出する文書解析ス
    テップと、該文書解析ステップにて抽出された各文書の
    単語情報をもとに前記複数の文書による文書集合をいく
    つかの部分文書集合に分類する文書分類ステップと、該
    文書分類ステップにて分類された各部分文書集合からそ
    れらの代表語セットを抽出する代表語抽出ステップと、
    任意の単語についてその関連語が記述された関連語辞書
    を用いて前記代表語抽出ステップにて抽出した各部分文
    書集合の代表語セットそれぞれについて関連語セットを
    抽出する関連語抽出ステップと、該関連語抽出ステップ
    にて抽出した関連語セットと前記代表語抽出ステップで
    抽出した代表語セットと各部分文書集合に所属する文書
    に関する情報とをもとに個々の部分文書集合及び部分文
    書集合間の関連情報を生成する部分文書集合情報生成ス
    テップと、前記文書分類ステップでの分類結果を前記部
    分文書集合情報生成部にて生成された情報と合わせて保
    存する分類結果保存ステップとを含むことを特徴とする
    文書分類方法。
  15. 【請求項15】 請求項14に記載の文書分類方法にお
    いて、前記関連語抽出ステップにて抽出される関連語セ
    ットが、同義語、類義語、反対語のうちの少なくとも一
    つ以上の組合わせであることを特徴とする文書分類方
    法。
  16. 【請求項16】 請求項14に記載の文書分類方法にお
    いて、前記関連語抽出ステップにて抽出される関連語セ
    ットが少なくとも反対語を含み、ある部分文書集合の代
    表語セットから抽出された反対語セットが、自分を含む
    他のどの部分文書集合の代表語セットとも一致しない場
    合、該一致しない反対語セットを含む文書を文書集合か
    ら抽出し、あらたな部分文書集合を生成する処理を全部
    分文書集合に対し再帰的に繰り返す反意部分文書集合生
    成ステップをさらに含むことを特徴とする文書分類方
    法。
  17. 【請求項17】 請求項14に記載の文書分類方法にお
    いて、前記関連語抽出ステップにて抽出される関連語が
    少なくとも反対語を含み、ある部分文書集合の代表語セ
    ットから抽出された反対語セットが、自分を含む他のど
    の部分文書集合の代表語セットとも一致しない場合、該
    一致しない反対語セットと代表語セットから反対語セッ
    トに対応する代表語を除いた単語セットを含む文書を文
    書集合から抽出し、あらたな部分文書集合を生成する処
    理を全部分文書集合に対し再帰的に繰り返す反意部分文
    書集合生成ステップをさらに含むことを特徴とする文書
    分類方法。
  18. 【請求項18】 文書の内容に従って文書の分類を行う
    文書分類方法であって、文書データを入力する文書入力
    ステップと、前記文書データに形態素解析を適用し、前
    記文書データを構成する単語をそれらの品詞情報等とと
    もに抽出する文書解析ステップと、該文書解析ステップ
    にて抽出された文書データの解析情報から文書データを
    多次元ベクトル空間で表現するための文書ベクトル空間
    を生成する文書ベクトル空間生成ステップと、該文書ベ
    クトル空間生成ステップにて生成した文書ベクトル空間
    において統計手法を用いることにより文書データの分類
    を行う文書分類ステップとを含み、前記文書解析ステッ
    プにて抽出される特定の品詞を有する単語を、該特定の
    品詞の品詞情報に基づき、該特定の品詞の前後に抽出さ
    れる一つ以上の単語と結合することにより生成される単
    語と置き換え、かつ該特定の品詞の品詞情報も適切に置
    き換えることを特徴とする文書分類装置。
  19. 【請求項19】 請求項18に記載の文書分類方法にお
    いて、前記文書分類ステップにおいて統計手法としてク
    ラスタリング法を用いることで文書データの分類を行う
    ことを特徴とする文書分類方法。
  20. 【請求項20】 請求項18または19に記載の文書分
    類方法において、前記文書解析ステップにおいて品詞が
    接頭詞、接尾詞、助数詞、及びそれらに類する品詞であ
    る単語について、単語及び品詞の置き換えを行うことを
    特徴とする文書分類方法。
  21. 【請求項21】 請求項18ないし20のいずれか1に
    記載の文書分類方法において、前記文書解析ステップに
    おいて特定の品詞の単語が出現するまで単語の結合を続
    けることを特徴とする文書分類方法。
  22. 【請求項22】 請求項18ないし21のいずれか1に
    記載の文書分類方法において、前記文書解析ステップに
    おいて品詞が数詞接尾詞もしくは助数詞の単語につい
    て、該数詞接尾詞もしくは助数詞の単語に結合される複
    数の単語を削除し、前記文書分類ステップでは削除した
    単語の情報を用いないことを特徴とする文書分類方法。
  23. 【請求項23】 文書の内容に従って文書データ集合を
    分類する文書分類方法であって、文書データ集合を入力
    する文書入力ステップと、すべての文書データに形態素
    解析を適用し、前記文書データを構成する単語をそれら
    の品詞情報等とともに抽出する文書解析ステップと、該
    文書解析ステップにて抽出された文書データの解析結果
    を記憶する文書解析結果記憶ステップと、前記文書解析
    ステップにて抽出された文書データの解析情報から前記
    文書データを多次元ベクトル空間で表現するためのベク
    トル空間を生成する文書ベクトル空間生成ステップと、
    該文書ベクトル空間生成ステップにて生成された文書ベ
    クトル空間の各文書データのベクトルデータを記憶する
    文書ベクトルデータ記憶ステップと、指定される条件か
    ら文書データ集合の分類数を決定する分類数決定ステッ
    プと、前記文書ベクトル空間生成ステップにて生成した
    文書ベクトル空間において統計手法を用いることにより
    文書データを前記指定された分類数の部分文書集合に分
    類する文書分類ステップと、該文書分類ステップで生成
    された分類結果を記憶する分類結果記憶ステップと、前
    記分類数決定ステップから前記分類結果記憶ステップま
    での処理を繰り返し行うか否かの判定をおこなう繰り返
    し判定ステップと、前記文書ベクトルデータ記憶ステッ
    プと前記分類結果記憶ステップにて記憶された情報を用
    いて生成されたすべての部分文書集合間の関係情報を算
    出する部分文書集合間関係算出ステップと、該部分文書
    集合間関係算出ステップにて生成された部分文書集合間
    の関係情報を記憶する部分文書集合間関係記憶ステップ
    とを含むことを特徴とする文書分類方法。
  24. 【請求項24】 請求項23に記載の文書分類方法にお
    いて、前記文書分類ステップにて用いられる統計手法が
    非階層クラスタリング手法であることを特徴とする文書
    分類方法。
  25. 【請求項25】 請求項23または24に記載の文書分
    類方法において、前記部分文書集合間関係算出ステップ
    にて算出される関係が、類似関係と包含関係であること
    を特徴とする文書分類方法。
  26. 【請求項26】 請求項25に記載の文書分類方法にお
    いて、前記部分文書集合間の関係は各部分文書集合から
    抽出される単語情報のみを用いて算出されることを特徴
    とする文書分類方法。
  27. 【請求項27】 文書集合をその内容に従って分類する
    文書分類方法を実行するためのプログラムを記録したコ
    ンピュータ読み取り可能な記録媒体であって、複数の文
    書を入力する文書入力ステップと、該文書入力ステップ
    にて入力された各文書から該各文書を構成する単語情報
    を抽出する文書解析ステップと、該文書解析ステップに
    て抽出された各文書の単語情報をもとに前記複数の文書
    による文書集合をいくつかの部分文書集合に分類する文
    書分類ステップと、該文書分類ステップにて分類された
    各部分文書集合からそれらの代表語セットを抽出する代
    表語抽出ステップと、任意の単語についてその関連語が
    記述された関連語辞書を用いて前記代表語抽出ステップ
    にて抽出した各部分文書集合の代表語セットそれぞれに
    ついて関連語セットを抽出する関連語抽出ステップと、
    該関連語抽出ステップにて抽出した関連語セットと前記
    代表語抽出ステップで抽出した代表語セットと各部分文
    書集合に所属する文書に関する情報とをもとに個々の部
    分文書集合及び部分文書集合間の関連情報を生成する部
    分文書集合情報生成ステップと、前記文書分類ステップ
    での分類結果を前記部分文書集合情報生成部にて生成さ
    れた情報と合わせて保存する分類結果保存ステップとを
    含む文書分類方法を実行するためのプログラムを記録し
    たコンピュータ読み取り可能な記録媒体。
  28. 【請求項28】 請求項27に記載の文書分類方法を実
    行するためのプログラムを記録したコンピュータ読み取
    り可能な記録媒体において、前記関連語抽出ステップに
    て抽出される関連語セットが、同義語、類義語、反対語
    のうちの少なくとも一つ以上の組合わせである文書分類
    方法を実行するためのプログラムを記録したコンピュー
    タ読み取り可能な記録媒体。
  29. 【請求項29】 請求項27に記載の文書分類方法を実
    行するためのプログラムを記録したコンピュータ読み取
    り可能な記録媒体において、前記関連語抽出ステップに
    て抽出される関連語セットが少なくとも反対語を含み、
    ある部分文書集合の代表語セットから抽出された反対語
    セットが、自分を含む他のどの部分文書集合の代表語セ
    ットとも一致しない場合、該一致しない反対語セットを
    含む文書を文書集合から抽出し、あらたな部分文書集合
    を生成する処理を全部分文書集合に対し再帰的に繰り返
    す反意部分文書集合生成ステップをさらに含む文書分類
    方法を実行するためのプログラムを記録したコンピュー
    タ読み取り可能な記録媒体。
  30. 【請求項30】 請求項27に記載の文書分類方法を実
    行するためのプログラムを記録したコンピュータ読み取
    り可能な記録媒体において、前記関連語抽出ステップに
    て抽出される関連語が少なくとも反対語を含み、ある部
    分文書集合の代表語セットから抽出された反対語セット
    が、自分を含む他のどの部分文書集合の代表語セットと
    も一致しない場合、該一致しない反対語セットと代表語
    セットから反対語セットに対応する代表語を除いた単語
    セットを含む文書を文書集合から抽出し、あらたな部分
    文書集合を生成する処理を全部分文書集合に対し再帰的
    に繰り返す反意部分文書集合生成ステップをさらに含む
    文書分類方法を実行するためのプログラムを記録したコ
    ンピュータ読み取り可能な記録媒体。
  31. 【請求項31】 文書の内容に従って文書の分類を行う
    文書分類方法を実行するためのプログラムを記録したコ
    ンピュータ読み取り可能な記録媒体であって、文書デー
    タを入力する文書入力ステップと、前記文書データに形
    態素解析を適用し、前記文書データを構成する単語をそ
    れらの品詞情報等とともに抽出する文書解析ステップ
    と、該文書解析ステップにて抽出された文書データの解
    析情報から文書データを多次元ベクトル空間で表現する
    ための文書ベクトル空間を生成する文書ベクトル空間生
    成ステップと、該文書ベクトル空間生成ステップにて生
    成した文書ベクトル空間において統計手法を用いること
    により文書データの分類を行う文書分類ステップとを含
    み、前記文書解析ステップにて抽出される特定の品詞を
    有する単語を、該特定の品詞の品詞情報に基づき、該特
    定の品詞の前後に抽出される一つ以上の単語と結合する
    ことにより生成される単語と置き換え、かつ該特定の品
    詞の品詞情報も適切に置き換える文書分類方法を実行す
    るためのプログラムを記録したコンピュータ読み取り可
    能な記録媒体。
  32. 【請求項32】 請求項31に記載の文書分類方法を実
    行するためのプログラムを記録したコンピュータ読み取
    り可能な記録媒体において、前記文書分類ステップにお
    いて統計手法としてクラスタリング法を用いることで文
    書データの分類を行う文書分類方法を実行するためのプ
    ログラムを記録したコンピュータ読み取り可能な記録媒
    体。
  33. 【請求項33】 請求項31または32に記載の文書分
    類方法を実行するためのプログラムを記録したコンピュ
    ータ読み取り可能な記録媒体において、前記文書解析ス
    テップにおいて品詞が接頭詞、接尾詞、助数詞、及びそ
    れらに類する品詞である単語について、単語及び品詞の
    置き換えを行う文書分類方法を実行するためのプログラ
    ムを記録したコンピュータ読み取り可能な記録媒体。
  34. 【請求項34】 請求項31ないし33のいずれか1に
    記載の文書分類方法を実行するためのプログラムを記録
    したコンピュータ読み取り可能な記録媒体において、前
    記文書解析ステップにおいて特定の品詞の単語が出現す
    るまで単語の結合を続ける文書分類方法を実行するため
    のプログラムを記録したコンピュータ読み取り可能な記
    録媒体。
  35. 【請求項35】 請求項31ないし34のいずれか1に
    記載の文書分類方法を実行するためのプログラムを記録
    したコンピュータ読み取り可能な記録媒体において、前
    記文書解析ステップにおいて品詞が数詞接尾詞もしくは
    助数詞の単語について、該数詞接尾詞もしくは助数詞の
    単語に結合される複数の単語を削除し、前記文書分類ス
    テップでは削除した単語の情報を用いない文書分類方法
    を実行するためのプログラムを記録したコンピュータ読
    み取り可能な記録媒体。
  36. 【請求項36】 文書の内容に従って文書データ集合を
    分類する文書分類方法を実行するためのプログラムを記
    録したコンピュータ読み取り可能な記録媒体であって、
    文書データ集合を入力する文書入力ステップと、すべて
    の文書データに形態素解析を適用し、前記文書データを
    構成する単語をそれらの品詞情報等とともに抽出する文
    書解析ステップと、該文書解析ステップにて抽出された
    文書データの解析結果を記憶する文書解析結果記憶ステ
    ップと、前記文書解析ステップにて抽出された文書デー
    タの解析情報から前記文書データを多次元ベクトル空間
    で表現するためのベクトル空間を生成する文書ベクトル
    空間生成ステップと、該文書ベクトル空間生成ステップ
    にて生成された文書ベクトル空間の各文書データのベク
    トルデータを記憶する文書ベクトルデータ記憶ステップ
    と、指定される条件から文書データ集合の分類数を決定
    する分類数決定ステップと、前記文書ベクトル空間生成
    ステップにて生成した文書ベクトル空間において統計手
    法を用いることにより文書データを前記指定された分類
    数の部分文書集合に分類する文書分類ステップと、該文
    書分類ステップで生成された分類結果を記憶する分類結
    果記憶ステップと、前記分類数決定ステップから前記分
    類結果記憶ステップまでの処理を繰り返し行うか否かの
    判定をおこなう繰り返し判定ステップと、前記文書ベク
    トルデータ記憶ステップと前記分類結果記憶ステップに
    て記憶された情報を用いて生成されたすべての部分文書
    集合間の関係情報を算出する部分文書集合間関係算出ス
    テップと、該部分文書集合間関係算出ステップにて生成
    された部分文書集合間の関係情報を記憶する部分文書集
    合間関係記憶ステップとを含む文書分類方法を実行する
    ためのプログラムを記録したコンピュータ読み取り可能
    な記録媒体。
  37. 【請求項37】 請求項36に記載の文書分類方法を実
    行するためのプログラムを記録したコンピュータ読み取
    り可能な記録媒体において、前記文書分類ステップにて
    用いられる統計手法が非階層クラスタリング手法である
    文書分類方法を実行するためのプログラムを記録したコ
    ンピュータ読み取り可能な記録媒体。
  38. 【請求項38】 請求項36または37に記載の文書分
    類方法を実行するためのプログラムを記録したコンピュ
    ータ読み取り可能な記録媒体において、前記部分文書集
    合間関係算出ステップにて算出される関係が、類似関係
    と包含関係である文書分類方法を実行するためのプログ
    ラムを記録したコンピュータ読み取り可能な記録媒体。
  39. 【請求項39】 請求項38に記載の文書分類方法を実
    行するためのプログラムを記録したコンピュータ読み取
    り可能な記録媒体において、前記部分文書集合間の関係
    は各部分文書集合から抽出される単語情報のみを用いて
    算出される文書分類方法を実行するためのプログラムを
    記録したコンピュータ読み取り可能な記録媒体。
JP2000293597A 2000-09-27 2000-09-27 文書分類装置、文書分類方法及び該方法を実行するための記録媒体 Pending JP2002108894A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000293597A JP2002108894A (ja) 2000-09-27 2000-09-27 文書分類装置、文書分類方法及び該方法を実行するための記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000293597A JP2002108894A (ja) 2000-09-27 2000-09-27 文書分類装置、文書分類方法及び該方法を実行するための記録媒体

Publications (1)

Publication Number Publication Date
JP2002108894A true JP2002108894A (ja) 2002-04-12

Family

ID=18776360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000293597A Pending JP2002108894A (ja) 2000-09-27 2000-09-27 文書分類装置、文書分類方法及び該方法を実行するための記録媒体

Country Status (1)

Country Link
JP (1) JP2002108894A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004288168A (ja) * 2003-03-05 2004-10-14 Hewlett Packard Co <Hp> クラスタリング方法プログラム及び装置
WO2005004004A1 (ja) * 2003-07-01 2005-01-13 Yamatake Corporation 文章分類装置および方法
WO2016147219A1 (ja) * 2015-03-18 2016-09-22 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、記録媒体
KR102639880B1 (ko) * 2023-08-02 2024-02-23 (주)유알피 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법
KR102639873B1 (ko) * 2023-08-02 2024-02-23 (주)유알피 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004288168A (ja) * 2003-03-05 2004-10-14 Hewlett Packard Co <Hp> クラスタリング方法プログラム及び装置
WO2005004004A1 (ja) * 2003-07-01 2005-01-13 Yamatake Corporation 文章分類装置および方法
US7567954B2 (en) 2003-07-01 2009-07-28 Yamatake Corporation Sentence classification device and method
WO2016147219A1 (ja) * 2015-03-18 2016-09-22 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、記録媒体
JPWO2016147219A1 (ja) * 2015-03-18 2017-12-21 日本電気株式会社 テキスト可視化システム、テキスト可視化方法、及び、プログラム
US10489514B2 (en) 2015-03-18 2019-11-26 Nec Corporation Text visualization system, text visualization method, and recording medium
KR102639880B1 (ko) * 2023-08-02 2024-02-23 (주)유알피 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법
KR102639873B1 (ko) * 2023-08-02 2024-02-23 (주)유알피 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치

Similar Documents

Publication Publication Date Title
JP4571404B2 (ja) データ処理方法、データ処理システムおよびプログラム
JP2742115B2 (ja) 類似文書検索装置
JPH0424869A (ja) 文書処理システム
US20050203900A1 (en) Associative retrieval system and associative retrieval method
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
JP5754019B2 (ja) 同義語抽出システム、方法およびプログラム
JP2004110161A (ja) テキスト文比較装置
JP3577972B2 (ja) 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
JP2011227688A (ja) テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
JP2004110200A (ja) テキスト文比較装置
JP3765799B2 (ja) 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和***
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN114706972A (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
JPH1049543A (ja) 文書検索装置
JP2006227823A (ja) 情報処理装置及びその制御方法
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP2002108894A (ja) 文書分類装置、文書分類方法及び該方法を実行するための記録媒体
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
JP2004272352A (ja) 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
Moghadam et al. Comparative study of various Persian stemmers in the field of information retrieval
Malallah et al. Multi-document text summarization using fuzzy logic and association rule mining
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置