JP2002108894A

JP2002108894A - 文書分類装置、文書分類方法及び該方法を実行するための記録媒体

Info

Publication number: JP2002108894A
Application number: JP2000293597A
Authority: JP
Inventors: Eiji Kenmochi; 栄治剣持
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2000-09-27
Filing date: 2000-09-27
Publication date: 2002-04-12

Abstract

(57)【要約】【課題】部分文書集合の分析に有効な情報を提供し、
文書集合からより多くの分析情報を抽出しうる文書分類
装置を提供する。【解決手段】文書解析部１０２は、文書入力部１０１
から入力した文書から単語情報を抽出し、文書分類部１
０３がこれをもとに文書を部分文書集合に分類する。代
表語抽出部１０４は、部分文書集合から代表語セットを
抽出し、関連語抽出部１０５が、関連語辞書を用いて部
分文書集合の関連語セットを抽出する。部分文書集合情
報生成部１０６は、関連語セット及び代表語セットと部
分文書集合の文書集合に関する情報をもとに個々の部分
文書集合及びこれらの間の関連情報を生成し、分類結果
保存部１０７が文書分類部１０３の分類結果と部分集合
情報生成部１０６で生成された情報とをあわせて保存す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書分類装置、文
書分類方法及び該方法を実行するための記録媒体に関
し、情報分類、情報分析、情報検索等に応用可能な文書
分類技術に関する。

【０００２】

【従来の技術】インターネット等の普及により大量の文
書情報へのアクセスが可能になり、収集した大量の文書
情報を意味のあるグループに分類し、文書集合の構造を
把握するなどの知的作業が行われ始めている。大量な文
書集合を分析する場合、まず文書集合をいくつかの話題
で分類し、得られた部分文書集合（ある基準で集められ
た複数の文書）を単位としてさまざまな作業を行うこと
で、分析作業を効率的に行うことができるものと考えら
れる。大量の文書情報をユーザが手動で分類する場合、
人的／時間的コストが膨大なものになるため、文書集合
を文書の内容により自動分類できる装置が望まれてい
る。

【０００３】従来、膨大な文書集合からの質の高い分類
結果を得るための発明が広く行われている。例えば、特
開平７−３６８９７号公報に記載の発明は、分類対象文
書集合に含まれる単語を特徴量とする文書特徴ベクトル
を用い、その文書特徴ベクトルに対してクラスタリング
手法を適用して分類を行うものである。上記の発明では
ユーザの意図を反映した分類を行うためにクラスタリン
グの初期重心ベクトルをユーザが指定することも示唆し
ている。

【０００４】また、特開平１１−２９６５５２号公報に
記載の発明は、単語の多義性/同義性を考慮するために
文書間の内積行列に特異値分解を適用することにより文
書間の単語の共起性を基に潜在的意味空間を生成して、
文書と単語を潜在的意味空間に射影し、その潜在的意味
空間においてクラスタリング手法などを用いて文書分類
を行うものである。このように膨大な文書集合からの質
の高い分類結果を得るための発明は種々提案されている
が、文書集合の分析を行うためには文書集合を分類する
だけは不十分であり、生成された部分文書集合からどの
ように有効な情報を抽出するかということも重要な問題
であるが、この点についての発明はあまり見られない。

【０００５】また、形態素解析などの自然言語処理を用
いて文書からそれらを構成する単語を抽出することによ
り文書を単語頻度のベクトル（文書特徴ベクトル）とし
て空間表現することが可能となるが、これは文書ベクト
ル空間モデルと呼ばれ、広く用いられている。上述した
特開平７−３６８９７号公報の発明は、このような文書
ベクトル空間において、クラスタリング手法を適用する
ことにより文書分類を行うものである。

【０００６】このように文書ベクトル空間で統計的手法
を用いて文書分類処理や文書検索処理等を行う場合、文
書ベクトル空間が異なれば得られる結果の質も変わると
考えられるので、如何にして良い文書ベクトル空間を生
成するかが高品位な処理結果を得るためには重要な問題
となる。

【０００７】前述したように、通常文書ベクトル空間の
各軸は分類対象文書データに形態素解析を適用した結果
抽出される単語をもとに構成されるため、例えば、特開
平１１−１１０４０８号公報や特開平１１−２５９４８
７号公報に代表される発明は、検索問い合わせ語や検索
対象文書に対し、形態素解析を適用し、その結果抽出さ
れる単語から適切な条件のもとに複合語を生成し、これ
らの複合語の情報も前記文書ベクトル空間の生成に用い
ることで、文書ベクトル空間上で行う文書検索の精度の
向上を目的としている。従って、文書ベクトル空間で文
書分類処理を行う場合においても、複合語を考慮して文
書ベクトル空間を生成することで高品位な分類結果を得
ることが期待される。

【０００８】ところで、上記先願を含め、通常複合語を
考慮する場合は、品詞が名詞もしくはそれに類するもの
が対象とされているが、名詞だけでなく他の結合可能な
品詞も適切に結合させることで、より高品位な文書ベク
トル空間を構成することが可能になると考えられる。す
なわち、先願の発明等ではあまり扱われることのなかっ
た、接頭詞、接尾詞、助数詞、及びそれらに類する品詞
を有する単語について、適切な基準でそれらの前後の単
語と結合することで生成される単語と置き換えるとも
に、品詞も適切なものに置き換えることを考える。

【０００９】例えば、“イタリア製の車”という文字列
に対して形態素解析を適用し、“イタリア［普通名
詞］、製［接頭詞］、の［格助詞］、車”という結果が
得られた場合、接頭詞である“製”という単語に着目
し、これをこの直前に抽出されている“イタリア”とい
う普通名詞と結合し、“イタリア製”という単語を生成
し、これを普通名詞の品詞を有する単語として、“製”
という単語と置き換える。そして、この文字列に加え、
“イタリアの特色”、“イタリア製の皿”という文字列
で構成するベクトル空間を生成することを考えてみる。

【００１０】名詞だけで空間を生成することを考えた場
合、前記の結合・置き換え処理を行わない場合、ベクト
ル空間を構成する単語は、“イタリア、車、特色、皿”
であり、前記文字列は、単語の出現頻度を座標値と考え
た場合、（１，０，１，０）、（１，０，０，０）、
（１，０，０，１）となる。この場合、前記３つの文字
列の相互の類似度をベクトル間の内積で計算すると、前
記３つの文字列の相互の類似度は同じものとなる。一
方、前記の結合・置き換え処理を行った後、名詞で空間
を生成すると、ベクトル空間を構成する単語は、“イタ
リア、イタリア製、車、特色、皿”となる。同様に、前
記３文書のこの空間でのベクトルは、（１，１，０，
１，０）、（１，０，０，０，０）、（１，１，０，
０，１）となる。この場合、前記３つの文字列の相互の
類似度には、差異が生じ、最初の文字列と最後の文字列
が２番目の文字列より高い類似度を持つことになる。す
なわち、この結合・置き換え処理によりベクトル空間に
より限定化された意味を測る特徴次元を加えることがで
き、これによりこのベクトル空間で行う文書分類等の質
も向上するものと考えられる。

【００１１】また、“２０００年の目標”という文字列
に対し形態素解析を適用し、“２０００［数詞］、年
［助数詞］、の［格助詞］、目標［普通名詞］”のよう
な結果が得られているとする。このとき、助数詞である
“年”という単語に着目し、これをこの直前に抽出され
ている“２０００”という数詞と結合し、“２０００
年”という単語を生成し、これを普通名詞の品詞を有す
る単語として、“年”という単語と置き換え、かつ“２
０００”という数詞を削除する。これにより、非常に漠
然とした意味しか有していない助数詞である“年”や
“２０００”という単語にかえて、“２０００年”とい
うより意味的に限定された、それゆえ変数としてはより
重要な単語をもとにして文書ベクトル空間が構成可能に
なることが期待される。

【００１２】また、上述のようにインターネット等の普
及により大量の文書データへのアクセスが可能になり、
その結果として興味のある情報が記述されている文書デ
ータを簡単にかつ大量に収集できるようになったが、し
かしその一方で、収集した文書データが大量であるがた
めに、それら文書データから有効な情報を読み取る作業
は非常に困難なものになってしまっている。このため、
大量の文書データから自動もしくは半自動で有効な情報
を簡単に抽出することを目的として、文書検索や文書自
動分類に関する研究・開発が盛んに行われている。特
に、文書分類手法は、生成される複数の部分文書データ
集合個々を文書データに含まれる複数の話題を示すもの
と考えると、文書データ全体の構造を把握する手法とし
て非常に有効なものである。

【００１３】上述のような目的のために開発された手法
の代表的なものに、Scatter/Gather法（D.Cutting et.a
l., Scater/Gather: A Cluster-based Approach to B r
owsing Large Document Collections., Proc. ACM SIGI
R ’92）がある。Scatter/Gather法では、文書データ集
合の話題を代表文書と代表単語によリ表現するととも
に、話題が不明瞭な文書集合に対して逐次クラスタリン
グを適用し、複数の部分文書データ集合に分割していく
ことで文書集合に含まれる様々な話題を理解していく。
文書集合の構造を理解するためには、文書集合に含まれ
る部分文書集合個々を理解することはもちろん必要であ
るが、加えて部分文書集合間の関係に関する情報も必要
であると考えられる。しかしながら、Scatter/Gather法
では個々の部分文書集合に関する情報しか提示されてい
ないため、Scatter/Gather法のみでは文書集合の構造を
把握することは困難であると考えられる。

【００１４】また、一般的に文書分類手法においては、
生成する部分文書集合の数が実行前に必要であるが、最
適な部分文書集合の数を予測することは極めて困難であ
る。しかも、一方で生成する部分文書集合の数が異なれ
ば生成される部分文書集合の構造も変化してしまう。こ
のため、必要な情報を得るためには生成する部分文書集
合の数をかえながら、繰り返し文書分類を行わなければ
ないらない。Scatter/Gather法はこの点についても一つ
の解決法を提示しており、ユーザがより詳細な構造を知
りたいと考える部分文書集合のみに対し逐次クラスタリ
ングを適用し、あらたな部分文書集合を生成し、それら
を詳細に分析することで所望の情報を得ることができる
とともに、この行為により文書集合全体の構造を理解す
ることも容易になっていると考えられる。

【００１５】すなわち、ユーザが行いたいことは文書集
合の構造の把握であり、部分文書集合を生成するという
行為は本来ユーザが行う必要がないものと考えられる。
そして、ユーザが、事前に文書集合から様々な数の部分
文書集合を生成し、生成された多数の部分文書集合間の
関係を算出しておくことで、ユーザは始めから構造の把
握を行う作業に集中できると考えられる。しかしなが
ら、前述の通りScatter/Gather法は部分文書間の関連に
関しては考慮されていない。

【００１６】

【発明が解決しようとする課題】本発明の請求項１〜
４，１４〜１７，及び２７〜３０の発明では、文書分類
を行うとともに、単語の関連語情報を基に生成された部
分文書集合個々及びそれらの関連情報をさらに生成する
ことで部分文書集合の分析に有効な情報を提供すること
を目的とする。さらに、関連語として反対語に着目する
ことで、各部分文書集合の代表語セットの反対語を含む
部分文書集合が、生成された部分文書集合にはない場
合、反対語を含むあらたな部分文書集合を生成すること
で、文書集合からより多くの分析情報を抽出しうる文書
分類装置を提供することを目的とする。

【００１７】従って請求項１，１４及び２７の発明は、
生成された部分文書集合それぞれの代表語セットを抽出
し、さらにそれら代表語それぞれについて関連語を求
め、これらの情報をもとに各部分文書集合および部分文
書集合間の関連情報を生成することで、部分文書集合の
分析に有効な情報を提供する文書分類装置、方法または
記録媒体を提供することを目的とする。

【００１８】請求項２，１５及び２８の発明は、関連語
として同義語、類義語、反対語のすくなくとも一つ以上
の組合わせを用いることで主に類似性に関す情報を提供
する文書分類装置、方法または記録媒体を提供すること
を目的とする。

【００１９】請求項３，４，１６，１７，２９及び３０
の発明は、各部分文書集合の代表語セットの関連語とし
て反対語を用い、反対語が自分を含む他のどの部分文書
集合の代表語セットとも一致しない場合、その反対語を
含む文書を文書集合から抽出し、それを新たな部分文書
集合とすることで、文書集合からより多くの分析情報を
抽出する文書分類装置、方法または記録媒体を提供する
ことを目的とする。

【００２０】また請求項５，１８及び３１の発明は、分
類対象文書に形態素解析し、得られた解析結果をもとに
分類対象文書を幾つかの文書集合に分類する文書分類装
置において、形態素解析の結果得られる単語のうち指定
される品詞をもつ単語について、その前後の単語と適切
に組合わせた単語と置き換え、かつ品詞もまた適切なも
のに置き換える処理を施すことによって、高品位な文書
ベクトル空間を構成し、この文書ベクトル空間で統計処
理を用いて文書分類を行うことで高品質な文書分類結果
を得ることができる文書分類装置、方法または記録媒体
を提供することを目的とする。

【００２１】請求項６，１９及び３２の発明は、文書分
類を行うための統計手法として、クラスタリング手法を
用いることで、簡便に高品質な文書分類結果を得ること
ができる文書分類装置、方法または記録媒体を提供する
ことを目的とする。

【００２２】請求項７，２０及び３３の発明は、分類対
象文書に形態素解析を適用することで抽出される単語の
中で、特に、品詞が、接頭詞、接尾詞、助数詞、及びそ
れらに類する品詞である単語について、適切な結合処理
を施こすことで、高品質な文書ベクトル空間を得ること
ができる文書分類装置、方法または記録媒体を提供する
ことを目的とする。

【００２３】請求項８，２１及び３４の発明は、単語の
結合処理において特定の品詞の単語が出現するまで単語
の結合を続けることによって新たな単語を生成すること
で、高品質な文書ベクトル空間を得ることができる文書
分類装置、方法または記録媒体を提供することを目的と
する。

【００２４】請求項９，２２及び３５の発明は、単語の
結合処理において、品詞が数詞接尾詞もしくは助数詞の
単語について、結合される複数の単語を削除し、文書ベ
クトル空間を生成する際にはそれらの単語の情報は用い
ないことで、高品質な文書ベクトル空間を得ることがで
きる文書分類装置、方法または記録媒体を提供すること
を目的とする。

【００２５】また本発明の請求項１０〜１３，２３〜２
６及び３６〜３９の発明では、事前に文書集合から様々
な数の部分文書集合を生成し、生成された多数の部分文
書集合間の関係を算出することで、ユーザが始めから文
書集合の構造の把握を行う作業に集中できる情報を提供
することを目的とする。

【００２６】従って請求項１０，２３及び３６の発明
は、文書のベクトル空間モデルを用い、生成する部分文
書集合の数をパラメータとして繰り返し文書分類処理を
行うことで、多数の部分文書集合を生成し、さらに生成
された多数の文書集合について相互の関係を算出するこ
とで、文書集合の構造の把握を支援しうる情報を生成す
る文書分類装置を提供する文書分類装置、方法または記
録媒体を提供することを目的とする。

【００２７】請求項１１，２４及び３７の発明は、文書
分類を行う統計手法として、非階層クラスタリング手法
を用いることで、簡便に多数の部分文書集合を生成する
文書分類装置、方法または記録媒体を提供することを目
的とする。

【００２８】請求項１２，２５及び３８の発明は、生成
された多数の文書集合について相互の関係として、類似
関係と包含関係を算出することで、容易に文書集合の構
造を把握しうる情報を提供する文書分類装置、方法また
は記録媒体を提供することを目的とする。

【００２９】請求項１３，２６及び３９の発明は、生成
された多数の文書集合が有する情報のうち、単語に関す
る情報のみを用いて相互の関係を算出することで、汎用
性・再利用性の高い関係情報を算出する文書分類装置、
方法または記録媒体を提供することを目的とする。

【００３０】

【課題を解決するための手段】請求項１の発明は、文書
集合をその内容に従って分類する文書分類装置であっ
て、複数の文書を入力する文書入力部と、該文書入力部
にて入力された各文書から該各文書を構成する単語情報
を抽出する文書解析部と、該文書解析部にて抽出された
各文書の単語情報をもとに前記複数の文書による文書集
合をいくつかの部分文書集合に分類する文書分類部と、
該文書分類部にて分類された各部分文書集合からそれら
の代表語セットを抽出する代表語抽出部と、任意の単語
についてその関連語が記述された関連語辞書を用いて前
記代表語抽出部にて抽出した各部分文書集合の代表語セ
ットそれぞれについて関連語セットを抽出する関連語抽
出部と、該関連語抽出部にて抽出した関連語セットと前
記代表語抽出部で抽出した代表語セットと各部分文書集
合に所属する文書に関する情報とをもとに個々の部分文
書集合及び部分文書集合間の関連情報を生成する部分文
書集合情報生成部と、前記文書分類部での分類結果を前
記部分文書集合情報生成部にて生成された情報と合わせ
て保存する分類結果保存部とを含むことを特徴としたも
のである。

【００３１】請求項２の発明は、請求項１の発明におい
て、前記関連語抽出部にて抽出される関連語セットが、
同義語、類義語、反対語のうちの少なくとも一つ以上の
組合わせであることを特徴としたものである。

【００３２】請求項３の発明は、請求項１の発明におい
て、前記関連語抽出部にて抽出される関連語セットが少
なくとも反対語を含み、ある部分文書集合の代表語セッ
トから抽出された反対語セットが、自分を含む他のどの
部分文書集合の代表語セットとも一致しない場合、該一
致しない反対語セットを含む文書を文書集合から抽出
し、あらたな部分文書集合を生成する処理を全部分文書
集合に対し再帰的に繰り返す反意部分文書集合生成部を
さらに含むことを特徴としたものである。

【００３３】請求項４の発明は、請求項１の発明におい
て、前記関連語抽出部にて抽出される関連語が少なくと
も反対語を含み、ある部分文書集合の代表語セットから
抽出された反対語セットが、自分を含む他のどの部分文
書集合の代表語セットとも一致しない場合、該一致しな
い反対語セットと代表語セットから反対語セットに対応
する代表語を除いた単語セットを含む文書を文書集合か
ら抽出し、あらたな部分文書集合を生成する処理を全部
分文書集合に対し再帰的に繰り返す反意部分文書集合生
成部をさらに含むことを特徴としたものである。

【００３４】請求項５の発明は、文書の内容に従って文
書の分類を行う文書分類装置であって、文書データを入
力する文書入力部と、前記文書データに形態素解析を適
用し、前記文書データを構成する単語をそれらの品詞情
報等とともに抽出する文書解析部と、該文書解析部にて
抽出された文書データの解析情報から文書データを多次
元ベクトル空間で表現するための文書ベクトル空間を生
成する文書ベクトル空間生成部と、該文書ベクトル空間
生成部にて生成した文書ベクトル空間において統計手法
を用いることにより文書データの分類を行う文書分類部
とを含み、前記文書解析部にて抽出される特定の品詞を
有する単語を、該特定の品詞の品詞情報に基づき、該特
定の品詞の前後に抽出される一つ以上の単語と結合する
ことにより生成される単語と置き換え、かつ該特定の品
詞の品詞情報も適切に置き換えることを特徴としたもの
である。

【００３５】請求項６の発明は、請求項５の発明におい
て、前記文書分類部において統計手法としてクラスタリ
ング法を用いることで文書データの分類を行うことを特
徴としたものである。

【００３６】請求項７の発明は、請求項５または６の発
明において、前記文書解析部において品詞が接頭詞、接
尾詞、助数詞、及びそれらに類する品詞である単語につ
いて、単語および品詞の置き換えを行うことを特徴とし
たものである。

【００３７】請求項８の発明は、請求項５ないし７のい
ずれか１の発明において、前記文書解析部において特定
の品詞の単語が出現するまで単語の結合を続けることを
特徴としたものである。

【００３８】請求項９の発明は、請求項５ないし８のい
ずれか１の発明において、前記文書解析部において品詞
が数詞接尾詞もしくは助数詞の単語について、該数詞接
尾詞もしくは助数詞の単語に結合される複数の単語を削
除し、前記文書分類部では削除した単語の情報を用いな
いことを特徴としたものである。

【００３９】請求項１０の発明は、文書の内容に従って
文書データ集合を分類する文書分類装置であって、文書
データ集合を入力する文書入力部と、すべての文書デー
タに形態素解析を適用し、前記文書データを構成する単
語をそれらの品詞情報等とともに抽出する文書解析部
と、該文書解析部にて抽出された文書データの解析結果
を記憶する文書解析結果記憶部と、前記文書解析部にて
抽出された文書データの解析情報から前記文書データを
多次元ベクトル空間で表現するためのベクトル空間を生
成する文書ベクトル空間生成部と、該文書ベクトル空間
生成部にて生成された文書ベクトル空間の各文書データ
のベクトルデータを記憶する文書ベクトルデータ記憶部
と、指定される条件から文書データ集合の分類数を決定
する分類数決定部と、前記文書ベクトル空間生成部にて
生成した文書ベクトル空間において統計手法を用いるこ
とにより文書データを前記指定された分類数の部分文書
集合に分類する文書分類部と、該文書分類部で生成され
た分類結果を記憶する分類結果記憶部と、前記分類数決
定部から前記分類結果記憶部までの処理を繰り返し行う
か否かの判定をおこなう繰り返し判定部と、前記文書ベ
クトルデータ記憶部と前記分類結果記憶部に記憶された
情報を用いて生成されたすべての部分文書集合間の関係
情報を算出する部分文書集合間関係算出部と、該部分文
書集合間関係算出部にて生成された部分文書集合間の関
係情報を記憶する部分文書集合間関係記憶部とを含むこ
とを特徴としたものである。

【００４０】請求項１１の発明は、請求項１０の発明に
おいて、前記文書分類部にて用いられる統計手法が非階
層クラスタリング手法であることを特徴としたものであ
る。

【００４１】請求項１２の発明は、請求項１０または１
１の発明において、前記部分文書集合間関係算出部にて
算出される関係が、類似関係と包含関係であることを特
徴としたものである。

【００４２】請求項１３の発明は、請求項１２の発明に
おいて、前記部分文書集合間の関係は各部分文書集合か
ら抽出される単語情報のみを用いて算出されることを特
徴としたものである。

【００４３】請求項１４の発明は、文書集合をその内容
に従って分類する文書分類方法であって、複数の文書を
入力する文書入力ステップと、該文書入力ステップにて
入力された各文書から該各文書を構成する単語情報を抽
出する文書解析ステップと、該文書解析ステップにて抽
出された各文書の単語情報をもとに前記複数の文書によ
る文書集合をいくつかの部分文書集合に分類する文書分
類ステップと、該文書分類ステップにて分類された各部
分文書集合からそれらの代表語セットを抽出する代表語
抽出ステップと、任意の単語についてその関連語が記述
された関連語辞書を用いて前記代表語抽出ステップにて
抽出した各部分文書集合の代表語セットそれぞれについ
て関連語セットを抽出する関連語抽出ステップと、該関
連語抽出ステップにて抽出した関連語セットと前記代表
語抽出ステップで抽出した代表語セットと各部分文書集
合に所属する文書に関する情報とをもとに個々の部分文
書集合及び部分文書集合間の関連情報を生成する部分文
書集合情報生成ステップと、前記文書分類ステップでの
分類結果を前記部分文書集合情報生成部にて生成された
情報と合わせて保存する分類結果保存ステップとを含む
ことを特徴としたものである。

【００４４】請求項１５の発明は、請求項１４の発明に
おいて、前記関連語抽出ステップにて抽出される関連語
セットが、同義語、類義語、反対語のうちの少なくとも
一つ以上の組合わせであることを特徴としたものであ
る。

【００４５】請求項１６の発明は、請求項１４の発明に
おいて、前記関連語抽出ステップにて抽出される関連語
セットが少なくとも反対語を含み、ある部分文書集合の
代表語セットから抽出された反対語セットが、自分を含
む他のどの部分文書集合の代表語セットとも一致しない
場合、該一致しない反対語セットを含む文書を文書集合
から抽出し、あらたな部分文書集合を生成する処理を全
部分文書集合に対し再帰的に繰り返す反意部分文書集合
生成ステップをさらに含むことを特徴としたものであ
る。

【００４６】請求項１７の発明は、請求項１４の発明に
おいて、前記関連語抽出ステップにて抽出される関連語
が少なくとも反対語を含み、ある部分文書集合の代表語
セットから抽出された反対語セットが、自分を含む他の
どの部分文書集合の代表語セットとも一致しない場合、
該一致しない反対語セットと代表語セットから反対語セ
ットに対応する代表語を除いた単語セットを含む文書を
文書集合から抽出し、あらたな部分文書集合を生成する
処理を全部分文書集合に対し再帰的に繰り返す反意部分
文書集合生成ステップをさらに含むことを特徴としたも
のである。

【００４７】請求項１８の発明は、文書の内容に従って
文書の分類を行う文書分類方法であって、文書データを
入力する文書入力ステップと、前記文書データに形態素
解析を適用し、前記文書データを構成する単語をそれら
の品詞情報等とともに抽出する文書解析ステップと、該
文書解析ステップにて抽出された文書データの解析情報
から文書データを多次元ベクトル空間で表現するための
文書ベクトル空間を生成する文書ベクトル空間生成ステ
ップと、該文書ベクトル空間生成ステップにて生成した
文書ベクトル空間において統計手法を用いることにより
文書データの分類を行う文書分類ステップとを含み、前
記文書解析ステップにて抽出される特定の品詞を有する
単語を、該特定の品詞の品詞情報に基づき、該特定の品
詞の前後に抽出される一つ以上の単語と結合することに
より生成される単語と置き換え、かつ該特定の品詞の品
詞情報も適切に置き換えることを特徴としたものであ
る。

【００４８】請求項１９の発明は、請求項１８の発明に
おいて、前記文書分類ステップにおいて統計手法として
クラスタリング法を用いることで文書データの分類を行
うことを特徴としたものである。

【００４９】請求項２０の発明は、請求項１８または１
９の発明において、前記文書解析ステップにおいて品詞
が接頭詞、接尾詞、助数詞、及びそれらに類する品詞で
ある単語について、単語および品詞の置き換えを行うこ
とを特徴としたものである。

【００５０】請求項２１の発明は、請求項１８ないし２
０のいずれか１の発明において、前記文書解析ステップ
において特定の品詞の単語が出現するまで単語の結合を
続けることを特徴としたものである。

【００５１】請求項２２の発明は、請求項１８ないし２
１のいずれか１の発明において、前記文書解析ステップ
において品詞が数詞接尾詞もしくは助数詞の単語につい
て、該数詞接尾詞もしくは助数詞の単語に結合される複
数の単語を削除し、前記文書分類ステップでは削除した
単語の情報を用いないことを特徴としたものである。

【００５２】請求項２３の発明は、文書の内容に従って
文書データ集合を分類する文書分類方法であって、文書
データ集合を入力する文書入力ステップと、すべての文
書データに形態素解析を適用し、前記文書データを構成
する単語をそれらの品詞情報等とともに抽出する文書解
析ステップと、該文書解析ステップにて抽出された文書
データの解析結果を記憶する文書解析結果記憶ステップ
と、前記文書解析ステップにて抽出された文書データの
解析情報から前記文書データを多次元ベクトル空間で表
現するためのベクトル空間を生成する文書ベクトル空間
生成ステップと、該文書ベクトル空間生成ステップにて
生成された文書ベクトル空間の各文書データのベクトル
データを記憶する文書ベクトルデータ記憶ステップと、
指定される条件から文書データ集合の分類数を決定する
分類数決定ステップと、前記文書ベクトル空間生成ステ
ップにて生成した文書ベクトル空間において統計手法を
用いることにより文書データを前記指定された分類数の
部分文書集合に分類する文書分類ステップと、該文書分
類ステップで生成された分類結果を記憶する分類結果記
憶ステップと、前記分類数決定ステップから前記分類結
果記憶ステップまでの処理を繰り返し行うか否かの判定
をおこなう繰り返し判定ステップと、前記文書ベクトル
データ記憶ステップと前記分類結果記憶ステップにて記
憶された情報を用いて生成されたすべての部分文書集合
間の関係情報を算出する部分文書集合間関係算出ステッ
プと、該部分文書集合間関係算出ステップにて生成され
た部分文書集合間の関係情報を記憶する部分文書集合間
関係記憶ステップとを含むことを特徴としたものであ
る。

【００５３】請求項２４の発明は、請求項２３の発明に
おいて、前記文書分類ステップにて用いられる統計手法
が非階層クラスタリング手法であることを特徴としたも
のである。

【００５４】請求項２５の発明は、請求項２３または２
４の発明において、前記部分文書集合間関係算出ステッ
プにて算出される関係が、類似関係と包含関係であるこ
とを特徴としたものである。

【００５５】請求項２６の発明は、請求項２５の発明に
おいて、前記部分文書集合間の関係は各部分文書集合か
ら抽出される単語情報のみを用いて算出されることを特
徴としたものである。

【００５６】請求項２７の発明は、文書集合をその内容
に従って分類する文書分類方法を実行するためのプログ
ラムを記録したコンピュータ読み取り可能な記録媒体で
あって、複数の文書を入力する文書入力ステップと、該
文書入力ステップにて入力された各文書から該各文書を
構成する単語情報を抽出する文書解析ステップと、該文
書解析ステップにて抽出された各文書の単語情報をもと
に前記複数の文書による文書集合をいくつかの部分文書
集合に分類する文書分類ステップと、該文書分類ステッ
プにて分類された各部分文書集合からそれらの代表語セ
ットを抽出する代表語抽出ステップと、任意の単語につ
いてその関連語が記述された関連語辞書を用いて前記代
表語抽出ステップにて抽出した各部分文書集合の代表語
セットそれぞれについて関連語セットを抽出する関連語
抽出ステップと、該関連語抽出ステップにて抽出した関
連語セットと前記代表語抽出ステップで抽出した代表語
セットと各部分文書集合に所属する文書に関する情報と
をもとに個々の部分文書集合及び部分文書集合間の関連
情報を生成する部分文書集合情報生成ステップと、前記
文書分類ステップでの分類結果を前記部分文書集合情報
生成部にて生成された情報と合わせて保存する分類結果
保存ステップとを含む文書分類方法を実行するためのプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体である。

【００５７】請求項２８の発明は、請求項２７に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記関連
語抽出ステップにて抽出される関連語セットが、同義
語、類義語、反対語のうちの少なくとも一つ以上の組合
わせである文書分類方法を実行するためのプログラムを
記録したコンピュータ読み取り可能な記録媒体である。

【００５８】請求項２９の発明は、請求項２７に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記関連
語抽出ステップにて抽出される関連語セットが少なくと
も反対語を含み、ある部分文書集合の代表語セットから
抽出された反対語セットが、自分を含む他のどの部分文
書集合の代表語セットとも一致しない場合、該一致しな
い反対語セットを含む文書を文書集合から抽出し、あら
たな部分文書集合を生成する処理を全部分文書集合に対
し再帰的に繰り返す反意部分文書集合生成ステップをさ
らに含む文書分類方法を実行するためのプログラムを記
録したコンピュータ読み取り可能な記録媒体である。

【００５９】請求項３０の発明は、請求項２７に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記関連
語抽出ステップにて抽出される関連語が少なくとも反対
語を含み、ある部分文書集合の代表語セットから抽出さ
れた反対語セットが、自分を含む他のどの部分文書集合
の代表語セットとも一致しない場合、該一致しない反対
語セットと代表語セットから反対語セットに対応する代
表語を除いた単語セットを含む文書を文書集合から抽出
し、あらたな部分文書集合を生成する処理を全部分文書
集合に対し再帰的に繰り返す反意部分文書集合生成ステ
ップをさらに含む文書分類方法を実行するためのプログ
ラムを記録したコンピュータ読み取り可能な記録媒体で
ある。

【００６０】請求項３１の発明は、文書の内容に従って
文書の分類を行う文書分類方法を実行するためのプログ
ラムを記録したコンピュータ読み取り可能な記録媒体で
あって、文書データを入力する文書入力ステップと、前
記文書データに形態素解析を適用し、前記文書データを
構成する単語をそれらの品詞情報等とともに抽出する文
書解析ステップと、該文書解析ステップにて抽出された
文書データの解析情報から文書データを多次元ベクトル
空間で表現するための文書ベクトル空間を生成する文書
ベクトル空間生成ステップと、該文書ベクトル空間生成
ステップにて生成した文書ベクトル空間において統計手
法を用いることにより文書データの分類を行う文書分類
ステップとを含み、前記文書解析ステップにて抽出され
る特定の品詞を有する単語を、該特定の品詞の品詞情報
に基づき、該特定の品詞の前後に抽出される一つ以上の
単語と結合することにより生成される単語と置き換え、
かつ該特定の品詞の品詞情報も適切に置き換える文書分
類方法を実行するためのプログラムを記録したコンピュ
ータ読み取り可能な記録媒体である。

【００６１】請求項３２の発明は、請求項３１に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記文書
分類ステップにおいて統計手法としてクラスタリング法
を用いることで文書データの分類を行う文書分類方法を
実行するためのプログラムを記録したコンピュータ読み
取り可能な記録媒体である。

【００６２】請求項３３の発明は、請求項３１または３
２に記載の文書分類方法を実行するためのプログラムを
記録したコンピュータ読み取り可能な記録媒体におい
て、前記文書解析ステップにおいて品詞が接頭詞、接尾
詞、助数詞、及びそれらに類する品詞である単語につい
て、単語及び品詞の置き換えを行う文書分類方法を実行
するためのプログラムを記録したコンピュータ読み取り
可能な記録媒体である。

【００６３】請求項３４の発明は、請求項３１ないし３
３のいずれか１に記載の文書分類方法を実行するための
プログラムを記録したコンピュータ読み取り可能な記録
媒体において、前記文書解析ステップにおいて特定の品
詞の単語が出現するまで単語の結合を続ける文書分類方
法を実行するためのプログラムを記録したコンピュータ
読み取り可能な記録媒体である。

【００６４】請求項３５の発明は、請求項３１ないし３
４のいずれか１に記載の文書分類方法を実行するための
プログラムを記録したコンピュータ読み取り可能な記録
媒体において、前記文書解析ステップにおいて品詞が数
詞接尾詞もしくは助数詞の単語について、該数詞接尾詞
もしくは助数詞の単語に結合される複数の単語を削除
し、前記文書分類ステップでは削除した単語の情報を用
いない文書分類方法を実行するためのプログラムを記録
したコンピュータ読み取り可能な記録媒体である。

【００６５】請求項３６の発明は、文書の内容に従って
文書データ集合を分類する文書分類方法を実行するため
のプログラムを記録したコンピュータ読み取り可能な記
録媒体であって、文書データ集合を入力する文書入力ス
テップと、すべての文書データに形態素解析を適用し、
前記文書データを構成する単語をそれらの品詞情報等と
ともに抽出する文書解析ステップと、該文書解析ステッ
プにて抽出された文書データの解析結果を記憶する文書
解析結果記憶ステップと、前記文書解析ステップにて抽
出された文書データの解析情報から前記文書データを多
次元ベクトル空間で表現するためのベクトル空間を生成
する文書ベクトル空間生成ステップと、該文書ベクトル
空間生成ステップにて生成された文書ベクトル空間の各
文書データのベクトルデータを記憶する文書ベクトルデ
ータ記憶ステップと、指定される条件から文書データ集
合の分類数を決定する分類数決定ステップと、前記文書
ベクトル空間生成ステップにて生成した文書ベクトル空
間において統計手法を用いることにより文書データを前
記指定された分類数の部分文書集合に分類する文書分類
ステップと、該文書分類ステップで生成された分類結果
を記憶する分類結果記憶ステップと、前記分類数決定ス
テップから前記分類結果記憶ステップまでの処理を繰り
返し行うか否かの判定をおこなう繰り返し判定ステップ
と、前記文書ベクトルデータ記憶ステップと前記分類結
果記憶ステップにて記憶された情報を用いて生成された
すべての部分文書集合間の関係情報を算出する部分文書
集合間関係算出ステップと、該部分文書集合間関係算出
ステップにて生成された部分文書集合間の関係情報を記
憶する部分文書集合間関係記憶ステップとを含む文書分
類方法を実行するためのプログラムを記録したコンピュ
ータ読み取り可能な記録媒体である。

【００６６】請求項３７の発明は、請求項３６に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記文書
分類ステップにて用いられる統計手法が非階層クラスタ
リング手法である文書分類方法を実行するためのプログ
ラムを記録したコンピュータ読み取り可能な記録媒体で
ある。

【００６７】請求項３８の発明は、請求項３６または３
７に記載の文書分類方法を実行するためのプログラムを
記録したコンピュータ読み取り可能な記録媒体におい
て、前記部分文書集合間関係算出ステップにて算出され
る関係が、類似関係と包含関係である文書分類方法を実
行するためのプログラムを記録したコンピュータ読み取
り可能な記録媒体である。

【００６８】請求項３９の発明は、請求項３８に記載の
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体において、前記部分
文書集合間の関係は各部分文書集合から抽出される単語
情報のみを用いて算出される文書分類方法を実行するた
めのプログラムを記録したコンピュータ読み取り可能な
記録媒体である。

【００６９】

【発明の実施の形態】本発明の実施例の説明において
は、自然言語で記述された１つ以上の文の集まりで、そ
れが分類対象となる場合は、これを文書と言う。また、
ひとつの文書の終端には、それが判別可能な文書終端記
号が付置されているものとする。具体的な例をあげれ
ば、公開特許公報や特定の新聞記事も文書であるし、そ
れらから請求項や特定の１文を取り出したものであって
もこれを文書と見なす。

【００７０】図１は本発明の請求項１，２，１４，１
５，２７及び２８の発明に対応する実施例を説明するた
めの文書分類装置のブロック構成図である。文書入力部
１０１は、キーボード、ＯＣＲ装置、ハードディスク等
の補助記憶装置等の入力手段が文書分類装置１００に直
接に、または、ネットワーク経由で接続され、このよう
な入力手段から文書や文書群を獲得し、文書データを入
力するインターフェースである。図２は、文書データを
入力する処理の一例を示すフローチャートである。

【００７１】図１における文書解析部１０２では、入力
された文書それぞれに対し、自然言語解析を行い、単語
やその品詞などを抽出する。さらに、文書内での単語の
出現順序や、文書の作成者や作成日などの文書のメタ情
報なども含めることができる。その後、文書群で出現し
た単語に対しユニークな単語ＩＤを付与し、文書内での
単語出現回数を計数する。一例として、文書に対し形態
素解析を適用することで、文書内の単語表記と品詞を抽
出し、その結果をもとに文書群で出現したユニークな単
語の表記、品詞、識別番号を抽出し、また各文書を抽出
されたユニークな単語識別番号とその頻度で表現する例
を示すこととし、そのフローチャートを図３に示す。

【００７２】例えば、図４（Ａ）に示す文書１と文書２
に対し、形態素解析を適用すると図４（Ｂ）のような結
果が得られる。図４（Ｂ）において各切り出された単語
の下の数値はそれらの品詞を示しており、その対応表は
図４（Ｃ）に示す。文書群が図４（Ａ）に示す２つの文
書のみで構成されているとすると、文書群で出現したユ
ニークな単語の表記、品詞、識別番号と各文書を単語識
別番号とその頻度で表現した結果は図５（Ａ）〜図５
（Ｃ）のようになる。ただし、簡単のため品詞としては
名詞と未登録語のみを採用する。

【００７３】文書分類部１０３では、文書解析部１０２
で生成された情報をもとに文書群の分類をおこなう。本
発明では、分類手法は特に限定しないが、ここでは一例
として、上記文書解析部１０２における実施例を継承し
て、各文書を文書群でユニークな単語の出現頻度のベク
トルで表現し、これらのベクトルをもとにクラスタリン
グ手法の１つであるｋｍｅａｎｓ法を用いて文書分類
を行う例を示すこととし、そのフローチャートを図６に
示す。ここで、ベクトル間の類似度は０１の間の実
数、かつ最大類似度は１であるとする。

【００７４】図７（Ａ）に示す１５個の文書を図３及び
図５に示すアルゴリズムを基に３つの部分文書集合に分
類した結果を図７（Ｂ）に示す。ここで、品詞としては
名詞と未登録語のみを採用し、またｋｍｅａｎｓ法に
おける類似測度は余弦測度であり、反復停止条件は繰返
し回数５回としている。代表語抽出部１０４では、文書
解析部１０２で生成した各文書の単語情報及び文書分類
部で生成した部分文書グループに関する情報をもとに各
部分文書集合における代表語セットを抽出する。

【００７５】本発明では、代表語の抽出方法を特に限定
しないが、ここでは一例として、上記文書分類部におけ
る実施例を継承し、各部分文書集合においてそれらに所
属する文書をひとつの仮想的な文書とみなした時の、文
書群でユニークな単語の出現頻度が指定されたしきい値
以上の単語をそれらの部分文書集合の代表語セットとす
る例を示すこととし、そのフローチャートを図８に示
す。

【００７６】上記文書分類部における実施例の各部分文
書集合について上記のフローチャートに従って求めた代
表語セットを図９に示す。ここで、出現頻度のしきい値
は２としている。

【００７７】関連語抽出部１０５では、代表語抽出部１
０４にて抽出した各部分文書集合の代表語それぞれにつ
いて、関連語辞書を用いて関連語を抽出し、それらを各
部分文書集合の関連語セットとする。関連語辞書として
は、同義語辞書、広義語辞書、狭義語辞書、類義語辞
書、反対語辞書、兄弟語辞書、上位概念語辞書、下位概
念語辞書等を用いることができるが、ここでは一例とし
て、上記代表語抽出部における実施例を継承し、任意の
一つの関連語辞書を用いて各部分文書集合の関連語セッ
トを求める例を示すこととし、そのフローチャートを図
１０に示す。なお、複数の辞書を用いる場合には、前記
処理を各辞書について繰り返し行えばよい。簡単のため
関連語として同義語のみを扱うとして、前記代表語抽出
部の実施例で求めた各代表語の同義語が図１１（Ａ）に
示されるような場合、各部分文書集合の関連語セットは
図１１（Ｂ）のように示される。

【００７８】部分文書集合情報生成部１０６では、文書
解析部１０２で生成した各文書の単語情報、文書分類部
１０３で生成した部分文書グループに関する情報、代表
語抽出部１０４で抽出した各部分文書集合の代表語セッ
ト、及び関連語抽出部１０５で生成した各部分文書集合
の関連語セットを基に個々の部分文書集合及び部分文書
集合間の関連情報を生成する。

【００７９】各部分文書集合固有の情報としては、代表
語セットの集合、関連語セットの集合、及び各部分文書
集合が多重分類を許す分類手法により生成されている場
合は、代表語及び／または関連語を指定されるしきい値
個数以上含む部分文書集合に所属する文書の部分集合等
の情報を用いることができる。また、部分文書集合間の
関連情報としては、部分文書集合間の代表語セット集合
の積集合や和集合や差集合、関連語セットの集合の積集
合や和集合や差集合、及び各部分文書集合が多重分類を
許す分類手法により生成されている場合は、部分文書集
合に所属する文書の積集合や和集合や差集合、代表語及
び／または関連語を多く含む部分文書集合に所属する文
書の部分集合間の積集合や和集合や差集合等の情報を用
いることができる。

【００８０】ここでは一例として、上記関連語抽出部に
おける実施例を継承し、文書部分集合が多重分類を許す
分類手法により生成されているとしたときに、部分文書
集合情報として、代表語セットの集合、関連語セットの
集合、部分文書集合間の代表語セット集合の積集合と和
集合と差集合、部分文書集合間の関連語セット集合の積
集合と和集合と差集合を生成する例を示すこととし、そ
のフローチャートを図１２に示す。これらの情報によ
り、特に部分文書集合間の類似性、関連性、及び包含関
係などを把握することが可能になる。

【００８１】分類結果保存部１０７では、文書解析部１
０２で生成した各文書の単語情報、文書分類部１０３で
生成した部分文書グループに関する情報、代表語抽出部
１０４で抽出した各部分文書集合の代表語セット、関連
語抽出部１０５で生成した各部分文書集合の関連語セッ
ト、及び部分文書集合情報生成部１０６で生成した個々
の部分文書集合及び部分文書集合間の関連情報を適切な
形式で保存する。保存された関連情報は、出力部１０８
からユーザの要求に応じて、または予め定められた条件
に従って所定の出力手段に適宜出力される。

【００８２】図１３は本発明の請求項３，４，１６，１
７，２９及び３０に対応する実施例を説明するための文
書分類装置２００のブロック構成図である。なお、図１
と同様の機能を有する部分には図１と同一の番号を付し
ている。反意部分文書集合生成部２０１では、関連語抽
出部１０５にて生成される関連語としてすくなくとも反
対語が抽出されるとき、任意の文書部分集合が有する反
対語が、自分を含む他のどの部分文書集合の代表語とも
一致しない場合、この反対語を含む文書を文書群から抽
出し、それを新しい部分文書集合とする処理をすべての
部分文書集合について再帰的におこなう。

【００８３】ここでは一例として、上記実施例を継承し
て、関連語抽出部１０５にて反対語のみが抽出されるこ
ととし、各部分文書集合が有する反意語セットについて
それが自分を含む他の部分文書集合の代表語と一致する
か否かを判定し、反意語がどの代表語とも一致しない場
合、検索手法を用いて文書群からその反意語を含む文書
を抽出し、それらを新しい部分文書集合とする例を示す
こととし、そのフローチャートを図１４に示す。

【００８４】例えば、図７（Ａ）に示す文書群を分類し
た結果得られている図７（Ｂ）の部分文書集合３の代表
語セットに着目してみる。この場合、代表語“商用”の
反対語として、“無料、フリー”という単語が得られた
とする。この場合、これらの単語はどの代表語とも一致
せず、単語“無料”で文書群を検索した結果は該当０件
であるが、単語“フリー”で検索した場合は、文書４、
文書５、文書１２が検索される。これをあらたな部分文
書集合とした場合、代表語として、“リナックス、フリ
ー、ディストリビューション”を得ることができる。

【００８５】これにより文書群から任意の部分文書集合
とは反対の意味を有する部分文書集合が文書分類部では
生成されなかった場合にも、反対の意味を有する部分文
書集合を生成することができるため、文書群からより広
範囲な話題を抽出することが可能となる。

【００８６】請求項４，１７，３０の発明では、反対語
からあらたな部分文書集合を求める際に、反対語を生成
した代表語以外の部分文書集合の代表語も合わせて部分
文書集合を求めることにより、より対象の部分文書集合
とは反対の意味をもつ部分文書集合を生成することが可
能となるが、基本的な処理は上記実施例と同様の処理で
求めることができる。すなわち、例えば、図１４に示す
フローチャートにおいて反対語を用いて文書群を検索す
るステップを反対語と反対語を生成した代表語以外の部
分文書集合の代表語を組合わせた論理式を用いればよ
い。

【００８７】図１５は、本発明の請求項５〜９，１８〜
２２及び３１〜３５に対応する実施例を説明するための
文書分類装置のブロック構成図である。文書入力部３０
１は、キーボード、ＯＣＲ装置、ハードディスク等の補
助記憶装置等の入力手段が文書分類装置３００に直接
に、または、ネットワーク経由で接続され、このような
入力手段から文書や文書群を獲得し、文書データを入力
するインターフェースである。この際、各文書データを
一意に識別するために、例えばユニークな数などの、識
別子を各文書に割り当てる。

【００８８】文書解析部３０２では、入力された文書そ
れぞれに対し形態素解析を適用し、各文書を構成する単
語を品詞情報等とともに抽出する。この際、抽出した単
語を識別するために、抽出した単語のうちユニークな表
記を持つものについては、ユニークな識別子を付置して
おく。さらに、形態素解析の結果得られる単語のうち指
定される品詞をもつ単語について、その前後の単語と適
切に組合わせた単語と置き換え、かつ品詞もまた適切な
ものに置き換える処理を施す。例として、品詞が接頭詞
全般、接尾詞全般、及び助数詞である単語について前記
の結合及び置き換え処理を行う動作を説明する。

【００８９】まず、本例では、前記の結合および置き換
え処理を品詞が、１．接頭詞全般、２．数詞接尾詞以外
の接尾詞全般、３．数詞接尾詞もしくは数助詞の場合別
に以下のような規則でおこなうこととする。ただし、本
発明における結合及び置き換え処理の規則はこれらに限
定するものではない。

【００９０】 ○接頭詞全般もし｛対象単語の品詞が接頭詞である｝ならば｛計数用変数：ｉに１を代入する繰り返す｛対象単語の先頭に対象単語よりｉ回前に抽出された単語を結合させるもし｛i回前に抽出されている単語の品詞が分類時使用品詞である}ならば{ 繰り返しループを抜ける｝さもなくば｛ｉを１増加する｝｝対象単語の品詞を変更する｝

【００９１】 ○数詞接尾詞以外の接尾詞全般もし｛対象単語の品詞が数詞接尾詞以外の接尾詞である｝ならば｛計数用変数：ｉに１を代入する繰り返す｛対象単語の終端に対象単語よりｉ回後に抽出された単語を結合させるもし｛i回前に抽出されている単語の品詞が分類時使用品詞である}ならば{ 繰り返しループを抜ける｝さもなくば｛ｉを１増加する｝｝対象単語の品詞を変更する｝

【００９２】 ○数詞接尾詞もしくは助数詞もし｛対象単語の品詞が数詞接尾詞もしくは助数詞である｝ならば｛繰り返す｛もし｛対象単語の直前に抽出されている単語の品詞が数詞である｝ならば｛対象単語の先頭に対象単語の直前に抽出された単語を結合させる対象単語のｉ回前に抽出された単語を削除する｝さもなくば｛繰り返しループを抜ける｝｝対象単語の品詞を変更する｝

【００９３】図１６に示す６つの文書データを分類対象
文書データとし、この文書データに対して形態素解析を
適用し、単語及びそれらの品詞を抽出したものを図１７
に示す。ただし、本発明では形態素解析系については特
に規定しない。また、分類時使用品詞を普通名詞、サ変
名詞、固有名詞、数詞、形容詞、接頭詞全般、接尾詞全
般、助数詞賭した場合の文書データの解析結果を図１８
に示す。

【００９４】図１８に示されている結果において、品詞
が接頭詞全般、接尾詞、もしくは数助詞である単語に対
し前記規則に従い、結合・置き換え処理を施した結果を
図１９に示す。例えば、文書１における｛千葉［普通名
詞］、氏［固有名詞接尾詞］｝という文字列は、数詞接
尾詞以外の接尾詞全般の規則を用いて、｛千葉［普通名
詞］、千葉氏［固有名詞］｝という文字列になり、また
｛１［数詞］、９［数詞］、５［数詞］、０［数詞］、
年［助数詞］｝という文字列は、数詞接尾詞もしくは助
数詞の規則を用いて、｛１９５０年［普通名詞］｝とい
う文字列になる。

【００９５】文書ベクトル空間生成部３０３では、前記
文書解析部にて抽出された各文書データの単語情報をも
とに文書データをベクトル表現するための空間を生成す
る。例として、前記文書解析部での例をもとに、文書デ
ータ全体でユニークな単語の頻度により文書ベクトル空
間を生成することとする場合の各文書データのベクトル
表現を生成する動作を説明する。ただし、本発明では、
ベクトル空間生成手法はこれに限定するものではなく、
例えば、全単語の線形変換によりベクトル空間を生成す
ることもできる。

【００９６】図１８及び図１９に示す文書解析結果から
ユニークな単語を抽出し、各文書での該当単語の頻度を
計数し、それらの結果を、単語を列方向に、文書データ
を行方向に付置することで、行列表現したものをそれぞ
れ図２０と図２１に示す。これら行列において、列ベク
トルが各文書データのベクトルデータとなる。

【００９７】文書分類部３０４では、前記文書ベクトル
空間生成部にて生成された文書データベクトルを統計手
法を用いることで幾つかの集合に分類する。出力部３０
５では、文書分類部３０４で分類された文書データベク
トルの集合をユーザの要求に応じてまたは予め定められ
た条件に従って所定の出力手段に適宜出力する。文書分
類部３０４における統計処理は様々なものが利用可能で
あるが、請求項５の発明ではアルゴリズムの簡潔さやパ
ラメータの有無等の理由からクラスタリング手法を用い
ることに限定している。例として、前記文書ベクトル空
間生成部での例をもとに、クラスタリング手法を用いて
文書ベクトルを分類する動作を説明する。

【００９８】ここでは、クラスタリング手法の１つであ
るＷａｒｒｄ法を用いることとし、また類似測度は標準
化ユークリッド距離測度を使用する。なお、クラスタリ
ング手法に関しては、“多変量解析入門（森北出版）”
に詳しい。図２０及び図２１に示されている文書データ
に対し、Ｗａｒｒｄ法を適用した結果を図２２と図２３
に示す。ここで、図２０は前記結合・置き換えの処理を
適用した結果で文書ベクトル空間を構成したデータであ
り、図２１は結合・置き換え処理を適用していない結果
で文書ベクトル空間を構成したデータである。また、図
２２と図２３の図中の数値は各クラスタ間の距離であ
る。

【００９９】図２２及び図２３の結果を比較した場合、
文書４の位置の差異が非常に特徴的であり、結合・置き
換えの処理を適用した場合は、文書４は文書２や文書５
と類似していると判断され、結合・置き換えの処理を適
用しない場合は、文書４は文書１や文書６と類似してい
ると判断される。主観的な語彙の適合度などから判断し
て文書４は｛文書２、文書５｝の集合よりも｛文書１、
文書３、文書６｝の集合に含まれる方が適切であると思
われる。従って、この結果から、結合・置き換えの処理
を適用することにより、より質の高い文書ベクトル空間
を構成でき、この文書ベクトル空間で分類処理をおこな
うことで、質の高い文書分類結果を得ることができる。

【０１００】図２４は本発明の請求項１０〜１３，２３
〜２６及び３６〜３９に対応する実施例を説明するため
の文書分類装置のブロック構成図である。文書入力部４
０１は、キーボード、ＯＣＲ装置、ハードディスク等の
補助記憶装置による入力手段が文書分類装置４００に直
接に、または、ネットワーク経由で接続され、このよう
な入力手段から文書や文書群を獲得し、文書データを入
力するインターフェースである。この際、各文書データ
を一意に識別するために、例えばユニークな数などの、
識別子を各文書に割り当てる。

【０１０１】文書解析部４０２では、入力された文書そ
れぞれに対し形態素語解析を適用し、各文書を構成する
単語を品詞情報等とともに抽出する。この際、抽出した
単語を識別するために、抽出した単語のうちユニークな
表記を持つものについては、前記文書データと同様にユ
ニークな識別子を付置しておく。例として、文書データ
に対し形態素解析を適用し、文書データ全体で表記と品
詞がユニークである単語を同定し、それらに一意な識別
番号を付与するとともに、各文書データを、それを構成
する単語の識別番号とその出現頻度を表現するための擬
似コードを図２５に示す。なお、本発明では、形態素解
析系は必要な情報を抽出できるものであれば、どのよう
なものでもよい。

【０１０２】文書解析結果記憶部４０３では、文書解析
部４０２にて抽出された文書データの形態素解析結果を
適切な形式で記憶する。文書ベクトル空間生成部４０４
では、文書解析部４０２にて抽出された各文書データの
単語情報をもとに文書データをベクトル表現するための
空間を生成する。例として、文書解析部４０２での例を
もとに、文書データ全体でユニークな単語の正規化され
た頻度により文書ベクトル空間を生成する場合の、各文
書データのベクトル表現を生成する擬似コードを図２６
に示す。ただし、本発明では、ベクトル空間生成手法は
これに限定するものではなく、例えば、特異値分解など
を使用して全単語の線形変換によりベクトル空間を生成
することもできる。

【０１０３】文書ベクトルデータ記憶部４０５では、文
書ベクトル空間生成部４０４にて生成された文書データ
ベクトルを適切な形式で記憶する。分類数決定部４０６
では、繰り返し文書分類を行う際の分類数を決定する
（分類数を定数×繰返し数とした場合の擬似コードを図
２７に含む）。文書分類部４０７では、文書ベクトル空
間生成部４０４にて生成された文書データベクトルを統
計手法を用いることで分類数決定部集合に分類する。

【０１０４】統計処理は様々なものが利用可能である
が、請求項１１の発明ではアルゴリズムの簡潔さやクラ
スタ数の変化により分類構造が動的に変化する特性等か
ら非階層クラスタリング手法を用いることに限定してい
る。例として、クラスタ数を繰返し数と定数Ｎを乗じた
数としてクラスタリング手法を用いて文書ベクトルを分
類する擬似コードを図２７に示す。ここでは、クラスタ
リング手法の１つであるｋｍｅａｎｓ法を一部変更し
たもの用いることとし、また類似測度は余弦測度を使用
する。なお、クラスタリング手法に関しては、“多変量
解析入門（森北出版）”に詳しい。

【０１０５】文書分類結果記憶部４０８では、文書分類
部４０７で生成される文書分類結果を適切な形式で記憶
する。繰り返し判定部４０９では、繰り返し文書分類を
おこなう際の繰り返しを継続するか否かの判定を行う
（繰り返し判定を指定された最大数を限度とした場合の
擬似コードを図２７に含む）。部分文書集合間関係算出
部４１０では、文書分類結果記憶部４０８に記憶されて
いる複数の部分文書集合間の関係情報を、文書解析結果
記憶部４０３と文書ベクトルデータ記憶部４０５にて記
憶されている種々の文書データに関する情報を用いて算
出する。例として、部分文書集合間の類似関係と包含関
係を文書データ及び／または文書データを構成する単語
情報で算出する動作を説明する。

【０１０６】まず、部分文書集合間の類似関係と包含関
係を文書データで表現するための定式化を行う。文書分
類結果記憶部４０８に記憶されている複数の部分文書集
合はユニークな識別番号が付与されているものとする。
第ｍ番目の部分文書集合の特性ベクトル：Ｖｍを以下の
ように定義する。

【０１０７】・Ｖｍの次元数は全文書データ数に等しい・Ｖｍの各要素はそれぞれ１つの文書データに対応し、
重複はない。・要素ｉに対応する文書データと部分文書集合との類似
度が閾値以上の場合、要素ｉは１となる。・要素ｉに対応する文書データと部分文書集合との類似
度が閾値未満の場合、要素ｉは０となる。

【０１０８】上記定義を用いて、第ｍ番目の部分文書集
合と第ｎ番目の部分文書集合の関係：ＲｍｎとＲｎｍを
以下のように定義する。（１）Ｒｍｎ＝＜Ｖｍ，Ｖｎ＞／＜Ｖｍ，Ｖｍ＞（２）Ｒｎｍ＝＜Ｖｍ，Ｖｎ＞／＜Ｖｎ，Ｖｎ＞ただし、＜，＞は内積を示す。

【０１０９】上記のＲｍｎとＲｎｍの値により、部分文
書集合間の類似関係と包含関係を算出することが可能と
なる。図２８はＲｍｎとＲｎｍの値による幾何学的解釈
を示したものである。すなわち、Ｒｍｎが１に近い場合
は、部分文書集合ｍは部分文書集合ｎに包含されている
といえる。また、ＲｍｎとＲｍｎが両方１に近いほど部
分文書集合ｍと部分文書集合ｎは類似しているものとい
える。さらに、（Ｒｍｎ，Ｒｎｍ）がＲｍｎ＝Ｒｎｍの
直線に近いほど、同じ程度の割合で相互に文書データを
包含していることなども読み取れる。

【０１１０】次に、部分文書集合間の類似関係と包含関
係を文書データを構成する単語の出現頻度情報で表現す
るための定式化をおこなう。第ｍ番目の部分文書集合の
特性ベクトル：Ｗｍを以下のように定義する。

【０１１１】Ｗｍの次元数は全文書データでユニークな
単語数に等しい。Ｗｍの各要素はそれぞれユニークな単
語に対応し、重複はないＷｍの第Ｉ番目の要素値をｗｍ
（ｉ）と示す。部分文書集合との類似度が閾値以上の文
書すべてにおける、要素ｉに対応する単語の出現頻度
（出現回数）を要素ｉの要素値とする。

【０１１２】上記定義を用いて、第m番目の部分文書集
合と第ｎ番目の部分文書集合の関係：Ｒ’mnとＲ’nmを
以下のように定義する。（３）R’mn = Σf(wm(k),wn(k)) /Σf(wm(k),wm(k)) （４）R’mn = Σf(wm(k),wn(k)) /Σf(wn(k),wn(k)) （５）f(wm(k),wn(k)) = 0 for wm(k)×wn(k) = 0= wm
(k)×(a + b /｜wn(k) - wn(k)｜+ 1) for forwm(k)
×wn(k) != 0 ただし、a,bは定数で、a + b = 1, a,b >= 0

【０１１３】上記のＲ’ｍｎとＲ’ｎｍの値を用いても
図２８に示すＲｍｎとＲｍｎの関係と同様の解釈がで
き、したがって、部分文書集合間の類似関係と包含関係
を算出することが可能となる。さらに、Ｒ’ｍｎとＲ’
ｎｍを用いて部分文書集合の関係を定義する場合、文書
データのレベルでは得ることのできない関係を得ること
が可能になるとともに、例えば内容は一致してても、分
析対象の文書データが異なっている場合にも部分文書集
合間の関係を算出することが可能となる。また、部分文
書集合間関係記憶部４１１では、部分文書集合間関係算
出部４１０にて生成された部分文書集合間の関係情報を
適切な形式で記憶する。また、出力部４１２は、部分文
書集合間関係記憶部４１１で記憶された関係情報をユー
ザの要求に応じて、または予め定められた条件に従って
出力手段に適宜出力する。

【０１１４】

【発明の効果】請求項１，１４及び２７の発明によれ
ば、生成された部分文書集合それぞれの代表語セットを
抽出し、さらにそれら代表語それぞれについて関連語を
求め、これらの情報をもとに各部分文書集合および部分
文書集合間の関連情報を生成することで、部分文書集合
の分析に有効な情報を提供することができる。

【０１１５】請求項２，１５及び２８の発明によれば、
関連語として同義語、類義語、反対語のすくなくとも一
つ以上の組合わせを用いることで主に類似性に関す情報
を提供することができる。

【０１１６】請求項３，４，１６，１７，２９及び３０
の発明によれば、各部分文書集合の代表語セットの関連
語として反対語を用い、反対語が自分を含む他のどの部
分文書集合の代表語セットとも一致しない場合、その反
対語を含む文書を文書集合から抽出し、それを新たな部
分文書集合とすることで、文書集合からより多くの分析
情報を抽出することができる。

【０１１７】請求項５，１８及び３１の発明によれば、
分類対象文書に形態素解析し、得られた解析結果をもと
に分類対象文書を幾つかの文書集合に分類する文書分類
装置において、形態素解析の結果得られる単語のうち指
定される品詞をもつ単語について、その前後の単語と適
切に組合わせた単語と置き換え、かつ品詞もまた適切な
ものに置き換える処理を施すことによって、高品位な文
書ベクトル空間を構成し、この文書ベクトル空間で統計
処理を用いて文書分類を行うことで高品質な文書分類結
果を得ることができる。

【０１１８】請求項６，１９及び３２の発明によれば、
文書分類をおこなうための統計手法として、クラスタリ
ング手法を用いることで、簡便に高品質な文書分類結果
を得ることができる。

【０１１９】請求項７，２０及び３３の発明によれば、
分類対象文書に形態素解析を適用することで抽出される
単語の中で、特に、品詞が、接頭詞、接尾詞、助数詞、
及びそれらに類する品詞である単語について、適切な結
合処理を施こすことで、高品質な文書ベクトル空間を得
ることができる。

【０１２０】請求項８，２１及び３４の発明によれば、
単語の結合処理において特定の品詞の単語が出現するま
で単語の結合を続けることによって新たな単語を生成す
ることで、高品質な文書ベクトル空間を得ることができ
る。

【０１２１】請求項９，２２及び３５の発明によれば、
単語の結合処理において、品詞が数詞接尾詞もしくは助
数詞の単語について、結合される複数の単語を削除し、
文書ベクトル空間を生成する際にはそれらの単語の情報
は用いないことで、高品質な文書ベクトル空間を得るこ
とができる。

【０１２２】請求項１０，２３及び３６の発明によれ
ば、文書のベクトル空間モデルを用い、生成する部分文
書集合の数をパラメータとして繰り返し文書分類処理を
おこなうことで、多数の部分文書集合を生成し、さらに
生成された多数の文書集合について相互の関係を算出す
ることで、文書集合の構造の把握を支援しうる情報を生
成する文書分類装置を提供することができる。

【０１２３】請求項１１，２４及び３７の発明によれ
ば、上記目的に加え、文書分類をおこなう統計手法とし
て、非階層クラスタリング手法を用いることで、簡便に
多数の部分文書集合を生成することができる。

【０１２４】請求項１２，２５及び３８の発明によれ
ば、上記目的に加え、生成された多数の文書集合につい
て相互の関係として、類似関係と包含関係を算出するこ
とで、容易に文書集合の構造の把握しうる情報を提供す
ることができる。

【０１２５】請求項１３，２６及び３９の発明によれ
ば、上記目的に加え、生成された多数の文書集合が有す
る情報のうち、単語に関する情報のみを用いて相互の関
係を算出することで、汎用性・再利用性の高い関係情報
を算出することができる。

【図面の簡単な説明】

【図１】本発明の請求項１，２，１４，１５，２７及
び２８の発明に対応する実施例を説明するための文書分
類装置のブロック構成図である。

【図２】文書データを入力する処理の一例を示すフロ
ーチャートである。

【図３】文書に対し形態素解析を適用する処理の一例
を示すフローチャートである。

【図４】形態素解析の適用例について説明するための
図である。

【図５】形態素解析の適用結果の一例について説明す
るための図である。

【図６】文書解析部で生成された情報をもとに文書群
の分類を行う処理の一例を示すフローチャートである。

【図７】文書の部分文書集合への分類を説明するため
の図である。

【図８】代表語の抽出の処理の一例を示すフローチャ
ートである。

【図９】図８に示すフローチャートに従って求めた代
表語セットの一例を示す図である。

【図１０】各部分文書集合の代表語セットのそれぞれ
について関連語辞書を用いて関連語を抽出する処理の一
例を示すフローチャートである。

【図１１】代表語抽出部で求め各代表語の同義語及び
各部分文書集合の関連語セットの一例を示す図である。

【図１２】抽出または生成した代表語セット及び関連
語セットを共に個々の部分文書集合及び部分文書集合間
の関連情報を生成する処理の一例を示すフローチャート
である。

【図１３】本発明の請求項３，４，１６，１７，２９
及び３０に対応する実施例を説明するための文書分類装
置のブロック構成図である。

【図１４】反対語を含む文書を抽出して新しい部分文
書集合とする処理の一例を示すフローチャートである。

【図１５】本発明の請求項５〜９，１８〜２２及び３
１〜３５に対応する実施例を説明するための文書分類装
置のブロック構成図である。

【図１６】分類対象文書データの例を示す図である。

【図１７】図１６に示す文書データに形態素解析を適
用して単語及び品詞を抽出した例を示す図である。

【図１８】文書データの解析結果の一例を示す図であ
る。

【図１９】文書データの解析結果の他の例を示す図で
ある。

【図２０】文書データを行方向に位置することで行列
表現した例を示す図である。

【図２１】文書データを行方向に位置することで行列
表現した他の例を示す図である。

【図２２】図２０の文書データに対しＷａｒｒｄ法を
適用した結果を示す図である。

【図２３】図２１の文書データに対しＷａｒｒｄ法を
適用した結果を示す図である。

【図２４】本発明の請求項１０〜１３，２３〜２６及
び３６〜３９に対応する実施例を説明するための文書分
類装置のブロック構成図である。

【図２５】文書データの単語の識別番号とその出現頻
度を表現するための擬似コードの一例を示す図である。

【図２６】各文書データのベクトル表現を生成する擬
似コードの一例を示す図である。

【図２７】クラスタリング手法を用いて文書ベクトル
を分類する擬似コードの一例を示す図である。

【図２８】ＲｍｎとＲｎｍの値による幾何学的解釈を
示したものである。

【符号の説明】

１００，２００，３００，４００…文書分類装置、１０
１，３０１，４０１…文書入力部、１０２，３０２，４
０２…文書解析部、１０３，３０４，４０７…文書分類
部、１０４…代表語抽出部、１０５…関連語抽出部、１
０６…部分文書集合情報生成部、１０７…分類結果保存
部、１０８，３０５，４１２…出力部、２０１…反意部
分文書集合生成部、３０３，４０４…文書ベクトル空間
生成部、４０３…文書解析結果記憶部、４０５…文書ベ
クトルデータ記憶部、４０６…分類数決定部、４０８…
文書分類結果記憶部、４０９…繰り返し判定部、４１０
…部分文書集合間関係算出部、４１１…部分文書集合間
関係記憶部。

Claims

【特許請求の範囲】

【請求項１】文書集合をその内容に従って分類する文
書分類装置であって、複数の文書を入力する文書入力部
と、該文書入力部にて入力された各文書から該各文書を
構成する単語情報を抽出する文書解析部と、該文書解析
部にて抽出された各文書の単語情報をもとに前記複数の
文書による文書集合をいくつかの部分文書集合に分類す
る文書分類部と、該文書分類部にて分類された各部分文
書集合からそれらの代表語セットを抽出する代表語抽出
部と、任意の単語についてその関連語が記述された関連
語辞書を用いて前記代表語抽出部にて抽出した各部分文
書集合の代表語セットそれぞれについて関連語セットを
抽出する関連語抽出部と、該関連語抽出部にて抽出した
関連語セットと前記代表語抽出部で抽出した代表語セッ
トと各部分文書集合に所属する文書に関する情報とをも
とに個々の部分文書集合及び部分文書集合間の関連情報
を生成する部分文書集合情報生成部と、前記文書分類部
での分類結果を前記部分文書集合情報生成部にて生成さ
れた情報と合わせて保存する分類結果保存部とを含むこ
とを特徴とする文書分類装置。
【請求項２】請求項１に記載の文書分類装置におい
て、前記関連語抽出部にて抽出される関連語セットが、
同義語、類義語、反対語のうちの少なくとも一つ以上の
組合わせであることを特徴とする文書分類装置。
【請求項３】請求項１に記載の文書分類装置におい
て、前記関連語抽出部にて抽出される関連語セットが少
なくとも反対語を含み、ある部分文書集合の代表語セッ
トから抽出された反対語セットが、自分を含む他のどの
部分文書集合の代表語セットとも一致しない場合、該一
致しない反対語セットを含む文書を文書集合から抽出
し、あらたな部分文書集合を生成する処理を全部分文書
集合に対し再帰的に繰り返す反意部分文書集合生成部を
さらに含むことを特徴とする文書分類装置。
【請求項４】請求項１に記載の文書分類装置におい
て、前記関連語抽出部にて抽出される関連語が少なくと
も反対語を含み、ある部分文書集合の代表語セットから
抽出された反対語セットが、自分を含む他のどの部分文
書集合の代表語セットとも一致しない場合、該一致しな
い反対語セットと代表語セットから反対語セットに対応
する代表語を除いた単語セットを含む文書を文書集合か
ら抽出し、あらたな部分文書集合を生成する処理を全部
分文書集合に対し再帰的に繰り返す反意部分文書集合生
成部をさらに含むことを特徴とする文書分類装置。
【請求項５】文書の内容に従って文書の分類を行う文
書分類装置であって、文書データを入力する文書入力部
と、前記文書データに形態素解析を適用し、前記文書デ
ータを構成する単語をそれらの品詞情報等とともに抽出
する文書解析部と、該文書解析部にて抽出された文書デ
ータの解析情報から文書データを多次元ベクトル空間で
表現するための文書ベクトル空間を生成する文書ベクト
ル空間生成部と、該文書ベクトル空間生成部にて生成し
た文書ベクトル空間において統計手法を用いることによ
り文書データの分類を行う文書分類部とを含み、前記文
書解析部にて抽出される特定の品詞を有する単語を、該
特定の品詞の品詞情報に基づき、該特定の品詞の前後に
抽出される一つ以上の単語と結合することにより生成さ
れる単語と置き換え、かつ該特定の品詞の品詞情報も適
切に置き換えることを特徴とする文書分類装置。
【請求項６】請求項５に記載の文書分類装置におい
て、前記文書分類部において統計手法としてクラスタリ
ング法を用いることで文書データの分類を行うことを特
徴とする文書分類装置。
【請求項７】請求項５または６に記載の文書分類装置
において、前記文書解析部において品詞が接頭詞、接尾
詞、助数詞、及びそれらに類する品詞である単語につい
て、単語および品詞の置き換えを行うことを特徴とする
文書分類装置。
【請求項８】請求項５ないし７のいずれか１に記載の
文書分類装置において、前記文書解析部において特定の
品詞の単語が出現するまで単語の結合を続けることを特
徴とする文書分類装置。
【請求項９】請求項５ないし８のいずれか１に記載の
文書分類装置において、前記文書解析部において品詞が
数詞接尾詞もしくは助数詞の単語について、該数詞接尾
詞もしくは助数詞の単語に結合される複数の単語を削除
し、前記文書分類部では削除した単語の情報を用いない
ことを特徴とする文書分類装置。
【請求項１０】文書の内容に従って文書データ集合を
分類する文書分類装置であって、文書データ集合を入力
する文書入力部と、すべての文書データに形態素解析を
適用し、前記文書データを構成する単語をそれらの品詞
情報等とともに抽出する文書解析部と、該文書解析部に
て抽出された文書データの解析結果を記憶する文書解析
結果記憶部と、前記文書解析部にて抽出された文書デー
タの解析情報から前記文書データを多次元ベクトル空間
で表現するためのベクトル空間を生成する文書ベクトル
空間生成部と、該文書ベクトル空間生成部にて生成され
た文書ベクトル空間の各文書データのベクトルデータを
記憶する文書ベクトルデータ記憶部と、指定される条件
から文書データ集合の分類数を決定する分類数決定部
と、前記文書ベクトル空間生成部にて生成した文書ベク
トル空間において統計手法を用いることにより文書デー
タを前記指定された分類数の部分文書集合に分類する文
書分類部と、該文書分類部で生成された分類結果を記憶
する分類結果記憶部と、前記分類数決定部から前記分類
結果記憶部までの処理を繰り返し行うか否かの判定をお
こなう繰り返し判定部と、前記文書ベクトルデータ記憶
部と前記分類結果記憶部に記憶された情報を用いて生成
されたすべての部分文書集合間の関係情報を算出する部
分文書集合間関係算出部と、該部分文書集合間関係算出
部にて生成された部分文書集合間の関係情報を記憶する
部分文書集合間関係記憶部とを含むことを特徴とする文
書分類装置。
【請求項１１】請求項１０に記載の文書分類装置にお
いて、前記文書分類部にて用いられる統計手法が非階層
クラスタリング手法であることを特徴とする文書分類装
置。
【請求項１２】請求項１０または１１に記載の文書分
類装置において、前記部分文書集合間関係算出部にて算
出される関係が、類似関係と包含関係であることを特徴
とする文書分類装置。
【請求項１３】請求項１２に記載の文書分類装置にお
いて、前記部分文書集合間の関係は各部分文書集合から
抽出される単語情報のみを用いて算出されることを特徴
とする文書分類装置。
【請求項１４】文書集合をその内容に従って分類する
文書分類方法であって、複数の文書を入力する文書入力
ステップと、該文書入力ステップにて入力された各文書
から該各文書を構成する単語情報を抽出する文書解析ス
テップと、該文書解析ステップにて抽出された各文書の
単語情報をもとに前記複数の文書による文書集合をいく
つかの部分文書集合に分類する文書分類ステップと、該
文書分類ステップにて分類された各部分文書集合からそ
れらの代表語セットを抽出する代表語抽出ステップと、
任意の単語についてその関連語が記述された関連語辞書
を用いて前記代表語抽出ステップにて抽出した各部分文
書集合の代表語セットそれぞれについて関連語セットを
抽出する関連語抽出ステップと、該関連語抽出ステップ
にて抽出した関連語セットと前記代表語抽出ステップで
抽出した代表語セットと各部分文書集合に所属する文書
に関する情報とをもとに個々の部分文書集合及び部分文
書集合間の関連情報を生成する部分文書集合情報生成ス
テップと、前記文書分類ステップでの分類結果を前記部
分文書集合情報生成部にて生成された情報と合わせて保
存する分類結果保存ステップとを含むことを特徴とする
文書分類方法。
【請求項１５】請求項１４に記載の文書分類方法にお
いて、前記関連語抽出ステップにて抽出される関連語セ
ットが、同義語、類義語、反対語のうちの少なくとも一
つ以上の組合わせであることを特徴とする文書分類方
法。
【請求項１６】請求項１４に記載の文書分類方法にお
いて、前記関連語抽出ステップにて抽出される関連語セ
ットが少なくとも反対語を含み、ある部分文書集合の代
表語セットから抽出された反対語セットが、自分を含む
他のどの部分文書集合の代表語セットとも一致しない場
合、該一致しない反対語セットを含む文書を文書集合か
ら抽出し、あらたな部分文書集合を生成する処理を全部
分文書集合に対し再帰的に繰り返す反意部分文書集合生
成ステップをさらに含むことを特徴とする文書分類方
法。
【請求項１７】請求項１４に記載の文書分類方法にお
いて、前記関連語抽出ステップにて抽出される関連語が
少なくとも反対語を含み、ある部分文書集合の代表語セ
ットから抽出された反対語セットが、自分を含む他のど
の部分文書集合の代表語セットとも一致しない場合、該
一致しない反対語セットと代表語セットから反対語セッ
トに対応する代表語を除いた単語セットを含む文書を文
書集合から抽出し、あらたな部分文書集合を生成する処
理を全部分文書集合に対し再帰的に繰り返す反意部分文
書集合生成ステップをさらに含むことを特徴とする文書
分類方法。
【請求項１８】文書の内容に従って文書の分類を行う
文書分類方法であって、文書データを入力する文書入力
ステップと、前記文書データに形態素解析を適用し、前
記文書データを構成する単語をそれらの品詞情報等とと
もに抽出する文書解析ステップと、該文書解析ステップ
にて抽出された文書データの解析情報から文書データを
多次元ベクトル空間で表現するための文書ベクトル空間
を生成する文書ベクトル空間生成ステップと、該文書ベ
クトル空間生成ステップにて生成した文書ベクトル空間
において統計手法を用いることにより文書データの分類
を行う文書分類ステップとを含み、前記文書解析ステッ
プにて抽出される特定の品詞を有する単語を、該特定の
品詞の品詞情報に基づき、該特定の品詞の前後に抽出さ
れる一つ以上の単語と結合することにより生成される単
語と置き換え、かつ該特定の品詞の品詞情報も適切に置
き換えることを特徴とする文書分類装置。
【請求項１９】請求項１８に記載の文書分類方法にお
いて、前記文書分類ステップにおいて統計手法としてク
ラスタリング法を用いることで文書データの分類を行う
ことを特徴とする文書分類方法。
【請求項２０】請求項１８または１９に記載の文書分
類方法において、前記文書解析ステップにおいて品詞が
接頭詞、接尾詞、助数詞、及びそれらに類する品詞であ
る単語について、単語及び品詞の置き換えを行うことを
特徴とする文書分類方法。
【請求項２１】請求項１８ないし２０のいずれか１に
記載の文書分類方法において、前記文書解析ステップに
おいて特定の品詞の単語が出現するまで単語の結合を続
けることを特徴とする文書分類方法。
【請求項２２】請求項１８ないし２１のいずれか１に
記載の文書分類方法において、前記文書解析ステップに
おいて品詞が数詞接尾詞もしくは助数詞の単語につい
て、該数詞接尾詞もしくは助数詞の単語に結合される複
数の単語を削除し、前記文書分類ステップでは削除した
単語の情報を用いないことを特徴とする文書分類方法。
【請求項２３】文書の内容に従って文書データ集合を
分類する文書分類方法であって、文書データ集合を入力
する文書入力ステップと、すべての文書データに形態素
解析を適用し、前記文書データを構成する単語をそれら
の品詞情報等とともに抽出する文書解析ステップと、該
文書解析ステップにて抽出された文書データの解析結果
を記憶する文書解析結果記憶ステップと、前記文書解析
ステップにて抽出された文書データの解析情報から前記
文書データを多次元ベクトル空間で表現するためのベク
トル空間を生成する文書ベクトル空間生成ステップと、
該文書ベクトル空間生成ステップにて生成された文書ベ
クトル空間の各文書データのベクトルデータを記憶する
文書ベクトルデータ記憶ステップと、指定される条件か
ら文書データ集合の分類数を決定する分類数決定ステッ
プと、前記文書ベクトル空間生成ステップにて生成した
文書ベクトル空間において統計手法を用いることにより
文書データを前記指定された分類数の部分文書集合に分
類する文書分類ステップと、該文書分類ステップで生成
された分類結果を記憶する分類結果記憶ステップと、前
記分類数決定ステップから前記分類結果記憶ステップま
での処理を繰り返し行うか否かの判定をおこなう繰り返
し判定ステップと、前記文書ベクトルデータ記憶ステッ
プと前記分類結果記憶ステップにて記憶された情報を用
いて生成されたすべての部分文書集合間の関係情報を算
出する部分文書集合間関係算出ステップと、該部分文書
集合間関係算出ステップにて生成された部分文書集合間
の関係情報を記憶する部分文書集合間関係記憶ステップ
とを含むことを特徴とする文書分類方法。
【請求項２４】請求項２３に記載の文書分類方法にお
いて、前記文書分類ステップにて用いられる統計手法が
非階層クラスタリング手法であることを特徴とする文書
分類方法。
【請求項２５】請求項２３または２４に記載の文書分
類方法において、前記部分文書集合間関係算出ステップ
にて算出される関係が、類似関係と包含関係であること
を特徴とする文書分類方法。
【請求項２６】請求項２５に記載の文書分類方法にお
いて、前記部分文書集合間の関係は各部分文書集合から
抽出される単語情報のみを用いて算出されることを特徴
とする文書分類方法。
【請求項２７】文書集合をその内容に従って分類する
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体であって、複数の文
書を入力する文書入力ステップと、該文書入力ステップ
にて入力された各文書から該各文書を構成する単語情報
を抽出する文書解析ステップと、該文書解析ステップに
て抽出された各文書の単語情報をもとに前記複数の文書
による文書集合をいくつかの部分文書集合に分類する文
書分類ステップと、該文書分類ステップにて分類された
各部分文書集合からそれらの代表語セットを抽出する代
表語抽出ステップと、任意の単語についてその関連語が
記述された関連語辞書を用いて前記代表語抽出ステップ
にて抽出した各部分文書集合の代表語セットそれぞれに
ついて関連語セットを抽出する関連語抽出ステップと、
該関連語抽出ステップにて抽出した関連語セットと前記
代表語抽出ステップで抽出した代表語セットと各部分文
書集合に所属する文書に関する情報とをもとに個々の部
分文書集合及び部分文書集合間の関連情報を生成する部
分文書集合情報生成ステップと、前記文書分類ステップ
での分類結果を前記部分文書集合情報生成部にて生成さ
れた情報と合わせて保存する分類結果保存ステップとを
含む文書分類方法を実行するためのプログラムを記録し
たコンピュータ読み取り可能な記録媒体。
【請求項２８】請求項２７に記載の文書分類方法を実
行するためのプログラムを記録したコンピュータ読み取
り可能な記録媒体において、前記関連語抽出ステップに
て抽出される関連語セットが、同義語、類義語、反対語
のうちの少なくとも一つ以上の組合わせである文書分類
方法を実行するためのプログラムを記録したコンピュー
タ読み取り可能な記録媒体。
【請求項２９】請求項２７に記載の文書分類方法を実
行するためのプログラムを記録したコンピュータ読み取
り可能な記録媒体において、前記関連語抽出ステップに
て抽出される関連語セットが少なくとも反対語を含み、
ある部分文書集合の代表語セットから抽出された反対語
セットが、自分を含む他のどの部分文書集合の代表語セ
ットとも一致しない場合、該一致しない反対語セットを
含む文書を文書集合から抽出し、あらたな部分文書集合
を生成する処理を全部分文書集合に対し再帰的に繰り返
す反意部分文書集合生成ステップをさらに含む文書分類
方法を実行するためのプログラムを記録したコンピュー
タ読み取り可能な記録媒体。
【請求項３０】請求項２７に記載の文書分類方法を実
行するためのプログラムを記録したコンピュータ読み取
り可能な記録媒体において、前記関連語抽出ステップに
て抽出される関連語が少なくとも反対語を含み、ある部
分文書集合の代表語セットから抽出された反対語セット
が、自分を含む他のどの部分文書集合の代表語セットと
も一致しない場合、該一致しない反対語セットと代表語
セットから反対語セットに対応する代表語を除いた単語
セットを含む文書を文書集合から抽出し、あらたな部分
文書集合を生成する処理を全部分文書集合に対し再帰的
に繰り返す反意部分文書集合生成ステップをさらに含む
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体。
【請求項３１】文書の内容に従って文書の分類を行う
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体であって、文書デー
タを入力する文書入力ステップと、前記文書データに形
態素解析を適用し、前記文書データを構成する単語をそ
れらの品詞情報等とともに抽出する文書解析ステップ
と、該文書解析ステップにて抽出された文書データの解
析情報から文書データを多次元ベクトル空間で表現する
ための文書ベクトル空間を生成する文書ベクトル空間生
成ステップと、該文書ベクトル空間生成ステップにて生
成した文書ベクトル空間において統計手法を用いること
により文書データの分類を行う文書分類ステップとを含
み、前記文書解析ステップにて抽出される特定の品詞を
有する単語を、該特定の品詞の品詞情報に基づき、該特
定の品詞の前後に抽出される一つ以上の単語と結合する
ことにより生成される単語と置き換え、かつ該特定の品
詞の品詞情報も適切に置き換える文書分類方法を実行す
るためのプログラムを記録したコンピュータ読み取り可
能な記録媒体。
【請求項３２】請求項３１に記載の文書分類方法を実
行するためのプログラムを記録したコンピュータ読み取
り可能な記録媒体において、前記文書分類ステップにお
いて統計手法としてクラスタリング法を用いることで文
書データの分類を行う文書分類方法を実行するためのプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体。
【請求項３３】請求項３１または３２に記載の文書分
類方法を実行するためのプログラムを記録したコンピュ
ータ読み取り可能な記録媒体において、前記文書解析ス
テップにおいて品詞が接頭詞、接尾詞、助数詞、及びそ
れらに類する品詞である単語について、単語及び品詞の
置き換えを行う文書分類方法を実行するためのプログラ
ムを記録したコンピュータ読み取り可能な記録媒体。
【請求項３４】請求項３１ないし３３のいずれか１に
記載の文書分類方法を実行するためのプログラムを記録
したコンピュータ読み取り可能な記録媒体において、前
記文書解析ステップにおいて特定の品詞の単語が出現す
るまで単語の結合を続ける文書分類方法を実行するため
のプログラムを記録したコンピュータ読み取り可能な記
録媒体。
【請求項３５】請求項３１ないし３４のいずれか１に
記載の文書分類方法を実行するためのプログラムを記録
したコンピュータ読み取り可能な記録媒体において、前
記文書解析ステップにおいて品詞が数詞接尾詞もしくは
助数詞の単語について、該数詞接尾詞もしくは助数詞の
単語に結合される複数の単語を削除し、前記文書分類ス
テップでは削除した単語の情報を用いない文書分類方法
を実行するためのプログラムを記録したコンピュータ読
み取り可能な記録媒体。
【請求項３６】文書の内容に従って文書データ集合を
分類する文書分類方法を実行するためのプログラムを記
録したコンピュータ読み取り可能な記録媒体であって、
文書データ集合を入力する文書入力ステップと、すべて
の文書データに形態素解析を適用し、前記文書データを
構成する単語をそれらの品詞情報等とともに抽出する文
書解析ステップと、該文書解析ステップにて抽出された
文書データの解析結果を記憶する文書解析結果記憶ステ
ップと、前記文書解析ステップにて抽出された文書デー
タの解析情報から前記文書データを多次元ベクトル空間
で表現するためのベクトル空間を生成する文書ベクトル
空間生成ステップと、該文書ベクトル空間生成ステップ
にて生成された文書ベクトル空間の各文書データのベク
トルデータを記憶する文書ベクトルデータ記憶ステップ
と、指定される条件から文書データ集合の分類数を決定
する分類数決定ステップと、前記文書ベクトル空間生成
ステップにて生成した文書ベクトル空間において統計手
法を用いることにより文書データを前記指定された分類
数の部分文書集合に分類する文書分類ステップと、該文
書分類ステップで生成された分類結果を記憶する分類結
果記憶ステップと、前記分類数決定ステップから前記分
類結果記憶ステップまでの処理を繰り返し行うか否かの
判定をおこなう繰り返し判定ステップと、前記文書ベク
トルデータ記憶ステップと前記分類結果記憶ステップに
て記憶された情報を用いて生成されたすべての部分文書
集合間の関係情報を算出する部分文書集合間関係算出ス
テップと、該部分文書集合間関係算出ステップにて生成
された部分文書集合間の関係情報を記憶する部分文書集
合間関係記憶ステップとを含む文書分類方法を実行する
ためのプログラムを記録したコンピュータ読み取り可能
な記録媒体。
【請求項３７】請求項３６に記載の文書分類方法を実
行するためのプログラムを記録したコンピュータ読み取
り可能な記録媒体において、前記文書分類ステップにて
用いられる統計手法が非階層クラスタリング手法である
文書分類方法を実行するためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体。
【請求項３８】請求項３６または３７に記載の文書分
類方法を実行するためのプログラムを記録したコンピュ
ータ読み取り可能な記録媒体において、前記部分文書集
合間関係算出ステップにて算出される関係が、類似関係
と包含関係である文書分類方法を実行するためのプログ
ラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項３９】請求項３８に記載の文書分類方法を実
行するためのプログラムを記録したコンピュータ読み取
り可能な記録媒体において、前記部分文書集合間の関係
は各部分文書集合から抽出される単語情報のみを用いて
算出される文書分類方法を実行するためのプログラムを
記録したコンピュータ読み取り可能な記録媒体。