WO2000075810A1

WO2000075810A1 - Procede de tri de documents, appareil de tri de documents et support enregistre sur lequel un programme de tri de documents est memorise

Info

Publication number: WO2000075810A1
Application number: PCT/JP2000/003625
Authority: WO
Inventors: Michihiro Nagaishi; Shinji Miwa
Original assignee: Seiko Epson Corporation
Priority date: 1999-06-04
Filing date: 2000-06-02
Publication date: 2000-12-14
Also published as: AU4954200A; US7213205B1; EP1124189A4; EP1124189A1

Description

明細書文書分類方法および文書分類装置並びに文書分類処理プログラムを記録した記録媒体景技術

本発明は多数の文書を意味的に共通性を有する複数のクラス夕に分類する文書分類方法および文書分類装置並びに文書分類処理プログラムを記録した記録媒体に関する。

多数の文書を意味的なまとまりごとの複数のクラスタに分類する際、それそれの文書から特徴要素を抽出し、その特徴要素に基づいて分類することが行われている。その分類手法として、それそれの文書全体（表題や本文など 1つの文書を構成する文書内容全体）を特徴要素の抽出対象とし、それそれの文書全体から特徴要素を抽出し、抽出された特徴要素に基づいて複数のクラスタに分類する文書分類方法がある。

この文書全体を特徴要素抽出の対象として分類を行うと、文書の形態素解析や、特徴抽出処理が非常に繁雑であり、情報処理装置において、中央処理装置（C P U ) がその処理を行う場合、 C P Uに対する負荷を大きいものとしている。また、一般に、文書はその文書の主旨とは直接関係のない記述を多く含んでいるのが普通である。したがって、文書全体を特徴要素抽出の対象とすると、それによつて分類されたクラスタは情報の分類という観点から見たとき、あまり意味のない分類となることも多い。つまり、ノイズクラス夕が多数生成されてしまうということにもなる。

このような問題点を解消する手法として、それそれの文書の主旨を適切に表す部分としてそれそれの文書の表題部（タイトル）を検出して、その表題部から特徴要素を抽出して、抽出された特徴要素に基づいて文書を分類する手法がある。この手法は、文書の主旨を適切に反映した文書分類を可能とすることができるものとして期待されている。

このように、文書を幾つかのクラス夕に分類する手法は幾つか考えられている。しかしながら、上述した文書の表題部から抽出された特徴要素に基づいて文書を分類する手法を用いたとしても、それによつて得られる分類結果は、クラス夕の数が多くなりすぎることもあり、ユーザ側から見たときに、決して適切な分類が行われたとは思えない場合もでてくる。例えば、分類されて得られる多数のクラスタを比較した場合、それそれのクラスタに共通した文書が数多く含まれる場合もある。このような場合、ュ一ザは提示された多数のクラスタについて、結局は、自分で整理し、その中から自分の本当に欲しい情報を探すというような面倒な処理を行うことになる。

そこで、本発明は、分類結果として得られた多数のクラスタに対してクラス夕マージ処理を行うことで、より一層、ユーザにとってわかりやすく簡潔的に分類された分類結果を提示できるようにすることを目的としている。図面の簡単な説明

図 1は、本発明の第 1の実施形態を説明するプロック図である。

図 2は、本発明の第 1の実施形態を説明するための複数の文書例を示す図である。

図 3は、本発明の第 1の実施形態における文書分類処理の処理手順を概略的に説明するフローチャートである。

図 4は、特徴要素とそれそれの文書との関係を示す特徴テーブル内容の一例を示す図である。

図 5は、図 4に示す特徴テーブルに基づいて文書を分類した分類結果を示す図である。

図 6は、 2つのクラス夕間でのクラスタマージ処理を説明する図であり、それそれのクラス夕に含まれる文書例を示す図である。

図 7は、図 5の分類結果についてクラスタマージ処理した結果を示す図である。図 8は、特徴要素が元の文書にどのように出現するかによってクラス夕マージを行う場合の文書分類装置のプロック図である。

図 9は、本発明の第 2の実施形態を説明するプロック図である。

図 1 0は、本発明の第 2の実施形態を説明するための複数の文書例を示す図である。

図 1 1は、本発明の第 2の実施形態において行う文書分類処理の処理手順を概略的に説明するフローチャートである。

図 1 2は、特徴要素とそれそれの文書との関係を示す特徴テーブル内容の一例を示す図である。

図 1 3は、図 1 2に示す特徴テーブルに基づいて文書を分類した分類結果を示す図である。

図 1 4は、 2つのクラスタ間でのクラスタマージ処理を説明する図であり、それそれのクラス夕に含まれる文書例を示す図である。

図 1 5は、図 1 3の分類結果についてクラスタマージ処理した結果を示す図である。

図 1 6は、クラス夕マージされて得られた新たなクラス夕に含まれるそれそれのクラスタのクラス夕名を A N D形式（横一列に並べた場合）の表記の仕方で表示した例を示す分類結果例を示す図である。

図 1 7は、クラスタマージされて得られた新たなクラスタに含まれるそれそれのクラスタのクラスタ名を A N D形式（クラスタ名を 1つづつ縦に並べた場合）の表記の仕方で表示した例を示す分類結果例を示す図である。発明の開示

前述の目的を達成するために、本発明の文書分類方法は、複数の文書を意味的に共通性を有する複数のクラスタに分類する文書分類方法において、前記複数の文書を意味的に共通性を有する複数のクラス夕に分類したのちに、その複数のクラス夕間でそれそれのクラス夕に含まれる文書に基づいてそれそれのクラス夕の関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラスタを統合するクラス夕マージ処理を行うようにしている。

また、前記クラス夕マージ処理は、クラスタマージ処理対象となる複数のクラス夕に含まれる複数の文書のうち、それそれのクラスタに共通して含まれる文書数を基にクラスタ間の関連性を判断してクラス夕マージする処理である。

また、前記クラス夕マージ処理は、クラスタマージ処理対象となる複数のクラスタそれそれを特徴づける特徴要素が、そのクラス夕マージ処理対象となるそれそれのクラス夕に含まれる元の文書内容にどのような状態で出現するかを調べ、その出現状態に基づいてクラスタマージする処理であってもよい。

そして、これらクラスタマージ処理は、少なくとも 2つのクラスタ間で行い、一回目のクラスタマージ処理が終了すると、そのクラス夕マージ処理されたクラス夕群に対し、再度のクラスタマージ処理を行い、クラスタマージが起こらなくなるまでそれを繰り返すようにする。

さらに、前記クラスタマージ処理を行った後は、クラスタマージを実行したことおよびクラスタマージを行つた根拠を付加情報として出力する。

このように本発明は、それそれの文書を複数のクラスタに分類したのちに、その複数のクラス夕間でそれそれのクラス夕に含まれる文書の内容に基づいてそれそれのクラス夕間の関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラスタを統合するクラス夕マージ処理を行うようにしている。これによつて、最初のクラスタリング処理によって、多数のクラス夕が生成されたとしても、それそれのクラス夕間でクラスタ同志の関連性を判断し、関連性の高い複数のクラス夕を統合することができるので、簡潔化された分類結果をユーザに提示することができ、ユーザは自分の欲しい情報を効率よく探すことができるようになる。また、クラスタ間の関連性の判断は、クラスタマージ処理対象となる複数のクラスタに含まれる複数の文書のうち、各々のクラスタに共通して含まれる文書数を基にして行うので、簡単で的確なクラスタマージ処理を行うことができる。また、クラス夕間の関連性の判断を行うための他の方法として、特徴要素がクラス夕マージ処理対象となるクラスタに含まれる元の文書内容にどのような状態で出現するかを調べ、その出現状態に基づいてクラス夕マージ処理を行うようにしてもよく、これによれば、実際の文書内容に基づいたクラスタ同志の関連性の判断が行えるので、適切なクラス夕マージ結果を得ることができる。

そして、クラス夕マージ処理は、少なくとも 2つのクラス夕の組み合わせで行い、さらに、所定の数のクラス夕間でのクラス夕マージ処理が終了すると、そのクラスタマージ処理されたクラス夕群に対し、再度のクラス夕マージ処理を行い、クラスタマージが起こらなくなるまでそれを繰り返すことによって、最終的には、より簡潔的に整理された分類結果を得ることができる。

また、このようなクラス夕マージ処理を行った後は、クラスタマージを実行したことおよびクラスタマージを行った根拠を付加情報として出力することにより、ユーザはどのような状況でクラス夕マ一ジ処理がなされたかを知ることができるので、クラスタマージ処理後の結果から自分の欲しい情報を探す際に、その付加状況を参考にして探すことができる。

本発明の第 2の文書分類方法は、複数の文書を意味的に共通性を有する複数のクラスタに分類する文書分類方法において、前記複数の文書を意味的に共通性を有する複数のクラス夕に分類したのちに、その複数のクラス夕間でそれそれのクラスタに含まれる文書に基づいてそれそれのクラスタの関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラスタを統合するクラス夕マージ処理を行い、このクラス夕マージ処理によって得られた新たなクラスタの表示を行う際、その新たなクラス夕に対し、クラス夕マージ処理内容がわかるように、どのようなクラスタがどのような関連性を有して統合されたかを示す表示内容を生成し、その表示内容をユーザに提示すべき分類結果に含めて出力するようにしている。また、前記クラスタマージ処理内容がわかるような表示内容とは、前記統合されたそれそれのクラスタ間の関連性の高さに基づき、当該それそれのクラス夕のクラス夕名の表示の仕方を変えた表示内容であって、それそれのクラス夕名の表示の仕方は、前記クラスタ間の関連性の高さが予め設定された値より大きい場合には、それそれのクラス夕名を A N D形式の表記の仕方で表示させ、前記クラス夕間の関連性の高さが予め設定された値未満である場合には、それそれのクラス夕名を O R形式の表記の仕方で表示させるようにしている。

そして、前記 A N D形式の表記の仕方は、それぞれのクラス夕対応のクラス夕名を横方向に並べて連続的に表記するか、それそれのクラス夕対応のクラスタ名ごとに改行して縦に並べて表記するかのいずれかで行い、前記 O R形式の表記の仕方は、それぞれのクラス夕対応のクラスタ名の間に区切り記号を挿入して表記するようにしている。

さらに、あるクラス夕の中に包含されるようなクラスタが存在する場合には、包含されるクラス夕名を、包含するクラス夕のクラス夕名に対し括弧書きの表記の仕方で表示することも可能としている。

このように本発明は、クラス夕マージされて得られた新たなクラス夕の表示を行う際、その新たなクラス夕に対し、クラス夕マージ処理内容がわかるように、どのようなクラスタがどのような関連性を有して統合されたかを示す表示内容を生成し、それを表示するようにしている。

これによつて、ユーザは、クラス夕マージされる前のクラス夕の様子、すなわち、どのクラス夕とどのクラス夕がどの程度の関連性を有して統合されたのかといったことを表示内容を見るだけで知ることができる。そして、どのような関連性を有しているかを示す表示の仕方としては、クラスタマージ処理されて得られた新たなクラスタに含まれるクラス夕間の関連性の高さに基づき、クラスタマ一ジ処理されたそれそれのクラス夕のクラスタ名の表示の仕方を変えるようにしている。

そのクラスタ名の表示の仕方は、具体的には、前記クラス夕間の関連性の高さが予め設定された値より大きい場合には、それそれのクラスタ名を A N D形式の表記の仕方で表示させ、前記クラスタ間の関連性の高さを表す値が予め設定された値未満である場合には、それそれのクラスタ名を 0 R形式の表記の仕方で表示させるようにしている。たとえば、関連性の高さがきわめて高い場合には、それそれのクラス夕名を横一列に連続的に表示したり、それそれのクラスタ名を 1つづっ縦に並べて表示し、関連性の高さがそれほどでもない場合には、それそれのクラス夕名の間に区切り記号を挿入するなどして表示する。ユーザはこのような表示を見ることで、統合される前のそれそれのクラス夕がどのようなクラスタであって、それそれのクラスタ同志の関連性がどの程度であるかなどを知ることができる。

また、あるクラス夕の中に包含されるようなクラス夕が存在する場合には、包含されるクラスタ名を、包含するクラス夕のクラスタ名に対し括弧書きの表記の仕方で表示することも可能であり、包含関係であることを繁雑なイメージを使わないでもわかりやすく表示できる。

また、本発明の文書分類装置は、複数の文書を意味的に共通性を有する複数のクラスタに分類する文書分類装置において、前記複数の文書を意味的に共通性を有する複数のクラス夕に分類するクラス夕リング部と、このクラス夕リング部により得られた複数のクラスタ間でそれそれのクラスタに含まれる文書に基づいてそれそれのクラスタの関連性を判断し、一定以上の関連性を有する少なくとも 2 つのクラス夕を統合するクラスタマージ部とを有する構成としている。

また、本発明の文書分類装置は、複数の文書を意味的に共通性を有する複数のクラス夕に分類する文書分類装置において、前記複数の文書を意味的に共通性を有する複数のクラス夕に分類するクラスタリング部と、このクラスタリング部によって得られた複数のクラスタ間でそれそれのクラス夕に含まれる文書に基づいてそれそれのクラス夕の関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラス夕を統合するクラスタマージ部と、このクラス夕マージ部によってクラス夕マージ処理されて得られた新たなクラス夕の表示を行う際、その新たなクラスタに対し、クラス夕マージ処理内容がわかるように、どのようなクラス夕がどのような関連性を有して統合されたかを示す表示内容を生成するクラスタマ —ジ内容生成部と、その表示内容をユーザに提示すべき分類結果に含めて出力する分類結果出力手段とを有した構成としている。

また、本発明の文書分類処理プログラムを記録した記録媒体は、複数の文書を意味的に共通性を有する複数のクラスタに分類する文書分類処理プログラムを記録した記録媒体であって、その文書分類処理プログラムは、前記複数の文書を意味的に共通性を有する複数のクラス夕に分類するクラスタリング処理手順と、これにより分類された複数のクラスタ間でそれそれのクラスタに含まれる文書に基づいてそれそれのクラスタの関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラスタを統合するクラスタマージ処理手順とを含むものである。さらに、本発明の文書分類処理プログラムを記録した記録媒体は、複数の文書を意味的に共通性を有する複数のクラス夕に分類して出力する文書分類処理プログラムを記録した記録媒体であって、その処理プログラムは、複数の文書を意味的に共通性を有する複数のクラスタに分類する手順と、その複数のクラスタ間でそれぞれのクラス夕に含まれる文書に基づいてそれそれのクラス夕の関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラスタを統合するクラスタマージ処理を行う手順と、クラスタマージ処理されて得られた新たなクラスタの表示を行う際、その新たなクラス夕に対し、クラス夕マージ処理内容がわかるように、どのようなクラス夕がどのような関連性を有して統合されたかを示す表示内容を生成する手順と、その表示内容をユーザに提示すべき分類結果に含めて出力する手順とを含むようにしている。発明を実施するための最良の形態

(第 1の実施形態）

以下、本発明の第 1の実施形態について説明する。なお、この実施形態で説明する内容は、本発明の文書分類方法および文書分類装置についての説明であるとともに、本発明の文書分類処理プログラムを記録した記録媒体における文書分類処理プログラムの具体的な処理内容をも含むものである。

また、この実施形態では、文書分類の手法として、前述したように、それぞれの文書の表題部（夕ィトル）を検出して、その表題部から特徴要素を抽出して、抽出された特徴要素に基づいて文書を分類する手法を用いるものとする。

図 1は本実施形態の装置構成を示すもので、大きく分けると、複数の文書を意味的に共通性を有する複数のクラスタに分類するクラスタリング部 1と、このクラスタリング部 1により得られた複数のクラスタ間で各々のクラス夕に含まれる文書の内容に基づいて各々のクラスタの関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラスタを統合するクラス夕マ一ジ部 2と、このクラスタマージ部 2でクラスタマージ処理された分類結果を出力する分類結果出力部 3とを有した構成となっている。

クラスタリング部 1は、文書記憶部 1 1、文解析部 1 2、特徴要素抽出部 1 3、特徴テーブル作成部 1 4、文書分類部 1 5、分類結果記憶部 1 6を有している。クラスタマージ部 2はクラス夕を統合するものであるがこれについての処理内容については後に詳細に説明する。

分類結果出力部 3は、出力制御部 3 1、表示部 3 2を有し、クラスタマージ部 2によるクラスタマージ処理結果を出力させるための制御を行う。

上述のクラス夕リング部 1に含まれる文書記憶部 1 1はこの場合、多数の文書データをデ一夕ベースとして持つものである。ここでは、たとえば、図 2に示すような文書群を分類する場合を説明する。図 2に示される文書群は、それそれが独立した文書 D l , D 2 , · · · ， D 7を有し、これらの文書 D l， D 2 , · · ·， D 7は表題部 T 1 , T 2， · · ·， T 7と、それに対する本文 A 1， A 2， · · · ，

A 7を持っているものとする。

文解析部 1 2は文書記憶部 1 1に記憶されている文書を文解析し、それそれの文書の表題部を検出する。この文解析部 1 2が行う表題部の検出は、具体的には次のようにして行う。

まず、第 1の方法として、文書構造様式によって表題と規定される部分があればその部分を表題部とする。また、第 2の方法として、文書構造様式によって、標準より大きな文字で表示する指定がなされている部分があれば、その部分を表題部とする。また、第 3の方法として、定められた数の文または単語を文書先頭より抽出し、その抽出した部分を表題部とする。さらには、これら第 1、第 2、第 3の方法を順次行い、第 1の方法を行ったとき、表題と規定されている部分があればその部分を表題部とし、表題と規定される部分が存在しなければ、第 2の方法を行い、標準より大きな文字で表示する指定がなされている部分があれば、その部分を表題部とし、標準より大きな文字で表示する指定がなされていなければ、第 3の方法を行って表題部を検出する。

特徴要素抽出部 1 3は、文解析部 2で検出されたそれそれの文書の表題部の中から特徴要素を抽出する。

特徴テーブル作成手段 1 4は、前記表題部から抽出された特徴要素とそれそれの文書との関係を示す特徴テーブルを作成する。なお、この特徴テーブルの具体的な内容については後述する。

文書分類部 1 5は、前述の特徴テーブルの内容を参照し、文書 D 1， D 2 , · · ·， D 7を意味的に共通性のある複数のクラス夕に分類する。つまり、文書 D l , D 2 , · · · ， D 7の表題部に存在する特徴要素に基づいて、共通する特徴要素を持つ処理対象文書を 1つのまとまりとし、そのまとまりを 1つのクラスタとする。なお、この文書分類部 1 5は同義特徴辞書（図示せず）を有し、共通する特徴要素を持つ処理対象文書を 1つのまとまりとする処理を行う際、共通する特徴要素であるか否かの判断を、その同義語辞書を用い同義語が有るか否かにより行い、同義語が存在する場合にはそれを同じクラスタとする処理を行うことも可能である。

分類結果記憶部 1 6は、文書分類部 1 5によって分類された内容を記憶する。

このような構成において、本発明の文書分類処理について説明する。本実施形態においては、文書分類処理は、図 3のフローチャートに示すように、処理対象となる多数の文書を意味的に共通性を有する複数のクラスタに分類し（ステップ S 1 ) 、これにより分類された複数のクラスタ間で各々のクラスタに含まれる文書に基づいて（これについては後に説明する）それそれのクラス夕の関連性を判断する（ステップ S 2 ) 。そして、一定以上の関連性を有する少なくとも 2つのクラス夕を統合する（ステップ S 3 ) 。以下、具体例を参照して詳細に説明する。

ここでは、図 2で示した文書 D l， D 2 , · · · , D 7を分類する例について説明する。この実施の形態では、それそれぞれの文書の表題部から特徴要素を抽出し、その抽出された特徴要素に基づいてクラスタリング処理を行い、かつ、そのクラス夕リング処理された結果についてクラスタマージ処理を行う。まず始めに、表題部から特徴要素を抽出し、その抽出された特徴要素に基づいて行われるクラスタリング処理（クラス夕リング部 1が行う処理）について説明する。

これらの文書 D 1 , D 2 , · · · ， D 7は、文解析部 1 2にて表題部が検出される。たとえば、文書 D 1については表題部 T 1が検出され、文書 D 2については表題部 T 2が検出され、文書 D 3については表題部 T 3が検出されるというように、それそれの文書 D 1， D 2， · · · ， D 7の表題部 T 1， T 2， · · · ， T 7が検出される。

そして、特徴要素抽出部 1 3によって、それそれの表題部に存在する特徴要素 . が抽出されたのち、特徴テーブル作成部 1 4により、それそれの特徴要素とその特徴要素を表題部に含む文書との関係を示す特徴テ一ブルが作成される。この特徴テ一ブルの例を図 4に示す。なお、ここでは、文書数が 3つ以上取り出される特徴要素とその特徴要素を含む文書との関係を示し、特徴テーブル内に示される数値は、その特徴要素が各文書の表題部に幾つ含まれるているかの数を示している。たとえば、「用紙」という特徴要素は、文書 D l， D 4 , D 6 , D 7のそれそれの表題部に、それそれ 1個ずつ含まれていることを示している。図 4の特徴テーブルからもわかるように、表題部に「用紙」という特徴要素を含む文書は、文書 D 1， D 4， D 6， D 7であり、また、表題部に「力セヅト」という特徴要素を含む文書は、文書 D l， D 4 , D 7であり、さらに、表題部に「増設」という特徴要素を含む文書は、文書 D 2， D 3 , D 5 , D 7である。なお、図 2において、これら各特徴要素部分にはアンダーラインが施されている。そして、文書分類部 1 5はこのような特徴テーブルを参照して、それそれの特徴要素ごとの文書クラス夕分けを行う。その分類結果を図 5に示す。なお、このようなクラスタに分類する際、前述したように、共通する特徴要素であるか否かの判断を、同義語辞書を用い同義語が有るか否かによっても行い、同義語が存在する場合にはそれを同じ文書クラス夕とする処理を行うことも可能である。たとえば、「用紙」と「印刷紙」の両方が特徴要素として抽出されたとすれば、これらの特徴要素を表題部に含む文書は同じクラス夕とするなどという処理を行う。このような分類結果は分類結果記憶部 1 6に格納される。図 5に示される分類結果において、たとえば、「用紙」で分類されたクラスタ（文書 D 1 , D 4 , D 6， D 7が含まれる）について見れば、図 2の文書内容からもわかるように、文書 D 1は用紙カセットについての内容であり、文書 D 4は用紙設定についての内容であり、文書 D 6は印刷された後の用紙の汚れについての内容であり、文書 D 7は用紙カセッ卜の増設についての内容である。

このように、これらの文書 D l , D 4 , D 6 , D 7はどれも用紙に関する内容であり、 1つのクラスタとして分類されて何等問題のないものとなり、その分類結果は適切であるといえる。

また、「カセット」で分類されたクラスタ（文書 D 1， 4， D 7が含まれる）について見れば、図 2の文書内容からもわかるように、文書 D 1は用紙カセットについての内容であり、文書 D 4は用紙設定についての内容であり、文書 D 7は用紙カセットの増設についての内容である。

このように、これらの文書 D l， D 4 , D 6， D 7にはどれも用紙をセットすることに関する内容が含まれており、 1つのクラスタとして分類されて何等問題のないものとなり、その分類結果は適切であるといえる。

また、「増設」で分類されたクラス夕（文書 D 2 , D 3 , D 5 , D 7が含まれる）について見れば、図 2の文書内容からもわかるように、文書 D 2はメモリの増設についての内容であり、文書 D 3はィンタフエース力一ドの増設についての内容であり、文書 D 5はハードディスクの増設についての内容であり、文書 D 7 は用紙カセットの増設についての内容である。

このように、これらの文書 D 2， D 3， D 5， D 7はどれも何かを増設する場合についての内容であり、 1つのクラスタとして分類されて何等問題のないものとなり、その分類結果は適切であるといえる。

このような適切な分類が行える理由としては、それそれの文書の表題部から特徴要素を抽出し、その特徴要素に基づいて文書を分類しているからである。つまり、文書の表題部は、その文書の作成者がその文書の主旨を表す内容を表現していることが多い。したがって、文書の表題部に含まれる特徴要素を用いて分類を行うことにより、分類結果が散漫になることが少なく、また、ノイズクラスタが生成される率も少なくすることができる。また、各文書の表題部は、その文書の作成者がその文書の主旨を表す内容を表現していることから、文書の制作者側の視点による分類が得られる。

そして、分類が行われた後、ユーザによって、たとえば、「用紙」についてのクラスタの選択指示が出されたとすると、そのクラスタに属する文書 D 1， D 4 , D 6 , D 7が文書記憶部 1 1から読み出されて表示部 3 2に表示される。なお、このときの表示内容としては、前述したように、文書番号や文書名のみでもよく、さらには、その文書内容を表示させるようにしてもよい。

ところで、本発明は以上のようにクラス夕リング処理した結果について、さらに、クラスタマ一ジ部 2によってクラス夕マージ処理を行う。

すなわち、図 5に示す分類結果において、特徴要素である「用紙」と「力セット」について見ると、「用紙」のクラス夕には文書 D 1 , D 4 , D 6， D 7が含まれ、「カセット」のクラスタには文書 D 1， D 4， D 7に存在することがわかる。

このように、「用紙」のクラス夕と「カセット」のクラス夕には、共に文書 D 1 , D 4 , D 7が共通して存在している。これは、「用紙」という特徴要素と「力セット」という特徴要素は相互に関連した状態で用いられることが多いことを意味している。たとえば、文書 D 1 ， D 4 , D 7の表題部または本文のなかに「用紙カセット」という用語が用いられている。つまり、これらの文書 D l ， D 4 , D 7は共通性の高い文書であり、これら文書 D l ， D 4 , D 7は同じクラスタに分類した方がより好ましいと考えられる。

これを実現するために本発明では特徴要素に基づいてクラス夕リングしたあと、そのクラスタリング結果に対しクラスタマージ処理を施す。

このクラスタマ一ジ処理について以下に説明する。まず始めに、図 5の分類結果とは関係なく一般的な例について図 6を参照しながら説明する。

今、 2つのクラスタ C I , C 2があるとする。クラス夕 C 1として 5個の文書 D 1 , D 2 , D 3 , D 4 , D 8が抽出され、クラス夕 C 2には 6個の文書 D 3 ， D 4 , D 5 , D 6 , D 7 , D 8が抽出されたとする。

ここで、 2つのクラスタ C l ， C 2に共通している文書は、文書 D 3， D 4 ， D 8である。この実施の形態では、クラス夕マージ処理対象となる複数のクラス夕に含まれる複数の文書のうち、それそれのクラスタに共通して含まれる文書数を基に、それそれのクラス夕間の関連性を判断してクラスタマージ処理を行う。具体的には、複数のクラス夕ととして、ある 2つのクラスタに共通している文書数が 2つのクラス夕に存在する合計の文書数に対しどのくらいの割合かを計算し、その計算結果が予め定めたしきい値以上かどうかによつてマージするか否かを決める。

たとえば、この場合、 2つのクラス夕 C l ， C 2に存在する文書数の合計は 1 1個であり、両者に共通する文書数は 3個である。これらから合計の文書数に占める共通する文書数の割合（％) を計算し、その結果からマージするか否かを決定する。この割合（％) を求める際、合計の文書数で共通する文書数を単純に割り算してそれに 1 0 0を掛けて求めてもよいが、共通する文書数に任意に設定される係数を掛け算したものを合計の文書数で割り算してそれに 1 0 0を掛けて求めるようにしてもよい。

—例として、クラス夕 C 1に存在する文書数をひ 1、クラス夕 C 2に存在する文書数をひ 2とし、両者に共通する文書数を/?とした場合、たとえば/?に係数としてたとえば 2を掛けて、 2 ? / (ひ 1 +ひ 2 ) X 1 0 0を計算し、その値（％) が予め設定されたしきい値 TH (%) と比較して、上式による計算結果がしきい値 TH以上であればマージするというようなことを行う。図 6で示した例について考えれば、 2 ?は 2 x 3 = 6個、ひ 1 +ひ 2は 5 + 6= 1 1個であるので、この場合、約 55%と求められる。ここで、しきい値 THが仮に 70%と設定されているとすれば、計算結果（55%) はしきい値 TH (70%) より小さいので、クラスタ C 1とクラスタ C 2はマージしないとする。なお、係数は任意に設定されるもので、計算結果で得られる数値（％) がしきい値と比較し易いような値となるように適当に設定されるものであり、この場合は係数を 2としたが、係数を 1としても特に問題はない。

ここで、図 5で示した分類結果を例にして説明すれば、図 5の場合、「用紙」のクラスタには文書 D l， D 4 , D 6 , D 7の 4つの文書が存在し、「カセット」のクラスタには文書 D l， D4, D 7の 3つの文書が存在する。そして、 2つのクラス夕に共通する文書は文書 D 1， D 4 , D 7の 3つの文書であり、これを合計の文書数に対する割合（％) で考える。

これを前述した計算式によって計算する。図 5の分類結果の場合、合計の文書数（ひ 1 +ひ 2) は、 4 + 3 = 7となり、共通の文書数は 3で 2 ?は 6となる。したがって、この場合、約 86%という高い値が得られる。これは、設定されたしきい値（ここでは 70%としている）よりも高いので、この「用紙」のクラス夕と「カセット」のクラス夕はマージして 1つのクラスタとするということになる。

同様に考えて、図 5の「用紙」のクラス夕と「増設」のクラスタとをマージするか否か、「力セット」のクラスタと「増設」のクラス夕とをマージするか否かについて判断する。

まず、「用紙」のクラスタと「増設」のクラス夕については、「用紙」のクラス夕には文書 D l , D 4 , D 6 , D 7の 4つの文書が存在し、「増設」のクラス夕には文書 D 2， D 3， D 5， D 7の 4つの文書が存在する。そして、 2つのクラスタに共通する文書は文書 D 7のみであり、これを上式を用いて計算すると、この場合、 25%という結果が得られ、これは、しきい値（70%) よりも低い値であるので、この場合は、両者はマージしないとする。また、「カセット」のクラスタと「増設」のクラスタについては、「カセット」のクラスタには文書 D l， D 4 , D 7の 3つの文書が存在し、「増設」のクラス夕には文書 D 2， D 3 , D 5 , D 7の 4つの文書が存在する。そして、 2つのクラス夕に共通する文書は文書 D 7のみであり、これを上式を用いて計算すると、この場合、約 2 8 %という結果が得られ、これは、しきい値（7 0 %) よりも低い値であるので、この場合は、両者はマージしないとする。

このようにして、それそれのクラスタに対し 2つのクラスタごとにそれそれマ —ジするか否かを判断する。この図 5の分類結果についてマージするか否かの処理を行ったあとの分類結果（マージ処理後の分類結果という）が図 7である。図 7によれば、「用紙」と「力セット」が「用紙 +カセヅト」という 1つのクラス夕に分類され、そのクラス夕に属する文書は文書 D 1， D 4 , D 6 , D 7ということになる。また、「増設」についてはそのまま単独のクラスタを構成する。図 7に示されるクラス夕マージ処理後の分類結果において、たとえば、「用紙 +カセヅト」で分類されたクラスタ（文書 D 1， D 4 , D 6， D 7が含まれる）について見れば、図 2の文書内容からもわかるように、文書 D 1は用紙カセットについての内容であり、文書 D 4は用紙設定についての内容であり、文書 D 6は印刷された後の用紙の汚れた場合にはどのようにするかについての内容であり、文書 D 7は用紙カセットの増設についての内容である。

このように、これらの文書 D l , D 4 , D 6 , D 7はどれも用紙やカセットに関する内容であり、 1つのクラスタとして分類されて何等問題のないものとなり、むしろ、「用紙 +カセット」を 1つのクラスタとした方がよい分類結果であるといえる。

このように、始めにそれそれの文書の表題部から特徴要素を抽出し、その抽出された特徴要素に基づいてクラスタリング処理を行い、かつ、そのクラス夕リング処理されて得られたそれそれのクラス夕に対し、 2つづつのクラス夕の組み合わせについてクラスタマージ処理を行うことによって、より適切なクラスタリングが行える。

また、以上のようにして 2つのクラス夕ごとに 1回目のクラス夕マージ処理が終了し、図 7のようなクラスタマージ処理後の分類結果が得られると、今度は、そのクラスタマージ処理後の分類結果について、 2回目のクラスタマージ処理を行う。つまり、図 7の 1回目のクラスタマージ処理後の結果で考えた場合、「用紙 +カセヅト」のクラス夕と「増設」のクラス夕についてクラス夕マージ処理を行う。この場合、「用紙 +カセヅト」のクラスタと「増設」のクラス夕については、「用紙 +カセット」のクラスタには文書 D 1， D 4， D 6 , D 7の 4つの文書が存在し、「増設」のクラスタには文書 D 2， D 3 , D 5 , D 7の 4つの文書が存在する。そして、 2つのクラス夕に共通する文書は文書 D 7のみであり、これを合計の文書数に対する割合（％) で考えると、共通する文書数 1に定数 2を掛けたものを合計の文書数 8で割り算し、それに 1 0 0を掛けると、 2 5 %という結果が得られ、これは、しきい値 ( 7 0 %) よりも低い値であるので、この場合は、両者はマージしないとする。

このようにして、 2つのクラスタ間で 1回目のクラスタマージ処理が終了した後、その 1回目のクラス夕マージ処理に新たな 2つのクラス夕間で 2回目のクラスタマ一ジ処理を行い、その 2回目のクラス夕マージ処理が終了した後、その 2 回目のクラスタマージ処理後に新たな 2つのクラスタ間で 3回目のクラス夕マ一ジ処理を行うというクラスタマージ処理を順次行い、新たなクラス夕が生成されなくなるまで（クラスタマージが起こらなるまで）その処理を繰り返す。

また、これまでの説明は、 2つのクラスタ間でクラス夕マージ処理を行う例についてであるが、クラスタマージ処理は 3つ以上のクラスタの組み合わせについても可能である。この場合、 1回のクラス夕マージ処理によって 3つ以上のクラス夕間でクラス夕マ一ジ処理を行い、さらに、これによつて幾つかのクラス夕に分類された結果についてクラス夕マージが起こらなくなるまで、順次、クラス夕マージ処理を行うことも可能である。なお、 3つ以上のクラス夕についてクラス夕マージするか否かを判断する場合、前述したように、それそれのクラスタに存在する合計の文書数に対する共通の文書数の割合（％) で考えることができる。さらに、これまで説明した複数のクラス夕間でのクラス夕マージ処理は、図 5 に示すような分類結果に基づき、それそれのクラスタ間に共通する文書数が合計の文書数に占める割合を求め、それを設定されたしきい値との比較によって求めるようにしたが、このような方法によらず、それそれのクラスタを特徴づける特徴要素が、元の文書においてどのような状態で用いられているかを調べることによってもクラス夕マージ処理を行うことができる。これを実現するための文書分類装置の構成例を図 8に示す。図 8に示されるそれそれの構成要素は図 1と同じであり、同一部分には同一符号が付されているが、この場合、元の文書内容からクラスタマージするか否かを判断するため、クラスタマ一ジ部 2には、文書記憶部 1 1の出力が与えられるようになつている。以下、これについて説明する。図 5に示すような分類結果において、「用紙」のクラスタと「カセット」のクラス夕をクラスタマ一ジ処理する場合について説明する。「用紙」のクラス夕には、文書 D 1 ， D 4 , D 6 ， D 7が含まれ、「カセヅト」のクラス夕には、文書 D 1 ， D 4 , D 7が含まれる。

これら文書おいて、「用紙」と「カセット」がどのように用いられているかを調べる。文書 D 1においては、「用紙」と「力セヅト」が結びついた「用紙カセット」という用語が複数箇所出現し、文書 D 4には文書 D 1と同様に「用紙カセット」という用語が存在するとともに、「用紙」と「カセット」が近接した状態で用いられている。また、文書 D 7にも「用紙カセット」という用語や「用紙力セヅトュニヅト」という用語が存在する。また、文書 D 6には「力セット」という用語は存在しないが「用紙」という用語が複数出現する。

これらのことから考えれば、特徴要素として抽出された「用紙」と「力セット」は、連続的に用いられたり近接して用いられたりすることの多い特徴要素であり、両者は関連性の高い特徴要素であることがわかる。このことから、少なくとも文書 D l ， D 4， D 7は関連性の高い文書であり、文書 D 6も全く関連性がないとは言えないので、この場合、「用紙」のクラス夕と「力セヅト」のクラス夕は「用紙 +カセット」のクラス夕として 1つにまとめても問題がないと判断できる。次に、「用紙」のクラス夕と「増設」のクラスタをクラス夕マージ処理する。「用紙」のクラス夕には、文書 D 1 ， D 4 , D 6 ， D 7が含まれ、「増設」のクラス夕には、文書 D 2 , D 3 , D 5 , D 7が含まれる。

これら文書おいて、「用紙」と「カセット」がどのように用いられているかを調べる。文書 D l、 D 2 ， D 3 ， D 4， D 5 ， D 6においては、「用紙」と「増設」が結びついて用いられた部分や、近接して用いられている部分はなく、文書 D 7のみにおいて「用紙カセット」と「増設」が近接した状態で用いられている程度である。

したがって、これらのことから、特徴要素として抽出された「用紙」と「増設」は、連続的に用いられたり近接して用いられたりすることの多い特徴要素ではなく、両者はあまり関連性のある特徴要素であるとはいえないことがわかる。このことから、「用紙」のクラスタと「増設」のクラス夕はマージしない方がよいということがわかる。

また、「カセット」のクラス夕と「増設」のクラス夕をクラス夕マージ処理すると、この場合も、「用紙」のクラスタと「増設」のクラス夕におけるクラス夕マージ処理と同様に、「カセット」と「増設」が結びついて用いられた部分や、近接して用いられている部分は少ない。

したがって、これらのことから、特徴要素として抽出された「カセット」と「増設」は、連続的に用いられたり近接して用いられたりすることの多い特徴要素ではなく、両者はあまり関連性のある特徴要素であるとはいえないことがわかる。このことから、「カセット」のクラスタと「増設」のクラス夕はマージしない方がよいということがわかる。

なお、このようなそれそれのクラスタを特徴づける特徴要素が元の文書においてどのような状態で存在するかによってクラス夕マージする処理においても、前述したように、それそれのクラスタ間で 1回目のクラス夕マージ処理が終了した後、その 1回目のクラスタマージ処理後に新たなクラス夕間で 2回目のクラス夕マージ処理を行い、その 2回目のクラス夕マージ処理が終了した後、その 2回目のクラスタマージ処理後に新たなクラスタ間で 3回目のクラス夕マージ処理を行うというクラスタマ一ジ処理を順次行い、新たなクラスタが生成されなくなるまで（クラスタマージが起こらなるまで）その処理を繰り返す。

また、この場合も 2つのクラス夕間でのクラスタマージ処理だけでなく、クラス夕マ一ジ処理は 3つ以上のクラス夕の組み合わせについても可能である。この場合、 1回のクラスタマ一ジ処理によって 3つ以上のクラスタマージ処理を行い、さらに、これによつて幾つかのクラス夕に分類された結果についてクラスタマージが起こらなくなるまで、順次、クラスタマージ処理を行うことも可能である。ところで、以上のようにしてクラス夕マージ処理を行ったあと、クラス夕マージされた後の結果をユーザに表示する際、どのような状況でクラスタマ一ジを行つたのかを示す情報を付加情報としてユーザに提示することが好ましい。これは、クラスタマージ部 2で行った処理内容を出力制御部 3 1が受けてそれを表示部 3 2に表示させるようにすることで行える。

なお、本実施形態は、上記内容に限定されるものではなく、上記の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の実施の形態では、図 5に示すような分類結果を得るための特徴要素を各文書の表題部から得るようにして、表題部から得られた特徴要素に基づいたクラスタリングを行う例について説明したが、本実施形態においては、複数の文書を意味的に共通性のあるクラスタに分類し、その分類結果についてクラスタマージ処理を行うものであるので、複数の文書をクラス夕リングする手法は、特に限定されるものではない。複数の文書をクラスタリングする手法としては、前述の実施の形態で説明した文書の表題部から得られた特徴要素に基づいてクラス夕リングを行う例の他、たとえば、 U R Lアドレス（たとえば、 http:〃を取り除いた部分を使用する）、更新日時（単純な時間または最近 1力月以内の更新日時）、ファイルサイズ（webぺ —ジ本文のバイトサイズなど）を用いてクラス夕リングすることもできる。また、これらは、単独で用いてクラス夕リングするようにしてもよく、幾つかを組み合わせてもよい。これらのどれを用いるかは、最初にメニューなどで選択項目を選ぶことで可能となる。また、選んだ項目が無い場合には、他の項目を代用する。たとえば、夕ィトルを選んだ場合、 webページに夕ィトルが無い場合には、 U R Lアドレスを代用する。

そして、いずれかの方法によってクラス夕リングされたのち、そのクラスタリング結果に対し、前述の実施の形態で説明したような処理、すなわち、それそれのクラスタに含まれる文書の共通性を判断してそれそれのクラスタ同志を統合するか否かを決めるという処理を施すことによつてもクラス夕マージを行うことができる。

たとえば、 U R Lによってクラスタリングする場合について説明すれば、ある U R L (これを U R L 1とする）のクラス夕と、ある U R L (これを U R L 2とする）のクラス夕に分類されたとし、 U R L 1のクラスタには文書 D 1 , D 2 , D 3， D 4が存在し、 U R L 2のクラスタには文書 D 2 , D 3 , D 4 , D 5が存在したとする。この場合、これら 2つのクラスタには、共通する文書として文書 D 2 , D 3 , D 4が含まれることになり、この共通する文書数と合計の文書数との関係から、 U R L 1のクラスタと U R L 2のクラス夕を統合するか否かを決める。

また、クラスタマージするか否かの判断は、前述の実施の形態では、対象となるクラスタに含まれる合計の文書数で共通の文書数を割って得られる割合（％) で表し、その値が予め設定されたしきい値（％) と比較することによって行ったが、これに限られるものではなく、たとえば、共通する文書の個数を数え、その個数とそれそれのクラス夕に含まれる文書数との関係からマージするかしないかを決めるようにすることも可能である。

また、前述の実施の形態では、文書 D l， D 2 , · · · , D 7は、それそれが独立した文書であって、それそれ独立した文書を分類する場合について説明したが、ある 1つの文書を幾つかのコンテンツに分けて、それそれのコンテンツ（ここでいうコンテンツとは文書の中の意味的なまとまりを指す）を分類する場合にも適用できる。ここで抽出されるコンテンツは、各表題部ごとに切り分けられて得られる文書の中の意味的なまとまりであるとする。

たとえば、図 2で示した文書 D l， D 2， · · ·， D 7が集まって 1つの文書が構成されていると仮定すれば、文書 D 1， D 2 , · · ·， D 7をそれそれコンテンッとみなすことができる。これらをコンテンツとすれば、それそれのコンテンッは、表題部 T 1 , T 2， · · ·， T 7と本文 A 1 , A 2 , · ' ·， Α 7から構成されたものとなる。

このように、 1つの文書を複数のコンテンツに分けて考えた場合、それそれのコンテンツをクラスタリングし、そのクラスタリング結果をクラス夕マージする場合にも同様に適応できる。

さらに、本実施形態で説明したクラスタリング対象文書は、たとえば、汎用の検索サービスで検索された複数の文書をクラスタリング対象文書として考えることもできる。この場合、検索された多数の文書に対してクラスタリング処理を行い、そのクラスタリングされた結果についてクラスタマージ処理を行う。

また、以上説明した本実施形態の文書分類処理を行う処理プログラムは、フロツビィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその記録媒体をも含むものである。また、ネットワークから処理プログラムを得るようにしてもよい。

(第 2の実施形態）

クラスタマージ後のクラス夕をユーザに提示する際、単に、クラスタマ一ジ処理結果が提示されたとすると、ユーザ側からみたとき、どのようなクラスタマ一ジ処理がなされて統合されたのかといつたクラスタマージ処理内容、すなわち、そのクラス夕マージによって得られた新たなクラス夕は、もともとどのクラスタとどのクラス夕がどの程度の関連性があるから統合されたのかといつた内容がわかりにくになることがある。

そこで、本実施形態においては、内容に関連性のある複数のクラスタを統合するクラス夕マージ処理がなされたあと、そのクラスタマ一ジ処理されて得られたら新たなクラスタを表示する際、その新たなクラス夕は、どのクラス夕とどのクラスタがどの程度の関連性があるから統合されたのかといったクラス夕マージ処理内容がわかるように表示している。

以下、本発明の第 2の実施形態について詳細に説明する。

また、第 2の実施形態では、文書分類の手法として、前述したように、それそれの文書の表題部（タイトル）を検出して、その表題部から特徴要素を抽出して、抽出された特徴要素に基づいて文書を分類する手法を用いるものとする。

図 9は、第 2の実施形態を示すもので、大きく分けると、それそれの文書を意味的に共通性を有する複数のクラス夕に分類するクラスタリング部 9 1と、このクラスタリング部 9 1によって得られた複数のクラス夕間でそれそれのクラスタに含まれる文書に基づいてそれそれのクラスタの関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラス夕を統合するクラス夕マージ部 9 2と、このクラスタマージ部 2によってクラス夕マージ処理されて得られた新たなクラス夕の表示を行う際、その新たなクラスタに対し、クラス夕マージ処理内容がわかるように、どのようなクラス夕がどのような関連性を有して統合されたかを示す表示内容を生成するクラス夕マージ処理内容生成部 9 3と、その表示内容をュ一ザに提示すべき分類結果に含めて出力する分類結果出力部 9 4とを有した構成となっている。

クラスタリング部 9 1は、文書記憶部 9 1 1、文解析部 9 1 2、特徴要素抽出部 9 1 3、特徴テーブル作成部 9 1 4、文書分類部 9 1 5、分類結果記憶部 9 1 6を有している。

文書記憶部 9 1 1はこの場合、多数の文書データをデータベースとして持つものである。ここでは、たとえば、図 1 0に示すような文書群を分類する場合を説明する。図 1 0に示される文書群は、それそれが独立した文書 D 1 , D 2 , · · · , D 7を有し、これらの文書 D 1， D 2 , · · ·， D 7は表題部 T 1， T 2 , · · · , T 7と、それに対する本文 A l， A 2 , · · ·， A 7を持っているものとする。文解析部 9 1 2は文書記憶部 9 1 1に記憶されている文書を文解析し、それそれの文書の表題部を検出する。この文解析部 9 1 2が行う表題部の検出は、具体的には次のようにして行う。

特徴要素抽出部 9 1 3は、文解析部 9 2で検出されたそれそれの文書の表題部の中から特徴要素を抽出する。

特徴テーブル作成手段 9 1 4は、前記表題部から抽出された特徴要素とそれそれの文書との関係を示す特徴テーブルを作成する。なお、この特徴テーブルの具体的な内容については後述する。

文書分類部 9 1 5は、前述の特徴テーブルの内容を参照し、文書 D l，D 2， '， -， D 7を意味的に共通性のある複数のクラスタに分類する。つまり、文書 D 1， D 2， · . · ， D 7の表題部に存在する特徴要素に基づいて、共通する特徴要素を持つ処理対象文書を 1つのまとまりとし、そのまとまりを 1つのクラス夕とする。なお、この文書分類部 9 1 5は同義特徴辞書（図示せず）を有し、共通する特徴要素を持つ処理対象文書を 1つのまとまりとする処理を行う際、共通する特徴要素であるか否かの判断を、その同義語辞書を用い同義語が有るか否かにより行い、同義語が存在する場合にはそれを同じクラスタとする処理を行うことも可能である。

分類結果記憶部 9 1 6は、文書分類部 9 1 5によって分類された内容を記憶する。

クラス夕マージ部 9 2は、複数のクラス夕間でそれそれのクラス夕に含まれる文書に基づいてそれそれのクラスタの関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラス夕を統合する処理を行うものであるが、その具体的な処理については後述する。

クラス夕マージ処理内容生成部 9 3は、クラスタマージ部 9 2で判断されたクラスタ間の関連性の高さを示す値（後述する）を用い、その値を予め設定されたしきい値（後述する）と比較して関連性の高さを判断する関連性判断部 9 3 1と、この関連性判断部 9 3 1によるクラス夕間の関連性の高さに基づいて、どのようなクラスタがどのような関連性を有して統合されたかがわかるように、それそれのクラスタ名の表示の仕方を決めるクラスタ名表示内容決定部 9 3 2とを有し、その具体的な処理内容については後述する。

また、分類結果出力部 9 4は、出力制御部 9 4 1と表示部 9 4 2を有し、本発明による文書分類結果を出力する。

このような構成において、本発明の文書分類処理について説明する。本発明が行う概略的な文書分類処理は、図 1 1のフローチャートに示すように、処理対象となる多数の文書を意味的に共通性を有する複数のクラス夕に分類し（ステツブ 1 1 S 1 ) 、これにより分類された複数のクラスタ間で各々のクラス夕に含まれる文書に基づいて、それそれのクラスタ間の関連性を判断する（ステップ 1 I S 2 ) 。そして、一定以上の関連性を有する少なくとも 2つのクラスタを統合する (ステップ 1 1 S 3 ) 。その後、クラス夕マージされて得られた新たなクラスタは、どのようなクラスタがどのような関連性を有して統合されたかがわかるようなクラスタマージ内容を生成する。具体的には、クラスタマージされたクラス夕間の関連性の高さを判定し（ステップ 1 1 S 4 ) 、その関連性の高さに基づいて、統合される前の個々のクラス夕に関する情報がわかるような表示内容、すなわち、クラスタマ一ジによって得られた新たなクラス夕は、どのクラス夕とどのクラス夕がどの程度の関連性を有して統合されたのかがわかるような表示内容を生成する（ステップ 1 1 S 5 ) 。以下、具体例を参照して詳細に説明する。

ここでは、図 1 0で示した文書 D l , D 2 , · · · , D 7を分類する例について説明する。この実施の形態では、それそれそれの文書の表題部から特徴要素を抽出し、その抽出された特徴要素に基づいてクラスタリング処理を行い、かつ、そのクラスタリング処理された結果についてクラスタマージ処理を行う。まず始めに、表題部から特徴要素を抽出し、その抽出された特徴要素に基づいて行われるクラス夕リング処理（クラスタリング部 1が行う処理）について説明する。これらの文書 D 1， D 2 , · · ·， D 7は、文解析部 1 2にて表題部が検出される。たとえば、文書 D 1については表題部 T 1が検出され、文書 D 2については表題部 T 2が検出され、文書 D 3については表題部 T 3が検出されるというように、それそれの文書 D 1 , D 2 , · · · , D 7の表題部 T 1， T 2， · · ·， T 7が検出される。

そして、特徴要素抽出部 9 1 3によって、それそれの表題部に存在する特徴要素が抽出されたのち、特徴テーブル作成部 9 1 4により、それそれの特徴要素とその特徴要素を表題部に含む文書との関係を示す特徴テーブルが作成される。この特徴テーブルの例を図 1 2に示す。なお、ここでは、文書数が 3つ以上取り出される特徴要素とその特徴要素を含む文書との関係を示し、特徴テーブル内に示される数値は、その特徴要素が各文書の表題部に幾つ含まれるているかの数を示している。たとえば、「用紙」という特徴要素は、文書 D 1， D 4， D 6 , D 7 のそれそれの表題部に、それそれ 1個ずつ含まれていることを示している。図 1 2の特徴テ一ブルからもわかるように、表題部に「用紙」という特徴要素を含む文書は、文書 D 1， D 4， D 6 , D 7であり、また、表題部に「力セット」という特徴要素を含む文書は、文書 D l， D 4， D 7であり、さらに、表題部に「増設」という特徴要素を含む文書は、文書 D 2， D 3 , D 5 , D 7である。なお、図 1 0において、これら各特徴要素部分にはアンダーラインが施されている。そして、文書分類部 9 1 5はこのような特徴テーブルを参照して、それぞれの特徴要素ごとの文書クラスタ分けを行う。その分類結果を図 1 3に示す。なお、このようなクラス夕に分類する際、前述したように、共通する特徴要素であるか否かの判断を、同義語辞書を用い同義語が有るか否かによっても行い、同義語が存在する場合にはそれを同じ文書クラスタとする処理を行うことも可能である。たとえば、「用紙」と「印刷紙」の両方が特徴要素として抽出されたとすれば、これらの特徴要素を表題部に含む文書は同じクラスタとするなどという処理を行ラ o

このような分類結果は分類結果記憶部 9 1 6に格納される。図 1 3に示される分類結果において、たとえば、「用紙」で分類されたクラスタ（文書 D l , D 4 , D 6 , D 7が含まれる）について見れば、図 1 0の文書内容からもわかるように、文書 D 1は用紙カセットについての内容であり、文書 D 4は用紙設定についての内容であり、文書 D 6は印刷された後の用紙の汚れについての内容であり、文書 D 7は用紙カセッ卜の増設についての内容である。

このように、これらの文書 D l， D 4 , D 6 , D 7はどれも用紙に関する内容であり、 1つのクラスタとして分類されて何等問題のないものとなり、その分類結果は適切であるといえる。

また、「カセヅト」で分類されたクラスタ（文書 D 1 , D 4 , D 7が含まれる）について見れば、図 1 0の文書内容からもわかるように、文書 D 1は用紙カセットについての内容であり、文書 D 4は用紙設定についての内容であり、文書 D 7 は用紙カセッ卜の増設についての内容である。

このように、これらの文書 D l， D 4 , D 6， D 7にはどれも用紙をセットすることに関する内容が含まれており、 1つのクラス夕として分類されて何等問題のないものとなり、その分類結果は適切であるといえる。また、「増設」で分類されたクラスタ（文書 D 2， D 3， D 5 , D 7が含まれる）について見れば、図 1 0の文書内容からもわかるように、文書 D 2はメモリの増設についての内容であり、文書 D 3はィン夕フエ一スカードの増設についての内容であり、文書 D 5はハードディスクの増設についての内容であり、文書 D 7は用紙カセッ卜の増設についての内容である。

このように、これらの文書 D 2 , D 3 , D 5 , D 7はどれも何かを増設する場合についての内容であり、 1つのクラス夕として分類されて何等問題のないものとなり、その分類結果は適切であるといえる。

このような適切な分類が行える理由としては、それそれの文書の表題部から特徴要素を抽出し、その特徴要素に基づいて文書を分類しているからである。つまり、文書の表題部は、その文書の作成者がその文書の主旨を表す内容を表現していることが多い。したがって、文書の表題部に含まれる特徴要素を用いて分類を行うことにより、分類結果が散漫になることが少なく、また、ノイズクラス夕が生成される率も少なくすることができる。また、各文書の表題部は、その文書の作成者がその文書の主旨を表す内容を表現していることから、文書の制作者側の視点による分類が得られる。

そして、分類が行われた後、ユーザによって、たとえば、「用紙」についてのクラスタの選択指示が出されたとすると、そのクラスタに属する文書 D 1， D 4 , D 6， D 7が文書記憶部 1 1から読み出されて表示部 3 2に表示される。なお、このときの表示内容としては、前述したように、文書番号や文書名のみでもよく、さらには、その文書内容を表示させるようにしてもよい。

ところで、本発明実施形態においては以上のようにクラス夕リング処理した結果について、さらに、クラス夕マージ部 2によってクラスタマージ処理を行う。すなわち、図 1 3に示す分類結果において、特徴要素である「用紙」と「カセット」について見ると、「用紙」のクラスタには文書 D 1 , D 4 , D 6 , D 7が含まれ、「力セヅト」のクラスタには文書 D 1， D 4 , D 7に存在することがわかる。

このように、「用紙」のクラス夕と「カセット」のクラス夕には、共に文書 D 1， D 4 , D 7が共通して存在している。これは、「用紙」という特徴要素と「力セット」という特徴要素は相互に関連した状態で用いられることが多いことを意味している。たとえば、文書 D 1 , D 4 , D 7の表題部または本文のなかに「用紙カセット」という用語が用いられている。つまり、これらの文書 D l ， D 4 , D 7は共通性の高い文書であり、これら文書 D l ， D 4， D 7は同じクラス夕に分類した方がより好ましいと考えられる。

これを実現するために、特徴要素に基づいてクラスタリングしたあと、そのクラスタリング結果に対しクラスタマージ処理を施す。

このクラス夕マージ処理について以下に説明する。まず始めに、図 1 3の分類結果とは関係なく一般的な例について図 1 4を参照しながら説明する。

今、 2つのクラスタ C l ， C 2があるとする。クラス夕 C 1として 5個の文書 D 1 , D 2 , D 3 , D 4 , D 8が抽出され、クラスタ C 2には 6個の文書 D 3 ， D 4 , D 5 , D 6 , D 7 , D 8が抽出されたとする。

ここで、 2つのクラス夕 C I , C 2に共通している文書は、文書 D 3， D 4 , D 8である。この実施の形態では、クラスタマージ処理対象となる複数のクラス夕に含まれる複数の文書のうち、それそれのクラスタに共通して含まれる文書数を基に、それそれのクラスタ間の関連性を判断してクラス夕マージ処理を行う。具体的には、複数のクラスタとして、ある 2つのクラス夕に共通している文書数が 2つのクラス夕に存在する合計の文書数に対しどのくらいの割合かを計算し、その計算結果が予め定めたしきい値以上かどうかによつてマージするか否かを決める。

たとえば、この場合、 2つのクラスタ C l ， C 2に存在する文書数の合計は 1 1個であり、両者に共通する文書数は 3個である。これらから合計の文書数に占める共通する文書数の割合（％) を計算し、その結果からマージするか否かを決定する。この割合（％) を求める際、合計の文書数で共通する文書数を単純に割り算してそれに 1 0 0を掛けて求めてもよいが、共通する文書数に任意に設定される係数を掛け算したものを合計の文書数で割り算してそれに 1 0 0を掛けて求めるようにしてもよい。

一例として、クラス夕 C 1に存在する文書数をひ 1、クラス夕 C 2に存在する文書数をひ 2とし、両者に共通する文書数を/?とした場合、たとえば/?に係数としてたとえば 2を掛けて、 2 ?/ (ひ 1 +ひ 2) X 1 00を計算し、その値（％) が予め設定されたしきい値 TH (%) と比較して、上式による計算結果がしきい値 TH以上であればマージするというようなことを行う。図 14で示した例について考えれば、 2 ?は 2 x 3 = 6個、ひ 1 +ひ 2は 5 + 6 = 1 1個であるので、この場合、約 55%と求められる。ここで、しきい値 THが仮に 70%と設定されているとすれば、計算結果（55%) はしきい値 TH (70%) より小さいので、クラス夕 C 1とクラスタ C 2はマージしないとする。なお、係数は任意に設定されるもので、計算結果で得られる数値（％) がしきい値と比較し易いような値となるように適当に設定されるものであり、この場合は係数を 2としたが、係数を 1としても特に問題はない。

ここで、図 1 3で示した分類結果を例にして説明すれば、図 13の場合、「用紙」のクラスタには文書 D 1 , D 4 , D 6， D 7の 4つの文書が存在し、「カセヅト」のクラス夕には文書 D 1， D 4， D 7の 3つの文書が存在する。そして、 2つのクラス夕に共通する文書は文書 D 1， D 4 , D 7の 3つの文書であり、これを合計の文書数に対する割合（％) で考える。

これを前述した計算式によって計算する。図 1 3の分類結果の場合、合計の文書数（ひ 1 +ひ 2) は、 4 + 3 = 7となり、共通の文書数は 3で 2 は 6となる。したがって、この場合、約 86%という高い値が得られる。これは、設定されたしきい値（ここでは 70 %としている）よりも高いので、この「用紙」のクラス夕と「カセット」のクラスタはマージして 1つのクラス夕とするということになる。

同様に考えて、図 1 3の「用紙」のクラス夕と「増設」のクラス夕とをマージするか否か、「カセット」のクラス夕と「増設」のクラス夕とをマージするか否かについて判断する。

まず、「用紙」のクラスタと「増設」のクラスタについては、「用紙」のクラス夕には文書 D 1 , D 4 , D 6， D 7の 4つの文書が存在し、「増設」のクラス夕には文書 D 2, D 3 , D 5 , D 7の 4つの文書が存在する。そして、 2つのクラス夕に共通する文書は文書 D 7のみであり、これを上式を用いて計算すると、この場合、 25%という結果が得られ、これは、しきい値（70%) よりも低い値であるので、この場合は、両者はマージしないとする。

また、「カセット」のクラスタと「増設」のクラスタについては、「カセット」のクラス夕には文書 D 1， D 4 , D 7の 3つの文書が存在し、「増設」のクラス夕には文書 D 2 , D 3 , D 5 , D 7の 4つの文書が存在する。そして、 2つのクラス夕に共通する文書は文書 D 7のみであり、これを上式を用いて計算すると、この場合、約 2 8 %という結果が得られ、これは、しきい値（7 0 %) よりも低い値であるので、この場合は、両者はマージしないとする。

このようにして、それそれのクラス夕に対し 2つのクラスタごとにそれそれマ —ジするか否かを判断する。この図 1 3の分類結果についてマージするか否かの処理を行ったあとの分類結果（マージ処理後の分類結果という）が図 1 5である。図 1 5によれば、「用紙」と「力セヅト」が「用紙 +カセヅト」という 1つのクラスタに分類され、そのクラス夕に属する文書は文書 D 1， D 4， D 6 , D 7ということになる。また、「増設」についてはそのまま単独のクラス夕を構成する。図 1 5に示されるクラスタマ一ジ処理後の分類結果において、たとえば、「用紙 +カセット」で分類されたクラス夕（文書 D 1， D 4， D 6， D 7が含まれる）について見れば、図 1 0の文書内容からもわかるように、文書 D 1は用紙カセヅ卜についての内容であり、文書 D 4は用紙設定についての内容であり、文書 D 6 は印刷された後の用紙の汚れた場合にはどのようにするかについての内容であり、文書 D 7は用紙カセットの増設についての内容である。

このように、これらの文書 D l , D 4 , D 6 , D 7はどれも用紙やカセットに関する内容であり、 1つのクラスタとして分類されて何等問題のないものとなり、むしろ、「用紙 +カセット」を 1つのクラス夕とした方がよい分類結果であるといえる。

このように、始めにそれそれの文書の表題部から特徴要素を抽出し、その抽出された特徴要素に基づいてクラスタリング処理を行い、かつ、そのクラスタリング処理されて得られたそれそれのクラスタに対し、 2つづつのクラス夕の組み合わせについてクラス夕マージ処理を行うことによって、より適切なクラス夕リングが行える。

また、以上のようにして 2つのクラス夕ごとに 1回目のクラス夕マージ処理が終了し、図 1 5のようなクラスタマ一ジ処理後の分類結果が得られると、今度は、そのクラス夕マ一ジ処理後の分類結果について、 2回目のクラスタマージ処理を行う。つまり、図 1 5の 1回目のクラス夕マージ処理後の結果で考えた場合、「用紙 +カセット」のクラス夕と「増設」のクラスタについてクラスタマージ処理を行う。この場合、「用紙 +カセヅト」のクラスタと「増設」のクラスタについては、「用紙 +カセヅト」のクラス夕には文書 D 1， D 4， D 6， D 7の 4つの文書が存在し、「増設」のクラスタには文書 D 2 , D 3 , D 5 , D 7の 4つの文書が存在する。そして、 2つのクラス夕に共通する文書は文書 D 7のみであり、これを合計の文書数に対する割合（％) で考えると、共通する文書数 1に定数 2を掛けたものを合計の文書数 8で割り算し、それに 1 0 0を掛けると、 2 5 %という結果が得られ、これは、しきい値（7 0 %) よりも低い値であるので、この場合は、両者はマ一ジしないとする。

このようにして、 2つのクラスタ間で 1回目のクラス夕マ一ジ処理が終了した後、その 1回目のクラス夕マージ処理に新たな 2つのクラス夕間で 2回目のクラス夕マージ処理を行い、その 2回目のクラス夕マージ処理が終了した後、その 2 回目のクラスタマージ処理後に新たな 2つのクラスタ間で 3回目のクラスタマ一ジ処理を行うというクラスタマージ処理を順次行い、新たなクラス夕が生成されなくなるまで（クラスタマージが起こらなるまで）その処理を繰り返す。

また、これまでの説明では、 2つのクラス夕間でクラスタマージ処理を行う例について説明したが、クラスタマージ処理は 3つ以上のクラスタの組み合わせについても可能である。この場合、 1回のクラスタマージ処理によって 3つ以上のクラス夕間でクラスタマージ処理を行い、さらに、これによつて幾つかのクラス夕に分類された結果についてクラスタマージが起こらなくなるまで、順次、クラス夕マージ処理を行うことも可能である。なお、 3つ以上のクラス夕についてクラスタマ一ジするか否かを判断する場合、前述したように、それそれのクラスタに存在する合計の文書数に対する共通の文書数の割合（％) で考えることができる。

以上のようにして、図 9に示したクラス夕マージ部 9 2によるクラスタマージ処理が終了すると、次に、クラスタマージ処理内容生成部 9 3がそのクラスタマ —ジ結果に対し、クラスタマージされたクラスタ間の関連性の高さを判定し、その関連性の高さに基づいて、統合される前の個々のクラスタに関する情報がわかるような表示内容、すなわち、クラスタマージによって得られた新たなクラスタは、どのクラス夕とどのクラス夕がどの程度の関連性を有して統合されたのかがわかるような表示内容を生成する。以下、このクラス夕マージ処理内容生成部 9 3が行う処理について説明する。

この実施の形態では、クラス夕マージ部 9 2によって得られた関連性の高さとしての関連性の度合い（％) の値が、前述したしきい値 T Hよりずつと大きい値であるか、しきい値 T Hに近い値であるかによって、そのクラス夕マージされたクラス夕間の関連性の高さを関連性判断部 9 3 1によって判断する。具体的には、前述のしきい値 T Hに対し、それよりも高い値（％) のしきい値 T H 1を設定し、クラス夕マージ部 9 2によって得られた関連性の度合い（Kで表す）が、 K≥T Η 1であれば、クラスタ同志の関連性はきわめて大きく殆ど同じ内容であると判断する。一方、クラス夕マージ部 9 2によって得られた関連性の度合いが、 Τ Η 1 > Κ≥Τ Ηであれば、少し似ている程度と判断する。

今、 Κ≥Τ Η 1である場合、すなわち、クラス夕マージされて得られた新たなクラスタに含まれる幾つかのクラスタ同志の関連性がきわめて高い場合は、次のような処理を行う。

これを図 1 5の例で説明すれば、クラスタマージされた新たなクラスタの特徴要素は、「用紙 +カセット」である。この「用紙 +カセヅト」のクラスタは、図 1 3に示す用紙のクラス夕とカセットのクラス夕をクラス夕マージした結果である。

このそれそれのクラスタにクラス夕名を付けるとすれば、特徴要素が「用紙」であるクラス夕を「用紙クラスタ」、特徴要素が「力セヅト」であるクラス夕を「カセットクラスタ」といように表すことができ、それそれのクラスタ名を以下では、単に、「用紙」、「カセット」と表記する。

ここで、クラスタマージ結果である「用紙 +カセット」のクラス夕は、クラス夕マージ部 9 2による前述の計算によって、 8 6 %という値が得られている。ここで、関連性判断部 9 3 1において、関連性を判断する際に設定されたしきい値 T H 1が 8 0 %と設定されているとすれば、この場合、クラスタマージ部 9 2によって得られた関連性の度合い Kは、 K≥T H 1であるので、用紙クラスタと力セットクラスタの関連性はきわめて大きく殆ど同じ内容であると判断できる。このように、クラス夕マージ部 9 2によって得られた関連性を示す値が、 K ≥T H 1である場合には、クラスタマージされたそれそれのクラスタ同志の関連性はきわめて大きく、殆ど同じ内容のクラス夕であると判断でき、それそれのクラス夕の名称を、連続的に表示する。たとえば、上述の「用紙クラスタ」と「力セヅトクラスタ」の例では、それらのクラスタ名である「用紙」と「力セヅト」をくっつけて「用紙カセット」などと表記してそれを表示する。

これは、いわゆる A N D形式の表記の仕方であり、クラス夕名をくっつけて表記しても差し支えないような場合である。この例では、クラスタマージされて得られた新たなクラスタのクラスタ名を「用紙カセット」とすることになるが、この場合は、クラス夕マージされて得られた新たなクラスタは、その新たなクラス夕を構成する用紙クラスタとカセットクラス夕に含まれるそれそれの文書内容 (図 1 0参照）から見て、新たなクラス夕名を「用紙カセット」として何等差し支えないものである。

図 1 6はこのような処理を行ったあとの表示例を示すもので、この図 1 6では、クラスタマージされた新たなクラス夕のクラスタ名としての「用紙カセット」と、その新たなクラス夕に含まれる文書として、ここでは、図 1 0で示されたそれそれの文書（文書 D 1 , D 4 , D 6 . D 7 ) のそれそれの表題（タイトル）名が表示されている。

また、このように、それそれのクラス夕名を、連続的に表示する方法の他に、図 1 7に示すように、それそれのクラスタ対応のクラス夕名である「用紙」と「力セット」を、それそれのクラスタ名ごとに改行して縦に並べて表記するようにしてもよい。

このように、それそれのクラスタの名称を縦に並べると、言語的なつながりが気にならなくなり、違和感を与えない効果がある。この実施の形態で用いている「用紙」と「カセット」は、連続して「用紙カセット」としても何等問題ないが、場合によっては、違和感を持つ場合もある。たとえば、これまでの説明とは全く関係のない例として、クラス夕マージされた得られた新たなクラスタに含まれるそれそれのクラス夕名が、仮に、「製品」、「使用」、「概要」であったとする。このようなクラスタ名を上述のように、連続して横に一列に並べると「製品仕様概要」となる。これでも意味が全く不明というものではないが、言語的に少し違和感が生じる。このような場合、本来は、言語処理を行って、「製品仕様の概要」というようにすればよいが、そのような言語処理は複雑で時間を要する。

したがって、このような場合、図 1 7と同様に、「製品」、「使用」、「概要」を 1つづつ縦に並べると違和感を与えることがなくなる。また、縦に並べることで、実際に表示したときに、横並び一列での表示に比べ、クラスタマージされたクラスタ名の数が多くても、横方向にむやみに伸びることがないので見易くなるという効果もある。

このように、クラス夕マ一ジ部 9 2によって得られた関連性を示す値が、 K ≥T H 1であって、クラスタマ一ジされて得られた新たにクラス夕に含まれるクラス夕のクラスタ名を A N D形式の表記とし、クラス夕名を横一列に並べた表記の仕方で表示するか、あるいは、各クラス夕対応のクラスタ名称ごとに改行して縦に並べる表記の仕方で表示する。

これによつて、クラスタマージされて得られた新たなクラス夕は、どのようなクラス夕がどのような関連性を有して統合されたかということが、そのクラス夕マージされた新たなクラス夕名を見るだけでわかる。たとえば、図 1 6や図 1 7 の例では、元のクラスタは「用紙」というクラスタと「カセット」というクラス夕が統合されてできたクラスタであり、しかも、その関連性はきわめて高く同じような内容の文書を持ったクラス夕であるということがわかる。

次に、 T H 1 > K≥T Hである場合、すなわち、クラスタマージされて得られた新たなクラスタに含まれる幾つかのクラスタの関連性の度合いは、殆どがォ一バーラッブするほどでもないが同じ文書を幾つか含んでいるといった場合の処理について説明する。

このように、クラスタマージ部 9 2によって得られた関連性を示す値が、 T H 1 > K≥T Hである場合には、それそれのクラス夕の名称を、いわゆる O R形式の表記の仕方で行う。たとえば、前述の「製品」、「使用」、「概要」の例で説明すれば、この場合、「製品」、「使用」、「概要」を連続的な表示ではなく、たとえば、「製品 -使用 '概要」というように、それそれの名称間に区切りの記号を挿入して表示する。このような区切りの記号がある場合には O R的な内容であることを予めユーザに報知しておけば、それを見たユーザはそのクラス夕マージされて得られた新たなクラスタには、「製品」、「使用」、「概要」といった内容を持った文書が幾つか含まれているというように理解できる。なお、この O R形式の表記の仕方を行う場合、クラスタ名の間に挿入する記号は上述したような「製品 ·使用 '概要」の例に限られるものではなく、たとえば、クラスタ名の間に「/」を挿入して「製品/使用ノ概要」ようにしてもよい。

また、クラス夕マージされて得られた新たなクラスタに含まれる幾つかのクラスタの関連性に、 K≥T H 1 と、 T H 1 > K≥T Hが混在するような場合もある。このような場合には、それそれの関連性の度合いがわかるように、 A N D形式と O R形式に分けて表記する。

さらに、クラスタマ一ジされたそれそれのクラス夕同志が包含関係にあるような場合もある。たとえば、あるクラスタが「製品」に関するクラスタであり、あるクラス夕のクラスタ名が「テレビ」、あるクラス夕のクラス夕名が「ラジオ」、あるクラスタのクラス夕名が「ビデオ」であって、これらのクラスタがクラスタマージされたとする。このとき、「テレビ」のクラスタ、「ラジオ」のクラス夕、「ビデオ」のクラスタが「製品」のクラス夕に包含されるものであって、しかも、それそれのクラス夕同志の関連性の度合いが T H 1 > K≥ T Hの関係であつたとすれば、「製品 · （テレビ · ラジオ ' ビデオ）」というような表記の仕方で表示する。これは、「製品」、「テレビ」 · 「ラジオ」 · 「ビデオ」はそれそれが 0 R的な関係にあり、しかも、「テレビ」 · 「ラジオ」 · 「ビデオ」が括弧でくくられていることから、これら「テレビ」 · 「ラジオ」 · 「ビデオ」の各クラスタは「製品」に包含されるクラス夕であることを意味している。

このように、クラス夕マージ処理がなされて得られた新たなクラス夕のクラス夕名を見るだけで、どのようなクラス夕がどの程度の関連性を有して統合されたのかを容易に知ることができる。なお、本実施形態は上記内容に限定されるものではなく、本実施形態の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の実施の形態では、図 13に示すような分類結果を得るための特徴要素を各文書の表題部から得るようにして、表題部から得られた特徴要素に基づいたクラスタリングを行う例について説明したが、本発明においては、複数の文書をクラス夕リングする手法は、特に限定されるものではない。

複数の文書をクラスタリングする手法としては、前述の実施の形態で説明した文書の表題部から得られた特徴要素に基づいてクラスタリングを行う例の他に、たとえば、 URLアドレス（http:〃を取り除いた部分）、更新日時（単純な時間または最近 1力月以内の更新日時）、ファイルサイズ（webページ本文のバイトサイズなど）を用いてクラスタリングすることもできる。また、これらは、単独で用いてクラス夕リングするようにしてもよく、幾つかを組み合わせてもよい。これらのどれを用いるかは、最初にメニューなどで選択項目を選ぶことで可能となる。また、選んだ項目が無い場合には、他の項目を代用する。たとえば、夕ィトルを選んだ場合、 webページにタイトルが無い場合には、 URLアドレスを代用する。

そして、いずれかの方法によってクラス夕リングされたのち、そのクラスタリング結果に対し、前述の実施の形態で説明したような処理、すなわち、それそれのクラスタに含まれる文書の共通性を判断してそれそれのクラス夕同志を統合するか否かを決めるという処理を施すことによつてもクラス夕マージを行うことができる。

たとえば、 URLによってクラスタリングする場合について説明すれば、ある URL (これを URL 1とする）のクラス夕と、ある URL (これを URL 2とする）のクラス夕に分類されたとし、 UR L 1のクラス夕には文書 D 1 , D 2， D 3 , D 4が存在し、 URL 2のクラスタには文書 D 2， D 3 , D 4 , D 5が存在したとする。この場合、これら 2つのクラスタには、共通する文書として文書 D 2 , D 3 , D 4が含まれることになり、この共通する文書数と合計の文書数との関係から、 URL 1のクラスタと URL 2のクラスタを統合するか否かを決める。また、クラス夕マージするか否かの判断は、前述の実施の形態では、対象となるクラスタに含まれる合計の文書数で共通の文書数を割って得られる割合（％) で表し、その値が予め設定されたしきい値（％) と比較することによって行ったが、これに限られるものではなく、たとえば、共通する文書の個数を数え、その個数とそれぞれのクラス夕に含まれる文書数との関係からマージするかしないかを決めるようにすることも可能である。

このように、個数によってクラスタマージするか否かを判断する場合、前述したしきい値は個数を用いればよい、たとえば、合計の文書数が 1 0個あって、共通する文書が 7個以上であるときにマージするとした場合、前述のしきい値 T H は、たとえば 7個で、 T H 1をたとえば 9個とし、 9個以上共通した文書がある場合には A N D形式の表記の仕方での表示を行い、 7個または 8個の場合は O R 形式の表記の仕方での表示を行うというようにもできる。なお、この数値は一例であってこれに限られるものではないことは言うまでもない。これは、前述の実施の形態のなかで説明したしきい値 T Hや T H 1の値についても同様のことがいえる。

また、前述の実施の形態では、文書 D 1， D 2 , · · ·， D 7は、それそれが独立した文書であって、それそれ独立した文書を分類する場合について説明したが、ある 1つの文書を幾つかのコンテンツに分けて、それそれのコンテンツ（ここでいうコンテンツとは文書の中の意味的なまとまりを指す）を分類する場合にも適用できる。ここで抽出されるコンテンツは、各表題部ごとに切り分けられて得られる文書の中の意味的なまとまりであるとする。

たとえば、図 1 0で示した文書 D 1 , D 2 , · · ·， D 7が集まって 1つの文書が構成されていると仮定すれば、文書 D l， D 2 , · ■ ·， D 7をそれそれコンテンヅとみなすことができる。これらをコンテンツとすれば、それそれのコンテンッは、表題部 T 1， T 2 , · · ·， T 7と本文 A 1 , A 2 , · · ·， A 7から構成されたものとなる。

このように、 1つの文書を複数のコンテンツに分けて考えた場合、本発明はそれそれのコンテンツをクラスタリングし、そのクラスタリング結果をクラスタマ —ジする場合にも同様に適応できる。さらに、本実施形態で用いられるクラスタリング対象文書は、たとえば、汎用の検索サービスで検索された複数の文書をクラス夕リング対象文書として考えることもできる。この場合、検索された多数の文書に対してクラスタリング処理を行い、そのクラス夕リングされた結果についてクラス夕マージ処理を行う。そして、クラスタマージされて得られた新たなクラス夕に含まれるそれそれのクラス夕について前述の実施の形態で説明したように処理を行うことで、そのクラスタマージによって得られた新たなクラス夕は、もともとどのクラス夕とどのクラス夕がどの程度の関連性を有して統合されたのかといつた内容を容易に知ることができる。

また、以上説明した文書分類処理を行う処理プログラムは、フロッピイデイスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその記録媒体をも含むものである。また、ネットワークから処理ブログラムを得るようにしてもよい。

Claims

請求の範囲

1 . 複数の文書を意味的に共通性を有する複数のクラス夕に分類する文書分類方法において、

前記複数の文書を意味的に共通性を有する複数のクラスタに分類したのちに、その複数のクラス夕間でそれそれのクラスタに含まれる文書に基づいてそれぞれのクラス夕の関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラスタを統合するクラス夕マージ処理を行うことを特徴とする文書分類方法。

2 . 前記クラスタマージ処理は、クラスタマージ処理対象となる複数のクラス夕に含まれる複数の文書のうち、それそれのクラスタに共通して含まれる文書数を基にクラス夕間の関連性を判断してクラスタマージすることを特徴とする請求項 1記載の文書分類方法。

3 . 前記クラスタマージ処理は、クラス夕マージ処理対象となる複数のクラスタそれそれを特徴づける特徴要素が、そのクラスタマージ処理対象となるそれそれのクラス夕に含まれる元の文書内容にどのような状態で出現するかを調べ、その出現状態に基づいてクラス夕マ一ジすることを特徴とする請求項 1記載の文書分類方法。

4 . 前記クラス夕マージ処理は、少なくとも 2つのクラス夕間で行い、一回目のクラスタマージ処理が終了すると、そのクラスタマージ処理されたクラス夕群に対し、再度のクラスタマージ処理を行い、クラスタマージが起こらなくなるまでそれを繰り返すことを特徴とする請求項 1から 3のいずれか 1項に記載の文書分類方法。

5 . 前記クラス夕マージ処理を行った後は、クラスタマージを実行したことおよびクラス夕マージを行った根拠を付加情報として出力することを特徴とする請求項 1から 4のいずれか 1項に記載の文書分類方法。

6 . 複数の文書を意味的に共通性を有する複数のクラス夕に分類する文書分類方法において、

前記複数の文書を意味的に共通性を有する複数のクラスタに分類したのちに、その複数のクラス夕間でそれそれのクラスタに含まれる文書に基づいてそれそれのクラス夕の関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラスタを統合するクラスタマージ処理を行い、

このクラス夕マージ処理によって得られた新たなクラスタの表示を行う際、その新たなクラスタに対し、クラスタマージ処理内容がわかるように、どのようなクラス夕がどのような関連性を有して統合されたかを示す表示内容を生成し、その表示内容をユーザに提示すべき分類結果に含めて出力することを特徴とする文書分類方法。

7 . 前記クラス夕マージ処理内容がわかるような表示内容とは、前記統合されたそれそれのクラス夕間の関連性の高さに基づき、当該それそれのクラスタのクラスタ名の表示の仕方を変えた表示内容であって、それそれのクラス夕名の表示の仕方は、前記クラス夕間の関連性の高さが予め設定された値より大きい場合には、それそれのクラスタ名を A N D形式の表記の仕方で表示させ、前記クラス夕間の関連性の高さが予め設定された値未満である場合には、それそれのクラス夕名を〇R形式の表記の仕方で表示させることを特徴とする請求項 6に記載の文書分類方法。

8 . 前記 A N D形式の表記の仕方は、それそれのクラス夕対応のクラスタ名を横方向に並べて連続的に表記するか、それそれのクラスタ対応のクラスタ名ごとに改行して縦に並べて表記するかのいずれかで行い、前記 O R形式の表記の仕方は、それそれのクラスタ対応のクラス夕名の間に区切り記号を挿入して表記することを特徴とする請求項 7に記載の文書分類方法。

9 . あるクラスタの中に包含されるようなクラス夕が存在する場合には、包含されるクラスタ名を、包含するクラスタのクラス夕名に対し括弧書きの表記の仕方で表示することを特徴とする請求項 7または 8に記載の文書分類方法。

1 0 . 複数の文書を意味的に共通性を有する複数のクラス夕に分類する文書分類装置において、

前記複数の文書を意味的に共通性を有する複数のクラスタに分類するクラスタリング部と、

このクラスタリング部により得られた複数のクラスタ間でそれそれのクラス夕に含まれる文書に基づいてそれそれのクラス夕の関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラス夕を統合するクラス夕マージ部と、を有することを特徴とする文書分類装置。

1 1 . 複数の文書を意味的に共通性を有する複数のクラスタに分類する文書分類装置において、

前記複数の文書を意味的に共通性を有する複数のクラス夕に分類するクラス夕リング部と、

このクラスタリング部によって得られた複数のクラスタ間でそれそれのクラス夕に含まれる文書に基づいてそれそれのクラスタの関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラスタを統合するクラス夕マージ部と、このクラス夕マージ部によってクラス夕マージ処理されて得られた新たなクラス夕の表示を行う際、その新たなクラスタに対し、クラスタマージ処理内容がわかるように、どのようなクラスタがどのような関連性を有して統合されたかを示す表示内容を生成するクラスタマージ内容生成部と、

その表示内容をユーザに提示すべき分類結果に含めて出力する分類結果出力手段と、

を有したことを特徴とする文書分類装置。

1 2 . 複数の文書を意味的に共通性を有する複数のクラスタに分類する文書分類処理プログラムを記録した記録媒体であって、その文書分類処理プログラムは、

前記複数の文書を意味的に共通性を有する複数のクラスタに分類するクラスタリング処理手順と、

これにより分類された複数のクラスタ間でそれそれのクラス夕に含まれる文書に基づいてそれそれのクラスタの関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラスタを統合するクラス夕マージ処理手順と、

を含むことを特徴とする文書分類処理プログラムを記録した記録媒体。

1 3 . 複数の文書を意味的に共通性を有する複数のクラス夕に分類して出力する文書分類処理プログラムを記録した記録媒体であって、その処理プログラムは、

複数の文書を意味的に共通性を有する複数のクラス夕に分類する手順と、その複数のクラス夕間でそれそれのクラスタに含まれる文書に基づいてそれそれのクラス夕の関連性を判断し、一定以上の関連性を有する少なくとも 2つのクラスタを統合するクラスタマージ処理を行う手順と、

クラスタマージ処理されて得られた新たなクラスタの表示を行う際、その新たなクラス夕に対し、クラス夕マージ処理内容がわかるように、どのようなクラス夕がどのような関連性を有して統合されたかを示す表示内容を生成する手順と、その表示内容をユーザに提示すべき分類結果に含めて出力する手順と、を含むことを特徴とする文書分類処理プログラムを記録した記録媒体。