JP2010176626A

JP2010176626A - 文書クラスタリングプログラム及び文書クラスタリング方法

Info

Publication number: JP2010176626A
Application number: JP2009021618A
Authority: JP
Inventors: Isao Nanba; 功難波
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-02-02
Filing date: 2009-02-02
Publication date: 2010-08-12

Abstract

【課題】適切なクラスタリング結果を得ることを課題とする。
【解決手段】文書クラスタリングプログラムは、まず、文書の集合体から出現頻度が相対的に高いキーワードとして抽出されたキーワードを用いて集合体をクラスタリングし、各クラスタの評価値を算出する。評価値算出後、クラスタリングに用いるキーワードの選択を変更する。続いて、変更後のキーワードを用いて集合体をクラスタリングし、各クラスタの評価値を算出する。次に、変更後の評価値と変更前の評価値とを比較し、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いるキーワードの選択を変更する。
【選択図】図１

Description

本発明は、文書クラスタリングプログラム及び文書クラスタリング方法に関する。

コールセンタでは、問い合わせに対して効率的に応対することを目的として、応対記録に基づいてＦＡＱ（Frequently Asked Question）を作成することが行われている。もっとも、大量の応対記録の中から類似事例を人手で選別することは困難であるので、コンピュータによる自動選別が望ましい。

このため、従来、自動選別の手法として、文書の集合体を群（クラスタ）に分類する文書クラスタリングが用いられている。文書クラスタリングでは、コンピュータが、出現頻度が相対的に高い単語を用いて文書間の類似判断をし、応対記録をクラスタに分類する。

特開２００８−１７１３３６号公報国際公開第００／０７５８０９号パンフレット特開平１１−０２５１０８号公報特開２００３−２６３４４３号公報

しかしながら、上記した従来の技術では、適切なクラスタリング結果を得られないという課題があった。すなわち、従来の技術では、文書の集合体全体における出現頻度が相対的に高い単語が、文書の類似判断に用いられる。そうであるとすると、例えば応対記録全体に占める割合が数％以下の低頻度の応対記録に含まれる単語は、応対記録自体が低頻度であるので適切に選択されないことになり、このような応対記録は適切に分類されないおそれがある。

開示の技術は、上記に鑑みてなされたものであって、適切なクラスタリング結果を得ることが可能な文書クラスタリングプログラム及び文書クラスタリング方法を提供することを目的とする。

本願の開示する文書クラスタリングプログラムは、一つの態様において、文書の集合体から出現頻度が相対的に高い単語として抽出された単語を用いて該集合体をクラスタリングする第一クラスタリング手順をコンピュータに実行させる。また、前記第一クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第一評価手順をコンピュータに実行させる。また、前記第一評価手順による評価値算出後、クラスタリングに用いる前記単語の選択を変更する第一変更手順をコンピュータに実行させる。また、前記第一変更手順による変更後の単語を用いて前記集合体をクラスタリングする第二クラスタリング手順をコンピュータに実行させる。また、前記第二クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第二評価手順をコンピュータに実行させる。また、前記第一評価手順によって算出された評価値と前記第二評価手順によって算出された評価値とを比較する比較手順をコンピュータに実行させる。また、前記比較手順による比較の結果、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いる前記単語の選択を変更する第二変更手順をコンピュータに実行させる。

この態様によれば、クラスタリングに用いる単語の選択を変更しながら評価値が向上する限りクラスタリングを繰り返し行うので、適切なクラスタリング結果を得ることが可能になる。

本願の開示する文書クラスタリングプログラム及び文書クラスタリング方法の一つの態様によれば、適切なクラスタリング結果を得ることが可能になるという効果を奏する。

図１は、実施例１に係る文書クラスタリング装置の概要を説明するための図である。図２は、実施例１に係る文書クラスタリング装置の構成を示すブロック図である。図３は、応対記録及びＦＡＱの概要を説明するための図である。図４は、キーワード抽出の概要を説明するための図である。図５は、文書Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆをクラスタリングする例を示す図である。図６は、実施例１に係る文書クラスタリング装置による処理手順を示すフローチャートである。図７は、文書の集合体を説明するための図である。図８は、初期キーワードセットの抽出処理手順を示すフローチャートである。図９は、単語の抽出を説明するための図である。図１０は、初期キーワードセットの抽出を説明するための図である。図１１は、閾値レンジを説明するための図である。図１２は、クラスタリング処理手順を示すフローチャートである。図１３は、中間出力を説明するための図である。図１４は、中間出力を説明するための図である。図１５は、中間出力を説明するための図である。図１６は、中間出力を説明するための図である。図１７は、中間出力を説明するための図である。図１８は、中間出力を説明するための図である。図１９は、中間出力を説明するための図である。図２０は、中間出力結果を示す図である。図２１は、クラスタリング結果の評価処理手順を示すフローチャートである。図２２は、クラスタを構成した文書群中での最小類似度０．８３２の中間出力に対する評価値計算例を示す図である。図２３は、評価値の計算式を説明するための図である。図２４は、クラスタを構成した文書群中での最小類似度０．８３２の中間出力に対する評価値を示す図である。図２５は、全中間出力に対する評価値及び最大評価値の選択を説明するための図である。図２６は、キーワードの調整処理手順を示すフローチャートである。図２７は、キーワードの調整処理手順を示すフローチャートである。図２８は、クラスタを構成した文書群中での最小類似度０．８３２の中間出力例を示す図である。図２９は、共通キーワードの選択を説明するための図である。図３０は、ウィンドウのずらしを説明するための図である。図３１は、キーワードの調整結果を示す図である。図３２は、調整後のキーワードを用いたクラスタリングを説明するための図である。図３３は、調整後のクラスタリング結果に対する評価値計算例を示す図である。図３４は、最終結果を示す図である。図３５は、文書クラスタリングプログラムを実行するコンピュータを示す図である。

以下に、本願の開示する文書クラスタリングプログラム及び文書クラスタリング方法の実施例を図面に基づいて詳細に説明する。また、以下の実施例により本発明が限定されるものではない。

［実施例１に係る文書クラスタリング装置の概要］
図１を用いて、実施例１に係る文書クラスタリング装置の概要を説明する。図１は、実施例１に係る文書クラスタリング装置の概要を説明するための図である。

まず、実施例１に係る文書クラスタリング装置は、文書の集合体から出現頻度が相対的に高いキーワードを抽出する。例えば、文書クラスタリング装置は、図１に示すように、文書Ａ、Ｂ、Ｃ、Ｄなどを含む文書の集合体から、文書の集合体全体における出現頻度が相対的に高いキーワードとして、「プリンタ」、「トナー」、「補充」、「ランプ」、「点滅」などを抽出する。

次に、文書クラスタリング装置は、抽出したキーワードを用いて集合体をクラスタリングする。例えば、文書クラスタリング装置は、図１に示すように、文書Ａについては、出現頻度が高いキーワードから順に、「プリンタ」、「トナー」及び「補充」の３つのキーワードを用いてクラスタリングする。

続いて、文書クラスタリング装置は、クラスタリングした各クラスタの評価値を算出し、評価値算出後、クラスタリングに用いるキーワードの選択を変更する。例えば、文書クラスタリング装置は、図１に示すように、文書Ａについては、「トナー」、「補充」及び「ランプ」の３つのキーワードを用いるように、キーワードの選択を変更する。

そして、文書クラスタリング装置は、変更後のキーワードを用いて、再び文書の集合体をクラスタリングする。例えば、文書クラスタリング装置は、図１に示すように、再びクラスタリングする。

次に、文書クラスタリング装置は、クラスタリングした各クラスタの評価値を算出し、キーワード変更前の評価値とキーワード変更後の評価値とを比較する。そして、変更後の評価値が変更前の評価値を上回る場合には、文書クラスタリング装置は、クラスタリングに用いるキーワードの選択を再び変更し、再びクラスタリングする。

このように、実施例１に係る文書クラスタリング装置は、クラスタリングに用いるキーワードの選択を変更しながら評価値が向上する限りクラスタリングを繰り返し行うので、適切なクラスタリング結果を得ることが可能になる。

［実施例１に係る文書クラスタリング装置の構成］
次に、図２を用いて、実施例１に係る文書クラスタリング装置の構成を説明する。図２は、実施例１に係る文書クラスタリング装置の構成を示すブロック図である。

文書クラスタリング装置１０は、図２に示すように、入力文書記憶部２１とクラスタリング結果記憶部２２と制御部３０とを有する。また、制御部３０は、図２に示すように、キーワード抽出部３１とクラスタリング部３２とクラスタ状態評価部３３とキーワード条件調整部３４とを有する。

入力文書記憶部２１は、クラスタリングの対象文書として文書クラスタリング装置１０に入力された文書を記憶する。例えば、文書クラスタリング装置１０の利用者が、キーワード抽出部３１による処理が開始される前にクラスタリングの対象文書をクラスタリング装置１０に入力すると、クラスタリング装置１０は、入力された文書を入力文書記憶部２１に格納する。また、入力文書記憶部２１が記憶する文書は、制御部３０による処理に利用される。例えば、入力文書記憶部２１は、図３に示すように、通常業務で蓄積された応対記録を記憶する。なお、図３は、応対記録及びＦＡＱの概要を説明するための図である。

クラスタリング結果記憶部２２は、制御部３０によってクラスタリングされた最終結果を記憶する。なお、ＦＡＱの作成は、クラスタリング結果記憶部２２が記憶するクラスタリング結果に基づいて行われ、例えば、図３に示すようなＦＡＱが作成される。

キーワード抽出部３１は、クラスタリングに用いるキーワードを文書から抽出する。具体的には、キーワード抽出部３１は、入力文書記憶部２１によって記憶されている文書の集合体から出現頻度が相対的に高いキーワードを抽出し、抽出したキーワードをクラスタリング部３２に通知する。

例えば、実施例１におけるキーワード抽出部３１は、図４に示すように、文書の集合体から単語を抽出し、抽出した単語を出現頻度が高い順に並べ、一定ウィンドウサイズの範囲の単語（一定個数の単語）をキーワード（初期キーワードセット）として抽出する。なお、図４は、キーワード抽出の概要を説明するための図である。

ここで、キーワード抽出部３１によるキーワード抽出手法について説明する。キーワード抽出手法としては、文書を特徴づける単語を抽出する手法として、例えば、ｔｆ＊ｉｄｆ（Salton）の手法やχ二乗統計量（長尾）の手法などがある。また、この方法を一般化し、対象文書セットの中で多くの文書に出現する単語は特定の文書を特徴づける単語でないためキーワードではないとする戦略がある。具体的には、高頻度ではない単語をキーワードとして抽出する手法や、助詞や助動詞などはキーワードとせず名詞や動詞などに品詞を限定する方法などがある。

この点、実施例１におけるキーワード抽出部３１は、ｔｆ＊ｉｄｆの手法を採用し、以下に示す（１）式及び（２）式を用いてキーワードを抽出する。

すなわち、キーワード抽出部３１は、まず、文書の集合体に含まれる全ての単語に対して（１）式を用いてｉｄｆを計算する。次に、キーワード抽出部３１は、文書ごとに、単語ごとに（２）式を用いてｔｆを計算し、単語ごとにｔｆ＊ｉｄｆを計算する。そして、キーワード抽出部３１は、文書ごとに、ｔｆ＊ｉｄｆの値が大きい順に単語を並べ、一定個数の単語をキーワードとして抽出する。

ところで、キーワード抽出部３１は、ｔｆ＊ｉｄｆの値が大きい順に単語を並べ、一定個数の単語をキーワードとして抽出するので、例えば、全ての単語のｔｆが同じ値となる場合には、結局ｉｄｆの値が大きい単語からキーワードとして抽出されることになる。しかしながら、ｉｄｆの値が大きい単語とは、文書の集合体全体における出現頻度が低い単語である。このため、このような場合には、文書の集合体全体における出現頻度が低い順にキーワードが抽出されることになってしまう。この点、全ての単語のｔｆが同じ値となる文書は、応対記録にはよくみられる。例えば、「／プリンタ／の／黄色／トナー／が／ほとんど／補充／できません／。／」のような文書では、文書の集合体全体における出現頻度が低い順に、「黄色」「ほとんど」といった単語がキーワードとして抽出されかねないが、そのような抽出は好ましくない。実施例１に係る文書クラスタリング装置１０によれば、後述するように、キーワード条件調整部３４がキーワードの選択を変更し、クラスタリング部３２が繰り返しクラスタリングを行うので、このような好ましくない抽出にも対応することが可能である。

クラスタリング部３２は、キーワードを用いてクラスタリングする。具体的には、クラスタリング部３２は、キーワード抽出部３１によって抽出されたキーワード（初期キーワードセット）、若しくは、キーワード条件調整部３４によって変更された後のキーワードを用いて、入力文書記憶部２１によって記憶されている文書の集合体をクラスタリングする。また、クラスタリング部３２は、クラスタリング結果をクラスタ状態評価部３３に通知する。

例えば、実施例１におけるクラスタリング部３２は、図５に示すように、階層型クラスタリングのアルゴリズムを用いてクラスタリングする。階層型クラスタリングでは、文書の集合体から最も類似する文書の対を選別し、次に、選別した対に最も類似する文書の併合を繰り返す。なお、階層型クラスタリングのアルゴリズムは、少数要素のクラスタ生成に適している。

図５は、文書Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆをクラスタリングする例を示す図である。まず、類似度が最大となる文書の対として文書Ａ及びＢが探索され、次に、文書Ａ及びＢの対に対する類似度が再定義され、続いて、文書Ａ及びＢの対との類似度が最大となる文書Ｃが探索され、文書Ａ及びＢの対に文書Ｃが併合される。同様にして、文書Ａ、Ｂ及びＣに文書Ｄが併合され、文書Ａ、Ｂ、Ｃ及びＤに文書Ｅが併合され、文書Ａ、Ｂ、Ｃ、Ｄ及びＥに文書Ｆが併合される。なお、処理が進むにつれ、文書間（クラスタ間）のクラスタを構成した文書群中での最小類似度は低下してくるが、処理を停止すべき類似度の閾値は、文書の集合体によって異なる。このため、従来の技術では、クラスタリングの停止条件をどのように定めるか（閾値をどのように設定するか）に試行錯誤することが多くあった。この点、実施例１に係る文書クラスタリング装置１０によれば、後述するように、クラスタ状態評価部３３がクラスタリング結果に対する評価値を算出し、停止条件を判断することで、対応することが可能である。

また、実施例１におけるクラスタリング部３２は、以下の（３）式に示すように、文書を単語のベクトルとみなし、そのベクトルの間の角度（Cosine）などを用いて文書間（クラスタ間）の類似度を計算する。

例えば、
Ｘａ＝（プリンタ（頻度１）、トナー（頻度１）、補充（頻度０）・・・）
Ｘｂ＝（プリンタ（頻度１）、トナー（頻度１）、補充（頻度１）・・・）
として計算する。このようなことから、クラスタリング部３２によるクラスタリング結果は、キーワード抽出部３１によって抽出されたキーワード、若しくは、キーワード条件調整部３４によって変更された後のキーワードによって影響を受けることがわかる。例えば、「／プリンタ／の／黄色／トナー／が／ほとんど／補充／できません／。／」のような文書から、キーワードとして「プリンタ」及び「トナー」を選択した場合と、「プリンタ」、「トナー」及び「補充」を選択した場合とでは、クラスタリング結果が異なってくる。

クラスタ状態評価部３３は、各クラスタの評価値を算出する。具体的には、クラスタ状態評価部３３は、クラスタリング部３２によってクラスタリングされたクラスタリング結果について、各クラスタの評価値を算出する。また、クラスタ状態評価部３３は、クラスタリング部３２において変更後のキーワードを用いたクラスタリングが行われた場合には、該クラスタリング結果について評価値を算出するとともに、キーワード変更後の評価値と変更前の評価値とを比較する。

比較の結果、変更後の評価値が変更前の評価値より低下する場合には、クラスタ状態評価部３３は、クラスタリング部３２によるクラスタリングを終了する。例えば、クラスタ状態評価部３３は、変更前の評価値に対応するクラスタリング結果を最終結果としてクラスタリング結果記憶部２２に格納する。一方、変更後の評価値が変更前の評価値より向上する場合には、クラスタ状態評価部３３は、キーワード条件調整部３４に通知し、キーワードの選択変更を指示する。言い換えると、クラスタ状態評価部３３は、評価値が高くなるように停止条件を求めていることになる。

キーワード条件調整部３４は、クラスタリングに用いるキーワードの選択を変更する。具体的には、キーワード条件調整部３４は、クラスタ状態評価部３３から指示されると、キーワードの選択を変更する。また、キーワード条件調整部３４は、変更後のキーワードをクラスタリング部３２に通知する。

例えば、実施例１におけるキーワード条件調整部３４は、キーワード抽出部３１によって出現頻度が高い順に並べられた単語に対して、一定ウィンドウサイズを左右にずらすことで、キーワードとして抽出する単語を変更する。

［実施例１に係る文書クラスタリング装置による処理手順］
続いて、図６〜図３４を用いて、実施例１に係る文書クラスタリング装置による処理手順を説明する。図６は、実施例１に係る文書クラスタリング装置による処理手順を示すフローチャートである。

図６に示すように、文書クラスタリング装置１０において、キーワード抽出部３１は、例えば利用者によるクラスタリング指示の入力を受け付けるなどしたタイミングで、入力文書記憶部２１から文書の集合体を入力する（ステップＳ１０１）。例えば、キーワード抽出部３１は、図７に示すような文書の集合体を入力する。なお、図７は、文書の集合体を説明するための図である。

図６に戻り、次に、キーワード抽出部３１は、文書から初期キーワードセットを抽出する（ステップＳ１０２）。

ここで、図８〜図１０を用いて、初期キーワードセットの抽出処理について説明する。なお、図８は、初期キーワードセットの抽出処理手順を示すフローチャートであり、図９は、単語の抽出を説明するための図であり、図１０は、初期キーワードセットの抽出を説明するための図である。

図８に示すように、キーワード抽出部３１は、まず、文書の集合体に含まれる文書全てを単語に分割し（ステップＳ１０２−１）、単語の出現頻度を計上する（ステップＳ１０２−２）。例えば、キーワード抽出部３１は、図９に示すように、種別と頻度と単語と品詞とを対応付けた辞書テーブルを作成する。例えば、「プリンタ」という単語は、文書ＩＤ「Doc0001」の文書及び文書ＩＤ「Doc0010」の文書に１回ずつ含まれるので、キーワード抽出部３１は、文書の集合体における出現頻度を「２」と計上する。そして、キーワード抽出部３１は、「２」と「プリンタ」と「名詞−一般」とを対応付けて格納する。

図８に戻り、次に、キーワード抽出部３１は、出現頻度や品詞で、キーワード候補となる単語を選択する（ステップＳ１０２−３）。本実施例では、対象となる文書数が少ないため、頻度で単語を選択していないが、対象文書数が多ければ頻度も用い単語を選択してよい。例えば、キーワード抽出部３１は、品詞が、名詞、動詞、未知語、形容詞である単語をキーワード候補として選択し、それ以外の単語はキーワード候補として選択しないこととし、図９に示す辞書テーブルの種別に「不要語」若しくは「キーワード候補」の別を格納する。

続いて、キーワード抽出部３１は、各文書に含まれる単語を出現頻度順に並べ（ステップＳ１０２−４）、ウィンドウサイズを設定する（ステップＳ１０２−５）。例えば、キーワード抽出部３１は、図１０に示すように、各文書に含まれる単語を出現頻度順に並べる。この時、キーワード抽出部３１は、平均単語数や任意の数でウィンドウサイズを設定すればよく、例えば、ウィンドウサイズ５を設定する。

そして、キーワード抽出部３１は、出現頻度が最も高い単語からウィンドウサイズ分までの単語を、各文書の初期キーワードセットとする（ステップＳ１０２−６）。例えば、キーワード抽出部３１は、図１０に示すように、文書ＩＤ「Doc0009」の文書について、「パスワード」及び「忘れる」を初期キーワードセットとする。

図６に戻り、次に、文書クラスタリング装置１０において、クラスタリング部３２は、クラスタリングにあたり、まず、閾値レンジを設定する（ステップＳ１０３）。例えば、クラスタリング部３２は、閾値レンジの最大値として「０．９５」、最小値として「０．３」、出力ステップとして「０．０５」を設定する。ここで、閾値レンジについて説明すると、文書間（クラスタ間）の類似度は、類似度「１」のとき、文書に含まれる単語が完全に一致することを意味し、類似度「０」のとき、共通の単語を全く含まないことを意味する。実施例１におけるクラスタリング部３２は、文書間（クラスタ間）の類似度が「０．９５」から「０．３」までの間、出力ステップ「０．０５」ごとにクラスタリング結果を出力する。図１１は、閾値レンジを説明するための図である。図１１に示すように、類似度が小さな値になるにつれ、大きなクラスタにまとまっていくことがわかる。

続いて、クラスタリング部３２は、前回クラスタリングの最大評価値として初期値「０」を設定する（ステップＳ１０４）。

そして、クラスタリング部３２は、クラスタリングを実行する（ステップＳ１０５）。

ここで、図１２〜図２０を用いて、クラスタリング処理について説明する。なお、図１２は、クラスタリング処理手順を示すフローチャートであり、図１３〜図１９は、中間出力を説明するための図であり、図２０は、中間出力結果を示す図である。

図１２に示すように、クラスタリング部３２は、まず、出力類似度に初期値「０」を設定し（ステップＳ１０５−１）、次に、階層型クラスタリングの通常アルゴリズムに従って、最も類似度が高いクラスタを併合する（ステップＳ１０５−２）。

そして、クラスタリング部３２は、現在のクラスタを構成した文書群中での最小類似度が、閾値レンジの最大値以下であるか否かを判定し（ステップＳ１０５−３）、最大値を上回る場合には（ステップＳ１０５−３否定）、予め設定された閾値レンジの範囲外であるので、再び、ステップＳ１０５−２の併合処理に戻る。

一方、現在のクラスタを構成した文書群中での最小類似度が、閾値レンジの最大値以下である場合には（ステップＳ１０５−３肯定）、予め設定された閾値レンジの範囲内であるので、クラスタリング部３２は、続いて、閾値レンジの最小値以下であるか否かを判定する（ステップＳ１０５−４）。閾値レンジの最小値以下である場合には（ステップＳ１０５−４肯定）、予め設定された閾値レンジの範囲外であるので、クラスタリング部３２は、クラスタリング処理を終了する。

一方、閾値レンジの最小値を上回る場合には（ステップＳ１０５−４否定）、クラスタリング部３２は、出力類似度と現在のクラスタを構成した文書群中での最小類似度との差が、出力ステップ以下であるかを判定する（ステップＳ１０５−５）。出力類似度と現在のクラスタを構成した文書群中での最小類似度との差が、出力ステップ以下である場合には（ステップＳ１０５−５否定）、クラスタリング部３２は、ステップＳ１０５−２の併合処理に戻る。

一方、出力類似度と現在のクラスタを構成した文書群中での最小類似度との差が、出力ステップを上回る場合には（ステップＳ１０５−５肯定）、クラスタリング部３２は、中間出力をし（ステップＳ１０５−６）、現在のクラスタを構成した文書群中での最小類似度を出力類似度に設定して（ステップＳ１０５−７）、ステップＳ１０５−２の併合処理に戻る。

例えば、出力類似度に「０」が設定されている状態で、クラスタリング部３２が、ステップＳ１０５−２の併合処理をした結果、現在のクラスタを構成した文書群中での最小類似度が「０．９１８」になったとする。現在のクラスタを構成した文書群中での最小類似度「０．９１８」は、閾値レンジの最大値「０．９５」を下回り、閾値レンジの最小値「０．３」を上回る。また、出力類似度と現在のクラスタを構成した文書群中での最小類似度との差は、「０．９１８」であり、出力ステップを上回る。このため、クラスタリング部３２は、図１３に示すように、クラスタを構成した文書群中での最小類似度が「０．９１８」となるクラスタリング結果を中間出力する。なお、図１３において、クラスタＩＤが同一の文書は同一クラスタに属することを意味する。

同様に、クラスタリング部３２は、図１４〜図１９に示すように、クラスタを構成した文書群中での最小類似度が「０．８９０」、「０．８３２」、「０．６３９」、「０．５３９」、「０．３６１」、「０．３３９」となるクラスタリング結果を、中間出力として出力する（図２０を参照）。

図６に戻り、次に、文書クラスタリング装置１０において、クラスタ状態評価部３３は、ステップＳ１０５において中間出力された全てのクラスタリング結果に対して評価値を算出し、最大の評価値を取得する（ステップＳ１０６）。

ここで、図２１〜図２５を用いて、クラスタリング結果の評価処理について説明する。なお、図２１は、クラスタリング結果の評価処理手順を示すフローチャートであり、図２２は、クラスタを構成した文書群中での最小類似度０．８３２の中間出力に対する評価値計算例を示す図であり、図２３は、評価値の計算式を説明するための図であり、図２４は、クラスタを構成した文書群中での最小類似度０．８３２の中間出力に対する評価値を示す図であり、図２５は、全中間出力に対する評価値及び最大評価値の選択を説明するための図である。

クラスタ状態評価部３３は、図２１に示す処理手順を、中間出力された全てのクラスタリング結果ごとに行う。図２１に示すように、クラスタ状態評価部３３は、まず、各クラスタをクラスタの要素数が多い順にソートする（ステップＳ１０６−１）。

例えば、クラスタを構成した文書群中での最小類似度「０．８３２」の中間出力に対する評価値計算例を説明すると、クラスタ状態評価部３３は、例えば、図１５に示すように、各クラスタを要素数が多い順にソートする。

次に、クラスタ状態評価部３３は、クラスタを、要素数が等しいｎ個のブロックに分割する（ステップＳ１０６−２）。例えば、実施例１におけるクラスタ状態評価部３３は、図２２に示すように、要素数ができるだけ等しくなるように１０個のブロックに分割する。図２２では、クラスタ数が１０に満たないため、頻度順にクラスタを並べた場合に上位２位と３位となるクラスタを２回カウントすることにより１０ブロックに合わせるようにしている（クラスタＩＤ８とクラスタＩＤ９となるクラスタを重複してカウントするようにして１０ブロックに合わせている。またこれに伴い、総文書数は１７相当となっている）。文書数が十分にあり、クラスタが規定数（例えば、１０以上）となる場合には、このような例外的な操作は必要ない。

続いて、クラスタ状態評価部３３は、各ブロックでの文書ごとのキーワードの出現頻度の平均値を算出する（ステップＳ１０６−３）。例えば、図２２の例の先頭のクラスタＩＤ７の文書で説明すると、「パスワード」、「忘れる」、「ログイン」、「パスワード」、「忘れる」の出現頻度が、図９よりそれぞれ、２、２、３、２、２となるので、キーワード出現頻度の平均値は、２．２＝（２＋２＋３＋２＋２）／５となる。全てのブロックに対して同様に計算すると、図２２の頻度のフィールドの値が得られる。

また、クラスタ状態評価部３３は、各ブロックでの単語の平均個数相当の値を算出する（ステップＳ１０６−４）。図２２に示す実施例では、単語数の代わりに各文書の文字数を平均キーワード長に相当する２．２５で除した値を用いているが、キーワードの個数を用いてもよい。図２２の例の先頭のクラスタＩＤ７の文書で説明すると、「パスワードを忘れました。」と「ログインできない。パスワードを忘れた。」の２つの文書の文字数を２．２５で除し、その平均をとったものを単語数としている。すべてのブロックに対して同様に計算すると、図２２の単語数のフィールドの値が得られる。

また、クラスタ状態評価部３３は、上位ブロックｍ個中に含まれる文書数の全体に対する割合（上位カバー率）を算出する（ステップＳ１０６−５）。例えば、図２２では、ｍを５として、ブロックのランクが４のものまで集計すると、文書数は、１０＝（２＋２＋２＋２＋２）となる。これを総文書数１７で除すことにより、５．８という数値を得る（図２４の上位カバー率）。なお、ステップＳ１０６−２において説明したように、ブロック数１０に合わせるために例外的にクラスタを重複して数えている。

そして、クラスタ状態評価部３３は、ステップＳ１０６−３で算出した平均出現頻度、ステップＳ１０６−４で算出した単語数、及び、ステップＳ１０６−５で算出した平均文書数を用いて評価値を算出する（ステップＳ１０６−６）。

ここで、ステップＳ１０６−６における評価値の算出は、図２３に示す式によって算出される。ここで、実施例１において、ブロック数ｎは「１０」である。また、上位カバー率とは、上位ｍ個のブロックに含まれる文書数が全体に対してどのくらいの割合になるかを示すものである。出力例は、ステップＳ１０６−５において説明した通りである。

また、各ブロックでのキーワードの出現頻度の変動係数（標準偏差／平均値）は、図２２に示す「頻度」の列の値のばらつきを示す値である。また、各ブロックでのキーワードの個数の変動係数は、図２２に示す「クラスタキーワード数」の列の値のばらつきを示す値である。また、各ブロックでのキーワード数／文書中の単語の変動係数は、図２２に示す「選別率」の列の値のばらつきを示す値である。なお、「選別率」は、文書に含まれる単語のうち、キーワードとして選択された単語の割合を示す値である。

こうして、図２３に示す式に値を代入することで、図２４に示すように評価値が得られる。ここで、図２３に示す式の意味を説明すると、実施例１におけるクラスタ状態評価部３３は、ブロックあたりの平均出現頻度のばらつきが小さく、ブロックあたりの単語数のばらつきが小さく、上位ブロック中の文書数が多い場合に、高い評価値を算出する。

同様に、クラスタ状態評価部３３は、図２１に示す処理手順を、中間出力された全てのクラスタリング結果ごとに行い、図２５に示すように、全中間出力に対する評価値を得る。そして、クラスタ状態評価部３３は、図２５に示すように、評価値が最も高い値（９．９４４６８４）を示す中間出力類似度「０．３３９」のクラスタリング結果が、今回クラスタリングの最大評価値であり、最大評価値を示すクラスタリング結果であるとする。

図６に戻り、続いて、クラスタ状態評価部３３は、ステップＳ１０６において得られた最大の評価値が、前回クラスタリングの最大評価値を上回るか否かを判定する（ステップＳ１０７）。最大の評価値が前回クラスタリングの最大評価値を上回らない場合には（ステップＳ１０７否定）、クラスタ状態評価部３３は、クラスタリング処理を終了する。

一方、最大の評価値が前回クラスタリングの最大評価値を上回る場合には（ステップＳ１０７肯定）、クラスタ状態評価部３３は、今回の最大の評価値を、前回クラスタリングの最大評価値として設定する（ステップＳ１０８）。例えば、前回クラスタリングの最大評価値が「０」で、今回クラスタリングの最大評価値が「９．９４４６８４」である場合には、「９．９４４６８４＞０」であるので、クラスタ状態評価部３３は、「９．９４４６８４」を前回クラスタリングの最大評価値に設定し、クラスタリング処理を継続する。

そして、文書クラスタリング装置１０において、キーワード条件調整部３４が、評価値が最大となるクラスタリング結果を用いて、キーワードの選択を変更する（ステップＳ１０９）。

ここで、図２６〜図３３を用いて、キーワードの調整処理について説明する。なお、図２６及び図２７は、キーワードの調整処理手順を示すフローチャートであり、図２８は、クラスタを構成した文書群中での最小類似度０．８３２の中間出力例を示す図であり、図２９は、共通キーワードの選択を説明するための図であり、図３０は、ウィンドウのずらしを説明するための図であり、図３１は、キーワードの調整結果を示す図であり、図３２は、調整後のキーワードを用いたクラスタリングを説明するための図であり、図３３は、調整後のクラスタリング結果に対する評価値計算例を示す図である。

図２６に示すように、キーワード条件調整部３４は、まず、クラスタごとに、該クラスタに属する文書に含まれるキーワードを該クラスタにおける出現頻度が大きい順に抽出し、クラスタ共通キーワードとする（ステップＳ１０９−１）。

例えば、キーワード条件調整部３４は、図２８に示すクラスタＩＤ「２」のクラスタについて、クラスタ「２」に属する文書に含まれるキーワードは、「ランプ」、「点滅」、「トナー」、「プリンタ」、「補充」、「音」である。これらのキーワードのクラスタ「２」における出現頻度は、それぞれ、「ランプ」が「３」、「点滅」が「３」、「トナー」が「２」、「プリンタ」が「２」、「補充」が「２」、「音」が「１」である。そこで、キーワード条件調整部３４は、出現頻度が大きい順に４つのキーワードを抽出し、共通キーワードとする。例えば、キーワード条件調整部３４は、図２９に示すように、「ランプ」、「点滅」、「プリンタ」、「補充」を共通キーワードとする。

次に、キーワード条件調整部３４は、文書を１つ選択し、選択済みのマークを付ける（ステップＳ１０９−２）。

そして、キーワード条件調整部３４は、選択する文書がないか否かを判定し（ステップＳ１０９−３）、ない場合には（ステップＳ１０９−３肯定）、処理を終了する。

一方、選択する文書がある場合には（ステップＳ１０９−３否定）、キーワード条件調整部３４は、文書のキーワードに対してウィンドウをセットする（ステップＳ１０９−４）。

そして、キーワード条件調整部３４は、ウィンドウを左にずらした場合に文書が属する可能性が高いクラスタを求め（ステップＳ１０９−５）、また、ウィンドウを右にずらした場合に文書が属する可能性が高いクラスタを求める（ステップＳ１０９−６）。例えば、実施例１におけるキーワード条件調整部３４は、ウィンドウを左にずらした場合は、左にずらすことができないのでそのままの場合として扱い、ウィンドウを右にずらした場合には、キーワードの数が減った状態で求める。なお、実施例１においては、キーワードの下限数は「３」とし、これを割り込む場合には適用除外とする。

例えば、キーワード条件調整部３４は、図２７に示すように、ウィンドウをずらした場合のキーワードとの類似度が最大となるクラスタを求める（ステップＳ２０１）。この時、キーワード条件調整部３４は、ウィンドウをずらした場合のキーワードとクラスタごとに抽出したクラスタ共通キーワードとを用いて、文書とクラスタとの間の類似度を計算する。

そして、キーワード条件調整部３４は、ステップＳ２０１において求めたクラスタが、対象文書が現在属するクラスタと変化がないか否かを判定し（ステップＳ２０２）、変化がない場合には（ステップＳ２０２肯定）、そのまま処理を終了する。変化がある場合には（ステップＳ２０２否定）、キーワード条件調整部３４は、ステップＳ２０１において求めたクラスタを、ウィンドウをずらした場合に文書が属する可能性が高いクラスタとする。なお、文書とクラスタとの間の類似度が閾値以下の場合には、キーワード条件調整部３４は、類似するクラスタがないとみなし、要素数１のクラスタが新規に生成されるものとする（ステップＳ２０３）。

図２６に戻り、すると、キーワード条件調整部３４は、文書が現在属するクラスタに対してウィンドウを左にずらした場合、右にずらした場合、そのままの場合のそれぞれについて、評価値を算出する（ステップＳ１０９−７）。例えば、キーワード条件調整部３４は、文書が、ステップＳ１０９−５においてキーワード条件調整部３４によって求められたクラスタＬに属する場合の評価値を再計算する。すなわち、キーワード条件調整部３４は、図２２に相当する表を再作成し、図２３に示す式に値を代入して評価値を再計算する。

この結果、例えば、図３０に示すように、文書ＩＤ「Doc0001」については、ウィンドウを左にずらした場合には変化がなく、右にずらした場合には文書が属する可能性が高い別クラスタが存在し、評価値が向上する、との結果がでたとする。

図２６に戻り、キーワード条件調整部３４は、評価値が最大となる処置を選択し（ステップＳ１０９−８）、続いて、まだ選択されていない文書を選択し（ステップＳ１０９−９）、ステップＳ１０９−３の処理に戻る。

こうして、キーワード条件調整部３４は、全ての文書についてキーワードの調整処理を行い、調整結果を取得すると、キーワードの選択を変更する。例えば、図３１に示すような調整結果を取得した場合には、クラスタの評価値が向上している文書ＩＤ「Doc0001」の文書について、キーワードを「ランプ」、「点滅」、「トナー」、「プリンタ」、「補充」から、「点滅」、「トナー」、「プリンタ」、「補充」に変更する。

図６に戻り、キーワードの選択が変更されると、文書クラスタリング装置１０は、ステップＳ１０５に戻り、クラスタリング部３２が、変更されたキーワードを用いてクラスタリングを実行する（ステップＳ１０５）。例えば、クラスタリング部３２は、ステップＳ１０５において中間出力された全てのクラスタリング結果に対して再び評価値を算出し、最大の評価値を再び取得する（ステップＳ１０６）。この結果、例えば、クラスタリング部３２は、図３２に示すようなクラスタリング結果を、最大の評価値のクラスタリング結果として取得したとする。なお、図３３は、調整後のクラスタリング結果に対する評価値計算例を示す図である。また、図３３でも、ブロック数１０にクラスタ数が満たないため、上位２位、３位のクラスタを重複して数えている。

そして、クラスタ状態評価部３３は、ステップＳ１０６において得られた最大の評価値が、前回クラスタリングの最大評価値を上回るか否かを判定する（ステップＳ１０７）。例えば、前回クラスタリングの最大評価値が「９．９４４６８４」で、今回クラスタリングの最大評価値が「９．９４４６８６」である場合には、「９．９４４６８６＞９．９４４６８４」であるので、クラスタ状態評価部３３は、クラスタリング処理を継続する。

すなわち、再び、クラスタ状態評価部３３が、今回の最大の評価値を、前回クラスタリングの最大評価値として設定し（ステップＳ１０８）、キーワード条件調整部３４が、評価値が最大となるクラスタリング結果を用いて、キーワードの選択を変更する（ステップＳ１０９）。

一方、上回らない場合には（ステップＳ１０７否定）、クラスタ状態評価部３３は、クラスタリング処理を終了する。

このような処理を繰り返して得られたクラスタリングの最終結果が、図３４に示す結果である。なお、クラスタ状態評価部３３は、今回のクラスタリング結果の評価値は前回のクラスタリングの最大評価値を下回るので、前回のクラスタリング結果を最終結果とする。図３４は、最終結果を示す図である。

［実施例１の効果］
上記してきたように、実施例１では、キーワード抽出部３１が、文書の集合体から出現頻度が相対的に高いキーワードを抽出し、クラスタリング部３２が、抽出されたキーワードを用いて集合体をクラスタリングする。また、クラスタ状態評価部３３が、各クラスタの評価値を算出し、キーワード条件調整部３４が、評価値算出後、クラスタリングに用いるキーワードの選択を変更する。そして、クラスタリング部３２が、変更後の単語を用いて集合体を再びクラスタリングし、クラスタ状態評価部３３が、クラスタリングされた各クラスタの評価値を再び算出する。続いて、クラスタ状態評価部３３が、変更後の評価値と変更前の評価値とを比較し、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いるキーワードの選択を変更する。

また、実施例１では、クラスタリング部３２は、文書の集合体から抽出されたキーワードのうち、出現頻度が最も高いキーワードから順に所定数のキーワードをクラスタリングに用いている。そして、キーワード条件調整部３４は、出現頻度が最も高い単語を、前回のクラスタリングで選択されていなかったキーワードに入れ替えることで、キーワードの選択を変更する。

このようなことから、実施例１に係る文書クラスタリング装置１０は、クラスタリングに用いるキーワードの選択を変更しながら評価値が向上する限りクラスタリングを繰り返し行うので、適切なクラスタリング結果を得ることが可能になる。

すなわち、実施例１に係る文書クラスタリング装置１０は、１回のクラスタリングでクラスタリングを終了することなく、クラスタリングに用いるキーワードの選択を変更しながら評価値が向上する限りクラスタリングを繰り返し行うフィードバック方式である。すると、例えば、文書の集合体全体における出現頻度が低い単語でありながら当該文書を特徴づける単語として適切な単語は、キーワードの初期選択では選択されなくとも、キーワードの選択変更によりあるタイミングで選択されることになる。この時評価値は向上するはずであり、適切なクラスタリング結果を得ることが可能になる。

また、実施例１に係る文書クラスタリング装置１０は、適切な評価式で評価値を算出する。このため、クラスタリングに用いるキーワードの選択が適切なものであるか否かを適切に評価することが可能になる。

また、実施例１に係る文書クラスタリング装置は、全てのキーワード選択変更時のクラスタリング結果の影響など計算量的な困難な状態を回避し、かつ単にやみくもにキーワードの選択を変更するのではなくキーワード選択変更時のクラスタリング結果への影響を個々の文書ごとに算出した結果に基づき予測している（図２６のＳ１０９−７〜Ｓ１０９−８など）。これにより、キーワードの選択変更に伴う試行コストを低減することも可能になる。

［他の実施例］
さて、これまで実施例１について説明してきたが、上記した実施例１以外にも、種々の異なる形態にて実施されてよいものである。

［クラスタリングのアルゴリズム］
実施例１では、クラスタリングのアルゴリズムとして階層型クラスタリングのアルゴリズムを用いる手法を説明してきたが、これに限られるものではない。例えば、階層型クラスタリングのアルゴリズムとしては、最短距離法、単連結法、最長距離法、完全連結法、群平均法、ウォード法などの手法があるが、いずれの手法を用いてもよい。また、階層型クラスタリング以外のアルゴリズムとして、例えば、分割最適化型のアルゴリズムを用いてもよい。すなわち、文書の集合体を単語を用いてクラスタリングすることができるアルゴリズムであれば、どのような手法を用いてもよい。

［キーワードの選択変更］
また、実施例１では、キーワードの選択を変更する手法として、出現頻度が最も高い単語を除く手法を説明したが、これに限られるものではない。例えば、出現頻度の高い単語を、選択されていなかった単語に入れ替える手法や、前回のクラスタリングで選択されていなかった単語を追加する手法にも、同様に適用することができる。

［終了判断］
また、実施例１では、今回の評価値が前回の評価値を上回る場合にのみ、次回のクラスタリングに移行する例、すなわち、今回の評価値と前回の評価値とが同一である場合には、クラスタリング処理を終了する例を説明したが、これに限られるものではない。今回の評価値と前回の評価値とが同一である場合にも、次回のクラスタリングに移行するように処理手順を変更してもよい。

［コンピュータ］
また、実施例１で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図３５を用いて、上記の実施例１と同様の機能を有する文書クラスタリングプログラムを実行するコンピュータの一例を説明する。図３５は、文書クラスタリングプログラムを実行するコンピュータを示す図である。

図３５に示すように、文書クラスタリングプログラム（コンピュータ）４０は、キャッシュ４１、ＲＡＭ（Random Access Memory）４２、ＨＤＤ（Hard Disk Drive）４３、ＲＯＭ（Read Only Memory）４４およびＣＰＵ（Central Processing Unit）４５をバス４６で接続して構成される。ここで、ＲＯＭ４４には、上記の実施例１と同様の機能を発揮する文書クラスタリングプログラム、つまり、図３５に示すように、第一クラスタリングプログラム４４ａ、第一評価プログラム４４ｂ、第一変更プログラム４４ｃ、第二クラスタリングプログラム４４ｄ、第二評価プログラム４４ｅ、比較プログラム４４ｆ、及び第二変更プログラム４４ｇが備えられる。

そして、ＣＰＵ４５は、これらのプログラム４４ａ〜４４ｇを読み出して実行することで、図３５に示すように、各プログラム４４ａ〜４４ｇは、第一クラスタリングプロセス４５ａ、第一評価プロセス４５ｂ、第一変更プロセス４５ｃ、第二クラスタリングプロセス４５ｄ、第二評価プロセス４５ｅ、比較プロセス４５ｆ、及び第二変更プロセス４５ｇとなる。なお、第一クラスタリングプロセス４５ａ及び第二クラスタリングプロセス４５ｄは、図２に示したクラスタリング部３２に対応し、第一評価プロセス４５ｂ、第二評価プロセス４５ｅ及び比較プロセス４５ｆは、図２に示したクラスタ状態評価部３３に対応し、第一変更プロセス４５ｃ及び第二変更プロセス４５ｇは、図２に示したキーワード条件調整部３４に対応する。

また、ＨＤＤ４３は、図３５に示すように、入力文書テーブル４３ａ及びクラスタリング結果テーブル４３ｂを備える。なお、各テーブル４３ａ及び４３ｂは、図２に示した入力文書記憶部２１及びクラスタリング結果記憶部２２に各々対応する。

ところで、上記した各プログラム４４ａ〜４４ｇについては、必ずしもＲＯＭ４４に記憶させておく必要はなく、例えば、コンピュータ４０に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯディスク、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」、または、コンピュータ４０の内外に備えられるハードディスクドライブ（ＨＤＤ）などの「固定用の物理媒体」、さらには、公衆回線、インターネット、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）などを介してコンピュータ４０に接続される「他のコンピュータ（またはサーバ）」に記憶させておき、コンピュータ４０がこれらからプログラムを読み出して実行するようにしてもよい。

［その他］
この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示（例えば、図２など）の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）文書の集合体から出現頻度が相対的に高い単語として抽出された単語を用いて該集合体をクラスタリングする第一クラスタリング手順と、
前記第一クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第一評価手順と、
前記第一評価手順による評価値算出後、クラスタリングに用いる前記単語の選択を変更する第一変更手順と、
前記第一変更手順による変更後の単語を用いて前記集合体をクラスタリングする第二クラスタリング手順と、
前記第二クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第二評価手順と、
前記第一評価手順によって算出された評価値と前記第二評価手順によって算出された評価値とを比較する比較手順と、
前記比較手順による比較の結果、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いる前記単語の選択を変更する第二変更手順と
をコンピュータに実行させることを特徴とする文書クラスタリングプログラム。

（付記２）前記第一クラスタリング手順および前記第二クラスタリング手順は、所定数の単語を用いて該集合体をクラスタリングし、
前記第一変更手順は、前記第一クラスタリング手順によって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更し、
前記第二変更手順は、前記第二クラスタリング手順によって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更することを特徴とする付記１に記載の文書クラスタリングプログラム。

（付記３）文書の集合体から出現頻度が相対的に高い単語として抽出された単語を用いて該集合体をクラスタリングする第一クラスタリングステップと、
前記第一クラスタリングステップによってクラスタリングされた各クラスタの評価値を算出する第一評価ステップと、
前記第一評価ステップによる評価値算出後、クラスタリングに用いる前記単語の選択を変更する変更ステップと、
前記第一変更ステップによる変更後の単語を用いて前記集合体をクラスタリングする第二クラスタリングステップと、
前記第二クラスタリングステップによってクラスタリングされた各クラスタの評価値を算出する第二評価ステップと、
前記第一評価ステップによって算出された評価値と前記第二評価ステップによって算出された評価値とを比較する比較ステップと、
前記比較ステップによる比較の結果、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いる前記単語の選択を変更する第二変更ステップと
をコンピュータが実行することを特徴とする文書クラスタリング方法。

（付記４）前記第一クラスタリングステップおよび前記第二クラスタリングステップは、所定数の単語を用いて該集合体をクラスタリングし、
前記第一変更ステップは、前記第一クラスタリングステップによって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更し、
前記第二変更ステップは、前記第二クラスタリングステップによって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更することを特徴とする付記３に記載の文書クラスタリング方法。

１０文書クラスタリング装置
２１入力文書記憶部
２２クラスタリング結果記憶部
３０制御部
３１キーワード抽出部
３２クラスタリング部
３３クラスタ状態評価部
３４キーワード条件調整部

Claims

文書の集合体から出現頻度が相対的に高い単語として抽出された単語を用いて該集合体をクラスタリングする第一クラスタリング手順と、
前記第一クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第一評価手順と、
前記第一評価手順による評価値算出後、クラスタリングに用いる前記単語の選択を変更する第一変更手順と、
前記第一変更手順による変更後の単語を用いて前記集合体をクラスタリングする第二クラスタリング手順と、
前記第二クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第二評価手順と、
前記第一評価手順によって算出された評価値と前記第二評価手順によって算出された評価値とを比較する比較手順と、
前記比較手順による比較の結果、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いる前記単語の選択を変更する第二変更手順と
をコンピュータに実行させることを特徴とする文書クラスタリングプログラム。
前記第一クラスタリング手順および前記第二クラスタリング手順は、所定数の単語を用いて該集合体をクラスタリングし、
前記第一変更手順は、前記第一クラスタリング手順によって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更し、
前記第二変更手順は、前記第二クラスタリング手順によって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更することを特徴とする請求項１に記載の文書クラスタリングプログラム。
文書の集合体から出現頻度が相対的に高い単語として抽出された単語を用いて該集合体をクラスタリングする第一クラスタリングステップと、
前記第一クラスタリングステップによってクラスタリングされた各クラスタの評価値を算出する第一評価ステップと、
前記第一評価ステップによる評価値算出後、クラスタリングに用いる前記単語の選択を変更する変更ステップと、
前記第一変更ステップによる変更後の単語を用いて前記集合体をクラスタリングする第二クラスタリングステップと、
前記第二クラスタリングステップによってクラスタリングされた各クラスタの評価値を算出する第二評価ステップと、
前記第一評価ステップによって算出された評価値と前記第二評価ステップによって算出された評価値とを比較する比較ステップと、
前記比較ステップによる比較の結果、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いる前記単語の選択を変更する第二変更ステップと
をコンピュータが実行することを特徴とする文書クラスタリング方法。