JP2010176626A - 文書クラスタリングプログラム及び文書クラスタリング方法 - Google Patents

文書クラスタリングプログラム及び文書クラスタリング方法 Download PDF

Info

Publication number
JP2010176626A
JP2010176626A JP2009021618A JP2009021618A JP2010176626A JP 2010176626 A JP2010176626 A JP 2010176626A JP 2009021618 A JP2009021618 A JP 2009021618A JP 2009021618 A JP2009021618 A JP 2009021618A JP 2010176626 A JP2010176626 A JP 2010176626A
Authority
JP
Japan
Prior art keywords
clustering
document
evaluation value
keyword
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009021618A
Other languages
English (en)
Inventor
Isao Nanba
功 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009021618A priority Critical patent/JP2010176626A/ja
Publication of JP2010176626A publication Critical patent/JP2010176626A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】適切なクラスタリング結果を得ることを課題とする。
【解決手段】文書クラスタリングプログラムは、まず、文書の集合体から出現頻度が相対的に高いキーワードとして抽出されたキーワードを用いて集合体をクラスタリングし、各クラスタの評価値を算出する。評価値算出後、クラスタリングに用いるキーワードの選択を変更する。続いて、変更後のキーワードを用いて集合体をクラスタリングし、各クラスタの評価値を算出する。次に、変更後の評価値と変更前の評価値とを比較し、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いるキーワードの選択を変更する。
【選択図】図1

Description

本発明は、文書クラスタリングプログラム及び文書クラスタリング方法に関する。
コールセンタでは、問い合わせに対して効率的に応対することを目的として、応対記録に基づいてFAQ(Frequently Asked Question)を作成することが行われている。もっとも、大量の応対記録の中から類似事例を人手で選別することは困難であるので、コンピュータによる自動選別が望ましい。
このため、従来、自動選別の手法として、文書の集合体を群(クラスタ)に分類する文書クラスタリングが用いられている。文書クラスタリングでは、コンピュータが、出現頻度が相対的に高い単語を用いて文書間の類似判断をし、応対記録をクラスタに分類する。
特開2008−171336号公報 国際公開第00/075809号パンフレット 特開平11−025108号公報 特開2003−263443号公報
しかしながら、上記した従来の技術では、適切なクラスタリング結果を得られないという課題があった。すなわち、従来の技術では、文書の集合体全体における出現頻度が相対的に高い単語が、文書の類似判断に用いられる。そうであるとすると、例えば応対記録全体に占める割合が数%以下の低頻度の応対記録に含まれる単語は、応対記録自体が低頻度であるので適切に選択されないことになり、このような応対記録は適切に分類されないおそれがある。
開示の技術は、上記に鑑みてなされたものであって、適切なクラスタリング結果を得ることが可能な文書クラスタリングプログラム及び文書クラスタリング方法を提供することを目的とする。
本願の開示する文書クラスタリングプログラムは、一つの態様において、文書の集合体から出現頻度が相対的に高い単語として抽出された単語を用いて該集合体をクラスタリングする第一クラスタリング手順をコンピュータに実行させる。また、前記第一クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第一評価手順をコンピュータに実行させる。また、前記第一評価手順による評価値算出後、クラスタリングに用いる前記単語の選択を変更する第一変更手順をコンピュータに実行させる。また、前記第一変更手順による変更後の単語を用いて前記集合体をクラスタリングする第二クラスタリング手順をコンピュータに実行させる。また、前記第二クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第二評価手順をコンピュータに実行させる。また、前記第一評価手順によって算出された評価値と前記第二評価手順によって算出された評価値とを比較する比較手順をコンピュータに実行させる。また、前記比較手順による比較の結果、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いる前記単語の選択を変更する第二変更手順をコンピュータに実行させる。
この態様によれば、クラスタリングに用いる単語の選択を変更しながら評価値が向上する限りクラスタリングを繰り返し行うので、適切なクラスタリング結果を得ることが可能になる。
本願の開示する文書クラスタリングプログラム及び文書クラスタリング方法の一つの態様によれば、適切なクラスタリング結果を得ることが可能になるという効果を奏する。
図1は、実施例1に係る文書クラスタリング装置の概要を説明するための図である。 図2は、実施例1に係る文書クラスタリング装置の構成を示すブロック図である。 図3は、応対記録及びFAQの概要を説明するための図である。 図4は、キーワード抽出の概要を説明するための図である。 図5は、文書A、B、C、D、E、Fをクラスタリングする例を示す図である。 図6は、実施例1に係る文書クラスタリング装置による処理手順を示すフローチャートである。 図7は、文書の集合体を説明するための図である。 図8は、初期キーワードセットの抽出処理手順を示すフローチャートである。 図9は、単語の抽出を説明するための図である。 図10は、初期キーワードセットの抽出を説明するための図である。 図11は、閾値レンジを説明するための図である。 図12は、クラスタリング処理手順を示すフローチャートである。 図13は、中間出力を説明するための図である。 図14は、中間出力を説明するための図である。 図15は、中間出力を説明するための図である。 図16は、中間出力を説明するための図である。 図17は、中間出力を説明するための図である。 図18は、中間出力を説明するための図である。 図19は、中間出力を説明するための図である。 図20は、中間出力結果を示す図である。 図21は、クラスタリング結果の評価処理手順を示すフローチャートである。 図22は、クラスタを構成した文書群中での最小類似度0.832の中間出力に対する評価値計算例を示す図である。 図23は、評価値の計算式を説明するための図である。 図24は、クラスタを構成した文書群中での最小類似度0.832の中間出力に対する評価値を示す図である。 図25は、全中間出力に対する評価値及び最大評価値の選択を説明するための図である。 図26は、キーワードの調整処理手順を示すフローチャートである。 図27は、キーワードの調整処理手順を示すフローチャートである。 図28は、クラスタを構成した文書群中での最小類似度0.832の中間出力例を示す図である。 図29は、共通キーワードの選択を説明するための図である。 図30は、ウィンドウのずらしを説明するための図である。 図31は、キーワードの調整結果を示す図である。 図32は、調整後のキーワードを用いたクラスタリングを説明するための図である。 図33は、調整後のクラスタリング結果に対する評価値計算例を示す図である。 図34は、最終結果を示す図である。 図35は、文書クラスタリングプログラムを実行するコンピュータを示す図である。
以下に、本願の開示する文書クラスタリングプログラム及び文書クラスタリング方法の実施例を図面に基づいて詳細に説明する。また、以下の実施例により本発明が限定されるものではない。
[実施例1に係る文書クラスタリング装置の概要]
図1を用いて、実施例1に係る文書クラスタリング装置の概要を説明する。図1は、実施例1に係る文書クラスタリング装置の概要を説明するための図である。
まず、実施例1に係る文書クラスタリング装置は、文書の集合体から出現頻度が相対的に高いキーワードを抽出する。例えば、文書クラスタリング装置は、図1に示すように、文書A、B、C、Dなどを含む文書の集合体から、文書の集合体全体における出現頻度が相対的に高いキーワードとして、「プリンタ」、「トナー」、「補充」、「ランプ」、「点滅」などを抽出する。
次に、文書クラスタリング装置は、抽出したキーワードを用いて集合体をクラスタリングする。例えば、文書クラスタリング装置は、図1に示すように、文書Aについては、出現頻度が高いキーワードから順に、「プリンタ」、「トナー」及び「補充」の3つのキーワードを用いてクラスタリングする。
続いて、文書クラスタリング装置は、クラスタリングした各クラスタの評価値を算出し、評価値算出後、クラスタリングに用いるキーワードの選択を変更する。例えば、文書クラスタリング装置は、図1に示すように、文書Aについては、「トナー」、「補充」及び「ランプ」の3つのキーワードを用いるように、キーワードの選択を変更する。
そして、文書クラスタリング装置は、変更後のキーワードを用いて、再び文書の集合体をクラスタリングする。例えば、文書クラスタリング装置は、図1に示すように、再びクラスタリングする。
次に、文書クラスタリング装置は、クラスタリングした各クラスタの評価値を算出し、キーワード変更前の評価値とキーワード変更後の評価値とを比較する。そして、変更後の評価値が変更前の評価値を上回る場合には、文書クラスタリング装置は、クラスタリングに用いるキーワードの選択を再び変更し、再びクラスタリングする。
このように、実施例1に係る文書クラスタリング装置は、クラスタリングに用いるキーワードの選択を変更しながら評価値が向上する限りクラスタリングを繰り返し行うので、適切なクラスタリング結果を得ることが可能になる。
[実施例1に係る文書クラスタリング装置の構成]
次に、図2を用いて、実施例1に係る文書クラスタリング装置の構成を説明する。図2は、実施例1に係る文書クラスタリング装置の構成を示すブロック図である。
文書クラスタリング装置10は、図2に示すように、入力文書記憶部21とクラスタリング結果記憶部22と制御部30とを有する。また、制御部30は、図2に示すように、キーワード抽出部31とクラスタリング部32とクラスタ状態評価部33とキーワード条件調整部34とを有する。
入力文書記憶部21は、クラスタリングの対象文書として文書クラスタリング装置10に入力された文書を記憶する。例えば、文書クラスタリング装置10の利用者が、キーワード抽出部31による処理が開始される前にクラスタリングの対象文書をクラスタリング装置10に入力すると、クラスタリング装置10は、入力された文書を入力文書記憶部21に格納する。また、入力文書記憶部21が記憶する文書は、制御部30による処理に利用される。例えば、入力文書記憶部21は、図3に示すように、通常業務で蓄積された応対記録を記憶する。なお、図3は、応対記録及びFAQの概要を説明するための図である。
クラスタリング結果記憶部22は、制御部30によってクラスタリングされた最終結果を記憶する。なお、FAQの作成は、クラスタリング結果記憶部22が記憶するクラスタリング結果に基づいて行われ、例えば、図3に示すようなFAQが作成される。
キーワード抽出部31は、クラスタリングに用いるキーワードを文書から抽出する。具体的には、キーワード抽出部31は、入力文書記憶部21によって記憶されている文書の集合体から出現頻度が相対的に高いキーワードを抽出し、抽出したキーワードをクラスタリング部32に通知する。
例えば、実施例1におけるキーワード抽出部31は、図4に示すように、文書の集合体から単語を抽出し、抽出した単語を出現頻度が高い順に並べ、一定ウィンドウサイズの範囲の単語(一定個数の単語)をキーワード(初期キーワードセット)として抽出する。なお、図4は、キーワード抽出の概要を説明するための図である。
ここで、キーワード抽出部31によるキーワード抽出手法について説明する。キーワード抽出手法としては、文書を特徴づける単語を抽出する手法として、例えば、tf*idf(Salton)の手法やχ二乗統計量(長尾)の手法などがある。また、この方法を一般化し、対象文書セットの中で多くの文書に出現する単語は特定の文書を特徴づける単語でないためキーワードではないとする戦略がある。具体的には、高頻度ではない単語をキーワードとして抽出する手法や、助詞や助動詞などはキーワードとせず名詞や動詞などに品詞を限定する方法などがある。
この点、実施例1におけるキーワード抽出部31は、tf*idfの手法を採用し、以下に示す(1)式及び(2)式を用いてキーワードを抽出する。
Figure 2010176626
Figure 2010176626
すなわち、キーワード抽出部31は、まず、文書の集合体に含まれる全ての単語に対して(1)式を用いてidfを計算する。次に、キーワード抽出部31は、文書ごとに、単語ごとに(2)式を用いてtfを計算し、単語ごとにtf*idfを計算する。そして、キーワード抽出部31は、文書ごとに、tf*idfの値が大きい順に単語を並べ、一定個数の単語をキーワードとして抽出する。
ところで、キーワード抽出部31は、tf*idfの値が大きい順に単語を並べ、一定個数の単語をキーワードとして抽出するので、例えば、全ての単語のtfが同じ値となる場合には、結局idfの値が大きい単語からキーワードとして抽出されることになる。しかしながら、idfの値が大きい単語とは、文書の集合体全体における出現頻度が低い単語である。このため、このような場合には、文書の集合体全体における出現頻度が低い順にキーワードが抽出されることになってしまう。この点、全ての単語のtfが同じ値となる文書は、応対記録にはよくみられる。例えば、「/プリンタ/の/黄色/トナー/が/ほとんど/補充/できません/。/」のような文書では、文書の集合体全体における出現頻度が低い順に、「黄色」「ほとんど」といった単語がキーワードとして抽出されかねないが、そのような抽出は好ましくない。実施例1に係る文書クラスタリング装置10によれば、後述するように、キーワード条件調整部34がキーワードの選択を変更し、クラスタリング部32が繰り返しクラスタリングを行うので、このような好ましくない抽出にも対応することが可能である。
クラスタリング部32は、キーワードを用いてクラスタリングする。具体的には、クラスタリング部32は、キーワード抽出部31によって抽出されたキーワード(初期キーワードセット)、若しくは、キーワード条件調整部34によって変更された後のキーワードを用いて、入力文書記憶部21によって記憶されている文書の集合体をクラスタリングする。また、クラスタリング部32は、クラスタリング結果をクラスタ状態評価部33に通知する。
例えば、実施例1におけるクラスタリング部32は、図5に示すように、階層型クラスタリングのアルゴリズムを用いてクラスタリングする。階層型クラスタリングでは、文書の集合体から最も類似する文書の対を選別し、次に、選別した対に最も類似する文書の併合を繰り返す。なお、階層型クラスタリングのアルゴリズムは、少数要素のクラスタ生成に適している。
図5は、文書A、B、C、D、E、Fをクラスタリングする例を示す図である。まず、類似度が最大となる文書の対として文書A及びBが探索され、次に、文書A及びBの対に対する類似度が再定義され、続いて、文書A及びBの対との類似度が最大となる文書Cが探索され、文書A及びBの対に文書Cが併合される。同様にして、文書A、B及びCに文書Dが併合され、文書A、B、C及びDに文書Eが併合され、文書A、B、C、D及びEに文書Fが併合される。なお、処理が進むにつれ、文書間(クラスタ間)のクラスタを構成した文書群中での最小類似度は低下してくるが、処理を停止すべき類似度の閾値は、文書の集合体によって異なる。このため、従来の技術では、クラスタリングの停止条件をどのように定めるか(閾値をどのように設定するか)に試行錯誤することが多くあった。この点、実施例1に係る文書クラスタリング装置10によれば、後述するように、クラスタ状態評価部33がクラスタリング結果に対する評価値を算出し、停止条件を判断することで、対応することが可能である。
また、実施例1におけるクラスタリング部32は、以下の(3)式に示すように、文書を単語のベクトルとみなし、そのベクトルの間の角度(Cosine)などを用いて文書間(クラスタ間)の類似度を計算する。
Figure 2010176626
例えば、
Xa=(プリンタ(頻度1)、トナー(頻度1)、補充(頻度0)・・・)
Xb=(プリンタ(頻度1)、トナー(頻度1)、補充(頻度1)・・・)
として計算する。このようなことから、クラスタリング部32によるクラスタリング結果は、キーワード抽出部31によって抽出されたキーワード、若しくは、キーワード条件調整部34によって変更された後のキーワードによって影響を受けることがわかる。例えば、「/プリンタ/の/黄色/トナー/が/ほとんど/補充/できません/。/」のような文書から、キーワードとして「プリンタ」及び「トナー」を選択した場合と、「プリンタ」、「トナー」及び「補充」を選択した場合とでは、クラスタリング結果が異なってくる。
クラスタ状態評価部33は、各クラスタの評価値を算出する。具体的には、クラスタ状態評価部33は、クラスタリング部32によってクラスタリングされたクラスタリング結果について、各クラスタの評価値を算出する。また、クラスタ状態評価部33は、クラスタリング部32において変更後のキーワードを用いたクラスタリングが行われた場合には、該クラスタリング結果について評価値を算出するとともに、キーワード変更後の評価値と変更前の評価値とを比較する。
比較の結果、変更後の評価値が変更前の評価値より低下する場合には、クラスタ状態評価部33は、クラスタリング部32によるクラスタリングを終了する。例えば、クラスタ状態評価部33は、変更前の評価値に対応するクラスタリング結果を最終結果としてクラスタリング結果記憶部22に格納する。一方、変更後の評価値が変更前の評価値より向上する場合には、クラスタ状態評価部33は、キーワード条件調整部34に通知し、キーワードの選択変更を指示する。言い換えると、クラスタ状態評価部33は、評価値が高くなるように停止条件を求めていることになる。
キーワード条件調整部34は、クラスタリングに用いるキーワードの選択を変更する。具体的には、キーワード条件調整部34は、クラスタ状態評価部33から指示されると、キーワードの選択を変更する。また、キーワード条件調整部34は、変更後のキーワードをクラスタリング部32に通知する。
例えば、実施例1におけるキーワード条件調整部34は、キーワード抽出部31によって出現頻度が高い順に並べられた単語に対して、一定ウィンドウサイズを左右にずらすことで、キーワードとして抽出する単語を変更する。
[実施例1に係る文書クラスタリング装置による処理手順]
続いて、図6〜図34を用いて、実施例1に係る文書クラスタリング装置による処理手順を説明する。図6は、実施例1に係る文書クラスタリング装置による処理手順を示すフローチャートである。
図6に示すように、文書クラスタリング装置10において、キーワード抽出部31は、例えば利用者によるクラスタリング指示の入力を受け付けるなどしたタイミングで、入力文書記憶部21から文書の集合体を入力する(ステップS101)。例えば、キーワード抽出部31は、図7に示すような文書の集合体を入力する。なお、図7は、文書の集合体を説明するための図である。
図6に戻り、次に、キーワード抽出部31は、文書から初期キーワードセットを抽出する(ステップS102)。
ここで、図8〜図10を用いて、初期キーワードセットの抽出処理について説明する。なお、図8は、初期キーワードセットの抽出処理手順を示すフローチャートであり、図9は、単語の抽出を説明するための図であり、図10は、初期キーワードセットの抽出を説明するための図である。
図8に示すように、キーワード抽出部31は、まず、文書の集合体に含まれる文書全てを単語に分割し(ステップS102−1)、単語の出現頻度を計上する(ステップS102−2)。例えば、キーワード抽出部31は、図9に示すように、種別と頻度と単語と品詞とを対応付けた辞書テーブルを作成する。例えば、「プリンタ」という単語は、文書ID「Doc0001」の文書及び文書ID「Doc0010」の文書に1回ずつ含まれるので、キーワード抽出部31は、文書の集合体における出現頻度を「2」と計上する。そして、キーワード抽出部31は、「2」と「プリンタ」と「名詞−一般」とを対応付けて格納する。
図8に戻り、次に、キーワード抽出部31は、出現頻度や品詞で、キーワード候補となる単語を選択する(ステップS102−3)。本実施例では、対象となる文書数が少ないため、頻度で単語を選択していないが、対象文書数が多ければ頻度も用い単語を選択してよい。例えば、キーワード抽出部31は、品詞が、名詞、動詞、未知語、形容詞である単語をキーワード候補として選択し、それ以外の単語はキーワード候補として選択しないこととし、図9に示す辞書テーブルの種別に「不要語」若しくは「キーワード候補」の別を格納する。
続いて、キーワード抽出部31は、各文書に含まれる単語を出現頻度順に並べ(ステップS102−4)、ウィンドウサイズを設定する(ステップS102−5)。例えば、キーワード抽出部31は、図10に示すように、各文書に含まれる単語を出現頻度順に並べる。この時、キーワード抽出部31は、平均単語数や任意の数でウィンドウサイズを設定すればよく、例えば、ウィンドウサイズ5を設定する。
そして、キーワード抽出部31は、出現頻度が最も高い単語からウィンドウサイズ分までの単語を、各文書の初期キーワードセットとする(ステップS102−6)。例えば、キーワード抽出部31は、図10に示すように、文書ID「Doc0009」の文書について、「パスワード」及び「忘れる」を初期キーワードセットとする。
図6に戻り、次に、文書クラスタリング装置10において、クラスタリング部32は、クラスタリングにあたり、まず、閾値レンジを設定する(ステップS103)。例えば、クラスタリング部32は、閾値レンジの最大値として「0.95」、最小値として「0.3」、出力ステップとして「0.05」を設定する。ここで、閾値レンジについて説明すると、文書間(クラスタ間)の類似度は、類似度「1」のとき、文書に含まれる単語が完全に一致することを意味し、類似度「0」のとき、共通の単語を全く含まないことを意味する。実施例1におけるクラスタリング部32は、文書間(クラスタ間)の類似度が「0.95」から「0.3」までの間、出力ステップ「0.05」ごとにクラスタリング結果を出力する。図11は、閾値レンジを説明するための図である。図11に示すように、類似度が小さな値になるにつれ、大きなクラスタにまとまっていくことがわかる。
続いて、クラスタリング部32は、前回クラスタリングの最大評価値として初期値「0」を設定する(ステップS104)。
そして、クラスタリング部32は、クラスタリングを実行する(ステップS105)。
ここで、図12〜図20を用いて、クラスタリング処理について説明する。なお、図12は、クラスタリング処理手順を示すフローチャートであり、図13〜図19は、中間出力を説明するための図であり、図20は、中間出力結果を示す図である。
図12に示すように、クラスタリング部32は、まず、出力類似度に初期値「0」を設定し(ステップS105−1)、次に、階層型クラスタリングの通常アルゴリズムに従って、最も類似度が高いクラスタを併合する(ステップS105−2)。
そして、クラスタリング部32は、現在のクラスタを構成した文書群中での最小類似度が、閾値レンジの最大値以下であるか否かを判定し(ステップS105−3)、最大値を上回る場合には(ステップS105−3否定)、予め設定された閾値レンジの範囲外であるので、再び、ステップS105−2の併合処理に戻る。
一方、現在のクラスタを構成した文書群中での最小類似度が、閾値レンジの最大値以下である場合には(ステップS105−3肯定)、予め設定された閾値レンジの範囲内であるので、クラスタリング部32は、続いて、閾値レンジの最小値以下であるか否かを判定する(ステップS105−4)。閾値レンジの最小値以下である場合には(ステップS105−4肯定)、予め設定された閾値レンジの範囲外であるので、クラスタリング部32は、クラスタリング処理を終了する。
一方、閾値レンジの最小値を上回る場合には(ステップS105−4否定)、クラスタリング部32は、出力類似度と現在のクラスタを構成した文書群中での最小類似度との差が、出力ステップ以下であるかを判定する(ステップS105−5)。出力類似度と現在のクラスタを構成した文書群中での最小類似度との差が、出力ステップ以下である場合には(ステップS105−5否定)、クラスタリング部32は、ステップS105−2の併合処理に戻る。
一方、出力類似度と現在のクラスタを構成した文書群中での最小類似度との差が、出力ステップを上回る場合には(ステップS105−5肯定)、クラスタリング部32は、中間出力をし(ステップS105−6)、現在のクラスタを構成した文書群中での最小類似度を出力類似度に設定して(ステップS105−7)、ステップS105−2の併合処理に戻る。
例えば、出力類似度に「0」が設定されている状態で、クラスタリング部32が、ステップS105−2の併合処理をした結果、現在のクラスタを構成した文書群中での最小類似度が「0.918」になったとする。現在のクラスタを構成した文書群中での最小類似度「0.918」は、閾値レンジの最大値「0.95」を下回り、閾値レンジの最小値「0.3」を上回る。また、出力類似度と現在のクラスタを構成した文書群中での最小類似度との差は、「0.918」であり、出力ステップを上回る。このため、クラスタリング部32は、図13に示すように、クラスタを構成した文書群中での最小類似度が「0.918」となるクラスタリング結果を中間出力する。なお、図13において、クラスタIDが同一の文書は同一クラスタに属することを意味する。
同様に、クラスタリング部32は、図14〜図19に示すように、クラスタを構成した文書群中での最小類似度が「0.890」、「0.832」、「0.639」、「0.539」、「0.361」、「0.339」となるクラスタリング結果を、中間出力として出力する(図20を参照)。
図6に戻り、次に、文書クラスタリング装置10において、クラスタ状態評価部33は、ステップS105において中間出力された全てのクラスタリング結果に対して評価値を算出し、最大の評価値を取得する(ステップS106)。
ここで、図21〜図25を用いて、クラスタリング結果の評価処理について説明する。なお、図21は、クラスタリング結果の評価処理手順を示すフローチャートであり、図22は、クラスタを構成した文書群中での最小類似度0.832の中間出力に対する評価値計算例を示す図であり、図23は、評価値の計算式を説明するための図であり、図24は、クラスタを構成した文書群中での最小類似度0.832の中間出力に対する評価値を示す図であり、図25は、全中間出力に対する評価値及び最大評価値の選択を説明するための図である。
クラスタ状態評価部33は、図21に示す処理手順を、中間出力された全てのクラスタリング結果ごとに行う。図21に示すように、クラスタ状態評価部33は、まず、各クラスタをクラスタの要素数が多い順にソートする(ステップS106−1)。
例えば、クラスタを構成した文書群中での最小類似度「0.832」の中間出力に対する評価値計算例を説明すると、クラスタ状態評価部33は、例えば、図15に示すように、各クラスタを要素数が多い順にソートする。
次に、クラスタ状態評価部33は、クラスタを、要素数が等しいn個のブロックに分割する(ステップS106−2)。例えば、実施例1におけるクラスタ状態評価部33は、図22に示すように、要素数ができるだけ等しくなるように10個のブロックに分割する。図22では、クラスタ数が10に満たないため、頻度順にクラスタを並べた場合に上位2位と3位となるクラスタを2回カウントすることにより10ブロックに合わせるようにしている(クラスタID8とクラスタID9となるクラスタを重複してカウントするようにして10ブロックに合わせている。またこれに伴い、総文書数は17相当となっている)。文書数が十分にあり、クラスタが規定数(例えば、10以上)となる場合には、このような例外的な操作は必要ない。
続いて、クラスタ状態評価部33は、各ブロックでの文書ごとのキーワードの出現頻度の平均値を算出する(ステップS106−3)。例えば、図22の例の先頭のクラスタID7の文書で説明すると、「パスワード」、「忘れる」、「ログイン」、「パスワード」、「忘れる」の出現頻度が、図9よりそれぞれ、2、2、3、2、2となるので、キーワード出現頻度の平均値は、2.2=(2+2+3+2+2)/5となる。全てのブロックに対して同様に計算すると、図22の頻度のフィールドの値が得られる。
また、クラスタ状態評価部33は、各ブロックでの単語の平均個数相当の値を算出する(ステップS106−4)。図22に示す実施例では、単語数の代わりに各文書の文字数を平均キーワード長に相当する2.25で除した値を用いているが、キーワードの個数を用いてもよい。図22の例の先頭のクラスタID7の文書で説明すると、「パスワードを忘れました。」と「ログインできない。パスワードを忘れた。」の2つの文書の文字数を2.25で除し、その平均をとったものを単語数としている。すべてのブロックに対して同様に計算すると、図22の単語数のフィールドの値が得られる。
また、クラスタ状態評価部33は、上位ブロックm個中に含まれる文書数の全体に対する割合(上位カバー率)を算出する(ステップS106−5)。例えば、図22では、mを5として、ブロックのランクが4のものまで集計すると、文書数は、10=(2+2+2+2+2)となる。これを総文書数17で除すことにより、5.8という数値を得る(図24の上位カバー率)。なお、ステップS106−2において説明したように、ブロック数10に合わせるために例外的にクラスタを重複して数えている。
そして、クラスタ状態評価部33は、ステップS106−3で算出した平均出現頻度、ステップS106−4で算出した単語数、及び、ステップS106−5で算出した平均文書数を用いて評価値を算出する(ステップS106−6)。
ここで、ステップS106−6における評価値の算出は、図23に示す式によって算出される。ここで、実施例1において、ブロック数nは「10」である。また、上位カバー率とは、上位m個のブロックに含まれる文書数が全体に対してどのくらいの割合になるかを示すものである。出力例は、ステップS106−5において説明した通りである。
また、各ブロックでのキーワードの出現頻度の変動係数(標準偏差/平均値)は、図22に示す「頻度」の列の値のばらつきを示す値である。また、各ブロックでのキーワードの個数の変動係数は、図22に示す「クラスタキーワード数」の列の値のばらつきを示す値である。また、各ブロックでのキーワード数/文書中の単語の変動係数は、図22に示す「選別率」の列の値のばらつきを示す値である。なお、「選別率」は、文書に含まれる単語のうち、キーワードとして選択された単語の割合を示す値である。
こうして、図23に示す式に値を代入することで、図24に示すように評価値が得られる。ここで、図23に示す式の意味を説明すると、実施例1におけるクラスタ状態評価部33は、ブロックあたりの平均出現頻度のばらつきが小さく、ブロックあたりの単語数のばらつきが小さく、上位ブロック中の文書数が多い場合に、高い評価値を算出する。
同様に、クラスタ状態評価部33は、図21に示す処理手順を、中間出力された全てのクラスタリング結果ごとに行い、図25に示すように、全中間出力に対する評価値を得る。そして、クラスタ状態評価部33は、図25に示すように、評価値が最も高い値(9.944684)を示す中間出力類似度「0.339」のクラスタリング結果が、今回クラスタリングの最大評価値であり、最大評価値を示すクラスタリング結果であるとする。
図6に戻り、続いて、クラスタ状態評価部33は、ステップS106において得られた最大の評価値が、前回クラスタリングの最大評価値を上回るか否かを判定する(ステップS107)。最大の評価値が前回クラスタリングの最大評価値を上回らない場合には(ステップS107否定)、クラスタ状態評価部33は、クラスタリング処理を終了する。
一方、最大の評価値が前回クラスタリングの最大評価値を上回る場合には(ステップS107肯定)、クラスタ状態評価部33は、今回の最大の評価値を、前回クラスタリングの最大評価値として設定する(ステップS108)。例えば、前回クラスタリングの最大評価値が「0」で、今回クラスタリングの最大評価値が「9.944684」である場合には、「9.944684>0」であるので、クラスタ状態評価部33は、「9.944684」を前回クラスタリングの最大評価値に設定し、クラスタリング処理を継続する。
そして、文書クラスタリング装置10において、キーワード条件調整部34が、評価値が最大となるクラスタリング結果を用いて、キーワードの選択を変更する(ステップS109)。
ここで、図26〜図33を用いて、キーワードの調整処理について説明する。なお、図26及び図27は、キーワードの調整処理手順を示すフローチャートであり、図28は、クラスタを構成した文書群中での最小類似度0.832の中間出力例を示す図であり、図29は、共通キーワードの選択を説明するための図であり、図30は、ウィンドウのずらしを説明するための図であり、図31は、キーワードの調整結果を示す図であり、図32は、調整後のキーワードを用いたクラスタリングを説明するための図であり、図33は、調整後のクラスタリング結果に対する評価値計算例を示す図である。
図26に示すように、キーワード条件調整部34は、まず、クラスタごとに、該クラスタに属する文書に含まれるキーワードを該クラスタにおける出現頻度が大きい順に抽出し、クラスタ共通キーワードとする(ステップS109−1)。
例えば、キーワード条件調整部34は、図28に示すクラスタID「2」のクラスタについて、クラスタ「2」に属する文書に含まれるキーワードは、「ランプ」、「点滅」、「トナー」、「プリンタ」、「補充」、「音」である。これらのキーワードのクラスタ「2」における出現頻度は、それぞれ、「ランプ」が「3」、「点滅」が「3」、「トナー」が「2」、「プリンタ」が「2」、「補充」が「2」、「音」が「1」である。そこで、キーワード条件調整部34は、出現頻度が大きい順に4つのキーワードを抽出し、共通キーワードとする。例えば、キーワード条件調整部34は、図29に示すように、「ランプ」、「点滅」、「プリンタ」、「補充」を共通キーワードとする。
次に、キーワード条件調整部34は、文書を1つ選択し、選択済みのマークを付ける(ステップS109−2)。
そして、キーワード条件調整部34は、選択する文書がないか否かを判定し(ステップS109−3)、ない場合には(ステップS109−3肯定)、処理を終了する。
一方、選択する文書がある場合には(ステップS109−3否定)、キーワード条件調整部34は、文書のキーワードに対してウィンドウをセットする(ステップS109−4)。
そして、キーワード条件調整部34は、ウィンドウを左にずらした場合に文書が属する可能性が高いクラスタを求め(ステップS109−5)、また、ウィンドウを右にずらした場合に文書が属する可能性が高いクラスタを求める(ステップS109−6)。例えば、実施例1におけるキーワード条件調整部34は、ウィンドウを左にずらした場合は、左にずらすことができないのでそのままの場合として扱い、ウィンドウを右にずらした場合には、キーワードの数が減った状態で求める。なお、実施例1においては、キーワードの下限数は「3」とし、これを割り込む場合には適用除外とする。
例えば、キーワード条件調整部34は、図27に示すように、ウィンドウをずらした場合のキーワードとの類似度が最大となるクラスタを求める(ステップS201)。この時、キーワード条件調整部34は、ウィンドウをずらした場合のキーワードとクラスタごとに抽出したクラスタ共通キーワードとを用いて、文書とクラスタとの間の類似度を計算する。
そして、キーワード条件調整部34は、ステップS201において求めたクラスタが、対象文書が現在属するクラスタと変化がないか否かを判定し(ステップS202)、変化がない場合には(ステップS202肯定)、そのまま処理を終了する。変化がある場合には(ステップS202否定)、キーワード条件調整部34は、ステップS201において求めたクラスタを、ウィンドウをずらした場合に文書が属する可能性が高いクラスタとする。なお、文書とクラスタとの間の類似度が閾値以下の場合には、キーワード条件調整部34は、類似するクラスタがないとみなし、要素数1のクラスタが新規に生成されるものとする(ステップS203)。
図26に戻り、すると、キーワード条件調整部34は、文書が現在属するクラスタに対してウィンドウを左にずらした場合、右にずらした場合、そのままの場合のそれぞれについて、評価値を算出する(ステップS109−7)。例えば、キーワード条件調整部34は、文書が、ステップS109−5においてキーワード条件調整部34によって求められたクラスタLに属する場合の評価値を再計算する。すなわち、キーワード条件調整部34は、図22に相当する表を再作成し、図23に示す式に値を代入して評価値を再計算する。
この結果、例えば、図30に示すように、文書ID「Doc0001」については、ウィンドウを左にずらした場合には変化がなく、右にずらした場合には文書が属する可能性が高い別クラスタが存在し、評価値が向上する、との結果がでたとする。
図26に戻り、キーワード条件調整部34は、評価値が最大となる処置を選択し(ステップS109−8)、続いて、まだ選択されていない文書を選択し(ステップS109−9)、ステップS109−3の処理に戻る。
こうして、キーワード条件調整部34は、全ての文書についてキーワードの調整処理を行い、調整結果を取得すると、キーワードの選択を変更する。例えば、図31に示すような調整結果を取得した場合には、クラスタの評価値が向上している文書ID「Doc0001」の文書について、キーワードを「ランプ」、「点滅」、「トナー」、「プリンタ」、「補充」から、「点滅」、「トナー」、「プリンタ」、「補充」に変更する。
図6に戻り、キーワードの選択が変更されると、文書クラスタリング装置10は、ステップS105に戻り、クラスタリング部32が、変更されたキーワードを用いてクラスタリングを実行する(ステップS105)。例えば、クラスタリング部32は、ステップS105において中間出力された全てのクラスタリング結果に対して再び評価値を算出し、最大の評価値を再び取得する(ステップS106)。この結果、例えば、クラスタリング部32は、図32に示すようなクラスタリング結果を、最大の評価値のクラスタリング結果として取得したとする。なお、図33は、調整後のクラスタリング結果に対する評価値計算例を示す図である。また、図33でも、ブロック数10にクラスタ数が満たないため、上位2位、3位のクラスタを重複して数えている。
そして、クラスタ状態評価部33は、ステップS106において得られた最大の評価値が、前回クラスタリングの最大評価値を上回るか否かを判定する(ステップS107)。例えば、前回クラスタリングの最大評価値が「9.944684」で、今回クラスタリングの最大評価値が「9.944686」である場合には、「9.944686>9.944684」であるので、クラスタ状態評価部33は、クラスタリング処理を継続する。
すなわち、再び、クラスタ状態評価部33が、今回の最大の評価値を、前回クラスタリングの最大評価値として設定し(ステップS108)、キーワード条件調整部34が、評価値が最大となるクラスタリング結果を用いて、キーワードの選択を変更する(ステップS109)。
一方、上回らない場合には(ステップS107否定)、クラスタ状態評価部33は、クラスタリング処理を終了する。
このような処理を繰り返して得られたクラスタリングの最終結果が、図34に示す結果である。なお、クラスタ状態評価部33は、今回のクラスタリング結果の評価値は前回のクラスタリングの最大評価値を下回るので、前回のクラスタリング結果を最終結果とする。図34は、最終結果を示す図である。
[実施例1の効果]
上記してきたように、実施例1では、キーワード抽出部31が、文書の集合体から出現頻度が相対的に高いキーワードを抽出し、クラスタリング部32が、抽出されたキーワードを用いて集合体をクラスタリングする。また、クラスタ状態評価部33が、各クラスタの評価値を算出し、キーワード条件調整部34が、評価値算出後、クラスタリングに用いるキーワードの選択を変更する。そして、クラスタリング部32が、変更後の単語を用いて集合体を再びクラスタリングし、クラスタ状態評価部33が、クラスタリングされた各クラスタの評価値を再び算出する。続いて、クラスタ状態評価部33が、変更後の評価値と変更前の評価値とを比較し、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いるキーワードの選択を変更する。
また、実施例1では、クラスタリング部32は、文書の集合体から抽出されたキーワードのうち、出現頻度が最も高いキーワードから順に所定数のキーワードをクラスタリングに用いている。そして、キーワード条件調整部34は、出現頻度が最も高い単語を、前回のクラスタリングで選択されていなかったキーワードに入れ替えることで、キーワードの選択を変更する。
このようなことから、実施例1に係る文書クラスタリング装置10は、クラスタリングに用いるキーワードの選択を変更しながら評価値が向上する限りクラスタリングを繰り返し行うので、適切なクラスタリング結果を得ることが可能になる。
すなわち、実施例1に係る文書クラスタリング装置10は、1回のクラスタリングでクラスタリングを終了することなく、クラスタリングに用いるキーワードの選択を変更しながら評価値が向上する限りクラスタリングを繰り返し行うフィードバック方式である。すると、例えば、文書の集合体全体における出現頻度が低い単語でありながら当該文書を特徴づける単語として適切な単語は、キーワードの初期選択では選択されなくとも、キーワードの選択変更によりあるタイミングで選択されることになる。この時評価値は向上するはずであり、適切なクラスタリング結果を得ることが可能になる。
また、実施例1に係る文書クラスタリング装置10は、適切な評価式で評価値を算出する。このため、クラスタリングに用いるキーワードの選択が適切なものであるか否かを適切に評価することが可能になる。
また、実施例1に係る文書クラスタリング装置は、全てのキーワード選択変更時のクラスタリング結果の影響など計算量的な困難な状態を回避し、かつ単にやみくもにキーワードの選択を変更するのではなくキーワード選択変更時のクラスタリング結果への影響を個々の文書ごとに算出した結果に基づき予測している(図26のS109−7〜S109−8など)。これにより、キーワードの選択変更に伴う試行コストを低減することも可能になる。
[他の実施例]
さて、これまで実施例1について説明してきたが、上記した実施例1以外にも、種々の異なる形態にて実施されてよいものである。
[クラスタリングのアルゴリズム]
実施例1では、クラスタリングのアルゴリズムとして階層型クラスタリングのアルゴリズムを用いる手法を説明してきたが、これに限られるものではない。例えば、階層型クラスタリングのアルゴリズムとしては、最短距離法、単連結法、最長距離法、完全連結法、群平均法、ウォード法などの手法があるが、いずれの手法を用いてもよい。また、階層型クラスタリング以外のアルゴリズムとして、例えば、分割最適化型のアルゴリズムを用いてもよい。すなわち、文書の集合体を単語を用いてクラスタリングすることができるアルゴリズムであれば、どのような手法を用いてもよい。
[キーワードの選択変更]
また、実施例1では、キーワードの選択を変更する手法として、出現頻度が最も高い単語を除く手法を説明したが、これに限られるものではない。例えば、出現頻度の高い単語を、選択されていなかった単語に入れ替える手法や、前回のクラスタリングで選択されていなかった単語を追加する手法にも、同様に適用することができる。
[終了判断]
また、実施例1では、今回の評価値が前回の評価値を上回る場合にのみ、次回のクラスタリングに移行する例、すなわち、今回の評価値と前回の評価値とが同一である場合には、クラスタリング処理を終了する例を説明したが、これに限られるものではない。今回の評価値と前回の評価値とが同一である場合にも、次回のクラスタリングに移行するように処理手順を変更してもよい。
[コンピュータ]
また、実施例1で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図35を用いて、上記の実施例1と同様の機能を有する文書クラスタリングプログラムを実行するコンピュータの一例を説明する。図35は、文書クラスタリングプログラムを実行するコンピュータを示す図である。
図35に示すように、文書クラスタリングプログラム(コンピュータ)40は、キャッシュ41、RAM(Random Access Memory)42、HDD(Hard Disk Drive)43、ROM(Read Only Memory)44およびCPU(Central Processing Unit)45をバス46で接続して構成される。ここで、ROM44には、上記の実施例1と同様の機能を発揮する文書クラスタリングプログラム、つまり、図35に示すように、第一クラスタリングプログラム44a、第一評価プログラム44b、第一変更プログラム44c、第二クラスタリングプログラム44d、第二評価プログラム44e、比較プログラム44f、及び第二変更プログラム44gが備えられる。
そして、CPU45は、これらのプログラム44a〜44gを読み出して実行することで、図35に示すように、各プログラム44a〜44gは、第一クラスタリングプロセス45a、第一評価プロセス45b、第一変更プロセス45c、第二クラスタリングプロセス45d、第二評価プロセス45e、比較プロセス45f、及び第二変更プロセス45gとなる。なお、第一クラスタリングプロセス45a及び第二クラスタリングプロセス45dは、図2に示したクラスタリング部32に対応し、第一評価プロセス45b、第二評価プロセス45e及び比較プロセス45fは、図2に示したクラスタ状態評価部33に対応し、第一変更プロセス45c及び第二変更プロセス45gは、図2に示したキーワード条件調整部34に対応する。
また、HDD43は、図35に示すように、入力文書テーブル43a及びクラスタリング結果テーブル43bを備える。なお、各テーブル43a及び43bは、図2に示した入力文書記憶部21及びクラスタリング結果記憶部22に各々対応する。
ところで、上記した各プログラム44a〜44gについては、必ずしもROM44に記憶させておく必要はなく、例えば、コンピュータ40に挿入されるフレキシブルディスク(FD)、CD−ROM、MOディスク、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータ40の内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)などを介してコンピュータ40に接続される「他のコンピュータ(またはサーバ)」に記憶させておき、コンピュータ40がこれらからプログラムを読み出して実行するようにしてもよい。
[その他]
この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示(例えば、図2など)の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)文書の集合体から出現頻度が相対的に高い単語として抽出された単語を用いて該集合体をクラスタリングする第一クラスタリング手順と、
前記第一クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第一評価手順と、
前記第一評価手順による評価値算出後、クラスタリングに用いる前記単語の選択を変更する第一変更手順と、
前記第一変更手順による変更後の単語を用いて前記集合体をクラスタリングする第二クラスタリング手順と、
前記第二クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第二評価手順と、
前記第一評価手順によって算出された評価値と前記第二評価手順によって算出された評価値とを比較する比較手順と、
前記比較手順による比較の結果、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いる前記単語の選択を変更する第二変更手順と
をコンピュータに実行させることを特徴とする文書クラスタリングプログラム。
(付記2)前記第一クラスタリング手順および前記第二クラスタリング手順は、所定数の単語を用いて該集合体をクラスタリングし、
前記第一変更手順は、前記第一クラスタリング手順によって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更し、
前記第二変更手順は、前記第二クラスタリング手順によって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更することを特徴とする付記1に記載の文書クラスタリングプログラム。
(付記3)文書の集合体から出現頻度が相対的に高い単語として抽出された単語を用いて該集合体をクラスタリングする第一クラスタリングステップと、
前記第一クラスタリングステップによってクラスタリングされた各クラスタの評価値を算出する第一評価ステップと、
前記第一評価ステップによる評価値算出後、クラスタリングに用いる前記単語の選択を変更する変更ステップと、
前記第一変更ステップによる変更後の単語を用いて前記集合体をクラスタリングする第二クラスタリングステップと、
前記第二クラスタリングステップによってクラスタリングされた各クラスタの評価値を算出する第二評価ステップと、
前記第一評価ステップによって算出された評価値と前記第二評価ステップによって算出された評価値とを比較する比較ステップと、
前記比較ステップによる比較の結果、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いる前記単語の選択を変更する第二変更ステップと
をコンピュータが実行することを特徴とする文書クラスタリング方法。
(付記4)前記第一クラスタリングステップおよび前記第二クラスタリングステップは、所定数の単語を用いて該集合体をクラスタリングし、
前記第一変更ステップは、前記第一クラスタリングステップによって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更し、
前記第二変更ステップは、前記第二クラスタリングステップによって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更することを特徴とする付記3に記載の文書クラスタリング方法。
10 文書クラスタリング装置
21 入力文書記憶部
22 クラスタリング結果記憶部
30 制御部
31 キーワード抽出部
32 クラスタリング部
33 クラスタ状態評価部
34 キーワード条件調整部

Claims (3)

  1. 文書の集合体から出現頻度が相対的に高い単語として抽出された単語を用いて該集合体をクラスタリングする第一クラスタリング手順と、
    前記第一クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第一評価手順と、
    前記第一評価手順による評価値算出後、クラスタリングに用いる前記単語の選択を変更する第一変更手順と、
    前記第一変更手順による変更後の単語を用いて前記集合体をクラスタリングする第二クラスタリング手順と、
    前記第二クラスタリング手順によってクラスタリングされた各クラスタの評価値を算出する第二評価手順と、
    前記第一評価手順によって算出された評価値と前記第二評価手順によって算出された評価値とを比較する比較手順と、
    前記比較手順による比較の結果、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いる前記単語の選択を変更する第二変更手順と
    をコンピュータに実行させることを特徴とする文書クラスタリングプログラム。
  2. 前記第一クラスタリング手順および前記第二クラスタリング手順は、所定数の単語を用いて該集合体をクラスタリングし、
    前記第一変更手順は、前記第一クラスタリング手順によって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更し、
    前記第二変更手順は、前記第二クラスタリング手順によって用いられた前記所定数の単語のうち、出現頻度が最も高い単語を、該所定数の単語として用いられなかった単語に置き換えることで、前記単語の選択を変更することを特徴とする請求項1に記載の文書クラスタリングプログラム。
  3. 文書の集合体から出現頻度が相対的に高い単語として抽出された単語を用いて該集合体をクラスタリングする第一クラスタリングステップと、
    前記第一クラスタリングステップによってクラスタリングされた各クラスタの評価値を算出する第一評価ステップと、
    前記第一評価ステップによる評価値算出後、クラスタリングに用いる前記単語の選択を変更する変更ステップと、
    前記第一変更ステップによる変更後の単語を用いて前記集合体をクラスタリングする第二クラスタリングステップと、
    前記第二クラスタリングステップによってクラスタリングされた各クラスタの評価値を算出する第二評価ステップと、
    前記第一評価ステップによって算出された評価値と前記第二評価ステップによって算出された評価値とを比較する比較ステップと、
    前記比較ステップによる比較の結果、変更後の評価値が変更前の評価値を上回る場合には、クラスタリングに用いる前記単語の選択を変更する第二変更ステップと
    をコンピュータが実行することを特徴とする文書クラスタリング方法。
JP2009021618A 2009-02-02 2009-02-02 文書クラスタリングプログラム及び文書クラスタリング方法 Withdrawn JP2010176626A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009021618A JP2010176626A (ja) 2009-02-02 2009-02-02 文書クラスタリングプログラム及び文書クラスタリング方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009021618A JP2010176626A (ja) 2009-02-02 2009-02-02 文書クラスタリングプログラム及び文書クラスタリング方法

Publications (1)

Publication Number Publication Date
JP2010176626A true JP2010176626A (ja) 2010-08-12

Family

ID=42707495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009021618A Withdrawn JP2010176626A (ja) 2009-02-02 2009-02-02 文書クラスタリングプログラム及び文書クラスタリング方法

Country Status (1)

Country Link
JP (1) JP2010176626A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002212A1 (ja) * 2012-06-27 2014-01-03 株式会社日立製作所 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
JP2014164554A (ja) * 2013-02-26 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 負荷分散判定システム
JP2015153188A (ja) * 2014-02-14 2015-08-24 日本電信電話株式会社 作業記録内容解析装置及び方法及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002212A1 (ja) * 2012-06-27 2014-01-03 株式会社日立製作所 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
JP5894273B2 (ja) * 2012-06-27 2016-03-23 株式会社日立製作所 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
JP2014164554A (ja) * 2013-02-26 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 負荷分散判定システム
JP2015153188A (ja) * 2014-02-14 2015-08-24 日本電信電話株式会社 作業記録内容解析装置及び方法及びプログラム

Similar Documents

Publication Publication Date Title
CN108763402B (zh) 基于依存关系、词性和语义词典的类中心向量文本分类法
Lo et al. Automatically building a stopword list for an information retrieval system
Gruenheid et al. Incremental record linkage
Shahana et al. Survey on feature subset selection for high dimensional data
Janssens et al. A hybrid mapping of information science
Kulkarni et al. Document allocation policies for selective searching of distributed indexes
Culpepper et al. Dynamic cutoff prediction in multi-stage retrieval systems
JP5746426B2 (ja) インデックスドキュメントの発見
JP6870421B2 (ja) 判定プログラム、判定装置および判定方法
Vani et al. Using K-means cluster based techniques in external plagiarism detection
JP6620241B2 (ja) ログ解析のための高速パターン発見
Tang et al. An artificial immune system approach to document clustering
Cosma et al. Evaluating the performance of lsa for source-code plagiarism detection
Rother et al. CMCE at SemEval-2020 task 1: Clustering on manifolds of contextualized embeddings to detect historical meaning shifts
JP2010176626A (ja) 文書クラスタリングプログラム及び文書クラスタリング方法
JP4967705B2 (ja) クラスタ生成装置およびクラスタ生成プログラム
Nanas et al. A network-based model for high-dimensional information filtering
JP2007334388A (ja) クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Aras et al. Get Your Hands Dirty: Evaluating Word2Vec Models for Patent Data.
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP2005141428A (ja) 単語列抽出方法、装置及び単語列抽出プログラムを記録した記録媒体
Phung et al. A study on the use of word embeddings and pagerank for vietnamese text summarization
JP4705430B2 (ja) 距離の概念に基づく言語処理装置
JP2005326922A (ja) 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置
KR102496551B1 (ko) 동의어 규칙을 이용한 문자열 매칭 방법 및 이를 구현하는 장치 및 프로그램

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120403