JP2004234051A - 文章分類装置およびその方法 - Google Patents
文章分類装置およびその方法 Download PDFInfo
- Publication number
- JP2004234051A JP2004234051A JP2003018295A JP2003018295A JP2004234051A JP 2004234051 A JP2004234051 A JP 2004234051A JP 2003018295 A JP2003018295 A JP 2003018295A JP 2003018295 A JP2003018295 A JP 2003018295A JP 2004234051 A JP2004234051 A JP 2004234051A
- Authority
- JP
- Japan
- Prior art keywords
- words
- clustering
- sentence
- rule
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】広く集められた文章を、有用な情報を含むグループに分類し、利用者に提供する。
【解決手段】コールセンター3のオペレータ端末32に、相談・問い合わせのテキストデータが入力される。クラスタリング装置4は、このテキストデータを受け入れて記憶し、記憶したテキストデータに含まれる単語同士を、係り受け関係により関連づける。さらに、クラスタリング装置4は、関連づけた単語同士の相関関係を求め、絞り込み、分類して、クラスタリング規則Aを作成する。クラスタリング装置4は、このクラスタリング規則Aに基づいて、記憶したテキストデータをクラスに分類する。このようにして得られたクラスは、他部門システム220に配信される。
【選択図】 図1
【解決手段】コールセンター3のオペレータ端末32に、相談・問い合わせのテキストデータが入力される。クラスタリング装置4は、このテキストデータを受け入れて記憶し、記憶したテキストデータに含まれる単語同士を、係り受け関係により関連づける。さらに、クラスタリング装置4は、関連づけた単語同士の相関関係を求め、絞り込み、分類して、クラスタリング規則Aを作成する。クラスタリング装置4は、このクラスタリング規則Aに基づいて、記憶したテキストデータをクラスに分類する。このようにして得られたクラスは、他部門システム220に配信される。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、文章を、その内容に応じて分類する文章分類装置およびその方法に関する。
【0002】
【従来の技術】
例えば、非特許文献1,2などには、市場調査などに用いられるデータマイニングの一種であり、テキストデータを処理の対象とするテキストマイニングを開示する。
また、非特許文献3には、文章を単語に分解するソフトウェア(茶筅)が開示されている。
また、非特許文献4には、文章に含まれる単語の相関関係を示す規則(相関規則;相関ルール)を求める方法が開示されており、さらに、非特許文献5には、相関規則を求めるソフトウェア(Apriori)が開示されている。
また、非特許文献6には、テキストの集合からその特徴を抽出するソフトウェア(Aleph)が開示されている。
また、非特許文献7には、日本語分の単語の係り受け関係(例えば、主語と動詞、動詞と目的語・補語)を解析するためのソフトウェア(CaboCha)が開示されている。
【0003】
ここで、コンピュータやOA機器のメーカー・商社では、ユーザの相談を受け付ける部門が設けられ、このような部門は、コールセンターなどと呼ばれることが多い。
このコールセンターに受け付けられる相談には、製品開発のためのヒントが多く含まれるが、ユーザと製品開発者との間で、文章に用いる言葉が違うことがある。
従って、コールセンターが受け付けた相談をデータベース化しても、製品開発者が、ユーザが相談に用いる言葉を知らなければ、有用な情報を上手く引き出すことができない。
【0004】
このような点に対し、例えば、非特許文献8,9は、コールセンターで受け付けられたテキストに対して、単語間の相関の抽出を行うことにより、知識を得るための方法を開示する。
しかしながら、これら非特許文献8,9には、係り受け関係を有する複数の単語の間の相関関係を抽出し、さらに、この相関関係を、事前確信度と事後確信度との差を用いて絞り込み、データマイニングを行う方法を開示してはいない。
【0005】
【非特許文献1】特集「テキストマイニング」,人工知能学会誌 vol.16, No.2, 2001
【非特許文献2】特集「ナレッジ・マネージメントとその支援技術」,人工知能学会誌 vol.16, No.1, 2001
【非特許文献3】http://chasen.aist−nara.ac.jp/index.html.ja
【非特許文献4】データマイニング(データサイエンス・シリーズ3,福田他、共立出版社(2001年9月1日初版第1刷),ISBN−4−320−12002−7)
【非特許文献5】http://fuzzy.cs.uni−magdeburg.de/ ̄borgelt/apriori/
【非特許文献6】http://web.comlab.ox.ac.uk/oucl/research/areas/machlearn/Aleph/
【非特許文献7】http://cl.aist−nara.ac.jp/ ̄taku−ku/software/cabocha/
【非特許文献8】コールセンターにおけるテキストマイニング(人工知能学会誌16巻2号、p220〜225、那須川)
【非特許文献7】テキストマイニング:膨大な文章データからの知識獲得−意図の認識−(情報処理学会第57回(平成10年後期)全国大会予稿;3−75、那須川他)
【0006】
【発明が解決しようとする課題】
本発明は、上述した背景からなされたものであり、広く集められた文章を、有用な情報を含むグループに分類し、利用者に提供することができる文章分類装置およびその方法を提供することを目的とする。
また、本発明は、上述した背景からなされたものであり、係り受け関係を有する複数の単語の間の相関関係を抽出し、さらに、この相関関係を絞り込んでデータマイニングを行うための文章分類装置およびその方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
[文章分類装置]
上述した目的を達成するために、本発明にかかる文章分類装置は、複数の単語を含む文書を、0以上のグループに分類する文章分類装置であって、前記複数の文章それぞれに含まれる複数の単語を抽出する単語抽出手段と、前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類する単語分類手段と、前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記0以上のグループに分類するための分類規則を作成する分類規則作成手段とを有する。
【0008】
好適には、前記作成された分類規則に基づいて、前記複数の文章を、前記0以上のグループに分類する文章分類手段をさらに有する。
【0009】
好適には、前記文章分類手段は、前記分類規則が作成された後は、新たに分類の対象とされた文章を、既に作成された前記分類規則に基づいて、前記グループの内の0以上に分類する。
【0010】
好適には、前記相関規則作成手段は、同じ前記文章の単語から得られた関連単語の組み合わせを作成する組み合わせ作成手段と、前記作成された組み合わせを、所定の条件に合わせるように処理する組み合わせ処理手段とを有する。
【0011】
好適には、前記組み合わせは、前記文章に、1つ以上の第1の関連単語が含まれる場合に、同一の前記文章に、他の1つ以上の第2の関連単語が含まれることを示す。
【0012】
好適には、前記組み合わせ処理手段は、前記作成された組み合わせの内、所定の割合以上または所定数以上の前記文章に適合する組み合わせを選択する処理を行う。
【0013】
好適には、前記組み合わせ処理手段は、前記第1の関連単語が含まれる前記文章が所定の割合以上となる組み合わせ、または、前記第1の関連単語が含まれる前記文章の内、前記第2の単語単語が含まれる前記文章の割合と、前記第2の関連単語が含まれる前記文章の割合との差が所定値以上となる組み合わせを選択する処理を行う。
【0014】
好適には、前記単語抽出手段は、前記複数の単語それぞれの品詞をさらに識別し、前記単語分類手段は、前記識別された単語それぞれの品詞に基づいて、前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類する。
【0015】
[文章分類方法]
また、本発明にかかる文章分類方法は、複数の単語を含む文書を、0以上のグループに分類する文章分類方法であって、前記複数の文章それぞれに含まれる複数の単語を抽出し、前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類し、前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記0以上のグループに分類するための分類規則を作成する。
【0016】
好適には、前記作成された分類規則に基づいて、前記複数の文章を、前記0以上のグループに分類する。
【0017】
好適には、複数の単語を含む文書を、0以上のグループに分類するためのプログラムであって、前記複数の文章それぞれに含まれる複数の単語を抽出し、前記抽出された単語それぞれの品詞を識別するステップと、前記抽出された単語それぞれの品詞に基づいて、前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類するステップと、前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記0以上のグループに分類するための分類規則を作成するステップとをコンピュータに実行させる。
【0018】
好適には、前記作成された分類規則に基づいて、前記複数の文章を、前記0以上のグループに分類するステップをコンピュータに実行させる。
【0019】
【発明の実施の形態】
以下、本発明の実施形態を説明する。
【0020】
[データマイニングシステム1]
図1は、本発明にかかる文章データ分類方法が適用されるデータマイニングシステム1の構成を示す図である。
図1に示すように、データマイニングシステム1は、電話ネットワーク20に接続されたコールセンター3、クラスタリング装置4、および、LAN・WANなどのプライベートネットワーク22から構成される。
ネットワーク22は、クラスタリング装置4と他部門のシステム200−1〜220−nとを接続する。
電話ネットワーク20は、例えば一般的な公衆電話回線であって、多数のユーザ側電話機200と、1台以上のセンタ側の電話機202−1〜202−m(mは1以上の整数)とが接続される。
コールセンター3は、LAN34を介してクラスタリング装置4と接続されるコール受付装置30−1〜30−mを含む。
コール受付装置30−1〜30−mそれぞれは、オペレータ端末32−1〜32−mそれぞれと、電話機202−1〜202−mそれぞれとを含む。
【0021】
データマイニングシステム1は、これらの構成部分により、例えば、コンピュータ・OA機器メーカにおいて、ユーザからの相談・問い合わせなどを受け付け、受け付けた相談・問い合わせの文章を、開発部門などの他部門それぞれの業務に有用な情報を含むグループ(クラス)に分類し、他部門のシステム220−1〜220−nに提供する。
なお、コール受付装置30−1〜30−mなど、複数ある構成部分のいずれかを、特定せずに示す場合には、単にコール受付装置30などと記載することがある。
【0022】
[ハードウェア構成]
次に、オペレータ端末32,クラスタリング装置4および他部門システム220のハードウェア構成を説明する。
図2は、図1に示したオペレータ端末32、クラスタリング装置4および他部門のシステム220のハードウェア構成を例示する図である。
図2に示すように、オペレータ端末32、クラスタリング装置4および他部門のシステム220は、それぞれ、CPU102およびメモリ104などを含む本体10、オペレータ端末32・クラスタリング装置4・他部門システム220の間の通信を行う通信装置12、HDD・CD装置などの記録装置14、および、LCD表示装置・キーボード・マウスなどを含む表示・入力装置16から構成される。
つまり、オペレータ端末32、クラスタリング装置4および他部門システム220は、通信機能を有する一般的なコンピュータとしての構成部分を有する。
【0023】
[コール受付装置30]
次に、データマイニングシステム1のコール受付装置30および他部門システム220の動作を説明する。
コール受付装置30は、オペレータ(図示せず)が、ユーザからの相談・問い合わせの電話を受け付け、相談・問い合わせの内容を入力するために用いられる。
つまり、ユーザが、ユーザ側電話機200からセンタ側電話機202に電話をかけ、コール受付装置30のオペレータに音声で相談・問い合わせをすると、コール受付装置30のオペレータは、その内容を記した文章を、オペレータ端末32に入力し、相談・問い合わせのテキストデータを作成する。
なお、コール受付装置30は、ユーザからの相談・問い合わせを、電子メールを利用して受け、受けた電子メールをそのまま、相談・問い合わせの内容を示す文章のテキストデータとして作成してもよい。
コール受付装置30のオペレータ端末32は、このようにして作成したテキストデータを、LAN34を介して、クラスタリング装置4に対して送信する。
【0024】
[他部門システム220]
他部門システム220は、例えば、開発部門・営業部門など、各部門に設置され、クラスタリング装置4から、意味や内容に基づいて分類されたテキストデータのグループ(クラス)を受け、部門の構成員(図示せず)に示す。
【0025】
[クラスタリング装置4]
次に、クラスタリング装置4上で動作するクラスタリングプログラム5の構成および動作を説明する。
図3は、図1,図2に示したクラスタリング装置4において実行されるクラスタリングプログラム5の構成を示す図である。
図3に示すように、クラスタリングプログラム5は、前処理部50、相関規則作成部52、意味付け・分類部54およびクラスタリング処理部56から構成される。
【0026】
前処理部50は、テキスト受信部500、テキストデータベース(テキストDB)502、分かち書き処理部504、テキスト・単語DB506および関連付け処理部508を含む。
相関規則作成部52は、相関規則作成処理部520、絞り込み処理部522および相関規則DB524を含む。
意味付け・分類部54は、意味付け処理部540、クラスタリング規則DB542、分類処理部544、意味付け・分類DB546およびユーザインターフェース(UI)・処理制御部548を含む。
【0027】
クラスタリング処理部56は、クラスタリング処理部560、クラスDB562およびクラス配信部564から構成され、図3中に点線で示すように、必要に応じて、クラスタリング規則作成部566をさらに含む。
なお、クラスタリングプログラム5を、各データベースの内、共用可能なものは、一体化した構成としてもよい。
クラスタリングプログラム5は、これらの構成部分により、コールセンター3から相談・問い合わせのテキストデータを受け、各部門に有用なクラスに分類して、他部門システム220に配信する。
【0028】
図6は、図3に示したクラスタリングプログラム5の前処理部50の処理を示す図であって、(A)は、テキストDB502に記憶されるテキストデータQの集合を模式的に示し、(B)は、テキストデータQの内容を例示し、(C)は、分かち書き処理部504が、テキストデータを処理して得られる単語(分かち書き結果)を示す。
但し、以下の各図において、クラスタリングプログラム5の各構成部分が処理の対象としている文章は、必ずしも同一ではない。
【0029】
なお、図6(A)〜(C)には、(A)に示すテキストデータの1つ「Q」の文章が、(B)に示すように、「YY使用中。200DPIくらいで図面を取り込んでいるが、かなり綺麗に入る。これを、XXのオブジェに持ってゆくと、かなり荒れてしまうが、何かいい方法はないですか?」である場合が示されている。
また、図6(C)には、この文章が、「YY(機種名)」、「使用中」などの単語に分解され、さらに、これらの単語が、それぞれ固有名詞、名詞などと識別される場合が示されている。
【0030】
前処理部50において、テキスト受信部500は、オペレータ端末32それぞれからテキストデータ(相談・問い合わせ文)を受け、フォーマットを統一して、図6(C)に示すように、テキストDB502に記憶する。
分かち書き処理部504としては、例えば、上述したソフトウェア「茶筅」が用いられ、テキストDB502に記憶されたテキストデータそれぞれが示す文章(以下、「テキストデータそれぞれが示す文章」を、単に「テキストデータの文章」とも記す)、例えば、図6(B)に示す文章(相談・問い合わせ文)に含まれる単語の全てを、図6(C)に示すように分離し、分離した単語それぞれの品詞を判定する(分かち書き処理)。
【0031】
なお、この部分および以下の説明において、「茶筅」など、具体的なソフトウェアが例示される場合があるが、これは、発明の説明の明確化のためであって、本発明の技術的範囲の限定を意図するものではない。
具体例として挙げられたソフトウェアは、他の同等な機能・性能を有する他の手段に置換可能である。
【0032】
図4は、文章の句構造を例示する図である。
図4に示すように、日本語の文章も、英文の構文解析に倣って、句構造に分解されうる。
分かち書き処理部504は、分かち書き処理の結果として得られた単語の内、相関規則作成部52および意味付け・分類部54の処理において用いられる重要語、例えば、名詞、動詞、形容詞、形容動詞および固有名詞(分かち書き処理部504は、固有名詞を未知の品詞の単語と判定することがある)と判定された単語と、これらの単語の品詞と、これらの単語を含む文章のテキストデータとを対応づけて、テキスト・単語DB506に記憶する。
なお、分かち書き処理部504により得られた単語の品詞を示す情報は、必要に応じて、後述するクラスタリング規則作成部566によるクラスタリング規則Bの作成処理においても利用されうる。
【0033】
図5は、文章に含まれる単語の係り受け構造を例示する図である。
図5に示すように、文章に含まれる単語の間には、係り受けの関係がある。
関連付け処理部508としては、例えば、上述したソフトウェア「CaboCha」が用いられる。
関連付け処理部508は、分かち書き処理部504による分かち書き処理の結果として得られ、テキスト・単語DB506に記憶された単語の内、係り受け関係にある2つ以上の単語を関連づけ、関連ある単語同士を関連単語W(RW)({W(RW);w1〜wp;rw1〜rwq}、但し単語rwは単語wを受ける単語、p、q≧1)として、テキスト・単語DB506に記憶する。
関連付け処理部508の処理を、具体例を挙げて、さらに説明する。
例えば、具体例として、分かち書き処理部504により、テキストデータの文章から、「拡大コピー(名詞)」と「取る(動詞)」、および、「紙詰まり(名詞)」と「解決する(動詞)」が分離され、品詞が識別された場合を考える。
【0034】
この場合、関連付け処理部508は、名詞「拡大コピー」は、動詞「取る」の主語であって、「拡大コピー」は、「取る」に係る単語(「取る」は「拡大コピー」を受ける単語)であるとして、「拡大コピー」と「取る」とを関連づけ、関連単語(拡大コピー→取る)として、テキスト・単語DB506に記憶する。
同様に、関連付け処理部508は、名詞「紙詰まり」は、動詞「解決する」の目的語であって、「紙詰まり」は、「解決する」に係る単語(「解決する」は「紙詰まり」を受ける単語)であるとして、「紙詰まり」と「解決する」とを関連づけ、関連単語(紙詰まり→解決する)として、テキスト・単語DB506に記憶する。
なお、関連付け処理部508により得られた単語間の係り受けを示す情報は、必要に応じて、後述するクラスタリング規則作成部566によるクラスタリング規則Bの作成処理においても利用されうる。
【0035】
相関規則作成処理部520は、例えば、上述した相関規則を求めるソフトウェア(Apriori)であって、テキスト・単語DB506から、分かち書き処理部504の処理により得られたテキストデータの文章それぞれの単語およびそれらの品詞と、関連付け処理部508の処理により得られた関連単語とを読み出して、関連単語間の相関関係を示す相関規則を作成する。
この相関規則は、あるテキストデータの文章から関連単語W1〜Wrが含まれている場合に、同じ文章に関連単語RW1〜RWs(r,sは1以上の整数)が含まれていることを示しており、相関規則作成処理部520は、この関連単語の組み合わせを、相関規則として適切な範囲で多数、作成する。
この相関関係は、例えば、{W1〜Wr;RW1〜RWs}などの形式で表現される。
【0036】
絞り込み処理部522は、相関規則作成処理部520が作成した多数の相関規則それぞれを、テキスト・単語DB506に記憶されているテキストデータそれぞれの文章に対して適用し、相関規則それぞれが、何個のテキストデータに当てはまるか、あるいは、何パーセントのテキストデータに当てはまるかを求める。
さらに、絞り込み処理部522は、予め決められた個数以上のテキストデータに当てはまる相関規則、および、予め決められたパーセンテージのテキストデータに当てはまる相関規則、あるいはこれらのいずれかを選択することにより、相関規則を絞り込み、相関規則DB524に記憶する。
なお、相関規則作成処理520と絞り込み処理部522とは、交互に起動されてそれぞれの処理を行っても、相関規則作成処理520による処理が全て終わった後、絞り込み処理部522が絞り込み処理を行ってもよい。
【0037】
なお、絞り込み処理部522における相関規則の絞り込みには、この他、上記{W1〜Wr;RW1〜RWs}の内、{W1〜Wr,RW1〜RWs}を含む文章データの全文章データに対する割合(この割合を支持率とも呼ぶ)を計算し、この支持率が予め決められた値を超えるような相関規則を選択する方法、{W1〜Wr}を含む文章データの内、{RW1〜RWs}を含む文章の割合(事後確信度)、反対に、{RW1〜RWr}を含む文章データの全文章データに対する割合(事前確信度)を計算し、事前確信度と事後確信度との差が、予め決められた値を超えるような相関規則を選択する方法を採ることも可能である。
【0038】
つまり、相関規則が{W1〜Wr;RW1〜RWs}と表される場合には、支持率は、[(支持率(%))=100×(W1〜Wr,RW1〜RWsを含む文章データ数)/(全文章データ数)]と定義される。
また、事前確信度は、[(事前確信度(%))=100×(RW1〜RWr}を含む文章データ数)/(全文章データ数)]と定義される。
また、事後確信度は、[(事後確信度(%))=100×(RW1〜RWs,W1〜Wrを含む文章データ数)/(W1〜Wrを含む文章データ数]と定義される。
また、相関規則が{A,B;C}と表される場合には、その確信度は、[(確信度(%))=100×(A,B,Cの支持率)/(A,Bの支持率)]で定義される。
従って、相関規則{A,B;C}の事前確信度は、相関規則{φ;C}の確信度に等しく、[(確信度(%))=100×(Cの支持率)/(100)]となる。
【0039】
UI・処理制御部548は、表示・入力装置16(図2)に対してユーザインターフェース用の画像(UI画像)を表示し、このUI画像に対するユーザの操作を受け入れて、クラスタリングプログラム5の構成部分それぞれに対して出力する。
また、UI・処理制御部548は、ユーザの操作などに応じて、クラスタリングプログラム5の処理全体を制御する。
【0040】
意味付け・分類DB546は、意味付け処理部540および分類処理部544における処理において用いられる知識、例えば、相関規則DB524に記憶された相関規則と、その意味とを対応づけるために用いられる情報、相関規則を上位概念にまとめて意味付けするために用いられる情報、および、相関規則の意味を分類するために用いられる情報を記憶し、意味付け処理部540および分類処理部544に対して提供する。
【0041】
意味付け処理部540は、相関規則DB524から相関規則を読み出して、意味付け・分類DB546に記憶されている情報を参照し、相関規則それぞれに対応する意味、および、相関規則の上位概念としてとらえられる意味、またはこれらのいずれかを作成し、クラスタリング規則DB542に記憶する。
なお、意味付け処理部540は、図3に点線で示すように、UI・処理制御部548を介して、相関規則と、相関規則それぞれに対する意味づけをユーザに求めるUI画像を、表示・入力装置16(図2)に表示し、このUI画像に対するユーザの操作に基づいて、相関規則それぞれの意味を作成してもよい。
【0042】
図7は、図3に示した分類処理部544により分類されたクラス、および、クラスに含まれるテキストデータを、表形式で例示する図である。
分類処理部544は、図7に示すように、クラスタリング規則DB542に記憶された相関規則それぞれの意味を読み出し、意味付け・分類DB546に記憶されている情報を参照して、読み出した相関規則それぞれの意味を分類し、クラスタリング規則Aを作成する。
分類処理部544は、作成したクラスタリング規則Aを、クラスタリング規則DB542に記憶する。
なお、分類処理部544は、図3に点線で示すように、意味付け処理部540と同様に、UI・処理制御部548を介して、相関規則それぞれの意味と、相関規則の意味の分類をユーザに求めるUI画像を、表示・入力装置16(図2)に表示し、このUI画像に対するユーザの操作に基づいて、相関規則の意味の分類を行ってもよい。
【0043】
図7には、分類処理部544が、相関規則の意味を分類して、左から1,2番目の欄に示すように、「C01;ファイルのダウンロードのHTTPとFTPとの違い」・「C02;バージョンアップ版購入」などのクラスタリング規則Aを作成し、これらのクラスタリング規則Aそれぞれに1つ以上の相関規則の意味(図示せず)を含めたことを示している。
また、図7の左から3つめの欄には、クラスタリング規則Aによるクラスタリングの結果として得られるクラスに含まれるテキストデータそれぞれの識別子(ID)が示されている。
【0044】
図8は、図6(A)に示したテキストデータの集合をクラスタリングして得られるクラスを模式的に例示する図である。
クラスタリング処理部560は、クラスタリング規則DB542に記憶されたクラスタリング規則Aに基づいて、図8に示すように、テキスト・単語DB506に記憶されたテキストデータおよびその単語を処理し、テキストデータをクラスタリング処理して、グループ(クラス)に分類し、クラスDB562に記憶する。
なお、クラスタリング処理部560は、例えば、図7に示したクラスタリング規則Aそれぞれに含まれる1つ以上の相関規則の意味をOR条件で用い、あるテキストデータが、あるクラスタリング規則Aに含まれる相関規則のいずれかにマッチする場合には、そのテキストデータを、そのクラスタリング規則Aに対応するクラスに分類する。
【0045】
図9は、新たに入力されるテキストデータQnewが、図8に示した既存のクラスに分類される態様を示す図である。
また、後述するように、クラスタリング規則作成部566が、既存のクラスそれぞれからクラスタリング規則B(第2の分類規則)を作成した後は、クラスタリング処理部560は、図9に示すように、新たにオペレータ端末32(図1)から入力され、分かち書き処理部504により処理され、テキスト・単語DB506に記憶されたテキストデータQnewを、クラスDB562に記憶されるクラスタリング規則Bに基づいて、既存のクラスに分類し、クラスDB562に記憶する。
【0046】
なお、図8に示すように、各テキストデータは、クラスタリング規則A,Bに基づくクラスタリングにより単一のクラスに分類されるだけでなく、複数のクラスに重複して分類されたり、あるいは、いずれのクラスにも分類されなかったりもする。
また、クラスタリング処理部560を、データの内容・性質に応じて、クラスタリング規則Bを用いずに、クラスタリング規則Aをその後も用いてクラスタリング処理を行うようにしてもよい。
【0047】
クラス配信部564は、他部門システム220からの要求に応じて、あるいは、UI・処理制御部548に対するユーザの操作に応じて、クラスDB562に記憶されたクラスに属するテキストデータを読み出し、ネットワーク22を介して、他部門システム220に配信する。
【0048】
上述したように、クラスタリング規則作成部566は、クラスタリングプログラム5のクラスタリング処理部56(図3)に、必要に応じて、選択的に付加され、以下に示すような処理を行う。
図10は、図3に示したクラスタリング規則作成部566により作成されるクラスタリング規則Bを例示する図である。
なお、図10には、2つのクラスタリング規則Bが示されている。
【0049】
クラスタリング規則作成部566は、例えば、上述のテキストの集合からその特徴を抽出するソフトウェア(Aleph)であって、分類処理部544が作成したクラスタリング規則Aに基づいて得られたクラス(図8など)それぞれに含まれるテキストデータの特徴を抽出し、新たなテキストデータがオペレータ端末32からクラスタリング装置4(クラスタリングプログラム5)に入力された場合に、新たなテキストを、既存のクラスのいずれか分類するために用いられるクラスタリング規則B(図10)を作成し、クラスタリング規則DB542に記憶する。
なお、クラスタリング規則DB542に記憶されたクラスタリング規則A,Bは、適宜、記録媒体140などに対して出力され、クラスタリング装置4(図1など)と同様な処理を行う他の装置におけるクラスタリング処理の用に供せられうる。
【0050】
なお、あるクラスについて複数のクラスタリング規則Bが作成された場合には、そのクラスに含まれるテキストデータは、複数のクラスタリング規則Bの0個以上にマッチしている。
また、クラスタリング規則Bの作成のためには、クラスタリング規則Aに基づいて得られたクラスそれぞれに含まれるテキストデータをそのまま用いてもよいし、ユーザが、クラスタリング規則Aに基づいて得られたクラスそれぞれから適宜、選択したテキストデータを用いてもよい。
また、クラスタリング規則Bの作成のためには、クラスタリング規則Aに基づいて得られたクラスのいずれにも属さないテキストデータから適宜、選択したテキストデータを用いてもよい。
【0051】
なお、図10において、”has_w(Sentence, Word)は、文章”Sentence”が、単語”Word”を含むことを示す。
また、”label(Word, ”LABEL”)は、単語”Word”を示す実際の文字列が”LABEL”であることを示す。
また、”word_distance(word1, word2, near/close/middle/far)”は、単語”word1”と単語”word2”との間の距離が、それぞれ「近い」、「ごく近い」、「中間的」、「遠い」ことを示す。
また、”dependence(A, B)”は、文法上の係り受け関係を示し、”part(A,’名詞−形容動詞語幹’)”は、品詞情報を示す。
また、”class (Sentence, Class)は、文字”Sentence”がクラス”Class”に属することを示す。
また、クラスタリング規則Bは、”:−”の右側に記載されることがらがすべて満たされるとき、”:−”の左側に記載されることがらが満足されることを意味している。
【0052】
図11は、図3に示したクラスタリング規則作成部566が、クラスタリング規則B(図10)を作成するために用いる正例を例示する図である。
図12は、図3に示したクラスタリング規則作成部566が、クラスタリング規則B(図10)を作成するために用いる負例を例示する図である。
クラスタリング規則作成部566には、UI・処理制御部548などから、あるクラスからクラスタリング規則Bを作成する際に、特徴を抽出する対象のクラス(またはクラスタ)に属するテキストを示す正例、および、特徴を抽出する対象のクラス(またはクラスタ)に属さないテキストを示す負例(図11,図12)、および、特徴を抽出するための背景知識(図示せず)が設定され、クラスタリング規則作成部566は、これらの情報を用いて、各クラスの特徴を抽出し、図10に示したクラスタリング規則Bとする。
【0053】
[クラスタリング装置4(クラスタリングプログラム5)の動作]
以下、クラスタリング装置4(クラスタリングプログラム5)の動作を説明する。
オペレータ端末32(図1,図2)に対して、相談・問い合わせの文章のテキストデータが入力されると、オペレータ端末32は、入力されたテキストデータをクラスタリング装置4に対して出力する。
オペレータ端末32からクラスタリング装置4に入力されたテキストデータは、テキスト受信部500(図3)により、順次、テキストDB502に記憶される。
【0054】
図13は、図3に示したクラスタリングプログラム5において、クラスタリング規則作成部566が用いられない場合の動作を示すフローチャートである。
図13に示すように、ステップ100(S100)において、クラスタリング装置4(図1,図2)上で、クラスタリングプログラム5(図3)が起動される。
ステップ102(S102)において、UI・処理制御部548(図3)は、クラスタリング規則DB542を検索し、既にクラスタリング規則Aが作成されているか否かを判断する。
クラスタリングプログラム5は、第2のクラスタリング規則Aが既に存在する場合にはS110の処理に進み、これ以外の場合には図6,図7を参照して説明したクラスタリング規則Aの作成処理(S12)のS120の処理に進む。
【0055】
ステップ120(S120)において、クラスタリングプログラム5(図3)の分かち書き処理部504は、テキストデータに対する分かち書き処理を行い、単語の抽出およびその品詞の識別を行い、その結果をテキスト・単語DB506に記憶する。
各構成部分は、図6,図7を参照して説明したように、クラスタリング規則Aを作成する。
【0056】
ステップ122(S122)において、関連付け処理部508は、テキスト・単語DB506に記憶された単語の係り受け関係に基づき、関連単語を作成し、テキスト・単語DB506に記憶する。
ステップ124(S124)において、相関規則作成処理部520は、テキスト・単語DB506に記憶された関連単語の相関関係を求め、相関規則DB524に記憶する。
【0057】
ステップ126(S126)において、絞り込み処理部522は、相関規則DB524に記憶された相関関係を絞り込み、クラスタリング規則Aとする。
【0058】
ステップ104(S104)において、クラスタリング処理部560(図3)は、ステップ12(S12)の処理により作成されたクラスタリング規則Aを用いて、テキスト・単語DB506に記憶されたテキストを、図7,図8を参照して説明したようにクラスタリングし、クラスを作成する。
なお、上述のように、S106の処理において、クラスタリング規則Aにより作成されたクラスに含まれるテキストデータは、適宜、ユーザによる選択を受ける場合がある。
【0059】
ステップ106(S106)において、クラスタリング規則作成部566(図3)は、図10〜図12を参照して説明したように、S106の処理により作成されたクラスそれぞれの特徴を抽出し、クラスタリング処理部560のクラスタリング処理において、新たなテキストがオペレータ端末32から入力されたときに、新たなテキストを、既存のクラスのいずれに分類すべきかの判断に用いられるクラスタリング規則Bを作成する。
【0060】
ステップ110(S110)において、UI・処理制御部548(図3)は、新たなテキストデータがオペレータ端末32から入力されたか否かを判断する。
クラスタリングプログラム5は、新たなテキストデータが入力された場合にはS112の処理に進み、これ以外の場合には処理を終了する。
【0061】
ステップ112(S112)において、クラスタリング処理部560(図3)は、クラスタリング規則Aを用いて、新たに入力されたテキストデータを、既存のクラスに分類する。
【0062】
図14は、図3に示したクラスタリングプログラム5において、クラスタリング規則作成部566が用いられる場合の処理(S14)を示すフローチャートである。
図14に示すように、ステップ140(S140)において、クラスタリング装置4(図1,図2)上で、クラスタリングプログラム5(図3)が起動される。
【0063】
ステップ142(S142)において、UI・処理制御部548(図3)は、クラスタリング規則DB542を検索し、既にクラスタリング規則Bが作成されているか否かを判断する。
クラスタリングプログラム5は、第2のクラスタリング規則Bが既に存在する場合にはS150の処理に進み、これ以外の場合には図6,図7,図13を参照して説明したクラスタリング規則Aの作成処理(S12)に進む。
【0064】
ステップ144(S144)において、クラスタリング処理部560(図3)は、ステップ12(S12)の処理により作成されたクラスタリング規則Aを用いて、テキスト・単語DB506に記憶されたテキストを、図7,図8を参照して説明したようにクラスタリングし、クラスを作成する。
なお、上述のように、S146の処理において、クラスタリング規則Aにより作成されたクラスに含まれるテキストデータは、適宜、ユーザによる選択を受ける場合がある。
【0065】
ステップ146(S146)において、クラスタリング規則作成部566(図3)は、図10〜図12を参照して説明したように、S146の処理により作成されたクラスそれぞれの特徴を抽出し、クラスタリング処理部560のクラスタリング処理において、新たなテキストがオペレータ端末32から入力されたときに、新たなテキストを、既存のクラスのいずれに分類すべきかの判断に用いられるクラスタリング規則Bを作成する。
【0066】
ステップ150(S150)において、UI・処理制御部548(図3)は、新たなテキストデータがオペレータ端末32から入力されたか否かを判断する。
クラスタリングプログラム5は、新たなテキストデータが入力された場合にはS152の処理に進み、これ以外の場合には処理を終了する。
【0067】
ステップ152(S152)において、クラスタリング処理部560(図3)は、クラスタリング規則Bを用いて、新たに入力されたテキストデータを、既存のクラスに分類する。
以上、図13,図14を参照して説明したように作成されたクラス(図10,図9)は、適宜、クラス配信部564により、他部門システム220(図1,図2)に、ネットワーク22を介して配信される。
【0068】
[実施例]
以下、データマイニングシステム1のクラスタリング装置4(図1,図2)において、図13に示したように、クラスタリングプログラム5のクラスタリング規則作成部566(図3)を用いず、クラスタリング規則Aによりテキストデータを分類する場合の実施例を説明する。
図15は、クラスタリング装置5(図3)において、関連付け処理部508を用いずに、関連単語から生成した分類規則Aによりテキストデータをクラスに分類する場合と、関連付け処理部508を用いて、図13に示したように単語から生成したクラスタリング規則Aによりテキストデータをクラスに分類する場合とを比較する図表である。
【0069】
上述のように、クラスタリングプログラム5においては、関連付け処理部508が用いられ、相関規則作成処理部520は、係り受け関係によりテキストに含まれる単語を関連づけて関連単語の相関性を抽出し、この相関性に基づいて、絞り込み処理部522、意味付け処理部540および分類処理部544がクラスタリング規則Aを作成する。
これに対して、クラスタリングプログラム5において、関連付け処理部508が用いられなくても、相関規則作成処理部520が、テキストに含まれる単語そのものの相関性を抽出し、分類処理部544などが、この単語の相関性に基づいて、クラスタリング規則Aを作成することも可能である。
図15には、このように、関連付け処理部508を用いて生成された相関規則Aによりテキストデータをクラスに分類した結果と、関連付け処理部508を用いずに生成されたクラスタリング規則Aによりテキストデータをクラスに分類した結果とが示されている。
【0070】
なお、図15に示した例においては、ある企業のコールセンターにおいて、2002年4月1日から同年7月31日までの間に受け付けられた実際の問い合わせを示す602個のテキストデータ(以下、ソースデータとも記す)が処理対象とされている。
また、この例においては、分かち書き処理部504などには、具体例として示した各ソフトウェアが用いられている。
また、分かち書き処理部504には、パーソナルコンピュータの代表的OSの名称などを1つの語句として捉え、分かち書きの結果として得られる語句が細かくなりすぎないようにIT用語リストを参照させている。
処理対象のテキストデータ1つには、平均して12.5個の単語が含まれ、602個のテキストデータに含まれる総単語数は7517個で、関連付け処理部508の処理により、3116個の異なる関連単語が得られた。
【0071】
図15において、最小支持度は、([(最小支持率(%))=100×(W1〜Wrを含む文章データ数)/(全文章データ数)])と定義される。
事前/事後確信度差は、事前確信度と事後確信度(絞り込み処理部522の説明を参照)との差を示す。
最小支持度と事前/事後確信度差は、小さければ小さいほど、クラスタリングプログラム5が、少ないテキストデータからクラスタリング規則Aを作成できることを示しており、関連付け処理部508を用いると、これを用いない場合に比べて、より少ないテキストデータ数からクラスタリング規則Aを導出できることがわかる。
【0072】
また、いずれの場合でも、導出されるルール(クラスタリング規則A)の数には大差はないが、専門家が、ソースデータと導出されたクラスタリング規則Aとを比較し、意味解釈可能だと判断したクラスタリング規則Aの数、および、その割合は、関連付け処理部508を用いることにより、大幅に増加することがわかる。
また、専門家により、有用性が高いと判断された高有用性ルール(クラスタリング規則A)の数は、いずれの場合でも大差ないが、これを求めるために用いられた平均のテキストデータ数は、関連付け処理部508を用いる場合の方が、大幅に少なくなっており、関連付け処理部508を用いると、少ないソースデータから、有用なクラスタリング規則Aが得られることがわかる。
【0073】
図16は、絞り込み処理部522(図3)に対して設定される事前確信度と事後確信度との差と、関連付け処理部508を用いて、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果とを対比して示す図表である。
図16を参照してわかるように、絞り込み処理部522に対して、事前確信度と事後確信度との差が15%程度になるように、相関規則の絞り込みを行わせると、クラスタリングプログラム5により、良好なテキストデータの分類結果が得られることがわかる。
【0074】
図17は、絞り込み処理部522(図3)に対して設定される最小確信度と、関連付け処理部508を用いずに、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果とを対比して示す図である。
図17に示す最小確信度の定義は、上述の事後確信度の定義と同じであって、この最小確信度は、絞り込み処理部522に対して設定される。
図17に示すように、関連付け処理部508を用いずに、クラスタリング規則Aを用いたテキストの分類を行うと、絞り込み処理部522に対して、どのような最小確信度を設定しても、結果に含まれるルール(クラスタリング規則A)の内、有用性が高いものの数に変化が生じない。
【0075】
図18は、関連付け処理部508を用いて、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果の精度および再現率を示す図である。
精度とは、得られたクラスのそれぞれに含まれるテキストの内、それぞれのクラスに含まれることが妥当であると、専門家により判断されたテキストの割合を示す。
再現率とは、得られたクラスのそれぞれに含まれるべきテキストの内、実際に、それぞれのクラスに含まれていたテキストの割合を示す。
図18を参照すると、関連付け処理部508を用いて、図13に示したようにテキストデータをクラス分けすると、一部の例外を除いて、高い精度と再現率とが得られることがわかる。
【0076】
[関連出願]
本発明は、本出願人による特願2002−366690号に関連する。
【0077】
【発明の効果】
以上説明したように、本発明にかかる文章分類装置およびその方法によれば、広く集められた文章を、有用な情報を含むグループに分類し、利用者に提供することができる。
また、本発明にかかる文章分類装置およびその方法によれば、係り受け関係を有する複数の単語の間の相関関係を抽出し、さらに、この相関関係を絞り込んでデータマイニングを行うことができる。
【図面の簡単な説明】
【図1】本発明にかかる文章データ分類方法が適用されるデータマイニングシステムの構成を示す図である。
【図2】図1に示したオペレータ端末、クラスタリング装置および他部門のシステムのハードウェア構成を例示する図である。
【図3】図1,図2に示したクラスタリング装置において実行されるクラスタリングプログラムの構成を示す図である。
【図4】文章の句構造を例示する図である。
【図5】文章に含まれる単語の係り受け構造を例示する図である。
【図6】図3に示したクラスタリングプログラムの前処理部の処理を示す図であって、(A)は、テキストDBに記憶されるテキストデータQの集合を模式的に示し、(B)は、テキストデータQの内容を例示し、(C)は、分かち書き処理部が、テキストデータを処理して得られる単語(分かち書き結果)を示す。
【図7】図3に示した分類処理部により分類されたクラス、クラスそれぞれに含まれる相関規則の数、および、クラスに含まれるテキストデータを、表形式で例示する図である。
【図8】図6(A)に示したテキストデータの集合をクラスタリングして得られるクラスを模式的に例示する図である。
【図9】新たに入力されるテキストデータQnewが、図8に示した既存のクラスに分類される態様を示す図である。
【図10】図3に示したクラスタリング規則作成部566により作成されるクラスタリング規則Bを例示する図である。
【図11】図3に示したクラスタリング規則作成部が、クラスタリング規則B(図10)を作成するために用いる正例を例示する図である。
【図12】図3に示したクラスタリング規則作成部が、クラスタリング規則B(図10)を作成するために用いる負例を例示する図である。
【図13】図3に示したクラスタリングプログラムにおいて、クラスタリング規則作成部が用いられない場合の動作を示すフローチャートである。
【図14】図3に示したクラスタリングプログラムにおいて、クラスタリング規則作成部が用いられる場合の処理(S14)を示すフローチャートである。
【図15】クラスタリング装置(図3)において、関連付け処理部を用いずに、関連単語から生成した分類規則Aによりテキストデータをクラスに分類する場合と、関連付け処理部を用いて、図13に示したように単語から生成したクラスタリング規則Aによりテキストデータをクラスに分類する場合とを比較する図表である。
【図16】絞り込み処理部(図3)に対して設定される事前確信度と事後確信度との差と、関連付け処理部を用いて、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果とを対比して示す図表である。
【図17】絞り込み処理部(図3)に対して設定される最小確信度と、関連付け処理部を用いずに、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果とを対比して示す図である。
【図18】関連付け処理部を用いて、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果の精度および再現率を示す図である。
【符号の説明】
1・・・データマイニングシステム、
3・・・コールセンター、
30・・・コール受付装置、
32・・・オペレータ端末、
34・・・LAN、
4・・・クラスタリング装置、
5・・・クラスタリングプログラム、
50・・・前処理部、
500・・・テキスト受信部、
502・・・テキストDB、
504・・・分かち書き処理部、
506・・・テキスト・単語DB、
508・・・関連付け処理部、
52・・・相関規則作成部、
520・・・相関規則作成処理部、
522・・・絞り込み処理部、
524・・・相関規則DB5、
54・・・意味付け処理部、
540・・・意味付け処理部、
542・・・クラスタリング規則DB、
546・・・意味付け・分類DB、
544・・・分類処理部、
548・・・UI・処理制御部、
56・・・クラスタリング処理部、
560・・・クラスタリング処理部、
562・・・クラスDB、
564・・・クラス配信部、
566・・・クラスタリング規則作成部、
22・・・ネットワーク、
220・・・他部門システム、
10・・・本体、
102・・・CPU、
104・・・メモリ、
12・・・通信装置、
14・・・記録装置、
140・・・記録媒体、
16・・・表示・入力装置、
20・・・電話ネットワーク、
200,202・・・電話機、
【発明の属する技術分野】
本発明は、文章を、その内容に応じて分類する文章分類装置およびその方法に関する。
【0002】
【従来の技術】
例えば、非特許文献1,2などには、市場調査などに用いられるデータマイニングの一種であり、テキストデータを処理の対象とするテキストマイニングを開示する。
また、非特許文献3には、文章を単語に分解するソフトウェア(茶筅)が開示されている。
また、非特許文献4には、文章に含まれる単語の相関関係を示す規則(相関規則;相関ルール)を求める方法が開示されており、さらに、非特許文献5には、相関規則を求めるソフトウェア(Apriori)が開示されている。
また、非特許文献6には、テキストの集合からその特徴を抽出するソフトウェア(Aleph)が開示されている。
また、非特許文献7には、日本語分の単語の係り受け関係(例えば、主語と動詞、動詞と目的語・補語)を解析するためのソフトウェア(CaboCha)が開示されている。
【0003】
ここで、コンピュータやOA機器のメーカー・商社では、ユーザの相談を受け付ける部門が設けられ、このような部門は、コールセンターなどと呼ばれることが多い。
このコールセンターに受け付けられる相談には、製品開発のためのヒントが多く含まれるが、ユーザと製品開発者との間で、文章に用いる言葉が違うことがある。
従って、コールセンターが受け付けた相談をデータベース化しても、製品開発者が、ユーザが相談に用いる言葉を知らなければ、有用な情報を上手く引き出すことができない。
【0004】
このような点に対し、例えば、非特許文献8,9は、コールセンターで受け付けられたテキストに対して、単語間の相関の抽出を行うことにより、知識を得るための方法を開示する。
しかしながら、これら非特許文献8,9には、係り受け関係を有する複数の単語の間の相関関係を抽出し、さらに、この相関関係を、事前確信度と事後確信度との差を用いて絞り込み、データマイニングを行う方法を開示してはいない。
【0005】
【非特許文献1】特集「テキストマイニング」,人工知能学会誌 vol.16, No.2, 2001
【非特許文献2】特集「ナレッジ・マネージメントとその支援技術」,人工知能学会誌 vol.16, No.1, 2001
【非特許文献3】http://chasen.aist−nara.ac.jp/index.html.ja
【非特許文献4】データマイニング(データサイエンス・シリーズ3,福田他、共立出版社(2001年9月1日初版第1刷),ISBN−4−320−12002−7)
【非特許文献5】http://fuzzy.cs.uni−magdeburg.de/ ̄borgelt/apriori/
【非特許文献6】http://web.comlab.ox.ac.uk/oucl/research/areas/machlearn/Aleph/
【非特許文献7】http://cl.aist−nara.ac.jp/ ̄taku−ku/software/cabocha/
【非特許文献8】コールセンターにおけるテキストマイニング(人工知能学会誌16巻2号、p220〜225、那須川)
【非特許文献7】テキストマイニング:膨大な文章データからの知識獲得−意図の認識−(情報処理学会第57回(平成10年後期)全国大会予稿;3−75、那須川他)
【0006】
【発明が解決しようとする課題】
本発明は、上述した背景からなされたものであり、広く集められた文章を、有用な情報を含むグループに分類し、利用者に提供することができる文章分類装置およびその方法を提供することを目的とする。
また、本発明は、上述した背景からなされたものであり、係り受け関係を有する複数の単語の間の相関関係を抽出し、さらに、この相関関係を絞り込んでデータマイニングを行うための文章分類装置およびその方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
[文章分類装置]
上述した目的を達成するために、本発明にかかる文章分類装置は、複数の単語を含む文書を、0以上のグループに分類する文章分類装置であって、前記複数の文章それぞれに含まれる複数の単語を抽出する単語抽出手段と、前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類する単語分類手段と、前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記0以上のグループに分類するための分類規則を作成する分類規則作成手段とを有する。
【0008】
好適には、前記作成された分類規則に基づいて、前記複数の文章を、前記0以上のグループに分類する文章分類手段をさらに有する。
【0009】
好適には、前記文章分類手段は、前記分類規則が作成された後は、新たに分類の対象とされた文章を、既に作成された前記分類規則に基づいて、前記グループの内の0以上に分類する。
【0010】
好適には、前記相関規則作成手段は、同じ前記文章の単語から得られた関連単語の組み合わせを作成する組み合わせ作成手段と、前記作成された組み合わせを、所定の条件に合わせるように処理する組み合わせ処理手段とを有する。
【0011】
好適には、前記組み合わせは、前記文章に、1つ以上の第1の関連単語が含まれる場合に、同一の前記文章に、他の1つ以上の第2の関連単語が含まれることを示す。
【0012】
好適には、前記組み合わせ処理手段は、前記作成された組み合わせの内、所定の割合以上または所定数以上の前記文章に適合する組み合わせを選択する処理を行う。
【0013】
好適には、前記組み合わせ処理手段は、前記第1の関連単語が含まれる前記文章が所定の割合以上となる組み合わせ、または、前記第1の関連単語が含まれる前記文章の内、前記第2の単語単語が含まれる前記文章の割合と、前記第2の関連単語が含まれる前記文章の割合との差が所定値以上となる組み合わせを選択する処理を行う。
【0014】
好適には、前記単語抽出手段は、前記複数の単語それぞれの品詞をさらに識別し、前記単語分類手段は、前記識別された単語それぞれの品詞に基づいて、前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類する。
【0015】
[文章分類方法]
また、本発明にかかる文章分類方法は、複数の単語を含む文書を、0以上のグループに分類する文章分類方法であって、前記複数の文章それぞれに含まれる複数の単語を抽出し、前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類し、前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記0以上のグループに分類するための分類規則を作成する。
【0016】
好適には、前記作成された分類規則に基づいて、前記複数の文章を、前記0以上のグループに分類する。
【0017】
好適には、複数の単語を含む文書を、0以上のグループに分類するためのプログラムであって、前記複数の文章それぞれに含まれる複数の単語を抽出し、前記抽出された単語それぞれの品詞を識別するステップと、前記抽出された単語それぞれの品詞に基づいて、前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類するステップと、前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記0以上のグループに分類するための分類規則を作成するステップとをコンピュータに実行させる。
【0018】
好適には、前記作成された分類規則に基づいて、前記複数の文章を、前記0以上のグループに分類するステップをコンピュータに実行させる。
【0019】
【発明の実施の形態】
以下、本発明の実施形態を説明する。
【0020】
[データマイニングシステム1]
図1は、本発明にかかる文章データ分類方法が適用されるデータマイニングシステム1の構成を示す図である。
図1に示すように、データマイニングシステム1は、電話ネットワーク20に接続されたコールセンター3、クラスタリング装置4、および、LAN・WANなどのプライベートネットワーク22から構成される。
ネットワーク22は、クラスタリング装置4と他部門のシステム200−1〜220−nとを接続する。
電話ネットワーク20は、例えば一般的な公衆電話回線であって、多数のユーザ側電話機200と、1台以上のセンタ側の電話機202−1〜202−m(mは1以上の整数)とが接続される。
コールセンター3は、LAN34を介してクラスタリング装置4と接続されるコール受付装置30−1〜30−mを含む。
コール受付装置30−1〜30−mそれぞれは、オペレータ端末32−1〜32−mそれぞれと、電話機202−1〜202−mそれぞれとを含む。
【0021】
データマイニングシステム1は、これらの構成部分により、例えば、コンピュータ・OA機器メーカにおいて、ユーザからの相談・問い合わせなどを受け付け、受け付けた相談・問い合わせの文章を、開発部門などの他部門それぞれの業務に有用な情報を含むグループ(クラス)に分類し、他部門のシステム220−1〜220−nに提供する。
なお、コール受付装置30−1〜30−mなど、複数ある構成部分のいずれかを、特定せずに示す場合には、単にコール受付装置30などと記載することがある。
【0022】
[ハードウェア構成]
次に、オペレータ端末32,クラスタリング装置4および他部門システム220のハードウェア構成を説明する。
図2は、図1に示したオペレータ端末32、クラスタリング装置4および他部門のシステム220のハードウェア構成を例示する図である。
図2に示すように、オペレータ端末32、クラスタリング装置4および他部門のシステム220は、それぞれ、CPU102およびメモリ104などを含む本体10、オペレータ端末32・クラスタリング装置4・他部門システム220の間の通信を行う通信装置12、HDD・CD装置などの記録装置14、および、LCD表示装置・キーボード・マウスなどを含む表示・入力装置16から構成される。
つまり、オペレータ端末32、クラスタリング装置4および他部門システム220は、通信機能を有する一般的なコンピュータとしての構成部分を有する。
【0023】
[コール受付装置30]
次に、データマイニングシステム1のコール受付装置30および他部門システム220の動作を説明する。
コール受付装置30は、オペレータ(図示せず)が、ユーザからの相談・問い合わせの電話を受け付け、相談・問い合わせの内容を入力するために用いられる。
つまり、ユーザが、ユーザ側電話機200からセンタ側電話機202に電話をかけ、コール受付装置30のオペレータに音声で相談・問い合わせをすると、コール受付装置30のオペレータは、その内容を記した文章を、オペレータ端末32に入力し、相談・問い合わせのテキストデータを作成する。
なお、コール受付装置30は、ユーザからの相談・問い合わせを、電子メールを利用して受け、受けた電子メールをそのまま、相談・問い合わせの内容を示す文章のテキストデータとして作成してもよい。
コール受付装置30のオペレータ端末32は、このようにして作成したテキストデータを、LAN34を介して、クラスタリング装置4に対して送信する。
【0024】
[他部門システム220]
他部門システム220は、例えば、開発部門・営業部門など、各部門に設置され、クラスタリング装置4から、意味や内容に基づいて分類されたテキストデータのグループ(クラス)を受け、部門の構成員(図示せず)に示す。
【0025】
[クラスタリング装置4]
次に、クラスタリング装置4上で動作するクラスタリングプログラム5の構成および動作を説明する。
図3は、図1,図2に示したクラスタリング装置4において実行されるクラスタリングプログラム5の構成を示す図である。
図3に示すように、クラスタリングプログラム5は、前処理部50、相関規則作成部52、意味付け・分類部54およびクラスタリング処理部56から構成される。
【0026】
前処理部50は、テキスト受信部500、テキストデータベース(テキストDB)502、分かち書き処理部504、テキスト・単語DB506および関連付け処理部508を含む。
相関規則作成部52は、相関規則作成処理部520、絞り込み処理部522および相関規則DB524を含む。
意味付け・分類部54は、意味付け処理部540、クラスタリング規則DB542、分類処理部544、意味付け・分類DB546およびユーザインターフェース(UI)・処理制御部548を含む。
【0027】
クラスタリング処理部56は、クラスタリング処理部560、クラスDB562およびクラス配信部564から構成され、図3中に点線で示すように、必要に応じて、クラスタリング規則作成部566をさらに含む。
なお、クラスタリングプログラム5を、各データベースの内、共用可能なものは、一体化した構成としてもよい。
クラスタリングプログラム5は、これらの構成部分により、コールセンター3から相談・問い合わせのテキストデータを受け、各部門に有用なクラスに分類して、他部門システム220に配信する。
【0028】
図6は、図3に示したクラスタリングプログラム5の前処理部50の処理を示す図であって、(A)は、テキストDB502に記憶されるテキストデータQの集合を模式的に示し、(B)は、テキストデータQの内容を例示し、(C)は、分かち書き処理部504が、テキストデータを処理して得られる単語(分かち書き結果)を示す。
但し、以下の各図において、クラスタリングプログラム5の各構成部分が処理の対象としている文章は、必ずしも同一ではない。
【0029】
なお、図6(A)〜(C)には、(A)に示すテキストデータの1つ「Q」の文章が、(B)に示すように、「YY使用中。200DPIくらいで図面を取り込んでいるが、かなり綺麗に入る。これを、XXのオブジェに持ってゆくと、かなり荒れてしまうが、何かいい方法はないですか?」である場合が示されている。
また、図6(C)には、この文章が、「YY(機種名)」、「使用中」などの単語に分解され、さらに、これらの単語が、それぞれ固有名詞、名詞などと識別される場合が示されている。
【0030】
前処理部50において、テキスト受信部500は、オペレータ端末32それぞれからテキストデータ(相談・問い合わせ文)を受け、フォーマットを統一して、図6(C)に示すように、テキストDB502に記憶する。
分かち書き処理部504としては、例えば、上述したソフトウェア「茶筅」が用いられ、テキストDB502に記憶されたテキストデータそれぞれが示す文章(以下、「テキストデータそれぞれが示す文章」を、単に「テキストデータの文章」とも記す)、例えば、図6(B)に示す文章(相談・問い合わせ文)に含まれる単語の全てを、図6(C)に示すように分離し、分離した単語それぞれの品詞を判定する(分かち書き処理)。
【0031】
なお、この部分および以下の説明において、「茶筅」など、具体的なソフトウェアが例示される場合があるが、これは、発明の説明の明確化のためであって、本発明の技術的範囲の限定を意図するものではない。
具体例として挙げられたソフトウェアは、他の同等な機能・性能を有する他の手段に置換可能である。
【0032】
図4は、文章の句構造を例示する図である。
図4に示すように、日本語の文章も、英文の構文解析に倣って、句構造に分解されうる。
分かち書き処理部504は、分かち書き処理の結果として得られた単語の内、相関規則作成部52および意味付け・分類部54の処理において用いられる重要語、例えば、名詞、動詞、形容詞、形容動詞および固有名詞(分かち書き処理部504は、固有名詞を未知の品詞の単語と判定することがある)と判定された単語と、これらの単語の品詞と、これらの単語を含む文章のテキストデータとを対応づけて、テキスト・単語DB506に記憶する。
なお、分かち書き処理部504により得られた単語の品詞を示す情報は、必要に応じて、後述するクラスタリング規則作成部566によるクラスタリング規則Bの作成処理においても利用されうる。
【0033】
図5は、文章に含まれる単語の係り受け構造を例示する図である。
図5に示すように、文章に含まれる単語の間には、係り受けの関係がある。
関連付け処理部508としては、例えば、上述したソフトウェア「CaboCha」が用いられる。
関連付け処理部508は、分かち書き処理部504による分かち書き処理の結果として得られ、テキスト・単語DB506に記憶された単語の内、係り受け関係にある2つ以上の単語を関連づけ、関連ある単語同士を関連単語W(RW)({W(RW);w1〜wp;rw1〜rwq}、但し単語rwは単語wを受ける単語、p、q≧1)として、テキスト・単語DB506に記憶する。
関連付け処理部508の処理を、具体例を挙げて、さらに説明する。
例えば、具体例として、分かち書き処理部504により、テキストデータの文章から、「拡大コピー(名詞)」と「取る(動詞)」、および、「紙詰まり(名詞)」と「解決する(動詞)」が分離され、品詞が識別された場合を考える。
【0034】
この場合、関連付け処理部508は、名詞「拡大コピー」は、動詞「取る」の主語であって、「拡大コピー」は、「取る」に係る単語(「取る」は「拡大コピー」を受ける単語)であるとして、「拡大コピー」と「取る」とを関連づけ、関連単語(拡大コピー→取る)として、テキスト・単語DB506に記憶する。
同様に、関連付け処理部508は、名詞「紙詰まり」は、動詞「解決する」の目的語であって、「紙詰まり」は、「解決する」に係る単語(「解決する」は「紙詰まり」を受ける単語)であるとして、「紙詰まり」と「解決する」とを関連づけ、関連単語(紙詰まり→解決する)として、テキスト・単語DB506に記憶する。
なお、関連付け処理部508により得られた単語間の係り受けを示す情報は、必要に応じて、後述するクラスタリング規則作成部566によるクラスタリング規則Bの作成処理においても利用されうる。
【0035】
相関規則作成処理部520は、例えば、上述した相関規則を求めるソフトウェア(Apriori)であって、テキスト・単語DB506から、分かち書き処理部504の処理により得られたテキストデータの文章それぞれの単語およびそれらの品詞と、関連付け処理部508の処理により得られた関連単語とを読み出して、関連単語間の相関関係を示す相関規則を作成する。
この相関規則は、あるテキストデータの文章から関連単語W1〜Wrが含まれている場合に、同じ文章に関連単語RW1〜RWs(r,sは1以上の整数)が含まれていることを示しており、相関規則作成処理部520は、この関連単語の組み合わせを、相関規則として適切な範囲で多数、作成する。
この相関関係は、例えば、{W1〜Wr;RW1〜RWs}などの形式で表現される。
【0036】
絞り込み処理部522は、相関規則作成処理部520が作成した多数の相関規則それぞれを、テキスト・単語DB506に記憶されているテキストデータそれぞれの文章に対して適用し、相関規則それぞれが、何個のテキストデータに当てはまるか、あるいは、何パーセントのテキストデータに当てはまるかを求める。
さらに、絞り込み処理部522は、予め決められた個数以上のテキストデータに当てはまる相関規則、および、予め決められたパーセンテージのテキストデータに当てはまる相関規則、あるいはこれらのいずれかを選択することにより、相関規則を絞り込み、相関規則DB524に記憶する。
なお、相関規則作成処理520と絞り込み処理部522とは、交互に起動されてそれぞれの処理を行っても、相関規則作成処理520による処理が全て終わった後、絞り込み処理部522が絞り込み処理を行ってもよい。
【0037】
なお、絞り込み処理部522における相関規則の絞り込みには、この他、上記{W1〜Wr;RW1〜RWs}の内、{W1〜Wr,RW1〜RWs}を含む文章データの全文章データに対する割合(この割合を支持率とも呼ぶ)を計算し、この支持率が予め決められた値を超えるような相関規則を選択する方法、{W1〜Wr}を含む文章データの内、{RW1〜RWs}を含む文章の割合(事後確信度)、反対に、{RW1〜RWr}を含む文章データの全文章データに対する割合(事前確信度)を計算し、事前確信度と事後確信度との差が、予め決められた値を超えるような相関規則を選択する方法を採ることも可能である。
【0038】
つまり、相関規則が{W1〜Wr;RW1〜RWs}と表される場合には、支持率は、[(支持率(%))=100×(W1〜Wr,RW1〜RWsを含む文章データ数)/(全文章データ数)]と定義される。
また、事前確信度は、[(事前確信度(%))=100×(RW1〜RWr}を含む文章データ数)/(全文章データ数)]と定義される。
また、事後確信度は、[(事後確信度(%))=100×(RW1〜RWs,W1〜Wrを含む文章データ数)/(W1〜Wrを含む文章データ数]と定義される。
また、相関規則が{A,B;C}と表される場合には、その確信度は、[(確信度(%))=100×(A,B,Cの支持率)/(A,Bの支持率)]で定義される。
従って、相関規則{A,B;C}の事前確信度は、相関規則{φ;C}の確信度に等しく、[(確信度(%))=100×(Cの支持率)/(100)]となる。
【0039】
UI・処理制御部548は、表示・入力装置16(図2)に対してユーザインターフェース用の画像(UI画像)を表示し、このUI画像に対するユーザの操作を受け入れて、クラスタリングプログラム5の構成部分それぞれに対して出力する。
また、UI・処理制御部548は、ユーザの操作などに応じて、クラスタリングプログラム5の処理全体を制御する。
【0040】
意味付け・分類DB546は、意味付け処理部540および分類処理部544における処理において用いられる知識、例えば、相関規則DB524に記憶された相関規則と、その意味とを対応づけるために用いられる情報、相関規則を上位概念にまとめて意味付けするために用いられる情報、および、相関規則の意味を分類するために用いられる情報を記憶し、意味付け処理部540および分類処理部544に対して提供する。
【0041】
意味付け処理部540は、相関規則DB524から相関規則を読み出して、意味付け・分類DB546に記憶されている情報を参照し、相関規則それぞれに対応する意味、および、相関規則の上位概念としてとらえられる意味、またはこれらのいずれかを作成し、クラスタリング規則DB542に記憶する。
なお、意味付け処理部540は、図3に点線で示すように、UI・処理制御部548を介して、相関規則と、相関規則それぞれに対する意味づけをユーザに求めるUI画像を、表示・入力装置16(図2)に表示し、このUI画像に対するユーザの操作に基づいて、相関規則それぞれの意味を作成してもよい。
【0042】
図7は、図3に示した分類処理部544により分類されたクラス、および、クラスに含まれるテキストデータを、表形式で例示する図である。
分類処理部544は、図7に示すように、クラスタリング規則DB542に記憶された相関規則それぞれの意味を読み出し、意味付け・分類DB546に記憶されている情報を参照して、読み出した相関規則それぞれの意味を分類し、クラスタリング規則Aを作成する。
分類処理部544は、作成したクラスタリング規則Aを、クラスタリング規則DB542に記憶する。
なお、分類処理部544は、図3に点線で示すように、意味付け処理部540と同様に、UI・処理制御部548を介して、相関規則それぞれの意味と、相関規則の意味の分類をユーザに求めるUI画像を、表示・入力装置16(図2)に表示し、このUI画像に対するユーザの操作に基づいて、相関規則の意味の分類を行ってもよい。
【0043】
図7には、分類処理部544が、相関規則の意味を分類して、左から1,2番目の欄に示すように、「C01;ファイルのダウンロードのHTTPとFTPとの違い」・「C02;バージョンアップ版購入」などのクラスタリング規則Aを作成し、これらのクラスタリング規則Aそれぞれに1つ以上の相関規則の意味(図示せず)を含めたことを示している。
また、図7の左から3つめの欄には、クラスタリング規則Aによるクラスタリングの結果として得られるクラスに含まれるテキストデータそれぞれの識別子(ID)が示されている。
【0044】
図8は、図6(A)に示したテキストデータの集合をクラスタリングして得られるクラスを模式的に例示する図である。
クラスタリング処理部560は、クラスタリング規則DB542に記憶されたクラスタリング規則Aに基づいて、図8に示すように、テキスト・単語DB506に記憶されたテキストデータおよびその単語を処理し、テキストデータをクラスタリング処理して、グループ(クラス)に分類し、クラスDB562に記憶する。
なお、クラスタリング処理部560は、例えば、図7に示したクラスタリング規則Aそれぞれに含まれる1つ以上の相関規則の意味をOR条件で用い、あるテキストデータが、あるクラスタリング規則Aに含まれる相関規則のいずれかにマッチする場合には、そのテキストデータを、そのクラスタリング規則Aに対応するクラスに分類する。
【0045】
図9は、新たに入力されるテキストデータQnewが、図8に示した既存のクラスに分類される態様を示す図である。
また、後述するように、クラスタリング規則作成部566が、既存のクラスそれぞれからクラスタリング規則B(第2の分類規則)を作成した後は、クラスタリング処理部560は、図9に示すように、新たにオペレータ端末32(図1)から入力され、分かち書き処理部504により処理され、テキスト・単語DB506に記憶されたテキストデータQnewを、クラスDB562に記憶されるクラスタリング規則Bに基づいて、既存のクラスに分類し、クラスDB562に記憶する。
【0046】
なお、図8に示すように、各テキストデータは、クラスタリング規則A,Bに基づくクラスタリングにより単一のクラスに分類されるだけでなく、複数のクラスに重複して分類されたり、あるいは、いずれのクラスにも分類されなかったりもする。
また、クラスタリング処理部560を、データの内容・性質に応じて、クラスタリング規則Bを用いずに、クラスタリング規則Aをその後も用いてクラスタリング処理を行うようにしてもよい。
【0047】
クラス配信部564は、他部門システム220からの要求に応じて、あるいは、UI・処理制御部548に対するユーザの操作に応じて、クラスDB562に記憶されたクラスに属するテキストデータを読み出し、ネットワーク22を介して、他部門システム220に配信する。
【0048】
上述したように、クラスタリング規則作成部566は、クラスタリングプログラム5のクラスタリング処理部56(図3)に、必要に応じて、選択的に付加され、以下に示すような処理を行う。
図10は、図3に示したクラスタリング規則作成部566により作成されるクラスタリング規則Bを例示する図である。
なお、図10には、2つのクラスタリング規則Bが示されている。
【0049】
クラスタリング規則作成部566は、例えば、上述のテキストの集合からその特徴を抽出するソフトウェア(Aleph)であって、分類処理部544が作成したクラスタリング規則Aに基づいて得られたクラス(図8など)それぞれに含まれるテキストデータの特徴を抽出し、新たなテキストデータがオペレータ端末32からクラスタリング装置4(クラスタリングプログラム5)に入力された場合に、新たなテキストを、既存のクラスのいずれか分類するために用いられるクラスタリング規則B(図10)を作成し、クラスタリング規則DB542に記憶する。
なお、クラスタリング規則DB542に記憶されたクラスタリング規則A,Bは、適宜、記録媒体140などに対して出力され、クラスタリング装置4(図1など)と同様な処理を行う他の装置におけるクラスタリング処理の用に供せられうる。
【0050】
なお、あるクラスについて複数のクラスタリング規則Bが作成された場合には、そのクラスに含まれるテキストデータは、複数のクラスタリング規則Bの0個以上にマッチしている。
また、クラスタリング規則Bの作成のためには、クラスタリング規則Aに基づいて得られたクラスそれぞれに含まれるテキストデータをそのまま用いてもよいし、ユーザが、クラスタリング規則Aに基づいて得られたクラスそれぞれから適宜、選択したテキストデータを用いてもよい。
また、クラスタリング規則Bの作成のためには、クラスタリング規則Aに基づいて得られたクラスのいずれにも属さないテキストデータから適宜、選択したテキストデータを用いてもよい。
【0051】
なお、図10において、”has_w(Sentence, Word)は、文章”Sentence”が、単語”Word”を含むことを示す。
また、”label(Word, ”LABEL”)は、単語”Word”を示す実際の文字列が”LABEL”であることを示す。
また、”word_distance(word1, word2, near/close/middle/far)”は、単語”word1”と単語”word2”との間の距離が、それぞれ「近い」、「ごく近い」、「中間的」、「遠い」ことを示す。
また、”dependence(A, B)”は、文法上の係り受け関係を示し、”part(A,’名詞−形容動詞語幹’)”は、品詞情報を示す。
また、”class (Sentence, Class)は、文字”Sentence”がクラス”Class”に属することを示す。
また、クラスタリング規則Bは、”:−”の右側に記載されることがらがすべて満たされるとき、”:−”の左側に記載されることがらが満足されることを意味している。
【0052】
図11は、図3に示したクラスタリング規則作成部566が、クラスタリング規則B(図10)を作成するために用いる正例を例示する図である。
図12は、図3に示したクラスタリング規則作成部566が、クラスタリング規則B(図10)を作成するために用いる負例を例示する図である。
クラスタリング規則作成部566には、UI・処理制御部548などから、あるクラスからクラスタリング規則Bを作成する際に、特徴を抽出する対象のクラス(またはクラスタ)に属するテキストを示す正例、および、特徴を抽出する対象のクラス(またはクラスタ)に属さないテキストを示す負例(図11,図12)、および、特徴を抽出するための背景知識(図示せず)が設定され、クラスタリング規則作成部566は、これらの情報を用いて、各クラスの特徴を抽出し、図10に示したクラスタリング規則Bとする。
【0053】
[クラスタリング装置4(クラスタリングプログラム5)の動作]
以下、クラスタリング装置4(クラスタリングプログラム5)の動作を説明する。
オペレータ端末32(図1,図2)に対して、相談・問い合わせの文章のテキストデータが入力されると、オペレータ端末32は、入力されたテキストデータをクラスタリング装置4に対して出力する。
オペレータ端末32からクラスタリング装置4に入力されたテキストデータは、テキスト受信部500(図3)により、順次、テキストDB502に記憶される。
【0054】
図13は、図3に示したクラスタリングプログラム5において、クラスタリング規則作成部566が用いられない場合の動作を示すフローチャートである。
図13に示すように、ステップ100(S100)において、クラスタリング装置4(図1,図2)上で、クラスタリングプログラム5(図3)が起動される。
ステップ102(S102)において、UI・処理制御部548(図3)は、クラスタリング規則DB542を検索し、既にクラスタリング規則Aが作成されているか否かを判断する。
クラスタリングプログラム5は、第2のクラスタリング規則Aが既に存在する場合にはS110の処理に進み、これ以外の場合には図6,図7を参照して説明したクラスタリング規則Aの作成処理(S12)のS120の処理に進む。
【0055】
ステップ120(S120)において、クラスタリングプログラム5(図3)の分かち書き処理部504は、テキストデータに対する分かち書き処理を行い、単語の抽出およびその品詞の識別を行い、その結果をテキスト・単語DB506に記憶する。
各構成部分は、図6,図7を参照して説明したように、クラスタリング規則Aを作成する。
【0056】
ステップ122(S122)において、関連付け処理部508は、テキスト・単語DB506に記憶された単語の係り受け関係に基づき、関連単語を作成し、テキスト・単語DB506に記憶する。
ステップ124(S124)において、相関規則作成処理部520は、テキスト・単語DB506に記憶された関連単語の相関関係を求め、相関規則DB524に記憶する。
【0057】
ステップ126(S126)において、絞り込み処理部522は、相関規則DB524に記憶された相関関係を絞り込み、クラスタリング規則Aとする。
【0058】
ステップ104(S104)において、クラスタリング処理部560(図3)は、ステップ12(S12)の処理により作成されたクラスタリング規則Aを用いて、テキスト・単語DB506に記憶されたテキストを、図7,図8を参照して説明したようにクラスタリングし、クラスを作成する。
なお、上述のように、S106の処理において、クラスタリング規則Aにより作成されたクラスに含まれるテキストデータは、適宜、ユーザによる選択を受ける場合がある。
【0059】
ステップ106(S106)において、クラスタリング規則作成部566(図3)は、図10〜図12を参照して説明したように、S106の処理により作成されたクラスそれぞれの特徴を抽出し、クラスタリング処理部560のクラスタリング処理において、新たなテキストがオペレータ端末32から入力されたときに、新たなテキストを、既存のクラスのいずれに分類すべきかの判断に用いられるクラスタリング規則Bを作成する。
【0060】
ステップ110(S110)において、UI・処理制御部548(図3)は、新たなテキストデータがオペレータ端末32から入力されたか否かを判断する。
クラスタリングプログラム5は、新たなテキストデータが入力された場合にはS112の処理に進み、これ以外の場合には処理を終了する。
【0061】
ステップ112(S112)において、クラスタリング処理部560(図3)は、クラスタリング規則Aを用いて、新たに入力されたテキストデータを、既存のクラスに分類する。
【0062】
図14は、図3に示したクラスタリングプログラム5において、クラスタリング規則作成部566が用いられる場合の処理(S14)を示すフローチャートである。
図14に示すように、ステップ140(S140)において、クラスタリング装置4(図1,図2)上で、クラスタリングプログラム5(図3)が起動される。
【0063】
ステップ142(S142)において、UI・処理制御部548(図3)は、クラスタリング規則DB542を検索し、既にクラスタリング規則Bが作成されているか否かを判断する。
クラスタリングプログラム5は、第2のクラスタリング規則Bが既に存在する場合にはS150の処理に進み、これ以外の場合には図6,図7,図13を参照して説明したクラスタリング規則Aの作成処理(S12)に進む。
【0064】
ステップ144(S144)において、クラスタリング処理部560(図3)は、ステップ12(S12)の処理により作成されたクラスタリング規則Aを用いて、テキスト・単語DB506に記憶されたテキストを、図7,図8を参照して説明したようにクラスタリングし、クラスを作成する。
なお、上述のように、S146の処理において、クラスタリング規則Aにより作成されたクラスに含まれるテキストデータは、適宜、ユーザによる選択を受ける場合がある。
【0065】
ステップ146(S146)において、クラスタリング規則作成部566(図3)は、図10〜図12を参照して説明したように、S146の処理により作成されたクラスそれぞれの特徴を抽出し、クラスタリング処理部560のクラスタリング処理において、新たなテキストがオペレータ端末32から入力されたときに、新たなテキストを、既存のクラスのいずれに分類すべきかの判断に用いられるクラスタリング規則Bを作成する。
【0066】
ステップ150(S150)において、UI・処理制御部548(図3)は、新たなテキストデータがオペレータ端末32から入力されたか否かを判断する。
クラスタリングプログラム5は、新たなテキストデータが入力された場合にはS152の処理に進み、これ以外の場合には処理を終了する。
【0067】
ステップ152(S152)において、クラスタリング処理部560(図3)は、クラスタリング規則Bを用いて、新たに入力されたテキストデータを、既存のクラスに分類する。
以上、図13,図14を参照して説明したように作成されたクラス(図10,図9)は、適宜、クラス配信部564により、他部門システム220(図1,図2)に、ネットワーク22を介して配信される。
【0068】
[実施例]
以下、データマイニングシステム1のクラスタリング装置4(図1,図2)において、図13に示したように、クラスタリングプログラム5のクラスタリング規則作成部566(図3)を用いず、クラスタリング規則Aによりテキストデータを分類する場合の実施例を説明する。
図15は、クラスタリング装置5(図3)において、関連付け処理部508を用いずに、関連単語から生成した分類規則Aによりテキストデータをクラスに分類する場合と、関連付け処理部508を用いて、図13に示したように単語から生成したクラスタリング規則Aによりテキストデータをクラスに分類する場合とを比較する図表である。
【0069】
上述のように、クラスタリングプログラム5においては、関連付け処理部508が用いられ、相関規則作成処理部520は、係り受け関係によりテキストに含まれる単語を関連づけて関連単語の相関性を抽出し、この相関性に基づいて、絞り込み処理部522、意味付け処理部540および分類処理部544がクラスタリング規則Aを作成する。
これに対して、クラスタリングプログラム5において、関連付け処理部508が用いられなくても、相関規則作成処理部520が、テキストに含まれる単語そのものの相関性を抽出し、分類処理部544などが、この単語の相関性に基づいて、クラスタリング規則Aを作成することも可能である。
図15には、このように、関連付け処理部508を用いて生成された相関規則Aによりテキストデータをクラスに分類した結果と、関連付け処理部508を用いずに生成されたクラスタリング規則Aによりテキストデータをクラスに分類した結果とが示されている。
【0070】
なお、図15に示した例においては、ある企業のコールセンターにおいて、2002年4月1日から同年7月31日までの間に受け付けられた実際の問い合わせを示す602個のテキストデータ(以下、ソースデータとも記す)が処理対象とされている。
また、この例においては、分かち書き処理部504などには、具体例として示した各ソフトウェアが用いられている。
また、分かち書き処理部504には、パーソナルコンピュータの代表的OSの名称などを1つの語句として捉え、分かち書きの結果として得られる語句が細かくなりすぎないようにIT用語リストを参照させている。
処理対象のテキストデータ1つには、平均して12.5個の単語が含まれ、602個のテキストデータに含まれる総単語数は7517個で、関連付け処理部508の処理により、3116個の異なる関連単語が得られた。
【0071】
図15において、最小支持度は、([(最小支持率(%))=100×(W1〜Wrを含む文章データ数)/(全文章データ数)])と定義される。
事前/事後確信度差は、事前確信度と事後確信度(絞り込み処理部522の説明を参照)との差を示す。
最小支持度と事前/事後確信度差は、小さければ小さいほど、クラスタリングプログラム5が、少ないテキストデータからクラスタリング規則Aを作成できることを示しており、関連付け処理部508を用いると、これを用いない場合に比べて、より少ないテキストデータ数からクラスタリング規則Aを導出できることがわかる。
【0072】
また、いずれの場合でも、導出されるルール(クラスタリング規則A)の数には大差はないが、専門家が、ソースデータと導出されたクラスタリング規則Aとを比較し、意味解釈可能だと判断したクラスタリング規則Aの数、および、その割合は、関連付け処理部508を用いることにより、大幅に増加することがわかる。
また、専門家により、有用性が高いと判断された高有用性ルール(クラスタリング規則A)の数は、いずれの場合でも大差ないが、これを求めるために用いられた平均のテキストデータ数は、関連付け処理部508を用いる場合の方が、大幅に少なくなっており、関連付け処理部508を用いると、少ないソースデータから、有用なクラスタリング規則Aが得られることがわかる。
【0073】
図16は、絞り込み処理部522(図3)に対して設定される事前確信度と事後確信度との差と、関連付け処理部508を用いて、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果とを対比して示す図表である。
図16を参照してわかるように、絞り込み処理部522に対して、事前確信度と事後確信度との差が15%程度になるように、相関規則の絞り込みを行わせると、クラスタリングプログラム5により、良好なテキストデータの分類結果が得られることがわかる。
【0074】
図17は、絞り込み処理部522(図3)に対して設定される最小確信度と、関連付け処理部508を用いずに、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果とを対比して示す図である。
図17に示す最小確信度の定義は、上述の事後確信度の定義と同じであって、この最小確信度は、絞り込み処理部522に対して設定される。
図17に示すように、関連付け処理部508を用いずに、クラスタリング規則Aを用いたテキストの分類を行うと、絞り込み処理部522に対して、どのような最小確信度を設定しても、結果に含まれるルール(クラスタリング規則A)の内、有用性が高いものの数に変化が生じない。
【0075】
図18は、関連付け処理部508を用いて、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果の精度および再現率を示す図である。
精度とは、得られたクラスのそれぞれに含まれるテキストの内、それぞれのクラスに含まれることが妥当であると、専門家により判断されたテキストの割合を示す。
再現率とは、得られたクラスのそれぞれに含まれるべきテキストの内、実際に、それぞれのクラスに含まれていたテキストの割合を示す。
図18を参照すると、関連付け処理部508を用いて、図13に示したようにテキストデータをクラス分けすると、一部の例外を除いて、高い精度と再現率とが得られることがわかる。
【0076】
[関連出願]
本発明は、本出願人による特願2002−366690号に関連する。
【0077】
【発明の効果】
以上説明したように、本発明にかかる文章分類装置およびその方法によれば、広く集められた文章を、有用な情報を含むグループに分類し、利用者に提供することができる。
また、本発明にかかる文章分類装置およびその方法によれば、係り受け関係を有する複数の単語の間の相関関係を抽出し、さらに、この相関関係を絞り込んでデータマイニングを行うことができる。
【図面の簡単な説明】
【図1】本発明にかかる文章データ分類方法が適用されるデータマイニングシステムの構成を示す図である。
【図2】図1に示したオペレータ端末、クラスタリング装置および他部門のシステムのハードウェア構成を例示する図である。
【図3】図1,図2に示したクラスタリング装置において実行されるクラスタリングプログラムの構成を示す図である。
【図4】文章の句構造を例示する図である。
【図5】文章に含まれる単語の係り受け構造を例示する図である。
【図6】図3に示したクラスタリングプログラムの前処理部の処理を示す図であって、(A)は、テキストDBに記憶されるテキストデータQの集合を模式的に示し、(B)は、テキストデータQの内容を例示し、(C)は、分かち書き処理部が、テキストデータを処理して得られる単語(分かち書き結果)を示す。
【図7】図3に示した分類処理部により分類されたクラス、クラスそれぞれに含まれる相関規則の数、および、クラスに含まれるテキストデータを、表形式で例示する図である。
【図8】図6(A)に示したテキストデータの集合をクラスタリングして得られるクラスを模式的に例示する図である。
【図9】新たに入力されるテキストデータQnewが、図8に示した既存のクラスに分類される態様を示す図である。
【図10】図3に示したクラスタリング規則作成部566により作成されるクラスタリング規則Bを例示する図である。
【図11】図3に示したクラスタリング規則作成部が、クラスタリング規則B(図10)を作成するために用いる正例を例示する図である。
【図12】図3に示したクラスタリング規則作成部が、クラスタリング規則B(図10)を作成するために用いる負例を例示する図である。
【図13】図3に示したクラスタリングプログラムにおいて、クラスタリング規則作成部が用いられない場合の動作を示すフローチャートである。
【図14】図3に示したクラスタリングプログラムにおいて、クラスタリング規則作成部が用いられる場合の処理(S14)を示すフローチャートである。
【図15】クラスタリング装置(図3)において、関連付け処理部を用いずに、関連単語から生成した分類規則Aによりテキストデータをクラスに分類する場合と、関連付け処理部を用いて、図13に示したように単語から生成したクラスタリング規則Aによりテキストデータをクラスに分類する場合とを比較する図表である。
【図16】絞り込み処理部(図3)に対して設定される事前確信度と事後確信度との差と、関連付け処理部を用いて、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果とを対比して示す図表である。
【図17】絞り込み処理部(図3)に対して設定される最小確信度と、関連付け処理部を用いずに、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果とを対比して示す図である。
【図18】関連付け処理部を用いて、図13に示したようにクラスタリング規則Aを用いてテキストを分類した結果の精度および再現率を示す図である。
【符号の説明】
1・・・データマイニングシステム、
3・・・コールセンター、
30・・・コール受付装置、
32・・・オペレータ端末、
34・・・LAN、
4・・・クラスタリング装置、
5・・・クラスタリングプログラム、
50・・・前処理部、
500・・・テキスト受信部、
502・・・テキストDB、
504・・・分かち書き処理部、
506・・・テキスト・単語DB、
508・・・関連付け処理部、
52・・・相関規則作成部、
520・・・相関規則作成処理部、
522・・・絞り込み処理部、
524・・・相関規則DB5、
54・・・意味付け処理部、
540・・・意味付け処理部、
542・・・クラスタリング規則DB、
546・・・意味付け・分類DB、
544・・・分類処理部、
548・・・UI・処理制御部、
56・・・クラスタリング処理部、
560・・・クラスタリング処理部、
562・・・クラスDB、
564・・・クラス配信部、
566・・・クラスタリング規則作成部、
22・・・ネットワーク、
220・・・他部門システム、
10・・・本体、
102・・・CPU、
104・・・メモリ、
12・・・通信装置、
14・・・記録装置、
140・・・記録媒体、
16・・・表示・入力装置、
20・・・電話ネットワーク、
200,202・・・電話機、
Claims (12)
- 複数の単語を含む文書を、0以上のグループに分類する文章分類装置であって、
前記複数の文章それぞれに含まれる複数の単語を抽出する単語抽出手段と、
前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類する単語分類手段と、
前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記0以上のグループに分類するための分類規則を作成する分類規則作成手段とを有する文章分類装置。 - 前記作成された分類規則に基づいて、前記複数の文章を、前記0以上のグループに分類する文章分類手段をさらに有する請求項1に記載の文章分類装置。
- 前記文章分類手段は、前記分類規則が作成された後は、新たに分類の対象とされた文章を、既に作成された前記分類規則に基づいて、前記グループの内の0以上に分類する請求項2に記載の文章分類装置。
- 前記相関規則作成手段は、
同じ前記文章の単語から得られた関連単語の組み合わせを作成する組み合わせ作成手段と、
前記作成された組み合わせを、所定の条件に合わせるように処理する組み合わせ処理手段とを有する請求項1〜3のいずれかに記載の文章分類装置。 - 前記組み合わせは、前記文章に、1つ以上の第1の関連単語が含まれる場合に、同一の前記文章に、他の1つ以上の第2の関連単語が含まれることを示す請求項4に記載の文章分類装置。
- 前記組み合わせ処理手段は、前記作成された組み合わせの内、所定の割合以上または所定数以上の前記文章に適合する組み合わせを選択する処理を行う請求項4または5に記載の文章分類装置。
- 前記組み合わせ処理手段は、前記第1の関連単語が含まれる前記文章が所定の割合以上となる組み合わせ、または、前記第1の関連単語が含まれる前記文章の内、前記第2の単語単語が含まれる前記文章の割合と、前記第2の関連単語が含まれる前記文章の割合との差が所定値以上となる組み合わせを選択する処理を行う請求項4または5に記載の文章分類装置。
- 前記単語抽出手段は、前記複数の単語それぞれの品詞をさらに識別し、
前記単語分類手段は、前記識別された単語それぞれの品詞に基づいて、前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類する請求項1〜7のいずれかに記載の文章分類装置。 - 複数の単語を含む文書を、0以上のグループに分類する文章分類方法であって、
前記複数の文章それぞれに含まれる複数の単語を抽出し、
前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類し、
前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記0以上のグループに分類するための分類規則を作成する文章分類方法。 - 前記作成された分類規則に基づいて、前記複数の文章を、前記0以上のグループに分類する請求項9に記載の文章分類方法。
- 複数の単語を含む文書を、0以上のグループに分類するためのプログラムであって、
前記複数の文章それぞれに含まれる複数の単語を抽出し、前記抽出された単語それぞれの品詞を識別するステップと、
前記抽出された単語それぞれの品詞に基づいて、前記文章それぞれに含まれる複数の単語を、それぞれ関連する2つ以上の単語を含む関連単語に分類するステップと、
前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記0以上のグループに分類するための分類規則を作成するステップとをコンピュータに実行させるプログラム。 - 前記作成された分類規則に基づいて、前記複数の文章を、前記0以上のグループに分類するステップをコンピュータに実行させる請求項11に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003018295A JP2004234051A (ja) | 2003-01-28 | 2003-01-28 | 文章分類装置およびその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003018295A JP2004234051A (ja) | 2003-01-28 | 2003-01-28 | 文章分類装置およびその方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004234051A true JP2004234051A (ja) | 2004-08-19 |
Family
ID=32948462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003018295A Pending JP2004234051A (ja) | 2003-01-28 | 2003-01-28 | 文章分類装置およびその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004234051A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1669926A1 (en) | 2004-12-07 | 2006-06-14 | Sony Corporation | Method and apparatus for processing image, recording medium and computer program |
CN100407766C (zh) * | 2004-12-07 | 2008-07-30 | 索尼株式会社 | 用于处理图像的方法和设备 |
WO2008102826A1 (ja) | 2007-02-20 | 2008-08-28 | Sony Corporation | 画像表示装置、映像信号処理装置および映像信号処理方法 |
JP2008243126A (ja) * | 2007-03-29 | 2008-10-09 | Chuden Cti Co Ltd | 入力情報分析装置 |
JP2009128949A (ja) * | 2007-11-19 | 2009-06-11 | Fuji Xerox Co Ltd | グラフ表示装置およびプログラム |
JP2010282416A (ja) * | 2009-06-04 | 2010-12-16 | Fujitsu Ltd | 区分データレコメンド方法、プログラム、及び装置 |
CN103514151A (zh) * | 2012-06-29 | 2014-01-15 | 富士通株式会社 | 依存句法分析方法、装置及辅助分类器训练方法 |
US9323839B2 (en) | 2011-01-13 | 2016-04-26 | Mitsubishi Electric Corporation | Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium |
CN108153734A (zh) * | 2017-12-26 | 2018-06-12 | 北京嘉和美康信息技术有限公司 | 一种文本处理方法及装置 |
-
2003
- 2003-01-28 JP JP2003018295A patent/JP2004234051A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1669926A1 (en) | 2004-12-07 | 2006-06-14 | Sony Corporation | Method and apparatus for processing image, recording medium and computer program |
EP1876565A2 (en) | 2004-12-07 | 2008-01-09 | Sony Corporation | Method, and apparatus for processing image, recording medium and computer program |
CN100407766C (zh) * | 2004-12-07 | 2008-07-30 | 索尼株式会社 | 用于处理图像的方法和设备 |
US7515768B2 (en) | 2004-12-07 | 2009-04-07 | Sony Corporation | Method, and apparatus for processing image, recording medium and computer program |
WO2008102826A1 (ja) | 2007-02-20 | 2008-08-28 | Sony Corporation | 画像表示装置、映像信号処理装置および映像信号処理方法 |
WO2008102827A1 (ja) | 2007-02-20 | 2008-08-28 | Sony Corporation | 画像表示装置、映像信号処理装置および映像信号処理方法 |
JP2008243126A (ja) * | 2007-03-29 | 2008-10-09 | Chuden Cti Co Ltd | 入力情報分析装置 |
JP2009128949A (ja) * | 2007-11-19 | 2009-06-11 | Fuji Xerox Co Ltd | グラフ表示装置およびプログラム |
JP2010282416A (ja) * | 2009-06-04 | 2010-12-16 | Fujitsu Ltd | 区分データレコメンド方法、プログラム、及び装置 |
US9323839B2 (en) | 2011-01-13 | 2016-04-26 | Mitsubishi Electric Corporation | Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium |
CN103514151A (zh) * | 2012-06-29 | 2014-01-15 | 富士通株式会社 | 依存句法分析方法、装置及辅助分类器训练方法 |
CN108153734A (zh) * | 2017-12-26 | 2018-06-12 | 北京嘉和美康信息技术有限公司 | 一种文本处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mudinas et al. | Combining lexicon and learning based approaches for concept-level sentiment analysis | |
US7269544B2 (en) | System and method for identifying special word usage in a document | |
RU2571373C2 (ru) | Метод анализа тональности текстовых данных | |
Toraman et al. | Impact of tokenization on language models: An analysis for turkish | |
US20120035912A1 (en) | Multilingual sentence extractor | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
Grobelnik et al. | Automated knowledge discovery in advanced knowledge management | |
Gupta et al. | IITP: supervised machine learning for aspect based sentiment analysis | |
Marstawi et al. | Ontology-based aspect extraction for an improved sentiment analysis in summarization of product reviews | |
JP2004234051A (ja) | 文章分類装置およびその方法 | |
Sarracén et al. | Offensive keyword extraction based on the attention mechanism of BERT and the eigenvector centrality using a graph representation | |
Benarafa et al. | WordNet semantic relations based enhancement of KNN model for implicit aspect identification in sentiment analysis | |
JP2007079730A (ja) | 単語類似判断装置、方法及びプログラム | |
Shang et al. | DIANES: A DEI Audit Toolkit for News Sources | |
Pullwitt | Integrating contextual information to enhance SOM-based text document clustering | |
CN115062135B (zh) | 一种专利筛选方法与电子设备 | |
Han et al. | Disambiguating USPTO inventor names with semantic fingerprinting and DBSCAN clustering | |
JP2003016106A (ja) | 関連度値算出装置 | |
Litvak et al. | Improving summarization quality with topic modeling | |
JP3743204B2 (ja) | データ分析支援方法および装置 | |
JP2022050011A (ja) | 情報処理装置及びプログラム | |
JP2003108571A (ja) | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 | |
Mathews et al. | Twitter data sentiment analysis on a malayalam dataset using rule-based approach | |
JP2004199363A (ja) | 文章データ分類装置およびその方法 | |
WO2020157887A1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090223 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090415 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090903 |