JP2004234051A

JP2004234051A - 文章分類装置およびその方法

Info

Publication number: JP2004234051A
Application number: JP2003018295A
Authority: JP
Inventors: Keiko Shimazu; 恵子島津; Yohei Yamane; 洋平山根; Atsukimi Monma; 敦仁門馬; Tetsushi Sakurai; 哲志桜井
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2003-01-28
Filing date: 2003-01-28
Publication date: 2004-08-19

Abstract

【課題】広く集められた文章を、有用な情報を含むグループに分類し、利用者に提供する。
【解決手段】コールセンター３のオペレータ端末３２に、相談・問い合わせのテキストデータが入力される。クラスタリング装置４は、このテキストデータを受け入れて記憶し、記憶したテキストデータに含まれる単語同士を、係り受け関係により関連づける。さらに、クラスタリング装置４は、関連づけた単語同士の相関関係を求め、絞り込み、分類して、クラスタリング規則Ａを作成する。クラスタリング装置４は、このクラスタリング規則Ａに基づいて、記憶したテキストデータをクラスに分類する。このようにして得られたクラスは、他部門システム２２０に配信される。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、文章を、その内容に応じて分類する文章分類装置およびその方法に関する。
【０００２】
【従来の技術】
例えば、非特許文献１，２などには、市場調査などに用いられるデータマイニングの一種であり、テキストデータを処理の対象とするテキストマイニングを開示する。
また、非特許文献３には、文章を単語に分解するソフトウェア（茶筅）が開示されている。
また、非特許文献４には、文章に含まれる単語の相関関係を示す規則（相関規則；相関ルール）を求める方法が開示されており、さらに、非特許文献５には、相関規則を求めるソフトウェア（Ａｐｒｉｏｒｉ）が開示されている。
また、非特許文献６には、テキストの集合からその特徴を抽出するソフトウェア（Ａｌｅｐｈ）が開示されている。
また、非特許文献７には、日本語分の単語の係り受け関係（例えば、主語と動詞、動詞と目的語・補語）を解析するためのソフトウェア（ＣａｂｏＣｈａ）が開示されている。
【０００３】
ここで、コンピュータやＯＡ機器のメーカー・商社では、ユーザの相談を受け付ける部門が設けられ、このような部門は、コールセンターなどと呼ばれることが多い。
このコールセンターに受け付けられる相談には、製品開発のためのヒントが多く含まれるが、ユーザと製品開発者との間で、文章に用いる言葉が違うことがある。
従って、コールセンターが受け付けた相談をデータベース化しても、製品開発者が、ユーザが相談に用いる言葉を知らなければ、有用な情報を上手く引き出すことができない。
【０００４】
このような点に対し、例えば、非特許文献８，９は、コールセンターで受け付けられたテキストに対して、単語間の相関の抽出を行うことにより、知識を得るための方法を開示する。
しかしながら、これら非特許文献８，９には、係り受け関係を有する複数の単語の間の相関関係を抽出し、さらに、この相関関係を、事前確信度と事後確信度との差を用いて絞り込み、データマイニングを行う方法を開示してはいない。
【０００５】
【非特許文献１】特集「テキストマイニング」，人工知能学会誌ｖｏｌ．１６，Ｎｏ．２，２００１
【非特許文献２】特集「ナレッジ・マネージメントとその支援技術」，人工知能学会誌ｖｏｌ．１６，Ｎｏ．１，２００１
【非特許文献３】ｈｔｔｐ：／／ｃｈａｓｅｎ．ａｉｓｔ−ｎａｒａ．ａｃ．ｊｐ／ｉｎｄｅｘ．ｈｔｍｌ．ｊａ
【非特許文献４】データマイニング（データサイエンス・シリーズ３，福田他、共立出版社（２００１年９月１日初版第１刷），ＩＳＢＮ−４−３２０−１２００２−７）
【非特許文献５】ｈｔｔｐ：／／ｆｕｚｚｙ．ｃｓ．ｕｎｉ−ｍａｇｄｅｂｕｒｇ．ｄｅ／￣ｂｏｒｇｅｌｔ／ａｐｒｉｏｒｉ／
【非特許文献６】ｈｔｔｐ：／／ｗｅｂ．ｃｏｍｌａｂ．ｏｘ．ａｃ．ｕｋ／ｏｕｃｌ／ｒｅｓｅａｒｃｈ／ａｒｅａｓ／ｍａｃｈｌｅａｒｎ／Ａｌｅｐｈ／
【非特許文献７】ｈｔｔｐ：／／ｃｌ．ａｉｓｔ−ｎａｒａ．ａｃ．ｊｐ／￣ｔａｋｕ−ｋｕ／ｓｏｆｔｗａｒｅ／ｃａｂｏｃｈａ／
【非特許文献８】コールセンターにおけるテキストマイニング（人工知能学会誌１６巻２号、ｐ２２０〜２２５、那須川）
【非特許文献７】テキストマイニング：膨大な文章データからの知識獲得−意図の認識−（情報処理学会第５７回（平成１０年後期）全国大会予稿；３−７５、那須川他）
【０００６】
【発明が解決しようとする課題】
本発明は、上述した背景からなされたものであり、広く集められた文章を、有用な情報を含むグループに分類し、利用者に提供することができる文章分類装置およびその方法を提供することを目的とする。
また、本発明は、上述した背景からなされたものであり、係り受け関係を有する複数の単語の間の相関関係を抽出し、さらに、この相関関係を絞り込んでデータマイニングを行うための文章分類装置およびその方法を提供することを目的とする。
【０００７】
【課題を解決するための手段】
［文章分類装置］
上述した目的を達成するために、本発明にかかる文章分類装置は、複数の単語を含む文書を、０以上のグループに分類する文章分類装置であって、前記複数の文章それぞれに含まれる複数の単語を抽出する単語抽出手段と、前記文章それぞれに含まれる複数の単語を、それぞれ関連する２つ以上の単語を含む関連単語に分類する単語分類手段と、前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記０以上のグループに分類するための分類規則を作成する分類規則作成手段とを有する。
【０００８】
好適には、前記作成された分類規則に基づいて、前記複数の文章を、前記０以上のグループに分類する文章分類手段をさらに有する。
【０００９】
好適には、前記文章分類手段は、前記分類規則が作成された後は、新たに分類の対象とされた文章を、既に作成された前記分類規則に基づいて、前記グループの内の０以上に分類する。
【００１０】
好適には、前記相関規則作成手段は、同じ前記文章の単語から得られた関連単語の組み合わせを作成する組み合わせ作成手段と、前記作成された組み合わせを、所定の条件に合わせるように処理する組み合わせ処理手段とを有する。
【００１１】
好適には、前記組み合わせは、前記文章に、１つ以上の第１の関連単語が含まれる場合に、同一の前記文章に、他の１つ以上の第２の関連単語が含まれることを示す。
【００１２】
好適には、前記組み合わせ処理手段は、前記作成された組み合わせの内、所定の割合以上または所定数以上の前記文章に適合する組み合わせを選択する処理を行う。
【００１３】
好適には、前記組み合わせ処理手段は、前記第１の関連単語が含まれる前記文章が所定の割合以上となる組み合わせ、または、前記第１の関連単語が含まれる前記文章の内、前記第２の単語単語が含まれる前記文章の割合と、前記第２の関連単語が含まれる前記文章の割合との差が所定値以上となる組み合わせを選択する処理を行う。
【００１４】
好適には、前記単語抽出手段は、前記複数の単語それぞれの品詞をさらに識別し、前記単語分類手段は、前記識別された単語それぞれの品詞に基づいて、前記文章それぞれに含まれる複数の単語を、それぞれ関連する２つ以上の単語を含む関連単語に分類する。
【００１５】
［文章分類方法］
また、本発明にかかる文章分類方法は、複数の単語を含む文書を、０以上のグループに分類する文章分類方法であって、前記複数の文章それぞれに含まれる複数の単語を抽出し、前記文章それぞれに含まれる複数の単語を、それぞれ関連する２つ以上の単語を含む関連単語に分類し、前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記０以上のグループに分類するための分類規則を作成する。
【００１６】
好適には、前記作成された分類規則に基づいて、前記複数の文章を、前記０以上のグループに分類する。
【００１７】
好適には、複数の単語を含む文書を、０以上のグループに分類するためのプログラムであって、前記複数の文章それぞれに含まれる複数の単語を抽出し、前記抽出された単語それぞれの品詞を識別するステップと、前記抽出された単語それぞれの品詞に基づいて、前記文章それぞれに含まれる複数の単語を、それぞれ関連する２つ以上の単語を含む関連単語に分類するステップと、前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記０以上のグループに分類するための分類規則を作成するステップとをコンピュータに実行させる。
【００１８】
好適には、前記作成された分類規則に基づいて、前記複数の文章を、前記０以上のグループに分類するステップをコンピュータに実行させる。
【００１９】
【発明の実施の形態】
以下、本発明の実施形態を説明する。
【００２０】
［データマイニングシステム１］
図１は、本発明にかかる文章データ分類方法が適用されるデータマイニングシステム１の構成を示す図である。
図１に示すように、データマイニングシステム１は、電話ネットワーク２０に接続されたコールセンター３、クラスタリング装置４、および、ＬＡＮ・ＷＡＮなどのプライベートネットワーク２２から構成される。
ネットワーク２２は、クラスタリング装置４と他部門のシステム２００−１〜２２０−ｎとを接続する。
電話ネットワーク２０は、例えば一般的な公衆電話回線であって、多数のユーザ側電話機２００と、１台以上のセンタ側の電話機２０２−１〜２０２−ｍ（ｍは１以上の整数）とが接続される。
コールセンター３は、ＬＡＮ３４を介してクラスタリング装置４と接続されるコール受付装置３０−１〜３０−ｍを含む。
コール受付装置３０−１〜３０−ｍそれぞれは、オペレータ端末３２−１〜３２−ｍそれぞれと、電話機２０２−１〜２０２−ｍそれぞれとを含む。
【００２１】
データマイニングシステム１は、これらの構成部分により、例えば、コンピュータ・ＯＡ機器メーカにおいて、ユーザからの相談・問い合わせなどを受け付け、受け付けた相談・問い合わせの文章を、開発部門などの他部門それぞれの業務に有用な情報を含むグループ（クラス）に分類し、他部門のシステム２２０−１〜２２０−ｎに提供する。
なお、コール受付装置３０−１〜３０−ｍなど、複数ある構成部分のいずれかを、特定せずに示す場合には、単にコール受付装置３０などと記載することがある。
【００２２】
［ハードウェア構成］
次に、オペレータ端末３２，クラスタリング装置４および他部門システム２２０のハードウェア構成を説明する。
図２は、図１に示したオペレータ端末３２、クラスタリング装置４および他部門のシステム２２０のハードウェア構成を例示する図である。
図２に示すように、オペレータ端末３２、クラスタリング装置４および他部門のシステム２２０は、それぞれ、ＣＰＵ１０２およびメモリ１０４などを含む本体１０、オペレータ端末３２・クラスタリング装置４・他部門システム２２０の間の通信を行う通信装置１２、ＨＤＤ・ＣＤ装置などの記録装置１４、および、ＬＣＤ表示装置・キーボード・マウスなどを含む表示・入力装置１６から構成される。
つまり、オペレータ端末３２、クラスタリング装置４および他部門システム２２０は、通信機能を有する一般的なコンピュータとしての構成部分を有する。
【００２３】
［コール受付装置３０］
次に、データマイニングシステム１のコール受付装置３０および他部門システム２２０の動作を説明する。
コール受付装置３０は、オペレータ（図示せず）が、ユーザからの相談・問い合わせの電話を受け付け、相談・問い合わせの内容を入力するために用いられる。
つまり、ユーザが、ユーザ側電話機２００からセンタ側電話機２０２に電話をかけ、コール受付装置３０のオペレータに音声で相談・問い合わせをすると、コール受付装置３０のオペレータは、その内容を記した文章を、オペレータ端末３２に入力し、相談・問い合わせのテキストデータを作成する。
なお、コール受付装置３０は、ユーザからの相談・問い合わせを、電子メールを利用して受け、受けた電子メールをそのまま、相談・問い合わせの内容を示す文章のテキストデータとして作成してもよい。
コール受付装置３０のオペレータ端末３２は、このようにして作成したテキストデータを、ＬＡＮ３４を介して、クラスタリング装置４に対して送信する。
【００２４】
［他部門システム２２０］
他部門システム２２０は、例えば、開発部門・営業部門など、各部門に設置され、クラスタリング装置４から、意味や内容に基づいて分類されたテキストデータのグループ（クラス）を受け、部門の構成員（図示せず）に示す。
【００２５】
［クラスタリング装置４］
次に、クラスタリング装置４上で動作するクラスタリングプログラム５の構成および動作を説明する。
図３は、図１，図２に示したクラスタリング装置４において実行されるクラスタリングプログラム５の構成を示す図である。
図３に示すように、クラスタリングプログラム５は、前処理部５０、相関規則作成部５２、意味付け・分類部５４およびクラスタリング処理部５６から構成される。
【００２６】
前処理部５０は、テキスト受信部５００、テキストデータベース（テキストＤＢ）５０２、分かち書き処理部５０４、テキスト・単語ＤＢ５０６および関連付け処理部５０８を含む。
相関規則作成部５２は、相関規則作成処理部５２０、絞り込み処理部５２２および相関規則ＤＢ５２４を含む。
意味付け・分類部５４は、意味付け処理部５４０、クラスタリング規則ＤＢ５４２、分類処理部５４４、意味付け・分類ＤＢ５４６およびユーザインターフェース（ＵＩ）・処理制御部５４８を含む。
【００２７】
クラスタリング処理部５６は、クラスタリング処理部５６０、クラスＤＢ５６２およびクラス配信部５６４から構成され、図３中に点線で示すように、必要に応じて、クラスタリング規則作成部５６６をさらに含む。
なお、クラスタリングプログラム５を、各データベースの内、共用可能なものは、一体化した構成としてもよい。
クラスタリングプログラム５は、これらの構成部分により、コールセンター３から相談・問い合わせのテキストデータを受け、各部門に有用なクラスに分類して、他部門システム２２０に配信する。
【００２８】
図６は、図３に示したクラスタリングプログラム５の前処理部５０の処理を示す図であって、（Ａ）は、テキストＤＢ５０２に記憶されるテキストデータＱの集合を模式的に示し、（Ｂ）は、テキストデータＱの内容を例示し、（Ｃ）は、分かち書き処理部５０４が、テキストデータを処理して得られる単語（分かち書き結果）を示す。
但し、以下の各図において、クラスタリングプログラム５の各構成部分が処理の対象としている文章は、必ずしも同一ではない。
【００２９】
なお、図６（Ａ）〜（Ｃ）には、（Ａ）に示すテキストデータの１つ「Ｑ」の文章が、（Ｂ）に示すように、「ＹＹ使用中。２００ＤＰＩくらいで図面を取り込んでいるが、かなり綺麗に入る。これを、ＸＸのオブジェに持ってゆくと、かなり荒れてしまうが、何かいい方法はないですか？」である場合が示されている。
また、図６（Ｃ）には、この文章が、「ＹＹ（機種名）」、「使用中」などの単語に分解され、さらに、これらの単語が、それぞれ固有名詞、名詞などと識別される場合が示されている。
【００３０】
前処理部５０において、テキスト受信部５００は、オペレータ端末３２それぞれからテキストデータ（相談・問い合わせ文）を受け、フォーマットを統一して、図６（Ｃ）に示すように、テキストＤＢ５０２に記憶する。
分かち書き処理部５０４としては、例えば、上述したソフトウェア「茶筅」が用いられ、テキストＤＢ５０２に記憶されたテキストデータそれぞれが示す文章（以下、「テキストデータそれぞれが示す文章」を、単に「テキストデータの文章」とも記す）、例えば、図６（Ｂ）に示す文章（相談・問い合わせ文）に含まれる単語の全てを、図６（Ｃ）に示すように分離し、分離した単語それぞれの品詞を判定する（分かち書き処理）。
【００３１】
なお、この部分および以下の説明において、「茶筅」など、具体的なソフトウェアが例示される場合があるが、これは、発明の説明の明確化のためであって、本発明の技術的範囲の限定を意図するものではない。
具体例として挙げられたソフトウェアは、他の同等な機能・性能を有する他の手段に置換可能である。
【００３２】
図４は、文章の句構造を例示する図である。
図４に示すように、日本語の文章も、英文の構文解析に倣って、句構造に分解されうる。
分かち書き処理部５０４は、分かち書き処理の結果として得られた単語の内、相関規則作成部５２および意味付け・分類部５４の処理において用いられる重要語、例えば、名詞、動詞、形容詞、形容動詞および固有名詞（分かち書き処理部５０４は、固有名詞を未知の品詞の単語と判定することがある）と判定された単語と、これらの単語の品詞と、これらの単語を含む文章のテキストデータとを対応づけて、テキスト・単語ＤＢ５０６に記憶する。
なお、分かち書き処理部５０４により得られた単語の品詞を示す情報は、必要に応じて、後述するクラスタリング規則作成部５６６によるクラスタリング規則Ｂの作成処理においても利用されうる。
【００３３】
図５は、文章に含まれる単語の係り受け構造を例示する図である。
図５に示すように、文章に含まれる単語の間には、係り受けの関係がある。
関連付け処理部５０８としては、例えば、上述したソフトウェア「ＣａｂｏＣｈａ」が用いられる。
関連付け処理部５０８は、分かち書き処理部５０４による分かち書き処理の結果として得られ、テキスト・単語ＤＢ５０６に記憶された単語の内、係り受け関係にある２つ以上の単語を関連づけ、関連ある単語同士を関連単語Ｗ（ＲＷ）（｛Ｗ（ＲＷ）；ｗ_１〜ｗ_ｐ；ｒｗ_１〜ｒｗ_ｑ｝、但し単語ｒｗは単語ｗを受ける単語、ｐ、ｑ≧１）として、テキスト・単語ＤＢ５０６に記憶する。
関連付け処理部５０８の処理を、具体例を挙げて、さらに説明する。
例えば、具体例として、分かち書き処理部５０４により、テキストデータの文章から、「拡大コピー（名詞）」と「取る（動詞）」、および、「紙詰まり（名詞）」と「解決する（動詞）」が分離され、品詞が識別された場合を考える。
【００３４】
この場合、関連付け処理部５０８は、名詞「拡大コピー」は、動詞「取る」の主語であって、「拡大コピー」は、「取る」に係る単語（「取る」は「拡大コピー」を受ける単語）であるとして、「拡大コピー」と「取る」とを関連づけ、関連単語（拡大コピー→取る）として、テキスト・単語ＤＢ５０６に記憶する。
同様に、関連付け処理部５０８は、名詞「紙詰まり」は、動詞「解決する」の目的語であって、「紙詰まり」は、「解決する」に係る単語（「解決する」は「紙詰まり」を受ける単語）であるとして、「紙詰まり」と「解決する」とを関連づけ、関連単語（紙詰まり→解決する）として、テキスト・単語ＤＢ５０６に記憶する。
なお、関連付け処理部５０８により得られた単語間の係り受けを示す情報は、必要に応じて、後述するクラスタリング規則作成部５６６によるクラスタリング規則Ｂの作成処理においても利用されうる。
【００３５】
相関規則作成処理部５２０は、例えば、上述した相関規則を求めるソフトウェア（Ａｐｒｉｏｒｉ）であって、テキスト・単語ＤＢ５０６から、分かち書き処理部５０４の処理により得られたテキストデータの文章それぞれの単語およびそれらの品詞と、関連付け処理部５０８の処理により得られた関連単語とを読み出して、関連単語間の相関関係を示す相関規則を作成する。
この相関規則は、あるテキストデータの文章から関連単語Ｗ_１〜Ｗ_ｒが含まれている場合に、同じ文章に関連単語ＲＷ_１〜ＲＷ_ｓ（ｒ，ｓは１以上の整数）が含まれていることを示しており、相関規則作成処理部５２０は、この関連単語の組み合わせを、相関規則として適切な範囲で多数、作成する。
この相関関係は、例えば、｛Ｗ_１〜Ｗ_ｒ；ＲＷ_１〜ＲＷ_ｓ｝などの形式で表現される。
【００３６】
絞り込み処理部５２２は、相関規則作成処理部５２０が作成した多数の相関規則それぞれを、テキスト・単語ＤＢ５０６に記憶されているテキストデータそれぞれの文章に対して適用し、相関規則それぞれが、何個のテキストデータに当てはまるか、あるいは、何パーセントのテキストデータに当てはまるかを求める。
さらに、絞り込み処理部５２２は、予め決められた個数以上のテキストデータに当てはまる相関規則、および、予め決められたパーセンテージのテキストデータに当てはまる相関規則、あるいはこれらのいずれかを選択することにより、相関規則を絞り込み、相関規則ＤＢ５２４に記憶する。
なお、相関規則作成処理５２０と絞り込み処理部５２２とは、交互に起動されてそれぞれの処理を行っても、相関規則作成処理５２０による処理が全て終わった後、絞り込み処理部５２２が絞り込み処理を行ってもよい。
【００３７】
なお、絞り込み処理部５２２における相関規則の絞り込みには、この他、上記｛Ｗ_１〜Ｗ_ｒ；ＲＷ_１〜ＲＷ_ｓ｝の内、｛Ｗ_１〜Ｗ_ｒ，ＲＷ_１〜ＲＷ_ｓ｝を含む文章データの全文章データに対する割合（この割合を支持率とも呼ぶ）を計算し、この支持率が予め決められた値を超えるような相関規則を選択する方法、｛Ｗ_１〜Ｗ_ｒ｝を含む文章データの内、｛ＲＷ_１〜ＲＷ_ｓ｝を含む文章の割合（事後確信度）、反対に、｛ＲＷ_１〜ＲＷ_ｒ｝を含む文章データの全文章データに対する割合（事前確信度）を計算し、事前確信度と事後確信度との差が、予め決められた値を超えるような相関規則を選択する方法を採ることも可能である。
【００３８】
つまり、相関規則が｛Ｗ_１〜Ｗ_ｒ；ＲＷ_１〜ＲＷ_ｓ｝と表される場合には、支持率は、［（支持率（％））＝１００×（Ｗ_１〜Ｗ_ｒ，ＲＷ_１〜ＲＷ_ｓを含む文章データ数）／（全文章データ数）］と定義される。
また、事前確信度は、［（事前確信度（％））＝１００×（ＲＷ_１〜ＲＷ_ｒ｝を含む文章データ数）／（全文章データ数）］と定義される。
また、事後確信度は、［（事後確信度（％））＝１００×（ＲＷ_１〜ＲＷ_ｓ，Ｗ_１〜Ｗ_ｒを含む文章データ数）／（Ｗ_１〜Ｗ_ｒを含む文章データ数］と定義される。
また、相関規則が｛Ａ，Ｂ；Ｃ｝と表される場合には、その確信度は、［（確信度（％））＝１００×（Ａ，Ｂ，Ｃの支持率）／（Ａ，Ｂの支持率）］で定義される。
従って、相関規則｛Ａ，Ｂ；Ｃ｝の事前確信度は、相関規則｛φ；Ｃ｝の確信度に等しく、［（確信度（％））＝１００×（Ｃの支持率）／（１００）］となる。
【００３９】
ＵＩ・処理制御部５４８は、表示・入力装置１６（図２）に対してユーザインターフェース用の画像（ＵＩ画像）を表示し、このＵＩ画像に対するユーザの操作を受け入れて、クラスタリングプログラム５の構成部分それぞれに対して出力する。
また、ＵＩ・処理制御部５４８は、ユーザの操作などに応じて、クラスタリングプログラム５の処理全体を制御する。
【００４０】
意味付け・分類ＤＢ５４６は、意味付け処理部５４０および分類処理部５４４における処理において用いられる知識、例えば、相関規則ＤＢ５２４に記憶された相関規則と、その意味とを対応づけるために用いられる情報、相関規則を上位概念にまとめて意味付けするために用いられる情報、および、相関規則の意味を分類するために用いられる情報を記憶し、意味付け処理部５４０および分類処理部５４４に対して提供する。
【００４１】
意味付け処理部５４０は、相関規則ＤＢ５２４から相関規則を読み出して、意味付け・分類ＤＢ５４６に記憶されている情報を参照し、相関規則それぞれに対応する意味、および、相関規則の上位概念としてとらえられる意味、またはこれらのいずれかを作成し、クラスタリング規則ＤＢ５４２に記憶する。
なお、意味付け処理部５４０は、図３に点線で示すように、ＵＩ・処理制御部５４８を介して、相関規則と、相関規則それぞれに対する意味づけをユーザに求めるＵＩ画像を、表示・入力装置１６（図２）に表示し、このＵＩ画像に対するユーザの操作に基づいて、相関規則それぞれの意味を作成してもよい。
【００４２】
図７は、図３に示した分類処理部５４４により分類されたクラス、および、クラスに含まれるテキストデータを、表形式で例示する図である。
分類処理部５４４は、図７に示すように、クラスタリング規則ＤＢ５４２に記憶された相関規則それぞれの意味を読み出し、意味付け・分類ＤＢ５４６に記憶されている情報を参照して、読み出した相関規則それぞれの意味を分類し、クラスタリング規則Ａを作成する。
分類処理部５４４は、作成したクラスタリング規則Ａを、クラスタリング規則ＤＢ５４２に記憶する。
なお、分類処理部５４４は、図３に点線で示すように、意味付け処理部５４０と同様に、ＵＩ・処理制御部５４８を介して、相関規則それぞれの意味と、相関規則の意味の分類をユーザに求めるＵＩ画像を、表示・入力装置１６（図２）に表示し、このＵＩ画像に対するユーザの操作に基づいて、相関規則の意味の分類を行ってもよい。
【００４３】
図７には、分類処理部５４４が、相関規則の意味を分類して、左から１，２番目の欄に示すように、「Ｃ０１；ファイルのダウンロードのＨＴＴＰとＦＴＰとの違い」・「Ｃ０２；バージョンアップ版購入」などのクラスタリング規則Ａを作成し、これらのクラスタリング規則Ａそれぞれに１つ以上の相関規則の意味（図示せず）を含めたことを示している。
また、図７の左から３つめの欄には、クラスタリング規則Ａによるクラスタリングの結果として得られるクラスに含まれるテキストデータそれぞれの識別子（ＩＤ）が示されている。
【００４４】
図８は、図６（Ａ）に示したテキストデータの集合をクラスタリングして得られるクラスを模式的に例示する図である。
クラスタリング処理部５６０は、クラスタリング規則ＤＢ５４２に記憶されたクラスタリング規則Ａに基づいて、図８に示すように、テキスト・単語ＤＢ５０６に記憶されたテキストデータおよびその単語を処理し、テキストデータをクラスタリング処理して、グループ（クラス）に分類し、クラスＤＢ５６２に記憶する。
なお、クラスタリング処理部５６０は、例えば、図７に示したクラスタリング規則Ａそれぞれに含まれる１つ以上の相関規則の意味をＯＲ条件で用い、あるテキストデータが、あるクラスタリング規則Ａに含まれる相関規則のいずれかにマッチする場合には、そのテキストデータを、そのクラスタリング規則Ａに対応するクラスに分類する。
【００４５】
図９は、新たに入力されるテキストデータＱｎｅｗが、図８に示した既存のクラスに分類される態様を示す図である。
また、後述するように、クラスタリング規則作成部５６６が、既存のクラスそれぞれからクラスタリング規則Ｂ（第２の分類規則）を作成した後は、クラスタリング処理部５６０は、図９に示すように、新たにオペレータ端末３２（図１）から入力され、分かち書き処理部５０４により処理され、テキスト・単語ＤＢ５０６に記憶されたテキストデータＱｎｅｗを、クラスＤＢ５６２に記憶されるクラスタリング規則Ｂに基づいて、既存のクラスに分類し、クラスＤＢ５６２に記憶する。
【００４６】
なお、図８に示すように、各テキストデータは、クラスタリング規則Ａ，Ｂに基づくクラスタリングにより単一のクラスに分類されるだけでなく、複数のクラスに重複して分類されたり、あるいは、いずれのクラスにも分類されなかったりもする。
また、クラスタリング処理部５６０を、データの内容・性質に応じて、クラスタリング規則Ｂを用いずに、クラスタリング規則Ａをその後も用いてクラスタリング処理を行うようにしてもよい。
【００４７】
クラス配信部５６４は、他部門システム２２０からの要求に応じて、あるいは、ＵＩ・処理制御部５４８に対するユーザの操作に応じて、クラスＤＢ５６２に記憶されたクラスに属するテキストデータを読み出し、ネットワーク２２を介して、他部門システム２２０に配信する。
【００４８】
上述したように、クラスタリング規則作成部５６６は、クラスタリングプログラム５のクラスタリング処理部５６（図３）に、必要に応じて、選択的に付加され、以下に示すような処理を行う。
図１０は、図３に示したクラスタリング規則作成部５６６により作成されるクラスタリング規則Ｂを例示する図である。
なお、図１０には、２つのクラスタリング規則Ｂが示されている。
【００４９】
クラスタリング規則作成部５６６は、例えば、上述のテキストの集合からその特徴を抽出するソフトウェア（Ａｌｅｐｈ）であって、分類処理部５４４が作成したクラスタリング規則Ａに基づいて得られたクラス（図８など）それぞれに含まれるテキストデータの特徴を抽出し、新たなテキストデータがオペレータ端末３２からクラスタリング装置４（クラスタリングプログラム５）に入力された場合に、新たなテキストを、既存のクラスのいずれか分類するために用いられるクラスタリング規則Ｂ（図１０）を作成し、クラスタリング規則ＤＢ５４２に記憶する。
なお、クラスタリング規則ＤＢ５４２に記憶されたクラスタリング規則Ａ，Ｂは、適宜、記録媒体１４０などに対して出力され、クラスタリング装置４（図１など）と同様な処理を行う他の装置におけるクラスタリング処理の用に供せられうる。
【００５０】
なお、あるクラスについて複数のクラスタリング規則Ｂが作成された場合には、そのクラスに含まれるテキストデータは、複数のクラスタリング規則Ｂの０個以上にマッチしている。
また、クラスタリング規則Ｂの作成のためには、クラスタリング規則Ａに基づいて得られたクラスそれぞれに含まれるテキストデータをそのまま用いてもよいし、ユーザが、クラスタリング規則Ａに基づいて得られたクラスそれぞれから適宜、選択したテキストデータを用いてもよい。
また、クラスタリング規則Ｂの作成のためには、クラスタリング規則Ａに基づいて得られたクラスのいずれにも属さないテキストデータから適宜、選択したテキストデータを用いてもよい。
【００５１】
なお、図１０において、”ｈａｓ＿ｗ（Ｓｅｎｔｅｎｃｅ，Ｗｏｒｄ）は、文章”Ｓｅｎｔｅｎｃｅ”が、単語”Ｗｏｒｄ”を含むことを示す。
また、”ｌａｂｅｌ（Ｗｏｒｄ， ”ＬＡＢＥＬ”）は、単語”Ｗｏｒｄ”を示す実際の文字列が”ＬＡＢＥＬ”であることを示す。
また、”ｗｏｒｄ＿ｄｉｓｔａｎｃｅ（ｗｏｒｄ１，ｗｏｒｄ２，ｎｅａｒ／ｃｌｏｓｅ／ｍｉｄｄｌｅ／ｆａｒ）”は、単語”ｗｏｒｄ１”と単語”ｗｏｒｄ２”との間の距離が、それぞれ「近い」、「ごく近い」、「中間的」、「遠い」ことを示す。
また、”ｄｅｐｅｎｄｅｎｃｅ（Ａ，Ｂ）”は、文法上の係り受け関係を示し、”ｐａｒｔ（Ａ，’名詞−形容動詞語幹’）”は、品詞情報を示す。
また、”ｃｌａｓｓ（Ｓｅｎｔｅｎｃｅ，Ｃｌａｓｓ）は、文字”Ｓｅｎｔｅｎｃｅ”がクラス”Ｃｌａｓｓ”に属することを示す。
また、クラスタリング規則Ｂは、”：−”の右側に記載されることがらがすべて満たされるとき、”：−”の左側に記載されることがらが満足されることを意味している。
【００５２】
図１１は、図３に示したクラスタリング規則作成部５６６が、クラスタリング規則Ｂ（図１０）を作成するために用いる正例を例示する図である。
図１２は、図３に示したクラスタリング規則作成部５６６が、クラスタリング規則Ｂ（図１０）を作成するために用いる負例を例示する図である。
クラスタリング規則作成部５６６には、ＵＩ・処理制御部５４８などから、あるクラスからクラスタリング規則Ｂを作成する際に、特徴を抽出する対象のクラス（またはクラスタ）に属するテキストを示す正例、および、特徴を抽出する対象のクラス（またはクラスタ）に属さないテキストを示す負例（図１１，図１２）、および、特徴を抽出するための背景知識（図示せず）が設定され、クラスタリング規則作成部５６６は、これらの情報を用いて、各クラスの特徴を抽出し、図１０に示したクラスタリング規則Ｂとする。
【００５３】
［クラスタリング装置４（クラスタリングプログラム５）の動作］
以下、クラスタリング装置４（クラスタリングプログラム５）の動作を説明する。
オペレータ端末３２（図１，図２）に対して、相談・問い合わせの文章のテキストデータが入力されると、オペレータ端末３２は、入力されたテキストデータをクラスタリング装置４に対して出力する。
オペレータ端末３２からクラスタリング装置４に入力されたテキストデータは、テキスト受信部５００（図３）により、順次、テキストＤＢ５０２に記憶される。
【００５４】
図１３は、図３に示したクラスタリングプログラム５において、クラスタリング規則作成部５６６が用いられない場合の動作を示すフローチャートである。
図１３に示すように、ステップ１００（Ｓ１００）において、クラスタリング装置４（図１，図２）上で、クラスタリングプログラム５（図３）が起動される。
ステップ１０２（Ｓ１０２）において、ＵＩ・処理制御部５４８（図３）は、クラスタリング規則ＤＢ５４２を検索し、既にクラスタリング規則Ａが作成されているか否かを判断する。
クラスタリングプログラム５は、第２のクラスタリング規則Ａが既に存在する場合にはＳ１１０の処理に進み、これ以外の場合には図６，図７を参照して説明したクラスタリング規則Ａの作成処理（Ｓ１２）のＳ１２０の処理に進む。
【００５５】
ステップ１２０（Ｓ１２０）において、クラスタリングプログラム５（図３）の分かち書き処理部５０４は、テキストデータに対する分かち書き処理を行い、単語の抽出およびその品詞の識別を行い、その結果をテキスト・単語ＤＢ５０６に記憶する。
各構成部分は、図６，図７を参照して説明したように、クラスタリング規則Ａを作成する。
【００５６】
ステップ１２２（Ｓ１２２）において、関連付け処理部５０８は、テキスト・単語ＤＢ５０６に記憶された単語の係り受け関係に基づき、関連単語を作成し、テキスト・単語ＤＢ５０６に記憶する。
ステップ１２４（Ｓ１２４）において、相関規則作成処理部５２０は、テキスト・単語ＤＢ５０６に記憶された関連単語の相関関係を求め、相関規則ＤＢ５２４に記憶する。
【００５７】
ステップ１２６（Ｓ１２６）において、絞り込み処理部５２２は、相関規則ＤＢ５２４に記憶された相関関係を絞り込み、クラスタリング規則Ａとする。
【００５８】
ステップ１０４（Ｓ１０４）において、クラスタリング処理部５６０（図３）は、ステップ１２（Ｓ１２）の処理により作成されたクラスタリング規則Ａを用いて、テキスト・単語ＤＢ５０６に記憶されたテキストを、図７，図８を参照して説明したようにクラスタリングし、クラスを作成する。
なお、上述のように、Ｓ１０６の処理において、クラスタリング規則Ａにより作成されたクラスに含まれるテキストデータは、適宜、ユーザによる選択を受ける場合がある。
【００５９】
ステップ１０６（Ｓ１０６）において、クラスタリング規則作成部５６６（図３）は、図１０〜図１２を参照して説明したように、Ｓ１０６の処理により作成されたクラスそれぞれの特徴を抽出し、クラスタリング処理部５６０のクラスタリング処理において、新たなテキストがオペレータ端末３２から入力されたときに、新たなテキストを、既存のクラスのいずれに分類すべきかの判断に用いられるクラスタリング規則Ｂを作成する。
【００６０】
ステップ１１０（Ｓ１１０）において、ＵＩ・処理制御部５４８（図３）は、新たなテキストデータがオペレータ端末３２から入力されたか否かを判断する。
クラスタリングプログラム５は、新たなテキストデータが入力された場合にはＳ１１２の処理に進み、これ以外の場合には処理を終了する。
【００６１】
ステップ１１２（Ｓ１１２）において、クラスタリング処理部５６０（図３）は、クラスタリング規則Ａを用いて、新たに入力されたテキストデータを、既存のクラスに分類する。
【００６２】
図１４は、図３に示したクラスタリングプログラム５において、クラスタリング規則作成部５６６が用いられる場合の処理（Ｓ１４）を示すフローチャートである。
図１４に示すように、ステップ１４０（Ｓ１４０）において、クラスタリング装置４（図１，図２）上で、クラスタリングプログラム５（図３）が起動される。
【００６３】
ステップ１４２（Ｓ１４２）において、ＵＩ・処理制御部５４８（図３）は、クラスタリング規則ＤＢ５４２を検索し、既にクラスタリング規則Ｂが作成されているか否かを判断する。
クラスタリングプログラム５は、第２のクラスタリング規則Ｂが既に存在する場合にはＳ１５０の処理に進み、これ以外の場合には図６，図７，図１３を参照して説明したクラスタリング規則Ａの作成処理（Ｓ１２）に進む。
【００６４】
ステップ１４４（Ｓ１４４）において、クラスタリング処理部５６０（図３）は、ステップ１２（Ｓ１２）の処理により作成されたクラスタリング規則Ａを用いて、テキスト・単語ＤＢ５０６に記憶されたテキストを、図７，図８を参照して説明したようにクラスタリングし、クラスを作成する。
なお、上述のように、Ｓ１４６の処理において、クラスタリング規則Ａにより作成されたクラスに含まれるテキストデータは、適宜、ユーザによる選択を受ける場合がある。
【００６５】
ステップ１４６（Ｓ１４６）において、クラスタリング規則作成部５６６（図３）は、図１０〜図１２を参照して説明したように、Ｓ１４６の処理により作成されたクラスそれぞれの特徴を抽出し、クラスタリング処理部５６０のクラスタリング処理において、新たなテキストがオペレータ端末３２から入力されたときに、新たなテキストを、既存のクラスのいずれに分類すべきかの判断に用いられるクラスタリング規則Ｂを作成する。
【００６６】
ステップ１５０（Ｓ１５０）において、ＵＩ・処理制御部５４８（図３）は、新たなテキストデータがオペレータ端末３２から入力されたか否かを判断する。
クラスタリングプログラム５は、新たなテキストデータが入力された場合にはＳ１５２の処理に進み、これ以外の場合には処理を終了する。
【００６７】
ステップ１５２（Ｓ１５２）において、クラスタリング処理部５６０（図３）は、クラスタリング規則Ｂを用いて、新たに入力されたテキストデータを、既存のクラスに分類する。
以上、図１３，図１４を参照して説明したように作成されたクラス（図１０，図９）は、適宜、クラス配信部５６４により、他部門システム２２０（図１，図２）に、ネットワーク２２を介して配信される。
【００６８】
［実施例］
以下、データマイニングシステム１のクラスタリング装置４（図１，図２）において、図１３に示したように、クラスタリングプログラム５のクラスタリング規則作成部５６６（図３）を用いず、クラスタリング規則Ａによりテキストデータを分類する場合の実施例を説明する。
図１５は、クラスタリング装置５（図３）において、関連付け処理部５０８を用いずに、関連単語から生成した分類規則Ａによりテキストデータをクラスに分類する場合と、関連付け処理部５０８を用いて、図１３に示したように単語から生成したクラスタリング規則Ａによりテキストデータをクラスに分類する場合とを比較する図表である。
【００６９】
上述のように、クラスタリングプログラム５においては、関連付け処理部５０８が用いられ、相関規則作成処理部５２０は、係り受け関係によりテキストに含まれる単語を関連づけて関連単語の相関性を抽出し、この相関性に基づいて、絞り込み処理部５２２、意味付け処理部５４０および分類処理部５４４がクラスタリング規則Ａを作成する。
これに対して、クラスタリングプログラム５において、関連付け処理部５０８が用いられなくても、相関規則作成処理部５２０が、テキストに含まれる単語そのものの相関性を抽出し、分類処理部５４４などが、この単語の相関性に基づいて、クラスタリング規則Ａを作成することも可能である。
図１５には、このように、関連付け処理部５０８を用いて生成された相関規則Ａによりテキストデータをクラスに分類した結果と、関連付け処理部５０８を用いずに生成されたクラスタリング規則Ａによりテキストデータをクラスに分類した結果とが示されている。
【００７０】
なお、図１５に示した例においては、ある企業のコールセンターにおいて、２００２年４月１日から同年７月３１日までの間に受け付けられた実際の問い合わせを示す６０２個のテキストデータ（以下、ソースデータとも記す）が処理対象とされている。
また、この例においては、分かち書き処理部５０４などには、具体例として示した各ソフトウェアが用いられている。
また、分かち書き処理部５０４には、パーソナルコンピュータの代表的ＯＳの名称などを１つの語句として捉え、分かち書きの結果として得られる語句が細かくなりすぎないようにＩＴ用語リストを参照させている。
処理対象のテキストデータ１つには、平均して１２．５個の単語が含まれ、６０２個のテキストデータに含まれる総単語数は７５１７個で、関連付け処理部５０８の処理により、３１１６個の異なる関連単語が得られた。
【００７１】
図１５において、最小支持度は、（［（最小支持率（％））＝１００×（Ｗ_１〜Ｗ_ｒを含む文章データ数）／（全文章データ数）］）と定義される。
事前／事後確信度差は、事前確信度と事後確信度（絞り込み処理部５２２の説明を参照）との差を示す。
最小支持度と事前／事後確信度差は、小さければ小さいほど、クラスタリングプログラム５が、少ないテキストデータからクラスタリング規則Ａを作成できることを示しており、関連付け処理部５０８を用いると、これを用いない場合に比べて、より少ないテキストデータ数からクラスタリング規則Ａを導出できることがわかる。
【００７２】
また、いずれの場合でも、導出されるルール（クラスタリング規則Ａ）の数には大差はないが、専門家が、ソースデータと導出されたクラスタリング規則Ａとを比較し、意味解釈可能だと判断したクラスタリング規則Ａの数、および、その割合は、関連付け処理部５０８を用いることにより、大幅に増加することがわかる。
また、専門家により、有用性が高いと判断された高有用性ルール（クラスタリング規則Ａ）の数は、いずれの場合でも大差ないが、これを求めるために用いられた平均のテキストデータ数は、関連付け処理部５０８を用いる場合の方が、大幅に少なくなっており、関連付け処理部５０８を用いると、少ないソースデータから、有用なクラスタリング規則Ａが得られることがわかる。
【００７３】
図１６は、絞り込み処理部５２２（図３）に対して設定される事前確信度と事後確信度との差と、関連付け処理部５０８を用いて、図１３に示したようにクラスタリング規則Ａを用いてテキストを分類した結果とを対比して示す図表である。
図１６を参照してわかるように、絞り込み処理部５２２に対して、事前確信度と事後確信度との差が１５％程度になるように、相関規則の絞り込みを行わせると、クラスタリングプログラム５により、良好なテキストデータの分類結果が得られることがわかる。
【００７４】
図１７は、絞り込み処理部５２２（図３）に対して設定される最小確信度と、関連付け処理部５０８を用いずに、図１３に示したようにクラスタリング規則Ａを用いてテキストを分類した結果とを対比して示す図である。
図１７に示す最小確信度の定義は、上述の事後確信度の定義と同じであって、この最小確信度は、絞り込み処理部５２２に対して設定される。
図１７に示すように、関連付け処理部５０８を用いずに、クラスタリング規則Ａを用いたテキストの分類を行うと、絞り込み処理部５２２に対して、どのような最小確信度を設定しても、結果に含まれるルール（クラスタリング規則Ａ）の内、有用性が高いものの数に変化が生じない。
【００７５】
図１８は、関連付け処理部５０８を用いて、図１３に示したようにクラスタリング規則Ａを用いてテキストを分類した結果の精度および再現率を示す図である。
精度とは、得られたクラスのそれぞれに含まれるテキストの内、それぞれのクラスに含まれることが妥当であると、専門家により判断されたテキストの割合を示す。
再現率とは、得られたクラスのそれぞれに含まれるべきテキストの内、実際に、それぞれのクラスに含まれていたテキストの割合を示す。
図１８を参照すると、関連付け処理部５０８を用いて、図１３に示したようにテキストデータをクラス分けすると、一部の例外を除いて、高い精度と再現率とが得られることがわかる。
【００７６】
［関連出願］
本発明は、本出願人による特願２００２−３６６６９０号に関連する。
【００７７】
【発明の効果】
以上説明したように、本発明にかかる文章分類装置およびその方法によれば、広く集められた文章を、有用な情報を含むグループに分類し、利用者に提供することができる。
また、本発明にかかる文章分類装置およびその方法によれば、係り受け関係を有する複数の単語の間の相関関係を抽出し、さらに、この相関関係を絞り込んでデータマイニングを行うことができる。
【図面の簡単な説明】
【図１】本発明にかかる文章データ分類方法が適用されるデータマイニングシステムの構成を示す図である。
【図２】図１に示したオペレータ端末、クラスタリング装置および他部門のシステムのハードウェア構成を例示する図である。
【図３】図１，図２に示したクラスタリング装置において実行されるクラスタリングプログラムの構成を示す図である。
【図４】文章の句構造を例示する図である。
【図５】文章に含まれる単語の係り受け構造を例示する図である。
【図６】図３に示したクラスタリングプログラムの前処理部の処理を示す図であって、（Ａ）は、テキストＤＢに記憶されるテキストデータＱの集合を模式的に示し、（Ｂ）は、テキストデータＱの内容を例示し、（Ｃ）は、分かち書き処理部が、テキストデータを処理して得られる単語（分かち書き結果）を示す。
【図７】図３に示した分類処理部により分類されたクラス、クラスそれぞれに含まれる相関規則の数、および、クラスに含まれるテキストデータを、表形式で例示する図である。
【図８】図６（Ａ）に示したテキストデータの集合をクラスタリングして得られるクラスを模式的に例示する図である。
【図９】新たに入力されるテキストデータＱｎｅｗが、図８に示した既存のクラスに分類される態様を示す図である。
【図１０】図３に示したクラスタリング規則作成部５６６により作成されるクラスタリング規則Ｂを例示する図である。
【図１１】図３に示したクラスタリング規則作成部が、クラスタリング規則Ｂ（図１０）を作成するために用いる正例を例示する図である。
【図１２】図３に示したクラスタリング規則作成部が、クラスタリング規則Ｂ（図１０）を作成するために用いる負例を例示する図である。
【図１３】図３に示したクラスタリングプログラムにおいて、クラスタリング規則作成部が用いられない場合の動作を示すフローチャートである。
【図１４】図３に示したクラスタリングプログラムにおいて、クラスタリング規則作成部が用いられる場合の処理（Ｓ１４）を示すフローチャートである。
【図１５】クラスタリング装置（図３）において、関連付け処理部を用いずに、関連単語から生成した分類規則Ａによりテキストデータをクラスに分類する場合と、関連付け処理部を用いて、図１３に示したように単語から生成したクラスタリング規則Ａによりテキストデータをクラスに分類する場合とを比較する図表である。
【図１６】絞り込み処理部（図３）に対して設定される事前確信度と事後確信度との差と、関連付け処理部を用いて、図１３に示したようにクラスタリング規則Ａを用いてテキストを分類した結果とを対比して示す図表である。
【図１７】絞り込み処理部（図３）に対して設定される最小確信度と、関連付け処理部を用いずに、図１３に示したようにクラスタリング規則Ａを用いてテキストを分類した結果とを対比して示す図である。
【図１８】関連付け処理部を用いて、図１３に示したようにクラスタリング規則Ａを用いてテキストを分類した結果の精度および再現率を示す図である。
【符号の説明】
１・・・データマイニングシステム、
３・・・コールセンター、
３０・・・コール受付装置、
３２・・・オペレータ端末、
３４・・・ＬＡＮ、
４・・・クラスタリング装置、
５・・・クラスタリングプログラム、
５０・・・前処理部、
５００・・・テキスト受信部、
５０２・・・テキストＤＢ、
５０４・・・分かち書き処理部、
５０６・・・テキスト・単語ＤＢ、
５０８・・・関連付け処理部、
５２・・・相関規則作成部、
５２０・・・相関規則作成処理部、
５２２・・・絞り込み処理部、
５２４・・・相関規則ＤＢ５、
５４・・・意味付け処理部、
５４０・・・意味付け処理部、
５４２・・・クラスタリング規則ＤＢ、
５４６・・・意味付け・分類ＤＢ、
５４４・・・分類処理部、
５４８・・・ＵＩ・処理制御部、
５６・・・クラスタリング処理部、
５６０・・・クラスタリング処理部、
５６２・・・クラスＤＢ、
５６４・・・クラス配信部、
５６６・・・クラスタリング規則作成部、
２２・・・ネットワーク、
２２０・・・他部門システム、
１０・・・本体、
１０２・・・ＣＰＵ、
１０４・・・メモリ、
１２・・・通信装置、
１４・・・記録装置、
１４０・・・記録媒体、
１６・・・表示・入力装置、
２０・・・電話ネットワーク、
２００，２０２・・・電話機、

Claims

複数の単語を含む文書を、０以上のグループに分類する文章分類装置であって、
前記複数の文章それぞれに含まれる複数の単語を抽出する単語抽出手段と、
前記文章それぞれに含まれる複数の単語を、それぞれ関連する２つ以上の単語を含む関連単語に分類する単語分類手段と、
前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記０以上のグループに分類するための分類規則を作成する分類規則作成手段とを有する文章分類装置。
前記作成された分類規則に基づいて、前記複数の文章を、前記０以上のグループに分類する文章分類手段をさらに有する請求項１に記載の文章分類装置。
前記文章分類手段は、前記分類規則が作成された後は、新たに分類の対象とされた文章を、既に作成された前記分類規則に基づいて、前記グループの内の０以上に分類する請求項２に記載の文章分類装置。
前記相関規則作成手段は、
同じ前記文章の単語から得られた関連単語の組み合わせを作成する組み合わせ作成手段と、
前記作成された組み合わせを、所定の条件に合わせるように処理する組み合わせ処理手段とを有する請求項１〜３のいずれかに記載の文章分類装置。
前記組み合わせは、前記文章に、１つ以上の第１の関連単語が含まれる場合に、同一の前記文章に、他の１つ以上の第２の関連単語が含まれることを示す請求項４に記載の文章分類装置。
前記組み合わせ処理手段は、前記作成された組み合わせの内、所定の割合以上または所定数以上の前記文章に適合する組み合わせを選択する処理を行う請求項４または５に記載の文章分類装置。
前記組み合わせ処理手段は、前記第１の関連単語が含まれる前記文章が所定の割合以上となる組み合わせ、または、前記第１の関連単語が含まれる前記文章の内、前記第２の単語単語が含まれる前記文章の割合と、前記第２の関連単語が含まれる前記文章の割合との差が所定値以上となる組み合わせを選択する処理を行う請求項４または５に記載の文章分類装置。
前記単語抽出手段は、前記複数の単語それぞれの品詞をさらに識別し、
前記単語分類手段は、前記識別された単語それぞれの品詞に基づいて、前記文章それぞれに含まれる複数の単語を、それぞれ関連する２つ以上の単語を含む関連単語に分類する請求項１〜７のいずれかに記載の文章分類装置。
複数の単語を含む文書を、０以上のグループに分類する文章分類方法であって、
前記複数の文章それぞれに含まれる複数の単語を抽出し、
前記文章それぞれに含まれる複数の単語を、それぞれ関連する２つ以上の単語を含む関連単語に分類し、
前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記０以上のグループに分類するための分類規則を作成する文章分類方法。
前記作成された分類規則に基づいて、前記複数の文章を、前記０以上のグループに分類する請求項９に記載の文章分類方法。
複数の単語を含む文書を、０以上のグループに分類するためのプログラムであって、
前記複数の文章それぞれに含まれる複数の単語を抽出し、前記抽出された単語それぞれの品詞を識別するステップと、
前記抽出された単語それぞれの品詞に基づいて、前記文章それぞれに含まれる複数の単語を、それぞれ関連する２つ以上の単語を含む関連単語に分類するステップと、
前記分類された関連単語の間の相関性に基づいて、前記複数の文章を前記０以上のグループに分類するための分類規則を作成するステップとをコンピュータに実行させるプログラム。
前記作成された分類規則に基づいて、前記複数の文章を、前記０以上のグループに分類するステップをコンピュータに実行させる請求項１１に記載のプログラム。