JP2010282416A

JP2010282416A - 区分データレコメンド方法、プログラム、及び装置

Info

Publication number: JP2010282416A
Application number: JP2009135132A
Authority: JP
Inventors: Akifumi Nakahama; 章文中浜
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-06-04
Filing date: 2009-06-04
Publication date: 2010-12-16
Anticipated expiration: 2029-06-04
Also published as: JP5332918B2

Abstract

【課題】新規テキスト情報に設定される区分データを自動的にチェック可能とし、付け間違いや未入力時に入力者へ候補情報を提供する。
【解決手段】分類コード表作成部１０１は、テキスト情報の母集団テキストファイル１０９と、正しいと判断された区分データが付与されたテキスト情報の標本テキストファイル１１０とから、区分データと分類コードとの対応関係を示す分類コード表ファイル１０４及び、分類コードの母集団テキストファイル１０９内での出現状況を収集した分類コード統計情報表ファイル１０５を作成する。区分データレコメンド部１０２は、新規テキスト情報から分類コードを抽出し、分類コード表ファイル１０４からその分類コードに対応する区分データを抽出し、その区分データ毎に分類コード統計情報表ファイル１０５から統計情報を抽出し、その統計情報に基づいて、新規テキスト情報に対応する区分データの候補を選択し提示する。
【選択図】図１

Description

テキスト情報を１つ以上の区分値によってそのテキスト情報の区分を示す区分データと共に蓄積する技術に関する。

近年、コールセンターの集積情報に注目し、分析を進める企業が増加傾向にある。背景には、顧客応対システムやテキストマイニングソフト等の導入が進み、コールセンターのＩＴインフラが整備されたことが挙げられる。

しかしながら、集積情報は、様々な理由により、誤入力が発生しやすい。例えば、通話しながらのデータ入力や通話後、複数案件をまとめて入力する場合が多いため、入力者が誤入力に気がつかない場合が多い。

更に、コールセンターやお客様相談室の応対要員は、パートタイムや派遣社員で構成される場合が多く、定期的な人員入替により、入力水準を一定に保つのが難しい。
誤入力の例としては、以下が挙げられる。
（Ａ）テキスト情報（直接入力する情報）の誤字脱字
（Ｂ）区分データ（プルダウンメニューから選択する情報）の付け間違い
（Ｃ）区分データの未設定
なお、上記（Ａ）〜（Ｃ）として示される事例は、図１８に示されるような顧客応対システム１８０１での入力を想定している。顧客応対システムとは、応対開始時間や顧客情報、質問内容や応対内容を入力者が都度画面入力して、履歴管理を行うシステムで、応対履歴データベース１８０２を有するシステムである。

このような顧客応対システムの入力画面は、業種・業務により違いはあるものの、大きく４種類の情報から画面構成される場合が多い。

（１）基本情報
案件番号、受付日時、受付者等の受付に関する情報を入力する部分
（２）顧客情報
顧客ＩＤ、顧客名等の顧客に関する情報を入力する部分
（３）問合せ情報
質問内容や質問の区分に関する情報を入力する部分
（４）回答情報
回答内容や回答の区分に関する情報を入力する部分

上記（１）〜（４）には、直接タイプ入力される項目と、プルダウンメニュー、チェックボックス等から選択される項目がある。また、画面起動時に初期値がセットされる場合や、特定の入力値からデータベースが検索されて、他の項目値が自動セットされる場合もある。

誤入力は、上記（３）の質問と（４）の回答の区分の入力で発生しやすい。実際のところ、（Ａ）の誤字脱字は、入力文字の一部で発生する場合が多い。発生しても意味が通じない場合は少ないため、誤字脱字を都度確認して修正する必要性は低い。

一方、（Ｂ）（Ｃ）の区分データは本来、テキスト内容を目検で確認するのが非常に手間となるため、入力者が付加した区分データを集計することで、すばやく傾向をつかむ目的がある。それ故に、区分データには精度が求められる。

区分データの精度が低いと、集計結果の妥当性が無くなる。そのため、入力データを目検でチェックして、区分データの修正を行っている企業もある。しかしながら、多くの企業では、人員不足や集積情報が膨大なことから、入力段階のまま集積せざる得ないケースが多い。また、（Ｂ）（Ｃ）の区分データは、入力者が入力方法を知らない場合や誤理解している場合に、誤入力が続くため、（Ａ）の問題より深刻である。

特開２００１−０６０１９９号公報特開２００２−１８３１９４号公報特開２００２−１８９７５４号公報

しかし、上述したような区分データの誤入力をチェックしたり、区分データの入力を支援するような有効な従来技術はなかった。
そこで、本発明の１つの側面では、顧客応対システム等における新規テキスト情報の入力画面に設定される区分データを自動的にチェック可能とし、付け間違いの可能性がある場合や未入力時に入力者へ候補情報（レコメンド）を提供することを目的とする。

態様の一例では、テキスト情報を１つ以上の区分値によって該テキスト情報の区分を示す区分データと共に蓄積する方法として実現され、以下の構成を有する。
まず、ｌそれぞれ入力者によって区分データが付与されたテキスト情報の母集団テキストファイルと、正しいと判断された区分データが付与されたテキスト情報の標本テキストファイルとが、所定のテキスト単位の任意の組合せで構成される分類コードをキーとして比較されることにより、区分データと分類コードとの対応関係を示す分類コード表ファイルが作成される。

次に、分類コード表ファイルから抽出される区分データ毎に、分類コード表ファイル内でその区分データに対応付けられる分類コードの母集団テキストファイル内での出現状況を統計情報として収集した分類コード統計情報表ファイルが作成される。

次に、新規に入力された新規テキスト情報から分類コードが抽出され、その抽出された分類コード毎に分類コード表ファイルが検索されることにより、その分類コードに対応する区分データが抽出される。

そして、その抽出された区分データ毎に分類コード統計情報表ファイルから統計情報が抽出され、その抽出された統計情報に基づいて、新規テキスト情報に対応する区分データの候補が抽出された区分データから選択され提示される。

新規テキスト情報の入力に対して、それにもっとも適した区分データの候補（レコメンド）を的確に提示することが可能となる。

区分データのレコメンド機能を有する顧客応対システムの実施形態の構成図である。分類コード表作成部１０１が実行する分類コード表作成処理を示す動作フローチャートである。区分データレコメンド部１０２が実行する区分データレコメンド表示制御処理の制御動作を示す動作フローチャートである。分類コード自動再作成部１０３が実行する分類コード自動再作成処理の制御動作を示す動作フローチャートである。母集団テキストファイル１０９のデータ構成例を示す図である。標本テキストファイル１１０のデータ構成例を示す図である。区分データと分類階層・分類コードとの対応関係を示す図である。分類コード表ファイル１０４のデータ構成例を示す図である。分類コード統計情報表ファイル１０５のデータ構成例を示す図である。応対情報の入力例と、それに対応する形態素、形態素パターン、及び形態素行列の例を示す図である形態素行列を構成する形態素行列ファイルのデータ構成例を示す図である。検索結果ファイル１０７のデータ構成例を示す図である。レコメンドファイル１０８のデータ構成例を示す図である。レコメンドメッセージの表示処理の説明図である。区分データのお薦め表示の表示例を示す図である。分類コード自動再作成処理における分類コード統計情報表ファイル１０５のデータ構成例を示す図である。顧客応対システムの実施形態を実現できるコンピュータのハードウェア構成の一例を示す図である。顧客応対システムの説明図である。

以下、実施形態について詳細に説明する。
図１は、区分データのレコメンド機能を有する顧客応対システムの実施形態の構成図である。

本実施形態による顧客応対システム１００は、分類コード表作成部１０１、区分データレコメンド部１０２、及び分類コード自動再作成部１０３を備える。分類コード表作成部１０１は、入力者からの作成依頼に基づいて、分類コード表ファイル１０４及び分類コード統計情報表ファイル１０５を作成する。区分データレコメンド部１０２は、入力者による顧客応対における応対履歴データベース１０６への画面入力時に、分類コード表ファイル１０４を検索して、検索結果ファイル１０７、及びレコメンドファイル１０８を生成する。そして、区分データレコメンド部１０２は、これらのファイルの内容に基づいて、ｌ区分データのレコメンド即ち候補の提示を行う。

分類コード自動再作成部１０３は、分類コード表ファイル１０４の自動再作成を実行する。
以上の構成を有する顧客応対システム１００の実施形態の動作について、以下に詳細に説明する。

図２は、図１の分類コード表作成部１０１が実行する分類コード表作成処理を示す動作フローチャートである。
まず、入力者は、情報源Ａの母集団テキストファイル１０９と情報源Ｂの標本テキストファイル１１０を指定する。図５は、母集団テキストファイル１０９のデータ構成例を示す図、図６は、標本テキストファイル１１０のデータ構成例を示す図である。

母集団テキストファイル１０９は、図５のように、１つのレコード（データ組）が、過去一定期間の顧客対応にて入力されるテキスト情報と、そのテキスト情報に対して入力者が設定した区分１から区分Ｎ（例えばＮ＝３）までの各区分値の組からなる区分データで構成されている。この区分データは、入力者の判断で設定されたものであるため、テキスト情報に対して必ずしも適切な区分が設定されているとは限らない。母集団テキストファイル１０９のデータ量は、過去の一定期間（例えば１ヶ月）の顧客対応にて得られる全データ数であるため、大量（例えば１万件）である。この場合、後述する各ファイルとの同期を取るために、区分データを構成する区分１から区分Ｎまでの各区分値を結合した値が、区分データＩＤとして使用される。

これに対して、標本テキストファイル１１０は、図６のように、１つのレコード（データ組）が、テキスト情報と、そのテキスト情報に対して最適に設定された区分データとで構成されている。標本テキストファイル１１０のテキスト情報とそれに対応する区分データは、人手によって最適な対応関係となるように修正されている。標本テキストファイル１１０のデータ量は、１組の区分データに対して例えば５０レコード程度である。母集団テキストファイル１０９の場合と同様に、区分データを構成する区分１から区分Ｎまでの各区分値を結合した値が、区分データＩＤとして使用される。

母集団テキストファイル１０９及び標本テキストファイル１１０は、それぞれＣＳＶファイルのようなテキストファイルであってもよいし、データベースシステム上のレコードファイルであってもよい。

図１の分類コード表作成部１０１は、上述の情報源Ａである母集団テキストファイル１０９と情報源Ｂである標本テキストファイル１１０から、以下のようにして分類コード表ファイル１０４を作成する。

まず、分類コード表作成部１０１は、母集団テキストファイル１０９と標本テキストファイル１１０から、分類コードを抽出する（図２のステップＳ２０１）。
本実施形態では、上述の分類コードを作成するために、本出願の出願人による特願２００８−２５８７７６号の特許出願に記載の技術を用いる。この技術による処理の概要は以下の通りである。

ステップ１
区分データが適切に設定された標本テキストファイル１１０を構成する各レコードのテキスト情報（図６参照）に対して形態素解析が実行され、各レコードに共通に含まれる２つの形態素からなる組（２形態素組）の集合が抽出される。

ステップ２
母集団テキストファイル１０９を構成する各レコードのテキスト情報（図５参照）に対しても形態素解析が実行され、各テキストファイル１０９を構成する形態素群が抽出される。
抽出の繰返し回数を示す分類階層が、１にセットされる。
母集団テキストファイル１０９全体が、初期状態の処理対象の母集団テキストの集合として選択される。

ステップ３
ステップ１で抽出された２形態素組の各々毎に、標本テキストファイル１１０内の各レコードでの同時出現数（標本内出現数）と、処理対象の母集団テキストの集合内の同時出現数（母集団内出現数）が算出される。そして、「出現率＝標本内出現数÷母集団内出現数」が算出される。
この出現率が上位所定順位以内となる２形態素組群が、現在の分類階層（最初は１）における分類コード群として選択される。

ステップ４
ステップ３で選択された各分類コード（＝２形態素組）と、現在の分類階層とかなるデータ組に、各分類コードが含まれる標本テキストファイル１１０に対して設定されている区分データが対応付けられる。

ステップ５
分類階層が＋１され、ステップ３で選択された各分類コード（＝２形態素組）群のみが含まれる母集団テキストファイル１０９内のテキスト情報の集合が新たな処理対象の母集団テキストの集合とされ、ステップ３、４、及びこのステップ５の処理が繰り返し実行される。
このステップ５において、母集団テキストの集合に含まれるテキスト情報の数の変化が所定の閾値以下になったら、分類コードの抽出処理を終了する。

図７は、上述のステップ１からステップ５の繰返し処理によって生成される区分データと分類階層・分類コードとの対応関係を示す図である。分類コードは、テキストファイルに対して或る区分データが設定されるときに、そのテキストファイルに対する形態素解析の結果そのテキストファイルに含まれるべき適切な２つの形態素からなる組（２形態素組）の候補である。１種類の区分データに対して、複数の分類コードが対応付けられる場合がある。また、１種類の区分データに対して、分類階層が異なる同じ分類コードが複数回対応付けられる場合もある。

上述のステップ５として示されるように、分類コードの抽出において、分類階層が進むにつれて母集団テキストファイルが絞り込まれてゆく。このため、新たに入力されたテキストファイルを形態素解析して得られる形態素に、複数の分類階層にわたって選択されている分類コードを構成する２つの形態素が含まれる場合には、次のような推測が可能である。即ち、新たに入力されたテキストファイルは、上記分類コードに対応付けられている区分データが設定されている標本テキストファイル１１０に、より類似したテキスト内容を有すると推測できる。このため、その新たに入力されたテキストファイルには、上記区分データを設定することが推奨される。これが、本実施形態における区分データレコメンド機能の基本的な考え方である。

次に、図１の分類コード表作成部１０１は、図２のステップＳ２０１にて抽出した上述の分類コードに基づいて、分類コード表ファイル１０４を作成する（図２のステップＳ２０２）。図８は、図７の対応関係に基づいて生成される分類コード表ファイル１０４のデータ構成例を示す図である。図７の対応関係のフォーマットに、各データ組（レコード）毎に「分類最下層」データが付加されている。このデータは、それに対応する分類コードが、どの分類階層まで抽出されたかを示す情報である。例えば図８に示される１レコード目の分類コード「納品書−印刷」は、分類階層１のデータであるが、この分類コードは分類階層３においても選択されていることを示している。この情報は、図１の区分データレコメンド部１０２が、後述する分類コード表検索処理を実行するときに使用される。

分類コード表ファイル１０４は、ＣＳＶファイルのようなテキストファイルであってもよいし、データベースシステム上のレコードファイルであってもよい。図８の１行が１組のデータ組即ち１レコードを表す。区分データを構成する区分１から区分Ｎまでの各区分値を結合した値が、区分データＩＤとして使用される。

次に、分類コード表作成部１０１は、図２のステップＳ２０１での分類コードの抽出処理の内容に基づいて、分類コード統計情報表ファイル１０５を作成する（図２のステップＳ２０３）。

図９は、分類コード統計情報表ファイル１０５のデータ構成例を示す図である。このファイルは、区分データ項目（区分１から区分Ｎまでの各区分値の組）と、Ｒ１〜Ｒ４、及びＲ６〜Ｒ８の各分類コード統計情報項目と、分類精度項目、及び作成日項目とから構成される。区分データ項目の区分１から区分Ｎまでの各区分値を結合した値が区分データＩＤとして使用される。

図２の動作フローチャートでの処理結果に基づいて、分類コード表ファイル１０４の区分データ項目に登録されている各区分データのうち、同じ区分データを有するレコード群の情報が、分類コード統計情報表ファイル１０５の１つのレコードにまとめられる。そして、分類コード統計情報表ファイル１０５の各処理対象レコードの項目は、以下のようにして生成される。

Ｒ１項目には、分類コード表ファイル１０４のもととなった母集団テキストファイル１０９のレコード件数が登録される。
Ｒ２項目には、標本テキストファイル１１０のレコード件数が登録される。

Ｒ３項目には、区分データに対応付けられる１組以上の分類コードを使って母集団テキストファイル１０９が検索されたときに抽出されるレコード件数が登録される。より具体的には、分類コード表作成部１０１は、分類コード統計情報表ファイル１０５上の処理対象レコードの区分データで図８の分類コード表ファイル１０４の区分データ項目を検索する。そして、分類コード表作成部１０１は、検索により抽出された各レコードの分類コード項目（図８参照）に格納されている分類コードを抽出する。次に、分類コード表作成部１０１は、抽出した分類コード毎に、母集団テキストファイル１０９のテキスト情報項目（図５参照）を検索し、その分類コードを構成する２つの形態素を共に含むレコードの件数を抽出する。そして、分類コード表作成部１０１は、検索したレコード件数を、抽出した分類コード全体で加算し、その結果をＲ３項目に登録する。

Ｒ４項目には、Ｒ３項目の決定において母集団テキストファイル１０９から検索されたレコードのうち、分類コード統計情報表ファイル１０５上の処理対象レコードの区分データと同じ区分データが設定されているレコードの件数が登録される。

分類精度項目には、Ｒ４の項目値をＲ３の項目値で割って得られる値が登録される。
作成日は、母集団テキストファイル１０９内で最新に登録されたテキスト情報（図５）を含むレコードの日付である。

Ｒ６〜Ｒ８は、図１の分類コード自動再作成部１０３が使用し、初期値は何れも０である。これらの詳細については後述する。
以上のようにして、図１の分類コード表作成部１０１が分類コード表ファイル１０４と分類コード統計情報表ファイル１０５を作成すると、図１の区分データレコメンド部１０２が動作可能となる。

図３は、区分データレコメンド部１０２が実行する区分データレコメンド表示制御処理の制御動作を示す動作フローチャートである。
まず、入力者（図１参照）が、顧客応対システム１００の画面入力部を用いて、顧客に対する応対内容を入力する（図３のステップＳ３０１）。図１０（ａ）は、入力例を示す図である。質問内容のテキストと共に区分データ（大分類、中分類等、更に細かい分類も可能）が入力される。

これを受けて、図１の区分データレコメンド部１０２は、まずステップＳ３０１での入力内容に対して１つの検索ＩＤを発行する（図３のステップＳ３０２）。検索ＩＤとしては例えば「A00000000000000」のようなものである。

以上の入力内容は、検索ＩＤ及び作成日と共に、図１の応対履歴データベース１０６に順次蓄積され、応対履歴の解析処理等に活用されるほか、後述する分類コード自動再作成処理において参照される。

次に、区分データレコメンド部１０２は、ステップＳ３０１での入力内容から、質問内容のテキストデータを抽出し、そのデータに対して形態素解析処理を実行する（図３のステップＳ３０３）。この結果、例えば図１０（ａ）の入力例における質問内容の部分のテキストデータに対して、図１０（ｂ）に例示されるような形態素が抽出される。

次に、区分データレコメンド部１０２は、ステップＳ３０３で抽出した形態素から、図１０（ｃ）として例示されるように、２形態素から構成される形態素パターンを選択し、それに基づいて形態素行列ファイルを作成する（図３のステップＳ３０４）。図１０（ｄ）は、形態素行列を概念的に示した図であり、縦列と横行にそれぞれ出現しうる形態素が配置され、各列と各行の交点が、各列の形態素と各行の形態素からなる形態素パターンを表している。同一の形態素同士の組と順序が逆の形態素の組に対応する×の部分は除かれて、○の部分の形態素パターンのみが形態素行列の要素を構成するデータとして抽出される。図１１は、形態素行列を構成する形態素行列ファイルのデータ構成例を示す図である。ステップＳ３０２にて発行された検索ＩＤ毎、即ちステップＳ３０１での入力内容毎に、形態素行列の要素を構成する形態素パターンが登録される。

次に、区分データレコメンド部１０２は、ステップＳ３０５からＳ３１０までのループ処理によって、以下の一連の処理を繰り返し実行する。
まず、区分データレコメンド部１０２は、ステップＳ３０４にて得られた形態素行列ファイルから、形態素行列の要素である形態素パターンを順番に選択する（図３のステップＳ３０６）。

次に、区分データレコメンド部１０２は、分類コード表ファイル１０４（図８参照）において、ステップＳ３０６で選択した形態素パターンを分類コード項目の値として有するレコードを抽出する。続いて、区分データレコメンド部１０２は、抽出されたレコードの分類階層項目と分類最下層項目の内容を判定する。この判定に基づき、区分データレコメンド部１０２は、第１階層から分類最下層項目で示される階層までの全ての階層のレコードが抽出されている区分データ（＝区分ＩＤ）を検索する（以上、図３のステップＳ３０７）。

次に、区分データレコメンド部１０２は、ステップＳ３０７での検索がヒットしたか否かを判定する（図３のステップＳ３０８）。そして、区分データレコメンド部１０２は、ヒットした場合に、そのヒットした区分データを、ステップＳ３０２にて発行されている検索ＩＤに対応させて、検索結果ファイル１０７に登録する（図３のステップＳ３０９）。図１２は、検索結果ファイル１０７のデータ構成例を示す図である。検索結果ファイル１０７の各レコードにおいて、検索ＩＤ項目にはステップＳ３０２で発行された検索ＩＤが格納され、区分データ項目にはステップＳ３０７での検索でヒットした区分データが格納される。

以上のステップＳ３０６からＳ３０９までの一連の処理が、顧客応対の入力内容から得られた形態素行列の要素を構成する形態素パターン毎に繰り返し実行される。
形態素行列中の全ての形態素パターンに対するステップＳ３０５からＳ３１０までの繰返し処理が終了すると、区分データレコメンド部１０２は、ステップＳ３０９にて検索結果ファイル１０７に新たに登録された各処理対象レコード毎に、次の処理を実行する。即ち、区分データレコメンド部１０２は、分類コード統計情報表ファイル１０５から、その区分データ項目の内容が上記処理対象レコードの区分データ（図１２参照）と同じレコードを検索する。次に、区分データレコメンド部１０２は、検索されたレコードの分類精度項目に格納されている分類精度値を抽出する。そして、区分データレコメンド部１０２は、その抽出した分類精度値と上記処理対象レコードの内容を結合する。その後、区分データレコメンド部１０２は、上位所定順位（例えば第３位）までの分類精度値とそれに結合されている処理対象レコードの内容を、レコメンドファイル１０８に登録する（以上、図３のステップＳ３１１）。図１３は、レコメンドファイル１０８のデータ構成例を示す図である。レコメンドファイル１０８の各レコードは、上記処理対象レコードの検索ＩＤ及び区分データ（図１２参照）が格納される検索ＩＤ項目及び区分データ項目と、分類精度値が格納される分類精度項目とから構成される。

次に、区分データレコメンド部１０２は、ステップＳ３０１にて入力中の応対内容の区分データ（図１０（ａ）参照）と、レコメンドファイル１０８との比較処理を実行する（図３のステップＳ３１２）。具体的には、区分データレコメンド部１０２は、レコメンドファイル１０８（図１３参照）において、検索ＩＤ項目の値がステップＳ３０２にて発行されている検索ＩＤと同じレコードを、分類精度項目に登録されている分類精度が高い順位で抽出する。そして、区分データレコメンド部１０２は、応対内容中の区分データが、レコメンドファイル１０８から抽出されたレコードのうち、何番目の順位のレコード中の区分データ（図１３参照）と一致するかを比較判定する。

ステップＳ３１２での比較判定の結果に基づいて、区分データレコメンド部１０２は、入力中の応対内容に対応させて、区分データのお薦めを示すメッセージを表示する（図３のステップＳ３１３）。図１４は、ステップＳ３１２での比較判定と、その比較結果を受けて実行されるレコメンドメッセージを表示するための制御処理との関係を示す図である。今、応対内容中の区分データがレコメンドファイル１０８から抽出された第１番目の順位のレコード、即ち分類精度が最上位のレコードの区分データと一致したと判定された場合には、レコメンドメッセージは表示されない。これは、入力者による区分データの指定が最適であることを意味する。また、応対内容中の区分データがレコメンドファイル１０８から抽出された第１番目以外の順位のレコード、即ち分類精度が第２位以下のレコードの区分データと一致したと判定されたなら、一致検出順位より高順位のレコードの区分データが、お薦め表示される。これは、入力者による区分データの指定よりも最適な区分データが存在することを意味する。更に、応対内容中の区分データがレコメンドファイル１０８から抽出されたどのレコードの区分データとも一致しないと判定されたなら、抽出された全ての順位のレコードの区分データが、お薦め表示される。これは、入力者による区分データの指定は適切でないことを意味するため、この場合には、全ての順位の区分データ候補がお薦め表示される。図１５は、上述の処理によって入力者に表示される区分データのお薦め表示の表示例を示す図である。

図１５に例示される表示において、入力者は、何れかの区分データのお薦めの右横の「選択」リンクをクリックすることにより、そのお薦めの区分データを採用することができる。区分データレコメンド部１０２は、入力者によりお薦めの区分データの選択操作を受付け（図３のステップＳ３１４）、その選択された区分データを応対入力画面中の区分データの入力フォーム領域に自動設定する（図３のステップＳ３１５）。

その後、区分データレコメンド部１０２の処理が終了する。
以上説明した実施形態では、新たな応対内容の入力に対して、それにもっとも適した区分データの候補（レコメンド）を的確に提示することが可能となる。

図４は、分類コード自動再作成部１０３が実行する分類コード自動再作成処理の制御動作を示す動作フローチャートである。
この処理は、分類コード統計情報表ファイル１０５を利用し、区分データの一致度を自動的に解析し、一致度が低い区分データの分類コードを自動的に再作成する処理である。この処理を自動化することにより、人手による区分データのチェック作業が不要となり、分類コードを自動学習することができ、高い精度でのレコメンド処理が可能となる。

この処理ではまず、一定期間毎に、以下のチェック処理が実行される。
まず、分類コード自動再作成部１０３は、図９に示されるデータ構成例を有する分類コード統計情報表ファイル１０５の各区分データのレコードにおいて、Ｒ６、Ｒ７、Ｒ８の各項目値を初期化、即ち値０を設定する（図４のステップＳ４０１）。

次に、分類コード自動再作成部１０３は、分類コード統計情報表ファイル１０５の各区分データのレコードにおいて、Ｒ６項目に、以下の計算結果をセットする（図４のステップＳ４０２）。なお、Ｒ４項目値及びＲ１項目値は、Ｒ６項目と同一のレコード中の値である。

Ｒ６項目値＝Ｒ４項目値／Ｒ１項目値

このようにして計算されるＲ６項目値は、Ｒ１項目値で示されるレコード件数を有する母集団テキストファイル１０９の中に、Ｒ４項目値で示されるレコード件数を有する区分データが一致するレコードが存在する割合、即ち期待値を示している。

次に、分類コード自動再作成部１０３は、分類コード統計情報表ファイル１０５から、各レコードの区分データ及び作成日の組合せを取り出す（図９参照）（図４のステップＳ４０３）。

次に、分類コード自動再作成部１０３は、ステップＳ４０３で取り出した区分データ及び作成日の組合せ毎に、以下の一連の処理を繰り返し実行する（図４のステップＳ４０４からＳ４０８までのループ処理）。
即ちまず、分類コード自動再作成部１０３は、区分データ及び作成日の組合せの１組を選択する（図４のステップＳ４０５）。

次に、分類コード自動再作成部１０３は、応対履歴データベース１０６から、ステップＳ４０５で選択した組の作成日以降の作成日が記憶されている応対履歴のレコード件数を検索する。そして、分類コード自動再作成部１０３は、そのレコード件数を、分類コード統計情報表ファイル１０５において、ステップＳ４０５で選択した組に対応するレコードのＲ７項目にセットする（以上、図４のステップＳ４０６）。

次に、分類コード自動再作成部１０３は、応対履歴データベース１０６から、ステップＳ４０５で選択した組の作成日以降の作成日が記憶され、かつその組の区分データと同じ区分データが記憶されている応対履歴のレコード件数を検索する。そして、分類コード自動再作成部１０３は、そのレコード件数を、分類コード統計情報表ファイル１０５において、ステップＳ４０５で選択した組に対応するレコードのＲ８項目にセットする（以上、図４のステップＳ４０７）。

以上のステップＳ４０５からＳ４０７の一連の処理が、分類コード統計情報表ファイル１０５上の全てのレコードに対して実行される（図４のステップＳ４０４からＳ４０８までのループ処理）。

その後、分類コード自動再作成部１０３は、分類コード統計情報表ファイル１０５から、以下の条件に一致する区分データを抽出する（図４のステップＳ４０９）。

Ｒ８項目値／Ｒ７項目値(実際に存在する割合)＜Ｒ６項目値（期待する割合）×α

ここで、αは閾値のシステムパラメーターであり、管理者が自由に設定できる値とする。

図１６は、分類コード自動再作成処理における分類コード統計情報表ファイル１０５のデータ構成例を示す図であり、図９のデータ構成例に対応している。この例に示されるレコードでは、元々Ｒ１＝１０，０００件の母集団テキストファイル１０９に対してそのレコードの区分データを有するレコード件数Ｒ４が１８０件であった。従って、Ｒ６＝Ｒ４／Ｒ１＝１８０／１０，０００＝０．０１８となる。そして、そのレコードの最新の作成日以降に応対履歴データベース１０６に登録されたレコード件数Ｒ７は、２０，０００件になっている。この２０，０００件のうち、そのレコードの区分データと一致する区分データを有するレコード件数Ｒ８は１００件であった。従って、ステップＳ４０９では、実際に存在する割合（Ｒ８／Ｒ７＝０．０１）が、期待する割合（Ｒ６＝０．０１８）×αよりも小さいレコードの区分データが抽出される。

最後に、分類コード自動再作成部１０３は、ステップＳ４０９で上述の条件に一致する区分データが抽出された場合には、以下の処理を実行する。即ち、分類コード自動再作成部１０３は、Ｒ７に対応する応対履歴データベース１０６上のレコード群を母集団テキストファイル１０９、Ｒ８に対応する応対履歴データベース１０６上のレコード群を標本テキストファイル１１０とする。そして、分類コード自動再作成部１０３は、図２の動作フローチャートで説明したのと同じ分類コード作成処理を実行することにより、分類コード表ファイル１０４及び分類コード統計情報表ファイル１０５を自動的に再作成する。

図１７は、以上に説明した顧客応対システムの実施形態を実現できるコンピュータのハードウェア構成の一例を示す図である。
図１７に示されるコンピュータは、ＣＰＵ１７０１、メモリ１７０２、入力装置１７０３、出力装置１７０４、外部記憶装置１７０５、可搬記録媒体１７０９が挿入される可搬記録媒体駆動装置１７０６、及びネットワーク接続装置１７０７を有し、これらがバス１７０８によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。

ＣＰＵ１７０１は、当該コンピュータ全体の制御を行う。メモリ１７０２は、プログラムの実行、データ更新等の際に、外部記憶装置１７０５（或いは可搬記録媒体１７０９）に記憶されているプログラム又はデータを一時的に格納するＲＡＭ等のメモリである。ＣＵＰ１７０１は、プログラムをメモリ１７０２に読み出して実行することにより、全体の制御を行う。

入力装置１７０３は、例えば、キーボード、マウス等及びそれらのインタフェース制御装置とからなる。入力装置１７０３は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をＣＰＵ１７０１に通知する。

出力装置１７０４は、表示装置、印刷装置等及びそれらのインタフェース制御装置とからなる。出力装置１７０４は、ＣＰＵ１７０１の制御によって送られてくるデータを表示装置や印刷装置に出力する。

外部記憶装置１７０５は、例えばハードディスク記憶装置である。主に各種データやプログラムの保存に用いられる。
可搬記録媒体駆動装置１７０６は、光ディスクやＳＤＲＡＭ、コンパクトフラッシュ等の可搬記録媒体１７０９を収容するもので、外部記憶装置１７０５の補助の役割を有する。

ネットワーク接続装置１７０７は、例えばＬＡＮ（ローカルエリアネットワーク）又はＷＡＮ（ワイドエリアネットワーク）の通信回線を接続するための装置である。
実施形態によるシステムは、図１に示される各ブロックの機能、又は図２〜図４に示される動作フローチャートの処理に対応する機能を搭載したプログラムをＣＰＵ１７０１が実行することで実現される。そのプログラムは、例えば外部記憶装置１７０５や可搬記録媒体１７０９に記録して配布してもよく、或いはネットワーク接続装置１７０７によりネットワークから取得できるようにしてもよい。また、各処理において用いられるデータは、例えば外部記憶装置１７０５からメモリ１７０２に読み出されて処理される。

以上説明した実施形態では、顧客応対システムにおける顧客応対情報の入力時の区分データの付与時にレコメンド表示する実施形態について説明したが、上述の技術は、何らかの文章情報の入力時に区分データを付与するシステムに広く適用することが可能である。

コールセンターやお客様相談室等で使用される顧客応対システムにおける区分データの入力に利用することができる。

１００、１８０１顧客応対システム
１０１分類コード表作成部
１０２区分データレコメンド部
１０３分類コード自動再作成部
１０４分類コード表ファイル
１０５分類コード統計情報表ファイル
１０６、１８０２応対履歴データベース
１０７検索結果ファイル
１０８レコメンドファイル
１０９母集団テキストファイル（情報源Ａ）
１１０標本テキストファイル（情報源Ｂ）
１７０１ＣＰＵ
１７０２メモリ
１７０３入力装置
１７０４出力装置
１７０５外部記憶装置
１７０６可搬記録媒体駆動装置
１７０７ネットワーク接続装置
１７０８バス
１７０９可搬記録媒体

Claims

テキスト情報を１つ以上の区分値によって該テキスト情報の区分を示す区分データと共に蓄積する方法において、
それぞれ入力者によって前記区分データが付与されたテキスト情報の母集団テキストファイルと、正しいと判断された前記区分データが付与されたテキスト情報の標本テキストファイルとを、所定のテキスト単位の任意の組合せで構成される分類コードをキーとして比較することにより、前記区分データと前記分類コードとの対応関係を示す分類コード表ファイルを作成し、
前記分類コード表ファイルから抽出される前記区分データ毎に、前記分類コード表ファイル内で該区分データに対応付けられる前記分類コードの前記母集団テキストファイル内での出現状況を統計情報として収集した分類コード統計情報表ファイルを作成し
新規に入力された新規テキスト情報から前記分類コードを抽出し、該抽出された分類コード毎に前記分類コード表ファイルを検索することにより、該分類コードに対応する区分データを抽出し、
該抽出された区分データ毎に前記分類コード統計情報表ファイルから前記統計情報を抽出し、
該抽出された統計情報に基づいて、前記新規テキスト情報に対応する区分データの候補を前記抽出された区分データから選択し提示する、
ことを特徴とする区分データレコメンド方法。
前記新規テキスト情報を履歴データベースとして蓄積し、
前記分類コード表ファイルから抽出される前記区分データ毎に、前記履歴データベース内での該区分データの出現状況を算出し、
該出現状況を該区分データに対応して前記分類コード統計情報表ファイルから抽出される前記統計情報と比較し、
該比較結果に基づいて、前記履歴データベースから前記母集団テキストファイル及び前記標本テキストファイルを決定して前記分類コード表ファイル及び前記分類コード統計情報表ファイルを再作成する、
ことを特徴とする請求項１に記載の区分データレコメンド方法。
前記テキスト単位は形態素である、
ことを特徴とする請求項１又は２の何れかに記載の区分データレコメンド方法。
テキスト情報を１つ以上の区分値によって該テキスト情報の区分を示す区分データと共に蓄積するコンピュータに、
それぞれ入力者によって前記区分データが付与されたテキスト情報の母集団テキストファイルと、正しいと判断された前記区分データが付与されたテキスト情報の標本テキストファイルとを、所定のテキスト単位の任意の組合せで構成される分類コードをキーとして比較することにより、前記区分データと前記分類コードとの対応関係を示す分類コード表ファイルを作成し、
前記分類コード表ファイルから抽出される前記区分データ毎に、前記分類コード表ファイル内で該区分データに対応付けられる前記分類コードの前記母集団テキストファイル内での出現状況を統計情報として収集した分類コード統計情報表ファイルを作成し
新規に入力された新規テキスト情報から前記分類コードを抽出し、該抽出された分類コード毎に前記分類コード表ファイルを検索することにより、該分類コードに対応する区分データを抽出し、
該抽出された区分データ毎に前記分類コード統計情報表ファイルから前記統計情報を抽出し、
該抽出された統計情報に基づいて、前記新規テキスト情報に対応する区分データの候補を前記抽出された区分データから選択し提示する、
処理を実行させるためのプログラム。
前記新規テキスト情報を履歴データベースとして蓄積し、
前記分類コード表ファイルから抽出される前記区分データ毎に、前記履歴データベース内での該区分データの出現状況を算出し、
該出現状況を該区分データに対応して前記分類コード統計情報表ファイルから抽出される前記統計情報と比較し、
該比較結果に基づいて、前記履歴データベースから前記母集団テキストファイル及び前記標本テキストファイルを決定して前記分類コード表ファイル及び前記分類コード統計情報表ファイルを再作成する、
処理を更に実行することを特徴とする請求項１に記載のプログラム。
テキスト情報を１つ以上の区分値によって該テキスト情報の区分を示す区分データと共に蓄積する装置において、
それぞれ入力者によって前記区分データが付与されたテキスト情報の母集団テキストファイルと、正しいと判断された前記区分データが付与されたテキスト情報の標本テキストファイルとを、所定のテキスト単位の任意の組合せで構成される分類コードをキーとして比較することにより、前記区分データと前記分類コードとの対応関係を示す分類コード表ファイルを作成し、前記分類コード表ファイルから抽出される前記区分データ毎に、前記分類コード表ファイル内で該区分データに対応付けられる前記分類コードの前記母集団テキストファイル内での出現状況を統計情報として収集した分類コード統計情報表ファイルを作成する分類コード表作成部と、
新規に入力された新規テキスト情報から前記分類コードを抽出し、該抽出された分類コード毎に前記分類コード表ファイルを検索することにより、該分類コードに対応する区分データを抽出し、該抽出された区分データ毎に前記分類コード統計情報表ファイルから前記統計情報を抽出し、該抽出された統計情報に基づいて、前記新規テキスト情報に対応する区分データの候補を前記抽出された区分データから選択し提示する区分データレコメンド部と、
を含むことを特徴とする区分データレコメンド装置。
前記新規テキスト情報を履歴データベースとして蓄積し、前記分類コード表ファイルから抽出される前記区分データ毎に、前記履歴データベース内での該区分データの出現状況を算出し、該出現状況を該区分データに対応して前記分類コード統計情報表ファイルから抽出される前記統計情報と比較し、該比較結果に基づいて、前記履歴データベースから前記母集団テキストファイル及び前記標本テキストファイルを決定して前記分類コード表ファイル及び前記分類コード統計情報表ファイルを再作成する分類コード自動再作成部を更に含む、
ことを特徴とする請求項１に記載の区分データレコメンド装置。