JP2010282416A - 区分データレコメンド方法、プログラム、及び装置 - Google Patents
区分データレコメンド方法、プログラム、及び装置 Download PDFInfo
- Publication number
- JP2010282416A JP2010282416A JP2009135132A JP2009135132A JP2010282416A JP 2010282416 A JP2010282416 A JP 2010282416A JP 2009135132 A JP2009135132 A JP 2009135132A JP 2009135132 A JP2009135132 A JP 2009135132A JP 2010282416 A JP2010282416 A JP 2010282416A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- data
- classification code
- file
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】分類コード表作成部101は、テキスト情報の母集団テキストファイル109と、正しいと判断された区分データが付与されたテキスト情報の標本テキストファイル110とから、区分データと分類コードとの対応関係を示す分類コード表ファイル104及び、分類コードの母集団テキストファイル109内での出現状況を収集した分類コード統計情報表ファイル105を作成する。区分データレコメンド部102は、新規テキスト情報から分類コードを抽出し、分類コード表ファイル104からその分類コードに対応する区分データを抽出し、その区分データ毎に分類コード統計情報表ファイル105から統計情報を抽出し、その統計情報に基づいて、新規テキスト情報に対応する区分データの候補を選択し提示する。
【選択図】図1
Description
誤入力の例としては、以下が挙げられる。
(A)テキスト情報(直接入力する情報)の誤字脱字
(B)区分データ(プルダウンメニューから選択する情報)の付け間違い
(C)区分データの未設定
なお、上記(A)〜(C)として示される事例は、図18に示されるような顧客応対システム1801での入力を想定している。顧客応対システムとは、応対開始時間や顧客情報、質問内容や応対内容を入力者が都度画面入力して、履歴管理を行うシステムで、応対履歴データベース1802を有するシステムである。
(1)基本情報
案件番号、受付日時、受付者等の受付に関する情報を入力する部分
(2)顧客情報
顧客ID、顧客名等の顧客に関する情報を入力する部分
(3)問合せ情報
質問内容や質問の区分に関する情報を入力する部分
(4)回答情報
回答内容や回答の区分に関する情報を入力する部分
上記(1)〜(4)には、直接タイプ入力される項目と、プルダウンメニュー、チェックボックス等から選択される項目がある。また、画面起動時に初期値がセットされる場合や、特定の入力値からデータベースが検索されて、他の項目値が自動セットされる場合もある。
そこで、本発明の1つの側面では、顧客応対システム等における新規テキスト情報の入力画面に設定される区分データを自動的にチェック可能とし、付け間違いの可能性がある場合や未入力時に入力者へ候補情報(レコメンド)を提供することを目的とする。
まず、lそれぞれ入力者によって区分データが付与されたテキスト情報の母集団テキストファイルと、正しいと判断された区分データが付与されたテキスト情報の標本テキストファイルとが、所定のテキスト単位の任意の組合せで構成される分類コードをキーとして比較されることにより、区分データと分類コードとの対応関係を示す分類コード表ファイルが作成される。
図1は、区分データのレコメンド機能を有する顧客応対システムの実施形態の構成図である。
以上の構成を有する顧客応対システム100の実施形態の動作について、以下に詳細に説明する。
まず、入力者は、情報源Aの母集団テキストファイル109と情報源Bの標本テキストファイル110を指定する。図5は、母集団テキストファイル109のデータ構成例を示す図、図6は、標本テキストファイル110のデータ構成例を示す図である。
本実施形態では、上述の分類コードを作成するために、本出願の出願人による特願2008−258776号の特許出願に記載の技術を用いる。この技術による処理の概要は以下の通りである。
区分データが適切に設定された標本テキストファイル110を構成する各レコードのテキスト情報(図6参照)に対して形態素解析が実行され、各レコードに共通に含まれる2つの形態素からなる組(2形態素組)の集合が抽出される。
母集団テキストファイル109を構成する各レコードのテキスト情報(図5参照)に対しても形態素解析が実行され、各テキストファイル109を構成する形態素群が抽出される。
抽出の繰返し回数を示す分類階層が、1にセットされる。
母集団テキストファイル109全体が、初期状態の処理対象の母集団テキストの集合として選択される。
ステップ1で抽出された2形態素組の各々毎に、標本テキストファイル110内の各レコードでの同時出現数(標本内出現数)と、処理対象の母集団テキストの集合内の同時出現数(母集団内出現数)が算出される。そして、「出現率=標本内出現数÷母集団内出現数」が算出される。
この出現率が上位所定順位以内となる2形態素組群が、現在の分類階層(最初は1)における分類コード群として選択される。
ステップ3で選択された各分類コード(=2形態素組)と、現在の分類階層とかなるデータ組に、各分類コードが含まれる標本テキストファイル110に対して設定されている区分データが対応付けられる。
分類階層が+1され、ステップ3で選択された各分類コード(=2形態素組)群のみが含まれる母集団テキストファイル109内のテキスト情報の集合が新たな処理対象の母集団テキストの集合とされ、ステップ3、4、及びこのステップ5の処理が繰り返し実行される。
このステップ5において、母集団テキストの集合に含まれるテキスト情報の数の変化が所定の閾値以下になったら、分類コードの抽出処理を終了する。
R2項目には、標本テキストファイル110のレコード件数が登録される。
作成日は、母集団テキストファイル109内で最新に登録されたテキスト情報(図5)を含むレコードの日付である。
以上のようにして、図1の分類コード表作成部101が分類コード表ファイル104と分類コード統計情報表ファイル105を作成すると、図1の区分データレコメンド部102が動作可能となる。
まず、入力者(図1参照)が、顧客応対システム100の画面入力部を用いて、顧客に対する応対内容を入力する(図3のステップS301)。図10(a)は、入力例を示す図である。質問内容のテキストと共に区分データ(大分類、中分類等、更に細かい分類も可能)が入力される。
まず、区分データレコメンド部102は、ステップS304にて得られた形態素行列ファイルから、形態素行列の要素である形態素パターンを順番に選択する(図3のステップS306)。
形態素行列中の全ての形態素パターンに対するステップS305からS310までの繰返し処理が終了すると、区分データレコメンド部102は、ステップS309にて検索結果ファイル107に新たに登録された各処理対象レコード毎に、次の処理を実行する。即ち、区分データレコメンド部102は、分類コード統計情報表ファイル105から、その区分データ項目の内容が上記処理対象レコードの区分データ(図12参照)と同じレコードを検索する。次に、区分データレコメンド部102は、検索されたレコードの分類精度項目に格納されている分類精度値を抽出する。そして、区分データレコメンド部102は、その抽出した分類精度値と上記処理対象レコードの内容を結合する。その後、区分データレコメンド部102は、上位所定順位(例えば第3位)までの分類精度値とそれに結合されている処理対象レコードの内容を、レコメンドファイル108に登録する(以上、図3のステップS311)。図13は、レコメンドファイル108のデータ構成例を示す図である。レコメンドファイル108の各レコードは、上記処理対象レコードの検索ID及び区分データ(図12参照)が格納される検索ID項目及び区分データ項目と、分類精度値が格納される分類精度項目とから構成される。
以上説明した実施形態では、新たな応対内容の入力に対して、それにもっとも適した区分データの候補(レコメンド)を的確に提示することが可能となる。
この処理は、分類コード統計情報表ファイル105を利用し、区分データの一致度を自動的に解析し、一致度が低い区分データの分類コードを自動的に再作成する処理である。この処理を自動化することにより、人手による区分データのチェック作業が不要となり、分類コードを自動学習することができ、高い精度でのレコメンド処理が可能となる。
まず、分類コード自動再作成部103は、図9に示されるデータ構成例を有する分類コード統計情報表ファイル105の各区分データのレコードにおいて、R6、R7、R8の各項目値を初期化、即ち値0を設定する(図4のステップS401)。
R6項目値=R4項目値/R1項目値
このようにして計算されるR6項目値は、R1項目値で示されるレコード件数を有する母集団テキストファイル109の中に、R4項目値で示されるレコード件数を有する区分データが一致するレコードが存在する割合、即ち期待値を示している。
即ちまず、分類コード自動再作成部103は、区分データ及び作成日の組合せの1組を選択する(図4のステップS405)。
R8項目値/R7項目値(実際に存在する割合)<R6項目値(期待する割合)×α
ここで、αは閾値のシステムパラメーターであり、管理者が自由に設定できる値とする。
図17に示されるコンピュータは、CPU1701、メモリ1702、入力装置1703、出力装置1704、外部記憶装置1705、可搬記録媒体1709が挿入される可搬記録媒体駆動装置1706、及びネットワーク接続装置1707を有し、これらがバス1708によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。
可搬記録媒体駆動装置1706は、光ディスクやSDRAM、コンパクトフラッシュ等の可搬記録媒体1709を収容するもので、外部記憶装置1705の補助の役割を有する。
実施形態によるシステムは、図1に示される各ブロックの機能、又は図2〜図4に示される動作フローチャートの処理に対応する機能を搭載したプログラムをCPU1701が実行することで実現される。そのプログラムは、例えば外部記憶装置1705や可搬記録媒体1709に記録して配布してもよく、或いはネットワーク接続装置1707によりネットワークから取得できるようにしてもよい。また、各処理において用いられるデータは、例えば外部記憶装置1705からメモリ1702に読み出されて処理される。
101 分類コード表作成部
102 区分データレコメンド部
103 分類コード自動再作成部
104 分類コード表ファイル
105 分類コード統計情報表ファイル
106、1802 応対履歴データベース
107 検索結果ファイル
108 レコメンドファイル
109 母集団テキストファイル(情報源A)
110 標本テキストファイル(情報源B)
1701 CPU
1702 メモリ
1703 入力装置
1704 出力装置
1705 外部記憶装置
1706 可搬記録媒体駆動装置
1707 ネットワーク接続装置
1708 バス
1709 可搬記録媒体
Claims (7)
- テキスト情報を1つ以上の区分値によって該テキスト情報の区分を示す区分データと共に蓄積する方法において、
それぞれ入力者によって前記区分データが付与されたテキスト情報の母集団テキストファイルと、正しいと判断された前記区分データが付与されたテキスト情報の標本テキストファイルとを、所定のテキスト単位の任意の組合せで構成される分類コードをキーとして比較することにより、前記区分データと前記分類コードとの対応関係を示す分類コード表ファイルを作成し、
前記分類コード表ファイルから抽出される前記区分データ毎に、前記分類コード表ファイル内で該区分データに対応付けられる前記分類コードの前記母集団テキストファイル内での出現状況を統計情報として収集した分類コード統計情報表ファイルを作成し
新規に入力された新規テキスト情報から前記分類コードを抽出し、該抽出された分類コード毎に前記分類コード表ファイルを検索することにより、該分類コードに対応する区分データを抽出し、
該抽出された区分データ毎に前記分類コード統計情報表ファイルから前記統計情報を抽出し、
該抽出された統計情報に基づいて、前記新規テキスト情報に対応する区分データの候補を前記抽出された区分データから選択し提示する、
ことを特徴とする区分データレコメンド方法。 - 前記新規テキスト情報を履歴データベースとして蓄積し、
前記分類コード表ファイルから抽出される前記区分データ毎に、前記履歴データベース内での該区分データの出現状況を算出し、
該出現状況を該区分データに対応して前記分類コード統計情報表ファイルから抽出される前記統計情報と比較し、
該比較結果に基づいて、前記履歴データベースから前記母集団テキストファイル及び前記標本テキストファイルを決定して前記分類コード表ファイル及び前記分類コード統計情報表ファイルを再作成する、
ことを特徴とする請求項1に記載の区分データレコメンド方法。 - 前記テキスト単位は形態素である、
ことを特徴とする請求項1又は2の何れかに記載の区分データレコメンド方法。 - テキスト情報を1つ以上の区分値によって該テキスト情報の区分を示す区分データと共に蓄積するコンピュータに、
それぞれ入力者によって前記区分データが付与されたテキスト情報の母集団テキストファイルと、正しいと判断された前記区分データが付与されたテキスト情報の標本テキストファイルとを、所定のテキスト単位の任意の組合せで構成される分類コードをキーとして比較することにより、前記区分データと前記分類コードとの対応関係を示す分類コード表ファイルを作成し、
前記分類コード表ファイルから抽出される前記区分データ毎に、前記分類コード表ファイル内で該区分データに対応付けられる前記分類コードの前記母集団テキストファイル内での出現状況を統計情報として収集した分類コード統計情報表ファイルを作成し
新規に入力された新規テキスト情報から前記分類コードを抽出し、該抽出された分類コード毎に前記分類コード表ファイルを検索することにより、該分類コードに対応する区分データを抽出し、
該抽出された区分データ毎に前記分類コード統計情報表ファイルから前記統計情報を抽出し、
該抽出された統計情報に基づいて、前記新規テキスト情報に対応する区分データの候補を前記抽出された区分データから選択し提示する、
処理を実行させるためのプログラム。 - 前記新規テキスト情報を履歴データベースとして蓄積し、
前記分類コード表ファイルから抽出される前記区分データ毎に、前記履歴データベース内での該区分データの出現状況を算出し、
該出現状況を該区分データに対応して前記分類コード統計情報表ファイルから抽出される前記統計情報と比較し、
該比較結果に基づいて、前記履歴データベースから前記母集団テキストファイル及び前記標本テキストファイルを決定して前記分類コード表ファイル及び前記分類コード統計情報表ファイルを再作成する、
処理を更に実行することを特徴とする請求項1に記載のプログラム。 - テキスト情報を1つ以上の区分値によって該テキスト情報の区分を示す区分データと共に蓄積する装置において、
それぞれ入力者によって前記区分データが付与されたテキスト情報の母集団テキストファイルと、正しいと判断された前記区分データが付与されたテキスト情報の標本テキストファイルとを、所定のテキスト単位の任意の組合せで構成される分類コードをキーとして比較することにより、前記区分データと前記分類コードとの対応関係を示す分類コード表ファイルを作成し、前記分類コード表ファイルから抽出される前記区分データ毎に、前記分類コード表ファイル内で該区分データに対応付けられる前記分類コードの前記母集団テキストファイル内での出現状況を統計情報として収集した分類コード統計情報表ファイルを作成する分類コード表作成部と、
新規に入力された新規テキスト情報から前記分類コードを抽出し、該抽出された分類コード毎に前記分類コード表ファイルを検索することにより、該分類コードに対応する区分データを抽出し、該抽出された区分データ毎に前記分類コード統計情報表ファイルから前記統計情報を抽出し、該抽出された統計情報に基づいて、前記新規テキスト情報に対応する区分データの候補を前記抽出された区分データから選択し提示する区分データレコメンド部と、
を含むことを特徴とする区分データレコメンド装置。 - 前記新規テキスト情報を履歴データベースとして蓄積し、前記分類コード表ファイルから抽出される前記区分データ毎に、前記履歴データベース内での該区分データの出現状況を算出し、該出現状況を該区分データに対応して前記分類コード統計情報表ファイルから抽出される前記統計情報と比較し、該比較結果に基づいて、前記履歴データベースから前記母集団テキストファイル及び前記標本テキストファイルを決定して前記分類コード表ファイル及び前記分類コード統計情報表ファイルを再作成する分類コード自動再作成部を更に含む、
ことを特徴とする請求項1に記載の区分データレコメンド装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009135132A JP5332918B2 (ja) | 2009-06-04 | 2009-06-04 | 区分データレコメンド方法、プログラム、及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009135132A JP5332918B2 (ja) | 2009-06-04 | 2009-06-04 | 区分データレコメンド方法、プログラム、及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010282416A true JP2010282416A (ja) | 2010-12-16 |
JP5332918B2 JP5332918B2 (ja) | 2013-11-06 |
Family
ID=43539088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009135132A Expired - Fee Related JP5332918B2 (ja) | 2009-06-04 | 2009-06-04 | 区分データレコメンド方法、プログラム、及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5332918B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10540121B2 (en) | 2018-02-05 | 2020-01-21 | Konica Minolta, Inc. | Non-transitory computer-readable recording medium storing input assistance program and input assisting method |
CN113485683A (zh) * | 2021-06-28 | 2021-10-08 | 延锋伟世通电子科技(上海)有限公司 | Rtc代码量统计方法、***、介质及终端 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007433A (ja) * | 2000-04-17 | 2002-01-11 | Fujitsu Ltd | 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム |
JP2002202984A (ja) * | 2000-11-02 | 2002-07-19 | Fujitsu Ltd | ルールベースモデルに基づくテキスト情報自動分類装置 |
JP2003248687A (ja) * | 2002-02-22 | 2003-09-05 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP2004234051A (ja) * | 2003-01-28 | 2004-08-19 | Fuji Xerox Co Ltd | 文章分類装置およびその方法 |
JP2005190284A (ja) * | 2003-12-26 | 2005-07-14 | Nec Corp | 情報分類装置および情報分類方法 |
JP2007172249A (ja) * | 2005-12-21 | 2007-07-05 | Fujitsu Ltd | 文書分類プログラム、文書分類装置、および文書分類方法 |
JP2008243126A (ja) * | 2007-03-29 | 2008-10-09 | Chuden Cti Co Ltd | 入力情報分析装置 |
JP2008276344A (ja) * | 2007-04-26 | 2008-11-13 | Just Syst Corp | 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム |
-
2009
- 2009-06-04 JP JP2009135132A patent/JP5332918B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007433A (ja) * | 2000-04-17 | 2002-01-11 | Fujitsu Ltd | 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム |
JP2002202984A (ja) * | 2000-11-02 | 2002-07-19 | Fujitsu Ltd | ルールベースモデルに基づくテキスト情報自動分類装置 |
JP2003248687A (ja) * | 2002-02-22 | 2003-09-05 | Nippon Yunishisu Kk | 情報処理装置およびその方法 |
JP2004234051A (ja) * | 2003-01-28 | 2004-08-19 | Fuji Xerox Co Ltd | 文章分類装置およびその方法 |
JP2005190284A (ja) * | 2003-12-26 | 2005-07-14 | Nec Corp | 情報分類装置および情報分類方法 |
JP2007172249A (ja) * | 2005-12-21 | 2007-07-05 | Fujitsu Ltd | 文書分類プログラム、文書分類装置、および文書分類方法 |
JP2008243126A (ja) * | 2007-03-29 | 2008-10-09 | Chuden Cti Co Ltd | 入力情報分析装置 |
JP2008276344A (ja) * | 2007-04-26 | 2008-11-13 | Just Syst Corp | 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10540121B2 (en) | 2018-02-05 | 2020-01-21 | Konica Minolta, Inc. | Non-transitory computer-readable recording medium storing input assistance program and input assisting method |
CN113485683A (zh) * | 2021-06-28 | 2021-10-08 | 延锋伟世通电子科技(上海)有限公司 | Rtc代码量统计方法、***、介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
JP5332918B2 (ja) | 2013-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6233411B2 (ja) | 障害分析装置、障害分析方法、および、コンピュータ・プログラム | |
KR101125911B1 (ko) | 업무 프로세스 분석을 위한 정보 처리 방법 및 장치 | |
CN107704467B (zh) | 搜索质量评估方法及装置 | |
JP6912714B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
CN102637178A (zh) | 一种音乐推荐方法、装置及*** | |
CN102597966B (zh) | 运行管理装置以及运行管理方法 | |
CN106943747B (zh) | 虚拟角色名称推荐方法、装置、电子设备和存储介质 | |
US7685468B2 (en) | Method and system for test case generation | |
US10248517B2 (en) | Computer-implemented method, information processing device, and recording medium | |
CN110321383A (zh) | 大数据平台数据同步方法、装置、计算机设备及存储介质 | |
CN104424539A (zh) | 维护信息管理***及方法、以及维护信息显示方法 | |
JP5588811B2 (ja) | データ分析支援システム及び方法 | |
US8909768B1 (en) | Monitoring of metrics to identify abnormalities in a large scale distributed computing environment | |
JP2018195127A (ja) | インシデント管理装置、インシデント管理方法およびコンピュータプログラム | |
JP6832903B2 (ja) | 情報検索システムおよび方法 | |
JP5332918B2 (ja) | 区分データレコメンド方法、プログラム、及び装置 | |
CN111078988B (zh) | 一种电力服务信息热点检索方法、装置和电子设备 | |
JP2017097462A (ja) | 検索プログラム、検索装置および検索方法 | |
CN111597806A (zh) | 一种基于统计模型识别短信文本模版的方法、设备及介质 | |
CN114860819A (zh) | 商业智能***的构建方法、装置、设备和存储介质 | |
CN110941608B (zh) | 一种埋点分析和漏斗分析报表生成方法、装置及设备 | |
CN106776704A (zh) | 统计信息收集方法和装置 | |
JP2011123652A (ja) | データ解析システム、及びその方法 | |
JP2020166443A (ja) | データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム | |
CN114153830B (zh) | 数据验证方法及其装置、计算机存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130416 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130715 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |