JP2010002973A

JP2010002973A - 音声データ主題推定装置およびこれを用いたコールセンタ

Info

Publication number: JP2010002973A
Application number: JP2008159042A
Authority: JP
Inventors: Koji Fukuda; 厚司福田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2008-06-18
Filing date: 2008-06-18
Publication date: 2010-01-07

Abstract

【課題】音声データからその音声データの主題を推定する装置において、データベースに格納されている関連度およびキーワードを更新することができる音声データ主題推定装置およびそれを用いたコールセンタを提供することを目的とする。
【解決手段】音声データ主題推定装置１は、主題とキーワードと関連度とが格納された主題データベース２と、音声データを音声認識した音声認識データから抽出したキーワード（抽出キーワード）と音声認識データから推定した推定主題（主題Ａ）とを取得し、さらに、主題データベース２を参照して、主題Ａに係るキーワード（キーワードＢ）を取得し、抽出キーワードとキーワードＢとが一致するか否かを判定する判定部１０と、判定結果に基づき、主題データベース２に格納された主題Ａに係るキーワードを登録する主題ＤＢ登録部１１と、主題Ａに係るキーワードの関連度を更新する主題ＤＢ更新部１２と、を備える。
【選択図】図１

Description

本発明は、音声データとして記憶された会話内容の主題を推定する音声データ主題推定装置およびこれを用いたコールセンタに関するものである。

電話中の会話の内容を録音する通話録音や、相手が不在時に電話にメッセージを残す内線電話交換機のボイスメールや留守番電話の録音メッセージを管理する際に、録音データが何の用件についてのものであるか否かを的確に判断できる主題やキーワード等の情報が必要である。

ユーザが録音データの主題（用件）を容易に知ることができる録音データ主題検出装置が特許文献１に開示されている。
従来、録音データが何の用件についてのものであるか否かを判断できる情報を取得するには、録音データを音声認識して、文書データに変換し、文章データと、予め登録されたキーワードとを照合して該キーワードの出現回数を検出し、検出した出現回数と、予め登録されたそのキーワードの重要度とに基づいて、そのキーワードが主題に適しているか否かを判定し、適していると判定されたすべてのキーワードを、録音データの主題として出力していた。

特開２００４−９６５０２号公報（段落００１０〜００１４、図１）

従来の主題検出装置は、音声データを変換した文書データから抽出する「キーワード」が、予めデータベースに登録されたものであり、キーワードをデータベースに追加する手段や、キーワードの重要度（関連度）を更新する手段がない。
そのため、主題に適したキーワードが抽出されているかを示す抽出精度を上げることが困難であった。したがって、主題検出装置の使用期間が長くなるにつれて、抽出精度が下がり、重要度の価値の変化に対応できなくなったキーワードや、データベースに登録されていない重要なキーワードが増える傾向にあった。そのため、抽出されたキーワードから推定される主題が、会話の主題と一致しなくなることがあった。

また、キーワードの重要度を変更し、抽出精度を調整しても、その調整が適しているのかを確認するには、多くの音声データを必要とした。

また、従来の主題検出装置で推定される主題の出力結果は、キーワードである単語が列記されているに過ぎず、文章ではないため、出力された単語から利用者が主題を連想する必要があった。そのため、主題に適さないキーワードが推定されることで、利用者の解釈により、主題が異なるものもあった。

そこで、本発明は、音声データからその音声データの主題を推定する装置において、データベースに格納されている関連度およびキーワードを更新することができる音声データ主題推定装置およびこれを用いたコールセンタを提供することを目的とする。

前記目的を達成するために、請求項１に係る音声データ主題推定装置は、前記音声データが記憶されたデータ記憶部と、前記音声データを音声認識して、音声認識データを生成する音声認識部と、辞書に掲載される語彙を格納する用語データベースと、前記音声認識データの文字列と、前記用語データベースに格納された前記語彙とが一致するキーワードを抽出するキーワード抽出部と、データの主題と、前記主題に係るキーワードと、前記主題と前記キーワードとの関係が数値化された関連度とが格納された主題データベースと、前記主題データベースを参照して、前記キーワード抽出部が抽出した抽出キーワードとの関連度が最も大きい主題を推定主題とする主題推定部と、前記主題データベースを参照して、前記推定主題に係るキーワードを取得し、この取得した主題キーワード（キーワードＢ）と、前記抽出キーワードとが一致するか否かを判定する判定部と、前記判定部により不一致と判定された不一致キーワードを、前記推定主題に係るキーワードとして、前記主題データベースに登録する主題ＤＢ登録部と、前記判定部により一致すると判定された前記主題キーワードの関連度を更新する主題ＤＢ更新部と、を備えることを特徴とする。

請求項２に係る音声データ主題推定装置は、前記主題推定部が、入力主題が入力される入力部と、前記入力主題と前記推定主題とが一致するか否かを判定し、一致した主題を推定主題（主題Ａ）とする主題判定部と、を備えることを特徴とする。

請求項３に係る音声データ主題推定装置は、前記主題データベースに、前記主題判定部にて前記入力主題と前記推定主題とが一致した履歴の総数であるサンプル数が格納され、前記主題判定部が、判定結果が一致した場合に、前記主題データベースを参照して、前記推定主題に係るサンプル数に１を加え、前記主題推定部が、前記音声認識データの文字列と、前記主題データベースに格納されたキーワードとが一致するキーワードを抽出し、抽出したキーワードに係る主題と、その主題のサンプル数と、を取得し、前記主題に係るキーワードの関連度を合算して、さらに前記主題のサンプル数で除した平均関連度が最も大きい主題を推定主題とすることを特徴とする。

請求項４に係る音声データ主題推定装置は、前記主題判定部が、さらに、前記主題データベースを参照して、前記推定主題と前記主題データベースに登録済みの主題とが一致するか否かを判定し、一致しない場合に、前記用語データベースを参照して、前記入力部から入力される概要データの文字列と、前記用語データベースに格納された前記語彙とが一致するキーワードを抽出する概要キーワード抽出部と、前記推定主題と、前記概要キーワード抽出部が抽出した概要キーワードとを前記主題データベースに登録する主題ＤＢ新規登録部と、を備えることを特徴とする。

請求項５に係るコールセンタは、前記音声データ主題推定装置を設けることを特徴とする。

本発明によれば、音声データからその音声データの主題を推定する装置において、データベースに格納されている関連度およびキーワードを更新することができるため、音声データに対して最適な主題を推定することができる音声データ主題推定装置およびこれを用いたコールセンタを提供することができる。

次に、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。

（第１の実施形態）
図１は、本発明の第１の実施形態である音声データ主題推定装置の構成図である。
図１に示すように、第１の実施形態に係る音声データ主題推定装置１は、主題データベース２と、用語データベース３と、データ記憶部４とを備え、具体的には、ＲＡＭ（random access memory）、ＲＯＭ（read-only memory）、ＨＤＤ（hard disk drive）等の記憶装置で構成される。
図１に示すように、第１の実施形態に係る音声データ主題推定装置１は、音声認識部５、入力部６、主題推定部７、主題判定部８、キーワード抽出部９、判定部１０、主題ＤＢ登録部１１、および、主題ＤＢ更新部１２を備え、具体的には、ＣＰＵ（central processing unit）等の制御装置で構成される。
さらに、図１に示すように、第１の実施形態に係る音声データ主題推定装置１は、入力部６を備え、具体的には、キーボード、マウス等の入力装置、モニタ等の出力装置で構成される。
第１の実施形態に係る音声データ主題推定装置１は、前記した制御装置、記憶装置、入力装置、出力装置等のハードウエア資源と、オペレーティングシステム（ＯＳ）、アプリケーションを含むソフトウエアプログラムとを備えて、実現される。

主題データベース２には、予め登録されたデータの主題と、その主題に係るキーワードと、主題とキーワードの関係を数値で示す関連度と、サンプル数（詳細は後記）とが対応付けられて、格納されている。

用語データベース３には、国語辞典や百科事典等に掲載される語彙が記憶されている。そして、必要に応じて新たな語彙を用語データベース３に追加することもできる。

データ記憶部４には、音声データが記憶されている。
音声データは、主に人の声が、ボイスレコーダやカセットテープレコーダ、録音機能付きミニディスク（ＭＤ：Mini Disk）プレーヤ等の録音機器により録音されたデジタルデータである。

入力部６は、データが入力される装置であり、ＰＣ（Personal Computer）のキーボードからの直接入力や、ＧＵＩ（Graphical User Interface）を用いて、モニタの画面に表示される画像をマウス等で選択することでデータを入力するものである。また、モニタをタッチパネル式にし、タッチパネルに触れて文字を選択してデータを入力してもよい。

音声認識部５は、データ記憶部４から音声データを取得し、音声認識処理を行い、音声認識データを生成する。なお、音声認識処理は、生成される音声認識データは、テキストデータが好ましい。

主題推定部７は、音声認識データを音声認識部５から取得し、音声認識データの文字列と、主題データベース２に記憶されたキーワードとを照合して、一致するキーワード（照合キーワード）を抽出する。そして、主題データベース２を参照して、照合キーワードに係る主題を抽出する。次に、主題推定部７は、主題データベース２を参照して、抽出した各主題のサンプル数を取得する。そして、抽出した各主題に対して、抽出したキーワードの関連度を合算し、合算された関連度をサンプル数で割り、抽出した各主題の推定値を算出する。最後に主題推定部７は、推定値が最も大きい主題を、推定した主題とする。

主題判定部８は、入力部６から入力されたデータ（入力主題）と、主題推定部７から入力されたデータ（推定主題）とが一致するか否かを判定し、一致した場合には、判定部１０に一致した一致データ（一致主題＝入力主題＝推定主題）を送出する。また、一致した場合には、主題データベース２を参照して、一致主題と一致するデータベース２に登録された主題を検索し、その主題に係るサンプル数に“１”を加える。つまり、サンプル数とは、主題判定部８にて、入力主題と推定主題がこれまでに一致した履歴の総数である。

キーワード抽出部９は、音声認識データを音声認識部５から取得し、音声認識データの文字列と、用語データベース３に記憶された語彙とを照合して、一致する語彙（抽出キーワード）を抽出する処理を行う。

判定部１０は、主題判定部８から送出されるデータ（一致主題）を取得し、主題データベース２を参照して、一致主題と一致する主題を検索し、その主題（一致主題）に係る主題キーワード（キーワードＢ）を取得し、主題キーワードと、キーワード抽出部９が抽出した抽出キーワードとが、一致するか否かを判定し、判定結果（一致するキーワードまたは一致しないキーワード）を送出する。

主題ＤＢ登録部１１は、判定部１０から送出された一致しない抽出キーワード（不一致キーワード）を取得する。そして、主題データベース２を参照して、不一致キーワードを、推定された音声データの主題（一致主題）に係るキーワードとして、追加登録する。

主題ＤＢ更新部１２は、判定部１０から送出された一致する抽出キーワード（一致キーワード）を取得する。そして、主題ＤＢ更新部１２は、主題データベース２を参照して、推定された音声データの主題（一致主題）に係る一致キーワードの関連度を更新する。

以下に、図２および図３に示すフローチャートを用い、第１の実施形態に係る音声データ主題推定装置１が音声データの主題を推定し、推定する際に用いた主題データベース２を更新する処理について説明する。

予め、利用者が、音声データを音声データ主題推定装置１のデータ記憶部４に記憶させておく（図２，Ｓ１０１）。
音声認識部５は、データ記憶部４から音声データを取得し、音声認識処理を行い、音声認識データを生成する（Ｓ１０２）。
主題推定部７は、音声認識データを音声認識部５から取得する（Ｓ１０３）。さらに、主題推定部７は、主題データベース２に格納された主題とキーワードと関連度に基づいて、音声データの主題を推定する（Ｓ１０４）。

図４に示す主題データベース２と音声データ（音声認識データ）の一例と、図５に示すフローチャートを用いて、Ｓ１０４にて示す音声データの主題を推定する処理の詳細を説明する。
図４に示す主題データベース２は、主題とキーワードと関連度とサンプル数の情報を格納している。主題に『解約の質問』、『振込みの確認』、『口座作成の質問』、『住所変更の質問』等が登録され、それら主題に係るキーワードとして『解約』、『手続き』、『支店』、『口座』等が登録されている。そして、それぞれのキーワードには、主題との関連度が数値で示されている。例えば、主題『解約の質問』とキーワード『解約』との関連度は“３０”である。また、関連度の“−”は未登録であることを示す。例えば、主題『振込みの確認』には、キーワード『解約』が登録されていないことを示す。そして、関連度の数値が“０”以上であれば、そのキーワードが主題に登録されていることを示す。

主題推定部７は、音声認識データ（「虎ノ門支店で口座解約の手続きをしたい」）の文字列と、主題データベース２に登録されたキーワードとを照合して、一致するキーワード（照合キーワード）を抽出する（Ｓ２０１）。この場合、図４に示す主題データベース２に登録された、『解約』、『手続き』、『支店』、『口座』という照合キーワードを抽出する。
そして、主題推定部７は、主題データベース２から、照合キーワードに係る主題を抽出する（Ｓ２０２）。この場合、『解約の質問』、『振込みの確認』、『口座作成の質問』という主題を抽出する。

次に、主題推定部７は、主題データベース２を参照して、抽出した各主題のサンプル数を取得する（Ｓ２０３）。この場合、『解約の質問』が“３０”、『振込みの確認』が“２２”、『口座作成の質問』が“２０”のサンプル数を取得する。
主題推定部７は、抽出した各主題に対して、次のように、照合キーワードの関連度を合算し、サンプル数で割り、抽出した各主題の推定値を算出する（Ｓ２０４）。

＜１．解約の質問＞
関連度の合算＝解約：３０＋手続き：２２＋支店：０＋口座：１１＝６３
推定値＝６３÷サンプル数：３０＝２．１
＜２．振込みの確認＞
関連度の合算＝解約：なし＋手続き：１６＋支店：８＋口座：２＝２６
推定値＝２６÷サンプル数：２２＝１．２
＜３．口座作成の質問＞
関連度の合算＝解約：なし＋手続き：１２＋支店：６＋口座：１８＝３６
推定値＝３６÷サンプル数：２０＝１．８

そして、主題推定部７は、推定値が最も大きい『解約の質問』を、推定した主題とする（Ｓ２０５）。
再び、図２のＳ１０４に続いて、図３に示すフローチャートを用いて処理を説明する。
主題判定部８は、利用者が入力部６を介して入力したデータ（入力主題）と、主題推定部７から推定された主題（推定主題）とを取得する（図３，Ｓ１０５）。例えば、入力主題『解約の質問』と、推定主題『解約の質問』を取得する。

次に、主題判定部８は、入力主題と推定主題とが一致するか否かを判定する（Ｓ１０６）。
一致しない場合（Ｓ１０６，Ｎｏ）、音声データ主題推定装置１は一連の処理を終了する。
一方、一致する場合（Ｓ１０６，Ｙｅｓ）、一致する主題（入力主題＝推定主題＝一致主題（主題Ａ））について、主題判定部８は、主題データベース２を参照して、主題Ａと一致する主題データベース２に登録された主題を検索し、その主題に係るサンプル数に“１”を加える（Ｓ１０７）。例えば、主題Ａ『解約の質問』のサンプル数“３０”に“１”を加え、“３１”にする。
そして、主題判定部８は、主題Ａを判定部１０に送出する（Ｓ１０８）。

キーワード抽出部９は、音声認識データを音声認識部５から取得する（Ｓ１０９）。例えば、音声認識データ『虎ノ門支店での口座解約の手続き』を取得する。
そして、キーワード抽出部９は、音声認識データの文字列と、用語データベース３に記憶された語彙とを照合して、一致する語彙（抽出キーワード）を抽出する（Ｓ１１０）。例えば、『支店』、『口座』、『解約』、『手続き』を抽出する。

判定部１０は、Ｓ１０８にて主題判定部８から送出される主題Ａ（『解約の質問』）と、Ｓ１１０にてキーワード抽出部９が抽出した語彙（抽出キーワード群：『支店』、『口座』、『解約』、『手続き』）とを取得する（Ｓ１１１）。そして、判定部１０は、主題データベース２を参照して、主題Ａに係るキーワード群Ｂ（『口座』、『解約』、『手続き』、『変更』）を取得する（Ｓ１１２）。

次に、判定部１０は、取得したキーワード群Ｂ（『口座』、『解約』、『手続き』、『変更』）と、（Ｓ１１０で抽出した）抽出キーワード群（『支店』、『口座』、『解約』、『手続き』）とで、抽出キーワード群の中でキーワード群Ｂに含まれるキーワードと一致しない抽出キーワード（不一致キーワードＸ）があるか否かを判定する（Ｓ１１３）。
＜判定結果＞
一致しない抽出キーワード（不一致キーワードＸ）＝『支店』
一致する抽出キーワード（一致キーワードＹ）＝『口座』、『解約』、『手続き』

不一致キーワードＸがある場合（Ｓ１１３，Ｙｅｓ）、その不一致キーワードＸを主題ＤＢ登録部１１に送出する（Ｓ１１４）。主題ＤＢ登録部１１は、取得した不一致キーワードＸを、主題データベース２に、主題Ａに係るキーワードとして、関連度“０”で登録する（Ｓ１１５）。これにより、主題データベース２に、主題Ａ（『解約の質問』）に係るキーワードとして『支店』が関連度“０”で登録される（図４はこの状態を示す）。
そして、登録後は、Ｓ１１３に戻り、他にキーワードＢと一致しない不一致キーワードＸがあるか否かを判定する。

一方、不一致キーワードＸがない場合（Ｓ１１３，Ｎｏ）、一致キーワードＹを主題ＤＢ更新部１２に送出する（Ｓ１１６）。主題ＤＢ更新部１２は、取得した一致キーワードＹと一致する主題Ａに係るキーワードＢの関連度に“１”を加える（Ｓ１１７）。以上により、図４に示す主題データベースに登録された主題（主題Ａ『解約の質問』）の各キーワードの関連度は、『解約』が“３０→３１”となり、『手続き』が“２２→２３”となり、『口座』が“１１→１２”となる。
そして、主題ＤＢ更新部１２は、主題データベース２の主題、キーワード、関連度を更新する（Ｓ１１８）。そして、音声データ主題推定装置１は処理を終了する。

第１の実施形態によれば、音声データ主題推定装置１が備える主題データベース２に、登録された主題とその主題に係るキーワードとの関連度を高めることができるため、音声データ主題推定装置１は、音声データから抽出されたキーワードと関連度が高い主題を推定することができる。つまり、音声データに適した主題が推定される。

（第２の実施形態）
本発明の第２の実施形態に係る音声データ主題推定装置１ａは、図６に示すように、第１の実施形態に係る音声データ主題推定装置１の構成（図１）にさらに、概要キーワード抽出部１３、主題ＤＢ新規登録部１４を加え、主題判定部８ａに機能が追加される。
入力部６は、入力データと概要データとが入力される。入力データには、音声データの主題（入力主題）が含まれ、概要データには、その主題に係る情報が含まれる。

主題判定部８ａは、入力部６から取得した入力主題（主題）と、主題推定部７から取得した推定主題（主題）とが一致するか否かを判定する。一致した場合、さらに、主題データベース２を参照して、一致する主題（入力主題＝推定主題＝一致主題）が、主題データベース２に登録されているか否かを判定する。登録されている場合、判定部１０に登録済主題（一致主題）を送出し、登録されていない場合、概要キーワード抽出部１３に未登録主題（一致主題）を送出する処理を行う。

概要キーワード抽出部１３は、主題判定部８ａから未登録主題を取得する。さらに、入力部６から概要データを取得し、用語データベース３に記憶された、辞書に記載された語彙を参照して、概要データに含まれる語彙と一致する語彙（概要キーワード）を抽出する処理を行う。
主題ＤＢ新規登録部１４は、概要キーワード抽出部１３から未登録主題と、概要キーワードを取得し、未登録主題を主題、概要キーワードをその主題に係るキーワードとして、主題データベース２に登録する処理を行う。

このように、第２の実施形態に係る音声データ主題推定装置１ａは、前記の概要キーワード抽出部１３と、主題ＤＢ新規登録部１４と、を備えることで、主題データベース２に主題と、その主題に係るキーワードを登録することができる。

以下に、図７に示すフローチャートを用い、第２の実施形態に係る音声データ主題推定装置１ａが主題データベース２に主題と、その主題に係るキーワードを登録する処理について説明する。
主題推定部７により行われる処理は、前記のＳ１０１〜Ｓ１０４(図２)の処理と同じであるため、説明を省略する。

主題判定部８ａは、利用者が入力部６を介して入力したデータ（入力主題）と、主題推定部７から推定された主題（推定主題）を取得する（図７，Ｓ３０１）。例えば、入力主題『ＡＴＭの場所の質問』と、推定主題『ＡＴＭの場所の質問』とを取得する。

次に、主題判定部８ａは、入力主題と推定主題とが一致するか否かを判定する（Ｓ３０２）。
一致しない場合（Ｓ３０２，Ｎｏ）、音声データ主題推定装置１は一連の処理を終了する。
一致する場合（Ｓ３０２，Ｙｅｓ）、主題判定部８ａは、主題データベース２を参照して、一致主題（入力主題＝推定主題）と一致する主題を検索し、一致主題が登録されているか否かを判定する（Ｓ３０３）。

一致主題が登録されている場合（Ｓ３０３，Ｙｅｓ）、主題判定部８ａは、主題データベース２に登録されている登録済主題（一致主題（主題Ａ））に係るサンプル数に“１”を加える（Ｓ３０４）。そして、主題判定部８ａは、主題Ａを判定部１０に送出する（Ｓ３０５）。その後の処理（Ｓ３０６）は、前記のＳ１１１〜Ｓ１１８（図３）の処理と同じであるため、説明を省略する。

一方、一致主題が登録されていない場合（Ｓ３０３，Ｎｏ）、主題判定部８ａは、未登録主題（一致主題）を概要キーワード抽出部１３に送出する（Ｓ３０７）。
概要キーワード抽出部１３は、主題判定部８ａから送出された未登録主題と、利用者が入力部６を介して入力した概要データとを取得する（Ｓ３０８）。例えば、未登録主題『ＡＴＭの場所の質問』と、概要データ『虎ノ門駅近くの支店に設置されたＡＴＭはどこにありますか？』を取得する。

そして、概要キーワード抽出部１３は、概要データの文字列と、用語データベース３に記憶された語彙とを照合して、一致する語彙（概要キーワード）を抽出する（Ｓ３０９）。例えば、『駅』、『支店』、『設置』、『ＡＴＭ』を抽出する。
次に、未登録主題と抽出した語彙（概要キーワード：『駅』、『支店』、『設置』、『ＡＴＭ』）を主題ＤＢ新規登録部１４に送出する（Ｓ３１０）。

主題ＤＢ新規登録部１４は、未登録主題（『ＡＴＭの場所の質問』）と概要キーワード（『駅』、『支店』、『設置』、『ＡＴＭ』）を取得する（Ｓ３１１）。そして、主題ＤＢ新規登録部１４は、未登録主題を主題、概要キーワードをその主題に係るキーワードとして、関連度“０”で、主題データベース２に登録する（Ｓ３１２）。登録後、音声データ主題推定装置１は処理を終了する。

第２の実施形態によれば、音声データ主題推定装置１ａが備える主題データベース２に、未登録であった主題やその主題に係るキーワードを追加して登録することができる。

（音声データ主題推定装置を備えるコールセンタ）
本発明の実施形態に係る音声データ主題推定装置を、銀行のコールセンタに用いた実施例を示す。

図８は、音声データ主題推定装置１を備えるコールセンタの構成図である。銀行のコールセンタ１００は、ＣＴサーバ１０１と、複数のオペレータ端末１０２と、複数の電話１０３とを備える。
ＣＴサーバ１０１と、オペレータ端末１０２とは、ＬＡＮ１０４等の通信回線で接続されており、通信回線を介して、データの送受信を行う。
電話１０３は、卓上電話でもよいし、例えば、ＩＰ（Internet Protocol）電話を用いることで、図８に示すように、ヘッドセットと接続されたオペレータ端末１０２が電話機能を有してもよい。

ＣＴサーバ１０１には、前記実施形態に係る音声データ主題推定装置１、１ａが含まれる。ＣＴサーバ１０１は他に、ユーザ３００からかかってきた電話を各オペレータに振り分ける電話交換手段や、各オペレータ端末１０２のモニタに必要な情報を表示する手段や、その情報を記憶する手段、各オペレータ端末１０２から入力された情報を記憶する手段等、コールセンタを運営するために必要な構成を備える。

オペレータ端末１０２は、ＰＣと、モニタ、キーボード、マウス等の入出力装置と、ボイスレコーダ等の録音機器とで構成される。このオペレータ端末１０２の入力装置が、入力部６に該当し、録音機器により録音された音声データが、ＬＡＮ１０４を介して、ＣＴサーバ１０１内のデータ記憶部４に保存される。
ユーザ３００からの電話をオペレータ１０５が受けることで、オペレータ端末１０２は、電話をかけたユーザ３００とオペレータ１０５との会話を自身が備える録音機器に記憶する。

前記構成を備えることで、音声データ主題推定装置１（図１）を、銀行のコールセンタに用いることが可能となる。
例えば、ユーザ３００から電話にて「虎ノ門支店で口座解約の手続きをしたい」という質問があった場合に、オペレータが電話の内容に基づいて、主題に『解約の質問』、概要データに『虎ノ門支店での口座解約の手続き』を入力する。
また、音声データ主題推定装置１により、音声データ「虎ノ門支店で口座解約の手続きをしたい」から、主題『解約の質問』が推定される（図５、Ｓ２０５）。
前記処理が行われることで、音声データ主題推定装置１は、主題データベース２に登録された主題『解約の質問』に係るキーワード『支店』の追加や、キーワード『口座』、『解約』、『手続き』の関連度の更新をすることができる。
これにより、『解約の質問』は、キーワード『口座』、『解約』、『手続き』との関連度が増し、そのキーワードを含む音声データに対して、『解約の質問』を主題として推定する確率を高めることができる。
よって、当該処理により、音声データ主題推定装置１は、ユーザ３００からの質問に対して、主題を正しく推定する精度を上げることができる。

また、音声データ主題推定装置１を含むＣＴサーバ１０１に、オペレータ端末１０２を介して新たな主題と概要データを入力するとき、入力部６には、キーボードやマウス等を使ってもよいし、オペレータ１０５の操作ログを用いてもよい。

入力部６にオペレータ１０５の操作ログを用いる場合を示す。
オペレータ端末１０２のモニタに表示されるすべての画面には、１画面につき１つのタイトルと、１つ以上の語彙が付与されている。
これにより、オペレータ１０５が、顧客との対話中に最も長い時間表示した画面に付与されたタイトルを、入力部６に入力された主題（入力主題）とすることができる。
そして、オペレータ１０５が、顧客との対話中に表示した全画面に付与された語彙を、第２の実施形態の音声データ主題推定装置１ａのとき、概要キーワード抽出部１３が抽出した語彙（概要キーワード）とすることができる。そして、オペレータ１０５の操作ログを用いて、主題判定部８ａは入力主題、主題ＤＢ新規登録部１４は概要キーワードを取得することができる。
また、オペレータ１０５の操作ログを用いることで、各抽出キーワードの関連度を、対話中に画面に表示された合計時間に応じて決めることができる。
例えば、表示時間が、３０秒未満であれば“０”、３０秒以上１分未満であれば“１”、１分以上５分未満であれば“２”、５分以上であれば“３”等である。そして、Ｓ１１４（図３）の処理の際に、主題ＤＢ更新部１２は、これらの関連度の数値を、主題Ａに係るキーワードＢの関連度に加えることができる。
前記するように、入力手段にオペレータの操作ログを用いることで、オペレータが入力装置を用いて、主題を入力することなく、主題データベース２の更新を行うことができる。

本発明は、主題推定装置の使用期間が長くなっても、データベースに対して、キーワードの追加、主題とキーワードの関連度を変更、あるいは主題とキーワードの新規登録ができるため、音声データに対して最適な主題を推定するためのデータベースを提供することができる。

主題データベースの更新が頻繁に行われる、新たな機能を頻繁に追加するシステムや、データの更新が頻繁に行われるシステムに対して、本発明を用いることで、次のような効果が得られる。

以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。
例えば、ＰＢＸ（電話交換機）に音声データ主題推定装置１を備えることで、電話の質問内容をシステムが自動で認識できる。そのため、質問内容とその質問に回答できる部署や人を関連付けたデータベースを追加して備えることで、発信者の電話の質問内容に応じて、質問を回答できる部署や人に電話を転送するシステムを作ることができる。これにより、発信者は、たらい回しにされることから解放される。

例えば、ＡＴＭ（自動現金預払機）に音声データ主題推定装置１を備えることで、操作者が、ＡＴＭに取り付けられたマイクに向かって発話するだけで、所望する処理をシステムが自動で認識することができるため、ＡＴＭのタッチパネルを操作して、所望する処理が完了するまで、画面をタッチし続けるという煩わしい操作から解放される。

本発明の第１の実施形態である音声データ主題推定装置の構成図である。本発明の第１の実施形態である音声データ主題推定装置の処理手順を示すフローチャートである（処理前半）。本発明の第１の実施形態である音声データ主題推定装置の処理手順を示すフローチャートである（処理後半）。主題データベースと入力データの一例である。音声データの主題を推定する処理手順を示すフローチャートである。本発明の第２の実施形態である音声データ主題推定装置の構成図である。本発明の第２の実施形態である音声データ主題推定装置の処理手順を示すフローチャートである。本発明の実施形態に係る音声データ主題推定装置を、銀行のコールセンタに用いた構成図である。

符号の説明

１音声データ主題推定装置
２主題データベース
３用語データベース
４データ記憶部
５音声認識部
６入力部
７主題推定部
８主題判定部
９キーワード抽出部
１０判定部
１１主題ＤＢ登録部
１２主題ＤＢ更新部
１３概要キーワード抽出部
１４主題ＤＢ新規登録部
１００コールセンタ
１０１ＣＴサーバ
１０２オペレータ端末
１０３電話
１０４ＬＡＮ
１０５オペレータ
２００公衆回線網
３００ユーザ

Claims

音声データを音声認識して、抽出したキーワードから前記音声データの主題を推定する音声データ主題推定装置であって、
前記音声データが記憶されたデータ記憶部と、
前記音声データを音声認識して、音声認識データを生成する音声認識部と、
辞書に掲載される語彙を格納する用語データベースと、
前記音声認識データの文字列と、前記用語データベースに格納された前記語彙とが一致するキーワードを抽出するキーワード抽出部と、
データの主題と、前記主題に係るキーワードと、前記主題と前記キーワードとの関係が数値化された関連度とが格納された主題データベースと、
前記主題データベースを参照して、前記キーワード抽出部が抽出した抽出キーワードとの関連度が最も大きい主題を推定主題とする主題推定部と、
前記主題データベースを参照して、前記推定主題に係るキーワードを取得し、この取得した主題キーワードと、前記抽出キーワードとが一致するか否かを判定する判定部と、
前記判定部により不一致と判定された不一致キーワードを、前記推定主題に係るキーワードとして、前記主題データベースに登録する主題ＤＢ登録部と、
前記判定部により一致すると判定された前記主題キーワードの関連度を更新する主題ＤＢ更新部と、
を備えることを特徴とする音声データ主題推定装置。
前記主題推定部は、
入力主題が入力される入力部と、
前記入力主題と前記推定主題とが一致するか否かを判定し、一致した主題を推定主題とする主題判定部と、
を備えることを特徴とする請求項１に記載の音声データ主題推定装置。
前記主題データベースには、前記主題判定部にて前記入力主題と前記推定主題とが一致した履歴の総数であるサンプル数が格納され、
前記主題判定部は、判定結果が一致した場合に、前記主題データベースを参照して、前記推定主題に係るサンプル数に１を加え、
前記主題推定部は、前記音声認識データの文字列と、前記主題データベースに格納されたキーワードとが一致するキーワードを抽出し、抽出したキーワードに係る主題と、その主題のサンプル数と、を取得し、前記主題に係るキーワードの関連度を合算して、さらに前記主題のサンプル数で除した平均関連度が最も大きい主題を推定主題とすることを特徴とする請求項２に記載の音声データ主題推定装置。
前記主題判定部は、さらに、前記主題データベースを参照して、前記推定主題と前記主題データベースに登録済みの主題とが一致するか否かを判定し、
一致しない場合に、前記用語データベースを参照して、前記入力部から入力される概要データの文字列と、前記用語データベースに格納された前記語彙とが一致するキーワードを抽出する概要キーワード抽出部と、
前記推定主題と、前記概要キーワード抽出部が抽出した概要キーワードとを前記主題データベースに登録する主題ＤＢ新規登録部と、
を備えることを特徴とする請求項２または請求項３に記載の音声データ主題推定装置。
請求項１乃至請求項４の何れか１項に記載の音声データ主題推定装置を設けたことを特徴とするコールセンタ。