JP2005062240A

JP2005062240A - 音声応答システム

Info

Publication number: JP2005062240A
Application number: JP2003207456A
Authority: JP
Inventors: Toshihiro Ide; 敏博井手; Hiroshi Sugitani; 浩杉谷; Hideo Ueno; 英雄上野; Yayoi Nakamura; やよい中村; Shingo Suzumori; 信吾鈴森; Koji Yamamoto; 幸二山本; Taku Yoshida; 卓吉田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-08-13
Filing date: 2003-08-13
Publication date: 2005-03-10

Abstract

【課題】利用者の置かれている状況から生まれる利用者の求める応対を提供する。
【解決手段】利用者に対して音声応答サービスを提供する音声応答システムであって、利用者音声から音声情報を生成する音声入力部と、利用者が置かれている現在の状況を特定する状況特定部と、利用者の現在の感情を推測する感情分析部と、前記音声入力部により生成された音声情報に対して音声認識処理を実行する音声認識部と、利用者が置かれている状況ごとに、利用者の感情と応対パターンとを対応付けた個人特性情報を含む利用者特性情報が格納される格納部と、前記状況特定部により特定された利用者が置かれている現在の状況と前記感情分析部により推測された利用者の現在の感情とに対応する応対パターンを、前記個人特性情報から取得する応対パターン決定部と、前記応答パターン決定部により取得された応対パターンと前記音声認識部による認識結果とに対応する発話文を取得する応答処理部と、前記応答処理部により取得された発話文を読上げる音声出力部と、を備える。
【選択図】図６

Description

【０００１】
【発明の属する技術分野】
本発明は、音声を利用した音声応答サービス分野に関する。
【０００２】
【従来の技術】
近年、様々な分野で音声応答サービスが利用されている。このサービスは、音声認識技術を備えたシステムと利用者が対話を行うことで、システムが利用者に対して様々なサービスを提供する（例えば図２６参照）。具体的には、デジタルデバイド世代向けに、キーボードやマウスを利用することなく、音声で簡単に操作できるパソコン、利用者がパソコンや電話から音声を用いてアクセスし、サービスを受けることができるボイスポータル等がある。
【０００３】
一般に、音声応答サービスは、システムが持つシナリオに沿って提供される。
システムは、利用者から発声された音声を認識し、その認識結果とシナリオを照らし合わせ、次の発話文を生成または選択し、応答する。
【０００４】
また近年では、利用者の音声入力の状態から感情を分析し、その分析結果に応じて、応答を変化させることが可能である（特許文献１参照）。
【０００５】
また、利用者のシステム使用頻度による対話進行の変更や、利用者の個人情報を持つことで、利用者の対話進行に関する好みに合わせることが可能である対話制御方法が開示されている（特許文献２参照）。
【０００６】
【特許文献１】
特開平１０−５５１９４号公報
【特許文献２】
特開２００２−９９４０４号公報
【０００７】
【発明が解決しようとする課題】
しかしながら、利用者のシステム使用頻度と個人情報だけを用いて、音声応答を変更する場合は、常に変化する利用者の置かれている状況（利用場所、利用手段、利用時間等）を把握していないため、利用者の置かれている状況から生まれる利用者の求める応対を柔軟に提供することができないという問題がある。即ち、適切な応対を行うためには、利用者の感情を把握することだけでは難しく、また、利用者のシステム使用頻度や個人情報だけを用いても難しい。
【０００８】
また、従来技術では、利用者の音声入力に注目し、音声入力の状態（利用者の声のピッチ、音量）のみから、その利用者の感情を推測し、応答を決定している。それゆえ、例えば、元々早口な人がゆっくり話す場合と、元々ゆっくり話す人が早口で話す場合と、普通の人が通常の速度で話す場合を区別できない。この場合、元々早口な人はくつろいでいると推測するのが、元々ゆっくり話す人は焦っていると推測するのが、それぞれ妥当であると思われる。これらの違いを考慮しないと、間違った状態を把握してしまうということに繋がり、利用者に対して不適当な応答をする可能性があるという問題がある。
【０００９】
本発明の第１の課題は、利用者の置かれている状況から生まれる利用者の求める応対を提供することにある。本発明の第２の課題は、利用者の特性を考慮して、利用者に対して適切な応答をすることにある。
【００１０】
【課題を解決するための手段】
本発明は、上記課題を解決するために、利用者に対して音声応答サービスを提供するシステムであって、利用者音声から音声情報を生成する音声入力部と、利用者が置かれている現在の状況を特定する状況特定部と、利用者の現在の感情を推測する感情分析部と、前記音声入力部により生成された音声情報に対して音声認識処理を実行する音声認識部と、利用者が置かれている状況ごとに、利用者の感情と応対パターンとを対応付けた個人特性情報を含む利用者特性情報が格納される格納部と、前記状況特定部により特定された利用者が置かれている現在の状況と前記感情分析部により推測された利用者の現在の感情とに対応する応対パターンを、前記個人特性情報から取得する応対パターン決定部と、前記応答パターン決定部により取得された応対パターンと前記音声認識部による認識結果とに対応する発話文を取得する応答処理部と、前記応答処理部により取得された発話文を読上げる音声出力部と、を備える構成とした。
【００１１】
本発明によれば、音声出力部により読み上げられる発話文は、応対パターン（利用者が置かれている現在の状況と利用者の現在の感情とにより定まる。）と音声認識部による認識結果により定まる。従って、本発明によれば、利用者の置かれている状況から生まれる利用者の求める応対を提供することが可能となる。
【００１２】
例えば、利用者の置かれている現在の状況が「自宅」の場合は、その利用者は「ゆっくりと落ち着いた応答サービス」を望み、利用者の置かれている現在の状況が「会社」の場合は、その利用者は「淡々とスピーディな応答サービス」を望むという利用者の求める応答サービスに応じることが可能となる。なお、利用者の置かれている現在の状況については、例えば、発信番号を用いることで、又は音声応答サービスの初期の段階で利用者から聞き出すことで、特定（把握）できる。
【００１３】
上記音声応答システムにおいては、例えば、前記利用者の感情と応対パターンとの対応関係を更新する更新部をさらに備える。
【００１４】
このようにすれば、利用者に対する次回の音声応答サービスをより最適化することが可能となる。例えば、音声応答サービスの開始から終了までの間の利用者の応答履歴に基づいて両者の対応関係を更新することが考えられる。
【００１５】
上記音声応答システムにおいては、例えば、前記感情分析部は、予め格納されている個人音声特性情報を用いて比較分析を行うことにより、利用者の現在の感情を推測する。
【００１６】
このようにすれば、利用者の個人音声特性（音量レベルや音声ピッチ等の音声特性）を考慮して、利用者の感情を把握することが可能となるため、利用者に対してより適切な応答をすることが可能となる。
【００１７】
上記音声応答システムにおいては、例えば、前記利用者特性情報、前記音声入力部により生成された音声情報、及び前記音声応答サービス開始から終了までの間の利用者の応答履歴に基づいて利用者特性情報を追加及び更新する利用者分析部をさらに備える。
【００１８】
このようにすれば、利用者に対する次回の音声応答サービスをより最適化することが可能となる。
【００１９】
上記音声応答システムにおいては、例えば、前記応答履歴は、前記音声応答サービスによる音声出力と利用者の音声入力の開始終了のタイミング情報を含み、利用者特性情報は、その利用者の過去に音声応答サービスを利用した際の音声応答サービスによる音声出力と利用者の音声入力の開始終了のタイミング情報を含む。
【００２０】
このようにすれば、利用者に対する次回の音声応答サービスをより最適化することが可能となる。
【００２１】
また、本発明は次のように特定することができる。
【００２２】
利用者に対して音声応答サービスを提供する音声応答システムが、利用者の音声情報から推測される利用者の感情に応じた応対を行う音声応答サービスを提供する方法であって、利用者の置かれている状況、利用者の話し方、前記音声応答サービスの開始から終了までの間の利用者の感情の変化を含む応答履歴から推測される利用者特性情報、及びその利用者特性情報に基づいて得られる利用者の置かれている状況を考慮した感情情報をもとに、利用者に対する応答の順序や応答内容を変更する音声応答サービス提供方法。
【００２３】
このようにすれば、利用者の置かれている状況とその時の利用者の感情に応じて臨機応変に柔軟に応対することができる。
【００２４】
また、本発明は次のように特定することができる。
【００２５】
利用者に対して音声応答サービスを提供する音声応答システムであって、利用者の音声から音声情報を生成する音声入力部と、利用者の利用者特性情報を推測し利用者特性情報を生成する利用者分析部と、利用者の感情を推測し感情情報を生成する感情分析部と、発話文の作成に必要な文章が蓄積されているシナリオ蓄積部と、音声情報から利用者の言葉を識別し、前記利用者特性情報と前記感情情報をもとに、前記シナリオ蓄積部から発話文を作成する応答処理部と、前記発話文を読上げる音声出力部と、を備える音声応答システム。
【００２６】
このようにすれば、利用者の置かれている状況とその時の利用者の感情に応じて、応答の順序や応答内容を変更することができる。
【００２７】
【発明の実施の形態】
以下、本発明の実施形態である音声応答システムについて説明する。
【００２８】
（音声応答システムの原理）
【００２９】
図１〜図４は、本実施形態の音声応答システムの原理を説明するための図である。
【００３０】
（音声応答システムの概略システム構成）
【００３１】
図１に示すように、音声応答システム１０は、音声入力部１１０、音声出力部１２０、応答処理部１３０、利用者認証部１４０、感情分析部１５０、利用者分析部１６０、シナリオ蓄積部４１０、応答履歴格納部４２０、利用者特性情報格納部４３０等を備えている。
【００３２】
（音声応答システムの概略動作）
【００３３】
本実施形態の音声応答システムの動作について、図２、図３、及び図４を参照しながら説明する。
【００３４】
図２は、本実施形態の音声応答システムの動作を説明するためのフローチャートである。図３は、本実施形態の音声応答システムの動作原理図である。これは、データの流れも示している。図４は、利用者分析部の動作を説明するためのフローチャートである。
【００３５】
＜利用者認証（Ｓ１００）＞
【００３６】
利用者認証部１４０は、本システムの利用者とその利用者が置かれている状況を特定する。この特定は、例えば、利用者が電話によって本システムにアクセスした場合には、発信番号通知機能、音声認証技術等、その他利用者を特定できる方法を用いることによって実現可能である。特定された内容は利用者情報として応答処理部１３０へ渡される。
＜利用者特性情報設定（Ｓ１１０）＞
【００３７】
応答処理部１３０は、利用者情報をもとに、利用者特性情報格納部４３０から、利用者が置かれている状況に対応する利用者の個人特性情報を取得する。また、応答処理部１３０は、利用者情報を感情分析部１５０へ渡す。
【００３８】
感情分析部１５０は、応答処理部１３０から渡された利用者情報をもとに、利用者特性情報格納部４３０から、利用者の置かれている状況に対応する利用者の個人音声特性情報を取得する。
＜音声入力（Ｓ１２０）＞
【００３９】
音声入力部１１０は、利用者音声から音声情報を生成し、これを応答処理部１３０と感情分析部１５０に渡す。
【００４０】
＜感情分析（Ｓ１３０）＞
【００４１】
感情分析部１５０は、利用者特性情報格納部４３０から取得された個人音声特性情報を用いて、音声入力部１１０から渡された音声情報から抽出した音声特性情報と比較分析する。これにより、利用者の置かれている状況が考慮され、感情が推測され、感情情報作成される。その感情情報は、応答処理部１３０へ渡される
【００４２】
＜音声認識（Ｓ１４０）＞
【００４３】
応答処理部１３０は、音声入力部１１０から渡された音声情報に対する音声認識処理を実行する。即ち、利用者から発話された言葉の識別を行う。これにより、音声認識処理の結果（識別情報）が取得される。
【００４４】
＜発話文作成（Ｓ１５０）＞
【００４５】
応答処理部１３０は、感情分析部１５０から渡された感情情報、利用者特性情報格納部４３０から取得された個人特性情報、及び利用者の音声情報から取得された識別情報をもとに、シナリオ蓄積部４１０から最適な応答の順序で、最適な応答内容の発話文を選択する。この選択された発話文は音声出力部１２０へ渡される。
【００４６】
＜音声出力（Ｓ１６０）＞
【００４７】
音声出力部１２０は、応答処理部１３０から渡された発話文を、音声合成技術による読み上げ等の利用者にメッセージを伝える何らかの方法によって、利用者へ通知される。
【００４８】
なお、音声入力（Ｓ１２０）から音声出力（Ｓ１６０）までの処理は、音声応答サービスが終了するまで繰り返される。
【００４９】
＜応答履歴登録（Ｓ１８０）＞
【００５０】
利用者と音声応答システム１０の音声応答サービスが終了すると（Ｓ１７０：Ｙｅｓ）、応答処理部１３０は、利用者の置かれている状況（利用場所、利用時間、利用手段等）、利用者の話し方（音量情報、ピッチ情報、発話タイミング情報等）、及びその音声応答間の利用者の感情の変化を含む応答履歴情報を、応答履歴格納部４２０へ渡す（格納する）。
【００５１】
＜利用者分析（Ｓ１９０）＞
【００５２】
図４に示すように、利用者分析部１６０は、応答履歴格納部４２０に応答履歴情報が渡されると、その応答履歴情報を取得する（Ｓ２００）。また、利用者分析部１６０は、利用者特性情報の要求を行い（Ｓ２１０）、その利用者の利用者特性情報があれば（Ｓ２２０：Ｙｅｓ）、利用者特性情報格納部４３０からその利用者の利用者特性情報を取得する（Ｓ２３０）。そして、それらの情報をもとに、その利用者の利用者特性情報が再び分析（又は推測）され（Ｓ２４０）、作成される（Ｓ２５０）。
【００５３】
一方、利用者分析部１６０は、その利用者の利用者特性情報が無い場合は（Ｓ２６０）、一般的な利用者特性情報を取得する（Ｓ２６０）。そして、その利用者の利用者特性情報が新規に作成される。
【００５４】
＜利用者特性情報登録（Ｓ２００）＞
【００５５】
利用者分析部１６０は、上記Ｓ２５０で作成した利用者特性情報を、利用者特性情報格納部４３０へ渡す。これにより、利用者特性情報が追加又は更新される（Ｓ２６０）。なお、ここで作成された利用者特性情報は、利用者の次回の音声応答サービス利用時に用いられる。
【００５６】
以上説明したように、本実施形態においては、利用者の置かれている状況とその時の利用者の感情に応じて、応答の順序や応答内容を変更することができる。
従って、臨機応変に柔軟にすることができる音声応答サービスを行うことが可能となる。
【００５７】
（実施例）
【００５８】
以下、本発明を、ホテル予約用の音声応答システムに適用した例について説明する。
【００５９】
（音声応答システムの概要）
【００６０】
図５は、ホテル予約用の音声応答システム（以下単に音声応答システムという）の概略システム構成を説明するための図である。
【００６１】
音声応答システム１０は、公衆電話網４０に接続されており、電話機３０から利用者の着呼があった場合に、その利用者に対して、ホテル予約のための音声応答サービス（ガイダンス音声の読み上げ等）を行う。
【００６２】
この音声応答サービスは、利用者が置かれている現在の状況と利用者の現在の感情を考慮して行われる。この音声応答サービスを行うため、音声応答システム１０は、後述する利用者特性情報格納部４３０等を備える。
【００６３】
また、同一利用者に対する次回の音声応答サービスをより最適化するため、利用者特性情報格納部４３０の格納内容が更新される。
【００６４】
（音声応答システムの概略システム構成）
【００６５】
図６に示すように、音声応答システム１０は、音声入力部１１０、音声出力部１２０、応答処理部１３０、利用者認証部１４０、感情分析部１５０、利用者分析部１６０、シナリオ蓄積部４１０、応答履歴格納部４２０、利用者特性情報格納部４３０等を備えている。
【００６６】
音声入力部１１０は、電話機３０を介して入力される利用者音声（利用者が発した音声）から音声情報を生成するためのものである。
【００６７】
音声出力部１２０は、応答処理部１３０により取得（選択又は生成等）された発話文（応答文）等を、既存の音声合成技術により読み上げるためのものである。音声出力部１２０により読み上げられた発話文は、電話機３０を介して利用者に報知される。
【００６８】
応答処理部１３０は、図７に示す各種の処理の実行等を行うためのものである。
【００６９】
利用者認証部１４０は、電話機３０から利用者の発呼があった場合に、その利用者とその利用者が置かれている状況を特定（又は認証）するためのものである。これらの認証は、例えば発信者番号通知機能により通知される発信者番号と利用者データベースとを照合することで特定することが考えられる。
【００７０】
感情分析部１５０は、利用者の現在の感情を推測するためのものである。
【００７１】
利用者分析部１６０は、利用者特性情報、音声入力部１２０により生成された音声情報、及び音声応答サービス開始から終了までの間の利用者の応答履歴に基づいて利用者特性情報を追加及び更新するためのものである。
【００７２】
シナリオ蓄積部４１０には、音声応答システム１０のサービスの流れと発話文（シナリオ）が、シナリオの流れと利用者の感情ごとに作成されて蓄積されている。なお、シナリオは、利用者の感情ごとのテーブルとして蓄積されていてもよい。
【００７３】
応答履歴格納部４２０は、音声応答サービスの開始から終了までの間、利用者の応答履歴を格納するためのものである。応答履歴としては、利用者が置かれている状況（利用場所、利用時間、利用手段等）、利用者の話し方（音量情報、ピッチ情報、発話タイミング情報等）、その音声応答間の利用者の感情の変化、音声応答システム１０の音声出力と利用者の音声入力の開始終了のタイミング情報等がある。
【００７４】
利用者特性情報格納部４３０は、利用者が置かれている状況ごとに、利用者の感情と応対パターンとを対応付けた個人特性情報を含む利用者特性情報（図１０）を格納するためのものである。
【００７５】
（音声応答システムの動作）
【００７６】
上記構成の音声応答システムの動作について、図面を参照しながら説明する。
図７は、本実施例の音声応答システムの動作を説明するためのフローチャートである。
【００７７】
＜サービススタート（Ｓ３００）＞
【００７８】
音声応答システム１０は、電話機３０から利用者Ａの着呼があった場合に、以下のホテル予約のための音声応答サービスを開始する。
【００７９】
＜利用者認証（Ｓ３０１）＞
【００８０】
音声応答システム１０は、電話機３０から利用者Ａの着呼があると、利用者認証部１４０により、その利用者Ａとその利用者Ａが置かれている状況を特定（認識）する。特定結果は、利用者情報として応答処理部１３０へ渡される（図６▲１▼）。
【００８１】
ここでは、利用者等の認証のために、音声応答システム１０は、音声出力部１２０により、「ご利用ありがとうございます。こちらは、ホテル予約システムです。お名前よろしいですか？」を読み上げる。この読み上げられた発話文は、電話機３０を介して利用者Ａに報知される。これに対して、利用者Ａが「利用者Ａです。」と応えると、音声応答システム１０は、音声認識処理を実行すること等により、「利用者Ａ」という利用者名を特定（又は認識）する。また、音声応答システム１０は、その利用者Ａが置かれている現在の状況を特定（又は認識）する。この特定は、例えば、発信者電話番号と利用者データベース（電話番号と、利用手段及び利用場所等とを対応付けたもの）とを照合等することにより行う。
ここでは、利用者Ａが置かれている現在の状況として、「固定電話」という利用手段、「会社」という利用場所（電話がかけられている場所）が特定（又は認識）されたものとする。
【００８２】
利用者認証部１４０は、これらの特定結果（「利用者Ａ」、「会社」、「固定電話」）を、利用者情報（図８）として応答処理部１３０へ渡す（図６▲１▼）。
【００８３】
＜利用者特性情報設定（Ｓ３０２）＞
【００８４】
応答処理部１３０は、利用者情報をもとに、利用者特性情報格納部４３０（図９）から、その利用者Ａが置かれている現在の状況（「会社」、「固定電話」）に対応する個人特性情報（図１０）を取得する（図６▲２▼）。この個人特性情報は、自己のメモリ等の所定記憶部に格納（又は設定）される。
【００８５】
また、応答処理部１３０は、利用者情報を感情分析部１５０へ渡す（図６▲３▼）。感情分析部１５０は、応答処理部１３０から渡された利用者情報をもとに、利用者特性情報格納部４３０から、その利用者Ａが置かれている現在の状況（「会社」、「固定電話」）に対応する個人音声特性情報（図１１）を取得する（図６▲４▼）。この個人音声特性情報は、自己のメモリ等の所定記憶部に格納（又は設定）される。
【００８６】
＜音声入力（Ｓ３０３）＞
【００８７】
利用者Ａが発話を開始すると、音声応答システム１０は、音声入力部１１０により、電話機３０を介して入力される利用者Ａの音声から音声情報（図１２）を作成する。この音声情報は、応答処理部１３０と感情分析部１５０に渡される（図６▲５▼▲６▼）。
【００８８】
＜感情分析（Ｓ３０４）＞
【００８９】
感情分析部１５０は、音声入力部１１０から渡された音声情報から抽出した音声特性情報（図１３）から、「音量レベル：６」、「音声ピッチ：８」を抽出する。
【００９０】
次に、感情分析部１５０は、利用者Ａの現在の感情を推測する。この推測のために、利用者Ａの個人音声特性情報（図１１）と、利用者Ａの現在の音声特性情報（「音量レベル：６」、「音声ピッチ：８」）とを比較分析する。利用者Ａの個人音声特性情報（図１２）を参照すると、利用者Ａの現在の音声特性情報（「音量レベル：６」、「音声ピッチ：８」）にはいずれも「普通」が対応している。従って、感情分析部１５０は、利用者Ａの現在の感情が「普通」と推定（又は分析）する。
【００９１】
また、感情分析部１５０は、利用者Ａの現在の応答特性を推測する。この推測のために、音声応答システム１０の発話時間帯と利用者Ａの発話時間帯とが重なっているか否かを判定する。ここで、利用者Ａの音声情報（図１２）を参照すると、音声応答システム１０の発話時間帯と利用者Ａの発話時間帯とが重なっていない。従って、感情分析部１５０は、利用者Ａの応答特性が「普通」と推定（又は分析）する。
【００９２】
以上のように推定（又は分析）された結果（「現在の感情：普通」、「応答特性：普通」）は、感情情報（図１４）として応答処理部１３０へ渡される（図６▲７▼）。
【００９３】
＜音声認識＞
【００９４】
応答処理部１３０は、音声入力部１１０から渡された音声情報に対して音声認識処理を実行する。ここでは、応答処理部１３０は、音声認識の結果、利用者Ａから発話された言葉の識別が行われ、識別情報「９月３０日にホテル音田を予約したい」（図１５）を取得したものとする。
【００９５】
＜発話文作成＞
【００９６】
応答処理部１３０は、感情分析部１５０から渡された感情情報「現在の感情：普通」と音声認識の結果「識別情報：９月３０日にホテル音田を予約したい」をもとに、シナリオ蓄積部４１０から、今のシナリオの流れに合う（ここでは、ステップ３−１）感情が普通のシナリオ（図１６）を選択する。
【００９７】
次に、応答処理部１３０は、利用者Ａが置かれている現在の状況（「会社」、「固定電話」）に対応する個人特性情報から、利用者Ａの現在の感情（「普通」）に対応する応対パターンを取得する。
【００９８】
ここで、利用者Ａが置かれている現在の状況（「会社」、「固定電話」）に対応する個人特性情報（これは図６▲２▼で取得され、自己のメモリ等に格納されている。図１０参照。）を参照すると、利用者Ａの現在の感情（「普通」）に対応する応対パターンは「普通の対応」である。
【００９９】
従って、応答処理部１３０は、利用者Ａの現在の感情（「普通」）に対応する応答パターンとして「普通の対応」を取得する。
【０１００】
このため、応答処理部１３０は、最終的に、上記選択したシナリオ（図１６）から、応答パターン「普通の対応」に対応する「申し訳ございません。満室です。ホテルを条件から検索しますか？」を取得（選択）する。この発話文は音声出力部１２０へ渡される。
【０１０１】
一方、上記感情分析（Ｓ３０４）において、図１７に示すように、音声応答システム１０の発話時間帯と利用者Ａの発話時間帯とが重なっていたとする。この場合、感情分析部１５０は、利用者Ａの応答特性が「せっかち」と推定（又は分析）する。利用者Ａの応答特性が「せっかち」と推定（又は分析）された場合には、応答処理部１３０は、応答パターン「普通の対応」とは無関係に、最終的に、上記選択したシナリオ（図１６）から、応対パターン「スピーディな応対」に対応する「申し訳ございません。ありませんでした。お急ぎですか？」を選択する（図１８）。
【０１０２】
＜音声出力（Ｓ３０７）＞
【０１０３】
音声出力部１２０は、応答処理部１３０から渡された発話文を、音声合成技術により読み上げる。この読み上げられた発話文は、電話機３０を介して利用者Ａに報知（通知）される。
【０１０４】
また、上記音声入力（Ｓ３０３）から音声出力（Ｓ３０７）までの処理は、音声応答サービスが終了するまで繰り返される。
【０１０５】
＜応答履歴登録（Ｓ３０９）＞
【０１０６】
利用者Ａに対する音声応答システム１０の音声応答サービスが終了すると、応答処理部１３０は、利用者Ａが置かれている状況（利用場所、利用時間、利用手段等）、利用者の話し方（音量情報、ピッチ情報、発話タイミング情報等）、その音声応答間の利用者の感情の変化、音声応答システム１０の音声出力と利用者Ａの音声入力の開始終了のタイミング情報を含んだ応答履歴情報（図１９）を応答履歴格納部４２０へ渡す。
【０１０７】
＜利用者分析（Ｓ３１０）＞
【０１０８】
利用者分析部１６０は、応答履歴格納部４２０に応答履歴情報が渡されると、その応答履歴情報を取得する。また、利用者分析部１６０は、利用者特性情報格納部４３０から、その利用者Ａの利用者特性情報があれば、これを（図９）取得する。
【０１０９】
次に、利用者分析部１６０は、その利用者Ａの利用者特性情報を更新する。この更新のために、利用者分析部１６０は、応答履歴情報と利用者特性情報とを比較分析する。利用者Ａの応答履歴情報（図１９）を参照すると、利用者Ａの感情は最初、普通であったが、音声応答サービスの最後で、嫌悪となっている。これは、音声応答サービス中に利用者Ａを不機嫌とするなんらかの原因があったと推測できる。また、音声出力と音声入力のタイミングを比較すると、音声応答サービスの開始から終了まで、音声出力中に、音声入力を行っていることが分かる。
これは、利用者Ａは、音声出力のメッセージが長かったことが原因で、嫌悪感を感じたと考えられる。つまり、感情が「普通」である時、この利用者Ａの求める応対パターンは、「スピーディな応対」であるということが分かる（後述のルール２）。
【０１１０】
従って、利用者分析部１６０は、利用者Ａの利用者特性情報（図１０）における応対パターン「普通の応対」を、「スピーディな応対」に修正（再作成）する（図２０）。
【０１１１】
一方、利用者分析部１６０は、利用者特性情報格納部４３０にその利用者Ａの利用者特性情報が無い場合は、一般的な利用者特性情報（図２１）を取得し、上記と同様に修正を行い、その利用者Ａの利用者特性情報を新規に作成する。
【０１１２】
図２２は、利用者分析部１６０が分析に用いるテーブルの例を示している。これは、「ＩＦ〜ＴＨＥＮ」形式のルールを集めた知識ベースとなっている。同図は、３つのルールを例示する。なお、＃で始まる行はコメントである。
【０１１３】
ルール１は、新規利用者に対して適用されるルールである。即ち、利用回数が０の場合（上記説明では、利用者特性情報格納部４３０に利用者Ａの利用者特性情報が無い場合）、音量レベル等の各種パラメータを設定する。
【０１１４】
ルール２は、利用者の感情が「通常」から「嫌悪」に変化し、利用者が音声出力中に応答し、かつ、応答パターンが「普通の応対」である場合は、応答パターン「普通の対応」を「スピーディな応対」に修正する。これについては、既に説明した。
【０１１５】
ルール３は、ルール２とは逆の修正を行うためのルールである。即ち、感情の変化がなく、利用者が音声出力中に応答せず、かつ、応答パターンが「普通の応対」である場合は、応答パターン「普通の応対」を「丁寧な応対」に修正する。
【０１１６】
＜利用者特性情報登録（Ｓ３１１）＞
【０１１７】
利用者分析部１６０は、上記Ｓ３１０で作成された利用者特性情報を、利用者特性情報格納部４３０に追加又は更新する。この追加又は更新された利用者特性情報は、利用者の次回の音声応答サービス利用時に用いられる。
【０１１８】
つまり、利用者Ａが置かれている状況が次回も「会社」、「固定電話」で、かつ、利用者Ａの感情が「普通」であった場合は、修正後の応対パターン「スピーディな応対」にて、応対が行われることになる。
【０１１９】
これにより、同一利用者Ａに対する次回の音声応答サービスをより最適化することが可能となる。
【０１２０】
また、音声応答システム１０による音声応答サービスを、利用者Ａが置かれている現在の状況と利用者Ａの現在の感情を考慮して行うことが可能となる。
なお、本実施例で説明した利用者特性情報（図９）は一例であり、これに代えて、例えば、図２３に示すように規定された利用者特性情報を用いてもよい。この利用者特性情報には、音声レベルや音声ピッチが幅（例えば０〜４や０〜７）により規定されている。このため、より適切に利用者の感情を推測することが可能になる。
なお、図２２の利用者特性情報を用いた場合、この利用者特性情報は、例えば、図２４に示すように修正（再作成）される。また、この場合、一般的な利用者特性情報として、例えば、図２５に示すものが用いられる。
【０１２１】
本発明は、その精神または主要な特徴から逸脱することなく、他の様々な形で実施することができる。このため、上記の実施形態は、あらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。
【０１２２】
本発明は、次のように特定することもできる。
（付記１）利用者に対して音声応答サービスを提供する音声応答システムであって、利用者音声から音声情報を生成する音声入力部と、利用者が置かれている現在の状況を特定する状況特定部と、利用者の現在の感情を推測する感情分析部と、前記音声入力部により生成された音声情報に対して音声認識処理を実行する音声認識部と、利用者が置かれている状況ごとに、利用者の感情と応対パターンとを対応付けた個人特性情報を含む利用者特性情報が格納される格納部と、前記状況特定部により特定された利用者が置かれている現在の状況と前記感情分析部により推測された利用者の現在の感情とに対応する応対パターンを、前記個人特性情報から取得する応対パターン決定部と、前記応答パターン決定部により取得された応対パターンと前記音声認識部による認識結果とに対応する発話文を取得する応答処理部と、前記応答処理部により取得された発話文を読上げる音声出力部と、を備える音声応答システム。
（付記２）前記利用者の感情と応対パターンとの対応関係を更新する更新部をさらに備える付記１に記載の音声応答システム。
（付記３）前記感情分析部は、予め格納されている個人音声特性情報を用いて比較分析を行うことにより、利用者の現在の感情を推測する付記１に記載の音声応答システム。
（付記４）前記利用者特性情報、前記音声入力部により生成された音声情報、及び前記音声応答サービス開始から終了までの間の利用者の応答履歴に基づいて利用者特性情報を追加及び更新する利用者分析部をさらに備える付記３に記載の音声応答システム。
（付記５）前記応答履歴は、前記音声応答サービスによる音声出力と利用者の音声入力の開始終了のタイミング情報を含み、利用者特性情報は、その利用者の過去に音声応答サービスを利用した際の音声応答サービスによる音声出力と利用者の音声入力の開始終了のタイミング情報を含む付記４に記載の音声応答システム。
（付記６）利用者に対して音声応答サービスを提供する音声応答システムによる音声応答方法であって、利用者音声から音声情報を生成するステップと、利用者が置かれている現在の状況を特定するステップと、利用者の現在の感情を推測するステップと、前記生成された音声情報に対して音声認識処理を実行するステップと、前記特定された利用者が置かれている現在の状況と前記推測された利用者の現在の感情とに対応する応対パターンを、利用者が置かれている状況ごとに利用者の感情と応対パターンとを対応付けた個人特性情報から取得するステップと、前記取得された応対パターンと前記音声認識結果とに対応する発話文を取得するステップと、前記取得された発話文を読み上げるステップと、を備える音声応答方法。
（付記７）利用者に対して音声応答サービスを提供する音声応答システムが、利用者の音声情報から推測される利用者の感情に応じた応対を行う音声応答サービスを提供する方法であって、利用者の置かれている状況、利用者の話し方、前記音声応答サービスの開始から終了までの間の利用者の感情の変化を含む応答履歴から推測される利用者特性情報、及びその利用者特性情報に基づいて得られる利用者の置かれている状況を考慮した感情情報をもとに、利用者に対する応答の順序や応答内容を変更する音声応答サービス提供方法。
（付記８）利用者に対して音声応答サービスを提供する音声応答システムであって、利用者の音声から音声情報を生成する音声入力部と、利用者の利用者特性情報を推測し利用者特性情報を生成する利用者分析部と、利用者の感情を推測し感情情報を生成する感情分析部と、発話文の作成に必要な文章が蓄積されているシナリオ蓄積部と、音声情報から利用者の言葉を識別し、前記利用者特性情報と前記感情情報をもとに、前記シナリオ蓄積部から発話文を作成する応答処理部と、前記発話文を読上げる音声出力部と、を備える音声応答システム。
【０１２３】
【発明の効果】
以上説明したように、本発明によれば、利用者の特性情報及び特性情報を加味して得られる感情情報に応じた応対が可能となるため、以下のような効果がある。
【０１２４】
第１に、利用者の置かれている状況を把握し、その利用者の置かれた状況に応じた臨機応変な応対をすることが可能となる。第２に、利用者の話し方に影響されずに利用者の感情を把握し、その感情に応じた臨機応変な応対をすることが可能となる。
【０１２５】
また、利用者の置かれている状況とその時の利用者の感情に応じた臨機応変な応対をすることが可能となる。また、利用者の置かれている状況による利用者特性の変化を踏まえることにより、利用者の感情をより正確に推測することができる。さらに、利用者にとって気の利いた音声応答サービスを提供することができる。
これらはサービスの顧客満足度の向上に繋がり、リピータの獲得、サービス利用者（顧客）の増加にも繋がる。
【図面の簡単な説明】
【図１】本実施形態の音声応答システムの原理を説明するための図である。
【図２】本実施形態の音声応答システムの動作を説明するためのフローチャートである。
【図３】本実施形態の音声応答システムの動作原理図である。
【図４】利用者分析部の動作を説明するためのフローチャートである。
【図５】ホテル予約用の音声応答システムの概略システム構成を説明するための図である。
【図６】ホテル予約用の音声応答システムの概略システム構成を説明するための図である。
【図７】ホテル予約用の音声応答システムの動作を説明するためのフローチャートである。
【図８】利用者情報の例である。
【図９】利用者特性情報の例である。
【図１０】個人特性情報の例である。
【図１１】個人音声特性情報の例である。
【図１２】音声情報の例である。
【図１３】音声特性情報の例である。
【図１４】感情情報の例である。
【図１５】識別情報の例である。
【図１６】シナリオの例である。
【図１７】音声情報の例である。
【図１８】発話文の例である。
【図１９】応答履歴情報の例である。
【図２０】再作成された利用者特性情報の例である。
【図２１】一般的な利用者特性情報の例である。
【図２２】利用者分析部が分析に用いるテーブルの例である。
【図２３】利用者特性情報の他の例である。
【図２４】再作成された利用者特性情報の他の例である。
【図２５】一般的な利用者特性情報の他の例である。
【図２６】従来技術を説明するための図である。
【符号の説明】
１０音声応答システム
３０電話機
４０公衆網
１１０音声入力部
１２０音声出力部
１３０応答処理部
１４０利用者認証部
１５０感情分析部
１６０利用者分析部
４１０シナリオ蓄積部
４２０応答履歴格納部
４３０利用者特性情報格納部

Claims

利用者に対して音声応答サービスを提供する音声応答システムであって、
利用者音声から音声情報を生成する音声入力部と、
利用者が置かれている現在の状況を特定する状況特定部と、
利用者の現在の感情を推測する感情分析部と、
前記音声入力部により生成された音声情報に対して音声認識処理を実行する音声認識部と、
利用者が置かれている状況ごとに、利用者の感情と応対パターンとを対応付けた個人特性情報を含む利用者特性情報が格納される格納部と、
前記状況特定部により特定された利用者が置かれている現在の状況と前記感情分析部により推測された利用者の現在の感情とに対応する応対パターンを、前記個人特性情報から取得する応対パターン決定部と、
前記応答パターン決定部により取得された応対パターンと前記音声認識部による認識結果とに対応する発話文を取得する応答処理部と、
前記応答処理部により取得された発話文を読上げる音声出力部と、を備える音声応答システム。
前記利用者の感情と応対パターンとの対応関係を更新する更新部をさらに備える請求項１に記載の音声応答システム。
前記感情分析部は、予め格納されている個人音声特性情報を用いて比較分析を行うことにより、利用者の現在の感情を推測する請求項１に記載の音声応答システム。
前記利用者特性情報、前記音声入力部により生成された音声情報、及び前記音声応答サービス開始から終了までの間の利用者の応答履歴に基づいて利用者特性情報を追加及び更新する利用者分析部をさらに備える請求項３に記載の音声応答システム。
前記応答履歴は、前記音声応答サービスによる音声出力と利用者の音声入力の開始終了のタイミング情報を含み、
前記利用者特性情報は、その利用者の過去に音声応答サービスを利用した際の音声応答サービスによる音声出力と利用者の音声入力の開始終了のタイミング情報を含む請求項４に記載の音声応答システム。