JP6073649B2

JP6073649B2 - 音声自動認識・音声変換システム

Info

Publication number: JP6073649B2
Application number: JP2012245779A
Authority: JP
Inventors: 聡岩垣
Original assignee: Hitachi Systems Ltd
Current assignee: Hitachi Systems Ltd
Priority date: 2012-11-07
Filing date: 2012-11-07
Publication date: 2017-02-01
Anticipated expiration: 2032-11-07
Also published as: JP2014095753A

Description

本発明は、音声自動認識・音声変換システムに関する。例えばコールセンタに提供して好適な音声自動認識・音声変換システムに関する。

本技術分野の背景技術として、特開２００５−１２８３３号公報（特許文献１）や特開２０１１−９９０２号公報（特許文献２）がある。

前者の公報には、「音声応答により利用者との対話形式で処理を行う音声応答サービス装置において、前記利用者の属性を記憶する属性記憶部と、前記属性記憶部に記憶された利用者の属性情報に基づいて、利用者に応答する音声の音質を変更する利用者音質変更部とを備え、テレフォンサービスの利用者の性別や年齢区分などの属性や相手の操作環境に合わせて、音質を変更することにより快適性の高いサービスを提供する音声応答サービス装置。」と記載されている（要約参照）。

また、後者の公報には、「店舗に対する顧客からの電話の音声を取得する第１音声取得手段と、前記第１音声取得手段により取得した音声から感情を認識する感情認識手段と、前記感情認識手段により認識した感情の種別が、「怒り」および「興奮」の少なくとも一方を表すか否かに基づいて、音声内容が苦情か否かを判別する苦情判別手段と、前記苦情の対応を行う担当者の連絡先を記憶する連絡先記憶手段と、前記苦情判別手段により、前記音声内容が苦情であると判別した場合、前記連絡先記憶手段に記憶されている連絡先へ通知を行う第１通知手段と、顧客からの苦情を自動で判別し、適切な応対者に通知することができる顧客対応装置を提供する顧客対応装置。」と記載されている（要約参照）。

特開２００５−１２８３３号公報特開２０１１−９９０２号公報

前記特許文献１には、テレフォンサービスの利用者の性別や年齢区分などの属性や相手の操作環境に合わせて、音量と音速度を変更、例えば利用者がプッシュボタンの入力誤りをしたときに音量を上げ、音速度を遅くする音声応答サービス装置が記載されている。しかし、特許文献１の音声応答サービス装置は事前に登録されたナレーションの音声変換を行うテレフォンサービスにおいては有効であるが、リアルタイムで複雑なサポート対応が必要とされる担当者の会話音声を変換するような、例えばコールセンタでは利用できない。

また、前記特許文献２には、電話対応中の顧客の電話音声から感情を認識し、苦情を自動で判別し、声紋を分析し、お客の年齢、性別に適したクレーム処理担当者を割り当てる顧客対応装置が記載されている。しかし、担当者を割り当てた後の対応については特に考慮されていない。

つまり、各特許文献には、会話中に顧客（相手）の感情等の変化が感じ取れた場合、会話中の担当者（顧客対応者）音声を顧客の感情等の変化に対応した適当と思われる音声にリアルタイムで変更し、顧客のストレスを低減させようとすることまでは考慮されていない。

そこで、本発明は、会話時の顧客の感情状態に応じて、顧客対応担当者の音声をリアルタイムで変更し、顧客のストレスを低減させることが可能な音声自動認識・音声変換システムを提供する。

上記課題を解決するために、本発明は、電話対応開始後における会話中の顧客の音声から感情変化が感じ取れた場合、当該顧客の感情変化に対応して、担当者音声をリアルタイムで変更する音声変換チューニング（音声変換の再構築）を行う音声変換手段を有する。

音声通信手段を介して通話相手と音声による会話を行うサービス提供システムに用いられる音声自動認識・音声変換システムであって、
前記音声自動認識・音声変換システムは、
前記通話相手の入力音声の声紋を認識する機能を有する声紋認識手段と、
前記入力音声から前記通話相手の感情を認識する機能を有する感情認識手段と、
前記通話相手の声紋、年齢、性別を示す顧客情報を蓄積する顧客ＤＢと、
前記通話相手に対応する担当者の音声パラメータを蓄積する担当者ＤＢと、
年齢、性別、感情に対応する音声パラメータを蓄積する音声ＤＢと、
前記声紋認識手段の声紋認識及び前記感情認識手段の感情認識の分析結果を受け、前記担当者ＤＢの音声パラメータと前記音声ＤＢのパラメータの差分を算出し、当該差分を出力する音声分析手段と、
前記音声分析手段により抽出された前記差分を受け、当該差分に基に前記担当者の音声を変換し、前記通信手段に出力する音声変換手段と、
を有し、
前記通話相手と前記担当者間の通話状態において、前記感情認識手段が、前記通話相手の感情変化を検知し、前記音声分析手段が、前記音声ＤＢの音声パラメータと前記担当者の音声パラメータとの差分を算出したとき、前記音声変換手段は、当該差分に基づき前記担当者の音声をリアルタイムで変換する
ことを特徴とする音声自動認識・音声変換システム。

前記音声自動認識・音声変換システムであって、
前記サービス提供システムがコールセンタからなり、当該コールセンタは、前記音声分析手段の分析結果を表示する表示手段を有する
ことを特徴とする音声自動認識・音声変換システム。

前記音声自動認識・音声変換システムであって、
前記音声自動認識・音声変換システムは、
更に、前記通話相手の入力音声から聞き直しに関連するキーワードを認識するキーワード認識手段を有し、
前記キーワード認識手段が前記キーワードを認識し、前記音声分析手段が、前記キーワードを検知したとき、前記音声変換手段は、前記キーワードに応じた各属性のパラメータ値を変更し、当該パラメータに従い、前記担当者の音声の音量、及び／又は速度を変換する
ことを特徴とする音声自動認識・音声変換システム。

本発明によれば、お客様（顧客）の感情に応じた担当者音声をリアルタイムで生成することができ、その結果として顧客のストレスを低減させることが可能な音声自動認識・音声変換システムを提供することができる。

本発明の音声自動認識・音声変換システムを利用したサービス提供装置（コールセンタ装置）に適用したときの全体構成を示す構成図である。音声自動認識・音声変換システムの処理を説明するフローチャートである。顧客とコールセンタ間の音声の流れ、及びコールセンタ側での概略処理例を示す図である。音声自動認識・音声変換システムが感情変化を検知した場合のチューニングの例を示す図である。音声自動認識・音声変換システムが聞き直しのキーワードを検知した場合のチューニングの例を示す図である。

以下、実施例を、図面を用いて説明する。
コンタクトセンタ又はコールセンタ受付システム（以下、コールセンタと言う）、電話対応の良し悪しが、対象の製品、サービス、会社自体の印象に大きく左右する。従って、お客様（以下、顧客と言う）に分かり易く、かつストレスを与えることがないような音声対応が要求される。
しかし、電話対応は、担当者により、ばらつきがあるのが現状である。電話対応が悪いだけで、製品、サービス、会社自体の印象も悪くなり、大きな損失を抱えるリスクある。

本実施例では、係るコールセンタにおける上述したリスクを軽減する例について説明する。

図１は、本発明の音声自動認識・音声変換システムをコールセンタ装置に適用したときの全体構成を示す構成図である。

コールセンタ１００は、通信部（通信手段）１１０、表示部（表示手段）１２０、音声自動認識・音声変換システム１３０、を有する。

通信手段１１０は、顧客側の電話等の通信端末（通信手段）２００との間で音声の送受信を行う。受信した顧客の音声（入力音声）は、表示手段１２０及び音声自動認識・音声変換システム１３０に供給する。

音声自動認識・音声変換システム１３０は、声紋認識部（声紋認識手段）１３０１、感情認識部（感情認識手段）１３０２、キーワード認識部（キーワード認識手段）１３０３、音声分析部（音声分析手段）１３０４、音声変換部（音声変換手段）１３０５、顧客ＤＢ１３０６、担当者ＤＢ１３０７、音声ＤＢ１３０８、を有する。

声紋認識手段１３０１は、通信手段１１０からの電話音声（入力音声）を受け、当該音声の声紋を認識する。この声紋認識から、年齢、性別、注意点（履歴がある場合）を判別する。
この声紋認識は、例えば、顧客ＤＢ１３０６に登録された声紋と照合して行う。顧客ＤＢ１３０６に登録されていない場合には、声紋認識手段１３０１において、入力音声の声紋から年齢、性別等を判定し、その結果を顧客ＤＢ１３０６に登録する。

感情認識手段１３０２は、入力音声の音色（声色）から、対象顧客の「喜怒哀楽」等の感情を判別する。

キーワード認識手段１３０３は、顧客の音声の中から、キーワードとなる音声、例えば聞き直しに関連する「声が小さい」などのキーワードを検出する。

音声分析手段１３０４は、声紋認識手段１３０１による年齢、性別を示すデータや感情認識手段１３０２による感情を示すデータを基に音声ＤＢ１３０８や担当者ＤＢ１３０７を検索する。
そして、当該音声ＤＢから、顧客（相手）の聞き取り易い音声情報（音量、音声速度、音程、音質等の音声パラメータ）を抽出する。

また、音声分析手段１３０４は、当該担当者ＤＢ１３０７から、担当者の音声情報（音量、音声速度、音程、音質等の音声パラメータ）を抽出する。また、キーワード認識手段１３０３が、例えば顧客から「声が小さい」、「聞き取れない」等のキーワードを検知した場合、それに対応した音声情報（音量、音声速度等の音声パラメータ）を当該音声ＤＢ１３０８から、抽出する。

要するに音声分析手段１３０４は、対象顧客の状態、年齢、性別等に合わせ、顧客が聞き取り易い音量、音声速度、音程、音質に変換可能な音声情報（属性のパラメータ）を抽出し、その分析結果は、表示装置１２０に表示する。

音声変換手段１３０５は、担当者の音声（出力音声）を、音声分析手段１３０４による音声分析情報を基に顧客（相手）が聞き取り易い音声（音量、音声速度、音程、音質）に変換する。また、会話中で聞き直す仕草や「声が小さい」、「早口」などの会話内容から「音量を上げる」、「音声速度を遅くする」等の音声変換のチューニングをリアルタイムで実施する。
換言すれば、音声分析手段からの属性のパラメータ値に従い、顧客２０の状態に応じた音声のチューニングを行う。この変換音声は、通信手段１１０を介して顧客側の通信手段２００に送信する。

顧客ＤＢ１３０６は、顧客（お客様）の個人情報のほか、声紋、声紋から判別される年齢、性別等を示す情報を蓄積する。

担当者ＤＢ１３０７は、各担当者の音声パラメータ、担当者Ａとして、例えば「音量：５０、音声速度：７０．音程２０、音質：−４０」等のパラメータ、担当者Ｂとして、「音量：３０、音声速度：３０．音程７０、音質：＋２０」等のパラメータを蓄積する。

音声ＤＢ１３０８は、年齢、性別、感情に対応する音声パラメータ、例えば「年齢５０才、性別：男性、感情：平常」の場合には、「音量：６５、音声速度：４５、音程：６０、音質：＋３０」、「年齢２０才、性別：女性、感情：怒」の場合には、「音量：４５、音声速度：５５、音程：４０、音質：＋１０」等のように顧客にとって最良（聞くのに適している）と思われる音声となるようなパラメータの組合せを蓄積する。

図２は、本発明の音声自動認識・音声変換システムにおける処理フローを示す図である。

同図において、電話対応および音声変換、変更内容の更新などについて説明する。
まず、ステップＳ１３００１において、事前に音声変換元の担当者の音声パラメータを担当者ＤＢ１３０７に登録する。

次に、ステップＳ１３００２において、お客様（以下、顧客と言う）２０側の通信手段２００からの音声３１をサービス提供事業者側１００の通信手段１１０で受信する。

このとき、音声自動認識・音声変換システム１００は、以下のステップによる処理を実行する。
声紋認識手段１３０１は、ステップＳ１３００３において、顧客２０の音声３１から、声紋、声色の情報を取得する。

また、声紋認識手段１３０１は、ステップＳ１３００４において、顧客ＤＢ１３０６の声紋を検索し、ステップＳ１３０５において、当該声紋に一致する声紋が顧客ＤＢ１３０６に登録済みか否かを判定する。つまり、顧客の音声３１が顧客ＤＢ１３０６に登録されている既存ユーザか否かを判定する。

その判定結果、顧客ＤＢ１３０６に登録されていない場合（Ｎｏ）には、声紋認識手段１３０１は、ステップＳ１３００６において、当該声紋から年齢、性別を判定し、ステップＳ１３００７において、当該判定結果を顧客ＤＢ１３０６に登録する。

判定結果、声紋が顧客ＤＢ１３０６に登録されている場合（Ｙｅｓ）には、声紋認識手段１３０１は、ステップＳ１３００８において、顧客ＤＢ１３０６から個人（顧客）を特定し、年齢、性別、注意点等を抽出する。

次に、感情認識手段１３０２は、ステップＳ１３００９において、声色から顧客の感情、つまり「喜怒哀楽」を判定する。

音声分析手段１３０４は、ステップＳ１３０１０において、年齢、性別、感情のデータを基に音声ＤＢ１３０８を検索し、次いでステップＳ１３０１１において、当該音声ＤＢから相手の年齢、性別、感情に応じた最適と思われる音声パラメータを抽出する。また、ステップＳ１３０１２において、担当者ＤＢ１３０７から、担当者の音声パラメータ（音量、音声速度、音程、音質等の情報）を抽出する。

また、音声分析手段１３０４は、ステップＳ１３０１３において、担当者１０の音声パラメータと最適な音声パラメータとの差分を取り、当該差分（変更値）を抽出する。

音声変換手段１３０５は、ステップＳ１３０１４において、音声分析手段１３０４から受取った属性のパラメータ値に従い担当者１０の音声を変換する。

次に、通信手段１１０は、ステップＳ１３０１５において、音声変換手段１３０５により変換した変換音声３３を顧客２０側の通信手段２００に送信する。
また、ステップＳ１３０１６において、顧客２０の年齢、性別、感情、注意点（履歴がある場合）などの情報を表示手段１２０に表示する。

以上のステップを実行している状態において、感情認識手段１３０２は、ステップＳ１３０１７において、顧客２０との会話中から、顧客の感情変化を監視する。また、ステップＳ１３０８において、感情変化があるか否かを判定する。

その監視結果、感情認識がある場合（Ｙｅｓ）には、ステップＳ１３０１９において、感情変化を検出し、注意すべき点を表示手段１２０に表示する。例えば、顧客２０が平常状態から突然怒りだした怒り状態に変化した場合、その旨を示すメッセージを表示手段１２０に表示し、担当者１０に対して顧客対応に注意を払うことように喚起する。

また、この場合には、感情認識手段１３０２は、ステップＳ１３０２０において、年齢、性別、変化した感情を元に音声ＤＢ１３０８を再検索し、再度この感情変化状態における最適と思われる音声パラメータを抽出する。

また、音声分析手段１３０４は、ステップＳ１３０２１において、担当者の音声パラメータと最適な音声パラメータとの差分を取り、当該差分（変更値）を抽出する。

また、音声変換手段１３０５は、ステップＳ１３０２２において、音声分析手段１３０４から受取った属性のパラメータ値に従い、担当者１０の音声を変換する。この変換音声３３は、ステップＳ１３０２３において、通信手段１１０を介して顧客２０側の通信手段２００に送信する。

また、音声分析手段１３０４は、この変更内容をステップＳ１３０２４において、顧客ＤＢ１３０６に反映する。

ステップＳ１３０１８において、感情変化がない場合には、次段のキーワード認識手段１３０３により、ステップＳ１３０２５において、会話中のキーワードを監視する。また、ステップＳ１３０２６において、聞き直すキーワードがあるか否かを判定する。

その判定の結果、聞き直すキーワードがある場合（Ｙｅｓ）には、キーワード認識手段１３０３は、ステップＳ１３０２７において、聞き直すキーワードを検出し、注意すべき点、例えば、声が小さいならば、その旨を表示手段１２０に表示する。

また、音声分析手段１３０４は、ステップＳ１３０２８において、キーワード認識手段１３０３により抽出したキーワードに応じた各属性のパラメータ値を変更する。
例えば、担当者１０の声が小さい場合には、音量を上げる（＋１０）。また、早口である場合には、音声速度を下げる（−１５）等のチューニングを行う。

また、音声変換手段１３０５は、ステップＳ１３０２９において、音声分析手段１３０４から受取った属性のパラメータ値に従い、担当者１０の音声を変換する。

この変換音声３３は、ステップＳ１３０３０において、通信手段１１０を介して顧客２０側の通信手段２００に送信する。

また、音声分析手段１３０４は、この変更内容をステップＳ１３０３１において、顧客ＤＢ１３０６に反映する。

最後に、ステップＳ１３０３２において、電話対応が終了したか否かを判定し、終了していない場合（Ｎｏ）には、ステップ１３０１７に戻る。
電話対応が終了した場合（Ｙｅｓ）には、ステップＳ１３０３３において、電話対応を終了、つまり電話を切る。次いで、ステップＳ１３０３４において、顧客ＤＢ１３０６を更新し、履歴追加を行う。

図３〜図５は、お客様（顧客端末）と担当者（コールセンタ）との音声による通信（やり取り）の一例を模式的に示す図である。

まず、感情変化前の状態について図３を用いて説明する。図３は、サービス提供事業者側（コールセンタ）１００がお客様に提供した運用管理ソフトウェアに関して問題があり、顧客からコールセンタに連絡が入ったことを想定したときの担当者による対応を摸式的に示す図である。
お客様から電話により、製品に関する問合せがあったとき、音声自動認識・音声変換システム１３０は、このときのお客様の音声、例えば「もしもし〜」等の音声の声紋が顧客ＤＢ１３０６に登録されている場合には、その情報を参照して認識する。またお客様の音声から感情認識も行う。

これらの認識結果は、例えばコールセンタ側の表示装置１２０のＰＣモニターに表示する。本例では、「Ｘ商事ＹＹ様契約：Ｊソフトウェア年齢：５０、性別：男性、感情：正常」を示している。このモニターは、コールセンタ側の担当者が見られるようにする。

次に、これらの情報を基に、つまり「Ｘ商事ＹＹ様契約：Ｊソフトウェア年齢：５０、性別：男性、感情：正常」に最適値であると思われる「音量：６５、音声速度：４５、音程：６０：音質：３０」のパラメータを音声ＤＢ１３０８から抽出する。また、担当者の担当者値である「担当者Ａ音量：５０、音声速度：７０、音程：２０、音質：４０」のパラメータを担当者ＤＢ１３０７から抽出する。

そして、これらのパレメータの差分を計算する。本例では、「音量：＋１５、音声速度：−２５、音質：＋４０、音質＋７０」となる。この差分を基に担当者Ａの音声を、顧客に対して適した音声となるように変換を行う。お客様とは、この音声変換された音声により、例えば「Ｘ商事のＹＹさんですね。いつもありがとうございます。Ｊソフトウェアのお問合せでしょうか？」等の音声により応対する。

次に、顧客の感情変化を検知した場合について図４を用いて説明する。図４は、感情認識が、例えば、入力音声の音量が通常より３％上がり、音程が通常より５％高くなった場合を想定した例である。
以上のような両者の会話において、お客様の音声から感情の変化、例えば「平常」から「怒り」が感じられた場合には、当該お客様の感情状態「怒り」に応じて、音声ＤＢ１３０８から、「音量：５５、音声速度：３５、音程：４０：音質：＋１０」のパラメータを抽出し、担当者Ａのパラメータとの差分「音量：＋５、音声速度：−３５、音程：＋２０：音質：＋５０」を計算する。そして、この差分を基に担当者Ａの音声を、音声変換の再構築（チューニング）を行う。本例によれば、きめ細かな音声変換のチューニングも可能である。
なお、感情認識の判定方法としては、単純な判定方式を採用してもよい。

次に、聞き直し等の場合について図５を参照して説明する。
お客様が「聞き取れなかったので、もう１度お願いします。少しお声が小さいのですが。」等の音声の場合には、キーワード認識機能により、つまり「声が小さい」の音声を検出し、担当者Ａの音量を、例えば「音量：＋１０」とする。

このときのお客様の感情変化やキーワード音声は、ＰＣモニターに表示し、担当者Ａが、その様子をＰＣモニターから察知できるようにする。

上述した実施例によれば、以下のような効果を期待することができる。
（１）
お客様（顧客）の年齢、性別、感情に応じた最適な音声（音量、音声速度、音程、音質）で会話することができ、電話対応の印象を向上させることができる（製品、サービス、会社自体の印象向上が期待できる）。また、ストレスのない電話対応により、電話対応のトラブル（クレーム）を低減させることができる。
（２）
全ての担当者が上記の対応が可能となり、担当者の対応ばらつきを是正することができる。
（３）
人の耳では判別できないようなお客様の感情変化を適確に検知することができ、音声変換のチューニングを施すと共に担当者への慎重な対応意識を上げることができる。
（４）
年配者ハンディキャップを有するお客様に対しても、担当者の音声を最適な音声に変換して聞かせることができるため、お客様にストレスを与えないサービスを提供することができる。
（５）
また、付随的効果として、声紋で個人を特定することが可能なため、当該個人に関する情報をモニターすることにより、例えばサポートサービスにおいて、契約確認が容易になると共にお客様側に契約確認の手間が軽減できる。例えば、担当者は、「○○社の××さんですね。いつもありがとうございます。△△製品のお問合せでしょうか？」等の応答ができ、お客様から「よく分かったね〜。契約確認が楽で助かるよ」等の返答が期待できる。
（６）
また、付随効果として、声紋で個人を特定することが可能なため、契約情報を不正に取得してサービスを利用する、所謂「なりすまし」を防止することができる。

なお、本発明は上記した実施例限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。
また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

本発明は、コールセンタに特定することなく、音声による顧客対応システムであれば適用可能である。

１００サービス提供システム（コールセンタ）
１１０通信手段（コールセンタ側）
１２０表示手段
１３０音声自動認識・音声変換システム
１３０１声紋認識手段
１３０２感情認識手段
１３０３キーワード認識手段
１３０４音声分析手段
１３０５音声変換手段
１３０６顧客ＤＢ
１３０７担当者ＤＢ
１３０８音声ＤＢ
２００通信手段（顧客側）

Claims

音声通信手段を介して通話相手と音声による会話を行うサービス提供システムに用いられる音声自動認識・音声変換システムであって、
前記音声自動認識・音声変換システムは、
前記通話相手の入力音声の声紋を認識する機能を有する声紋認識手段と、
前記入力音声から前記通話相手の感情を認識する機能を有する感情認識手段と、
前記通話相手の声紋、年齢、性別を示す顧客情報を蓄積する顧客ＤＢと、
前記通話相手に対応する担当者の音声パラメータを蓄積する担当者ＤＢと、
年齢、性別、感情に対応する音声パラメータを蓄積する音声ＤＢと、
前記声紋認識手段の声紋認識及び前記感情認識手段の感情認識の分析結果を受け、前記担当者ＤＢの音声パラメータと前記音声ＤＢのパラメータの差分を算出し、当該差分を出力する音声分析手段と、
前記音声分析手段により抽出された前記差分を受け、当該差分に基に前記担当者の音声を変換し、前記通信手段に出力する音声変換手段と、
を有し、
前記通話相手と前記担当者間の通話状態において、前記感情認識手段が、前記通話相手の感情変化を検知し、前記音声分析手段が、前記音声ＤＢの音声パラメータと前記担当者の音声パラメータとの差分を算出したとき、前記音声変換手段は、当該差分に基づき前記担当者の音声をリアルタイムで変換する
ことを特徴とする音声自動認識・音声変換システム。
請求項１に記載の音声自動認識・音声変換システムであって、
前記サービス提供システムがコールセンタからなり、当該コールセンタは、前記音声分析手段の分析結果を表示する表示手段を有する
ことを特徴とする音声自動認識・音声変換システム。
請求項１又は請求項２に記載の音声自動認識・音声変換システムであって、
前記音声自動認識・音声変換システムは、
更に、前記通話相手の入力音声から聞き直しに関連するキーワードを認識するキーワード認識手段を有し、
前記キーワード認識手段が前記キーワードを認識し、前記音声分析手段が、前記キーワードを検知したとき、前記音声変換手段は、前記キーワードに応じた各属性のパラメータ値を変更し、当該パラメータに従い、前記担当者の音声の音量、及び／又は速度を変換する
ことを特徴とする音声自動認識・音声変換システム。