JP2017508188A

JP2017508188A - 適応型音声対話のための方法

Info

Publication number: JP2017508188A
Application number: JP2016566875A
Authority: JP
Inventors: クリシュナン，アカース; フェルナンデス，マシュー
Original assignee: Simple Emotion Inc
Current assignee: Simple Emotion Inc
Priority date: 2014-01-28
Filing date: 2015-01-28
Publication date: 2017-03-23
Also published as: US20150213800A1; US9549068B2; WO2015116678A1

Abstract

適応型音声対話のための方法は、サービスの受け手とサービス担当者の間の音声通信をモニタするステップと、音声通信に基づいて特徴のセットを測定するステップと、特徴のセットを分析して感情メトリック値を生成するステップと、を含む。【選択図】図１

Description

関連出願の相互参照
本出願は、２０１４年１月２８日出願の米国仮特許出願第６１／９３２，６９６号の利益を主張するものであり、当該出願はその全てが参照により援用されている。

本発明は概して、言語処理の分野に関するものであり、より具体的には、言語処理の分野における適応型音声対話のための新規かつ有用な方法に関するものである。

言語処理の分野は急成長している分野であって、多くの産業にわたって使用されている。現在の適応型音声対話法は多くの場合、相当な訓練と膨大な量の計算資源を必要とし、しばしば精度に問題を来している。このような課題に対処しうる言語処理の分野に係る新たな解決策を提供することは、適応型音声対話の適用例の多くを著しく改善すると共に、新たな用途をも可能にしうる。したがって、言語処理の分野において、適応型音声対話のための新規かつ有用な方法を作り出す必要がある。本発明は、このような方法を提供するものである。

図１は、好適な実施形態に係る一方法の流れ図である。図２は、サービス担当者に提示される感情モニタインタフェースの例示的な図である。図３は、好適な実施形態に係る一方法の第１の例示的使用の流れ図である。図４は、好適な実施形態に係る一方法の第２例示的使用の流れ図である。

本発明の好適な実施形態に係る以下の記載は、本発明をこのような好適な実施形態に限定することを意図するものではなく、むしろ、当該分野における当業者が本発明を行い、使用することができるようにすることを意図するものである。

図１に示すように、適応型音声対話のための方法１００は、音声通信をモニタするステップＳ１１０と、音声通信に基づいて応答を生成するステップＳ１２０と、を含んでいる。この方法１００は更に、事前の音声サンプルを受け取るステップＳ１３０、事前の音声サンプルの特徴を検出するステップＳ１４０、これらの特徴に応じてアクションを実行するステップＳ１５０、および／または音声通信データを収集するステップＳ１６０、を含みうる。

方法１００は、音声通信をモニタすることができるコンピュータシステムまたは電子デバイスによって実行されることが好ましい。例えば、この方法１００は、通話をルーティングしてモニタするコールセンターのサーバによって、スマートフォンの仮想アシスタントアプリによって、電話会議サービス用のクラウドのサーバによって、または音声通信を活用する他のインプリメンテーションによって実行することができる。コールセンターでは、方法１００を使用して、顧客（または、その他のサービスの受け手）とサービス担当者（ＳＲ）とを組み合わせる、メニューを通じて顧客のルーティングを支援する、または顧客とＳＲの双方に選択肢を与えてサービスの質を高めることができる。サービス担当者の例は、顧客サービス担当者、販売担当者、およびコールセンターの利用によってサービス業を行う、または支援するその他の人員である。さらに、この方法をコールセンターで使用してＳＲの査定および訓練に役立てて、サービスの品質と効率を高めることができる。スマートフォンの仮想アシスタントアプリでは、方法１００を使用して、ユーザが話した言葉だけでなく、検出された感情、学習パターン、音声サブテキスト、または他の特徴あるいは内容にも基づいてフィードバックを提供し、決定をすることができる。仮想アシスタントは、任意のコンピュータ対話型音声応答（ＩＶＲ）システムを含むことが好ましい。

音声通信をモニタするステップを含むステップＳ１１０は、音声通信の特徴および／または内容を追跡して分析する役割を果たす。この音声通信は、電話線による音声通信であることが好ましいが、代替的には、インターネット上、インターコムシステム上、ネイティブアプリケーションあるいはオペレーティングシステム内の音声通信、またはマイクロフォンあるいは他の手段を利用して音声通信をモニタできるその他の適切な種類の音声通信とすることができる。音声通信は、人間と自動コンピュータシステムとの間の通信であることが好ましいが、代替的には、人間、動物、およびコンピュータシステムの間の幾つかの組み合わせ間の通信とすることができる。音声通信のモニタリングは、リアルタイム（音声通信が発生しているとき）に行われることが好ましいが、代替的には、他のいかなるときにも行うことができる。例えば、顧客とサービス担当者（ＳＲ）の会話は、その会話がリアルタイムで起きている時にモニタすることができる。代替的な例として、記録された二人の間の会話は、会話を記録した後のいかなる時にもモニタすることができる。モニタリングは、全ての利用可能な音声通信データについて行われることが好ましいが、代替的には、一部の利用可能な音声通信データについてのみ行うこともできる。利用可能な音声通信は、方法１００を実行するシステムが分析またはモニタリングのために利用可能な任意の音声通信であることが好ましい。例えば、顧客とＳＲの会話では、モニタリングは、顧客とＳＲによる双方の会話について行われることが好ましいが、代替的には、二人の当事者のうちの一人による会話についてのみ行うことができる。同様に、モニタリングは、電話会議の最中のように、三人以上について実行することもできる。モニタリングはさらに、音声通信が利用可能となる間は常に行われることが好ましいが、代替的には、音声通信がアクティブとなる時のみ行うこともできる。例えば、会話のモニタリングは、会話の全てに関して、またはその会話の一部のみに関して行うことができる。

モニタするステップは、音声通信の特徴を追跡するステップを含むことが好ましい。音声通信の特徴は、平均最小基本周波数、平均振幅、強度、テンポ、およびその他の適切な統計的特徴といった、統計的特徴を含むことが好ましい。音声通信の特徴はさらに、メル周波数ケプストラム係数（ＭＦＣＣ）を含むことが好ましい。音声通信の特徴は、代替的には、相対スペクトル変換（ＲＡＳＴＡ）特徴、知覚的線形予測（ＰＬＰ）特徴、ＲＡＳＴＡ−ＰＬＰ特徴、または音声通信を表すその他の特徴を含みうる。特徴は、音声通信からリアルタイムで抽出されることが好ましい。リアルタイムでのＭＦＣＣ特徴の抽出は、好適には米国特許出願公開第２０１１／０２９５６０７号に記載の方法によって可能であり、当該公報は参照によりその全てが援用される。特徴は、音声通信の時間にわたって繰り返し抽出されることが好ましい（例えば、最小基本周波数の特徴は、通信の１００ｍｓ毎に抽出される）。抽出された特徴は、抽出タイミングにリンクさせることが好ましい（例えば、特定の特徴が、会話の開始後６００ミリ秒と会話の開始後７００ミリ秒の間に発生したことが分かる）が、代替的には、抽出タイミングにリンクさせなくともよい。

モニタするステップは、代替的あるいは付加的に、音声通信の内容を追跡するステップを含むことができる。音声通信の内容は、未加工の内容（例えば、記録された音声通信の音声）と、派生的内容（例えば、音声通信の際に話された単語または音声通信の書き起し）を含むことが好ましい。派生的内容は、未加工の内容から生成したものであることが好ましいが、代替的には、音声通信の特徴あるいはその他の適切なソースから生成した内容とすることができる。派生的内容は、自動的に生成したものであることが好ましいが、代替的には、（人が音声の記録を書き起こした場合など）手動で生成することもできる。

モニタするステップは、モニタした全ての音声通信を保存するステップを含むことが好ましいが、代替的には、モニタした音声通信の一部のみを保存するステップ、あるいは全く保存しないステップを含むこともできる。保存するステップは、音声通信のデジタル記録をコンピュータ記憶装置に保存するステップを含むことが好ましいが、代替的には、他の保存方法を含むことができる。

モニタするステップは、音声通信の特徴を分析するステップを含むことが好ましい。特徴を分析するステップは、特徴と基準とを比較するステップと、この比較から結論を求めるステップと、を含むことが好ましい。代替的には、特徴を分析するステップは、複数の特徴と付加的な関連する情報の組み合わせから結論を求める任意の方法を含むことができる。モニタするステップはさらに、音声通信の内容を分析するステップを含むことが好ましい。内容を分析するステップは、内容と基準とを比較するステップと、この比較から結論を求めるステップと、を含むことが好ましい。代替的には、内容を分析するステップは、内容と付加的な関連する情報の組み合わせから結論を求める任意の方法を含むことができる。

基準は基準データベースに保存されることが好ましいが、代替的には、その他のいかなる方法でも保存することができる。基準は、比較される特徴または内容に関連するデータを含むことが好ましい。例えば、ＭＦＣＣ特徴に関する基準は、他のＭＦＣＣ特徴とすることができる。他の例としては、基本周波数に関する基準は基本周波数の範囲とすることができる。

基準は、他のデータとリンクさせることが好ましい。例えば、基準は、人口学的データあるいは識別データ（年齢、性別、文化等）、感情データ、行動に関連付けられたデータ、または他の適切なデータにリンクさせることができる。例えば、基本周波数の基準は、特定の感情にリンクされた周波数の範囲を含むことができる。第２の例として、内容の基準は、８０歳の話し手のサウンドクリップを含むことができる（すなわち、サウンドクリップを年齢にリンクさせる）。第３の例として、ＭＦＣＣの基準は、発信者が電話を切るであろう高い可能性にリンクさせることができる。基準は、複数の種類のデータにリンクさせることが好ましい。例えば、８０歳の話し手のサウンドクリップは、話し手の年齢だけでなく、話し手の性別や文化にもリンクさせることができる。基準は、一種類の基準であることが好ましい（例えば、１つの特徴または１つの内容のクリップ）が、代替的には、複数の種類の基準とすることができる。例えば、怒りにリンクされた基準は、ＭＦＣＣ特徴と統計的特徴の双方を含むことができる。特徴または内容と基準との比較は、幾つかの異なる方法で行うことができる。このような比較から結論を求めるステップもまた、幾つかの異なる方法で行うことができる。第１の例として、１つの特徴を単に１つの基準と比較してもよい。この比較から、この特徴がその基準とどの程度一致しているかを求めることができる（例えば、測定した特徴とその基準とが、算出すると８６％の類似性を有している）。ここから、この特徴がその基準にリンクされたデータに対応している程度といった、更なる結論を求めることができる（例えば、２０−３０歳の話し手の予想年齢範囲にリンクされた基準との類似性が８６％ということは、話し手がこの年齢範囲内であるということが９８％の可能性であることを示唆している）。第２の例として、１つの特徴を複数の基準と比較してもよい。第３の例として、複数の特徴を１つまたは複数の基準と比較してもよい。特徴および基準はタイミングにリンクさせることが好ましいが、代替的には、タイミングにリンクさせなくともよい。結論は、一連のルールを使用してこのような比較から得られることが好ましいが、代替的には、マシン学習アルゴリズム、ニューラルネットワーク、またはその他の適した方法を使用して得ることができる。一連のルールを使用して比較から結論を求める一例としては、特徴を様々な感情に関連付けた一連の基準と比較し、次いでその特徴に最も類似している基準にリンクされた感情を選択することによって、ある特徴を特定の感情と関連付けることができる。結論は特徴または内容から直接求められることが好ましいが、代替的には、間接的に求めることもできる。例えば、結論は、既に得られた情報のパターンまたは組み合わせから求めることができ、顧客の会話が男性であると特定され、その顧客の会話が最初は悲しみがあって、次に怒りがあると識別されると、その顧客は、電話を切る高い可能性にリンクさせることができる。電話を切るリスクに加えて、顧客をアトリション（ａｔｔｒｉｔｉｏｎ）リスクまたはアップセル成功率といった、その他の重要なメトリクスにリンクさせることができる。結論は、特徴、内容、得られた情報、および外部情報の組み合わせから求めることもできる。外部情報は、方法１００を作動するシステムに既知の情報であって、音声通信の一部ではない。例えば、外部情報は、いくつのボタンを顧客が押したか；どの程度の時間、顧客が待っているか；何度、顧客が過去に電話してきたか；または年齢あるいは住所といった顧客に関する既知の情報を含みうる。モニタリングの一部として求めた結論は、コンピュータシステムのメモリに保存されることが好ましいが、代替的には、他の方法で保存しても、または保存しなくともよい。

ステップＳ１１０によって求めた結論を利用して、音声通信に関与した人間の感情状態を評価することができる。一実施形態では、ステップＳ１１０は、音声通信に関与した人間（例えば、顧客、ＳＲ、仮想アシスタントのユーザ等）に関する感情メトリック値を生成するステップを含む。このような感情メトリック値は、人が経験しうる特定の感情の程度を表す。例えば、ＳＲは、図２に示すように、悲しみ、喜び、および怒りなどの感情に関する感情メトリック値を時間に対してプロットしたパネルにアクセスすることができる。

感情メトリック値は、複合的な比較から求められることが好ましい。例えば、ステップＳ１１０は、２Ｈｚの速度で感情メトリック値を生成するが、１０Ｈｚの速度で特徴の比較を行うステップを含みうる（例えば、生成されるそれぞれの感情の数値は、５つの特徴の比較に基づいている）。付加的あるいは代替的に、感情メトリック値は、１つの比較から求めることもできる（すなわち、感情メトリック値の生成速度と、特徴の比較速度は等しい）。

ステップＳ１１０によって求めた結論を利用して、より一般的な感情状態あるいは感情状態の点数を生成することもできる。例えば、人が主に怒りを経験している場合、その人の感情状態は、怒りとして表すことができる。他の例としては、図２に示すように、ＳＲを有用性にリンクされた感情状態の点数で概括的に評価することができ、これはＳＲが共感を示した程度に基づいて算出することができる。

音声通信に基づいて応答を生成するするステップを含むステップＳ１２０は、音声通信をモニタしている間に得られた情報に応答する役割を果たす。応答の生成は、方法１００を実行するコンピュータシステムによってなされることが好ましいが、代替的には、任意の適したシステムまたは手段によってすることができる。応答は、特定のイベント（例えば、トリガされるルールまたは特定時間の経過）に応じて生成されることが好ましいが、代替的には、手動で（例えば、ＳＲによって）生成することもできる。応答は一連のルールに応じて生成されることが好ましいが、代替的には、マシン学習アルゴリズム、ニューラルネットワーク、手動入力、またはその他の適切な方法に応じて生成することができる。応答は音声通信のモニタリングから求めた結論に基づいて生成されることが好ましいが、代替的には、他の入力に基づいて生成することができる。例えば、応答は、（音声通信から得られるような）発信者の感情、または音声通信からは生じない既知の人口学的情報（例えば、電話番号が人口学的情報にリンクされている場合）に基づいて生成することができる。応答は、音声通信に直接的に影響を与える活動であることが好ましいが、代替的には、任意の種類の応答とすることができる。例えば、コールセンターシステムによる顧客とＳＲの間の音声通信のモニタリングから、顧客は６０歳以上で、怒っている可能性が高いことを示す情報が得られた場合には、ＳＲは、この状況に対処するための助言に関連する、またはこの状況に対処するためのスクリプトを提示するポップアップウィンドウをコンピュータ上に受け取ることができる。第１の代替的な例として、ＳＲは、この顧客を高齢の顧客に対応するように特に訓練された別のＳＲに交換するという選択肢を受け取ることができる。第２の代替的な例として、コールセンターシステムは、自動的にこの顧客を別のＳＲへと転送することができる。他の例として、モニタリングから顧客が太い声を好むことを示す情報が得られた場合には、ＳＲの声を太く聞こえるように変化させることができる。方法１００をコールセンターで実行する場合には、応答は、ＳＲまたはその他のコールセンターの従業員に情報を表示するステップを含むことが好ましい。ＳＲが使用するグラフィカルユーザインターフェースは、使用されるアプリケーションまたはウェブサイトに情報を表示して、ＳＲの通信および／または対話を制御することが好ましい。情報を表示することを含む応答によって、その応答との対話が可能となることが好ましい。例えば、応答がＳＲへの情報の表示を含む場合、このＳＲはこの情報にコメントをする、または評価することができる。より具体的には、コールシステムが「顧客は怒っているようです。同意しますか？［ｙ／ｎ］」といったメッセージを表示した場合、ＳＲは、後の応答の生成、あるいは訓練の目的の何れかに利用することができる意見を提供することができる。他の例として、応答がＳＲへの情報の表示を含む場合、このＳＲは、その応答の後に手動で行動を起こすことができる。より具体的には、コールシステムは「顧客は怒っているようです。この通話をマネージャに転送しますか？［ｙ／ｎ］」といったメッセージを表示して、ＳＲがその電話を転送できるようにすることができる。同様に、この応答はメタデータを通話のセッション識別子に付随させることができ、これを利用して後の通話処理に影響を与えることができる。例えば、発信者が混乱していることを確認する応答がＳＲに提供されると、この電話セッションには、後の通話処理におけるより上級のＳＲに向けた基本設定を記録することができる。応答は音声通信の最中に行われることが好ましいが、他のいかなる時にも行うことができる。例えば、応答は、電話を切った発信者にテキストメッセージを送信することを含みうる。応答は、音声通話が発生したときに音声通話を修正する、影響を与える、あるいは通知するために使用されることが好ましいが、代替的に、他の目的に利用することができる。例えば、ＳＲには特に感情的な顧客を処理した後に休憩を与えることができる、または正の感情が常に検出されている堅実な通話の処理に対して、業績ポイントを累積させることができる。

事前の音声サンプルを受け取るステップを含むステップＳ１３０は、初期の音声サンプルをキャプチャする役割を果たす。事前の音声サンプルを受け取るステップは、音声通信の冒頭で行われることが好ましい。この受け取るステップは、他のタスクに組み込まれることが好ましい。例えば、コールセンターシステムは、発信者にそのアカウント番号を言うように要求することができる。この例では、初期の音声サンプルは、特徴（例えば、感情）および内容（例えば、実際のアカウント番号）の両方に関して後に処理される。代替的には、受け取るステップは、他のタスクとは分離することができる。コールセンターシステムは単に、内容を後で構文分析することなく、発信者に名前を言うように要求することができる。この例では、名前は実際には音声サンプルからは特定されず、この音声サンプルは単に特徴のために処理される。受け取るステップは初期の音声サンプルを録音するステップを含むことが好ましいが、代替的には、受け取った音声サンプルは記録されなくともよく、その代わりにリアルタイムで処理することもできる。

事前の音声サンプルの特徴を検出するステップを含むステップＳ１４０は、事前の音声サンプルの特徴を検出して、分析を行う役割を果たす。ステップＳ１４０の第１の任意のサブステップは、事前の音声サンプルの内容を検出するステップを含む。特徴を検出するステップは、統計的特徴、ＭＦＣＣ、またはその他の適した特徴といった特徴を検出するステップを含むことが好ましい。内容を検出するステップは、未加工の内容、ならびに派生的内容を検出するステップを含むことが好ましい。特徴および内容は、ステップＳ１１０と実質的に同様の方法で検出されることが好ましいが、代替的には、他の適切な方法で検出することができる。検出するステップは、検出された内容または特徴から情報を分析して抽出するステップを含むことが好ましい。情報を分析して抽出するステップは、ステップＳ１１０に記載された分析して抽出するステップと実質的に同様のステップであることが好ましい。

特徴に応じてアクションを実行するステップを含むステップＳ１５０は、任意の検出した特徴または内容に応答する役割を果たす。アクションを実行するステップは、ステップＳ１２０と実質的に同様であることが好ましい。ステップＳ１５０は音声通信を調整するために使用されることが好ましいが、代替的には、他の適切な目的のために使用することができる。例えば、検出した特徴を利用して、発信者を特殊な方法で通話システムを通してルーティングさせることができる。より具体的な例として、発信者から英語を話すコールセンターへの初期の音声サンプルが、発信者がネイティブスピーカーではないことを示すことがある。これに応じて、発信者をバイリンガルのＳＲと組み合わせることができる。

音声通信データを収集するステップを含むステップＳ１６０は、後に使用する音声通信上のデータを収集して分析する役割を果たす。音声通信データは、ステップＳ１１０において得られた情報を含むことが好ましい。音声通信データはさらに、音声通信に関連する任意のその他のデータを含むことが好ましい。例えば、音声通信データは、電話が終了した後の顧客の電話に関する評価を含みうる。音声通信データはさらに、好適にはＳＲまたは他の発信者によって記録されるような、その通話または顧客を描写する定性的な情報を含みうる。音声通信データは、音声通信の内容（未加工および派生的内容の双方）、音声通信の特徴、および音声通信の行動（例えば、通話中に顧客が幾つのボタンを押したか）を含むことが好ましい。音声通信データはステップＳ１１０によってモニタされたデータを含むことが好ましいが、付加的にまたは代替的に、ステップＳ１１０によってモニタされたデータを含まなくともよい。音声通信データは、後で収集される、および／または応答の生成にリンクされるデータを含むことが好ましい。例えば、発信者が異なるメニューの選択肢にルーティングされる場合、その時点から後に収集されたデータを利用して、そのルーティングオプションの成果を判断することができる。仮にルーティングオプションによって発信者の満足度が高くなる、あるいは通話時間が短くなる場合には、そのオプションをより頻繁に利用することができる。音声通信データを収集するステップは、音声通信データを保存するステップを含むことが好ましい。収集された音声通信データは、短期的データと長期的データの双方を含むことが好ましい。短期的データは分析され、分析後に廃棄されることが好ましい。分析の結果は、好ましくは保存される。例えば、短期的データは、分析された後に廃棄される全会話の未加工音声を含みうる。短期的データは保存した後の一定時間、またはデータの分析が終了した後の一定時間の何れかで廃棄されることが好ましいが、代替的には、如何なる理由によっていつでも廃棄することができる。長期的データは、もはや使用されなくなった時にのみ廃棄されることが好ましいが、代替的には、如何なる理由によっていつでも廃棄することができる。音声通信データは、ステップＳ１１０およびステップＳ１２０に使用されるデータベースに保存されることが好ましい。音声通信データは、データとリンクさせて、データベース中に基準として保存されることが好ましい。音声通信データはさらに、音声通信をモニタするステップ（ステップＳ１１０）および応答を生成するステップ（ステップＳ１２０）への入力として使用されることが好ましい。この入力はマシン学習アルゴリズムあるいは他のアルゴリズムへの入力の形態をしていることが好ましいが、代替的には、比較のための基準の形態をした入力あるいはその他の適切な入力とすることができる。音声通信データは、ステップＳ１１０およびＳ１２０に使用されるアルゴリズムまたはルールを修正するために使用されることが好ましい。音声通信データは、得られた情報を用いて自動的にデータにリンクされることが好ましいが、代替的には、手動でデータにリンクさせることができる。例えば、通話の後、ＳＲは発信者が怒っていた会話の部分をタグ付けすることができる。このようにして、データベースを訓練することができる。データのリンク付けは、通話の最中または通話後の一定時間で、あるいは特定のイベント後に、タグを促すタグ付けアルゴリズムに組み込むことができる。音声通信データを収集するステップは、データを特定の発信機とリンクさせるステップを含むことが好ましい。例えば、コールセンターでは、ある音声通信データを特定のＳＲにリンクさせたデータベースを利用して、各ＳＲに関するプロフィールを生成することができる。次いで、顧客が発信してきたとき、その顧客を、顧客とＳＲの間の予想した適合性によって特定のＳＲに組み合わせることができる。このデータベースを利用して、ＳＲの業務または他の特徴を評価することもできる。

好適な実施形態のバリエーションでは、ステップＳ１６０は、音声通信データを処理して、成功率メトリクスといったメトリクスを求めるステップを含みうる。例えば、ＳＲに顧客をアップセルさせることを意図した特定のスクリプトが提示された場合、ステップＳ１６０は、このアップセルが成功したか否かを保存するステップを含むことが好ましい。このデータは、所与の戦略（例えば、所与のスクリプトをＳＲに提示すること、感情の点数に基づいて顧客をＳＲと組み合わせること）の全体的な成功率の算出を補助するために（個々に、または統合して）利用することができ、今度はこれを利用して、ステップＳ１２０によってどのように応答を生成するかを修正することができる。

図３に示すように、方法１００の第１の例示的な実施は、コールセンターに適用することができる。この例では、顧客がコールセンターに電話をすると、顧客には最初に音声作動メニューが提示される。顧客が声を用いてメニューを通じて指示を出すと、その声がモニタされる。このモニタリングは、メニューを通じた顧客のルーティングを通知する。顧客が補助を必要とする選択肢に達すると、顧客の名前が要求される。名前による音声データが分析され、顧客をＳＲと組み合わせるために使用されると共に、そのＳＲには、顧客に関する情報が提供される。ＳＲと接続された後、このＳＲには、発信者の会話から得られたリアルタイムの情報と、その情報に返答するための選択肢が提供される（例えば、図２に示す）。ＳＲにはＳＲ自身の会話に関する情報も提供され、顧客と通信するための助言が与えられる。通話が終了した後、ＳＲは、通話の最中に収集された特定のデータにタグ付けするか質問され、顧客は調査を終了するように求められる。これらの双方の行動によるデータは保存され、後のモニタリングおよび応答の生成に利用される。時間の経過につれて、このデータはさらに、ＳＲの業務を評価したり、ＳＲがどのように上達したかの見通しを提供するために使用される。

図４に示すように、方法１００の第２の例示的な実施は、計算装置の仮想アシスタントに適用することができる。この仮想アシスタントはアプリケーションまたは動作システムのユーザ対話インタフェースであることが好ましく、ユーザは音声指示を発する、または仮想アシスタントとの対話を実行して、装置を制御する、または装置から情報を得ることができる。仮想アシスタントがユーザを装置の主要ユーザとして識別し、そのユーザに関して個別化された情報のデータベースを利用する（ユーザが主要ユーザではない場合、異なるデータベース、アルゴリズム、あるいは一連のルールを使用する）。仮想アシスタントは、ユーザの会話、ならびにそのユーザのために保存されたデータベース（または、他の汎用データベース）に基づいて、コンピュータの音声を選択する。仮にユーザが怒っている場合には、仮想アシスタントはユーザに簡易化した選択肢のセットを提示する。仮に仮想アシスタントが、ユーザが薬品またはアルコールの使用によって弱っている可能性があることを検知した場合、アシスタントは代わりの選択肢のセットを提供することができる。例えば、アシスタントは、「正常ではない不明瞭な発音が会話から検出されました。調子が悪いかもしれません。タクシーを呼んでもよいですか？」と言うことができる。仮想アシスタントは、ユーザの会話に基づいて、その会話の音量とテンポを適応させる。例えば、ユーザが静かに話している場合には、仮想アシスタントの音量も下げることができる。仮想アシスタントはさらに環境騒音にも適応する。例えば、仮想アシスタントが騒々しい環境にある場合には、通信をテキストとして電話の画面上に表示することができるが、仮想アシスタントが静かな環境にある場合には、ユーザの会話に反応して単に話しをすることができる。付加的にまたは代替的に、環境騒音を分析の実行に利用することができる。例えば、背景音を感情メトリック値に対して分析することができ、このような数値は、ユーザの感情メトリック値の算出においてコンテクスト情報として利用することができる。仮想アシスタントは標準的な使用から学習するが、ユーザによる入力に対しても学習する。例えば、アシスタントはユーザに「あなたの母国語はロシア語ですか？」と質問し、更に使用するために、それに対する返答をデータベースに保存することができる。

好適な実施形態、およびそのバリエーションに係る方法は、コンピュータ可読指示を保存するコンピュータ可読媒体を受け取るように構成されたマシンの少なくとも一部において具現化する、および／または実行することができる。このような指示は、コンピュータシステムに好適に組み込まれたコンピュータ実行可能な要素によって実行されることが好ましい。コンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ＥＥＰＲＯＭ、光学デバイス（ＣＤまたはＤＶＤ）、ハードドライブ、フロッピードライブ、または任意の適切なデバイスといった、適切なコンピュータ可読媒体に保存することができる。コンピュータ実行可能な要素は、汎用プロセッサまたはアプリケーション固有のプロセッサであることが好ましいが、適切な専用のハードウェアまたはハードウェア／ファームウェアを組み合わせたデバイスが代替的または付加的に指示を実行することができる。

前述した詳細な説明ならびに図面および特許請求の範囲から当該分野における当業者が認識するように、以下の特許請求の範囲に規定した本発明の範囲から逸脱することなく、本発明の好適な実施形態に修正および変更を加えることができる。

Claims

適応型音声対話のための方法であって：
サービスの受け手から事前の音声サンプルを受け取るステップと；
前記事前の音声サンプルの第１の特徴のセットを検出するステップと；
前記第１の特徴のセットの分析に基づいて、サービス担当者を選択するステップと；
前記サービスの受け手とサービス担当者の間の音声通信をモニタするステップであって、前記音声通信の際に第２の特徴のセットを周期的に測定して分析するステップを含む、ステップと；
前記第２の特徴のセットの分析から得られた結論を、リアルタイムで前記サービス担当者に表示するステップと；
を含むことを特徴とする方法。
請求項１に記載の方法において、前記結論を表示するステップが、前記サービスの受け手の感情状態に関する結論を表示するステップを含むことを特徴とする方法。
請求項１に記載の方法において、前記結論を表示するステップが、前記サービスの受け手が前記サービス担当者との音声通信を終了するであろう可能性を表示するステップを含むことを特徴とする方法。
請求項３に記載の方法がさらに、通信プロンプトを前記サービス担当者に表示するステップを含んでおり、前記通信プロンプトは前記第２の特徴のセットの分析に基づいて選択されることを特徴とする方法。
請求項４に記載の方法において、前記第２の特徴のセットはＭＦＣＣの特徴を含んでおり、前記第２の特徴のセットを分析するステップは：
前記ＭＦＣＣの特徴をＭＦＣＣの小区分に分割するステップと；
前記ＭＦＣＣの小区分を分類するステップと；
前記ＭＦＣＣの小区分と選択した基準サンプルのセットとの比較から、感情状態の点数を算出するステップと；
前記感情状態の点数から推定される感情状態を求めるステップと；
を含むことを特徴とする方法。
適応型音声対話のための方法において：
サービスの受け手とサービス担当者の間の第１の音声通信をモニタするステップであって、前記第１の音声通信の際に第１の時間間隔のセットのそれぞれにおいて第１の特徴のセットを測定するステップを含む、ステップと；
前記第１の特徴のセットを分析するステップであって、前記第１の特徴のセットの測定結果に基づいて第２の時間間隔のセットのそれぞれについて感情メトリック値を生成するステップを含む、ステップと；
を含み、
前記第２の時間間隔のセットのそれぞれは、前記第１の時間間隔のセットの時間間隔の整数に対応することを特徴とする方法。
請求項６に記載の方法において、前記感情メトリック値が、予想アトリションリスクおよび予想アップセル成功の少なくとも一方を含むことを特徴とする方法。
請求項７に記載の方法において、感情メトリック値を生成するステップが、前記第１の特徴のセットの測定結果と特徴基準とを比較するステップを含むことを特徴とする方法。
請求項８に記載の方法において、前記第１の特徴のセットがＭＦＣＣの特徴を含んでおり、前記特徴基準は感情データにリンクしたＭＦＣＣの特徴のデータを含むことを特徴とする方法。
請求項６に記載の方法がさらに、スクリプトを前記サービス担当者に表示するステップを含んでおり、前記スクリプトは前記感情メトリック値に基づいてスクリプトのセットから選択されることを特徴とする方法。
請求項６に記載の方法がさらに、通信イベントに対応するイベントデータを記録するステップと、前記イベントデータを感情メトリック値にリンクさせるステップと、を含むことを特徴とする方法。
請求項１１に記載の方法がさらに、前記イベントデータに対する成功評価を求めるステップと、前記サービス担当者にリンクされたプロフィールを更新するために前記成功評価を利用するステップと、を含むことを特徴とする方法。
請求項１１に記載の方法がさらに、前記イベントデータに対する成功評価を求めるステップと、将来的な通信イベントに対する成功率を予想するために前記成功評価を利用するステップと、を含むことを特徴とする方法。
請求項１３に記載の方法がさらに、スクリプトを前記サービス担当者に表示するステップを含んでおり、前記スクリプトは予想した成功率に基づいてスクリプトのセットから選択されることを特徴とする方法。
仮想アシスタントを用いる適応型音声対話のための方法において：
ユーザが電子デバイスで動作する仮想アシスタントに対して話した第１の音声通信をモニタするステップであって、前記第１の音声通信の際に第１の時間間隔のセットのそれぞれにおいて第１の特徴のセットを測定するステップを含む、ステップと；
前記第１の特徴のセットを分析するステップであって、前記第１の特徴のセットの測定結果に基づいて、第２の時間間隔のセットのそれぞれについて感情メトリック値を生成するステップを含む、ステップと；
を含み、
前記第２の時間間隔のセットのそれぞれは、前記第１の時間間隔のセットの時間間隔の整数に対応することを特徴とする方法。
請求項１５に記載の方法がさらに、前記感情メトリック値に基づいて前記ユーザに応答するステップを含むことを特徴とする方法。
請求項１６に記載の方法がさらに、環境騒音を検出するステップを含んでおり、前記環境騒音に基づいて前記ユーザに応答するステップをさらに含むことを特徴とする方法。
請求項１６に記載の方法がさらに、前記ユーザに応答するステップが、前記感情メトリック値に基づいて前記ユーザにユーザ応答のセットを提示するステップを含むことを特徴とする方法。
請求項１８に記載の方法がさらに、前記感情メトリック値に基づいて前記電子デバイスへのアクセスを制限するステップを含むことを特徴とする方法。
請求項１６に記載の方法において、前記第１の特徴のセットがＭＦＣＣの特徴を含んでおり、特徴基準は感情データにリンクされたＭＦＣＣの特徴のデータを含むことを特徴とする方法。