JP6538779B2

JP6538779B2 - 音声対話システム、音声対話方法、および音声対話システムを適合させる方法

Info

Publication number: JP6538779B2
Application number: JP2017154206A
Authority: JP
Inventors: コッティマルガリータ; パパンゲリスアレクサンドロス; スチリアノイオアニス
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-02-06
Filing date: 2017-08-09
Publication date: 2019-07-03
Anticipated expiration: 2037-08-09
Also published as: GB2559408B; US20180226076A1; JP2018128659A; US10832667B2; GB201701918D0; GB2559408A

Description

関連出願の相互参照
本出願は、２０１７年２月６日に出願された先行英国特許出願第１７０１９１８．３号に基づき、その優先権の利益を主張するものであり、その内容全体は参照により本明細書に組み込まれる。

本開示は、音声対話システム、音声対話方法、および音声対話システムを適合させる方法に関する。

音声対話システム（ＳＤＳ）は、たとえば、自動コールセンター、支援技術、音声駆動インタラクティブモバイルアプリケーション、ウェアラブルデバイスのための音声インターフェース、および人間とロボットの対話などを含む多くのアプリケーションで使用されており、人間と言葉で対話することを目的としている。他のアプリケーションは、金融サービス、電話バンキング、教育、支援生活、コールセンター、インテリジェント仮想エージェント、ビデオゲーム、コマーシャル、ヘルスケア、およびカーナビゲーションなどを含む。

そのようなシステムに必要な学習（トレーニング）、メンテナンス、人間の設計入力を削減しながら、ＳＤＳの機能を改善し続ける必要がある。

次に、非限定的な構成によるシステムおよび方法を、添付の図面を参照して説明する。

音声対話システムの概略図。例示的なＳＤＳアーキテクチャの概要を示す図。成功尺度が音響特徴を使用して生成される、実装中に音声対話システムによって実行される例示的な方法を示すフローチャート。成功尺度がシステム状態の一部である、実装中に音声対話システムによって実行される例示的な方法を示すフローチャート。更新されたシステム状態特徴の第１のセットが成功尺度を生成するためにも使用される、実装中に音声対話システムによって実行される例示的な方法を示すフローチャート。成功尺度を生成するために分類器を学習する例示的な方法のフローチャート。分類器を学習するために使用されるデータセット内の４つの異なる成功尺度値分布を示す図。音響特徴を使用して生成された成功尺度が、ポリシーモデルを適合させるために使用される報酬値を更新するために使用される、ポリシーモデルを適合させる例示的な方法のフローチャート。音響特徴を使用して生成された成功尺度がシステム状態の一部として使用される、ポリシーモデルを適合させる例示的な方法のフローチャート。音響特徴が報酬関数および信念状態への入力として使用される、エンドツーエンドＳＤＳ学習アーキテクチャの概略図。対話の品質を予測するため、および／または報酬関数を推定するための音響特徴の使用を示す概略図。

音声対話システムであって、
ユーザから発せられ、対話の一部を形成する音声信号に関するデータを受信するための入力部と、
アクションによって指定される情報を出力するための出力部と、
入力された音声信号から１つまたは複数の音響特徴を抽出することと、
対話モデルを使用してアクションを決定することと、ここにおいて、対話モデルへの入力は、入力された音声信号を使用して生成される、
出力部においてアクションによって指定される情報を出力することと、
音響特徴を使用して成功尺度を生成することと
を行うように構成されたプロセッサと
を備えるシステムが提供される。

成功尺度は、記憶され、学習された分類器を使用して生成され得る。特徴ベクトルは、音響特徴を使用して生成され、分類器に入力され、分類器は成功尺度を出力するように構成される。複数の異なる成功尺度が生成され得、それぞれが別個の分類器によって任意に生成される。複数の成功尺度から単一の成功尺度が生成され得る。

成功尺度は、対話モデルに入力され得る。たとえば、成功尺度は、対話モデルに入力された特徴セットに含まれ得る。

対話モデルは、ポリシーモデルおよび状態トラッカーモデルを備えることができ、プロセッサは、
状態トラッカーモデルを使用して、入力された音声信号に基づいてシステム状態を更新することと、
成功尺度を含めるようにシステム状態を更新することと
を行うようにさらに構成され、
更新されたシステム状態はポリシーモデルへの入力である。

入力された音声は、１つまたは複数の言語理解仮説（ｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇｈｙｐｏｔｈｅｓｅｓ）に変換され得、これらは、たとえば、状態トラッカーモデルに入力され得る。

システム状態は、信念状態であり得る。この場合、状態トラッカーモデルは、入力された音声に基づいて信念の第１のセットを更新するように構成された、記憶され、学習されたモデルである。信念状態における残りの信念は、成功尺度に関連してもよく、これらは分類器の出力を使用して更新され得る。さらに、残りの信念のうちのいくつかは、たとえば、抽出された音響特徴から直接的に更新され得る。

分類器に入力される特徴ベクトルは、入力された音声信号に基づいて更新されたシステム状態から抽出された特徴をさらに備え得る。たとえば、信念の第１のセットのうちの１つまたは複数が特徴ベクトルに含まれ得る。あるいは、特徴は、信念の第１のセットのうちの１つまたは複数から抽出され、特徴ベクトルに含まれ得る。

音声対話システムであって、
ユーザから発せられ、対話の一部を形成する音声信号に関するデータを受信するための入力部と、
アクションによって指定される情報を出力するための出力部と、
入力された音声信号から１つまたは複数の音響特徴を抽出することと、
状態トラッカーモデルを使用して、入力された音声信号に基づいてシステム状態を更新することと、ここにおいて、更新されたシステム状態が１つまたは複数の音響特徴を備える、
ポリシーモデルを使用してアクションを決定することと、ここにおいて、ポリシーモデルへの入力が更新されたシステム状態である、
出力部において、アクションによって指定される情報を出力することと
を行うように構成されたプロセッサと
を備えるシステムも提供される。

上記の音声対話システムでは、出力部は音声信号を出力するための出力部であってもよく、アクションに関する情報を出力することは、
アクションによって指定されるテキストを生成することと、
テキストを音声に変換し、出力部において音声信号を出力することと
を備える。

また、音声対話システムで使用するための成功評価システムであって、
ユーザから発せられ、対話の一部を形成する音声信号に関するデータを受信するための入力部と、
成功尺度を出力するための出力部と、
入力された音声信号から１つまたは複数の音響特徴を抽出することと、
音響特徴を使用して特徴ベクトルを形成することと、
分類器への入力として特徴ベクトルを使用して成功尺度を生成することと、ここにおいて、分類器が対話の成功尺度を出力するように構成される
を行うように構成されたプロセッサと
を備えるシステムも提供される。

また、音声対話方法であって、
ユーザから発せられ、対話の一部を形成する、入力された音声信号から１つまたは複数の音響特徴を抽出することと、
対話モデルを使用してアクションを決定することと、ここにおいて、対話モデルへの入力は、入力された音声信号を使用して生成される、
出力部においてアクションによって指定される情報を出力することと、
音響特徴を使用して成功尺度を生成することと
を備える方法も提供される。

また、音声対話方法であって、
ユーザから発せられ、対話の一部を形成する、入力された音声信号から１つまたは複数の音響特徴を抽出することと、
状態トラッカーモデルを使用して、入力された音声信号に基づいてシステム状態を更新することと、ここにおいて、更新されたシステム状態は１つまたは複数の音響特徴を備える、
ポリシーモデルを使用してアクションを決定することと、ここにおいて、ポリシーモデルへの入力は更新されたシステム状態である、
出力部においてアクションによって指定される情報を出力することと
を備える方法も提供される。

また、音声対話システムを適合させる方法であって、
入力された音声信号から１つまたは複数の音響特徴を抽出することと、
対話モデルを使用してアクションを決定することと、ここにおいて、ポリシーモデルへの入力は、入力された音声信号を使用して生成される、
出力部においてアクションに関する情報を出力することと、
音響特徴を使用して成功尺度を生成することと、
性能指標を高めるように対話モデルを適合させることと
を備える方法も提供される。

本方法は、人間またはシミュレートされた人間のユーザとの対話を実行するためにシステムを繰り返し使用し、性能指標を提供することによって実行され得、各対話は、ユーザから発せられる複数の音声信号を備える。あるいは、本方法は、人間またはシミュレートされた人間のユーザと音声対話システムとの間の音声対話を備える記憶されたデータを使用することによって実行され得る。

性能指標は、成功尺度を使用して生成され得る。

対話モデルは、ポリシーモデルを備えることができる。性能指標は、報酬関数を使用して生成された報酬値であってもよく、報酬関数は成功尺度の関数である。

報酬関数はまた、音響特徴のうちの１つまたは複数の関数であり得る。

特徴ベクトルは、音声信号から抽出された音響特徴を使用して生成され、分類器に入力され得、分類器は成功尺度を出力するように構成される。分類器の出力は、バイナリ尺度または離散尺度に変換され得る。複数の分類器があり得、それぞれが異なる成功尺度を生成する。報酬関数に含まれる単一の尺度を形成するために、これらが組み合わせられ得る。

報酬値は、対話ごとに１回計算され得る。成功尺度を生成するために、対話中の１つまたは複数の音声信号の音響特徴が使用され得る。

本プロセッサは、状態トラッカーモデルを使用して、入力された音声信号に基づいてシステム状態を更新するようにさらに構成され得、更新されたシステム状態はポリシーモデルへの入力であり、更新されたシステム状態は成功尺度を備える。

また、人間またはシミュレートされた人間のユーザと音声対話システムとの間の音声対話を備えるデータから成功尺度を生成するために分類器のモデルを適合させる方法であって、本データは成功尺度を備え、
入力された音声信号から１つまたは複数の音響特徴を抽出することと、
分類器への入力として、音響特徴を使用して成功尺度を生成することと
データ内の成功尺度を使用して分類器を適合させることと
を備える方法も提供される。

データは、記憶されたデータであってもよく、分類器は、人間またはシミュレートされた人間のユーザとの対話を実行するために音声対話システムを繰り返し使用することによって学習されてもよい。

また、音声対話システムを適合させる方法であって、
入力された音声信号から１つまたは複数の音響特徴を抽出することと、
状態トラッカーモデルを使用して、入力された音声信号に基づいてシステム状態を更新することと、ここにおいて、更新されたシステム状態は１つまたは複数の音響特徴を備える、
ポリシーモデルを使用してアクションを決定することと、ここにおいて、ポリシーモデルへの入力は更新されたシステム状態である、
出力部においてアクションに関する情報を出力する、
性能指標を高めるようにポリシーモデルを適合させることと
を備える方法も提供される。

音響特徴は、入力された音声信号のエネルギーの表示、入力された音声信号のピッチの表示、および入力された音声信号のスペクトル情報のうちの１つまたは複数であり得る。

入力された音声信号の音響特徴は、対話中の他の音声信号を使用して生成され得る。たとえば、音響特徴は、現在の音声信号の音響特徴と、対話中の１つまたは複数の他の音声信号の音響特徴との間の差を含み得る。それらは、現在の音声信号の音響特徴と、対話中の１つまたは複数の他の音声信号の音響特徴との要約値、たとえば平均値を含み得る。

１つまたは複数の音声信号について抽出された音響特徴が結合され得、結合された音響特徴は成功尺度を生成するために使用される。たとえば、音響特徴は、対話中の音声信号のうちの２つ以上について要約、比較、または連結され得る。

成功尺度は、バイナリ成功尺度であってもよく、離散成功尺度であってもよい。成功尺度は、１つまたは複数の分類器の出力を使用して生成され得る。成功尺度は、主観的対話成功の尺度、対話自然度の尺度、客観的対話成功の尺度、および総対話長の尺度のうちの１つまたは複数を備え得る。総対話長の尺度は、たとえば対話ターンの数の尺度であり得る。

また、コンピュータに上述の方法のうちの任意のものを実行させるように構成されたコンピュータ可読コードを備えるキャリア媒体が提供される。

実施形態によるいくつかの方法はソフトウェアによって実装され得るため、いくつかの実施形態は、任意の適切なキャリア媒体上で汎用コンピュータに提供されるコンピュータコードを包含する。キャリア媒体は、フロッピー（登録商標）ディスク、ＣＤ−ＲＯＭ、磁気デバイスまたはプログラマブルメモリデバイスなどの記憶媒体、あるいは、たとえば電気信号、光信号、またはマイクロ波信号などの任意の信号などの任意の一時的媒体を備え得る。キャリア媒体は、非一時的コンピュータ可読記憶媒体を備え得る。

図１（ａ）は、ＳＤＳの一般的なアーキテクチャの例の概要である。音声対話システムは、たとえば、人間のユーザ１０からの音声をテキストに変換し（自動音声認識１２）、意味情報を識別して照合し（自然言語プロセッサ１４）、システム状態を更新し（システム状態トラッカー１６）、出力アクションを生成し（ポリシーモデル１８）、アクションによって指定される必要なテキストを生成し（自然言語ジェネレータ２０）、音声を合成する（音声合成装置２２）ための、いくつかの構成要素を備え得る。これらの構成要素の各々は、記憶され、学習されたモデルであり得る。あるいは、構成要素のうちの１つまたは複数は、記憶され、学習された単一のモデルによって置換され得る。あるいは、ＳＤＳは、入力された音声を取り出して出力アクションまたは出力された音声にマッピングする単一のモデルを備え得る。このモデルは、たとえばニューラルネットワークであり得る。

図１（ｂ）は、ＳＤＳ１の概略図である。ＳＤＳ１は、たとえば、情報検索ＳＤＳであり得る。システム１は、プロセッサ３を備え、音声信号である入力を取り込む。本システムはまた、意味的（セマンティック）表現、テキストまたは音声信号、あるいはタスクを実行するためのデバイスへの命令などの他の出力情報を出力し得る。本プロセッサは対話マネージャであり得、ＳＤＳ１によって取られるべきアクションを決定するためにポリシーを実装し得る。

コンピュータプログラム５は、不揮発性メモリに記憶される。不揮発性メモリはプロセッサ３によってアクセスされ、記憶されたコンピュータプログラムコードはプロセッサ３によって読み出され実行される。記憶装置７はプログラム５によって使用されるデータを記憶する。

システム１は、入力モジュール１１をさらに備える。入力モジュール１１は、音声信号用の入力部１５に接続される。入力部１５は、ユーザが音声信号を直接入力することを可能にするインターフェース、たとえばマイクロホンであり得る。あるいは、入力部１５は、外部記憶媒体またはネットワークから音声信号を受信するための受信機であり得る。

システム１は、出力モジュール１３をさらに備え得る。出力モジュール１３には出力部１７が接続されていてよい。出力部１７は、たとえばスクリーン、ヘッドフォン、またはスピーカなどの、ユーザにデータを提供するインターフェースであり得る。あるいは、出力部１７は、外部記憶媒体またはネットワークにデータを送信するための送信機であり得る。あるいは、出力部１７は、別のデバイスまたはデバイスの一部に命令を提供し得る。

使用時、システム１は、入力部１５を通じて音声信号を受信する。プログラム５は、以下の図面を参照して説明される方法で、プロセッサ３上で実行される。プログラム５は、出力部１７においてテキスト信号または音声信号を出力し得る。システム１は、以下の図面を参照して説明される方法で構成および適合され得る。

入力された音声信号からの音響特徴は、たとえば音声信号を文字に起こすために、自動音声認識（ＡＳＲ）モデル１２によってＳＤＳにおいて使用され得る。しかしながら、以下の図面に関連して説明される方法およびシステムにおいては、１つまたは複数の音響特徴はまた、出力アクションを生成するために、またはたとえばポリシーモデル１８を適合させるために、ポリシーモデル１８によって使用される。これらの１つまたは複数の音響特徴は、音声認識のために抽出されるのと同じ音響特徴および／または異なる音響特徴を備え得る。以下では、ポリシーモデル１８による音響特徴の使用の例が記載されているが、音響特徴はまた、ポリシーモデル１８と、図１（ａ）に示されている１つまたは複数の他の構成要素とを置換するモデルによって、同様の方法で使用され得ることが理解されるべきである。たとえば、ＳＤＳが、ポリシーモデルと、図１（ａ）に示される１つまたは複数の他の構成要素とを置換するニューラルネットワークを備える場合、音響特徴は、実装中にニューラルネットワークへの入力として使用されてもよく、学習（トレーニング）中にニューラルネットワークを同様の方法で学習するための性能指標を生成するために使用されてもよい。

音響特徴は、ピッチ、エネルギー、フィルタバンク特徴、他のスペクトル特徴、ジッタ（基本周波数のサイクル間変動の尺度）、およびシマー（振幅のサイクル間変動の尺度）のうちの１つまたは複数を備え得る。

１つまたは複数の音響特徴は、たとえば、対話中の入力された音声信号の二乗平均平方根（ＲＭＳ）および／またはピッチであり得る。

各対話は一連のユーザ発話ｕ（ｔ）を備え、ｔ＝１．．．Ｎであり、ｔはターン数を表し、Ｎは総ターン数を表す。

１つまたは複数の音響特徴の単一のセットが対話ごとに生成され得る。対話の１つまたは複数の音響特徴を生成することは、対話中の入力発話ごとの音響特徴を備える特徴セットを抽出することと、次いで、入力発話のすべてからの特徴セットを使用して対話の最後に単一の特徴セットを生成することとを備え得る。たとえば、要約統計は、対話の単一の特徴セットを生成するために使用され得、要約統計は、たとえば平均、中央値、最小値および最大値、標準偏差、歪度、９０パーセンタイル、および尖度のうちの１つまたは複数を備え得る。あるいは、各発話からの特徴が、単一の特徴セットに連結され得る。

たとえば、対話のために生成された音響特徴のセットは、平均ＲＭＳ（μ_RMS）、平均ピッチ（μ_p）（１つの発話のピッチは、実際にはその発話のピッチ値の平均であり得るので、「ピッチ」は、「発話の平均ピッチ」を指すことができ、「平均ピッチ」は、たとえば対話中のすべての発話のこれらの平均値の平均を意味する）、ＲＭＳの標準偏差（σ_RMS）、ピッチの標準偏差（σ_P）、ピッチ範囲（ｒ_p）、連続発話におけるＲＭＳ値間の差（δ_RMS）、連続発話におけるピッチ値間の差（δ_p）（ここでの「ピッチ」も発話の平均ピッチ値を指すことができる）、ピッチの導関数の平均
ならびに、複数の周波数帯域ごとの平均値、たとえば、平均メル周波数ケプストラム係数（ＭＦＣＣ）値（ここでも、発話ごとに、ＭＦＣＣごとの平均値が抽出され得、したがって、「ＭＦＣＣ値」は、「発話の平均ＭＦＣＣ値」を指すことができ、「平均ＭＦＣＣ値」は、たとえば対話中のすべての発話のこれらの平均値の平均を指す、のうちの１つまたは複数を備え得る。あるいは、対話に関する値の平均などの要約統計を使用する代わりに、対話についてのＭＦＣＣが「特徴画像」に変換され得る。たとえば、発話ごとに、ＭＦＣＣ成分ごとの平均値、言い換えれば、時間に対する平均がとられる。発話ごとに１３個のＭＦＣＣがあり得る。次いで、対話中のターンごとに、発話あたり１３個の平均ＭＦＣＣのマトリックスを作成することによって、「特徴画像」が作成される。

これらの特徴は、対話中のすべての発話から抽出された音響特徴から生成され得る。あるいは、対話中の発話のうちの、たとえば、最初の、中間の、または最後のＭ個の発話などの１つまたは複数のみが使用されてもよく、Ｍは１以上Ｎ以下の整数である。たとえば、ＭＦＣＣのマトリックスは、最初の５ターンのみを備え得る。したがって、「特徴画像」は、１３×５のサイズを有する。

この場合、Ｐ個の音響特徴がｕ（ｔ）ごとに抽出される。さらなるＫ個の音響特徴は、ｕ（ｔ）と、対話中の他の発話のうちの１つまたは複数との間の時間的進化を捕捉するために、ｕ（ｔ）ごとに抽出され得る。たとえば、連続発話の音響特徴の値の差が抽出され得る。発話の時間的構造は、ユーザの内部状態の変化を知らせる。これらの特徴も抽出することによって、文脈も考慮される。１つの発話（ＲＭＳなど）から生じるＰ個の音響特徴があり、対話の特徴セットを生成するために要約統計または連結が使用され得る。その発話の特徴と、１つまたは複数の他の発話、たとえば連続発話との比較から生じるＫ個の音響特徴（現在の発話と以前の発話との間のＲＭＳなど）があり、対話の特徴セットを生成するために要約統計または連結も使用され得る。要約特徴のすべては、たとえば、対話についての長さＰ＋Ｋの１つの特徴ベクトルを形成することができる。

あるいは、対話ごとに単一の特徴セットを生成する代わりに、音響特徴の特徴セットが抽出され、対話中の発話ごとに使用され得る。発話の１つまたは複数の音響特徴を抽出することは、ＲＭＳ、ピッチ、現在のＲＭＳ値と以前の発話のＲＭＳ値との間の差、現在のピッチ値と以前の発話のピッチ値との間の差、ピッチの導関数、および複数の周波数帯域（たとえば、ＭＦＣＣ値）ごとの値（たとえば、平均値）のうちの１つまたは複数を備える特徴セットを抽出することを備え得る。要約統計は、以前の発話を使用して特徴を生成するためにも使用され得る。したがって、発話の音響特徴のセットは、追加的または代替的に、現在の発話と以前の発話の平均ＲＭＳ（μ_RMS）、現在の発話と以前の発話の平均ピッチ（μ_p）、現在の発話と以前の発話のＲＭＳの標準偏差（σ_RMS）、現在の発話と以前の発話のピッチの標準偏差（σ_P）、現在の発話と以前の発話からのピッチ範囲（ｒ_p）、現在の発話と以前の発話のピッチの導関数の平均
ならびに、現在の発話と以前の発話の複数の周波数帯域（たとえば、平均ＭＦＣＣ値）ごとの平均値のうちの１つまたは複数を備え得る。

この場合、Ｐ個の音響特徴がｕ（ｔ）ごとに抽出される。さらなるＫ個の音響特徴が、ｕ（ｔ）と、対話中の他の以前の発話のうちの１つまたは複数との間の時間的進化を捕捉するために、ｕ（ｔ）ごとに抽出され得る。たとえば、ｔ＝３の場合、発話ｕ（３）の音響特徴と発話ｕ（１）およびｕ（２）のそれぞれの音響特徴との間の差が抽出されてもよく、発話ｕ（３）、ｕ（２）、およびｕ（１）のＲＭＳ値の平均が抽出されてもよい。１つの発話から生じるＰ個の音響特徴（ＲＭＳなど）がある。１つまたは複数の以前の発話とともに現在の発話から生じるＫ個の音響特徴（現在の発話と以前の発話との間のＲＭＳなど）がある。これらの特徴のすべては、入力発話ごとに長さＰ＋Ｋの１つの特徴ベクトルを形成することができる。

１つの発話ｕ（ｔ）に対するＲＭＳは、以下の式を使用して計算され得る。
上式で、ｘ_u(t)（τ）＝｛ｘ（１），．．．．．，ｘ（Ｌ）｝は発話ｕ（ｔ）に対応する音声信号であり、上式で、τは発話ｘ_u(t)（τ）の音声信号のフレームインデックスであり、Ｌは音声信号内のフレームの総数である。

ピッチ情報は様々な方法で抽出され得る。１つの例は、以下の自己相関関数が使用される自己相関法を使用することである。
上式で、ｄはタイムラグであり、Ｗはウィンドウサイズである。ｒ_τ（ｄ）関数は、０において、次いでピッチ周期のすべての倍数において、一連の極大値を有する。ピッチ周期は、このパターンをスキャンすることによって決定され得る。これは、非ゼロ横座標を有する第１の極大値の位置によって推定され得る。いくつかのピッチ値が発話ｕ（ｔ）ごとに返され、これらの値の平均がｕ（ｔ）のピッチ値として使用され得る。

たとえば、音響特徴のセットは、ＭＦＣＣおよびピッチを備え得る。

たとえば、新しい入力発話が受信されるたびに、ユーザの内部状態を示すために使用され得る音響特徴が抽出される。ＳＤＳシステムに関連するこれらの音響特徴の使用が以下に説明される。

図２は、成功尺度が音響特徴を使用して生成される、実装中に音声対話システムによって実行される例示的な方法を示すフローチャートである。

ステップＳ２０１において、入力音声信号ｕ（ｔ）が入力される。入力された音声信号は、ユーザとＳＤＳとの間の対話の一部を形成する。

ステップＳ２０２において、１つまたは複数の音響特徴が入力された音声信号から抽出される。このステップにおいて抽出され得る音響特徴の例は、上記に記載されている。

ステップＳ２０３において、音響特徴を使用して成功尺度が生成される。

任意で、成功尺度は、システムの実装前に学習されて記憶された分類器によって生成される。分類器の学習については、以下でより詳細に説明される。学習された分類器は、入力発話ｕ（ｔ）ごとに特徴ベクトルを受信するように構成され得、特徴ベクトルは、Ｓ２０２において音声信号から抽出された音響特徴を使用して生成される。分類器は、入力発話ｕ（ｔ）ごとに１つまたは複数の成功尺度値を出力するように構成され得る。

成功尺度は、主観的対話成功の尺度、対話自然度の尺度、客観的対話成功の尺度、および総対話長の尺度のうちの１つまたは複数（たとえば、対話ターンの数の尺度、対話長が実装前の成功した対話の平均長よりも短いか否かの表示）を備え得る。それぞれが異なる成功尺度値を生成する複数の分類器が使用され得、たとえば、第１の分類器が主観的対話成功の尺度を生成し、第２の分類器が対話自然度の尺度を生成し、第３の分類器が客観的対話成功の尺度を生成し、第４の分類器が総対話長の尺度を生成する。各分類器は、入力として異なる特徴をとることができる。

主観的対話成功の尺度は、対話が成功したとユーザが考えるかどうかの尺度を指す。たとえば、情報検索ＳＤＳにおいては、主観的対話成功の尺度は、ユーザが探していた情報を見つけたとユーザが考えるかどうかであり得る。これは、バイナリ尺度（たとえば、はい／いいえ）であってもよく、たとえば離散スケール（たとえば、６ポイントのリッカート尺度）で測定されてもよい。

対話自然度の尺度は、ユーザが、理解するために対話をどれだけよく考慮するかを指す。たとえば、これはバイナリ尺度（たとえば、はい／いいえ）であってもよく、離散スケールで測定されてもよい。

客観的対話成功の尺度は、ユーザが目標を達成することに成功したかどうかの尺度である。

対話長の尺度は、対話ターンの数の尺度であり得、また、バイナリ（たとえば、低い／高い、ベンチマーク値よりも低い／高い）であってもよく、連続的なスケールであってもよい。

バイナリ成功尺度は、上記のメトリック（たとえば、成功／失敗）のうちの１つまたは複数から生成され得る。

上記は成功尺度のいくつかの例であるが、他の成功尺度は、このステップにおいて１つまたは複数の分類器によって代替的または追加的に生成され、使用され得る。

成功尺度は、分類器に音響情報を入力することによって生成される。分類器は、音響特徴から対話の成功尺度を予測するように学習される。一般に、対話の成功と音響特徴は関連していると考えられ、たとえば、遅い音声は、対話にそれほど没頭していないユーザを示すことができる。

分類器は、たとえば、サポートベクターマシン、ガウスプロセス回帰器、隠れマルコフモデルベース、ニューラルネットワーク（畳み込みニューラルネットワークなどの、浅層または深層）、ベイジアン分類器、判別分析ベースの分類器、またはランダムフォレストベースの分類器などであり得る。

したがって、Ｓ２０３において、Ｓ２０２において抽出された低レベルの音響記述子は、音響特徴からユーザ満足の構成要素であるメトリックを予測するために、分類器への入力として使用される。

Ｓ２０４において、アクションを決定するために対話モデルが使用され、ここにおいて、対話モデルへの入力は、入力された音声信号を使用して生成される。対話モデルはまた、システムの実装前に学習され、記憶される。対話モデルは、前述したように、ポリシーモデル１８であり得る。その場合、音声信号からポリシーモデル１８への入力を生成するために、いくつかのさらなる構成要素が使用され得る。あるいは、ＳＤＳが単一のニューラルネットワークベースのモデルを備える場合、入力は、たとえば単に音声信号であり得る。対話モデルの学習については後述する。Ｓ２０３における分類器の出力はまた、Ｓ２０４における対話モデルへの入力の一部として使用され得る。対話モデルはアクションを出力する。次いで、Ｓ２０５において、アクションによって指定される情報が出力される。Ｓ２０５において、Ｓ２０４において決定されたアクションによって指定される情報が出力部において出力される。

次に、図１（ａ）に示されるようなアーキテクチャを有するＰＯＭＤＰベースのＳＤＳの場合のこのステップの特定の例が、図３に関連して以下でより詳細に説明される。しかしながら、たとえばマルコフ決定プロセス音声対話システム（ＭＤＰ−ＳＤＳ）またはニューラルネットワークベースのシステムなどの他のシステムが使用され得ることが理解されるべきである。

図３は、システム状態トラッカーモデル１６を使用して、実装中に音声対話システムによって実行される例示的な方法を示すフローチャートである。

ステップＳ３０１およびＳ３０２は、上述したステップＳ２０１およびＳ２０２に対応する。

ステップＳ３０３において、１つまたは複数の言語理解仮説が、入力された音声信号を使用して生成される。これは、テキスト信号から関連する確率を有する言語理解仮説のｎ−ｂｅｓｔリストを生成するために、入力された音声および自然言語処理からテキスト信号を生成するためにＡＳＲを実行することを備え得る。言語理解仮説は、Ｓ３０２において抽出された１つまたは複数の音響特徴を使用して、および／またはＳ３０３の一部として音声信号から抽出された他の音響特徴を使用して生成され得る。

ステップＳ３０４は上述したステップＳ２０３に対応する。

Ｓ３０５において、Ｓ３０４において生成された入力発話および成功尺度から生成された言語理解仮説が状態トラッカーモデル１６に入力される。状態トラッカーモデル１６は、更新されたシステム状態を出力する。システム状態はまた、対話状態とも呼ばれる。トラッカーモデル１６は、意図認識モデルであり得る。Ｓ３０３において生成されたテキストおよび関連する確率は、Ｓ３０４において生成された成功尺度とともにトラッカーモデルに入力される。システム状態は、対話シーケンスにおいてユーザによって行われたシステムへの先行する入力のすべてを追跡するか、それを備えるか、またはそれによって決定され得る。したがって、それは完全な対話履歴および文脈を提供することができる。

システム状態は、複数のカテゴリの各々についての複数の可能な値の各々に関連付けられる確率値を備え得る。カテゴリは、たとえばタスク指向の音声対話システムにおけるスロットであり得る。各スロットは、２つ以上の値に関連付けられ、値は、対話マネージャがスロットに関連して認識できる、可能で有効な応答である。たとえば、スロットは「価格」であり得、可能な値は「低」、「中」および「高」であり得る。場合によっては、スロットは、「提供された」および「提供されていない」可能な値を有し得る。

状態トラッカーモデルはＰＯＭＤＰベースのモデルであってもよく、この場合のシステム状態は信念状態である。信念状態は、対話シーケンスにおけるシステムの観測の一部または全部を備え得てもよく、それを表してもよく、ここにおいて、観測はシステムへの入力である。以下の例は、ＰＯＭＤＰベースの信念状態トラッカーモデルを使用するシステムについて説明されるが、他のシステム、たとえばＭＤＰ−ＳＤＳが使用され得ることを理解されたい。

この場合、Ｓ３０５において、対話中の入力された音声信号ｕ（ｔ）に対して信念状態が更新され、
を与える。時間ｔにおける信念状態
は、各スロットｓに関する信念のベクトルｂ_sを備える。スロットｓに関する信念は、スロットがそれぞれの可能な値を有する確率のセットであり得る。たとえば、スロット価格について、値および確率は、［空：０．１５、安価：０．３５、中程度：０．１、高価：０．４］であり得る。これらの確率は、新しい入力発話に基づいて、各ターンｔにおいてトラッカーモデル１６によって更新される。信念トラッカーモデル１６は、入力発話をスロット値にマッピングし、それに応じて確率を更新する、記憶され、学習されたモデルである。

信念状態はまた結合信念を備え得、結合信念は、たとえば価格および場所などの（ユーザが、安いレストランおよび町の中心と言った確率）、複数のスロットの値にわたる確率分布である。これらはまた、信念トラッカーモデル１６によって更新される（スロットワイズな信念と同じ方法で、またはたとえば生成されたスロットワイズな信念に基づいて）。

信念状態はまた、スロット独立信念を備える。スロット独立信念は、たとえば、対話履歴に関係する信念を備え得る。

スロット独立信念はまた、Ｓ３０４において生成された成功尺度を備える。この方法において、信念状態を補強するために、Ｓ３０４において生成された成功尺度が使用される。

複数の成功尺度が生成された場合、それぞれが信念状態に別々に含まれてもよく、複数の成功尺度から結合された成功尺度（はい／いいえ）が生成されて、含まれてもよい。

成功尺度の代わりに、または成功尺度に加えて、音響特徴が信念状態に直接含まれ得る。この場合、Ｓ３０４が省略され得、Ｓ３０２から出力された音響特徴がＳ３０５において信念状態に直接入力される。たとえば、現在の発話および以前の発話からのＲＭＳの標準偏差、現在の発話および以前の発話からのＲＭＳの最大値、２つの連続するターン間のＲＭＳ歪度の差、ならびに２つの連続するターン間の最大ピッチ値の差のうちの１つまたは複数が信念状態に直接含まれる。

成功尺度信念および／または音響特徴信念は、分類器の出力および／または音響特徴抽出によって直接更新される。したがって、Ｓ３０４における分類器の出力値および／またはＳ３０２において抽出された音響特徴は、信念状態に直接入力される。たとえば、分類器は、Ｓ３０４において成功尺度「自然度」について「１」の値を出力し得、Ｓ３０５において信念状態の「スロット」「自然度」に値「１」が挿入される。したがって、スロットワイズな信念とは異なり、信念トラッカーモデルは、成功尺度および／または音響特徴信念の信念値を生成するように学習されない。これらは前のステップにおいて生成され、値は単に信念状態に含まれる。

任意で、Ｓ３０５において更新されたシステム状態が「要約」され得る。要約システム状態は、カテゴリごとにのみ最も高い確率値に対応する可能な値を備える。要約システム状態はまた、成功尺度および／または音響的特徴を含む、スロット独立信念も含む。Ｓ３０５は、信念を要約するさらなるステップを備え得る。

次いで、更新されたシステム状態の少なくとも一部がポリシーモデルに入力され、ポリシーモデルがＳ３０６においてアクションを決定する。更新されたシステム状態の少なくとも一部は、たとえば要約システム状態であり得る。Ｓ３０６において、Ｓ３０５（要約システム状態であり得る）から出力された、更新されたシステム状態と、記憶されたオントロジーとをポリシーモデル１８に入力することによってアクションが決定される。

ポリシーモデル１８は、入力システム状態および記憶されたオントロジーに基づいてアクションを出力するために、実装前に学習され、記憶されたオントロジーはアクションを備える。

完全なシステム・アクションａは、次のいずれかの形式をとることができる：ａ（）（たとえば、ｒｅｑｍｏｒｅ（）、ｈｅｌｌｏ（）、ｔｈａｎｋｙｏｕ（）など）、ａ（ｓ）（たとえば、ｒｅｑｕｅｓｔ（ｆｏｏｄ））、ａ（ｓ＝ｖ）（たとえば、ｃｏｎｆｉｒｍ（ａｒｅａ＝ｎｏｒｔｈ））、ａ（ｓ＝ｖ₁，ｓ＝ｖ₂）（たとえば、ｓｅｌｅｃｔ（ｆｏｏｄ＝Ｃｈｉｎｅｓｅ，ｆｏｏｄ＝Ｊａｐａｎｅｓｅ））、およびａ（ｓ₁＝ｖ₁，ｓ₂＝ｖ₂，．．．，ｓ_n＝ｖ_n）（たとえば、ｏｆｆｅｒ（ｎａｍｅ＝”ＰｅｋｉｎｇＲｅｓｔａｕｒａｎｔ”，ｆｏｏｄ＝Ｃｈｉｎｅｓｅ，ａｒｅａ＝ｃｅｎｔｒｅ））。ここでは、ａはコミュニケーション関数などのアクション関数であり、ｓ_x、ｖ_xはそれぞれドメインオントロジーによって定義されたスロットおよび値を示す。記憶されたオントロジー内の完全なシステム・アクションは、ポリシーモデルに入力され得る。あるいは、ポリシーモデルに入力される前に、完全なシステム・アクションが「要約」アクションに単純化される。アクションは、それらをａ（ｓ＝ｂ^top _s）、ａ（ｓ＝ｂ^top _s；ｓ＝ｂ^sec _s）、またはａ（ｓ＝ｂ^top _joint）として表すことによって「要約」され得、それに応じて、ここでｂ_sはスロットｓに関する周辺信念を示し、ｂ^top _sとｂ^sec _sは状態ｓの最高位の信念および２番目の信念であり、ｂ_jointは複数のスロット値仮説からなる結合信念である。この抽象化の後、要約アクションは、ａ_s（ｓに依存するアクションの場合）、およびａ（引数を持たない、または引数として結合仮説を取る、すなわち任意の特定のスロットとは独立している場合）として定義され得る。

ポリシーは、アクションが取られる可能性がある、記憶された確率分布によってアクションを決定することができる。ＰＯＭＤＰシステムにおいては、要約信念状態はスロット−値の対を備える。対話ポリシーモデルは、実装中に各対話ターンにおいて最大の期待報酬を伴うアクションが選択されるように、信念状態Ｂにおいて実行されるシステム・アクションａの期待される長期報酬を推定することによって、実装前に最適化される。

要約アクションが使用される場合、ポリシーモデルは要約アクションを選択し、現在の信念状態（場合によってはドメインオントロジー）を調べることによって、これが全システム・アクション空間にマッピングされ得る。たとえば、要約アクションは「ｉｎｆｏｒｍ＿ｌｏｃａｔｉｏｎ」の形式でもよく、「ｉｎｆｏｒｍ（ｌｏｃａｔｉｏｎ＝ｃｅｎｔｒｅ）」という形式の完全なアクションは、信念状態のスロット「ｌｏｃａｔｉｏｎ」のトップ値を検索することによって生成され得る。

Ｓ３０７において、出力アクションによって指定される情報が出力される。たとえば、アクションによって指定されるテキストが、自然言語生成を使用して、次いで、音声を合成するために使用される音声合成装置を使用して生成され得、次いで出力される。

図４は、音声対話システムによって実行される例示的な方法を示すフローチャートである。本方法は、図３に示されたものと同様であるが、この方法では、完全に更新されたシステム状態を生成するために成功尺度がシステム状態に再び入力される前に、成功尺度を生成するために更新されたシステム状態特徴の第１のセットも使用される。

ステップＳ４０１からＳ４０３は、上述したステップＳ３０１からＳ３０３に対応する。

ここでも、状態トラッカーモデルはＰＯＭＤＰベースのモデルであり得、この場合のシステム状態は信念状態である。以下の例は、ＰＯＭＤＰベースの信念状態トラッカーモデルを使用するシステムについて説明されるが、ＭＤＰ−ＳＤＳまたはニューラルネットワークなどの他のシステムが使用され得ることが、ここでも理解されるべきである。

Ｓ４０４において、対話中の入力された音声信号ｕ（ｔ）に対して、信念状態における信念の第１のセットが更新される。これらの信念は、各スロットｓに関する信念のベクトルｂ_s、結合信念、および成功尺度信念以外のスロット独立信念を備え得る。成功尺度信念は、この段階では更新されない。他の信念は、Ｓ３０５に関して説明した方法と同じ方法で、すなわち、信念状態トラッカーモデルを使用して更新される。しかしながら、Ｓ３０４において分類器から出力された値で成功尺度信念を更新するステップは実行されない。

次いで、Ｓ４０５において、成功尺度を生成するために、これらの更新された信念（各スロットｓに関する信念、結合信念、および成功尺度信念以外のスロット独立信念）のうちの１つまたは複数が、分類器に入力された特徴ベクトルに組み込まれる。これらの更新された信念のうちの１つまたは複数は、信念状態特徴の第１のセットと呼ばれる。追加的または代替的に、信念状態特徴の第１のセットを使用して生成された特徴が特徴ベクトルに含まれ得る。成功尺度は、Ｓ３０４に関して説明された方法と同様の方法で分類器によって生成されるが、入力特徴ベクトルは、信念状態特徴の第１のセットからの特徴、および／または信念状態特徴の第１のセットからの特徴を使用して生成された特徴、ならびに音響特徴を備える。

信念状態特徴は、ユーザの対話アクション（すなわち、たとえばエリアを要求するための、または価格帯を選択するための、ユーザの最後の入力）、システムの要約アクション（すなわち、システムによって実行された最後のアクション）、現在のターン数、およびスロットに関する信念状態情報（結合信念）のうちの１つあるいは複数についての情報を備え得る。信念状態情報は、たとえば、特定のスロットに対する完全な信念、または信念状態における各スロットのエントロピーを備え得る。

たとえば、成功尺度を出力するために、以下の音響特徴および信念状態特徴のうちの１つまたは複数が分類器に入力され得る。現在および過去のＲＭＳ値の平均値、現在および過去のＲＭＳ値の標準偏差、ＲＭＳ値の現在および過去の導関数の平均値、現在および以前のピッチ値の平均値、現在および以前のピッチ値の標準偏差、ピッチ値の現在および以前の導関数の平均値、現在のピッチ値と以前のピッチ値との間の範囲、連続するターンにおけるピッチ値の差、トップユーザ対話アクション、信念状態スロットのエントロピー、最後のシステム要約アクション、現在のターン数。

２つの特徴セット（音響特徴および信念状態特徴）は、ユーザが何かをどのように述べたか（音響特徴）、およびユーザが何を述べたか（信念状態特徴）に関連する、異なる種類の情報を捕捉する。この例では、成功尺度を生成するために、音響特徴と信念状態特徴との連結として構築された結合特徴ベクトルが使用される。

成功尺度が生成されると、Ｓ４０６において、信念状態における成功尺度信念が更新される。言い換えれば、完全に更新された信念状態が生成され、これは、更新された特徴の第１のセットおよび更新された成功尺度の特徴を含む。

次いで、更新された信念状態、またはその一部がポリシーモデルに入力され、Ｓ４０７においてアクションが決定される。更新された信念状態の一部は、たとえば要約状態であり得る。Ｓ４０７およびＳ４０８は、Ｓ３０６、Ｓ３０７と同様に実行される。

上述の方法では、音響特徴が抽出されて入力発話ごとに使用されたが、代替として、１つまたは複数の音響特徴の単一のセットが、要約統計を使用して対話ごとに生成され得る。それから、成功尺度は、発話が入力されるたびにではなく、対話の最後に生成される。したがって、要約音響特徴は、対話の最後に一度、分類器に入力される。これは、たとえば音声対話システムの性能を監視するために、音声対話システムの実装中に使用され得る。

図５は、成功尺度を生成するために分類器を学習する例示的な方法のフローチャートを示している。複数の分類器が学習され得、それぞれが異なる成功尺度値を生成し、たとえば、第１の分類器は主観的対話成功の尺度を生成するように学習され得、第２の分類器は対話自然度の尺度を生成するように学習され得、第３の分類器は客観的対話成功の尺度を生成するように学習され得、第４の分類器は総対話長の尺度を生成するように学習され得る。各分類器は、異なっていてもよく、同一のデータに対して学習されても、または異なるデータに対して学習されてもよい。

一度学習されると、分類器は、図２〜図４に関して上述した方法で、すなわち、ステップＳ２０３、Ｓ３０４、またはＳ４０５において成功尺度を生成するために、ＳＤＳにおいて使用され得る。分類器はまた、後述するポリシーモデルを学習する方法において使用することができる。次いで、分類器を学習するために使用される同じ特徴のセットが、その使用中に分類器への入力として使用されるべきである。たとえば、分類器が、音響特徴と信念状態特徴との連結として構築された、入力された結合特徴ベクトルを使用して学習される場合、たとえば図４に関連して上記で説明されたように、実装中に結合特徴ベクトルも使用されるべきである。

分類器は、人間またはシミュレートされた人間のユーザと音声対話システムとの間の音声対話を備えるデータのコーパスを使用して学習され得、データは成功尺度でラベル付けされており、そのデータは、たとえば発話ごと、または対話ごとにユーザによって入力され得る。あるいは、人間またはシミュレートされた人間のユーザとの対話を実行するために分類器を繰り返し使用し、たとえば各発話において、または対話ごとに、成功尺度を提供することによって学習され得る。以下の方法は、記憶された学習コーパスについて説明されるが、ユーザとの学習は、同様の方法で実行され得る。

分類器はドメインに依存しないので、任意の対話トピックに関するＳＤＳデータで学習され得、次いで、異なる対話トピックのためにＳＤＳとともに使用され得る。しかしながら、分類器の性能を向上させるために、分類器、たとえば情報検索型音声対話システムを使用することが意図されている同じタイプの音声対話システムで学習され得る。

システム状態情報が分類器への入力として使用される場合、分類器は、システム状態ベースのＳＤＳ、たとえば、信念状態ベースのＳＤＳで学習される。

Ｓ５０１は、入力された音声信号から１つまたは複数の音響特徴を抽出することを備える。このステップは、たとえばＳ２０１に関して上述したように実行され得る。上述したように、各対話中の各発話から抽出された音響特徴は、Ｓ５０２において分類器に直接入力されてもよく、対話全体の要約音響特徴が生成されてもよい。

Ｓ５０２は、音響特徴を使用して成功尺度を生成することを備える。音響特徴が分類器に入力され、成功尺度が出力される。成功尺度は、記憶された確率分布に基づいて生成され得る。

Ｓ５０３は、ユーザによって入力された成功尺度を使用して分類器を適合させることを備える。ユーザによって入力された成功尺度は、正解データ（グラウンドトゥルース）として使用される。このステップは、記憶された確率分布を更新することを備え得る。

たとえば、分類器は、分類ツリーのセットを備えるランダムフォレストベースの分類器であり得る。ツリーノードごとに、学習パラメータセットのサブセットが考慮される。さらに、各ツリーは、音響特徴の異なるランダムなサブセットを考慮する。この手順によって、異なるツリーは異なる学習特徴セットを有する。ツリーの各ノードに対する最良の分割は、ジニ指数（Ｇｉｎｉ’ｓｉｎｄｅｘ）基準に従って決定され得る。この手順は再帰的であり、ツリーノード内のすべてのレコードが同じクラスに属するまで続く。

次に、成功尺度としての客観的成功の場合のランダムフォレスト分類器の例示的な適合が説明される。平均して、ツリーあたり３０のノードがある。決定分割ごとにランダムに選択するべき音響特徴の数は７である。すべての入力特徴は、置換してサンプリングされる。誤分類のコストは、クラス全体で同じである。ツリーリーフあたりの最小観測値は１である。クラスごとの事前確率は経験的な確率である。テスト中に、フォレスト内のすべてのツリーが横断される。最終的な決定は、各独立したツリーの決定を多数決方式で組み合わせることによって達成される。

分類器は、たとえば、サポートベクターマシン、ガウスプロセス回帰器、ニューラルネットワーク（たとえば、畳み込みニューラルネットワークまたは再帰ニューラルネットワーク）、ベイジアン分類器、判別分析ベースの分類器、またはランダムフォレストベースの分類器のうちの１つまたは複数であり得る。分類器は、たとえば、学習アルゴリズムを使用して更新され得る。

たとえば、分類器が畳み込みニューラルネットワークである場合、それは、運動量を伴う確率的勾配降下最適化方法を使用して適合され得る。分類器を適合させることは、ニューラルネットワークの重みを最適化することを備える。

以下のネットワークアーキテクチャを有する畳み込みニューラルネットワークが使用され得る。サイズ１３×５の入力層、サイズ２×２の１００個のフィルタ（または、特徴マップ）の畳み込み層、ＲＥＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）層、サイズ４×２のプール層、サイズ３×２の１００個のフィルタの畳み込み層、ＲＥＬＵ層、出力サイズが２の全結合層、ｓｏｆｔｍａｘ層、および出力サイズが２（クラス数と同じ）の全結合層。

任意で、信念状態特徴はまた、たとえば事前に学習されたシステム状態トラッカーを使用して、データのコーパスから抽出され得る。これらの信念状態特徴は、図４に関連して上記で説明されたように、成功尺度を生成するために、分類器への入力に含まれ、使用され得る。

次に、成功尺度を生成するためにいくつかの分類器を学習する例が以下で説明される。分類器は、Ａｍａｚｏｎ（登録商標）ＭｅｃｈａｎｉｃａｌＴｕｒｋ（ＡＭＴ）を通じて収集された、人間と対話システムの間の音声対話のデータセットを使用して学習された。データセットは、人と統計的ＳＤＳとの間に１，４５６個の対話（１０，４３１個のユーザ発話）を備えていた。対話は適切なＴｏｓｈｉｂａ（登録商標）ラップトップを見つけることに関係するが、分類器はドメインに依存しないため、分類器を学習するために任意のドメインに関連する対話が使用され得る。各人には、たとえば次のような嗜好のセットが与えられている。「あなたは、中程度の重さの範囲内の業務用ラップトップが欲しい。そのハードドライブのサイズと、その寸法を確認してください」。これが目標である。次いで、人は、アイテムが取り出されるまで、または人が電話を切ることを決定するまで、対話システムと対話した。各対話の終わりに、人々は次の２つの質問に答えることによってフィードバックを求められた。

Ｑ１：あなたが探していたすべての情報を見つけましたか？
答えは、６ポイントのリッカート尺度。

Ｑ２：システムは私をよく理解した。
答えは、はい、またはいいえ。

Ｑ１およびＱ２は、ユーザ満足度の指標、すなわちユーザによって入力された成功尺度のラベルであるとみなされた。Ｑ１は、主観的対話成功の尺度の例である。Ｑ２は、対話自然度の例である。Ｑ１における高い評価とＱ２における「はい」は、より満足度の高いユーザを示している。これらと同様に、客観的対話成功とターン（対話）の回数の２つの客観的メトリクスが対話ごとに計算された。客観的対話成功は、ユーザが目標を達成することに成功したかどうか（はい／いいえ）である。客観的対話成功は、たとえば、ユーザの本来の目標とシステムによって返された情報とを比較することによって、学習中に各ユーザに与えられた目標が対話の最後に満たされているかどうかをチェックすることによって決定され得る。例において、これらの特定の成功尺度が使用されたが、たとえば、ＳＤＳ応答遅延、対話システムがいかにうまくユーザの情報要件を達成するかを要約する混乱行列のカッパ係数、または、意図された目標と達成された目標との間の実際の一致などの他の成功尺度が使用され得る。ターンは、１つのシステムおよび１人のユーザの発話として定義され、したがって、対話は一連のターンと考えられ得る。分類器は、チェックされた結果を正解データとして使用して、これらのメトリクスを予測するように学習される。対話ごとに、ユーザの音声からシステムの音声（部分的なＡＳＲ、ＳＬＵ、信念、システム・アクションなどを含む）への、ＳＳＤＳのすべての構成要素への入力および出力の完全なログがデータに含まれており、対話ターンごとの音響特徴および信念状態特徴の抽出を可能にする。

図６は、データセット内のメトリクスの値分布を示しており、関心のあるメトリックの値分布を示す４つのヒストグラムを含む。

以下は、対話例であって、ＡＭＴ作業者とＳＤＳの間の対話を文字化したものの抜粋である。
システム：こんにちは！あなたが適切なラップトップを見つけるのを手伝うために、私はここにいます。あなたの要求を教えてください。
ユーザ：業務用のラップトップが欲しいです。
Ｓ：あなたが考えているラップトップの価格帯は何ですか？たとえば、安価なラップトップ、高価なラップトップ、または手頃な価格のラップトップ？
Ｕ：気にしません。
Ｓ：Ｓａｔｅｌｌｉｔｅｕ９２０ｔ−１１７はビジネスコンピューティングのための非常に良いコンピュータです。
Ｕ：それは中程度の重さの範囲内ですか？
Ｓ：Ｓａｔｅｌｌｉｔｅｕ９２０ｔ−１１７の重さは１．５２キロです。
．．．
Ｑ１（主観的対話成功）とＱ２（対話自然度）は、ユーザ満足度の構成要素である。分類器はまた、これらの２つのメトリクス以外に、客観的対話成功と対話ターンの数を予測した。

この場合、ユーザは、各対話ターンの後に評価を提供する（すなわち、質問Ｑ１およびＱ２に回答するために）ように求められず、各対話の最後にのみ評価を提供するように求められた。発話ごとに入力された音響特徴を使用して分類器を学習する代わりに、対話の過程における各特徴の要約統計が使用された。しかしながら、代替で、ユーザは各入力発話において回答を提供することができる。さらに、音響特徴は発話ごとに入力され、成功尺度は発話ごとに生成され得るが、分類器は、対話ごとに１回入力または決定された成功尺度を使用して、対話ごとに１回だけ更新される。たとえば、分類器は、対話中の各ターンにおいて客観的成功尺度の予測値を生成することができるが、客観的成功尺度の正解データの値は対話の最後においてのみ決定され、これは分類器を適合させるために使用される。

この例では、各対話の最後に音響特徴および信念状態特徴ごとの要約統計が計算され、これらが分類器に入力され、次いでそれが成功尺度を生成した。要約統計は突然のピークによって影響を受けるが、この場合は要約統計の多くに平均が使用されたため、有益なものになっている。現在のターンは、対話中の総ターンを指す。以下の表１に記載されている音響特徴および信念状態特徴が使用されている。

バイナリＳＶＭ（放射基底関数または多項式カーネルを含む）、ガウスプロセス回帰器（ＧＰＲ、指数関数的な２乗カーネル）およびランダムフォレスト（ＲＦ）を含む４つのメトリックを予測するために、いくつかの分類および回帰分類器が学習された。

すべての実験は、７５−２５の学習試験プロトコールを用いて行われ、１０回の反復で平均した。「Ｑ１」および「ターンの数」は複数の値を取り、これらは様々な尺度にスケーリングされた。たとえば、「ターンの数」は｛１，．．．，２９｝から｛０，．．．，２｝にスケーリングされ、「低い」、「中程度」、または「高い」ターンの数に解釈され得る。「ターンの数」について、対話が成功対話の平均長よりも短い場合を示すバイナリメトリック
が定義され、上式で、ＮＴ_dは現在の対話ｄのターンの数であり、上式でｄ∈Ｄであり、上式でＤは学習中に使用される対話の総セットであり、Ｄ_S⊆Ｄは成功した対話のセットであり、
である。

表２は、音響特徴（ＡＦ）、信念特徴（ＢＦ）、または両方の特徴セットを使用する際の、ＳＶＭ（放射基底関数または多項式カーネルを含む）、ガウスプロセス回帰器ＧＰＲ（指数関数的な２乗カーネルを有する）、およびランダムフォレスト（ＲＦ）の精度を示す。メトリックごとの精度値は、分類器によって生成されたメトリックと、評価データセットの実際のメトリックとを比較することによって決定される。

したがって、表２は、上述のように、ユーザの発話から抽出された音響特徴の要約統計を使用し、関心のあるメトリックのスケーリングされたバージョンを使用する分類器からの結果を示す。同じ表では、信念状態特徴の結果のみ、および音響特徴と信念状態特徴との融合が実証されている。

音響特徴は現在のターン数にアクセスすることはできないが、音響特徴はＤｉａｌｏｇｕｅＬｅｎｇｔｈメトリックを予測する際にはうまく機能する。ＡＢＦはまた、ターン数を予測する際にうまく機能する。これは、たとえば対話が通常より長くなった場合（たとえば、話者が腹を立てている、またはイライラしているときなど）、ＡＦキャプチャがスピーカの信号内で変化するためである。

ＡＦが使用されている場合のＤｉａｌｏｇｕｅＬｅｎｇｔｈメトリックの混同行列は表３に示され、ＢＦが表４に示されているのに対し、特徴レベルの融合結果は以下の表５に示されている。１０個の個々の混同行列が生成されたが、たとえばμ_NTDs未満の長さを有する対話数の１０個の値の平均、およびこのように予測されたアルゴリズムなどの混同行列の個々の要素ごとに、インスタンス数の平均値、続いて括弧内の標準偏差が示されている。この場合、ＡＦが利用された場合の正確に分類されたインスタンス（表３）は、ＢＦが使用された場合（表４）よりも多い。しかしながら、表５に示されるように、２つのタイプの特徴を組み合わせると、より正確に分類されたインスタンスになる。正しく分類されたインスタンスの場合は特に、標準偏差が低くなる。

主観的成功の場合（Ｑ１）、ＳＶＭの精度は５７．９％であることがわかり、理解文（Ｑ２）では８６．４％であった。ＲＦのそれぞれの精度は５８．６％と８３．１％である。

次いで、エンドツーエンドのＳＳＤＳまたは対話ポリシーなどのＳＤＳの特定の構成要素を学習するために、上述の方法で学習された分類器が使用され得る。分類器は、ポリシーモデルを学習するために使用される報酬関数において使用され得る成功の出力尺度（たとえば、成功しなかった場合は０、成功した場合は１）を生成する。以下はバイナリ尺度について説明されるが、成功の非バイナリ尺度も報酬関数に含まれ得る。バイナリ尺度が使用され、分類器によって出力される成功尺度がバイナリ尺度（たとえば、対話ターンの数）ではない場合、記憶された規則を適用することによってバイナリ尺度にスケーリングされ得る（たとえば、数字が何らかのベンチマーク値を上回る場合は尺度＝０、下回る場合は尺度＝１）。複数の分類器が使用され、複数の成功尺度が生成される場合、やはり一連の規則を使用することによって最終的な成功尺度値１または０が生成され得る。たとえば、各成功尺度は１または０のバイナリ値に変換され得、次いで、成功尺度値のすべてが１であれば最終的な成功尺度値は１であり得、成功尺度値のうちの１つまたは複数が０であれば０であり得る。

図５に関連して上記で説明されたように、最初の学習段階の間に、分類器は、たとえば、失敗した対話と成功した対話とを区別するように学習される。学習の次の段階において、対話モデルは、ユーザからの入力に応答してアクションを出力するように学習され、分類器は、対話モデルを学習するための性能指標として使用される成功尺度を生成する。したがって、対話モデルを学習することは、ラベル付けまたは入力されるべきユーザの目標の知識を必要とせずに行われ得る。

分類器はドメインに依存しないため、ドメイン間で簡単に移すことができ、すなわち、任意のドメインのポリシーモデルを学習するために使用され得る。さらに、分類器を再学習することなしに新しいドメインが導入され得る。

さらに、分類器に音響特徴のみが入力された場合、分類器はＡＳＲを使用して生成された入力特徴を取らないので、ＡＳＲ誤差によって影響を受けない。

たとえば、分類器は、図１（ａ）に示されるようなポリシーモデル１８を学習するために使用され得、次いで、出力アクションを決定するためにＳＤＳの実装中に使用される。ポリシーモデルは、たとえば、ガウスプロセスＳＡＲＳＡであってもよい。このようにしてポリシーモデルを学習する方法が以下で説明される。しかしながら、分類器はまた、ポリシーモデルと、図１（ａ）に示されるＳＤＳの１つまたは複数の他の構成要素とを同様の方法で置換する対話モデルを学習するために使用され得ることを理解されたい。たとえば、入力された音声を取り込んでアクションを出力するニューラルネットワークを学習するために使用され得る。

分類器を学習するために使用されるのと同じ音響特徴（たとえば、図５に関連して上記で説明されたように）は、次いで、成功尺度を生成するために、ポリシーモデルの学習中に学習済みの分類器に入力される。次いで、ポリシーモデルを学習するために成功尺度が使用され得る。分類器は、図２〜図４に関連して上記で説明されたように、ポリシーモデルを学習するためにのみ使用されてもよく、ポリシーモデルの実装中に使用されてもよい。

そのような方法では、ポリシーモデルは、人間またはシミュレートされた人間との対話を実行するためにポリシーモデルを繰り返し使用することによって学習され得る。実際のまたはシミュレートされた人間との対話と組み合わせて、または対話に応答して、ポリシーは性能指標を高めるように適合される。性能指標は、成功尺度を使用して生成される。たとえば、対話ポリシーの最適化は、ポリシーモードの実装中に、各対話ターンにおいて最大期待報酬を伴うアクションが選択され得るように、システム状態または信念状態で実行されているシステム・アクションに対する期待される長期報酬を推定することを目的とされ得る。報酬値は、音響特徴を使用して生成された成功尺度を使用して計算される。

このようにポリシーモデルを学習することは、対話品質の何らかの全体的な尺度が必要である。対話品質はユーザの音声信号から生成され、ポリシーモデルを学習するために使用され得る。音声信号からの音響特徴は、上述したように、たとえば対話の成功、自然度、および／または対話長を予測するために使用され得る。ユーザが音声対話システムと会話するやり方は、ユーザの内部状態に関する情報を明らかにすることがある。たとえば、叫んでいるユーザは、対話の間の失敗を示す可能性がある。このことは、対話ポリシーを適合させるために使用され得る。たとえば図２〜図４に示されるように、ポリシーは学習中に学習され、次いで実装中に学習ポリシーに基づいて対話アクションが生成される。

一般に、強化学習（ＲＬ）を使用して、システムは、システムの長期的なリターンを最大にする応答を選択する。この応答は、抽象的なアクション空間から選択され、次いで言語生成を通じてテキストに変換され得る。一般的な場合、ＰＯＭＤＰはタプル｛Ｓ，Ａ，Ｔ，Ｏ，Ω，Ｒ，γ｝として定義され、Ｓは状態空間であり、Ａはアクション空間であり、Ｔ：Ｓ×Ａ→Ｓは遷移関数であり、Ｏ：Ｓ×Ａ→Ωは観測関数であり、Ωは観測のセットであり、
は報酬関数であり、上式で、
は実数を指し、γ∈［０，１］は期待される累積報酬Ｊ＝Ｅ［Σ_tγ^tＲ（ｓ_t，ａ_t）］の割引率であり、上式でＥ［］は期待値である。ポリシーΠ：Ｓ→Ａは状態ごとに取るべきアクションを指示する。最適ポリシーΠ^*は、ＰＯＭＤＰの期待リターンを最大化するアクションを選択し、ＲＬにおけるＪ．Ｌｅａｒｎｉｎｇはそのような最適ポリシーを見つけることを備える。要約信念状態および要約アクションの使用などの近似方法が使用され得る。報酬関数の定義は、ポリシーの最適性を決定付ける。たとえば、ＳＳＤＳの報酬関数は、以下の形式であってもよい。
上式で、ｓ∈Ｓ、ａ∈Ａ、Ｓ^T⊂Ｓは一連の終端状態であり、Ｓ^T _success⊆Ｓ^Tは一連の成功状態であり、Ｓ^T _failure＝Ｓ^T／Ｓ^T _successは一連の失敗状態である。検索された項目がユーザの嗜好と一致した場合、対話は成功したとみなされる。これは、客観的成功と呼ばれる。したがって、Ｓ^T _successは、対話が成功するすべての終端状態を含む。この報酬関数は制御された環境ではうまく機能するが、実際のアプリケーションでは、真のユーザの目標が観測不可能であるため、Ｓ^T _successとＳ^T _failureを定義することができない場合がある。さらに、システムがユーザの目標を部分的に満たす場合、Ｓ^T _success＼Ｓ^T _failureは空ではない場合がある。したがって、対話品質のメトリックを推定するために、代わりに以下の代用法が使用される。

図７は、ポリシーモデルを適合させる例示的な方法のフローチャートである。この方法は成功尺度を生成するために分類器を使用し、それは図５に関連して上記で説明されたように学習された、学習済みの分類器であり得る。

学習中に、言語理解仮説のｎ−ｂｅｓｔリストが入力された音声から生成され得る。次いで、これらは、信念状態を更新するために使用される（ユーザの目標の推定を反映する）。言語理解仮説のｎ−ｂｅｓｔリストは、学習済みのＡＳＲおよび自然言語プロセッサを使用して生成され得る。次いで、信念状態は、学習済みの状態トラッカーモデルによって更新され得る。あるいは、ＡＳＲ、自然言語プロセッサ、および／またはシステム状態トラッカーは、ポリシーモデルとともに学習され得る。

学習中、Ｓ７０１において受信された入力発話ｕ（ｔ）ごとに、たとえばＳ３０２に関して上述したように、Ｓ７０２において１つまたは複数の音響特徴が抽出される。１つまたは複数の音響特徴は、ＡＳＲおよび自然言語処理に使用される音響特徴、ならびに成功尺度を生成するために使用される音響特徴を備える。

言語理解仮説のｎ−ｂｅｓｔリストは、前述したように、Ｓ７０３において、やはりＡＳＲおよび自然言語処理を使用して生成される。次いで、Ｓ７０４において、信念状態が更新される。信念状態がポリシーモードに入力され、次いで、Ｓ７０５においてアクションａを選択する。ポリシーモードは、状態ｓおよびアクションａごとに量Ｑ（ｓ、ａ）を記憶する。入力状態ｓ（たとえば、入力信念状態Ｂ）に対して、ポリシーは、その状態について最も高いＱ値を有するアクションａを選択する。次いで、Ｓ７０６において、選択されたアクションによって指定される情報がユーザに出力される。

Ｓ７０７は、更新点が到達されたかどうかを決定するステップを備える。更新点は、たとえば、対話の終わりであり得る。そうではない場合、対話中の次の入力発話が受信され、上記のステップが繰り返される。

更新点が到達されると、入力音響特徴が生成される。たとえば、更新点が対話の終わりである場合、対話中の発話ごとに抽出された音響特徴値の平均、中央値、最小値および最大値、標準偏差、歪度、および尖度のうちの１つまたは複数が生成される。たとえば、Ｓ７０２において、対話中の発話ごとに、複数の周波数帯域の各々に対応する値が抽出され得る。次いで、Ｓ７０８において、帯域ごとの値の平均が生成され得る。あるいは、すべての発話の特徴が連結され得る。

次いで、これらの音響特徴を備える特徴ベクトルが学習された分類器に入力され、学習された分類器が、Ｓ７０９において、前述した方法と同じ方法で成功尺度を出力する。さらなる特徴が特徴ベクトルに含まれ得、たとえば、信念特徴が含まれ得る。分類器を学習するために使用される同じ音響特徴（たとえば、図５に関連して上記で説明されたように）が、成功尺度を生成するために、Ｓ７０９において、学習済みの分類器に入力される。

特徴は、対話中のすべての発話から抽出された音響特徴から生成されるものとして説明されているが、代替で、また上述したように、対話中の発話のうちの、たとえば、最初の、中間の、または最後のＭ個の発話などの１つまたは複数のみが使用されてもよく、Ｍは１以上Ｎ以下の整数である。これらの発話からの要約または連結された特徴は、対話の最後にＳ７０８において生成され、分類器に入力される。

次いで、Ｓ７１０において、成功尺度を使用して報酬値が計算される。報酬値は、報酬関数から計算される。報酬関数は、成功尺度を入力として含む。報酬関数の例は、次のとおりであり得る。
Ｒ＝｛Ｙ×（ｓｕｃｃｅｓｓｍｅａｓｕｒｅ）｝−Ｎ
上式で、Ｎは対話ターンの総数（すなわち、分類器によって予測されたものではなく、実際に発生した対話ターンの数）であり、成功尺度はＳ７０９において分類器から出力されるか、またはＳ７０９において分類器からの出力を使用して決定される。Ｙは、たとえば２０に等しくてもよいあらかじめ定義された係数である。Ｊは、継時的に関数Ｒによって定義される累積報酬の期待値である。Ｒは即時報酬を定義し、Ｊはその時点からの報酬を推定する。

Ｓ７０９における分類器の出力は、報酬関数に入力される前にバイナリ値に変換され得る。たとえば、上述したように、対話ターンの数は１または０のバイナリ値に変換され得る。対話の自然度（「はい」または「いいえ」）の尺度は、バイナリ値（１＝はい、および０＝いいえ）に変換され得る。

Ｓ７０９において複数の分類器が複数の成功尺度を出力する場合、一連の規則を使用して最終的な成功尺度値１または０が生成され得る。たとえば、上述のように各成功尺度は１または０のバイナリ値に変換され得、次いで、成功尺度値のすべてが１であれば最終的な成功尺度値は１であり得、成功尺度値のうちの１つまたは複数が０であれば０であり得る。

Ｓ７１１において、報酬値および更新規則を使用してポリシーパラメータが更新される。これは、たとえば、Ｑ−ラーニングベースの技法を使用して行われ得る。予測が利用できない対話ターンの場合、一定の報酬値（たとえば、０または−１）が使用され得る。他のものについては、Ｒ関数によって与えられた値が使用される。たとえば、更新点が各対話の終わりである場合、Ｒ関数によって生成されたＲ値は、各対話の最後に使用され、他の対話ターンでは０の報酬値が使用される。

次いで、次の入力発話は、たとえば、更新点が対話の終わりである場合に受信され、次いで、次の対話についての第１の入力発話が受信され、出力アクションを選択するために更新されたポリシーモデルが使用される。これは繰り返され、多くの対話を通じて実行され、ポリシーモデルの実装中に、最大期待報酬を伴うアクションが各対話ターンで選択され得るように、状態ｓ（状態ｓは信念状態Ｂであり得る）で実行されるシステム・アクションａの期待される長期報酬Ｑ（ｓ、ａ）を推定するために、各対話の後にポリシーモデルが更新される。

この例では、報酬値は各対話の終わりに割り当てられ、ポリシーパラメータは対話ごとに一度更新される。しかしながら、代替で、その発話のために抽出された音響特徴から、成功尺度値が発話ごとに生成されてもよい。この場合、発話ごとに生成された成功尺度の関数である報酬関数を使用して報酬値が各発話に割り当てられ、ポリシーパラメータは、たとえばＱ−ラーニング技法に基づく更新規則を使用して各発話で更新される。

音響特徴は、Ｃ（ｉ）、ｉ＝ｉ．．．Ｍ個の分類器への入力として取られ、次いで、分類器の出力に基づいて報酬値を決定するために使用される。

上述したポリシーモデルの学習方法においては、ユーザの声の関数として、ユーザのフィードバックを自動的に評価することによって、報酬値推定への寄与がなされる。

このポリシーは、信念状態を入力として受け取り、対話アクションを出力として生成する。学習中に、報酬関数を最大化するためにポリシーが更新される。すなわち、システムは、対話にわたって報酬を最大化するために最適化される。報酬は、音響特徴から生成された成功尺度を使用して計算される。上記の方法において、成功尺度は、音響特徴を分類器に入力することによって生成される。次いで、この成功尺度は報酬関数に入力され、ポリシーモデルを更新するために使用される。

さらに、報酬値を更新するために、音響特徴のセット｛ＰＵＫ｝がそれ自体で使用され得る。たとえば、抽出された音響特徴のうちの１つまたは複数は、バイナリ尺度または離散尺度に変換され、報酬関数に含まれ得る。

この場合、報酬値は、たとえば以下の関数から計算され得る。
Ｒ＝｛Ｙ×（ｓｕｃｃｅｓｓｍｅａｓｕｒｅ）｝−Ｎ−（ａｃｏｕｓｔｉｃｆｅａｔｕｒｅｍｅａｓｕｒｅ）
または、
Ｒ＝｛Ｙ×（ｓｕｃｃｅｓｓｍｅａｓｕｒｅ）｝−Ｎ−｛ｉ^*（ａｃｏｕｓｔｉｃ＿ｆｅａｔｕｒｅ＿ｍｅａｓｕｒｅ）｝＋｛ｐ^*Ｑ１｝＋｛ｓ^*Ｑ２｝
上式で、（ａｃｏｕｓｔｉｃｆｅａｔｕｒｅｍｅａｓｕｒｅ）は、音響特徴のうちの１つまたは複数から決定され得る。たとえば、（ａｃｏｕｓｔｉｃｆｅａｔｕｒｅｍｅａｓｕｒｅ）は、平均ＲＭＳがしきい値より大きい場合は０に等しくてよく、平均ＲＭＳがしきい値未満である場合は１に等しくてよい。ｉ、ｐ、およびｓは重みである。Ｙはたとえば２０であり得る。

図７に関連して説明した方法では、音響特徴が抽出され、ポリシーモデルを適合させるために使用される。言い換えれば、音響特徴は、成功の尺度を生成するために使用され、次いで、ポリシーパラメータを更新するために使用される。本方法は、ＳＤＳのポリシーモデルを学習するために使用され得る。一度学習されると、ポリシーモデルは記憶され、使用され得る。使用中、ポリシーパラメータはもはや更新されず、音響特徴は報酬値を生成するために使用される必要はもはやない。しかしながら、図２〜図４に関連して前述したように、音響特徴は、他の何らかの目的のために成功尺度を生成するために依然として使用され得る。

図８は、成功尺度および／または音響特徴が、たとえば、図３に関連して上記で説明された方法と同様の方法でシステム状態への入力として使用される、ポリシーモデルを学習する代替の方法を示す。

図３および図４に関連して説明したようなＳＤＳを実装するために、ポリシーモデルに入力されたシステム状態に含まれる成功尺度および／または音響特徴でポリシーモデルが学習されなければならない。そのような学習の方法が以下で説明される。

ポリシーモデルは、人間またはシミュレートされた人間との対話を実行するためにポリシーモデルを繰り返し使用することによって学習される。実際の人間またはシミュレートされた人間との対話と組み合わせて、または対話に応答して、ポリシーは性能指標を高めるように適合される。たとえば、対話ポリシーの最適化は、ポリシーモードの実装中に、各対話ターンにおいて最大期待報酬を伴うアクションが選択され得るように、システム状態または信念状態で実行されているシステム・アクションに対する期待される長期報酬を推定することを目的とされ得る。このようにポリシーモデルを学習することは、対話品質の何らかの全体的な測定を必要とし、各対話の終わりにユーザによって入力されてもよく、たとえば各発話の後に入力されてもよい。代替で、ポリシーモデルは、たとえば、ＡｍａｚｏｎＭｅｃｈａｎｉｃａｌＴｕｒｋ（ＡＭＴ）データセットのように、対話品質の尺度が含まれるデータの記憶されたコーパスを使用して学習され得る。

Ｓ８０１〜Ｓ８０７は、上述したＳ３０１〜Ｓ３０７と同様に実行される。分類器を学習するために使用されたものと同じ音響特徴（たとえば、図５に関連して上記で説明されたように）が、Ｓ８０４において、成功尺度を生成するために、学習済みの分類器に入力される。次いで、成功尺度がシステム状態に含められ、ポリシーモデルに入力される。図３に関連して上記で説明されたように、ポリシーモデルの実装中にも同じ分類器が使用される。

図４に関連して上記で説明されたように、信念状態特徴もまた、Ｓ３０４において分類器に入力され得る。音響特徴は、実装段階に関して上に説明したように、成功尺度の代わりに、または成功尺度と同様に、信念状態に直接含まれ得る。

分類器を学習するために使用されるものと同じ特徴が、ポリシーモデルの学習中およびＳＤＳの実装中にシステム状態に含めるために成功尺度を生成するために使用される。同様に、ポリシーモデルの学習中およびＳＤＳの実装中にシステム状態に同じ特徴が含まれる。

ポリシーパラメータは、各対話の最後または各発話の後に、品質の何らかの入力尺度に基づいて更新される。たとえば、Ｑ−ラーニングベースの更新規則が使用され得る。この品質の尺度は、たとえばユーザによって直接入力され得る。

あるいは、図７に関連して上述したように、成功尺度を生成するために、音響特徴を使用してポリシーモデルを更新するために使用される報酬値が計算され得る。

図９は、音響特徴が報酬関数および信念状態への入力として使用される、エンドツーエンド学習アーキテクチャの概略図である。

ＡＳＲ１２ステップは、人間のユーザ１０からの音声をテキストに変換し、自然言語プロセッサ１４が意味情報を識別して照合し、システム状態トラッカー１６がシステム状態を更新し、ポリシーモデル１８が出力アクションを生成し、自然言語ジェネレータ２０がアクションによって指定される必要なテキストを生成し、音声合成装置２２が音声を合成する。

音響特徴は、成功の尺度が生成される「品質評価」ステップにおいて使用される。このステップの出力、すなわち成功尺度は、信念状態とともにポリシーモデルに入力される。成功尺度は、信念状態の一部であると考えられ得る。このポリシーモデルは、音響特徴および信念状態特徴を出力アクションにマッピングするように学習される。

ポリシーモデルは、システム状態または信念状態で実行されているシステム・アクションの期待される長期報酬を推定することによって学習される。この場合、音響特徴は、報酬計算への入力を生成するために使用される。報酬関数への入力は成功尺度を備え得、また、図示されるように、１つまたは複数の音響特徴を備え得る。「信念状態」および「対話アクション」から「報酬」への矢印は、下の図面においてさらに詳細に示されるように、ＰＯＭＤＰシステムが働く方法を示す。報酬は、行われるべき状態とアクションに依存する。

この学習方法では、ユーザの声は、ａ）対話の品質を予測し、ｂ）報酬関数を推論するために利用される。どちらの場合も、ポリシーとＴＴＳは最適化され得る。音響特徴はまた、図示されるように、ポリシーモデルと並んでテキスト−音声システムを学習するために使用され得る。

図１０は、対話の品質を予測するため、および／または報酬関数を推定するための、音響特徴の２つの使用を示す概略図である。

Ｓ１００１において、音響特徴が音声信号から抽出され、ピッチ、エネルギー、フィルタバンク特徴、他のスペクトル特徴、およびジッタ／シマーを含み得るが、これらに限定されない。

これらの特徴は、成功尺度を出力する分類器に入力され得る。この成功尺度は、報酬関数において使用されてもよく、ＳＤＳの学習中および実装中の信念状態を補うために使用されてもよい。音響特徴自体も、信念状態および／または報酬の計算に含まれ得る。

提案された音響特徴は、対話成功のために最適化しながら、クレジット割当て問題を解決するために使用される対話状態およびポリシー学習（ＲＬまたはＤＮＮのいずれか）に含まれ得る。このよりリッチな対話状態は、システム・アクションレベルでのシステムの出力をガイドするだけでなく、テキスト−音声および言語生成にも情報を提供するために使用され得る。言い換えれば、成功尺度を生成するために使用される音響特徴はまた、テキスト−音声および言語生成のために使用され得る。

記載されているＳＤＳは、ユーザの声を利用するユーザ中心の音声対話システムであり得る。対話システムは、対話プロセスを推定し、ユーザの声に基づいてそれに適合することができる。本システムは、入力音声としてそれを受け取り、分析し、次いで対話を補強するためにその結果を使用することができる。対話は、ａ）対話の品質を予測するか、またはｂ）報酬関数の計算に寄与するかのいずれかのために補強され得る。どちらの場合も、対話システムは、ユーザの発話を考慮に入れるように適合される。入力ユーザ音声は、分類器への入力として与えられるか、またはそれ自体で利用される音響特徴を抽出するために使用される。したがって、音声は、報酬関数値の場合の推定を容易にするために、または品質評価の場合の信念状態を補強するために使用され得る。分類器は、特定のユーザに適合されてもよく、すなわち、それは対象依存であり得る。たとえば、分類器は、特定のユーザで学習され、次いで、同じユーザで使用されることを意図したＳＤＳに実装され得る。分類器は２人以上のユーザで学習されてもよく、特定のユーザを識別し、ユーザごとに異なるように適合され得る。

音響特徴は、ユーザ満足度の構成要素を予測するために有用な情報が豊富である。したがって、上述の方法は、対話品質のメトリックを予測するために音響特徴を使用する。

シンプルな音響特徴を使用してＳＳＤＳと対話する際の、ユーザ満足度と対話品質に関連するメトリックの推定が説明される。そのようなメトリックは、音響特徴を利用することによって予測される。本方法は、特徴抽出（たとえば、ＲＭＳおよびピッチ関連特徴）のための信号処理と、教師あり分類（たとえば、ＳＶＭ、ＧＰＲ、およびＲＦ）とを組み合わせる。音響特徴は、単独で使用されるときも、信念状態特徴と組み合わせて使用されるときも、分類器の性能を向上させる。

音響信号は豊富な情報源であり、パラ言語学的情報を明らかにする。その情報は、ａ）対話の品質を予測し、および／またはｂ）報酬関数の計算に寄与するために使用され得る。対話の品質に関して、これは客観的な対話課題達成と主観的な対話課題達成との間の不一致を減少させることができる。さらに、尺度はドメインに依存せず、隠されており、継時的に変化する可能性があるユーザの目標へのアクセスを必要としない。報酬関数推定の場合、強化学習フレームワーク内で事前に成功尺度を任意に定義する必要性を避けることができる。

特定の構成が記載されているが、これらの構成は例示として提示されたものに過ぎず、本発明の範囲を限定することが意図されるものではない。実際、本明細書に記載の方法およびシステムは、様々な他の形態において具体化され得る。さらに、本明細書に記載の方法および装置の形態における様々な省略、置換、および変更が行われ得る。

Claims

音声対話システムで使用するための成功評価システムであって、
ユーザから発せられ、対話の一部を形成する音声信号に関するデータを受信するための入力部と、
成功尺度を出力するための出力部と、
入力された前記音声信号から１つまたは複数の音響特徴を抽出することと、
前記音響特徴を使用して特徴ベクトルを形成することと、
分類器への入力として前記特徴ベクトルを使用して成功尺度を生成することと、ここにおいて、前記分類器は、前記対話の成功尺度を出力するように構成される
を行うように構成されたプロセッサとを備える、システム。
音声対話システムを適合させる方法であって、
入力された音声信号から１つまたは複数の音響特徴を抽出することと、
対話モデルを使用してアクションを決定することと、ここにおいて、前記対話モデルへの入力は、前記入力された音声信号を使用して生成される、
出力部において前記アクションに関する情報を出力することと、
前記音響特徴を使用して成功尺度を生成することと、
性能指標を高めるように前記対話モデルを適合させることとを備え、
前記性能指標は、前記成功尺度を使用して生成される、
方法。
前記性能指標は、報酬関数を使用して生成された報酬値であり、前記報酬関数は、前記成功尺度の関数である、請求項２に記載の方法。
前記報酬関数は、前記音響特徴のうちの１つまたは複数の関数でもある、請求項３に記載の方法。
特徴ベクトルは、前記音声信号から抽出された前記音響特徴を使用して生成され、分類器に入力され、前記分類器は、成功尺度を出力するように構成される、請求項２に記載の方法。
複数の分類器が存在し、それぞれが、報酬関数に含められる単一の成功尺度を形成するように合成される異なる成功尺度を生成する、請求項５に記載の方法。
コンピュータに請求項２に記載の方法を実行させるように構成されたコンピュータ可読コードを備える、非一時的な記録媒体。