JP6538779B2 - 音声対話システム、音声対話方法、および音声対話システムを適合させる方法 - Google Patents

音声対話システム、音声対話方法、および音声対話システムを適合させる方法 Download PDF

Info

Publication number
JP6538779B2
JP6538779B2 JP2017154206A JP2017154206A JP6538779B2 JP 6538779 B2 JP6538779 B2 JP 6538779B2 JP 2017154206 A JP2017154206 A JP 2017154206A JP 2017154206 A JP2017154206 A JP 2017154206A JP 6538779 B2 JP6538779 B2 JP 6538779B2
Authority
JP
Japan
Prior art keywords
success
input
measure
acoustic features
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017154206A
Other languages
English (en)
Other versions
JP2018128659A (ja
Inventor
コッティ マルガリータ
コッティ マルガリータ
パパンゲリス アレクサンドロス
パパンゲリス アレクサンドロス
スチリアノ イオアニス
スチリアノ イオアニス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2018128659A publication Critical patent/JP2018128659A/ja
Application granted granted Critical
Publication of JP6538779B2 publication Critical patent/JP6538779B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Description

関連出願の相互参照
本出願は、2017年2月6日に出願された先行英国特許出願第1701918.3号に基づき、その優先権の利益を主張するものであり、その内容全体は参照により本明細書に組み込まれる。
本開示は、音声対話システム、音声対話方法、および音声対話システムを適合させる方法に関する。
音声対話システム(SDS)は、たとえば、自動コールセンター、支援技術、音声駆動インタラクティブモバイルアプリケーション、ウェアラブルデバイスのための音声インターフェース、および人間とロボットの対話などを含む多くのアプリケーションで使用されており、人間と言葉で対話することを目的としている。他のアプリケーションは、金融サービス、電話バンキング、教育、支援生活、コールセンター、インテリジェント仮想エージェント、ビデオゲーム、コマーシャル、ヘルスケア、およびカーナビゲーションなどを含む。
そのようなシステムに必要な学習(トレーニング)、メンテナンス、人間の設計入力を削減しながら、SDSの機能を改善し続ける必要がある。
次に、非限定的な構成によるシステムおよび方法を、添付の図面を参照して説明する。
音声対話システムの概略図。 例示的なSDSアーキテクチャの概要を示す図。 成功尺度が音響特徴を使用して生成される、実装中に音声対話システムによって実行される例示的な方法を示すフローチャート。 成功尺度がシステム状態の一部である、実装中に音声対話システムによって実行される例示的な方法を示すフローチャート。 更新されたシステム状態特徴の第1のセットが成功尺度を生成するためにも使用される、実装中に音声対話システムによって実行される例示的な方法を示すフローチャート。 成功尺度を生成するために分類器を学習する例示的な方法のフローチャート。 分類器を学習するために使用されるデータセット内の4つの異なる成功尺度値分布を示す図。 音響特徴を使用して生成された成功尺度が、ポリシーモデルを適合させるために使用される報酬値を更新するために使用される、ポリシーモデルを適合させる例示的な方法のフローチャート。 音響特徴を使用して生成された成功尺度がシステム状態の一部として使用される、ポリシーモデルを適合させる例示的な方法のフローチャート。 音響特徴が報酬関数および信念状態への入力として使用される、エンドツーエンドSDS学習アーキテクチャの概略図。 対話の品質を予測するため、および/または報酬関数を推定するための音響特徴の使用を示す概略図。
音声対話システムであって、
ユーザから発せられ、対話の一部を形成する音声信号に関するデータを受信するための入力部と、
アクションによって指定される情報を出力するための出力部と、
入力された音声信号から1つまたは複数の音響特徴を抽出することと、
対話モデルを使用してアクションを決定することと、ここにおいて、対話モデルへの入力は、入力された音声信号を使用して生成される、
出力部においてアクションによって指定される情報を出力することと、
音響特徴を使用して成功尺度を生成することと
を行うように構成されたプロセッサと
を備えるシステムが提供される。
成功尺度は、記憶され、学習された分類器を使用して生成され得る。特徴ベクトルは、音響特徴を使用して生成され、分類器に入力され、分類器は成功尺度を出力するように構成される。複数の異なる成功尺度が生成され得、それぞれが別個の分類器によって任意に生成される。複数の成功尺度から単一の成功尺度が生成され得る。
成功尺度は、対話モデルに入力され得る。たとえば、成功尺度は、対話モデルに入力された特徴セットに含まれ得る。
対話モデルは、ポリシーモデルおよび状態トラッカーモデルを備えることができ、プロセッサは、
状態トラッカーモデルを使用して、入力された音声信号に基づいてシステム状態を更新することと、
成功尺度を含めるようにシステム状態を更新することと
を行うようにさらに構成され、
更新されたシステム状態はポリシーモデルへの入力である。
入力された音声は、1つまたは複数の言語理解仮説(language understanding hypotheses)に変換され得、これらは、たとえば、状態トラッカーモデルに入力され得る。
システム状態は、信念状態であり得る。この場合、状態トラッカーモデルは、入力された音声に基づいて信念の第1のセットを更新するように構成された、記憶され、学習されたモデルである。信念状態における残りの信念は、成功尺度に関連してもよく、これらは分類器の出力を使用して更新され得る。さらに、残りの信念のうちのいくつかは、たとえば、抽出された音響特徴から直接的に更新され得る。
分類器に入力される特徴ベクトルは、入力された音声信号に基づいて更新されたシステム状態から抽出された特徴をさらに備え得る。たとえば、信念の第1のセットのうちの1つまたは複数が特徴ベクトルに含まれ得る。あるいは、特徴は、信念の第1のセットのうちの1つまたは複数から抽出され、特徴ベクトルに含まれ得る。
音声対話システムであって、
ユーザから発せられ、対話の一部を形成する音声信号に関するデータを受信するための入力部と、
アクションによって指定される情報を出力するための出力部と、
入力された音声信号から1つまたは複数の音響特徴を抽出することと、
状態トラッカーモデルを使用して、入力された音声信号に基づいてシステム状態を更新することと、ここにおいて、更新されたシステム状態が1つまたは複数の音響特徴を備える、
ポリシーモデルを使用してアクションを決定することと、ここにおいて、ポリシーモデルへの入力が更新されたシステム状態である、
出力部において、アクションによって指定される情報を出力することと
を行うように構成されたプロセッサと
を備えるシステムも提供される。
上記の音声対話システムでは、出力部は音声信号を出力するための出力部であってもよく、アクションに関する情報を出力することは、
アクションによって指定されるテキストを生成することと、
テキストを音声に変換し、出力部において音声信号を出力することと
を備える。
また、音声対話システムで使用するための成功評価システムであって、
ユーザから発せられ、対話の一部を形成する音声信号に関するデータを受信するための入力部と、
成功尺度を出力するための出力部と、
入力された音声信号から1つまたは複数の音響特徴を抽出することと、
音響特徴を使用して特徴ベクトルを形成することと、
分類器への入力として特徴ベクトルを使用して成功尺度を生成することと、ここにおいて、分類器が対話の成功尺度を出力するように構成される
を行うように構成されたプロセッサと
を備えるシステムも提供される。
また、音声対話方法であって、
ユーザから発せられ、対話の一部を形成する、入力された音声信号から1つまたは複数の音響特徴を抽出することと、
対話モデルを使用してアクションを決定することと、ここにおいて、対話モデルへの入力は、入力された音声信号を使用して生成される、
出力部においてアクションによって指定される情報を出力することと、
音響特徴を使用して成功尺度を生成することと
を備える方法も提供される。
また、音声対話方法であって、
ユーザから発せられ、対話の一部を形成する、入力された音声信号から1つまたは複数の音響特徴を抽出することと、
状態トラッカーモデルを使用して、入力された音声信号に基づいてシステム状態を更新することと、ここにおいて、更新されたシステム状態は1つまたは複数の音響特徴を備える、
ポリシーモデルを使用してアクションを決定することと、ここにおいて、ポリシーモデルへの入力は更新されたシステム状態である、
出力部においてアクションによって指定される情報を出力することと
を備える方法も提供される。
また、音声対話システムを適合させる方法であって、
入力された音声信号から1つまたは複数の音響特徴を抽出することと、
対話モデルを使用してアクションを決定することと、ここにおいて、ポリシーモデルへの入力は、入力された音声信号を使用して生成される、
出力部においてアクションに関する情報を出力することと、
音響特徴を使用して成功尺度を生成することと、
性能指標を高めるように対話モデルを適合させることと
を備える方法も提供される。
本方法は、人間またはシミュレートされた人間のユーザとの対話を実行するためにシステムを繰り返し使用し、性能指標を提供することによって実行され得、各対話は、ユーザから発せられる複数の音声信号を備える。あるいは、本方法は、人間またはシミュレートされた人間のユーザと音声対話システムとの間の音声対話を備える記憶されたデータを使用することによって実行され得る。
性能指標は、成功尺度を使用して生成され得る。
対話モデルは、ポリシーモデルを備えることができる。性能指標は、報酬関数を使用して生成された報酬値であってもよく、報酬関数は成功尺度の関数である。
報酬関数はまた、音響特徴のうちの1つまたは複数の関数であり得る。
特徴ベクトルは、音声信号から抽出された音響特徴を使用して生成され、分類器に入力され得、分類器は成功尺度を出力するように構成される。分類器の出力は、バイナリ尺度または離散尺度に変換され得る。複数の分類器があり得、それぞれが異なる成功尺度を生成する。報酬関数に含まれる単一の尺度を形成するために、これらが組み合わせられ得る。
報酬値は、対話ごとに1回計算され得る。成功尺度を生成するために、対話中の1つまたは複数の音声信号の音響特徴が使用され得る。
本プロセッサは、状態トラッカーモデルを使用して、入力された音声信号に基づいてシステム状態を更新するようにさらに構成され得、更新されたシステム状態はポリシーモデルへの入力であり、更新されたシステム状態は成功尺度を備える。
また、人間またはシミュレートされた人間のユーザと音声対話システムとの間の音声対話を備えるデータから成功尺度を生成するために分類器のモデルを適合させる方法であって、本データは成功尺度を備え、
入力された音声信号から1つまたは複数の音響特徴を抽出することと、
分類器への入力として、音響特徴を使用して成功尺度を生成することと
データ内の成功尺度を使用して分類器を適合させることと
を備える方法も提供される。
データは、記憶されたデータであってもよく、分類器は、人間またはシミュレートされた人間のユーザとの対話を実行するために音声対話システムを繰り返し使用することによって学習されてもよい。
また、音声対話システムを適合させる方法であって、
入力された音声信号から1つまたは複数の音響特徴を抽出することと、
状態トラッカーモデルを使用して、入力された音声信号に基づいてシステム状態を更新することと、ここにおいて、更新されたシステム状態は1つまたは複数の音響特徴を備える、
ポリシーモデルを使用してアクションを決定することと、ここにおいて、ポリシーモデルへの入力は更新されたシステム状態である、
出力部においてアクションに関する情報を出力する、
性能指標を高めるようにポリシーモデルを適合させることと
を備える方法も提供される。
本方法は、人間またはシミュレートされた人間のユーザとの対話を実行するためにシステムを繰り返し使用し、性能指標を提供することによって実行され得、各対話は、ユーザから発せられる複数の音声信号を備える。あるいは、本方法は、人間またはシミュレートされた人間のユーザと音声対話システムとの間の音声対話を備える記憶されたデータを使用することによって実行され得る。
音響特徴は、入力された音声信号のエネルギーの表示、入力された音声信号のピッチの表示、および入力された音声信号のスペクトル情報のうちの1つまたは複数であり得る。
入力された音声信号の音響特徴は、対話中の他の音声信号を使用して生成され得る。たとえば、音響特徴は、現在の音声信号の音響特徴と、対話中の1つまたは複数の他の音声信号の音響特徴との間の差を含み得る。それらは、現在の音声信号の音響特徴と、対話中の1つまたは複数の他の音声信号の音響特徴との要約値、たとえば平均値を含み得る。
1つまたは複数の音声信号について抽出された音響特徴が結合され得、結合された音響特徴は成功尺度を生成するために使用される。たとえば、音響特徴は、対話中の音声信号のうちの2つ以上について要約、比較、または連結され得る。
成功尺度は、バイナリ成功尺度であってもよく、離散成功尺度であってもよい。成功尺度は、1つまたは複数の分類器の出力を使用して生成され得る。成功尺度は、主観的対話成功の尺度、対話自然度の尺度、客観的対話成功の尺度、および総対話長の尺度のうちの1つまたは複数を備え得る。総対話長の尺度は、たとえば対話ターンの数の尺度であり得る。
また、コンピュータに上述の方法のうちの任意のものを実行させるように構成されたコンピュータ可読コードを備えるキャリア媒体が提供される。
実施形態によるいくつかの方法はソフトウェアによって実装され得るため、いくつかの実施形態は、任意の適切なキャリア媒体上で汎用コンピュータに提供されるコンピュータコードを包含する。キャリア媒体は、フロッピー(登録商標)ディスク、CD−ROM、磁気デバイスまたはプログラマブルメモリデバイスなどの記憶媒体、あるいは、たとえば電気信号、光信号、またはマイクロ波信号などの任意の信号などの任意の一時的媒体を備え得る。キャリア媒体は、非一時的コンピュータ可読記憶媒体を備え得る。
図1(a)は、SDSの一般的なアーキテクチャの例の概要である。音声対話システムは、たとえば、人間のユーザ10からの音声をテキストに変換し(自動音声認識12)、意味情報を識別して照合し(自然言語プロセッサ14)、システム状態を更新し(システム状態トラッカー16)、出力アクションを生成し(ポリシーモデル18)、アクションによって指定される必要なテキストを生成し(自然言語ジェネレータ20)、音声を合成する(音声合成装置22)ための、いくつかの構成要素を備え得る。これらの構成要素の各々は、記憶され、学習されたモデルであり得る。あるいは、構成要素のうちの1つまたは複数は、記憶され、学習された単一のモデルによって置換され得る。あるいは、SDSは、入力された音声を取り出して出力アクションまたは出力された音声にマッピングする単一のモデルを備え得る。このモデルは、たとえばニューラルネットワークであり得る。
図1(b)は、SDS1の概略図である。SDS1は、たとえば、情報検索SDSであり得る。システム1は、プロセッサ3を備え、音声信号である入力を取り込む。本システムはまた、意味的(セマンティック)表現、テキストまたは音声信号、あるいはタスクを実行するためのデバイスへの命令などの他の出力情報を出力し得る。本プロセッサは対話マネージャであり得、SDS1によって取られるべきアクションを決定するためにポリシーを実装し得る。
コンピュータプログラム5は、不揮発性メモリに記憶される。不揮発性メモリはプロセッサ3によってアクセスされ、記憶されたコンピュータプログラムコードはプロセッサ3によって読み出され実行される。記憶装置7はプログラム5によって使用されるデータを記憶する。
システム1は、入力モジュール11をさらに備える。入力モジュール11は、音声信号用の入力部15に接続される。入力部15は、ユーザが音声信号を直接入力することを可能にするインターフェース、たとえばマイクロホンであり得る。あるいは、入力部15は、外部記憶媒体またはネットワークから音声信号を受信するための受信機であり得る。
システム1は、出力モジュール13をさらに備え得る。出力モジュール13には出力部17が接続されていてよい。出力部17は、たとえばスクリーン、ヘッドフォン、またはスピーカなどの、ユーザにデータを提供するインターフェースであり得る。あるいは、出力部17は、外部記憶媒体またはネットワークにデータを送信するための送信機であり得る。あるいは、出力部17は、別のデバイスまたはデバイスの一部に命令を提供し得る。
使用時、システム1は、入力部15を通じて音声信号を受信する。プログラム5は、以下の図面を参照して説明される方法で、プロセッサ3上で実行される。プログラム5は、出力部17においてテキスト信号または音声信号を出力し得る。システム1は、以下の図面を参照して説明される方法で構成および適合され得る。
入力された音声信号からの音響特徴は、たとえば音声信号を文字に起こすために、自動音声認識(ASR)モデル12によってSDSにおいて使用され得る。しかしながら、以下の図面に関連して説明される方法およびシステムにおいては、1つまたは複数の音響特徴はまた、出力アクションを生成するために、またはたとえばポリシーモデル18を適合させるために、ポリシーモデル18によって使用される。これらの1つまたは複数の音響特徴は、音声認識のために抽出されるのと同じ音響特徴および/または異なる音響特徴を備え得る。以下では、ポリシーモデル18による音響特徴の使用の例が記載されているが、音響特徴はまた、ポリシーモデル18と、図1(a)に示されている1つまたは複数の他の構成要素とを置換するモデルによって、同様の方法で使用され得ることが理解されるべきである。たとえば、SDSが、ポリシーモデルと、図1(a)に示される1つまたは複数の他の構成要素とを置換するニューラルネットワークを備える場合、音響特徴は、実装中にニューラルネットワークへの入力として使用されてもよく、学習(トレーニング)中にニューラルネットワークを同様の方法で学習するための性能指標を生成するために使用されてもよい。
音響特徴は、ピッチ、エネルギー、フィルタバンク特徴、他のスペクトル特徴、ジッタ(基本周波数のサイクル間変動の尺度)、およびシマー(振幅のサイクル間変動の尺度)のうちの1つまたは複数を備え得る。
1つまたは複数の音響特徴は、たとえば、対話中の入力された音声信号の二乗平均平方根(RMS)および/またはピッチであり得る。
各対話は一連のユーザ発話u(t)を備え、t=1...Nであり、tはターン数を表し、Nは総ターン数を表す。
1つまたは複数の音響特徴の単一のセットが対話ごとに生成され得る。対話の1つまたは複数の音響特徴を生成することは、対話中の入力発話ごとの音響特徴を備える特徴セットを抽出することと、次いで、入力発話のすべてからの特徴セットを使用して対話の最後に単一の特徴セットを生成することとを備え得る。たとえば、要約統計は、対話の単一の特徴セットを生成するために使用され得、要約統計は、たとえば平均、中央値、最小値および最大値、標準偏差、歪度、90パーセンタイル、および尖度のうちの1つまたは複数を備え得る。あるいは、各発話からの特徴が、単一の特徴セットに連結され得る。
たとえば、対話のために生成された音響特徴のセットは、平均RMS(μRMS)、平均ピッチ(μp)(1つの発話のピッチは、実際にはその発話のピッチ値の平均であり得るので、「ピッチ」は、「発話の平均ピッチ」を指すことができ、「平均ピッチ」は、たとえば対話中のすべての発話のこれらの平均値の平均を意味する)、RMSの標準偏差(σRMS)、ピッチの標準偏差(σP)、ピッチ範囲(rp)、連続発話におけるRMS値間の差(δRMS)、連続発話におけるピッチ値間の差(δp)(ここでの「ピッチ」も発話の平均ピッチ値を指すことができる)、ピッチの導関数の平均
ならびに、複数の周波数帯域ごとの平均値、たとえば、平均メル周波数ケプストラム係数(MFCC)値(ここでも、発話ごとに、MFCCごとの平均値が抽出され得、したがって、「MFCC値」は、「発話の平均MFCC値」を指すことができ、「平均MFCC値」は、たとえば対話中のすべての発話のこれらの平均値の平均を指す、のうちの1つまたは複数を備え得る。あるいは、対話に関する値の平均などの要約統計を使用する代わりに、対話についてのMFCCが「特徴画像」に変換され得る。たとえば、発話ごとに、MFCC成分ごとの平均値、言い換えれば、時間に対する平均がとられる。発話ごとに13個のMFCCがあり得る。次いで、対話中のターンごとに、発話あたり13個の平均MFCCのマトリックスを作成することによって、「特徴画像」が作成される。
これらの特徴は、対話中のすべての発話から抽出された音響特徴から生成され得る。あるいは、対話中の発話のうちの、たとえば、最初の、中間の、または最後のM個の発話などの1つまたは複数のみが使用されてもよく、Mは1以上N以下の整数である。たとえば、MFCCのマトリックスは、最初の5ターンのみを備え得る。したがって、「特徴画像」は、13×5のサイズを有する。
この場合、P個の音響特徴がu(t)ごとに抽出される。さらなるK個の音響特徴は、u(t)と、対話中の他の発話のうちの1つまたは複数との間の時間的進化を捕捉するために、u(t)ごとに抽出され得る。たとえば、連続発話の音響特徴の値の差が抽出され得る。発話の時間的構造は、ユーザの内部状態の変化を知らせる。これらの特徴も抽出することによって、文脈も考慮される。1つの発話(RMSなど)から生じるP個の音響特徴があり、対話の特徴セットを生成するために要約統計または連結が使用され得る。その発話の特徴と、1つまたは複数の他の発話、たとえば連続発話との比較から生じるK個の音響特徴(現在の発話と以前の発話との間のRMSなど)があり、対話の特徴セットを生成するために要約統計または連結も使用され得る。要約特徴のすべては、たとえば、対話についての長さP+Kの1つの特徴ベクトルを形成することができる。
あるいは、対話ごとに単一の特徴セットを生成する代わりに、音響特徴の特徴セットが抽出され、対話中の発話ごとに使用され得る。発話の1つまたは複数の音響特徴を抽出することは、RMS、ピッチ、現在のRMS値と以前の発話のRMS値との間の差、現在のピッチ値と以前の発話のピッチ値との間の差、ピッチの導関数、および複数の周波数帯域(たとえば、MFCC値)ごとの値(たとえば、平均値)のうちの1つまたは複数を備える特徴セットを抽出することを備え得る。要約統計は、以前の発話を使用して特徴を生成するためにも使用され得る。したがって、発話の音響特徴のセットは、追加的または代替的に、現在の発話と以前の発話の平均RMS(μRMS)、現在の発話と以前の発話の平均ピッチ(μp)、現在の発話と以前の発話のRMSの標準偏差(σRMS)、現在の発話と以前の発話のピッチの標準偏差(σP)、現在の発話と以前の発話からのピッチ範囲(rp)、現在の発話と以前の発話のピッチの導関数の平均
ならびに、現在の発話と以前の発話の複数の周波数帯域(たとえば、平均MFCC値)ごとの平均値のうちの1つまたは複数を備え得る。
この場合、P個の音響特徴がu(t)ごとに抽出される。さらなるK個の音響特徴が、u(t)と、対話中の他の以前の発話のうちの1つまたは複数との間の時間的進化を捕捉するために、u(t)ごとに抽出され得る。たとえば、t=3の場合、発話u(3)の音響特徴と発話u(1)およびu(2)のそれぞれの音響特徴との間の差が抽出されてもよく、発話u(3)、u(2)、およびu(1)のRMS値の平均が抽出されてもよい。1つの発話から生じるP個の音響特徴(RMSなど)がある。1つまたは複数の以前の発話とともに現在の発話から生じるK個の音響特徴(現在の発話と以前の発話との間のRMSなど)がある。これらの特徴のすべては、入力発話ごとに長さP+Kの1つの特徴ベクトルを形成することができる。
1つの発話u(t)に対するRMSは、以下の式を使用して計算され得る。
上式で、xu(t)(τ)={x(1),.....,x(L)}は発話u(t)に対応する音声信号であり、上式で、τは発話xu(t)(τ)の音声信号のフレームインデックスであり、Lは音声信号内のフレームの総数である。
ピッチ情報は様々な方法で抽出され得る。1つの例は、以下の自己相関関数が使用される自己相関法を使用することである。
上式で、dはタイムラグであり、Wはウィンドウサイズである。rτ(d)関数は、0において、次いでピッチ周期のすべての倍数において、一連の極大値を有する。ピッチ周期は、このパターンをスキャンすることによって決定され得る。これは、非ゼロ横座標を有する第1の極大値の位置によって推定され得る。いくつかのピッチ値が発話u(t)ごとに返され、これらの値の平均がu(t)のピッチ値として使用され得る。
たとえば、音響特徴のセットは、MFCCおよびピッチを備え得る。
たとえば、新しい入力発話が受信されるたびに、ユーザの内部状態を示すために使用され得る音響特徴が抽出される。SDSシステムに関連するこれらの音響特徴の使用が以下に説明される。
図2は、成功尺度が音響特徴を使用して生成される、実装中に音声対話システムによって実行される例示的な方法を示すフローチャートである。
ステップS201において、入力音声信号u(t)が入力される。入力された音声信号は、ユーザとSDSとの間の対話の一部を形成する。
ステップS202において、1つまたは複数の音響特徴が入力された音声信号から抽出される。このステップにおいて抽出され得る音響特徴の例は、上記に記載されている。
ステップS203において、音響特徴を使用して成功尺度が生成される。
任意で、成功尺度は、システムの実装前に学習されて記憶された分類器によって生成される。分類器の学習については、以下でより詳細に説明される。学習された分類器は、入力発話u(t)ごとに特徴ベクトルを受信するように構成され得、特徴ベクトルは、S202において音声信号から抽出された音響特徴を使用して生成される。分類器は、入力発話u(t)ごとに1つまたは複数の成功尺度値を出力するように構成され得る。
成功尺度は、主観的対話成功の尺度、対話自然度の尺度、客観的対話成功の尺度、および総対話長の尺度のうちの1つまたは複数(たとえば、対話ターンの数の尺度、対話長が実装前の成功した対話の平均長よりも短いか否かの表示)を備え得る。それぞれが異なる成功尺度値を生成する複数の分類器が使用され得、たとえば、第1の分類器が主観的対話成功の尺度を生成し、第2の分類器が対話自然度の尺度を生成し、第3の分類器が客観的対話成功の尺度を生成し、第4の分類器が総対話長の尺度を生成する。各分類器は、入力として異なる特徴をとることができる。
主観的対話成功の尺度は、対話が成功したとユーザが考えるかどうかの尺度を指す。たとえば、情報検索SDSにおいては、主観的対話成功の尺度は、ユーザが探していた情報を見つけたとユーザが考えるかどうかであり得る。これは、バイナリ尺度(たとえば、はい/いいえ)であってもよく、たとえば離散スケール(たとえば、6ポイントのリッカート尺度)で測定されてもよい。
対話自然度の尺度は、ユーザが、理解するために対話をどれだけよく考慮するかを指す。たとえば、これはバイナリ尺度(たとえば、はい/いいえ)であってもよく、離散スケールで測定されてもよい。
客観的対話成功の尺度は、ユーザが目標を達成することに成功したかどうかの尺度である。
対話長の尺度は、対話ターンの数の尺度であり得、また、バイナリ(たとえば、低い/高い、ベンチマーク値よりも低い/高い)であってもよく、連続的なスケールであってもよい。
バイナリ成功尺度は、上記のメトリック(たとえば、成功/失敗)のうちの1つまたは複数から生成され得る。
上記は成功尺度のいくつかの例であるが、他の成功尺度は、このステップにおいて1つまたは複数の分類器によって代替的または追加的に生成され、使用され得る。
成功尺度は、分類器に音響情報を入力することによって生成される。分類器は、音響特徴から対話の成功尺度を予測するように学習される。一般に、対話の成功と音響特徴は関連していると考えられ、たとえば、遅い音声は、対話にそれほど没頭していないユーザを示すことができる。
分類器は、たとえば、サポートベクターマシン、ガウスプロセス回帰器、隠れマルコフモデルベース、ニューラルネットワーク(畳み込みニューラルネットワークなどの、浅層または深層)、ベイジアン分類器、判別分析ベースの分類器、またはランダムフォレストベースの分類器などであり得る。
したがって、S203において、S202において抽出された低レベルの音響記述子は、音響特徴からユーザ満足の構成要素であるメトリックを予測するために、分類器への入力として使用される。
S204において、アクションを決定するために対話モデルが使用され、ここにおいて、対話モデルへの入力は、入力された音声信号を使用して生成される。対話モデルはまた、システムの実装前に学習され、記憶される。対話モデルは、前述したように、ポリシーモデル18であり得る。その場合、音声信号からポリシーモデル18への入力を生成するために、いくつかのさらなる構成要素が使用され得る。あるいは、SDSが単一のニューラルネットワークベースのモデルを備える場合、入力は、たとえば単に音声信号であり得る。対話モデルの学習については後述する。S203における分類器の出力はまた、S204における対話モデルへの入力の一部として使用され得る。対話モデルはアクションを出力する。次いで、S205において、アクションによって指定される情報が出力される。S205において、S204において決定されたアクションによって指定される情報が出力部において出力される。
次に、図1(a)に示されるようなアーキテクチャを有するPOMDPベースのSDSの場合のこのステップの特定の例が、図3に関連して以下でより詳細に説明される。しかしながら、たとえばマルコフ決定プロセス音声対話システム(MDP−SDS)またはニューラルネットワークベースのシステムなどの他のシステムが使用され得ることが理解されるべきである。
図3は、システム状態トラッカーモデル16を使用して、実装中に音声対話システムによって実行される例示的な方法を示すフローチャートである。
ステップS301およびS302は、上述したステップS201およびS202に対応する。
ステップS303において、1つまたは複数の言語理解仮説が、入力された音声信号を使用して生成される。これは、テキスト信号から関連する確率を有する言語理解仮説のn−bestリストを生成するために、入力された音声および自然言語処理からテキスト信号を生成するためにASRを実行することを備え得る。言語理解仮説は、S302において抽出された1つまたは複数の音響特徴を使用して、および/またはS303の一部として音声信号から抽出された他の音響特徴を使用して生成され得る。
ステップS304は上述したステップS203に対応する。
S305において、S304において生成された入力発話および成功尺度から生成された言語理解仮説が状態トラッカーモデル16に入力される。状態トラッカーモデル16は、更新されたシステム状態を出力する。システム状態はまた、対話状態とも呼ばれる。トラッカーモデル16は、意図認識モデルであり得る。S303において生成されたテキストおよび関連する確率は、S304において生成された成功尺度とともにトラッカーモデルに入力される。システム状態は、対話シーケンスにおいてユーザによって行われたシステムへの先行する入力のすべてを追跡するか、それを備えるか、またはそれによって決定され得る。したがって、それは完全な対話履歴および文脈を提供することができる。
システム状態は、複数のカテゴリの各々についての複数の可能な値の各々に関連付けられる確率値を備え得る。カテゴリは、たとえばタスク指向の音声対話システムにおけるスロットであり得る。各スロットは、2つ以上の値に関連付けられ、値は、対話マネージャがスロットに関連して認識できる、可能で有効な応答である。たとえば、スロットは「価格」であり得、可能な値は「低」、「中」および「高」であり得る。場合によっては、スロットは、「提供された」および「提供されていない」可能な値を有し得る。
状態トラッカーモデルはPOMDPベースのモデルであってもよく、この場合のシステム状態は信念状態である。信念状態は、対話シーケンスにおけるシステムの観測の一部または全部を備え得てもよく、それを表してもよく、ここにおいて、観測はシステムへの入力である。以下の例は、POMDPベースの信念状態トラッカーモデルを使用するシステムについて説明されるが、他のシステム、たとえばMDP−SDSが使用され得ることを理解されたい。
この場合、S305において、対話中の入力された音声信号u(t)に対して信念状態が更新され、
を与える。時間tにおける信念状態
は、各スロットsに関する信念のベクトルbsを備える。スロットsに関する信念は、スロットがそれぞれの可能な値を有する確率のセットであり得る。たとえば、スロット 価格について、値および確率は、[空:0.15、安価:0.35、中程度:0.1、高価:0.4]であり得る。これらの確率は、新しい入力発話に基づいて、各ターンtにおいてトラッカーモデル16によって更新される。信念トラッカーモデル16は、入力発話をスロット値にマッピングし、それに応じて確率を更新する、記憶され、学習されたモデルである。
信念状態はまた結合信念を備え得、結合信念は、たとえば価格および場所などの(ユーザが、安いレストランおよび町の中心と言った確率)、複数のスロットの値にわたる確率分布である。これらはまた、信念トラッカーモデル16によって更新される(スロットワイズな信念と同じ方法で、またはたとえば生成されたスロットワイズな信念に基づいて)。
信念状態はまた、スロット独立信念を備える。スロット独立信念は、たとえば、対話履歴に関係する信念を備え得る。
スロット独立信念はまた、S304において生成された成功尺度を備える。この方法において、信念状態を補強するために、S304において生成された成功尺度が使用される。
複数の成功尺度が生成された場合、それぞれが信念状態に別々に含まれてもよく、複数の成功尺度から結合された成功尺度(はい/いいえ)が生成されて、含まれてもよい。
成功尺度の代わりに、または成功尺度に加えて、音響特徴が信念状態に直接含まれ得る。この場合、S304が省略され得、S302から出力された音響特徴がS305において信念状態に直接入力される。たとえば、現在の発話および以前の発話からのRMSの標準偏差、現在の発話および以前の発話からのRMSの最大値、2つの連続するターン間のRMS歪度の差、ならびに2つの連続するターン間の最大ピッチ値の差のうちの1つまたは複数が信念状態に直接含まれる。
成功尺度信念および/または音響特徴信念は、分類器の出力および/または音響特徴抽出によって直接更新される。したがって、S304における分類器の出力値および/またはS302において抽出された音響特徴は、信念状態に直接入力される。たとえば、分類器は、S304において成功尺度「自然度」について「1」の値を出力し得、S305において信念状態の「スロット」「自然度」に値「1」が挿入される。したがって、スロットワイズな信念とは異なり、信念トラッカーモデルは、成功尺度および/または音響特徴信念の信念値を生成するように学習されない。これらは前のステップにおいて生成され、値は単に信念状態に含まれる。
任意で、S305において更新されたシステム状態が「要約」され得る。要約システム状態は、カテゴリごとにのみ最も高い確率値に対応する可能な値を備える。要約システム状態はまた、成功尺度および/または音響的特徴を含む、スロット独立信念も含む。S305は、信念を要約するさらなるステップを備え得る。
次いで、更新されたシステム状態の少なくとも一部がポリシーモデルに入力され、ポリシーモデルがS306においてアクションを決定する。更新されたシステム状態の少なくとも一部は、たとえば要約システム状態であり得る。S306において、S305(要約システム状態であり得る)から出力された、更新されたシステム状態と、記憶されたオントロジーとをポリシーモデル18に入力することによってアクションが決定される。
ポリシーモデル18は、入力システム状態および記憶されたオントロジーに基づいてアクションを出力するために、実装前に学習され、記憶されたオントロジーはアクションを備える。
完全なシステム・アクションaは、次のいずれかの形式をとることができる:a()(たとえば、reqmore()、hello()、thankyou()など)、a(s)(たとえば、request(food))、a(s=v)(たとえば、confirm(area=north))、a(s=v1,s=v2)(たとえば、select(food=Chinese,food=Japanese))、およびa(s1=v1,s2=v2,...,sn=vn)(たとえば、offer(name=”Peking Restaurant”,food=Chinese,area=centre))。ここでは、aはコミュニケーション関数などのアクション関数であり、sx、vxはそれぞれドメインオントロジーによって定義されたスロットおよび値を示す。記憶されたオントロジー内の完全なシステム・アクションは、ポリシーモデルに入力され得る。あるいは、ポリシーモデルに入力される前に、完全なシステム・アクションが「要約」アクションに単純化される。アクションは、それらをa(s=btop s)、a(s=btop s;s=bsec s)、またはa(s=btop joint)として表すことによって「要約」され得、それに応じて、ここでbsはスロットsに関する周辺信念を示し、btop sとbsec sは状態sの最高位の信念および2番目の信念であり、bjointは複数のスロット値仮説からなる結合信念である。この抽象化の後、要約アクションは、as(sに依存するアクションの場合)、およびa(引数を持たない、または引数として結合仮説を取る、すなわち任意の特定のスロットとは独立している場合)として定義され得る。
ポリシーは、アクションが取られる可能性がある、記憶された確率分布によってアクションを決定することができる。POMDPシステムにおいては、要約信念状態はスロット−値の対を備える。対話ポリシーモデルは、実装中に各対話ターンにおいて最大の期待報酬を伴うアクションが選択されるように、信念状態Bにおいて実行されるシステム・アクションaの期待される長期報酬を推定することによって、実装前に最適化される。
要約アクションが使用される場合、ポリシーモデルは要約アクションを選択し、現在の信念状態(場合によってはドメインオントロジー)を調べることによって、これが全システム・アクション空間にマッピングされ得る。たとえば、要約アクションは「inform_location」の形式でもよく、「inform(location=centre)」という形式の完全なアクションは、信念状態のスロット「location」のトップ値を検索することによって生成され得る。
S307において、出力アクションによって指定される情報が出力される。たとえば、アクションによって指定されるテキストが、自然言語生成を使用して、次いで、音声を合成するために使用される音声合成装置を使用して生成され得、次いで出力される。
図4は、音声対話システムによって実行される例示的な方法を示すフローチャートである。本方法は、図3に示されたものと同様であるが、この方法では、完全に更新されたシステム状態を生成するために成功尺度がシステム状態に再び入力される前に、成功尺度を生成するために更新されたシステム状態特徴の第1のセットも使用される。
ステップS401からS403は、上述したステップS301からS303に対応する。
ここでも、状態トラッカーモデルはPOMDPベースのモデルであり得、この場合のシステム状態は信念状態である。以下の例は、POMDPベースの信念状態トラッカーモデルを使用するシステムについて説明されるが、MDP−SDSまたはニューラルネットワークなどの他のシステムが使用され得ることが、ここでも理解されるべきである。
S404において、対話中の入力された音声信号u(t)に対して、信念状態における信念の第1のセットが更新される。これらの信念は、各スロットsに関する信念のベクトルbs、結合信念、および成功尺度信念以外のスロット独立信念を備え得る。成功尺度信念は、この段階では更新されない。他の信念は、S305に関して説明した方法と同じ方法で、すなわち、信念状態トラッカーモデルを使用して更新される。しかしながら、S304において分類器から出力された値で成功尺度信念を更新するステップは実行されない。
次いで、S405において、成功尺度を生成するために、これらの更新された信念(各スロットsに関する信念、結合信念、および成功尺度信念以外のスロット独立信念)のうちの1つまたは複数が、分類器に入力された特徴ベクトルに組み込まれる。これらの更新された信念のうちの1つまたは複数は、信念状態特徴の第1のセットと呼ばれる。追加的または代替的に、信念状態特徴の第1のセットを使用して生成された特徴が特徴ベクトルに含まれ得る。成功尺度は、S304に関して説明された方法と同様の方法で分類器によって生成されるが、入力特徴ベクトルは、信念状態特徴の第1のセットからの特徴、および/または信念状態特徴の第1のセットからの特徴を使用して生成された特徴、ならびに音響特徴を備える。
信念状態特徴は、ユーザの対話アクション(すなわち、たとえばエリアを要求するための、または価格帯を選択するための、ユーザの最後の入力)、システムの要約アクション(すなわち、システムによって実行された最後のアクション)、現在のターン数、およびスロットに関する信念状態情報(結合信念)のうちの1つあるいは複数についての情報を備え得る。信念状態情報は、たとえば、特定のスロットに対する完全な信念、または信念状態における各スロットのエントロピーを備え得る。
たとえば、成功尺度を出力するために、以下の音響特徴および信念状態特徴のうちの1つまたは複数が分類器に入力され得る。現在および過去のRMS値の平均値、現在および過去のRMS値の標準偏差、RMS値の現在および過去の導関数の平均値、現在および以前のピッチ値の平均値、現在および以前のピッチ値の標準偏差、ピッチ値の現在および以前の導関数の平均値、現在のピッチ値と以前のピッチ値との間の範囲、連続するターンにおけるピッチ値の差、トップユーザ対話アクション、信念状態スロットのエントロピー、最後のシステム要約アクション、現在のターン数。
2つの特徴セット(音響特徴および信念状態特徴)は、ユーザが何かをどのように述べたか(音響特徴)、およびユーザが何を述べたか(信念状態特徴)に関連する、異なる種類の情報を捕捉する。この例では、成功尺度を生成するために、音響特徴と信念状態特徴との連結として構築された結合特徴ベクトルが使用される。
成功尺度が生成されると、S406において、信念状態における成功尺度信念が更新される。言い換えれば、完全に更新された信念状態が生成され、これは、更新された特徴の第1のセットおよび更新された成功尺度の特徴を含む。
次いで、更新された信念状態、またはその一部がポリシーモデルに入力され、S407においてアクションが決定される。更新された信念状態の一部は、たとえば要約状態であり得る。S407およびS408は、S306、S307と同様に実行される。
上述の方法では、音響特徴が抽出されて入力発話ごとに使用されたが、代替として、1つまたは複数の音響特徴の単一のセットが、要約統計を使用して対話ごとに生成され得る。それから、成功尺度は、発話が入力されるたびにではなく、対話の最後に生成される。したがって、要約音響特徴は、対話の最後に一度、分類器に入力される。これは、たとえば音声対話システムの性能を監視するために、音声対話システムの実装中に使用され得る。
図5は、成功尺度を生成するために分類器を学習する例示的な方法のフローチャートを示している。複数の分類器が学習され得、それぞれが異なる成功尺度値を生成し、たとえば、第1の分類器は主観的対話成功の尺度を生成するように学習され得、第2の分類器は対話自然度の尺度を生成するように学習され得、第3の分類器は客観的対話成功の尺度を生成するように学習され得、第4の分類器は総対話長の尺度を生成するように学習され得る。各分類器は、異なっていてもよく、同一のデータに対して学習されても、または異なるデータに対して学習されてもよい。
一度学習されると、分類器は、図2〜図4に関して上述した方法で、すなわち、ステップS203、S304、またはS405において成功尺度を生成するために、SDSにおいて使用され得る。分類器はまた、後述するポリシーモデルを学習する方法において使用することができる。次いで、分類器を学習するために使用される同じ特徴のセットが、その使用中に分類器への入力として使用されるべきである。たとえば、分類器が、音響特徴と信念状態特徴との連結として構築された、入力された結合特徴ベクトルを使用して学習される場合、たとえば図4に関連して上記で説明されたように、実装中に結合特徴ベクトルも使用されるべきである。
分類器は、人間またはシミュレートされた人間のユーザと音声対話システムとの間の音声対話を備えるデータのコーパスを使用して学習され得、データは成功尺度でラベル付けされており、そのデータは、たとえば発話ごと、または対話ごとにユーザによって入力され得る。あるいは、人間またはシミュレートされた人間のユーザとの対話を実行するために分類器を繰り返し使用し、たとえば各発話において、または対話ごとに、成功尺度を提供することによって学習され得る。以下の方法は、記憶された学習コーパスについて説明されるが、ユーザとの学習は、同様の方法で実行され得る。
分類器はドメインに依存しないので、任意の対話トピックに関するSDSデータで学習され得、次いで、異なる対話トピックのためにSDSとともに使用され得る。しかしながら、分類器の性能を向上させるために、分類器、たとえば情報検索型音声対話システムを使用することが意図されている同じタイプの音声対話システムで学習され得る。
システム状態情報が分類器への入力として使用される場合、分類器は、システム状態ベースのSDS、たとえば、信念状態ベースのSDSで学習される。
S501は、入力された音声信号から1つまたは複数の音響特徴を抽出することを備える。このステップは、たとえばS201に関して上述したように実行され得る。上述したように、各対話中の各発話から抽出された音響特徴は、S502において分類器に直接入力されてもよく、対話全体の要約音響特徴が生成されてもよい。
S502は、音響特徴を使用して成功尺度を生成することを備える。音響特徴が分類器に入力され、成功尺度が出力される。成功尺度は、記憶された確率分布に基づいて生成され得る。
S503は、ユーザによって入力された成功尺度を使用して分類器を適合させることを備える。ユーザによって入力された成功尺度は、正解データ(グラウンドトゥルース)として使用される。このステップは、記憶された確率分布を更新することを備え得る。
たとえば、分類器は、分類ツリーのセットを備えるランダムフォレストベースの分類器であり得る。ツリーノードごとに、学習パラメータセットのサブセットが考慮される。さらに、各ツリーは、音響特徴の異なるランダムなサブセットを考慮する。この手順によって、異なるツリーは異なる学習特徴セットを有する。ツリーの各ノードに対する最良の分割は、ジニ指数(Gini’s index)基準に従って決定され得る。この手順は再帰的であり、ツリーノード内のすべてのレコードが同じクラスに属するまで続く。
次に、成功尺度としての客観的成功の場合のランダムフォレスト分類器の例示的な適合が説明される。平均して、ツリーあたり30のノードがある。決定分割ごとにランダムに選択するべき音響特徴の数は7である。すべての入力特徴は、置換してサンプリングされる。誤分類のコストは、クラス全体で同じである。ツリーリーフあたりの最小観測値は1である。クラスごとの事前確率は経験的な確率である。テスト中に、フォレスト内のすべてのツリーが横断される。最終的な決定は、各独立したツリーの決定を多数決方式で組み合わせることによって達成される。
分類器は、たとえば、サポートベクターマシン、ガウスプロセス回帰器、ニューラルネットワーク(たとえば、畳み込みニューラルネットワークまたは再帰ニューラルネットワーク)、ベイジアン分類器、判別分析ベースの分類器、またはランダムフォレストベースの分類器のうちの1つまたは複数であり得る。分類器は、たとえば、学習アルゴリズムを使用して更新され得る。
たとえば、分類器が畳み込みニューラルネットワークである場合、それは、運動量を伴う確率的勾配降下最適化方法を使用して適合され得る。分類器を適合させることは、ニューラルネットワークの重みを最適化することを備える。
以下のネットワークアーキテクチャを有する畳み込みニューラルネットワークが使用され得る。サイズ13×5の入力層、サイズ2×2の100個のフィルタ(または、特徴マップ)の畳み込み層、RELU(Rectified Linear Unit)層、サイズ4×2のプール層、サイズ3×2の100個のフィルタの畳み込み層、RELU層、出力サイズが2の全結合層、softmax層、および出力サイズが2(クラス数と同じ)の全結合層。
任意で、信念状態特徴はまた、たとえば事前に学習されたシステム状態トラッカーを使用して、データのコーパスから抽出され得る。これらの信念状態特徴は、図4に関連して上記で説明されたように、成功尺度を生成するために、分類器への入力に含まれ、使用され得る。
次に、成功尺度を生成するためにいくつかの分類器を学習する例が以下で説明される。分類器は、Amazon(登録商標) Mechanical Turk(AMT)を通じて収集された、人間と対話システムの間の音声対話のデータセットを使用して学習された。データセットは、人と統計的SDSとの間に1,456個の対話(10,431個のユーザ発話)を備えていた。対話は適切なToshiba(登録商標)ラップトップを見つけることに関係するが、分類器はドメインに依存しないため、分類器を学習するために任意のドメインに関連する対話が使用され得る。各人には、たとえば次のような嗜好のセットが与えられている。「あなたは、中程度の重さの範囲内の業務用ラップトップが欲しい。そのハードドライブのサイズと、その寸法を確認してください」。これが目標である。次いで、人は、アイテムが取り出されるまで、または人が電話を切ることを決定するまで、対話システムと対話した。各対話の終わりに、人々は次の2つの質問に答えることによってフィードバックを求められた。
Q1:あなたが探していたすべての情報を見つけましたか?
答えは、6ポイントのリッカート尺度。
Q2:システムは私をよく理解した。
答えは、はい、またはいいえ。
Q1およびQ2は、ユーザ満足度の指標、すなわちユーザによって入力された成功尺度のラベルであるとみなされた。Q1は、主観的対話成功の尺度の例である。Q2は、対話自然度の例である。Q1における高い評価とQ2における「はい」は、より満足度の高いユーザを示している。これらと同様に、客観的対話成功とターン(対話)の回数の2つの客観的メトリクスが対話ごとに計算された。客観的対話成功は、ユーザが目標を達成することに成功したかどうか(はい/いいえ)である。客観的対話成功は、たとえば、ユーザの本来の目標とシステムによって返された情報とを比較することによって、学習中に各ユーザに与えられた目標が対話の最後に満たされているかどうかをチェックすることによって決定され得る。例において、これらの特定の成功尺度が使用されたが、たとえば、SDS応答遅延、対話システムがいかにうまくユーザの情報要件を達成するかを要約する混乱行列のカッパ係数、または、意図された目標と達成された目標との間の実際の一致などの他の成功尺度が使用され得る。ターンは、1つのシステムおよび1人のユーザの発話として定義され、したがって、対話は一連のターンと考えられ得る。分類器は、チェックされた結果を正解データとして使用して、これらのメトリクスを予測するように学習される。対話ごとに、ユーザの音声からシステムの音声(部分的なASR、SLU、信念、システム・アクションなどを含む)への、SSDSのすべての構成要素への入力および出力の完全なログがデータに含まれており、対話ターンごとの音響特徴および信念状態特徴の抽出を可能にする。
図6は、データセット内のメトリクスの値分布を示しており、関心のあるメトリックの値分布を示す4つのヒストグラムを含む。
以下は、対話例であって、AMT作業者とSDSの間の対話を文字化したものの抜粋である。
システム:こんにちは!あなたが適切なラップトップを見つけるのを手伝うために、私はここにいます。あなたの要求を教えてください。
ユーザ:業務用のラップトップが欲しいです。
S:あなたが考えているラップトップの価格帯は何ですか?たとえば、安価なラップトップ、高価なラップトップ、または手頃な価格のラップトップ?
U:気にしません。
S:Satellite u920t−117はビジネスコンピューティングのための非常に良いコンピュータです。
U:それは中程度の重さの範囲内ですか?
S:Satellite u920t−117の重さは1.52キロです。
...
Q1(主観的対話成功)とQ2(対話自然度)は、ユーザ満足度の構成要素である。分類器はまた、これらの2つのメトリクス以外に、客観的対話成功と対話ターンの数を予測した。
この場合、ユーザは、各対話ターンの後に評価を提供する(すなわち、質問Q1およびQ2に回答するために)ように求められず、各対話の最後にのみ評価を提供するように求められた。発話ごとに入力された音響特徴を使用して分類器を学習する代わりに、対話の過程における各特徴の要約統計が使用された。しかしながら、代替で、ユーザは各入力発話において回答を提供することができる。さらに、音響特徴は発話ごとに入力され、成功尺度は発話ごとに生成され得るが、分類器は、対話ごとに1回入力または決定された成功尺度を使用して、対話ごとに1回だけ更新される。たとえば、分類器は、対話中の各ターンにおいて客観的成功尺度の予測値を生成することができるが、客観的成功尺度の正解データの値は対話の最後においてのみ決定され、これは分類器を適合させるために使用される。
この例では、各対話の最後に音響特徴および信念状態特徴ごとの要約統計が計算され、これらが分類器に入力され、次いでそれが成功尺度を生成した。要約統計は突然のピークによって影響を受けるが、この場合は要約統計の多くに平均が使用されたため、有益なものになっている。現在のターンは、対話中の総ターンを指す。以下の表1に記載されている音響特徴および信念状態特徴が使用されている。
バイナリSVM(放射基底関数または多項式カーネルを含む)、ガウスプロセス回帰器(GPR、指数関数的な2乗カーネル)およびランダムフォレスト(RF)を含む4つのメトリックを予測するために、いくつかの分類および回帰分類器が学習された。
すべての実験は、75−25の学習試験プロトコールを用いて行われ、10回の反復で平均した。「Q1」および「ターンの数」は複数の値を取り、これらは様々な尺度にスケーリングされた。たとえば、「ターンの数」は{1,...,29}から{0,...,2}にスケーリングされ、「低い」、「中程度」、または「高い」ターンの数に解釈され得る。「ターンの数」について、対話が成功対話の平均長よりも短い場合を示すバイナリメトリック
が定義され、上式で、NTdは現在の対話dのターンの数であり、上式でd∈Dであり、上式でDは学習中に使用される対話の総セットであり、DS⊆Dは成功した対話のセットであり、
である。
表2は、音響特徴(AF)、信念特徴(BF)、または両方の特徴セットを使用する際の、SVM(放射基底関数または多項式カーネルを含む)、ガウスプロセス回帰器GPR(指数関数的な2乗カーネルを有する)、およびランダムフォレスト(RF)の精度を示す。メトリックごとの精度値は、分類器によって生成されたメトリックと、評価データセットの実際のメトリックとを比較することによって決定される。
したがって、表2は、上述のように、ユーザの発話から抽出された音響特徴の要約統計を使用し、関心のあるメトリックのスケーリングされたバージョンを使用する分類器からの結果を示す。同じ表では、信念状態特徴の結果のみ、および音響特徴と信念状態特徴との融合が実証されている。
音響特徴は現在のターン数にアクセスすることはできないが、音響特徴はDialogueLengthメトリックを予測する際にはうまく機能する。ABFはまた、ターン数を予測する際にうまく機能する。これは、たとえば対話が通常より長くなった場合(たとえば、話者が腹を立てている、またはイライラしているときなど)、AFキャプチャがスピーカの信号内で変化するためである。
AFが使用されている場合のDialogueLengthメトリックの混同行列は表3に示され、BFが表4に示されているのに対し、特徴レベルの融合結果は以下の表5に示されている。10個の個々の混同行列が生成されたが、たとえばμNTDs未満の長さを有する対話数の10個の値の平均、およびこのように予測されたアルゴリズムなどの混同行列の個々の要素ごとに、インスタンス数の平均値、続いて括弧内の標準偏差が示されている。この場合、AFが利用された場合の正確に分類されたインスタンス(表3)は、BFが使用された場合(表4)よりも多い。しかしながら、表5に示されるように、2つのタイプの特徴を組み合わせると、より正確に分類されたインスタンスになる。正しく分類されたインスタンスの場合は特に、標準偏差が低くなる。
主観的成功の場合(Q1)、SVMの精度は57.9%であることがわかり、理解文(Q2)では86.4%であった。RFのそれぞれの精度は58.6%と83.1%である。
次いで、エンドツーエンドのSSDSまたは対話ポリシーなどのSDSの特定の構成要素を学習するために、上述の方法で学習された分類器が使用され得る。分類器は、ポリシーモデルを学習するために使用される報酬関数において使用され得る成功の出力尺度(たとえば、成功しなかった場合は0、成功した場合は1)を生成する。以下はバイナリ尺度について説明されるが、成功の非バイナリ尺度も報酬関数に含まれ得る。バイナリ尺度が使用され、分類器によって出力される成功尺度がバイナリ尺度(たとえば、対話ターンの数)ではない場合、記憶された規則を適用することによってバイナリ尺度にスケーリングされ得る(たとえば、数字が何らかのベンチマーク値を上回る場合は尺度=0、下回る場合は尺度=1)。複数の分類器が使用され、複数の成功尺度が生成される場合、やはり一連の規則を使用することによって最終的な成功尺度値1または0が生成され得る。たとえば、各成功尺度は1または0のバイナリ値に変換され得、次いで、成功尺度値のすべてが1であれば最終的な成功尺度値は1であり得、成功尺度値のうちの1つまたは複数が0であれば0であり得る。
図5に関連して上記で説明されたように、最初の学習段階の間に、分類器は、たとえば、失敗した対話と成功した対話とを区別するように学習される。学習の次の段階において、対話モデルは、ユーザからの入力に応答してアクションを出力するように学習され、分類器は、対話モデルを学習するための性能指標として使用される成功尺度を生成する。したがって、対話モデルを学習することは、ラベル付けまたは入力されるべきユーザの目標の知識を必要とせずに行われ得る。
分類器はドメインに依存しないため、ドメイン間で簡単に移すことができ、すなわち、任意のドメインのポリシーモデルを学習するために使用され得る。さらに、分類器を再学習することなしに新しいドメインが導入され得る。
さらに、分類器に音響特徴のみが入力された場合、分類器はASRを使用して生成された入力特徴を取らないので、ASR誤差によって影響を受けない。
たとえば、分類器は、図1(a)に示されるようなポリシーモデル18を学習するために使用され得、次いで、出力アクションを決定するためにSDSの実装中に使用される。ポリシーモデルは、たとえば、ガウスプロセスSARSAであってもよい。このようにしてポリシーモデルを学習する方法が以下で説明される。しかしながら、分類器はまた、ポリシーモデルと、図1(a)に示されるSDSの1つまたは複数の他の構成要素とを同様の方法で置換する対話モデルを学習するために使用され得ることを理解されたい。たとえば、入力された音声を取り込んでアクションを出力するニューラルネットワークを学習するために使用され得る。
分類器を学習するために使用されるのと同じ音響特徴(たとえば、図5に関連して上記で説明されたように)は、次いで、成功尺度を生成するために、ポリシーモデルの学習中に学習済みの分類器に入力される。次いで、ポリシーモデルを学習するために成功尺度が使用され得る。分類器は、図2〜図4に関連して上記で説明されたように、ポリシーモデルを学習するためにのみ使用されてもよく、ポリシーモデルの実装中に使用されてもよい。
そのような方法では、ポリシーモデルは、人間またはシミュレートされた人間との対話を実行するためにポリシーモデルを繰り返し使用することによって学習され得る。実際のまたはシミュレートされた人間との対話と組み合わせて、または対話に応答して、ポリシーは性能指標を高めるように適合される。性能指標は、成功尺度を使用して生成される。たとえば、対話ポリシーの最適化は、ポリシーモードの実装中に、各対話ターンにおいて最大期待報酬を伴うアクションが選択され得るように、システム状態または信念状態で実行されているシステム・アクションに対する期待される長期報酬を推定することを目的とされ得る。報酬値は、音響特徴を使用して生成された成功尺度を使用して計算される。
このようにポリシーモデルを学習することは、対話品質の何らかの全体的な尺度が必要である。対話品質はユーザの音声信号から生成され、ポリシーモデルを学習するために使用され得る。音声信号からの音響特徴は、上述したように、たとえば対話の成功、自然度、および/または対話長を予測するために使用され得る。ユーザが音声対話システムと会話するやり方は、ユーザの内部状態に関する情報を明らかにすることがある。たとえば、叫んでいるユーザは、対話の間の失敗を示す可能性がある。このことは、対話ポリシーを適合させるために使用され得る。たとえば図2〜図4に示されるように、ポリシーは学習中に学習され、次いで実装中に学習ポリシーに基づいて対話アクションが生成される。
一般に、強化学習(RL)を使用して、システムは、システムの長期的なリターンを最大にする応答を選択する。この応答は、抽象的なアクション空間から選択され、次いで言語生成を通じてテキストに変換され得る。一般的な場合、POMDPはタプル{S,A,T,O,Ω,R,γ}として定義され、Sは状態空間であり、Aはアクション空間であり、T:S×A→Sは遷移関数であり、O:S×A→Ωは観測関数であり、Ωは観測のセットであり、
は報酬関数であり、上式で、
は実数を指し、γ∈[0,1]は期待される累積報酬J=E[ΣtγtR(st,at)]の割引率であり、上式でE[]は期待値である。ポリシーΠ:S→Aは状態ごとに取るべきアクションを指示する。最適ポリシーΠ*は、POMDPの期待リターンを最大化するアクションを選択し、RLにおけるJ.Learningはそのような最適ポリシーを見つけることを備える。要約信念状態および要約アクションの使用などの近似方法が使用され得る。報酬関数の定義は、ポリシーの最適性を決定付ける。たとえば、SSDSの報酬関数は、以下の形式であってもよい。
上式で、s∈S、a∈A、ST⊂Sは一連の終端状態であり、ST success⊆STは一連の成功状態であり、ST failure=ST/ST successは一連の失敗状態である。検索された項目がユーザの嗜好と一致した場合、対話は成功したとみなされる。これは、客観的成功と呼ばれる。したがって、ST successは、対話が成功するすべての終端状態を含む。この報酬関数は制御された環境ではうまく機能するが、実際のアプリケーションでは、真のユーザの目標が観測不可能であるため、ST successとST failureを定義することができない場合がある。さらに、システムがユーザの目標を部分的に満たす場合、ST success\ST failureは空ではない場合がある。したがって、対話品質のメトリックを推定するために、代わりに以下の代用法が使用される。
図7は、ポリシーモデルを適合させる例示的な方法のフローチャートである。この方法は成功尺度を生成するために分類器を使用し、それは図5に関連して上記で説明されたように学習された、学習済みの分類器であり得る。
学習中に、言語理解仮説のn−bestリストが入力された音声から生成され得る。次いで、これらは、信念状態を更新するために使用される(ユーザの目標の推定を反映する)。言語理解仮説のn−bestリストは、学習済みのASRおよび自然言語プロセッサを使用して生成され得る。次いで、信念状態は、学習済みの状態トラッカーモデルによって更新され得る。あるいは、ASR、自然言語プロセッサ、および/またはシステム状態トラッカーは、ポリシーモデルとともに学習され得る。
学習中、S701において受信された入力発話u(t)ごとに、たとえばS302に関して上述したように、S702において1つまたは複数の音響特徴が抽出される。1つまたは複数の音響特徴は、ASRおよび自然言語処理に使用される音響特徴、ならびに成功尺度を生成するために使用される音響特徴を備える。
言語理解仮説のn−bestリストは、前述したように、S703において、やはりASRおよび自然言語処理を使用して生成される。次いで、S704において、信念状態が更新される。信念状態がポリシーモードに入力され、次いで、S705においてアクションaを選択する。ポリシーモードは、状態sおよびアクションaごとに量Q(s、a)を記憶する。入力状態s(たとえば、入力信念状態B)に対して、ポリシーは、その状態について最も高いQ値を有するアクションaを選択する。次いで、S706において、選択されたアクションによって指定される情報がユーザに出力される。
S707は、更新点が到達されたかどうかを決定するステップを備える。更新点は、たとえば、対話の終わりであり得る。そうではない場合、対話中の次の入力発話が受信され、上記のステップが繰り返される。
更新点が到達されると、入力音響特徴が生成される。たとえば、更新点が対話の終わりである場合、対話中の発話ごとに抽出された音響特徴値の平均、中央値、最小値および最大値、標準偏差、歪度、および尖度のうちの1つまたは複数が生成される。たとえば、S702において、対話中の発話ごとに、複数の周波数帯域の各々に対応する値が抽出され得る。次いで、S708において、帯域ごとの値の平均が生成され得る。あるいは、すべての発話の特徴が連結され得る。
次いで、これらの音響特徴を備える特徴ベクトルが学習された分類器に入力され、学習された分類器が、S709において、前述した方法と同じ方法で成功尺度を出力する。さらなる特徴が特徴ベクトルに含まれ得、たとえば、信念特徴が含まれ得る。分類器を学習するために使用される同じ音響特徴(たとえば、図5に関連して上記で説明されたように)が、成功尺度を生成するために、S709において、学習済みの分類器に入力される。
特徴は、対話中のすべての発話から抽出された音響特徴から生成されるものとして説明されているが、代替で、また上述したように、対話中の発話のうちの、たとえば、最初の、中間の、または最後のM個の発話などの1つまたは複数のみが使用されてもよく、Mは1以上N以下の整数である。これらの発話からの要約または連結された特徴は、対話の最後にS708において生成され、分類器に入力される。
次いで、S710において、成功尺度を使用して報酬値が計算される。報酬値は、報酬関数から計算される。報酬関数は、成功尺度を入力として含む。報酬関数の例は、次のとおりであり得る。
R={Y×(success measure)}−N
上式で、Nは対話ターンの総数(すなわち、分類器によって予測されたものではなく、実際に発生した対話ターンの数)であり、成功尺度はS709において分類器から出力されるか、またはS709において分類器からの出力を使用して決定される。Yは、たとえば20に等しくてもよいあらかじめ定義された係数である。Jは、継時的に関数Rによって定義される累積報酬の期待値である。Rは即時報酬を定義し、Jはその時点からの報酬を推定する。
S709における分類器の出力は、報酬関数に入力される前にバイナリ値に変換され得る。たとえば、上述したように、対話ターンの数は1または0のバイナリ値に変換され得る。対話の自然度(「はい」または「いいえ」)の尺度は、バイナリ値(1=はい、および0=いいえ)に変換され得る。
S709において複数の分類器が複数の成功尺度を出力する場合、一連の規則を使用して最終的な成功尺度値1または0が生成され得る。たとえば、上述のように各成功尺度は1または0のバイナリ値に変換され得、次いで、成功尺度値のすべてが1であれば最終的な成功尺度値は1であり得、成功尺度値のうちの1つまたは複数が0であれば0であり得る。
S711において、報酬値および更新規則を使用してポリシーパラメータが更新される。これは、たとえば、Q−ラーニングベースの技法を使用して行われ得る。予測が利用できない対話ターンの場合、一定の報酬値(たとえば、0または−1)が使用され得る。他のものについては、R関数によって与えられた値が使用される。たとえば、更新点が各対話の終わりである場合、R関数によって生成されたR値は、各対話の最後に使用され、他の対話ターンでは0の報酬値が使用される。
次いで、次の入力発話は、たとえば、更新点が対話の終わりである場合に受信され、次いで、次の対話についての第1の入力発話が受信され、出力アクションを選択するために更新されたポリシーモデルが使用される。これは繰り返され、多くの対話を通じて実行され、ポリシーモデルの実装中に、最大期待報酬を伴うアクションが各対話ターンで選択され得るように、状態s(状態sは信念状態Bであり得る)で実行されるシステム・アクションaの期待される長期報酬Q(s、a)を推定するために、各対話の後にポリシーモデルが更新される。
この例では、報酬値は各対話の終わりに割り当てられ、ポリシーパラメータは対話ごとに一度更新される。しかしながら、代替で、その発話のために抽出された音響特徴から、成功尺度値が発話ごとに生成されてもよい。この場合、発話ごとに生成された成功尺度の関数である報酬関数を使用して報酬値が各発話に割り当てられ、ポリシーパラメータは、たとえばQ−ラーニング技法に基づく更新規則を使用して各発話で更新される。
音響特徴は、C(i)、i=i...M個の分類器への入力として取られ、次いで、分類器の出力に基づいて報酬値を決定するために使用される。
上述したポリシーモデルの学習方法においては、ユーザの声の関数として、ユーザのフィードバックを自動的に評価することによって、報酬値推定への寄与がなされる。
このポリシーは、信念状態を入力として受け取り、対話アクションを出力として生成する。学習中に、報酬関数を最大化するためにポリシーが更新される。すなわち、システムは、対話にわたって報酬を最大化するために最適化される。報酬は、音響特徴から生成された成功尺度を使用して計算される。上記の方法において、成功尺度は、音響特徴を分類器に入力することによって生成される。次いで、この成功尺度は報酬関数に入力され、ポリシーモデルを更新するために使用される。
さらに、報酬値を更新するために、音響特徴のセット{P U K}がそれ自体で使用され得る。たとえば、抽出された音響特徴のうちの1つまたは複数は、バイナリ尺度または離散尺度に変換され、報酬関数に含まれ得る。
この場合、報酬値は、たとえば以下の関数から計算され得る。
R={Y×(success measure)}−N−(acoustic feature measure)
または、
R={Y×(success measure)}−N−{i*(acoustic_feature_measure)}+{p*Q1}+{s*Q2}
上式で、(acoustic feature measure)は、音響特徴のうちの1つまたは複数から決定され得る。たとえば、(acoustic feature measure)は、平均RMSがしきい値より大きい場合は0に等しくてよく、平均RMSがしきい値未満である場合は1に等しくてよい。i、p、およびsは重みである。Yはたとえば20であり得る。
図7に関連して説明した方法では、音響特徴が抽出され、ポリシーモデルを適合させるために使用される。言い換えれば、音響特徴は、成功の尺度を生成するために使用され、次いで、ポリシーパラメータを更新するために使用される。本方法は、SDSのポリシーモデルを学習するために使用され得る。一度学習されると、ポリシーモデルは記憶され、使用され得る。使用中、ポリシーパラメータはもはや更新されず、音響特徴は報酬値を生成するために使用される必要はもはやない。しかしながら、図2〜図4に関連して前述したように、音響特徴は、他の何らかの目的のために成功尺度を生成するために依然として使用され得る。
図8は、成功尺度および/または音響特徴が、たとえば、図3に関連して上記で説明された方法と同様の方法でシステム状態への入力として使用される、ポリシーモデルを学習する代替の方法を示す。
図3および図4に関連して説明したようなSDSを実装するために、ポリシーモデルに入力されたシステム状態に含まれる成功尺度および/または音響特徴でポリシーモデルが学習されなければならない。そのような学習の方法が以下で説明される。
ポリシーモデルは、人間またはシミュレートされた人間との対話を実行するためにポリシーモデルを繰り返し使用することによって学習される。実際の人間またはシミュレートされた人間との対話と組み合わせて、または対話に応答して、ポリシーは性能指標を高めるように適合される。たとえば、対話ポリシーの最適化は、ポリシーモードの実装中に、各対話ターンにおいて最大期待報酬を伴うアクションが選択され得るように、システム状態または信念状態で実行されているシステム・アクションに対する期待される長期報酬を推定することを目的とされ得る。このようにポリシーモデルを学習することは、対話品質の何らかの全体的な測定を必要とし、各対話の終わりにユーザによって入力されてもよく、たとえば各発話の後に入力されてもよい。代替で、ポリシーモデルは、たとえば、Amazon Mechanical Turk(AMT)データセットのように、対話品質の尺度が含まれるデータの記憶されたコーパスを使用して学習され得る。
S801〜S807は、上述したS301〜S307と同様に実行される。分類器を学習するために使用されたものと同じ音響特徴(たとえば、図5に関連して上記で説明されたように)が、S804において、成功尺度を生成するために、学習済みの分類器に入力される。次いで、成功尺度がシステム状態に含められ、ポリシーモデルに入力される。図3に関連して上記で説明されたように、ポリシーモデルの実装中にも同じ分類器が使用される。
図4に関連して上記で説明されたように、信念状態特徴もまた、S304において分類器に入力され得る。音響特徴は、実装段階に関して上に説明したように、成功尺度の代わりに、または成功尺度と同様に、信念状態に直接含まれ得る。
分類器を学習するために使用されるものと同じ特徴が、ポリシーモデルの学習中およびSDSの実装中にシステム状態に含めるために成功尺度を生成するために使用される。同様に、ポリシーモデルの学習中およびSDSの実装中にシステム状態に同じ特徴が含まれる。
ポリシーパラメータは、各対話の最後または各発話の後に、品質の何らかの入力尺度に基づいて更新される。たとえば、Q−ラーニングベースの更新規則が使用され得る。この品質の尺度は、たとえばユーザによって直接入力され得る。
あるいは、図7に関連して上述したように、成功尺度を生成するために、音響特徴を使用してポリシーモデルを更新するために使用される報酬値が計算され得る。
図9は、音響特徴が報酬関数および信念状態への入力として使用される、エンドツーエンド学習アーキテクチャの概略図である。
ASR12ステップは、人間のユーザ10からの音声をテキストに変換し、自然言語プロセッサ14が意味情報を識別して照合し、システム状態トラッカー16がシステム状態を更新し、ポリシーモデル18が出力アクションを生成し、自然言語ジェネレータ20がアクションによって指定される必要なテキストを生成し、音声合成装置22が音声を合成する。
音響特徴は、成功の尺度が生成される「品質評価」ステップにおいて使用される。このステップの出力、すなわち成功尺度は、信念状態とともにポリシーモデルに入力される。成功尺度は、信念状態の一部であると考えられ得る。このポリシーモデルは、音響特徴および信念状態特徴を出力アクションにマッピングするように学習される。
ポリシーモデルは、システム状態または信念状態で実行されているシステム・アクションの期待される長期報酬を推定することによって学習される。この場合、音響特徴は、報酬計算への入力を生成するために使用される。報酬関数への入力は成功尺度を備え得、また、図示されるように、1つまたは複数の音響特徴を備え得る。「信念状態」および「対話アクション」から「報酬」への矢印は、下の図面においてさらに詳細に示されるように、POMDPシステムが働く方法を示す。報酬は、行われるべき状態とアクションに依存する。
この学習方法では、ユーザの声は、a)対話の品質を予測し、b)報酬関数を推論するために利用される。どちらの場合も、ポリシーとTTSは最適化され得る。音響特徴はまた、図示されるように、ポリシーモデルと並んでテキスト−音声システムを学習するために使用され得る。
図10は、対話の品質を予測するため、および/または報酬関数を推定するための、音響特徴の2つの使用を示す概略図である。
S1001において、音響特徴が音声信号から抽出され、ピッチ、エネルギー、フィルタバンク特徴、他のスペクトル特徴、およびジッタ/シマーを含み得るが、これらに限定されない。
これらの特徴は、成功尺度を出力する分類器に入力され得る。この成功尺度は、報酬関数において使用されてもよく、SDSの学習中および実装中の信念状態を補うために使用されてもよい。音響特徴自体も、信念状態および/または報酬の計算に含まれ得る。
提案された音響特徴は、対話成功のために最適化しながら、クレジット割当て問題を解決するために使用される対話状態およびポリシー学習(RLまたはDNNのいずれか)に含まれ得る。このよりリッチな対話状態は、システム・アクションレベルでのシステムの出力をガイドするだけでなく、テキスト−音声および言語生成にも情報を提供するために使用され得る。言い換えれば、成功尺度を生成するために使用される音響特徴はまた、テキスト−音声および言語生成のために使用され得る。
記載されているSDSは、ユーザの声を利用するユーザ中心の音声対話システムであり得る。対話システムは、対話プロセスを推定し、ユーザの声に基づいてそれに適合することができる。本システムは、入力音声としてそれを受け取り、分析し、次いで対話を補強するためにその結果を使用することができる。対話は、a)対話の品質を予測するか、またはb)報酬関数の計算に寄与するかのいずれかのために補強され得る。どちらの場合も、対話システムは、ユーザの発話を考慮に入れるように適合される。入力ユーザ音声は、分類器への入力として与えられるか、またはそれ自体で利用される音響特徴を抽出するために使用される。したがって、音声は、報酬関数値の場合の推定を容易にするために、または品質評価の場合の信念状態を補強するために使用され得る。分類器は、特定のユーザに適合されてもよく、すなわち、それは対象依存であり得る。たとえば、分類器は、特定のユーザで学習され、次いで、同じユーザで使用されることを意図したSDSに実装され得る。分類器は2人以上のユーザで学習されてもよく、特定のユーザを識別し、ユーザごとに異なるように適合され得る。
音響特徴は、ユーザ満足度の構成要素を予測するために有用な情報が豊富である。したがって、上述の方法は、対話品質のメトリックを予測するために音響特徴を使用する。
シンプルな音響特徴を使用してSSDSと対話する際の、ユーザ満足度と対話品質に関連するメトリックの推定が説明される。そのようなメトリックは、音響特徴を利用することによって予測される。本方法は、特徴抽出(たとえば、RMSおよびピッチ関連特徴)のための信号処理と、教師あり分類(たとえば、SVM、GPR、およびRF)とを組み合わせる。音響特徴は、単独で使用されるときも、信念状態特徴と組み合わせて使用されるときも、分類器の性能を向上させる。
音響信号は豊富な情報源であり、パラ言語学的情報を明らかにする。その情報は、a)対話の品質を予測し、および/またはb)報酬関数の計算に寄与するために使用され得る。対話の品質に関して、これは客観的な対話課題達成と主観的な対話課題達成との間の不一致を減少させることができる。さらに、尺度はドメインに依存せず、隠されており、継時的に変化する可能性があるユーザの目標へのアクセスを必要としない。報酬関数推定の場合、強化学習フレームワーク内で事前に成功尺度を任意に定義する必要性を避けることができる。
特定の構成が記載されているが、これらの構成は例示として提示されたものに過ぎず、本発明の範囲を限定することが意図されるものではない。実際、本明細書に記載の方法およびシステムは、様々な他の形態において具体化され得る。さらに、本明細書に記載の方法および装置の形態における様々な省略、置換、および変更が行われ得る。

Claims (7)

  1. 音声対話システムで使用するための成功評価システムであって、
    ユーザから発せられ、対話の一部を形成する音声信号に関するデータを受信するための入力部と、
    成功尺度を出力するための出力部と、
    入力された前記音声信号から1つまたは複数の音響特徴を抽出することと、
    前記音響特徴を使用して特徴ベクトルを形成することと、
    分類器への入力として前記特徴ベクトルを使用して成功尺度を生成することと、ここにおいて、前記分類器は、前記対話の成功尺度を出力するように構成される
    を行うように構成されたプロセッサとを備える、システム。
  2. 音声対話システムを適合させる方法であって、
    入力された音声信号から1つまたは複数の音響特徴を抽出することと、
    対話モデルを使用してアクションを決定することと、ここにおいて、前記対話モデルへの入力は、前記入力された音声信号を使用して生成される、
    出力部において前記アクションに関する情報を出力することと、
    前記音響特徴を使用して成功尺度を生成することと、
    性能指標を高めるように前記対話モデルを適合させることとを備え、
    前記性能指標は、前記成功尺度を使用して生成される、
    方法。
  3. 前記性能指標は、報酬関数を使用して生成された報酬値であり、前記報酬関数は、前記成功尺度の関数である、請求項2に記載の方法。
  4. 前記報酬関数は、前記音響特徴のうちの1つまたは複数の関数でもある、請求項3に記載の方法。
  5. 特徴ベクトルは、前記音声信号から抽出された前記音響特徴を使用して生成され、分類器に入力され、前記分類器は、成功尺度を出力するように構成される、請求項2に記載の方法。
  6. 複数の分類器が存在し、それぞれが、報酬関数に含められる単一の成功尺度を形成するように合成される異なる成功尺度を生成する、請求項5に記載の方法。
  7. コンピュータに請求項2に記載の方法を実行させるように構成されたコンピュータ可読コードを備える、非一時的な記録媒体。
JP2017154206A 2017-02-06 2017-08-09 音声対話システム、音声対話方法、および音声対話システムを適合させる方法 Active JP6538779B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1701918.3A GB2559408B (en) 2017-02-06 2017-02-06 A spoken dialogue system, a spoken dialogue method and a method of adapting a spoken dialogue system
GB1701918.3 2017-02-06

Publications (2)

Publication Number Publication Date
JP2018128659A JP2018128659A (ja) 2018-08-16
JP6538779B2 true JP6538779B2 (ja) 2019-07-03

Family

ID=58462432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017154206A Active JP6538779B2 (ja) 2017-02-06 2017-08-09 音声対話システム、音声対話方法、および音声対話システムを適合させる方法

Country Status (3)

Country Link
US (1) US10832667B2 (ja)
JP (1) JP6538779B2 (ja)
GB (1) GB2559408B (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10387463B2 (en) * 2017-07-06 2019-08-20 International Business Machines Corporation Dialog agent for conducting task-oriented computer-based communications
US11436549B1 (en) 2017-08-14 2022-09-06 ClearCare, Inc. Machine learning system and method for predicting caregiver attrition
JP6919856B2 (ja) * 2017-09-15 2021-08-18 富士通株式会社 強化学習プログラム、強化学習方法、および強化学習装置
US10424302B2 (en) * 2017-10-12 2019-09-24 Google Llc Turn-based reinforcement learning for dialog management
JP6805112B2 (ja) * 2017-11-08 2020-12-23 株式会社東芝 対話システム、対話方法および対話プログラム
US11093533B2 (en) * 2018-06-05 2021-08-17 International Business Machines Corporation Validating belief states of an AI system by sentiment analysis and controversy detection
US11397888B2 (en) * 2018-06-14 2022-07-26 Accenture Global Solutions Limited Virtual agent with a dialogue management system and method of training a dialogue management system
US11633103B1 (en) 2018-08-10 2023-04-25 ClearCare, Inc. Automatic in-home senior care system augmented with internet of things technologies
US11120226B1 (en) * 2018-09-04 2021-09-14 ClearCare, Inc. Conversation facilitation system for mitigating loneliness
US11238508B2 (en) 2018-08-22 2022-02-01 Ebay Inc. Conversational assistant using extracted guidance knowledge
US11631401B1 (en) 2018-09-04 2023-04-18 ClearCare, Inc. Conversation system for detecting a dangerous mental or physical condition
JP6952663B2 (ja) * 2018-09-06 2021-10-20 Kddi株式会社 応対支援装置及び応対支援方法
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
US11393454B1 (en) * 2018-12-13 2022-07-19 Amazon Technologies, Inc. Goal-oriented dialog generation using dialog template, API, and entity data
US11200885B1 (en) * 2018-12-13 2021-12-14 Amazon Technologies, Inc. Goal-oriented dialog system
CN111694932A (zh) * 2019-03-13 2020-09-22 百度在线网络技术(北京)有限公司 对话方法和装置
CN110010128A (zh) * 2019-04-09 2019-07-12 天津松下汽车电子开发有限公司 一种高识别率的语音控制方法及***
US11574636B2 (en) * 2019-08-29 2023-02-07 Oracle International Corporation Task-oriented dialog suitable for a standalone device
CN110933236B (zh) * 2019-10-25 2022-03-25 杭州哲信信息技术有限公司 一种基于机器学习的空号识别方法
CN111400466A (zh) * 2020-03-05 2020-07-10 中国工商银行股份有限公司 一种基于强化学习的智能对话方法及装置
CN112417109B (zh) * 2020-10-26 2023-08-01 问问智能信息科技有限公司 一种人机对话***的测试方法及装置
US20230186145A1 (en) * 2021-12-13 2023-06-15 International Business Machines Corporation Knowledge augmented sequential decision-making under uncertainty
WO2024067981A1 (en) * 2022-09-29 2024-04-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dialog system and method with improved human-machine dialog concepts

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6609093B1 (en) * 2000-06-01 2003-08-19 International Business Machines Corporation Methods and apparatus for performing heteroscedastic discriminant analysis in pattern recognition systems
JP2008203559A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 対話装置及び方法
US8660844B2 (en) * 2007-10-24 2014-02-25 At&T Intellectual Property I, L.P. System and method of evaluating user simulations in a spoken dialog system with a diversion metric
US8793119B2 (en) * 2009-07-13 2014-07-29 At&T Intellectual Property I, L.P. System and method for generating manually designed and automatically optimized spoken dialog systems
WO2012030838A1 (en) * 2010-08-30 2012-03-08 Honda Motor Co., Ltd. Belief tracking and action selection in spoken dialog systems
CA2747153A1 (en) * 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
US9311430B2 (en) * 2013-12-16 2016-04-12 Mitsubishi Electric Research Laboratories, Inc. Log-linear dialog manager that determines expected rewards and uses hidden states and actions
US10108608B2 (en) * 2014-06-12 2018-10-23 Microsoft Technology Licensing, Llc Dialog state tracking using web-style ranking and multiple language understanding engines
JP2016020963A (ja) * 2014-07-14 2016-02-04 シャープ株式会社 対話評価装置、対話評価システム、対話評価方法および対話評価プログラム
GB2537903B (en) 2015-04-30 2019-09-04 Toshiba Res Europe Limited Device and method for a spoken dialogue system
US10403273B2 (en) * 2016-09-09 2019-09-03 Oath Inc. Method and system for facilitating a guided dialog between a user and a conversational agent

Also Published As

Publication number Publication date
GB2559408B (en) 2020-07-08
US20180226076A1 (en) 2018-08-09
JP2018128659A (ja) 2018-08-16
US10832667B2 (en) 2020-11-10
GB201701918D0 (en) 2017-03-22
GB2559408A (en) 2018-08-08

Similar Documents

Publication Publication Date Title
JP6538779B2 (ja) 音声対話システム、音声対話方法、および音声対話システムを適合させる方法
US10446148B2 (en) Dialogue system, a dialogue method and a method of adapting a dialogue system
EP3857543B1 (en) Conversational agent pipeline trained on synthetic data
US10635698B2 (en) Dialogue system, a dialogue method and a method of adapting a dialogue system
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
US10412223B2 (en) Personalized support routing based on paralinguistic information
JP2021515905A (ja) 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
CN109313892A (zh) 稳健的语言识别方法和***
CN111081230A (zh) 语音识别方法和设备
KR20080023030A (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US11605377B2 (en) Dialog device, dialog method, and dialog computer program
KR20180107940A (ko) 음성 인식을 위한 학습 방법 및 장치
CN103035244B (zh) 一种可实时反馈用户朗读进度的语音跟踪方法
GB2573213A (en) A spoken dialogue system, a spoken dialogue method and a method of adapting a spoken dialogue system
US20230297778A1 (en) Identifying high effort statements for call center summaries
RU2744063C1 (ru) Способ и система определения говорящего пользователя управляемого голосом устройства
KR20240068723A (ko) Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합
KR20240087228A (ko) 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 ai 키오스크 시스템 및 이의 제어 방법
JP2022065309A (ja) 計算機システム及び学習方法
JP2020042130A (ja) 音声認識装置、音声認識方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190606

R151 Written notification of patent or utility model registration

Ref document number: 6538779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151