JP6772916B2

JP6772916B2 - 対話装置および対話方法

Info

Publication number: JP6772916B2
Application number: JP2017053989A
Authority: JP
Inventors: 整加藤; 拓磨峰村; 純一伊藤; 政登藤井; 裕人今野
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2020-10-21
Anticipated expiration: 2037-03-21
Also published as: JP2018155980A

Description

本発明は、ユーザと対話を行う装置に関する。

近年、自然言語によってユーザと対話を行う装置が多く提案されている。特に、「質問に対する情報の提供」といったタスク指向型の対話に加え、雑談といった非タスク指向型の対話を行う技術の進展が著しい。例えば、特許文献１には、ユーザとの対話戦略を学習によって生成する方法が開示されている。

このような技術の進展に伴い、タスク指向型の対話と、非タスク指向型の対話の双方が可能な装置も出現している。タスク指向型の対話とは、「明日の天気を教えて」といったような、特定のタスクを要求する対話であり、非タスク指向型の対話とは、「五月晴れって気持ちいいよね」といったような、特定のタスクを要求しない対話である。これらの双方を使い分けることで、より自然な対話が行えるようになる。

特開２００６−７２４７７号公報

タスク指向型の対話と非タスク指向型の対話の双方が可能である場合、話者（ユーザ）がどのようなモードでの対話を望んでいるかを推定しなければならない場面がある。
例えば、ユーザが「気持ちがいい天気だね」と発話した場合、非タスク指向型の対話が開始されたことがわかるが、例えば、「明日は晴れるかな？」といった発話がなされた場合、文章のみでは、ユーザが明日の天気予報を知りたがっているのか、明日の行動予定について語りたがっているのかを明確に判別することができない。

本発明は上記の課題を考慮してなされたものであり、タスク指向型の対話を行うか、非タスク指向型の対話を行うかを適切に決定する対話装置を提供することを目的とする。

本発明に係る対話装置は、
ユーザが行った発話の内容を認識する発話認識手段と、前記発話に対する応答を生成するルールである応答方策に従って、前記発話に対する応答を生成する応答生成手段と、前記応答に対する好ましさを表す値であるユーザ評価を決定する評価取得手段と、前記ユーザ評価を報酬として強化学習を行い、前記応答方策を更新する更新手段と、を有し、前記応答生成手段は、前記応答方策に従って、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを表す応答モードを決定し、前記応答モードに従って応答を生成することを特徴とする。

応答方策は、対話がどのような状態のときにどのような応答を返すかを定めた方策（ルール）である。本発明では、定められた応答方策に従い、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを決定する。
応答方策は、ユーザとの対話結果に基づいて得た報酬を用いて強化学習を行うことで更新される。例えば、デフォルトの応答方策を有している状態から開始し、対話を通して学習を行い更新してもよい。また、本発明では、強化学習に用いる報酬として、ユーザに提
供した応答がどの程度好ましいものであったかを表す値（ユーザ評価）を事後的に決定する。

ユーザ評価（すなわち、応答がどの程度好ましいものであったか）は、ユーザの状態に基づいて決定してもよい。例えば、応答に対するユーザの反応が好意的なものであった場合、ユーザ評価を高くしてもよいし、反対にユーザの反応が好意的でなかった場合、ユーザ評価を低くしてもよい。ユーザの反応が好意的であるか否かは、例えば、ユーザの発話や表情などをセンシングした結果を用いて決定することができる。
また、ユーザ評価は、応答を行った後における対話の内容に基づいて決定してもよい。例えば、対話が継続した時間などを利用することができる。
かかる構成によると、対話を通じて強化学習が実施され、応答方策がより好ましいものとなる。すなわち、学習が進むにつれ、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを適切に決定できるようになる。

また、本発明に係る対話装置は、タスク指向型の対話がなされている度合いが関連付けられた複数の対話状態の中から、前記発話の内容に基づいて、現在の対話状態を推定する状態推定手段をさらに有し、前記更新手段は、前記複数の対話状態を用いて前記強化学習を行うことを特徴としてもよい。

対話状態とは、ユーザの発話内容によって決定される状態である。また、対話状態は、タスク指向の度合いによって離散化されたものである。このような対話状態を用いて強化学習を行うことで、現在の対話状態に応じて、タスク指向型の応答モードを採用するか、非タスク指向型の応答モードを採用するかを適切に決定できるようになる。

また、前記強化学習はＱ学習であり、前記応答方策は、前記対話状態および応答モードの組み合わせに関連付いたＱ値であることを特徴としてもよい。

本発明に係る対話装置は、強化学習の一種であるＱ学習を好適に用いることができる。

また、本発明に係る対話装置は、前記ユーザが前記対話において言及している対象を識別する対象推定手段をさらに有し、識別した前記対象ごとに、前記対話状態の推定および強化学習を行うことを特徴としてもよい。

対話においてユーザが言及している対象が変化する（すなわち、話題が転換する）と、ユーザがタスク指向型の応答を望んでいるか、非タスク指向型の応答を望んでいるかが大きく変化する場合がある。そこで、話題ごとに対話状態の推定および強化学習を行うことで、より適切な応答モードを選択できるようになる。

また、本発明に係る対話装置は、前記ユーザを識別する話者推定手段をさらに有し、識別した前記ユーザごとに、前記対話状態の推定および強化学習を行うことを特徴としてもよい。

タスク指向型の応答が好ましいか、非タスク指向型の応答が好ましいかの判断基準はユーザごとに異なる。そこで、対話の状態判定や学習をユーザごとに別個に行うことで、より適切な応答モードを選択できるようになる。

また、前記評価取得手段は、前記応答方策に従って応答を行ったあとにおける前記ユーザの発話に基づいて前記ユーザ評価を決定することを特徴としてもよい。
また、前記評価取得手段は、前記応答方策に従って応答を行ったあとで一連の対話が継続した長さに基づいて、前記ユーザ評価を決定することを特徴としてもよい。
また、前記評価取得手段は、前記応答方策に従って応答を行ってから前記ユーザが更なる発話をするまでの時間に基づいて、前記ユーザ評価を決定することを特徴としてもよい。

例えば、ユーザがタスク指向型の対話を望んでいるのに、非タスク指向型の応答を提供してしまった場合など、適切ではない応答を行った場合、対話が途切れてしまうことが想定できる。よって、応答に続くユーザの発話や、対話の継続時間、ユーザが発話するまでの時間等に基づいてユーザ評価を決定することができる。

なお、本発明は、上記手段の少なくとも一部を含む対話装置として特定することができる。また、前記対話装置が行う対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。

本発明によれば、対話装置において、タスク指向型の対話を行うか、非タスク指向型の対話を行うかを適切に決定することができる。

第一の実施形態に係る対話装置のシステム構成図である。本発明における対話状態を説明する図である。第一の実施形態における報酬テーブルの例である。第一の実施形態に係る対話装置が行う処理フローチャート図である。ユーザと装置が行う対話の例である。第二の実施形態に係る対話装置のシステム構成図である。第三の実施形態に係る対話装置のシステム構成図である。

（第一の実施形態）
<システム概要>
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
第一の実施形態に係る対話装置は、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。

本実施形態に係る対話装置は、タスク指向型の対話と、非タスク指向型の対話の双方が可能な構成となっている。タスク指向型の対話とは、特定の課題（タスク）の達成を目的とした対話であり、非タスク指向型の対話とは、特定のタスクの達成を目的としない対話である。例えば、「明日の天気を教えて」といった発話がなされた場合、「気象情報を提供する」というタスクが達成すべきタスクとなる。また、「エアコンの温度を下げて」といった発話がなされた場合、空調の設定温度を下げるというタスクが達成すべきタスクとなる。一方、非タスク指向型の対話においては、達成すべきタスクが無いため、雑談中心の対話となる。

前述したように、ユーザの発話が、「○○して」といったように、具体的なタスクを要求するものであった場合、タスク指向型の対話が開始されたことがわかる。しかし、例えば、「明日晴れるかな？」「ちょっと暑くない？」といった発話がなされた場合、対話がどちらであるか断定できない場合がある。第一の実施形態に係る対話装置は、強化学習を利用して、タスク指向型の応答をすべきか非タスク指向型の応答をすべきかを判定し、適切なモードによって応答する機能を有する。

<システム構成>
次に、前述した機能を実現するための装置のシステム構成について説明する。
図１は、第一の実施形態に係る対話装置のシステム構成図である。本実施形態に係る対話装置１００は、入出力部１０１、発話取得部１０２、応答生成部１０３、状態推定部１０４、学習部１０５、評価取得部１０６を含んで構成される。

入出力部１０１は、内蔵されたマイクおよびスピーカによって音声の入出力を行う手段である。入出力部１０１は、入力された音声を音声データに変換し、また、入力された音声データを音声によって出力する機能を有している。

発話取得部１０２は、ユーザが発した音声を、入出力部１０１を介して取得し、認識する手段である。発話取得部１０２は、取得した音声データに対して、既知の技術を用いて音声認識を行う。例えば、発話取得部１０２には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部１０３および状態推定部１０４へ送信される。
なお、発話取得部１０２は、装置外部のサービスを用いて音声認識を行ってもよい。例えば、図１に示したように、ネットワークを介して外部の音声認識サーバと通信を行い、認識結果を取得するように構成してもよい。

応答生成部１０３は、発話取得部１０２から取得したテキストに基づいて、ユーザに提供する応答文を生成する手段である。提供する応答文は、例えば、事前に記憶された対話シナリオ（対話辞書）に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。
また応答生成部１０３は、後述する状態推定部１０４が推定した対話状態と、学習部１０５に記憶された情報に基づいて、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを表す応答モードを決定し、当該応答モードに応じて異なるタイプの応答を生成する。具体的な方法については後述する。

状態推定部１０４は、ユーザとの対話状態を推定する手段である。本明細書における対話状態とは、タスク指向型の対話がなされている度合いが関連付けられた複数の状態であって、ユーザが行った発話の内容に依拠して決定される。
ここで、図２を参照しながら対話状態について説明する。本明細書においては、対話中のある時点における状態を、タスク指向型の対話がなされている度合い（以下、タスク度）に関連付けて特定する。
ここで、対話が取りうる状態の集合をＳとし、タスク度を１０段階に離散化すると、Ｓは以下のようになる。なお、Ｓ₀は発話が無い状態を意味するものとする。
Ｓ＝｛Ｓ₀，Ｓ₁，Ｓ₂，…，Ｓ₁₀｝

図２の例の場合、状態Ｓ₁が、対話が最も非タスク指向型である状態であり、状態Ｓ₁₀
が、対話が最もタスク指向型である状態である。対話状態は、ユーザまたは装置が発話するたびに変化（遷移）しうる。各対話状態間は自由に遷移することができるが、発話があっても対話状態が変化しない場合もある。
状態推定部１０４は、ユーザが行った発話の内容に基づいてタスク度を判定し、対話状態をその都度推定する。タスク度の判定には、公知の技術を利用することができる。

ところで、画一的な基準を用いてタスク度の判定を行っただけでは、適切な応答モードを選択できない場合がある。例えば、「明日は晴れるかな？」といった発話において、ユーザＡは天気予報を要求する意図があり、ユーザＢは明日の予定について会話を交わしたいという意図があるといったケースが存在する。
そこで、本実施形態に係る対話装置は、後述する手段によって強化学習を行い、得られ
た学習結果を併用して応答モードを決定する。

学習部１０５は、応答モードを決定するためのデータを強化学習によって蓄積する手段である。学習部１０５は、対話状態がどのような状態にある場合に、どのような応答モードで応答すれば期待報酬が最大になるか（すなわち、ユーザを満足させる応答ができるか）をＱ学習によって学習する。
図３（Ａ）および（Ｂ）は、学習部１０５によって保持されるテーブル（報酬テーブル）の例である。本実施形態では、対話状態（状態推定部１０４が推定した対話状態に対応）と、応答モード（Ａ₁が非タスク指向型の応答を意味し、Ａ₂がタスク指向型の応答を意味する）が、期待報酬と関連付けて記憶されている。
期待報酬とは、強化学習において期待される報酬であり、本実施形態においては、応答の適切度を表す値である。期待報酬は、たとえば、ユーザの満足度などに基づいて、学習を通して更新される。学習の進め方と期待報酬については後述する。

図３（Ａ）は、初期値が格納された報酬テーブルを表し、図３（Ｂ）は学習後における報酬テーブルを表す。例えば、図３（Ｂ）の場合、対話状態がＳ₁にある場合、非タスク
指向型の応答をした場合により大きい報酬が期待できる（すなわち、ユーザが満足する）ことが示されている。また、対話状態がＳ₁₀にある場合、タスク指向型の応答をした場合により大きい報酬が期待できることが示されている。

学習部１０５は、装置が用いるデータを一時的または恒久的に記憶する手段を有している。例えば、高速に読み書きでき、かつ、大容量なフラッシュメモリなどの記憶媒体を用いることが好ましい。

評価取得部１０６は、学習部１０５が強化学習を行うための報酬を取得する手段である。本実施形態では、報酬とは、応答生成部１０３が生成した応答の好ましさを表す値（ユーザ評価）であって、ユーザの反応に基づいて事後的に取得される。

ここで、報酬の取得方法について説明する。
応答生成部１０３が生成した応答が適切な応答モードであった場合（すなわち、ユーザが望む応答モードと一致していた場合）、対話がスムーズに続くことが想定される。また、応答生成部１０３が生成した応答が適切な応答モードでなかった場合、対話がスムーズに続かなくなることが想定される。そこで、本実施形態では、応答をユーザに提供した後で、一連の対話が継続したか否かに基づいて報酬を算出する。
例えば、対話が継続した場合は＋１．０という値を報酬とし、対話が途切れてしまった場合は−１．０という値を報酬とする。算出した報酬は学習部１０５へ送信され、直前に生成した応答を評価する学習データとして用いられる。

なお、本例では、対話が継続したか否かに基づいて報酬を決定したが、報酬は、応答モードが適切であったか否かを評価することができれば、他の方法によって算出してもよい。例えば、対話が継続した長さ（時間やターン数）に基づいて報酬を算出してもよい。また、ユーザが反応するまでの時間に基づいて報酬を算出してもよい。
この他にも、ユーザをセンシングした結果に基づいて報酬を算出してもよい。例えば、声のトーンなどに基づいてユーザの満足度を推定し、報酬として利用してもよい。もちろん、発話の内容（例えば、直前の応答における応答モードを否定するような発話がなされたか否か）に基づいて報酬を算出してもよい。

対話装置１００は、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、以降に説明する機能が実現される。なお、図示した機
能の全部または一部は、専用に設計された回路（半導体集積回路など）を用いて実行されてもよい。

<処理フローチャート>
次に、図１に示した各手段が行う処理について、処理フローチャート図である図４を参照しながら説明する。図４に示したフローチャートは、装置が学習を行っていない初期状態から開始される。

まず、ステップＳ１１で、報酬テーブルにデフォルト値を挿入する。本実施形態では、図３（Ａ）に示したような１０個の対話状態を定義し、それぞれにＡ₁（非タスク指向型
の応答）とＡ₂（タスク指向型の応答）が関連付けられている。また、それぞれの応答に
期待報酬（Ｑ値）が関連付けられている。期待報酬（Ｑ値）は、どちらのモードで応答した場合により高い報酬（ユーザの満足度）が得られるかを表す無次元数である。本例では、デフォルト値として、全ての項目に５が挿入されている。
また、ユーザとの対話が開始されると、処理はステップＳ１２へ遷移する。

ステップＳ１２では、ユーザが行った発話を発話取得部１０２が取得し、音声認識を行う。認識の結果得られたテキストは、応答生成部１０３および状態推定部１０４へ送信される。
次いで、状態推定部１０４が、ユーザが行った発話の内容に基づいて、現在の対話状態を推定する。例えば、図２に示した状態のうち、初期状態をＳ₀（発話無しを意味する状
態）とすると、Ｓ₀から、Ｓ₁〜Ｓ₁₀のいずれの状態に遷移したかを推定する。また、現在の状態がＳ₁〜Ｓ₁₀のいずれかにある場合、さらに他の状態に遷移したかを推定する。な
お、状態が変化しない（発話がなされた結果、同じ状態に遷移する）場合もあり得る。

次に、ステップＳ１３で、応答生成部１０３が、前ステップで状態推定部１０４が推定した状態と、学習部１０５に記憶されている報酬テーブルを参照して、応答モードを選択する。例えば、学習部１０５に記憶されている報酬テーブルが、図３（Ｂ）のような状態であって、ステップＳ１２で推定された対話状態がＳ₂であるとする。この場合、Ｓ₂という対話状態において、期待報酬が最も高くなる応答モードはＡ₁（非タスク指向型の応答
）となる。よって、この場合、応答生成部１０３は、応答モードとして非タスク指向型の応答を選択する。

次いで、ステップＳ１４で、応答生成部１０３が、選択した応答モードに応じた応答を生成し、入出力部１０１を介して音声出力する。

ステップＳ１５では、出力した応答に対するユーザの反応に基づいて、強化学習を行うか否かを選択する。強化学習は、デフォルトではＯＮであり、後述するステップＳ１９で、学習終了の判定が行われるまで続けられる。

ステップＳ１６〜Ｓ１９は、出力した応答に対するユーザの反応に基づいて、強化学習を行うステップである。本ステップでは、直前にユーザが行った発話に基づいて、一つ前の会話ターンにおいて装置が発した応答を評価する。
図５に、会話ターンの例を示す。本例では、時刻ｔ１において、明日の天気予報を知りたいユーザが、「明日は晴れるかな？」という発話を行い、時刻ｔ２において、対話装置が「晴れるといいね！」という非タスク指向型の応答（ユーザが望んでいないモードの応答）を返したものとする（ステップＳ１４）。
一方、ユーザは、少しの沈黙のあと、時刻ｔ４において、「明日の天気を教えて」と言い直したものとする。

この場合、時刻ｔ１においてステップＳ１２の処理が行われ、時刻ｔ２においてステップＳ１４の処理が行われるが、一つ前の会話ターンは存在しないため、ステップＳ１６以降の処理は省略される。

一方、時刻ｔ４においてユーザの発話を取得した場合、一つ前の会話ターン（「発話無し」というターン）が存在するため、ステップＳ１６の処理が実行され、評価取得部１０６によって報酬の算出が行われる。
報酬とは、強化学習における報酬であり、行動選択（本例では応答モードの選択）に対するスコアである。すなわち、ステップＳ１６では、一つ前の会話ターンにおける応答モードが正しかったか否かを、次のユーザの発話に基づいて判定する。

報酬の算出方法には様々なものがある。例えば、以下のような算出方法が考えられる。もちろん、一つ前の会話ターンにおいて選択した応答モードに対するユーザの満足度を推定することができれば、例示した方法以外を用いてもよい。

（１）対話が途切れずに持続した時間あるいはターン数
例えば、対話が途切れずに持続した時間や会話のターン数によって、望ましい応答モードで応答ができたかを推定することができる。不適切な応答モードで応答を行った場合、対話が持続しにくくなると考えられるためである。

（２）ユーザが発した音声を解析した結果得られた、ユーザの満足度（不満度）
例えば、声のピッチやトーン、声量等を解析することで、ユーザが満足しているか否かを推定することができる。

（３）ユーザから次の発話が得られるまでの時間
例えば、不適切な応答モードで応答を行った場合、ユーザが困惑することが考えられるためである。この基準を図５の例に適用した場合、時刻ｔ３において沈黙が発生しているため、装置は、時刻ｔ４の時点で、時刻ｔ２で行った応答に対する報酬が低かったことを知ることができる。

次に、ステップＳ１７で、学習部１０５が、得られた報酬に基づいて強化学習を行い、報酬テーブルを更新する。
Ｑ学習においては、方策πのもとで、状態ｓにおいて行動ａを行った場合の期待報酬はＱ^π（ｓ，ａ）と表される。方策πが報酬テーブルであり、状態ｓが、ステップＳ１２で推定された対話状態である。また、ａはＡ₁またはＡ₂となる。
本例では、装置が応答した結果、会話が途切れてしまった場合（沈黙が発生した場合。すなわち、状態がＳ₀に遷移した場合）に−１．０という報酬を与え、会話が続いた場合
（すなわち、状態がＳ₁〜Ｓ₁₀に遷移した場合）に＋１．０という報酬を与えるものとす
る。
このような学習を続けて報酬テーブルを更新していくと、報酬を最大化させるようなＱ値が対話状態ごとに特定の値に収束していく。

ステップＳ１８では、報酬テーブルが更新された際の、Ｑ値（期待報酬）の変動量が閾値より大きいか否かを判定する。ここで、変動量がある程度大きい場合、処理はステップＳ１２へ戻る。一方、変動量が十分に小さい場合、すでに目標とする値に収束していることが考えられるため、ステップＳ１９へ遷移し、強化学習を行うフラグをＯＦＦにする。これにより、以降はステップＳ１６以降へ処理が遷移しなくなる。

以上に説明した処理を繰り返すと、Ｑ学習によって最適な応答モードを選択するための報酬テーブルが学習によって更新される。これにより、タスク指向型の応答を行うか、非
タスク指向型の応答を行うかを適切に決定できるようになる。

（第二の実施形態）
第二の実施形態は、対話を行っているユーザを識別し、ユーザごとに学習を行う実施形態である。図６は、第二の実施形態における対話装置１００のシステム構成図である。
第二の実施形態における対話装置１００は、対話を行っているユーザを識別する手段（ユーザ識別部１０７）を有するという点において、第一の実施形態における対話装置１００と異なる。

ユーザ識別部１０７は、取得した音声に基づいてユーザの識別を行う手段である。ユーザ識別部１０７は、例えば、音声を解析した結果に基づいて、当該音声を発したユーザに一意な識別子を付与する。なお、ここでは音声の解析を例示したが、ユーザの顔画像などに基づいてユーザの識別を行ってもよい。
また、第二の実施形態では、ユーザ識別子ごとに複数の報酬テーブルが記憶され、ユーザごとに強化学習が可能な構成となっている。このように、第一の実施形態における処理をユーザごとに実施することで、よりパーソナライズされた受け答えが可能になる。

なお、対話装置が複数のユーザと同時に対話する場合、現在対話中のユーザが変化するごとに、報酬テーブルを切り替えながら処理を行うようにすればよい。また、対話中のユーザを識別できない場合、デフォルトの報酬テーブル（一般的なユーザにおいて報酬が最大になるように学習された報酬テーブル）を利用するようにしてもよい。

（第三の実施形態）
第三の実施形態は、対話においてユーザが言及している対象（すなわち話題）を識別し、話題ごとに学習を行う実施形態である。図７は、第三の実施形態における対話装置１００のシステム構成図である。
第三の実施形態における対話装置１００は、対話においてユーザが言及している対象を識別する手段（話題識別部１０８）を有するという点において、第一の実施形態における対話装置１００と異なる。

話題識別部１０８は、対話においてユーザが言及している対象（話題としている対象）を識別する手段である。対話における話題は、例えば、音声認識の結果得られたテキストに対して形態素解析を行い、得られた複数の単語を解析することで識別することができる。話題識別部１０８は、例えば、話題ごとに一意な識別子（話題識別子）を付与する。
また、第三の実施形態では、話題識別子ごとに複数の報酬テーブルが記憶され、話題ごとに強化学習が可能な構成となっている。このように、第一の実施形態における処理を話題ごとに実施することで、より精度の良い受け答えが可能になる。

（変形例）
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、第二の実施形態と第三の実施形態を組み合わせ、ユーザと話題の双方を利用するようにしてもよい。この場合、報酬テーブルは統合してもよいし、別々のまま利用してもよい。報酬テーブルを統合しない場合、応答モードを個別に決定したうえで、得られたＱ値に基づいてどちらを採用するかを決定してもよい。

１００対話装置
１０１入出力部
１０２発話取得部
１０３応答生成
１０４状態推定部
１０５学習部
１０６評価取得部

Claims

ユーザが行った発話の内容を認識する発話認識手段と、
前記発話に対する応答を生成するルールである応答方策に従って、前記発話に対する応答を生成する応答生成手段と、
前記応答に対する好ましさを表す値であるユーザ評価を決定する評価取得手段と、
前記ユーザ評価を報酬として強化学習を行い、前記応答方策を更新する更新手段と、
タスク指向型の対話がなされている度合いが関連付けられた複数の対話状態の中から、前記発話の内容に基づいて、現在の対話状態を推定する状態推定手段と、
を有し、
前記応答生成手段は、前記応答方策に従って、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを表す応答モードを決定し、前記応答モードに従って応答を生成し、
前記更新手段は、前記複数の対話状態を用いて前記強化学習を行う、
対話装置。
前記強化学習はＱ学習であり、
前記応答方策は、前記対話状態および応答モードの組み合わせに関連付いたＱ値である、
請求項１に記載の対話装置。
前記ユーザが前記対話において言及している対象を識別する対象推定手段をさらに有し、
識別した前記対象ごとに、前記対話状態の推定および強化学習を行う、
請求項１または２に記載の対話装置。
前記ユーザを識別する話者推定手段をさらに有し、
識別した前記ユーザごとに、前記対話状態の推定および強化学習を行う、
請求項１から３のいずれかに記載の対話装置。
前記評価取得手段は、前記応答方策に従って応答を行ったあとにおける前記ユーザの発話に基づいて前記ユーザ評価を決定する、
請求項１から４のいずれかに記載の対話装置。
前記評価取得手段は、前記応答方策に従って応答を行ったあとで一連の対話が継続した長さに基づいて、前記ユーザ評価を決定する、
請求項１から５のいずれかに記載の対話装置。
前記評価取得手段は、前記応答方策に従って応答を行ってから前記ユーザが更なる発話をするまでの時間に基づいて、前記ユーザ評価を決定する、
請求項１から６のいずれかに記載の対話装置。
ユーザが行った発話の内容を認識する発話認識ステップと、
前記発話に対して応答を生成するルールである応答方策に従って、前記発話に対する応答を生成する応答生成ステップと、
前記応答に対する好ましさを表す値であるユーザ評価を決定する評価取得ステップと、
前記ユーザ評価を報酬として強化学習を行い、前記応答方策を更新する更新ステップと、
タスク指向型の対話がなされている度合いが関連付けられた複数の対話状態の中から、前記発話の内容に基づいて、現在の対話状態を推定する状態推定ステップと、
を含み、
前記応答生成ステップでは、前記応答方策に従って、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを表す応答モードを決定し、前記応答モードに従って応答を生成し、
前記更新ステップでは、前記複数の対話状態を用いて前記強化学習を行う、
対話方法。
請求項８に記載の対話方法をコンピュータに実行させるプログラム。