JP6772916B2 - 対話装置および対話方法 - Google Patents

対話装置および対話方法 Download PDF

Info

Publication number
JP6772916B2
JP6772916B2 JP2017053989A JP2017053989A JP6772916B2 JP 6772916 B2 JP6772916 B2 JP 6772916B2 JP 2017053989 A JP2017053989 A JP 2017053989A JP 2017053989 A JP2017053989 A JP 2017053989A JP 6772916 B2 JP6772916 B2 JP 6772916B2
Authority
JP
Japan
Prior art keywords
response
dialogue
user
utterance
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017053989A
Other languages
English (en)
Other versions
JP2018155980A (ja
Inventor
整 加藤
整 加藤
拓磨 峰村
拓磨 峰村
純一 伊藤
純一 伊藤
政登 藤井
政登 藤井
裕人 今野
裕人 今野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017053989A priority Critical patent/JP6772916B2/ja
Publication of JP2018155980A publication Critical patent/JP2018155980A/ja
Application granted granted Critical
Publication of JP6772916B2 publication Critical patent/JP6772916B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本発明は、ユーザと対話を行う装置に関する。
近年、自然言語によってユーザと対話を行う装置が多く提案されている。特に、「質問に対する情報の提供」といったタスク指向型の対話に加え、雑談といった非タスク指向型の対話を行う技術の進展が著しい。例えば、特許文献1には、ユーザとの対話戦略を学習によって生成する方法が開示されている。
このような技術の進展に伴い、タスク指向型の対話と、非タスク指向型の対話の双方が可能な装置も出現している。タスク指向型の対話とは、「明日の天気を教えて」といったような、特定のタスクを要求する対話であり、非タスク指向型の対話とは、「五月晴れって気持ちいいよね」といったような、特定のタスクを要求しない対話である。これらの双方を使い分けることで、より自然な対話が行えるようになる。
特開2006−72477号公報
タスク指向型の対話と非タスク指向型の対話の双方が可能である場合、話者(ユーザ)がどのようなモードでの対話を望んでいるかを推定しなければならない場面がある。
例えば、ユーザが「気持ちがいい天気だね」と発話した場合、非タスク指向型の対話が開始されたことがわかるが、例えば、「明日は晴れるかな?」といった発話がなされた場合、文章のみでは、ユーザが明日の天気予報を知りたがっているのか、明日の行動予定について語りたがっているのかを明確に判別することができない。
本発明は上記の課題を考慮してなされたものであり、タスク指向型の対話を行うか、非タスク指向型の対話を行うかを適切に決定する対話装置を提供することを目的とする。
本発明に係る対話装置は、
ユーザが行った発話の内容を認識する発話認識手段と、前記発話に対する応答を生成するルールである応答方策に従って、前記発話に対する応答を生成する応答生成手段と、前記応答に対する好ましさを表す値であるユーザ評価を決定する評価取得手段と、前記ユーザ評価を報酬として強化学習を行い、前記応答方策を更新する更新手段と、を有し、前記応答生成手段は、前記応答方策に従って、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを表す応答モードを決定し、前記応答モードに従って応答を生成することを特徴とする。
応答方策は、対話がどのような状態のときにどのような応答を返すかを定めた方策(ルール)である。本発明では、定められた応答方策に従い、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを決定する。
応答方策は、ユーザとの対話結果に基づいて得た報酬を用いて強化学習を行うことで更新される。例えば、デフォルトの応答方策を有している状態から開始し、対話を通して学習を行い更新してもよい。また、本発明では、強化学習に用いる報酬として、ユーザに提
供した応答がどの程度好ましいものであったかを表す値(ユーザ評価)を事後的に決定する。
ユーザ評価(すなわち、応答がどの程度好ましいものであったか)は、ユーザの状態に基づいて決定してもよい。例えば、応答に対するユーザの反応が好意的なものであった場合、ユーザ評価を高くしてもよいし、反対にユーザの反応が好意的でなかった場合、ユーザ評価を低くしてもよい。ユーザの反応が好意的であるか否かは、例えば、ユーザの発話や表情などをセンシングした結果を用いて決定することができる。
また、ユーザ評価は、応答を行った後における対話の内容に基づいて決定してもよい。例えば、対話が継続した時間などを利用することができる。
かかる構成によると、対話を通じて強化学習が実施され、応答方策がより好ましいものとなる。すなわち、学習が進むにつれ、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを適切に決定できるようになる。
また、本発明に係る対話装置は、タスク指向型の対話がなされている度合いが関連付けられた複数の対話状態の中から、前記発話の内容に基づいて、現在の対話状態を推定する状態推定手段をさらに有し、前記更新手段は、前記複数の対話状態を用いて前記強化学習を行うことを特徴としてもよい。
対話状態とは、ユーザの発話内容によって決定される状態である。また、対話状態は、タスク指向の度合いによって離散化されたものである。このような対話状態を用いて強化学習を行うことで、現在の対話状態に応じて、タスク指向型の応答モードを採用するか、非タスク指向型の応答モードを採用するかを適切に決定できるようになる。
また、前記強化学習はQ学習であり、前記応答方策は、前記対話状態および応答モードの組み合わせに関連付いたQ値であることを特徴としてもよい。
本発明に係る対話装置は、強化学習の一種であるQ学習を好適に用いることができる。
また、本発明に係る対話装置は、前記ユーザが前記対話において言及している対象を識別する対象推定手段をさらに有し、識別した前記対象ごとに、前記対話状態の推定および強化学習を行うことを特徴としてもよい。
対話においてユーザが言及している対象が変化する(すなわち、話題が転換する)と、ユーザがタスク指向型の応答を望んでいるか、非タスク指向型の応答を望んでいるかが大きく変化する場合がある。そこで、話題ごとに対話状態の推定および強化学習を行うことで、より適切な応答モードを選択できるようになる。
また、本発明に係る対話装置は、前記ユーザを識別する話者推定手段をさらに有し、識別した前記ユーザごとに、前記対話状態の推定および強化学習を行うことを特徴としてもよい。
タスク指向型の応答が好ましいか、非タスク指向型の応答が好ましいかの判断基準はユーザごとに異なる。そこで、対話の状態判定や学習をユーザごとに別個に行うことで、より適切な応答モードを選択できるようになる。
また、前記評価取得手段は、前記応答方策に従って応答を行ったあとにおける前記ユーザの発話に基づいて前記ユーザ評価を決定することを特徴としてもよい。
また、前記評価取得手段は、前記応答方策に従って応答を行ったあとで一連の対話が継続した長さに基づいて、前記ユーザ評価を決定することを特徴としてもよい。
また、前記評価取得手段は、前記応答方策に従って応答を行ってから前記ユーザが更なる発話をするまでの時間に基づいて、前記ユーザ評価を決定することを特徴としてもよい。
例えば、ユーザがタスク指向型の対話を望んでいるのに、非タスク指向型の応答を提供してしまった場合など、適切ではない応答を行った場合、対話が途切れてしまうことが想定できる。よって、応答に続くユーザの発話や、対話の継続時間、ユーザが発話するまでの時間等に基づいてユーザ評価を決定することができる。
なお、本発明は、上記手段の少なくとも一部を含む対話装置として特定することができる。また、前記対話装置が行う対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
本発明によれば、対話装置において、タスク指向型の対話を行うか、非タスク指向型の対話を行うかを適切に決定することができる。
第一の実施形態に係る対話装置のシステム構成図である。 本発明における対話状態を説明する図である。 第一の実施形態における報酬テーブルの例である。 第一の実施形態に係る対話装置が行う処理フローチャート図である。 ユーザと装置が行う対話の例である。 第二の実施形態に係る対話装置のシステム構成図である。 第三の実施形態に係る対話装置のシステム構成図である。
(第一の実施形態)
<システム概要>
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
第一の実施形態に係る対話装置は、ユーザが発した音声を取得して音声認識を行い、認識結果に基づいて応答文を生成することでユーザとの対話を行うシステムである。
本実施形態に係る対話装置は、タスク指向型の対話と、非タスク指向型の対話の双方が可能な構成となっている。タスク指向型の対話とは、特定の課題(タスク)の達成を目的とした対話であり、非タスク指向型の対話とは、特定のタスクの達成を目的としない対話である。例えば、「明日の天気を教えて」といった発話がなされた場合、「気象情報を提供する」というタスクが達成すべきタスクとなる。また、「エアコンの温度を下げて」といった発話がなされた場合、空調の設定温度を下げるというタスクが達成すべきタスクとなる。一方、非タスク指向型の対話においては、達成すべきタスクが無いため、雑談中心の対話となる。
前述したように、ユーザの発話が、「○○して」といったように、具体的なタスクを要求するものであった場合、タスク指向型の対話が開始されたことがわかる。しかし、例えば、「明日晴れるかな?」「ちょっと暑くない?」といった発話がなされた場合、対話がどちらであるか断定できない場合がある。第一の実施形態に係る対話装置は、強化学習を利用して、タスク指向型の応答をすべきか非タスク指向型の応答をすべきかを判定し、適切なモードによって応答する機能を有する。
<システム構成>
次に、前述した機能を実現するための装置のシステム構成について説明する。
図1は、第一の実施形態に係る対話装置のシステム構成図である。本実施形態に係る対話装置100は、入出力部101、発話取得部102、応答生成部103、状態推定部104、学習部105、評価取得部106を含んで構成される。
入出力部101は、内蔵されたマイクおよびスピーカによって音声の入出力を行う手段である。入出力部101は、入力された音声を音声データに変換し、また、入力された音声データを音声によって出力する機能を有している。
発話取得部102は、ユーザが発した音声を、入出力部101を介して取得し、認識する手段である。発話取得部102は、取得した音声データに対して、既知の技術を用いて音声認識を行う。例えば、発話取得部102には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。認識結果は、応答生成部103および状態推定部104へ送信される。
なお、発話取得部102は、装置外部のサービスを用いて音声認識を行ってもよい。例えば、図1に示したように、ネットワークを介して外部の音声認識サーバと通信を行い、認識結果を取得するように構成してもよい。
応答生成部103は、発話取得部102から取得したテキストに基づいて、ユーザに提供する応答文を生成する手段である。提供する応答文は、例えば、事前に記憶された対話シナリオ(対話辞書)に基づくものであってもよいし、データベースやウェブを検索して得られた情報に基づくものであってもよい。
また応答生成部103は、後述する状態推定部104が推定した対話状態と、学習部105に記憶された情報に基づいて、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを表す応答モードを決定し、当該応答モードに応じて異なるタイプの応答を生成する。具体的な方法については後述する。
状態推定部104は、ユーザとの対話状態を推定する手段である。本明細書における対話状態とは、タスク指向型の対話がなされている度合いが関連付けられた複数の状態であって、ユーザが行った発話の内容に依拠して決定される。
ここで、図2を参照しながら対話状態について説明する。本明細書においては、対話中のある時点における状態を、タスク指向型の対話がなされている度合い(以下、タスク度)に関連付けて特定する。
ここで、対話が取りうる状態の集合をSとし、タスク度を10段階に離散化すると、Sは以下のようになる。なお、S0は発話が無い状態を意味するものとする。
S={S0,S1,S2,…,S10
図2の例の場合、状態S1が、対話が最も非タスク指向型である状態であり、状態S10
が、対話が最もタスク指向型である状態である。対話状態は、ユーザまたは装置が発話するたびに変化(遷移)しうる。各対話状態間は自由に遷移することができるが、発話があっても対話状態が変化しない場合もある。
状態推定部104は、ユーザが行った発話の内容に基づいてタスク度を判定し、対話状態をその都度推定する。タスク度の判定には、公知の技術を利用することができる。
ところで、画一的な基準を用いてタスク度の判定を行っただけでは、適切な応答モードを選択できない場合がある。例えば、「明日は晴れるかな?」といった発話において、ユーザAは天気予報を要求する意図があり、ユーザBは明日の予定について会話を交わしたいという意図があるといったケースが存在する。
そこで、本実施形態に係る対話装置は、後述する手段によって強化学習を行い、得られ
た学習結果を併用して応答モードを決定する。
学習部105は、応答モードを決定するためのデータを強化学習によって蓄積する手段である。学習部105は、対話状態がどのような状態にある場合に、どのような応答モードで応答すれば期待報酬が最大になるか(すなわち、ユーザを満足させる応答ができるか)をQ学習によって学習する。
図3(A)および(B)は、学習部105によって保持されるテーブル(報酬テーブル)の例である。本実施形態では、対話状態(状態推定部104が推定した対話状態に対応)と、応答モード(A1が非タスク指向型の応答を意味し、A2がタスク指向型の応答を意味する)が、期待報酬と関連付けて記憶されている。
期待報酬とは、強化学習において期待される報酬であり、本実施形態においては、応答の適切度を表す値である。期待報酬は、たとえば、ユーザの満足度などに基づいて、学習を通して更新される。学習の進め方と期待報酬については後述する。
図3(A)は、初期値が格納された報酬テーブルを表し、図3(B)は学習後における報酬テーブルを表す。例えば、図3(B)の場合、対話状態がS1にある場合、非タスク
指向型の応答をした場合により大きい報酬が期待できる(すなわち、ユーザが満足する)ことが示されている。また、対話状態がS10にある場合、タスク指向型の応答をした場合により大きい報酬が期待できることが示されている。
学習部105は、装置が用いるデータを一時的または恒久的に記憶する手段を有している。例えば、高速に読み書きでき、かつ、大容量なフラッシュメモリなどの記憶媒体を用いることが好ましい。
評価取得部106は、学習部105が強化学習を行うための報酬を取得する手段である。本実施形態では、報酬とは、応答生成部103が生成した応答の好ましさを表す値(ユーザ評価)であって、ユーザの反応に基づいて事後的に取得される。
ここで、報酬の取得方法について説明する。
応答生成部103が生成した応答が適切な応答モードであった場合(すなわち、ユーザが望む応答モードと一致していた場合)、対話がスムーズに続くことが想定される。また、応答生成部103が生成した応答が適切な応答モードでなかった場合、対話がスムーズに続かなくなることが想定される。そこで、本実施形態では、応答をユーザに提供した後で、一連の対話が継続したか否かに基づいて報酬を算出する。
例えば、対話が継続した場合は+1.0という値を報酬とし、対話が途切れてしまった場合は−1.0という値を報酬とする。算出した報酬は学習部105へ送信され、直前に生成した応答を評価する学習データとして用いられる。
なお、本例では、対話が継続したか否かに基づいて報酬を決定したが、報酬は、応答モードが適切であったか否かを評価することができれば、他の方法によって算出してもよい。例えば、対話が継続した長さ(時間やターン数)に基づいて報酬を算出してもよい。また、ユーザが反応するまでの時間に基づいて報酬を算出してもよい。
この他にも、ユーザをセンシングした結果に基づいて報酬を算出してもよい。例えば、声のトーンなどに基づいてユーザの満足度を推定し、報酬として利用してもよい。もちろん、発話の内容(例えば、直前の応答における応答モードを否定するような発話がなされたか否か)に基づいて報酬を算出してもよい。
対話装置100は、CPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、以降に説明する機能が実現される。なお、図示した機
能の全部または一部は、専用に設計された回路(半導体集積回路など)を用いて実行されてもよい。
<処理フローチャート>
次に、図1に示した各手段が行う処理について、処理フローチャート図である図4を参照しながら説明する。図4に示したフローチャートは、装置が学習を行っていない初期状態から開始される。
まず、ステップS11で、報酬テーブルにデフォルト値を挿入する。本実施形態では、図3(A)に示したような10個の対話状態を定義し、それぞれにA1(非タスク指向型
の応答)とA2(タスク指向型の応答)が関連付けられている。また、それぞれの応答に
期待報酬(Q値)が関連付けられている。期待報酬(Q値)は、どちらのモードで応答した場合により高い報酬(ユーザの満足度)が得られるかを表す無次元数である。本例では、デフォルト値として、全ての項目に5が挿入されている。
また、ユーザとの対話が開始されると、処理はステップS12へ遷移する。
ステップS12では、ユーザが行った発話を発話取得部102が取得し、音声認識を行う。認識の結果得られたテキストは、応答生成部103および状態推定部104へ送信される。
次いで、状態推定部104が、ユーザが行った発話の内容に基づいて、現在の対話状態を推定する。例えば、図2に示した状態のうち、初期状態をS0(発話無しを意味する状
態)とすると、S0から、S1〜S10のいずれの状態に遷移したかを推定する。また、現在の状態がS1〜S10のいずれかにある場合、さらに他の状態に遷移したかを推定する。な
お、状態が変化しない(発話がなされた結果、同じ状態に遷移する)場合もあり得る。
次に、ステップS13で、応答生成部103が、前ステップで状態推定部104が推定した状態と、学習部105に記憶されている報酬テーブルを参照して、応答モードを選択する。例えば、学習部105に記憶されている報酬テーブルが、図3(B)のような状態であって、ステップS12で推定された対話状態がS2であるとする。この場合、S2という対話状態において、期待報酬が最も高くなる応答モードはA1(非タスク指向型の応答
)となる。よって、この場合、応答生成部103は、応答モードとして非タスク指向型の応答を選択する。
次いで、ステップS14で、応答生成部103が、選択した応答モードに応じた応答を生成し、入出力部101を介して音声出力する。
ステップS15では、出力した応答に対するユーザの反応に基づいて、強化学習を行うか否かを選択する。強化学習は、デフォルトではONであり、後述するステップS19で、学習終了の判定が行われるまで続けられる。
ステップS16〜S19は、出力した応答に対するユーザの反応に基づいて、強化学習を行うステップである。本ステップでは、直前にユーザが行った発話に基づいて、一つ前の会話ターンにおいて装置が発した応答を評価する。
図5に、会話ターンの例を示す。本例では、時刻t1において、明日の天気予報を知りたいユーザが、「明日は晴れるかな?」という発話を行い、時刻t2において、対話装置が「晴れるといいね!」という非タスク指向型の応答(ユーザが望んでいないモードの応答)を返したものとする(ステップS14)。
一方、ユーザは、少しの沈黙のあと、時刻t4において、「明日の天気を教えて」と言い直したものとする。
この場合、時刻t1においてステップS12の処理が行われ、時刻t2においてステップS14の処理が行われるが、一つ前の会話ターンは存在しないため、ステップS16以降の処理は省略される。
一方、時刻t4においてユーザの発話を取得した場合、一つ前の会話ターン(「発話無し」というターン)が存在するため、ステップS16の処理が実行され、評価取得部106によって報酬の算出が行われる。
報酬とは、強化学習における報酬であり、行動選択(本例では応答モードの選択)に対するスコアである。すなわち、ステップS16では、一つ前の会話ターンにおける応答モードが正しかったか否かを、次のユーザの発話に基づいて判定する。
報酬の算出方法には様々なものがある。例えば、以下のような算出方法が考えられる。もちろん、一つ前の会話ターンにおいて選択した応答モードに対するユーザの満足度を推定することができれば、例示した方法以外を用いてもよい。
(1)対話が途切れずに持続した時間あるいはターン数
例えば、対話が途切れずに持続した時間や会話のターン数によって、望ましい応答モードで応答ができたかを推定することができる。不適切な応答モードで応答を行った場合、対話が持続しにくくなると考えられるためである。
(2)ユーザが発した音声を解析した結果得られた、ユーザの満足度(不満度)
例えば、声のピッチやトーン、声量等を解析することで、ユーザが満足しているか否かを推定することができる。
(3)ユーザから次の発話が得られるまでの時間
例えば、不適切な応答モードで応答を行った場合、ユーザが困惑することが考えられるためである。この基準を図5の例に適用した場合、時刻t3において沈黙が発生しているため、装置は、時刻t4の時点で、時刻t2で行った応答に対する報酬が低かったことを知ることができる。
次に、ステップS17で、学習部105が、得られた報酬に基づいて強化学習を行い、報酬テーブルを更新する。
Q学習においては、方策πのもとで、状態sにおいて行動aを行った場合の期待報酬はQπ(s,a)と表される。方策πが報酬テーブルであり、状態sが、ステップS12で推定された対話状態である。また、aはA1またはA2となる。
本例では、装置が応答した結果、会話が途切れてしまった場合(沈黙が発生した場合。すなわち、状態がS0に遷移した場合)に−1.0という報酬を与え、会話が続いた場合
(すなわち、状態がS1〜S10に遷移した場合)に+1.0という報酬を与えるものとす
る。
このような学習を続けて報酬テーブルを更新していくと、報酬を最大化させるようなQ値が対話状態ごとに特定の値に収束していく。
ステップS18では、報酬テーブルが更新された際の、Q値(期待報酬)の変動量が閾値より大きいか否かを判定する。ここで、変動量がある程度大きい場合、処理はステップS12へ戻る。一方、変動量が十分に小さい場合、すでに目標とする値に収束していることが考えられるため、ステップS19へ遷移し、強化学習を行うフラグをOFFにする。これにより、以降はステップS16以降へ処理が遷移しなくなる。
以上に説明した処理を繰り返すと、Q学習によって最適な応答モードを選択するための報酬テーブルが学習によって更新される。これにより、タスク指向型の応答を行うか、非
タスク指向型の応答を行うかを適切に決定できるようになる。
(第二の実施形態)
第二の実施形態は、対話を行っているユーザを識別し、ユーザごとに学習を行う実施形態である。図6は、第二の実施形態における対話装置100のシステム構成図である。
第二の実施形態における対話装置100は、対話を行っているユーザを識別する手段(ユーザ識別部107)を有するという点において、第一の実施形態における対話装置100と異なる。
ユーザ識別部107は、取得した音声に基づいてユーザの識別を行う手段である。ユーザ識別部107は、例えば、音声を解析した結果に基づいて、当該音声を発したユーザに一意な識別子を付与する。なお、ここでは音声の解析を例示したが、ユーザの顔画像などに基づいてユーザの識別を行ってもよい。
また、第二の実施形態では、ユーザ識別子ごとに複数の報酬テーブルが記憶され、ユーザごとに強化学習が可能な構成となっている。このように、第一の実施形態における処理をユーザごとに実施することで、よりパーソナライズされた受け答えが可能になる。
なお、対話装置が複数のユーザと同時に対話する場合、現在対話中のユーザが変化するごとに、報酬テーブルを切り替えながら処理を行うようにすればよい。また、対話中のユーザを識別できない場合、デフォルトの報酬テーブル(一般的なユーザにおいて報酬が最大になるように学習された報酬テーブル)を利用するようにしてもよい。
(第三の実施形態)
第三の実施形態は、対話においてユーザが言及している対象(すなわち話題)を識別し、話題ごとに学習を行う実施形態である。図7は、第三の実施形態における対話装置100のシステム構成図である。
第三の実施形態における対話装置100は、対話においてユーザが言及している対象を識別する手段(話題識別部108)を有するという点において、第一の実施形態における対話装置100と異なる。
話題識別部108は、対話においてユーザが言及している対象(話題としている対象)を識別する手段である。対話における話題は、例えば、音声認識の結果得られたテキストに対して形態素解析を行い、得られた複数の単語を解析することで識別することができる。話題識別部108は、例えば、話題ごとに一意な識別子(話題識別子)を付与する。
また、第三の実施形態では、話題識別子ごとに複数の報酬テーブルが記憶され、話題ごとに強化学習が可能な構成となっている。このように、第一の実施形態における処理を話題ごとに実施することで、より精度の良い受け答えが可能になる。
(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、第二の実施形態と第三の実施形態を組み合わせ、ユーザと話題の双方を利用するようにしてもよい。この場合、報酬テーブルは統合してもよいし、別々のまま利用してもよい。報酬テーブルを統合しない場合、応答モードを個別に決定したうえで、得られたQ値に基づいてどちらを採用するかを決定してもよい。
100 対話装置
101 入出力部
102 発話取得部
103 応答生成
104 状態推定部
105 学習部
106 評価取得部

Claims (9)

  1. ユーザが行った発話の内容を認識する発話認識手段と、
    前記発話に対する応答を生成するルールである応答方策に従って、前記発話に対する応答を生成する応答生成手段と、
    前記応答に対する好ましさを表す値であるユーザ評価を決定する評価取得手段と、
    前記ユーザ評価を報酬として強化学習を行い、前記応答方策を更新する更新手段と、
    タスク指向型の対話がなされている度合いが関連付けられた複数の対話状態の中から、前記発話の内容に基づいて、現在の対話状態を推定する状態推定手段と、
    を有し、
    前記応答生成手段は、前記応答方策に従って、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを表す応答モードを決定し、前記応答モードに従って応答を生成し、
    前記更新手段は、前記複数の対話状態を用いて前記強化学習を行う、
    対話装置。
  2. 前記強化学習はQ学習であり、
    前記応答方策は、前記対話状態および応答モードの組み合わせに関連付いたQ値である、
    請求項に記載の対話装置。
  3. 前記ユーザが前記対話において言及している対象を識別する対象推定手段をさらに有し、
    識別した前記対象ごとに、前記対話状態の推定および強化学習を行う、
    請求項1または2に記載の対話装置。
  4. 前記ユーザを識別する話者推定手段をさらに有し、
    識別した前記ユーザごとに、前記対話状態の推定および強化学習を行う、
    請求項1から3のいずれかに記載の対話装置。
  5. 前記評価取得手段は、前記応答方策に従って応答を行ったあとにおける前記ユーザの発話に基づいて前記ユーザ評価を決定する、
    請求項1からのいずれかに記載の対話装置。
  6. 前記評価取得手段は、前記応答方策に従って応答を行ったあとで一連の対話が継続した長さに基づいて、前記ユーザ評価を決定する、
    請求項1からのいずれかに記載の対話装置。
  7. 前記評価取得手段は、前記応答方策に従って応答を行ってから前記ユーザが更なる発話をするまでの時間に基づいて、前記ユーザ評価を決定する、
    請求項1からのいずれかに記載の対話装置。
  8. ユーザが行った発話の内容を認識する発話認識ステップと、
    前記発話に対して応答を生成するルールである応答方策に従って、前記発話に対する応答を生成する応答生成ステップと、
    前記応答に対する好ましさを表す値であるユーザ評価を決定する評価取得ステップと、
    前記ユーザ評価を報酬として強化学習を行い、前記応答方策を更新する更新ステップと、
    タスク指向型の対話がなされている度合いが関連付けられた複数の対話状態の中から、前記発話の内容に基づいて、現在の対話状態を推定する状態推定ステップと、
    を含み、
    前記応答生成ステップでは、前記応答方策に従って、タスク指向型の応答を生成するか、非タスク指向型の応答を生成するかを表す応答モードを決定し、前記応答モードに従って応答を生成し、
    前記更新ステップでは、前記複数の対話状態を用いて前記強化学習を行う、
    対話方法。
  9. 請求項に記載の対話方法をコンピュータに実行させるプログラム。
JP2017053989A 2017-03-21 2017-03-21 対話装置および対話方法 Active JP6772916B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017053989A JP6772916B2 (ja) 2017-03-21 2017-03-21 対話装置および対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017053989A JP6772916B2 (ja) 2017-03-21 2017-03-21 対話装置および対話方法

Publications (2)

Publication Number Publication Date
JP2018155980A JP2018155980A (ja) 2018-10-04
JP6772916B2 true JP6772916B2 (ja) 2020-10-21

Family

ID=63718077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017053989A Active JP6772916B2 (ja) 2017-03-21 2017-03-21 対話装置および対話方法

Country Status (1)

Country Link
JP (1) JP6772916B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7185540B2 (ja) * 2019-01-23 2022-12-07 株式会社日立製作所 対話装置及び対話方法
CN112102821B (zh) * 2019-06-18 2024-01-12 北京京东尚科信息技术有限公司 应用于电子设备的数据处理方法、装置、***、介质
KR20190107289A (ko) 2019-08-30 2019-09-19 엘지전자 주식회사 인공지능 로봇 및 인공지능 로봇의 음성인식 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125900A (ja) * 1999-10-29 2001-05-11 Yazaki Corp 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体
JP6362861B2 (ja) * 2013-12-25 2018-07-25 Kddi株式会社 対話シナリオに対する動的対話ノードの挿入行動を制御する対話プログラム、サーバ及び方法
JP2015138147A (ja) * 2014-01-22 2015-07-30 シャープ株式会社 サーバ、対話装置、対話システム、対話方法および対話プログラム

Also Published As

Publication number Publication date
JP2018155980A (ja) 2018-10-04

Similar Documents

Publication Publication Date Title
US11398236B2 (en) Intent-specific automatic speech recognition result generation
US11222626B2 (en) System and method for a cooperative conversational voice user interface
US9583102B2 (en) Method of controlling interactive system, method of controlling server, server, and interactive device
JP4369132B2 (ja) 話者音声のバックグランド学習
JP4533845B2 (ja) オーディオ機器制御装置、オーディオ機器制御方法及びプログラム
JP5172021B2 (ja) 自動音声認識音響モデルの適合
KR101622111B1 (ko) 대화 시스템 및 그의 대화 방법
JP4260788B2 (ja) 音声認識機器制御装置
JP2008203559A (ja) 対話装置及び方法
US9922650B1 (en) Intent-specific automatic speech recognition result generation
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
JP7347217B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP6772916B2 (ja) 対話装置および対話方法
JP4634156B2 (ja) 音声対話方法および音声対話装置
JP2017125921A (ja) 発話選択装置、方法、及びプログラム
JP2000207214A (ja) 対話装置
CN107170447B (zh) 声音处理***以及声音处理方法
JP2008241970A (ja) 話者適応装置、話者適応方法及び話者適応プログラム
US11908463B1 (en) Multi-session context
US11527247B2 (en) Computing device and method of operating the same
US11804225B1 (en) Dialog management system
US11837229B1 (en) Interaction data and processing natural language inputs
JP7211050B2 (ja) 対話制御プログラム、対話制御システム、及び対話制御方法
JP2003263191A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190724

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200310

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200914

R151 Written notification of patent or utility model registration

Ref document number: 6772916

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151