JP6601625B2

JP6601625B2 - 対話方法、対話システム、対話装置、およびプログラム

Info

Publication number: JP6601625B2
Application number: JP2016101221A
Authority: JP
Inventors: 弘晃杉山; 豊美目黒; 淳司大和; 智広山田; 崇由望月; 崇裕松元; 安範尾崎; 雄一郎吉川; 浩石黒
Original assignee: Nippon Telegraph and Telephone Corp; Osaka University NUC
Current assignee: Nippon Telegraph and Telephone Corp; Osaka University NUC
Priority date: 2016-05-20
Filing date: 2016-05-20
Publication date: 2019-11-06
Anticipated expiration: 2036-05-20
Also published as: JP2017207693A

Description

この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語を用いて対話を行う技術に関する。

近年、人とコミュニケーションを行うロボットの研究開発が進展しており、様々な現場で実用化されてきている。例えば、コミュニケーションセラピーの現場において、ロボットが孤独感を抱える人の話し相手となる利用形態がある。具体的には、老人介護施設においてロボットが入居者の傾聴役となることで、入居者の孤独感を癒す役割を担うことができると共に、ロボットとの会話している姿を見せ、入居者とその家族や介護士など周りの人々との会話のきっかけを作ることができる。また、例えば、コミュニケーション訓練の現場において、ロボットが練習相手となる利用形態がある。具体的には、外国語学習施設においてロボットが外国語学習者の練習相手となることで、外国語学習を効率的に進めることができる。また、例えば、情報提示システムとしての応用において、ロボット同士の対話を聞かせることを基本としながら、時折人に話しかけることで、退屈させずに人を対話に参加させ、人が受け入れやすい形で情報を提示することができる。具体的には、街中の待ち合わせ場所やバス停、駅のホームなどで人が時間を持て余している際や、自宅や教室などで対話に参加する余裕がある際に、ニュースや商品紹介、蘊蓄・知識紹介、教育（例えば、子供の保育・教育、大人への一般教養教授、モラル啓発など）など、効率的な情報提示が期待できる。さらに、例えば、情報収集システムとしての応用において、ロボットが人に話しかけながら情報を収集する利用形態がある。ロボットとのコミュニケーションにより対話感を保持できるため、人に聴取されているという圧迫感を与えずに情報収集することができる。具体的には、個人情報調査や市場調査、商品評価、推薦商品のための趣向調査などに応用することが想定されている。このように人とロボットのコミュニケーションは様々な応用が期待されており、ユーザとより自然に対話を行うロボットの実現が期待される。また、スマートフォンの普及により、LINE(登録商標)のように、複数ユーザでほぼリアルタイムにチャットを行うことにより、人との会話を楽しむサービスも実施されている。このチャットサービスにロボットとの会話の技術を適用すれば、チャット相手がいなくても、ユーザとより自然に対話を行うチャットサービスの実現が可能となる。

本明細書では、これらのサービスで用いられるロボットやチャット相手などのユーザとの対話相手となるハードウェアやユーザとの対話相手となるハードウェアとしてコンピュータを機能させるためのコンピュータソフトウェアなどを総称してエージェントと呼ぶこととする。エージェントは、ユーザとの対話相手となるものであるため、ロボットやチャット相手などのように擬人化されていたり、人格化されていたり、性格や個性を有していたりするものであってもよい。

これらのサービスの実現のキーとなるのは、ハードウェアやコンピュータソフトウェアにより実現されるエージェントが人間と自然に対話を行うことができる技術である。

上記のエージェントの一例として、例えば、非特許文献１に記載されたような、ユーザの発話を音声認識し、発話の意図を理解・推論して、適切な応答をする音声対話システムがある。音声対話システムの研究は、音声認識技術の進展に伴って活発に進められ、例えば音声自動応答システムなどで実用化されている。

また、上記のエージェントの一例として、あらかじめ定められたシナリオに沿って特定の話題についてユーザと対話を行うシナリオ対話システムがある。シナリオ対話システムでは、シナリオに沿って対話が展開する限り対話を続けることが可能である。例えば、非特許文献２に記載された対話システムは、ユーザと複数のエージェント間で、エージェントによる割り込みやエージェント同士のやり取りを含めながら対話を行うシステムである。例えば、エージェントは、ユーザに対してシナリオに用意された質問を発話し、質問に対するユーザの回答の発話がシナリオに用意された選択肢に対応する場合に、その選択肢に対応する発話を行うように機能する。すなわち、シナリオ対話システムは、システムに予め記憶されたシナリオに基づいた発話をエージェントが行う対話システムである。この対話システムでは、エージェントがユーザに問いかけ、ユーザからの返答を受けた際に、ユーザの発話内容に関わらず「そっか」といった相槌で流したり、エージェントの割り込みで話題を変えたりすることで、ユーザの発話が本来の話題から外れた場合であってもストーリーの破綻をユーザに感じさせないように応答することが可能である。

また、上記のエージェントの一例として、ユーザの発話内容に沿った発話をエージェントが行うことにより、ユーザとエージェントとが自然な対話を行う雑談対話システムがある。例えば、非特許文献３に記載された対話システムは、ユーザとエージェントとの間で行われる複数回の対話の中で文脈に特有のものをより重視しながら、ユーザまたはエージェントの発話に含まれる単語をトリガーとして、あらかじめ記述しておいたルールに従ってシステムが発話することで、ユーザとシステムとの間で雑談対話を実現するシステムである。雑談対話システムが用いるルールは、あらかじめ記述したものだけでなく、ユーザの発話内容に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいて自動的に生成したものであってもよい。非特許文献３には、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて、自動的にルールを生成する技術が記載されている。また、例えば、非特許文献４に記載された対話システムは、人手で記述したルールと統計的発話生成手法で記述したルールを融合することで、ルール生成のコストを低減したシステムである。雑談対話システムは、シナリオ対話システムとは異なり、予め用意されたシナリオに沿った発話をエージェントが行うものではないため、ユーザの発話によっては、エージェントの発話がユーザの発話に対応しないものとなってしまうという事態は生じずに、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行うことが可能である。すなわち、雑談対話システムは、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行う対話システムである。これらの雑談対話システムでは、ユーザの発話に対して明示的に応答することが可能である。

河原達也，"話し言葉による音声対話システム"，情報処理，vol. 45，no. 10，pp. 1027-1031，2004年10月有本庸浩，吉川雄一郎，石黒浩，"複数体のロボットによる音声認識なし対話の印象評価"，日本ロボット学会学術講演会，2016年杉山弘晃，目黒豊美，東中竜一郎，南泰浩，"任意の話題を持つユーザ発話に対する係り受けと用例を利用した応答文の生成"，人工知能学会論文誌，vol. 30(1)，pp. 183-194，2015年目黒豊美，杉山弘晃，東中竜一郎，南泰浩，"ルールベース発話生成と統計的発話生成の融合に基づく対話システムの構築"，人工知能学会全国大会論文集，vol. 28，pp. 1-4，2014年

しかしながら、ユーザは多種多様で複雑な発話を行うため、従来の音声対話システムでは、すべてのユーザの発話について意味や内容を正確に理解することは難しい。音声対話システムがユーザの発話を正確に理解できなければ、ユーザの発話に対して適切な返答を行うことができない。ユーザと音声対話システムとが一対一で対話を行う状況では、音声対話システムが適切な返答をできないと、ユーザは対話を続けることにストレスを感じることになり、対話を中断したり対話破綻を起こしたりする原因となる。

この発明の目的は、上述のような点に鑑みて、ユーザの発話を対話システムが発話を取得するための条件を満たす範囲に引き込み、対話を長く続けることができる対話技術を提供することである。

上記の課題を解決するために、この発明の第一の態様の対話方法は、ある発話である第一発話に対するユーザの発話を取得するために対話システムが行う対話方法であって、提示部が、第一発話を提示する第一提示ステップと、提示部が、第一発話に対するユーザの発話を取得するための条件に対応する行動を提示する第二提示ステップと、入力部が、行動後にユーザが発した発話を受け付ける返答受付ステップと、を含む。

この発明の第二の態様の対話システムは、ある発話である第一発話に対するユーザの発話を取得する対話システムであって、第一発話と、第一発話に対するユーザの発話を取得するための条件に対応する行動と、を決定する発話決定部と、発話決定部が決定した第一発話を提示し、発話決定部が決定した行動を第一発話を提示した後に行う提示部と、行動後にユーザが発した発話を受け付ける入力部と、を含む。

この発明の第三の態様の対話装置は、ユーザの発話を受け付ける入力部と、発話および行動を提示する提示部とを少なくとも含み、ある発話である第一発話に対するユーザの発話を取得する対話システムが提示する発話を決定する対話装置であって、第一発話と、第一発話を提示した後に行う行動であり、かつ、第一発話に対するユーザの発話を取得するための条件に対応する行動と、を決定する発話決定部を含む。

この発明によれば、ユーザの発話の前に対話システムが発話を取得するための条件に対応する行動を行うことで、ユーザの発話を対話システムが取得するための条件を満たす範囲に引き込むことができ、ユーザとの対話を長く継続することが可能な対話システム、対話装置を実現することが可能となる。

図１は、人型ロボットによる対話システムの機能構成を例示する図である。図２は、第一実施形態の対話方法の処理手続きを例示する図である。図３は、第二実施形態の対話方法の処理手続きを例示する図である。図４は、グループチャットによる対話システムの機能構成を例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜第一実施形態＞
第一実施形態の対話システムは、複数台の人型ロボットが協調してユーザとの対話を行う情報処理装置である。対話システム１０は、図１に示すように、入力部１、音声認識部２、発話決定部３、音声合成部４、および提示部５を備える。この対話システム１０が後述する各ステップの処理を行うことにより第一実施形態の対話方法が実現される。なお、図１に示すように、対話システム１０の音声認識部２、発話決定部３、音声合成部４による部分を対話装置１１とする。

人間同士が円滑な対話を行っているとき、互いに似た現象が起こることが確認されている（例えば、参考文献１参照）。この現象は、引き込み現象と呼ばれる。言語的な引き込み現象は、人間とロボットの間でも起こることが確認されている（例えば、参考文献２参照）。
〔参考文献１〕Condon, Williams S., and Louis W. Sander, “Neonate movement is synchronized with adult speech: Interactional participation and language acquisition”, Science, vol. 183, issue 4120, pp. 99-101, 1974
〔参考文献２〕飯尾尊優他，“語彙の引き込み：ロボットは人間の語彙を引き込めるか？”，情報処理学会論文誌，vol. 51，no. 2，pp. 277-289，2010

この発明の対話技術は、上述の引き込み現象を利用して、ユーザが発話する前に、対話システムが発話を取得するための条件に対応する行動をユーザに提示することで、ユーザの発話を対話システムが取得するための条件を満たす範囲に引き込む。これにより、対話システムがユーザの発話を理解できずに対話が中断する事態を回避することができ、対話を長く継続することが可能となる。

ユーザと複数のエージェントとが対話を行う対話システムにおいて、ユーザの発話を引き込む例を示す。まず、第一のエージェントは相手の返答を求める発話（例えば、質問形式の発話）を行う。続いて、第二のエージェントは対話システムが理解しやすい発話（以下、引き込み発話と呼ぶ）を行い、ユーザの発話を待機する。これに続くユーザの発話は、直前の第二のエージェントの発話に引き込まれ、第二のエージェントの発話に似た特徴を持つ発話となる。この例では、対話システムが発話を取得するための条件に対応する行動として対話システムが理解しやすい発話を発することとしたが、その行動は発話に限定されず、視線または身体の向きや手足の動作など非言語的な行動であってもよい。

引き込み発話の決定方法としては、事前にルールとして記述しておく手法が考えられる。具体的には、空白があるテンプレートに適切な単語を埋めて発話内容を決定するルールが挙げられる。ルールの作成方法としては、人手で作成する方法と、公知の破綻検出技術（例えば、参考文献３参照）を用いる方法とが挙げられる。破綻検出技術を用いる方法では、第一のエージェントの発話に続く第二のエージェントの発話に対して、対話が破綻していないかどうかを判定する。このとき対話が破綻していないと判定されれば、第二のエージェントの発話は対話システムが理解しやすい発話であると言え、引き込み発話として適切である。
〔参考文献３〕杉山弘晃，“異なる特性を持つデータの組み合わせによる雑談対話の破綻検出”，第６回対話システムシンポジウム（SIG-SLUD），人工知能学会，pp. 51-56，2015年

また、ルールを事前に用意しておく方法ではなく、対話を行いながら都度引き込み発話の内容を決定する方法も考えられる。この方法では、対話の途中でその時点までの対話履歴に対して破綻検出を行い、次の対話装置の発話が対話破綻を起こさないように第二のエージェントの発話を決定する。この方法であれば、より長い対話履歴を用いることができるため、よりその発話に適切な引き込み発話の内容を決定することができる。

対話装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、対話装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

入力部１は、ユーザの発話を対話システムが取得するためのインターフェースである。言い換えれば、入力部１は、ユーザが発話を対話システムへ入力するためのインターフェースである。例えば、入力部１はユーザの発話音声を収音して音声信号とするマイクロホンである。入力部１で収音したユーザの発話音声の音声信号は、音声認識部２へ入力される。

音声認識部２は、入力部１で収音したユーザの発話音声の音声信号をユーザの発話内容を表すテキストに変換する。ユーザの発話内容を表すテキストは、発話決定部３へ入力される。音声認識の方法は既存のいかなる音声認識技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。

発話決定部３は、入力されたユーザの発話内容を表すテキストに基づいて、対話システムからの発話内容を表すテキストを決定する。発話決定部３が決定した発話内容を表すテキストは音声合成部４へ入力される。また、対話システムが引き込み発話の代わりに非言語的な行動を行う場合には、発話決定部３は、入力されたユーザの発話内容を表すテキストに基づいて、対話システムからユーザへ提示する非言語的な行動の内容を表す情報を決定する。この場合、発話決定部３が決定した行動の内容を表す情報は提示部５へ入力される。

音声合成部４は、発話決定部３が決定した発話内容を表すテキストを、発話内容を表す音声信号に変換する。発話内容を表す音声信号は、提示部５へ入力される。音声合成の方法は既存のいかなる音声合成技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。

提示部５は、発話決定部３が決定した発話内容もしくは非言語的な行動をユーザへ提示するためのインターフェースである。例えば、提示部５は、人間の形を模して製作された人型ロボットである。この人型ロボットは、発話決定部３が決定した発話内容を表すテキストが音声合成部４により音声信号に変換された発話内容を表す音声信号を、例えば頭部に搭載したスピーカから発音する、すなわち、発話を提示する。また、この人型ロボットは、発話決定部３が決定した非言語的な行動の内容を表す情報に従って筺体を動作させることで非言語的な行動を実行する、すなわち、行動を提示する。提示部５を人型ロボットとした場合には、対話に参加する人格ごとに一台の人型ロボットを用意する。以下では、二人の人格が対話に参加する例として、二台の人型ロボット５−１および５−２が存在するものとする。

入力部１は提示部５と一体として構成してもよい。例えば、提示部５を人型ロボットとした場合、人型ロボットの頭部にマイクロホンを搭載し、入力部１として利用することも可能である。

以下、図２を参照して、第一実施形態の対話方法の処理手続きを説明する。

ステップＳ１１において、人型ロボット５−１は、ある発話である第一発話の内容を表す音声をスピーカから出力する。第一発話の内容を表すテキストは、発話決定部３が、例えば、あらかじめ定められ発話決定部３内の図示しない記憶部に記憶された定型文から任意に選択してもよいし、直前までの発話内容に応じて決定してもよい。直前までの発話内容に応じて発話内容を決定する技術は、従来の対話システムにおいて用いられているものを利用すればよく、例えば、非特許文献２に記載されたシナリオ対話システムや非特許文献３または４に記載された雑談対話システムなどを用いることができる。発話決定部３がシナリオ対話システムにおいて用いられている技術を用いる場合は、例えば、発話決定部３は、直前の５発話程度を含む対話について、各発話に含まれる単語や各発話を構成する焦点語と発話決定部３内の図示しない記憶部に記憶された各シナリオに含まれる単語や焦点語との単語間距離が所定の距離より近いシナリオを選択し、選択したシナリオに含まれるテキストを選択することにより第一発話の内容を表すテキストを決定する。発話決定部３が雑談対話システムにおいて用いられている技術を用いる場合は、発話決定部３は、例えば、ユーザの発話に含まれる単語をトリガーとして、あらかじめ記述して発話決定部３内の図示しない記憶部に記憶しておいたルールに従って第一発話の内容を表すテキストを決定してもよいし、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて自動的にルールを生成し、そのルールに従って第一発話の内容を表すテキストを決定してもよい。

ステップＳ１２において、人型ロボット５−２は、第一発話に対するユーザの発話を取得するための条件に対応する行動（以下、引き込み行動と呼ぶ）を行う。引き込み行動は、上述した引き込み発話を含み、例えば、視線または身体の向きや手足の動作など非言語的な行動をも含む。引き込み行動の内容は、発話決定部３が、例えば、第一発話の内容と同様にして、あらかじめ定められ発話決定部３内の図示しない記憶部に記憶された定型的な行動の中から任意に選択してもよいし、直前までの発話内容に応じて決定してもよい。ユーザの発話を取得するための条件は、Ａ．ユーザの発話における非言語行動に関する条件と、Ｂ．ユーザの発話の内容に関する条件に分類することができる。Ａ．ユーザの発話における非言語行動に関する条件は、Ａ１．ユーザの発話のタイミングに関する条件、すなわち、音声認識部２がユーザの発話を受け付け可能となるタイミングよりも早くユーザが発話してしまうことを回避するための条件や、Ａ２．ユーザの発話の音量や方向に関する条件、すなわち、音声認識部２がユーザの発話を音声認識することが不可能な音量で入力部１がユーザの発話音声を収音することを回避するための条件などである。Ｂ．ユーザの発話の内容に関する条件は、音声認識部２がより高精度にユーザの発話を音声認識するため、もしくは、ユーザの発話の内容が実行中のシナリオで想定する範囲外となりシナリオの続行に失敗することを回避するための条件である。

Ａ１．ユーザの発話のタイミングに対応する行動は、具体的には、Ａ１−１．所望のタイミングの模範回答をロボットが先に行う、Ａ１−２．ユーザの発話が所望のタイミングになるようにロボットが視線を動かす、などが挙げられる。Ａ２．ユーザの発話の音量や方向に関する条件に対応する行動は、声が小さいユーザに対しては、より大きな音量での模範回答をロボットが先に行うなどが挙げられる。Ｂ．ユーザの発話の内容に対応する行動は、具体的には、Ｂ−１．発話の長さを所望の長さに制御した発話をロボットが先に行う、Ｂ−２．発話の詳細度を所望の水準に制御した発話をロボットが先に行う、Ｂ−３．文法の難易度を所望の水準に制御した発話をロボットが先に行う、Ｂ−４．発話中の固有名詞の有無を制御した発話をロボットが先に行う、Ｂ−５．発話の口語らしさの度合いを所望の水準に制御した発話をロボットが先に行う、などが挙げられる。

上記したユーザの発話を取得するための条件に対応する行動の具体例は、任意に組み合わせることが可能である。例えば、Ａ１．ユーザの発話のタイミングとＢ．ユーザの発話の内容との両方に対応する行動を行うものとして、Ｂ−１．発話の長さを所望の長さに制御した発話を、Ａ１−１．所望のタイミングでロボットが先に行ってもよい。また、例えば、Ｂ．ユーザの発話の内容に対応する行動を行うものとして、Ｂ−２．発話の詳細度とＢ−４．発話中の固有名詞の有無を同時に制御した発話をロボットが先に行ってもよい。

以下、ユーザの発話を取得するための条件に対応する行動について、具体例を挙げながら説明する。ここで、Ｒはロボットを表し、Ｈはユーザを表す。Ｒの後に続く数字は人型ロボットの識別子である。「Ｒ１」は人型ロボット５−１が発話することを表し、「Ｒ２」は人型ロボット５−２が発話することを表す。なお、人型ロボットが誰に話かける意図であるかは、例えば、人型ロボットの頭部や視線の動きにより表出するようにしてもよいし、表出しなくてもよい。

Ａ１−１．所望のタイミングの模範回答をロボットが先に行う場合の具体例を以下に示す。これは、音声認識部２が音声認識を開始するタイミングが遅くなることがあり、例えばユーザ発話の音声認識に失敗したり、ユーザ発話の先頭部分が欠けた音声認識結果となったりすることを避けるために行うものである。

Ｒ１：「どんな食べ物が好きですか？」（※質問＝第一発話）
Ｒ２：「そば」（※模範回答＝行動）
Ｈ：「ラーメン」

Ａ１−２．所望のタイミングになるようにロボットが視線を動かす場合の具体例を以下に示す。これも、Ａ１−１と同様に、音声認識部２が音声認識を開始するタイミングが遅くなることによる問題を回避するために行うものである。

Ｒ１：「どんな食べ物が好きですか？」（※質問＝第一発話）
Ｒ２：（ユーザへ視線を向ける）（※行動）
Ｈ：「ラーメン」

上記の例では、ユーザへ視線を向けるロボットをＲ２としたが、Ｒ１がユーザへ視線を向ける行動を行ってもよいし、Ｒ１およびＲ２以外の他のロボットがユーザへ視線を向ける行動を行ってもよい。

Ｂ−１．発話の長さを所望の長さに制御した発話をロボットが先に行う場合の具体例を以下に示す。ユーザの発話が長過ぎたり短過ぎたりすると、音声認識部２の認識率が低下する場合がある。そのため、ユーザが適切な長さで発話するように引き込むために、ユーザが発話する前にロボットが所望の長さの模範回答を発話する。

以下は、従来どおり引き込むための行動を行わず、ユーザの発話が短過ぎるため対話に失敗する例である。

Ｒ１：「どんな食べ物が好きですか？」
Ｈ：「そば」（※ユーザの発話が一単語のみであるため、文脈情報が利用できず音声認識が困難である。）

以下は、従来どおり引き込むための行動を行わず、ユーザの発話が長過ぎるため対話に失敗する例である。

Ｒ１：「どんな食べ物が好きですか？」
Ｈ：「あー、最近だと●●店っていう城陽のほうにあるラーメン屋がだいぶおいしかったかなあ、だいぶ並んだけど。」（※ユーザの発話に含まれる単語が多すぎるため、すべての単語を誤りなく音声認識することは困難である。）

以下は、ユーザの発話より先にロボットが模範回答を発話する例である。

Ｒ１：「どんな食べ物が好きですか？」
Ｒ２：「ラーメンが好きです。」
Ｈ：「そばが好きです。」（※ユーザの発話がロボットの模範回答に引き込まれて周辺単語が付加されるため認識率が向上する。）

Ｂ−２．発話の詳細度を所望の水準に制御した発話をロボットが先に行う場合の具体例を以下に示す。ユーザの発話が詳細過ぎたり簡易過ぎたりすると、適切な返答が生成できない場合がある。そのため、ユーザが適切な詳細度で発話するように引き込むために、ユーザが発話する前にロボットが所望の詳細度で模範回答を発話する。

以下は、「今夜の予定は？」という発話に対して、従来どおり引き込むための行動を行わず、ユーザの発話が簡易過ぎるため対話に失敗する例である。

Ｒ１：「今夜の予定は？」
Ｈ：「飲んで寝る」
Ｒ１：「水を飲みますか？」（※ユーザの発話の一部が省略されているため意味を正しく解釈できなかった。）

以下は、従来どおり引き込むための行動を行わず、ユーザの発話が詳細過ぎるため対話に失敗する例である。

Ｒ１：「今夜の予定は？」
Ｈ：「気分が沈みがちだからおねえちゃんのいる飲み屋に行ってパーっと遊ぶ」
Ｒ１：「どこに沈みますか？」（※ユーザの発話の話題の焦点がどこにあるか理解できなかった。）

Ｒ１：「今夜の予定は？」
Ｒ２：「映画館に映画を観に行きます。」
Ｈ：「飲み屋にお酒を飲みに行きます。」（※ユーザの発話がロボットの模範回答に引き込まれて、適切な粒度で話題を特定する単語が含まれているため、正しくユーザの発話を解釈することができる。）

以下は、「この間旅行に行ってきたよ」という発話に対して、従来どおり引き込むための行動を行わず、ユーザの発話が簡易過ぎるため対話に失敗する例である。

Ｒ１：「この間旅行に行ってきたよ」
Ｈ：「どのあたり？」
Ｒ１：「あたりです」（※ユーザの発話が一般的な単語のみであり話題の焦点を見つけることができなかった。）

Ｒ１：「この間旅行に行ってきたよ」
Ｈ：「私はサーリセルカに行きました」
Ｒ１：（沈黙）（※ユーザの発話の話題が詳細過ぎるため適切な返答を生成できなかった。）

Ｒ１：「この間旅行に行ってきたよ」
Ｒ２（→Ｒ１）：「アメリカに行ったんだっけ？」
Ｒ１（→Ｈ）：「うん。あなたはどこか行った？」
Ｈ：「フィンランドに行ったよ」（※ユーザの発話の話題が適度に詳細であり返答を生成できる。）

Ｂ−３．文法の難易度を所望の水準に制御した発話をロボットが先に行う場合の具体例を以下に示す。ユーザの発話が所望の文法でないと、適切な返答が生成できない場合がある。そのため、ユーザが所望の難易度の文法で発話するように引き込むために、ユーザが発話する前にロボットが所望の文法で模範回答を発話する。

以下は、述語項構造を発話生成のキーとする場合の例である。模範回答により引き込みを行わないと、上述の詳細過ぎる例のように発話が崩れてしまい、ユーザの発話内容を解釈できない場合がある。なお、下記の例において、NPは名詞句を、Adjは形容詞句を、VPは動詞句を表す。

Ｒ１：「どんな食べ物が好きですか？」
Ｒ２：「ぼくは（NP）/あっさりした（Adj）/ラーメンが（NP）/好きです（VP）」
Ｈ：「私は（NP）/さっぱりした（Adj）/そばが（NP）/好きです（VP）」

以下は、名詞を発話生成のキーとする場合の例である。

Ｒ１：「どんな食べ物が好きですか？」
Ｒ２：「あっさりした（Adj）/ラーメン（NP）」
Ｈ：「さっぱりした（Adj）/そばかな（NP）」

Ｂ−４．発話中の固有名詞の有無を制御した発話をロボットが先に行う場合の具体例を以下に示す。ユーザの発話に固有名詞が含まれると、話題を容易に同定することができるため、以降の対話を扱いやすい場合が多い。

以下は、固有名詞をなしとする場合の例である。

Ｒ１：「どんなラーメンが好き？」
Ｒ２：「ぼくはあっさりしたのが好きかな」
Ｈ：「私はこってりかな」

以下は、固有名詞をありとする場合の例である。

Ｒ１：「どんなラーメンが好き？」
Ｒ２：「ぼくは●●店のこってりが好きだよ」
Ｈ：「私は▲▲店とかが好きかな」

Ｂ−５．発話の口語らしさの度合いを所望の水準に制御した発話をロボットが先に行う場合の具体例を以下に示す。ここで、「口語らしさ」とは、例えば、助詞の欠落、語尾の変化、多義語の増加、口語的間投詞や副詞などの増加、などが挙げられる。口語らしさの度合いが低いほど音声認識や発話理解の精度が上がる。一方、口語らしさの度合いが高いほどユーザに対してフランクな印象を与えることができる。

以下は、口語らしさの度合いが低い場合の例である。

Ｒ１：「どんなラーメンが好きですか？」
Ｒ２：「ぼくはあっさりしたラーメンが好きです」
Ｈ：「私はこってりしたラーメンが好きです」

以下は、口語らしさの度合いが高い場合の例である。

Ｒ１：「どんなラーメンが好き？」
Ｒ２：「あっさりしたのとか好きかなあ」
Ｈ：「まあやっぱりこってりかな」

後者の例では、ロボットＲ２の発話は、助詞「が」の欠落、口語的な語尾、「ラーメン」を「の」に置き換えなどが含まれ、口語らしさの度合いが高く、ユーザＨの発話も、間投詞「まあ」の増加、比較副詞「やっぱ」の増加、口語的な語尾、「ラーメン」を「の」に置き換えなどが含まれ、口語らしさの度合いが高い。

ステップＳ１３において、マイクロホン１は、引き込み行動の後にユーザが発した発話を受け付ける。以下、この発話をユーザ発話と呼ぶ。マイクロホン１で収音したユーザ発話の音声信号は、音声認識部２により認識され、音声認識結果として得られたテキストがユーザ発話の内容を表すテキストとして発話決定部３へ入力される。

以降は、ユーザと対話システムとの間でユーザ発話の内容を話題とした対話が続行される。例えば、シナリオ対話システムにおいて用いられている技術により選択したシナリオに沿った対話がユーザと対話システムとの間で実行されるように、対話システムは、シナリオ対話システムにおいて用いられている技術により決定したシナリオ発話の発話内容を表す音声をスピーカから出力する。また、例えば、対話システムは、ユーザの発話に基づいて雑談対話システムにおいて用いられている技術により決定した雑談発話の発話内容を表す音声をスピーカから出力する。以降の発話を行うロボットは、何れか１つの人型ロボットであっても複数の人型ロボットであってもよい。

＜第二実施形態＞
第一実施形態では、対話システムがユーザの発話を正確に理解できるように、引き込み現象を利用して、ユーザの発話を対話システムが取得するための条件を満たす範囲に引き込むように構成した。第二実施形態では、引き込み現象を利用せずに、ユーザの発話を所望の範囲に限定させる構成を説明する。ユーザの発話を対話システムが想定する範囲に限定させることができれば、対話システムはユーザの発話に対して適切な応答をできる可能性が高くなる。例えば、ユーザが必ず肯定または否定（「Yes / No」）を発話するようにできれば、対話システムはユーザの発話に対して必ず適切な応答をすることができる。

以下、図３を参照して、第二実施形態の対話方法の処理手続きを説明する。

ステップＳ２１において、マイクロホン１は、ユーザが発した発話を受け付ける。以下、この発話を第一ユーザ発話と呼ぶ。マイクロホン１で収音した第一ユーザ発話の音声信号は、音声認識部２により認識され、音声認識結果として得られたテキストが第一ユーザ発話の内容を表すテキストとして発話決定部３へ入力される。

ステップＳ２２において、人型ロボット５−１は、第一ユーザ発話の内容を表すテキストに基づいて発話決定部３が決定した発話の内容を表す音声をスピーカから出力する。以下、この発話を限定発話と呼ぶ。限定発話は、ユーザの発話を所望の範囲に限定させるための発話である。所望の範囲としては、例えば、Ｃ−１．ユーザの発話を相槌に限定させる、Ｃ−２．ユーザの発話を肯定または否定（例えば、「Yes / No」）に限定させる、などが挙げられる。

以下、ユーザの発話を所望の範囲に限定させるための発話について、具体例を挙げながら詳細に説明する。具体例の表記方法については第一実施形態と同様である。なお、具体例における※１は第一ユーザ発話に相当し、※２は限定発話に相当する。

Ｃ−１．ユーザの発話を相槌に限定させる場合の具体例を以下に示す。例えば、第一ユーザ発話の内容を表す語を含み、第一ユーザ発話の内容を確認する質問を限定発話として発話することで、ユーザが相槌を返す可能性が高まる。

Ｒ：「何が好き？」
Ｈ：「読書が好き」（※１）
Ｒ：「本を読むのが好きなんだね」（※２）
Ｈ：「うん」

Ｃ−２．ユーザの発話を肯定または否定に限定させる場合の具体例を以下に示す。例えば、第一ユーザ発話の内容に関連する語を含むクローズ質問を限定発話とすることで、ユーザは肯定または否定で回答する可能性が高まる。なお、クローズ質問とは、例えば「Yes / No」や「A or B or C」のように回答範囲が限定される質問である。逆に、いわゆる５Ｗ１Ｈ（いつ（When）、どこで（Where）、だれが（Who）、なにを（What）、なぜ（Why）、どのように（How））のように自由に回答できる質問はオープン質問と呼ばれる。

Ｒ：「何が好き？」
Ｈ：「読書が好き」（※１）
Ｒ：「漫画を読むのも好き？」（※２）
Ｈ：「うん」

ステップＳ２３において、マイクロホン１は、限定発話の後にユーザが発した発話を受け付ける。以下、この発話を第二ユーザ発話と呼ぶ。マイクロホン１で収音した第二ユーザ発話の音声信号は、音声認識部２により認識され、音声認識結果として得られたテキストが第二ユーザ発話の内容を表すテキストとして発話決定部３へ入力される。

以降は、ユーザと対話システムとの間で第二ユーザ発話の内容を話題とした対話が続行される。例えば、シナリオ対話システムにおいて用いられている技術により選択したシナリオに沿った対話がユーザと対話システムとの間で実行されるように、対話システムは、シナリオ対話システムにおいて用いられている技術により決定したシナリオ発話の発話内容を表す音声をスピーカから出力する。また、例えば、対話システムは、ユーザの発話に基づいて雑談対話システムにおいて用いられている技術により決定した雑談発話の発話内容を表す音声をスピーカから出力する。以降の発話を行うロボットは、何れか１つの人型ロボットであっても複数の人型ロボットであってもよい。

＜変形例＞
上述した実施形態では、エージェントとしてロボットを用いて音声による対話を行う例を説明したが、上述した実施形態のロボットは身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、この発明の対話技術はこれらに限定されず、人型ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態とすることも可能である。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」（登録商標）や「２ちゃんねる」（登録商標）のような、複数アカウントがテキストメッセージにより対話を行うグループチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に適用することも可能である。この形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。

変形例の対話システム２０は、図４に示すように、入力部１、発話決定部３、および提示部５を備える。図４の例では、変形例の対話システム２０は１台の対話装置２１からなり、変形例の対話装置２１は、入力部１、発話決定部３、および提示部５を備える。

変形例の対話装置は、例えば、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの情報処理装置である。以下、対話装置がスマートフォンであるものとして説明する。提示部５はスマートフォンが備える液晶ディスプレイである。この液晶ディスプレイにはチャットアプリケーションのウィンドウが表示され、ウィンドウ内にはグループチャットの対話内容が時系列に表示される。グループチャットとは、チャットにおいて複数のアカウントが互いにテキストメッセージを投稿し合い対話を展開する機能である。このグループチャットには、対話装置が制御する仮想的な人格に対応する複数の仮想アカウントと、ユーザのアカウントとが参加しているものとする。すなわち、本変形例は、エージェントが、対話装置であるスマートフォンの液晶ディスプレイに表示された仮想アカウントである場合の一例である。ユーザはソフトウェアキーボードを用いて入力部１へ発話内容を入力し、自らのアカウントを通じてグループチャットへ投稿することができる。発話決定部３はユーザのアカウントからの投稿に基づいて対話装置からの発話内容を決定し、各仮想アカウントを通じてグループチャットへ投稿する。なお、スマートフォンに搭載されたマイクロホンと音声認識機能を用い、ユーザが発声により入力部１へ発話内容を入力する構成としてもよい。また、スマートフォンに搭載されたスピーカと音声合成機能を用い、各対話システムから得た発話内容を、各仮想アカウントに対応する音声でスピーカから出力する構成としてもよい。

上記のように構成することにより、この発明の対話技術によれば、ユーザの発話の前に対話システムが発話を取得するための条件に対応する行動を行うことで、ユーザの発話を対話システムが取得するための条件を満たす範囲に引き込むことができ、ユーザは対話システムとの対話を長く続けることができるようになる。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した対話装置における各種の処理機能をコンピュータによって実現する場合、対話装置が有すべき機能の処理内容はプログラムによって記述される。また、上記変形例で説明した対話システムにおける各種の処理機能をコンピュータによって実現する場合、対話システムが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記対話装置および対話システムにおける各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１入力部
２音声認識部
３発話決定部
４音声合成部
５提示部
１０、２０対話システム
１１、２１対話装置

Claims

ある発話である第一発話に対するユーザの発話を取得するために対話システムが行う対話方法であって、
提示部が、ある人格である第一人格により上記第一発話を提示する第一提示ステップと、
上記提示部が、上記第一発話に対するユーザの発話を取得するための条件に対応する行動を提示する第二提示ステップと、
上記入力部が、上記行動後に上記ユーザが発した発話を受け付ける返答受付ステップと、
を含み、
上記条件は、発話の長さ、発話の詳細度、発話の文法の難易度、発話に含まれる固有名詞の有無、発話の口語らしさの度合い、の少なくともいずれかに対応する条件を含み、
上記行動は、上記第一人格とは異なる人格である第二人格により上記条件に対応する発話の提示を含む、
対話方法。
ある発話である第一発話に対するユーザの発話を取得するために対話システムが行う対話方法であって、
提示部が、ある人格である第一人格により上記第一発話を提示する第一提示ステップと、
上記提示部が、上記第一発話に対するユーザの発話を取得するための条件に対応する行動を提示する第二提示ステップと、
上記入力部が、上記行動後に上記ユーザが発した発話を受け付ける返答受付ステップと、
を含み、
上記条件は、発話の非言語行動に対応する条件を含み、
上記行動は、上記第一人格とは異なる人格である第二人格により上記条件に対応する発話の提示を含む、
対話方法。
請求項１または２に記載の対話方法であって、
上記条件は、ユーザの発話を促す条件であり、
上記行動は、ユーザの発話を促す行動である、
対話方法。
請求項１から３のいずれかに記載の対話方法であって、
上記行動は、ユーザの発話を促す発話である、
対話方法。
請求項１から４のいずれかに記載の対話方法であって、
上記提示部が、第二提示ステップ後に、上記第一発話に対するユーザの発話を取得するための条件に対応する行動を行う第三提示ステップをさらに含む、
対話方法。
請求項２に記載の対話方法であって、
上記行動は、上記第一発話に対するユーザの発話を上記入力部が受付可能となる時刻以降にユーザが発話を開始するようにユーザへ発話を促す行動を含む、
対話方法。
ある発話である第一発話に対するユーザの発話を取得するために対話システムが行う対話方法であって、
提示部が、ある人格である第一人格により上記第一発話を提示する第一提示ステップと、
上記提示部が、上記第一発話に対するユーザの発話を取得するための条件に対応する行動を上記第一人格とは異なる人格である第二人格により提示する第二提示ステップと、
上記入力部が、上記行動後に上記ユーザが発した発話を受け付ける返答受付ステップと、
を含む対話方法。
ある発話である第一発話に対するユーザの発話を取得する対話システムであって、
上記第一発話と、上記第一発話に対するユーザの発話を取得するための条件に対応する行動と、を決定する発話決定部と、
上記発話決定部が決定した第一発話をある人格である第一人格により提示し、上記発話決定部が決定した行動を上記第一発話を提示した後に提示する提示部と、
上記行動後に上記ユーザが発した発話を受け付ける入力部と、
を含み、
上記条件は、発話の長さ、発話の詳細度、発話の文法の難易度、発話に含まれる固有名詞の有無、発話の口語らしさの度合い、の少なくともいずれかに対応する条件を含み、
上記行動は、上記第一人格とは異なる人格である第二人格により上記条件に対応する発話の提示を含む、
対話システム。
ある発話である第一発話に対するユーザの発話を取得する対話システムであって、
上記第一発話と、上記第一発話に対するユーザの発話を取得するための条件に対応する行動と、を決定する発話決定部と、
上記発話決定部が決定した第一発話をある人格である第一人格により提示し、上記発話決定部が決定した行動を上記第一発話を提示した後に提示する提示部と、
上記行動後に上記ユーザが発した発話を受け付ける入力部と、
を含み、
上記条件は、発話の非言語行動に対応する条件を含み、
上記行動は、上記第一人格とは異なる人格である第二人格により上記条件に対応する発話の提示を含む、
対話システム。
ある発話である第一発話に対するユーザの発話を取得する対話システムであって、
上記第一発話と、上記第一発話に対するユーザの発話を取得するための条件に対応する行動と、を決定する発話決定部と、
上記発話決定部が決定した第一発話をある人格である第一人格により提示し、上記発話決定部が決定した行動を上記第一発話を提示した後に上記第一人格とは異なる人格である第二人格により提示する提示部と、
上記行動後に上記ユーザが発した発話を受け付ける入力部と、
を含む対話システム。
ユーザの発話を受け付ける入力部と、発話および行動を提示する提示部とを少なくとも含み、ある発話である第一発話に対するユーザの発話を取得する対話システムが提示する発話を決定する対話装置であって、
ある人格である第一人格により提示する上記第一発話と、上記第一発話を提示した後に提示する行動であり、かつ、上記第一発話に対するユーザの発話を取得するための条件に対応する行動と、を決定する発話決定部
を含み、
上記条件は、発話の長さ、発話の詳細度、発話の文法の難易度、発話に含まれる固有名詞の有無、発話の口語らしさの度合い、の少なくともいずれかに対応する条件を含み、
上記行動は、上記第一人格とは異なる人格である第二人格により上記条件に対応する発話の提示を含む、
対話装置。
ユーザの発話を受け付ける入力部と、発話および行動を提示する提示部とを少なくとも含み、ある発話である第一発話に対するユーザの発話を取得する対話システムが提示する発話を決定する対話装置であって、
ある人格である第一人格により提示する上記第一発話と、上記第一発話を提示した後に提示する行動であり、かつ、上記第一発話に対するユーザの発話を取得するための条件に対応する行動と、を決定する発話決定部
を含み、
上記条件は、発話の非言語行動に対応する条件を含み、
上記行動は、上記第一人格とは異なる人格である第二人格により上記条件に対応する発話の提示を含む、
対話装置。
ユーザの発話を受け付ける入力部と、発話および行動を提示する提示部とを少なくとも含み、ある発話である第一発話に対するユーザの発話を取得する対話システムが提示する発話を決定する対話装置であって、
ある人格である第一人格により提示する上記第一発話と、上記第一発話を提示した後に上記第一人格とは異なる人格である第二人格により提示する行動であり、かつ、上記第一発話に対するユーザの発話を取得するための条件に対応する行動と、を決定する発話決定部
を含む対話装置。
請求項１から７のいずれかに記載の対話方法の各ステップをコンピュータに実行させるためのプログラム。
請求項１１から１３のいずれかに記載の対話装置としてコンピュータを機能させるためのプログラム。