JP6818280B2 - 対話システム、対話方法、対話装置、およびプログラム - Google Patents

対話システム、対話方法、対話装置、およびプログラム Download PDF

Info

Publication number
JP6818280B2
JP6818280B2 JP2019504382A JP2019504382A JP6818280B2 JP 6818280 B2 JP6818280 B2 JP 6818280B2 JP 2019504382 A JP2019504382 A JP 2019504382A JP 2019504382 A JP2019504382 A JP 2019504382A JP 6818280 B2 JP6818280 B2 JP 6818280B2
Authority
JP
Japan
Prior art keywords
utterance
user
action
robot
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019504382A
Other languages
English (en)
Other versions
JPWO2018163648A1 (ja
Inventor
弘晃 杉山
弘晃 杉山
宏美 成松
宏美 成松
雄一郎 吉川
雄一郎 吉川
尊優 飯尾
尊優 飯尾
庸浩 有本
庸浩 有本
石黒 浩
浩 石黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Osaka University NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Osaka University NUC filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2018163648A1 publication Critical patent/JPWO2018163648A1/ja
Application granted granted Critical
Publication of JP6818280B2 publication Critical patent/JP6818280B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Manipulator (AREA)

Description

この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語等を用いて対話を行う技術に関する。
近年、人とコミュニケーションを行うロボットの研究開発が進展しており、様々な現場で実用化されてきている。例えば、コミュニケーションセラピーの現場において、ロボットが孤独感を抱える人の話し相手となる利用形態がある。具体的には、老人介護施設においてロボットが入居者の傾聴役となることで、入居者の孤独感を癒す役割を担うことができると共に、ロボットとの会話している姿を見せ、入居者とその家族や介護士など周りの人々との会話のきっかけを作ることができる。また、例えば、コミュニケーション訓練の現場において、ロボットが練習相手となる利用形態がある。具体的には、外国語学習施設においてロボットが外国語学習者の練習相手となることで、外国語学習を効率的に進めることができる。また、例えば、情報提示システムとしての応用において、ロボット同士の対話を聞かせることを基本としながら、時折人に話しかけることで、退屈させずに人を対話に参加させ、人が受け入れやすい形で情報を提示することができる。具体的には、街中の待ち合わせ場所やバス停、駅のホームなどで人が時間を持て余している際や、自宅や教室などで対話に参加する余裕がある際に、ニュースや商品紹介、蘊蓄・知識紹介、教育(例えば、子供の保育・教育、大人への一般教養教授、モラル啓発など)など、効率的な情報提示が期待できる。さらに、例えば、情報収集システムとしての応用において、ロボットが人に話しかけながら情報を収集する利用形態がある。ロボットとのコミュニケーションにより対話感を保持できるため、人に聴取されているという圧迫感を与えずに情報収集することができる。具体的には、個人情報調査や市場調査、商品評価、推薦商品のための趣向調査などに応用することが想定されている。このように人とロボットのコミュニケーションは様々な応用が期待されており、ユーザとより自然に対話を行うロボットの実現が期待される。また、スマートフォンの普及により、LINE(登録商標)のように、複数ユーザでほぼリアルタイムにチャットを行うことにより、人との会話を楽しむサービスも実施されている。このチャットサービスにロボットとの会話の技術を適用すれば、チャット相手がいなくても、ユーザとより自然に対話を行うチャットサービスの実現が可能となる。
本明細書では、これらのサービスで用いられるロボットやチャット相手などのユーザとの対話相手となるハードウェアやユーザとの対話相手となるハードウェアとしてコンピュータを機能させるためのコンピュータソフトウェアなどを総称してエージェントと呼ぶこととする。エージェントは、ユーザとの対話相手となるものであるため、ロボットやチャット相手などのように擬人化されていたり、人格化されていたり、性格や個性を有していたりするものであってもよい。
これらのサービスの実現のキーとなるのは、ハードウェアやコンピュータソフトウェアにより実現されるエージェントが人間と自然に対話を行うことができる技術である。
上記のエージェントの一例として、例えば、非特許文献1に記載されたような、ユーザの発話を音声認識し、発話の意図を理解・推論して、適切な応答をする音声対話システムがある。音声対話システムの研究は、音声認識技術の進展に伴って活発に進められ、例えば音声自動応答システムなどで実用化されている。
また、上記のエージェントの一例として、あらかじめ定められたシナリオに沿って特定の話題についてユーザと対話を行うシナリオ対話システムがある。シナリオ対話システムでは、シナリオに沿って対話が展開する限り対話を続けることが可能である。例えば、非特許文献2に記載された対話システムは、ユーザと複数のエージェント間で、エージェントによる割り込みやエージェント同士のやり取りを含めながら対話を行うシステムである。例えば、エージェントは、ユーザに対してシナリオに用意された質問を発話し、質問に対するユーザの回答の発話がシナリオに用意された選択肢に対応する場合に、その選択肢に対応する発話を行うように機能する。すなわち、シナリオ対話システムは、システムに予め記憶されたシナリオに基づいた発話をエージェントが行う対話システムである。この対話システムでは、エージェントがユーザに問いかけ、ユーザからの返答を受けた際に、ユーザの発話内容に関わらず「そっか」といった相槌で流したり、エージェントの割り込みで話題を変えたりすることで、ユーザの発話が本来の話題から外れた場合であってもストーリーの破綻をユーザに感じさせないように応答することが可能である。
また、上記のエージェントの一例として、ユーザの発話内容に沿った発話をエージェントが行うことにより、ユーザとエージェントとが自然な対話を行う雑談対話システムがある。例えば、非特許文献3に記載された対話システムは、ユーザとエージェントとの間で行われる複数回の対話の中で文脈に特有のものをより重視しながら、ユーザまたはエージェントの発話に含まれる単語をトリガーとして、あらかじめ記述しておいたルールに従ってシステムが発話することで、ユーザとシステムとの間で雑談対話を実現するシステムである。雑談対話システムが用いるルールは、あらかじめ記述したものだけでなく、ユーザの発話内容に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいて自動的に生成したものであってもよい。非特許文献3には、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて、自動的にルールを生成する技術が記載されている。また、例えば、非特許文献4に記載された対話システムは、人手で記述したルールと統計的発話生成手法で記述したルールを融合することで、ルール生成のコストを低減したシステムである。雑談対話システムは、シナリオ対話システムとは異なり、予め用意されたシナリオに沿った発話をエージェントが行うものではないため、ユーザの発話によっては、エージェントの発話がユーザの発話に対応しないものとなってしまうという事態は生じずに、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行うことが可能である。すなわち、雑談対話システムは、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行う対話システムである。これらの雑談対話システムでは、ユーザの発話に対して明示的に応答することが可能である。
河原達也,"話し言葉による音声対話システム",情報処理,vol.45,no. 10,pp. 1027-1031,2004年10月 有本庸浩,吉川雄一郎,石黒浩,"複数体のロボットによる音声認識なし対話の印象評価",日本ロボット学会学術講演会,2016年 杉山弘晃,目黒豊美,東中竜一郎,南泰浩,"任意の話題を持つユーザ発話に対する係り受けと用例を利用した応答文の生成",人工知能学会論文誌,vol.30(1),pp. 183-194,2015年 目黒豊美,杉山弘晃,東中竜一郎,南泰浩,"ルールベース発話生成と統計的発話生成の融合に基づく対話システムの構築",人工知能学会全国大会論文集,vol. 28,pp. 1-4,2014年
しかしながら、ユーザの発話が終わった後、エージェントが応答の発話を開始するまでの時間に、ユーザが違和感を感じることがある。
例えば、図3に示すように、ユーザが発話を開始した時刻である発話開始時刻をτ1とし、ユーザの発話が終了した時刻である発話終了時刻をτ2とし、τ2がユーザの発話が終了した時刻であると判定した時刻を発話終了判定時刻τ3とし、ユーザの発話に対するエージェントの応答の発話を生成して開始する時刻である応答発話開始時刻をτ4とする。図3の縦軸はユーザの発話を収音するためのマイクロホンで収音した音響信号の振幅を表し、横軸は時刻を表す。
図3の例では、ユーザの発話が終了した時刻τ2からユーザの発話に対するエージェントの応答の発話を生成して開始する時刻τ4までには、発話終了の判定の遅延である第一遅延時間τ3-τ2と、発話生成の遅延である第二遅延時間τ4-τ3とが発生している。
これらの第一遅延時間及び第二遅延時間に起因して、ユーザの発話に対するエージェントの応答が遅いとユーザが感じる可能性、すなわち、ユーザがエージェントとの対話に違和感を感じる可能性があった。
この発明は、ユーザの違和感を軽減した対話システム、方法、装置及びプログラムを提供することを目的とする。
上記の課題を解決するために、この発明の第一の態様の対話システムは、ユーザと対話を行う対話システムであって、ユーザの発話が終了したと推定または判定された後または終了する予測時刻の後であって、ユーザの発話に対する応答発話を対話システムが行う前に、ユーザの発話と対話システムの応答発話との間に、あるロボットである第一ロボットと、第一ロボットとは異なる第二ロボットとの間で行われる行動である、互いに顔を見合わせる行動、発話を促すように他方のロボットの方を向く行動、一方のロボットが何かに気づいたような仕草を示し、他方のロボットが当該仕草を見やり、互いに顔を見合わせたのち、気づいたような仕草を示したロボットがユーザを見る行動、の何れかを含む行動を提示する提示部、を備えている。
また、この発明の第二の態様の対話システムは、ユーザと対話を行う対話システムであって、ユーザの発話(以下、「ユーザ発話」という)の音声が無くなってからの経過時間が第一の時間閾値より長くなったときに、相槌、頷く動作、首を傾げる動作、考え込むように首を下げる動作、の少なくとも何れかを提示する第一の提示を行い、ユーザ発話の音声が無くなってからの経過時間が第一の時間閾値より長い第二の時間閾値より長くなり、かつ、第一の提示が終わった後に、ユーザ発話の終了を対話システムが認識したことを表出する行動、ユーザ発話を対話システムが聞き取ったことを表出する行動、ユーザ発話の一部を利用した発話、ユーザの話を聴いていることを表す言語行動、の少なくとも何れかを提示する第二の提示を行い、第二の提示が終わった後に、ユーザ発話に対する応答発話を提示する第三の提示を行う提示部、を備えている。
この発明によれば、ユーザの発話が終了したと推定または判定された後または終了する予測時刻の後であって、ユーザの発話に対する応答発話を対話システムが行う前に、ユーザの発話と対話システムの応答発話との間の間を埋めるための行動を提示することにより、ユーザの違和感を軽減することができる。
図1は、実施形態の対話システムの機能構成を例示する図である。 図2は、実施形態の対話方法の処理手続きを例示する図である。 図3は、従来技術を説明するための図である。 図4は、実施形態の効果を説明するための図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[実施形態]
実施形態の対話システムは、複数台の人型ロボットが協調してユーザとの対話を行うシステムである。すなわち、実施形態の対話システムは、エージェントが人型ロボットである場合の一例である。対話システム100は、図1に示すように、例えば、対話装置1と、マイクロホン11およびカメラ12からなる入力部10と、少なくともスピーカ51を備える提示部50とを含む。対話装置1は、例えば、行動認識部20、発話決定部30、音声合成部40、発話終了推定部61、行動決定部62、および発話終了判定部63を備える。行動認識部20は、例えば、音声認識部21および動作認識部22を備える。この対話システム100が後述する各ステップの処理を行うことにより実施形態の対話方法が実現される。
対話装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、対話装置1の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
入力部10は提示部50と一体もしくは部分的に一体として構成してもよい。図1の例では、入力部10の一部であるマイクロホン11−1、11−2が、提示部50である人型ロボット50−1、50−2の頭部(耳の位置)に搭載されている。また、図1の例では入力部10の一部であるカメラ12が独立して設置されているが、例えば、人型ロボット50−1、50−2の頭部(目の位置)に搭載されていてもよい。図1の例では、提示部50は二台の人型ロボット50−1、50−2から構成されているが、一台の人型ロボットから構成されていてもよく、三台以上の人型ロボットから構成されていてもよい。
入力部10は、ユーザの発話(言語的な行動)と動作(非言語的な行動)の少なくとも何れかを対話システム100が取得するためのインターフェースである。言い換えれば、入力部10は、ユーザの行動を対話システム100へ入力するためのインターフェースである。例えば、入力部10はユーザの発話音声を収音して音声信号に変換するためのマイクロホン11である。入力部10をマイクロホンとする場合、ユーザ101が発話した発話音声を収音可能とすればよい。つまり、図1は一例であって、マイクロホン11−1,11−2の何れか一方を備えないでもよい。また、ユーザ101の近傍などの人型ロボット50−1,50−2とは異なる場所に設置された1個以上のマイクロホン、または、複数のマイクロホンを備えたマイクロホンアレイを入力部とし、マイクロホン11−1,11−2の双方を備えない構成としてもよい。マイクロホン11が、変換により得たユーザの発話音声の音声信号を含む音響信号を出力する。マイクロホン11が出力した音響信号は、発話終了推定部61と、発話終了判定部63と、行動認識部20の音声認識部21とに入力される。また、例えば、入力部10はユーザの身体的な動作を収録して映像信号に変換するカメラ12である。入力部10をカメラとする場合、ユーザ101の身体動作を収録可能とすればよい。つまり、図1は一例であって、カメラ12は1個のカメラでもよいし複数のカメラでもよい。カメラ12が、変換により得たユーザの身体動作の映像信号を出力する。カメラ12が出力した映像信号は、発話終了推定部61と、発話終了判定部63と、行動認識部20の動作認識部22とに入力される。
行動認識部20は、マイクロホン11が収音した音響信号とカメラ12が収録したユーザの身体動作の映像信号の少なくとも何れかを入力として、音声認識部21と動作認識部22の少なくとも何れかを用いて、音声認識部21が得たユーザの発話内容を表すテキストと動作認識部22が得たユーザの動作内容を表す情報の少なくとも何れかを含むユーザの行動内容を表す情報を得て、発話決定部30に対して出力する。
音声認識部21は、マイクロホン11から入力された音響信号に含まれるユーザの発話音声の音声信号をユーザの発話内容を表すテキストに変換して出力する。音声認識部21が出力したユーザの発話内容を表すテキストは、行動認識部20が出力するユーザの行動内容を表す情報に含められる。音声認識部21が行う音声認識の方法は、既存のいかなる音声認識技術であってもよく、利用環境等に合わせて最適なものを適宜選択すればよい。音声認識部21は、入力された音響信号から、人の発話音声がある区間の音響信号を人の発話音声の音声信号として得て、得られた人の発話音声の音声信号に対して音声認識技術を適用することでユーザの発話内容を表すテキストを得る構成としてもよい。
動作認識部22は、カメラ12から入力されたユーザの身体動作の映像信号をユーザの動作内容を表す情報に変換して出力する。動作認識部22が出力したユーザの動作内容を表す情報は、行動認識部20が出力するユーザの行動内容を表す情報に含められる。動作認識部22が行う動作認識の方法は、例えば、ユーザの表情などの変化などを利用する方法である。この方法では、動作認識部22は、入力された映像信号からユーザの顔の時系列の画像を取得し、取得した時系列の画像から特徴(例えば、瞳孔の大きさ、目尻の位置、目頭の位置、口角の位置、口の開き具合等)の変化であるユーザの動作内容を取得する。動作認識部22は、入力された映像信号中の各時刻に対応するユーザの動作内容を得て、ユーザの動作内容を表す時系列のデータを生成し、生成した時系列データをユーザの動作内容を表す情報として出力する。ただし、上記の動作認識の方法は一例であり、動作認識部22が行う動作認識の方法は、既存のいかなる動作認識技術であってもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
発話決定部30は、対話システム100からの発話内容を表すテキストを決定し、音声合成部40に対して出力する。行動認識部20からユーザの行動内容を表す情報が入力された場合には、入力されたユーザの行動内容を表す情報に基づいて、対話システム100からの発話内容を表すテキストを決定し、音声合成部40に対して出力する。なお、対話システム100の提示部50が複数の人型ロボットで構成される場合には、発話決定部30は、当該発話をいずれの人型ロボットが提示するかを決定してもよい。この場合には、当該発話を提示する人型ロボットを表す情報も併せて音声合成部40へ出力する。また、この場合には、発話決定部30は、当該発話を提示する相手、すなわち、当該発話をユーザに対して提示するのか、何れかの人型ロボットに対して提示するのか、を決定してもよい。この場合には、当該発話を提示する相手を表す情報も併せて音声合成部40へ出力する。
音声合成部40は、発話決定部30または行動決定部62から入力された発話内容を表すテキストを、発話内容を表す音声信号に変換し、提示部50に対して出力する。音声合成部40が行う音声合成の方法は、既存のいかなる音声合成技術であってもよく、利用環境等に合わせて最適なものを適宜選択すればよい。なお、発話決定部30または行動決定部62から発話内容を表すテキストと共に当該発話を提示する人型ロボットを表す情報が入力された場合には、音声合成部40は、当該情報に対応する人型ロボットへ発話内容を表す音声信号を出力する。また、発話決定部30または行動決定部62から発話内容を表すテキストと当該発話を提示する人型ロボットを表す情報に併せて発話を提示する相手を表す情報も入力された場合には、音声合成部40は、当該情報に対応する人型ロボットへ発話内容を表す音声信号と発話を提示する相手を表す情報を出力する。
提示部50は、発話決定部30または行動決定部62が決定した発話内容をユーザへ提示するためのインターフェースである。例えば、提示部50は、人間の形を模して製作された人型ロボットである。この人型ロボットは、音声合成部40が出力した発話内容を表す音声信号に対応する音声を、例えば頭部に搭載したスピーカ51から発音する、すなわち、発話を提示する。スピーカ51は、音声合成部40から入力された発話内容を表す音声信号に対応する音声を発音可能とすればよい。つまり、図1は一例であって、スピーカ51−1,51−2の何れか一方を備えないでもよい。また、ユーザ101の近傍などの人型ロボット50−1,50−2とは異なる場所に1個以上のスピーカ、または、複数のスピーカを備えたスピーカアレイを設置し、スピーカ51−1,51−2の双方を備えない構成としてもよい。また、人型ロボットは、顔の表情や、身体の動作等の非言語的な行動により発話決定部30または行動決定部62が決定した発話内容をユーザへ提示してもよい。例えば、直前の発話に対して同意する旨を提示する際には、首を縦に振り、同意しない旨を提示する際には、首を横に振るなどの非言語的な行動を提示することが挙げられる。提示部50を人型ロボットとした場合には、例えば、対話に参加する人格ごとに一台の人型ロボットを用意する。以下では、二人の人格が対話に参加する例として、二台の人型ロボット50−1および50−2が存在するものとする。なお、発話決定部30が当該発話をいずれの人型ロボットから提示するかを決定していた場合には、音声合成部40が出力した発話内容を表す音声信号を受け取った人型ロボット50−1または50−2が当該発話を提示する。また、発話決定部30または行動決定部62が決定した発話を提示する相手を表す情報も入力された場合には、人型ロボット50−1または50−2は、発話を提示する相手を表す情報に対応する人型ロボットまたはユーザの発話に顔や視線を向けた状態で、発話を提示する。
なお、提示部50は、行動決定部62が決定した間を埋めるための行動についての情報に基づいて、頷く、ウインク、視線を変える、手を動かす等の非言語行動を行うことが可能であってもよい。提示部50の処理については、後述する。
以下、図2を参照して、実施形態の対話方法の処理手続きを説明する。
発話終了推定部61は、マイクロホン11で収音した音響信号とカメラ12で収録したユーザの身体動作の映像信号の少なくとも何れかを入力として、ユーザの発話が終了したかどうかを推定する(ステップS61)。ユーザの発話が終了したと推定された場合には、発話終了推定部61は、その旨の推定結果を、行動決定部62に対して出力する。
例えば、発話終了推定部61は、ユーザの発話の音声が無くなったことを検出した場合に、ユーザの発話が終了したと推定する。例えば、発話終了推定部61は、マイクロホン11で収音した音響信号の振幅やパワーなどの大きさが所定の閾値(第一の閾値、振幅閾値)以下となった時間の長さが所定の閾値(第二の閾値、第一の時間閾値)よりも長くなった場合に、ユーザの発話の音声が無くなったと判断する。
また、発話終了推定部61は、VAD(Voice Activity Detection)技術を用いてユーザの発話が終了したことを推定してもよい。例えば、発話終了推定部61は、マイクロホン11で収音した音響信号に対してVADを行い、VADにより音声区間が終わったと判定された場合に、ユーザの発話が終了したと推定する。
VAD技術は、観測した音響信号について、音声が存在する区間とそれ以外の区間とを判別する技術である。VAD技術の実現方法として、音声波形の振幅と零交差に基づく方法や、混合ガウス分布モデル(Gaussian Mixture Model)に基づくフレーム単位の音声・非音声識別に基づく区間検出およびデコーダの認識中の仮説情報をもとに区間検出を行うデコーダベースVADなどが知られている(例えば、参考文献1参照。)。
〔参考文献1〕藤本雅清,"音声区間検出の基礎と最近の研究動向",電子情報通信学会技術研究報告, SP, 音声 110(81), 7-12, 2010-06-10
発話終了推定部61は、他の手法により、ユーザの発話が終了したかどうかを推定してもよい。例えば、発話終了推定部61は、入力されたユーザの身体動作の映像信号に対応する映像中のユーザの視線に基づいて、ユーザの発話が終了したかどうかを推定してもよい。
なお、発話終了推定部61は、入力された音響信号と映像信号の少なくとも何れかを用いて、ユーザの発話が終了する時刻を予測する手法により、ユーザの発話が終了することとを推定してもよい。この場合は、ユーザの発話が終了する予測時刻の情報も得て、提示部50に対して出力する。
発話終了推定部61においてユーザの発話が終了したことまたは終了することが推定された場合には、行動決定部62は、ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を決定する(ステップS62)。行動決定部62は、決定された間を埋めるための行動についての情報を、提示部50及び音声合成部40の少なくとも一方に出力する。ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動は、言語行動と非言語行動の少なくとも何れかである。
発話終了推定部61においては、実際にはユーザの発話が終了していないにもかかわらず、ユーザの発話が終了したことまたは終了することが推定されてしまうことがある。そこで、発話終了推定部61においてユーザの発話が終了したことまたは終了することが推定された場合に提示部50が行う間を埋めるための行動は、実際にはユーザの発話が終了しておらずユーザが発話を継続した場合に、ユーザが違和感を感じたり、ユーザが継続した発話を中断してしまったりするような行動ではなく、ユーザによる発話の継続を阻害しないような行動であることが望ましい。そこで、発話終了推定部61においてユーザの発話が終了したことまたは終了することが推定された場合には、行動決定部62は、例えば、以下で説明する言語行動や非言語行動を、間を埋めるための行動として決定する。
ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を言語行動とする場合には、行動決定部62は、間を埋めるための言語行動を決定し、決定した言語行動のテキストを間を埋めるための行動についての情報として、音声合成部40に対して出力する。この場合、音声合成部40は、入力された間を埋めるための行動についての情報に基づいて、すなわち、入力された言語行動のテキストに基づいて、入力された言語行動のテキストに対応する音声信号を生成し、生成された音声信号を提示部50に出力する。
発話終了推定部61においてユーザの発話が終了したことまたは終了することが推定された場合のユーザの発話と対話システム100の応答発話との間の間を埋めるための言語行動は、例えば、「うん」等の音声による相槌である。
ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を非言語行動とする場合には、行動決定部62は、間を埋めるための非言語行動を決定し、決定した非言語行動を提示部50に行わせる制御情報を間を埋めるための行動についての情報として、提示部50に対して出力する。発話終了推定部61においてユーザの発話が終了したことまたは終了することが推定された場合のユーザの発話と対話システム100の応答発話との間の間を埋めるための非言語行動は、例えば、人型ロボット50−1,50−2が頷く、首を傾げる、考え込むように首を下げる等の動作である。この場合には、行動決定部62は、頷く、首を傾げる、考え込むように首を下げる等の動作を人型ロボット50−1,50−2に行わせる制御情報を、人型ロボット50−1,50−2に対して出力する。
ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動は、ある人格である第一人格と、第一人格とは異なる第二人格との間で行われる行動であってもよい。例えば、第一人格は人型ロボット50−1であり、第二人格は人型ロボット50−2である。この場合は、行動決定部62は、行動決定部62が決定した行動を何れの人型ロボット50−1,50−2が行うかを表す情報を更に音声合成部40と提示部50の少なくとも一方に出力する。
第一人格と第二人格との間で行われる行動の例は、「互いに顔を見合わせる」、「発話を促すように他方のロボットの方を向く(例えば、一方が頷きながら他方を見やったのちに、見られたその他方頷き返す)」、「一方が何かに気づいたような仕草を示し、他方がそれを見やり、互いに顔を見合わせたのち、気づいたように見せた側がユーザを見る」である。
行動決定部62は、例えば、あらかじめ定められ行動決定部62内の図示しない記憶部に記憶された定型の行動から任意に選択することにより、間を埋めるための行動を決定する。
提示部50は、ステップS62で行動決定部62が決定した間を埋めるための行動についての情報及び音声合成部40が生成した音声信号の少なくとも一方に基づいて、また、発話終了推定部61がユーザの発話が終了する予測時刻の情報も出力した場合には、ユーザの発話が終了する予測時刻の情報にも基づいて、ユーザの発話が終了したと推定された後またはユーザの発話が終了する予測時刻の後であって、ユーザの発話に対する応答発話を対話システム100が行う前に、ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を提示する(ステップS50)。行動決定部62が決定した行動を何れの人型ロボット50−1,50−2が行うかを表す情報が提示部50に入力されている場合には、提示部50は、その情報に基づいて定まる人型ロボットがその間を埋めるための行動を提示する。
発話終了判定部63は、マイクロホン11で収音した音響信号とカメラ12で収録したユーザの身体動作の映像信号の少なくとも何れかを入力として、ユーザの発話が終了したかどうかを判定する(ステップS63)。ユーザの発話が終了したと判定された場合には、その旨の判定結果を、行動決定部62に対して出力する。
例えば、発話終了判定部63は、ユーザの発話の音声が無くなってしばらく時間が経過したことを検出した場合に、ユーザの発話が終了したと判定する。例えば、発話終了判定部63は、マイクロホン11で収音した音響信号の大きさが所定の閾値(第一の閾値)以下となった時間の長さが所定の閾値(第三の閾値、第二の時間閾値)よりも長くなった場合に、ユーザの発話の音声が無くなったと判断する。ここで、第三の閾値(第二の時間閾値)は、発話終了推定部61の第二の閾値(第一の時間閾値)より大きな値である。
また、例えば、発話終了判定部63は、入力された映像信号に含まれるユーザの口の動きやマイクの上げ下げなどの動画像に基づいて、ユーザの発話が終了したかどうかを判定してもよい。また、例えば、音響信号や映像信号に加えて、図示しないセンサで取得したセンサ情報も利用して、ユーザの発話が終了したかどうかを判定してもよい。音響信号、映像信号、センサ情報などの複数の情報を併用することで、音響信号のみから発話の終了を判定するより正確に発話の終了を判定することができる。
発話終了決定部63においてユーザの発話が終了したと判定された場合には、行動決定部62は、ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を決定する(ステップS64)。行動決定部62は、決定された間を埋めるための行動についての情報は、提示部50及び音声合成部40の少なくとも一方に出力する。
ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動は、言語行動と非言語行動の少なくとも何れかである。
発話終了判定部63においては、実際にはユーザの発話が終了していないにもかかわらず、ユーザの発話が終了したと判定してしまうことはほとんどない。そこで、発話終了判定部63においてユーザの発話が終了したと判定された場合に提示部50が行う間を埋めるための行動は、ユーザによる発話の終了を対話システム100が認識したことを表出する行動、ユーザによる発話を対話システム100が聞き取ったことを表出する行動、などであることが望ましい。そこで、発話終了決定部63においてユーザの発話が終了したと判定された場合には、行動決定部62は、対話システム100の発話決定部30による応答対話の生成時間よりも生成時間が短い行動を、間を埋めるための行動として決定する。
ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を言語行動とする場合には、行動決定部62は、間を埋めるための言語行動を決定し、決定した言語行動のテキストを間を埋めるための行動についての情報として、音声合成部40に対して出力する。この場合、音声合成部40は、入力された間を埋めるための行動についての情報に基づいて、すなわち、入力された言語行動のテキストに基づいて、入力された言語行動のテキストに対応する音声信号を生成し、生成された音声信号を提示部50に出力する。
発話終了判定部63においてユーザの発話が終了したと判定された場合のユーザの発話と対話システム100の応答発話との間の間を埋めるための言語行動は、対話システム100の発話決定部30による応答対話の生成時間よりも生成時間が短い発話である。対話システム100の発話決定部30による応答対話の生成時間よりも生成時間が短い発話は、例えば、ユーザの発話の一部のリピート等の、ユーザの発話の一部を利用した発話である。
例えば、後述するように、音声認識部21が出力したユーザの発話内容を表すテキストが「かつおのたたきが美味しかったよ」である場合には、行動決定部62は、生成時間が短い発話として、ユーザの発話内容を表すテキストに含まれる文言を利用した発話である「かつおのたたきといえば」というテキストを間を埋めるための行動についての情報として決定し、音声合成部40に対して出力する。「かつおのたたきといえば」という発話は、ユーザの「かつおのたたきが美味しかったよ」という発話の中の「かつおのたたき」という文言を利用しているため、短い生成時間で生成することができる。
行動決定部62は、例えば、ユーザの発話に含まれる単語をトリガーとして、あらかじめ記述して行動決定部62内の図示しない記憶部に記憶しておいたルールに従って間を埋めるための言語行動のテキストを決定してもよいし、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて自動的にルールを生成し、そのルールに従って間を埋めるためのテキスト間を埋めるための言語行動を決定する。
このように、行動決定部62は、直前までの発話内容に応じて、間を埋めるための言語行動を決定してもよい。
なお、対話システム100の発話決定部30による応答対話の生成時間よりも生成時間が短い発話は、ステップS62と同様の言語行動、すなわち、「うん」等の音声による相槌であってもよい。
ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を非言語行動とする場合には、行動決定部62は、間を埋めるための非言語行動を決定し、決定した非言語行動を提示部50に行わせる制御情報を間を埋めるための行動についての情報として、提示部50に対して出力する。
発話終了判定部63においてユーザの発話が終了したと判定された場合のユーザの発話と対話システム100の応答発話との間の間を埋めるための非言語行動は、対話システム100の発話決定部30による応答対話の生成時間よりも生成時間が短い非言語行動である。対話システム100の発話決定部30による応答対話の生成時間よりも生成時間が短い非言語行動は、例えば、ステップS62で決定される非言語行動と同様の非言語行動である。
提示部50は、ステップS64で行動決定部62が決定した間を埋めるための行動についての情報及び音声合成部40が生成した音声信号の少なくとも一方に基づいて、ユーザの発話が終了したと判定された後であって、ユーザの発話に対する応答発話を対話システム100が行う前に、ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を提示する(ステップS51)。なお、ステップS51による行動の提示を行おうとした際に、ステップS50による行動の提示が終わっていなかった場合には、提示部50は、ステップS50による行動の提示が終わった後に、ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を提示する。
発話決定部30は、発話終了判定部63においてユーザの発話が終了したと判定された場合には、応答の発話内容を表すテキストを決定し、音声合成部40はそのテキストに対応する音声信号を生成し、提示部50はその音声信号を提示する(ステップS52)。なお、提示部50が音声信号をユーザに提示しようとした際に、ステップS50やステップ51による行動の提示が終わっていなかった場合には、ステップS50やステップ51による行動の提示が終わった後に、音声信号を提示する。
なお、発話終了判定部63によるユーザの発話が終了したかどうかの判定処理は、発話終了推定部61によるユーザの発話が終了したかどうかの推定処理と同時並行的に行われる。また、発話決定部30による応答発話の生成処理は、行動決定部62によるステップS64の処理と同時並行的に行われる。
一般に、ユーザの発話が終了したかどうかの推定処理に要する時間は、ユーザの発話が終了したかどうかの判定処理に要する第一遅延時間τ3−τ2よりも短い。このため、図4に示すように、ユーザの発話が終了したと推定できてから遅滞なく行われる、応答発話開始までの間を埋めるための行動の提示時刻である行動提示時刻τ5は、発話終了判定部63によるユーザの発話が終了したと判定した時刻である発話終了判定時刻τ3よりも前になる。
このため、ユーザの発話が終了したと推定または判定されたことを契機に、ユーザの発話に対する応答発話を対話システム100が行う前に、ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を提示することにより、応答対話が遅いことに起因するユーザの違和感を軽減することができる。
図4の例では、ユーザの発話に対して対話システム100が何らかのリアクションをするまでに従来はτ4−τ2の遅延時間がかかっていたが、上記の実施形態により、この遅延時間をτ5−τ2に短縮することができる。
なお、上記のステップS61とステップS62とステップS50を行えば、上記のステップS64とステップS51を行わない構成としてもよい。言い換えれば、対話システム100は、発話終了判定部64を備えていなくてもよい。この構成としても、ユーザの発話に対する応答発話を対話システム100が行う前に、ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を提示することにより、応答対話が遅いことに起因するユーザの違和感を軽減することができる。
また、上記のステップS64とステップS51を行えば、上記のステップS61とステップS62とステップS50を行わない構成としてもよい。言い換えれば、対話システム100は、発話終了推定部61を備えていなくてもよい。この構成としても、ユーザの発話に対する応答発話を対話システム100が行う前に、ユーザの発話と対話システム100の応答発話との間の間を埋めるための行動を提示することにより、応答対話が遅いことに起因するユーザの違和感を軽減することができる。
[具体例]
以下、実施形態による対話内容の具体例を示す。ここで、Rはロボットを表し、Hはユーザを表す。Rの後の数字は人型ロボットの識別子である。t(i)(i=0, 1, 2, …)は対話中の行動(行動が言語行動である場合には、発話)を表す。括弧付きの行動は、対話システム100が妨害性の低い行動として提示することが好ましいことを表す。括弧付きの行動を言語行動とする場合は、例えば、音声合成部40が、音声合成部40内の図示しない記憶部に記憶した妨害性の低い発話の音声信号を提示部50に対して出力することにより、提示部50である人型ロボット50−1,50−2が提示することができる。妨害性の低い発話の音声信号とは、例えば、音量が小さい、話速が速い、声の太さが細いなどの、対話に用いる通常の発話の音声信号に比して語気を弱めることにより、ユーザの発話を妨害する意図がないことを表す発話の音声信号である。
t(0) H:このあいだ高知に行ってきたんだけれど…
t(1) R1:(うん)
t(2) H:かつおのたたきが美味しかったよ(その後、Hの音声が所定の時間間隔(例えば0.2秒程度、「第二の閾値」に相当)だけなかったとする)
t(3) R1:R2を向く
t(4) R2:(へえ)(その後、Hの音声が所定の時間間隔(例えば1秒程度、「第三の閾値」に相当)だけなかったとする)
t(5) R2:かつおのたたきといえば+R1の方を向く
t(6) R1:焼き立てが美味しかったなー
この例では、ユーザHからの第二発話t(2)の後に、ユーザHの音声が所定の時間間隔なかったため、ユーザの発話が終了することが推定される。このため、ロボットR1はロボットR2の方を向くという非言語行動である第三行動t(3)をし、これに対してロボットR2は「(へえ)」というユーザHの話しを聴いているよということを表す言語行動である第四行動t(4)をし、さらにロボットR2は「かつおのたたきといえば」という言語行動と「R1の方を向く」という非言語行動の組み合わせの行動である第五行動t(5)をしている。最後に、ユーザHからの第二発話t(2)に対する正式な応答として、ロボットR1は第六発話t(6)をしている。
第三行動t(3)から第五行動t(5)が、ユーザの発話と対話システム100の応答発話(この例では、第六発話t(6))との間の間を埋めるための行動である。
例えば、第三行動t(3)を例に挙げて説明すると、ロボットR1がロボットR2の方を向くという第三行動t(3)により、ロボットR1がロボットR2に発話を促しているように、ユーザHに思わせることができる。このため、ユーザHからの第二発話t(2)に対する対話システム100の正式な応答発話がなくても、ユーザの違和感は生じづらいのである。
この例のように、間を埋めるための行動は、少なくとも1つの言語行動及び非言語行動であってもよいし、ある人格である第一人格(この例では、ロボットR1)と、第一人格とは異なる第二人格と(この例では、ロボットR2)の間で行われる行動を含んでいてもよい。
この例のように、間を埋めるための行動を、複数の行動により構成し、またターン交代を伴う行動とすることにより、応答発話を行うまでの時間稼ぎをより自然に行うことができる。
[変形例]
上述した実施形態では、エージェントとして人型ロボットを用いて音声による対話を行う例を説明したが、上述した実施形態の提示部は身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 発話装置
10 入力部
11 マイクロホン
20 行動認識部
21 音声認識部
22 動作認識部
30 発話決定部
40 音声合成部
50 提示部
51 スピーカ
52 カメラ
61 発話終了推定部
62 行動決定部
63 発話終了判定部
100 対話システム
101 ユーザ

Claims (8)

  1. ユーザと対話を行う対話システムであって、
    上記ユーザの発話が終了したと推定または判定された後または終了する予測時刻の後であって、上記ユーザの発話に対する応答発話を上記対話システムが行う前に、上記ユーザの発話と上記対話システムの応答発話との間に、
    あるロボットである第一ロボットと、上記第一ロボットとは異なる第二ロボットとの間で行われる行動である、互いに顔を見合わせる行動、発話を促すように他方のロボットの方を向く行動、一方のロボットが何かに気づいたような仕草を示し、他方のロボットが当該仕草を見やり、互いに顔を見合わせたのち、上記気づいたような仕草を示したロボットが上記ユーザを見る行動、の何れかを含む行動を提示する提示部、
    を含む対話システム。
  2. ユーザと対話を行う対話システムであって、
    上記ユーザの発話(以下、「ユーザ発話」という)の音声が無くなってからの経過時間が第一の時間閾値より長くなったときに、相槌、頷く動作、首を傾げる動作、考え込むように首を下げる動作、の少なくとも何れかを提示する第一の提示を行い、
    上記ユーザ発話の音声が無くなってからの経過時間が上記第一の時間閾値より長い第二の時間閾値より長くなり、かつ、上記第一の提示が終わった後に、上記ユーザ発話の終了を上記対話システムが認識したことを表出する行動、上記ユーザ発話を上記対話システムが聞き取ったことを表出する行動、上記ユーザ発話の一部を利用した発話、上記ユーザの話を聴いていることを表す言語行動、の少なくとも何れかを提示する第二の提示を行い、
    上記第二の提示が終わった後に、上記ユーザ発話に対する応答発話を提示する第三の提示を行う提示部、
    を含む対話システム。
  3. ユーザと対話を行う対話システムが実行する対話方法であって、
    上記対話システムの提示部が、上記ユーザの発話が終了したと推定または判定された後または終了する予測時刻の後であって、上記ユーザの発話に対する応答発話を上記対話システムが行う前に、上記ユーザの発話と上記対話システムの応答発話との間に、
    あるロボットである第一ロボットと、上記第一ロボットとは異なる第二ロボットとの間で行われる行動である、互いに顔を見合わせる行動、発話を促すように他方のロボットの方を向く行動、一方のロボットが何かに気づいたような仕草を示し、他方のロボットが当該仕草を見やり、互いに顔を見合わせたのち、上記気づいたような仕草を示したロボットが上記ユーザを見る行動、の何れかを含む行動を提示するステップ、
    を含む対話方法。
  4. ユーザと対話を行う対話システムが実行する対話方法であって、
    上記対話システムの提示部が、上記ユーザの発話(以下、「ユーザ発話」という)の音声が無くなってからの経過時間が第一の時間閾値より長くなったときに、相槌、頷く動作、首を傾げる動作、考え込むように首を下げる動作、の少なくとも何れかを提示する第一の提示を行い、
    上記ユーザ発話の音声が無くなってからの経過時間が上記第一の時間閾値より長い第二の時間閾値より長くなり、かつ、上記第一の提示が終わった後に、上記ユーザ発話の終了を上記対話システムが認識したことを表出する行動、上記ユーザ発話を上記対話システムが聞き取ったことを表出する行動、上記ユーザ発話の一部を利用した発話、上記ユーザの話を聴いていることを表す言語行動、の少なくとも何れかを提示する第二の提示を行い、
    上記第二の提示が終わった後に、上記ユーザ発話に対する応答発話を提示する第三の提示を行うステップ、
    を含む対話方法。
  5. ユーザと対話を行う対話システムが提示する行動を決定する対話装置であって、
    上記ユーザの発話が終了したと推定または判定された後または終了する予測時刻の後であって、上記ユーザの発話に対する応答発話を上記対話システムが行う前に、上記ユーザの発話と上記対話システムの提示部が提示する応答発話との間に上記対話システムの上記提示部が提示する行動であり、
    あるロボットである第一ロボットと、上記第一ロボットとは異なる第二ロボットとの間で行われる行動である、互いに顔を見合わせる行動、発話を促すように他方のロボットの方を向く行動、一方のロボットが何かに気づいたような仕草を示し、他方のロボットが当該仕草を見やり、互いに顔を見合わせたのち、上記気づいたような仕草を示したロボットが上記ユーザを見る行動、の何れかを含む行動を決定する行動決定部
    を含む対話装置。
  6. ユーザと対話を行う対話システムが提示する行動を決定する対話装置であって、
    上記ユーザの発話(以下、「ユーザ発話」という)の音声が無くなってからの経過時間が第一の時間閾値より長くなったときに、相槌、頷く動作、首を傾げる動作、考え込むように首を下げる動作、の少なくとも何れかを上記対話システムの提示部が提示する第一の行動として決定し、
    上記ユーザ発話の音声が無くなってからの経過時間が上記第一の時間閾値より長い第二の時間閾値より長くなり、かつ、上記対話システムの上記提示部による上記第一の提示が終わった後に、上記ユーザ発話の終了を上記対話システムが認識したことを表出する行動、上記ユーザ発話を上記対話システムが聞き取ったことを表出する行動、上記ユーザ発話の一部を利用した発話、上記ユーザの話を聴いていることを表す言語行動、の少なくとも何れかを上記対話システムの上記提示部が提示する第二の行動として決定し、
    上記対話システムの上記提示部による上記第二の提示が終わった後に、上記ユーザ発話に対する応答発話を上記対話システムの上記提示部が提示する第三の行動として決定する行動決定部
    を含む対話装置。
  7. 請求項3又は4の対話方法の各ステップをコンピュータに実行させるためのプログラム。
  8. 請求項5又は6の対話装置としてコンピュータを機能させるためのプログラム。
JP2019504382A 2017-03-10 2018-01-26 対話システム、対話方法、対話装置、およびプログラム Active JP6818280B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017046362 2017-03-10
JP2017046362 2017-03-10
PCT/JP2018/002512 WO2018163648A1 (ja) 2017-03-10 2018-01-26 対話システム、対話方法、対話装置、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2018163648A1 JPWO2018163648A1 (ja) 2020-01-09
JP6818280B2 true JP6818280B2 (ja) 2021-01-20

Family

ID=63447694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019504382A Active JP6818280B2 (ja) 2017-03-10 2018-01-26 対話システム、対話方法、対話装置、およびプログラム

Country Status (3)

Country Link
US (1) US11151997B2 (ja)
JP (1) JP6818280B2 (ja)
WO (1) WO2018163648A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10872609B2 (en) * 2016-05-20 2020-12-22 Nippon Telegraph And Telephone Corporation Method, apparatus, and program of dialog presentation steps for agents
WO2017200078A1 (ja) * 2016-05-20 2017-11-23 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US11151997B2 (en) * 2017-03-10 2021-10-19 Nippon Telegraph And Telephone Corporation Dialog system, dialog method, dialog apparatus and program
US11514905B2 (en) * 2017-10-30 2022-11-29 Sony Corporation Information processing apparatus and information processing method
US11854566B2 (en) 2018-06-21 2023-12-26 Magic Leap, Inc. Wearable system speech processing
US11227117B2 (en) * 2018-08-03 2022-01-18 International Business Machines Corporation Conversation boundary determination
JP7225642B2 (ja) * 2018-09-27 2023-02-21 富士通株式会社 コミュニケーションロボット、制御方法及び制御プログラム
JP2022522748A (ja) 2019-03-01 2022-04-20 マジック リープ, インコーポレイテッド 発話処理エンジンのための入力の決定
CN113994424A (zh) * 2019-04-19 2022-01-28 奇跃公司 识别语音识别引擎的输入
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
US11749265B2 (en) * 2019-10-04 2023-09-05 Disney Enterprises, Inc. Techniques for incremental computer-based natural language understanding
JP2021117372A (ja) * 2020-01-27 2021-08-10 ソニーグループ株式会社 情報処理装置、情報処理システム、情報処理方法および情報処理プログラム
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
US11984124B2 (en) * 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
US11763813B2 (en) 2021-04-28 2023-09-19 Google Llc Methods and systems for reducing latency in automated assistant interactions

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993007562A1 (en) * 1991-09-30 1993-04-15 Riverrun Technology Method and apparatus for managing information
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7831433B1 (en) * 2005-02-03 2010-11-09 Hrl Laboratories, Llc System and method for using context in navigation dialog
US7720572B2 (en) * 2005-09-30 2010-05-18 Irobot Corporation Companion robot for personal interaction
US8380503B2 (en) * 2008-06-23 2013-02-19 John Nicholas and Kristin Gross Trust System and method for generating challenge items for CAPTCHAs
FR2989209B1 (fr) * 2012-04-04 2015-01-23 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot
US20160246929A1 (en) * 2013-10-07 2016-08-25 President And Fellows Of Harvard College Computer implemented method, computer system and software for reducing errors associated with a situated interaction
JP6024675B2 (ja) * 2014-01-17 2016-11-16 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
JP6150077B2 (ja) * 2014-10-31 2017-06-21 マツダ株式会社 車両用音声対話装置
JP6495015B2 (ja) * 2015-01-08 2019-04-03 シャープ株式会社 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置
JP6495014B2 (ja) * 2015-01-08 2019-04-03 シャープ株式会社 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置
US11501768B2 (en) * 2017-03-10 2022-11-15 Nippon Telegraph And Telephone Corporation Dialogue method, dialogue system, dialogue apparatus and program
US11151997B2 (en) * 2017-03-10 2021-10-19 Nippon Telegraph And Telephone Corporation Dialog system, dialog method, dialog apparatus and program

Also Published As

Publication number Publication date
US11151997B2 (en) 2021-10-19
US20200027455A1 (en) 2020-01-23
WO2018163648A1 (ja) 2018-09-13
JPWO2018163648A1 (ja) 2020-01-09

Similar Documents

Publication Publication Date Title
JP6818280B2 (ja) 対話システム、対話方法、対話装置、およびプログラム
JP6719739B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP6970413B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6719747B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6719741B2 (ja) 対話方法、対話装置、及びプログラム
JP6842095B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6719740B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6864326B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6699010B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6667855B2 (ja) 取得方法、生成方法、それらのシステム、及びプログラム
JP6682104B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6551793B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP7225642B2 (ja) コミュニケーションロボット、制御方法及び制御プログラム
JP6755509B2 (ja) 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
JP6610965B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
WO2023228433A1 (ja) 視線制御装置及び方法、非一時的記憶媒体、並びにコンピュータプログラム
WO2021064948A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
Saxena et al. Virtual Assistant with Facial Expession Recognition
JP2020020846A (ja) 対話システムおよびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190904

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201216

R150 Certificate of patent or registration of utility model

Ref document number: 6818280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250