JP7015711B2 - 装置、ロボット、方法、及びプログラム - Google Patents

装置、ロボット、方法、及びプログラム Download PDF

Info

Publication number
JP7015711B2
JP7015711B2 JP2018042273A JP2018042273A JP7015711B2 JP 7015711 B2 JP7015711 B2 JP 7015711B2 JP 2018042273 A JP2018042273 A JP 2018042273A JP 2018042273 A JP2018042273 A JP 2018042273A JP 7015711 B2 JP7015711 B2 JP 7015711B2
Authority
JP
Japan
Prior art keywords
user
word
time
voice
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018042273A
Other languages
English (en)
Other versions
JP2019158967A (ja
Inventor
亮太 宮崎
雄策 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2018042273A priority Critical patent/JP7015711B2/ja
Priority to US16/205,179 priority patent/US10923140B2/en
Priority to CN201910154149.8A priority patent/CN110246491B/zh
Publication of JP2019158967A publication Critical patent/JP2019158967A/ja
Application granted granted Critical
Publication of JP7015711B2 publication Critical patent/JP7015711B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Signal Processing (AREA)
  • Toys (AREA)
  • Manipulator (AREA)

Description

本開示は、複数のユーザとコミュニケーションを行う装置等に関するものである。
近年、ユーザの音声からユーザの意図をくみ取り、ユーザに対して適切な行動を実行するロボットの研究が行われている。
例えば、特許文献1には、第一話者と第二話者とが異なる言語を使用して会話する際の対話状態を利用して、一方の話者にとって未知情報があることを判断し、他方の話者の会話の翻訳結果を出力する際に所定のタイミングで一方の話者向けに補足情報を提示する技術を開示する。
特許文献2には、ネットワークを介して接続される複数の端末装置を通じて行われる会話状態を監視し、会話状態が停滞状態である場合、会話に関連する話題を検索サイトから取得して端末装置に提供する対話型通信システムが開示されている。
特開2013-73355号公報 特開2016-6607号公報
しかし、特許文献1、2では、複数のユーザが対話している場面において、一方のユーザによるロボットへのコンテンツの起動指示が他方のユーザに気づかれることを防止する措置が何ら採られていないので、更なる改善の必要がある。
本開示の一態様に係る装置は、
複数のユーザとコミュニケーションする装置であって、
前記装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備え、
前記プロセッサは、
前記音に、第1ユーザの音声が含まれているか判断し、
前記音に、前記第1ユーザの音声が含まれていると判断された場合は、前記音声に前記メモリに記憶された前記第1ユーザに対応する第1単語が含まれているか判断し、前記メモリは、少なくとも、前記複数のユーザと前記複数のユーザに対応する単語と前記複数のユーザに対応する単語が最後に発話された時刻とを対応付け、
前記音声に前記第1単語が含まれていると判断された場合は、前記第1単語が前記第1ユーザに最後に発話された第1時刻と、前記メモリにおいて前記第1単語に対応する第2単語が第2ユーザに最後に発話された第2時刻との差が所定時間以内か判断し、前記第1時刻は現在時刻であり、前記第2ユーザは前記第1ユーザとは異なり、前記第1単語と前記第2単語は、同じコンテンツに対応し、
前記第1時刻と前記第2時刻との差が前記所定時間以内であると判断された場合は、前記スピーカに、前記コンテンツに対応する音声を出力させる。
本開示によれば、出力された音声が、一方のユーザの操作にしたがって出力されたものであることが他方のユーザに気付かれることを防止できる。
本開示の実施の形態におけるロボットの構成の一例を示すブロック図である。 図1に示すロボットの処理の一例を示すフローチャートである。 発話者登録テーブルの一例を示す図である。 実行契機テーブルの一例を示す図である。 図1に示すロボットを、図1に示すロボットとは別のロボットとユーザとの対話に適用した場合の実行契機テーブルの一例を示す図である。 図1に示すロボットの外観の一例を示す図である。 図6に示すロボットの内部を背後から見た図である。
(本開示に至る経緯)
本発明者は、母親等の保護者による子供のしつけを支援するためにロボットに実行させる種々のコンテンツを検討している。例えば、ニンジンを嫌う子供が「ニンジンが嫌い」という発話をし、ニンジンを食べさせたいと願う母親が子供に「ニンジン食べようよ」と発話した場合、子どもに対してニンジンが好きになるような話をロボットに実行させるコンテンツがあれば母親の要望に応えることができる。
このようなコンテンツをロボットに実行させる場合、例えば、母親は、スマートフォンなどの携帯端末を取り出して、コンテンツの起動指示を入力する操作を行う必要がある。
しかし、子供との対話中に母親がおもむろにスマートフォンを取り出して起動指示を入力する操作を行うと、そのことに子供の関心が向いてしまうので、ロボットが実行するコンテンツが母親の指示に基づくものであると子供に気づかれてしまうという課題が生じる。これにより、子供にしらけ感を与えるのみならず、母親に対する子供の反発心を却って助長させ兼ねず、十分なしつけの効果が期待できなくなる虞がある。
上記の特許文献1では、例えば、「ウィンナーシュニッチェル」に対して「ウィーン風カツレツでオーストラリアの代表的な料理です」というような補足情報が出力されている。しかし、特許文献1では、第一話者と第二話者とのどちらか一方の発話内容に対する補足情報が出力されているに過ぎず、双方の発話内容を契機にコンテンツは実行されていない。
また、特許文献2は、ユーザ同士の会話が停滞した場合、会話に関連する話題を出力するものであり、ユーザー同士の会話が停滞していない場合は装置が機能しないため、ユーザ同士の発話内容を契機にコンテンツを実行することができない。
したがって、特許文献1、2は、いずれも、ユーザ同士の発話内容を契機にコンテンツを実行することができないので、母親はコンテンツの起動指示を入力せざるを得ず、起動指示を入力する操作が子供に気付かれるという課題を解決できない。
そこで、本発明者は、例えば、子どもが「ニンジンが嫌い」という発話をし、母親が子どもに「ニンジン食べようよ」と発話した場合、子どもの発話内容と母親の発話内容とを契機に、子どもに対してニンジンが好きになるコンテンツをロボットに実行させることにより、上記の課題を解決できるとの知見を得て、本開示を想到するに至った。
本開示の一態様は、
複数のユーザとコミュニケーションする装置であって、
前記装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備え、
前記プロセッサは、
前記音に、第1ユーザの音声が含まれているか判断し、
前記音に、前記第1ユーザの音声が含まれていると判断された場合は、前記音声に前記メモリに記憶された前記第1ユーザに対応する第1単語が含まれているか判断し、前記メモリは、少なくとも、前記複数のユーザと前記複数のユーザに対応する単語と前記複数のユーザに対応する単語が最後に発話された時刻とを対応付け、
前記音声に前記第1単語が含まれていると判断された場合は、前記第1単語が前記第1ユーザに最後に発話された第1時刻と、前記メモリにおいて前記第1単語に対応する第2単語が第2ユーザに最後に発話された第2時刻との差が所定時間以内か判断し、前記第1時刻は現在時刻であり、前記第2ユーザは前記第1ユーザとは異なり、前記第1単語と前記第2単語は、同じコンテンツに対応し、
前記第1時刻と前記第2時刻との差が前記所定時間以内であると判断された場合は、前記スピーカに、前記コンテンツに対応する音声を出力させる。
本構成によれば、第1ユーザの音声に第1単語が含まれていることが検知されると、第1単語に対応する単語であって第2ユーザが発話した第2単語がメモリに登録されており、且つ、第1単語の発話時刻と第2単語の発話時刻との時間差が所定時間以内であれば、第1単語と第2単語とに対応するコンテンツの音声が出力される。
これにより、第1ユーザ及び第2ユーザの一方のユーザが起動指示を入力しなくても、コンテンツにしたがった音声を出力させることができ、出力された音声が、一方のユーザの操作にしたがって出力されたものであることが他方のユーザに気付かれることを防止できる。
上記構成において、前記プロセッサは、更に、
前記音声に前記第1単語が含まれていると判断された場合は、前記メモリにおいて、前記第1単語が前記第1ユーザに発話された時刻を前記第1時刻に更新してもよい。
本構成によれば、第1ユーザの音声に第1単語が含まれている場合、第1単語が発話された時刻でメモリに登録されている第1時刻が更新されるので、メモリは第1単語の第1ユーザによる発話時刻として、絶えず最新の発話時刻を登録することができる。
上記構成において、前記第1ユーザは、前記第2ユーザの保護者であってもよい。
本構成によれば、第1ユーザである保護者と第2ユーザである被保護者とが対話する場面において、保護者はコンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。
上記構成において、前記第1ユーザは、前記装置とは異なる他の装置であり、
前記第2ユーザは、幼児であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備えてもよい。
本構成によれば、幼児である第1ユーザと第2ユーザである他の装置とが対話する場面において、コンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。
上記構成において、前記第2ユーザは、前記第1ユーザの保護者であってもよい。
本構成によれば、第2ユーザである保護者と第1ユーザである被保護者とが対話する場面において、保護者はコンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。
上記構成において、前記第1ユーザは、幼児であり、
前記第2ユーザは、前記装置とは異なる他の装置であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備えてもよい。
本構成によれば、第1ユーザである幼児と第2ユーザである他の装置とが対話する場面において、コンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。
上記構成において、前記第1ユーザは、大人であり、
前記第2ユーザは、前記装置とは異なる他の装置であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備えてもよい。
本構成によれば、第1ユーザである大人と第2ユーザである他の装置とが対話する場面において、コンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。
上記構成において、前記第1ユーザは、前記装置とは異なる他の装置であり、
前記第2ユーザは、大人であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備えてもよい。
本構成によれば、第1ユーザである他の装置と第2ユーザである大人とが対話する場面において、コンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。
上記構成において、前記コンテンツは、幼児に生活習慣を身につけさせるためのコンテンツであってもよい。
本構成によれば、第1ユーザと第2ユーザとが生活習慣に関連する第1単語及び第2単語を発話した場合、一方のユーザがコンテンツの起動指示を入力しなくても、生活習慣を身につけさせるためのコンテンツの音声が出力される。そのため、出力される音声が一方のユーザの起動指示によるものであると、他方のユーザに気付かれることなく、他方のユーザにコンテンツに対応する音声を聞かせることができ、しつけの支援効果を高めることができる。
上記構成において、前記第1単語は、拒絶の意味、もしくは、否定語を含んでもよい。
例えば、保護者である第2ユーザが被保護者である第1ユーザをしつける場面では、第2ユーザが第1ユーザに対してある行動をとらせる単語を発話し、その行動を拒否又は否定する単語を第1ユーザが発話た場合に、コンテンツに対応する音声を装置に出力させるのが効果的である。本構成では、第1単語として、拒絶の意味若しくは否定語が含まれているので、第1ユーザが、第2ユーザの要求する行動を拒否した場合にコンテンツに対応する音声を装置に出力させることができる。その結果、装置は、しつけの支援が必要な場面においてしつけの支援を行うことができる。
上記構成において、前記第1単語は、前記コンテンツに対応する所定の単語を含んでもよい。
本構成によれば、保護者又は他の装置である第1ユーザが第1単語として所定の単語を発話した場合に、コンテンツに対応する音声を装置に出力させることができる。
本開示は、このような装置を実装するロボット、このような装置に含まれる特徴的な各ステップを備える方法、及び特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、CD-ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態)
(全体構成)
図1は、本開示の実施の形態におけるロボット1の構成の一例を示すブロック図である。図1に示すロボット1は、センサ入力部100、行動実行部200、及び出力部300を備える。
センサ入力部100は、音声入力部101を備える。音声入力部101は、例えば、マイクで構成され、ロボット1の周辺の音声を取得する。
行動実行部200は、音声入力検知部201、発話者判断部202、音声認識部203、登録用語有無判断部204、タイムスタンプ更新部205、コンテンツ実行部206、制御命令生成部207、及びメモリ208を備える。
行動実行部200を構成するメモリ208以外の要素は、例えば、行動処理を行なうプログラムをCPU等のプロセッサが実行することで実現される。行動処理を行うプログラムは、ロボット1に組み込まれたメモリ208又はロボット1と通信可能に接続された端末に組み込まれたメモリに格納されており、プロセッサによって実行される。また、行動実行部200を構成する全ての要素は、同一のロボット1又は同一の端末に実装されてもよい。或いは、行動実行部200を構成する全ての要素は、光ファイバ、無線、及び公衆電話回線など任意のネットワークにより接続される別の端末又はサーバ上に個別に実装され、通信することによって実現されてもよい。また、行動実行部200は一部の要素がロボット1に実装され、残りの要素がサーバに実装されてもよい。
音声入力検知部201は、音声入力部101に音声が入力されたことを検知する。ここで、音声入力検知部201は、例えば、無音とみなせる音量以上の音声データを音声入力部101から取得した場合、音声入力部101に音声が入力されたと判定し、発話者判断部202に音声データの出力を開始すればよい。また、音声入力検知部201は、無音とみなせる音量未満の音声データが一定期間以上継続すると発話者判断部202への音声データの出力を停止すればよい。
発話者判断部202、音声入力検知部201より受け取った音声データが示す音声が予め登録している複数のユーザのうちいずれのユーザの音声であるかを、図3に示す発話者登録テーブルT1を参照することで判断する。図3は、発話者登録テーブルT1の一例を示す図である。発話者登録テーブルT1は、「No」フィールド、「発話登録者」フィールド、及び「声紋」フィールドを備える。「No」フィールドは、発話者登録テーブルT1を構成するレコードを特定するための番号が登録されている。「発話登録者」フィールドには、予め定められた認識対象のユーザの名前又は識別子が登録されている。図3の例では、発話登録者としてユーザA及びユーザBが登録されている。この例では、ユーザAとしては子供、ユーザBとしては子供の母親が登録されている。「声紋」フィールドには、「発話登録者」フィールドに登録された各発話登録者の声紋が登録されている。ここでは、ユーザAとユーザBの声紋が登録されている。
なお、ユーザAは第1ユーザ及び第2ユーザのうちの一方に対応し、ユーザBは第1ユーザ及び第2ユーザのうちの他方に対応する。
したがって、発話者判断部202は、音声入力検知部201から音声データが入力されると、その音声データと、発話者登録テーブルT1に登録された各声紋とをそれぞれ比較することで、入力された音声データがいずれの発話登録者であるかを判断すればよい。
図1に参照を戻す。音声認識部203は、発話者判断部202により発話登録者が特定された音声データに対して音声認識処理を行い、その音声データを発話登録者が発話した内容を示す文字列に変換する。ここで、音声認識部203は、例えば、隠れマルコフモデル等の音響モデルと、n-gram等の言語モデルとを用いることで、音声データを文字列に変換すればよい。
登録用語有無判断部204は、図4に示す実行契機テーブルT2を参照することで、音声認識部203で変換された文字列に、予め登録されている単語が含まれているか否かを判断する。図4は、実行契機テーブルT2の一例を示す図である。実行契機テーブルT2は、複数のコンテンツのそれぞれについて、実行契機となる単語を認識対象となるユーザ別に記憶するテーブルである。
詳細には、実行契機テーブルT2は、1つのコンテンツに対して1つのレコードが割り当てらており、「No」、「コンテンツ」、「ユーザA」、及び「ユーザB」のフィールドを備えている。「No」フィールドには、実行契機テーブルT2を構成する各レコードを特定する番号が登録されている。「コンテンツ」フィールドには、コンテンツを識別するための情報であるコンテンツの名称が登録されている。「ユーザA」フィールドは、更に「用語」フィールド及び「時刻」フィールドを備える。「ユーザA」の「用語」フィールドには、対応するコンテンツの実行契機となるユーザAの単語が登録されている。「ユーザA」の「時刻フィールド」には、実行契機となる単語のユーザAの最新の発話時刻が登録されている。
「ユーザB」フィールドも、「ユーザA」フィールドと同様、「用語」フィールド及び「時刻」フィールドを備えている。「ユーザB」フィールドには、対応するコンテンツの実行契機となるユーザBの単語と、その単語をユーザBが発話した最新の発話時刻とが登録されている。
ここで、コンテンツとしては、子供であるユーザAに生活習慣を身につけさせるコンテンツ、すなわち、ユーザAのしつけを支援するコンテンツが採用される。
図4の例では、「ニンジン」、「お片づけ」、「トイレ」、「寝かしつけ」、及び「歯磨き」のコンテンツが登録されている。
「ニンジン」コンテンツは、ニンジンを食べるのが嫌いな子供にニンジンを食べさせたり、ニンジンを好きにさせたりするためのコンテンツであり、例えば、ニンジンに関する話をロボット1に発話させるコンテンツが該当する。ニンジンに関する話としては、例えば、ニンジンを食べるとどれだけ元気になるかを子供向けに説明する話が採用できる。
「お片付け」コンテンツは、片付け嫌いの子供に片付けをさせるためのコンテンツであり、例えば、子供に対して片付けへの意欲を誘発させるような話をロボット1に発話させるコンテンツが該当する。
「トイレ」コンテンツは、トイレが苦手な子供にトイレに行ってみようとする意欲を誘発させるような話をロボット1に発話させるコンテンツが該当する。「寝かしつけ」コンテンツは、夜更かし気味の子供に早寝をさせるためのコンテンツであり、例えば、子供との会話を通じて寝室までロボット1に子供を誘導させ、子供に対して絵本の読み聞かせ又は子守歌の発話をロボット1に実行させるようなコンテンツが該当する。
「歯磨き」コンテンツは、歯磨き嫌いな子供に歯磨きへの意欲を誘発させる話をロボット1に発話させるコンテンツであり、例えば、歯磨きをしないと虫歯になって大変な目に遭うことを子供に分かりやすく伝える話をロボット1に発話させるコンテンツが該当する。
実行契機テーブルT2に登録されたコンテンツの実行契機となる単語としては、該当するコンテンツを実行するべき場面において子供と母親との間で交わされる会話に含まれることが想定される単語が採用される。
例えば、「ニンジン」コンテンツは、食卓に並べられたニンジンを見た子供が「ニンジン嫌い」と発話し、その発話に対して母親が「ニンジン食べようよ」と発話する場面において実行されるのが良い。そこで、実行契機テーブルT2には、「ニンジン」コンテンツに対して、子供であるユーザAの実行契機となる単語としてニンジンを食べることを拒絶又はニンジンを否定する「嫌い」と、母親であるユーザBの実行契機となる単語として「ニンジン」とが対応付けて登録されている。
「お片付け」コンテンツは、例えば、母親が「おもちゃのお片付けをしましょうね」と発話し、その発話に対して子供が「お片づけ嫌」と発話する場面において実行されるの良い。そこで、実行契機テーブルT2には、「お片付け」コンテンツに対して子供であるユーザAの実行契機となる単語として片付けを拒絶する「嫌」と、母親であるユーザBの実行契機となる単語として「お片付け」とが対応付けて登録されている。
同様の考えの下、実行契機テーブルT2には、「トイレ」コンテンツに対して、トイレに行くことを拒絶する「行きたくない」と「トイレ」とが実行契機となる単語として対応付けて記憶されている。また、実行契機テーブルT2には、「寝かしつけ」コンテンツに対して、寝ることを拒絶する「眠たくない」及び寝ることを促す「寝ないの?」が実行契機となる単語として対応付けて記憶されている。また、実行契機テーブルT2には、「歯磨き」コンテンツに対して、歯磨きを拒絶する「したくない」と「歯磨き」とが対応付けて登録されている。
なお、実行契機テーブルT2において、「ユーザA」の「用語」フィールドに記憶された単語は、拒絶の意味もしくは否定語を含む第1単語の一例に該当し、「ユーザB」の「用語」フィールドに記憶された単語は、所定の単語を含む第1単語の一例に該当する。所定の単語としては、母親が子供に対して生活習慣に関する行動を促すための用語又はその用語に含まれる単語が採用できる。
なお、図4の実行契機テーブルT2は、実行契機となる単語をユーザが修正可能に構成されていてもよい。例えば、ニンジンを食する場面において、子供が「嫌い」について同一の意味を持つ例えば「ヤダ」と発話するのが慣習化している場合、「嫌い」は「ヤダ」と修正される。
また、図4の実行契機テーブルT2では1つのコンテンツについて1ペアの単語が対応付けられているが、これは一例であり、複数ペアの単語が対応付けられていても良い。例えば、「ニンジン」コンテンツについては、「嫌い」-「ニンジン」のペアに加えて、「食べたくない」-「ニンジン」のペアが対応付けられていても良い。また、実行契機テーブルT2はこのようなペアの追加をユーザが任意に行えるように構成されていてもよい。
図1に参照を戻す。タイムスタンプ更新部205は、登録用語有無判断部204にて登録用語があると判断された場合、図4に示す実行契機テーブルT2において、該当するユーザの該当する単語に対応する「時刻」フィールドに登録されている発話時刻を現在時刻で更新する。
図4を参照し、例えばユーザAが「嫌い」と発話したことが認識された場合、タイムスタンプ更新部205は、「嫌い」に対して現在登録されている発話時刻を現在時刻で更新する。
図1に参照を戻す。コンテンツ実行部206は、タイムスタンプ更新部205により、ある単語WAの発話時刻が発話時刻tAで更新された場合、発話時刻tAと、単語WAに対応する単語WBの発話時刻tBとを実行契機テーブルT2から読み出し、発話時刻tAと発話時刻tBとの時間差が所定時間以内である場合、単語WAと単語WBとに対応するコンテンツを実行する。ここで、所定時間としては、ユーザAとユーザBとが対話中であるとみなせる予め定められた時間が採用され、例えば、5秒、10秒といった時間が採用できる。また、コンテンツ実行部206は、コンテンツの実行中において、出力部300を作動させる必要が生じた場合、コマンドの出力依頼を制御命令生成部207に出力する。例えば、「ニンジン」コンテンツにおいて、ニンジンに関する話をロボット1に発話させる場合、その話をロボット1に発話させるためのコマンドの出力依頼を制御命令生成部207に出力する。
制御命令生成部207は、コンテンツ実行部206によりコマンドの出力依頼を受け付けた場合、コマンドを音声出力部301及びアクチュエータ制御部302の少なくとも一方に出力する。例えば、ニンジンに関する話を発話するコマンドの出力依頼を受け付けた場合、制御命令生成部207は、その話をロボット1に発話させるためのコマンドを音声出力部301に出力する。また、例えば、子供を寝室に誘導させるコマンドの出力依頼を制御命令生成部207から受け付けた場合、制御命令生成部207は、アクチュエータ制御部302にロボット1を現在位置から寝室に移動させるコマンドをアクチュエータ制御部302に出力する。
メモリ208は、不揮発性の記憶装置で構成され、図3に示す発話者登録テーブルT1と、図4に示す実行契機テーブルT2とを記憶する。
出力部300は、音声出力部301及びアクチュエータ制御部302を備える。音声出力部301は、制御命令生成部207から出力されたコマンドに対応する音声信号をスピーカに出力し、スピーカから音声信号が示す音声を出力させる。例えば、ニンジンに関する話を発話するコマンドを受け付けた場合、音声出力部301は、ニンジンに関する話の音声信号をスピーカに出力する。
アクチュエータ制御部302は、制御命令生成部207から出力されたコマンドに対応する制御信号を、ロボット1のアクチュエータ又はモータに出力する。
なお、行動実行部200がロボット1に対して無線又は有線を介して通信可能に接続された端末に実装され、且つ、音声出力部301及びアクチュエータ制御部302がロボット1に実装される場合、音声出力部301及びアクチュエータ制御部302は、制御命令生成部207から送信されるコマンドを有線又は無線を介して受信すればよい。
図2は、図1に示すロボット1の処理の一例を示すフローチャートである。以下、図2を用いて、子供であるユーザAの発話と母親であるユーザBの発話とから、「ニンジン」コンテンツがロボット1に実行される場面について説明する。なお、図2のフローチャートは所定周期で繰り返し実行される。
母親であるユーザBが「ニンジン食べないの?」と発話した場合、音声入力検知部201は、音声入力部101に音声が入力されていることを検知し、音声データを発話者判断部202に出力し、発話者判断部202は、図3に示す発話者登録テーブルT1を参照し、その音声データが示す音声が発話登録者の音声であるか否かを判断する(S101)。
ここで、ユーザBが発話者登録テーブルT1に登録されているので、発話者判断部202は、該当する音声データはユーザBの音声データであると判断する(S101でYES)。この場合、該当する音声データは音声認識部203により文字列に変換され、登録用語有無判断部204に出力される。一方、該当する音声データが示す音声が発話者登録テーブルT1に登録されたいずれの発話登録者の音声にも該当しなかった場合(S101でNO)、処理は終了される。
S102では、登録用語有無判断部204は、音声認識部203により変換された文字列内に、実行契機テーブルT2に登録された単語が含まれているか否かを判断する。ここでは、文字列「ニンジン食べないの?」には、実行契機テーブルT2においてユーザBの実行契機となる単語として登録された「ニンジン」が含まれている。そのため、登録用語有無判断部204は、S102でYESと判断する。一方、音声認識部203により変換された文字列内に、実行契機テーブルT2においてユーザBの実行契機となる単語として登録されたいずれの単語も含まれていなければ、S102でNOと判断され、処理は終了する。
S103では、タイムスタンプ更新部205は、該当する実行契機となる単語について実行契機テーブルT2に登録された発話時刻を現在時刻に更新する。ここでは、現在時刻が12時15分15秒であったため、図4のセルC402に示されるようにユーザBの「ニンジン」の発話時刻が「12:15:15」に更新される。ここでは、ユーザBについて発話時刻が更新される例を示したが、ユーザAについてもユーザBと同様にして発話時刻が更新される。このようにして、実行契機テーブルT2の発話時刻は、実行契機となる単語が該当するユーザによって発話される度に更新される。そのため、実行契機テーブルT2には、実行契機となる単語が該当するユーザによって発話された最新の発話時刻が登録されることになる。
S104では、コンテンツ実行部206は、実行契機テーブルT2を参照し、S103で発話時刻が更新された単語「ニンジン」に対応する単語「嫌い」の発話時刻と、単語「ニンジン」の発話時刻との時間差が所定時間以内であるか否かを判定する。ここで、セルC402に示すように、単語「ニンジン」の発話時刻は12時15分15秒であり、セルC401に示すように単語「嫌い」の発話時刻は12時15分10秒であるため、両発話時刻の時間差は5秒である。したがって、所定時間が10秒であるとすると、時間差は所定時間以内であるため、S104でYESと判断される。一方、時間差が所定時間より大きい場合、S104でNOと判断され、処理は終了する。
S105では、コンテンツ実行部206は、時間差が所定時間以内と判断された実行契機となる単語ペアに対応するコンテンツを実行し、処理を終了する。ここでは、単語「ニンジン」と単語「嫌い」との単語ペアには「ニンジン」コンテンツが対応付けられている。そのため、コンテンツ実行部206は、「ニンジン」コンテンツを実行する。
このように、本実施の形態によれば、ユーザBの音声に単語WBが含まれていることが検知されると、単語WBに対応する単語であってユーザAが発話した単語WAが実行契機テーブルT2に登録されており、且つ、単語WAの発話時刻tAと単語WBの発話時刻tBとの時間差が所定時間以内であれば、単語WAと単語WBとに対応するコンテンツの音声が出力される。
これにより、母親であるユーザBがコンテンツの起動指示を入力しなくても、コンテンツにしたがった音声を出力させることができ、出力された音声が、ユーザBの操作にしたがって出力されたものであることがユーザAに気付かれることを防止できる。
(ロボット)
次に、図1に示すロボット1の機械的な構成について説明する。図6は、図1に示すロボット1の外観の一例を示す図である。ロボット1は、図6に示すように球帯状のメイン筐体401と第1球冠部402と第2球冠部406とを備えており、メイン筐体401と第1球冠部402と第2球冠部406とは全体として球体を構成する。即ち、ロボット1は球体形状を有する。
また、ロボット1は、図6に示すように、第1球冠部402及び第2球冠部406のそれぞれに一対のカメラ101Aを備え、第1球冠部402にマイク102及びスピーカ301Aを備える。カメラ101Aは、光軸が例えばロボット1の正面を向くように第1球冠部402及び第2球冠部406に設けられている。
図6では、カメラ101Aがステレオカメラで構成された例が示されているが、カメラ101Aがデプスカメラ又は単眼カメラで構成されている場合、カメラ101Aは第1球冠部402及び第2球冠部406のいずれか一方に設けられる。スピーカ301Aは、図1に示す音声出力部301から出力される音声信号を外部空間に出力する。マイク102は、図1に示す音声入力部101に対応し、ロボット1の周囲の音声を取得する。
図7は、図6に示すロボット1の内部を背後から見た図である。第1球冠部402及び第2球冠部406は横方向に延びるシャフト115によって連結されている。一方、シャフト115とメイン筐体401とは固定されていない。
メイン筐体401は固定された第1ギア116、第1ギア116と噛み合う第2ギア117、第2ギア117に連結されたモータ118、及びモータ118を固定するフレーム119を備える。フレーム119はシャフト115に吊り下げられているため、シャフト115が回転しても回転しない。
モータ118が駆動すると、モータ118に連結された第2ギア117が回転し、その動力が第2ギア117に噛み合う第1ギア116に伝達される。これにより、第1ギア116が固定されたメイン筐体401はモータ118の駆動に同期して回転する。したがって、モータ118が前進方向に回転するとロボット1は前進し、モータ118が後進方向に回転するとロボット1は後進する。
モータ118は、図1に示すアクチュエータ制御部302の制御に基づいて回転する。これにより、アクチュエータ制御部302は、ロボット1を前進又は後進させることができる。
フレーム119には、一対のアーム123を介して重り114が取り付けられている。一対のアーム123は、下端で重り114を挟持し、上端がフレーム119に対してロボット1のロール方向に回動自在に取り付けられている。フレーム119の内部には、一対のアーム123をロール方向に揺動させるモータ(図略)が取り付けられている。これにより、背後から見て重り114を右側に揺動させた状態で、メイン筐体401を前進方向に回転させると、ロボット1は右旋回する。一方、背後から見て重り114を左側に揺動させた状態で、メイン筐体401を前進方向に回転させると、ロボット1は左旋回する。図1に示すアクチュエータ制御部302は、このモータ(図略)を右側に所定角度回転させた状態で、モータ118を前進方向に駆動させることで、ロボット1を右旋回させることができる。同様に、アクチュエータ制御部302は、このモータ(図略)を左側に所定角度回転させた状態で、モータ118を前進方向に駆動させることで、ロボット1を左旋回させることができる。
モータ121は、シャフト115を回転させるためのモータである。モータ121が前方に回転すると、その回転力がベルト122を介してシャフト115に伝わり、シャフト115はピッチ方向に対して下方に回転する。一方、モータが後方に回転すると、その回転力がベルト122を介してシャフト115に伝わり、シャフト115はピッチ方向に対して上方に回転する。これにより、シャフト115に取り付けられた第1球冠部402及び第2球冠部406と、アーム113に取り付けられたロボット1の目及び口を表示する表示部とが連動して回転する。その結果、ロボット1の目及び口の向きとカメラ101Aの光軸の向きとがピッチ方向の下方又は上方に変更される。
本開示は下記の変形例が採用できる。
(変形例1)
上記実施の形態は、ユーザ同士の対話に適用されているが、本開示はこれに限定されず、図1に示すロボット1とは別のロボットとユーザとの対話に適用されてもよい。図5は、図1に示すロボット1を、図1に示すロボット1とは別のロボットとユーザとの対話に適用した場合の実行契機テーブルT2’の一例を示す図である。図5では、母親であるユーザBに代えて図1に示すロボット1とは別のロボットRA及びロボットRBが登録されている。
ロボットRAとしては、例えば、子供であるユーザAの保護者としての役割を担うロボットが想定されている。ロボットRBとしては、例えば、子供であるユーザAの友人又は兄弟としての役割を担うロボットが想定されている。
したがって、図5では、ロボットRAの実行契機となる単語として、図4のユーザB(母親)と同じ単語が登録されている。
また、図5では、ロボットRBの実行契機となる単語としては、ロボットRBがユーザAと一緒になって生活習慣に関する行動を行うためにユーザAを誘う単語が登録されている。具体的には、ロボットRBの実行契機となる単語としては、「ニンジン」、「お片付け」、「トイレ」、「寝かしつけ」、及び「歯磨き」の各コンテンツに対して、「好き」、「一緒に」、「どこ」、「一緒に」、及び「一緒に」が登録されている。
例えば、「ニンジン」コンテンツについては、ロボットRBの実行契機となる単語として「好き」が登録されている。これは、子供であるユーザAが食卓に並べられたニンジンを見て「ニンジン嫌い」と発話し、ロボットRAが「ニンジン食べようよ」と発話し、ロボットRBが「ニンジン好き」と発話するような場面において、ロボット1に「ニンジン」コンテンツを実行させるためである。
また、「お片付け」コンテンツについては、ロボットRBの実行契機となる単語として「一緒に」が登録されている。これは、例えば、ロボットRAが「お片付けしましょうね」と発話し、その発話に対して子供であるユーザAが「お片付け嫌だ」と発話し、ロボットRBが「一緒にお片付けしよう」と発話した場面において、「お片付け」コンテンツをロボット1に実行させるためである。
この変形例が採用される場合、発話者登録テーブルT1には、母親であるユーザBに代えて、ロボットRA及びロボットRBの声紋がロボット名と関連付けて登録される。発話者判断部202は、発話者登録テーブルT1を参照し、ロボットRA及びロボットRBのそれぞれについても発話者を判断する処理を実行する。
音声認識部203は、ロボットRA及びロボットRBのそれぞれの音声データを文字列に変換する。登録用語有無判断部204は、ロボットRA及びロボットRBのそれぞれの発話を示す文字列に、実行契機テーブルT2’に登録されている単語が含まれているか否かを判断する。タイムスタンプ更新部205は、登録用語有無判断部204により、ロボットRA及びロボットRBの発話を示す文字列に実行契機テーブルT2’に登録されている単語が含まれていると判断された場合、実行契機テーブルT2’の該当する単語に対応する発話時刻を現在時刻で更新する。
コンテンツ実行部206は、発話時刻が更新された単語を単語W1、実行契機テーブルT2’に登録された単語W1に対応する2つの単語を単語W2及び単語W3とすると、単語W2及び単語W3のうち発話時刻が遅い方の単語(ここでは、単語W2とする)の発話時刻t2と単語W1の発話時刻t1との時間差ΔT1が所定時間以内の場合、単語W1に対応するコンテンツを実行すればよい。
或いは、コンテンツ実行部206は、単語W1の発話時刻t1及び単語W2の発話時刻t2の時間差ΔT1が所定時間以内であり、且つ、単語W2の発話時刻t2及び単語W3の発話時刻t3の時間差ΔT2が所定時間以内の場合、単語W1に対応するコンテンツを実行してもよい。
なお、図5に示す実行契機テーブルT2’においては、子供に対して友人又は兄弟としての役割を担うロボットRBについての実行契機となる単語は省かれていても良い。
この場合、コンテンツ実行部206は、ユーザAとロボットRAとの対話からコンテンツの実行の有無を判断することになる。
なお、変形例1において、ロボットRA及びRBは、図1、図6に示すロボット1と同じ構成が適用可能である。この場合、音声入力部101がマイクの一例に相当し、図6に示すスピーカ301Aがスピーカの一例に相当し、行動実行部200がプロセッサ及びメモリの一例に相当する。
(変形例2)
上記実施の形態では、ユーザAとして子供が採用されているが、大人が採用されてもよい。例えば、ユーザBが同居している老人又は夫に生活習慣を身につけさせようと考える場面がある。このような場面において、本開示は適用可能である。
(変形例3)
上記変形例1では、ユーザAとして子供が採用されているが、大人が採用されてもよい。例えば、今後の社会では、ユーザAを介護する介護者の役割を担うロボットRAが介護者に代行して被介護者であるユーザAに生活習慣を身につけさせる場面も想定される。これらの場面において、本開示は適用可能である。
(変形例4)
上記実施の形態及び変形例1においてユーザAとして子供が採用されているが、幼児が採用されてもよい。ここで、幼児とは、例えば、言語獲得段階にいる未就学児が該当する。
(変形例5)
実施の形態1では、ユーザBとして母親が採用されているが、子供であるユーザAの保護者が採用されてもよい。保護者としては、ユーザBの父親又は祖父母が該当する。
(変形例6)
本開示は、図1に示すロボットに適用されているが、これは一例でありロボットを含む装置一般に適用されてもよい。装置としては、例えば、テレビ、又はオーディオ機器等の家電機器を含む。
(変形例7)
実施の形態1では、ロボットとして図6に示すロボット1が採用されたが、本開示はこれに限定されず、他のロボットに適用されてもよい。
本開示によれば、コンテンツの実行指示を知られたくなく、ロボットが自律的に判断して行動をしたと思わせる点で有用である。
1 ロボット
100 センサ入力部
101 音声入力部
102 マイク
200 行動実行部
201 音声入力検知部
202 発話者判断部
203 音声認識部
204 登録用語有無判断部
205 タイムスタンプ更新部
206 コンテンツ実行部
207 制御命令生成部
208 メモリ
300 出力部
301 音声出力部
301A スピーカ
T1 発話者登録テーブル
T2,T2' 実行契機テーブル

Claims (14)

  1. 複数のユーザとコミュニケーションする装置であって、
    前記装置周辺の音を取得するマイクと、
    スピーカと、
    メモリと、
    プロセッサと、を備え、
    前記プロセッサは、
    前記音に、第1ユーザの音声が含まれているか判断し、
    前記音に、前記第1ユーザの音声が含まれていると判断された場合は、前記音声に前記メモリに記憶された前記第1ユーザに対応する第1単語が含まれているか判断し、前記メモリは、少なくとも、前記複数のユーザと前記複数のユーザに対応する単語と前記複数のユーザに対応する単語が最後に発話された時刻とを対応付け、
    前記音声に前記第1単語が含まれていると判断された場合は、前記第1単語が前記第1ユーザに最後に発話された第1時刻と、前記メモリにおいて前記第1単語に対応する第2単語が第2ユーザに最後に発話された第2時刻との差が所定時間以内か判断し、前記第1時刻は現在時刻であり、前記第2ユーザは前記第1ユーザとは異なり、前記第1単語と前記第2単語は、同じコンテンツに対応し、
    前記第1時刻と前記第2時刻との差が前記所定時間以内であると判断された場合は、前記スピーカに、前記コンテンツに対応する音声を出力させる、
    装置。
  2. 前記プロセッサは、更に、
    前記音声に前記第1単語が含まれていると判断された場合は、前記メモリにおいて、前記第1単語が前記第1ユーザに発話された時刻を前記第1時刻に更新する、
    請求項1記載の装置。
  3. 前記第1ユーザは、前記第2ユーザの保護者である、
    請求項1記載の装置。
  4. 前記第1ユーザは、前記装置とは異なる他の装置であり、
    前記第2ユーザは、幼児であり、
    前記他の装置は、
    前記他の装置周辺の音を取得するマイクと、
    スピーカと、
    メモリと、
    プロセッサと、を備える、
    請求項1記載の装置。
  5. 前記第2ユーザは、前記第1ユーザの保護者である、
    請求項1記載の装置。
  6. 前記第1ユーザは、幼児であり、
    前記第2ユーザは、前記装置とは異なる他の装置であり、
    前記他の装置は、
    前記他の装置周辺の音を取得するマイクと、
    スピーカと、
    メモリと、
    プロセッサと、を備える、
    請求項1記載の装置。
  7. 前記第1ユーザは、大人であり、
    前記第2ユーザは、前記装置とは異なる他の装置であり、
    前記他の装置は、
    前記他の装置周辺の音を取得するマイクと、
    スピーカと、
    メモリと、
    プロセッサと、を備える、
    請求項1記載の装置。
  8. 前記第1ユーザは、前記装置とは異なる他の装置であり、
    前記第2ユーザは、大人であり、
    前記他の装置は、
    前記他の装置周辺の音を取得するマイクと、
    スピーカと、
    メモリと、
    プロセッサと、を備える、
    請求項1記載の装置。
  9. 前記コンテンツは、幼児に生活習慣を身につけさせるためのコンテンツである、
    請求項1記載の装置。
  10. 前記第1単語は、拒絶の意味、もしくは、否定語を含む、
    請求項5または6に記載の装置。
  11. 前記第1単語は、前記コンテンツに対応する所定の単語を含む、
    請求項3、4、7、及び8のいずれかに記載の装置。
  12. 複数のユーザとコミュニケーションするロボットであって、
    前記ロボット周辺の音を取得するマイクと、
    スピーカと、
    メモリと、
    プロセッサと、を備え、
    前記プロセッサは、
    前記音に、第1ユーザの音声が含まれているか判断し、
    前記音に、前記第1ユーザの音声が含まれていると判断された場合は、前記音声に前記メモリに記憶された前記第1ユーザに対応する第1単語が含まれているか判断し、前記メモリは、少なくとも、前記複数のユーザと前記複数のユーザに対応する単語と前記複数のユーザに対応する単語が最後に発話された時刻とを対応付け、
    前記音声に前記第1単語が含まれていると判断された場合は、前記第1単語が前記第1ユーザに最後に発話された第1時刻と、前記メモリにおいて前記第1単語に対応する第2単語が第2ユーザに最後に発話された第2時刻との差が所定時間以内か判断し、前記第1時刻は現在時刻であり、前記第2ユーザは前記第1ユーザとは異なり、前記第1単語と前記第2単語は、同じコンテンツに対応し、
    前記第1時刻と前記第2時刻との差が前記所定時間以内であると判断された場合は、前記スピーカに、前記コンテンツに対応する音声を出力させる、
    ロボット。
  13. 複数のユーザとコミュニケーションする装置における方法であって、
    前記装置は、前記装置周辺の音を取得するマイクと、スピーカと、メモリと、プロセッサと、を備え、
    前記音に、第1ユーザの音声が含まれているか判断し、
    前記音に、前記第1ユーザの音声が含まれていると判断された場合は、前記音声に前記メモリに記憶された前記第1ユーザに対応する第1単語が含まれているか判断し、前記メモリは、少なくとも、前記複数のユーザと前記複数のユーザに対応する単語と前記複数のユーザに対応する単語が最後に発話された時刻とを対応付け、
    前記音声に前記第1単語が含まれていると判断された場合は、前記第1単語が前記第1ユーザに最後に発話された第1時刻と、前記メモリにおいて前記第1単語に対応する第2単語が第2ユーザに最後に発話された第2時刻との差が所定時間以内か判断し、前記第1時刻は現在時刻であり、前記第2ユーザは前記第1ユーザとは異なり、前記第1単語と前記第2単語は、同じコンテンツに対応し、
    前記第1時刻と前記第2時刻との差が前記所定時間以内であると判断された場合は、前記スピーカに、前記コンテンツに対応する音声を出力させる、
    方法。
  14. 請求項13記載の方法をコンピュータに実行させるためのプログラム。
JP2018042273A 2018-03-08 2018-03-08 装置、ロボット、方法、及びプログラム Active JP7015711B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018042273A JP7015711B2 (ja) 2018-03-08 2018-03-08 装置、ロボット、方法、及びプログラム
US16/205,179 US10923140B2 (en) 2018-03-08 2018-11-29 Device, robot, method, and recording medium
CN201910154149.8A CN110246491B (zh) 2018-03-08 2019-03-01 与用户交流的装置及其方法、机器人及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018042273A JP7015711B2 (ja) 2018-03-08 2018-03-08 装置、ロボット、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019158967A JP2019158967A (ja) 2019-09-19
JP7015711B2 true JP7015711B2 (ja) 2022-02-03

Family

ID=65628626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018042273A Active JP7015711B2 (ja) 2018-03-08 2018-03-08 装置、ロボット、方法、及びプログラム

Country Status (3)

Country Link
US (1) US10923140B2 (ja)
JP (1) JP7015711B2 (ja)
CN (1) CN110246491B (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128281A (ja) 2008-11-28 2010-06-10 Waseda Univ 対話活性化システム及び対話活性化ロボット
JP2018097185A (ja) 2016-12-14 2018-06-21 パナソニックIpマネジメント株式会社 音声対話装置、音声対話方法、音声対話プログラム及びロボット
JP2019147234A (ja) 2018-02-28 2019-09-05 パナソニックIpマネジメント株式会社 装置、ロボット、方法、及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560576B1 (en) * 2000-04-25 2003-05-06 Nuance Communications Method and apparatus for providing active help to a user of a voice-enabled application
JP3733075B2 (ja) * 2002-02-07 2006-01-11 株式会社国際電気通信基礎技術研究所 インタラクション・メディアシステム
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US20130066634A1 (en) * 2011-03-16 2013-03-14 Qualcomm Incorporated Automated Conversation Assistance
JP5684082B2 (ja) 2011-09-27 2015-03-11 株式会社東芝 対話支援装置、方法及びプログラム
US9685160B2 (en) * 2012-04-16 2017-06-20 Htc Corporation Method for offering suggestion during conversation, electronic device using the same, and non-transitory storage medium
JP6432177B2 (ja) 2014-06-20 2018-12-05 カシオ計算機株式会社 対話型通信システム、端末装置およびプログラム
JP6551793B2 (ja) * 2016-05-20 2019-07-31 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
WO2018112445A1 (en) * 2016-12-16 2018-06-21 Second Mind Labs, Inc. Systems to augment conversations with relevant information or automation using proactive bots
US11663182B2 (en) * 2017-11-21 2023-05-30 Maria Emma Artificial intelligence platform with improved conversational ability and personality development

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128281A (ja) 2008-11-28 2010-06-10 Waseda Univ 対話活性化システム及び対話活性化ロボット
JP2018097185A (ja) 2016-12-14 2018-06-21 パナソニックIpマネジメント株式会社 音声対話装置、音声対話方法、音声対話プログラム及びロボット
JP2019147234A (ja) 2018-02-28 2019-09-05 パナソニックIpマネジメント株式会社 装置、ロボット、方法、及びプログラム

Also Published As

Publication number Publication date
US20190279643A1 (en) 2019-09-12
JP2019158967A (ja) 2019-09-19
CN110246491A (zh) 2019-09-17
US10923140B2 (en) 2021-02-16
CN110246491B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
US11544274B2 (en) Context-based digital assistant
US20190279642A1 (en) System and method for speech understanding via integrated audio and visual based speech recognition
WO2018163648A1 (ja) 対話システム、対話方法、対話装置、およびプログラム
US11220008B2 (en) Apparatus, method, non-transitory computer-readable recording medium storing program, and robot
JP6751536B2 (ja) 装置、ロボット、方法、及びプログラム
JP2018097185A (ja) 音声対話装置、音声対話方法、音声対話プログラム及びロボット
US20210205987A1 (en) System and method for dynamic robot configuration for enhanced digital experiences
JP4622384B2 (ja) ロボット、ロボット制御装置、ロボットの制御方法およびロボットの制御用プログラム
US11501768B2 (en) Dialogue method, dialogue system, dialogue apparatus and program
US10994421B2 (en) System and method for dynamic robot profile configurations based on user interactions
WO2018003196A1 (ja) 情報処理システム、記憶媒体、および情報処理方法
US20220241977A1 (en) System and method for dynamic program configuration
WO2018163646A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP2022169645A (ja) 装置及びプログラム等
JP2010078763A (ja) 音声処理装置、音声処理プログラム、およびインターホンシステム
JP2003108362A (ja) コミュニケーション支援装置およびコミュニケーション支援システム
JP6598369B2 (ja) 音声管理サーバー装置
JP7015711B2 (ja) 装置、ロボット、方法、及びプログラム
JP2007030050A (ja) ロボット制御装置、ロボット制御システム、ロボット装置、およびロボット制御方法
JP6889597B2 (ja) ロボット
JP7075168B2 (ja) 装置、方法、プログラム、及びロボット
WO2021064947A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
WO2021064948A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP7331349B2 (ja) 会話出力システム、サーバ、会話出力方法及びプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20200605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210301

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211223

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220124