JP7015711B2

JP7015711B2 - 装置、ロボット、方法、及びプログラム

Info

Publication number: JP7015711B2
Application number: JP2018042273A
Authority: JP
Inventors: 亮太宮崎; 雄策太田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2018-03-08
Filing date: 2018-03-08
Publication date: 2022-02-03
Anticipated expiration: 2038-03-08
Also published as: US20190279643A1; JP2019158967A; CN110246491A; US10923140B2; CN110246491B

Description

本開示は、複数のユーザとコミュニケーションを行う装置等に関するものである。

近年、ユーザの音声からユーザの意図をくみ取り、ユーザに対して適切な行動を実行するロボットの研究が行われている。

例えば、特許文献１には、第一話者と第二話者とが異なる言語を使用して会話する際の対話状態を利用して、一方の話者にとって未知情報があることを判断し、他方の話者の会話の翻訳結果を出力する際に所定のタイミングで一方の話者向けに補足情報を提示する技術を開示する。

特許文献２には、ネットワークを介して接続される複数の端末装置を通じて行われる会話状態を監視し、会話状態が停滞状態である場合、会話に関連する話題を検索サイトから取得して端末装置に提供する対話型通信システムが開示されている。

特開２０１３－７３３５５号公報特開２０１６－６６０７号公報

しかし、特許文献１、２では、複数のユーザが対話している場面において、一方のユーザによるロボットへのコンテンツの起動指示が他方のユーザに気づかれることを防止する措置が何ら採られていないので、更なる改善の必要がある。

本開示の一態様に係る装置は、
複数のユーザとコミュニケーションする装置であって、
前記装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備え、
前記プロセッサは、
前記音に、第１ユーザの音声が含まれているか判断し、
前記音に、前記第１ユーザの音声が含まれていると判断された場合は、前記音声に前記メモリに記憶された前記第１ユーザに対応する第１単語が含まれているか判断し、前記メモリは、少なくとも、前記複数のユーザと前記複数のユーザに対応する単語と前記複数のユーザに対応する単語が最後に発話された時刻とを対応付け、
前記音声に前記第１単語が含まれていると判断された場合は、前記第１単語が前記第１ユーザに最後に発話された第１時刻と、前記メモリにおいて前記第１単語に対応する第２単語が第２ユーザに最後に発話された第２時刻との差が所定時間以内か判断し、前記第１時刻は現在時刻であり、前記第２ユーザは前記第１ユーザとは異なり、前記第１単語と前記第２単語は、同じコンテンツに対応し、
前記第１時刻と前記第２時刻との差が前記所定時間以内であると判断された場合は、前記スピーカに、前記コンテンツに対応する音声を出力させる。

本開示によれば、出力された音声が、一方のユーザの操作にしたがって出力されたものであることが他方のユーザに気付かれることを防止できる。

本開示の実施の形態におけるロボットの構成の一例を示すブロック図である。図１に示すロボットの処理の一例を示すフローチャートである。発話者登録テーブルの一例を示す図である。実行契機テーブルの一例を示す図である。図１に示すロボットを、図１に示すロボットとは別のロボットとユーザとの対話に適用した場合の実行契機テーブルの一例を示す図である。図１に示すロボットの外観の一例を示す図である。図６に示すロボットの内部を背後から見た図である。

（本開示に至る経緯）
本発明者は、母親等の保護者による子供のしつけを支援するためにロボットに実行させる種々のコンテンツを検討している。例えば、ニンジンを嫌う子供が「ニンジンが嫌い」という発話をし、ニンジンを食べさせたいと願う母親が子供に「ニンジン食べようよ」と発話した場合、子どもに対してニンジンが好きになるような話をロボットに実行させるコンテンツがあれば母親の要望に応えることができる。

このようなコンテンツをロボットに実行させる場合、例えば、母親は、スマートフォンなどの携帯端末を取り出して、コンテンツの起動指示を入力する操作を行う必要がある。

しかし、子供との対話中に母親がおもむろにスマートフォンを取り出して起動指示を入力する操作を行うと、そのことに子供の関心が向いてしまうので、ロボットが実行するコンテンツが母親の指示に基づくものであると子供に気づかれてしまうという課題が生じる。これにより、子供にしらけ感を与えるのみならず、母親に対する子供の反発心を却って助長させ兼ねず、十分なしつけの効果が期待できなくなる虞がある。

上記の特許文献１では、例えば、「ウィンナーシュニッチェル」に対して「ウィーン風カツレツでオーストラリアの代表的な料理です」というような補足情報が出力されている。しかし、特許文献１では、第一話者と第二話者とのどちらか一方の発話内容に対する補足情報が出力されているに過ぎず、双方の発話内容を契機にコンテンツは実行されていない。

また、特許文献２は、ユーザ同士の会話が停滞した場合、会話に関連する話題を出力するものであり、ユーザー同士の会話が停滞していない場合は装置が機能しないため、ユーザ同士の発話内容を契機にコンテンツを実行することができない。

したがって、特許文献１、２は、いずれも、ユーザ同士の発話内容を契機にコンテンツを実行することができないので、母親はコンテンツの起動指示を入力せざるを得ず、起動指示を入力する操作が子供に気付かれるという課題を解決できない。

そこで、本発明者は、例えば、子どもが「ニンジンが嫌い」という発話をし、母親が子どもに「ニンジン食べようよ」と発話した場合、子どもの発話内容と母親の発話内容とを契機に、子どもに対してニンジンが好きになるコンテンツをロボットに実行させることにより、上記の課題を解決できるとの知見を得て、本開示を想到するに至った。

本開示の一態様は、
複数のユーザとコミュニケーションする装置であって、
前記装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備え、
前記プロセッサは、
前記音に、第１ユーザの音声が含まれているか判断し、
前記音に、前記第１ユーザの音声が含まれていると判断された場合は、前記音声に前記メモリに記憶された前記第１ユーザに対応する第１単語が含まれているか判断し、前記メモリは、少なくとも、前記複数のユーザと前記複数のユーザに対応する単語と前記複数のユーザに対応する単語が最後に発話された時刻とを対応付け、
前記音声に前記第１単語が含まれていると判断された場合は、前記第１単語が前記第１ユーザに最後に発話された第１時刻と、前記メモリにおいて前記第１単語に対応する第２単語が第２ユーザに最後に発話された第２時刻との差が所定時間以内か判断し、前記第１時刻は現在時刻であり、前記第２ユーザは前記第１ユーザとは異なり、前記第１単語と前記第２単語は、同じコンテンツに対応し、
前記第１時刻と前記第２時刻との差が前記所定時間以内であると判断された場合は、前記スピーカに、前記コンテンツに対応する音声を出力させる。

本構成によれば、第１ユーザの音声に第１単語が含まれていることが検知されると、第１単語に対応する単語であって第２ユーザが発話した第２単語がメモリに登録されており、且つ、第１単語の発話時刻と第２単語の発話時刻との時間差が所定時間以内であれば、第１単語と第２単語とに対応するコンテンツの音声が出力される。

これにより、第１ユーザ及び第２ユーザの一方のユーザが起動指示を入力しなくても、コンテンツにしたがった音声を出力させることができ、出力された音声が、一方のユーザの操作にしたがって出力されたものであることが他方のユーザに気付かれることを防止できる。

上記構成において、前記プロセッサは、更に、
前記音声に前記第１単語が含まれていると判断された場合は、前記メモリにおいて、前記第１単語が前記第１ユーザに発話された時刻を前記第１時刻に更新してもよい。

本構成によれば、第１ユーザの音声に第１単語が含まれている場合、第１単語が発話された時刻でメモリに登録されている第１時刻が更新されるので、メモリは第１単語の第１ユーザによる発話時刻として、絶えず最新の発話時刻を登録することができる。

上記構成において、前記第１ユーザは、前記第２ユーザの保護者であってもよい。

本構成によれば、第１ユーザである保護者と第２ユーザである被保護者とが対話する場面において、保護者はコンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。

上記構成において、前記第１ユーザは、前記装置とは異なる他の装置であり、
前記第２ユーザは、幼児であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備えてもよい。

本構成によれば、幼児である第１ユーザと第２ユーザである他の装置とが対話する場面において、コンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。

上記構成において、前記第２ユーザは、前記第１ユーザの保護者であってもよい。

本構成によれば、第２ユーザである保護者と第１ユーザである被保護者とが対話する場面において、保護者はコンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。

上記構成において、前記第１ユーザは、幼児であり、
前記第２ユーザは、前記装置とは異なる他の装置であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備えてもよい。

本構成によれば、第１ユーザである幼児と第２ユーザである他の装置とが対話する場面において、コンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。

上記構成において、前記第１ユーザは、大人であり、
前記第２ユーザは、前記装置とは異なる他の装置であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備えてもよい。

本構成によれば、第１ユーザである大人と第２ユーザである他の装置とが対話する場面において、コンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。

上記構成において、前記第１ユーザは、前記装置とは異なる他の装置であり、
前記第２ユーザは、大人であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備えてもよい。

本構成によれば、第１ユーザである他の装置と第２ユーザである大人とが対話する場面において、コンテンツの起動指示を入力することなくコンテンツの音声出力を装置に開始させることができる。

上記構成において、前記コンテンツは、幼児に生活習慣を身につけさせるためのコンテンツであってもよい。

本構成によれば、第１ユーザと第２ユーザとが生活習慣に関連する第１単語及び第２単語を発話した場合、一方のユーザがコンテンツの起動指示を入力しなくても、生活習慣を身につけさせるためのコンテンツの音声が出力される。そのため、出力される音声が一方のユーザの起動指示によるものであると、他方のユーザに気付かれることなく、他方のユーザにコンテンツに対応する音声を聞かせることができ、しつけの支援効果を高めることができる。

上記構成において、前記第１単語は、拒絶の意味、もしくは、否定語を含んでもよい。

例えば、保護者である第２ユーザが被保護者である第１ユーザをしつける場面では、第２ユーザが第１ユーザに対してある行動をとらせる単語を発話し、その行動を拒否又は否定する単語を第１ユーザが発話た場合に、コンテンツに対応する音声を装置に出力させるのが効果的である。本構成では、第１単語として、拒絶の意味若しくは否定語が含まれているので、第１ユーザが、第２ユーザの要求する行動を拒否した場合にコンテンツに対応する音声を装置に出力させることができる。その結果、装置は、しつけの支援が必要な場面においてしつけの支援を行うことができる。

上記構成において、前記第１単語は、前記コンテンツに対応する所定の単語を含んでもよい。

本構成によれば、保護者又は他の装置である第１ユーザが第１単語として所定の単語を発話した場合に、コンテンツに対応する音声を装置に出力させることができる。

本開示は、このような装置を実装するロボット、このような装置に含まれる特徴的な各ステップを備える方法、及び特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、ＣＤ－ＲＯＭ等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態）
（全体構成）
図１は、本開示の実施の形態におけるロボット１の構成の一例を示すブロック図である。図１に示すロボット１は、センサ入力部１００、行動実行部２００、及び出力部３００を備える。

センサ入力部１００は、音声入力部１０１を備える。音声入力部１０１は、例えば、マイクで構成され、ロボット１の周辺の音声を取得する。

行動実行部２００は、音声入力検知部２０１、発話者判断部２０２、音声認識部２０３、登録用語有無判断部２０４、タイムスタンプ更新部２０５、コンテンツ実行部２０６、制御命令生成部２０７、及びメモリ２０８を備える。

行動実行部２００を構成するメモリ２０８以外の要素は、例えば、行動処理を行なうプログラムをＣＰＵ等のプロセッサが実行することで実現される。行動処理を行うプログラムは、ロボット１に組み込まれたメモリ２０８又はロボット１と通信可能に接続された端末に組み込まれたメモリに格納されており、プロセッサによって実行される。また、行動実行部２００を構成する全ての要素は、同一のロボット１又は同一の端末に実装されてもよい。或いは、行動実行部２００を構成する全ての要素は、光ファイバ、無線、及び公衆電話回線など任意のネットワークにより接続される別の端末又はサーバ上に個別に実装され、通信することによって実現されてもよい。また、行動実行部２００は一部の要素がロボット１に実装され、残りの要素がサーバに実装されてもよい。

音声入力検知部２０１は、音声入力部１０１に音声が入力されたことを検知する。ここで、音声入力検知部２０１は、例えば、無音とみなせる音量以上の音声データを音声入力部１０１から取得した場合、音声入力部１０１に音声が入力されたと判定し、発話者判断部２０２に音声データの出力を開始すればよい。また、音声入力検知部２０１は、無音とみなせる音量未満の音声データが一定期間以上継続すると発話者判断部２０２への音声データの出力を停止すればよい。

発話者判断部２０２、音声入力検知部２０１より受け取った音声データが示す音声が予め登録している複数のユーザのうちいずれのユーザの音声であるかを、図３に示す発話者登録テーブルＴ１を参照することで判断する。図３は、発話者登録テーブルＴ１の一例を示す図である。発話者登録テーブルＴ１は、「Ｎｏ」フィールド、「発話登録者」フィールド、及び「声紋」フィールドを備える。「Ｎｏ」フィールドは、発話者登録テーブルＴ１を構成するレコードを特定するための番号が登録されている。「発話登録者」フィールドには、予め定められた認識対象のユーザの名前又は識別子が登録されている。図３の例では、発話登録者としてユーザＡ及びユーザＢが登録されている。この例では、ユーザＡとしては子供、ユーザＢとしては子供の母親が登録されている。「声紋」フィールドには、「発話登録者」フィールドに登録された各発話登録者の声紋が登録されている。ここでは、ユーザＡとユーザＢの声紋が登録されている。

なお、ユーザＡは第１ユーザ及び第２ユーザのうちの一方に対応し、ユーザＢは第１ユーザ及び第２ユーザのうちの他方に対応する。

したがって、発話者判断部２０２は、音声入力検知部２０１から音声データが入力されると、その音声データと、発話者登録テーブルＴ１に登録された各声紋とをそれぞれ比較することで、入力された音声データがいずれの発話登録者であるかを判断すればよい。

図１に参照を戻す。音声認識部２０３は、発話者判断部２０２により発話登録者が特定された音声データに対して音声認識処理を行い、その音声データを発話登録者が発話した内容を示す文字列に変換する。ここで、音声認識部２０３は、例えば、隠れマルコフモデル等の音響モデルと、ｎ－ｇｒａｍ等の言語モデルとを用いることで、音声データを文字列に変換すればよい。

登録用語有無判断部２０４は、図４に示す実行契機テーブルＴ２を参照することで、音声認識部２０３で変換された文字列に、予め登録されている単語が含まれているか否かを判断する。図４は、実行契機テーブルＴ２の一例を示す図である。実行契機テーブルＴ２は、複数のコンテンツのそれぞれについて、実行契機となる単語を認識対象となるユーザ別に記憶するテーブルである。

詳細には、実行契機テーブルＴ２は、１つのコンテンツに対して１つのレコードが割り当てらており、「Ｎｏ」、「コンテンツ」、「ユーザＡ」、及び「ユーザＢ」のフィールドを備えている。「Ｎｏ」フィールドには、実行契機テーブルＴ２を構成する各レコードを特定する番号が登録されている。「コンテンツ」フィールドには、コンテンツを識別するための情報であるコンテンツの名称が登録されている。「ユーザＡ」フィールドは、更に「用語」フィールド及び「時刻」フィールドを備える。「ユーザＡ」の「用語」フィールドには、対応するコンテンツの実行契機となるユーザＡの単語が登録されている。「ユーザＡ」の「時刻フィールド」には、実行契機となる単語のユーザＡの最新の発話時刻が登録されている。

「ユーザＢ」フィールドも、「ユーザＡ」フィールドと同様、「用語」フィールド及び「時刻」フィールドを備えている。「ユーザＢ」フィールドには、対応するコンテンツの実行契機となるユーザＢの単語と、その単語をユーザＢが発話した最新の発話時刻とが登録されている。

ここで、コンテンツとしては、子供であるユーザＡに生活習慣を身につけさせるコンテンツ、すなわち、ユーザＡのしつけを支援するコンテンツが採用される。

図４の例では、「ニンジン」、「お片づけ」、「トイレ」、「寝かしつけ」、及び「歯磨き」のコンテンツが登録されている。

「ニンジン」コンテンツは、ニンジンを食べるのが嫌いな子供にニンジンを食べさせたり、ニンジンを好きにさせたりするためのコンテンツであり、例えば、ニンジンに関する話をロボット１に発話させるコンテンツが該当する。ニンジンに関する話としては、例えば、ニンジンを食べるとどれだけ元気になるかを子供向けに説明する話が採用できる。

「お片付け」コンテンツは、片付け嫌いの子供に片付けをさせるためのコンテンツであり、例えば、子供に対して片付けへの意欲を誘発させるような話をロボット１に発話させるコンテンツが該当する。

「トイレ」コンテンツは、トイレが苦手な子供にトイレに行ってみようとする意欲を誘発させるような話をロボット１に発話させるコンテンツが該当する。「寝かしつけ」コンテンツは、夜更かし気味の子供に早寝をさせるためのコンテンツであり、例えば、子供との会話を通じて寝室までロボット１に子供を誘導させ、子供に対して絵本の読み聞かせ又は子守歌の発話をロボット１に実行させるようなコンテンツが該当する。

「歯磨き」コンテンツは、歯磨き嫌いな子供に歯磨きへの意欲を誘発させる話をロボット１に発話させるコンテンツであり、例えば、歯磨きをしないと虫歯になって大変な目に遭うことを子供に分かりやすく伝える話をロボット１に発話させるコンテンツが該当する。

実行契機テーブルＴ２に登録されたコンテンツの実行契機となる単語としては、該当するコンテンツを実行するべき場面において子供と母親との間で交わされる会話に含まれることが想定される単語が採用される。

例えば、「ニンジン」コンテンツは、食卓に並べられたニンジンを見た子供が「ニンジン嫌い」と発話し、その発話に対して母親が「ニンジン食べようよ」と発話する場面において実行されるのが良い。そこで、実行契機テーブルＴ２には、「ニンジン」コンテンツに対して、子供であるユーザＡの実行契機となる単語としてニンジンを食べることを拒絶又はニンジンを否定する「嫌い」と、母親であるユーザＢの実行契機となる単語として「ニンジン」とが対応付けて登録されている。

「お片付け」コンテンツは、例えば、母親が「おもちゃのお片付けをしましょうね」と発話し、その発話に対して子供が「お片づけ嫌」と発話する場面において実行されるの良い。そこで、実行契機テーブルＴ２には、「お片付け」コンテンツに対して子供であるユーザＡの実行契機となる単語として片付けを拒絶する「嫌」と、母親であるユーザＢの実行契機となる単語として「お片付け」とが対応付けて登録されている。

同様の考えの下、実行契機テーブルＴ２には、「トイレ」コンテンツに対して、トイレに行くことを拒絶する「行きたくない」と「トイレ」とが実行契機となる単語として対応付けて記憶されている。また、実行契機テーブルＴ２には、「寝かしつけ」コンテンツに対して、寝ることを拒絶する「眠たくない」及び寝ることを促す「寝ないの？」が実行契機となる単語として対応付けて記憶されている。また、実行契機テーブルＴ２には、「歯磨き」コンテンツに対して、歯磨きを拒絶する「したくない」と「歯磨き」とが対応付けて登録されている。

なお、実行契機テーブルＴ２において、「ユーザＡ」の「用語」フィールドに記憶された単語は、拒絶の意味もしくは否定語を含む第１単語の一例に該当し、「ユーザＢ」の「用語」フィールドに記憶された単語は、所定の単語を含む第１単語の一例に該当する。所定の単語としては、母親が子供に対して生活習慣に関する行動を促すための用語又はその用語に含まれる単語が採用できる。

なお、図４の実行契機テーブルＴ２は、実行契機となる単語をユーザが修正可能に構成されていてもよい。例えば、ニンジンを食する場面において、子供が「嫌い」について同一の意味を持つ例えば「ヤダ」と発話するのが慣習化している場合、「嫌い」は「ヤダ」と修正される。

また、図４の実行契機テーブルＴ２では１つのコンテンツについて１ペアの単語が対応付けられているが、これは一例であり、複数ペアの単語が対応付けられていても良い。例えば、「ニンジン」コンテンツについては、「嫌い」－「ニンジン」のペアに加えて、「食べたくない」－「ニンジン」のペアが対応付けられていても良い。また、実行契機テーブルＴ２はこのようなペアの追加をユーザが任意に行えるように構成されていてもよい。

図１に参照を戻す。タイムスタンプ更新部２０５は、登録用語有無判断部２０４にて登録用語があると判断された場合、図４に示す実行契機テーブルＴ２において、該当するユーザの該当する単語に対応する「時刻」フィールドに登録されている発話時刻を現在時刻で更新する。

図４を参照し、例えばユーザＡが「嫌い」と発話したことが認識された場合、タイムスタンプ更新部２０５は、「嫌い」に対して現在登録されている発話時刻を現在時刻で更新する。

図１に参照を戻す。コンテンツ実行部２０６は、タイムスタンプ更新部２０５により、ある単語ＷＡの発話時刻が発話時刻ｔＡで更新された場合、発話時刻ｔＡと、単語ＷＡに対応する単語ＷＢの発話時刻ｔＢとを実行契機テーブルＴ２から読み出し、発話時刻ｔＡと発話時刻ｔＢとの時間差が所定時間以内である場合、単語ＷＡと単語ＷＢとに対応するコンテンツを実行する。ここで、所定時間としては、ユーザＡとユーザＢとが対話中であるとみなせる予め定められた時間が採用され、例えば、５秒、１０秒といった時間が採用できる。また、コンテンツ実行部２０６は、コンテンツの実行中において、出力部３００を作動させる必要が生じた場合、コマンドの出力依頼を制御命令生成部２０７に出力する。例えば、「ニンジン」コンテンツにおいて、ニンジンに関する話をロボット１に発話させる場合、その話をロボット１に発話させるためのコマンドの出力依頼を制御命令生成部２０７に出力する。

制御命令生成部２０７は、コンテンツ実行部２０６によりコマンドの出力依頼を受け付けた場合、コマンドを音声出力部３０１及びアクチュエータ制御部３０２の少なくとも一方に出力する。例えば、ニンジンに関する話を発話するコマンドの出力依頼を受け付けた場合、制御命令生成部２０７は、その話をロボット１に発話させるためのコマンドを音声出力部３０１に出力する。また、例えば、子供を寝室に誘導させるコマンドの出力依頼を制御命令生成部２０７から受け付けた場合、制御命令生成部２０７は、アクチュエータ制御部３０２にロボット１を現在位置から寝室に移動させるコマンドをアクチュエータ制御部３０２に出力する。

メモリ２０８は、不揮発性の記憶装置で構成され、図３に示す発話者登録テーブルＴ１と、図４に示す実行契機テーブルＴ２とを記憶する。

出力部３００は、音声出力部３０１及びアクチュエータ制御部３０２を備える。音声出力部３０１は、制御命令生成部２０７から出力されたコマンドに対応する音声信号をスピーカに出力し、スピーカから音声信号が示す音声を出力させる。例えば、ニンジンに関する話を発話するコマンドを受け付けた場合、音声出力部３０１は、ニンジンに関する話の音声信号をスピーカに出力する。

アクチュエータ制御部３０２は、制御命令生成部２０７から出力されたコマンドに対応する制御信号を、ロボット１のアクチュエータ又はモータに出力する。

なお、行動実行部２００がロボット１に対して無線又は有線を介して通信可能に接続された端末に実装され、且つ、音声出力部３０１及びアクチュエータ制御部３０２がロボット１に実装される場合、音声出力部３０１及びアクチュエータ制御部３０２は、制御命令生成部２０７から送信されるコマンドを有線又は無線を介して受信すればよい。

図２は、図１に示すロボット１の処理の一例を示すフローチャートである。以下、図２を用いて、子供であるユーザＡの発話と母親であるユーザＢの発話とから、「ニンジン」コンテンツがロボット１に実行される場面について説明する。なお、図２のフローチャートは所定周期で繰り返し実行される。

母親であるユーザＢが「ニンジン食べないの？」と発話した場合、音声入力検知部２０１は、音声入力部１０１に音声が入力されていることを検知し、音声データを発話者判断部２０２に出力し、発話者判断部２０２は、図３に示す発話者登録テーブルＴ１を参照し、その音声データが示す音声が発話登録者の音声であるか否かを判断する（Ｓ１０１）。

ここで、ユーザＢが発話者登録テーブルＴ１に登録されているので、発話者判断部２０２は、該当する音声データはユーザＢの音声データであると判断する（Ｓ１０１でＹＥＳ）。この場合、該当する音声データは音声認識部２０３により文字列に変換され、登録用語有無判断部２０４に出力される。一方、該当する音声データが示す音声が発話者登録テーブルＴ１に登録されたいずれの発話登録者の音声にも該当しなかった場合（Ｓ１０１でＮＯ）、処理は終了される。

Ｓ１０２では、登録用語有無判断部２０４は、音声認識部２０３により変換された文字列内に、実行契機テーブルＴ２に登録された単語が含まれているか否かを判断する。ここでは、文字列「ニンジン食べないの？」には、実行契機テーブルＴ２においてユーザＢの実行契機となる単語として登録された「ニンジン」が含まれている。そのため、登録用語有無判断部２０４は、Ｓ１０２でＹＥＳと判断する。一方、音声認識部２０３により変換された文字列内に、実行契機テーブルＴ２においてユーザＢの実行契機となる単語として登録されたいずれの単語も含まれていなければ、Ｓ１０２でＮＯと判断され、処理は終了する。

Ｓ１０３では、タイムスタンプ更新部２０５は、該当する実行契機となる単語について実行契機テーブルＴ２に登録された発話時刻を現在時刻に更新する。ここでは、現在時刻が１２時１５分１５秒であったため、図４のセルＣ４０２に示されるようにユーザＢの「ニンジン」の発話時刻が「１２：１５：１５」に更新される。ここでは、ユーザＢについて発話時刻が更新される例を示したが、ユーザＡについてもユーザＢと同様にして発話時刻が更新される。このようにして、実行契機テーブルＴ２の発話時刻は、実行契機となる単語が該当するユーザによって発話される度に更新される。そのため、実行契機テーブルＴ２には、実行契機となる単語が該当するユーザによって発話された最新の発話時刻が登録されることになる。

Ｓ１０４では、コンテンツ実行部２０６は、実行契機テーブルＴ２を参照し、Ｓ１０３で発話時刻が更新された単語「ニンジン」に対応する単語「嫌い」の発話時刻と、単語「ニンジン」の発話時刻との時間差が所定時間以内であるか否かを判定する。ここで、セルＣ４０２に示すように、単語「ニンジン」の発話時刻は１２時１５分１５秒であり、セルＣ４０１に示すように単語「嫌い」の発話時刻は１２時１５分１０秒であるため、両発話時刻の時間差は５秒である。したがって、所定時間が１０秒であるとすると、時間差は所定時間以内であるため、Ｓ１０４でＹＥＳと判断される。一方、時間差が所定時間より大きい場合、Ｓ１０４でＮＯと判断され、処理は終了する。

Ｓ１０５では、コンテンツ実行部２０６は、時間差が所定時間以内と判断された実行契機となる単語ペアに対応するコンテンツを実行し、処理を終了する。ここでは、単語「ニンジン」と単語「嫌い」との単語ペアには「ニンジン」コンテンツが対応付けられている。そのため、コンテンツ実行部２０６は、「ニンジン」コンテンツを実行する。

このように、本実施の形態によれば、ユーザＢの音声に単語ＷＢが含まれていることが検知されると、単語ＷＢに対応する単語であってユーザＡが発話した単語ＷＡが実行契機テーブルＴ２に登録されており、且つ、単語ＷＡの発話時刻ｔＡと単語ＷＢの発話時刻ｔＢとの時間差が所定時間以内であれば、単語ＷＡと単語ＷＢとに対応するコンテンツの音声が出力される。

これにより、母親であるユーザＢがコンテンツの起動指示を入力しなくても、コンテンツにしたがった音声を出力させることができ、出力された音声が、ユーザＢの操作にしたがって出力されたものであることがユーザＡに気付かれることを防止できる。

（ロボット）
次に、図１に示すロボット１の機械的な構成について説明する。図６は、図１に示すロボット１の外観の一例を示す図である。ロボット１は、図６に示すように球帯状のメイン筐体４０１と第１球冠部４０２と第２球冠部４０６とを備えており、メイン筐体４０１と第１球冠部４０２と第２球冠部４０６とは全体として球体を構成する。即ち、ロボット１は球体形状を有する。

また、ロボット１は、図６に示すように、第１球冠部４０２及び第２球冠部４０６のそれぞれに一対のカメラ１０１Ａを備え、第１球冠部４０２にマイク１０２及びスピーカ３０１Ａを備える。カメラ１０１Ａは、光軸が例えばロボット１の正面を向くように第１球冠部４０２及び第２球冠部４０６に設けられている。

図６では、カメラ１０１Ａがステレオカメラで構成された例が示されているが、カメラ１０１Ａがデプスカメラ又は単眼カメラで構成されている場合、カメラ１０１Ａは第１球冠部４０２及び第２球冠部４０６のいずれか一方に設けられる。スピーカ３０１Ａは、図１に示す音声出力部３０１から出力される音声信号を外部空間に出力する。マイク１０２は、図１に示す音声入力部１０１に対応し、ロボット１の周囲の音声を取得する。

図７は、図６に示すロボット１の内部を背後から見た図である。第１球冠部４０２及び第２球冠部４０６は横方向に延びるシャフト１１５によって連結されている。一方、シャフト１１５とメイン筐体４０１とは固定されていない。

メイン筐体４０１は固定された第１ギア１１６、第１ギア１１６と噛み合う第２ギア１１７、第２ギア１１７に連結されたモータ１１８、及びモータ１１８を固定するフレーム１１９を備える。フレーム１１９はシャフト１１５に吊り下げられているため、シャフト１１５が回転しても回転しない。

モータ１１８が駆動すると、モータ１１８に連結された第２ギア１１７が回転し、その動力が第２ギア１１７に噛み合う第１ギア１１６に伝達される。これにより、第１ギア１１６が固定されたメイン筐体４０１はモータ１１８の駆動に同期して回転する。したがって、モータ１１８が前進方向に回転するとロボット１は前進し、モータ１１８が後進方向に回転するとロボット１は後進する。

モータ１１８は、図１に示すアクチュエータ制御部３０２の制御に基づいて回転する。これにより、アクチュエータ制御部３０２は、ロボット１を前進又は後進させることができる。

フレーム１１９には、一対のアーム１２３を介して重り１１４が取り付けられている。一対のアーム１２３は、下端で重り１１４を挟持し、上端がフレーム１１９に対してロボット１のロール方向に回動自在に取り付けられている。フレーム１１９の内部には、一対のアーム１２３をロール方向に揺動させるモータ（図略）が取り付けられている。これにより、背後から見て重り１１４を右側に揺動させた状態で、メイン筐体４０１を前進方向に回転させると、ロボット１は右旋回する。一方、背後から見て重り１１４を左側に揺動させた状態で、メイン筐体４０１を前進方向に回転させると、ロボット１は左旋回する。図１に示すアクチュエータ制御部３０２は、このモータ（図略）を右側に所定角度回転させた状態で、モータ１１８を前進方向に駆動させることで、ロボット１を右旋回させることができる。同様に、アクチュエータ制御部３０２は、このモータ（図略）を左側に所定角度回転させた状態で、モータ１１８を前進方向に駆動させることで、ロボット１を左旋回させることができる。

モータ１２１は、シャフト１１５を回転させるためのモータである。モータ１２１が前方に回転すると、その回転力がベルト１２２を介してシャフト１１５に伝わり、シャフト１１５はピッチ方向に対して下方に回転する。一方、モータが後方に回転すると、その回転力がベルト１２２を介してシャフト１１５に伝わり、シャフト１１５はピッチ方向に対して上方に回転する。これにより、シャフト１１５に取り付けられた第１球冠部４０２及び第２球冠部４０６と、アーム１１３に取り付けられたロボット１の目及び口を表示する表示部とが連動して回転する。その結果、ロボット１の目及び口の向きとカメラ１０１Ａの光軸の向きとがピッチ方向の下方又は上方に変更される。

本開示は下記の変形例が採用できる。

（変形例１）
上記実施の形態は、ユーザ同士の対話に適用されているが、本開示はこれに限定されず、図１に示すロボット１とは別のロボットとユーザとの対話に適用されてもよい。図５は、図１に示すロボット１を、図１に示すロボット１とは別のロボットとユーザとの対話に適用した場合の実行契機テーブルＴ２’の一例を示す図である。図５では、母親であるユーザＢに代えて図１に示すロボット１とは別のロボットＲＡ及びロボットＲＢが登録されている。

ロボットＲＡとしては、例えば、子供であるユーザＡの保護者としての役割を担うロボットが想定されている。ロボットＲＢとしては、例えば、子供であるユーザＡの友人又は兄弟としての役割を担うロボットが想定されている。

したがって、図５では、ロボットＲＡの実行契機となる単語として、図４のユーザＢ（母親）と同じ単語が登録されている。

また、図５では、ロボットＲＢの実行契機となる単語としては、ロボットＲＢがユーザＡと一緒になって生活習慣に関する行動を行うためにユーザＡを誘う単語が登録されている。具体的には、ロボットＲＢの実行契機となる単語としては、「ニンジン」、「お片付け」、「トイレ」、「寝かしつけ」、及び「歯磨き」の各コンテンツに対して、「好き」、「一緒に」、「どこ」、「一緒に」、及び「一緒に」が登録されている。

例えば、「ニンジン」コンテンツについては、ロボットＲＢの実行契機となる単語として「好き」が登録されている。これは、子供であるユーザＡが食卓に並べられたニンジンを見て「ニンジン嫌い」と発話し、ロボットＲＡが「ニンジン食べようよ」と発話し、ロボットＲＢが「ニンジン好き」と発話するような場面において、ロボット１に「ニンジン」コンテンツを実行させるためである。

また、「お片付け」コンテンツについては、ロボットＲＢの実行契機となる単語として「一緒に」が登録されている。これは、例えば、ロボットＲＡが「お片付けしましょうね」と発話し、その発話に対して子供であるユーザＡが「お片付け嫌だ」と発話し、ロボットＲＢが「一緒にお片付けしよう」と発話した場面において、「お片付け」コンテンツをロボット１に実行させるためである。

この変形例が採用される場合、発話者登録テーブルＴ１には、母親であるユーザＢに代えて、ロボットＲＡ及びロボットＲＢの声紋がロボット名と関連付けて登録される。発話者判断部２０２は、発話者登録テーブルＴ１を参照し、ロボットＲＡ及びロボットＲＢのそれぞれについても発話者を判断する処理を実行する。

音声認識部２０３は、ロボットＲＡ及びロボットＲＢのそれぞれの音声データを文字列に変換する。登録用語有無判断部２０４は、ロボットＲＡ及びロボットＲＢのそれぞれの発話を示す文字列に、実行契機テーブルＴ２’に登録されている単語が含まれているか否かを判断する。タイムスタンプ更新部２０５は、登録用語有無判断部２０４により、ロボットＲＡ及びロボットＲＢの発話を示す文字列に実行契機テーブルＴ２’に登録されている単語が含まれていると判断された場合、実行契機テーブルＴ２’の該当する単語に対応する発話時刻を現在時刻で更新する。

コンテンツ実行部２０６は、発話時刻が更新された単語を単語Ｗ１、実行契機テーブルＴ２’に登録された単語Ｗ１に対応する２つの単語を単語Ｗ２及び単語Ｗ３とすると、単語Ｗ２及び単語Ｗ３のうち発話時刻が遅い方の単語（ここでは、単語Ｗ２とする）の発話時刻ｔ２と単語Ｗ１の発話時刻ｔ１との時間差ΔＴ１が所定時間以内の場合、単語Ｗ１に対応するコンテンツを実行すればよい。

或いは、コンテンツ実行部２０６は、単語Ｗ１の発話時刻ｔ１及び単語Ｗ２の発話時刻ｔ２の時間差ΔＴ１が所定時間以内であり、且つ、単語Ｗ２の発話時刻ｔ２及び単語Ｗ３の発話時刻ｔ３の時間差ΔＴ２が所定時間以内の場合、単語Ｗ１に対応するコンテンツを実行してもよい。

なお、図５に示す実行契機テーブルＴ２’においては、子供に対して友人又は兄弟としての役割を担うロボットＲＢについての実行契機となる単語は省かれていても良い。

この場合、コンテンツ実行部２０６は、ユーザＡとロボットＲＡとの対話からコンテンツの実行の有無を判断することになる。

なお、変形例１において、ロボットＲＡ及びＲＢは、図１、図６に示すロボット１と同じ構成が適用可能である。この場合、音声入力部１０１がマイクの一例に相当し、図６に示すスピーカ３０１Ａがスピーカの一例に相当し、行動実行部２００がプロセッサ及びメモリの一例に相当する。

（変形例２）
上記実施の形態では、ユーザＡとして子供が採用されているが、大人が採用されてもよい。例えば、ユーザＢが同居している老人又は夫に生活習慣を身につけさせようと考える場面がある。このような場面において、本開示は適用可能である。

（変形例３）
上記変形例１では、ユーザＡとして子供が採用されているが、大人が採用されてもよい。例えば、今後の社会では、ユーザＡを介護する介護者の役割を担うロボットＲＡが介護者に代行して被介護者であるユーザＡに生活習慣を身につけさせる場面も想定される。これらの場面において、本開示は適用可能である。

（変形例４）
上記実施の形態及び変形例１においてユーザＡとして子供が採用されているが、幼児が採用されてもよい。ここで、幼児とは、例えば、言語獲得段階にいる未就学児が該当する。

（変形例５）
実施の形態１では、ユーザＢとして母親が採用されているが、子供であるユーザＡの保護者が採用されてもよい。保護者としては、ユーザＢの父親又は祖父母が該当する。

（変形例６）
本開示は、図１に示すロボットに適用されているが、これは一例でありロボットを含む装置一般に適用されてもよい。装置としては、例えば、テレビ、又はオーディオ機器等の家電機器を含む。

（変形例７）
実施の形態１では、ロボットとして図６に示すロボット１が採用されたが、本開示はこれに限定されず、他のロボットに適用されてもよい。

本開示によれば、コンテンツの実行指示を知られたくなく、ロボットが自律的に判断して行動をしたと思わせる点で有用である。

１ロボット
１００センサ入力部
１０１音声入力部
１０２マイク
２００行動実行部
２０１音声入力検知部
２０２発話者判断部
２０３音声認識部
２０４登録用語有無判断部
２０５タイムスタンプ更新部
２０６コンテンツ実行部
２０７制御命令生成部
２０８メモリ
３００出力部
３０１音声出力部
３０１Ａスピーカ
Ｔ１発話者登録テーブル
Ｔ２，Ｔ２' 実行契機テーブル

Claims

複数のユーザとコミュニケーションする装置であって、
前記装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備え、
前記プロセッサは、
前記音に、第１ユーザの音声が含まれているか判断し、
前記音に、前記第１ユーザの音声が含まれていると判断された場合は、前記音声に前記メモリに記憶された前記第１ユーザに対応する第１単語が含まれているか判断し、前記メモリは、少なくとも、前記複数のユーザと前記複数のユーザに対応する単語と前記複数のユーザに対応する単語が最後に発話された時刻とを対応付け、
前記音声に前記第１単語が含まれていると判断された場合は、前記第１単語が前記第１ユーザに最後に発話された第１時刻と、前記メモリにおいて前記第１単語に対応する第２単語が第２ユーザに最後に発話された第２時刻との差が所定時間以内か判断し、前記第１時刻は現在時刻であり、前記第２ユーザは前記第１ユーザとは異なり、前記第１単語と前記第２単語は、同じコンテンツに対応し、
前記第１時刻と前記第２時刻との差が前記所定時間以内であると判断された場合は、前記スピーカに、前記コンテンツに対応する音声を出力させる、
装置。
前記プロセッサは、更に、
前記音声に前記第１単語が含まれていると判断された場合は、前記メモリにおいて、前記第１単語が前記第１ユーザに発話された時刻を前記第１時刻に更新する、
請求項１記載の装置。
前記第１ユーザは、前記第２ユーザの保護者である、
請求項１記載の装置。
前記第１ユーザは、前記装置とは異なる他の装置であり、
前記第２ユーザは、幼児であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備える、
請求項１記載の装置。
前記第２ユーザは、前記第１ユーザの保護者である、
請求項１記載の装置。
前記第１ユーザは、幼児であり、
前記第２ユーザは、前記装置とは異なる他の装置であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備える、
請求項１記載の装置。
前記第１ユーザは、大人であり、
前記第２ユーザは、前記装置とは異なる他の装置であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備える、
請求項１記載の装置。
前記第１ユーザは、前記装置とは異なる他の装置であり、
前記第２ユーザは、大人であり、
前記他の装置は、
前記他の装置周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備える、
請求項１記載の装置。
前記コンテンツは、幼児に生活習慣を身につけさせるためのコンテンツである、
請求項１記載の装置。
前記第１単語は、拒絶の意味、もしくは、否定語を含む、
請求項５または６に記載の装置。
前記第１単語は、前記コンテンツに対応する所定の単語を含む、
請求項３、４、７、及び８のいずれかに記載の装置。
複数のユーザとコミュニケーションするロボットであって、
前記ロボット周辺の音を取得するマイクと、
スピーカと、
メモリと、
プロセッサと、を備え、
前記プロセッサは、
前記音に、第１ユーザの音声が含まれているか判断し、
前記音に、前記第１ユーザの音声が含まれていると判断された場合は、前記音声に前記メモリに記憶された前記第１ユーザに対応する第１単語が含まれているか判断し、前記メモリは、少なくとも、前記複数のユーザと前記複数のユーザに対応する単語と前記複数のユーザに対応する単語が最後に発話された時刻とを対応付け、
前記音声に前記第１単語が含まれていると判断された場合は、前記第１単語が前記第１ユーザに最後に発話された第１時刻と、前記メモリにおいて前記第１単語に対応する第２単語が第２ユーザに最後に発話された第２時刻との差が所定時間以内か判断し、前記第１時刻は現在時刻であり、前記第２ユーザは前記第１ユーザとは異なり、前記第１単語と前記第２単語は、同じコンテンツに対応し、
前記第１時刻と前記第２時刻との差が前記所定時間以内であると判断された場合は、前記スピーカに、前記コンテンツに対応する音声を出力させる、
ロボット。
複数のユーザとコミュニケーションする装置における方法であって、
前記装置は、前記装置周辺の音を取得するマイクと、スピーカと、メモリと、プロセッサと、を備え、
前記音に、第１ユーザの音声が含まれているか判断し、
前記音に、前記第１ユーザの音声が含まれていると判断された場合は、前記音声に前記メモリに記憶された前記第１ユーザに対応する第１単語が含まれているか判断し、前記メモリは、少なくとも、前記複数のユーザと前記複数のユーザに対応する単語と前記複数のユーザに対応する単語が最後に発話された時刻とを対応付け、
前記音声に前記第１単語が含まれていると判断された場合は、前記第１単語が前記第１ユーザに最後に発話された第１時刻と、前記メモリにおいて前記第１単語に対応する第２単語が第２ユーザに最後に発話された第２時刻との差が所定時間以内か判断し、前記第１時刻は現在時刻であり、前記第２ユーザは前記第１ユーザとは異なり、前記第１単語と前記第２単語は、同じコンテンツに対応し、
前記第１時刻と前記第２時刻との差が前記所定時間以内であると判断された場合は、前記スピーカに、前記コンテンツに対応する音声を出力させる、
方法。
請求項１３記載の方法をコンピュータに実行させるためのプログラム。