WO2020230784A1

WO2020230784A1 - 制御装置、ロボット、制御方法及び制御プログラム

Info

Publication number: WO2020230784A1
Application number: PCT/JP2020/018975
Authority: WO
Inventors: 学永尾; 厚太鍋嶌
Original assignee: 株式会社ＰｒｅｆｅｒｒｅｄＮｅｔｗｏｒｋｓ
Priority date: 2019-05-13
Filing date: 2020-05-12
Publication date: 2020-11-19
Also published as: JP2020185630A

Abstract

ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させる。ロボットの制御装置は、少なくとも１つのメモリと、少なくとも１つのプロセッサと、を備え、前記少なくとも１つのプロセッサは、取得した画像データに基づいて、ユーザの***動作を検出することと、取得した音データから、音声データを検出することと、前記ユーザの***動作を検出した場合であって、前記音声データを検出しなかった場合に、音源が発する音を低減させるよう指示することとを実行するよう構成される。

Description

制御装置、ロボット、制御方法及び制御プログラム

　本開示は、制御装置、ロボット、制御方法及び制御プログラムに関する。

　従来より、ユーザの音声指示に基づいて動作するロボットが知られている。一例として、ユーザが発話した際に、マイクを適切な位置に移動させることで、ユーザの音声を適切な音圧で検出するロボットが挙げられる。

　しかしながら、このようなロボットであっても、例えば、ユーザの音声以外の音（ロボット自身が発する音や周囲の音）が大きい場合には、ユーザの音声を検出できないことがある。

特開２００８－１２６３２９号公報

　本開示は、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることを目的とする。

　本開示の一態様による制御装置は、例えば、以下のような構成を有する。即ち、
　取得した画像データに基づいて、ユーザの***動作を検出する***動作検出部と、
　取得した音データから、音声データを検出する音声検出部と、
　前記***動作検出部が前記ユーザの***動作を検出した場合であって、前記音声検出部が音声データを検出しなかった場合に、音源が発する音を低減させるよう指示する指示部とを有する。

図１は、ロボットの外観構成の一例を示す図である。図２は、制御装置のハードウェア構成の一例を示す第１の図である。図３は、制御装置の機能構成の一例を示す第１の図である。図４は、制御装置による動作制御処理の流れを示す第１のフローチャートである。図５は、制御装置の機能構成の一例を示す第２の図である。図６は、制御装置による動作制御処理の流れを示す第２のフローチャートである。図７は、ロボットの制御装置の機能構成の一例を示す第３の図である。図８は、制御装置による動作制御処理の流れを示す第３のフローチャートである。図９は、ロボットの作業環境の一例を示す第１の図である。図１０は、制御装置のハードウェア構成の一例を示す第２の図である。図１１は、ロボットの作業環境の一例を示す第２の図である。図１２は、ロボットの作業環境の一例を示す第３の図である。図１３は、制御装置の機能構成の一例を示す第４の図である。図１４は、制御装置による動作制御処理の流れを示す第４のフローチャートである。

　以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

　［第１の実施形態］
　＜ロボットの外観構成＞
　はじめに、本実施形態に係る制御装置の制御対象であるロボットの外観構成について説明する。図１は、ロボットの外観構成の一例を示す図である。

　ロボット１０は、ユーザの音声指示に基づいて動作する。図１に示すように、ロボット１０は、カメラ１１０と、マイクロフォン１２０と、スピーカ１３０、１３１と、可動部１４０、１５０（複数の関節、エンドエフェクタ）と、可動部１６０（移動機構）とを有する。また、ロボット１０は、制御装置１００を内蔵する。ただし、制御装置１００は、ロボット１０に内蔵させずに、別のコンピュータで実現してもよい。その場合、別のコンピュータは、通信によりロボット１０との間で情報の送受信を行う。

　カメラ１１０は撮像装置（撮像部）の一例であり、ロボット１０の周囲を撮影し、画像データを生成する。なお、図１の例では、カメラ１１０が２つの撮像素子を有する場合について示しているが、撮像素子は２つに限定されない。また、図１の例は、カメラ１１０がロボット１０に搭載される場合について示しているが、カメラ１１０は、ロボット１０とは別体に配されていてもよい。

　マイクロフォン１２０は集音装置（集音部）の一例であり、空気などを伝播してくる音を検出し、音データを生成する。マイクロフォン１２０が検出する音には、ロボット１０の周囲の環境音のほか、ロボット１０自身が発する音、ロボット１０のユーザが発する音声等が含まれる。なお、図１の例では、１つのマイクロフォン１２０のみを示したが、ロボット１０は、複数のマイクロフォンを有していてもよい。

　スピーカ１３０、１３１は音声出力装置の一例であり、制御装置１００において生成された音声信号に基づく合成音声等を出力する。

　可動部１４０、１５０は、ロボット１０が行う各種作業（例えば、ユーザとコミュニケーションをとりながら、物体を把持し、把持した状態で移動することで、当該物体を目的の場所まで運ぶ作業等）において、把持動作等を実行する。可動部１４０、１５０に含まれる複数の関節及びエンドエフェクタは、それぞれ、アクチュエータを備える。

　可動部１６０は、ロボット１０が行う各種作業において、移動動作等を実行する。可動部１６０に含まれる移動機構は、車輪、モータ、ギア、ベルト、アクチュエータ等を備える。

　制御装置１００は、カメラ１１０やマイクロフォン１２０の動作、スピーカ１３０、１３１の出力、可動部１４０、１５０のアクチュエータ等の動作、可動部１６０のモータ、アクチュエータ等の動作を制御する制御部１０２を有する。制御部１０２は、ユーザとコミュニケーションをとりながら、ロボット１０に把持動作や移動動作等を実行させる。

　また、制御装置１００は、制御部１０２に対して音源制御命令を出力する停止部１０１を有する。停止部１０１は、ロボット１０により各種作業が行われている最中に、スピーカ１３０、１３１や可動部１４０～１６０が発する音（ロボット１０自身が発する音）が原因でユーザの音声を検出できない場合に、制御部１０２に音源制御命令を出力する。なお、停止部１０１では、ロボット１０により各種作業が行われているか否かを、作業中フラグに基づいて判定する。

　これにより、制御部１０２では、例えば、音源であるスピーカ１３０、１３１の出力や可動部１４０～１６０のアクチュエータ、モータ等の動作を制御し、ユーザの音声が検出しやすい状態を作り出す。この結果、ユーザの音声指示に基づいて動作するロボット１０において、音声検出率を向上させることができる。

　＜制御装置のハードウェア構成＞
　次に、ロボット１０に内蔵される制御装置１００のハードウェア構成について説明する。図２は、制御装置のハードウェア構成の一例を示す第１の図である。

　図２に示すように、制御装置１００は、プロセッサ２０１と、主記憶装置２０２と、補助記憶装置２０３と、デバイスインタフェース２０４と、通信装置２０５とを備え、これらの各構成要素がバス２１０を介して接続されたコンピュータとして実現される。

　なお、図２の例では、制御装置１００は、各構成要素を１個ずつ備えているが、同じ構成要素を複数個ずつ備えていてもよい。また、図２の例では、１台の制御装置が示されているが、複数台の制御装置を配し、ソフトウェア（例えば、後述する制御プログラム）が当該複数台の制御装置にインストールされて、各制御装置がソフトウェアの異なる一部の処理を実行するように構成してもよい。この場合、複数の制御装置それぞれがネットワークインタフェース等を介して、相互に通信してもよい。

　プロセッサ２０１は、演算装置を含む電子回路（処理回路、Processing circuit、Processing circuitry）である。プロセッサ２０１は、制御装置１００内の各構成要素などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各構成要素などに出力する。具体的には、プロセッサ２０１は、ＯＳ（Operating System）やアプリケーションなどを実行することにより、制御装置１００内の各構成要素を制御する。なお、プロセッサ２０１は、上記のような処理を行うことができれば特定の処理回路に限られるものではない。ここで、処理回路とは、１チップ上に配置された１又は複数の電子回路を指してもよいし、２つ以上のチップあるいはデバイス上に配置された１又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線または無線により通信してもよい。

　主記憶装置２０２は、プロセッサ２０１が実行する命令およびデータなどの電子情報を記憶する記憶装置である。主記憶装置２０２に記憶された電子情報はプロセッサ２０１により直接読み出される。補助記憶装置２０３は、主記憶装置２０２以外の記憶装置である。なお、これらの記憶装置は、電子情報を記憶可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれであってもよい。制御装置１００内において電子情報を保存するためのメモリは、主記憶装置２０２または補助記憶装置２０３により実現されてもよい。

　デバイスインタフェース２０４は、ロボット１０が有するカメラ１１０、マイクロフォン１２０、スピーカ１３０、１３１、可動部１４０～１６０と接続するＵＳＢ（Universal Serial Bus）などのインタフェースである。

　通信装置２０５は、ロボット１０の外部の各種機器と通信を行う通信デバイスである。ロボット１０は、通信装置２０５を介して、ロボット１０の外部の各種機器に命令を送信し、外部の各種機器を制御する。

　＜制御装置の機能構成＞
　次に、ロボット１０に内蔵される制御装置１００の機能構成について説明する。上述したとおり、制御装置１００には制御プログラムがインストールされており、プロセッサ２０１が、当該プログラムを実行することで、制御装置１００は、停止部１０１及び制御部１０２として機能する。なお、制御装置１００が実現するこれらの構成のうち、ここでは、主に停止部１０１の機能について説明する。

　図３は、制御装置の機能構成の一例を示す第１の図である。図３に示すように、停止部１０１は、音取得部３０１、音声検出部３０２、画像取得部３０３、顔検出部３０４、***動作検出部３０５、判定部３０６を有する。停止部１０１は、ロボット１０が各種作業中であることを示す作業中フラグを制御部１０２から受信している間、各部が機能する。

　音取得部３０１は、マイクロフォン１２０により生成された音データを取得し、音声検出部３０２に出力する。

　音声検出部３０２は、音取得部３０１により出力された音データを受け取り、受け取った音データに音声データが含まれるか否かを判定する。また、音声検出部３０２は、受け取った音データに音声データが含まれると判定した場合、音声データを検出し、検出した音声データを判定部３０６に出力する。

　画像取得部３０３は、カメラ１１０により出力された画像データを取得し、顔検出部３０４に出力する。

　顔検出部３０４は、画像取得部３０３により出力された画像データを受け取り、カメラ１１０の方向を向いたユーザの顔を検出し、検出した顔の画像（顔画像データ）を切り出す。また、顔検出部３０４は、切り出した顔画像データを***動作検出部３０５に出力する。

　***動作検出部３０５は、顔画像データに含まれる***領域から、ユーザの***動作を検出する。また、***動作検出部３０５は、***動作の検出結果を判定部３０６に出力する。

　判定部３０６は指示部の一例である。音声検出部３０２により音声データが検出されたか否か、及び、***動作検出部３０５より***動作の検出結果が出力されたか否かを判定する。また、判定部３０６は、***動作検出部３０５より***動作の検出結果が出力されたにも関わらず、音声検出部３０２により音声データが検出されていない場合に、制御部１０２に対して、音源制御命令を出力することで、音源が発する音を低減させるよう指示する。

　なお、判定部３０６は、***動作検出部３０５より***動作の検出結果が出力され、音声検出部３０２により音声データが検出された場合には、制御部１０２に対して、検出された音声データを出力する。

　制御部１０２は、判定部３０６により出力された音源制御命令を受け取ると、スピーカ１３０、１３１や可動部１４０～１６０等に動作停止信号を出力する。そして、音源であるスピーカ１３０、１３１の出力や可動部１４０～１６０のアクチュエータ、モータ等の動作を制御する。これにより、制御部１０２は、音声データの検出を妨げる音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。

　一方、制御部１０２は、判定部３０６により出力された音声データを受け取ると、受け取った音声データに基づいて、ユーザの音声指示を認識する。また、制御部１０２は、認識した音声指示に基づいて、カメラ１１０、マイクロフォン１２０、スピーカ１３０、１３１、可動部１４０～１６０等に動作信号を出力する。そして、カメラ１１０やマイクロフォン１２０の動作、スピーカ１３０、１３１の出力、可動部１４０～１６０のアクチュエータ、モータ等の動作を制御する。これにより、制御部１０２は、ユーザの音声指示に基づいて、カメラ１１０やマイクロフォン１２０の動作、スピーカ１３０、１３１の出力、可動部１４０～１６０等の動作を制御することができる。

　＜動作制御処理の流れ＞
　次に、制御装置１００による動作制御処理の流れについて説明する。図４は、制御装置による動作制御処理の流れを示す第１のフローチャートである。

　ステップＳ４０１において、停止部１０１は、ロボット１０が作業中であるか否かを判定する。制御部１０２から作業中フラグを受信していない場合、停止部１０１は、ロボット１０が作業中でないと判定し（ステップＳ４０１においてＮＯと判定し）、動作制御処理を終了する。

　一方、制御部１０２から作業中フラグを受信している場合、停止部１０１は、ロボット１０が作業中であると判定し（ステップＳ４０１においてＹＥＳと判定し）、ステップＳ４０２に進む。

　ステップＳ４０２において、画像取得部３０３は、カメラ１１０から画像データを取得する。

　ステップＳ４０３において、顔検出部３０４は、取得された画像データから、カメラ１１０の方向を向いたユーザの顔を検出したか否かを判定する。ステップＳ４０３において、ユーザの顔を検出しなかった場合には（ステップＳ４０３においてＮＯの場合には）、ステップＳ４０１に戻る。

　一方、ステップＳ４０３において、ユーザの顔を検出した場合には（ステップＳ４０３においてＹＥＳの場合）、顔検出部３０４は、顔画像データを切り出し、ステップＳ４０４に進む。

　ステップＳ４０４において、***動作検出部３０５は、切り出された顔画像データに基づいて***動作を検出したか否かを判定する。ステップＳ４０４において、***動作を検出しなかった場合には（ステップＳ４０４においてＮＯの場合には）、ステップＳ４０１に戻る。

　一方、ステップＳ４０４において、***動作を検出した場合には（ステップＳ４０４においてＹＥＳの場合には）、ステップＳ４０５に進む。

　なお、ステップＳ４０３において、ユーザの顔を複数検出した場合には、***動作検出部３０５は、ステップＳ４０４の処理を、検出された顔の数に応じた回数だけ繰り返し実行する。また、ステップＳ４０４において、***動作を１つでも検出した場合には、ステップＳ４０５に進む。

　ステップＳ４０５において、音取得部３０１は、マイクロフォン１２０から音データを取得する。

　ステップＳ４０６において、音声検出部３０２は、取得された音データに音声データが含まれるか否かを判定する。ステップＳ４０６において、取得された音データに音声データが含まれると判定された場合、音声検出部３０２は、音声データを検出する（ステップＳ４０６においてＹＥＳ）。また、判定部３０６は、検出された音声データを制御部１０２に出力した後、ステップＳ４０１に戻る。

　この場合、制御部１０２では、検出された音声データに基づいて、ユーザの音声指示を認識し、認識した音声指示に基づく動作信号を、カメラ１１０、マイクロフォン１２０、スピーカ１３０、１３１、可動部１４０～１６０等に出力する。そして、カメラ１１０やマイクロフォン１２０の動作、スピーカ１３０、１３１の出力、可動部１４０～１６０等の動作を制御する。これにより、制御部１０２は、カメラ１１０やマイクロフォン１２０の動作、スピーカ１３０、１３１の出力、可動部１４０～１６０のアクチュエータ、モータ等の動作を、ユーザの音声指示に基づいて制御することができる。

　一方、ステップＳ４０６において、取得された音データに音声データが含まれないと判定された場合、音声検出部３０２は、音声データを検出しないため（ステップＳ４０６においてＮＯ）、ステップＳ４０７に進む。

　ステップＳ４０７において、判定部３０６は、音源制御命令を制御部１０２に出力する。また、制御部１０２は、動作停止信号を、スピーカ１３０、１３１や可動部１４０～１６０等に出力する。そして、音源であるスピーカ１３０、１３１の出力や可動部１４０～１６０等の動作を制御する。具体的には、制御部１０２は、ユーザの音声指示に対する反応以外の合成音声をスピーカ１３０、１３１から出力するのを停止させる、あるいは、スピーカ１３０、１３１から音楽を出力するのを停止させる、あるいは、可動部１４０～１６０等の動作を停止させる。

　なお、図４の例では、ステップＳ４０２からステップＳ４０６までの処理を、順に実行する場合について示したが、ステップＳ４０２からステップＳ４０４までの処理と、ステップＳ４０５からステップＳ４０６までの処理とは、並行して実行されてもよい。

　その場合、判定部３０６がステップＳ４０７の処理を実行する前に同期処理を行い、***動作を検出した場合であって、かつ、音声データを検出しなかった場合にのみ、判定部３０６がステップＳ４０７の処理を実行するように構成する。

　また、図４の例では、ステップＳ４０６において、音声データを検出した場合、ステップＳ４０１に戻るものとして説明した。しかしながら、音声データを検出した場合であっても、制御部１０２が、当該音声データから音声指示を認識できない、または、その確信度が低い（例えば、所定の閾値以下）と判定した場合には、音声データが検出されなかった場合と同様な制御を行ってもよい。この場合、判定部４０６は、ステップＳ４０７に進み、音源制御命令を出力するように構成してもよい。

　このように構成することで、制御部１０２は、
・音データからの音声データの検出状況、または
・検出した音声データの認識状況（例えば、音声認識のスコア（尤度情報））、
に基づいて、動作停止信号を出力することが可能となる。

　また、図４の例では、ステップＳ４０７において判定部３０６が音源制御命令を出力した際、制御部１０２が、スピーカ１３０、１３１や可動部１４０～１６０等に動作停止信号を出力するものとして説明した。しかしながら、制御部１０２は、スピーカ１３０、１３１に音量を下げるための信号を出力したり、可動部１４０～１６０等に可動部１４０～１６０等の動作速度を落とすための減速信号を出力してもよい。これにより、制御部１０２は、スピーカ１３０、１３１の音量を下げたり、可動部１４０～１６０等の動作を減速させることができる。

　また、図４の例では省略したが、顔画像データに基づいて***動作を検出しなかった場合であっても、音声検出部３０２が音声データを検出した場合には、判定部３０６は、検出された音声データを制御部１０２に出力するように構成してもよい。

　＜まとめ＞
　以上の説明から明らかなように、第１の実施形態に係る制御装置１００は、
・取得した画像データに基づいて、ユーザの***動作を検出する。
・取得した音データから音声データを検出する。
・ユーザの***動作を検出した場合であって、音声データを検出しなかった場合、動作停止信号（または音量を下げるための信号、減速信号）を出力する。あるいは、
・ユーザの***動作を検出し、かつ、音声データを検出した場合であって、音声データを認識した際の尤度情報が所定の閾値以下であった場合、動作停止信号（または音量を下げるための信号、減速信号）を出力する。
・そして、スピーカの出力や可動部等の動作を制御する（またはスピーカの出力を停止させる、音量を下げる、可動部等の動作を停止させる、減速させる）ことで、音源であるスピーカや可動部が発する音を低減させる。

　これにより、第１の実施形態に係る制御装置１００では、音声データを検出しやすい状態を作り出すことができる。この結果、第１の実施形態に係る制御装置１００によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。

　［第２の実施形態］
　上記第１の実施形態では、制御装置１００が、動作制御処理として、音声データを検出しやすい状態を作り出す処理を実行したが、第２の実施形態では、更に、制御装置１００が、当該状態のもとで音声指示の発話を促す処理を実行する。以下、第２の実施形態について、上記第１の実施形態との相違点を中心に説明する。

　＜制御装置の機能構成＞
　はじめに、第２の実施形態に係る制御装置１００の機能構成について説明する。図５は、制御装置の機能構成の一例を示す第２の図である。図３に示した機能構成との相違点は、判定部５００の機能及び制御部５１０の機能が、図３の判定部３０６の機能及び制御部１０２の機能とは異なる点である。

　判定部５００は指示部の一例であり、音声検出部３０２により音声データが検出されたか否か、及び、***動作検出部３０５より***動作の検出結果が出力されたか否かを判定する。また、判定部５００は、***動作検出部３０５より***動作の検出結果が出力されたにも関わらず、音声検出部３０２により音声データが検出されていない場合に、制御部５１０に対して、音源制御命令と再発声指示とを出力する。これにより、判定部５００は、音源が発する音を低減させるよう指示するとともに、音声指示の発話を促すよう指示する。

　なお、判定部５００は、図３の判定部３０６同様、***動作検出部３０５より***動作の検出結果が出力され、音声検出部３０２により音声データが検出された場合には、制御部５１０に対して、音声データを出力する。

　制御部５１０は、判定部５００により出力された音源制御命令を受け取ると、スピーカ１３０、１３１や可動部１４０～１６０等に動作停止信号を出力する。そして、音源であるスピーカ１３０、１３１や可動部１４０～１６０のアクチュエータ、モータ等の動作を停止させる。これにより、制御部５１０は、音声データの検出を妨げる音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。

　また、制御部５１０は、判定部５００により出力された再発声指示を受け取ると、音声指示の発話を促す音声出力信号を生成し、生成した音声出力信号に基づく合成音声を、スピーカ１３０、１３１を介して出力する。音声指示の発話を促す音声出力信号とは、例えば、「もう一度話してください」といった合成音声を出力するための音声出力信号である。これにより、制御部５１０は、音声データを検出しやすい状態のもとで、ユーザに音声指示の発話を促すことができる。

　＜動作制御処理の流れ＞
　次に、第２の実施形態に係る制御装置１００による動作制御処理の流れについて説明する。図６は、制御装置による動作制御処理の流れを示す第２のフローチャートである。図４に示すフローチャートとの相違点は、ステップＳ６０１である。

　ステップＳ６０１において、制御部５１０は、音声指示の発話を促す音声出力信号を生成し、生成した音声出力信号に基づく合成音声を、スピーカ１３０、１３１を介して出力する。

　＜まとめ＞
　以上の説明から明らかなように、第２の実施形態に係る制御装置１００は、上記第１の実施形態に係る制御装置１００の構成に加えて、更に、音声指示の発話を促す構成を有する。

　これにより、第２の実施形態に係る制御装置１００では、音声データを検出しやすい状態のもとで、ユーザの音声指示を受け取ることができる。この結果、第２の実施形態に係る制御装置１００によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。

　［第３の実施形態］
　上記第１の実施形態では、制御装置１００が、動作制御処理として、音声データを検出しやすい状態を作り出す処理を実行したが、第３の実施形態では、更に、制御装置１００が、当該状態のもとでユーザの音声指示の有無を判定する。以下、第３の実施形態について、上記第１の実施形態との相違点を中心に説明する。

　＜制御装置の機能構成＞
　はじめに、第３の実施形態に係る制御装置１００の機能構成について説明する。図７は、制御装置の機能構成の一例を示す第３の図である。図３に示した機能構成との相違点は、判定部７００の機能及び制御部７１０の機能が、図３の判定部３０６の機能及び制御部１０２の機能とは異なる点である。

　判定部７００は指示部の一例であり、音声検出部３０２により音声データが検出されたか否か、及び、***動作検出部３０５より***動作の検出結果が出力されたか否かを判定する。また、判定部７００は、***動作検出部３０５より***動作の検出結果が出力されたにも関わらず、音声検出部３０２により音声データが検出されていない場合に、制御部７１０に対して、音源制御命令を出力する。これにより、判定部７００は、音源が発する音を低減させるよう指示する。

　更に、判定部７００は、音源制御命令を出力した後の所定時間の間に、音声検出部３０２により音声データが検出されなかった場合に、制御部７１０に動作再開指示を出力することで、音源制御命令を出力する前の動作を再開するよう指示する。また、判定部７００は、音源制御命令を出力した後の所定時間の間に、音声検出部３０２により音声データが検出された場合に、制御部７１０に音声データを出力する。

　なお、判定部７００は、図３の判定部３０６同様、***動作検出部３０５より***動作の検出結果が出力され、音声検出部３０２により音声データが検出された場合、制御部７１０に対して、音声データを出力する。

　制御部７１０は、判定部７００により出力された音源制御命令を受け取ると、スピーカ１３０、１３１や可動部１４０～１６０等に動作停止信号を出力する。そして、音源であるスピーカ１３０、１３１の出力や可動部１４０～１６０のアクチュエータ、モータ等の動作を停止させる。これにより、制御部７１０は、音声データの検出を妨げる音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。

　また、制御部７１０は、スピーカ１３０、１３１や可動部１４０～１６０等に動作停止信号を出力した後の所定時間の間に検出された音声データを受け取ると、受け取った音声データに基づいて、ユーザの音声指示を認識する。また、制御部７１０は、認識した音声指示に応じた動作信号を出力することで、カメラ１１０やマイクロフォン１２０の動作、スピーカ１３０、１３１の出力、可動部１４０～１６０のアクチュエータ、モータ等の動作を制御する。これにより、制御部７１０は、音源制御命令を受け取る前の状態の如何によらず、受け取った後のユーザの音声指示に基づいて、カメラ１１０やマイクロフォン１２０の動作、スピーカ１３０、１３１の出力、可動部１４０～１６０等の動作を制御することができる。

　また、制御部７１０は、判定部７００により出力された動作再開指示を受け取ると、音源制御命令を受け取る前のスピーカ１３０、１３１の出力、可動部１４０～１６０等の動作を再開するよう、動作信号を出力する。これにより、制御部７１０は、音源制御命令を受け取る前のスピーカ１３０、１３１の出力、可動部１４０～１６０等の動作を再開させることができる。

　＜動作制御処理の流れ＞
　次に、第３の実施形態に係る制御装置１００による動作制御処理の流れについて説明する。図８は、制御装置による動作制御処理の流れを示す第３のフローチャートである。図４に示すフローチャートとの相違点は、ステップＳ８０１～Ｓ８０４である。

　ステップＳ８０１において、音声検出部３０２は、音声データを検出したか否かを判定する。ステップＳ８０１において、音声データを検出したと判定した場合には（ステップＳ８０１においてＹＥＳの場合には）、ステップＳ８０２に進む。

　ステップＳ８０２において、判定部７００は、音声検出部３０２により検出された音声データを制御部７１０に出力する。制御部７１０は、判定部７００により出力された音声データに基づいて、ユーザの音声指示を認識し、認識した音声指示に応じた動作信号を、カメラ１１０、マイクロフォン１２０、スピーカ１３０、１３１、可動部１４０～１６０等に出力する。そして、カメラ１１０やマイクロフォン１２０の動作、スピーカ１３０、１３１の出力、可動部１４０～１６０等の動作を制御する。

　一方、ステップＳ８０１において、音声データを検出していない場合には（ステップＳ８０１においてＮＯの場合には）、ステップＳ８０３に進む。

　ステップＳ８０３において、判定部７００は、ステップＳ４０７において、制御部７１０がスピーカ１３０、１３１の出力、可動部１４０～１６０等の動作を停止させてから、所定時間が経過したか否かを判定する。ステップＳ８０３において、所定時間が経過していないと判定した場合には（ステップＳ８０３においてＮＯの場合には）、ステップＳ８０１に戻る。

　一方、ステップＳ８０３において、所定時間が経過したと判定した場合には（ステップＳ８０３においてＹＥＳの場合には）、ステップＳ８０４に進む。

　ステップＳ８０４において、判定部７００は、制御部７１０に動作再開指示を出力する。また、制御部７１０は、音源制御命令を受け取る前のスピーカ１３０、１３１の出力、可動部１４０～１６０等の動作を再開するよう、動作信号を出力する。これにより、制御部７１０は、音源制御命令を受け取る前のスピーカ１３０、１３１の出力、可動部１４０～１６０等の動作を再開させることができる。

　＜まとめ＞
　以上の説明から明らかなように、第３の実施形態に係る制御装置１００は、上記第１の実施形態に係る制御装置１００の構成に加えて、更に、
・音声データを検出しやすい状態のもとで音声指示を受け取った場合に、当該音声指示に基づいて、カメラやマイクロフォンの動作、スピーカの出力、可動部等の動作を制御する。
・音声データを検出しやすい状態のもとで音声指示を受け取らなかった場合に、音声データを検出しやすい状態を作り出す前のスピーカの出力、可動部等の動作を再開させる。

　このように、音声データを検出しやすい状態のもとで、ユーザの音声指示の有無を判定することで、第３の実施形態に係る制御装置１００では、ユーザが音声指示を行ったか否かを正しく判定することができる。この結果、第３の実施形態に係る制御装置１００によれば、ユーザの意図に反してロボットが動作するといった事態を回避することができる。

　［第４の実施形態］
　上記第１乃至第３の実施形態では、カメラ１１０をロボット１０に配するものとして説明した。しかしながら、カメラ１１０はロボット１０以外に配してもよい。あるいは、カメラ１１０をロボット１０に配したうえで、更に、カメラ１１０以外のカメラを、ロボット１０以外に配してもよい。以下、第４の実施形態について、上記第１の実施形態との相違点を中心に説明する。

　＜ロボットの作業環境＞
　はじめに、第４の実施形態に係るロボット１０の作業環境について説明する。図９は、ロボットの作業環境の一例を示す第１の図である。図９に示すように、ロボット１０が各種作業を行う居室９００には、カメラ９００＿１、９００＿２が取り付けられており、ロボット１０のユーザ（不図示）を撮影する。また、カメラ９００＿１、９００＿２により撮影された画像データは、ロボット１０に送信される。

　これにより、第４の実施形態に係るロボット１０では、ロボット１０とは別体のカメラ９００＿１、９００＿２により撮影された画像データに基づいて、ロボット１０のユーザの顔を検出するとともに、***動作を検出することができる。

　この結果、例えば、第４の実施形態に係るロボット１０の場合、ロボット１０に配されたカメラ１１０が、ロボット１０のユーザの方向を向いていない場合であっても、当該ユーザの顔を検出するとともに、***動作を検出することができる。

　なお、第４の実施形態に係るロボット１０の場合、制御装置１００の顔検出部３０４では、画像データを受け取った際、カメラ９００＿１またはカメラ９００＿２の方向を向いたユーザの顔ではなく、カメラ１１０の方向を向いたユーザの顔を検出する。このように、ロボット１０とは別体のカメラ９００＿１、９００＿２を活用することで、ロボット１０のユーザの***動作を検出する可能性を高めることができる（ユーザの***動作の検出漏れを防ぐことができる）。

　なお、図９の例では、ロボット１０とは別体のカメラとして２台のカメラを活用する場合について示したが、活用する別体のカメラは２台に限定されない。また、顔検出部３０４は、ロボット１０に配されたカメラ１１０により撮影された画像データと、ロボット１０とは別体のカメラ９００＿１、９００＿２等により撮影された画像データのそれぞれにおいて顔を検出するように構成してもよい。

　また、***動作検出部３０５は、それぞれの画像データにおいて検出された顔画像データのうち、***領域が写っている顔画像データを選択して、ユーザの***動作を検出するように構成してもよい。そして、いずれの顔画像データにおいても、ユーザの***動作を検出しなかった場合に、ユーザの***動作を検出しなかった旨の検出結果を判定部３０６に対して出力するように構成してもよい。

　＜制御装置のハードウェア構成＞
　次に、第４の実施形態に係るロボット１０に内蔵される制御装置１００のハードウェア構成について説明する。図１０は、ロボットの制御装置のハードウェア構成の一例を示す第２の図である。図２に示したハードウェア構成との相違点は、通信装置２０５が、ロボット１０とは別体のカメラ９００＿１～９００＿ｎと通信を行う点である。

　通信装置２０５がカメラ９００＿１～９００＿ｎと通信を行うことで、制御装置１００では、カメラ９００＿１～９００＿ｎにより撮影され、送信された画像データを取得することができる。

　＜まとめ＞
　以上の説明から明らかなように、第４の実施形態に係るロボット１０は、ロボット１０が各種作業を行う居室に取り付けられたカメラ（ロボット１０とは別体のカメラ）が撮影した画像データを取得する。また、第４の実施形態に係るロボット１０は、当該カメラにより撮影された画像データ（及び、ロボット１０に搭載されたカメラにより撮影された画像データ）に基づいて、ユーザの***動作を検出する。

　これにより、第４の実施形態に係るロボット１０によれば、上記第１の実施形態において説明した効果に加えて、更に、ユーザの***動作を検出する可能性を高めることができる。

　［第５の実施形態］
　上記第１乃至第４の実施形態では、制御部１０２、５１０、７１０が、音源制御命令に基づいて、ロボット１０のスピーカ１３０、１３１の出力、可動部１４０～１６０等の動作を制御するものとして説明した。

　しかしながら、音源制御命令に基づいて制御部１０２、５１０、７１０が音を低減させる音源は、ロボット１０のスピーカ１３０、１３１、可動部１４０～１６０等に限定されない。例えば、ロボット１０以外の外部音源が発する音を低減させるように構成してもよい。以下、第５の実施形態について、上記第１乃至第４の実施形態との相違点を中心に説明する。

　＜ロボットの作業環境＞
　はじめに、第５の実施形態に係るロボット１０の作業環境について説明する。図１１は、ロボットの作業環境の一例を示す第２の図である。図１１に示すように、ロボット１０が各種作業を行う居室１１００には、複数の外部音源が配されている。

　具体的には、居室１１００には、オーディオ機器のスピーカ、テレビのスピーカ、エアコン、扇風機、空気清浄器、水道設備等の外部音源が配されている。

　このうち、オーディオ機器、テレビ、エアコンには、通信装置が配されており、ロボット１０と有線または無線を介して通信可能に接続される。

　このため、第５の実施形態に係るロボット１０の制御装置１００では、オーディオ機器、テレビ、エアコンの各機器の動作を、当該通信装置を介して制御することができる。具体的には、第５の実施形態に係るロボット１０の制御装置１００は、オーディオ機器、テレビ、エアコンの各機器に、各機器の動作を停止させるための信号を送信する。これにより、第５の実施形態に係るロボット１０の制御装置１００は、各機器の動作を停止させ、当該各機器が発する音を低減させる。

　あるいは、第５の実施形態に係るロボット１０の制御装置１００は、オーディオ機器またはテレビに、例えば、音量を下げるための信号を送信する。これにより、第５の実施形態に係るロボット１０の制御装置１００は、オーディオ機器またはテレビが発する音を低減させる。

　また、第５の実施形態に係るロボット１０の制御装置１００は、エアコンに、例えば、風量を下げるための信号（あるいは、設定温度を変更するための信号）等を出力する。これにより、第５の実施形態に係るロボット１０の制御装置１００は、エアコンの風量を下げさせ（エアコンの設定温度を変更させ）、エアコンが発する音を低減させる。

　この結果、第５の実施形態に係るロボット１０の制御装置１００によれば、音声データを検出しやすい状態を作り出すことができる。

　また、第５の実施形態に係るロボット１０の制御装置１００では、扇風機、空気清浄器、水道設備の各機器を操作するために、可動部１４０の動作を制御する。具体的には、第５の実施形態に係るロボット１０の制御装置１００は、例えば、扇風機の動作を停止させるためのスイッチ（あるいは、風量を下げるためのスイッチ）を操作するよう、可動部１４０の動作を制御する。これにより、第５の実施形態に係るロボット１０の制御装置１００は、扇風機の動作を停止させ、扇風機が発する音を低減させる。

　また、第５の実施形態に係るロボット１０の制御装置１００は、例えば、空気清浄器の動作を停止させるためのスイッチを操作するよう、可動部１４０の動作を制御する。これにより、第５の実施形態に係るロボット１０の制御装置１００は、空気清浄器の動作を停止させ、空気清浄器が発する音を低減させる。

　また、第５の実施形態に係るロボット１０の制御装置１００は、例えば、水道の蛇口をひねり、水を止める（あるいは、水量を下げる）よう、可動部１４０の動作を制御する。これにより、第５の実施形態に係るロボット１０の制御装置１００は、水を止めさせ（あるいは水量を下げさせ）、水道の蛇口から水が流れ出ることで発する音を低減させる。

　なお、可動部１４０の動作を制御することによる外部音源の操作は、公知の方法により実現される。

　なお、図１１の例では、居室１１００内の異なる位置にも外部音源が配されているが、ロボット１０は、それぞれの外部音源を制御し、それぞれの外部音源が発する音を低減させてもよい。あるいは、ロボット１０は、いずれか一方の外部音源を制御し、いずれか一方の外部音源が発する音を低減させてもよい。

　なお、いずれか一方の外部音源を制御するにあたっては、ロボット１０に近い方の外部音源を制御するように構成してもよい。

　また、ロボット１０が制御する外部音源を、ロボット１０から距離ｄ以内に配された外部音源に限定してもよい。なお、距離ｄは、ロボット１０のユーザとロボット１０のマイクロフォン１２０との間の距離に応じて変更するように構成してもよい。例えば、距離ｄは、ロボット１０のユーザとロボット１０のマイクロフォン１２０との間の距離に、予め定められた係数をかけ合わせることで算出するように構成してもよい。

　＜まとめ＞
　以上の説明から明らかように、第５の実施形態に係るロボット１０は、ロボット１０以外の外部音源が発する音を低減させる。これにより、第１の実施形態に係る制御装置１００では、音声データを検出しやすい状態を作り出すことができる。この結果、第５の実施形態に係る制御装置１００によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。

　［第６の実施形態］
　上記第５の実施形態では、ロボット１０以外の外部音源が発する音を直接的に低減させる場合について説明した。これに対して、第６の実施形態では、ロボット１０以外の外部音源が、リモートコントローラを介して操作可能な場合においては、リモートコントローラを操作することで、ロボット１０以外の外部音源が発する音を低減させる。以下、第６の実施形態について、上記第５の実施形態との相違点を中心に説明する。

　＜ロボットの作業環境＞
　はじめに、第６の実施形態に係るロボット１０の作業環境について説明する。図１２は、ロボットの作業環境の一例を示す第３の図である。図１１に示す作業環境との違いは、居室１２００の場合、外部音源遠隔操作器が配されている点である。

　なお、図１２において、リモコン１は、オーディオ機器を遠隔操作するための操作器であり、リモコン２は、テレビを遠隔操作するための操作器である。また、リモコン３は、エアコンを遠隔操作するための操作器であり、リモコン４は、扇風機を遠隔操作するための操作器である。

　第６の実施形態に係るロボット１０の制御装置１００では、オーディオ機器、テレビ、エアコン、扇風機の各機器を、リモコン１～リモコン４等を介して操作する。

　具体的には、第６の実施形態に係るロボット１０の制御装置１００は、オーディオ機器、テレビ、エアコン、扇風機の各機器のリモコン１～リモコン４等を操作するよう、可動部１５０の動作を制御する。

　例えば、第６の実施形態に係るロボット１０の制御装置１００は、リモコン１に対して、オーディオ機器を停止させる、あるいは、音量を下げるための操作を行うよう、可動部１５０の動作を制御する。

　また、例えば、第６の実施形態に係るロボット１０の制御装置１００は、リモコン２に対して、テレビを消す、あるいは、テレビの音量を下げるための操作を行うよう、可動部１５０の動作を制御する。

　また、例えば、第６の実施形態に係るロボット１０の制御装置１００は、リモコン３に対して、エアコンを停止させる、風量を下げる、あるいは、設定温度を変更するための操作を行うよう、可動部１５０の動作を制御する。

　また、例えば、第６の実施形態に係るロボット１０の制御装置１００は、リモコン４に対して、扇風機を停止させる、あるいは、風量を下げるための操作を行うよう、可動部１５０の動作を制御する。

　＜まとめ＞
　以上の説明から明らかなように、第６の実施形態に係るロボット１０は、外部音源遠隔操作器を操作することで、ロボット１０以外の外部音源が発する音を低減させる。これにより、第６の実施形態に係る制御装置１００では、音声データを検出しやすい状態を作り出すことができる。この結果、第６の実施形態に係る制御装置１００によれば、ユーザの音声指示に基づいて制御するロボットにおいて、音声検出率を向上させることができる。

　［第７の実施形態］
　上記第１乃至第６の実施形態では、ロボット１０が音源（外部音源を含む）が発する音を低減させる場合について説明した。しかしながら、ロボット１０の作業環境には、ロボット１０が（直接的か間接的かに関わらず）、音を低減させることができない外部音源が配されている場合もある。

　第７の実施形態では、このような外部音源が発する音を低減させるために、外部音源に対する操作をユーザに依頼する。以下、第７の実施形態について、上記第１の実施形態との相違点を中心に説明する。

　＜制御装置の機能構成＞
　はじめに、第７の実施形態に係る制御装置１００の機能構成について説明する。図１３は、制御装置の機能構成の一例を示す図である。図３に示した機能構成との相違点は、判定部１３００の機能及び制御部１３１０の機能が、図３の判定部３０６の機能及び制御部１０２の機能とは異なる点である。

　判定部１３００は指示部の一例であり、音声検出部３０２により音声データが検出されたか否か、及び、***動作検出部３０５より***動作の検出結果が出力されたか否かを判定する。また、判定部１３００は、***動作検出部３０５より***動作の検出結果が出力されたにも関わらず、音声検出部３０２より音声データが検出されていない場合に、制御部１３１０に対して、音声出力命令を出力する。これにより、判定部１３００は、外部音源の操作をユーザに依頼するよう指示する。

　なお、判定部１３００は、図３の判定部３０６同様、***動作検出部３０５より***動作の検出結果が出力され、音声検出部３０２により音声データが検出された場合、制御部１３１０に対して、音声データを出力する。

　制御部１３１０は、判定部１３００により出力された音声出力命令を受け取ると、ロボット１０のユーザに、外部音源の操作を依頼するための音声出力信号を生成する。また、制御部１３１０は、生成した音声出力信号に基づく合成音声を、スピーカ１３０、１３１を介して、ユーザに出力する。

　なお、外部音源の操作を依頼するための音声出力信号とは、例えば、
・「テレビを消してください」
・「音楽を一時停止してください」、
・「聞き取れないので水を止めてください」、
等が挙げられる。

　これにより、制御部１３１０は、音声データを検出しやすい状態を作り出すことができる。

　＜動作制御処理の流れ＞
　次に、第７の実施形態に係る制御装置１００による動作制御処理の流れについて説明する。図１４は、制御装置による動作制御処理の流れを示す第４のフローチャートである。図４に示すフローチャートとの相違点は、ステップＳ１４０１である。

　ステップＳ１４０１において、判定部１３００は音声出力命令を出力する。また、制御部１３１０は音声出力命令を受け取ると、ユーザに、外部音源の操作を依頼するための音声出力信号を生成し、生成した音声出力信号に基づく合成音声を、スピーカ１３０、１３１を介して出力する。これにより、制御部１３１０は、外部音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。

　＜まとめ＞
　以上の説明から明らかなように、第７の実施形態に係る制御装置１００は、ユーザに対して、外部音源の操作を依頼することで、外部音源が発する音を低減させる。これにより、第７の実施形態に係る制御装置１００では、音声データを検出しやすい状態を作り出すことができる。この結果、第７の実施形態に係る制御装置１００によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。

　［その他の実施形態］
　上記各実施形態では、判定部３０６、５００、７００、１３００が音源制御命令を出力するタイミングについて言及しなかったが、音源制御命令を出力するタイミングとしては、様々なケースが考えられる。

　例えば、***動作検出部３０５により***動作の始端が検出されたが、音声検出部３０２により音声データの始端が検出されていない場合においては、***動作の終端が検出される前に、音源制御命令を出力してもよい。

　また、***動作検出部３０５により***動作の始端が検出され、音声検出部３０２により音声データの始端が検出されたが、***動作の始端の検出位置と、音声データの始端の検出位置とのずれ量が所定の閾値以上であったとする。この場合、判定部では、ずれ量が所定の閾値以上となったタイミングで音源制御命令を出力してもよい。つまり、判定部３０６は、***動作の始端の検出位置と、音声データの始端の検出位置とのずれ量に基づいて、音源制御命令を出力してもよい。

　また、***動作検出部３０５により***動作の終端が検出され、音声検出部３０２により音声データの終端が検出されたが、***動作の終端の検出位置と、音声データの終端の検出位置とのずれ量が所定の閾値以上であったとする。この場合、判定部では、ずれ量が所定の閾値以上となったタイミングで音源制御命令を出力してもよい。つまり、判定部３０６は、***動作の終端の検出位置と、音声データの終端の検出位置とのずれ量に基づいて、音源制御命令を出力してもよい。

　また、上記各実施形態において、ロボット１０は、可動部１４０～１６０を有するものとして説明したが、ロボット１０は、可動部１４０～１６０以外の可動部を有していてもよい。可動部１４０～１６０以外の可動部には、例えば、吸引部やファン等が含まれる。

　また、上記各実施形態では、複数の音源（外部音源を含む）がある場合に、制御部が音を低減させる順序について特に言及しなかったが、例えば、予め定められた優先順位に従って、音を低減させるようにしてもよい。あるいは、同時に、全ての音を低減させるようにしてもよい。

　また、上記各実施形態で説明した機能は、他の任意の実施形態で説明した機能と組み合わせて実現されてもよい。

　また、上記各実施形態において、制御装置１００の機能は、プロセッサ２０１が、制御プログラムを実行することで実現されるものとして説明した。しかしながら、制御装置１００の機能は、アナログ回路、デジタル回路又はアナログ・デジタル混合回路で構成された回路により実現されてもよい。また、制御装置１００の機能を実現する制御回路を備えていてもよい。各回路の実装は、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等によるものであってもよい。

　また、上記各実施形態において、制御プログラムを実行するにあたっては、制御プログラムをフレキシブルディスクやＣＤ－ＲＯＭ等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。また、ソフトウェアによる処理は、ＦＰＧＡ等の回路に実装され、ハードウェアが実行するものであってもよい。ジョブの実行は、例えば、ＧＰＵ（Graphics Processing Unit）等のアクセラレータを使用して行ってもよい。

　なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

　本出願は、２０１９年５月１３日に出願された日本国特許出願第２０１９－０９０７５６号に基づきその優先権を主張するものであり、同日本国特許出願の全内容を参照することにより本願に援用する。

１０　　　　　　　　　　：ロボット
１００　　　　　　　　　：制御装置
１０１　　　　　　　　　：停止部
１０２　　　　　　　　　：制御部
１１０　　　　　　　　　：カメラ
１２０　　　　　　　　　：マイクロフォン
１３０、１３１　　　　　：スピーカ
１４０、１５０　　　　　：可動部
１６０　　　　　　　　　：可動部
３０１　　　　　　　　　：音取得部
３０２　　　　　　　　　：音声検出部
３０３　　　　　　　　　：画像取得部
３０４　　　　　　　　　：顔検出部
３０５　　　　　　　　　：***動作検出部
３０６　　　　　　　　　：判定部
５００　　　　　　　　　：判定部
５１０　　　　　　　　　：制御部
７００　　　　　　　　　：判定部
７１０　　　　　　　　　：制御部
９００　　　　　　　　　：居室
９００＿１、９００＿２　：カメラ
１１００、１２００　　　：居室
１３００　　　　　　　　：判定部
１３１０　　　　　　　　：制御部

Claims

　少なくとも１つのメモリと、
　少なくとも１つのプロセッサと、を備え、
　　前記少なくとも１つのプロセッサは、
　　　取得した画像データに基づいて、ユーザの***動作を検出することと、
　　　取得した音データから、音声データを検出することと、
　　　前記ユーザの***動作を検出した場合であって、前記音声データを検出しなかった場合に、音源が発する音を低減させるよう指示することと
　　を実行するよう構成される、
ロボットの制御装置。
　少なくとも１つのメモリと、
　少なくとも１つのプロセッサと、を備え、
　　前記少なくとも１つのプロセッサは、
　　　取得した画像データに基づいて、ユーザの***動作を検出することと、
　　　取得した音データから、音声データを検出することと、
　　　前記検出した***動作の検出位置と前記検出した音声データの検出位置との間のずれ量に基づいて、音源が発する音を低減させるよう指示することと
　　を実行するよう構成される、
ロボットの制御装置。
　少なくとも１つのメモリと、
　少なくとも１つのプロセッサと、を備え、
　　前記少なくとも１つのプロセッサは、
　　　取得した画像データに基づいて、ユーザの***動作を検出することと、
　　　取得した音データから、音声データを検出することと、
　　　前記ユーザの***動作を検出し、かつ、前記音声データを検出した場合、前記音声データを認識した際の尤度情報に基づいて、音源が発する音を低減させるよう指示することと
　　を実行するよう構成される、
ロボットの制御装置。
　前記少なくとも１つのプロセッサは、
　前記音源が発する音を低減させるよう指示した場合に、前記ロボットの可動部の動作を制御することで、前記音源が発する音を低減させること
　を実行するよう構成される、請求項１乃至３のいずれか１項に記載のロボットの制御装置。
　前記少なくとも１つのプロセッサは、
　前記音源が発する音を低減させるよう指示した場合に、前記ロボットに搭載された音源を制御することで、前記音源が発する音を低減させること
　を実行するよう構成される、請求項１乃至３のいずれか１項に記載のロボットの制御装置。
　前記音源は、前記ロボットとは別体の外部音源である、請求項１乃至３のいずれか１項に記載のロボットの制御装置。
　前記少なくとも１つのプロセッサは、
　前記音源が発する音を低減させるよう指示された場合に、前記外部音源に信号を送信することで、前記外部音源が発する音を低減させること
　を実行するよう構成される、請求項６に記載のロボットの制御装置。
　前記少なくとも１つのプロセッサは、
　前記音源が発する音を低減させるよう指示した場合に、前記外部音源を前記ロボットに操作させることで、前記外部音源が発する音を低減させること
　を実行するよう構成される、請求項６に記載のロボットの制御装置。
　前記少なくとも１つのプロセッサは、
　前記音源が発する音を低減させるよう指示した場合に、前記外部音源を遠隔操作する操作器を前記ロボットに操作させることで、前記外部音源が発する音を低減させること
　を実行するよう構成される、請求項６に記載のロボットの制御装置。
　前記少なくとも１つのプロセッサは、
　前記音源が発する音を低減させるよう指示した場合に、前記外部音源の操作を前記ユーザに依頼するための合成音声を出力することで、前記外部音源が発する音を低減させること
　を実行するよう構成される、請求項６に記載のロボットの制御装置。
　前記音源が発する音を低減させるよう指示した場合に、更に、発声を促すよう指示する、請求項１乃至１０のいずれか１項に記載のロボットの制御装置。
　前記音源が発する音を低減させるよう指示した後の所定時間の間に、音声データが検出されなかった場合、前記音源が発する音を低減させる前の動作を再開するよう指示する、請求項４に記載のロボットの制御装置。
　前記音源が発する音を低減させるよう指示した後の所定時間の間に、前記音声データが検出された場合、該検出された音声データに基づいて前記ロボットの可動部の動作を制御する、請求項４に記載のロボットの制御装置。
　画像データを取得する撮像部と、
　音データを取得する集音部と、
　請求項１乃至１３のいずれか１項に記載の制御装置と
　を有するロボット。
　少なくとも１つのプロセッサが、
　取得した画像データに基づいて、ユーザの***動作を検出することと、
　取得した音データから、音声データを検出することと、
　前記ユーザの***動作を検出した場合であって、前記音声データを検出しなかった場合に、音源が発する音を低減させるよう指示することと
　を実行するロボットの制御方法。
　少なくとも１つのプロセッサに、
　取得した画像データに基づいて、ユーザの***動作を検出することと、
　取得した音データから、音声データを検出することと、
　前記ユーザの***動作を検出した場合であって、前記音声データを検出しなかった場合に、音源が発する音を低減させるよう指示することと
　を実行させるための制御プログラム。