JP7205148B2

JP7205148B2 - ロボット、制御方法、及び、プログラム

Info

Publication number: JP7205148B2
Application number: JP2018188897A
Authority: JP
Inventors: 豊小野寺
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2018-10-04
Filing date: 2018-10-04
Publication date: 2023-01-17
Anticipated expiration: 2038-10-04
Also published as: JP2020057300A; US20200110968A1; US11514269B2; CN111002303B; CN111002303A

Description

本発明は、ロボット、制御方法、及び、プログラムに関する。

個人を識別する技術が知られている。例えば、特許文献１は、顔画像と音声とを統合することにより高い精度で個人を識別する識別装置を開示している。具体的に説明すると、特許文献１に開示された識別装置は、顔画像を用いた識別によって本人らしさを表すスコアαを求め、音声を用いた識別によって本人らしさを表すスコアβを求め、求めたスコアαとスコアβとを各々対応する閾値と比較することにより個人を識別する。また、特許文献１には、スコアαの閾値及びスコアβの閾値を、明るさ又は背景の雑音に応じて変更することが開示されている。

特開２００７－１５６９７４号公報

個人を識別するために用いられる個人の特徴は、常に同じではなく、様々な要因により変化する。例えば、個人の顔、音声等の特徴は、個人の成長、加齢、又はその他の要因により変化する。これに対して、上述したように、従来の識別装置では、スコアαの閾値及びスコアβの閾値を明るさ又は背景の雑音に応じて変更するにすぎないので、このように個人の特徴が変化すると、個人を適切に識別できなくなるおそれがある。

本発明は、以上のような課題を解決するためのものであり、個人を適切に識別することが可能なロボット、制御方法、及び、プログラムを提供することを目的とする。

上記目的を達成するため、本発明に係るロボットは、
個人を表す互いに異なるデータをそれぞれ取得し、取得したデータに基づいて前記個人を識別する複数の識別手段と、
前記複数の識別手段のうちのいずれかの識別手段により前記個人が識別されず、且つ、前記複数の識別手段のうちの残りの識別手段により前記個人が識別された場合、前記残りの識別手段により識別された前記個人と対話するための動作を自装置に実行させる動作制御手段と、
前記複数の識別手段のうちのいずれかの識別手段により前記個人が識別されず、且つ、前記残りの識別手段により前記個人が識別された場合、前記自装置により実行された前記動作に対する前記個人の応答に基づいて、前記いずれかの識別手段における前記個人の識別方法を学習するための学習データを更新する更新手段と、
を備えることを特徴とする。

本発明によれば、個人を適切に識別することが可能なロボット、制御方法、及び、プログラムを提供することができる。

本発明の実施形態１に係るロボットの外観を示す図である。実施形態１に係るロボットのハードウェア構成を示すブロック図である。実施形態１に係るロボットの機能的な構成を示すブロック図である。実施形態１において学習データ記憶部に記憶されているデータの例を示す図である。図４に示した学習データ記憶部に記憶されているデータが更新される例を示す図である。実施形態１に係るロボットによって実行されるロボット制御処理の流れを示すフローチャートである。実施形態１に係るロボットによって実行される初期登録処理の流れを示すフローチャートである。実施形態１に係るロボットによって実行される音声学習処理の流れを示すフローチャートである。実施形態１に係るロボットによって実行される顔学習処理の流れを示すフローチャートである。本発明の実施形態２に係るロボットによって実行される音声学習処理の流れを示すフローチャートである。本発明の実施形態３において学習データ記憶部に記憶されているデータの例を示す図である。本発明の変形例におけるロボット及びサーバ装置の機能的な構成を示すブロック図である。

以下、本発明の実施形態について、図面を参照して説明する。なお、図中同一又は相当する部分には同一符号を付す。

（実施形態１）
図１に、本発明の実施形態１に係るロボット１００の外観を示す。ロボット１００は、主に家庭で使用され、ユーザとコミュニケーションすることが可能なコミュニケーションロボットである。図１に示すように、ロボット１００は、動物（ペット）を模した形状を有し、予め規定された動作プログラムに従って自律的に動作する。

ロボット１００は、自装置の外部に存在するユーザからの呼び掛け又は接触等の外部からの刺激に反応して、様々に動作する。これによって、ロボット１００は、ユーザとコミュニケーションをとり、交流することができる。ユーザは、ロボット１００とコミュニケーション及び交流をする相手であって、具体的には、例えばロボット１００の所有者、家族、友人等である。

図１に示すように、ロボット１００は、外観的には小型犬を模した立体的な形状を有する。ロボット１００は、例えばプラスチック等の硬質合成樹脂を主たる材料として作製されている。ロボット１００は、頭部１０１と、胴体部１０２と、耳部１０３と、目部１０４と、口部１０５と、手部１０７と、足部１０８と、を備える。

頭部１０１、耳部１０３、手部１０７及び足部１０８は、ロボット１００に内蔵された駆動部材によって動かすことができる部位である。頭部１０１は、首に設けられた首の関節によって、ピッチ、ロール及びヨーの３方向に回転可能に胴体部１０２に取り付けられている。目部１０４には、目に関する画像（目玉等）を表示する表示部１１７が設けられている。口部１０５には、ロボット１００の前方を撮像する撮像部１１５ａが設けられている。

図２に、ロボット１００のハードウェア構成を示す。図２に示すように、ロボット１００は、制御部１１０と、記憶部１１１と、バッテリ１１２と、駆動部１１３と、可動部１１４と、センサ部１１５と、無線通信部１１６と、表示部１１７と、音声出力部１１８と、を備える。

制御部１１０は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を備える。ＣＰＵは、例えばマイクロプロセッサ等であって、様々な処理や演算を実行する中央演算処理部である。制御部１１０において、ＣＰＵが、ＲＯＭに記憶されている制御プログラムを読み出して、ＲＡＭをワークメモリとして用いながら、自装置（ロボット１００）全体の動作を制御する。制御部１１０は、制御手段として機能する。

また、制御部１１０は、例えばＧＰＵ（Graphics Processing Unit）等のような画像処理用のプロセッサと、例えばＤＳＰ（Digital Signal Processor）等のような音声処理用のプロセッサと、各種のバッファメモリと、を含む。制御部１１０は、画像処理用のプロセッサにより、周知の画像認識の手法を用いて、撮像部１１５ａにより撮像された画像に含まれる人、顔、物体等を認識する。また、制御部１１０は、音声処理用のプロセッサにより、周知の音声認識の手法を用いて、音センサ１１５ｂにより検出された音声を認識する。

記憶部１１１は、フラッシュメモリ、ハードディスク等の不揮発性メモリである。記憶部１１１は、ＯＳ（Operating System）及びアプリケーションプログラムを含む、制御部１１０が各種処理を行うために使用するプログラム及びデータを記憶する。また、記憶部１１１は、制御部１１０が各種処理を行うことにより生成又は取得するデータを記憶する。記憶部１１１は、記憶手段として機能する。

バッテリ１１２は、電気エネルギーを蓄電し、ロボット１００の各部に電力を供給するための蓄電池である。バッテリ１１２は、ロボット１００が充電ステーションに接続された場合に、充電ステーションによって充電される。

駆動部１１３は、ロボット１００の可動部１１４を駆動させるモータ、アクチュエータ等の駆動部材と、これらの駆動部材を駆動する駆動回路と、を備える。可動部１１４とは、可動する部位であって、具体的には頭部１０１、手部１０７及び足部１０８である。制御部１１０は、動作プログラムに基づいて、駆動回路に制御信号を送信する。駆動回路は、制御部１１０から送信された制御信号に従って、駆動部材に駆動用のパルス信号を供給する。駆動部材は、駆動回路から供給されたパルス信号に従って、可動部１１４を駆動させる。可動部１１４は、可動手段として機能する。

ロボット１００は、駆動部１１３が可動部１１４を駆動させることによって、様々に動作することができる。例えば、ロボット１００は、足部１０８を動かすことによって、前方又は後方に移動することができ、自装置の向きを変えることができる。ここで、足部１０８には車輪が設けられており、駆動部１１３が車輪を回転駆動させることにより、ロボット１００の位置又は向きを変えても良い。また、ロボット１００は、頭部１０１又は手部１０７を動かすことによって、人の動作及び人の仕草を真似ることができる。

センサ部１１５は、自装置の周囲又は内部の物理量を検知する複数のセンサを備える。図２に示すように、センサ部１１５は、周囲を撮像する撮像部１１５ａと、音を検知する音センサ１１５ｂと、を含む。また、センサ部１１５は、図示しないが、自装置への接触を検知する接触センサ、周囲の物体までの距離を測定する距離センサ、自装置の動きを検知する加速度センサ、周囲の温度を検知する温度センサ等を含む。

撮像部１１５ａは、いわゆるカメラであって、口部１０５に設置されている。撮像部１１５ａは、被写体から射出された光を集光して被写体の画像を取得する画像取得部と、画像取得部によって取得された画像を処理する画像処理部と、を備えており、ロボット１００の前方を撮像する撮像手段として機能する。音センサ１１５ｂは、頭部１０１に設置されており、ユーザから発せられた音声、周囲の環境音等を検知する。ロボット１００は、図示しないが、音センサ１１５ｂとして頭部１０１を囲むように複数のマイクロフォンを備えており、四方で発生した音を効率良く検知することができる。センサ部１１５は、このような複数のセンサによって、ロボット１００の周囲の状態又は内部の状態を示す情報を取得し、制御部１１０に供給する。

無線通信部１１６は、外部の機器と無線で通信するためのインタフェースを備える。無線通信部１１６は、制御部１１０の制御の下、例えばＷｉ－Ｆｉ（Wireless Fidelity）等の無線ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＮＦＣ（Near Field Communication）等の通信規格に従って、ロボット１００を充電するための充電ステーション、クラウドサーバ等の外部の機器と無線通信をする。無線通信部１１６は、通信手段として機能する。

表示部１１７は、例えば液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、ＬＥＤ（Light Emitting Diode）等の表示デバイスである。表示部１１７は、目部１０４の眼球部分に設置されており、図示しない表示駆動回路による制御のもと、状況に応じて様々な画像を表示する。

音声出力部１１８は、スピーカと音声出力インタフェースとを備え、制御部１１０によって生成された音声データを音声に変換して外部に出力する。スピーカは、頭部１０１に設置されている。音声出力部１１８は、動物の鳴き声及び人間の言葉を含む様々な音声を出力する。例えば、ロボット１００は、音センサ１１５ｂでコミュニケーション対象の音声を収集し、コミュニケーション対象の発話内容に対応する音声を音声出力部１１８から出力する。これにより、コミュニケーション対象と簡単な会話をすることができる。

次に、図３を参照して、ロボット１００の機能的な構成について説明する。図３に示すように、ロボット１００は、機能的に、動作制御部１３０と、顔識別部１４０と、音声識別部１５０と、更新部１６０と、学習部１７０と、を備える。これら各部は、制御部１１０において、ＣＰＵがＲＯＭに記憶されたプログラムをＲＡＭに読み出して、読み出されたプログラムを実行して制御することにより機能する。

また、ロボット１００は、動作データ記憶部１８０と、学習データ記憶部１９０と、を備える。これらは、記憶部１１１の適宜の記憶領域に構築される。学習データ記憶部１９０は、学習データ記憶手段として機能する。なお、顔識別部１４０、音声識別部１５０、更新部１６０、学習部１７０及び学習データ記憶部１９０は、ロボット１００に含まれる識別装置１２０の機能に相当する。

動作制御部１３０は、駆動部１１３と表示部１１７と音声出力部１１８とのうちの少なくとも１つを制御して、予め規定された様々な動作をロボット１００に実行させる。例えば、動作制御部１３０は、駆動部１１３を制御することにより、可動部１１４として設けられた頭部１０１、耳部１０３、手部１０７又は足部１０８を動かす。これにより、動作制御部１３０は、ロボット１００の位置、向き、姿勢等を変更する。更に、動作制御部１３０は、音声出力部１１８から音声を出力することによって、ユーザと対話する。動作制御部１３０は、制御部１１０が駆動部１１３、表示部１１７、音声出力部１１８等と協働することにより実現される。動作制御部１３０は、動作制御手段として機能する。

動作データ記憶部１８０は、ロボット１００の動作を様々な条件毎に定めた動作データを記憶している。ロボット１００は、撮像部１１５ａ及び音センサ１１５ｂを含むセンサ部１１５により取得されたロボット１００の周囲の状況、又はロボット１００の内部の状況に応じて、様々な動作を実行する。動作制御部１３０は、動作データ記憶部１８０を参照して、状況に応じてロボット１００に様々な動作を実行させる。

動作データ記憶部１８０は、動作データの１つとして、音声出力部１１８から出力される音声の定型文が定められた出力音声データ１８１を記憶している。出力音声データ１８１は、例えば「お名前を教えて下さい」、「あなたは昨日、何をしていましたか？」等のような、ロボット１００が発する典型的な音声のテキストを定めたデータである。

顔識別部１４０と音声識別部１５０とは、個人（ユーザ）を表す互いに異なるデータをそれぞれ取得し、取得したデータに基づいて個人を識別する。具体的に、顔識別部１４０は、個人を表す第１データを取得し、取得した第１データに基づいて個人を識別する。第１データは、個人の特徴を表すデータであって、具体的には、個人の顔を表す顔画像データである。顔識別部１４０は、ロボット１００の周囲に存在するいずれかの人物の顔が撮像部１１５ａの画角内に入った場合、その顔を含む撮像画像を撮像部１１５ａの撮像により取得する。これにより、顔識別部１４０は、第１データとして、個人の顔を表す顔画像データを取得する。

顔識別部１４０は、顔画像データを取得すると、後述する学習部１７０により学習された識別方法に従って個人を識別する。具体的に説明すると、顔識別部１４０は、取得した顔画像データにより表される顔画像を、学習データ記憶部１９０に記憶された顔識別データ１９３と照合することにより、顔画像データを取得された個人が誰であるのかを識別する。

学習データ記憶部１９０には、複数の個人のそれぞれについて、学習部１７０により学習された結果を示す顔識別データ１９３が記憶されている。顔識別部１４０は、学習データ記憶部１９０に顔識別データ１９３が記憶された複数の個人のそれぞれについて、取得した顔画像データと顔識別データ１９３との間における適合度を計算する。適合度は、顔画像データと顔識別データ１９３とがどの程度適合（類似）しているかを示す指標である。

具体的に説明すると、顔識別部１４０は、取得した顔画像データから、当該顔画像データに含まれる目、鼻、口、耳等により形成される顔の特徴を示す特徴量を抽出する。そして、顔識別部１４０は、抽出した特徴量が、学習データ記憶部１９０に記憶された複数の個人の顔識別データ１９３のそれぞれにおける特徴量とどの程度類似しているかを示す適合度を計算する。

複数の個人のうちのそれぞれについて適合度を計算した結果、計算したこれらの複数の適合度のうちの最高値が予め定められた閾値よりも高い場合に、顔識別部１４０は、顔画像データを取得された個人が、複数の個人のうちの適合度が最も高い個人であると特定する。一方で、複数の個人のうちのそれぞれについて計算した適合度の全てが予め定められた閾値よりも低い場合、顔識別部１４０は、顔画像データを取得された個人が学習データ記憶部１９０に記憶されていないと判定する。

このようにして、顔識別部１４０は、学習データ記憶部１９０に記憶された複数の個人の顔識別データ１９３の中から、取得した顔画像データと適合するデータを探索する。顔識別部１４０は、制御部１１０が撮像部１１５ａと協働することにより実現される。顔識別部１４０は、顔識別手段（第１識別手段）として機能する。

音声識別部１５０は、個人を表す、第１データとは異なる種類の第２データを取得し、取得した第２データに基づいて個人を識別する。第２データは、個人の、第１データとは異なる特徴を表すデータであって、具体的には、個人の音声を表す音声データである。音声識別部１５０は、ロボット１００の周囲に存在するいずれかの人物により音声が発せられた場合、その音声を音センサ１１５ｂにより検出する。これにより、音声識別部１５０は、第２データとして、個人の音声の波形を示す音声データを取得する。

音声識別部１５０は、音声データを取得すると、後述する学習部１７０により学習された識別方法に従って個人を識別する。具体的に説明すると、音声識別部１５０は、取得した音声データにより表される音声を学習データ記憶部１９０に記憶された音声識別データ１９４と照合することにより、音声データを取得された個人が誰であるのかを識別する。

学習データ記憶部１９０には、複数の個人のそれぞれについて、学習部１７０により学習された結果を示す音声識別データ１９４が記憶されている。音声識別部１５０は、学習データ記憶部１９０に音声学習データ１９２が記憶された複数の個人のそれぞれについて、取得した音声データと音声識別データ１９４との間における適合度を計算する。適合度は、音声データと音声識別データ１９４とがどの程度適合（類似）しているかを示す指標である。

具体的に説明すると、音声識別部１５０は、取得した音声データから音圧、ピッチ等の音声の特徴を示す特徴量を抽出する。そして、音声識別部１５０は、抽出した特徴量が、学習データ記憶部１９０に記憶された複数の個人の音声識別データ１９４のそれぞれにおける特徴量とどの程度類似しているかを示す適合度を計算する。

複数の個人のうちのそれぞれについて適合度を計算した結果、計算した適合度のうちの最高値が予め定められた閾値よりも高い場合に、音声識別部１５０は、音声データを取得された個人が、複数の個人のうちの適合度が最も高い個人であると特定する。一方で、複数の個人のうちのそれぞれについて計算した適合度の全てが予め定められた閾値よりも低い場合、音声識別部１５０は、音声データを取得された個人が学習データ記憶部１９０に記憶されていないと判定する。

このようにして、音声識別部１５０は、学習データ記憶部１９０に記憶された複数の個人の音声識別データ１９４の中から、取得した音声データと適合するデータを探索する。音声識別部１５０は、制御部１１０が音センサ１１５ｂと協働することにより実現される。音声識別部１５０は、音声識別手段（第２識別手段）として機能する。

動作制御部１３０は、顔識別部１４０又は音声識別部１５０により個人が識別された場合、その識別された個人に応じた動作をロボット１００に実行させる。識別された個人に応じた動作とは、例えば、その個人の名前を呼ぶ、その個人の予め登録されたスケジュールに応じた音声を出力する等のように、識別された個人に応じた内容でその個人とコミュニケーションするための動作である。動作制御部１３０は、顔識別部１４０と音声識別部１５０とのうちの少なくとも一方により個人が識別された場合、可動部１１４を動かす、表示部１１７に画像を表示させる、又は音声出力部１１８から音声を出力することにより、識別された個人とコミュニケーションするための動作をロボット１００に実行させる。

このように、ロボット１００は、顔と音声という異なる２つの特徴を用いて個人を識別するため、顔と音声とのうちのどちらか一方さえ検出できれば個人を識別することができる。言い換えると、ロボット１００は、顔と音声とのうちのどちらか一方では個人が識別できなかった場合であっても、他方で個人を識別することができれば、識別した個人に応じて動作することができる。そのため、ロボット１００は、顔を検出できるが音声を検出できない、音声を検出できるが顔を検出できない等の様々な状況でも個人を識別することができ、識別した個人とコミュニケーションを図ることができる。

学習データ記憶部１９０は、個人の互いに異なる特徴をそれぞれ表す複数の学習データである顔学習データ１９１と音声学習データ１９２とを記憶している。顔学習データ１９１は、個人の第１の特徴である顔の特徴を表す第１学習データであって、学習部１７０が顔識別部１４０における個人の識別方法を学習するための学習用データである。音声学習データ１９２は、個人の、第１の特徴とは異なる第２の特徴である音声の特徴を表す第２学習データであって、学習部１７０が音声識別部１５０における個人の識別方法を学習するための学習用データである。また、学習データ記憶部１９０は、それぞれ複数の学習データに対応する複数の識別データである顔識別データ１９３と音声識別データ１９４とを記憶している。顔識別データ１９３は、顔識別部１４０が個人を識別するための第１識別データであって、顔学習データ１９１をもとに学習部１７０により学習された個人の識別方法を示す学習済みデータである。音声識別データ１９４は、音声識別部１５０が個人を識別するための第２識別データであって、音声学習データ１９２をもとに学習部１７０により学習された個人の識別方法を示す学習済みデータである。

図４に、学習データ記憶部１９０に記憶されているデータの例を示す。図４に示すように、学習データ記憶部１９０は、複数の個人のそれぞれについて、顔学習データ１９１と音声学習データ１９２と顔識別データ１９３と音声識別データ１９４とを記憶している。複数の個人は、過去にロボット１００の周囲で顔及び音声が検出された複数のユーザに相当する。学習データ記憶部１９０において、顔学習データ１９１、音声学習データ１９２、顔識別データ１９３及び音声識別データ１９４は、複数の個人のそれぞれを区別するためのＩＤ（識別子）と、対応する個人の名前と、が紐付けられて記憶されている。

更新部１６０は、顔識別部１４０により取得された顔画像データに基づいて、学習データ記憶部１９０に記憶された顔学習データ１９１を更新する。また、更新部１６０は、音声識別部１５０により取得された音声データに基づいて、学習データ記憶部１９０に記憶された音声学習データ１９２を更新する。更新部１６０は、制御部１１０が記憶部１１１と協働することにより実現される。更新部１６０は、更新手段として機能する。

具体的に説明すると、更新部１６０は、顔識別部１４０により取得された顔画像データにおける輝度の分布、輝度の勾配等を解析する。そして、更新部１６０は、顔識別に有効な特徴を定量化したパラメータとして、顔画像データから、当該顔画像データに含まれる目、鼻、口、耳等により形成される顔の特徴量を抽出する。顔識別部１４０は、抽出した特徴量を示す顔学習データ１９１を生成し、生成した顔学習データ１９１を、個人のＩＤに紐付けて、学習データ記憶部１９０に記憶させる。

また、更新部１６０は、音声識別部１５０により取得された音声データを解析する。そいて、更新部１６０は、音声識別に有効な特徴を定量化したパラメータとして、音圧、ピッチ等の特徴量を抽出する。或いは、更新部１６０は、音声の特徴量として、音声信号を周波数軸上に変換して得られる特徴パラメータであるメル周波数ケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstrum Coefficients）を計算しても良い。音声識別部１５０は、抽出した特徴量を示す音声学習データ１９２を生成し、生成した音声学習データ１９２を、個人のＩＤに紐付けて、学習データ記憶部１９０に記憶させる。

なお、顔学習データ１９１は、同一の個人の顔を表すとともに互いに異なる多くの顔画像データを用いて更新されるほど学習用データとしての精度が上がる。そのため、顔学習データ１９１は、各個人について異なるタイミングで取得された複数の顔画像データを用いて生成及び更新される。同様に、音声学習データ１９２は、同一の個人の音声を表す多くの音声データを用いて更新されるほど学習用データとしての精度が上がる。そのため、音声学習データ１９２は、各個人について異なるタイミングで取得された複数の音声データを用いて生成及び更新される。

より詳細に説明すると、更新部１６０は、複数の識別部のうちのいずれかの識別部により個人が識別されず、且つ、複数の識別部のうちの残りの識別部により個人が識別された場合、学習データ記憶部１９０に記憶された複数の学習データとのうちの、個人が識別されなかったいずれかの識別手段に対応する学習データを更新する。具体的には、更新部１６０は、顔識別部１４０と音声識別部１５０とのうちの一方の識別部により個人が識別されず、且つ、顔識別部１４０と音声識別部１５０とのうちの他方の識別部により個人が識別された場合、学習データ記憶部１９０に記憶された顔学習データ１９１と音声学習データ１９２とのうちの、一方の識別部に対応する学習データを更新する。

ここで、個人が識別された場合とは、顔画像データ又は音声データが取得された個人を比較的高い精度で識別することに成功した場合である。具体的には、学習データ記憶部１９０に記憶された複数の個人の顔識別データ１９３又は音声識別データ１９４の中に、取得された顔画像データ又は音声データとの適合度が予め定められた閾値よりも高いものが存在する場合に相当する。これに対して、個人が識別されなかった場合とは、顔又は音声が取得された個人を比較的高い精度で識別することに失敗した場合である。具体的には、学習データ記憶部１９０に記憶された複数の個人の顔識別データ１９３又は音声識別データ１９４の中に、取得された顔画像データ又は音声データとの適合度が予め定められた閾値よりも高いものが存在しない場合に相当する。

また、顔識別部１４０と音声識別部１５０とのうちの一方の識別部により個人が識別されず、且つ、他方の識別部により個人が識別された場合とは、具体的には、顔識別部１４０による個人の識別に成功したにもかかわらず音声識別部１５０による個人の識別に失敗した場合、及び、音声識別部１５０による個人の識別に成功したにもかかわらず顔識別部１４０による個人の識別に失敗した場合である。前者の場合は、例えば加齢、風邪等の要因によりユーザの声が以前とは変化した場合に相当する。後者の場合は、例えば加齢、髪型の変化、化粧、マスクの装着等の要因によりユーザの顔が以前とは変化した場合に相当する。特に、ユーザが子供である場合には、時間の経過と共に顔も音声も変化し易いため、一方の識別部により識別されない状況が生じやすい。

一方の識別部により個人が識別されず、且つ、他方の識別部により個人が識別された場合、更新部１６０は、学習データ記憶部１９０において複数の個人のそれぞれについて記憶された顔学習データ１９１と音声学習データ１９２とのうちの、個人を識別できなかった一方の識別部に対応する一方の学習データを更新する。具体的に説明すると、更新部１６０は、個人の顔又は音声が以前とは変化したことに対応させるために、新たに取得された複数のデータである顔画像データと音声データとのうちの、個人を識別できなかった一方の識別部に対応する一方のデータに基づいて特徴量を抽出する。この一方のデータは、一方の識別部により個人が識別されなかったときにその個人の識別に用いられたデータである。言い換えると、一方のデータは、一方の識別部により取得されて個人の識別に用いられたが、学習データ記憶部１９０に記憶された顔識別データ１９３又は音声識別データ１９４の中に、適合度が閾値よりも高いものが存在しなかったデータである。更新部１６０は、一方のデータから特徴量を抽出すると、学習データ記憶部１９０に既に記憶されている学習データに、抽出された特徴量のデータを追加する。これにより、学習データ記憶部１９０に記憶されている学習データは、以前に抽出された特徴量に新たに抽出された特徴量が加味された新たな学習データに更新される。

例えば、ＩＤ「００１」の個人の顔画像データと音声データとが取得された場合において、顔識別部１４０により個人が識別されず、且つ、音声識別部１５０により個人が識別された場合、更新部１６０は、学習データ記憶部１９０に記憶されているＩＤ「００１」の個人の顔学習データ「データＡ０１」を、図５に示すように、新たな顔学習データ「データＡ１１」に更新する。これに対して、更新部１６０は、ＩＤ「００１」の個人の音声学習データ「データＡ０２」については、現状のデータのままでも個人の識別に成功しているため、更新しない。

このとき、更新部１６０は、学習データ記憶部１９０において複数の個人のそれぞれについて記憶された顔学習データ１９１と音声学習データ１９２とのうちの、他方の識別部により識別された個人に紐付けられた一方の学習データを更新する。言い換えると、更新部１６０は、学習データ記憶部１９０に記憶された複数の個人の学習データのうちの更新対象となる個人を特定するために、個人の識別に成功した他方の識別部による識別結果を用いる。

具体的に図５の例において、顔識別部１４０により個人が識別されず、且つ、音声識別部１５０により個人が識別された場合、更新部１６０は、学習データ記憶部１９０に記憶された複数の個人の顔学習データ１９１のうちのどの個人の顔学習データ１９１が更新対象であるかを、音声識別部１５０による識別結果を用いて特定する。例えば音声識別部１５０によりＩＤ「００１」の個人が識別された場合、更新部１６０は、このＩＤ「００１」の個人に紐付けられた顔学習データ１９１が更新対象であると特定する。このように、ロボット１００は、２つの識別部を備えているため、一方の識別部で個人を識別できなくても、他方の識別部による識別結果を用いることで、更新対象の学習データを容易に特定することができる。

このように、更新部１６０は、個人の顔又は音声の特徴が以前と比べて変化した場合に、新たな特徴で学習データ記憶部１９０に記憶された顔学習データ１９１又は音声学習データ１９２を更新する。これにより、顔学習データ１９１及び音声学習データ１９２が個人の顔及び音声の最新の特徴を反映するように更新されるため、学習用データとしての品質が強化される。

一方で、顔識別部１４０と音声識別部１５０との双方により個人が識別された場合、すなわち複数の識別部の全てにより個人が識別された場合、その個人の顔及び音声の特徴は大きく変化していないため、顔学習データ１９１及び音声学習データ１９２を更新する必要性は少ない。そのため、この場合、更新部１６０は、学習データ記憶部１９０に記憶された顔学習データ１９１と音声学習データ１９２とのどちらも更新しない。これにより、ロボット１００における処理を簡略化することができ、特に過学習による識別精度の低下を回避することができる。

また、顔識別部１４０と音声識別部１５０とのどちらによっても個人が識別されなかった場合、すなわち複数の識別部のいずれによっても個人が識別されなかった場合は、例えばロボット１００が初対面のユーザの顔及び音声を検出した場合のように、その個人の顔識別データ１９３及び音声識別データ１９４とがどちらも学習データ記憶部１９０に記憶されていない可能性が高い。そのため、この場合、更新部１６０は、顔学習データ１９１と音声学習データ１９２とを、学習データ記憶部１９０に記憶されていない新たな個人のＩＤに紐付けて記憶させる。言い換えると、更新部１６０は、その個人の顔学習データ１９１と音声学習データ１９２とを、学習データ記憶部１９０に新規に登録する。

なお、ロボット１００の周囲に複数のユーザが存在している場合、撮像部１１５ａにより撮像された顔画像と、音センサ１１５ｂにより検出された音声とが、同一のユーザのものでは無い可能性がある。このような場合であっても、顔識別部１４０と音声識別部１５０とにより同一のユーザを識別するようにするため、顔識別部１４０は、撮像部１１５ａにより取得された顔画像データに複数の顔画像が含まれている場合、複数の顔画像のそれぞれにおける唇の動きを解析する。そして、顔識別部１４０は、撮像部１１５ａにより取得された顔画像データに複数の顔画像が含まれている場合、その複数の顔画像のうちの、音声識別部１５０により音声データが取得された時に唇が動いている顔画像を、その音声データが取得されたユーザの顔画像であると判定し、その顔画像に基づいてユーザを識別する。

或いは、顔識別部１４０は、唇の動きからそのユーザが話している内容を読み取り、読み取った内容と、音声識別部１５０により取得された音声の内容とが一致した場合に、その顔画像を、その音声データが取得された個人の顔画像であると判定しても良い。このとき、複数のユーザにより同時に音声が発せられている場合には、音声識別部１５０は、音センサ１１５ｂにより検出された音声を音源分離することにより、複数のユーザのそれぞれが発している音声の内容を分析しても良い。

図３に戻って、学習部１７０は、学習データ記憶部１９０に記憶された顔学習データ１９１に基づいて、顔識別部１４０における個人の識別方法を学習する。また、学習部１７０は、学習データ記憶部１９０に記憶された音声学習データ１９２に基づいて、音声識別部１５０における個人の識別方法を学習する。学習部１７０は、制御部１１０が記憶部１１１と協働することにより実現される。学習部１７０は、学習手段として機能する。

具体的に説明すると、学習部１７０は、学習データ記憶部１９０に記憶された顔学習データ１９１を教師データとして用いて、個人の顔の特徴を学習する。一例として、学習部１７０は、ニューラルネットワークの手法を用いることができる。この場合、ニューラルネットワークは、個人の顔画像の特徴量が入力される入力層と、その顔画像が誰のものであるかの識別結果を出力する出力層と、１以上の中間層と、によって構成される。学習部１７０は、顔学習データ１９１により表される複数のタイミングにおける個人の顔画像の特徴量を入力層に入力し、出力層において出力される識別結果の正誤を判定する。そして、学習部１７０は、出力層において出力される識別結果の正解率がなるべく高くなるように、誤差逆伝播法等を用いて中間層におけるパラメータを調整する。学習部１７０は、このような処理により中間層のパラメータが最適化されたネットワーク（学習モデル）を得ると、得られたネットワークを表すデータを、その個人の顔を識別するための顔識別データ１９３として、その個人のＩＤに紐付けて、学習データ記憶部１９０に記憶させる。

また、学習部１７０は、学習データ記憶部１９０に記憶された音声学習データ１９２を教師データとして用いて、個人の音声の特徴を学習する。学習部１７０は、音声学習の場合にも、顔学習の場合と同様に、ニューラルネットワークの手法を用いることができる。学習部１７０は、学習により得られた音声識別データ１９４を、その個人のＩＤに紐付けて、学習データ記憶部１９０に記憶させる。

例えば、図５に示したように、更新部１６０によりＩＤ「００１」の個人の顔学習データ「データＡ０１」が新たな顔学習データ「データＡ１１」に更新された場合、学習部１７０は、その個人の顔識別データ「データＡ０３」を、新たな顔学習データ「データＡ１１」に基づいて学習した新たな顔識別データ「データＡ１３」に更新する。同様に、図示を省略するが、更新部１６０により音声学習データ１９２が更新された場合には、学習部１７０は、対応する個人の音声識別データ１９４を更新する。

なお、学習部１７０は、顔及び音声の特徴を学習するために、ニューラルネットワークに限らず、どのような学習アルゴリズムを用いても良い。例えば、学習部１７０は、サポートベクタマシン等のような周知の学習手法を用いることができる。生成された顔識別データ１９３は、顔識別部１４０が顔画像データと比較して適合度を計算するために用いられる。また、生成された音声識別データ１９４は、音声識別部１５０が音声データと比較して適合度を計算するために用いられる。

より詳細に説明すると、学習部１７０は、学習データ記憶部１９０に記憶されている複数の個人の顔学習データ１９１及び音声学習データ１９２のうちのいずれかが更新部１６０により更新されると、更新された学習データに基づいて識別方法を学習する。上述したように、更新部１６０は、一方の識別部により個人が識別されず、且つ、他方の識別部により個人が識別された場合、顔画像データと音声データとのうちの、一方の識別部により取得された一方のデータに基づいて、顔学習データ１９１又は音声学習データ１９２を更新する。このように更新部１６０により学習データが更新されると、学習部１７０は、対応する一方の識別部における個人の識別方法を学習する。言い換えると、学習部１７０は、顔画像データと音声データとのうちの、個人が識別されなかった一方の識別部により取得された一方のデータを用いて、一方の識別部における個人の識別方法を学習する。これにより、学習部１７０は、学習データ記憶部１９０に記憶されている顔識別データ１９３又は音声識別データ１９４を、個人の最新の特徴が反映されたデータに強化する。

学習部１７０により識別方法が学習された後、顔識別部１４０及び音声識別部１５０は、学習後の識別方法により、個人を識別する。個人の最新の特徴が反映された識別方法を用いることで、顔識別部１４０及び音声識別部１５０は、高い精度で個人を識別することができる。

以上のように構成されるロボット１００において実行される処理の流れについて、図６に示すフローチャートを参照して、説明する。

図６に示すロボット制御処理は、ロボット１００の電源が投入され、且つ、バッテリ１１２が充電されることによって、ロボット１００が正常に動作可能な状態になると、開始する。

ロボット制御処理を開始すると、制御部１１０は、人物の顔を検出したか否かを判定する（ステップＳ１）。具体的に説明すると、制御部１１０は、撮像部１１５ａによりロボット１００の周囲を撮像する。そして、制御部１１０は、撮像部１１５ａにより撮像された画像内に、人物の顔が含まれているか否かを、周知の顔検出の手法を用いて判定する。

顔を検出した場合（ステップＳ１；ＹＥＳ）、制御部１１０は、顔識別部１４０として機能し、検出された顔に対して顔識別処理を実行する（ステップＳ２）。具体的に説明すると、制御部１１０は、学習データ記憶部１９０に記憶された複数の個人の顔識別データ１９３を参照して、複数の個人の顔識別データ１９３のそれぞれについて、検出された顔画像との適合度を計算する。そして、制御部１１０は、学習データ記憶部１９０に記憶された複数の個人の顔識別データ１９３の中から、検出された顔画像と適合するデータを探索する。

一方で、顔を検出していない場合（ステップＳ１；ＮＯ）、制御部１１０は、ステップＳ２における顔識別処理をスキップする。

第２に、制御部１１０は、音声を検出したか否かを判定する（ステップＳ３）。具体的に説明すると、制御部１１０は、音センサ１１５ｂによりロボット１００の周囲で発生する音を検出する。そして、制御部１１０は、音センサ１１５ｂにより検出された音の中に、人物の音声が含まれているか否かを、周知の音声検出の手法を用いて判定する。

音声を検出した場合（ステップＳ３；ＹＥＳ）、制御部１１０は、音声識別部１５０として機能し、検出された音声に対して音声識別処理を実行する（ステップＳ４）。具体的に説明すると、制御部１１０は、学習データ記憶部１９０において複数の個人のそれぞれについて記憶された音声識別データ１９４を参照して、複数の個人の音声識別データ１９４のそれぞれについて、検出された音声との適合度を計算する。そして、制御部１１０は、学習データ記憶部１９０に記憶された複数の個人の音声識別データ１９４の中から、検出された音声と適合するデータを探索する。

一方で、音声を検出していない場合（ステップＳ３；ＮＯ）、制御部１１０は、ステップＳ４における音声識別処理をスキップする。

次に、制御部１１０は、ステップＳ１での顔検出、及びステップＳ３での音声検出において、同一ユーザの顔と音声とをどちらも検出したか否かを判定する（ステップＳ５）。具体的に説明すると、ロボット１００の周囲に１人のユーザのみ存在している場合において、ステップＳ１で顔を検出し、且つ、ステップＳ３で音声を検出した場合、制御部１１０は、同一ユーザの顔と音声とをどちらも検出したと判定する。これに対して、ロボット１００の周囲に複数のユーザが存在している場合、制御部１１０は、撮像部１１５ａにより撮像された顔画像における唇が動いているタイミングと、音センサ１１５ｂで音声を検出したタイミングとが、所定の誤差範囲内で合致しているかを判定することにより、同一ユーザの顔と音声とをどちらも検出したか否かを判定する。

同一ユーザの顔と音声との少なくとも一方を検出していないと判定した場合（ステップＳ５；ＮＯ）、制御部１１０は、ステップＳ６以降の処理をスキップして、処理をステップＳ１に戻す。一方で、同一ユーザの顔と音声とをどちらも検出したと判定した場合（ステップＳ５；ＹＥＳ）、制御部１１０は、ステップＳ２での顔識別処理、及びステップＳ４での音声識別処理の結果を判定する（ステップＳ６）。具体的に説明すると、制御部１１０は、学習データ記憶部１９０に顔識別データ１９３及び音声識別データ１９４が記憶された複数の個人の中に、顔識別における適合度が予め定められた閾値よりも高く、且つ、音声識別における適合度が予め定められた閾値よりも高い個人が存在するか否かを判定する。

判定の結果、顔識別における適合度と音声識別における適合度とがどちらも低い場合（ステップＳ６；顔：低、音声：低）、制御部１１０は、初期登録の処理を実行する（ステップＳ７）。この場合は、顔識別と音声識別とのどちらにおいても適合度が閾値よりも高いユーザが学習データ記憶部１９０に記憶されていない場合であって、例えばロボット１００が初対面のユーザの顔及び音声を検出した場合に相当する。ステップＳ７における初期登録の処理の詳細については、図７に示すフローチャートを参照して説明する。

図７に示す初期登録処理を開始すると、制御部１１０は、ユーザの名前を要求する（ステップＳ７０１）。例えば、制御部１１０は、動作データ記憶部１８０に出力音声データ１８１として予め記憶されている「お名前を教えて下さい」等の内容の音声を、音声出力部１１８を介して出力する。これにより、制御部１１０は、ユーザに自身の名前を発声するように要求する。

ユーザの名前を要求すると、制御部１１０は、ステップＳ７０１での要求に応答してユーザから発せられる音声を、音センサ１１５ｂにより取得する（ステップＳ７０２）。音声を取得すると、制御部１１０は、取得した音声を認識してユーザの名前を特定する（ステップＳ７０３）。例えばユーザから「私はＸＸＸです」との音声が発せられた場合、制御部１１０は、取得した音声に対して音声認識を実行し、取得した音声をテキストに変換する。そして、制御部１１０は、テキストに変換された音声から名前に該当する「ＸＸＸ」の部分を切り出す。これにより、制御部１１０は、ユーザの名前を特定する。

ユーザの名前を特定すると、制御部１１０は、更新部１６０として機能し、特定した名前を、このユーザの顔学習データ１９１及び音声学習データ１９２と紐付けて、学習データ記憶部１９０に保存する（ステップＳ７０４）。具体的に説明すると、制御部１１０は、ステップＳ１で検出された顔画像データに基づいてユーザの顔の特徴を表す顔学習データ１９１を生成し、ステップＳ３で検出された音声データに基づいてユーザの音声の特徴を表す音声学習データ１９２を生成する。そして、制御部１１０は、他のユーザと区別可能なＩＤを付与して、生成した顔学習データ１９１及び音声学習データ１９２を、学習データ記憶部１９０に保存する。これにより、新たなユーザの学習データが学習データ記憶部１９０に新規に登録される。

顔学習データ１９１及び音声学習データ１９２を保存すると、制御部１１０は、学習部１７０として機能し、保存された顔学習データ１９１及び音声学習データ１９２に基づいて、そのユーザの顔及び音声を学習する（ステップＳ７０５）。具体的に説明すると、制御部１１０は、学習データ記憶部１９０に新たに保存された顔学習データ１９１及び音声学習データ１９２を教師データとして用いて顔及び音声の特徴を学習する。そして、制御部１１０は、学習した結果を示す顔識別データ１９３及び音声識別データ１９４を、対応するユーザのＩＤに紐付けて学習データ記憶部１９０に記憶させる。以上により、図７に示した初期登録処理は終了する。

なお、制御部１１０は、特定した名前を学習データ記憶部１９０に保存する前に、特定した名前が正しいか否かをユーザに確認しても良い。例えば、制御部１１０は、ステップＳ７０３においてユーザの名前を特定すると、特定した名前に予め用意された名前確認用の定型文を組み合わせて、「○○さんですか？」等の音声を音声出力部１１８から出力する。そして、このような確認に対して、ユーザから同意を示す音声を音センサ１１５ｂにより取得できた場合に、特定した名前を、ユーザの顔画像データ及び音声データと紐付けて学習データ記憶部１９０に保存しても良い。

図６に戻って、ステップＳ６において、顔識別における適合度が高く、且つ、音声識別における適合度が低い場合（ステップＳ６；顔：高、音声：低）、制御部１１０は、音声を学習する（ステップＳ８）。この場合は、顔識別における適合度が閾値よりも高いユーザが学習データ記憶部１９０に記憶されており、且つ、音声識別における適合度が閾値よりも高いユーザが学習データ記憶部１９０に記憶されていない場合であって、具体的にはユーザの声が以前とは変化した場合に相当する。ステップＳ８における音声学習処理の詳細については、図８に示すフローチャートを参照して説明する。

図８に示す音声学習処理を開始すると、制御部１１０は、ユーザの音声の特徴量を抽出する（ステップＳ８０１）。具体的に説明すると、制御部１１０は、ステップＳ３で検出された音声を解析することにより、音圧、ピッチ等の音声の特徴量を抽出する。

音声の特徴量を抽出すると、制御部１１０は、更新部１６０として機能し、学習データ記憶部１９０に記憶された音声学習データ１９２を更新する（ステップＳ８０２）。具体的に説明すると、制御部１１０は、抽出した特徴量により、ステップＳ２での顔識別により識別された個人のＩＤと紐付けられた音声学習データ１９２を更新する。これにより、制御部１１０は、学習データ記憶部１９０に記憶された音声学習データ１９２を、ユーザの音声の最新の特徴を反映したものに強化する。

音声学習データ１９２を更新すると、制御部１１０は、学習部１７０として機能し、更新後の音声学習データ１９２に基づいてユーザの音声を学習する（ステップＳ８０３）。具体的に説明すると、制御部１１０は、ユーザの音声の最新の特徴が反映された音声学習データ１９２を教師データとして用いて音声の特徴を再学習し、再学習した結果を示す音声識別データ１９４を、対応するユーザのＩＤに紐付けて学習データ記憶部１９０に記憶させる。以上により、図８に示した音声学習処理は終了する。

図６に戻って、ステップＳ６において、顔識別における適合度が低く、且つ、音声識別における適合度が高い場合（ステップＳ６；顔：低、音声：高）、制御部１１０は、個人の顔を学習する（ステップＳ９）。この場合は、顔識別における適合度が閾値よりも高いユーザが学習データ記憶部１９０に記憶されておらず、且つ、音声識別における適合度が閾値よりも高いユーザが学習データ記憶部１９０に記憶されている場合であって、具体的にはユーザの顔が以前とは変化した場合に相当する。ステップＳ９における顔学習処理の詳細については、図９に示すフローチャートを参照して説明する。

図９に示す顔学習処理を開始すると、制御部１１０は、ユーザの顔の特徴量を抽出する（ステップＳ９０１）。具体的に説明すると、制御部１１０は、ステップＳ１で検出された顔画像における輝度の分布を解析することにより、目、鼻、口、耳等により形成される顔の特徴量を抽出する。

顔の特徴量を抽出すると、制御部１１０は、更新部１６０として機能し、学習データ記憶部１９０に記憶された顔学習データ１９１を更新する（ステップＳ９０２）。具体的に説明すると、制御部１１０は、抽出した特徴量により、ステップＳ４での音声識別により識別された個人のＩＤと紐付けられた顔学習データ１９１を更新する。これにより、制御部１１０は、学習データ記憶部１９０に記憶された顔学習データ１９１を、ユーザの顔の最新の特徴を反映したものに強化する。

顔学習データ１９１を更新すると、制御部１１０は、学習部１７０として機能し、更新後の顔学習データ１９１に基づいてユーザの顔を学習する（ステップＳ９０３）。具体的に説明すると、制御部１１０は、ユーザの顔の最新の特徴が反映された顔学習データ１９１を教師データとして用いて顔の特徴を再学習し、再学習した結果を示す顔識別データ１９３を、対応するユーザのＩＤに紐付けて学習データ記憶部１９０に記憶させる。以上により、図９に示した顔学習処理は終了する。

図６に戻って、ステップＳ６において、顔識別における適合度と音声識別における適合度とがどちらも高い場合（ステップＳ６；顔：高、音声：高）、制御部１１０は、初期登録、音声学習処理、及び、顔学習処理のいずれの処理も実行しない。この場合は、顔識別と音声識別とのどちらにおいても適合度が閾値よりも高いユーザが学習データ記憶部１９０に記憶されている場合に相当する。

ステップＳ６において、顔識別における適合度と音声識別における適合度とのうちの少なくとも一方が高い場合、すなわち顔識別と音声識別とのうちの少なくとも一方によりユーザが識別された場合、制御部１１０は、動作制御部１３０として機能し、識別されたユーザとの対話文を生成して音声出力する（ステップＳ１０）。具体的に説明すると、制御部１１０は、識別されたユーザとコミュニケーションするための対話文を、出力音声データ１８１に記憶されているテキストを組み合わせて生成し、生成した対話文に対応する音声を合成して音声出力部１１８から出力する。これにより、制御部１１０は、識別されたユーザとコミュニケーションを図る。

その後、制御部１１０は、処理をステップＳ１に戻し、ステップＳ１からステップＳ１０の処理を繰り返す。このように、制御部１１０は、ロボット１００の周囲のユーザとコミュニケーションしながら、ユーザの顔画像データ及び音声データを取得し、学習データ記憶部１９０に記憶された顔学習データ１９１及び音声学習データ１９２を更新する。

以上説明したように、実施形態１に係るロボット１００及び識別装置１２０は、顔識別部１４０と音声識別部１５０とを備え、一方の識別部により個人が識別されず、且つ、他方の識別部により個人が識別された場合、一方の識別部に対応する学習データを更新し、更新された学習データに基づいて一方の識別部における個人の識別方法を学習する。このように、他方の識別部により個人を識別しつつ、一方の識別部により個人が識別されなかった場合にその個人の特徴を学習し直すため、ロボット１００及び識別装置１２０は、成長、加齢又はその他の要因により個人の特徴が時間の経過と共に変化した場合でも、個人を適切に識別することができる。

また、実施形態１に係るロボット１００は、種類が異なる２つの識別部を備えているため、一方の識別部でユーザを識別できない状況であっても、他方の識別部でユーザを識別できた場合に、ユーザとコミュニケーションをとりながら、一方の識別部の識別方法を学習するための学習データを収集することができる。そのため、ロボット１００は、自然な振る舞いの中で、またユーザに意識させること無く、識別精度を向上させるための多数の学習データを収集することができる。

また、実施形態１に係るロボット１００及び識別装置１２０は、個人が識別されなかった一方の識別部における個人の識別方法を、一方の識別部により取得された顔画像データ又は音声データを用いて学習する。これにより、２つの識別部のうちの個人が識別されなかった識別部における識別の精度を的確に向上させることができる。特に、実施形態１に係るロボット１００及び識別装置１２０は、個人が識別されなかった一方の識別部における個人の識別方法を、一方の識別部により個人が識別されなかったときにその個人の識別に用いられたデータを用いて学習する。そのため、個人から取得されたデータを有効に利用しつつ、識別の精度を向上させることができる。

また、実施形態１において、学習データ記憶部１９０には、複数の個人のそれぞれについて、顔学習データ１９１と音声学習データ１９２とが紐付けられて記憶されており、更新部１６０は、一方の識別手段により個人が識別されず、且つ、他方の識別手段により個人が識別された場合、学習データ記憶部１９０において複数の個人のそれぞれについて記憶された顔学習データ１９１と音声学習データ１９２とのうちの、他方の識別手段により識別された個人に紐付けられた一方の学習データを更新する。これにより、一方の識別部により個人が識別されなかった場合であっても、他方の識別部により個人が識別されているため、複数の個人のうちのどの個人の学習データ１９１が更新対象であるかを的確に特定することができる。

（実施形態２）
次に、本発明の実施形態２について説明する。

上記実施形態１では、更新部１６０は、顔識別部１４０による顔識別に用いられた顔画像データに基づいて、学習データ記憶部１９０に記憶された顔学習データ１９１を更新した。また、更新部１６０は、音声識別部１５０による音声識別に用いられた音声データに基づいて、学習データ記憶部１９０に記憶された音声学習データ１９２を更新した。しかしながら、顔識別に用いられた顔画像データ、又は、音声識別に用いられた音声データだけでは、学習データを更新するためのデータとして十分でない場合もある。そこで、実施形態２では、学習データを更新するために適したデータを取得するために、動作制御部１３０は、更新部１６０により更新されるデータを取得し易くするための動作をロボット１００に実行させる。

具体的に説明すると、動作制御部１３０は、顔識別部１４０と音声識別部１５０との一方の識別部により個人が識別されず、且つ、他方の識別部により個人が識別された場合、他方の識別部により識別された個人と対話するための動作をロボット１００に実行させる。例えば、動作制御部１３０は、「あなたは昨日、何をしていましたか？」、「今日の予定は何ですか？」等のような識別された個人と対話するための音声を音声出力部１１８から出力する。或いは、動作制御部１３０は、可動部１１４を動かす、又は表示部１１７に画像を表示させて個人の注意を引くことにより、個人と対話をしても良い。

更新部１６０は、一方の識別部により個人が識別されず、且つ、他方の識別部により個人が識別された場合、ロボット１００により実行された動作に対する個人の応答に基づいて、学習データ記憶部１９０に記憶された顔学習データ１９１又は音声学習データ１９２を更新する。具体的に説明すると、ロボット１００により実行された動作に対して、識別された個人は、例えばロボット１００と対話をするため音声を発する、ロボット１００の方に顔を向ける等のように応答する。更新部１６０は、このような個人との対話の中で、個人の顔画像データ又は音声データを、撮像部１１５ａ又は音センサ１１５ｂを介して取得する。そして、更新部１６０は、取得した顔画像データ又は音声データから特徴を抽出し、抽出した特徴により学習データ記憶部１９０に記憶された顔学習データ１９１又は音声学習データ１９２を更新する。

図１０に、実施形態２に係るロボット１００により実行される音声学習処理の流れを示す。実施形態２に係るロボット１００は、図６に示した処理のステップＳ８において、実施形態１において図８に示した音声学習処理の代わりに、図１０に示す音声学習処理を実行する。

図１０に示す音声学習処理を開始すると、制御部１１０は、動作制御部１３０として機能し、ユーザに対する対話文を生成し、対応する音声を出力する（ステップＳ８１１）。具体的に説明すると、制御部１１０は、動作データ記憶部１８０に記憶された出力音声データ１８１のうちから、雑談等の任意の内容のテキストを取得する。そして、制御部１１０は、取得したテキストを音声合成により音声に変換し、合成した音声を音声出力部１１８から出力する。

音声を出力すると、制御部１１０は、出力した音声に応答してユーザが発する音声を音センサ１１５ｂにより取得する（ステップＳ８１２）。そして、制御部１１０は、取得した音声を認識し、認識した音声の内容に応答する応答文を生成して、対応する音声を出力する（ステップＳ８１３）。具体的に説明すると、制御部１１０は、ユーザから取得した音声に対する応答として不自然でない内容のテキストを出力音声データ１８１から取得する。そして、制御部１１０は、取得したテキストを音声合成により音声に変換して、合成した音声を音声出力部１１８から出力する。このようにして、制御部１１０は、顔を識別したユーザと対話する。制御部１１０は、ステップＳ８１２及びステップＳ８１３の処理を適宜繰り返す。これにより、制御部１１０は、ユーザと対話しながら、音声を学習するために適したユーザの音声を収集する。

ステップＳ８１２及びステップＳ８１３の処理を繰り返す中でユーザの音声を取得すると、制御部１１０は、更新部１６０として機能し、ユーザの音声の特徴量を抽出し（ステップＳ８１４）、学習データ記憶部１９０に記憶された音声学習データ１９２を更新する（ステップＳ８１５）。音声学習データ１９２を更新すると、制御部１１０は、学習部１７０として機能し、更新後の音声学習データ１９２に基づいてユーザの音声を学習する（ステップＳ８１６）。ステップＳ８１４からステップＳ８１６の処理は、図８に示したステップＳ８０１からステップＳ８０３の処理と同様であるため、説明を省略する。以上により、図１０に示した音声学習処理は終了する。

なお、ステップＳ９における顔学習処理についても、図１０に示した音声学習処理と同様に説明することができる。すなわち、制御部１１０は、ステップＳ９において、実施形態１において図９に示した顔学習処理の代わりに、ユーザと対話をする中で顔画像データを取得し、取得した顔画像データに基づいて顔学習データ１９１を更新する。

このように、実施形態２に係るロボット１００は、一方の識別部により個人が識別されず、且つ、他方の識別部により個人が識別された場合、更新部１６０が学習データを更新することに先立って、他方の識別部により識別された個人と対話するための動作をロボット１００に実行させる。そして、ロボット１００は、識別された個人と対話する中で取得された顔画像データ又は音声データに基づいて、学習データ記憶部１９０に記憶された学習データを更新する。これにより、顔識別に用いられた顔画像データ、又は、音声識別に用いられた音声データだけを用いるよりも、学習データとしてより適した、個人の特徴を顕著に表すデータを取得し易くなる。そのため、ロボット１００は、ユーザに違和感を持たれない自然な振る舞いの中で、より質の良い学習データを収集することができる。

（実施形態３）
次に、本発明の実施形態３について説明する。

上記実施形態１，２では、学習部１７０は、１人の個人に対して、顔識別部１４０における識別方法と音声識別部１５０における識別方法とをそれぞれ１つずつ学習した。しかしながら、同じユーザでも、状況に応じて顔又は音声の特徴が変化する場合がある。そのため、実施形態３では、学習部１７０は、顔識別部１４０と音声識別部１５０とのそれぞれにおける個人の識別方法を、複数の所定の条件の各々が成立しているときに、条件ごとに学習する。

実施形態３に係るロボット１００は、図４に示した学習データ記憶部１９０に代えて、例えば図１１に示す学習データ記憶部１９０ａを備える。図１１に示すように、学習データ記憶部１９０ａは、複数の個人のそれぞれについて、顔学習データ１９１と音声学習データ１９２と顔識別データ１９３と音声識別データ１９４とを、「春」と「春以外」という２つの時期に分けて記憶している。ここで、「春」とは例えば３月から６月の期間に相当し、「春以外」とはそれ以外の期間に相当する。しかしながら、時期の定義は適宜変更することができる。

このように、「春」と「春以外」とで学習データ及び識別データを分けるのは、「春」の時期には花粉症等の要因でユーザがマスクを装着していることが多く、マスクを装着している場合とマスクを装着していない場合とで、同じユーザであっても顔画像の特徴が異なるからである。また、音声についても同様に、花粉症等の要因で、同じユーザであっても特徴が異なる場合があるからである。

更新部１６０は、顔識別部１４０と音声識別部１５０とのうちの一方の識別部により個人が識別されず、且つ、他方の識別部によりその個人が識別された場合、一方の識別部により取得された顔画像データ又は音声データに基づいて、学習データ記憶部１９０ａに記憶された顔学習データ１９１又は音声学習データ１９２を更新する。このとき、更新部１６０は、顔画像データ又は音声データが取得された時期が「春」であるか「春以外」であるかに応じて、互いに異なる学習データを更新する。

具体的に、名前が「ＡＡＡ」である個人の顔学習データ１９１を更新する場合について説明する。なお、音声学習データ１９２を更新する場合についても同様に説明可能である。更新部１６０は、顔画像データが取得された時期が「春」である場合には、図１１における「データＡ０１」を更新し、顔画像データが取得された時期が「春以外」である場合には、図１１における「データＡ１１」を更新する。学習部１７０は、学習データ記憶部１９０ａに記憶された２通りの顔学習データ１９１のそれぞれに基づいて、互いに異なる２通りの識別方法を学習する。学習された２通りの学習方法は、それぞれ異なる２通りの顔識別データ１９３（例えば図１１における「データＡ０３」と「データＡ１３」）として学習データ記憶部１９０ａに記憶される。

顔識別部１４０は、撮像部１１５ａによりその個人を表す新たな顔画像データを取得すると、学習部１７０により学習された２通りの識別方法のうちの、新たな顔画像データが取得された時期に対応する一の識別方法に基づいて、その個人を識別する。例えば、顔識別部１４０は、新たな顔画像データが「春」に取得された場合、「春」用の識別方法に基づいて個人を識別し、新たな顔画像データが「春以外」に取得された場合、「春以外」用の識別方法に基づいて個人を識別する。

このように、実施形態３に係るロボット１００及び識別装置１２０は、顔識別部１４０及び音声識別部１５０における個人の識別方法を、時期に応じて複数通り学習する。そして、その個人を表す新たな顔画像データ又は音声データを取得すると、複数通りの識別方法のうちの、新たな顔画像データ又は音声データが取得された時期に対応する一の識別方法に基づいて、その個人を識別する。これにより、個人の特徴が状況に応じて変化しても識別に失敗することを抑制することができるため、識別の精度をより向上させることができる。

なお、学習データ記憶部１９０ａに記憶される学習データの時期の分け方は、「春」又は「春以外」に限らず、「昼」又は「夜」で分けても良い。或いは、例えば周囲の環境、ユーザの状況等のような、時期以外の様々な条件によって学習データを分けても良い。また、学習部１７０は、顔識別部１４０と音声識別部１５０とのうちのいずれか一方の識別部のみにおける個人の識別方法を所定の条件ごとに学習する一方で、他方の識別部における個人の識別方法を、条件ごとに分けずに、すなわち実施形態１，２と同様の方法で識別方法を学習しても良い。言い換えると、学習部１７０は、複数の識別部のうちの少なくとも１つの識別部における個人の識別方法を、複数の所定の条件の各々が成立しているときに、所定の条件ごとに学習する。そして、少なくとも１つの識別部が、個人を表す新たなデータを取得すると、学習部１７０により学習された複数の所定の条件に対応する複数の識別方法のうちの、新たなデータが取得されたときの条件に対応する一の識別方法に基づいて、個人を識別する。

（変形例）
以上に本発明の実施形態について説明したが、上記実施形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、本発明の実施形態は種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。

例えば、上記実施形態では、家庭用のロボット１００が識別装置１２０を備えていた。しかしながら、本発明において、識別装置１２０は、ロボット１００以外の機器に設置され、ロボット１００以外の用途に使用されても良い。例えば、識別装置１２０は、建物又は部屋の入口に設置され、建物又は部屋に入るユーザを識別（認証）する用途に使用されても良い。或いは、識別装置１２０は、パーソナルコンピュータ、スマートフォン等の情報機器に搭載され、情報機器を使用するユーザを識別（認証）する用途に使用されても良い。

上記実施形態では、ロボット１００が、識別装置１２０の一部として学習データ記憶部１９０及び学習部１７０を備えていた。しかしながら、本発明において、学習データ記憶部１９０及び学習部１７０は、ロボット１００に備えられていなくても良い。言い換えると、顔識別部１４０及び音声識別部１５０を備える装置と、学習データ記憶部１９０及び学習部１７０を備える装置とが、別であっても良い。

例えば、図１２に示すように、学習データ記憶部１９０及び学習部１７０は、ロボット１００ａには備えられず、ロボット１００ａの外部の学習サーバ２００に備えられていても良い。学習サーバ２００は、例えばクラウドサーバ等のような、ロボット１００ａと広域ネットワークで通信可能に接続されたサーバである。この場合、ロボット１００ａにおける顔識別部１４０、音声識別部１５０及び更新部１６０と、学習サーバ２００における学習部１７０及び学習データ記憶部１９０と、が協働することにより、識別装置１２０として機能する。

図１２に示すロボット１００ａにおいて、更新部１６０は、無線通信部１１６を介して学習サーバ２００と通信することにより、学習データ記憶部１９０に記憶されている顔学習データ１９１又は音声学習データ１９２を更新する。学習サーバ２００において、学習部１７０は、学習データ記憶部１９０に記憶されている顔学習データ１９１又は音声学習データ１９２（図３参照）が更新されると、更新後の顔学習データ１９１又は音声学習データ１９２に基づいて、顔識別部１４０及び音声識別部１５０における識別方法を学習する。ロボット１００ａにおいて、顔識別部１４０は、学習部１７０により学習された結果を示す顔識別データ１９３を学習サーバ２００から受信し、受信した顔識別データ１９３に基づいて個人を識別する。また、音声識別部１５０は、学習部１７０により学習された結果を示す音声識別データ１９４を学習サーバ２００から受信し、受信した音声識別データ１９４に基づいて個人を識別する。このように、相対的に負荷が大きい学習部１７０による学習処理をロボット１００ａの外部で実行することにより、ロボット１００ａでの計算負荷を軽減することができ、ロボット１００ａの構成を簡略化することができる。

なお、図１２に示すように、学習部１７０により学習された結果を、ロボット１００ａ以外の他のロボット１００ｂが利用しても良い。言い換えると、ロボット１００ａと同様の機能を有する他のロボット１００ｂが、学習サーバ２００で学習された顔識別データ１９３及び音声識別データ１９４を学習サーバ２００から受信し、受信した顔識別データ１９３及び音声識別データ１９４に基づいて個人を識別しても良い。このように、学習のもとになる顔画像データ及び音声データを収集した装置（ロボット１００ａ）とは異なる装置（ロボット１００ｂ）でも学習結果を利用できるようにすることで、利便性が向上する。

上記実施形態では、顔識別部１４０及び音声識別部１５０は、それぞれ顔画像データ及び音声データに基づいて、学習データ記憶部１９０に学習データが記憶された複数の個人のうちから個人を識別した。しかしながら、学習データ記憶部１９０には１人の個人の学習データのみ記憶されていても良い。この場合、顔識別部１４０及び音声識別部１５０は、顔又は音声が検出された個人が、学習データ記憶部１９０に学習データが記憶された１人の個人に該当するか否かを識別することにより、個人を認証する。言い換えると、顔識別部１４０及び音声識別部１５０による個人の識別は、いわゆる個人を認証することを含んでも良い。

上記実施形態では、顔識別部１４０は、顔画像により個人を識別し、音声識別部１５０は、音声により個人を識別した。しかしながら、顔識別部１４０及び音声識別部１５０による識別の組み合わせは、これに限らない。顔識別部１４０及び音声識別部１５０は、それぞれ互いに異なる特徴を表すデータであれば、顔画像又は音声以外の特徴を表すデータに基づいて個人を識別しても良い。

また、ロボット１００及び識別装置１２０は、顔識別部１４０及び音声識別部１５０以外の第３の識別部を備えていても良い。第３の識別部は、一例として、網膜により個人を識別する網膜識別部であっても良い。ロボット１００及び識別装置１２０が３つ以上の識別部（識別手段）を備える場合であっても、上記実施形態と同様の構成を適用することができる。すなわち、ロボット１００及び識別装置１２０は、個人を表す互いに異なるデータをそれぞれ取得し、取得したデータに基づいて前記個人を識別する３つ以上の識別部を備えていても良い。この場合、学習部１７０は、３つ以上の識別部のうちのいずれか１つ以上の識別部により個人が識別されず、且つ、３つ以上の識別部のうちの残りの１つ以上の識別部により個人が識別された場合、個人が識別されなかったいずれか１つ以上の識別部における個人の識別方法を学習する。

具体的に説明すると、３つ以上の識別部のうちの２つ以上の識別部により個人が識別されず、且つ、残りの１つの識別部により個人が識別された場合、学習部１７０は、個人が識別されなかった２つ以上の識別部のそれぞれにおける個人の識別方法を学習しても良い。この場合、個人が識別されなかった２つ以上の識別部が上記実施形態における一方の識別部に対応し、個人が識別された１つの識別部が上記実施形態における他方の識別部に対応するとして、上記実施形態と同様に説明可能である。

或いは、３つ以上の識別部のうちの１つの識別部により個人が識別されず、且つ、残りの２つ以上の識別部により個人が識別された場合、学習部１７０は、個人が識別されなかった１つの識別部における個人の識別方法を学習しても良い。この場合、個人が識別されなかった１つの識別部が上記実施形態における一方の識別部に対応し、個人が識別された２つ以上の識別部が上記実施形態における他方の識別部に対応するとして、上記実施形態と同様に説明可能である。

また、更新部１６０は、学習データ記憶部１９０に記憶された顔学習データ１９１又は音声学習データ１９２を更新する際に、現時点から所定時間よりも過去に取得された学習データを、学習部１７０により学習される教師データから除外しても良い。このように取得された時期が古いデータを教師データから除外することで、ユーザの現在の状態に対しての識別性能を向上させることが可能になる。

上記実施形態では、ロボット１００は、犬を模したロボットであった。しかしながら、本発明に係るロボット１００は、どのような形状を有していても良い。例えば、本発明に係るロボット１００は、外観的に他の動物を模していても良いし、人間を模していても良い。また、表示部１１７は目部１０４以外の場所に設けられていても良いし、撮像部１１５ａは口部１０５以外の場所（例えば鼻部等）に設けられていても良い。その他の部位についても、上記実施形態で説明した形態に限らない。

上記実施形態では、制御部１１０において、ＣＰＵがＲＯＭに記憶されたプログラムを実行することによって、図３に示した各部として機能した。しかしながら、本発明において、制御部１１０は、ＣＰＵの代わりに、例えばＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、又は、各種制御回路等の専用のハードウェアを備え、専用のハードウェアが、図３に示した各部として機能しても良い。この場合、各部の機能それぞれを個別のハードウェアで実現しても良いし、各部の機能をまとめて単一のハードウェアで実現しても良い。また、各部の機能のうちの、一部を専用のハードウェアによって実現し、他の一部をソフトウェア又はファームウェアによって実現しても良い。なお、これら専用のハードウェア及びＣＰＵを含む各機能を実行する主体を総称してプロセッサと呼ぶことができる。

なお、本発明に係る機能を実現するための構成を予め備えた識別装置又はロボットとして提供できることはもとより、プログラムの適用により、既存の情報処理装置等を、本発明に係る識別装置又はロボットとして機能させることもできる。すなわち、上記実施形態で例示した識別装置１２０又はロボット１００，１００ａによる各機能構成を実現させるためのプログラムを、既存の情報処理装置等を制御するＣＰＵ等が実行できるように適用することで、本発明に係る識別装置又はロボットとして機能させることができる。

また、このようなプログラムの適用方法は任意である。プログラムを、例えば、フレキシブルディスク、ＣＤ（Compact Disc）－ＲＯＭ、ＤＶＤ（Digital Versatile Disc）－ＲＯＭ、メモリカード等のコンピュータ読み取り可能な記憶媒体に格納して適用できる。さらに、プログラムを搬送波に重畳し、インターネットなどの通信媒体を介して適用することもできる。例えば、通信ネットワーク上の掲示板（ＢＢＳ：Bulletin Board System）にプログラムを掲示して配信してもよい。そして、このプログラムを起動し、ＯＳ（Operating System）の制御下で、他のアプリケーションプログラムと同様に実行することにより、上記の処理を実行できるように構成してもよい。

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
（付記１）
個人を表す互いに異なるデータをそれぞれ取得し、取得したデータに基づいて前記個人を識別する複数の識別手段と、
前記複数の識別手段のうちのいずれかの識別手段により前記個人が識別されず、且つ、前記複数の識別手段のうちの残りの識別手段により前記個人が識別された場合、前記いずれかの識別手段における前記個人の識別方法を学習する学習手段と、
を備えることを特徴とする識別装置。
（付記２）
前記学習手段は、前記いずれかの識別手段における前記個人の識別方法を、前記複数の識別手段によりそれぞれ取得された複数のデータのうちの、前記いずれかの識別手段により取得されたデータを用いて学習する、
ことを特徴とする付記１に記載の識別装置。
（付記３）
前記いずれかの識別手段により前記個人の識別方法の学習に用いられたデータは、前記いずれかの識別手段により前記個人が識別されなかったときに前記個人の識別に用いられたデータである、
ことを特徴とする付記２に記載の識別装置。
（付記４）
前記個人の互いに異なる特徴をそれぞれ表す複数の学習データが紐付けて記憶された学習データ記憶手段と、
前記いずれかの識別手段により前記個人が識別されず、且つ、前記残りの識別手段により前記個人が識別された場合、前記学習データ記憶手段に記憶された前記複数の学習データのうちの、前記いずれかの識別手段に対応する学習データを更新する更新手段と、
を更に備え、
前記学習手段は、前記更新手段により更新された前記学習データに基づいて、前記いずれかの識別手段における前記個人の識別方法を学習する、
ことを特徴とする付記１から３のいずれか１つに記載の識別装置。
（付記５）
前記更新手段は、前記いずれかの識別手段により前記個人が識別されず、且つ、前記残りの識別手段により前記個人が識別された場合、前記複数の識別手段によりそれぞれ取得された複数のデータのうちの、前記いずれかの識別手段により取得されたデータに基づいて、前記学習データ記憶手段に記憶された前記いずれかの識別手段に対応する学習データを更新する、
ことを特徴とする付記４に記載の識別装置。
（付記６）
前記学習データ記憶手段には、複数の個人のそれぞれについて、前記複数の学習データが紐付けられて記憶され、
前記更新手段は、前記いずれかの識別手段により前記個人が識別されず、且つ、前記残りの識別手段により前記個人が識別された場合、前記学習データ記憶手段において前記複数の個人のそれぞれについて記憶された前記複数の学習データのうちの、前記残りの識別手段により識別された前記個人に紐付けられた前記学習データを更新する、
ことを特徴とする付記４又は５に記載の識別装置。
（付記７）
前記複数の識別手段として、前記個人の顔を表す顔画像データを取得し、取得した前記顔画像データに基づいて前記個人を識別する顔識別手段と、前記個人の音声を表す音声データを取得し、取得した前記音声データに基づいて前記個人を識別する音声識別手段と、を備える、
ことを特徴とする付記１から６のいずれか１つに記載の識別装置。
（付記８）
前記顔識別手段は、前記顔画像データに複数の顔画像が含まれている場合、前記複数の顔画像のうちの、前記音声識別手段により前記音声データが取得された期間に唇が動いている顔画像を、前記音声データが取得された前記個人の顔画像であると判定する、
ことを特徴とする付記７に記載の識別装置。
（付記９）
前記学習手段は、前記複数の識別手段のうちの少なくとも１つの識別手段における前記個人の識別方法を、複数の所定の条件の各々が成立しているときに、前記所定の条件ごとに学習し、
前記少なくとも１つの識別手段は、前記個人を表す新たなデータを取得すると、前記学習手段により学習された前記複数の所定の条件に対応する複数の識別方法のうちの、前記新たなデータが取得されたときの条件に対応する一の識別方法に基づいて、前記個人を識別する、
ことを特徴とする付記１から８のいずれか１つに記載の識別装置。
（付記１０）
個人を表す互いに異なるデータをそれぞれ取得し、取得したデータに基づいて前記個人を識別する複数の識別手段と、
前記複数の識別手段のうちの少なくとも１つの識別手段により前記個人が識別された場合、前記個人に応じた動作を自装置に実行させる動作制御手段と、
前記複数の識別手段のうちのいずれかの識別手段により前記個人が識別されず、且つ、前記複数の識別手段のうちの残りの識別手段により前記個人が識別された場合、前記いずれかの識別手段における前記個人の識別方法を学習するための学習データを更新する更新手段と、
を備えることを特徴とするロボット。
（付記１１）
前記動作制御手段は、前記いずれかの識別手段により前記個人が識別されず、且つ、前記残りの識別手段により前記個人が識別された場合、前記残りの識別手段により識別された前記個人と対話するための動作を前記自装置に実行させ、
前記更新手段は、前記いずれかの識別手段により前記個人が識別されず、且つ、前記残りの識別手段により前記個人が識別された場合、前記自装置により実行された前記動作に対する前記個人の応答に基づいて、前記学習データを更新する、
ことを特徴とする付記１０に記載のロボット。
（付記１２）
個人を表す互いに異なる複数のデータを取得し、取得した複数のデータのそれぞれに基づいて前記個人を識別し、
前記複数のデータのうちのいずれかのデータにより前記個人が識別されず、且つ、前記複数のデータのうちの残りのデータにより前記個人が識別された場合、前記いずれかのデータによる前記個人の識別方法を学習する、
ことを特徴とする識別方法。
（付記１３）
コンピュータを、
個人を表す互いに異なるデータをそれぞれ取得し、取得したデータに基づいて前記個人を識別する複数の識別手段、
前記複数の識別手段のうちのいずれかの識別手段により前記個人が識別されず、且つ、前記複数の識別手段のうちの残りの識別手段により前記個人が識別された場合、前記いずれかの識別手段における前記個人の識別方法を学習する学習手段、
として機能させるためのプログラム。

１００，１００ａ，１００ｂ…ロボット、１０１…頭部、１０２…胴体部、１０３…耳部、１０４…目部、１０５…口部、１０７…手部、１０８…足部、１１０…制御部、１１１…記憶部、１１２…バッテリ、１１３…駆動部、１１４…可動部、１１５…センサ部、１１５ａ…撮像部、１１５ｂ…音センサ、１１６…無線通信部、１１７…表示部、１１８…音声出力部、１２０…識別装置、１３０…動作制御部、１４０…顔識別部、１５０…音声識別部、１６０…更新部、１７０…学習部、１８０…動作データ記憶部、１８１…出力音声データ、１９０，１９０ａ…学習データ記憶部、１９１…顔学習データ、１９２…音声学習データ、１９３…顔識別データ、１９４…音声識別データ、２００…学習サーバ

Claims

個人を表す互いに異なるデータをそれぞれ取得し、取得したデータに基づいて前記個人を識別する複数の識別手段と、
前記複数の識別手段のうちのいずれかの識別手段により前記個人が識別されず、且つ、前記複数の識別手段のうちの残りの識別手段により前記個人が識別された場合、前記残りの識別手段により識別された前記個人と対話するための動作を自装置に実行させる動作制御手段と、
前記複数の識別手段のうちのいずれかの識別手段により前記個人が識別されず、且つ、前記残りの識別手段により前記個人が識別された場合、前記自装置により実行された前記動作に対する前記個人の応答に基づいて、前記いずれかの識別手段における前記個人の識別方法を学習するための学習データを更新する更新手段と、
を備えることを特徴とするロボット。
ロボットが実行する制御方法であって、
個人を表す互いに異なるデータをそれぞれ取得しこれら取得されたデータに基づいて前記個人を識別する複数の識別部のうちのいずれかの識別部により前記個人が識別されず、且つ、前記複数の識別部のうちの残りの識別部により前記個人が識別された場合、前記残りの識別部により識別された前記個人と対話するための動作を前記ロボットに実行させる動作制御ステップと、
前記複数の識別部のうちのいずれかの識別部により前記個人が識別されず、且つ、前記残りの識別部により前記個人が識別された場合、前記動作制御ステップにて実行された前記動作に対する前記個人の応答に基づいて、前記いずれかの識別部における前記個人の識別方法を学習するための学習データを更新する更新ステップと、
を含むことを特徴とする制御方法。
ロボットが備えるコンピュータを、
個人を表す互いに異なるデータをそれぞれ取得しこれら取得されたデータに基づいて前記個人を識別する複数の識別手段のうちのいずれかの識別手段により前記個人が識別されず、且つ、前記複数の識別手段のうちの残りの識別手段により前記個人が識別された場合、前記残りの識別手段により識別された前記個人と対話するための動作を前記ロボットに実行させる動作制御手段、
前記複数の識別手段のうちのいずれかの識別手段により前記個人が識別されず、且つ、前記残りの識別手段により前記個人が識別された場合、前記ロボットにより実行された前記動作に対する前記個人の応答に基づいて、前記いずれかの識別手段における前記個人の識別方法を学習するための学習データを更新する更新手段、
として機能させるためのプログラム。