JP3951235B2

JP3951235B2 - 学習装置及び学習方法並びにロボット装置

Info

Publication number: JP3951235B2
Application number: JP2003041833A
Authority: JP
Inventors: 一美青山; 秀樹下村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-02-19
Filing date: 2003-02-19
Publication date: 2007-08-01
Anticipated expiration: 2023-02-19
Also published as: US20040215463A1; US7152050B2; JP2004252111A

Description

【０００１】
【発明の属する技術分野】
本発明は学習装置及び学習方法並びにロボット装置に関し、例えばエンターテインメントロボットに適用して好適なものである。
【０００２】
【従来の技術】
従来、例えばセキュリティシステムなどにおける指紋認識器や声紋認識器等の認識器が新しいカテゴリを学習しようとする場合、学習していることがユーザに明示的であるような「学習モード」といったものが存在する。
【０００３】
かかる「学習モード」は、上述のようなセキュリティのために指紋や声紋などを覚えるというような場合には、センシング情報がセキュリティに用いられるという目的がはっきりしているため、今現在自己の情報が登録されているとユーザに知らせるためにも明示的であるほうが好ましい。
【０００４】
【発明が解決しようとする課題】
ところが、インタラクションの最中にユーザが誰であるかを認識するためにセンシング情報を利用するようなエンターテインメントロボットでは、自然なインタラクションの中でユーザを認識できるようにすることが重要となる。
【０００５】
このためかかるエンターテインメントロボットにおいて、例えばユーザの顔を学習する際に『顔を覚えるのでじっとしていてください』などとロボットに発話させることにより当該ロボットが顔の学習をしていることをユーザに明示的に示すことは、本来の目的であるユーザとの自然なインタラクションを阻害する問題がある。
【０００６】
一方、ユーザの名前を学習するエンターテインメントロボットにおいて、ユーザとの自然なインタラクションを行わせるためには、ユーザから教えてもらった当該ユーザの名前に対してその特徴（その名前と結びつくセンシング情報）をなるべく１回で覚えられるようにする工夫が必要となる。
【０００７】
ところが、従来提案されているエンターテインメントロボットでは、一定時間内に十分なデータが得られないときには学習が失敗、というように学習の成否判断が固定的になっているため、動的な環境では学習の失敗が多発し、センシング情報と名前とがなかなか結びつかずにロボットが何度も名前を尋ねてしまうという、ユーザにとって煩わしいインタラクションが発生する問題があった。
【０００８】
さらに、従来提案されているエンターテインメントロボットでは、学習データを十分に取得できないまま学習を終了しなければならない場合、そのときの学習は失敗として、その学習により得られたデータは全て廃棄されていた。このためその途中までの学習結果を活かせず、効率の良い学習を行い難い問題があった。
【０００９】
従って、エンターテインメントロボットにおいて、自然なインタラクションの中でユーザを認識できるようにすることができ、また学習の失敗という状況をなるべく少なくすることができれば、エンターテインメント性をより一層と向上させ得るものと考えられる。
【００１０】
本発明は以上の点を考慮してなされたもので、エンターテインメント性を向上させ得る学習装置及び学習方法並びにロボット装置を提案しようとするものである。
【００１１】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、学習装置において、ユーザとの対話を通して対象とする物体の名前をユーザから取得する対話手段と、それぞれ対象とする物体の異なる所定の特徴を検出すると共に、当該検出結果及び予め記憶している既知の物体の対応する特徴の学習結果に基づいて、当該対象とする物体を認識する複数の認識手段と、既知の物体の名前及び当該既知の物体に対する各認識手段の認識結果を関連付けた関連付け情報を記憶する記憶手段と、既知の物体に対する各認識手段の学習達成度を管理し、対話手段が取得した対象とする物体の名前、当該対象とする物体に対する各認識手段の認識結果、及び記憶手段が記憶する関連付け情報に基づいて、対象とする物体が新規であると判断したときには、必要な認識手段に当該対象とする物体の対応する特徴を学習させると共に、当該対象とする物体についての関連付け情報を記憶手段に新たに記憶させ、対象とする物体が既知であると判断したときには、当該対象とする物体に対する各認識手段の学習達成度に基づき決定される所定の認識手段に、当該対象とする物体の対応する特徴を学習させると共に、学習させた認識手段の新たな学習達成度に応じて対応する関連付け情報を更新する制御手段とを設けるようにした。この結果、この学習装置は、ユーザにそれと認識されることなく、対象とする物体の名前を通常のユーザとの対話を通して学習することができる。
【００１２】
また本発明においては、学習方法において、ユーザとの対話を通して当該対象とする物体の名前をユーザから取得すると共に、対象とする物体の複数の異なる所定の特徴についての検出結果及び予め記憶している既知の物体の各特徴についての学習結果に基づいて、当該対象とする物体を認識する第１のステップと、既知の物体に対する各特徴の学習達成度を管理し、取得した対象とする物体の名前と、当該対象とする物体の各特徴にそれぞれ基づく認識結果と、予め記憶している既知の物体の名前、当該既知の物体の各特徴に対する認識結果を関連付けた関連付け情報とに基づいて、対象とする物体が新規であると判断したときには、当該対象とする物体の必要な特徴を学習すると共に、当該対象とする物体についての関連付け情報を新たに記憶し、対象とする物体が既知であると判断したときには、当該対象とする物体に対する各特徴の学習達成度に基づき決定される特徴を学習すると共に、当該対象とする物体についての関連付け情報を更新する第２のステップとを設けるようにした。この結果、この学習方法によれば、ユーザにそれと認識されることなく、対象とする物体の名前を通常のユーザとの対話を通して学習することができる。
【００１３】
さらに本発明においては、ロボット装置において、ユーザとの対話を通して対象とする物体の名前をユーザから取得する対話手段と、それぞれ対象とする物体の異なる所定の特徴を検出すると共に、当該検出結果及び予め記憶している既知の物体の対応する特徴の学習結果に基づいて、当該対象とする物体を認識する複数の認識手段と、既知の物体の名前及び当該既知の物体に対する各認識手段の認識結果を関連付けた関連付け情報を記憶する記憶手段と、既知の物体に対する各認識手段の学習達成度を管理し、対話手段が取得した対象とする物体の名前、当該対象とする物体に対する各認識手段の認識結果、及び記憶手段が記憶する関連付け情報に基づいて、対象とする物体が新規であると判断したときには、必要な認識手段に当該対象とする物体の対応する特徴を学習させると共に、当該対象とする物体についての関連付け情報を記憶手段に新たに記憶させ、対象とする物体が既知であると判断したときには、当該対象とする物体に対する各認識手段の学習達成度に基づき決定される所定の認識手段に、当該対象とする物体の対応する特徴を学習させると共に、学習させた認識手段の新たな学習達成度に応じて対応する関連付け情報を更新する制御手段とを設けるようにした。この結果、この学習装置は、ユーザにそれと認識されることなく、対象とする物体の名前を通常のユーザとの対話を通して学習することができる。
【００１４】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【００１５】
（１）本実施の形態によるロボットの構成
図１及び図２において、１は全体として本実施の形態による２足歩行型のロボットを示し、胴体部ユニット２の上部に頭部ユニット３が配設されると共に、当該胴体部ユニット２の上部左右にそれぞれ同じ構成の腕部ユニット４Ａ、４Ｂがそれぞれ配設され、かつ胴体部ユニット２の下部左右にそれぞれ同じ構成の脚部ユニット５Ａ、５Ｂがそれぞれ所定位置に取り付けられることにより構成されている。
【００１６】
胴体部ユニット２においては、体幹上部を形成するフレーム１０及び体幹下部を形成する腰ベース１１が腰関節機構１２を介して連結することにより構成されており、体幹下部の腰ベース１１に固定された腰関節機構１２の各アクチュエータＡ_１、Ａ_２をそれぞれ駆動することによって、体幹上部を図３に示す直交するロール軸１３及びピッチ軸１４の回りにそれぞれ独立に回転させ得るようになされている。
【００１７】
また頭部ユニット３は、フレーム１０の上端に固定された肩ベース１５の上面中央部に首関節機構１６を介して取り付けられており、当該首関節機構１６の各アクチュエータＡ_３、Ａ_４をそれぞれ駆動することによって、図３に示す直交するピッチ軸１７及びヨー軸１８の回りにそれぞれ独立に回転させ得るようになされている。
【００１８】
さらに各腕部ユニット４Ａ、４Ｂは、それぞれ肩関節機構１９を介して肩ベース１５の左右に取り付けられており、対応する肩関節機構１９の各アクチュエータＡ_５、Ａ_６をそれぞれ駆動することによって図３に示す直交するピッチ軸２０及びロール軸２１の回りにそれぞれ独立に回転させ得るようになされている。
【００１９】
この場合、各腕部ユニット４Ａ、４Ｂは、それぞれ上腕部を形成するアクチュエータＡ_７の出力軸に肘関節機構２２を介して前腕部を形成するアクチュエータＡ_８が連結され、当該前腕部の先端に手部２３が取り付けられることにより構成されている。
【００２０】
そして各腕部ユニット４Ａ、４Ｂでは、アクチュエータＡ_７を駆動することによって前腕部を図３に示すヨー軸２４の回りに回転させ、アクチュエータＡ_８を駆動することによって前腕部を図３に示すピッチ軸２５の回りにそれぞれ回転させることができるようになされている。
【００２１】
これに対して各脚部ユニット５Ａ、５Ｂにおいては、それぞれ股関節機構２６を介して体幹下部の腰ベース１１にそれぞれ取り付けられており、それぞれ対応する股関節機構２６の各アクチュエータをＡ_９〜Ａ_１１それぞれ駆動することによって、図３に示す互いに直交するヨー軸２７、ロール軸２８及びピッチ軸２９の回りにそれぞれ独立に回転させ得るようになされている。
【００２２】
この場合各脚部ユニット５Ａ、５Ｂは、それぞれ大腿部を形成するフレーム３０の下端に膝関節機構３１を介して下腿部を形成するフレーム３２が連結されると共に、当該フレーム３２の下端に足首関節機構３３を介して足部３４が連結されることにより構成されている。
【００２３】
これにより各脚部ユニット５Ａ、５Ｂにおいては、膝関節機構３１を形成するアクチュエータＡ_１２を駆動することによって、下腿部を図３に示すピッチ軸３５の回りに回転させることができ、また足首関節機構３３のアクチュエータＡ_１ _３、Ａ_１４をそれぞれ駆動することによって、足部３４を図３に示す直交するピッチ軸３６及びロール軸３７の回りにそれぞれ独立に回転させ得るようになされている。
【００２４】
一方、胴体部ユニット２の体幹下部を形成する腰ベース１１の背面側には、図４に示すように、当該ロボット１全体の動作制御を司るメイン制御部４０と、電源回路及び通信回路などの周辺回路４１と、バッテリ４５（図５）となどがボックスに収納されてなる制御ユニット４２が配設されている。
【００２５】
そしてこの制御ユニット４２は、各構成ユニット（胴体部ユニット２、頭部ユニット３、各腕部ユニット４Ａ、４Ｂ及び各脚部ユニット５Ａ、５Ｂ）内にそれぞれ配設された各サブ制御部４３Ａ〜４３Ｄと接続されており、これらサブ制御部４３Ａ〜４３Ｄに対して必要な電源電圧を供給したり、これらサブ制御部４３Ａ〜４３Ｄと通信を行うことができるようになされている。
【００２６】
また各サブ制御部４３Ａ〜４３Ｄは、それぞれ対応する構成ユニット内の各アクチュエータＡ_１〜Ａ_１４と接続されており、当該構成ユニット内の各アクチュエータＡ_１〜Ａ_１４をメイン制御部４０から与えられる各種制御コマンドに基づいて指定された状態に駆動し得るようになされている。
【００２７】
さらに頭部ユニット３には、図５に示すように、このロボット１の「目」として機能するＣＣＤ（Charge Coupled Device ）カメラ５０及び「耳」として機能するマイクロホン５１などの各種外部センサと、「口」として機能するスピーカ５２となどがそれぞれ所定位置に配設され、手部２３や足部３４の底面部等には、外部センサとしてのタッチセンサ５３が配設されている。さらに制御ユニット４２内には、バッテリセンサ５４及び加速度センサ５５などからなる内部センサが配設されている。
【００２８】
そしてＣＣＤカメラ５０は、周囲の状況を撮像し、得られた画像信号Ｓ１Ａをメイン制御部に送出する一方、マイクロホン５１は、各種外部音を集音し、かくして得られた音声信号Ｓ１Ｂをメイン制御部４０に送出するようになされている。さらにタッチセンサ５３は、ユーザからの物理的な働きかけや、外部との物理的な接触を検出し、検出結果を圧力検出信号Ｓ１Ｃとしてメイン制御部４０に送出する。
【００２９】
またバッテリセンサ５４は、バッテリ４５のエネルギ残量を所定周期で検出し、検出結果をバッテリ残量検出信号Ｓ２Ａとしてメイン制御部４０に送出する一方、加速度センサ５６は、３軸方向（ｘ軸、ｙ軸及びｚ軸）の加速度を所定周期で検出し、検出結果を加速度検出信号Ｓ２Ｂとしてメイン制御部４０に送出する。
【００３０】
メイン制御部部４０は、ＣＣＤカメラ５０、マイクロホン５１及びタッチセンサ５３等からそれぞれ供給される外部センサ出力としての画像信号Ｓ１Ａ、音声信号Ｓ１Ｂ及び圧力検出信号Ｓ１Ｃ等と、バッテリセンサ５４及び加速度センサ５５等からそれぞれ供給される内部センサ出力としてのバッテリ残量検出信号Ｓ２Ａ及び加速度検出信号Ｓ２Ｂ等とに基づいて、ロボット１の周囲及び内部の状況や、外部物体との接触などを判断する。
【００３１】
そしてメイン制御部４０は、この判断結果と、予め内部メモリ４０Ａに格納されている制御プログラムと、そのとき装填されている外部メモリ５６に格納されている各種制御パラメータとに基づいて続く行動を決定し、決定結果に基づく制御コマンドを対応するサブ制御部４３Ａ〜４３Ｄに送出する。この結果、この制御コマンドに基づき、そのサブ制御部４３Ａ〜４３Ｄの制御のもとに、対応するアクチュエータＡ_１〜Ａ_１４が駆動され、かくして頭部ユニット３を上下左右に揺動させたり、腕部ユニット４Ａ、４Ｂを上にあげたり、歩行するなどの行動がロボット１により発現されることとなる。
【００３２】
またメイン制御部４０は、かかる音声信号Ｓ１Ｂに基づく音声認識処理によりユーザの発話内容を認識し、当該認識に応じた音声信号Ｓ３をスピーカ５２に与えることにより、ユーザと対話するための合成音声を外部に出力させる。
【００３３】
このようにしてこのロボット１においては、周囲及び内部の状況等に基づいて自律的に行動することができ、またユーザと対話することもができるようになされている。
【００３４】
（２）名前学習機能に関するメイン制御部４０の処理
（２−１）名前学習機能に関するメイン制御部４０の構成
【００３５】
次にこのロボット１に搭載された名前学習機能について説明する。
【００３６】
このロボット１には、ユーザとの対話を通してそのユーザの名前を取得し、当該取得した名前を、そのときマイクロホン５１やＣＣＤカメラ５０の出力に基づいて検出したそのユーザの声の音響的特徴及び顔の形態的特徴の各データと関連付けて記憶すると共に、これら記憶した各データに基づいて新規なユーザの登場を認識し、その新規なユーザの名前や声の音響的特徴及び顔の形態的特徴を上述と同様に取得し記憶するようにして、ユーザの名前を取得していく名前学習機能が搭載されている。なお以下においては、そのユーザの名前と声の音響的特徴及び顔の形態的特徴を対応付けて記憶し終えたユーザを『既知のユーザ』と呼び、記憶し終えていないユーザを『新規なユーザ』と呼ぶものとする。
【００３７】
そしてこの名前学習機能は、メイン制御部４０における各種処理により実現されている。
【００３８】
ここで、かかる名前学習機能に関するメイン制御部４０の処理内容を機能的に分類すると、図６に示すように、ユーザが発声した言葉を認識する音声認識部６０と、ユーザの声の音響的特徴を検出すると共に当該検出した音響的特徴に基づいてそのユーザを識別して認識する話者認識部６１と、ユーザの顔の形態的特徴を検出すると共に当該検出した形態的特徴に基づいてそのユーザを識別して認識する顔認識部６２と、ユーザとの対話制御を含むユーザの名前を学習するための各種制御を司る対話制御部と、既知のユーザの名前、声の音響的特徴及び顔の形態的特徴の関連付けを管理する連想記憶部と、対話制御部６３の制御のもとに各種対話用の音声信号Ｓ３を生成してスピーカ５４（図５）に送出する音声合成部６４とに分けることができる。
【００３９】
この場合、音声認識部６０は、マイクロホン５１（図５）からの音声信号Ｓ１Ｂに基づき所定の音声認識処理を実行することにより当該音声信号Ｓ１Ｂに含まれる言葉を単語単位で認識する機能を有し、認識したこれら単語を文字列データＤ１として対話制御部６３に送出する。
【００４０】
話者認識部６１は、マイクロホン５１からの音声信号Ｓ１Ｂに基づき得られる音声データを例えば内部メモリ４０Ａ（図５）に記憶保持する機能と、当該記憶保持した音声データ又はマイクロホン５１からリアルタイムで与えられる音声信号Ｓ１Ｂに基づき得られる音声データを用いて、ユーザの声の音響的特徴を例えば“Segregation of Speakers for Recognition and Speaker Identification（CH2977-7/91/0000~0873 S1.00 1991 IEEE）”に記載された方法等を利用した所定の信号処理により検出する機能を有する。
【００４１】
そして話者認識部６１は、この検出した音響的特徴のデータをそのとき記憶している全ての既知のユーザの音響的特徴のデータと順次比較し、そのとき検出した音響的特徴がいずれか既知のユーザの音響的特徴と一致した場合には当該既知のユーザの音響的特徴と対応付けられた当該音響的特徴に固有の識別子（以下、これをＳＩＤと呼ぶ）を対話制御部６３に通知する一方、検出した音響的特徴がいずれか既知のユーザの音響的特徴とも一致しなかった場合には、認識不能を意味するＳＩＤ（＝−１）を対話制御部６３に通知する。
【００４２】
また話者認識部６１は、対話制御部６３が新規なユーザであると判断したときに当該対話制御部６３から与えられる新規学習の開始命令及び学習終了命令に応じて、記憶保持した又はリアルタイムで得られる音声データを用いて、その間そのユーザの声の音響的特徴を検出し、当該検出した音響的特徴のデータを新たな固有のＳＩＤと対応付けて記憶すると共に、このＳＩＤを対話制御部６３に通知する。
【００４３】
さらに話者認識部６１は、その後そのユーザに対する追加学習の開始命令及び終了命令が対話制御部６３から与えられたときには、記憶保持した又はリアルタイムで得られる音声データを用いて、そのユーザの声の音響的特徴のデータを追加的に収集する追加学習を実行する。
【００４４】
さらに話者認識部６１は、対話制御部６３からユーザを指定してそのユーザの学習達成度について問い合わせがあったときに、これに回答する回答機能を有する。ここで学習達成度とは、そのユーザを認識するために用いるデータ（ここでは音響的特徴のデータ）の収集の程度を意味し、話者認識部６１における学習達成度は、そのユーザの声の音響的特徴のデータを収集するために用いた音声の時間長をパラメータとした関数で与えられる値をもとに決定される。
【００４５】
そしてこの実施の形態においては、かかる学習達成度として、認識に実用上十分に使用できるレベルである「Ａ（十分に学習できた）」レベルと、認識には使用可能であるが追加学習をした方がいい程度のレベルである「Ｂ（ちょっと不安）」レベルと、認識には使用するには不十分であるため認識に使用せず、次の機会に追加学習をすべきレベルである「Ｃ（不十分）」レベルとが数値として設定されている。
【００４６】
かくして話者認識部６１においては、対話制御部６３からユーザを指定してそのユーザの学習達成度について問い合わせがあったときには、そのユーザの声の音響的特徴のデータを収集するために用いた音声の時間長をパラメータとした関数で与えられる値から、そのユーザ学習達成度が「Ａ」〜「Ｃ」のいずれに該当するかを判定し、判定結果を対話制御部６３に通知する。
【００４７】
顔認識部６２においては、ＣＣＤカメラ５０（図５）からの画像信号に基づき得られる学習用の画像データを例えば内部メモリ４０Ａ（図５）に記憶保持する機能と、当該記憶保持した画像データ又はＣＣＤカメラ５０からリアルタイムで与えられる当該画像信号Ｓ１Ａに基づき得られる画像データを用いて、当該画像データに基づく画像内に含まれるユーザの顔の形態的特徴を所定の信号処理により検出する機能とを有する。
【００４８】
そして顔認識部６２は、この検出した形態的特徴のデータをそのとき記憶している全ての既知のユーザの顔の形態的特徴のデータと順次比較し、そのとき検出した形態的特徴がいずれか既知のユーザの顔の形態的特徴と一致した場合には当該既知のユーザの形態的特徴と対応付けられた当該形態的特徴に固有の識別子（以下、これをＦＩＤと呼ぶ）を対話制御部６３に通知する一方、検出した形態的特徴がいずれか既知のユーザの顔の形態的特徴とも一致しなかった場合には、認識不能を意味するＦＩＤ（＝−１）を対話制御部６３に通知する。
【００４９】
また顔認識部６２は、対話制御部６３が新規なユーザであると判断したときに当該対話制御部６３から与えられる新規学習の開始命令及び終了命令に基づいて、記憶保持した又はリアルタイムで得られる画像データを用いて、その間ユーザの顔の形態的特徴を検出し、当該検出した形態的特徴のデータを新たな固有のＦＩＤと対応付けて記憶すると共に、このＦＩＤを対話制御部６３に通知する。
【００５０】
さらに顔認識部６２は、その後そのユーザに対する追加学習の開始命令及び終了命令が対話制御部６３から与えられたときには、記憶保持した又はリアルタイムで得られる画像データを用いて、そのユーザの顔の形態的特徴のデータを追加的に収集する追加学習を実行する。
【００５１】
さらに顔認識部６２は、話者認識部６１と同様に、対話制御部６３からユーザを指定してそのユーザの学習達成度について問い合わせがあったときに、これに回答する回答機能を有する。そしてこの実施の形態の場合、顔認識部６２における学習達成度は、ユーザの顔の形態的特徴のデータを収集するために用いた画像信号Ｓ１Ａに基づく顔画像の枚数をパラメータとした関数で与えられる値をもとに決定される。
【００５２】
かくして顔認識部６２は、対話制御部６３からユーザを指定してそのユーザの学習達成度について問い合わせがあったときには、かかる値から学習達成度が「Ａ」〜「Ｃ」のいずれに該当するかを判定し、判定結果を学習達成度として対話制御部６３に通知する。
【００５３】
音声合成部６４においては、対話制御部６３から与えられる文字列データＤ２を音声信号Ｓ３に変換する機能を有し、かくして得られた音声信号Ｓ３をスピーカ５４（図５）に送出することにより、この音声信号Ｓ３に基づく音声をスピーカ５４から出力させる。
【００５４】
連想記憶部６５においては、例えば内部メモリ４０Ａ（図５）とソフトウェアとからなるオブジェクトであり、対話制御部６３の制御のもとに、図７に示すように、既知のユーザの名前と、話者認識部６１が記憶しているそのユーザの声の音響的特徴のデータに対応付けられたＳＩＤと、顔認識部６２が記憶しているそのユーザの顔の形態的特徴のデータに対応付けられたＦＩＤとを記憶する。
【００５５】
この際連想記憶部６５は、同じユーザと対応する名前、ＳＩＤ及びＦＩＤを関連付けて記憶するようになされ、これにより既知のユーザについて、１つの情報（名前、ＳＩＤ及びＦＩＤ）から他の情報を検索し得るようになされている。
【００５６】
また連想記憶部６５は、対話制御部６３の制御のもとに、かかる各既知のユーザのＳＩＤとそれぞれ対応付けて、そのユーザに対する話者認識部６１の学習達成度を記憶すると共に、これと同様にして、各既知のユーザのＦＩＤとそれぞれ対応付けて、そのユーザに対する顔認識部６２の学習達成度を記憶する。
【００５７】
なおこの実施の形態の場合、連想記憶部６５は、かかる記憶した話者認識部６１及び顔認識部６２の各ユーザに対する学習達成度を、その登録後又は最後の更新後一定時間（例えば数日）が経過するごとにレベルを下げる（例えば「Ａ」であったものを「Ｂ」に下げ、「Ｂ」であったものを「Ｃ」に下げる）（以下、これを学習達成度を時間減衰させるという）ように更新するようになされている。
【００５８】
これは、ユーザの顔や声が経時的に変化することから、話者認識部６１や顔認識部６２がユーザを認識するために用いるそのユーザの声の音響的特徴のデータや顔の形態的特徴のデータも一定時間毎に更新することが望ましいからである。
【００５９】
対話制御部６３は、音声認識部６０からの文字列データＤ１やプログラム等に基づき必要な文字列データＤ２を音声合成部６４に順次与えることにより、ユーザに対して適切な応答や質問を行う対話制御機能を有する。
【００６０】
そして対話制御部は、かかる応答や質問を通して取得したそのユーザの名前と、このときのそのユーザに対する話者認識部６１及び顔認識部の各認識結果とに基づき、連想記憶部に記憶された各既知のユーザの名前、ＳＩＤ及びＦＩＤ等の情報を参照しながらそのユーザが新規なユーザであるか否かを判断する。
【００６１】
そして対話制御部６３は、そのユーザが新規なユーザであると判断したときには、話者認識部６１及び顔認識部６２に対して新規学習の開始命令及び終了命令を与えることにより、これら話者認識部６１及び顔認識部６２にその新規なユーザの声の音響的特徴や顔の形態的特徴のデータを収集及び記憶（学習）させる。
【００６２】
また対話制御部６３は、この後話者認識部６１及び顔認識部６２に対し、所定のタイミングでそのユーザに対する学習達成度を問い合わせ、話者認識部６１及び顔認識部６２のいずれかから「Ｃ」との回答を得た場合には、その話者認識部６１及び又は顔認識部６２に対して追加学習の開始命令及び終了命令を与えることにより、その話者認識部６１及び又は顔認識部６２に追加学習を行わせる一方、その間ユーザとの対話を長引かせるような制御を実行する。
【００６３】
これに対して対話制御部６３は、そのユーザが既知のユーザであると判断したときには、連想記憶部６５が記憶しているそのユーザに対する話者認識部６１及び顔認識部６２の学習達成度を確認し、学習達成度が「Ｂ」又は「Ｃ」の話者認識部６１及び又は顔認識部６２にその学習達成度を通知すると共に、その話者認識部６１及び又は顔認識部６２に対して追加学習の開始命令及び終了命令を与えることにより追加学習を行わせる。
【００６４】
そして対話制御部６３は、かかる話者認識部６１及び又は顔認識部６２の追加学習の終了後、その話者認識部６１及び又は顔認識部６２にそのときのそのユーザに対する学習達成度を問い合わせ、これに対する話者認識部６１及び又は顔認識部６２の回答に基づき連想記憶部６５に記憶された対応する学習達成度を更新する。
【００６５】
（２−２）名前学習機能に関する対話制御部６３の具体的処理
次に、名前学習機能に関する対話制御部６３の具体的な処理内容について説明する。
【００６６】
対話制御部６３は、内部メモリ４０Ａに格納された制御プログラムに基づいて、図８に示す名前学習処理手順ＲＴ１に従って新規な人の名前を順次学習するための各種処理を実行する。
【００６７】
すなわち対話制御部６３は、ＣＣＤカメラ５０からの画像信号Ｓ１Ａに基づき顔認識部６２がユーザの顔を認識することにより当該顔認識部６２からＦＩＤが与えられると、この名前学習処理手順ＲＴ１をステップＳＰ０において開始し、続くステップＳＰ１において、話者認識部６１及び顔認識部６２を制御することにより、話者認識部６１にマイクロホン５１（図５）からの音声信号Ｓ１Ｂに基づく音声データの記憶を開始させると共に、顔認識部６２にＣＣＤカメラ５０からの画像信号Ｓ１Ａに基づく画像データの記憶を開始させる。
【００６８】
続いて対話制御部６３は、ステップＳＰ２に進んで、そのユーザの名前を確定する。具体的には、先行して得られたそのユーザのＦＩＤに基づき、連想記憶部６５に関連付けて記憶された各既知のユーザの名前、ＳＩＤ及びＦＩＤからそのユーザの名前が検索できるか否かを判断し、検索できた場合には、これに応じた文字列データＤ２を音声合成部６４に送出することにより、例えば「○○さんですよね。」といったそのユーザの名前がＦＩＤから検索された名前（上述の○○に当てはまる名前）と一致するか否かを確かめるための音声を出力させる。
【００６９】
そして対話制御部６３は、かかる質問に対するそのユーザの「はい、そうです。」といった肯定的な応答の音声認識結果を音声認識部６０からの文字列データＤ１に基づき認識できた場合には、そのユーザの名前をかかる「○○さん」に確定する。
【００７０】
これに対して対話制御部６３は、「いいえ、違います。」といった否定的な応答の音声認識結果を音声認識部６０からの文字列データＤ１に基づき認識できた場合には、これに応じた文字列データＤ２を音声合成部６４に送出することにより、例えば図９に示すように、「名前を教えてください。」といった名前を聞き出すための音声を出力させる。
【００７１】
そして対話制御部６３は、かかる質問に対するそのユーザの「○○です。」といった応答の音声認識結果（すなわち名前）が得られ、その後さらに「○○さんっていうんですね。」といった確認に対するユーザの肯定的な応答があったことを音声認識部６０からの文字列データＤ１に基づいて認識すると、そのユーザの名前をかかる「○○さん」に確定する。
【００７２】
そして対話制御部６３は、このようにしてそのユーザの名前を確定すると、この後ステップＳＰ３に進んで、話者認識部６１及び顔認識部６２を制御することにより、話者認識部６１にマイクロホン５１からの音声信号Ｓ１Ａに基づく音声データの記憶処理を終了させると共に、顔認識部６２にＣＣＤカメラ５０からの画像信号Ｓ１Ａに基づく画像データの記憶を終了させる。
【００７３】
続いて対話制御部６３は、ステップＳＰ４に進んで、連想記憶部６５が記憶している各既知のユーザの名前と、そのユーザに対応するＳＩＤ及ＦＩＤとに基づいて、ステップＳＰ２において確定したそのユーザの名前と関連付けられたＳＩＤ及びＦＩＤが存在するか否かを判断する。
【００７４】
ここで、このステップＳＰ４で否定結果を得ることは、そのユーザが、話者認識部６１がそのユーザの声の音響的特徴のデータを全く収集しておらず、かつ顔認識部６２がそのユーザの顔の形態的特徴のデータを全く収集していない新規なユーザであることを意味する。
【００７５】
かくしてこのとき対話制御部６３は、ステップＳＰ８に進んで、話者認識部６１及び顔認識部６２に対して、ステップＳＰ１〜ステップＳＰ３間において記憶した音声データ又は画像データを利用した新規学習の開始命令を通知する。この結果、これら話者認識部６１及び顔認識部６２において、かかる音声データ又は画像データを利用して、新たにそのユーザの声の音響的特徴のデータ又はそのユーザの顔の形態的特徴のデータを収集し記憶する新規学習が開始されることとなる。
【００７６】
一方、ステップＳＰ４において肯定結果を得ることは、そのユーザが、話者認識部６１及び顔認識部６２がそれぞれそのユーザの声の音響的特徴のデータ又は顔の形態的特徴のデータを既に収集している既知のユーザであることを意味する。
【００７７】
かくしてこのとき対話制御部６３は、ステップＳＰ５に進んで、連想記憶部６５がそのユーザのＳＩＤと対応付けて記憶しているそのユーザに対する話者認識部６１の学習達成度と、連想記憶部６５がそのユーザのＦＩＤと対応付けて記憶しているそのユーザに対する顔認識部６２の学習達成度とをそれぞれ確認する。
【００７８】
ここで、かかる確認結果として、そのユーザに対する話者認識部６１及び顔認識部６２の学習達成度がいずれも「Ａ」であることが確認された場合には、話者認識部６１及び顔認識部６２が既にそのユーザの認識に十分な当該ユーザの声の音響的特徴のデータ又は顔の形態的特徴のデータを収集し終えていると判断できる。
【００７９】
よって、この場合対話制御部６３は、ステップＳＰ６に進んで、話者認識部６１及び顔認識部６３にステップＳＰ１〜ステップＳＰ３間において記憶させた音声データ又は画像データを破棄すべき旨の命令を通知する。
【００８０】
また対話制御部６３は、この後ステップＳＰ１４に進んで、連想記憶部６５が記憶しているそのユーザに対する話者認識部６１及び顔認識部６２の学習達成度を再度「Ａ」に更新した後、ステップＳＰ１５に進んでこの名前学習処理手順ＲＴ１を終了する。なお、この後ロボット１は、そのユーザに対する学習とは無関係にそのユーザとの対話やダンス等の各種インタラクションを行う。
【００８１】
これに対してステップＳＰ５における確認結果として、そのユーザに対する話者認識部６１及び顔認識部６２のいずれかの一方又は両方の学習達成度が「Ｂ」又は「Ｃ」であることが確認された場合には、その話者認識部６１及び又は顔認識部６２が未だそのユーザの認識に十分な当該ユーザの声の音響的特徴のデータ又は顔の形態的特徴のデータを収集し終えていないと判断できる。
【００８２】
よって、この場合対話制御部６３は、ステップＳＰ７に進んで学習達成度が「Ｂ」又は「Ｃ」であった話者認識部６１及び又は顔認識部６２に対してその学習達成度を通知し、この後ステップＳＰ８に進んで、その学習達成度を通知した（すなわちそのユーザに対する学習達成度が未だ「Ｂ」又は「Ｃ」である）話者認識部６１及び又は顔認識部６２に対してステップＳＰ１〜ステップＳＰ３間において記憶した音声データ又は画像データを利用した追加学習の開始命令を通知する。
【００８３】
この結果、その話者認識部６１及び又は顔認識部６２において、ステップＳＰ７において通知された学習達成度をスタートポイントとして、そのユーザの声の音響的特徴のデータ又は顔の形態的特徴のデータの収集が未だ十分でない現在の収集状態からさらにこれを収集するように、かかる音声データ又は画像データを利用した追加学習が開始される。
【００８４】
さらに対話制御部６３は、この後その話者認識部６１及び又は顔認識部６２からステップＳＰ１〜ステップＳＰ３間において記憶した音声データ又は画像データを利用した学習が終了した旨の通知が与えられると、ステップＳＰ９に進んで、その学習を行った話者認識部６１及び又は顔認識部６２にそのユーザに対する学習達成度を問い合わせ、これに対するその話者認識部６１及び又は顔認識部６２の回答がともに「Ａ」又は「Ｂ」のいずれかであるか否かを判断する。
【００８５】
ここで、このステップＳＰ９において肯定結果を得ることは、学習を行った話者認識部６１及び又は顔認識部６２のいずれもがそのユーザを認識できる程度に当該ユーザの声の音響的特徴のデータ又は顔の形態的特徴のデータを収集し記憶し終えた（十分に学習し終えた）ことを意味する。
【００８６】
かくしてこのとき対話制御部６３は、ステップＳＰ１４に進んで、連想記憶部６５が記憶しているそのユーザに対する話者認識部６１及び顔認識部６２の学習達成度を、学習を行っていないものについてはステップＳＰ５において確認した学習達成度、学習を行ったものについてはステップＳＰ９において得られた学習達成度に更新し、この後ステップＳＰ１５に進んでこの名前学習処理手順ＲＴ１を終了する。なお、この後ロボット１は、そのユーザに対する学習とは無関係にそのユーザとの対話やダンス等の各種インタラクションを行う。
【００８７】
これに対してステップＳＰ９において否定結果を得ることは、学習を行った話者認識部６１及び又は顔認識部６２のすくなくとも一方が未だそのユーザを認識できる程度に当該ユーザの声の音響的特徴のデータ又は顔の形態的特徴のデータを収集し記憶していない（十分には学習し終えていない）ことを意味する。
【００８８】
かくしてこのとき対話制御部６３は、ステップＳＰ１０に進んで、その話者認識部６１及び又は顔認識部６２に対して、マイクロホン５１からリアルタイムで与えられる音声信号Ｓ１Ｂに基づき得られる音声データ又はＣＣＤカメラ５０からリアルタイムで与えられる画像信号Ｓ１Ａに基づき得られる画像データを利用した追加学習の開始命令を通知する。
【００８９】
この結果、その話者認識部６１及び又は顔認識部６２において、ステップＳＰ９で対話制御部６３に通知した学習達成度をスタートポイントとして、かかる音声データ又は画像データを利用して、そのユーザの声の音響的特徴のデータ又はそのユーザの顔の形態的特徴のデータを追加的に収集し記憶する追加学習が開始される。
【００９０】
また対話制御部６３は、この後ステップＳＰ１１に進んで、そのユーザとの対話を引き伸ばすための処理を実行する。具体的には、対話制御部６３は、ロボット１がそのユーザについて学習していることを認識させないように、例えば図１０に示すように、「僕とお友達になってくれる？」、「ありがとう！それじゃ、〇〇さんのこと聞いていい？」、「〇〇さんの好きなたべものって何？」などのようなロボット１の方からそのユーザに対して積極的に話しかけたり、話題を提供するための文字列データＤ２を、音声認識部６０によるユーザの発話内容の音声認識結果に応じて選択しながら音声合成部６４に送出する。
【００９１】
また対話制御部６３は、この後所定のタイミングでステップＳＰ１２に進んで、追加学習の開始命令を通知した話者認識部６１及び又は顔認識部６２にそのユーザに対する学習達成度を問い合わせ、これに対するその話者認識部６１及び又は顔認識部６２の回答がともに「Ａ」又は「Ｂ」のいずれかであるか否かを判断する。
【００９２】
そして対話制御部は、このステップＳＰ１２において否定結果を得るとステップＳＰ１１に戻り、この後このステップＳＰ１２において肯定結果を得られるまでステップＳＰ１１−ＳＰ１２−ＳＰ１１のループを繰り返す。
【００９３】
そして対話制御部６３は、やがて話者認識部６１及び顔認識部６２のいずれもがその後そのユーザを認識できる程度に当該ユーザの声の音響的特徴のデータ又は顔の形態的特徴のデータを収集し記憶し終えることによりステップＳＰ１２において肯定結果を得ると、ステップＳＰ１３に進んで、追加学習を行っている話者認識部６１及び又は顔認識部６２に対して追加学習の終了命令を通知する。
【００９４】
また対話制御部６３は、この後ステップＳＰ１４に進んで、連想記憶部６５が記憶しているそのユーザに対する話者認識部６１及び顔認識部６２の学習達成度を、ステップＳＰ１０〜ステップＳＰ１３間の追加学習を行っていないものについてはステップＳＰ５又はステップ９において確認した学習達成度、ステップＳＰ１０〜ステップＳＰ１３間の追加学習を行ったものについてはステップＳＰ１２において得られた学習達成度に更新し、この後ステップＳＰ１５に進んでこの名前学習処理手順ＲＴ１を終了する。なお、この後ロボット１は、そのユーザに対する学習とは無関係にそのユーザとの対話やダンス等の各種インタラクションを行う。
【００９５】
このようにしてこのロボット１においては、対話制御部６３の制御のもとに、新規なユーザに対する新規学習や、既知のユーザに対する追加学習を行い得、これにより新規なユーザの名前をその声の音響的特徴のデータ及びその顔の形態的特徴のデータと関連付けて順次学習し得るようになされている。
【００９６】
（２−３）名前学習処理時におけるエラー処理
次に、かかる名前学習処理手順ＳＴ１に従った名前学習処理時において、学習中のユーザが立ち去ってしまった等の理由によりそのユーザに対する学習を途中で終了せざるを得ない場合の処理について説明する。
【００９７】
ユーザに対する学習を途中で終了せざるを得ない場合としては、
▲１▼名前学習処理手順ＳＴ１のステップＳＰ２において、そのユーザの名前を確定する前に学習を終了しなければならない場合
▲２▼名前学習処理手順ＳＴ１のステップＳＰ１〜ステップＳＰ３間において、話者認識部や顔認識部が音声データ又は画像データの記憶保持を開始後、その終了前に学習を終了せざるを得ない場合
▲３▼名前学習処理手順ＳＴ１のステップＳＰ４〜ステップＳＰ７間において、話者認識部６１や顔認識部６２が、記憶した音声データや画像データを利用した学習を開始する前に学習を終了せざるを得ない場合
▲４▼名前学習処理手順ＲＴ１のステップＳＰ８〜ステップＳＰ９間において、話者認識部６１や顔認識部６２が、記憶した音声データ又は画像データを利用した新規学習又は追加学習中に当該学習を終了せざるを得ない場合
▲５▼名前学習処理手順ＲＴ１のステップＳＰ１０〜ステップＳＰ１３間において、話者認識部６１や顔認識部６２が、リアルタイムで得られる音声信号Ｓ１Ｂ又は画像信号Ｓ１Ａを利用した追加学習中に学習を終了せざるを得ない場合
の５つのパターンが考えられる。なお、以下においては、これらパターンをそれぞれ学習不能パターン▲１▼〜▲５▼と呼ぶものとする。
【００９８】
これらの場合、そのユーザに対する学習は失敗であるとして、それまでに話者認識部６１や顔認識部６２が記憶した学習用の音声データ若しくは画像データを破棄させ、又はそれまでの間に話者認識部６１や顔認識部６２が収集したそのユーザの声の音響的特徴のデータや顔の形態的特徴のデータを破棄させることも考えられるが、これではそれまでに収集した学習用の音声データ又は画像データや、ユーザの声の音響的特徴のデータ又は顔の形態的特徴のデータが無駄となる。
【００９９】
そこで、このロボット１においては、上述の学習不能パターン▲１▼の場合には、そのときまでに記憶した学習用の音声データや画像データを破棄させる一方、上述の学習不能パターン▲２▼又は学習不能パターン▲３▼の場合には、そのときまでに記憶した学習用の音声データや画像データを利用して必要な話者認識部６１及び又は顔認識部６２に学習を行わせ、当該学習により学習達成度が「Ａ」又は「Ｂ」となった場合にはかかる学習を有効なものとして取り扱い、未だ学習達成度が「Ｃ」の場合にはかかる学習を無効なものとして取り扱う。
【０１００】
またこのロボット１においては、上述の学習不能パターン▲４▼又は学習不能パターン▲５▼の場合には、学習を終了せざるを得なくなった時点での話者認識部６１や顔認識部６２の学習達成度に応じて、当該学習達成度が「Ａ」、「Ｂ」である場合にはかかる学習を有効なものとして取り扱い、学習達成度が「Ｃ」の場合にはかかる学習を無効なものとして取り扱うようになされている。
【０１０１】
ここで、このようなエラー処理は、図１１に示すエラー処理手順ＲＴ２に従って対話制御部６３の制御のもとに行われる。
【０１０２】
実際上、対話制御部６３は、上述の名前学習処理手順ＲＴ１の実行時に、例えば顔認識部６１から認識対象のユーザを検出し得なくなったとのエラー通知が与えられるなど、そのユーザに対する学習を継続し得なくなる予め定められた所定状態が発生すると、名前学習処理手順ＲＴ１を終了してこのエラー処理手順ＲＴ２をステップＳＰ２０において開始し、続くステップＳＰ２１において、それまで対象としていたユーザの名前が確定しているか否かを判断する。
【０１０３】
このステップＳＰ２１において否定結果を得ることは、かかるエラーが名前学習処理手順ＲＴ１のステップＳＰ２においてユーザの名前を確定する前に学習を終了しなければならない事態が発生したことを意味し（学習不能パターン▲１▼の場合）、このとき対話制御部６３は、ステップＳＰ２２に進んで、話者認識部６１及び顔認識部６２に名前学習処理手順ＲＴ１の開始後そのときまでに記憶した学習用の音声データ又は画像データを破棄すべき旨の命令を通知し、この後ステップＳＰ３４に進んでこのエラー処理手順ＲＴ２を終了する。
【０１０４】
これに対して対話制御部６３は、このステップＳＰ２１において肯定結果を得ると、ステップＳＰ２３に進んで、話者認識部６１及び顔認識部６２に自己の状態を通知すべき旨の命令を与え、これに対する話者認識部６１及び顔認識部６２の応答に基づいて、これら話者認識部６１及び顔認識部６２の現在の状態を確認する。
【０１０５】
そして対話制御部６３は、このステップＳＰ２３において、話者認識部６１及び顔認識部６２が音声データ又は画像データの記憶保持を開始後、その終了前であることを確認すると（学習不能パターン▲２▼の場合）、ステップＳＰ２４に進んで、話者認識部６１及び顔認識部６２に学習用の音声データ又は画像データの記憶を終了すべき旨の命令を通知し、この後ステップＳＰ２５〜ステップＳＰ２９を上述の名前学習処理手順ＲＴ１のステップＳＰ４〜ステップＳＰ８と同様に処理する。
【０１０６】
そして対話制御部６３は、かかるステップＳＰ２５〜ステップＳＰ２９を処理し終えると、ステップＳＰ３０に進んで、話者認識部６１及び顔認識部６２にそのユーザに対する学習達成度を問い合わせることにより、そのユーザに対する話者認識部６１及び顔認識部６２の学習達成度を取得し、この後ステップＳＰ３１に進んで、これら取得したそのユーザに対する話者認識部６１及び顔認識部６２の学習達成度がともに「Ｃ」であるか否かを判断する。
【０１０７】
ここで、このステップＳＰ３１において否定結果を得ることは、かかる話者認識部６１及び顔認識部６２がともにそのユーザについて、当該ユーザを認識できる程度にそのユーザの声の音響的特徴のデータ又は顔の形態的特徴のデータを収集し得たことを意味する。
【０１０８】
かくしてこのとき対話制御部６３は、ステップＳＰ３３に進んで、かかるユーザが新規のユーザであった場合には、新たに話者認識部６１及び顔認識部６２からそれぞれ発行されたＳＩＤ及びＦＩＤと、名前学習処理手順ＲＴ１のステップＳＰ２において確定したそのユーザの名前と、このエラー処理手順ＲＴ２のステップＳＰ３０において取得したそのユーザに対する話者認識部６１及び顔認識部６２の学習達成度とを上述の様に関連付けて連想記憶部６５に記憶させる。
【０１０９】
また対話制御部６３は、かかるユーザが既知のユーザであった場合には、連想記憶部６５が記憶しているそのユーザに対する話者認識部６１及び顔認識部６２の学習達成度を、ステップＳＰ３０において取得したそのユーザに対する話者認識部６１及び顔認識部６２の現在の学習達成度に更新する。そして対話制御部６３は、この後ステップＳＰ３４に進んでこのエラー処理手順ＲＴ２を終了する。
【０１１０】
これに対して、ステップＳＰ３１において否定結果を得ることは、話者認識部６１及び顔認識部６２のいずれか一方又は両方がそのユーザについて、当該ユーザを認識できる程度にそのユーザの声の音響的特徴のデータ又は顔の形態的特徴のデータを収集し終えていないことを意味する。
【０１１１】
かくしてこのとき対話制御部６３は、ステップＳＰ３２に進んで、話者認識部６１及び顔認識部６２に対して、この後の話者認識処理や認識処理においてそのＳＩＤ又はＦＩＤと対応付けられた声の音響的特徴のデータや顔の形態的特徴のデータを使用しないように指示を与える。この結果、話者認識部６１及び顔認識部６２において、かかる声の音響的特徴のデータや顔の形態的特徴のデータは、この後の追加学習によりそのユーザに対する学習達成度が「Ｂ」又は「Ａ」となるまで話者認識処理又は顔認識処理に使用されないこととなる。
【０１１２】
そして対話制御部６３は、この後ステップＳＰ３３に進んで、かかるユーザが新規のユーザであった場合には、新たに話者認識部６１及び顔認識部６２から発行されたそれぞれＳＩＤ及びＦＩＤと、名前学習処理手順ＲＴ１のステップＳＰ２において確定したそのユーザの名前と、このエラー処理手順ＲＴ２のステップＳＰ３０において取得したそのユーザに対する話者認識部６１及び顔認識部６２の学習達成度とを上述のように関連付けて連想記憶部６５に記憶させる。
【０１１３】
また対話制御部６３は、かかるユーザが既知のユーザであった場合には、連想記憶部６５が記憶しているそのユーザに対する話者認識部６１及び顔認識部６２の学習達成度を、ステップＳＰ３０において取得したそのユーザに対する話者認識部６１及び顔認識部６２の現在の学習達成度に更新する。そして対話制御部６３は、この後ステップＳＰ３４に進んでこのエラー処理手順ＲＴ２を終了する。
【０１１４】
従って、このロボット１の場合、そのユーザに対する話者認識部６１及び又は顔認識部６２の学習達成度が「Ｃ」であっても、そのとき得られた当該ユーザの名前と、対応するＳＩＤ及びＦＩＤと、そのユーザに対する話者認識部６１及び又は顔認識部６２の学習達成度とが関連付けて連想記憶部６５に記憶保持されるため（ステップＳＰ３１〜ステップＳＰ３３）、例えば次にその名前をもつユーザを認識したときに例えば図１２のように、そのユーザに以前会ったことがあるという発話を行うことができる。
【０１１５】
またステップＳＰ３２において、対話制御部６３から話者認識部６１及び又は顔認識部６２に対してそのとき収集したユーザの声の音響的特徴のデータや顔の形態的特徴のデータを使用しないように指示が与えられた場合にあっても、名前学習処理手順ＲＴ１のステップＳＰ７及びステップＳＰ８について上述したように、次回の当該ユーザに対する話者認識部６１及び又は顔認識部６２の追加学習が当該収集したユーザの声の音響的特徴のデータや顔の形態的特徴のデータの存在を前提とした途中から開始されるため、これら話者認識部６１及び顔認識部６２が効率良く学習を行うことができる。
【０１１６】
一方、対話制御部６３は、ステップＳＰ２３において、話者認識部６１及び顔認識部６２の現在の状態として、音声データ又は画像データを記憶し終えたが、これを利用した学習を開始する前であることを確認すると（学習不能パターン▲３▼の場合）、ステップＳＰ２５に進んで、名前学習処理手順ＲＴ１のステップＳＰ２において確定したそのユーザの名前に基づいて、当該名前と関連付けられたＳＩＤ及びＦＩＤを連想記憶部６５が記憶しているか否かを判断し、この後ステップＳＰ２６〜ステップＳＰ３４を上述と同様に処理する。
【０１１７】
また対話制御部６３は、ステップＳＰ２３において、話者認識部６１及び顔認識部６２の現在の状態として、記憶した音声データ又は画像データを利用した学習中であることを確認すると、（学習不能パターン▲４▼の場合）、ステップＳＰ３０に進んで、話者認識部６１及び顔認識部６２にそのユーザに対する学習達成度を問い合わせることにより、そのユーザに対する話者認識部６１及び顔認識部６２の学習達成度を取得し、この後ステップＳＰ３１〜ステップＳＰ３４を上述と同様に処理する。
【０１１８】
さらに対話制御部６３は、ステップＳＰ２３において、話者認識部６１及び顔認識部６２の現在の状態として、マイクロホン５１からリアルタイムで与えられる音声信号Ｓ１Ｂに基づく音声データ又はＣＣＤカメラ５０からリアルタイムで与えられる画像信号Ｓ１Ａに基づく画像データを利用した追加学習中であることを確認すると（学習不能パターン▲５▼の場合）、ステップＳＰ３５に進んで、その話者認識部６１及び又は顔認識部６２に追加学習の終了命令を通知する。
【０１１９】
また対話制御部６３は、この後ステップＳＰ３０に進んで、話者認識部６１及び顔認識部６２にそのユーザに対する学習達成度を問い合わせることにより、そのユーザに対する話者認識部６１及び顔認識部６２の学習達成度を取得し、さらにこの後ステップＳＰ３１〜ステップＳＰ３４を上述と同様に処理する。
【０１２０】
このようにしてこのロボット１においては、ユーザを学習中にそのユーザの学習を終了せざるを得なくなった場合においても、対話制御部６３の制御のもとに、そのときまでに収集した学習用の音声データ又は画像データや、ユーザの声の音響的特徴のデータ又は顔の形態的特徴のデータを利用してそのユーザを行い得るようになされている。
【０１２１】
（３）本実施の形態の動作及び効果
以上の構成において、このロボット１では、新規なユーザとの対話を通してそのユーザの名前を取得し、当該名前を、マイクロホン５１（図５）やＣＣＤカメラ５０（図５）の出力に基づいて検出したそのユーザの声の音響的特徴及び顔の形態的特徴の各データと関連付けて記憶すると共に、これら記憶した各種データに基づいて、名前を取得していないさらに新規なユーザの登場を認識し、その新規なユーザの名前や声の音響的特徴及び顔の形態的特徴を上述と同様にして取得し記憶するようにしてユーザの名前を学習する。
【０１２２】
従って、このロボット１は、学習していることをそのユーザに認識させることなく、人間が普段行うように、ユーザとの対話を通じて新規のユーザの名前やそのユーザの声の音響的特徴及び顔の形態的特徴を自然に学習することができる。
【０１２３】
またこのロボット１は、かかる学習を行うに際して話者認識部６１及び顔認識部６２が、対象とするユーザの声の音響的特徴を学習するための学習用の音声データ又は及びユーザの顔の形態的特徴を学習するための学習用の画像データを当該ユーザの名前が確定する前から予め記憶しておき、この音声データ及び画像データを利用して学習を行うこととしているため、そのユーザに対する学習を途中で終了せざるを得ない事態が発生した場合にもそのユーザに対する学習を行うことができる可能性があり、その分より効率良くユーザの学習を行うことができる。
【０１２４】
さらにこのロボット１は、ユーザの学習を学習途中で終了せざるを得ない場合にも、それまでの学習結果であるユーザの声の音響的特徴のデータや顔の形態的特徴のデータを保持し、次回のそのユーザに対する学習をその途中の状態から開始するため、効率良く学習を行うことができる。
【０１２５】
さらにこのロボット１は、予め記憶した対象とするユーザの声の音声データ及び顔の画像データを利用した学習によって十分な学習が行われなかった場合には、そのユーザとの対話を引き伸ばして学習を継続することとしているため、そのユーザに対する学習を１回の対話によって完了させる機会が多く、その分同じユーザに名前を何度も尋ねるというユーザにとって煩わしいインタラクションの発生を有効に防止することができる。
【０１２６】
以上の構成によれば、新規なユーザとの対話を通してそのユーザの名前を取得し、当該名前を、マイクロホン５１やＣＣＤカメラ５０の出力に基づいて検出したそのユーザの声の音響的特徴及び顔の形態的特徴の各データと関連付けて記憶すると共に、これら記憶した各種データに基づいて、名前を取得していないさらに新規なユーザの登場を認識し、その新規なユーザの名前や声の音響的特徴及び顔の形態的特徴を上述と同様にして取得し記憶するようにしてユーザの名前を学習するようにしたことにより、学習していることをそのユーザに認識させることなく、人間が普段行うように、ユーザとの対話を通じて新規のユーザの名前やそのユーザの声の音響的特徴及び顔の形態的特徴を自然に学習することができ、かくしてエンターテインメント性を格段的に向上し得るロボットを実現できる。
【０１２７】
（４）他の実施の形態
なお上述の実施の形態においては、本発明を図１のように構成された２足歩行型のロボット１に適用するようにした場合について述べたが、本発明はこれに限らず、この他種々の形態のロボット装置及びロボット装置以外のこの他種々の装置に広く適用することができる。
【０１２８】
また上述の実施の形態においては、学習対象が人間（ユーザ）である場合について述べたが、本発明はこれに限らず、人間以外の物体を名前学習の対象とする場合においても適用することができる。
【０１２９】
この場合において、上述の実施の形態においては、対象となる人物の声の音響的特徴及び顔の形態的特徴からその人物をそれぞれ認識し、これらの認識結果に基づいてその人物が新規な人物であるか否かを判別するようにした場合について述べたが、本発明はこれに限らず、これに代えて又はこれに加えて、これら以外の例えば体型やにおい等の生物学的に個体を識別可能な複数種類の各種特徴からその人物をそれぞれ認識し、これらの認識結果に基づいてその人物が新規な人であるか否かを判別するようにしても良い。また名前学習対象が人物以外の物体である場合には、色や形状、模様、大きさ等の物体を識別可能な複数種類の特徴からそれぞれその物体を認識し、これらの認識結果に基づいてその物体が新規な物体であるか否かを判別するようにしても良い。そしてこれらの場合には、それぞれ物体の異なる所定の特徴を検出すると共に、当該検出結果及び予め記憶している既知の物体の対応する特徴のデータに基づいて、当該対象とする物体を認識する複数の認識手段を設けるようにすれば良い。
【０１３０】
さらに上述の実施の形態においては、学習達成度を「Ａ」〜「Ｃ」の３段階とするようにした場合について述べたが、本発明はこれに限らず、２段階又は４段階以上とするようにしても良い。
【０１３１】
さらに上述の実施の形態においては、例えば名前学習処理手順ＲＴ１のステップＳＰ１０〜ステップＳＰ１３について上述した追加学習時に、対話制御部６１が単に対話を引き伸ばすだけである場合について述べたが、本発明はこれに限らず、ユーザとの対話を引き伸ばす際に、対話制御部６３が、そのユーザに対する学習が不十分な認識手段（話者認識部６１及び顔認識部６２）が学習し易いような対話をユーザとの間で生成するように処理するようにしても良く、これにより追加学習をより効率良く行うことができる。
【０１３２】
実際上、例えば実施の形態の場合であれば、追加学習を行うのが話者認識部６１である場合には、なるべくユーザに発話させるようにな対話を生成しながら対話を引き伸ばし、追加学習を行うのが顔認識部６２である場合には、なるべくユーザのいろいろな方向からの顔画像を取得できるように、「右を向いてくれる？」など、ユーザの顔を動かさせるような対話を生成しながら対話を引き伸ばすようにすれば良い。
【０１３３】
さらに上述の実施の形態においては、連想記憶部６５が、記憶した各学習達成度を例えば数日ごとに時間減衰させるようにした場合について述べたが、本発明はこれに限らず、時間減衰させる時間間隔は数日単位以外であっても良く、またかかる時間減衰を対話制御部６３が管理して行わせるようにしても良い。
【０１３４】
さらに上述の実施の形態においては、ユーザとの対話を通して対象とする物体の名前をユーザから取得する対話手段と、当該対話手段が取得した対象とする物体の名前、当該対象とする物体に対する各認識手段の認識結果、及び記憶手段が記憶する関連付け情報に基づいて、対象とする物体が新規であると判断したときには、必要な認識手段に当該対象とする物体の対応する特徴を学習させると共に、当該対象とする物体についての関連付け情報を記憶手段に新たに記憶させる制御手段とを同じ１つの機能モジュールである対話制御部６３により構成するようにした場合について述べたが、本発明はこれに限らず、これらを別のモジュールとして構成するようにしても良い。
【０１３５】
さらに上述の実施の形態においては、既知のユーザの名前及び当該既知のユーザに対する各認識部（音声認識部６０、話者認識部６１及び顔認識部６２）の認識結果を関連付けた関連付け情報を記憶する記憶手段を、内部メモリ４０Ａとソフトウェアとから構成するようにした場合について述べたが、本発明はこれに限らず、例えばかかる記憶手段における関連付け情報を記憶する機能部分を、内部メモリ４０Ａ以外の例えばコンパクトディスク等の読書き自在の他の記憶機能を有する手段に置き換えるようにしても良い。
【０１３６】
【発明の効果】
上述のように本願発明によれば、学習装置において、ユーザとの対話を通して対象とする物体の名前をユーザから取得する対話手段と、それぞれ対象とする物体の異なる所定の特徴を検出すると共に、当該検出結果及び予め記憶している既知の物体の対応する特徴の学習結果に基づいて、当該対象とする物体を認識する複数の認識手段と、既知の物体の名前及び当該既知の物体に対する各認識手段の認識結果を関連付けた関連付け情報を記憶する記憶手段と、既知の物体に対する各認識手段の学習達成度を管理し、対話手段が取得した対象とする物体の名前、当該対象とする物体に対する各認識手段の認識結果、及び記憶手段が記憶する関連付け情報に基づいて、対象とする物体が新規であると判断したときには、必要な認識手段に当該対象とする物体の対応する特徴を学習させると共に、当該対象とする物体についての関連付け情報を記憶手段に新たに記憶させ、対象とする物体が既知であると判断したときには、当該対象とする物体に対する各認識手段の学習達成度に基づき決定される所定の認識手段に、当該対象とする物体の対応する特徴を学習させると共に、学習させた認識手段の新たな学習達成度に応じて対応する関連付け情報を更新する制御手段とを設けるようにしたことにより、ユーザにそれと認識されることなく、対象とする物体の名前を通常のユーザとの対話を通して学習することができ、かくしてエンターテインメント性を向上させ得る学習装置を実現できる。
【０１３７】
また本発明においては、学習方法において、ユーザとの対話を通して当該対象とする物体の名前をユーザから取得すると共に、対象とする物体の複数の異なる所定の特徴についての検出結果及び予め記憶している既知の物体の各特徴についての学習結果に基づいて、当該対象とする物体を認識する第１のステップと、既知の物体に対する各特徴の学習達成度を管理し、取得した対象とする物体の名前と、当該対象とする物体の各特徴にそれぞれ基づく認識結果と、予め記憶している既知の物体の名前、当該既知の物体の各特徴に対する認識結果を関連付けた関連付け情報とに基づいて、対象とする物体が新規であると判断したときには、当該対象とする物体の必要な特徴を学習すると共に、当該対象とする物体についての関連付け情報を新たに記憶し、対象とする物体が既知であると判断したときには、当該対象とする物体に対する各特徴の学習達成度に基づき決定される特徴を学習すると共に、当該対象とする物体についての関連付け情報を更新する第２のステップとを設けるようにしたことにより、ユーザにそれと認識されることなく、対象とする物体の名前を通常のユーザとの対話を通して学習することができ、かくしてエンターテインメント性を向上させ得る学習方法を実現できる。
【０１３８】
さらに本発明においては、ロボット装置において、ユーザとの対話を通して対象とする物体の名前をユーザから取得する対話手段と、それぞれ対象とする物体の異なる所定の特徴を検出すると共に、当該検出結果及び予め記憶している既知の物体の対応する特徴の学習結果に基づいて、当該対象とする物体を認識する複数の認識手段と、既知の物体の名前及び当該既知の物体に対する各認識手段の認識結果を関連付けた関連付け情報を記憶する記憶手段と、既知の物体に対する各認識手段の学習達成度を管理し、対話手段が取得した対象とする物体の名前、当該対象とする物体に対する各認識手段の認識結果、及び記憶手段が記憶する関連付け情報に基づいて、対象とする物体が新規であると判断したときには、必要な認識手段に当該対象とする物体の対応する特徴を学習させると共に、当該対象とする物体についての関連付け情報を記憶手段に新たに記憶させ、対象とする物体が既知であると判断したときには、当該対象とする物体に対する各認識手段の学習達成度に基づき決定される所定の認識手段に、当該対象とする物体の対応する特徴を学習させると共に、学習させた認識手段の新たな学習達成度に応じて対応する関連付け情報を更新する制御手段とを設けるようにしたことにより、ユーザにそれと認識されることなく、対象とする物体の名前を通常のユーザとの対話を通して学習することができ、かくしてエンターテインメント性を向上させ得るロボット装置を実現できる。
【図面の簡単な説明】
【図１】本実施の形態によるロボットの外観構成の説明に供する斜視図である。
【図２】本実施の形態によるロボットの外観構成の説明に供する斜視図である。
【図３】本実施の形態によるロボットの外観構成の説明に供する概念図である。
【図４】本実施の形態によるロボットの内部構成の説明に供するブロック図である。
【図５】本実施の形態によるロボットの内部構成の説明に供するブロック図である。
【図６】名前学習機能に関するメイン制御部の機能の説明に供するブロック図である。
【図７】連想記憶部における各種情報の関連付けの説明に供する概念図である。
【図８】名前学習処理手順を示すフローチャートである。
【図９】ロボットとユーザとの対話例を示す略線図である。
【図１０】ロボットとユーザとの対話例を示す略線図である。
【図１１】エラー処理手順を示すフローチャートである。
【図１２】ロボットとユーザとの対話例を示す略線図である。
【符号の説明】
１……ロボット、４０……メイン制御部、５０……ＣＣＤカメラ、５１……マイクロホン、５２……スピーカ、６０……音声認識部、６１……話者認識部、６２……顔認識部、６３……対話制御部、６４……音声合成部、６５……連想記憶部、Ｓ１Ａ……画像信号、Ｓ１Ｂ、Ｓ３……音声信号、Ｄ１、Ｄ２……文字列データ、ＲＴ１……名前学習処理手順、ＲＴ２……エラー処理手順。

Claims

ユーザとの対話を通して対象とする物体の名前を上記ユーザから取得する対話手段と、
それぞれ上記対象とする物体の異なる所定の特徴を検出すると共に、当該検出結果及び予め記憶している既知の上記物体の対応する上記特徴の学習結果に基づいて、当該対象とする物体を認識する複数の認識手段と、
上記既知の物体の上記名前及び当該既知の物体に対する各上記認識手段の認識結果を関連付けた関連付け情報を記憶する記憶手段と、
上記既知の物体に対する各上記認識手段の学習達成度を管理し、上記対話手段が取得した上記対象とする物体の名前、当該対象とする物体に対する各上記認識手段の認識結果、及び上記記憶手段が記憶する上記関連付け情報に基づいて、上記対象とする物体が新規であると判断したときには、必要な上記認識手段に当該対象とする物体の上記対応する特徴を学習させると共に、当該対象とする物体についての上記関連付け情報を上記記憶手段に新たに記憶させ、上記対象とする物体が既知であると判断したときには、当該対象とする物体に対する各上記認識手段の上記学習達成度に基づき決定される所定の上記認識手段に、当該対象とする物体の上記対応する特徴を学習させると共に、学習させた上記認識手段の新たな上記学習達成度に応じて対応する上記関連付け情報を更新する制御手段と
を具えることを特徴とする学習装置。
上記制御手段は、
上記対象とする物体に対する各上記認識手段の上記学習達成度に基づき決定される所定の上記認識手段に、当該対象とする物体の上記対応する特徴を、当該対象とする物体に対する当該認識手段の現在の上記学習達成度に応じた状態から開始するように学習させる
ことを特徴とする請求項１に記載の学習装置。
上記制御手段は、
各上記認識手段の現在の上記学習達成度を上記記憶手段に記憶させて管理し、
上記制御手段又は上記記憶手段は、
上記学習達成度を時間減衰させる
ことを特徴とする請求項２に記載の学習装置。
各上記認識手段は、
上記対象とする物体の上記対応する特徴の学習を途中で終了した場合に、当該途中までの上記学習結果を保持し、次回の当該対象とする物体の上記対応する特徴の学習を当該途中から開始する
ことを特徴とする請求項１に記載の学習装置。
上記対象とする物体は、対話相手の上記ユーザであり、
上記対話手段は、
上記ユーザに対する一部又は全部の上記認識手段の学習が不十分であるときに、上記ユーザとの対話を引き伸ばすための処理を実行する
ことを特徴とする請求項１に記載の学習装置。
上記対話手段は、
上記ユーザとの対話を引き伸ばす際には、上記対象とする物体に対する上記学習が不十分な上記認識手段が学習し易いような対話を生成するための処理を実行する
ことを特徴とする請求項５に記載の学習装置。
ユーザとの対話を通して当該対象とする物体の名前を上記ユーザから取得すると共に、上記対象とする物体の複数の異なる所定の特徴についての検出結果及び予め記憶している既知の上記物体の各上記特徴についての学習結果に基づいて、当該対象とする物体を認識する第１のステップと、
上記既知の物体に対する各上記特徴の学習達成度を管理し、取得した上記対象とする物体の名前と、当該対象とする物体の各上記特徴にそれぞれ基づく認識結果と、予め記憶している上記既知の物体の上記名前、当該既知の物体の各上記特徴に対する認識結果を関連付けた関連付け情報とに基づいて、上記対象とする物体が新規であると判断したときには、当該対象とする物体の必要な上記特徴を学習すると共に、当該対象とする物体についての上記関連付け情報を新たに記憶し、上記対象とする物体が既知であると判断したときには、当該対象とする物体に対する各上記特徴の学習達成度に基づき決定される上記特徴を学習すると共に、当該対象とする物体についての上記関連付け情報を更新する第２のステップと
を具えることを特徴とする学習方法。
ユーザとの対話を通して対象とする物体の名前を上記ユーザから取得する対話手段と、
それぞれ上記対象とする物体の異なる所定の特徴を検出すると共に、当該検出結果及び予め記憶している既知の上記物体の対応する上記特徴の学習結果に基づいて、当該対象とする物体を認識する複数の認識手段と、
上記既知の物体の上記名前及び当該既知の物体に対する各上記認識手段の認識結果を関連付けた関連付け情報を記憶する記憶手段と、
上記既知の物体に対する各上記認識手段の学習達成度を管理し、上記対話手段が取得した上記対象とする物体の名前、当該対象とする物体に対する各上記認識手段の認識結果、及び上記記憶手段が記憶する上記関連付け情報に基づいて、上記対象とする物体が新規であると判断したときには、必要な上記認識手段に当該対象とする物体の上記対応する特徴を学習させると共に、当該対象とする物体についての上記関連付け情報を上記記憶手段に新たに記憶させ、上記対象とする物体が既知であると判断したときには、当該対象とする物体に対する各上記認識手段の上記学習達成度に基づき決定される所定の上記認識手段に、当該対象とする物体の上記対応する特徴を学習させると共に、学習させた上記認識手段の新たな上記学習達成度に応じて対応する上記関連付け情報を更新する制御手段と
を具えることを特徴とするロボット装置。