JP2005202075A

JP2005202075A - 対話制御システム及びその方法並びにロボット装置

Info

Publication number: JP2005202075A
Application number: JP2004007305A
Authority: JP
Inventors: Hideki Shimomura; 秀樹下村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-01-14
Filing date: 2004-01-14
Publication date: 2005-07-28

Abstract

【課題】
本発明は、対話機能を有するロボットのエンターテインメント性を向上させ得る対話制御システム及びその方法並びにロボット装置を実現しようとするものである。
【解決手段】
ユーザの発話内容を入力するための外部マイク機器を用いて、当該発話内容を無線通信を介してユーザとの対話機能を有するロボットに送信するようになされた対話制御システムにおいて、外部マイク機器から入力される発話内容を表す音声情報をロボットに送信する送信手段を設け、ロボットは、送信手段から送信される音声情報を受信する受信手段と、ロボットに組み込まれた内蔵マイク機器から入力した音声内容に代えて又は当該音声内容と共に、受信手段から受信した音声情報に基づく発話内容を認識する音声認識手段とを設けるようにした。
【選択図】図４

Description

本発明は対話制御システム及び方法並びにロボット装置に関し、例えばエンターテインメントロボットに適用して好適なものである。

近年、多くの企業や大学等の研究機関においてヒューマノイド型ロボットの開発が進められている。かかるヒューマノイド型ロボットは、ＣＣＤ（Charge Coupled Device）カメラ、マイクロホン及びタッチセンサ等の外部センサと、バッテリセンサ及び加速度センサ等の内部センサとが搭載され、これら外部センサ及び内部センサの出力に基づいて外部及び内部の状態を認識し、認識結果に基づいて自律的に行動し得るようになされたものである（例えば非特許文献１参照）。

また近年では、音声認識機能及び対話制御機能が搭載され、ユーザとの間で簡単な日常会話を行い得るようになされたエンターテインメントロボットも多く見受けられるようになってきた。
特願２００３−２７０８３５

ところで、かかる音声認識及び対話制御機能が搭載された従来のロボットでは、ユーザとの距離が離れるにつれて、ユーザの発話内容が環境のノイズや反響等の影響を受け易くなることとなり聞き取り難い場合がある。

通常、ロボットに搭載されたマイクとの距離をユーザに近づければ音声認識の性能が向上するが、ユーザがロボットとの距離を近づけられない場合や近づけたくない場合がある。例えば、例えば、ロボットがテレビの傍にいて、かつユーザがそこから離れたソファでくつろぎながらロボットに話しかける場合などが該当する。

このような場合には、ユーザがリモートコントローラを操作してロボットに指示を与える手法も考えられるが、複雑な内容の指示をボタン操作等で行うことは非常に煩雑で困難となり、ロボットとのインタラクティブなやり取りを行う際の自然性が大きく損なわれるという問題がある。

またロボットに内蔵されている組み込みマイクとは別体に、外部マイクを設けるようにして、当該外部マイクを用いてユーザがロボットに対して発話内容を伝達する手法も考えられる。しかしロボット自体が内蔵された組み込みマイクと外部マイクとを選択的に切り替えて使用すると、ユーザとロボットとのスムーズかつ自然な対話を阻害して、アプリケーションとしての自由度が低減する問題があった。

さらにロボットは、現状のままで複数の外部マイクからの入力を選択的に受け付けることは非常に困難である上、１本の外部マイクを使用してもその方向検出を行うことも非常に困難であるなど、実用上未だ困難な問題が多くあった。

本発明は以上の点を考慮してなされたもので、対話機能を有するロボットのエンターテインメント性を向上させ得る対話制御システム及びその方法並びにロボット装置を提案しようとするものである。

かかる課題を解決するため本発明においては、ユーザの発話内容を入力するための外部マイク機器を用いて、当該発話内容を無線通信を介してユーザとの対話機能を有するロボットに送信するようになされた対話制御システムにおいて、外部マイク機器から入力される発話内容を表す音声情報をロボットに送信する送信手段を設け、ロボットは、送信手段から送信される音声情報を受信する受信手段と、ロボットに組み込まれた内蔵マイク機器から入力した音声内容に代えて又は当該音声内容と共に、受信手段から受信した音声情報に基づく発話内容を認識する音声認識手段とを設けるようにした。この結果この対話制御システムでは、ロボットがユーザとスムーズにかつ自然にインタラクティブな対話をすることができる。

また本発明においては、ユーザの発話内容を入力するための外部マイク機器を用いて、当該発話内容を無線通信を介してユーザとの対話機能を有するロボットに送信するようになされた対話制御方法において、外部マイク機器から入力される発話内容を表す音声情報をロボットに送信する第１のステップと、送信される音声情報をロボットにおいて受信する第２のステップと、ロボットに組み込まれた内蔵マイク機器から入力した音声内容に代えて又は当該音声内容と共に、受信手段から受信した音声情報に基づく発話内容を認識する第３のステップとを設けるようにした。この結果この対話制御方法では、ロボットがユーザとスムーズにかつ自然にインタラクティブな対話をすることができる。

さらに本発明においては、ユーザとの対話機能を有するロボット装置において、無線通信を介して送信されるユーザの発話内容を受信する受信手段と、ロボット装置に組み込まれた内蔵マイク機器から入力した音声内容に代えて又は当該音声内容と共に、受信手段から受信した音声情報に基づく発話内容を認識する音声認識手段とを設けるようにした。この結果このロボット装置では、ユーザとスムーズにかつ自然にインタラクティブな対話をすることができる。

上述のように本発明によれば、ユーザの発話内容を入力するための外部マイク機器を用いて、当該発話内容を無線通信を介してユーザとの対話機能を有するロボットに送信するようになされた対話制御システムにおいて、外部マイク機器から入力される発話内容を表す音声情報をロボットに送信する送信手段を設け、ロボットは、送信手段から送信される音声情報を受信する受信手段と、ロボットに組み込まれた内蔵マイク機器から入力した音声内容に代えて又は当該音声内容と共に、受信手段から受信した音声情報に基づく発話内容を認識する音声認識手段とを設けたことにより、ロボットがユーザとスムーズにかつ自然にインタラクティブな対話をすることができ、かくして対話機能を有するロボットのエンターテインメント性を向上させ得る対話制御システムを実現できる。

また本発明によれば、ユーザの発話内容を入力するための外部マイク機器を用いて、当該発話内容を無線通信を介してユーザとの対話機能を有するロボットに送信するようになされた対話制御方法において、外部マイク機器から入力される発話内容を表す音声情報をロボットに送信する第１のステップと、送信される音声情報をロボットにおいて受信する第２のステップと、ロボットに組み込まれた内蔵マイク機器から入力した音声内容に代えて又は当該音声内容と共に、受信手段から受信した音声情報に基づく発話内容を認識する第３のステップとを設けたことにより、ロボットがユーザとスムーズにかつ自然にインタラクティブな対話をすることができ、かくして対話機能を有するロボットのエンターテインメント性を向上させ得る対話制御方法を実現できる。

さらに本発明によれば、ユーザとの対話機能を有するロボット装置において、無線通信を介して送信されるユーザの発話内容を受信する受信手段と、ロボット装置に組み込まれた内蔵マイク機器から入力した音声内容に代えて又は当該音声内容と共に、受信手段から受信した音声情報に基づく発話内容を認識する音声認識手段とを設けたことにより、ユーザとスムーズにかつ自然にインタラクティブな対話をすることができ、かくしてエンターテインメント性を向上させ得るロボット装置を実現できる。

以下図面について、本発明の一実施の形態を詳述する。

（１）本実施の形態によるロボットのハードウェア構成
図１において、１は全体として本実施の形態によるロボットを示し、胴体部ユニット２の上部に首関節３を介して頭部ユニット４が取り付けられると共に、当該胴体部ユニット２の左右上部にそれぞれ肩関節４Ａ、４Ｂを介して腕部ユニット５Ａ、５Ｂが取り付けられ、かつ胴体部ユニット２の下部にそれぞれ股関節６Ａ、６Ｂを介して一対の脚部ユニット７Ａ、７Ｂが取り付けられることにより構成されている。

図２は、このロボット１の機能構成を模式的に示したものである。この図２に示すように、ロボット１は、全体の動作の統括的制御やその他のデータ処理を行う制御ユニット１０と、入出力部１１と、駆動部１２と、電源部１３とで構成される。

入出力部１１は、入力部としてロボット１の目に相当する一対のＣＣＤ（Charge Coupled Device）カメラ２０や、耳に相当する一対のマイクロホン（以下、これを内蔵マイクと呼ぶ）２１、頭部や手及び足裏などの部位に配設されてユーザからの物理的な働きかけや、手と外部物体との接触、足裏面の接地等を感知するタッチセンサ２２、あるいは五感に相当するその他の各種のセンサを含む。

また入出力部１１は、出力部としてロボット１の口に相当するスピーカ（以下、これを内蔵スピーカと呼ぶ）２３、あるいは点滅の組み合わせや点灯のタイミングにより顔の表情を形成するＬＥＤ（目ランプ）２４などを装備している。これら出力部は、音声やランプの点滅など、脚などによる機械運動パターン以外の形式でもロボット１からのユーザ・フィードバックを表現することができる。

駆動部１２は、制御ユニット１０が指令する所定の運動パターンに従ってロボット１の機体動作を実現する機能ブロックであり、行動制御による制御対象物である。駆動部１２は、ロボット１の各関節における自由度を実現するための機能モジュールであり、それぞれの関節におけるロール、ピッチ、ヨーなど各軸毎に設けられた複数の駆動ユニット２５_１〜２５_ｎで構成される。各駆動ユニット２５_１〜２５_ｎは、所定軸回りの回転動作を行うモータ２６_１〜２６_ｎと、モータ２６_１〜２６_ｎの回転位置を検出するエンコーダ２７_１〜２７_ｎと、エンコーダ２７_１〜２７_ｎの出力に基づいてモータ２６_１〜２６_ｎの回転位置や回転速度を適応的に制御するドライバ２８_１〜２８_ｎの組み合わせで構成される。

電源部１３は、その字句通り、ロボット１内に各電気回路などに対して給電を行う機能モジュールである。本実施の形態に係るロボット１は、バッテリを用いた自律駆動式であり、電源部１３は、充電バッテリ２９と、充電バッテリ３０の充放電状態を管理する充放電制御部３１とで構成される。

充電バッテリ２９は、例えば、複数本のリチウムイオン２次電池セルをカートリッジ式にパッケージ化した「バッテリ・パック」の形態で構成される。

また、充放電制御部３０は、バッテリ２９の端子電圧や充電／放電電流量、バッテリ２９の周囲温度などを測定することでバッテリ２９の残存容量を把握し、充電の開始時期や終了時期などを決定する。充放電制御部３０が決定する充電の開始及び終了時期は制御ユニット１０に通知され、ロボット１が充電オペレーションを開始及び終了するためのトリガとなる。

制御ユニット１０は、ロボット１の「頭脳」に相当し、例えば頭部ユニット４又は胴体部ユニット２内に搭載されている。この制御ユニット１０は、図３に示すように、メイン・コントローラとしてのＣＰＵ（Central Processing Unit）３１が、メモリやその他の各回路コンポーネントや周辺機器とバス接続された構成となっている。バス３７は、データ・バス、アドレス・バス、コントロール・バスなどを含む共通信号伝送路である。バス３７上の各装置にはそれぞれに固有のアドレス（メモリ・アドレス又はＩ／Ｏアドレス）が割り当てられている。ＣＰＵ３１は、アドレスを指定することによってバス３７上の特定の装置と通信することができる。

ＲＡＭ（Read Access Memory）３２は、ＤＲＡＭ（Dynamic RAM）などの揮発性メモリで構成された書き込み可能メモリであり、ＣＰＵ３１が実行するプログラム・コードをロードしたり、実行プログラムによる作業データの一時的な保存のために使用される。

ＲＯＭ（Read Only Memory）３３は、プログラムやデータを恒久的に格納する読み出し専用メモリである。ＲＯＭ３３に格納されるプログラム・コードには、ロボット１の電源投入時に実行する自己診断テスト・プログラムや、ロボット１の動作を規定する制御プログラムなどが挙げられる。

ロボット１の制御プログラムには、ＣＣＤカメラ２０や内蔵マイク２１などの各種センサからの入力を処理してシンボルとして認識する「センサ入力・認識処理プログラム」、短期記憶などの記憶動作を司りながらセンサ入力と所定の行動制御モデルとに基づいてロボット１の行動を制御する「行動制御プログラム」、行動制御モデルに従って各関節モータの駆動や内蔵スピーカ２２の音声出力などを制御する「駆動制御プログラム」などが含まれる。

不揮発性メモリ３４は、例えばＥＥＰＲＯＭ（Electrically Erasable and Programmable ROM）のように電気的に消去再書き込みが可能なメモリ素子で構成され、逐次更新すべきデータを不揮発的に保持するために使用される。逐次更新すべきデータには、暗記鍵やその他のセキュリティ情報、出荷後にインストールすべき装置制御プログラムなどが挙げられる。

インターフェース３５は、制御ユニット１０外の機器と相互接続し、データ交換を可能にするための装置である。インターフェース３５は、例えば、入出力部１１内のＣＣＤカメラ２０や内蔵マイク２１及び内蔵スピーカ２２との間でデータ入出力を行う。また、インターフェース３５は、駆動部１２内の各ドライバ２８_１〜２８_ｎとの間でデータやコマンドの入出力を行う。

また、インターフェース３５は、ＲＳ（Recommended Standard）−２３２Ｃなどのシリアル・インターフェース、ＩＥＥＥ（Institute of Electrical and Electronics Engineers ）１２８４などのパラレル・インターフェース、ＵＳＢ（Universal Serial Bus）インターフェース、ｉ−Ｌｉｎｋ（ＩＥＥＥ１３９４）インターフェース、ＳＣＳＩ（Small Computer System Interface）インターフェース、ＰＣカードやメモリ・スティックを受容するメモリ・カードインターフェース（カードスロット）などのような、コンピュータの周辺機器接続用の汎用インターフェースを備え、ローカル接続された外部機器との間でプログラムやデータの移動を行い得るようにしてもよい。また、インターフェース３５の他の例として、赤外線通信（ＩｒＤＡ）インターフェースを備え、外部機器と無線通信を行うようにしてもよい。

さらに、制御ユニット１０は、無線通信インターフェース３６やネットワーク・インターフェース・カード（ＮＩＣ）３８などを含み、Ｂｌｕｅｔｏｏｔｈのような近接無線データ通信や、ＩＥＥＥ８０２．１１ｂのような無線ネットワーク、あるいはインターネットなどの高域ネットワークを経由して、外部のさまざまなホスト・コンピュータとデータ通信を行うことができる。

このようなロボット１とホスト・コンピュータ間におけるデータ通信により、遠隔のコンピュータ資源を用いて、ロボット１の複雑な動作制御を演算したり、リモート・コントロールすることができる。

（２）本実施の形態における遠隔対話システムの構成
かかる図３に示す構成において、ロボット１は、無線通信インターフェース３６を介して無線管理コンピュータ４０とデータ通信を行うことにより、当該無線管理コンピュータ４０との間で無線接続により外部のヘッドセット４１と通信したり、この無線管理コンピュータ４０に接続された複数の電波通信機４２Ａ〜４２Ｄから得られる受信結果に基づいてロボット１やユーザの現在位置を特定したりし得るようになされている（以下、かかる機能を遠隔対話制御機能と呼ぶ）。

この遠隔対話制御機能は、ロボット１と、無線管理コンピュータ４０及びこれに付随する複数の電波通信機と、ヘッドセット４１とから構成された遠隔対話システム４５（図４）により実現されるようになされている。このうちヘッドセット４１は、ユーザが頭部に装着した際に両耳に当接する一対のヘッドホン（以下、これを外部スピーカと呼ぶ）４１Ａと、当該外部スピーカの一方に接続されたマイクロホン（以下、これを外部マイクと呼ぶ）４１Ｂとから構成されている。

具体的に遠隔対話システム４５は、図４に示すように、部屋ＲＭの各隅部にそれぞれ配置された電波通信機４２Ａ〜４２Ｄが有線ネットワークＬＮを通じて単一の無線管理コンピュータ４０にそれぞれ接続されており、この部屋ＲＭの中にロボット１とヘッドセット４１を装着してユーザとが同時に居る状態で構成される。

この無線管理コンピュータ４０は、図５に示すように、全体の制御を司るＣＰＵ４３と、各種ソフトウェアが格納されたＲＯＭ４４と、ＣＰＵ４３のワークメモリとしてのＲＡＭ４５、各種データが格納されたハードディスク装置４６と、ＣＰＵ４３が各電波通信機４２Ａ〜４２Ｄとの間でデータのやり取りをするためのインターフェースであるインターフェース部４７とがバス４８を介して相互に接続されることにより構成されている。

図４において、まずユーザの発話内容がヘッドセット４１の外部マイク４１Ｂを介して電波として発信されると、当該電波が各電波通信機４２Ａ〜４２Ｄをアンテナとして無線管理コンピュータ４０に与えられる。この無線管理コンピュータ４０では、ＣＰＵ４３は、各電波通信機４２Ａ〜４２Ｄを介して受信した外部マイク４１Ｂからの電波に基づいてユーザの発話内容を表す音声信号Ｓ１を生成すると共に、当該各電波通信機４２Ａ〜４２Ｄごとに外部マイク４１Ｂからの電波の強度をそれぞれ測定する。

この結果、無線管理コンピュータ４０のＣＰＵ４３は、各電波通信機４２Ａ〜４２Ｄについて測定した電波強度に基づいて、部屋ＲＭ内におけるヘッドセット４１の位置を特定することができ、かかる位置情報（以下、これを音源位置情報と呼ぶ）をエンコードして音声信号Ｓ１に付加した後、当該音声信号Ｓ１を各電波通信機４２Ａ〜４２Ｄを介してロボット１に送信する。

ロボット１は、無線管理コンピュータ４０から各電波通信機４２Ａ〜４２Ｄを介して受信した音声信号Ｓ１に付加された音源位置情報をデコードすることにより、部屋ＲＭ内におけるユーザの位置を特定することができると共に、内蔵マイク２１では聞き取り難いユーザの発話内容をも当該音声信号Ｓ１に基づく発話内容として認識することができる。

一方、ロボット１が生成した発話内容が内蔵スピーカ２３を介して放音される以外に、必要に応じて当該発話内容が電波として無線通信インターフェース３６を介して発信されると、当該電波が各電波通信機４２Ａ〜４２Ｄをアンテナとして無線管理コンピュータ４０に与えられる。この無線管理コンピュータ４０のＣＰＵ４３は、各電波通信機４２Ａ〜４２Ｄを介して受信したロボット１からの電波に基づいてその発話内容を表す音声信号Ｓ２を生成すると共に、当該各電波通信機４２Ａ〜４２Ｄごとにロボット１からの電波の強度をそれぞれ測定する。

この結果、無線管理コンピュータ４０では、ＣＰＵ４３は、ロボット１の発話内容を表す音声信号Ｓ５を各無線受信機４２Ａ〜４２Ｄを介してヘッドセット４１に送信すると共に、各電波通信機４２Ａ〜４２Ｄについて測定した電波強度に基づいて、部屋ＲＭ内におけるロボット１の位置を特定した後にその位置情報（以下、これを自己位置情報と呼ぶ）を表す位置信号Ｓ３を各電波通信機４２Ａ〜４２Ｄを介してロボット１に送信する。

これにより遠隔対話システム４５においては、ユーザは装着しているヘッドセット４１の外部スピーカ４１Ａを通じてロボット１の発話内容を音声として聞き取ることができる一方、ロボット１は無線管理コンピュータ４０から各電波通信機４２Ａ〜４２Ｄを介して受信した位置信号Ｓ３の自己位置情報に基づいて、部屋ＲＭ内における自己の位置を特定して、上述した音源位置情報と相俟ってロボット１から見たユーザとの相対位置を認識することができる。

なお、無線管理コンピュータ４０は、ロボット１の現在位置を定期的（例えば１分ごと）に測定しながら、ユーザからヘッドセット４１の外部マイク４１Ｂを用いて発話内容を表す電波を受信したとき、当該ヘッドセット４１の現在位置を測定すると共に現在記憶しているロボット１の現在位置を読み出すことにより、ロボット１から見たユーザとの相対位置を認識するようにしても良い。

すなわち無線管理コンピュータ４０のＣＰＵ４３は、図６に示す音源位置特定処理手順ＲＴ１をステップＳＰ０において開始し、続くステップＳＰ１においてロボット１からの各種電波（発話内容も含む）を受信するのを待った後、受信した場合のみステップＳＰ２に進んで、当該受信した電波強度に基づいてロボット１の現在位置を特定して、自己位置情報をハードディスク装置４６に格納する。

続いてＣＰＵ４３は、ヘッドユニット４１の外部マイク４１Ｂからの電波を受信するのを待った後、受信した場合のみステップＳＰ４に進んで、当該受信した電波強度に基づいてヘッドユニット４１を装着しているユーザの現在位置を特定して、音源位置情報をハードディスク装置４６に格納する。

この後、ＣＰＵ４３は、ステップＳＰ５に進んで、自己位置情報及び音源位置情報をハードディスク装置４６から読み出して、これを無線通信を介して（上述の場合には自己位置情報を表す位置信号Ｓ３及び音源位置情報を付加した音声信号Ｓ１として）ロボット１に送信した後、再度ステップＳＰ１に戻ってロボット１からの次の電波を受けるときまで待つ。

このようにしてロボット１は、定期的に自己の電波を無線管理コンピュータ４０に送信しておけば、ヘッドユニット４１の外部マイク４１Ｂから発話内容を表す電波が発信されたときに、常にヘッドユニット４１に対する自己の現在位置を認識することができる。

（３）ロボット１のソフトウェア構成
図７は、ＲＯＭ３３（図２）に格納された制御プログラム群により構成されるロボット１の行動制御システム５０の機能構成を模式的に示したものである。

この行動制御システム５０は、オブジェクト指向プログラミングを採り入れて実装されている。この場合、各ソフトウェアは、データとそのデータに対する処理手続きとを一体化させた「オブジェクト」というモジュール単位で扱われる。また各オブジェクトは、メッセージ通信と共有メモリを使ったオブジェクト間通信方法によりデータの受け渡しとＩｎｖｏｋｅを行うことができる。

ここで行動制御システム５０は、ＣＣＤカメラ２０（図２）、内蔵マイク（マイクロホン）２１（図２）及びタッチセンサ２２（図２）などの各種センサからのセンサ出力に基づいて外部環境を認識するための画像認識部５１、音声認識部５２及び接触認識部５３を有している。

画像認識部５１は、ＣＣＤカメラ２０から与えられる画像信号Ｓ４に基づいて顔認識や色認識などの画像認識処理や特徴抽出を実行する。そして画像認識部５１は、かかる顔認識結果であるその人物に固有の顔ＩＤ（識別子）、顔画像領域の位置及び大きさといった顔認識情報や、色認識結果である色領域の位置や大きさ及び特徴量といった色認識情報などの各種画像認識結果と、画像信号Ｓ４とを短期記憶部５５に送出する。また画像認識部５１は、ＣＣＤカメラ２０からの画像信号Ｓ４に基づいて、いわゆるステレオビジョン法によって撮像対象までの距離を検出し、検出結果を短期記憶部５５に送出する。

音声認識部５２の前段には入力選択部５４が設けられ、当該入力選択部５４は、通常はデフォルトとして内蔵マイク２１から与えられる音声信号Ｓ５を音声認識部５２に供給するが、上述したヘッドセット４１の外部マイク４１Ｂから音声信号Ｓ１が与えられたときには、当該外部マイク４１Ｂからの音声信号Ｓ１を優先して音声認識部５２に供給するように入力を切り替える。

かかる入力選択部５４は、外部から何らかの音声信号を受信すると、図８に示す音声信号選択処理手順ＲＴ２をステップＳＰ１０において開始し、続くステップＳＰ１１においてデフォルト設定された既定のマイク（本実施の形態では内蔵マイク２１）と同じマイクからの入力であるか否かを判断し、肯定結果が得られた場合のみステップＳＰ１２に進む。

このステップＳＰ１２において、入力選択部５４は、既定のマイクよりも優先度が高いマイク（本実施の形態では外部マイク４１Ｂ）からの入力であるか否かを判断し、肯定結果が得られた場合のみステップＳＰ１３に進んで、入力の既定値をその優先度の高いマイクからの入力に設定変更した後にステップＳＰ１４に進んで当該音声信号選択処理手順ＲＴ２を終了する。一方、上述したステップＳＰ１１及びＳＰ１２において否定結果が得られた場合には、入力選択部５４は何もすることなくそのままステップＳＰ１４に進んで当該処理手順を終了する。

この音声認識部５２は、入力選択部５４を介して内蔵マイク２１から与えられる音声信号Ｓ５を受け取ると、当該音声信号Ｓ５に基づいて音声認識や話者認識、音源方向認識などの各種音に関する認識処理を実行する。そして音声認識部５２は、かかる音声認識結果である認識した単語の文字列情報と、音響的特徴等に基づく話者認識処理結果であるその話者に固有の話者ＩＤ情報と、音源方向認識結果である音源方向情報となどの各種音声認識結果を短期記憶部５５に送出する。また音声認識部５２は、これら各種音声認識結果と併せて、これら音声信号Ｓ５を短期記憶部５５に送出する。

また音声認識部５２は、入力選択部５４を介してヘッドセット４１の外部マイク４１Ｂから与えられる音声信号Ｓ１を受け取ると、当該音声信号Ｓ１に基づいて音声認識や話者認識などの各種音に関する認識処理を実行すると共に、当該音声信号Ｓ１から抽出した音源位置情報を短期記憶部５５に送出する。また音声認識部５２は、これら各種音声認識結果と併せて、これら音声信号Ｓ１を短期記憶部５５に送出する。

さらに接触認識部５３は、頭部ユニット４（図１）の上部や腕部ユニット５Ａ、５Ｂ（図１）の先端部である手、脚部ユニット７Ａ、７Ｂ（図１）の底部である足底等に配設されたタッチセンサ２２からそれぞれ与えられる圧力検出信号Ｓ６に基づいて「撫でられた」、「叩かれた」、「物を把持した」、「足裏面が接地した」という外部との物理的な接触を認識し、得られたこれら接触認識結果を短期記憶部５５に送出する。また接触認識部４４は、これら接触認識結果と併せて、各タッチセンサ２２からの圧力検出信号Ｓ６を短期記憶部５５に送出する。

短期記憶部５５は、ロボット１の外部環境に関する情報を比較的短い時間だけ保持するオブジェクトであり、画像認識部５１から与えられる各種画像認識結果及び画像信号Ｓ４と、音声認識部５２から与えられる各種音声認識結果、音源位置情報及び音声信号Ｓ５、Ｓ１と、接触認識部５３から与えられる各種接触認識結果及び圧力検出信号Ｓ６とを受け取り、これらを短期間だけ記憶する。

また行動制御システム５０では、ロボット１が自己の発話内容に応じた電波をリアルタイムで又は直前に発信した結果、外部の無線管理コンピュータ４０から折り返して自己位置情報を表す位置信号Ｓ３が与えられ、当該位置信号Ｓ３を短期記憶部５５に短期間だけ記憶するようになされている。

また短期記憶部５５は、これら受け取った画像認識結果、音声認識結果及び接触認識結果と、画像信号Ｓ４、音声信号Ｓ５、Ｓ１、音源位置情報、自己位置情報及び各圧力検出信号Ｓ６とを統合的に用いて顔画像領域、人物ＩＤ、話者ＩＤ及び文字列情報等の対応付けを行うことにより、現在どこにどの人物がいて、発した言葉がどの人物のものであり、その人物とはこれまでにどのような対話を行ったかというターゲット情報及びイベント情報を生成し、これを行動選択制御部５６に送出する。

行動選択制御部５６は、短期記憶部５５から与えられるターゲット情報及びイベント情報と、短期記憶部５５の記憶内容とに基づいて、予め複数用意されている行動の中からロボット１が現在置かれている状況及び以前の行動に依存して選択した行動（状況依存行動）や、外部刺激に応じた反射的な行動（反射行動）、又は与えられた状況若しくはユーザからの命令に応じた比較的長期に渡る行動計画に基づく行動（熟考行動）などを次のロボット１の行動として決定する。そして行動選択制御部５６は、このようにして決定した行動を出力管理部５７に通知する。

出力管理部５７は、行動選択制御部５６からの通知に応じて、状況依存行動及び反射行動などの複数の行動が競合した場合の調停処理や、動作、音声及びＬＥＤ２４の点滅の同期をとる処理を行いながら、対応する駆動ユニット２５_１〜２５_ｎのモータ２６_１〜２６_ｎを駆動したり、ＬＥＤ２４を所定パターンで点滅駆動させる。

また行動選択制御部５６は、次の行動としてユーザとの対話を決定した場合には、この後音声認識部５２により短期記憶部５５に順次格納されるユーザの発話の音声認識結果を常時監視し、この音声認識結果に基づいて、ロボット１に発話させるべき内容を順次決定する。

そして行動選択制御部５６は、この決定結果に基づいて必要な発話内容を予めＲＯＭ３３（図３）に格納されたデータベース（図示せず）から読み出し、これを出力管理部５７に送出する。このとき出力管理部５７は、行動選択制御部５６から与えられる発話内容を表す音声信号Ｓ７又はＳ２を出力選択部５８に送出する。

出力管理部５７の後段には出力選択部５８が設けられ、当該出力選択部５８は、上述した入力選択部と連動して切替制御を行うようになされ、入力選択部５４が内蔵マイク２１からの入力を選択した場合には内蔵スピーカ２３から音声信号Ｓ７を出力するように切り替える一方、入力選択部が外部マイク４１Ｂからの入力を選択した場合には出力選択部５８においても外部スピーカ４１Ａから音声信号Ｓ２を出力するように切り替える。

このようにしてこのロボット１においては、ＣＣＤカメラ２０、内蔵マイク２１及びタッチセンサ２３などの各種センサのセンサ出力に基づき認識される外部状況等に基づいて自律的に行動し得るようになされている。さらにロボット１は、必要に応じて外部に設けられた無線管理コンピュータ４０（図３）及びこれに付随する各電波通信機４２Ａ〜４２Ｄを介してヘッドセット４１を装着したユーザとの間で互いに居場所を認識しながら対話し得るようになされている。

（４）ロボットにおける遠隔対話制御機能
次に、このロボット１に搭載された遠隔対話制御機能について説明する。

このロボット１には、このロボット１には、対話相手との間に距離が長い場合や、比較的短くてもその間に環境のノイズや反響等の影響を受け易い場合には、内蔵スピーカ２３から出力した自己の発話内容を対話相手に伝達するのが困難となったり、逆に対話相手からの発話内容を内蔵マイク２１では聞き取り困難となるおそれがあることから、無線通信を介して対話相手であるユーザとの間で対話し、かつロボット１やユーザの現在位置を特定する遠隔対話制御機能も搭載されている。

実際上、このロボット１の場合、ヘッドセット４１を装着したユーザと無線通信を介して互いの位置を確認しながら対話制御する手段として、行動制御システム５０には、上述した入力選択部５４及び出力選択部５８が設けられている。因みに、これら入力選択部５４及び出力選択部５８は、ＣＰＵ３１（図３）により構成されるものである。

ここで行動制御システム５０において、ユーザが装着するヘッドセット４１の外部マイク４１Ｂから無線管理コンピュータ４０（図３）及びこれに付随する各電波通信機４２Ａ〜４２Ｄを用いた無線通信を介して音声信号Ｓ１が供給されると、図９に示す遠隔対話制御処理手順ＲＴ３をステップＳＰ２０から開始し、入力選択部５４において優先的に当該音声信号Ｓ１を音声認識部５２に供給する（ステップＳＰ２１）。

このとき音声認識部５２は、音声信号Ｓ１に基づく音声認識処理を行うと共に、当該音声信号Ｓ１から抽出した音源位置情報に基づくヘッドセット４１の位置認識処理を行った後、これら音源位置情報及び音声認識結果を短期記憶部５５に記憶保持させる（ステップＳＰ２２）。

また行動制御システム５０においては、ロボット１が自己の発話内容をリアルタイムで又は直前に電波として発信すると、当該電波が各電波通信機４２Ａ〜４２Ｄをアンテナとして無線管理コンピュータ４０に与えられ、この無線管理コンピュータ４０において各電波通信機４２Ａ〜４２Ｄについて測定した電波強度に基づいてロボット１自体の位置を特定した後にその自己位置情報を表す位置信号Ｓ３を各電波通信機４２Ａ〜４２Ｄを介して再度ロボット１に送信する。この結果、行動制御システム５０は、かかるロボット１の自己位置情報を短期記憶部５５に記憶保持させる。

続いて行動選択制御部５６は、短期記憶部５５に記憶保持された音声認識結果に基づいてユーザの発話内容を認識すると共に、当該短期記憶部５５に記憶保持された音源位置情報及び自己位置情報に基づいて、ロボット１から見たヘッドセット４１を装着しているユーザの相対位置を認識する（ステップＳＰ２３及びＳＰ２４）。これに対して外部マイク４１Ｂではなく内蔵マイク２１により音声信号Ｓ５を受信した場合には、当該音声信号Ｓ５に基づいて直接音源方向を認識する（ステップＳＰ２３及びＳＰ２５）。

行動選択制御部５６は、ユーザの発話内容及び位置に基づいて、必要な発話内容を決定した後、出力管理部５７を介して当該発話内容を表す音声信号Ｓ２として出力すると共に、ロボット１の目に相当するＣＣＤカメラ２０を装着しているユーザの方向に向けるような行動を決定した後、出力管理部５８を介して、頭部ユニット４をユーザの居る方向に振り向かせるように当該頭部ユニット４に対応する駆動ユニット２５_１〜２５_ｎを駆動制御させる（ステップＳＰ２６）。

このとき出力選択部５８は、入力選択部５４と連動して切替制御を行い、入力選択部５４において外部マイク４１Ｂからの入力が優先されていることから、外部スピーカ４１Ａから音声信号Ｓ２を出力するように切り替える（ステップＳＰ２７及びＳＰ２８）。

このようにしてこのロボット１においては、ユーザの発話内容をヘッドセット４１を用いた無線通信を介して音声として認識することができる一方、当該ヘッドセット４１の位置と自己の位置とを特定するようにして、ロボット１から見たユーザとの相対位置を認識することができるようになされている。

（５）具体的な状況設定
（５−１）第１の状況設定
上述した図４に示すような部屋の中において、ユーザがソファに座ってテレビを観ており、そのテレビの傍らにロボット１が立っている状態において、ユーザがロボット１に向かってテレビ番組の内容について質問しようと思って話しかけてみるが、ロボット１との距離が遠く離れている上にテレビの音声がノイズとなってロボット１から何も反応がない状況が想定される。

このときユーザがヘッドセット４１を装着して外部マイク４１Ｂをオン状態にして「ねえ、ロボット１君」と話しかけると、無線管理コンピュータ４０は、各電波通信機４２Ａ〜４２Ｄの受信結果に基づいて、ヘッドセット４１の位置である音源位置情報をその発話内容を表す音声信号Ｓ１に付加してロボット１に送信する。

ロボット１は、ヘッドセット４１から無線管理コンピュータ４０を介して送信される音声信号Ｓ１から音源位置情報を抽出してユーザの位置を認識すると共に、当該音声信号Ｓ１に基づく発話内容を認識することができる。そしてロボット１は、その応答として「なんですか？」という発話内容を表す音声信号Ｓ２を送信すると、無線管理コンピュータ４０は、各電波通信機４２Ａ〜４２Ｄの受信結果に基づいて、ロボット１の位置である自己位置情報を表す位置信号Ｓ３をロボット１に送信すると共に、当該音声信号Ｓ２に基づく発話内容をヘッドセット４１の外部スピーカ４１Ａを介して放音させる。

この結果、ロボット１は、自己から見たヘッドセット４１との相対位置を認識することができることから、ユーザの顔が見えない場合でも、ヘッドユニットの存在からユーザの位置を仮定してその方向に振り向くことができる。

続いてユーザはヘッドセット４１の外部マイク４１Ｂを用いて、「この番組の後に何があるの？」とロボット１に質問すると、ロボット１は、現在時刻及び現在選択されているテレビチャンネルを見ながら、予めネットワーク等を介して入手しておいた電子番組表を不揮発性メモリ３４から読み出して、当該電子番組表を参照する。

その結果ロボット１は、次の番組に応じた番組内容を確認して、「プロ野球中継だよ」という発話内容を表す音声信号Ｓ２を送信することにより、ユーザは当該音声信号Ｓ２に基づく発話内容をヘッドセット４１の外部スピーカ４１Ａを介して聞くことができる。

さらにユーザが外部マイク４１Ｂを用いて「こっちに来て」という要求を出したとき、ロボット１は、その外部マイク４１Ｂの位置を認識していることから、その位置に向かって歩行動作することができる。そして歩いている途中でヘッドセット４１の近くに人間の顔を認識することができれば、その人物が自分の対話相手と認識することができる。

なおロボット１がユーザにある程度まで近づいてきたら、ユーザは外部マイク４１Ｂをオフ状態にしても、ロボット１は、ユーザの発話内容を内蔵マイク２１を用いて聞き取ることができる。またユーザは外部マイク４１Ｂを使用したままロボット１に対して話しかけるようにしても良い。いずれにしても、ロボット１はユーザの顔を認識しているため、そのユーザに対して視線を外すことなく対話することができ、さらに外部マイク４１Ｂを使用しなくても、ロボット１の内蔵スピーカ２３又はヘッドセット４１の外部スピーカ４１Ａを選択的に切り替えて、適切に応答内容をユーザに伝達することができる。

（５−２）第２の状況設定
ユーザがロボット１の位置を認識していない状態で、ヘッドセット４１の外部マイク４１Ｂを使用して、ロボット１に対して「こっちに来て」と話しかけると、無線管理コンピュータ４０は、各電波通信機４２Ａ〜４２Ｄの受信結果に基づいて、ヘッドセット４１の位置である音源位置情報をその発話内容を表す音声信号Ｓ１に付加してロボット１に送信する。

ロボット１は、ヘッドセット４１から無線管理コンピュータ４０を介して送信される音声信号Ｓ１から音源位置情報を抽出してユーザの位置を認識すると共に、当該音声信号Ｓ１に基づく発話内容を認識することができる。

そしてロボット１は、その応答内容を表す音声信号Ｓ２を送信するようにして、無線管理コンピュータ４０から自己の位置である自己位置情報を表す位置信号Ｓ３を受信すると、自己から見たヘッドセット４１との相対位置を認識することができることから、ユーザのいる位置まで歩行動作することができる。そのときロボット１は、移動中にも、現在速度とユーザとの距離に基づいて、「あと１分ほどかかるよ」などの発話をユーザに対して出力することができる。

（５−３）第３の状況設定
ある部屋内において、人物Ａと一緒にいるロボット１に対して、その部屋とは別の部屋にいる人物Ｂがヘッドセット４１の外部マイク４１Ｂを用いて話しかける。例えば人物Ｂがその部屋に人物Ａさんが居るか否かを知るために「Ａさんは部屋にいますか？」という問い合わせをすると、無線管理コンピュータ４０は、各電波通信機４２Ａ〜４２Ｄの受信結果に基づいて、その発話内容を表す音声信号Ｓ１をロボット１に送信する。

ロボット１は、ヘッドセット４１から送信される音声信号Ｓ１に基づく発話内容を認識して、人物Ａの顔を画像認識した結果、人物Ａの存在を確認すると、その答えである「いる」という発話内容を表す音声信号Ｓ２を送信することにより、無線管理コンピュータ４０を介してヘッドセット４１の外部スピーカ４１Ａから発話内容を放音させることができる。

その際、ロボット１は天井方向を向きながら内蔵スピーカ２３を介して「いる」と発話する。すると人物Ａは何が起こったのかわからないのでロボット１に「どうしたの？」と質問すると、ロボット１は「今Ａさんがいる？って聞かれたから答えたよ」と、内蔵スピーカ２３から出力する。

（６）本実施の形態による動作及び効果
以上の構成において、この遠隔対話システム４５では、ユーザがヘッドセット４１の外部マイク４１Ｂを用いて発話すると、ロボット１は、その発話内容を無線通信を介して音声として認識することができると共に、当該ヘッドセット４１の位置を認識することができる。

その際、ロボット１は、リアルタイムで又は直前に自己の位置を特定することにより、当該自己の位置とヘッドセット４１との位置とに基づいて、ロボット１から見たユーザとの相対位置を認識することができる。

従って、ロボット１は、ユーザとの距離が離れるにつれて、ユーザの発話内容が環境のノイズや反響等の影響を受けて聞き取り難い場合でも、ユーザの現在位置を認識しながらユーザとスムーズにかつ自然にインタラクティブな対話をすることができる。

以上の構成によれば、この遠隔対話システム４５において、無線管理コンピュータ４０を用いてユーザが装着しているヘッドセット４１及びロボット１間において双方の発話内容を互いに送受信すると共に、ロボット１自身に自己の位置から見たヘッドセット４１の相対位置を認識させるようにしたことにより、ロボット１がユーザの現在位置を認識しながらユーザとスムーズにかつ自然にインタラクティブな対話をすることができ、かくして対話制御機能を有するロボットのエンターテインメント性を向上させ得る遠隔対話システム４５を実現できる。

（７）他の実施の形態
なお上述の実施の形態においては、本発明を図４のようなユーザの発話内容を入力するための外部マイク（外部マイク機器）４１Ｂを用いて、当該発話内容を無線通信を介してユーザとの対話機能を有するロボット１に送信するようになされた遠隔対話システム（対話制御システム）４５に適用するようにした場合について述べたが、本発明はこれに限らず、この他種々の構成の装置に広く適用することができる。また本発明のロボット装置を図１〜図３のようなヒューマノイド型のロボット１に適用するようにした場合について述べたが、本発明はこれに限らず、この他種々の構成の装置に広く適用することができる。

また上述の実施の形態においては、外部マイク（外部マイク機器）４１Ｂから入力される発話内容を表す音声情報をロボット１に送信する送信手段として、無線管理コンピュータ４０及びこれに付随する複数の無線通信機４２Ａ〜４２Ｄ（図３及び図４）を適用するようにした場合について述べたが、本発明はこれに限らず、無線通信機の数は３個以下又は５個以上でも良く、この他種々の構成のものを適用するようにしても良い。また

さらに上述の実施の形態においては、ロボット１では、送信される音声信号（音声情報）Ｓ１を受信する無線通信インターフェース（受信手段）３６と、ロボット１に組み込まれた内蔵マイク（内蔵マイク機器）２１から入力した音声内容に代えて又は当該音声内容と共に、ＣＰＵ３１及び無線通信インターフェース３６からなる受信手段から受信した音声信号（音声情報）Ｓ１に基づく発話内容を認識するＣＰＵ３１（特に音声認識部５２）からなる音声認識手段とを設けるようにした場合について述べたが、本発明はこれに限らず、要は、ロボット１がユーザとスムーズにかつ自然にインタラクティブな対話をすることができれば、これ以外にも種々の構成に広く適用するようにしても良い。

さらに上述の実施の形態においては、ＣＰＵ３１及び無線通信インターフェース３６からなる受信手段は、外部マイク（外部マイク機器）４１Ｂを常に内蔵マイク２１より優先させるようにした場合について述べたが、本発明はこれに限らず、複数の外部マイク（外部マイク機器）４１Ｂに優先度を設定しておき、送信手段から送信された複数の音声信号（音声情報）Ｓ１を受信したとき、各外部マイク（外部マイク機器）４１Ｂのうち優先度の高い外部マイク（外部マイク機器）４１Ｂからの音声情報を選択するようにしても良い。この結果、ロボット１は、優先度に応じた外部マイク（外部マイク機器）４１Ｂから入力された発話内容を自動的に選択して聞き取ることができる。

さらに上述の実施の形態においては、外部マイク（外部マイク機器）４１Ｂから入力される発話内容を表す音声信号（音声情報）Ｓ１に基づいて、当該外部マイク（外部マイク機器）４１Ｂの位置を測定する位置測定手段と、外部マイク（外部マイク機器）４１Ｂの位置を表す音源位置情報（第１の位置情報）を音声信号（音声情報）Ｓ１と共にロボット１に送信する送信手段とを、無線管理コンピュータ４０及びこれに付随する複数の無線通信機４２Ａ〜４２Ｄ（図３及び図４）から構成するようにした場合について述べたが、本発明はこれに限らず、要は、外部マイク（外部マイク機器）４１Ｂからの出力に基づいてその位置を特定することができれば、この他種々の構成のものを適用するようにしても良い。

なお本実施の形態では、外部マイク（外部マイク機器）４１Ｂを、ヘッドセット４１の一部として設けられたものを適用したが、ヘッドセット４１の外部スピーカ４１Ａと別体に設けるようにしても良い。

さらに上述の実施の形態においては、ロボット１に設けられ、送信される音源位置情報（第１の位置情報）に基づいて、外部マイク（外部マイク機器）４１Ｂの位置を認識する位置認識手段をＣＰＵ３１（特に行動選択部５６）から構成するようにした場合について述べたが、本発明これに限らず、この他種々の構成のものに広く適用するようにしても良い。

さらに上述の実施の形態においては、位置測定手段としての無線管理コンピュータ４０及びこれに付随する複数の無線通信機４２Ａ〜４２Ｄ（図３及び図４）は、ロボット１から必要に応じて発信される電波に基づいて、当該ロボット１の位置を測定した後、ロボット１の位置を表す自己位置情報（第２の位置情報）を当該ロボット１に送信し、ロボット１のＣＰＵ（位置認識手段）３１は、音源位置情報（第１の位置情報）及び自己位置情報（第２の位置情報）に基づいて、当該ロボット１の位置から見た外部マイク（外部マイク機器）４１Ｂの相対位置を認識するようにした場合について述べたが、本発明はこれに限らず、この他種々の構成のものに広く適用するようにしても良い。

本発明は、エンターテインメントロボットの他、対話機能を有する他の用途のロボット装置やロボット装置以外の他の機器に広く適用することができる。

本実施の形態によるロボットの外観構成を示す斜視図である。本実施の形態によるロボットの内部構成を示すブロック図である。制御ユニットの構成を示すブロック図である。本実施の形態による遠隔対話システムの具体的構成を示す略線図である。無線管理コンピュータの構成を示すブロック図である。音源位置特定処理手順を示すフローチャートである。本実施の形態によるロボットの行動制御システムの具体的構成を示すブロック図である。音声信号選択処理手順を示すフローチャートである。遠隔対話制御処理手順を示すフローチャートである。

符号の説明

１……ロボット、２１……内蔵マイク、２３……内蔵スピーカ、３１……ＣＰＵ、３６……無線通信インターフェース、４０……無線管理コンピュータ、４１……ヘッドセット、４１Ａ……外部スピーカ、４１Ｂ……外部マイク、４２Ａ〜４２Ｄ……電波通信機、５０……行動制御システム、５２……音声認識部、５４……入力選択部、５５……短期記憶部、５６……行動選択制御部、５８……出力選択部、Ｓ１、Ｓ２、Ｓ５……音声信号、Ｓ３……位置信号、ＲＴ１……音源位置特定処理手順、ＲＴ２……音声信号選択処理手順、ＲＴ３……遠隔対話制御処理手順。

Claims

ユーザの発話内容を入力するための外部マイク機器を用いて、当該発話内容を無線通信を介して上記ユーザとの対話機能を有するロボットに送信するようになされた対話制御システムにおいて、
上記外部マイク機器から入力される上記発話内容を表す音声情報を上記ロボットに送信する送信手段
を具え、
上記ロボットは、
上記送信手段から送信される上記音声情報を受信する受信手段と、
上記ロボットに組み込まれた内蔵マイク機器から入力した音声内容に代えて又は当該音声内容と共に、上記受信手段から受信した上記音声情報に基づく上記発話内容を認識する音声認識手段と
を具えることを特徴とする対話制御システム。
上記受信手段は、
複数の上記外部マイク機器に優先度を設定しておき、
上記送信手段から送信された複数の上記音声情報を受信したとき、各上記外部マイク機器のうち上記優先度の高い上記外部マイク機器からの上記音声情報を選択する
ことを特徴とする請求項１に記載の対話制御システム。
上記外部マイク機器から入力される上記発話内容を表す音声情報に基づいて、当該外部マイク機器の位置を測定する位置測定手段と、
上記外部マイク機器の位置を表す第１の位置情報を上記音声情報と共に上記ロボットに送信する送信手段と
を具え、
上記ロボットは、
上記送信手段から送信される上記第１の位置情報に基づいて、上記外部マイク機器の位置を認識する位置認識手段を有する
ことを特徴とする請求項１に記載の対話制御システム。
上記位置測定手段は、上記ロボットから必要に応じて発信される電波に基づいて、当該ロボットの位置を測定し、
上記送信手段は、上記ロボットの位置を表す第２の位置情報を当該ロボットに送信し、
上記ロボットの上記位置認識手段は、
上記送信手段から送信される上記第１及び第２の位置情報に基づいて、当該ロボットの位置から見た上記外部マイク機器の相対位置を認識する
ことを特徴とする請求項３に記載の対話制御システム。
ユーザの発話内容を入力するための外部マイク機器を用いて、当該発話内容を無線通信を介して上記ユーザとの対話機能を有するロボットに送信するようになされた対話制御方法において、
上記外部マイク機器から入力される上記発話内容を表す音声情報を上記ロボットに送信する第１のステップと、
送信される上記音声情報を上記ロボットにおいて受信する第２のステップと、
上記ロボットに組み込まれた内蔵マイク機器から入力した音声内容に代えて又は当該音声内容と共に、上記受信手段から受信した上記音声情報に基づく上記発話内容を認識する第３のステップと
を具えることを特徴とする対話制御方法。
上記第２のステップでは、
複数の上記外部マイク機器に優先度を設定しておき、
送信された複数の上記音声情報を受信したとき、各上記外部マイク機器のうち上記優先度の高い上記外部マイク機器からの上記音声情報を選択する
ことを特徴とする請求項５に記載の対話制御方法。
上記第１のステップでは、
上記外部マイク機器から入力される上記発話内容を表す音声情報に基づいて、当該外部マイク機器の位置を測定した後、上記外部マイク機器の位置を表す第１の位置情報を上記音声情報と共に上記ロボットに送信し、
上記第２のステップでは、
送信される上記第１の位置情報に基づいて、上記外部マイク機器の位置を認識する
ことを特徴とする請求項５に記載の対話制御方法。
上記第１のステップでは、
上記ロボットから必要に応じて発信される電波に基づいて、上記ロボットの位置を測定した後、上記ロボットの位置を表す第２の位置情報を当該ロボットに送信し、
上記第２のステップでは、
送信される上記第１及び第２の位置情報に基づいて、当該ロボットの位置から見た上記外部マイク機器の相対位置を認識する
ことを特徴とする請求項７に記載の対話制御方法。
ユーザとの対話機能を有するロボット装置において、
無線通信を介して送信される上記ユーザの発話内容を受信する受信手段と、
上記ロボット装置に組み込まれた内蔵マイク機器から入力した音声内容に代えて又は当該音声内容と共に、上記受信手段から受信した上記音声情報に基づく上記発話内容を認識する音声認識手段と
を具えることを特徴とするロボット装置。
上記受信手段は、
複数の上記外部マイク機器に優先度を設定しておき、
上記送信手段から送信された複数の上記音声情報を受信したとき、各上記外部マイク機器のうち上記優先度の高い上記外部マイク機器からの上記音声情報を選択する
ことを特徴とする請求項９に記載のロボット装置。
上記受信手段により受信した上記ユーザの位置を表す第１の位置情報に基づいて、上記外部マイク機器の位置を認識する位置認識手段
を具えることを特徴とする請求項９に記載のロボット装置。