JP2008254122A

JP2008254122A - ロボット

Info

Publication number: JP2008254122A
Application number: JP2007099175A
Authority: JP
Inventors: Takahiro Ohashi; 孝裕大橋; Asuka Shiina; あす香椎名
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2007-04-05
Filing date: 2007-04-05
Publication date: 2008-10-23
Anticipated expiration: 2027-04-05
Also published as: JP4976903B2

Abstract

【課題】周囲の環境や人物の状況、人物からの反応に応じた行動を自律的に制御することができるロボットを提供する。
【解決手段】ロボットは、ロボットの発話の可否、発話音量および発話口調を示す発話出力情報と位置情報とを対応付けた地図データと、発話出力情報と画像条件と音声条件とを対応付けた人物状況データとを記憶し、アプローチ行動制御手段４８に、現在位置に対応する発話出力情報を地図データから検出する環境情報検出手段１１０と、画像条件と撮影画像の処理結果および音声認識結果とに基づいて、対象とする人物の状況を判別する人状況判別手段１２０と、判別された人物の状況に対応する発話出力情報を人物状況データから抽出し、抽出した発話出力情報と環境情報検出手段１１０で検出された発話出力情報とに基づいて、対象とする人物に対する発話の可否、発話音量および発話口調を決定する応対行動制御手段１３０とを備える。
【選択図】図１０

Description

本発明は、人間と対話可能なロボットに係り、特に、自律移動可能なロボットに関するものである。

従来、入力される人間の音声を認識し、予め定められた情報を音声として出力することで人間と対話可能なロボットが知られている（例えば、特許文献１および特許文献２参照）。
特許文献１に記載のロボットは、ユーザに向かって能動的かつ積極的にインターネット上の情報を発信する対話型のロボット装置である。このロボットは、ユーザが対話不可能な領域に存在することを検知した場合や、ユーザが対話可能な領域に存在していることを検知しているがユーザの発話を検知できない場合には、動き部位を操作し、反応的ではない自発的動作を行わせ、ユーザの注意を引き、ユーザのロボットへの接近を誘発する。また、このロボットは、ユーザが発話する場合には、テキストの出力やブラウザの動作を停止させてユーザの発話を優先する。

特許文献２に記載の対話装置は、データベースに格納される動作情報やＣＰＵの演算処理結果を動作により提示するロボットを備え、対話相手の音声および身体動作に基づいて判定されるタイミングで音声を出力するものである。具体的には、対話装置は、２人の人間が実際に対話したときの音声および身体動作と発話権の交代との相関を分析した結果を利用して人間側の発話権委譲を検出し、そのタイミングで発話することで自然で円滑な対話を図っている。
特開２００２−１０８３８８号公報（段落００１４〜段落００２５、図１）特開２００１−１６２５７３号公報（段落０００９〜段落００２０、図１）

しかしながら、特許文献１または特許文献２に記載のロボットは、対話を積極的に行ったり、インターネット上の情報を積極的に発信したりするものなので、想定された利用環境や使用状況と異なる場合に、想定どおりの発話を行うと利用者が不満を感じる場合が考えられる。例えば、騒々しい場所で使用されていた装置を静かな場所に移動させて使用した場合には、装置の発話音量を下げるために利用者が設定を変更しなければならない。また、友好的で親しみのある口調で発話していた装置をビジネスに転用した場合には、ビジネス用の口調とするために利用者が設定を変更しなければならない。そのため、装置が実際に利用される場所などの周囲の環境や対象とする人物の状況、人物からの反応に応じた行動を自律的に制御できるロボットが要望されている。

そこで、本発明では、前記した問題を解決し、周囲の環境や人物の状況、人物からの反応に応じた行動を自律的に制御することができるロボットを提供することを目的とする。

本発明は、前記目的を達成するために創案されたものであり、本発明のうち請求項１に記載のロボットは、予め設定された地図上における当該ロボットの現在位置を検出する現在位置検出手段と、コミュニケーションを行う対象とする人物を撮影手段で撮影した撮影画像から前記人物の状況を判別可能に画像処理する画像処理手段と、音声から前記人物の状況を判別可能に音声認識すると共に発話を行う音声処理手段と、前記発話を行う前に前記対象とする人物へのアプローチ行動を制御するアプローチ行動制御手段とを有したロボットであって、予め設定された当該ロボットの発話の可否、発話音量および発話口調のうちの少なくとも１つを示す発話出力情報と前記地図上の位置を示す位置情報とを対応付けて作成された地図データと、前記発話出力情報と予めそれぞれ設定された人物の状況を示す画像条件および人物からの反応を示す音声条件とを対応付けて作成された人物状況データとを記憶する記憶手段を備え、前記アプローチ行動制御手段が、検出された現在位置に対応する発話出力情報を前記地図データから当該ロボットの環境に起因した情報として検出する環境情報検出手段と、前記予め設定された画像条件と前記撮影画像の処理結果および前記音声認識の結果とに基づいて、前記対象とする人物の状況を判別する人状況判別手段と、前記人状況判別手段で判別された人物の状況に対応する発話出力情報を前記人物状況データから抽出し、前記抽出した発話出力情報と前記環境情報検出手段で検出された発話出力情報とに基づいて、前記対象とする人物に対する発話の可否、発話音量および発話口調のうちの少なくとも１つを決定する応対行動制御手段とを備えることを特徴とする。

かかる構成によれば、ロボットは、発話を行う前に対象とする人物へのアプローチ行動を制御するために、応対行動制御手段によって、現在位置に対応して検出された発話出力情報と、人物の状況および人物からの反応に対応して抽出された発話出力情報とに基づいて、対象とする人物に対する発話の可否、発話音量および発話口調のうちの少なくとも１つを決定する。したがって、ロボットは、現在位置する場所と、対象とする人物の現在撮像された画像が示す状況およびその人物の現在の発話状況とに応じて、発話の可否、発話音量、発話口調を変更することができる。ここで、発話の可否において、発話の不可とは、発声（ｓａｙ）を不可とするものではなく、話しをすること（ｔａｌｋ）を不可とすることを示す。

また、請求項２に記載のロボットは、請求項１に記載のロボットであって、当該ロボットの周囲の騒音を測定して騒音のレベルを検出する騒音測定手段をさらに備え、前記地図データが、予め設定された騒音のレベルごとに前記発話出力情報が前記位置情報と対応付けて作成され、前記環境情報検出手段が、検出された現在位置および検出された騒音のレベルに対応する発話出力情報を前記予め設定された騒音のレベルごとに作成された地図データから当該ロボットの環境に起因した情報として検出することを特徴とする。

かかる構成によれば、ロボットは、現在位置する場所と、その場所で測定された騒音と、対象とする人物の現在撮像された画像が示す状況および人物からの反応に応じて、発話の可否、発話音量、発話口調を変更することができる。つまり、場所に依存したロボットの発話出力情報は、位置情報と騒音を考慮して適切に定められる。したがって、例えば、日常的には音量を低下する制御を行うべき静かな場所が、特別な用途に供されて騒々しい場所となっている場合には、ロボットは、音量をそのまま維持する制御または音量を高くする制御を行うことができる。

また、請求項３に記載のロボットは、請求項１または請求項２に記載のロボットであって、前記応対行動制御手段が、前記人物状況データから抽出した発話出力情報と、前記環境情報検出手段で検出された発話出力情報とを比較し、両者が異なる場合に、各発話出力情報を数値化して重み付けを行って統合した統合値を算出し、前記算出された統合値が予め設定された発話の許可を示す設定値より小さい場合に、前記人物への発話を許可する行動統括制御手段と、前記人物への発話が許可された場合に、前記統合値に基づいて発話音量のレベルの調整または発話口調の切り替えを行う発話レベル調整手段とを備えることを特徴とする。

かかる構成によれば、ロボットは、現在位置する場所に応じた発話出力情報と、対象とする人物の現在撮像された画像が示す状況および人物からの反応に応じた発話出力情報とがたとえ異なっていても、それらの統合値を算出する。そして、ロボットは、算出された統合値に基づいて、発話が許可されているときに発話音量のレベルの調整または発話口調の切り替えを行う。ここで、ロボットは、発話が許可されているときに、ロボットが実際に発話を行う位置から対象とする人物のいる位置までの距離をも加味して発話音量のレベルを調整することができる。

また、請求項４に記載のロボットは、請求項３に記載のロボットであって、当該ロボットの胴部にそれぞれ接続された頭部、腕部および脚部のうちの少なくとも１つの部位を駆動する駆動手段に駆動信号を出力して前記少なくとも１つの部位を自律的に移動させる自律移動制御手段と、所定の発話を行うときに前記少なくとも１つの部位を移動させる身体動作である身振りを指定する予め作成されたシナリオを記憶するシナリオ記憶手段と、前記対象とする人物に対して行う発話に対応した身振りを前記シナリオから抽出し、前記抽出した身振りを指定するコマンドを前記自律移動制御手段に出力する身振り統合手段と、前記発話レベル調整手段で発話音量のレベルが調整された場合に、前記調整された発話音量のレベルに比例させて前記コマンドとして指定される身振りによる前記部位の移動幅を調整する身振り調整手段とをさらに備えることを特徴とする。

かかる構成によれば、ロボットは、発話音量のレベルが調整された場合に、調整された発話音量のレベルに比例させて身振りによる各部位の移動幅を調整する。したがって、ロボットは、比較的低い発話音量のときに比較的小さな移動幅の身振りを行い、比較的高い発話音量のときに比較的大きな移動幅の身振りを行う。そのため、ロボットの発話中の身振りが自然なものとなる。ここで、身振りには、発話内容に伴う様々な意思表示を行うために、頭部を傾ける動作、腕部を上げたり広げたりする動作、脚部を上下移動する動作等が含まれる。

また、請求項５に記載のロボットは、請求項１ないし請求項４のいずれか一項に記載のロボットであって、前記画像処理手段が、前記撮影画像から前記対象とする人物の顔領域を抽出する顔認識手段と、前記抽出された顔領域から前記対象とする人物の視線方向を検出する視線検出手段とを有し、前記対象とする人物に対して所定の話題に関する発話を開始した後に前記視線検出手段で検出された視線方向を数値化した興味度を算出し、前記算出した興味度が上昇したか否かを判別し、前記興味度が上昇した場合に前記人物が前記話題に興味を有していると判定すると共に、前記判別結果を記録する興味推定手段と、前記興味度が下降した場合に、前記所定の話題に関する発話を中断する話題制御手段とをさらに備えることを特徴とする。

かかる構成によれば、ロボットは、対象とする人物に所定の話題に関する発話を行った後に、その人物の視線方向から興味度を算出し、興味度が上昇した話題に関する情報を取得することができる。一般に、人は発話者の話す内容に興味を持っているときに視線を発話者の方へ向けるので、ロボットが話題を音声出力した後で検出された人物の視線方向は、音声出力された話題に関するその人物の興味を反映することとなる。したがって、算出された興味度は、人物の興味を反映するものとなる。また、興味度が下降した場合、具体的には、人物がロボットから視線をそむけた場合には、ロボットは、発話中の話題を提供することを中断する。したがって、ロボットから話題を提供された人物は、興味の無い話題を聞き続けなくてよいので、ロボットに親しみを感じ易くなる。

また、請求項６に記載のロボットは、請求項１ないし請求項４のいずれか一項に記載のロボットであって、前記音声処理手段が、入力音声から前記対象とする人物の音声の音量、音質、話速のうちの少なくとも１つを示す人物発話情報を検出する発話情報検出手段を有し、前記対象とする人物に対して所定の話題に関する発話を開始した後に前記音声処理手段で音声認識された認識結果または前記発話情報検出手段で検出された人物発話情報を数値化した興味度を算出し、前記算出した興味度が上昇したか否かを判別し、前記興味度が上昇した場合に前記人物が前記話題に興味を有していると判定すると共に、前記判別結果を記録する興味推定手段と、前記興味度が下降した場合に、前記所定の話題に関する発話を中断する話題制御手段とをさらに備えることを特徴とする。

かかる構成によれば、ロボットは、対象とする人物に所定の話題に関する発話を行った後に、その人物の音声から検出された人物発話情報から興味度を算出し、興味度が上昇した話題に関する情報を取得することができる。人は対話中の相手の話す内容に対する興味を失うと、相手に返す返事の音声の音量が小さくなったり、音質が低くなったり、話速が遅くなったりするので、ロボットが話題を音声出力した後で検出された人物発話情報は、音声出力された話題に関するその人物の興味を反映することとなる。したがって、算出された興味度は、人物の興味を反映するものとなる。また、興味度が下降した場合、具体的には、人物の返事の音声の音量が小さくなったり、音質が低くなったり、話速が遅くなった場合には、ロボットは、発話中の話題を提供することを中断する。したがって、ロボットから話題を提供された人物は、興味の無い話題を聞き続けなくてよいので、ロボットに親しみを感じ易くなる。

また、請求項７に記載のロボットは、請求項５または請求項６に記載のロボットであって、複数の話題を記憶した人物情報記憶手段をさらに備え、前記話題制御手段が、前記興味度に基づいて、前記人物情報記憶手段に記憶された話題を切り替え、前記対象とする人物に対して前記切り替えた話題に関する発話を行うことを特徴とする。

かかる構成によれば、ロボットは、複数の話題を記憶し、対象とする人物に発話を行った後に取得した情報から算出した興味度の変化に合わせて提供する話題を切り替える。したがって、ロボットは、対話中の興味度に基づいて、対話相手の嗜好する話題を推定して発話することができる。

請求項１に記載の発明によれば、ロボットは、周囲の環境や人物の状況に応じた行動を自律的に制御することができる。
請求項２に記載の発明によれば、ロボットは、同じ場所であっても騒音に依存して異なる方法で発話を行うことが可能となる。
請求項３に記載の発明によれば、ロボットは、周囲の環境に応じて定められた行動と人物の状況に応じて定められた行動とを統合することができる。
請求項４に記載の発明によれば、ロボットは、発話音量の変化に対して自然な身振りを行うことができる。

請求項５または請求項６に記載の発明によれば、ロボットは、対話相手の話題に対する興味に関する情報を定量的に取得することができる。
請求項７に記載の発明によれば、ロボットは、対話相手の嗜好する話題を推定して発話するので、対話相手である人物がロボットに好意や親しみを感じ易くなる。また、ロボットは、話題を切り替えて人物との会話を継続させることによってその人物の嗜好等の情報を効果的に収集することができる。

以下、図面を参照して本発明のロボットを実施するための最良の形態（以下「実施形態」という）について詳細に説明する。まず、本発明の実施形態に係るロボットを含むロボット制御システムＡの全体構成について図１を参照して説明する。図１は、本発明の実施形態に係るロボットを含むロボット制御システムの構成を模式的に示す図である。

（ロボット制御システムＡの構成）
図１に示すように、ロボット制御システムＡは、ロボットＲと、このロボットＲと無線通信によって接続された基地局１と、この基地局１とロボット専用ネットワーク２を介して接続された管理用コンピュータ３と、この管理用コンピュータ３にネットワーク４を介して接続された端末５とから構成される。

図１に示すように、このロボット制御システムＡは、移動機能を備えた複数のロボットＲ_A，Ｒ_B，Ｒ_C（ただし、ロボットを特定しない場合は、単にロボットＲという）を有しており、各ロボットＲは、管理用コンピュータ３においてロボットＲ毎に予め設定されたタスクの実行計画（タスクスケジュール）に従って、タスクを実行する。

ここでは、自律移動型の２足歩行ロボットを一例として説明する。
ロボットＲは、管理用コンピュータ３から入力された実行命令に従ってタスクを実行するものであり、ロボットＲがタスクを実行する領域として予め設定されたタスク実行エリア内に、少なくとも一台配置されている。
ここで、図１には、来訪者を会議室などの所定の場所に案内するという内容のタスク（案内タスク）を実行中のロボットＲ_Aと、荷物をある人に渡すという内容のタスク（荷物配達タスク）を実行中のロボットＲ_Bと、新たなタスクが割り当てられるまで待機中のロボットＲ_Cとが、例示されている。

ロボットＲは、図２に示すように、頭部Ｒ１、腕部Ｒ２、脚部Ｒ３、胴部Ｒ４および背面格納部Ｒ５を有しており、胴部Ｒ４にそれぞれ接続された頭部Ｒ１、腕部Ｒ２、脚部Ｒ３は、それぞれアクチュエータ（駆動手段）により駆動され、自律移動制御部５０（図６参照）により２足歩行の制御がなされる。この２足歩行についての詳細は、例えば、特開２００１−６２７６０号公報に開示されている。

このロボットＲは、例えば、案内タスクを実行するときには、人物Ｈを所定の案内領域（オフィスや廊下などの移動領域）で案内する。ここでは、ロボットＲは、周囲に光（例えば、赤外光、紫外光、レーザ光など）および電波を発信して周辺領域に、タグＴを備えた人物Ｈが存在するか否かを検知し、検知した人物Ｈの位置を特定して接近し、タグＴに基づいて、人物Ｈが誰であるのかという個人識別を行う。このタグＴは、ロボットＲが人物の位置（距離および方向）を特定するために発する赤外光および電波を受信する。このタグＴは、受信した赤外光に含まれる受光方向を示す信号と、受信した電波に含まれるロボットＩＤとに基づいて、タグ識別番号を含む受信報告信号を生成し、当該ロボットＲに返信する。この受信報告信号を受信したロボットＲは、受信報告信号に基づいて、タグＴを装着した人物Ｈまでの距離と方向とを認識し、当該人物Ｈに接近することができる。

ロボットＲは、あるタスク（例えば案内タスクや荷物配達タスクなど）を実行するために案内領域内を自律移動する場合に、レーザスリット光または赤外線を照射して、路面状態あるいは路面上のマークを探索するようになっている。すなわち、ロボットＲは、自己が移動領域内のどこを移動しているかを把握し、通常の移動領域内にいる場合はレーザスリット光を路面に照射して路面の段差、うねり、障害物の有無などを検出し、マークＭの設置領域内にいる場合は、赤外線を路面に照射してマークＭを検出し、自己位置の確認・補正などを行うようになっている。ここで、マークＭは、例えば赤外線を再帰的に反射する反射材料で構成された部材である。また、マークＭは位置データを有しており、当該位置データは地図データに含まれる形で記憶部３０（図６参照）に記憶されている。なお、地図データは、案内領域内の特定の場所に設置されたマークＭの位置データと、当該位置データに所定の幅（範囲）を持たせたマークＭの設置領域に関するデータとを含んでいる。また、マークＭの設置領域とは、マークＭから所定距離の範囲内にある領域をいい、例えば、マークＭを中心とした半径１〜３ｍの円形領域や、マークＭの手前（ロボット側）３ｍの矩形領域などのように任意に設定される。

図１に戻って、ロボット制御システムＡの構成の説明を続ける。
基地局１は、ロボットＲと管理用コンピュータ３との間のデータ交換を仲介するものである。
具体的には、基地局１は、管理用コンピュータ３から出力された実行命令をロボットＲに送信すると共に、ロボットＲから送信されたロボットＲの状態に関するデータ（ステータス情報）やロボットＲが実行命令を受信したことを示す信号（受信報告信号）を受信して、管理用コンピュータ３に出力するものである。
基地局１は、ロボットＲと管理用コンピュータ３との間のデータ交換を確実に行えるようにするために、タスク実行エリア内に少なくとも一つ設けられている。
なお、タスク実行エリアが建物の数フロアに亘って設定されている場合には、フロア毎に設けられていることが好ましく、一つの基地局１では総てのタスク実行エリアをカバーできない場合には、複数の基地局１がタスク実行エリア内に設けられていることが好ましい。

ロボット専用ネットワーク２は、基地局１と、管理用コンピュータ３と、ネットワーク４とを接続するものであり、ＬＡＮ（Local Area Network）などにより実現されるものである。

管理用コンピュータ３は、複数のロボットＲを管理するものであり、基地局１、ロボット専用ネットワーク２を介してロボットＲの移動・発話などの各種制御を行うと共に、ロボットＲに対して必要な情報を提供する。ここで、必要な情報とは、検知された人物の氏名や、ロボットＲの周辺の地図（ローカル地図）などがこれに相当し、これらの情報は、管理用コンピュータ３の記憶部３ａに記憶されている。

図３は、図１に示したロボットシステムで用いられるローカル地図の一例を示す図である。ここでは、案内領域３０１は、図３（ａ）に示すように、建物のあるフロアの長方形の領域である。ロボットＲやロボットＲが案内すべき人物は、案内領域３０１の出入口３０２の外側の通路３０３を通って案内領域３０１に入る。出入口３０２の内側には、ホール３０４が広がっており、ホール３０４の奥の隅には受付３０５が配置され、案内領域３０１の壁側には個室として仕切られた警備室３０６、談話室３０７および会議室３０８がそれぞれ設けられている。受付３０５は、Ｌ字型のカウンタテーブル３０５ａと、受付スタッフが配置されるカウンタスペース３０５ｂとから成る。カウンタスペース３０５ｂには、基地局１が設置されている。この案内領域３０１は、図３（ｂ）に示すように、場所に応じてロボットＲによって検出される騒音レベルが異なっている。ロボットＲが案内タスクを行う時間帯において、ホール３０４の騒音レベルは、例えば「６０ｄＢ」である。同様に、警備室３０６、談話室３０７および会議室３０８の騒音レベルは、それぞれ、例えば、「７０ｄＢ」、「１００ｄＢ」、「５０ｄＢ」である。なお、管理用コンピュータ３は、通路や部屋などのローカル地図の情報を位置座標データと関連づけて登録したローカルマップ（ローカル地図データ）と、ローカルマップを集積したタスク実行エリアの地図情報であるグローバルマップとを記憶部３ａ（図１参照）に保持している。

また、管理用コンピュータ３は、ロボットＲに実行させるタスクに関する情報（タスクデータ）を記憶するタスク情報データベースを記憶部３ａ（図１参照）に保持している。
図４に示すように、タスク情報データベース４００には、タスク毎に割り当てられた固有の識別子であるタスクＩＤ、タスクの優先度、タスクの重要度、タスクを実行させるロボットの識別子であるロボットＩＤ、案内や運搬（荷物配達）などのタスクの内容、タスク実行エリア内におけるタスクを開始する位置（開始位置）、タスク実行エリア内におけるタスクを終了する位置（終了位置）、タスクの実行に要する時間（所要時間）、そしてタスクの開始予定時刻（開始時刻）、タスクの終了予定時刻（終了時刻）、そしてタスクの状態などが、情報項目として含まれている。

また、管理用コンピュータ３は、ロボットＲに実行させるタスクの実行計画（タスクスケジュール）を、ロボットＲ毎に設定するものである。
図５に示すように、タスクスケジュールテーブル５００は、ロボットＲに実行させるタスクの実行順位、タスク情報データベース４００（図４参照）に登録されたタスクを特定するためのタスクＩＤ、タスクの優先度、タスクの内容、そしてタスクの状態を情報項目として含むテーブルである。
このタスクスケジュールテーブル５００では、これら情報項目が、タスク実行エリア内に配置されたロボットＲ毎に整理されており、どの様なタスクが、どのような順番で各ロボットＲに割り当てられているのかを把握できるようになっている。

再び、図１に戻って、ロボット制御システムＡの構成の説明を続ける。
端末５は、ネットワーク４を介して管理用コンピュータ３に接続し、管理用コンピュータ３の記憶部３ａに、人物に関する情報などを登録する、もしくは登録されたこれらの情報を修正するものである。また、端末５は、ロボットＲに実行させるタスクの登録や、管理用コンピュータ３において設定されるタスクスケジュールの変更や、ロボットＲの動作命令の入力などを行うものである。

以下、ロボットＲについて詳細に説明する。

［ロボット］
ロボットＲは、図６に示すように、頭部Ｒ１、腕部Ｒ２、脚部Ｒ３、胴部Ｒ４および背面格納部Ｒ５に加えて、これら各部Ｒ１〜Ｒ５の適所に、カメラＣ，Ｃ、スピーカＳ、マイクＭＣ，ＭＣ、画像処理部１０、音声処理部２０、記憶部３０、主制御部４０、自律移動制御部５０、無線通信部６０、バッテリ７０、対象検知部８０、および周辺状態検知部９０を有する。
さらに、ロボットＲは、ロボットＲの向いている方向を検出するジャイロセンサＳＲ１や、予め設定された地図上におけるロボットＲの存在する位置座標を取得するためのＧＰＳ（Global Positioning System）受信器ＳＲ２を有している。

［カメラ］
カメラ（撮影手段）Ｃ，Ｃは、ロボットＲの前方移動方向側の映像をデジタルデータとして取り込むことができるものであり、例えば、カラーＣＣＤ(Charge-Coupled Device)カメラが使用される。カメラＣ，Ｃは、左右に平行に並んで配置され、撮影した画像は画像処理部１０に出力される。このカメラＣ，Ｃと、スピーカＳおよびマイクＭＣ，ＭＣは、いずれも頭部Ｒ１の内部に配設される。スピーカ（音声出力手段）Ｓは、音声処理部２０で音声合成された所定の音声を発することができる。

［画像処理部］
画像処理部（画像処理手段）１０は、カメラＣ，Ｃが撮影した画像（撮影画像）を処理して、撮影された画像からロボットＲの周囲の状況を把握するため、周囲の障害物や人物の認識を行う部分である。この画像処理部１０は、ステレオ処理部１１ａ、移動体抽出部１１ｂ、顔認識部１１ｃおよび視線検出部１１ｄを含んで構成される。
ステレオ処理部１１ａは、左右のカメラＣ，Ｃが撮影した２枚の画像の一方を基準としてパターンマッチングを行い、左右の画像中の対応する各画素の視差を計算して視差画像を生成し、生成した視差画像および元の画像を移動体抽出部１１ｂに出力する。なお、この視差は、ロボットＲから撮影された物体までの距離を表すものである。

移動体抽出部１１ｂは、ステレオ処理部１１ａから出力されたデータに基づき、撮影した画像中の移動体を抽出するものである。移動する物体（移動体）を抽出するのは、移動する物体が人物であると推定して、人物の認識をするためである。
移動体の抽出をするために、移動体抽出部１１ｂは、過去の数フレーム（コマ）の画像を記憶しており、最も新しいフレーム（画像）と、過去のフレーム（画像）を比較して、パターンマッチングを行い、各画素の移動量を計算し、移動量画像を生成する。そして、視差画像と、移動量画像とから、カメラＣ，Ｃから所定の距離範囲内で、移動量の多い画素がある場合に、人物があると推定し、その所定距離範囲のみの視差画像として、移動体を抽出し、顔認識部１１ｃへ移動体の画像を出力する。

顔認識部（顔認識手段）１１ｃは、抽出した移動体の一部分の大きさ、形状などから顔領域および顔の位置を認識する。なお、同様にして、抽出した移動体の一部分の大きさ、形状などから手の位置も認識される。
認識された顔の位置は、ロボットＲが移動するときの情報として、また、その人とのコミュニケーションを取るため、主制御部４０に出力されると共に、視線検出部１１ｄに出力される。

視線検出部（視線検出手段）１１ｄは、顔認識部１１ｃで抽出された顔領域から認識対象とする人物の視線方向を検出する。
視線検出部１１ｄは、目周辺の画像を解析して目が閉じているかどうかを判断し、目が閉じられていない場合に瞳孔を検出し、検出した瞳孔の位置と眼球の位置から視線方向を検出する。例えば、視線方向は、顔認識部１１ｃで認識された顔の位置および姿勢、並びに瞳孔の中心位置の関係で求められる。この場合、視線検出部１１ｄで検出される視線方向は、眼球の中心位置と瞳孔の中心位置とを結ぶベクトルとして求められる。求められた視線方向は、興味度を算出する際に用いるために主制御部４０に出力される。

［音声処理部］
音声処理部２０は、音声合成部２１ａと、音声認識部２１ｂと、音源定位部２１ｃと、騒音測定部２１ｄおよび発話情報検出部２１ｅを有する。
音声合成部２１ａは、主制御部４０が決定し、出力してきた発話行動の指令に基づき、文字情報（テキストデータ）から音声データを生成し、スピーカＳに音声を出力する部分である。音声データの生成には、予め記憶部３０に記憶している文字情報（テキストデータ）と音声データとの対応関係を利用する。なお、音声データは、管理用コンピュータ３から取得され、記憶部３０に保存される。
音声認識部（音声認識手段）２１ｂは、マイクＭＣ，ＭＣから音声データが入力され、入力された音声データから文字情報（テキストデータ）を生成し、主制御部４０に出力するものである。音声認識部２１ｂは、音声から人物の状況を判別可能に音声認識する。例えば、「はい」、「何ですか？」のような音声を認識することで、主制御部４０において、「人物からの反応がある」と判別することが可能となる。なお、音声データと文字情報（テキストデータ）との対応関係は、記憶部３０に予め記憶されている。
音源定位部２１ｃは、マイクＭＣ，ＭＣ間の音圧差および音の到達時間差に基づいて音源位置（ロボットＲが認識する平面状の位置）を特定し、主制御部４０に出力するものである。音源位置は、例えば、ロボットＲの立っている方向（ｚ軸方向）周りの回転角θ_zで表される。

騒音測定部（騒音測定手段）２１ｄは、ロボットＲの周囲の騒音を測定して騒音のレベルを検出する。検出された騒音のレベルは、発話音量を調整する際に用いるために主制御部４０に出力される。
発話情報検出部（発話情報検出）２１ｅは、マイクＭＣ，ＭＣから入力する音声から認識対象とする人物の音声に関する人物発話情報を検出する。人物発話情報は、人物の音声の音量、音質、話速のうちの少なくとも１つを示すものである。検出された人物発話情報は、興味度を算出する際に用いるために主制御部４０に出力される。

[記憶部]
記憶部（記憶手段）３０は、例えば、一般的なハードディスク等から構成され、管理用コンピュータ３から送信された必要な情報（ローカル地図データ、会話用データなど）を記憶するものである。本実施形態では、会話用データとして、通常用途で発話される通常口調用データと、特別な用途で発話される特別口調用データとが記憶される。ここで、通常口調は、例えば、人が日常的な場面で用いる口語の口調であり、特別口調は、例えば、人がビジネスや儀礼などの場面で用いる敬語の口調である。
また、記憶部３０は、後記するように、主制御部４０の各種動作を行うために必要な情報を記憶している。

[主制御部]
主制御部４０は、画像処理部１０、音声処理部２０、記憶部３０、自律移動制御部５０、無線通信部６０、対象検知部８０、および周辺状態検知部９０を統括制御するものである。また、ジャイロセンサＳＲ１、およびＧＰＳ受信器ＳＲ２が検出したデータは、主制御部４０に出力され、ロボットＲの行動を決定するために利用される。この主制御部４０は、例えば、管理用コンピュータ３と通信を行うための制御、管理用コンピュータ３から取得したタスク実行命令に基づいて所定のタスクを実行するための制御、ロボットＲを目的地に移動させるための制御、人物を識別するための制御、人物と対話するための制御を行うために、種々の判断を行ったり、各部の動作のための指令を生成したりする。

［自律移動制御部］
自律移動制御部５０は、主制御部４０の指示に従い頭部Ｒ１、腕部Ｒ２および脚部Ｒ３を駆動するものである。この自律移動制御部５０は、図示を省略するが、頭部Ｒ１を駆動する頭部制御部、腕部Ｒ２を駆動する腕部制御部、脚部Ｒ３を駆動する脚部制御部を有し、これら頭部制御部、腕部制御部および脚部制御部は、頭部Ｒ１、腕部Ｒ２および脚部Ｒ３を駆動するアクチュエータに駆動信号を出力する。この自律移動制御部５０および脚部Ｒ３は移動手段を構成する。

［無線通信部］
無線通信部６０は、管理用コンピュータ３とデータの送受信を行う通信装置である。無線通信部６０は、公衆回線通信装置６１ａおよび無線通信装置６１ｂを有する。
公衆回線通信装置６１ａは、携帯電話回線やＰＨＳ(Personal Handyphone System)回線などの公衆回線を利用した無線通信手段である。一方、無線通信装置６１ｂは、IEEE802.11b規格に準拠するワイヤレスＬＡＮなどの、近距離無線通信による無線通信手段である。
無線通信部６０は、管理用コンピュータ３からの接続要求に従い、公衆回線通信装置６１ａまたは無線通信装置６１ｂを選択して管理用コンピュータ３とデータ通信を行う。

バッテリ７０は、ロボットＲの各部の動作や処理に必要な電力の供給源である。このバッテリ７０は、充填式の構成をもつものが使用され、バッテリ補給エリア（図１参照）で電力が補給される。

［対象検知部］
対象検知部（対象検知手段）８０は、ロボットＲの周囲にタグＴを備える人物が存在するか否かを検知するものである。対象検知部８０は、複数の発光部８１（図６では１つのみ表示した）を備える。これら発光部８１は、例えば、ＬＥＤから構成され、ロボットＲの頭部Ｒ１外周に沿って前後左右などに配設される（図示は省略する）。対象検知部８０は、発光部８１から、各発光部８１を識別する発光部ＩＤを示す信号を含む赤外光をそれぞれ発信すると共に、この赤外光を受信したタグＴから受信報告信号を受信する。いずれかの赤外光を受信したタグＴは、その赤外光に含まれる発光部ＩＤに基づいて、受信報告信号を生成するので、ロボットＲは、この受信報告信号に含まれる発光部ＩＤを参照することにより、当該ロボットＲから視てどの方向にタグＴが存在するかを特定することができる。また、対象検知部８０は、タグＴから取得した受信報告信号の電波強度に基づいて、タグＴまでの距離を特定する機能を有する。したがって、対象検知部８０は、受信報告信号に基づいて、タグＴの位置（距離および方向）を、人物の位置として特定することができる。さらに、対象検知部８０は、発光部８１から赤外光を発光するだけではなく、ロボットＩＤを示す信号を含む電波を図示しないアンテナから発信する。これにより、この電波を受信したタグＴは、赤外光を発信したロボットＲを正しく特定することができる。なお、対象検知部８０およびタグＴについての詳細は、例えば、特開２００６−１９２５６３号公報に開示されている。

［周辺状態検知部］
周辺状態検知部９０は、ロボットＲの周辺状態を検知するものであり、ジャイロセンサＳＲ１やＧＰＳ受信器ＳＲ２によって検出された自己位置データを取得可能になっている。また、周辺状態検知部９０は、探索域に向かってスリット光を照射するレーザ照射部９１と、探索域に向かって赤外線を照射する赤外線照射部９２と、スリット光または赤外線が照射された探索域を撮像する床面カメラ９３とを有する。この周辺状態検知部９０は、床面カメラ９３で撮像したスリット光画像（スリット光が照射されたときの画像）を解析して路面状態を検出する。また、周辺状態検知部９０は、床面カメラ９３で撮像した赤外線画像（赤外線が照射されたときの画像）を解析してマークＭ（図２参照）を検出し、検出されたマークＭの位置（座標）からマークＭとロボットＲとの相対的な位置関係を計算する。なお、周辺状態検知部９０についての詳細は、例えば、特開２００６−１６７８４４号公報に開示されている。

［主制御部の構成］
図７は、図６に示したロボットの主制御部の構成を示すブロック図である。
主制御部４０は、静止障害物統合部４１と、オブジェクトデータ統合部４２と、行動パターン部４３と、身振り統合部４４と、内部状態検出部４５と、行動計画管理部４６と、モチベーション管理部４７とを備えている。

静止障害物統合部４１は、周辺状態検知部９０で検知されたロボットＲの周辺状態に関する情報を統合し、行動パターン部４３に出力するものである。例えば、静止障害物統合部４１が、ロボットＲの進路の床面に段ボール箱などの障害物を検知した場合や、床面の段差を検知した場合には、行動パターン部４３は、この統合された障害物情報に基づいて、図示しない局所回避モジュールによって迂回経路を探索する。

オブジェクトデータ統合部４２は、ロボットＲの姿勢データ、画像処理部１０、対象検知部８０および音源定位部２１ｃからの入力データに基づいて、対象物（オブジェクト）に関する識別データ（オブジェクトデータ）を統合し、この統合したオブジェクトデータを記憶部３０のオブジェクトデータ記憶手段３１に出力するものである。これにより、オブジェクトデータ記憶手段３１には、オブジェクトデータをオブジェクト別かつ時刻別に記録したデータであるオブジェクトマップが生成される。

［オブジェクトマップの構成］
ここで、図８を参照して、オブジェクトデータ記憶手段３１に記憶されるオブジェクトマップの構成を説明する。図８は、オブジェクトデータの一例を示す図である。
オブジェクトマップは、時刻別に分類された複数の時刻別データ８０１を備えている。この時刻別データ８０１には、それぞれ、時刻情報としてのカウント８０２と、姿勢データ、カメラ姿勢および騒音レベルと、表８０３が付されている。姿勢データは、例えば顔の位置（ｘ，ｙ，ｚ）と顔の向き（θx，θy，θz）で表され、カメラ姿勢は、例えばパン、チルト、ロールの各軸周りの回転角度（pan，tilt，role）で表される。また、騒音レベルは、騒音測定部２１ｄ（図６参照）によって検出されたものであり、デシベル（ｄＢ）で表される。また、この表８０３では、列に識別すべき対象（オブジェクト）が配され、行に、このオブジェクトを特徴付ける複数の項目が配されており、オブジェクト別に（列ごとに）レコードが蓄積されている。以下に、各項目の詳細を説明する。

オブジェクトナンバ８０４は、ロボットＲがオブジェクトを検出した順番に最大Ｎ個まで付されるものであり、この表８０３では、「０」〜「１０」の１１個（Ｎ＝１１）のオブジェクトを管理できるようになっている。
ボディ位置８０５は、画像処理部１０から出力される位置座標データであり、ロボットＲが認識している座標平面における人物（オブジェクト）の重心位置座標（ｘ，ｙ）で表される。
速度８０６は、画像処理部１０から出力される速度データであり、ロボットＲが認識している座標平面における人物（オブジェクト）の移動速度（Ｖｘ，Ｖｙ）で表される。

人物ＩＤ８０７は、人物を識別するための識別番号である。
人物確度８０８は、人物ＩＤ８０７の確度を示すものであり、完全一致を１００％として定められている。
人物ライフカウント８０９は、人物ＩＤ８０７に登録されたデータのオブジェクトデータ上での経過時間を表している。

ＲＦＩＤ識別番号８１０は、タグに記録された人物（オブジェクト）の識別番号であり、対象検知部８０から出力されたものである。
ＲＦＩＤ位置８１１は、対象検知部８０から出力される位置データであり、ロボットＲの周囲におけるタグ（オブジェクト）までの距離および方向で定まる領域で表される。
ＲＦＩＤ確度８１２は、ＲＦＩＤ識別番号８１０のデータ（識別番号）の確度を示すものである。
ＲＦＩＤライフカウント８１３は、ＲＦＩＤ識別番号８１０に登録されたデータ（識別番号）のオブジェクトマップ上での経過時間を表している。

音源位置８１４は、音源定位部２１ｃから出力されるデータであり、ロボットＲが認識している座標平面における発声する人物（オブジェクト）の角度θｚで表される。
音源確度８１５は、音源位置８１４のデータの確度を示すものである。
音源ライフカウント８１６は、音源位置８１４に登録されたデータ（位置座標）のオブジェクトマップ上での経過時間を表している。

オブジェクトライフカウント８１７は、オブジェクトに対して、人物データ、ＲＦＩＤ識別データ、音源識別データのいずれかが初めて入力されたときに開始されたカウントを表すものである。
ＴＯＴＡＬ＿ＩＤ８１８は、人物ＩＤ８０７とＲＦＩＤ識別番号８１０に基づいてオブジェクトデータ統合部４２で決定されたオブジェクトの識別番号である。
ＴＯＴＡＬ＿確度８１９は、人物確度８０８とＲＦＩＤ確度８１２とに基づいてオブジェクトデータ統合部４２で決定されたオブジェクトの識別番号の確度を示すものである。

図７を参照して主制御部４０の構成の説明を続ける。
行動パターン部４３は、後記するように、ロボットＲの予め定められた行動（行動パターン）に伴って人物に発話を行う前にその人物へのアプローチ行動を制御するアプローチ行動制御手段４８を備えている。
また、行動パターン部４３は、行動パターンを実行するための各種プログラム（モジュール）を格納すると共に、この行動パターンを実行するときに、記憶部３０を参照して、行動パターンに反映するものである。

本実施形態では、図７に示すように、記憶部３０に、オブジェクトデータ記憶手段３１のほかに、ローカル地図データ記憶手段３２と、モチベーション指数記憶手段３３と、シナリオ記憶手段３４と、人物情報記憶手段３５とを備えている。なお、記憶部３０は、予め定められた人物の位置情報等も記憶している。ここで、人物の位置情報とは、当該人物の所在を示す情報であり、例えば、曜日、時間等に関連付けて予め作成されたものである。

ローカル地図データ記憶手段３２は、図３を参照して説明したロボットＲの周辺の地図（ローカル地図）を記憶するものである。このローカル地図は、例えば、管理用コンピュータ３から取得される。
モチベーション指数記憶手段３３は、モチベーション指数を記憶するものである。モチベーション指数は、モチベーション管理部４７が管理するものなので詳細は後記する。

シナリオ記憶手段３４は、各種行動パターンに対応したシナリオ（台本）を記憶するものである。シナリオは、例えば、歩行中に人物や障害物（オブジェクト）に遭遇したときにオブジェクトの１ｍ手前で立ち止まるといったもの、立ち止まってから１０秒後に腕部Ｒ２を所定位置まで上げるといったものなど動作に関するものと、発話に関するものとがある。
また、シナリオ記憶手段３４は、所定の発話を行うときに頭部Ｒ１、腕部Ｒ２、脚部Ｒ３のうちの少なくとも１つの部位を移動させる身体動作である身振りを指定する予め作成されたシナリオを記憶する。

人物情報記憶手段３５は、予め定められた人物の嗜好する話題を複数記憶するものである。本実施形態では、人物情報記憶手段３５は、話題を人物別およびジャンル別に記憶している。この人物情報記憶手段３５に記憶された話題は、ロボットＲの発話行動に用いられる。

行動パターン部４３は、オブジェクトデータ記憶手段３１、ローカル地図データ記憶手段３２、シナリオ記憶手段３４、および人物情報記憶手段３５を適宜利用して様々な場面や状況に応じた行動パターンを実行するモジュールを備えている。モジュールの例としては、目的地移動モジュール、局所回避モジュール、デリバリモジュール、案内モジュール、人対応モジュール等がある。

目的地移動モジュールは、ロボットＲの現在位置から、例えば、タスク実行エリア内のタスク実行位置等の目的地までの経路探索（例えばノード間の経路を探索）及び移動を行うものである。この目的地移動モジュールは、地図データと現在位置とを参照しつつ、目的地までの最短距離を求める。
局所回避モジュールは、歩行中に障害物が検知されたときに、静止障害物統合部４１で統合された障害物情報に基づいて、障害物を回避する迂回経路を探索するものである。

デリバリモジュールは、物品の運搬を依頼する人物（依頼人）から物品を受け取る（把持する）動作や、受け取った物品を受取人に渡す（物品を手放す）動作を実行するものである。
案内モジュールは、例えば、タスク実行エリア内の案内開始地点に来訪した来訪客を案内領域３０１（図３参照）の受付３０５にいる受付スタッフのもとへ案内するタスクを実行するものである。
人対応モジュールは、例えば、物品運搬タスクや案内タスクの実行時に所定のシナリオに基づいて、発話、姿勢の変更、腕部Ｒ２の上下移動や把持等を行うものである。

身振り統合部（身振り統合手段）４４は、対象とする人物に対して行う発話に対応した身振りをシナリオ記憶手段３４から抽出し、抽出した身振りを指定するコマンドを自律移動制御部５０に出力するものである。頭部Ｒ１の動作による身振りは、例えば、頭部Ｒ１を下方に傾けることで「お辞儀」、「礼」、「同意」、「謝罪」等を表示する動作や、頭部Ｒ１を左右に傾けることで「分からない」という意思表示を伝える動作が含まれる。また、腕部Ｒ２の動作による身振りは、例えば、腕部Ｒ２を上げることで「喜び」、「賞賛」等を表示する動作や、腕部Ｒ２を下方左右に広げることや握手を行うことで「歓迎」という意思表示を伝える動作が含まれる。また、脚部Ｒ３の動作による身振りは、例えば、その場で駆け足をすることで「喜び」、「元気」等の意思表示を伝える動作が含まれる。

内部状態検出部４５は、ロボットＲの内部状態を検出し、検出結果をモチベーション管理部４７に出力するものである。本実施形態では、内部状態検出部４５は、バッテリ７０の残量を検出する。検出されたバッテリ残量は、モチベーション管理部４７に出力される。また、内部状態検出部４５は、ロボットＲの状態（現在位置、バッテリ残量、タスク実行状況など）に関するデータを所定時間間隔毎にステータス情報として生成し、生成したステータス情報を無線通信部６０を介して管理用コンピュータ３に出力する。そして、管理用コンピュータ３は、入力されたステータス情報を記憶部３ａに格納された図示しないロボット情報データベースにロボットＲ毎に登録する。

行動計画管理部４６は、行動パターン部４３が備える各種モジュールを所定のスケジュールで実行する行動計画を管理するものである。本実施形態では、行動計画管理部４６は、管理用コンピュータ３から取得したタスク実行命令に基づいて予め定められたタスクを実行するための行動計画を管理し、現在実行すべき作業に必要なモジュールを適宜選択する。また、行動計画管理部４６は、モチベーション管理部４７の指示に基づいて識別対象に対する行動計画に必要なモジュールを適宜選択する。

モチベーション管理部４７は、モチベーション指数を管理し、バッテリ補給が必要ではなく、かつ、現在実行すべきタスクを有していない場合に、モチベーション指数に基づいて、能動的に行動するための行動計画の追加を行動計画管理部４６に指示するものである。ここで、モチベーション指数とは、既知の予め定められた対象物に対する未来の行動の実行可能性の大きさを示すものである。本実施形態では、対象物は人間である。また、モチベーション指数は、人間に対するロボットＲの直近の行動から経過した時間に関する経過時間指数と、ロボットＲの過去の対象人物に対する行動の回数および行動時間に関する行動指数とに基づいて決定される。

具体的には、経過時間指数は、ロボットＲの直近の対象人物に対する行動から経過した時間の大きさに比例して大きくなるように設定され、行動指数は、ロボットＲの過去の対象人物に対する行動の回数および行動時間の大きさに比例して大きくなるように設定されている。つまり、ロボットＲを擬人化した場合には、経過時間指数が大きいことは人物に対する懐古性が高いことを意味し、また、行動指数が大きいことは人物に対する親密性が高いことを意味する。このように設定することにより、既知の複数の人物の中から、懐古性が高い人物や親密性が高い人物を選ぶためにモチベーション指数を用いることができる。行動指数が親密性を表すため、以下では、行動指数のことをあらためて情動指数と呼ぶことにする。

モチベーション管理部４７で管理されるモチベーション指数は、モチベーション指数記憶手段３３に記憶されている。本実施形態では、モチベーション指数記憶手段３３には、モチベーション指数テーブルが記憶されている。図９に示すように、モチベーション指数テーブル９００には、人物の名前、対象として選択された回数の指標である「頻度」、時間指数および情動指数の回復の指標である「回復」、モチベーション指数の内訳を示す「指数」、指数の値およびその最大値である「値／ＭＡＸ」などが、情報項目として含まれている。このモチベーション指数テーブル９００では、モチベーション指数を省略して「モチ指数」と表記した。また、最大値が「５０」である経過時間指数（「時間指数」と表記）と、最大値が「５０」である行動指数（「情動指数」と表記）との和によって、最大値が「１００」であるモチベーション指数を定義した。また、モチベーション指数テーブル９００には、モチベーション指数等の値を棒グラフで表示した。

［アプローチ行動制御手段の構成］
アプローチ行動制御手段４８は、図１０に示すように、環境情報検出手段１１０と、人状況判別手段１２０と、応対行動制御手段１３０とを備え、これらによって記憶部３０に記憶された各種の情報やデータに基づいて後記する制御を行う。

記憶部３０のローカル地図データ記憶手段３２は、前記したローカル地図（図３参照）のほかに、ロボットＲの発話の可否、発話音量および発話口調のうちの少なくとも１つを示す発話出力情報と地図上の位置を示す位置情報とを対応付けて予め作成された地図データを記憶している。本実施形態では、地図データは、予め設定された騒音のレベルごとに発話出力情報が位置情報と対応付けて作成されている。

また、記憶部３０は、人物の状況を示す画像条件および音声認識の結果を示す音声条件と発話出力情報とを対応付けて予め作成された人物状況データとを記憶する。
ここで、人物の状況とは、その人物が現在なすべき何かに集中している状況や、他者から話しかけられると、困惑、迷惑、不快を感じるような様々な状況を指す。また、人物の状況とは、人物ごとに異なり、また同一人物でも時、場所、場面等の種々の条件によって異なる。そこで、本実施形態では、人物の状況として、誰もが他者から話しかけられたくないと感じるような普遍性のある状況の例として、「人物が休息中（睡眠中）であること」と、「人物が既に対話中であること」との２つの事例に対応させるように構成した。

人物が休息中であることを示す人物状況データは、例えば、人物が休息中であることを特徴付ける休息中画像条件と、人物の音声が検出されないことを示す音声条件と、ロボットＲの発話の不許可を示す情報とを対応付けて構成されたデータである。
休息中画像条件は、撮影画像において、例えば、人物が目を閉じた状態が所定時間続いている場合、人物が顔を正面を向いているときに比較して下に向けた状態が所定時間続いている場合、人物の顔の位置が座っているときの顔の位置に比較して低い状態が所定時間続いている場合等を指すものである。

人物が対話中であることを示す人物状況データは、例えば、複数の人物が対話中であることを特徴付ける対話中画像条件と、人物の音声が検出されないことを示す音声条件と、ロボットＲの発話の不許可を示す情報とを対応付けて構成されたデータである。
対話中画像条件は、撮影画像において、例えば、人物が口の開閉を行っている場合、２人の人物の顔の向きや視線方向が逆方向である場合等を指すものである。

ここで、人物状況データは、発話の不許可を示す情報と対応付けられる条件が、画像条件と、音声条件とだけに限定されるものではない。条件としては、例えば、場所、時間、周囲の音量（騒音レベル）、人物の反応等、またはそれらの組合せを対応付けることが可能である。この場合、人物が休息中であることを示す人物状況データは、例えば、場所、時間、騒音レベル、ロボットＲが呼びかけたときの人物の反応の各条件と、ロボットＲの発話の不許可を示す情報とを対応付けて構成されてもよい。具体的には、「人物のいる場所＝休息所」、ＡＮＤ、「時間＝昼休み」、ＡＮＤ、「騒音レベル＝Ｌｏｗ」、ＡＮＤ、「反応＝０」である場合に、「人物が休息中である」と判定することができる。なお、発話の不許可とは、ロボットからの発声（ｓａｙ）を不許可とするものではなく、話しをすること（ｔａｌｋ）を不許可とすることを示す。そして、ロボットＲは、他の条件が「人物が休息中であること」を示す場合に、最終的にその人物の名前などを呼ぶこととする。

次に、アプローチ行動制御手段４８の構成を詳細に説明する。
＜環境情報検出手段＞
図１０に示すように、環境情報検出手段１１０は、例えばＧＰＳ受信器ＳＲ２で検出された現在位置に対応する発話出力情報を、ローカル地図データ記憶手段３２に記憶された地図データからロボットＲの環境に起因した情報として検出するものである。検出された発話出力情報は、応対行動制御手段１３０に出力される。

＜人状況判別手段＞
人状況判別手段１２０は、記憶部３０に記憶された人物状況データを作成するために用いられた画像条件と、画像処理部１０で処理された撮影画像の処理結果と、音声認識部２１ｂで音声認識された結果とに基づいて、対象とする人物の状況を判別するものである。この人状況判別手段１２０は、個人状況推定手段１２１と、集団状況推定手段１２２と、発話タイミング決定手段１２３と、興味推定手段１２４とを備える。

個人状況推定手段１２１は、休息中画像条件と撮影画像の処理結果および音声認識の結果とに基づいて、対象とする人物が休息中であるか否かを判別するものである。ここで、撮影画像の処理結果とは、画像処理手段１０の顔認識手段１１ｃによって認識された顔の位置を含み、また、視線検出手段１１ｄで判定される目が閉じているかどうかという情報を含む。また、音声認識の結果とは、人物の音声が入力されたか否かという情報を含む。
集団状況推定手段１２２は、対象とする人物の付近に他の人物が認識されないか否かを判別し、他の人物が認識される場合に、対話中画像条件と撮影画像の処理結果とに基づいて、対象とする人物を含む複数の人物が対話中であるか否かを判別するものである。なお、複数の人物を認識する方法としては、オブジェクトデータ統合部４２による識別、画像処理部１０の画像処理による識別、対象検知部８０（図６参照）のタグ検知による識別のいずれの方法を用いてもよい。
発話タイミング決定手段１２３は、対象とする人物が休息中ではなく、かつ、対話中ではないと判別された場合であって、視線検出部１１ｄで検出された視線方向がロボットＲの方向に向いているときに発話タイミングであると決定するものである。ここで、視線方向がロボットＲの方向を向いているときとは、視線方向がロボットＲの方向と完全一致しているときだけを指すものではなく、視線方向が予め設定された範囲内を向いていればよい。

興味推定手段１２４は、対象とする人物に対して所定の話題に関する発話を行った後に発話された話題に対してその人物が示す興味を数値化した興味度を算出し、算出した興味度が上昇したか否かを判別し、興味度が上昇した場合にその人物が話題に興味を有していると判定すると共に、判別結果を記憶手段３０に記録するものである。
本実施形態では、興味推定手段１２４は、興味度を算出する方法として、人物を撮像した画像に基づく画像判定モードと、入力される人物の音声に基づく音声判定モードと、それらを統合した統合判定モードとを有しており、各モードは適宜切替可能に構成されている。

具体的には、画像判定モードにおいて、興味推定手段１２４は、対象とする人物に対して所定の話題に関する発話を行った後に視線検出部１１ｄで検出された視線方向を示すベクトルにより数値化した興味度を算出する。この場合、興味推定手段１２４は、検出された視線方向がロボットＲの方向に一致する場合が最大値となるように興味度を算出する。
また、音声判定モードにおいて、興味推定手段１２４は、対象とする人物に対して所定の話題に関する発話を行った後に音声認識部２１ｂで音声認識されたキーワードやフレーズ等の認識結果または発話情報検出手部２１ｅで検出された音量、音質、話速の人物発話情報を数値化した興味度を算出する。この場合、興味推定手段１２４は、検出されたキーワードが多いほど、また音量が大きいほど、また音質が高いほど、また話速が速いほど大きくなるように興味度を算出する。なお、例えば、「面白い」等のキーワードや「詳しく教えて」等のフレーズごとに所定の重み付けをしてもよい。
また、統合判定モードにおいて、興味推定手段１２４は、画像判定モードで算出された興味度と、音声判定モードで算出された興味度とに所定の重み付けを行ってから加算した和を最終的な興味度として算出する。

＜応対行動制御手段＞
応対行動制御手段１３０は、人状況判別手段１２０で判別された人物の状況および人物からの反応に対応する発話出力情報を記憶部３０に記憶された人物状況データから抽出し、抽出した発話出力情報と環境情報検出手段１１０で検出された発話出力情報とに基づいて、対象とする人物に対する発話の可否、発話音量および発話口調のうちの少なくとも１つを決定するものである。この応対行動制御手段１３０は、発話レベル調整手段１３１と、身振り調整手段１３２と、話題制御手段１３３と、行動統括制御手段１３４とを備えている。

発話レベル調整手段１３１は、行動統括制御手段１３４によって人物への発話が許可された場合に、行動統括制御手段１３４で算出された統合値に基づいて発話音量のレベルの調整または発話口調の切り替えを行うものである。ここで、発話音量のレベルの調整とは、音声合成部２１ａ（図６参照）に出力される発話行動の指令で指定される当初の音量レベルを、例えば、５０％低下させる指示や、５０％高くさせる指示を出力することである。本実施形態では、発話レベル調整手段１３１は、発話が許可された場合に、ロボットＲが実際に発話を行う位置から対象とする人物のいる位置までの距離をも加味して発話音量のレベルを調整する。すなわち、発話レベル調整手段１３１は、人物が予め設定された発話距離範囲よりも遠くにいる場合には発話音量のレベルを大きくし、人物が発話距離範囲より近くにいる場合には発話音量のレベルを小さくする。なお、対象とする人物のいる位置までの距離は、例えば、ステレオ処理部１１ａ（図６参照）で検出したり、対象検知部８０（図６参照）で検出したり、オブジェクトマップ（図８参照）から算出したりすることができる。また、発話口調の切替とは、音声合成部２１ａ（図６参照）に出力される発話行動の指令で指定される当初の口調を、別の口調に切り替えることである。本実施形態では、記憶部３０に記憶された通常口調用データと特別口調用データとが適宜切り替えられる。

身振り調整手段１３２は、発話レベル調整手段１３１で発話音量のレベルが調整された場合に、その調整された発話音量のレベルに比例させて身振りによる頭部Ｒ１、腕部Ｒ２、脚部Ｒ３の少なくともいずれかの部位の移動幅を調整するものである。この身振り調整手段１３２は、身振り統合部４４から自律移動制御部５０に身振りを指定するために出力されるコマンドに記述される各部位の移動幅を調整する。例えば、発話音量のレベルが５０％低下される場合には、コマンドに記述される当初の移動幅を同様に５０％短くし、逆に、発話音量のレベルが５０％高くされる場合には、コマンドに記述される当初の移動幅を同様に５０％長くする。なお、移動は線形移動と回転移動を含む。

話題制御手段１３３は、人物情報記憶手段３５に記憶された話題を提供し、興味推定手段１２４によって対象とする人物が提供された話題に興味を有していないと判定された場合に（興味度が下降した場合に）、提供中の話題に関する発話を中断するものである。また、本実施形態では、話題制御手段１３３は、興味推定手段１２４によって算出された興味度に基づいて、人物情報記憶手段３５に記憶された話題を切り替え、対象とする人物に対して切り替えた話題に関する発話を行う。

行動統括制御手段１３４は、人物状況データから抽出した発話出力情報と、環境情報検出手段１１０で検出された発話出力情報とを統合することで発話が許可されるか否かを判別し、発話が許可されると判定した場合に統合された発話音量または発話口調を示すアプローチ行動を決定する。本実施形態では、行動統括制御手段１３４は、アプローチ行動を決定する際に、環境情報検出手段１１０で検出された発話出力情報を、人物状況データから抽出した発話出力情報よりも優先する。つまり、行動統括制御手段１３４は、まず、ロボットＲの周囲の環境を重視し、環境情報検出手段１１０で検出された発話情報から、発話の可否、発話音量および発話口調を抽出し、発話可能であるか否かを判定する。次に、行動統括制御手段１３４は、その場で認識される人物の状況を判定材料に加えて発話可能であるか否かを判定する。その上で、行動統括制御手段１３４は、環境情報検出手段１１０で検出された発話音量および発話口調の情報を最終的な統合値とする。また、行動統括制御手段１３４は、以下の４項目のいずれかの終了条件が満たされたか否かを判別し、終了条件が満たされた場合に、対象とする人物に対するアプローチ行動を終了する。
第１終了条件：予め設定された時間が経過しても発話可能な環境にならないとき。
第２終了条件：予め設定された時間が経過しても対象とする人物が対話中であるとき。
第３終了条件：予め設定された時間が経過しても対象とする人物が休息中であるとき。
第４終了条件：予め設定された終了タイミングであるとき。なお、第４終了条件は、バッテリ補給が必要な場合やタスクを実行するための時刻となった場合等を含む。

［ロボットの動作］
図６に示したロボットＲの動作について主にアプローチ行動制御手段４８の動作を中心に図１１を参照（適宜図１、図６、図７および図１０参照）して説明する。図１１は、図６に示したロボットＲの動作を示すフローチャートである。ロボットＲは、主制御部４０によって、無線通信部６０を介して管理用コンピュータ３からローカル地図等の情報を予め取得しておく。また、本実施形態では、ロボットＲは、現在実行すべきタスクを有していないときに、主制御部４０のモチベーション管理部４７によって追加された行動計画によって選択された人物の所在地に移動し、その人物と対話するために発話を行う前に、主制御部４０のアプローチ行動制御手段４８が動作を開始することとする。また、アプローチ行動制御手段４８の興味推定手段１２４は、興味度を算出する方法として、人物を撮像した画像に基づく画像判定モードに設定されているものとする。

そして、アプローチ行動制御手段４８は、環境情報検出手段１１０によって、ローカル地図データ記憶手段３２に記憶された地図データから、検出された現在位置および騒音のレベルに対応する発話出力情報を環境に起因した情報として検出する（ステップＳ１）。そして、アプローチ行動制御手段４８は、応対行動制御手段１３０の行動統括制御手段１３４によって、現在位置および騒音レベルに対応する発話出力情報に基づいて、現在位置が発話可能な環境か否かを判別する（ステップＳ２）。

ステップＳ２において、現在位置が発話可能な環境である場合（ステップＳ２：Ｙｅｓ）、アプローチ行動制御手段４８は、人状況判別手段１２０の集団状況推定手段１２２によって、対象とする人物の付近に他の人物が認識されないか否かを判別する。すなわち、集団状況推定手段１２２は、対象とする人物が独り（１人）でいるか否かを判別する（ステップＳ３）。対象とする人物が独り（１人）でない場合（ステップＳ３：Ｎｏ）、続いて、集団状況推定手段１２２は、対象とする人物を含む複数の人物が対話中であるか否かを判別する（ステップＳ４）。

ステップＳ４において、対象とする人物を含む複数の人物が対話中ではない場合（ステップＳ４：Ｎｏ）、人状況判別手段１２０は、個人状況推定手段１２１によって、対象とする人物が休息中であるか否かを判別する（ステップＳ５）。また、ステップＳ３において、対象とする人物が独り（１人）でいる場合（ステップＳ３：Ｙｅｓ）、人状況判別手段１２０は、ステップＳ４をスキップしてステップＳ５に進む。

ステップＳ５において、対象とする人物が休息中ではない場合（ステップＳ５：Ｎｏ）、人状況判別手段１２０は、発話タイミング決定手段１２３によって、発話タイミングであると決定する（ステップＳ６）。なお、発話タイミング決定手段１２３は、人物の視線方向がロボットＲの方向を向いていることを確認して発話タイミングを決定する。そして、アプローチ行動制御手段４８は、応対行動制御手段１３０の行動統括制御手段１３４によって、発話が許可されると判定した場合に、発話レベル調整手段１３１によってステップＳ１で検出された発話出力情報を統合値として発話音量のレベルの調整または発話口調の切替を行い、発話が身振りを伴うものであって発話音量のレベルが調整された場合には、身振り調整手段１３２によって、発話音量のレベルに比例させて身振りによる各部位の移動幅を調整する（ステップＳ７）。

そして、ロボットＲは、発話を実際に行う。すなわち、応対行動制御手段１３０の話題制御手段１３３は、シナリオ記憶手段３４に記憶されたシナリオに基づいて、音声合成部２１ａに音声の出力を指示すると共に、発話に伴った身振りの実行を身振り統合部４４に指示する。これにより、ロボットＲは、発話を行うと共に、発話に伴った身振りを実行する（ステップＳ８）。具体的には、ロボットＲは、例えば、図３に示した談話室３０７において、対象とする人物に発話する場合には、口語口調で親しげに比較的高い音量で発話すると共に、腕部Ｒ２等を比較的大きく動かす。また、例えば、図３に示した会議室３０８において、対象とする人物に発話する場合には、敬語口調で比較的低い音量で発話すると共に、腕部Ｒ２等を比較的小さく動かす。そして、ロボットＲは、音声認識部２１ｂによって、入力された人物の音声を認識する（ステップＳ９）。そして、アプローチ行動制御手段４８は、人状況判別手段１２０の興味推定手段１２４によって、検出された視線方向に基づいて興味度を算出し、対象とする人物が話題に興味を有しているか推定する（ステップＳ１０）。

そして、アプローチ行動制御手段４８は、応対行動制御手段１３０の行動統括制御手段１３４によって、終了条件が成立したか否かを判別する（ステップＳ１１）。終了条件が成立した場合（ステップＳ１１：Ｙｅｓ）、アプローチ行動制御手段４８は、処理を終了する。一方、終了条件が成立していない場合（ステップＳ１１：Ｎｏ）、アプローチ行動制御手段４８は、応対行動制御手段１３０の話題制御手段１３３によって、興味推定手段１２４によって推定された興味度に基づいて、次に提供する話題を展開し（ステップＳ１２）、ステップＳ１に戻る。

前記したステップＳ２において、現在位置が発話可能な環境ではない場合（ステップＳ２：Ｎｏ）、アプローチ行動制御手段４８は、ステップＳ１１に進み、終了条件が成立したか否かを判別する。また、前記したステップＳ４において、対象とする人物を含む複数の人物が対話中である場合（ステップＳ４：Ｙｅｓ）、アプローチ行動制御手段４８は、ステップＳ１１に進む。また、前記したステップＳ５において、対象とする人物が休息中である場合（ステップＳ５：Ｙｅｓ）、アプローチ行動制御手段４８は、ステップＳ１１に進む。

［話題の展開の具体例］
ここで、話題の展開の具体例について、図１２を参照（適宜図１０参照）して説明する。人物情報記憶手段３５には、例えば、９種類の話題が記憶されているものとする。これらの話題は、図１２に示すように、例えば、９個のノード１２０１〜１２０９と、それらを結ぶリンクとを用いて記述することができる。ノード１２０１は、「スポーツ」に関する話題を示している。ノード１２０１は、ノード１２０２〜１２０４にそれぞれ接続されている。ノード１２０２〜１２０４は、「陸上」、「水泳」、「球技」に関する話題をそれぞれ示している。ロボットＲは、話題制御手段１３３によって、例えば、ノード１２０１から話題の提供を開始し、ノード１２０１において話題の提供が終了した時点で、例えば、話題提供中の興味度の平均値に応じて、ノード１２０２〜１２０４の中から、次に提供する話題を選択する。なお、他のノード１２０５〜１２０９は、図１２においてノード１２０１〜１２０４と同様なものを示しているので詳細な説明を省略する。これによれば、ロボットＲは、質問を多用することなく人物が嗜好すると推定される情報を発話するので対話が自然なものとなり、対話相手の人物がロボットＲに親しみを感じ易くなる。

また、他の例として、各ノード１２０１〜１２０９に、そのノードのテーマが好きであるかどうかを尋ねる質問と、そのノードのテーマに関する情報とを含むようにしてもよい。この場合には、例えば、ロボットＲは、話題制御手段１３３によって、ノード１２０１から話題の提供を開始する場合に、初期話題として、例えば、ノード１２０１において、「スポーツは好きですか？」という質問を選択して発話する。そして、ロボットＲは、「はい」という返事を音声認識した場合に、ノード１２０１に接続されたノード１２０２〜１２０４の中から、例えば、ノード１２０４において、「球技は好きですか？」という質問を選択して発話する。同様に、「野球は好きですか？」、「Giantsは好きですか？」という質問を選択して発話する。このように、すべての質問に対して「はい」の返事を音声認識した場合に、話題制御手段１３３は、最終的にテーマを「Giants」に決定し、続いて、「Giants」に関する情報の話題を発話することとなる。また、途中で、「いいえ」の返事を音声認識した場合には、話題制御手段１３３は、質問したテーマと同レベルの別のテーマについて同様な質問を行う。例えば、「球技は好きですか？」という質問に対して、ロボットＲが「いいえ」の返事を音声認識した場合に、ノード１２０２またはノード１２０３から該当する質問を選択する。これによれば、質問を繰り返すことで人物の興味を絞込むので、人物が嗜好する情報を短時間で推定し、情報を効率よく提供することができる。

また、他の例として、予め定められた人物の興味を例えばアンケートにより事前に調査した結果と、各ノード１２０１〜１２０９とを、人物ごとに対応付けておくこともできる。この場合には、ロボットＲは、事前に調査した結果に基づいて、認識した人物ごとに異なる展開の仕方で話題を発話することができる。さらに、他の例として、話題制御手段１３３は、各ノード１２０１〜１２０９のいずれかをランダムに選択するようにしてもよい。

本実施形態によれば、ロボットＲは、発話を行う前に対象とする人物へのアプローチ行動を制御するために、現在位置する場所および測定された騒音と、対象とする人物の現在撮像された画像が示す状況と、音声認識結果とに応じて、発話の可否、発話音量、発話口調を変更することができる。また、ロボットＲは、調整した発話音量のレベルに比例して身振りによる各部位の移動幅を調整するので、発話中の身振りを自然なものとすることができる。さらに、ロボットＲは、話題に関する発話を行った後に算出した興味度に基づいて、話題に対して対話中の人物が興味を持っているか判別し、その人物の嗜好する話題を推定して発話することができる。

以上、本発明の好ましい実施形態について説明したが、本発明は前記した実施形態に限定されるものではない。例えば、本実施形態では、行動統括制御手段１３４は、アプローチ行動を決定する際に、環境情報検出手段１１０で検出された発話出力情報を、人物状況データから抽出した発話出力情報よりも優先するものとして説明したが、人物状況データから抽出した発話出力情報の方を優先するように構成してもよい。この場合には、行動統括制御手段１３４は、まず、認識される人物の状況を重視し、次に、ロボットＲの周囲の環境を判定材料に加える。

また、行動統括制御手段１３４は、環境情報検出手段１１０で検出された発話出力情報と、人物状況データから抽出した発話出力情報とを同じタイミングで統合するように構成してもよい。この場合には、例えば、行動統括制御手段１３４は、人物状況データから抽出した発話出力情報と、環境情報検出手段１１０で検出された発話出力情報とを比較し、両者が異なる場合に、各発話出力情報を数値化して重み付けを行って統合した統合値を算出し、算出された統合値が予め設定された発話の許可を示す設定値より小さい場合に、人物への発話を許可する。また、行動統括制御手段１３４は、人物状況データから抽出した発話出力情報と、環境情報検出手段１１０で検出された発話出力情報とが同じである場合に、その発話出力情報に基づいて、ロボットＲの発話の可否を判断し、発話可と判定した場合にその発話出力情報に基づく発話音量および発話口調を音声合成部２１ａに指示する。

また、本実施形態では、ローカル地図データ記憶手段３２に記憶された地図データは、予め設定された騒音のレベルごとに発話出力情報が位置情報と対応付けて作成されているものとしたが、これに限定されるものではない。例えば、地図データは、時間帯等の情報や予め定められたイベント情報ごとに、発話出力情報が位置情報と対応付けて作成するようにしてもよい。

また、地図データは、必ずしも騒音のレベルごとに作成されている必要はなく、発話出力情報と位置情報とを対応付けて作成しておくようにしてもよい。この場合には、騒音レベルと発話出力情報とを対応付けたテーブルを別に作成しておき、環境情報検出手段１１０は、音声処理部２０の騒音測定部２１ｄで検出された騒音レベルと、地図データおよび別に作成されたテーブルとを参照して所定の規則に則って、現在位置に対応する発話出力情報を決定して応対行動制御手段１３０に出力することができる。

また、本実施形態では、画像判定モードでは、視線方向から興味度を算出するものとしたが、顔の向きやロボットＲから人物の顔までの距離を用いて興味度を算出するようにしてもよい。ここで、ロボットＲから人物の顔までの距離は、話題に引き込まれた人物が身を乗り出す具合を示す。また、顔の表情や、頷いているかどうかという点を数値化して興味度を算出するようにしてもよい。

また、本実施形態では、ロボットを、２足歩行可能な自律移動型ロボットとして説明したが、これに限定されず、車輪で移動する自律移動型ロボット、産業用ロボット、自動車などの種々の移動体への応用も可能である。

本発明の実施形態に係るロボットを含むロボットシステムの構成を模式的に示す図である。ロボットによる自己位置検出およびオブジェクト検出の一例を模式的に示す図である。図１に示したロボットシステムで用いられるローカル地図の例を示す図である。図１に示した管理用コンピュータの記憶手段に記憶されたタスク情報データベースの一例を示す図である。図１に示した管理用コンピュータの記憶手段に記憶されたタスクスケジュールテーブルの一例を示す図である。本発明の実施形態に係るロボットの構成を示すブロック図である。図６に示したロボットの主制御部の構成を示すブロック図である。オブジェクトデータの一例を示す図である。モチベーション指数データの一例を示す図である。図７に示したアプローチ行動制御手段の構成を示すブロック図である。図６に示したロボットの動作を示すフローチャートである。話題の展開例を模式的に示す図である。

符号の説明

Ａロボットシステム
Ｒロボット
Ｒ１頭部
Ｒ２腕部
Ｒ３脚部
Ｒ４胴体部
Ｒ５背面格納部
１基地局
２ロボット専用ネットワーク
３管理用コンピュータ
３ａ記憶部
４ネットワーク
５端末
１０画像処理部（画像処理手段）
１１ａステレオ処理部
１１ｂ移動体抽出部
１１ｃ顔認識部（顔認識手段）
１１ｄ視線検出部（視線検出手段）
２０音声処理部（音声処理手段）
２１ａ音声合成部
２１ｂ音声認識部（音声認識手段）
２１ｃ音源定位部
２１ｄ騒音測定部（騒音測定手段）
２１ｅ発話情報検出部（発話情報検出手段）
３０記憶部（記憶手段）
３１オブジェクトデータ記憶手段
３２ローカル地図データ記憶手段
３３モチベーション指数記憶手段
３４シナリオ記憶手段
３５人物情報記憶手段
４０主制御部
４１静止障害物統合部
４２オブジェクトデータ統合部
４３行動パターン部
４４身振り統合部（身振り統合手段）
４５内部状態検出部
４６行動計画管理部
４７モチベーション管理部
４８アプローチ行動制御手段
５０自律移動制御部（自律移動制御手段）
６０無線通信部
７０バッテリ
８０対象検知部（対象検知手段）
９０周辺状態検知部
１１０環境情報検出手段
１２０人状況判別手段
１２１個人状況推定手段
１２２集団状況推定手段
１２３発話タイミング決定手段
１２４興味推定手段
１３０応対行動制御手段
１３１発話レベル調整手段
１３２身振り調整手段
１３３話題制御手段
１３４行動統括制御手段
Ｃカメラ（撮影手段）
ＭＣマイク
Ｓスピーカ（音声出力手段）
ＳＲ１ジャイロセンサ
ＳＲ２ＧＰＳ受信器（自己位置検出手段）

Claims

予め設定された地図上における当該ロボットの現在位置を検出する現在位置検出手段と、コミュニケーションを行う対象とする人物を撮影手段で撮影した撮影画像から前記人物の状況を判別可能に画像処理する画像処理手段と、音声から前記人物の状況を判別可能に音声認識すると共に発話を行う音声処理手段と、前記発話を行う前に前記対象とする人物へのアプローチ行動を制御するアプローチ行動制御手段とを有したロボットであって、
予め設定された当該ロボットの発話の可否、発話音量および発話口調のうちの少なくとも１つを示す発話出力情報と前記地図上の位置を示す位置情報とを対応付けて作成された地図データと、
前記発話出力情報と予めそれぞれ設定された人物の状況を示す画像条件および人物からの反応を示す音声条件とを対応付けて作成された人物状況データとを記憶する記憶手段を備え、
前記アプローチ行動制御手段は、
検出された現在位置に対応する発話出力情報を前記地図データから当該ロボットの環境に起因した情報として検出する環境情報検出手段と、
前記予め設定された画像条件と前記撮影画像の処理結果および前記音声認識の結果とに基づいて、前記対象とする人物の状況を判別する人状況判別手段と、
前記人状況判別手段で判別された人物の状況に対応する発話出力情報を前記人物状況データから抽出し、前記抽出した発話出力情報と前記環境情報検出手段で検出された発話出力情報とに基づいて、前記対象とする人物に対する発話の可否、発話音量および発話口調のうちの少なくとも１つを決定する応対行動制御手段とを備えることを特徴とするロボット。
当該ロボットの周囲の騒音を測定して騒音のレベルを検出する騒音測定手段をさらに備え、
前記地図データは、予め設定された騒音のレベルごとに前記発話出力情報が前記位置情報と対応付けて作成され、
前記環境情報検出手段は、検出された現在位置および検出された騒音のレベルに対応する発話出力情報を前記予め設定された騒音のレベルごとに作成された地図データから当該ロボットの環境に起因した情報として検出することを特徴とする請求項１に記載のロボット。
前記応対行動制御手段は、
前記人物状況データから抽出した発話出力情報と、前記環境情報検出手段で検出された発話出力情報とを比較し、両者が異なる場合に、各発話出力情報を数値化して重み付けを行って統合した統合値を算出し、前記算出された統合値が予め設定された発話の許可を示す設定値より小さい場合に、前記人物への発話を許可する行動統括制御手段と、
前記人物への発話が許可された場合に、前記統合値に基づいて発話音量のレベルの調整または発話口調の切り替えを行う発話レベル調整手段と、
を備えることを特徴とする請求項１または請求項２に記載のロボット。
当該ロボットの胴部にそれぞれ接続された頭部、腕部および脚部のうちの少なくとも１つの部位を駆動する駆動手段に駆動信号を出力して前記少なくとも１つの部位を自律的に移動させる自律移動制御手段と、
所定の発話を行うときに前記少なくとも１つの部位を移動させる身体動作である身振りを指定する予め作成されたシナリオを記憶するシナリオ記憶手段と、
前記対象とする人物に対して行う発話に対応した身振りを前記シナリオから抽出し、前記抽出した身振りを指定するコマンドを前記自律移動制御手段に出力する身振り統合手段と、
前記発話レベル調整手段で発話音量のレベルが調整された場合に、前記調整された発話音量のレベルに比例させて前記コマンドとして指定される身振りによる前記部位の移動幅を調整する身振り調整手段と、
をさらに備えることを特徴とする請求項３に記載のロボット。
前記画像処理手段は、
前記撮影画像から前記対象とする人物の顔領域を抽出する顔認識手段と、
前記抽出された顔領域から前記対象とする人物の視線方向を検出する視線検出手段とを有し、
前記対象とする人物に対して所定の話題に関する発話を開始した後に前記視線検出手段で検出された視線方向を数値化した興味度を算出し、前記算出した興味度が上昇したか否かを判別し、前記興味度が上昇した場合に前記人物が前記話題に興味を有していると判定すると共に、前記判別結果を記録する興味推定手段と、
前記興味度が下降した場合に、前記所定の話題に関する発話を中断する話題制御手段と、
をさらに備えることを特徴とする請求項１ないし請求項４のいずれか一項に記載のロボット。
前記音声処理手段は、
入力音声から前記対象とする人物の音声の音量、音質、話速のうちの少なくとも１つを示す人物発話情報を検出する発話情報検出手段を有し、
前記対象とする人物に対して所定の話題に関する発話を開始した後に前記音声処理手段で音声認識された認識結果または前記発話情報検出手段で検出された人物発話情報を数値化した興味度を算出し、前記算出した興味度が上昇したか否かを判別し、前記興味度が上昇した場合に前記人物が前記話題に興味を有していると判定すると共に、前記判別結果を記録する興味推定手段と、
前記興味度が下降した場合に、前記所定の話題に関する発話を中断する話題制御手段と、
をさらに備えることを特徴とする請求項１ないし請求項４のいずれか一項に記載のロボット。
複数の話題を記憶した人物情報記憶手段をさらに備え、
前記話題制御手段は、前記興味度に基づいて、前記人物情報記憶手段に記憶された話題を切り替え、前記対象とする人物に対して前記切り替えた話題に関する発話を行うことを特徴とする請求項５または請求項６に記載のロボット。