JP5842245B2

JP5842245B2 - コミュニケーションロボット

Info

Publication number: JP5842245B2
Application number: JP2011100454A
Authority: JP
Inventors: 倫博嶋田; 神田　崇行; 崇行神田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2011-04-28
Filing date: 2011-04-28
Publication date: 2016-01-13
Anticipated expiration: 2031-04-28
Also published as: JP2012232352A

Description

この発明は、コミュニケーションロボットに関し、特にたとえば、身体動作および音声の少なくとも一方を用いて人間との間でコミュニケーション行動を実行する、コミュニケーションロボットに関する。

背景技術の一例が特許文献１に開示されている。この特許文献１に開示された音声処理装置は、たとえば、ロボットに適用され、ユーザの発話速度が、音声認識の精度が良好な速度より大きい場合、ロボットの発話速度をユーザの発話速度よりも小さい値に設定し、ユーザの発話速度が、音声認識の精度が良好な速度より小さい場合、ロボットの発話速度をユーザの発話速度より大きい値に設定する。

特開２００４−２５８２９０号［G10L 15/28, G10L 13/00, G10L 15/00, G10L 21/04］

しかし、この背景技術では、ユーザの音声を音声認識する場合の認識の精度を良好にするために、ロボットの発話速度を制御して、ユーザの発話速度を誘導するものであり、ユーザがロボットの音声を聞き易いかどうかは何ら考慮されていない。

それゆえに、この発明の主たる目的は、新規な、コミュニケーションロボットを提供することである。

この発明のさらに他の目的は、ユーザがロボットの音声を聞き易くすることができる、コミュニケーションロボットを提供することである。

本発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明などは、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。

第１の発明は、少なくとも音声を用いて人間との間でコミュニケーション行動を実行するコミュニケーションロボットであって、コミュニケーション行動を実行する場合に、コミュニケーションロボットが移動するかどうかを判断する移動判断手段、人間がその音声を聞いたことがあるかどうかの経験を検出する経験検出手段、および少なくとも移動判断手段の判断結果に基づいて、音声の発話速度を決定する速度決定手段を備え、速度決定手段は、移動判断手段によってコミュニケーションロボットが移動すると判断されたとき、移動判断手段によってコミュニケーションロボットが移動しないと判断されたときよりも発話速度を低速のものに決定し、さらに、経験検出手段によって音声を聞いたことがあることが検出されたとき、経験検出手段によって音声を聞いたことがないことが検出されたときよりも、発話速度を高速のものに決定する、コミュニケーションロボットである。

第１の発明では、コミュニケーションロボット（１０）は、少なくとも音声を用いて人間との間でコミュニケーション行動を実行する。移動判断手段（８０、Ｓ１１、Ｓ２５、Ｓ３３、Ｓ３９、Ｓ４５、Ｓ５３、Ｓ５９、Ｓ６５）は、コミュニケーション行動を実行する場合に、たとえば、コミュニケーションロボットが人間に追従または並走するように、移動するかどうかを判断する。経験検出手段（８０、Ｓ３）は、人間がコミュニケーションロボットの音声（合成音声）を聞いたことがあるかどうかの経験を検出する。速度決定手段（８０、Ｓ１３、Ｓ１５、Ｓ２７、Ｓ２９、Ｓ３５、Ｓ３７、Ｓ４１、Ｓ４３、Ｓ４７、Ｓ４９、Ｓ５５、Ｓ５７、Ｓ６１、Ｓ６３、Ｓ６７、Ｓ６９）は、少なくとも移動判断手段の判断結果に基づいて、音声の発話速度を決定する。たとえば、速度決定手段は、移動判断手段によってコミュニケーションロボットが移動すると判断されたとき、移動判断手段によってコミュニケーションロボットが移動しないと判断されたときよりも発話速度を低速のものに決定する。さらに、速度決定手段は、経験検出手段によって音声を聞いたことがあることが検出されたとき、音声を聞いたことがないことが検出されたときよりも、発話速度を高速のものに決定する。つまり、コミュニケーションロボットの音声を聞いたことのある人間は、聞いたことのない人間に比べて、その聞き取り能力が高いと考えられる。したがって、聞き取り能力の高い人間に対して、発話速度が高速のものに決定される。つまり、速度決定手段は、人間がコミュニケーションロボットの音声（合成音声）を聞いたことがあるかどうかの経験を加味して、音声の発話速度を決定する。

第１の発明によれば、コミュニケーションロボットが移動するかどうかに応じて音声の発話速度を決定するので、人間との間でコミュニケーション行動を実行する状況に応じて発話速度を決定することができる。したがって、人間がロボットの音声を聞き易くすることができる。
また、コミュニケーションロボットの音声を聞いたことがあるかどうかに応じて、音声の発話速度を決定するので、人間の聞き取り能力に応じて、発話速度を決定することができる。

第２の発明は、第１の発明に従属し、人間の知識量を検出する知識量検出手段をさらに備え、速度決定手段は、さらに、知識量検出手段によって検出された知識量に基づいて、音声の発話速度を決定する。

第２の発明では、コミュニケーションロボットは、知識量検出手段（８０、Ｓ３）をさらに備える。知識量検出手段は、人間の知識量を検出する。速度決定手段は、さらに、知識量検出手段によって検出された知識量に基づいて、音声の発話速度を決定する。

第２の発明によれば、さらに人間の知識量を加味して発話速度を決定するので、人間の能力に応じて発話速度を決定することができる。

第３の発明は、第２の発明に従属し、速度決定手段は、知識量検出手段によって検出された知識量が所定以上であるとき、知識量検出手段によって検出された知識量が所定未満であるときよりも、発話速度を高速のものに決定する。

第３の発明では、速度決定手段は、知識量検出手段によって検出された知識量が所定以上であるとき、音声を聞き取れない場合であっても、知識によってその内容を補うことができると考えられるため、知識量検出手段によって検出された知識量が所定未満であるときよりも、発話速度を高速のものに決定する。

第３の発明によれば、知識量が所定以上である場合には、所定未満である場合よりも、発話速度を高速のものにするので、発話速度が遅すぎることによって人間を退屈させることを回避することができる。

第４の発明は、第１ないし第３の発明のいずれかに従属し、音声に加えて身体動作を用いて人間との間でコミュニケーション行動を実行するか否かを判断する動作判断手段をさらに備え、速度決定手段は、動作判断手段によって身体動作を用いてコミュニケーション行動を実行することが判断されたときよりも、動作判断手段によって身体動作を用いてコミュニケーション行動を実行しないことが判断されたときの発話速度を高速のものに決定する。

第４の発明では、コミュニケーションロボットは、動作判断手段（８０、Ｓ９、Ｓ２３、Ｓ３１、Ｓ５１）をさらに備える。動作判断手段は、音声に加えて身体動作を用いて人間との間でコミュニケーション行動を実行するか否かを判断する。速度決定手段は、身体動作を用いてコミュニケーション行動を実行する場合よりも、身体動作を用いてコミュニケーション行動を実行しない場合の発話速度を高速のものに決定する。これは、コミュニケーションロボットが身体動作を用いてコミュニケーション行動を実行する場合には、人間はその音声を聞くことだけに集中できないと考えられるからである。

第４の発明によれば、コミュニケーションを行うときの状況に応じて適切に音声の発話速度を決定することができる。

この発明によれば、コミュニケーション行動を実行するときに、移動するかどうかに基づいて音声の発話速度を決定するので、コミュニケーション行動を実行するときの状況に応じて適切な発話速度で音声を出力することができる。したがって、ユーザがロボットの音声を聞き易くすることができる。

この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１はこの発明の一実施例のコミュニケーションロボットの一例およびその近傍ないし周辺に存在するユーザを示す図解図である。図２は図１に示すコミュニケーションロボットの外観の詳細を示す正面図である。図３は図１に示すコミュニケーションロボットの電気的な構成を示すブロック図である。図４はコミュニケーション行動テーブルおよびユーザ情報テーブルの一例を示す図解図である。図５は発話速度テーブルの一例を示す図解図である。図６は図３に示すメモリ内のＲＡＭのメモリマップの一例を示す図解図である。図７は図３に示すＣＰＵの発話速度決定処理の第１の一部を示すフロー図である。図８は図３に示すＣＰＵの発話速度決定処理の第２の一部であって、図７に従属するフロー図である。図９は図３に示すＣＰＵの発話速度決定処理の第３の一部であって、図８に後続するフロー図である。図１０は図３に示すＣＰＵの発話速度決定処理の第４の一部であって、図８に後続するフロー図である。図１１は図３に示すＣＰＵの発話速度決定処理の第５の一部であって、図９に後続するフロー図である。図１２は図３に示すＣＰＵの発話速度決定処理の第６の一部であって、図７に後続するフロー図である。図１３は図３に示すＣＰＵの発話速度決定処理の第７の一部であって、図１２に後続するフロー図である。図１４は図３に示すＣＰＵの発話速度決定処理の第８の一部であって、図７に後続するフロー図である。

図１を参照して、この実施例のコミュニケーションロボット（以下、単に「ロボット」という。）１０は、一連の行動プログラムからなる行動モジュールを実行することによって、身体動作および音声の少なくとも一方を用いたコミュニケーション行動を取るものである。

図１に示すように、このロボット１０の近傍或いは周囲には、コミュニケーション対象となるユーザＡ、ユーザＢおよびユーザＣが存在し、たとえば、このユーザＡ、ユーザＢおよびユーザＣは、それぞれ、無線タグ１２を所持或いは装着している。無線タグ１２は、それぞれ、固有のＲＦＩＤなどのタグ情報（個人識別情報）を所定周波数の電波に重畳して、一定の時間間隔で送信（発信）する。なお、図１では、３人のユーザが存在する場合について示してあるが、ユーザは１人以上であればよい。

図２を参照して、ロボット１０のハードウェア面の構成を詳細に説明する。図２に示すように、ロボット１０は台車３０を含み、台車３０の下面にはロボット１０を自律移動させる２つの車輪３２および１つの従輪３４が設けられる。２つの車輪３２は車輪モータ３６（図３参照）によってそれぞれ独立に駆動され、台車３０すなわちロボット１０を前後左右の任意方向に動かすことができる。また、従輪３４は車輪３２を補助する補助輪である。したがって、ロボット１０は、配置された空間内を自律制御によって移動可能である。ただし、ロボット１０は、或る場所に固定的に配置されても構わない。

台車３０の上には、円柱形のセンサ取り付けパネル３８が設けられ、このセンサ取り付けパネル３８には、多数の赤外線距離センサ４０が取り付けられる。これらの赤外線距離センサ４０は、センサ取り付けパネル３８すなわちロボット１０の周囲の物体（人間や障害物など）との距離を測定するものである。

なお、この実施例では、距離センサとして、赤外線距離センサを用いるようにしてあるが、赤外線距離センサに代えて、超音波距離センサやミリ波レーダなどを用いることもできる。

センサ取り付けパネル３８の上には、胴体４２が直立するように設けられる。また、胴体４２の前方中央上部（人の胸に相当する位置）には、上述した赤外線距離センサ４０がさらに設けられ、ロボット１０の前方の主として人間との距離を計測する。また、胴体４２には、その側面側上端部のほぼ中央から伸びる支柱４４が設けられ、支柱４４の上には、全方位カメラ４６が設けられる。全方位カメラ４６は、ロボット１０の周囲を撮影するものであり、後述する眼カメラ７０とは区別される。この全方位カメラ４６としては、たとえばＣＣＤやＣＭＯＳのような固体撮像素子を用いるカメラを採用することができる。なお、これら赤外線距離センサ４０および全方位カメラ４６の設置位置は、当該部位に限定されず適宜変更され得る。

胴体４２の両側面上端部（人の肩に相当する位置）には、それぞれ、肩関節４８Ｒおよび肩関節４８Ｌによって、上腕５０Ｒおよび上腕５０Ｌが設けられる。図示は省略するが、肩関節４８Ｒおよび肩関節４８Ｌは、それぞれ、直交する３軸の自由度を有する。すなわち、肩関節４８Ｒは、直交する３軸のそれぞれの軸廻りにおいて上腕５０Ｒの角度を制御できる。肩関節４８Ｒの或る軸（ヨー軸）は、上腕５０Ｒの長手方向（または軸）に平行な軸であり、他の２軸（ピッチ軸およびロール軸）は、その軸にそれぞれ異なる方向から直交する軸である。同様にして、肩関節４８Ｌは、直交する３軸のそれぞれの軸廻りにおいて上腕５０Ｌの角度を制御できる。肩関節４８Ｌの或る軸（ヨー軸）は、上腕５０Ｌの長手方向（または軸）に平行な軸であり、他の２軸（ピッチ軸およびロール軸）は、その軸にそれぞれ異なる方向から直交する軸である。

また、上腕５０Ｒおよび上腕５０Ｌのそれぞれの先端には、肘関節５２Ｒおよび肘関節５２Ｌが設けられる。図示は省略するが、肘関節５２Ｒおよび肘関節５２Ｌは、それぞれ１軸の自由度を有し、この軸（ピッチ軸）の軸回りにおいて前腕５４Ｒおよび前腕５４Ｌの角度を制御できる。

前腕５４Ｒおよび前腕５４Ｌのそれぞれの先端には、人の手に相当する球体５６Ｒおよび球体５６Ｌがそれぞれ固定的に設けられる。ただし、指や掌の機能が必要な場合には、人間の手の形をした「手」を用いることも可能である。また、図示は省略するが、台車３０の前面，肩関節４８Ｒと肩関節４８Ｌとを含む肩に相当する部位，上腕５０Ｒ，上腕５０Ｌ，前腕５４Ｒ，前腕５４Ｌ，球体５６Ｒおよび球体５６Ｌには、それぞれ、接触センサ５８（図３で包括的に示す）が設けられる。台車３０の前面の接触センサ５８は、台車３０への人間や他の障害物の接触を検知する。したがって、ロボット１０は、その自身の移動中に障害物との接触が有ると、それを検知し、直ちに車輪３２の駆動を停止してロボット１０の移動を急停止させることができる。また、その他の接触センサ５８は、当該各部位に触れたかどうかを検知する。なお、接触センサ５８の設置位置は、当該部位に限定されず、適宜な位置（人の胸，腹，脇，背中および腰に相当する位置）に設けられてもよい。

胴体４２の中央上部（人の首に相当する位置）には首関節６０が設けられ、さらにその上には頭部６２が設けられる。図示は省略するが、首関節６０は、３軸の自由度を有し、３軸の各軸廻りに角度制御可能である。或る軸（ヨー軸）はロボット１０の真上（鉛直上向き）に向かう軸であり、他の２軸（ピッチ軸、ロール軸）は、それぞれ、それと異なる方向で直交する軸である。

頭部６２には、人の口に相当する位置に、スピーカ６４が設けられる。スピーカ６４は、ロボット１０が、それの周辺の人間に対して音声ないし音によってコミュニケーションを取るために用いられる。また、人の耳に相当する位置には、マイク６６Ｒおよびマイク６６Ｌが設けられる。以下、右のマイク６６Ｒと左のマイク６６Ｌとをまとめてマイク６６ということがある。マイク６６は、周囲の音、とりわけコミュニケーションを実行する対象である人間の音声を取り込む。さらに、人の目に相当する位置には、眼球部６８Ｒおよび眼球部６８Ｌが設けられる。眼球部６８Ｒおよび眼球部６８Ｌは、それぞれ眼カメラ７０Ｒおよび眼カメラ７０Ｌを含む。以下、右の眼球部６８Ｒと左の眼球部６８Ｌとをまとめて眼球部６８ということがある。また、右の眼カメラ７０Ｒと左の眼カメラ７０Ｌとをまとめて眼カメラ７０ということがある。

眼カメラ７０は、ロボット１０に接近した人間の顔や他の部分ないし物体などを撮影して、それに対応する映像信号を取り込む。また、眼カメラ７０は、上述した全方位カメラ４６と同様のカメラを用いることができる。たとえば、眼カメラ７０は、眼球部６８内に固定され、眼球部６８は、眼球支持部（図示せず）を介して頭部６２内の所定位置に取り付けられる。図示は省略するが、眼球支持部は、２軸の自由度を有し、それらの各軸廻りに角度制御可能である。たとえば、この２軸の一方は、頭部６２の上に向かう方向の軸（ヨー軸）であり、他方は、一方の軸に直交しかつ頭部６２の正面側（顔）が向く方向に直行する方向の軸（ピッチ軸）である。眼球支持部がこの２軸の各軸廻りに回転されることによって、眼球部６８ないし眼カメラ７０の先端（正面）側が変位され、カメラ軸すなわち視線方向が移動される。なお、上述のスピーカ６４，マイク６６および眼カメラ７０の設置位置は、当該部位に限定されず、適宜な位置に設けられてよい。

このように、この実施例のロボット１０は、車輪３２の独立２軸駆動，肩関節４８の３自由度（左右で６自由度），肘関節５２の１自由度（左右で２自由度），首関節６０の３自由度および眼球支持部の２自由度（左右で４自由度）の合計１７自由度を有する。

図３はロボット１０の電気的な構成を示すブロック図である。この図３を参照して、ロボット１０は、ＣＰＵ８０を含む。ＣＰＵ８０は、マイクロコンピュータ或いはプロセッサとも呼ばれ、バス８２を介して、メモリ８４，モータ制御ボード８６，センサ入力／出力ボード８８および音声入力／出力ボード９０に接続される。

メモリ８４は、図示は省略するが、ＲＯＭ、ＨＤＤおよびＲＡＭを含む。ＲＯＭおよびＨＤＤには、ロボット１０のビヘイビアを制御するためのプログラムやデータが記憶されている。ここで、ビヘイビアとは、行動モジュールによって実現されるロボット１０のコミュニケーション行動を示しており、ＲＯＭおよびＨＤＤには、複数の行動モジュールが各ビヘイビアに対応付けて記憶されている。また、ＲＡＭは、ワークメモリやバッファメモリとして用いられる。

たとえば、図４（Ａ）のテーブル（コミュニケーション行動テーブル）に示すように、ビヘイビア名に対応して、行動内容および発話内容が定義されている。ビヘイビア名は、ロボット１０が実行するコミュニケーション行動（ビヘイビア）の名称である。図４（Ａ）に示す例では、ビヘイビア名として、「Ｔａｌｋ（挨拶）」、「Ｇｕｉｄｅ（道案内）」、「Ｂｙｅ（ばいばい）」、…が記述される。

行動内容は、対応するビヘイビア名のコミュニケーション行動を実行する場合の身体動作の内容である。図４（Ａ）に示す例では、「Ｔａｌｋ（挨拶）」に対応して「お辞儀する」が記述される。同様に、「Ｇｕｉｄｅ（道案内）」に対応して「首を傾げる」が記述される。さらに、「Ｂｙｅ（ばいばい）」に対応して「手を振る」が記述される。たとえば、お辞儀をする場合には、ロボット１０は首を縦向きに一度振る。また、首を傾げる場合には、ロボット１０は首を横向きに一度振る。さらに、手を振る場合には、ロボット１０は右手（または左手）を挙げて左右に数回振る。このような身体動作は、対応する行動モジュールに従って、後述する各モータ（３６、９２、９４、９６、９８、１００）が駆動されることにより、実行されるのである。

発話内容は、対応するビヘイビア名のコミュニケーション行動を実行する場合に発話する内容（音声）である。図４（Ａ）に示す例では、「Ｔａｌｋ（挨拶）」に対応して「こんにちは」が記述される。同様に、「Ｇｕｉｄｅ（道案内）」に対応して「どこか案内しましょうか？」が記述される。さらに、「Ｂｙｅ（ばいばい）」に対応して「また来てね」が記述される。このような発話は、対応する行動モジュールに従って、合成音声データが出力されることにより、実行される。

なお、身体動作および発話内容は、単なる一例であり、限定される必要はない。たとえば、身体動作および発話内容を各ビヘイビアに対応して複数定義しておき、ロボット１０とユーザとの親密度に応じて身体動作および発話内容を変化させてもよい。具体的には、ユーザがロボット１０と初めて会う場合には、「Ｔａｌｋ」を実行する場合に、「深々とお辞儀する」行動をし、「はじめまして」と発話してよいし、ユーザとロボット１０とが久しぶりに会う（再会する）場合には、「Ｔａｌｋ」を実行する場合に、「手を挙げる（手を振る）」行動をし、「久し振り」と発話してよい。

また、この実施例では、予め用意されている発話内容についての合成音声データを出力するようにしてあるが、たとえば、オペレータがロボット１０に発話内容を示すデータ（テキストデータ）を送信し、このテキストデータに対応する合成音声データを作成して出力するようにしてもよい。

図３に戻って、モータ制御ボード８６は、たとえばＤＳＰで構成され、各腕や首関節および眼球部などの各軸モータの駆動を制御する。すなわち、モータ制御ボード８６は、ＣＰＵ８０からの制御データを受け、右眼球部６８Ｒの２軸のそれぞれの角度を制御する２つのモータ（図３では、まとめて「右眼球モータ９２」と示す）の回転角度を制御する。同様にして、モータ制御ボード８６は、ＣＰＵ８０からの制御データを受け、左眼球部６８Ｌの２軸のそれぞれの角度を制御する２つのモータ（図３では、まとめて「左眼球モータ９４」と示す）の回転角度を制御する。

また、モータ制御ボード８６は、ＣＰＵ８０からの制御データを受け、肩関節４８Ｒの直交する３軸のそれぞれの角度を制御する３つのモータと肘関節５２Ｒの角度を制御する１つのモータとの計４つのモータ（図３では、まとめて「右腕モータ９６」と示す）の回転角度を制御する。同様にして、モータ制御ボード８６は、ＣＰＵ８０からの制御データを受け、肩関節４８Ｌの直交する３軸のそれぞれの角度を制御する３つのモータと肘関節５２Ｌの角度を制御する１つのモータとの計４つのモータ（図３では、まとめて「左腕モータ９８」と示す）の回転角度を制御する。

さらに、モータ制御ボード８６は、ＣＰＵ８０からの制御データを受け、首関節６０の直交する３軸のそれぞれの角度を制御する３つのモータ（図３では、まとめて「頭部モータ１００」と示す）の回転角度を制御する。そして、モータ制御ボード８６は、ＣＰＵ８０からの制御データを受け、車輪３２を駆動する２つのモータ（図３では、まとめて「車輪モータ３６」と示す）の回転角度を制御する。なお、この実施例では、車輪モータ３６を除くモータは、制御を簡素化するためにステッピングモータ（すなわち、パルスモータ）を用いる。ただし、車輪モータ３６と同様に直流モータを用いるようにしてもよい。また、ロボット１２の身体部位を駆動するアクチュエータは、電流を動力源とするモータに限らず適宜変更された、他の実施例では、エアアクチュエータが適用されてもよい。

センサ入力／出力ボード８８は、モータ制御ボード８６と同様に、ＤＳＰで構成され、各センサからの信号を取り込んでＣＰＵ８０に与える。すなわち、赤外線距離センサ４０のそれぞれからの反射時間に関するデータがこのセンサ入力／出力ボード８８を通じてＣＰＵ８０に入力される。また、全方位カメラ４６からの映像信号が、必要に応じてセンサ入力／出力ボード８８で所定の処理を施してからＣＰＵ８０に入力される。眼カメラ７０からの映像信号も、同様にして、ＣＰＵ８０に入力される。また、上述した複数の接触センサ５８（図３では、まとめて「接触センサ５８」と示す）からの信号がセンサ入力／出力ボード８８を介してＣＰＵ８０に与えられる。音声入力／出力ボード９０もまた、同様に、ＤＳＰで構成され、ＣＰＵ８０から与えられる合成音声データに従った音声または声がスピーカ６４から出力される。また、マイク６６からの音声入力が、音声入力／出力ボード９０を介してＣＰＵ８０に与えられる。

また、ＣＰＵ８０は、バス８２を介して無線タグ読取装置１０２が接続される。無線タグ読取装置１０２は、アンテナ（図示せず）を介して、無線タグ１２（ＲＦＩＤタグ）から送信されるタグ情報の重畳された電波を受信する。そして、無線タグ読取装置１０２は、受信した電波信号を増幅し、当該電波信号からタグ情報（ＲＦＩＤ）を分離し、当該タグ情報を復調（デコード）してＣＰＵ８０に与える。上述したように、無線タグ１２は、人間（図１では、ユーザＡ−Ｃ）に装着され、無線タグ読取装置１０２は、通信可能範囲内の無線タグ１２を検出する。なお、無線タグ１２は、アクティブ型であってもよいし、無線タグ読取装置１０２から送信される電波に応じて駆動されるパッシブ型であってもよい。

また、ＣＰＵ８０は、バス８２を介して通信ＬＡＮボード１０４に接続される。通信ＬＡＮボード１０４は、たとえばＤＳＰで構成され、ＣＰＵ８０から与えられた送信データを無線通信装置１０６に与え、無線通信装置１０６は送信データを、ネットワークを介して外部コンピュータに送信する。また、通信ＬＡＮボード１０４は、無線通信装置１０６を介してデータを受信し、受信したデータをＣＰＵ８０に与える。

さらに、ＣＰＵ８０は、バス８２を介してユーザ情報データベース（ユーザ情報ＤＢ）１０８に接続される。このユーザ情報ＤＢ１０８は、テーブル（ユーザ情報テーブル）を記憶する。図４（Ｂ）に示すように、ユーザ情報テーブルには、ユーザ名に対応して、ＲＦＩＤ、知識量およびロボットの音声を聞いた経験の有無が記述される。ユーザ名は、コミュニケーション対象となるユーザ（人間）の名称である。図４（Ｂ）に示す例では、ユーザ名として、ユーザＡ、ユーザＢ、ユーザＣ、…が記述される。ＲＦＩＤは、対応するユーザに装着された無線タグ１２のＲＦＩＤ（タグ情報）であり、これによってユーザを識別することができる。

知識量は、対応するユーザの知識量についての情報であり、この実施例では、学歴（大学または大学未満）が記述される。ただし、「大学」は、対応するユーザが大学に在学中であること、または対応するユーザが大学を卒業したことを意味する。また、「大学未満」は、対応するユーザが高校生以下であること、または対応するユーザの最終学歴が高校以下であることを意味する。

ただし、知識量としては、小学校、中学校、高校の別をさらに分類して記述するようにしてもよい。また、知識量は、学歴に限らず、特定の分野、たとえば、コンピュータ、ゲーム、科学、趣味などにおける知識量であってもよい。ただし、特定の分野における知識量については、それぞれについて適宜指標を決定し、分類する必要がある。

ロボットの音声を聞いた経験の有無は、対応するユーザがロボット１０の音声を聞いたことがあるかどうかを示す情報である。ロボット１０の音声を聞いたことが有るユーザに対応して「あり」が記述され、ロボット１０の音声を聞いたことが無いユーザに対応して「なし」が記述される。

このユーザ情報テーブルでは、ユーザＡに装着された無線タグ１２のＲＦＩＤは「ＡＡＡＡ」であり、ユーザＡの知識量は「大学」であり、そして、ユーザＡのロボット１０の音声を聞いた経験は「あり」である。説明は省略するが、他のユーザＢ、Ｃについても同様である。

たとえば、このような構成のロボット１０は、ショッピングモール、イベント会場や展示会場などの任意の場所に配置され、人間（ユーザ）を案内（道案内、店舗、会場や展示物の説明ないし案内）するサービスを提供する。このようなサービスを提供する場合には、ロボット１０は、移動しないで、または、ユーザに追従または並走するように移動しながら、身体動作および音声の少なくとも一方を用いたコミュニケーション行動により、道案内などを実行する。

ロボット１０がユーザを案内する場合に、その音声（合成音声）をユーザが聞き易くすることができる（理解できる）かどうかを決定する要素としては、音量はもちろんであるが、音声を出力する速度（発話速度）も重要である。以下、発話速度を決定する方法について説明するが、この実施例では、ロボット１０の音声の音量は、適切な音量に予め調整（設定）されているものとする。

発話速度は、後述する図５に示される発話速度テーブルに従って決定されるが、この発話速度テーブルは、発明者等が行った実験の結果などに基づいて決定された。簡単に説明すると、実験は、ロボット１０と被験者とが立っている（移動しない）場合と、歩行する（移動する）場合とに分けて行った。ただし、歩行する場合には、被験者は、予め設定された経路を移動し、それに追従または並走するように、ロボット１０を移動させた。また、被験者は２８人（１７人の男性と１１人の女性）の大学生、大学院生またはそのいずれかを卒業した研究員であり、平均年齢は２６．８歳である。

また、ロボット１０の発話速度は、モーラ速度を用いて４段階で設定した。具体的には、速い（９．７mora/sec）、普通（７．８mora/sec）、やや遅い（６．９mora/sec）および遅い（５．７mora/sec）の４段階である。ただし、これらの発話速度は、２つの文献（「Ward, N. and Nakagawa, S., 2004, Automatic User-Adaptive Speaking Rate Selection, International Journal of Speech Technology, vol. 7, pp.259-268.」および「Zellner, B., 1994, Pauses and the temporal structure of speech, in Fundamentals of speech synthesis and speech recognition, E. Keller ed., pp. 41-62」）から得た発話速度の範囲（約６−１０mora/sec）および標準の発話速度（８mora/sec）に基づいて設定した。また、実験では、ロボット１０を日本語で発話させるため、発話速度は、１分間における英単語数を、同じ時間における日本語の音節（一言）の個数に置き換えた値である。

実験を開始する前に、合成音声に慣れさせるために、ロボット１０の音声（合成音声）による昔話を４分間被験者に聞かせた。これは、予備実験において、ロボット１０の合成音声の聞き始めでは、音声を聞き取り難いことが分かったためである。また、予備実験では、ロボット１０の合成音声を聞いたことが無い被験者は、ロボット１０の合成音声を聞いたことが有る被験者と比較して、合成音声を聞き取る能力が低いことも分かった。そして、実験においては、被験者は、実験者（発明者等）によって提供される特定の場所についての情報をロボット１０に尋ねる。これに応じて、ロボット１０が話（案内を）始める。ただし、実験者は、被験者に、リラックスして、情報検索のために観光案内所を訪ねた者として振る舞うように頼んだ。また、実験者は、ロボット１０が案内した内容について、被験者が覚えていた情報について提供するように依頼した。ただし、実験では、ロボット１０は、身体動作（ジェスチャ）を行わずに、音声のみで案内した。そして、実験者は、被験者が覚えていた情報の量を理解度として記録した。

ただし、特定の場所についての知識を有する者は、ロボット１０の音声が聞こえ難かったとしても、自身の知識で情報を補うことができるため、理解度が高いと考えられる。このため、被験者間の知識量の差を考慮して、ロボット１０が移動する場合と移動しない場合とのそれぞれについて、異なる４段階の発話速度で２回ずつ各被験者について実験を行った。そして、各発話速度についての理解度についての被験者の平均値を算出した。

実験結果では、理解度は、同じ発話速度において、移動していない場合（移動なし）の方が移動している場合（移動あり）よりも高いという結果が得られた。また、ロボット１０が移動しない場合には、発話速度がやや遅い（６．９mora/sec）場合に理解度が最も高く、ロボット１０が移動する場合には、発話速度が遅い（５．７mora/sec）場合に、理解度が最も高かった。さらに、上述したように、特定の場所についての知識が多い被験者（ユーザ）程、理解度が高いと言える。さらにまた、上述したように、ロボット１０の合成音声を聞いたことが無いユーザよりも、聞いたことが有るユーザの方が、聞き取り能力が高いため、理解度も高いと考えられる。さらにまた、実験では、ロボット１０は身体動作（ジェスチャ）を行っていないが、そのようなジェスチャを伴う場合には、ジェスチャを伴わない場合よりも、理解度が低いと推測される。これは、ロボット１０が移動する場合と同様に、ジェスチャを伴う場合には、ユーザは、合成音声を聞くことだけに集中することができないからである。このような実験結果等に基づいて、図５に示すような発話速度テーブルを決定した。ただし、実験に使用した発話速度が最適であるかどうかを検証していないため、簡単に示すために、この実施例の発話速度テーブルでは、発話速度をすべて整数で表した。また、実験結果に基づいて決定したのは、発話速度テーブルの第１列と第２列であり、ジェスチャが無い場合についての発話速度である。

図５に示すように、発話速度テーブルには、知識量、ロボットの音声を聞いた経験の有無、ロボットの歩行の有無および発話速度（ジェスチャ無、ジェスチャ有）が記述される。知識量、およびロボットの音声を聞いた経験の有無については上述したとおりであるため、重複した説明は省略する。ロボットの歩行の有無は、ロボット１０が、静止したまま案内する（移動なし）か、ユーザに追従または並走しながら案内する（移動あり）かを示す情報である。発話速度(mora/sec)は、音声を出力（発話）する速度を示す情報であり、ジェスチャ（身体動作）の有無で異なる値が設定される。

ただし、ロボット１０が移動するかどうかは、当該ロボット１０が配置される場所等に応じて予め決定される。ただし、ロボット１０が移動することが決定されている場合であっても、ロボット１０の周囲に障害物（物や人間）が存在する場合には、移動しないようにしてある。また、ロボット１０が身体動作（ジェスチャ）を行うかどうかは、当該ロボット１０が配置される場所等に応じて予め決定される。ただし、ロボット１０がジェスチャを行うことが決定されている場合であっても、ロボット１０の周囲の状況、たとえば、移動する経路や移動後の場所等の状況によっては、ジェスチャを行えない場合もある。

上述したように、この実施例では、知識量が多い程、理解度が高いため、発話速度を高速に決定することができると考えられる。また、ロボットの音声を聞いたことの経験が有る場合には、そのような経験の無い場合よりも、合成音声を理解する能力が高いと考えられるため、発話速度が高速に決定される。さらに、ロボットの移動が有る場合には、移動が無い場合よりも、発話速度が高速に決定される。さらにまた、ジェスチャが無い場合には、ジェスチャが有る場合よりも、発話速度が高速に決定される。移動やジェスチャが有る場合には、合成音声を聞くことだけに集中することができないため、移動やジェスチャが無い場合よりも発話速度が低速に決定される。

たとえば、図５に示す発話速度テーブルでは、知識量が「大学」であり、ロボットの音声を聞いた経験の有無が「あり」であり、ロボットの歩行の有無が「あり」であり、ジェスチャが「あり」である場合には、発話速度は６(mora/sec)に決定される。詳細な説明は省略するが、他の場合についても同様である。

図６は、図３に示したメモリ８４内のＲＡＭのメモリマップの一例を示す図解図である。図６に示すように、ＲＡＭは、プログラム記憶領域８４０およびデータ記憶領域８４２を含む。プログラム記憶領域８４０には、ロボット１０を制御するためのプログラム（制御プログラム）が記憶され、制御プログラムは、コミュニケーション行動プログラム８４０ａおよび発話速度決定プログラム８４０ｂなどによって構成される。これらのプログラムは、ＨＤＤまたはＲＯＭから一時に全部、または、必要に応じて個別に、ＲＡＭにロードされる。

コミュニケーション行動プログラム８４０ａは、上述したように、行動モジュールに従って、ロボット１０に、身体動作および音声の少なくとも一方を用いたコミュニケーション行動（ビヘイビア）を実行させるためのプログラムである。発話速度決定プログラム８４０は、上述したように、ユーザの知識量、ロボット１０の音声を聞いた経験の有無、ロボット１０の移動の有無およびジェスチャの有無に応じて、ロボット１０の音声に対応する合成音声データの発話速度を決定するためのプログラムである。

図示は省略するが、プログラム記憶領域８４０には、ユーザ特定プログラムや通信プログラムなども含む。ユーザ特定プログラムは、無線タグ１２から受信した電波信号に含まれるＲＦＩＤを読み取り、このＲＦＩＤからユーザを特定するためのプログラムである。通信プログラムは、ネットワークを介して、または、直接、他のロボットや外部コンピュータと通信（無線通信）するためのプログラムである。

データ記憶領域８４２には、発話速度データ８４２ａが記憶される。発話速度データ８４２ａは、ユーザ毎に決定した発話速度についての数値データである。

図示は省略するが、データ記憶領域８４２には、制御プログラムの実行に必要な、他のデータが記憶されたり、カウンタ（タイマ）やフラグが設けられたりする。

図７−図１４は、図３に示したＣＰＵ８０の発話速度決定処理を示すフロー図である。以下、具体的に説明するが、同じ処理（ステップ）についての重複する説明は省略することにする。なお、発話速度は、図５に示した発話速度テーブルに従って決定されるが、当該発話速度テーブルに従って発話速度決定処理（発話速度決定プログラム８４２ｂ）は実行される。図７に示すように、ＣＰＵ８０は、発話速度決定処理を開始すると、ステップＳ１で、変数ｎを初期化する（ｎ＝１）。ただし、変数ｎは、ロボット１０の近傍ないし周辺に存在するユーザを個別に識別するための変数である。

続くステップＳ３では、ｎ番目のユーザ情報を取得する。たとえば、ステップＳ３では、ＣＰＵ８０は、ＲＦＩＤを検出した順番で、対応するユーザについてのユーザ情報をユーザ情報ＤＢ１０８に記憶されたユーザ情報テーブルから取得する。ただし、この実施例では、ユーザ情報は、対応するユーザについての知識量およびロボットの音声を聞いた経験の有無である。

次のステップＳ５では、ステップＳ３で取得した当該ユーザの知識量が大学であるかどうかを判断する。ステップＳ５で“ＮＯ”であれば、つまり当該ユーザの知識量が大学未満であれば、図８に示すステップＳ２１に進む。一方、ステップＳ５で“ＹＥＳ”であれば、つまり当該ユーザの知識量が大学であれば、ステップＳ７で、ステップＳ３で取得したロボットの音声を聞いた経験の有無に応じて、当該ユーザがロボット１０の音声を聞いたことがあるかどうかを判断する。

ステップＳ７で“ＮＯ”であれば、つまり当該ユーザがロボット１０の音声を聞いたことがなければ、図１２に示すステップＳ５１に進む。一方、ステップＳ７で“ＹＥＳ”であれば、つまり当該ユーザがロボット１０の音声を聞いたことがあれば、ステップＳ９で、ロボット１０がジェスチャ（身体動作）を行える環境であるかどうかを判断する。上述したように、この実施例では、ロボット１０がジェスチャを行えるかどうかは、当該ロボット１０が適用される場所に応じて、当該ロボット１０の使用者によって予め決定されている。また、ロボット１０がジェスチャを行えることが決定されていても、現在、ロボット１０の近傍（たとえば、腕の届く範囲）に障害物が存在する場合には、ジェスチャが行えないと判断する。ただし、障害物が存在するかどうかは、ＣＰＵ８０が赤外線距離センサ４０や接触センサ５８の検出結果に基づいて判断する。

ステップＳ９で“ＮＯ”であれば、つまりジェスチャを行えない環境であれば、図１４に示すステップＳ６５に進む。一方、ステップＳ９で“ＹＥＳ”であれば、つまりジェスチャを行える環境であれば、ステップＳ１１で、ロボット１０は移動するかどうかを判断する。上述したように、この実施例では、ロボット１０が移動するかどうかは、当該ロボットが適用される場所に応じて、当該ロボット１０の使用者によって予め決定されている。ただし、ロボット１０が移動することが決定されていても、当該ロボット１０の近傍や周囲に障害物が存在し、移動できない場合いは、移動しないと判断される。ロボット１０の近傍や周囲に障害物が存在するかどうかは、上述したように、ＣＰＵ８０が赤外線距離センサ４０や接触センサ５８の検出結果に基づいて判断する。

ステップＳ１１で“ＹＥＳ”であれば、つまりロボット１０が移動する場合には、ステップＳ１３で、発話速度を６(mora/sec)に決定し、ステップＳ１７に進む。ただし、発話速度が決定されると、当該ユーザの識別情報（ＲＦＩＤ）に対応づけた発話速度の数値データが発話速度データ８４２ａとして記憶される。以下、発話速度を決定する場合について同様である。ただし、発話速度データ８４２ａは、ロボット１０の近傍ないし周辺に複数のユーザが存在する場合には、当該複数のユーザについての発話速度の数値データを含む。一方、ステップＳ１１で“ＮＯ”であれば、つまりロボット１０が移動しない場合には、ステップＳ１５で、発話速度を７(mora/sec)に決定して、ステップＳ１７に進む。

ステップＳ１７では、変数ｎを１加算する（ｎ＝ｎ＋１）。そして、ステップＳ１９で、変数ｎが最大値を超えたかどうかを判断する。このステップＳ１９では、ＣＰＵ８０は、ロボット１０（ＣＰＵ８０）で検出されたすべてのＲＦＩＤに対応するユーザについて発話速度を決定したかどうかを判断するのである。つまり、変数ｎの最大値は、ロボット１０が検出したＲＦＩＤの個数（総数）である。ステップＳ１９で“ＮＯ”であれば、つまり変数ｎが最大値以下であれば、まだ発話速度を決定していないユーザが存在する場合には、ステップＳ３に戻って、次のユーザについての発話速度決定処理を実行する。一方、ステップＳ１９で“ＹＥＳ”であれば、つまり変数ｎが最大値を超えれば、すべてのユーザについて発話速度を決定したと判断して、発話速度決定処理を終了する。

図示は省略するが、ユーザに道案内等のサービスを提供するとき、当該ユーザについて決定された発話速度で合成音声データが出力される。

上述したように、ステップＳ５で“ＮＯ”となり、図８に示すステップＳ２１に進むと、当該ユーザがロボットの音声を聞いたことが有るかどうかを判断する。ステップＳ２１で“ＮＯ”であれば、図９に示すステップＳ３１に進む。一方、ステップＳ２１で“ＹＥＳ”であれば、ステップＳ２３で、ロボット１０がジェスチャを行える環境であるかどうかを判断する。ステップＳ２３で“ＮＯ”であれば、図１０に示すステップＳ３９に進む。一方、ステップＳ２３で“ＹＥＳ”であれば、ステップＳ２５で、ロボット１０が移動するかどうかを判断する。ステップＳ２５で“ＹＥＳ”であれば、ステップＳ２７で、発話速度を５(mora/sec)に決定して、図７に示したステップＳ１７に進む。一方、ステップＳ２５で“ＮＯ”であれば、ステップＳ２９で、発話速度を６(mora/sec)に決定して、図７に示したステップＳ１７に進む。

また、上述したように、ステップＳ７で“ＮＯ”となり、図９に示すステップＳ３１に進むと、ロボット１０がジェスチャを行えるかどうかを判断する。ステップＳ３１で“ＮＯ”であれば、図１１に示すステップＳ４５に進む。一方、ステップＳ３１で“ＹＥＳ”であれば、ステップＳ３３で、ロボット１０は移動するかどうかを判断する。ステップＳ３３で“ＹＥＳ”であれば、ステップＳ３５で、発話速度を４(mora/sec)に決定して、ステップＳ１７に進む。一方、ステップＳ３３で“ＮＯ”であれば、ステップＳ３７で、発話速度を５(mora/sec)に決定し、ステップＳ１７に進む。

上述したように、図８のステップＳ２３で“ＮＯ”となり、図１０に示すステップＳ３９に進むと、ロボット１０は移動するかどうかを判断する。ステップＳ３９で“ＹＥＳ”であれば、ステップＳ４１で、発話速度を６(mora/sec)に決定して、ステップＳ１７に進む。一方、ステップＳ３９で“ＮＯ”であれば、ステップＳ４３で、発話速度を７(mora/sec)に決定して、ステップＳ１７に進む。

また、図９のステップＳ３１で“ＮＯ”となり、図１１のステップＳ４５に進むと、ロボット１０は移動するかどうかを判断する。ステップＳ４５で“ＹＥＳ”であれば、ステップＳ４７で、発話速度を５(mora/sec)に決定して、ステップＳ１７に進む。一方、ステップＳ４５で“ＮＯ”であれば、ステップＳ４９で、発話速度を６(mora/sec)に決定して、ステップＳ１７に進む。

上述したように、図７のステップＳ７で“ＮＯ”となり、図１２に示すステップＳ５１に進むと、ロボット１０がジェスチャを行える環境であるかどうかを判断する。ステップＳ５１で“ＮＯ”であれば、図１３に示すステップＳ５９に進む。一方、ステップＳ５１で“ＹＥＳ”であれば、ステップＳ５３で、ロボット１０は移動するかどうかを判断する。ステップＳ５３で“ＹＥＳ”であれば、ステップＳ５５で、発話速度を５(mora/sec)に決定して、ステップＳ１７に進む。一方、ステップＳ５３で“ＮＯ”であれば、ステップＳ５７で、発話速度を６(mora/sec)に決定して、ステップＳ１７に進む。

図１２のステップＳ５１で“ＮＯ”となり、図１３に示すステップＳ５９に進むと、ロボット１０は移動するかどうかを判断する。ステップＳ５９で“ＹＥＳ”であれば、ステップＳ６１で、発話速度を６(mora/sec)に決定し、ステップＳ１７に進む。一方、ステップＳ５９で“ＮＯ”であれば、ステップＳ６３で、発話速度を７(mora/sec)に決定して、ステップＳ１７に進む。

図７のステップＳ９で“ＮＯ”となり、図１４に示すステップＳ６５に進むと、ロボット１０は移動するかどうかを判断する。ステップＳ６５で“ＹＥＳ”であれば、ステップＳ６７で、発話速度を７(mora/sec)に決定して、ステップＳ１７に進む。一方、ステップＳ６５で“ＮＯ”であれば、ステップＳ６９で、発話速度を８(mora/sec)に決定して、ステップＳ１７に進む。

この実施例によれば、ユーザの知識量、ユーザがロボットの音声を聞いた経験の有無、ロボットの移動の有無およびロボットのジェスチャの有無に基づいて発話速度を決定するので、ユーザの知識や能力およびロボットがサービスを提供する状況や環境に応じて適切な発話速度を決定することができる。したがって、ユーザにロボットの音声を聞き易くすることができる。

なお、この実施例では、知識量やロボットの音声を聞いた経験をユーザ情報テーブルに予め登録しておくようにしてあるが、これに限定される必要はない。たとえば、ロボットが、知識量を測るための質問をユーザにして（問題を出して）、その回答に応じて当該ユーザの知識量を判定してもよい。また、ロボットが、ロボットの音声を聞いたことがあるかどうかをユーザに質問し、その回答によってロボットの音声を聞いた経験の有無を判断してもよい。

また、この実施例では、ロボットがユーザ毎に発話速度を決定するようにしたが、これに限定される必要はない。たとえば、ロボットと通信可能なコンピュータを設け、ロボットで検出されたＲＦＩＤをコンピュータに送信し、コンピュータでＲＦＩＤが示すユーザについての発話速度を決定し、決定した発話速度をロボットに通知するようにしてもよい。ただし、かかる場合には、図３に示したＤＢ１０８、１１０、１１２をコンピュータの内部または接続可能に設けるとともに、図７−図１４に示した発話速度決定処理がコンピュータで実行される。また、かかる場合には、ロボットが移動するかどうかはコンピュータに予め設定され、ロボットがジェスチャを行える環境かどうかの情報は、コンピュータに予め設定され、現在の状況については、ロボットによってコンピュータに送信される。

さらに、図５に示した発話速度テーブルは一例であり、ロボットを適用する環境に応じて適宜変更されるため、具体的に示した数値に限定されるべきではない。ただし、ユーザの知識量、ユーザがロボットの音声を聞いた経験の有無、ロボットの移動の有無およびロボットのジェスチャの有無のそれぞれにおける発話速度の大小関係は維持されるべきである。

１０ …コミュニケーションロボット
１２ …無線タグ
４０ …赤外線距離センサ
４６ …全方位カメラ
５８ …接触センサ
６４ …スピーカ
６６ …マイク
７０ …眼カメラ
８０ …ＣＰＵ
８２ …バス
８４ …メモリ
８６ …モータ制御ボード
８８ …センサ入力／出力ボード
９０ …音声入力／出力ボード
１０２ …無線タグ読取装置
１０４ …通信ＬＡＮボード
１０６ …無線通信装置
１０８ …ユーザ情報ＤＢ

Claims

少なくとも音声を用いて人間との間でコミュニケーション行動を実行するコミュニケーションロボットであって、
コミュニケーション行動を実行する場合に、前記コミュニケーションロボットが移動するかどうかを判断する移動判断手段、
前記人間が前記音声を聞いたことがあるかどうかの経験を検出する経験検出手段、および
少なくとも前記移動判断手段の判断結果に基づいて、前記音声の発話速度を決定する速度決定手段を備え、
前記速度決定手段は、前記移動判断手段によって前記コミュニケーションロボットが移動すると判断されたとき、前記移動判断手段によって前記コミュニケーションロボットが移動しないと判断されたときよりも発話速度を低速のものに決定し、さらに、前記経験検出手段によって前記音声を聞いたことがあることが検出されたとき、前記経験検出手段によって前記音声を聞いたことがないことが検出されたときよりも、発話速度を高速のものに決定する、コミュニケーションロボット。
前記人間の知識量を検出する知識量検出手段をさらに備え、
前記速度決定手段は、さらに、前記知識量検出手段によって検出された知識量に基づいて、前記音声の発話速度を決定する、請求項１記載のコミュニケーションロボット。
前記速度決定手段は、前記知識量検出手段によって検出された知識量が所定以上であるとき、前記知識量検出手段によって検出された知識量が所定未満であるときよりも、発話速度を高速のものに決定する、請求項２記載のコミュニケーションロボット。
前記音声に加えて身体動作を用いて人間との間でコミュニケーション行動を実行するか否かを判断する動作判断手段をさらに備え、
前記速度決定手段は、前記動作判断手段によって前記身体動作を用いて前記コミュニケーション行動を実行することが判断されたときよりも、前記動作判断手段によって前記身体動作を用いて前記コミュニケーション行動を実行しないことが判断されたときの発話速度を高速のものに決定する、請求項１ないし３のいずれかに記載のコミュニケーションロボット。