JP2005202076A

JP2005202076A - 発話制御装置及び方並びにロボット装置

Info

Publication number: JP2005202076A
Application number: JP2004007306A
Authority: JP
Inventors: Hideki Shimomura; 秀樹下村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-01-14
Filing date: 2004-01-14
Publication date: 2005-07-28

Abstract

【課題】
機器又はロボット装置から対話相手までの距離によっては、機器又はロボット装置の発話が対話相手に聞き取り難い場合があった。
【解決手段】
機器又はロボット装置とユーザと間の距離に応じて、ユーザとの対話時における機器又はロボット装置の発話形態を必要に応じて変更させるようにしたことにより、常にユーザに聞き取り易い発話形態で発話することができるため、ユーザとスムーズな対話を行うことができ、かくしてエンターテインメント性を向上させ得る発話制御装置及び方法並びにロボット装置を実現できる。
【選択図】図１３

Description

本発明は、発話制御装置及び方法並びにロボット装置に関し、例えばインターテインメイントロボットに適用して好適なものである。

近年、多くの企業や大学等の研究機関においてヒューマノイド型ロボットの開発が進められている。かかるヒューマノイド型ロボットは、ＣＣＤ（Charge Coupled Device）カメラ、マイクロホン及びタッチセンサ等の外部センサと、バッテリセンサ及び加速度センサ等の内部センサとが搭載され、これら外部センサ及び内部センサの出力に基づいて外部及び内部の状態を認識し、認識結果に基づいて自律的に行動し得るようになされたものである（例えば非特許文献１参照）。

また近年では、音声認識機能及び対話制御機能が搭載され、ユーザとの間で簡単な日常会話を行い得るようになされたエンターテインメントロボットも多く見受けられるようになってきた。
特願２００３−２７０８３５

ところで、かかる音声認識及び対話制御機能が搭載された従来のロボットでは、ロボットとユーザとの物理的な距離にかかわりなく、常に予め設定された一定の発話音量でユーザと対話するように構築されている。

このため発話音量の設定によっては、ロボットの近くにいるユーザにとっては適切であったとしても、ロボットから少し離れた場所にいるユーザにとっては音が小さ過ぎて発話内容が聞き取り難かったり、逆にロボットから少し離れた場所にいるユーザにとっては適切であったとしても、ロボットの近くにいるユーザにとっては音が大き過ぎて発話内容が聞き取り難い場合がある問題があった。

かかる問題点を解決するための１つの方法として、スイッチ操作によりエンターテインメントロボットの発話音量を自在に変更し得るようにすることも考えられる。しかしながらこの方法によると、ユーザとロボットとのインタラクションの自然性が損なわれる問題があり、さらに発話音量の設定をその都度行わなければならないとすることは、ユーザにとって不便極まりない問題がある。

また残響が多い部屋など、周囲の環境を考慮した場合、単にロボットの発話音量を上げるだけでは、ロボットから離れた場所にいるユーザに対して常にロボットの発話を聞き取り易くさせ得ることになるとは限らない。

そしてこのようにロボットの発話内容がユーザに聞き取り難いという状況は、ユーザとロボットとのスムーズかつ自然な対話を阻害する要因となって、対話制御機能を有するロボットのエンターテインメント性を損なうものであり、何らかの解決策が望まれる。

本発明は以上の点を考慮してなされたもので、対話制御機能を有するロボットのエンターテインメント性を向上させ得る発話制御装置及び方法並びにロボット装置を提案しようとするものである。

かかる課題を解決するため本発明においては、機器とユーザとの対話時における当該機器の発話を制御する発話制御装置において、機器及びユーザ間の距離に応じて、ユーザとの対話時における機器の発話形態を必要に応じて変更させる発話形態変更手段を設けるようにした。

この結果この発話制御装置は、常にユーザに聞き取り易い発話形態で発話することができるため、ユーザとスムーズな対話を行うことができる。

また本発明においては、機器とユーザとの対話時における当該機器の発話を制御する発話制御方法において、機器及びユーザ間の距離に応じて、ユーザとの対話時における機器の発話形態を必要に応じて変更するようにした。

この結果この発話制御方法によれば、常にユーザに聞き取り易い発話形態で発話することができるため、ユーザとスムーズな対話を行うことができる。

さらに本発明においては、ロボット装置において、ユーザまでの距離に応じて、ユーザとの対話時における発話形態を必要に応じて変更する発話形態変更手段を設けるようにした。

この結果このロボット装置は、常にユーザに聞き取り易い発話形態で発話することができるため、ユーザとスムーズな対話を行うことができる。

本発明によれば、機器とユーザとの対話時における当該機器の発話を制御する発話制御装置及び方法において、機器及びユーザ間の距離に応じて、ユーザとの対話時における機器の発話形態を必要に応じて変更させるようにしたことにより、常にユーザに聞き取り易い発話形態で発話することができるため、ユーザとスムーズな対話を行うことができ、かくしてエンターテインメント性を向上させ得る発話制御装置及び方法を実現できる。

また本発明によれば、ロボット装置において、ユーザまでの距離に応じて、ユーザとの対話時における発話形態を必要に応じて変更する発話形態変更手段を設けるようにしたことにより、常にユーザに聞き取り易い発話形態で発話することができるため、ユーザとスムーズな対話を行うことができ、かくしてエンターテインメント性を向上させ得るロボット装置を実現できる。

以下図面について、本発明の一実施の形態を詳述する。

（１）本実施の形態によるロボットの構成
（１−１）ロボット１のハードウェア構成
図１において、１は全体として本実施の形態によるロボットを示し、胴体部ユニット２の上部に首関節３を介して頭部ユニット４が取り付けられると共に、当該胴体部ユニット２の左右上部にそれぞれ肩関節４Ａ、４Ｂを介して腕部ユニット５Ａ、５Ｂが取り付けられ、かつ胴体部ユニット２の下部にそれぞれ股関節６Ａ、６Ｂを介して一対の脚部ユニット７Ａ、７Ｂが取り付けられることにより構成されている。

図２は、このロボット１の機能構成を模式的に示したものである。この図２に示すように、ロボット１は、全体の動作の統括的制御やその他のデータ処理を行う制御ユニット１０と、入出力部１１と、駆動部１２と、電源部１３とで構成される。

入出力部１１は、入力部としてロボット１の目に相当する一対のＣＣＤ（Charge Coupled Device）カメラ２０や、耳に相当する一対のマイクロホン２１、頭部や手及び足裏などの部位に配設されてユーザからの物理的な働きかけや、手と外部物体との接触、足裏面の接地等を感知するタッチセンサ２２、あるいは五感に相当するその他の各種のセンサを含む。

また入出力部１１は、出力部としてロボット１の口に相当するスピーカ２３、あるいは点滅の組み合わせや点灯のタイミングにより顔の表情を形成するＬＥＤ（目ランプ）２４などを装備している。これら出力部は、音声やランプの点滅など、脚などによる機械運動パターン以外の形式でもロボット１からのユーザ・フィードバックを表現することができる。

駆動部１２は、制御ユニット１０が指令する所定の運動パターンに従ってロボット１の機体動作を実現する機能ブロックであり、行動制御による制御対象物である。駆動部１２は、ロボット１の各関節における自由度を実現するための機能モジュールであり、それぞれの関節におけるロール、ピッチ、ヨーなど各軸毎に設けられた複数の駆動ユニット２５_１〜２５_ｎで構成される。各駆動ユニット２５_１〜２５_ｎは、所定軸回りの回転動作を行うモータ２６_１〜２６_ｎと、モータ２６_１〜２６_ｎの回転位置を検出するエンコーダ２７_１〜２７_ｎと、エンコーダ２７_１〜２７_ｎの出力に基づいてモータ２６_１〜２６_ｎの回転位置や回転速度を適応的に制御するドライバ２８_１〜２８_ｎの組み合わせで構成される。

電源部１３は、その字句通り、ロボット１内に各電気回路などに対して給電を行う機能モジュールである。本実施の形態に係るロボット１は、バッテリを用いた自律駆動式であり、電源部１３は、充電バッテリ２９と、充電バッテリ３０の充放電状態を管理する充放電制御部３１とで構成される。

充電バッテリ２９は、例えば、複数本のリチウムイオン２次電池セルをカートリッジ式にパッケージ化した「バッテリ・パック」の形態で構成される。

また、充放電制御部３０は、バッテリ２９の端子電圧や充電／放電電流量、バッテリ２９の周囲温度などを測定することでバッテリ２９の残存容量を把握し、充電の開始時期や終了時期などを決定する。充放電制御部３０が決定する充電の開始及び終了時期は制御ユニット１０に通知され、ロボット１が充電オペレーションを開始及び終了するためのトリガとなる。

制御ユニット１０は、ロボット１の「頭脳」に相当し、例えば頭部ユニット４又は胴体部ユニット２内に搭載されている。この制御ユニット１０は、図３に示すように、メイン・コントローラとしてのＣＰＵ（Central Processing Unit）３１が、メモリやその他の各回路コンポーネントや周辺機器とバス接続された構成となっている。バス３７は、データ・バス、アドレス・バス、コントロール・バスなどを含む共通信号伝送路である。バス３７上の各装置にはそれぞれに固有のアドレス（メモリ・アドレス又はＩ／Ｏアドレス）が割り当てられている。ＣＰＵ３１は、アドレスを指定することによってバス３７上の特定の装置と通信することができる。

ＲＡＭ（Read Access Memory）３２は、ＤＲＡＭ（Dynamic RAM）などの揮発性メモリで構成された書き込み可能メモリであり、ＣＰＵ３１が実行するプログラム・コードをロードしたり、実行プログラムによる作業データの一時的な保存のために使用される。

ＲＯＭ（Read Only Memory）３３は、プログラムやデータを恒久的に格納する読み出し専用メモリである。ＲＯＭ３３に格納されるプログラム・コードには、ロボット１の電源投入時に実行する自己診断テスト・プログラムや、ロボット１の動作を規定する制御プログラムなどが挙げられる。

ロボット１の制御プログラムには、ＣＣＤカメラ２０やマイクロホン２１などの各種センサからの入力を処理してシンボルとして認識する「センサ入力・認識処理プログラム」、短期記憶などの記憶動作を司りながらセンサ入力と所定の行動制御モデルとに基づいてロボット１の行動を制御する「行動制御プログラム」、行動制御モデルに従って各関節モータの駆動やスピーカ２２の音声出力などを制御する「駆動制御プログラム」などが含まれる。

不揮発性メモリ３４は、例えばＥＥＰＲＯＭ（Electrically Erasable and Programmable ROM）のように電気的に消去再書き込みが可能なメモリ素子で構成され、逐次更新すべきデータを不揮発的に保持するために使用される。逐次更新すべきデータには、暗記鍵やその他のセキュリティ情報、出荷後にインストールすべき装置制御プログラムなどが挙げられる。

インターフェース３５は、制御ユニット１０外の機器と相互接続し、データ交換を可能にするための装置である。インターフェース３５は、例えば、入出力部１１内のＣＣＤカメラ２０やマイクロホン２１及びスピーカ２２との間でデータ入出力を行う。また、インターフェース３５は、駆動部１２内の各ドライバ２８_１〜２８_ｎとの間でデータやコマンドの入出力を行う。

また、インターフェース３５は、ＲＳ（Recommended Standard）−２３２Ｃなどのシリアル・インターフェース、ＩＥＥＥ（Institute of Electrical and Electronics Engineers ）１２８４などのパラレル・インターフェース、ＵＳＢ（Universal Serial Bus）インターフェース、ｉ−Ｌｉｎｋ（ＩＥＥＥ１３９４）インターフェース、ＳＣＳＩ（Small Computer System Interface ）インターフェース、ＰＣカードやメモリ・スティックを受容するメモリ・カードインターフェース（カードスロット）などのような、コンピュータの周辺機器接続用の汎用インターフェースを備え、ローカル接続された外部機器との間でプログラムやデータの移動を行い得るようにしてもよい。また、インターフェース３５の他の例として、赤外線通信（ＩｒＤＡ）インターフェースを備え、外部機器と無線通信を行うようにしてもよい。

さらに、制御ユニット１０は、無線通信インターフェース３６やネットワーク・インターフェース・カード（ＮＩＣ）３８などを含み、Ｂｌｕｅｔｏｏｔｈのような近接無線データ通信や、ＩＥＥＥ８０２．１１ｂのような無線ネットワーク、あるいはインターネットなどの高域ネットワークを経由して、外部のさまざまなホスト・コンピュータとデータ通信を行うことができる。

このようなロボット１とホスト・コンピュータ間におけるデータ通信により、遠隔のコンピュータ資源を用いて、ロボット１の複雑な動作制御を演算したり、リモート・コントロールすることができる。

（１−２）ロボット１のソフトウェア構成
図４は、ＲＯＭに格納された制御プログラム群により構成されるロボット１の行動制御システム４０の機能構成を模式的に示したものである。

この行動制御システム４０は、オブジェクト指向プログラミングを採り入れて実装されている。この場合、各ソフトウェアは、データとそのデータに対する処理手続きとを一体化させた「オブジェクト」というモジュール単位で扱われる。また各オブジェクトは、メッセージ通信と共有メモリを使ったオブジェクト間通信方法によりデータの受け渡しとＩｎｖｏｋｅを行うことができる。

ここで行動制御システム４０は、ＣＣＤカメラ２０（図２）、マイクロホン２１（図２）及びタッチセンサ２２（図２）などの各種センサからのセンサ出力に基づいて外部環境を認識するための画像認識部４１、音声認識部４２及び接触認識部４３を有している。

画像認識部４１は、ＣＣＤカメラ２０から与えられる画像信号Ｓ１に基づいて顔認識や色認識などの画像認識処理や特徴抽出を実行する。そして画像認識部４１は、かかる顔認識結果であるその人物に固有の顔ＩＤ（識別子）、顔画像領域の位置及び大きさといった顔認識情報や、色認識結果である色領域の位置や大きさ及び特徴量といった色認識情報などの各種画像認識結果と、画像信号Ｓ１とを短期記憶部４４に送出する。また画像認識部４１は、ＣＣＤカメラカメラ２０からの画像信号Ｓ１に基づいて、いわゆるステレオビジョン法によって撮像対象までの距離を検出し、検出結果を短期記憶部４４に送出する。

音声認識部４２は、マイクロホン２１から与えられる音声信号Ｓ２に基づいて音声認識や話者認識、音源方向認識などの各種音に関する認識処理を実行する。そして音声認識部４２は、かかる音声認識結果である認識した単語の文字列情報と、音響的特徴等に基づく話者認識処理結果であるその話者に固有の話者ＩＤ情報と、音源方向認識結果である音源方向情報となどの各種音声認識結果を短期記憶部４４に送出する。また音声認識部４２は、これら各種音声認識結果と併せて、これら音声信号Ｓ２を短期記憶部４４に送出する。

さらに接触認識部４３は、頭部ユニット４（図１）の上部や腕部ユニット５Ａ、５Ｂ（図１）の先端部である手、脚部ユニット７Ａ、７Ｂ（図１）の底部である足底等に配設されたタッチセンサ２２からそれぞれ与えられる圧力検出信号Ｓ３に基づいて「撫でられた」、「叩かれた」、「物を把持した」、「足裏面が接地した」という外部との物理的な接触を認識し、得られたこれら接触認識結果を短期記憶部４４に送出する。また接触認識部４４は、これら接触認識結果と併せて、各タッチセンサ２２からの圧力検出信号Ｓ３を短期記憶部４４に送出する。

短期記憶部４４は、ロボット１の外部環境に関する情報を比較的短い時間だけ保持するオブジェクトであり、画像認識部４１から与えられる各種画像認識結果及び画像信号Ｓ１と、音声認識部４２から与えられる各種音声認識結果及び音声信号Ｓ２と、接触認識部４３から与えられる各種接触認識結果及び圧力検出信号Ｓ３とを受け取り、これらを短期間だけ記憶する。

また短期記憶部４４は、これら受け取った画像認識結果、音声認識結果及び接触認識結果と、画像信号Ｓ１、音声信号Ｓ２及び各圧力検出信号Ｓ３とを統合的に用いて顔画像領域、人物ＩＤ、話者ＩＤ及び文字列情報等の対応付けを行うことにより、現在どこにどの人物がいて、発した言葉がどの人物のものであり、その人物とはこれまでにどのような対話を行ったかというターゲット情報及びイベント情報を生成し、これを行動選択制御部４５に送出する。

行動選択制御部４５は、短期記憶部４４から与えられるターゲット情報及びイベント情報と、短期記憶部４４の記憶内容とに基づいて、予め複数用意されている行動の中からロボット１が現在置かれている状況及び以前の行動に依存して選択した行動（状況依存行動）や、外部刺激に応じた反射的な行動（反射行動）、又は与えられた状況若しくはユーザからの命令に応じた比較的長期に渡る行動計画に基づく行動（熟考行動）などを次のロボット１の行動として決定する。そして行動選択制御部４５は、このようにして決定した行動を出力管理部４６に通知する。

出力管理部４６は、行動選択制御部４５からの通知に応じて、状況依存行動及び反射行動などの複数の行動が競合した場合の調停処理や、動作、音声及びＬＥＤ２４の点滅の同期をとる処理を行いながら、対応する駆動ユニット２５_１〜２５_ｎのモータ２６_１〜２６_ｎを駆動したり、ＬＥＤ２４を所定パターンで点滅駆動させる。

また行動選択制御部４５は、次の行動としてユーザとの対話を決定した場合には、この後音声認識部４２により短期記憶部４４に順次格納されるユーザの発話の音声認識結果を常時監視し、この音声認識結果に基づいて、ロボット１に発話させるべき内容を順次決定する。そして行動選択制御部４５は、この決定結果に基づいて必要な文字列を予めＲＯＭ３３（図３）に格納された発話文字列データベース４７から読み出し、これを出力管理部４６に送出する。

このとき出力管理部４６は、行動選択制御部４５から与えられる文字列を音声合成部４８に送出する一方、音声合成部４８は、供給される文字列に基づいて合成音声の音声信号Ｓ４を生成し、これをスピーカ２３（図２）に送出する。この結果この音声信号Ｓ４に基づく音声がスピーカ２３から出力される。

このようにしてこのロボット１においては、ＣＣＤカメラ２０、マイクロホン２１及びタッチセンサ２３などの各種センサのセンサ出力に基づき認識される外部状況等に基づいて自律的に行動し得るようになされている。

（２）ロボット１における発話制御機能
次に、このロボット１に搭載された発話制御機能について説明する。

このロボット１には、対話相手までの物理的な距離に応じて、発話音量や、発話スピード、イントネーション及び文節間の間などの発話形態を制御する発話制御機能が搭載されている。またこのロボット１には、このような発話形態のうちの特に発話音量に関する感じ方の個人差が大きいことを考慮して、ユーザからの要求に応じて基準とすべき発話音量（以下、これを基準音量と呼ぶ）をユーザごとに変更する発話制御機能も搭載されている。

実際上、このロボット１の場合、基準音量をユーザごとに変更する発話制御を行うための手段として、行動制御システム４０には、ユーザごとの基準音量を記憶保持するための基準音量記憶部４９が設けられている。因みに、この基準音量記憶部４９は、不揮発性メモリ３４（図３）により構成されるものである。

そして行動選択制御部４５は、画像認識処理部４１の画像認識結果に基づいて短期記憶部４４が新たなユーザを検出するごとに、図５に示すように、そのユーザの人物ＩＤと当該ユーザに対する基準音量（初期設定値は「３」）とを対応付けて、これら人物ＩＤ及び基準音量を基準音量記憶部４９に格納する一方、この後そのユーザとの対話時に図６に示す基準音量変更処理手順ＲＴ１に従って、基準音量記憶部４９に記憶保持されたそのユーザの基準音量を必要に応じて変更するようになされている。

すなわち行動選択制御部４５は、ユーザとの対話を開始するとこの基準音量変更処理手順ＲＴ１をステップＳＰ０において開始し、続くステップＳＰ１において、「もう少し大きな声で話して」又は「聞こえない」などといった、ロボットの発話音量を上げることを要求する意味合いの言葉や、「もう少し小さな声で話して」又は「うるさい」などといった、ロボットの発話音量を下げることを要求する意味合いの言葉が与えられるのを待ち受ける。

そして行動選択制御部４５は、この後上述のようなロボット１の発話音量を上げ又は下げることを要求する意味合いの言葉がユーザから発せられたことを短期記憶部４４に記憶保持された音声認識部４２の音声認識結果に基づいて認識すると、ステップＳＰ２に進んで、短期記憶部４４から与えられるターゲット情報及びイベント情報に基づいて、その言葉が現在の対話相手から発せられたものであるとの特定ができているか否かを判断する。

行動選択制御部４５は、このステップＳＰ２において否定結果を得るとステップＳＰ１に戻り、これに対して肯定結果を得るとステップＳＰ３に進んで、基準音量記憶部４９に記憶保持されたそのユーザの基準音量を、そのユーザが発した言葉の意味内容に応じて、発話音量を上げることを要求する意味合いの言葉であった場合には規定値（例えば「１」）だけ上げ、これに対して発話音量を下げることを要求する意味合いの言葉であった場合には規定値だけ下げる。なお、音量の数値はロボット１の発話音量の音量レベルの大小を表すものであり、数値が大きくなるほど大きな所定の音量レベルがそれぞれ対応付けられている。

そして行動選択制御部４５は、その後ステップＳＰ１に戻り、この後ステップＳＰ１〜ステップＳＰ３について同様の処理を繰り返す。このようにして行動選択制御部４５は、ユーザからの発話音量の変更要求に応じて、ユーザごとに基準音量を変更する。

一方、このロボット１では、対話相手までの物理的な距離に応じて、意味内容の区切りがはっきりと分かるように文節間の間を変更するための手法として、必要に応じて各文節の後ろに「ね」を入れるように発話制御を行うようになされ、そのための手段として行動制御システム４５に発話文字列変形部５１が設けられている。

この場合、発話文字列変形部５１は、図７に示すように、対話相手までの距離に対して各文節の後ろに「ね」を入れるように文字列を変形するか否かを規定した文字列変形判断テーブル５０をＲＯＭ３３（図３）に記憶保持している。

そして行動選択制御部４５は、ユーザとの対話時、ロボット１が発話すべき内容（言葉）に対応した文字列を発話文字列データベース４７から読み出し、これを文字列情報として発話文字列変形部５１に順次送出する一方、これと併せて短期記憶部４４に記憶保持された画像認識部４１により検出された対話相手までの距離を表す距離情報を発話文字列変形部５１に送出する。

発話文字列変形部５１は、行動選択制御部４５から文字列及び距離情報が与えられると、当該距離情報及び文字列変形判断テーブル５０に基づき、図８に示す文字変形処理手順ＲＴ２に従って、その文字列情報に基づく文字列を変形すべきか否かを判断し、必要時にはこの文字列を変形する。

すなわち発話文字列変形部４９は、行動選択制御部４５から文字列情報及び距離情報が与えられると、この文字列変形処理手順ＲＴ２をステップＳＰ１０において開始し、続くステップＳＰ１１において行動選択制御部４５からの距離情報に基づき認識される対話相手までの距離と、文字列変形判断テーブル５０（図７）とに基づいて、この文字列情報に基づく文字列を変形すべきか否かを判断する。

具体的に発話文字列変形部４９は、文字列変形判断テーブル５０に従って、画像認識部４１が認識した対話相手までの距離が350〔cm〕未満である場合には文字列を変形すべきでないと判断し、これに対して対話相手までの距離が350〔cm〕以上である場合には文字列を変形すべきと判断する。

発話文字列変形部４９は、この判断結果としてこのステップＳＰ１１において否定結果を得ると、その文字列に対して変形処理を施すことなくステップＳＰ１４に進んでこの文字列変形処理手順ＲＴ２を終了し、この後この文字列の文字列情報をそのまま行動選択制御部４５、出力管理部４６を順次介して音声合成部４８に送出する。

これに対して発話文字列変形部４９は、ステップＳＰ１１において肯定結果を得ると、ステップＳＰ１２に進んでその文字列に対して形態素解析処理を行ってその文字列に含まれる各文節末助動詞をそれぞれ検出する。

さらに発話文字列変形部４９は、この後ステップＳＰ１３に進んで、ステップＳＰ１２において検出したこれら文節末助動詞の後ろに順次「ね」の文字を付加する。従って、発話文字列変形部４９は、例えば行動選択制御部４５から「今日の東京の天気は晴れだよ」という文字列を与えられた場合、「今日の」、「東京の」及び「天気は」という各文節末助動詞の後ろにそれぞれ「ね」の文字を付加した「今日のね、東京のね、天気はね、晴れだよ」といった文字列を生成することとなる。

そして発話文字列変形部４９は、この後ステップＳＰ１４に進んでこの文字列変形処理手順ＲＴ２を終了し、この後このようにして得られた変形した新たな文字列を表す文字列情報を行動選択制御部４５、出力管理部４６を順次介して音声合成部４８に送出する。

このとき音声合成部４８は、図９に示すように、対話相手までの距離に対するロボット１の発話音量の変更量を規定した音量変更量規定テーブル５２と、図１０に示すように、当該距離に対するロボット１の発話スピードの変更量を規定したスピード変更量規定テーブル５３と、図１１に示すように、当該距離に対する文節間の間（ポーズ長）の変更量を規定したポーズ長変更量規定テーブル５４と、図１２に示すように、当該距離に対して発話のイントネーションを変えて文節末を強調するか否かを規定した文節末強調判断テーブル５５とをＲＯＭ３３（図３）に記憶保持している。また音声合成部４８には、短期記憶部４４からそのときの対話相手の人物ＩＤが人物ＩＤ情報として与えられる一方、当該対話相手までの距離が距離情報として順次与えられる。

そして音声合成部４８は、出力管理部４６を介してロボット１が発話すべき内容の文字列情報が与えられると、短期記憶部４４から与えられる人物ＩＤ情報及び距離情報と、ＲＯＭ３３に格納された各テーブル５２〜５５と、基準音量記憶部４９に記憶保持されたそのユーザの基準音量とに基づき、図１３に示す発話変更処理手順ＲＴ３に従って、ロボット１の発話音量や、発話スピード等を必要に応じて変更する。

すなわち音声合成部４８は、かかる文字列情報が与えられるとこの文字列変形処理手順ＲＴ３をステップＳＰ２０において開始し、続くステップＳＰ２１において、短期記憶部４４から与えられた人物ＩＤ情報に基づいて、基準音量記憶部４９から対応する対話相手の基準音量を読み出し、この後ステップＳＰ２２に進んで距離情報から認識される対話相手までの距離に基づき、音量変更量規定テーブル５２（図９）を参照して、ロボット１の発話音量を規定する音量パラメータのパラメータ値を必要に応じて変更する。

具体的に音声合成部４８は、距離情報として与えられた対話相手までの距離が例えば50〔cm〕未満である場合には、基準音量記憶部４９から読み出した基準音量をそのときの発話音量として決定し、対話相手までの距離が50〜80〔cm〕の範囲である場合には、基準音量よりも所定の規定値（例えば「１」）だけ大きい音量をそのときの発話音量として決定し、以降同様にして、当該ユーザまでの距離が80〜150〔cm〕、150〜250〔cm〕又は250〔cm〕以上の場合には、それぞれ基準音量よりも「２」、「３」又は「５」だけ大きい音量をそのときの発話音量として決定する。そして音声合成部４８は、この後この決定結果に応じて音量パラメータのパラメータ値を必要に応じて変更する。

続いて音声合成部４８は、ステップＳＰ２３に進んで、ステップＳＰ２２において上述のように決定した音量が予め設定された閾値を超えたか否かを判断する。

すなわちロボット１の発話音量には一定の限界があるため、例えば基準音量が既に限界値やこれに近い値に設定されている場合には、ステップＳＰ２２において音量を決定する際に、そのユーザとの距離に応じて本来的には発話音量をもっと大きな音量に決定すべき場合においてもできないことがある。そしてこのような場合、かかるユーザにとって、ロボット１の発話の内容が聞き取り難く感じられるおそれがある。

そこで音声合成部４８は、このステップＳＰ２３において肯定結果を得た場合には、ステップＳＰ２４〜ステップＳＰ２６において発話音量以外の発話スピード等の他の発話形態について通常の変更処理を行い、これに対してステップＳＰ２３において否定結果を得た場合には、ステップＳＰ２７〜ステップＳＰ２９においてかかる他の発話形態について特殊な変更処理を行うようになされている。

実際上、音声合成部４８は、ステップＳＰ２３において肯定結果を得ると、ステップＳＰ２４に進んで、短期記憶部４４から与えられる距離情報により認識される対話相手までの距離に基づき、ＲＯＭ３３に格納されたスピード変更量規定テーブル５３（図１０）を参照して、ロボット１の発話スピードを規定するスピードパラメータのパラメータ値を必要に応じて変更する。

具体的に音声合成部４８は、距離情報として与えられた対話相手までの距離が例えば200〔cm〕未満である場合には、予め定められた所定の初期設定値を発話時のスピードとして決定し、対話相手までの距離が200〜350〔cm〕の範囲である場合には、初期設定値よりも20〔％〕だけ遅いスピードをそのときの発話スピードとして決定し、対話相手までの距離が350〔cm〕以上の場合には、初期設定値よりも50〔％〕だけ遅いスピードをそのときの発話スピードとして決定する。そして音声合成部４８は、この後この決定結果に応じてスピードパラメータのパラメータ値を必要に応じて変更する。

続いて音声合成部４８は、ステップＳＰ２５に進んで、短期記憶部４４から与えられる距離情報により認識される対話相手までの距離に基づき、ＲＯＭ３３に格納されたポーズ長変更量規定テーブル５４（図１１）を参照して、その文字列を発話する際の文節間の間の長さ（ポーズ長）を規定するポーズ長パラメータを必要に応じて変更する。

具体的に音声合成部４８は、距離情報として与えられた対話相手までの距離が例えば100〔cm〕未満である場合には、予めポーズ長の初期設定値として定められた値をそのときのポーズ長として決定し、対話相手までの距離が100〜350〔cm〕の範囲である場合には、初期設定値よりも30〔％〕だけ長い時間をそのときのポーズ長として決定し、対話相手までの距離が350〔cm〕以上の場合には、初期設定値よりも60〔％〕だけ長い時間をそのときのポーズ長として決定する。そして音声合成部４８は、この後この決定結果に応じてポーズ長パラメータのパラメータ値を必要に応じて変更する。

次いで音声合成部４８は、ステップＳＰ２６に進んで、短期記憶部４４から与えられる距離情報により認識される対話相手までの距離に基づき、ＲＯＭ３３に格納された文節末強調判断テーブル５５（図１２）を参照して、その文字列の内容を発話する際に各文節末を強調するイントネーションとなるように、対応するパラメータである文節末強調パラメータのパラメータ値を必要に応じて変更する。

具体的に音声合成部４８は、距離情報として与えられた対話相手までの距離が例えば200〔cm〕未満である場合には、その文字列を音声として発話する際に各文節末を変化させないことを決定し、対話相手までの距離が200〔cm〕以上の場合には各文節末をそれぞれ上げることを決定する。そして音声合成部４８は、この後この決定結果に応じて文節末強調パラメータのパラメータ値を必要に応じて変更する。

これに対して音声合成部４８は、ステップＳＰ２３において否定結果を得ると、ステップＳＰ２７に進んで、短期記憶部４４から与えられる距離情報により認識される対話相手までの距離にかかわりなく、ロボット１の発話スピードを、常に、スピード変更量規定テーブル５３（図１０）において最大距離に対して規定されている発話スピードに決定する。従って、この実施の形態においては、発話スピードとして初期設定値よりも50〔％〕だけ遅いスピードがそのときの発話スピードとして決定される。そして音声合成部４８は、この後この決定結果に応じてスピードパラメータのパラメータ値を必要に応じて変更する。

続いて音声合成部４８は、ステップＳＰ２８に進んで、ロボット１の発話時のポーズ長を、常に、ポーズ長変更量規定テーブル５４（図１１）において最大距離に対して規定されている発話スピードに決定する。従って、この実施の形態においては、ポーズ長として初期設定値よりも60〔％〕だけ長い時間がそのときの発話スピードとして決定される。そして音声合成部４８は、この後この決定結果に応じてポーズ長パラメータのパラメータ値を必要に応じて変更する。

次いで音声合成部４８は、ステップＳＰ２９に進んで、その文字列の内容を発話する際における文節末強調判断パラメータを、常に、文節末強調判断テーブル５５（図１２）において最大距離に対して規定された状態に決定する。従って、この実施の形態においては、常に各文節末を強調すべき旨が決定される。そして音声合成部４８は、この後この決定結果に応じて文節末強調パラメータのパラメータ値を文節末を強調するように必要に応じて変更する。

そして音声合成部４８は、このようにして音量パラメータやスピードパラメータ等の各種パラメータを設定し終えると、ステップＳＰ３０に進んで、与えられた文字列情報に基づく文字列に応じた音声波形を生成すると共に、この音声波形を上述のようにして設定した音量パラメータ、スピードパラメータ、ポーズ長パラメータ及び文節末強調パラメータに応じて変形し、かくして得られた音声波形の音声信号Ｓ４をスピーカ２３に送出する。

このようにしてこのロボット１においては、対話相手までの物理的な距離に応じて発話音量や、発話スピード、イントネーション及び発話時の間などの発話形態を制御する一方、さらに発話音量についてはユーザごとに制御することにより、常に対話相手に聞き取り易い発話を行い得るようになされている。

（３）本実施の形態の動作及び効果
以上の構成において、このロボット１は、対話相手のユーザが離れた場所にいるほど、より大きな音量で、よりゆっくりと、文節間により大きな間を開けて発話する一方、そのユーザまでの距離によっては、さらに文節末を強調するようなイントネーションで発話したり、各文節の後ろに「ね」という言葉を挿入して発話する。

従って、このロボット１は、対話相手のユーザまでの距離にかかわりなく常にユーザに聞き取り易い発話音量で発話することができることは無論のこと、例えば対話場所が残響が多い部屋などである場合においても、常にユーザに聞き取り易い発話を行うことができ、この結果としてユーザとスムーズかつ自然な音量での対話を行うことができる。

この場合において、このロボット１では、かかる発話音量の基準音量をユーザからの要求に応じてユーザごとに変更するため、対話相手のユーザの聴覚特性に応じた適切な音量で各ユーザと対話を行うことができ、その分ユーザに不快感を与えることなく、より一層とユーザとスムーズな対話を行うことができる。

以上の構成によれば、対話相手までの物理的な距離に応じて発話音量や、発話スピード、イントネーション及び発話時の間などの発話形態を制御するようにしたことにより、常にユーザに聞き取り易い発話形態で発話を行うことができる。かくするにつきユーザとスムーズ対話を行うことができ、かくしてエンターテインメント性を向上させ得るロボットを実現できる。

（４）他の実施の形態
なお上述の実施の形態においては、本発明をヒューマノイド型のロボット１に適用するようにした場合について述べたが、本発明はこれに限らず、この種々の形態のロボット装置及びロボット装置以外の対話機能を有する種々の形態の機器に広く適用することができる。

また上述の実施の形態においては、対話相手までの距離に応じて発話音量、発話スピード、イントネーション及び発話時の間を変更するようにした場合について述べたが、本発明はこれに限らず、これら発話形態のうちの一部のみを変更し又はこれら発話形態に加えて他の発話形態をも変更するようにしても良い。

この場合において、上述の実施の形態においては、ロボット１がイントネーションを変更する際に各文節末を強めるようなイントネーションで発話するようにした場合について述べたが、本発明はこれに限らず、文節末以外の例えば助詞を強調するようにイントネーションを変更するようにしても良い。

さらに上述の実施の形態においては、対話相手までの距離に応じて発話音量、発話スピード、イントネーション及び発話時の間を段階的に変更するようにした場合について述べたが、本発明はこれに限らず、これらを対話相手までの距離に応じて関数式を用いた演算等により連続的に変更するようにしても良い。この場合において例えばイントネーション（各文節末の強調）の変更については、対話相手までの距離に応じて各文節末の強調の程度を連続的に変化させるようにすれば良い。また各文節末の後ろに「ね」を挿入することによる対話時の間については、全ての文節末の後ろに挿入するのではなく、対話相手までの距離に応じて段階的に「ね」を挿入する文節末の数を変化させるようにしても良い。なお、文節間の間を稼ぐために各文節末の後ろに挿入する言葉としては「ね」以外の言葉を適用できることは言うまでもない。

さらに上述の実施の形態においては、対話相手のユーザまでの距離を検出する距離検出手段を、一対のＣＣＤカメラ２０と、その出力に基づきステレオビジョン法により当該距離を検出する短期記憶部４４とにより構成するようにした場合について述べたが、本発明はこれに限らず、例えば距離センサなどの他の手段を広く適用することができる。

さらに上述の実施の形態においては、対話相手のユーザまでの距離に応じて、当該ユーザとの対話時におけるロボット１の発話形態を必要に応じて変更させる発話形態変更手段としての機能を、発話文字列変形部５１及び音声合成部４８に分散させるようにした場合について述べたが、本発明はこれに限らず、かかる全ての機能を音声合成部４８に搭載するようにしても良い。

さらに上述の実施の形態においては、対話相手のユーザを特定するユーザ特定手段としての機能を短期記憶部４４にもたせるようにした場合について述べたが、本発明はこれに限らず、かかる機能を行動選択制御部４５にもたせるようにしても良い。

本発明は、エンターテインメントロボットのほか、対話機能を有する他の用途のロボット装置やロボット装置以外の他の機器に広く適用することができる。

本実施の形態によるロボットの外観構成を示す斜視図である。本実施の形態によるロボットの内部構成を示すブロック図である。制御ユニットの構成を示すブロック図である。本実施の形態によるロボットの行動制御システムの具体的構成を示すブロック図である。基準音量記憶部に記憶保持されたユーザごとの基準音量の説明に供する概念図である。基準音量変更処理手順を示すフローチャートである。文字列変形判断テーブルを示す概念図である。文字列変形処理手順を示すフローチャートである。音量変更量テーブルを示す概念図である。スピード変更量テーブルを示す概念図である。ポーズ長変更量テーブルを示す概念図である。文節末強調判断テーブルを示す概念図である。発話変更処理手順を示すフローチャートである。

符号の説明

１……ロボット、４０……行動制御システム、４１……画像認識部、４２……音声認識部、４４……短期記憶部、４５……行動選択制御部、４７……発話文字列データベース、４８……音声合成部、４９……基準音量記憶部、５０……文字列変形判断テーブル、５１……発話文字列変形部、５２……音量変更量テーブル、５３……スピード変更量テーブル、５４……ポーズ長変更量テーブル、５５……文節末強調判断テーブル、Ｓ１……画像信号、Ｓ２、Ｓ４……音声信号、ＲＴ１……基準音量変更処理手段、ＲＴ２……文字列変形処理手順、ＲＴ３……発話変更処理手順。

Claims

ユーザとの対話機能を有する機器と上記ユーザとの対話時における当該機器の発話を制御する発話制御装置において、
上記機器及び対話相手の上記ユーザ間の距離を検出する距離検出手段と、
上記距離検出手段により検出された上記機器及び上記ユーザ間の上記距離に応じて、上記ユーザとの対話時における上記機器の発話形態を必要に応じて変更させる発話形態変更手段と
を具えることを特徴とする発話制御装置。
上記発話形態変更手段は、
上記発話形態として、発話音量を変更する
ことを特徴とする請求項１に記載の発話制御装置。
上記発話形態変更手段は、
上記発話形態として、発話スピードを変更する
ことを特徴とする請求項１に記載の発話制御装置。
上記発話形態変更手段は、
上記発話形態として、発話のイントネーションを変更する
ことを特徴とする請求項１に記載の発話制御装置。
上記発話形態変更手段は、
上記発話形態として、文節間の間を変更する
ことを特徴とする請求項１に記載の発話制御装置。
上記機器が発話すべき内容に応じた文字列を出力する文字列出力手段と、
上記文字列に応じた合成音声の音声信号を生成する音声手段と、
上記音声信号に基づく音声を出力するスピーカと
を具え、
上記発話形態変更手段は、
上記文節間の間を変更する手法として、上記文字列出力手段から出力された上記文字列を変形する
ことを特徴とする請求項５に記載の発話制御装置。
上記対話相手の上記ユーザを特定するユーザ特定手段と、
上記ユーザごとの基準音量を記憶する記憶手段と、
対話時における上記ユーザからの要求に応じて上記記憶手段に記憶された当該ユーザの上記基準音量を変更する基準音量変更手段と
を具え、
上記発話形態変更手段は、
上記基準音量変更手段に記憶された上記対話相手の上記ユーザの上記基準音量を基準として、上記発話音量を変更する
ことを特徴とする請求項２に記載の発話制御装置。
上記発話形態変更手段は、
変更後の上記発話音量が所定の閾値を超える場合には、他の発話形態を最大量変更する
ことを特徴とする請求項２に記載の発話制御装置。
ユーザとの対話機能を有する機器と上記ユーザとの対話時における当該機器の発話を制御する発話制御方法において、
上記機器及び対話相手の上記ユーザ間の距離を検出する第１のステップと、
検出した上記機器及び上記ユーザ間の上記距離に応じて、上記ユーザとの対話時における上記機器の発話形態を必要に応じて変更する第２のステップと
を具えることを特徴とする発話制御方法。
上記第２のステップでは、
上記発話形態として、発話音量を変更する
ことを特徴とする請求項９に記載の発話制御方法。
上記第２のステップでは、
上記発話形態として、発話スピードを変更する
ことを特徴とする請求項９に記載の発話制御方法。
上記第２のステップでは、
上記発話形態として、発話のイントネーションを変更する
ことを特徴とする請求項９に記載の発話制御方法。
上記第２のステップでは、
上記発話形態として、文節間の間を変更する
ことを特徴とする請求項９に記載の発話制御方法。
上記第２のステップは、
上記機器が発話すべき内容に応じた文字列を出力する文字列出力ステップと、
上記文字列に応じた合成音声の音声信号を生成する音声生成ステップと、
上記音声信号に基づく音声を出力する音声出力ステップと
を具え、
上記音声生成ステップでは、
上記発話のイントネーションを変更する手法として、出力した上記文字列を変形する
ことを特徴とする請求項１３に記載の発話制御方法。
上記ユーザごとの基準音量を記憶する記憶ステップと、
対話相手の上記ユーザを特定するユーザ特定ステップと、
対話時における上記ユーザからの要求に応じて記憶した当該ユーザの上記基準音量を変更する基準音量変更ステップと
を具え、
上記第２のステップでは、
記憶した上記対話相手の上記ユーザの上記基準音量を基準として、上記発話音量を変更する
ことを特徴とする請求項１０に記載の発話制御方法。
上記第２のステップでは、
変更後の上記発話音量が所定の閾値を超える場合には、他の発話形態を最大量変更する
ことを特徴とする請求項１０に記載の発話制御方法。
ユーザとの対話機能を有するロボット装置において、
対話相手の上記ユーザまでの距離を検出する距離検出手段と、
上記距離検出手段により検出された上記ユーザまでの上記距離に応じて、上記ユーザとの対話時における発話形態を必要に応じて変更する発話形態変更手段と
を具えることを特徴とするロボット装置。
上記発話形態変更手段は、
上記発話形態として、発話音量を変更する
ことを特徴とする請求項１７に記載のロボット装置。
上記発話形態変更手段は、
上記発話形態として、発話スピードを変更する
ことを特徴とする請求項１７に記載のロボット装置。
上記発話形態変更手段は、
上記発話形態として、発話のイントネーションを変更する
ことを特徴とする請求項１７に記載のロボット装置。
上記ロボット装置が発話すべき内容に応じた文字列を出力する文字列出力手段と、
上記文字列に応じた合成音声の音声信号を生成する音声手段と、
上記音声信号に基づく音声を出力するスピーカと
を具え、
上記発話形態変更手段は、
上記発話のイントネーションを変更する手法として、上記文字列出力手段から出力された上記文字列を変形する
ことを特徴とする請求項２０に記載のロボット装置。
上記発話形態変更手段は、
上記発話形態として、文節間の間を変更する
ことを特徴とする請求項１７に記載のロボット装置。
上記対話相手の上記ユーザを特定するユーザ特定手段と、
上記ユーザごとの基準音量を記憶する記憶手段と、
対話時における上記ユーザからの要求に応じて上記記憶手段に記憶された当該ユーザの上記基準音量を変更する基準音量変更手段と
を具え、
上記発話形態変更手段は、
上記基準音量変更手段に記憶された上記対話相手の上記ユーザの上記基準音量を基準として、上記発話音量を変更する
ことを特徴とする請求項１８に記載のロボット装置。
上記発話形態変更手段は、
変更後の上記発話音量が所定の閾値を超える場合には、他の発話形態を最大量変更する
ことを特徴とする請求項１８に記載のロボット装置。