JP2002120177A

JP2002120177A - ロボット制御装置およびロボット制御方法、並びに記録媒体

Info

Publication number: JP2002120177A
Application number: JP2000310987A
Authority: JP
Inventors: Kazuo Ishii; 和夫石井; Hideki Noma; 英樹野間; Jun Hiroi; 順広井; Wataru Onoki; 渡小野木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-10-11
Filing date: 2000-10-11
Publication date: 2002-04-23

Abstract

(57)【要約】【課題】名前を適切に付けることができるようにす
る。【解決手段】ロボットが、「名前を付けてほしい」こ
とを表す行動を起こした後に入力された音声を、名前と
して認識するようにしたので、ロボットに適切に名前を
付けることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ロボット制御装置
およびロボット制御方法、並びに記録媒体に関し、特
に、例えば、音声認識装置による音声認識結果に基づい
て行動するロボットに用いて好適なロボット制御装置お
よびロボット制御方法、並びに記録媒体に関する。

【０００２】

【従来の技術】近年においては、例えば、玩具等とし
て、ユーザが発した音声を音声認識し、その音声認識結
果に基づいて、ある仕草をしたりするロボット（本明細
書においては、ぬいぐるみ状のものを含む）が製品化さ
れている。

【０００３】

【発明が解決しようとする課題】ところで、このような
ロボットに名前を付けて、その名前を呼ぶことにより、
所定の動作をさせることもできる。

【０００４】しかしながら、名前を表す音声を音声認識
させることで、ロボットに名前を付ける場合、ユーザが
名前を表す音声を発する前または後に発せられた、例え
ば、周囲の音を、ロボットが誤って、名前であると認識
してしまうことがあった。

【０００５】また、音声認識のために予め登録されてい
る単語と、音響上類似する単語が、名前として登録され
た場合、名前が呼ばれても、ロボットが、その音声を、
その類似した単語に誤って認識してしまうことがあっ
た。また、その類似した単語が発話されたとき、ロボッ
トが、名前が呼ばれたと誤って認識してしまうことがあ
った。

【０００６】すなわち、このように、音声認識させるこ
とでロボットに名前を付ける場合、名前を適切に付けた
り、名前を正確に認識させることができない課題があっ
た。

【０００７】本発明は、このような状況に鑑みてなされ
たものであり、音声認識させることで名前を付ける場
合、名前を適切に付けたり、名前を正確に認識させるこ
とができるようにするものである。

【０００８】

【課題を解決するための手段】本発明のロボット制御装
置は、名前を付けてほしいことを表す行動をロボットが
起こすように、ロボットの行動を制御する行動制御手段
と、行動制御手段により、ロボットの行動が制御された
後に入力された音声から、最適音素列を検出する検出手
段と、最適音素列を、名前として登録する登録手段とを
備えることを特徴とする。

【０００９】ロボットの成長の状態を、所定の状態に順
次遷移させる遷移手段をさらに設け、行動制御手段に
は、遷移手段により、ロボットの成長の状態が所定の状
態に遷移されたとき、名前を付けてほしいことを表す行
動をロボットが起こすように、ロボットの行動を制御さ
せることができる。

【００１０】ユーザにより入力された、名前登録処理の
開始を指示するコマンドを取得する取得手段をさらに設
け、行動制御手段には、取得手段により、コマンドが取
得されたとき、名前を付けてほしいことを表す行動をロ
ボットが起こすように、ロボットの行動を制御させるこ
とができる。

【００１１】音響的な特徴を表す音響モデルを記憶する
第１の記憶手段と、音声認識のための単語が登録された
単語辞書を記憶する第２の記憶手段とをさらに設け、検
出手段には、音声の特徴パラメータに対応して接続され
た音響モデルからなる単語モデルのうち、特徴パラメー
タが観測されるスコアが最も高い単語モデルを、最適音
素列として検出させ、登録手段には、単語辞書にすでに
登録されている単語の音韻に対応して接続された音響モ
デルからなる単語モデルのうち、特徴パラメータが観測
されるスコアが最も高い単語モデルを検出するととも
に、検出した単語モデルのスコアと、最適音素列のスコ
アとの差が、所定の閾値より大きい場合、最適音素列
を、名前として登録させることができる。

【００１２】本発明のロボット制御方法は、名前を付け
てほしいことを表す行動をロボットが起こすように、ロ
ボットの行動を制御する行動制御ステップと、行動制御
ステップにより、ロボットの行動が制御された後に入力
された音声から、最適音素列を検出する検出ステップ
と、最適音素列を、名前として登録する登録ステップと
を含むことを特徴とする。

【００１３】本発明の記録媒体のプログラムは、名前を
付けてほしいことを表す行動をロボットが起こすよう
に、ロボットの行動を制御する行動制御手段と、行動制
御手段により、ロボットの行動が制御された後に入力さ
れた音声から、最適音素列を検出する検出手段と、最適
音素列を、名前として登録する登録手段とを含むことを
特徴とする。

【００１４】本発明のロボット制御装置および方法、並
びに記録媒体のプログラムにおいては、名前を付けてほ
しいことを表す行動をロボットが起こすように、ロボッ
トの行動が制御され、ロボットの行動が制御された後に
入力された音声から、最適音素列が検出され、最適音素
列が、名前として登録される。

【００１５】

【発明の実施の形態】図１は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図２は、
その電気的構成例を示している。

【００１６】本実施の形態では、ロボットは、例えば、
犬等の四つ足の動物の形状のものとなっており、胴体部
ユニット２の前後左右に、それぞれ脚部ユニット３Ａ，
３Ｂ，３Ｃ，３Ｄが連結されるとともに、胴体部ユニッ
ト２の前端部と後端部に、それぞれ頭部ユニット４と尻
尾部ユニット５が連結されることにより構成されてい
る。

【００１７】尻尾部ユニット５は、胴体部ユニット２の
上面に設けられたベース部５Ｂから、２自由度をもって
湾曲または揺動自在に引き出されている。

【００１８】胴体部ユニット２には、ロボット全体の制
御を行うコントローラ１０、ロボットの動力源となるバ
ッテリ１１、並びにバッテリセンサ１２および熱センサ
１３からなる内部センサ部１４などが収納されている。

【００１９】頭部ユニット４には、「耳」に相当するマ
イク（マイクロフォン）１５、「目」に相当するＣＣＤ
(Charge Coupled Device)カメラ１６、「触覚」に相当
するタッチセンサ１７、および「口」に相当するスピー
カ１８が、それぞれ所定位置に配設されている他、ＬＥ
Ｄ（Light Emitting Diode）１９が、「目」の位置の設
けられている。また、頭部ユニット４には、口の下顎に
相当する下顎部４Ａが１自由度をもって可動に取り付け
られており、この下顎部４Ａが動くことにより、ロボッ
トの口の開閉動作が実現されるようになっている。

【００２０】脚部ユニット３Ａ乃至３Ｄそれぞれの関節
部分や、脚部ユニット３Ａ乃至３Ｄそれぞれと胴体部ユ
ニット２の連結部分、頭部ユニット４と胴体部ユニット
２の連結部分、頭部ユニット４と下顎部４Ａの連結部
分、並びに尻尾部ユニット５と胴体部ユニット２の連結
部分などには、図２に示すように、それぞれアクチュエ
ータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁乃至３ＢＡ_K、３ＣＡ
₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ_K、４Ａ₁乃至４Ａ_L、
５Ａ₁および５Ａ₂が配設されている。

【００２１】頭部ユニット４におけるマイク１５は、ユ
ーザからの発話を含む周囲の音声（音）を集音し、得ら
れた音声信号を、コントローラ１０に送出する。ＣＣＤ
カメラ１６は、周囲の状況を撮像し、得られた画像信号
を、コントローラ１０に送出する。

【００２２】タッチセンサ１７は、例えば、頭部ユニッ
ト４の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ１０に送出する。

【００２３】胴体部ユニット２におけるバッテリセンサ
１２は、バッテリ１１の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ１０に送
出する。熱センサ１３は、ロボット内部の熱を検出し、
その検出結果を、熱検出信号としてコントローラ１０に
送出する。

【００２４】コントローラ１０は、ＣＰＵ(Central Pro
cessing Unit)１０Ａやメモリ１０Ｂ等を内蔵してお
り、ＣＰＵ１０Ａにおいて、メモリ１０Ｂに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。

【００２５】即ち、コントローラ１０は、マイク１５
や、ＣＣＤカメラ１６、タッチセンサ１７、バッテリセ
ンサ１２、熱センサ１３から与えられる音声信号、画像
信号、圧力検出信号、バッテリ残量検出信号、熱検出信
号に基づいて、周囲の状況や、ユーザからの指令、ユー
ザからの働きかけなどの有無を判断する。

【００２６】さらに、コントローラ１０は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ３ＡＡ₁乃至３ＡＡ_K、３ＢＡ₁
乃至３ＢＡ_K、３ＣＡ₁乃至３ＣＡ_K、３ＤＡ₁乃至３ＤＡ
_K、４Ａ₁乃至４Ａ_L、５Ａ₁、５Ａ₂のうちの必要なもの
を駆動させる。これにより、頭部ユニット４を上下左右
に振らせたり、下顎部４Ａを開閉させる。さらには、尻
尾部ユニット５を動かせたり、各脚部ユニット３Ａ乃至
３Ｄを駆動して、ロボットを歩行させるなどの行動を行
わせる。

【００２７】また、コントローラ１０は、必要に応じ
て、合成音、あるいは後述するようなエコーバック音声
を生成し、スピーカ１８に供給して出力させたり、ロボ
ットの「目」の位置に設けられたＬＥＤ１９を点灯、消
灯または点滅させる。

【００２８】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとるようになっている。

【００２９】次に、図３は、図２のコントローラ１０の
機能的構成例を示している。なお、図３に示す機能的構
成は、ＣＰＵ１０Ａが、メモリ１０Ｂに記憶された制御
プログラムを実行することで実現されるようになってい
る。

【００３０】センサ入力処理部５０は、マイク１５や、
ＣＣＤカメラ１６、タッチセンサ１７等から与えられる
音声信号、画像信号、圧力検出信号等に基づいて、特定
の外部状態や、ユーザからの特定の働きかけ、ユーザか
らの指示等を認識し、その認識結果を表す状態認識情報
を、モデル記憶部５１および行動決定機構部５２に通知
する。

【００３１】即ち、センサ入力処理部５０は、音声認識
部５０Ａを有しており、音声認識部５０Ａは、マイク１
５から与えられる音声信号について音声認識を行う。そ
して、音声認識部５０Ａは、その音声認識結果として
の、例えば、「歩け」、「伏せ」、「ボールを追いかけ
ろ」等の指令、後述するように登録された名前その他
を、状態認識情報として、モデル記憶部５１および行動
決定機構部５２に通知する。

【００３２】また、センサ入力処理部５０は、画像認識
部５０Ｂを有しており、画像認識部５０Ｂは、ＣＣＤカ
メラ１６から与えられる画像信号を用いて、画像認識処
理を行う。そして、画像認識部５０Ｂは、その処理の結
果、例えば、「赤い丸いもの」や、「地面に対して垂直
なかつ所定高さ以上の平面」等を検出したときには、
「ボールがある」や、「壁がある」等の画像認識結果
を、状態認識情報として、モデル記憶部５１および行動
決定機構部５２に通知する。

【００３３】さらに、センサ入力処理部５０は、圧力処
理部５０Ｃを有しており、圧力処理部５０Ｃは、タッチ
センサ１７から与えられる圧力検出信号を処理する。そ
して、圧力処理部５０Ｃは、その処理の結果、所定の閾
値以上で、かつ短時間の圧力を検出したときには、「頭
が触られた」と認識して、その認識結果を、状態認識情
報として、モデル記憶部５１および行動決定機構部５２
に通知する。

【００３４】モデル記憶部５１は、ロボットの感情、本
能、成長の状態を表現する感情モデル、本能モデル、成
長モデルをそれぞれ記憶、管理している。

【００３５】ここで、感情モデルは、例えば、「うれし
さ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状
態（度合い）を、所定の範囲の値によってそれぞれ表
し、センサ入力処理部５０からの状態認識情報や時間経
過等に基づいて、その値を変化させる。

【００３６】本能モデルは、例えば、「食欲」、「睡眠
欲」、「運動欲」等の本能による欲求の状態（度合い）
を、所定の範囲の値によってそれぞれ表し、センサ入力
処理部５０からの状態認識情報や時間経過等に基づい
て、その値を変化させる。

【００３７】成長モデルは、例えば、図４に示すような
オートマトンで構成される。このオートマトンでは、成
長状態は、ノード（状態）ＮＯＤＥ0乃至ＮＯＤＥGで表
現され、成長、つまり成長状態の遷移は、ある成長状態
に対応するノードＮＯＤＥgから、次の成長状態に対応
するノードＮＯＤＥg+1への遷移を表すアークＡＲＣg+1
で表現される（ｇ＝０，１，・・・，Ｇ−１）。

【００３８】ここで、本実施の形態では、成長の状態
は、図４において、左のノードから右方向のノードに遷
移していくようになっている。従って、図４において、
例えば、最も左のノードＮＯＤＥ0は、生まれたばかり
の「新生児」の状態を表し、左から２番目のノードＮＯ
ＤＥ1は、「幼児」の状態を表し、左から３番目のノー
ドＮＯＤＥ2は「児童」の状態を表す。以下、同様にし
て、右方向のノードほど、より成長した状態を表し、最
も右のノードＮＯＤＥGは、「高齢」の状態を表す。

【００３９】そして、あるノードＮＯＤＥgから、右隣
のノードＮＯＤＥg+1への遷移を表すアークＡＲＣg+1に
は、その遷移が生じるための条件（入力）Ｐtg+1が設定
されており、ノードの遷移（成長）は、この条件に基づ
いて決定される。即ち、アークＡＲＣg+1においては、
その遷移が生じるために要求される、ＣＣＤカメラ１６
や、マイク９、タッチセンサ１７からの出力、時間経過
等についての条件Ｐtg+1が設定されており、その条件Ｐ
tg+1が満たされた場合に、ノードＮＯＤＥgから右隣の
ノードＮＯＤＥg+1への遷移が生じ、ロボットが成長す
る。

【００４０】モデル記憶部５１は、上述のようにして感
情モデル、本能モデル、成長モデルの値で表される感
情、本能、成長の状態を、状態情報として、行動決定機
構部５２に送出する。

【００４１】なお、モデル記憶部５１には、センサ入力
処理部５０から状態認識情報が供給される他、行動決定
機構部５２から、ロボットの現在または過去の行動、具
体的には、例えば、「長時間歩いた」などの行動の内容
を示す行動情報が供給されるようになっており、同一の
状態認識情報が与えられても、行動情報が示すロボット
の行動に応じて、異なる状態情報（感情モデル、本能モ
デル、および成長モデルの値で表される感情、本能、お
よび成長の状態）を生成するようになっている。

【００４２】行動決定機構部５２は、センサ入力処理部
５０からの状態認識情報や、モデル記憶部５１からの状
態情報、時間経過等に基づいて、次の行動を決定し、決
定された行動の内容を、行動指令情報として、姿勢遷移
機構部５３に送出する。

【００４３】即ち、行動決定機構部５２は、ロボットが
とり得る行動をステート（状態）(state)に対応させた
有限オートマトンを、ロボットの行動を規定する行動モ
デルとして管理しており、この行動モデルとしての有限
オートマトンにおけるステートを、センサ入力処理部５
０からの状態認識情報や、モデル記憶部５１における感
情モデル、本能モデル、または成長モデルの値、時間経
過等に基づいて遷移させ、遷移後のステートに対応する
行動を、次にとるべき行動として決定する。

【００４４】ここで、行動決定機構部５２は、所定のト
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部５２は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、モデル記憶部５１から供給される状態情報が示す感
情や、本能、成長の状態の値が所定の閾値以下または以
上になったとき等に、ステートを遷移させる。

【００４５】なお、行動決定機構部５２は、上述したよ
うに、センサ入力処理部５０からの状態認識情報だけで
なく、モデル記憶部５１における感情モデルや、本能モ
デル、成長モデルの値等にも基づいて、行動モデルにお
けるステートを遷移させることから、同一の状態認識情
報が入力されても、感情モデルや、本能モデル、成長モ
デルの値（状態情報）によっては、ステートの遷移先は
異なるものとなる。

【００４６】その結果、行動決定機構部５２は、例え
ば、状態情報が、「怒っていない」こと、および「お腹
がすいていない」ことを表している場合において、状態
認識情報が、「目の前に手のひらが差し出された」こと
を表しているときには、目の前に手のひらが差し出され
たことに応じて、「お手」という行動をとらせる行動指
令情報を生成し、これを、姿勢遷移機構部５３に送出す
る。

【００４７】また、行動決定機構部５２は、例えば、状
態情報が、「怒っていない」こと、および「お腹がすい
ている」ことを表している場合において、状態認識情報
が、「目の前に手のひらが差し出された」ことを表して
いるときには、目の前に手のひらが差し出されたことに
応じて、「手のひらをぺろぺろなめる」ような行動を行
わせるための行動指令情報を生成し、これを、姿勢遷移
機構部５３に送出する。

【００４８】また、行動決定機構部５２は、例えば、状
態情報が、「怒っている」ことを表している場合におい
て、状態認識情報が、「目の前に手のひらが差し出され
た」ことを表しているときには、状態情報が、「お腹が
すいている」ことを表していても、また、「お腹がすい
ていない」ことを表していても、「ぷいと横を向く」よ
うな行動を行わせるための行動指令情報を生成し、これ
を、姿勢遷移機構部５３に送出する。

【００４９】なお、行動決定機構部５２には、モデル記
憶部５１から供給される状態情報が示す感情や、本能、
成長の状態に基づいて、遷移先のステートに対応する行
動のパラメータとしての、例えば、歩行の速度や、手足
を動かす際の動きの大きさおよび速度などを決定させる
ことができ、この場合、それらのパラメータを含む行動
指令情報が、姿勢遷移機構部５３に送出される。

【００５０】また、行動決定機構部５２では、上述した
ように、ロボットの頭部や手足等を動作させる行動指令
情報の他、ロボットに発話を行わせる行動指令情報も生
成される。ロボットに発話を行わせる行動指令情報は、
音声合成部５５に供給されるようになっており、音声合
成部５５に供給される行動指令情報には、音声合成部５
５に生成させる合成音に対応するテキスト等が含まれ
る。そして、音声合成部５５は、行動決定機構部５２か
ら行動指令情報を受信すると、その行動指令情報に含ま
れるテキストに基づき、合成音を生成し、出力制御部５
７を介して、スピーカ１８に供給して出力させる。これ
により、スピーカ１８からは、例えば、ロボットの鳴き
声、さらには、「お腹がすいた」等のユーザへの各種の
要求、「何？」等のユーザの呼びかけに対する応答その
他の音声出力が行われる。

【００５１】姿勢遷移機構部５３は、行動決定機構部５
２から供給される行動指令情報に基づいて、ロボットの
姿勢を、現在の姿勢から次の姿勢に遷移させるための姿
勢遷移情報を生成し、これを制御機構部５４に送出す
る。

【００５２】ここで、現在の姿勢から次に遷移可能な姿
勢は、例えば、胴体や手や足の形状、重さ、各部の結合
状態のようなロボットの物理的形状と、関節が曲がる方
向や角度のようなアクチュエータ３ＡＡ₁乃至５Ａ₁およ
び５Ａ₂の機構とによって決定される。

【００５３】また、次の姿勢としては、現在の姿勢から
直接遷移可能な姿勢と、直接には遷移できない姿勢とが
ある。例えば、４本足のロボットは、手足を大きく投げ
出して寝転んでいる状態から、伏せた状態へ直接遷移す
ることはできるが、立った状態へ直接遷移することはで
きず、一旦、手足を胴体近くに引き寄せて伏せた姿勢に
なり、それから立ち上がるという２段階の動作が必要で
ある。また、安全に実行できない姿勢も存在する。例え
ば、４本足のロボットは、その４本足で立っている姿勢
から、両前足を挙げてバンザイをしようとすると、簡単
に転倒してしまう。

【００５４】このため、姿勢遷移機構部５３は、直接遷
移可能な姿勢をあらかじめ登録しておき、行動決定機構
部５２から供給される行動指令情報が、直接遷移可能な
姿勢を示す場合には、その行動指令情報を、そのまま姿
勢遷移情報として、制御機構部５４に送出する。一方、
行動指令情報が、直接遷移不可能な姿勢を示す場合に
は、姿勢遷移機構部５３は、遷移可能な他の姿勢に一旦
遷移した後に、目的の姿勢まで遷移させるような姿勢遷
移情報を生成し、制御機構部５４に送出する。これによ
りロボットが、遷移不可能な姿勢を無理に実行しようと
する事態や、転倒するような事態を回避することができ
るようになっている。

【００５５】制御機構部５４は、姿勢遷移機構部５３か
らの姿勢遷移情報にしたがって、アクチュエータ３ＡＡ
₁乃至５Ａ₁および５Ａ₂を駆動するための制御信号を生
成し、これを、アクチュエータ３ＡＡ₁乃至５Ａ₁および
５Ａ₂に送出する。これにより、アクチュエータ３ＡＡ₁
乃至５Ａ₁および５Ａ₂は、制御信号にしたがって駆動
し、ロボットは、自律的に行動を起こす。

【００５６】エコーバック部５６は、マイク１５から与
えられ、音声認識部５０Ａで音声認識される音声信号を
監視しており、その音声信号を復唱するような音声（以
下、適宜、エコーバック音声という）を生成して出力す
る。このエコーバック音声は、出力制御部５７を介し
て、スピーカ１８に供給されて出力される。

【００５７】出力制御部５７には、音声合成部５５から
の合成音のディジタルデータと、エコーバック部５６か
らのエコーバック音声のディジタルデータとが供給され
るようになっており、それらのディジタルデータを、ア
ナログの音声信号にＤ／Ａ変換し、スピーカ１８に供給
して出力させる。また、出力制御部５７は、音声合成部
５５からの合成音と、エコーバック部５６からのエコー
バック音声の、スピーカ１８への出力が競合した場合
に、その競合を調整する。即ち、エコーバック部５６か
らのエコーバック音声の出力は、行動決定機構部５２の
制御にしたがって音声合成部５５が行う合成音の出力と
は独立に行われるようになっており、エコーバック音声
の出力と合成音の出力とは競合する場合がある。そこ
で、出力制御部５７は、その競合の調停を行う。

【００５８】名前登録部５８は、センサ入力処理部５０
（音声認識部５０Ａ、圧力処理部５０Ｃ）、モデル記憶
部５１、行動決定機構部５２、エコーバック部５６、お
よびＬＥＤ１９を制御して、後述する名前登録処理を実
行する。

【００５９】次に、図５は、図３の音声認識部５０Ａの
構成例を示している。

【００６０】マイク１５からの音声信号は、ＡＤ(Analo
g Digital)変換部２１に供給される。ＡＤ変換部２１で
は、マイク１５からのアナログ信号である音声信号がサ
ンプリング、量子化され、ディジタル信号である音声デ
ータにＡ／Ｄ変換される。この音声データは、特徴抽出
部２２および音声区間検出部２７に供給される。

【００６１】特徴抽出部２２は、そこに入力される音声
データについて、適当なフレームごとに、例えば、ＭＦ
ＣＣ(Mel Frequency Cepstrum Coefficient)分析を行
い、その分析結果を、特徴パラメータ（特徴ベクトル）
として、マッチング部２３に出力する。なお、特徴抽出
部２２では、その他、例えば、線形予測係数、ケプスト
ラム係数、線スペクトル対、所定の周波数帯域ごとのパ
ワー（フィルタバンクの出力）等を、特徴パラメータと
して抽出することが可能である。

【００６２】マッチング部２３は、特徴抽出部２２から
の特徴パラメータを用いて、音響モデル記憶部２４、辞
書記憶部２５、および文法記憶部２６を必要に応じて参
照しながら、マイク１５に入力された音声（入力音声）
を、例えば、連続分布ＨＭＭ(Hidden Markov Model)法
に基づいて音声認識する。

【００６３】即ち、音響モデル記憶部２４は、音声認識
する音声の言語における個々の音素や音節などの音響的
な特徴を表す音響モデルを記憶している。ここでは、連
続分布ＨＭＭ法に基づいて音声認識を行うので、音響モ
デルとしては、ＨＭＭ(Hidden Markov Model)が用いら
れる。

【００６４】辞書記憶部２５は、図６に示すように、認
識対象の各単語について、その発音に関する情報（音韻
情報）が記述された単語辞書を記憶している。文法記憶
部２６は、辞書記憶部２５の単語辞書に登録されている
各単語が、どのように連鎖する（つながる）かを記述し
た文法規則を記憶している。ここで、文法規則として
は、例えば、文脈自由文法（ＣＦＧ）や、統計的な単語
連鎖確率（Ｎ−ｇｒａｍ）などに基づく規則を用いるこ
とができる。

【００６５】マッチング部２３は、辞書記憶部２５の単
語辞書を参照することにより、音響モデル記憶部２４に
記憶されている音響モデルを接続することで、単語の音
響モデル（単語モデル）を構成する。

【００６６】さらに、マッチング部２３は、幾つかの単
語モデルを、文法記憶部２６に記憶された文法規則を参
照することにより接続し、そのようにして接続された単
語モデルを用いて、特徴パラメータに基づき、連続分布
ＨＭＭ法によって、マイク１５に入力された音声を認識
する。即ち、マッチング部２３は、特徴抽出部２２が出
力する時系列の特徴パラメータが観測されるスコア（尤
度）が最も高い単語モデルの系列を検出し、その単語モ
デルの系列に対応する単語列の音韻情報（読み）を、音
声の認識結果として出力する。

【００６７】以上のようにして出力される、マイク１５
に入力された音声の認識結果は、状態認識情報として、
モデル記憶部５１および行動決定機構部５２に出力され
る。

【００６８】音声区間検出部２７は、ＡＤ変換部２１か
らの音声データについて、特徴抽出部２２がＭＦＣＣ分
析を行うのと同様のフレームごとに、例えば、パワーを
算出している。さらに、音声区間検出部２７は、各フレ
ームのパワーを、所定の閾値と比較し、その閾値以上の
パワーを有するフレームで構成される区間を、ユーザの
音声が入力されている音声区間として検出する。そし
て、音声区間検出部２７は、検出した音声区間を、特徴
抽出部２２とマッチング部２３に供給しており、特徴抽
出部２２とマッチング部２３は、音声区間のみを対象に
処理を行う。

【００６９】図７は、図３のエコーバック部５６の構成
例を示している。

【００７０】マイク１５からの音声信号は、ＡＤ変換部
４１に供給される。ＡＤ変換部４１では、マイク１５か
らのアナログ信号である音声信号がサンプリング、量子
化され、ディジタル信号である音声データにＡ／Ｄ変換
される。この音声データは、韻律分析部４２および音声
区間検出部４６に供給される。

【００７１】韻律分析部４２は、そこに入力される音声
データを、適当なフレームごとに音響分析することによ
り、例えば、ピッチ周波数やパワー等といった音声デー
タの韻律情報を抽出する。この韻律情報は、音生成部４
３に供給される。

【００７２】音生成部４３は、韻律分析部４２からの韻
律情報に基づいて、韻律を制御したエコーバック音声を
生成する。

【００７３】即ち、音生成部４３は、韻律分析部４２か
らの韻律情報と同一の韻律を有する、音韻のない音声
（以下、適宜、無音韻音声という）を、例えば、サイン
(sin)波を重畳することにより生成し、エコーバック音
声として、出力部４４に供給する。

【００７４】なお、韻律情報としての、例えば、ピッチ
周波数とパワーから音声データを生成する方法について
は、例えば、鈴木、石井、竹内、「非分節音による反響
的な模倣とその心理的影響」、情報処理学会論文誌、vo
l.41,No.5,pp1328-1337,May,2000や、特開2000-181896
号公報等に、その詳細が記載されている。

【００７５】出力部４４は、音生成部４３からのエコー
バック音声のデータを、メモリ４５に記憶させるととも
に、出力制御部５７（図３）に出力する。

【００７６】音声区間検出部４６は、ＡＤ変換部４１か
らの音声データについて、図５の音声区間検出部２７に
おける場合と同様の処理を行うことにより、音声区間を
検出し、韻律分析部４２と音生成部４３に供給する。こ
れにより、韻律分析部４２と音生成部４３では、音声区
間のみを対象に処理が行われる。

【００７７】なお、図７のＡＤ変換部４１または音声区
間検出部４６と、図５のＡＤ変換部２１または音声区間
検出部２７とは、それぞれ兼用することが可能である。

【００７８】以上のように構成されるエコーバック部５
６では、例えば、図８のフローチャートにしたがったエ
コーバック処理が行われる。

【００７９】即ち、まず最初に、ステップＳ１１におい
て、音声区間検出部４６が、ＡＤ変換部４１の出力に基
づいて、音声区間であるかどうかを判定し、音声区間で
ないと判定した場合、処理を終了し、再度、ステップＳ
１１からのエコーバック処理を再開する。

【００８０】また、ステップＳ１１において、音声区間
であると判定された場合、ステップＳ１２に進み、韻律
分析部４２は、ＡＤ変換部４１の出力、即ち、マイク１
５に入力されたユーザの音声を音響分析することによ
り、その韻律情報を取得し、音生成部４３に供給する。

【００８１】音生成部４３は、ステップＳ１３におい
て、韻律分析部４２からの韻律情報と同一の韻律を有す
る無音韻音声を生成し、エコーバック音声として、出力
部４４に供給する。

【００８２】出力部４４は、ステップＳ１４において、
音生成部４３からのエコーバック音声のデータを、メモ
リ４５に記憶させ、ステップＳ１５に進み、そのエコー
バック音声を、出力制御部５７（図３）に出力して、処
理を終了する。

【００８３】これにより、エコーバック音声は、出力制
御部５７を介して、スピーカ１８に供給されて出力され
る。

【００８４】従って、この場合、スピーカ１８からは、
ユーザが発した音声から、その音韻を無くしたものが、
エコーバック音声として出力される。

【００８５】このエコーバック音声は、音声認識部５０
Ａにおいて音声認識の対象とされるユーザの音声を復唱
するようなものであり、このようなエコーバック音声が
出力される結果、ユーザは、エコーバック音声を聴くこ
とにより、ロボットにおいて、自身の音声が受け付けら
れたことを認識することができる。従って、ロボット
が、ユーザからの音声に対する応答として、何の行動も
起こさない場合（音声認識部５０Ａにおいて、ユーザの
音声が正しく認識されている場合と、誤って認識されて
いる場合の両方を含む）であっても、ユーザにおいて、
ロボットが故障しているといったような勘違いをするこ
と等を防止することができる。

【００８６】さらに、エコーバック音声は、ユーザが発
した音声そのものではなく、その音声の音韻をなくした
ものであるため、ユーザには、ロボットが、ユーザの音
声を理解し、自身の声で復唱しているかのように聞こえ
る。従って、ロボットにおいて、ユーザの音声を、単に
録音して再生しているのではなく、理解しているかのよ
うな印象を、ユーザに与えることができる。

【００８７】なお、ここでは、音生成部４３において、
サイン波を重畳することによって、エコーバック音声を
生成するようにしたが、その他、例えば、エコーバック
音声は、ロボットの鳴き声となるような複雑な波形を用
意しておき、その波形をつなぎ合わせることによって生
成することが可能である。さらに、エコーバック音声と
しては、例えば、ユーザの音声を構成する音素を認識
し、その音素列によって構成される音韻を有するような
ものを生成することが可能である。また、エコーバック
音声は、例えば、ユーザの音声について、ケプストラム
係数を得て、そのケプストラム係数をタップ係数とする
ディジタルフィルタによって生成すること等も可能であ
る。

【００８８】但し、エコーバック音声が、ユーザの音声
に似過ぎると、ロボットにおいて、ユーザの音声を、単
に録音して再生しているかのような、いわば興ざめした
印象を、ユーザに与えかねないので、エコーバック音声
は、ユーザの音声に、あまり似たものにしない方が望ま
しい。

【００８９】また、上述の場合には、音生成部４３にお
いて、ユーザの音声の韻律と同一の韻律を有するエコー
バック音声を生成するようにしたが、音生成部４３に
は、ユーザの音声の韻律に多少の加工を加えた韻律を有
するエコーバック音声を生成させることも可能である。

【００９０】次に、図３の名前登録部５８が行う名前登
録処理の手順を、図９のフローチャートを参照して説明
する。名前登録処理は、ステップＳ２１において、ロボ
ットが、名前を必要とする状態にまで成長したと判定さ
れ、ステップＳ２２で、その旨が、名前登録部５８に通
知されたときに開始される。

【００９１】ステップＳ２１の処理を具体的に説明する
と、行動決定機構部５２は、モデル記憶部５１から送出
された、状態情報としての成長モデルが、名前を必要と
する成長の状態を表しているか否かを判定する。

【００９２】例えば、人間や犬などは、ある程度成長す
れば、自分の名前を認識することができる。そこで、こ
の例の場合、成長モデルにおける「幼児」（図４）を、
名前を認識することができる状態（名前を必要とする状
態）とし、モデル記憶部５１からの成長モデルが、「幼
児」を表しているとき、ロボットは、名前を必要とする
状態にまで成長したとものとする。

【００９３】ステップＳ２１で、ロボットが、名前を必
要とする状態にまで成長していないと判定された場合
（成長モデルが、「幼児」より成長していない状態を表
している場合）、行動決定機構部５２は、処理を終了
し、再度、ステップＳ２１から処理を再開する。

【００９４】ステップＳ２１で、ロボットが名前を必要
とする状態にまで成長したと判定された場合（成長モデ
ルが、「幼児」を表している場合）、ステップＳ２２に
進み、行動決定機構部５２は、その旨を、名前登録部５
８に通知する。

【００９５】このようにして、ロボットが名前を必要と
する状態にまで成長した旨が、名前登録部５８に通知さ
れると、ステップＳ２３において、名前登録部５８は、
センサ入力処理部５０の音声認識部５０Ａを制御して、
マイク１５から与えられる音声信号についての音声認識
を停止させる。これにより、後述するステップＳ２９，
３８で音声認識が再開されるまで、音声認識は行われな
い。なお、このとき、名前登録部５８は、エコーバック
部５６を制御して、エコーバック処理（図８）の実行を
禁止する。

【００９６】ステップＳ２４において、名前登録部５８
は、行動決定機構部５２を制御して、「頭を触ってほし
い」ことを表す行動指令情報を、姿勢遷移機構部５３に
出力させる。これにより、姿勢遷移機構部５３は、行動
決定機構部５２からの行動指令情報に基づいて、ロボッ
トの姿勢を、「頭を触ってほしい」ことを表す行動にお
ける各姿勢に遷移させるための姿勢遷移情報を生成し、
制御機構部５４に送出する。制御機構部５４は、姿勢遷
移機構部５３からの姿勢遷移情報に従って、アクチュエ
ータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆動するための制
御信号を生成し、これを、アクチュエータ３ＡＡ₁乃至
５Ａ₁および５Ａ₂に送出する。

【００９７】アクチュエータ３ＡＡ₁乃至５Ａ₁および５
Ａ₂は、制御信号にしたがって駆動し、ロボットは、例
えば、図１０に示すように、「頭を触ってほしい」こと
を表す行動を起こす（ロボットが、自分の手で、頭を数
回叩く）。

【００９８】次に、ステップＳ２５において、名前登録
部５８は、コントローラ１０に内蔵されるタイマーＴを
リセットしてスタートさせる。

【００９９】ステップＳ２６において、名前登録部５８
は、センサ入力処理部５０の圧力処理部５０Ｃと通信す
ることで、圧力処理部５０Ｃが「頭が触られた」と認識
したか否か、すなわち、ユーザがロボットの頭部を触っ
たか否かを判定する。

【０１００】ステップＳ２６で、ユーザがロボットの頭
部を触ってないと判定された場合、ステップＳ２７に進
み、名前登録部５８は、ステップＳ２５でスタートした
タイマーＴの値が１０以上であるか否か（１０秒経過し
たか否か）を判定し、１０秒経過していないと判定した
場合、ステップＳ２６に戻り、それ以降の処理を実行す
る。

【０１０１】一方、ステップＳ２６で、頭部が触られた
と判定された場合、ステップＳ２８に進み、名前登録部
５８は、行動決定機構部５２を制御して、「名前を付け
てほしい」ことを表す行動指令情報を、姿勢遷移機構部
５３に出力させる。これにより、姿勢遷移機構部５３
は、行動決定機構部５２からの行動指令情報に基づい
て、ロボットの姿勢を、「名前を付けてほしい」ことを
表す行動における各姿勢に遷移させるための姿勢遷移情
報を生成し、制御機構部５４に送出する。制御機構部５
４は、姿勢遷移機構部５３からの姿勢遷移情報に従っ
て、アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆
動するための制御信号を生成し、これを、アクチュエー
タ３ＡＡ₁乃至５Ａ₁および５Ａ₂に送出する。

【０１０２】アクチュエータ３ＡＡ₁乃至５Ａ₁および５
Ａ₂は、制御信号にしたがって駆動し、ロボットは、例
えば、図１１に示すように、「名前を付けてほしい」こ
とを表す行動を起こす（ロボットが、自分の耳を、上の
向け、それを左右に数回振る）。

【０１０３】次に、ステップＳ２９において、名前登録
部５８は、センサ入力処理部５０の音声認識部５０Ａを
制御して、ステップＳ２３で停止させた、音声認識を再
開させる。なお、このとき、名前登録部５８は、エコー
バック部５６を制御して、図８に示した処理のうち、ス
テップＳ１１乃至ステップＳ１４までの処理の実行を許
可する。これにより、入力された音声により生成された
エコーバック音声のデータが、メモリ４５に記憶される
が（ステップＳ１１乃至ステップＳ１４の処理は実行さ
れるが）、そのエコーバック音声は、スピーカ１８から
出力されない（ステップＳ１５の処理は実行されな
い）。

【０１０４】ステップＳ３０において、名前登録部５８
は、タイマーＴをリセットしてスタートさせる。

【０１０５】次に、ステップＳ３１において、名前登録
部５８は、センサ入力処理部５０の音声認識部５０Ａと
通信することで、音声認識部５０Ａに音声信号が入力さ
れたか否かを判定する。

【０１０６】ステップＳ３１で、音声信号が入力されな
いと判定された場合、ステップＳ３２に進み、名前登録
部５８は、ステップＳ３０でスタートしたタイマーＴの
値が１０であるか（１０秒経過したか否か）を判定し、
１０秒経過していないと判定した場合、ステップＳ３１
に戻り、それ以降の処理を実行する。

【０１０７】ステップＳ３１で、音声信号が入力された
と判定された場合、ステップＳ３３に進み、名前登録部
５８は、音声認識部５０Ａと通信して、ステップＳ３１
で入力された音声（名前）が、ロボットの名前として適
当なものであるか否かを確認する。ここでの処理の詳細
は、図１２のフローチャートに示されている。

【０１０８】ステップＳ５１において、音声認識部５０
Ａのマッチング部２３（図５）は、特徴抽出部２２から
供給された特徴パラメータ（ステップＳ３１で入力され
た音声信号がＡＤ変換部２１でサンプリングされて得ら
れた音声データから、特徴抽出部２２により抽出された
特徴パラメータ）に対応して、音響モデル記憶部２４の
音響モデルを接続し、単語の音響モデル（単語モデル）
を生成する、そしてマッチング部２３は、生成した音響
モデルのうち、特徴パラメータが観測されるスコア（尤
度）が最も高い単語モデル（最適音素列）を検出する。

【０１０９】次に、ステップＳ５２において、マッチン
グ部２３は、辞書記憶部２５の単語辞書を参照すること
により、音響モデル記憶部２４に記憶されている音響モ
デルを接続し、単語の音響モデル（単語モデル）を生成
する。そしてマッチング部２３は、ここで生成した音響
モデルのうち、特徴パラメータが観測されるスコアが最
も高い単語モデル（最適登録音素列）を検出する。

【０１１０】ステップＳ５３において、マッチング部２
３は、ステップＳ５１で検出した最適音素列のスコアと
ステップＳ５３で検出した最適登録音素列のスコアとの
差を算出し（この例の場合、最適音素列のスコアから、
最適登録音素列のスコアを減算し）、ステップＳ５４に
おいて、算出結果（減算結果）が、所定の閾値より大き
いか否かを判定し、大きいと判定した場合、ステップＳ
５５に進む。

【０１１１】ステップＳ５５において、マッチング部２
３は、ステップＳ５１で検出した最適音素列は、名前と
して適当であることを、名前登録部５８に通知する。こ
の場合、入力された音声で表される名前と音響上類似す
る単語が、音声認識部５０Ａの辞書記憶部２５の単語辞
書には登録されていないので、検出された最適音素列
は、名前として適当である。

【０１１２】一方、ステップＳ５４で、ステップＳ５３
での算出結果（減算結果）が、所定の閾値以下であると
判定された場合、ステップＳ５６に進み、マッチング部
２３は、ステップＳ５１で検出した最適音素列は、名前
として適当でないことを（不適当であることを）、名前
登録部５８に通知する。この場合、入力された音声で表
される名前と音響上類似する単語が、音声認識部５０Ａ
の辞書記憶部２５の単語辞書には登録されているので、
検出された最適音素列は、名前として適当でない。

【０１１３】ステップＳ５５またはステップＳ５６での
処理の後、確認処理は終了し、図９のステップＳ３４に
進む。

【０１１４】ステップＳ３４において、名前登録部５８
は、ステップＳ３３での確認結果に基づいて（図１２の
ステップＳ５５またはステップＳ５６で、音声認識部５
０Ａからの通知内容に基づいて）、ステップＳ３１で入
力された音声で表される単語（ステップＳ５１で検出さ
れた最適音素列）を、名前として登録できるか否かを判
定する。

【０１１５】図１２のステップＳ５４で、名前として適
当であることが通知された場合、名前登録部５８は、ス
テップＳ３４で、名前として登録できると判定し、ステ
ップＳ３５に進み、音声認識部５０Ａを制御して、ステ
ップＳ５１で検出された最適音素列を、名前として、辞
書記憶部２５の単語辞書に登録させる。

【０１１６】次に、ステップＳ３６において、名前登録
部５８は、エコーバック部５６を制御して、メモリ４５
に記憶されているエコーバック音声のデータを、出力制
御部５７に出力させる（図８のステップＳ１５の処理の
実行を許可する）。これにより、登録された名前のエコ
ーバック音声が、出力制御部５７を介して、スピーカ１
８に供給されて出力される。

【０１１７】エコーバック部５６は、ステップＳ２９
で、図８のステップＳ１１乃至ステップＳ１４での処理
の実行が許可されているので、ステップＳ３１で音声
（名前）が入力されたとき、エコーバック部５６のメモ
リ４５には、そのエコーバック音声のデータが記憶され
ている。

【０１１８】一方、名前登録部５８は、図１２のステッ
プＳ５５で、名前として適切でないことが通知された場
合、ステップＳ３４で、名前として登録できないと判定
し、ステップＳ３７に進み、行動決定機構部５２を制御
して、「発話された名前は登録されなかった」ことを表
す行動の行動指令情報を、姿勢遷移機構部５３に出力さ
せる。これにより、姿勢遷移機構部５３は、行動決定機
構部５２からの行動指令情報に基づいて、ロボットの姿
勢を、「発話された名前が登録されなかった」ことを表
す行動における各姿勢に遷移されるための姿勢遷移情報
を生成し、制御機構部５４に送出する。制御機構部５４
は、姿勢遷移機構部５３からの姿勢遷移情報に従って、
アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆動す
るための制御信号を生成し、これを、アクチュエータ３
ＡＡ₁乃至５Ａ₁および５Ａ₂に送出する。これにより、
アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂は、制御
信号にしたがって駆動し、ロボットは、「発話された名
前が登録されなかった」ことを表す行動を起こす。

【０１１９】ステップＳ２７で、１０秒経過したと判定
されたとき、すなわち、「頭を触ってほしい」ことを表
す行動が行われてから１０秒以内に頭が触られなかった
ときステップＳ３８に進み、名前登録部５８は、センサ
入力処理部５０の音声認識部５０Ａを制御して、ステッ
プＳ２３で停止させた、音声認識を再開される。なお、
このとき、名前登録部５８は、エコーバック部５６を制
御して、エコーバック処理（図８）の実行を許可する。

【０１２０】ステップＳ３２で、１０秒間経過したと判
定された場合、すなわち、「名前を付けてほしい」こと
を表す行動が行われてから１０秒以内に音声が入力され
なかったとき、またはステップＳ３８で、音声認識が再
開されたとき、ステップＳ３９に進み、名前登録部５８
は、行動決定機構部５２を制御して、「名前が入力され
なかった」ことを表す行動の行動指令情報を、姿勢遷移
機構部５３に出力させる。これにより、姿勢遷移機構部
５３は、行動決定機構部５２からの行動指令情報に基づ
いて、ロボットの姿勢を、「名前が入力されなかった」
ことを表す行動における各姿勢に遷移されるための姿勢
遷移情報を生成し、制御機構部５４に送出する。制御機
構部５４は、姿勢遷移機構部５３からの姿勢遷移情報に
従って、アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂
を駆動するための制御信号を生成し、これを、アクチュ
エータ３ＡＡ₁乃至５Ａ₁および５Ａ₂に送出する。これ
により、アクチュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂
は、制御信号にしたがって駆動し、ロボットは、「名前
が入力されなかった」ことを表す行動を起こす。

【０１２１】ステップＳ３６で、エコーバック音声が出
力されたとき、ステップＳ３７で、「発話された名前が
登録されなかった」ことを表す行動が行われたとき、ま
たはステップＳ３９で、「名前が入力されなかった」こ
とを表す行動が行われたとき、処理は終了する。

【０１２２】以上のように、ロボットが、「名前を付け
てほしい」ことを表す行動を起こした後に入力される音
声を、名前として認識するようにしたので、ロボット
は、このとき入力された音声を、名前として適切に認識
することができる。

【０１２３】なお、以上においては、ロボットが、名前
を必要とする状態にまで成長したとき、名前登録処理を
開始する場合を例として説明したが、図１３のフローチ
ャートに示すように、ステップＳ６１で、センサ入力処
理部５０の音声認識部５０Ａが、「名前登録」の指令を
認識し、ステップＳ６２で、その旨を、名前登録部５８
に通知したときにおいて、名前登録処理が開始されるよ
うにすることもできる。すなわち、この例の場合、ユー
ザは、「名前登録」と発話することで、ロボットに名前
を付けることができる。

【０１２４】ステップＳ６３乃至ステップＳ７９におい
ては、図９のステップＳ２３乃至ステップＳ３９におけ
る場合と同様の処理が行われるので、その説明は省略す
る。

【０１２５】次に、図１４のフローチャートを参照し
て、他の名前登録処理の手順を説明する。この場合、名
前登録処理は、図９の例の場合と同様に、ステップＳ９
１において、ロボットが、名前を必要とする状態にまで
成長したと判定され、ステップＳ９２で、その旨が、名
前登録部５８に通知されたときに開始される。

【０１２６】ロボットが名前を必要とする状態にまで成
長した旨が、名前登録部５８に通知されると、ステップ
Ｓ９３において、名前登録部５８は、センサ入力処理部
５０の音声認識部５０Ａを制御して、マイク１５から与
えられる音声信号についての音声認識を停止させる。こ
れにより、後述するステップＳ９８，１０９で音声認識
が再開されるまで、音声認識は行われない。なお、この
とき、名前登録部５８は、エコーバック部５６を制御し
て、エコーバック処理（図８）の実行を禁止する。

【０１２７】ステップＳ９４において、名前登録部５８
は、行動決定機構部５２を制御して、「名前を付けてほ
しい」ことを表す行動指令情報を、姿勢遷移機構部５３
に出力させる。これにより、姿勢遷移機構部５３は、行
動決定機構部５２からの行動指令情報に基づいて、ロボ
ットの姿勢を、「名前を付けてほしい」ことを表す行動
における各姿勢に遷移させるための姿勢遷移情報を生成
し、制御機構部５４に送出する。制御機構部５４は、姿
勢遷移機構部５３からの姿勢遷移情報に従って、アクチ
ュエータ３ＡＡ₁乃至５Ａ₁および５Ａ₂を駆動するため
の制御信号を生成し、これを、アクチュエータ３ＡＡ₁
乃至５Ａ₁および５Ａ₂に送出する。

【０１２８】アクチュエータ３ＡＡ₁乃至５Ａ₁および５
Ａ₂は、制御信号にしたがって駆動し、ロボットは、例
えば、図１１に示すように、「名前を付けてほしい」こ
とを表す行動を起こす（ロボットが、自分の耳を、上の
向け、それを左右に数回振る）。

【０１２９】次に、ステップＳ９５において、名前登録
部５８は、コントローラ１０に内蔵されるタイマーＴを
リセットしてスタートさせる。

【０１３０】ステップＳ９６において、名前登録部５８
は、センサ入力処理部５０の圧力処理部５０Ｃと通信す
ることで、ユーザがロボットの頭部を触ったか否かを判
定する。

【０１３１】ステップＳ９６で、ユーザがロボットの頭
部を触ってないと判定された場合、ステップＳ９７に進
み、名前登録部５８は、ステップＳ９５でスタートした
タイマーＴの値が１０以上であるか否か（１０秒経過し
たか否か）を判定し、１０秒経過していないと判定した
場合、ステップＳ９６に戻り、それ以降の処理を実行す
る。

【０１３２】一方、ステップＳ９６で、頭部が触られた
と判定された場合、ステップＳ９８に進み、名前登録部
５８は、センサ入力処理部５０の音声認識部５０Ａを制
御して、ステップＳ９３で停止させた、音声認識を再開
させる。なお、このとき、名前登録部５８は、エコーバ
ック部５６を制御して、図８に示した処理のうち、ステ
ップＳ１１乃至ステップＳ１４までの処理の実行を許可
する。これにより、入力された音声により生成されたエ
コーバック音声のデータが、メモリ４５に記憶される。

【０１３３】次に、ステップＳ９９において、名前登録
部５８は、ＬＥＤ１９を点灯させる。

【０１３４】ステップＳ１００において、名前登録部５
８は、タイマーＴをリセットしてスタートさせる。

【０１３５】次に、ステップＳ１０１において、名前登
録部５８は、センサ入力処理部５０の音声認識部５０Ａ
と通信することで、音声認識部５０Ａに音声信号が入力
されたか否かを判定する。

【０１３６】ステップＳ１０１で、音声信号が入力され
ないと判定された場合、ステップＳ１０２に進み、名前
登録部５８は、ステップＳ１００でスタートしたタイマ
ーＴの値が１０であるか（１０秒経過したか否か）を判
定し、１０秒経過していないと判定した場合、ステップ
Ｓ１０１に戻り、それ以降の処理を実行する。

【０１３７】ステップＳ１０１で、音声信号が入力され
たと判定された場合、ステップＳ１０３に進み、名前登
録部５８は、ステップＳ９９で点灯させたＬＥＤ１９を
消灯させる。

【０１３８】ステップＳ１０４乃至ステップＳ１０９、
およびステップＳ１１１においては、図９のステップＳ
３３乃至ステップＳ３９における場合と同様の処理が実
行されるので、その説明は省略する。

【０１３９】ステップＳ１０２で、１０秒経過したと判
定された場合、ステップＳ１１０に進み、名前登録部５
８は、ステップＳ９９で点灯させたＬＥＤ１９を消灯さ
せる。

【０１４０】この例の場合においても、図１５のフロー
チャートに示すように、ステップＳ１２１で、センサ入
力処理部５０の音声認識部５０Ａが、「名前登録」の指
令を認識し、ステップＳ１２２において、その旨が、名
前登録部５８に通知されたとき、名前登録処理が開始さ
れるようにすることもできる。

【０１４１】ステップＳ１２３乃至ステップＳ１４１に
おいては、図１４のステップＳ９３乃至ステップＳ１１
１における場合と同様の処理が行われるので、その説明
は省略する。

【０１４２】なお、以上においては、名前が登録された
後、名前を表す音声から生成されたエコーバック音声を
出力する場合を例として説明したが、予めメモリ４５に
記憶させた所定の音声を出力するようにすることもでき
る。

【０１４３】また、登録された音声（名前）から生成さ
れたエコーバック音声のデータをメモリ４５が保持する
ようにして、ユーザが、「名前はなんですか」と発話
し、ロボットがそれを認識したとき、メモリ４５に保持
されている名前のエコーバック音声が出力されるように
することもできる。

【０１４４】以上、本発明を、エンターテイメント用の
ロボット（疑似ペットとしてのロボット）に適用した場
合について説明したが、本発明は、これに限らず、例え
ば、産業用のロボット等の各種のロボットに広く適用す
ることが可能である。また、本発明は、現実世界のロボ
ットだけでなく、例えば、液晶ディスプレイ等の表示装
置に表示される仮想的なロボットにも適用可能である。

【０１４５】さらに、本実施の形態においては、上述し
た一連の処理を、ＣＰＵ１０Ａにプログラムを実行させ
ることにより行うようにしたが、一連の処理は、それ専
用のハードウェアによって行うことも可能である。

【０１４６】なお、プログラムは、あらかじめメモリ１
０Ｂ（図２）に記憶させておく他、フロッピー（登録商
標）ディスク、CD-ROM(Compact Disc Read Only Memor
y)，MO(Magneto optical)ディスク，DVD(Digital Versa
tile Disc)、磁気ディスク、半導体メモリなどのリムー
バブル記録媒体に、一時的あるいは永続的に格納（記
録）しておくことができる。そして、このようなリムー
バブル記録媒体を、いわゆるパッケージソフトウエアと
して提供し、ロボット（メモリ１０Ｂ）にインストール
するようにすることができる。

【０１４７】また、プログラムは、ダウンロードサイト
から、ディジタル衛星放送用の人工衛星を介して、無線
で転送したり、LAN(Local Area Network)、インターネ
ットといったネットワークを介して、有線で転送し、メ
モリ１０Ｂにインストールすることができる。

【０１４８】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、メモリ１０Ｂに、容易にインストールすることが
できる。

【０１４９】ここで、本明細書において、ＣＰＵ１０Ａ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理（例えば、並列処理あるい
はオブジェクトによる処理）も含むものである。

【０１５０】また、プログラムは、１のＣＰＵにより処
理されるものであっても良いし、複数のＣＰＵによって
分散処理されるものであっても良い。

【０１５１】

【発明の効果】本発明のロボット制御装置および方法、
並びに記録媒体のプログラムによれば、名前を付けてほ
しいことを表す行動をロボットが起こすように、ロボッ
トの行動を制御し、ロボットの行動が制御された後に入
力された音声から、最適音素列を検出し、最適音素列
を、名前として登録するようにしたので、名前を適切に
登録することができる。

【図面の簡単な説明】

【図１】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。

【図２】ロボットの内部構成例を示すブロック図であ
る。

【図３】コントローラ１０の機能的構成例を示すブロッ
ク図である。

【図４】成長モデルを示す図である。

【図５】音声認識部５０Ａの構成例を示すブロック図で
ある。

【図６】単語辞書を示す図である。

【図７】エコーバック部５６の構成例を示すブロック図
である。

【図８】エコーバック部５６によるエコーバック処理を
説明するフローチャートである。

【図９】名前登録処理を説明するフローチャートであ
る。

【図１０】ロボットの行動を説明する図である。

【図１１】ロボットの他の行動を説明する図である。

【図１２】図９のステップＳ３３の処理の詳細を説明す
るフローチャートである。

【図１３】他の名前登録処理を説明するフローチャート
である。

【図１４】他の名前登録処理を説明するフローチャート
である。

【図１５】他の名前登録処理を説明するフローチャート
である。

【符号の説明】

１頭部ユニット，４Ａ下顎部，１０コントロ
ーラ，１０ＡＣＰＵ，１０Ｂメモリ，１５
マイク，１６ＣＣＤカメラ，１７タッチセン
サ，１８スピーカ，１９ＬＥＤ，２１ＡＤ
変換部，２２特徴抽出部，２３マッチング部，
２４音響モデル記憶部，２５辞書記憶部，２６
文法記憶部，２７音声区間検出部，３１テキ
スト生成部，３２規則合成部，３４辞書記憶
部，３５生成用文法記憶部，３６音素片記憶部，
４１ＡＤ変換部，４２韻律分析部，４３音
生成部，４４出力部，４５メモリ，４６音
声区間検出部，５０センサ入力処理部，５０Ａ
音声認識部，５０Ｂ画像認識部，５０Ｃ圧力処
理部，５１モデル記憶部，５２行動決定機構
部，５３姿勢遷移機構部，５４制御機構部，
５５音声合成部，５６エコーバック部，５７出
力制御部，５８名前登録部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５５１Ｈ (72)発明者広井順東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者小野木渡東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 2C150 CA02 DA05 DA24 DA26 DA27 DA28 DF03 DF04 DF33 ED42 ED52 EF07 EF16 EF23 EF29 EF33 EF36 3F059 AA00 BA00 BB06 DA05 DC00 FC00 3F060 AA00 BA10 CA14 5D015 GG03 KK02 LL10 LL11

Claims

【特許請求の範囲】

【請求項１】少なくとも音声認識結果に基づいて行動
するロボットを制御するロボット制御装置において、名前を付けてほしいことを表す行動を前記ロボットが起
こすように、前記ロボットの行動を制御する行動制御手
段と、前記行動制御手段により、前記ロボットの行動が制御さ
れた後に入力された音声から、最適音素列を検出する検
出手段と、前記最適音素列を、前記名前として登録する登録手段と
を備えることを特徴とするロボット制御装置。
【請求項２】前記ロボットの成長の状態を、所定の状
態に順次遷移させる遷移手段をさらに備え、前記行動制御手段は、前記遷移手段により、前記ロボッ
トの成長の状態が所定の状態に遷移されたとき、前記名
前を付けてほしいことを表す行動を前記ロボットが起こ
すように、前記ロボットの行動を制御することを特徴と
する請求項１に記載のロボット制御装置。
【請求項３】ユーザにより入力された、名前登録処理
の開始を指示するコマンドを取得する取得手段をさらに
備え、前記行動制御手段は、前記取得手段により、前記コマン
ドが取得されたとき、前記名前を付けてほしいことを表
す行動を前記ロボットが起こすように、前記ロボットの
行動を制御することを特徴とする請求項１に記載のロボ
ット制御装置。
【請求項４】音響的な特徴を表す音響モデルを記憶す
る第１の記憶手段と、音声認識のための単語が登録された単語辞書を記憶する
第２の記憶手段とをさらに備え、前記検出手段は、前記音声の特徴パラメータに対応して
接続された前記音響モデルからなる単語モデルのうち、
前記特徴パラメータが観測されるスコアが最も高い前記
単語モデルを、前記最適音素列として検出し、前記登録手段は、前記単語辞書にすでに登録されている
前記単語の音韻に対応して接続された前記音響モデルか
らなる単語モデルのうち、前記特徴パラメータが観測さ
れるスコアが最も高い前記単語モデルを検出するととも
に、検出した前記単語モデルのスコアと、前記最適音素
列のスコアとの差が、所定の閾値より大きい場合、前記
最適音素列を、前記名前として登録することを特徴とす
る請求項１に記載のロボット制御装置。
【請求項５】少なくとも音声認識結果に基づいて行動
するロボットを制御するロボット制御装置のロボット制
御方法において、名前を付けてほしいことを表す行動を前記ロボットが起
こすように、前記ロボットの行動を制御する行動制御ス
テップと、前記行動制御ステップにより、前記ロボットの行動が制
御された後に入力された音声から、最適音素列を検出す
る検出ステップと、前記最適音素列を、前記名前として登録する登録ステッ
プとを含むことを特徴とするロボット制御方法。
【請求項６】少なくとも音声認識結果に基づいて行動
するロボットを制御するロボット制御装置のプログラム
であって、名前を付けてほしいことを表す行動を前記ロボットが起
こすように、前記ロボットの行動を制御する行動制御手
段と、前記行動制御手段により、前記ロボットの行動が制御さ
れた後に入力された音声から、最適音素列を検出する検
出手段と、前記最適音素列を、前記名前として登録する登録手段と
を含むことを特徴とするコンピュータが読み取り可能な
プログラムが記録されている記録媒体。