WO2002031810A1

WO2002031810A1 - Appareil de commande de robot

Info

Publication number: WO2002031810A1
Application number: PCT/JP2001/008898
Authority: WO
Inventors: Kazuo Ishii; Jun Hiroi; Wataru Onogi; Takashi Toyoda
Original assignee: Sony Corporation
Priority date: 2000-10-11
Filing date: 2001-10-10
Publication date: 2002-04-18
Also published as: JP2002189488A; TW586056B; JP4296714B2; CN1187734C; KR20020067697A; CN1393010A; KR100814569B1; US20030055653A1; EP1326230A1; DE60142842D1; US7203642B2; EP1326230B1; EP1326230A4

Description

明細書

ロボット制御装置技術分野

本発明は、ロボット制御装置に関し、特に、例えば、音声認識装置による音声認識結果に基づいて行動するロポットに用いて好適なロポット制御装置に関する。背景技術

近年においては、例えば、玩具等として、ユーザが発した音声を音声認識し、その音声認識結果に基づいて、ある仕草をしたり、合成音を出力する等の行動を行う口ポット（本明細書においては、ぬいぐるみ状のものを含む）が製品化されている。

しかしながら、口ポットにおいては、音声認識結果が得られても、何の行動も起こさない場合があり、この場合、ユーザは、ロボットにおいて音声が認識されているのかどうか、あるいは口ポットが故障しているのかどうか不安になる。発明の開示

本発明は、このような状況に鑑みてなされたものであり、口ポットにおいて、ュ一ザの音声が認識されていることを分かるようにすることで、ュ一ザの不安を解消すること等ができるようにするものである。

本発明のロボット制御装置は、音声認識されるユーザの音声の韻律情報を分析する分析手段と、韻律情報に基づいて、韻律を制御した音声データである韻律制御音声デ一夕を生成する生成手段と、韻律制御音声データの出力を制御する出力制御手段とを備えることを特徴とする。

本発明のロボット制御方法は、音声認識されるユーザの音声の韻律情報を分析する分析ステップと、韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データを生成する生成ステップと、韻律制御音声データの出力を制御する出力制御ステップとを備えることを特徴とする。

本発明の記録媒体は、音声認識されるユーザの音声の韻律情報を分析する分析ステップと、韻律情報に基づいて、韻律を制御した音声デ一夕である韻律制御音声データを生成する生成ステップと、韻律制御音声データの出力を制御する出力制御ステップとを備えるプログラムが記録されていることを特徴とする。

本発明のプログラムは、音声認識されるユーザの音声の韻律情報を分析する分析ステップと、韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データを生成する生成ステップと、韻律制御音声データの出力を制御する出力制御ステップとを備えることを特徴とする。

本発明においては、育声認識されるユーザの音声の韻律情報が分析され、その韻律情報に基づいて、韻律を制御した音声データである韻律制御音声デ一夕が生成されて出力される。図面の簡単な説明

'図 1は、本発明を適用したロボットの一実施の形態の外観構成例を示す斜視図である。

図 2は、ロポットの内部構成例を示すブロック図である。

図 3は、コントローラ 1 0の機能的構成例を示すブロック図である。

図 4は、音声認識部 5 O Aの構成例を示すブロック図である。

図 5は、音声合成部 5 5の構成例を示すブロック図である。

図 6は、出力制御部 5 7の処理を説明するフローチャートである。

図 7は、エコーバック部 5 6の構成例を示すブロック図である。

図 8は、エコーバック部 5 6によるェコ一バック処理を説明するフローチヤ一トである。

図 9は、エコーバック部 5 6による再エコーパック処理を説明するフローチヤートである。

図 1 0は、コントローラ 1 0の他の機能的構成例を示すブロック図である。発明を実施するための最良の形態

図 1は、本発明を適用したロボットの一実施の形態の外観構成例を示しており、図 2は、その電気的構成例を示している。

本実施の形態では、ロボットは、例えば、犬等の四つ足の動物の形状のものとなっており、胴体部ュニット 2の前後左右に、それぞれ脚部ュニット 3 A， 3 B, 3 C， 3Dが連結されるとともに、胴体部ユニット 2の前端部と後端部に、それぞれ頭部ュニッ卜 4と尻尾部ュニット 5が連結されることにより構成されている。尻尾部ュニッ卜 5は、胴体部ュニット 2の上面に設けられたベース部 5 Bから、 2自由度をもって湾曲または揺動自在に引き出されている。

胴体部ユニット 2には、口ポット全体の制御を行うコントローラ 10、ロボッ卜の動力源となるバッテリ 1 1、並びにバッテリセンサ 12および熱センサ 1 3 からなる内部センサ部 14などが収納されている。

頭部ユニット 4には、「耳」に相当するマイク（マイクロフォン） 1 5、「目」に相当する C CD (Charge Coupled Device)カメラ 16、触覚に相当する夕ツチセンサ 1 7、「口」に相当するスピーカ 18などが、それぞれ所定位置に配設されている。また、頭部ユニット 4には、口の下顎に相当する下顎部 4 Aが 1自由度をもって可動に取り付けられており、この下顎部 4 Aが動くことにより、ロボットの口の開閉動作が実現されるようになっている。

脚部ユニット 3 A乃至 3Dそれぞれの関節部分や、脚部ユニット 3 A乃至 3D それぞれと胴体部ュニット 2の連結部分、頭部ュニット 4と胴体部ュニット 2の連結部分、頭部ユニット 4と下顎部 4 Aの連結部分、並びに尻尾部ユニット 5と胴体部ユニット 2の連結部分などには、図 2に示すように、それぞれァクチユエ —夕 3 AA,乃至 3 AA_K、 3 BAi乃至 3 BA_K、 3 CA,乃至 3 CA_K、 3DA,乃至 3DA_K、 4A,乃至 4Aい 5 A₍および 5 A₂が配設されている。

頭部ユニット 4におけるマイク 15は、ユーザからの発話を含む周囲の音声 (音）を集音し、得られた音声信号を、コントローラ 1 0に送出する。 CCD力メラ 16は、周囲の状況を撮像し、得られた画像信号を、コントローラ 1 0に送出する。

タツチセンサ 17は、例えば、頭部ユニット 4の上部に設けられており、ユーザからの「なでる」や「たたく」といった物理的な働きかけにより受けた圧力を検出し、その検出結果を圧力検出信号としてコントローラ 10に送出する。

胴体部ュニット 2におけるバッテリセンサ 12は、バッテリ 1 1の残量を検出し、その検出結果を、バッテリ残量検出信号としてコントローラ 10に送出する。熱センサ 13は、ロボット内部の熱を検出し、その検出結果を、熱検出信号としてコントローラ 1 0に送出する。

コント口一ラ 10は、 CPU(Centrai Processing Unit) 1 OAやメモリ 10 B等を内蔵しており、 CPU 1 0 Aにおいて、メモリ 1 0 Bに記憶された制御プログラムが実行されることにより、各種の処理を行う。

即ち、コントローラ 10は、マイク 1 5や、 CCDカメラ 16、夕ツチセンサ 17、バッテリセンサ 12、熱センサ 13から与えられる音声信号、画像信号、圧力検出信号、バッテリ残量検出信号、熱検出信号に基づいて、周囲の状況や、ユーザからの指令、ユーザからの働きかけなどの有無を判断する。

さらに、コントローラ 10は、この判断結果等に基づいて、続く行動を決定し、その決定結果に基づいて、ァクチユエ一夕 3 乃至 3 AA_K、 3 BA,乃至 3 BA_K、 3 CAi乃至 3 CA_K、 3DAt乃至 3DA_K、乃至 4Aい 5 A 5 A ₂のうちの必要なものを駆動させる。これにより、頭部ユニット 4を上下左右に振らせたり、下顎部 4 Aを開閉させる。さらには、尻尾部ユニット 5を動かせたり、各脚部ユニット 3 A乃至 3Dを駆動して、口ポットを歩行させるなどの行動を行わせる。

また、コントローラ 10は、必要に応じて、合成音、あるいは後述するようなエコーバック音声を生成し、スピーカ 18に供給して出力させたり、口ポットの「目」の位置に設けられた図示しない LED (Light Emitting Diode) を点灯、消灯または点滅させる。以上のようにして、口ポットは、周囲の状況等に基づいて自律的に行動をとるようになつている。

次に、図 3は、図 2のコントローラ 1 0の機能的構成例を示している。なお、図 3に示す機能的構成は、 C P U 1 0 Aが、メモリ 1 0 Bに記憶された制御プログラムを実行することで実現されるようになっている。

コントローラ 1 0は、特定の外部状態を認識するセンサ入力処理部 5 0、センサ入力処理部 5 0の認識結果を累積して、感情や、本能、成長の状態を表現するモデル記憶部 5 1、センサ入力処理部 5 0の認識結果等に基づいて、続く行動を決定する行動決定機構部 5 2、行動決定機構部 5 2の決定結果に基づいて、実際に口ポットに行動を起こさせる姿勢遷移機構部 5 3、各ァクチユエ一夕 3 乃至 5 A,および 5 A₂を駆動制御する制御機構部 5 4、合成音を生成する音声合成部 5 5、エコーバック音声を出力するエコーバック部 5 6、並びに音声データの出力を制御する出力制御部 5 7から構成されている。

センサ入力処理部 5 0は、マイク 1 5や、 C C Dカメラ 1 6、夕ツチセンサ 1 7等から与えられる音声信号、画像信号、圧力検出信号等に基づいて、特定の外部状態や、ユーザからの特定の働きかけ、ユーザからの指示等を認識し、その認識結果を表す状態認識情報を、モデル記憶部 5 1および行動決定機構部 5 2に通知する。

即ち、センサ入力処理部 5 0は、音声認識部 5 O Aを有しており、音声認識部 5 O Aは、マイク 1 5から与えられる音声信号について音声認識を行う。そして、音声認識部 5 O Aは、その音声認識結果としての、例えば、「歩け」、「伏せ」、「ポールを追いかけろ」等の指令その他を、状態認識情報として、モデル記憶部 5 1および行動決定機構部 5 2に通知する。

また、センサ入力処理部 5 0は、画像認識部 5 0 Bを有しており、画像認識部 5 0 Bは、 C C Dカメラ 1 6から与えられる画像信号を用いて、画像認識処理を行う。そして、画像認識部 5 0 Bは、その処理の結果、例えば、「赤い丸いもの」や、「地面に対して垂直なかつ所定高さ以上の平面」等を検出したときには、「ポールがある」や、「壁がある」等の画像認識結果を、状態認識情報として、モデル記憶部 5 1および行動決定機構部 5 2に通知する。

さらに、センサ入力処理部 5 0は、圧力処理部 5 0 Cを有しており、圧力処理部 5 0 Cは、夕ツチセンサ 1 7から与えられる圧力検出信号を処理する。そして、圧力処理部 5 0 Cは、その処理の結果、所定の閾値以上で、かつ短時間の圧力を検出したときには、「たたかれた（しかられた）」と認識し、所定の閾値未満で、かつ長時間の圧力を検出したときには、「なでられた（ほめられた）」と認識して、その認識結果を、状態認識情報として、モデル記憶部 5 1および行動決定機構部 5 2に通知する。

モデル記憶部 5 1は、口ポットの感情、本能、成長の状態を表現する感情モデル、本能モデル、成長モデルをそれぞれ記憶、管理している。

ここで、感情モデルは、例えば、「うれしさ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部 5 0からの状態認識情報や時間経過等に基づいて、その値を変化させる。本能モデルは、例えば、「食欲」、「睡眠欲」、「運動欲」等の本能による欲求の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部 5 0からの状態認識情報や時間経過等に基づいて、その値を変化させる。成長モデルは、例えば、「幼年期」、「青年期」、「熟年期」、「老年期」等の成長の状態（度合い）を、所定の範囲の値によってそれぞれ表し、センサ入力処理部 5 0からの状態認識情報や時間経過等に基づいて、その値を変化させる。モデル記憶部 5 1は、上述のようにして感情モデル、本能モデル、成長モデルの値で表される感情、本能、成長の状態を、状態情報として、行動決定機構部 5 2に送出する。

なお、モデル記憶部 5 1には、センサ入力処理部 5 0から状態認識情報が供給される他、行動決定機構部 5 2から、口ポットの現在または過去の行動、具体的には、例えば、「長時間歩いた」などの行動の内容を示す行動情報が供給されるようになつており、モデル記憶部 5 1は、同一の状態認識情報が与えられても、行動情報が示すロボットの行動に応じて、異なる状態情報を生成するようになつている。

即ち、例えば、ロボットが、ユーザに挨拶をし、ュ一ザに頭を撫でられた場合には、ユーザに挨拶をしたという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部 5 1に与えられ、この場合、モデル記憶部 5 1では、「うれしさ」を表す感情モデルの値が増加される。

一方、ロボットが、何らかの仕事を実行中に頭を撫でられた場合には、仕事を実行中であるという行動情報と、頭を撫でられたという状態認識情報とが、モデル記憶部 5 1に与えられ、この場合、モデル記憶部 5 1では、「うれしさ」を表す感情モデルの値は変化されない。

このように、モデル記憶部 5 1は、状態認識情報だけでなく、現在または過去のロボットの行動を示す行動情報も参照しながら、感情モデルの値を設定する。これにより、例えば、何らかのタスクを実行中に、ユーザが、いたずらするつもりで頭を撫でたときに、「うれしさ」を表す感情モデルの値を増加させるような、不自然な感情の変化が生じることを回避することができる。

なお、モデル記憶部 5 1は、本能モデルおよび成長モデルについても、感情モデルにおける場合と同様に、状態認識情報および行動情報の両方に基づいて、その値を増減させるようになつている。また、モデル記憶部 5 1は、感情モデル、本能モデル、成長モデルそれぞれの値を、他のモデルの値にも基づいて増減させるようになっている。

行動決定機構部 5 2は、センサ入力処理部 5 0からの状態認識情報や、モデル記憶部 5 1からの状態情報、時間経過等に基づいて、次の行動を決定し、決定された行動の内容を、行動指令情報として、姿勢遷移機構部 5 3に送出する。

即ち、行動決定機構部 5 2は、口ポットがとり得る行動をステート（状態）（s tate)に対応させた有限ォ一トマトンを、口ポットの行動を規定する行動モデルとして管理しており、この行動モデルとしての有限オートマトンにおけるステートを、センサ入力処理部 5 0からの状態認識情報や、モデル記憶部 5 1における感情モデル、本能モデル、または成長モデルの値、時間経過等に基づいて遷移させ、遷移後のステートに対応する行動を、次にとるべき行動として決定する。

ここで、行動決定機構部 5 2は、所定のトリガ（tr igger)があったことを検出すると、ステートを遷移させる。即ち、行動決定機構部 5 2は、例えば、現在のステートに対応する行動を実行している時間が所定時間に達したときや、特定の状態認識情報を受信したとき、モデル記憶部 5 1から供給される状態情報が示す感情や、本能、成長の状態の値が所定の閾値以下または以上になったとき等に、ステートを遷移させる。

なお、行動決定機構部 5 2は、上述したように、センサ入力処理部 5 0からの状態認識情報だけでなく、モデル記憶部 5 1における感情モデルや、本能モデル、成長モデルの値等にも基づいて、行動モデルにおけるステートを遷移させることから、同一の状態認識情報が入力されても、感情モデルや、本能モデル、成長モデルの値（状態情報）によっては、ステートの遷移先は異なるものとなる。

その結果、行動決定機構部 5 2は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいていない」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「お手」という行動をとらせる行動指令情報を生成し、これを、姿勢遷移機構部 5 3に送出する。

また、行動決定機構部 5 2は、例えば、状態情報が、「怒っていない」こと、および「お腹がすいている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、目の前に手のひらが差し出されたことに応じて、「手のひらをぺろぺろなめる」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部 5 3に送出する _c また、行動決定機構部 5 2は、例えば、状態情報が、「怒っている」ことを表している場合において、状態認識情報が、「目の前に手のひらが差し出された」ことを表しているときには、状態情報が、「お腹がすいている」ことを表していても、また、「お腹がすいていない」ことを表していても、「ぷいと横を向く」ような行動を行わせるための行動指令情報を生成し、これを、姿勢遷移機構部 5 3に送出する。

なお、行動決定機構部 5 2には、モデル記憶部 5 1から供給される状態情報が示す感情や、本能、成長の状態に基づいて、遷移先のステートに対応する行動のパラメ一夕としての、例えば、歩行の速度や、手足を動かす際の動きの大きさおよび速度などを決定させることができ、この場合、それらのパラメ一夕を含む行動指令情報が、姿勢遷移機構部 5 3に送出される。

また、行動決定機構部 5 2では、上述したように、口ポットの頭部や手足等を動作させる行動指令情報の他、ロボットに発話を行わせる行動指令情報も生成される。口ポットに発話を行わせる行動指令情報は、音声合成部 5 5に供給されるようになつており、音声合成部 5 5に供給される行動指令情報には、音声合成部 5 5に生成させる合成音に対応するテキスト等が含まれる。そして、音声合成部 5 5は、行動決定部 5 2から行動指令情報を受信すると、その行動指令情報に含まれるテキストに基づき、合成音を生成し、出力制御部 5 7を介して、スピーカ 1 8に供給して出力させる。これにより、スピーカ 1 8からは、例えば、ロポッ卜の鳴き声、さらには、「お腹がすいた」等のユーザへの各種の要求、「何？」等のュ一ザの呼びかけに対する応答その他の音声出力が行われる。

姿勢遷移機構部 5 3は、行動決定機構部 5 2から供給される行動指令情報に基づいて、ロボットの姿勢を、現在の姿勢から次の姿勢に遷移させるための姿勢遷移情報を生成し、これを制御機構部 5 4に送出する。

ここで、現在の姿勢から次に遷移可能な姿勢は、例えば、胴体や手や足の形状、重さ、各部の結合状態のようなロボットの物理的形状と、関節が曲がる方向や角度のようなァクチユエ一夕 3 A A,乃至 5 および 5 A₂の機構とによって決定される。

また、次の姿勢としては、現在の姿勢から直接遷移可能な姿勢と、直接には遷移できない姿勢とがある。例えば、 4本足のロボットは、手足を大きく投げ出して寝転んでいる状態から、伏せた状態へ直接遷移することはできるが、立った状態へ直接遷移することはできず、一旦、手足を胴体近くに引き寄せて伏せた姿勢になり、それから立ち上がるという 2段階の動作が必要である。また、安全に実行できない姿勢も存在する。例えば、 4本足の口ポットは、その 4本足で立っている姿勢から、両前足を挙げてバンザィをしょうとすると、簡単に転倒してしまラ。

このため、姿勢遷移機構部 5 3は、直接遷移可能な姿勢をあらかじめ登録しておき、行動決定機構部 5 2から供給される行動指令情報が、直接遷移可能な姿勢を示す場合には、その行動指令情報を、そのまま姿勢遷移情報として、制御機構部 5 4に送出する。一方、行動指令情報が、直接遷移不可能な姿勢を示す場合には、姿勢遷移機構部 5 3は、遷移可能な他の姿勢に一旦遷移した後に、目的の姿勢まで遷移させるような姿勢遷移情報を生成し、制御機構部 5 4に送出する。これにより口ポットが、遷移不可能な姿勢を無理に実行しょうとする事態や、転倒するような事態を回避することができるようになつている。

制御機構部 5 4は、姿勢遷移機構部 5 3からの姿勢遷移情報にしたがって、ァクチユエ一夕 3 A A ,乃至 5 および 5 A₂を駆動するための制御信号を生成し、これを、ァクチユエ一夕 3 A Ai乃至 5 A _tおよび 5 A₂に送出する。これにより、ァクチユエ一夕 3 A A,乃至 5 Atおよび 5 A₂は、制御信号にしたがって駆動し、口ポットは、自律的に行動を起こす。

エコーバック部 5 6は、マイク 1 5から与えられ、音声認識部 5 0 Aで音声認識される音声信号を監視しており、その音声信号を復唱するような音声（以下、適宜、エコーバック音声という）を生成して出力する。このエコーバック音声は、出力制御部 5 7を介して、スピーカ 1 8に供給されて出力される。

出力制御部 5 7には、音声合成部 5 5からの合成音のディジタルデータと、ェコーバック部 5 6からのエコーバック音声のディジ夕ルデ一夕とが供給されるようになつており、それらのディジタルデ一夕を、アナログの音声信号に D ZA変換し、スピーカ 1 8に供給して出力させる。また、出力制御部 5 7は、音声合成部 5 5からの合成音と、エコーバック部 5 6からのエコーバック音声の、スピ一力 1 8への出力が競合した場合に、その競合を調整する。即ち、エコーバック部 5 6からのエコーバック音声の出力は、行動決定機構部 5 2の制御にしたがって音声合成部 5 5が行う合成音の出力とは独立に行われるようになつており、このため、ェコ一パック音声の出力と合成音の出力とは競合する場合がある。そこで、出力制御部 5 7は、その競合の調停を行う。

次に、図 4は、図 3の音声認識部 5 O Aの構成例を示している。

マイク 1 5からの音声信号は、 A D (Anal og Digi tal)変換部 2 1に供給される。 AD変換部 2 1では、マイク 1 5からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声デ一夕に AZD変換される。この音声データは、特徴抽出部 2 2および音声区間検出部 2 7に供給される。

特徴抽出部 2 2は、そこに入力される音声デ一夕について、適当なフレームごとに、例えば、 M F C C (Mel Frequency Ceps t rum Coef f ic i ent)分析を行い、その分析の結果得られる M F C Cを、特徴パラメータ（特徵ベクトル）として、マツチング部 2 3に出力する。なお、特徴抽出部 2 2では、その他、例えば、線形予測係数、ケプストラム係数、線スペクトル対、所定の周波数帯域ごとのパワー (フィルタバンクの出力）等を、特徴パラメータとして抽出することが可能である。

マッチング部 2 3は、特徴抽出部 2 2からの特徴パラメータを用いて、音響モデル記憶部 2 4、辞書記憶部 2 5、および文法記憶部 2 6を必要に応じて参照しながら、マイク 1 5に入力された音声（入力音声）を、例えば、連続分布 HMM (Hi dden Markov Mode l)法に基づいて音声認識する。

即ち、音響モデル記憶部 2 4は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布 HMM法に基づいて音声認識を行うので、音響モデルとしては、 HMM OH dde n Markov Mode l)が用いられる。辞書記憶部 2 5は、認識対象の各単語について、その発音に関する情報（音韻情報）が記述された単語辞書を記憶している。文法記憶部 2 6は、辞書記憶部 2 5の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則を記憶している。ここで、文法規則としては、例えば、文脈自由文法（C F G) や、統計的な単語連鎖確率（N— g r a m) などに基づく規則を用いることができる。

マッチング部 2 3は、辞書記憶部 2 5の単語辞書を参照することにより、音響モデル記憶部 2 4に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部 2 3は、幾つかの単語モデルを、文法記憶部 2 6に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴パラメ一夕に基づき、連続分布 HMM法によって、マイク 1 5に入力された音声を認識する。即ち、マツチング部 2 3は、特徴抽出部 2 2が出力する時系列の特徴パラメータが観測されるスコア（尤度）が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列の音韻情報（読み）を、音声の認識結果として出力する。

より具体的には、マッチング部 2 3は、接続された単語モデルに対応する単語列について、各特徴パラメータの出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列の音韻情報を、音声認識結果として出力する。以上のようにして出力される、マイク 1 5に入力された音声の認識結果は、状態認識情報として、モデル記憶部 5 1および行動決定機構部 5 2に出力される。なお、音声区間検出部 2 7は、 A D変換部 2 1からの音声データについて、特徵抽出部 2 2が M F C C分析を行うのと同様のフレームごとに、例えば、パワーを算出している。さらに、音声区間検出部 2 7は、各フレームのパワーを、所定の閾値と比較し、その閾値以上のパワーを有するフレームで構成される区間を、ユーザの音声が入力されている音声区間として検出する。そして、音声区間検出部 2 7は、検出した音声区間を、特徴抽出部 2 2とマッチング部 2 3に供給しており、特徴抽出部 2 2とマッチング部 2 3は、音声区間のみを対象に処理を行う _c 次に、図 5は、図 3の音声合成部 5 5の構成例を示している。

テキスト生成部 3 1には、行動決定機構部 5 2が出力する、音声合成の対象とするテキストを含む行動指令情報が供給されるようになっており、テキスト生成部 3 1は、辞書記憶部 3 4や生成用文法記憶部 3 5を参照しながら、その行動指令情報に含まれるテキストを解析する。

即ち、辞書記憶部 3 4には、各単語の品詞情報や、読み、アクセント等の情報が記述された単語辞書が記憶されており、また、生成用文法記憶部 3 5には、辞書記憶部 3 4の単語辞書に記述された単語について、単語連鎖に関する制約等の生成用文法規則が記憶されている。そして、テキスト生成部 3 1は、この単語辞書および生成用文法規則に基づいて、そこに入力されるテキストの形態素解析や構文解析等の解析を行い、後段の規則合成部 3 2で行われる規則音声合成に必要な情報を抽出する。ここで、規則音声合成に必要な情報としては、例えば、ポ一ズの位置や、アクセントおよびイントネーションを制御するための情報その他の韻律情報や、各単語の発音等の音韻情報などがある。

テキスト生成部 3 1で得られた情報は、規則合成部 3 2に供給され、規則合成部 3 2では、音素片記憶部 3 6を参照しながら、テキスト生成部 3 1に入力されたテキストに対応する合成音の音声データ（ディジタルデ一夕）が生成される。即ち、音素片記憶部 3 6には、例えば、 C V Consonant, Vowel)や、 V C V、 C V C等の形で音素片データが記憶されており、規則合成部 3 2は、テキスト生成部 3 1からの情報に基づいて、必要な音素片データを接続し、さらに、音素片データの波形を加工することによって、ポーズ、アクセント、イントネーション等を適切に付加し、これにより、テキスト生成部 3 1に入力されたテキストに対応する合成音の音声データを生成する。

以上のようにして生成された音声デ一夕は、出力制御部 5 7 (図 3 ) を介して、スピ一力 1 8に供給され、これにより、スピーカ 1 8からは、テキスト生成部 3 1に入力されたテキストに対応する合成音が出力される。

なお、図 3の行動決定機構部 5 2では、上述したように、行動モデルに基づいて、次の行動が決定されるが、合成音として出力するテキストの内容は、ロボットの行動と対応付けておくことが可能である。

即ち、例えば、口ポットが、座った状態から、立った状態になる行動には、テキスト「よつこいしよ」などを対応付けておくことが可能である。この場合、口ボットが、座っている姿勢から、立つ姿勢に移行するときに、その姿勢の移行に同期して、合成音「よつこいしよ」を出力することが可能となる。

次に、図 6のフローチヤ一トを参照して、図 3の出力制御部 5 7の処理（出力制御処理）について説明する。

出力制御部 5 7は、音声合成部 5 5からの合成音を受信すると、ェコ一バック部 5 6からエコーバック音声を受信していない限り、音声合成部 5 5からの合成音を、スピーカ 1 8に供給して出力させる。

そして、出力制御部 5 7は、エコーバック部 5 6からエコーバック音声を受信した場合、図 6のフ口一チヤ一トにしたがった出力制御処理を行う。

即ち、出力制御部 5 7は、エコーバック部 5 6からエコーパック音声を受信した場合、まず最初に、ステップ S 1において、音声合成部 5 5から合成音が出力されているかどうかを判定し、出力されていないと判定した場合、ステップ S 2 に進み、エコーバック部 5 6から受信したエコーバック音声を、スピーカ 1 8に供給して出力させ、処理を終了する。

一方、ステップ S 1において、音声合成部 5 5から合成音が出力されていると判定された場合、即ち、音声合成部 5 5からの合成音の出力と、エコーバック部 5 6からのエコーバック音声の出力とが競合した場合、ステップ S 3に進み、出力制御部 5 7は、エコーバック音声の出力を制限し、音声合成部 5 5からの合成音を、スピーカ 1 8に供給して、出力させ、処理を終了する。

なお、出力制御部 5 7はエコーバック音声の出力中に、音声合成部 5 5から合成音を受信した場合、エコーバック音声の出力を中止し、音声合成部 5 5からの合成音の出力を優先させる。

以上のように、出力制御部 5 7は、音声合成部 5 5からの合成音の出力と、ェコーバック部 5 6からのエコーバック音声の出力とが競合した場合、音声合成部 5 5からの合成音の出力を優先させる。これは、音声合成部 5 5からの合成音の出力が、行動決定機構部 5 2からの行動指令情報に基づくものであり、口ポットの行動であるのに対して、エコーバック音声の出力は、ユーザの発話を復唱するものであることから、音声合成部 5 5からの合成音の方が、エコーバック音声に比較して、ユーザに対する重要度が高いと考えられるためである。

但し、出力制御部 5 7では、例えば、エコーバック音声の出力を、音声合成部' 5 5からの合成音の出力より優先させることも可能であるし、また、例えば、ェコーバック音声と、音声合成部 5 5からの合成音のうち、先に受信した方の出力を優先させるようにすること等も可能である。

次に、図 7は、図 3のエコーバック部 5 6の構成例を示している。

マイク 1 5からの音声信号は、 A D変換部 4 1に供給される。 A D変換部 4 1 では、マイク 1 5からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データに AZD変換される。この音声データは、韻律分析部 4 2および音声区間検出部 4 6に供給される。

韻律分析部 4 2は、そこに入力される音声データを、適当なフレームごとに音響分析することにより、例えば、ピッチ周波数やパワー等といった音声デ一夕の韻律情報を抽出する。この韻律情報は、音生成部 4 3に供給される。

即ち、韻律分析部 4 2は、例えば、人間の一般的なピッチ周期よりも長い 3 2 m s等を 1フレームとして、 A D変換部 4 1からの音声データのピッチ周波数とパヮ一を、フレーム単位で求める。

具体的には、韻律分析部 4 2は、第 j フレームのパヮ一 P ( j ) を、次式にしたがって求める。

P ( j ) =∑ X j²

• · · ( 1 ) 但し、式（1 ) において、 X iは、第 jフレームの先頭から i番目の音声デー夕のサンプル値を表し、 ∑は、第 jフレームの音声デ一夕のサンプルすべてについてのサメーションを表す。

また、韻律分析部 4 2は、第 j フレームの音声デ一夕のサンプルについて、自己相関値を演算し、その自己相関値を最大にする、 0でないずれ量（時間）てを求めて、次式により、第 jフレームのピッチ周波数 f ( j ) を演算する。

f ( j ) = 1 /て

• · · ( 2 ) 音生成部 4 3は、韻律分析部 4 2からの韻律情報に基づいて、韻律を制御したエコーバック音声を生成する。

即ち、音生成部 4 3は、例えば、韻律分析部 4 2からの韻律情報と同一の韻律を有する、音韻のない音声（以下、適宜、無音韻音声という）' を、サイン（s in) 波を重畳することにより生成し、エコーバック音声として、出力部 4 4に供給する。

なお、韻律情報としての、例えば、ピッチ周波数とパワーから音声デ一夕を生成する方法については、例えば、鈴木、石井、竹内、「非分節音による反響的な模倣とその心理的影響」、情報処理学会論文誌、 vol. 1, No. 5, ppl328-1337, May, 2000や、特開 2000-181896号公報等に、その一例が記載されている。

出力部 4 4は、音生成部 4 3からのエコーバック音声のデータを、メモリ 4 5 に記憶させるとともに、出力制御部 5 7 (図 3 ) に出力する。

音声区間検出部 4 6は、 A D変換部 4 1からの音声データについて、図 4の音声区間検出部 2 7における場合と同様の処理を行うことにより、音声区間を検出し、韻律分析部 4 2と音生成部 4 3に供給する。これにより、韻律分析部 4 2と音生成部 4 3では、音声区間のみを対象に処理が行われる。

なお、図 7の A D変換部 4 1または音声区間検出部 4 6と、図 4の A D変換部 2 1または音声区間検出部 2 7とは、それぞれ兼用することが可能である。

以上のように構成されるエコーバック部 5 6では、例えば、図 8のフローチヤートにしたがったエコーバック処理が行われる。

即ち、まず最初に、ステップ S 1 1において、音声区間検出部 4 6が、 A D変換部 4 1の出力に基づいて、音声区間であるかどうかを判定し、音声区間でないと判定した場合、処理を終了し、再度、ステップ S 1 1からのエコーバック処理を再開する。また、ステップ S I 1において、音声区間であると判定された場合、即ち、マイク 1 5に、ユーザの音声が入力された場合、ステップ S 1 2に進み、韻律分析部 4 2は、 AD変換部 4 1の出力、即ち、マイク 1 5に入力されたユーザの音声を音響分析することにより、その韻律情報を取得し、音生成部 4 3に供給する。音生成部 4 3は、ステップ S 1 3において、韻律分析部 4 2からの韻律情報と同一の韻律を有する無音韻音声を生成し、エコーバック音声として、出力部 4 4 に供給する。

出力部 4 4は、ステップ S 1 4において、音生成部 4 3からのエコーバック音声のデータを、メモリ 4 5に記憶させ、ステップ S 1 5に進み、そのエコーバック音声を、出力制御部 5 7 (図 3 ) に出力して、処理を終了する。

これにより、エコーバック音声は、出力制御部 5 7を介して、スピーカ 1 8に供給されて出力される。

従って、この場合、スピーカ 1 8からは、ユーザが発した音声から、その音韻を無くしたものが、エコーバック音声として出力される。

このエコーバック音声は、音声認識部 5 O Aにおいて音声認識の対象とされるユーザの音声を復唱するようなものであり、このようなエコーバック音声が出力される結果、ユーザは、エコーバック音声を聴くことにより、口ポットにおいて、自身の音声が受け付けられたことを認識することができる。従って、口ポットが、ユーザからの音声に対する応答として、何の行動も起こさない場合（音声認識部 5 O Aにおいて、ュ一ザの音声が正しく認識されている場合と、誤って認識されている場合の両方を含む）であっても、ユーザにおいて、口ポットが故障しているといったような勘違いをすること等を防止することができる。

さらに、エコーバック音声は、ユーザが発した音声そのものではなく、その音声の音韻をなくしたものであるため、ュ一ザには、口ポットが、ユーザの音声を理解し、自身の声で復唱しているかのように聞こえる。また、エコーバック音声は、ユーザが発した音声と同一の韻律を有することから、その韻律から得られる感情を表現するようなものとなっており、その結果、ユーザには、口ポットが、ュ一ザの感情を理解しているかのように聞こえる。従って、口ポットにおいて、ユーザの音声を、単に録音して再生しているのではなく、理解しているかのような印象を、ユーザに与えることができる。

なお、ここでは、音生成部 4 3において、サイン波を重畳することによって、エコーパック音声を生成するようにしたが、その他、例えば、エコーバック音声は、口ポットの鳴き声となるような複雑な波形を用意しておき、その波形をつなぎ合わせることによって生成することが可能である。さらに、エコーバック音声としては、例えば、ユーザの音声を構成する音素を認識し、その音素列によって構成される音韻を有するようなものを生成することが可能である。また、エコーバック音声は、例えば、ュ一ザの音声について、ケプストラム係数を得て、そのケプストラム係数をタップ係数とするディジ夕ルフィルタによって生成すること等も可能である。

但し、エコーバック音声が、ユーザの音声に似過ぎると、口ポットにおいて、ユーザの音声を、単に録音して再生しているかのような、いわば興ざめした印象を、ユーザに与えかねないので、エコーバック音声は、ユーザの音声に、あまり似たものにしない方が望ましい。

また、上述の場合には、音生成部 4 3において、ユーザの音声の韻律と同一の韻律を有するエコーバック音声を生成するようにしたが、音生成部 4 3には、ュ一ザの音声の韻律に加工を加えた韻律を有するエコーバック音声を生成させることも可能である。

即ち、例えば、上述したようにして、韻律分析部 4 2において、第 j フレームのパワー P ( j ) とピッチ周波数 f ( j ) が求められる場合には、音生成部 4 3 では、そのパヮ一 P ( j ) とピッチ周波数 ί ( j ) を用い、例えば、次式にしたがって、エコーバック音声 y ( t ) を生成することができる。

y ( t ) = 1 o g ( P ( j ) ) s i n ( 2 f ( j ) t )

… ( 3 ) 但し、式（3 ) において、 Nは、正の整数である。式（3 ) によれば、第 jフレームの音声に対して、そのパワー P ( j ) を対数によって非線形にし、かつ、ピッチ周波数 f ( j ) を N倍にしたエコーバック音声 y ( t ) が生成される。

なお、経験的には、 Nを、例えば 6等とした場合に、鳴き声らしく、かつ聞きやすいエコーバック音声が得られる。

また、上述の場合においては、ユーザの音声の音声区間と同一の時間長のェコ一バック音声が出力されることとなるが、エコーバック音声は、ユーザの音声の音声区間と同一の時間長ではなく、異なる時間長とすることが可能である。

即ち、例えば、式（3 ) にしたがって、エコーバック音声を生成する場合においては、パワー P ( j ) やピッチ周波数 f ( j ) を補間または間引きすること等によって、ュ一ザの音声の音声区間よりも長いまたは短い時間長のェコ一バック音声を生成するようにすることが可能である。

なお、経験的には、エコーバック音声は、ユーザの音声の音声区間の、例えば、 3ノ 2倍等の、長めの時間長にする方が、ユーザに自然な感じを与えるものとなる。

ところで、図 7のェコ一バック部 5 6においては、メモリ 4 5に、ェコ一バッ' ク音声が記憶されるようになっており、出力部 4 4は、このメモリ 4 5に記憶されたエコーバック音声を、必要に応じて読み出して出力する再エコーバック処理を行う。

即ち、再ェコ一バック処理では、図 9のフローチャートに示すように、出力部 4 4は、ステップ S 2 1において、所定のイベントが生じたかどうかを判定し、生じていないと判定した場合、ステップ S 2 1に戻る。

また、ステップ S 2 1において、所定のィベン卜が生じたと判定された場合、ステップ S 2 2に進み、出力部 4 4は、メモリ 4 5に記憶された所定のエコーバック音声のデータを読み出し、出力制御部 5 7を介して、スピーカ 1 8に供給して、ステップ S 2 1に戻る。

従って、再ェコ一バック処理によれば、所定のイベントが生じた場合に、メモリ 4 5に記憶された所定のェコ一バック音声が、スピーカ 1 8から出力される。ここで、所定のイベントとしては、例えば、ある値を設定しておき、乱数を発生させて、その乱数が、設定した値に一致した場合や、外部からの入力がない状態が、所定の時間連続した場合等を採用することができる。この場合、ユーザからすれば、口ポットに対して、何の刺激も与えていないのに、口ポットが、突然喋りだしたように見えるので、ロポットのエンタテイメント性を向上させることができる。

また、メモリ 4 5には、エコーバック音声のデータを、行動決定機構部 5 2が出力する所定の行動指令情報と対応付けて記憶させておき、行動決定機構部 5 2 が行動指令情報を出力した場合に、その行動指令情報に対応付けられているェコ —バック音声を、メモリ 4 5から読み出すようにすることも可能である。この場合、行動決定機構部 5 2が出力する行動指令情報に対応する行動に同期して、その行動指令情報に対応付けられているエコーバック音声が出力されることになる。次に、図 1 0は、コントローラ 1 0の他の構成例を示している。なお、図中、図 3における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図 1 0のコントローラ 1 0は、ェコ一バック部 5 6において、モデル記憶部 5 1に記憶されたモデルが参照可能になっている他は、図 3における場合と同様に構成されている。

コントローラ 1 0が図 1 0に示したように構成される場合には、エコーバック部 5 6の音生成部 4 3において、図 7に点線で示すように、モデル記憶部 5 1に記憶された感情モデルや、本能モデル、成長モデルが参照される。

そして、音生成部 4 3は、感情モデルや、本能モデル、成長モデルによって表される口ポットの感情や、本能、成長の状態に基づいて、ユーザの音声から抽出した韻律を制御したエコーバック音声を生成する。

即ち、音生成部 4 3は、例えば、口ポットの喜びの度合い、または悲しみの度合いが大きい場合には、その度合いに応じて、ピッチ周波数が高い、または低いエコーバック音声をそれぞれ生成する。また、音生成部 4 3は、例えば、ロポッ卜の怒りの度合いが大きい場合には、その度合いに応じて、発話時間の短いェコ —バック音声を生成する。その他、音生成部 4 3には、例えば、成長の度合いが高い場合には、語尾のピッチ周波数を高くして、質問を行うようなエコーバック音声を生成させること等が可能であり、この場合、ユーザに、次の発話を促すことができる。

ここで、図 9における場合には、再エコーパック処理において、乱数や外部からの入力等を、所定のイベントとして、メモリ 4 5に記憶された所定のエコーバック音声を再生するようにしたが、図 1 0の実施の形態のように、ェコ一バック部 5 6の音生成部 4 3において、モデル記憶部 5 1に記憶された感情モデルや、本能モデル、成長モデルを参照する場合には、音生成部 4 3で生成されたエコーバック音声を、そのェコ一パック音声が生成されたときの感情モデル等の値ど対応付けて、メモリ 4 5に記憶しておき、モデル記憶部 5 1に記憶された感情モデル等の値が、メモリ 4 5に記憶されたものと一致したことを、所定のイベントとして、その一致した感情モデル等の値と対応付けられているエコーバック音声を、メモリ 4 5から再生して出力するようにすることが可能である。

この場合、再エコーバック処理によれば、メモリ 4 5に記憶されたエコーバック音声は、感情モデル等の値が、そのエコーバック音声が過去に再生されたときのものと同一になったときに再生されることとなるから、口ポットは、ある感情等の状態になると、同一のエコーバック音声を出力することとなる。そして、その結果、ュ一ザは、そのようなエコーバック音声を聰くことによって、口ポットの感情等の状態を把握することが可能となるので、ュ一ザとロポットとの間で、いわば、感情等を共有することが可能となる。

なお、行動決定機構部 5 2と出力制御部 5 7とは、それらの間で通信を行うように構成することができ、この場合、行動決定機構部 5 2には、出力制御部 5 7 からスピーカ 1 8に音声デ一夕が出力されるときに、下顎部 4 A (図 1 ) を動かすァクチユエ一夕を駆動する行動指令情報を生成させるようにすることができるこの場合、スピーカ 1 8からの音声出力に同期して、下顎部 4 Aが動くので、ュ —ザに、ロポットが実際に喋っているかのような印象を与えることができる。さらに、行動決定機構部 52では、下顎部 4Aの動きを、出力制御部 57からスピーカ 18に出力される音声デ一夕の、例えば、パワー等の韻律情報に基づいて制御することが可能である。即ち、例えば、音声データのパワーが大の場合には、下顎部 4 Aの動きを大きくし、これにより、口ポットの口の開き具合を大きくする一方、音声データのパワーが小の場合には、下顎部 4 Aの動きを小さくし、これにより、口ポットの口の開き具合を小さくすることが可能である。この場合、スピーカ 1 8から出力される音の大きさに対応して、ロボッ卜の口の開き具合が変化するので、口ポットの喋り方に、よりリアリティをもたせることができる。以上、本発明を、エンターテイメント用の口ポット（疑似ペットとしてのロボット）に適用した場合について説明したが、本発明は、これに限らず、例えば、産業用のロポット等の各種のロポットに広く適用することが可能である。また、本発明は、現実世界のロボットだけでなく、例えば、液晶ディスプレイ等の表示装置に表示される仮想的なロポットにも適用可能である。

さらに、本実施の形態においては、上述した一連の処理を、 CPU 10Aにプログラムを実行させることにより行うようにしたが、一連の処理は、それ専用のハ一ドウエアによって行うことも可能である。

なお、プログラムは、あらかじめメモリ 10 B (図 2) に記憶させておく他、フロッピーティスク、 CD-ROM (Compact Disc Read Only Memory) , MO (Magneto op Ucal)ディスク， DVD(Digital Versatile Disc), 磁気ディスク、半導体メモリなどのリム一バブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。そして、このようなリムーバブル記録媒体を、いわゆるパッケ一ジソフトウェアとして提供し、ロボット（メモリ 1 0 B) にインストールするようにすることができる。

また、プログラムは、ダウン口一ドサイトから、ディジタル衛星放送用の人工衛星を介して、無線で転送したり、 LAN Local Area Network), インターネットといったネットワークを介して、有線で転送し、メモリ 1 0 Bにインス 1 ルすることができる。

この場合、プログラムがバ一ジョンアップされたとき等に、そのバージョンァップされたプログラムを、メモリ 1 0 Bに、容易にインストールすることができる。

ここで、本明細書において、 C P U 1 O Aに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理 (例えば、並列処理あるいはオブジェクトによる処理）も含むものである。また、プログラムは、 1の C P Uにより処理されるものであっても良いし、複数の C P Uによって分散処理されるものであっても良い。産業上の利用可能性

本発明によれば、音声認識されるユーザの音声の韻律情報が分析され、その韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データが生成されて出力される。従って、ユーザは、韻律制御音声デ一夕を聴くことにより、ロボットにおいて、自身の音声が受け付けられたことを認識することができる。

Claims

請求の範囲

1 . 少なくとも音声認識結果に基づいて行動するロポットを制御するロポット制御装置であって、

音声認識されるユーザの音声の韻律情報を分析する分析手段と、

前記韻律情報に基づいて、韻律を制御した音声データである韻律制御音声デ一夕を生成する生成手段と、

前記韻律制御音声データの出力を制御する出力制御手段と

を備えることを特徴とするロボット制御装置。

2 . 前記生成手段は、音韻のない前記韻律制御音声データを生成する

ことを特徴とする請求の範囲第 1項に記載のロポット制御装置。

3 . 前記口ポットの感情、本能、または成長の状態を表すモデルを記憶するモデル記憶手段をさらに備え、

前記生成手段は、前記モデル記憶手段に記憶されたモデルが表す前記ロポットの感情、本能、または成長の状態にも基づいて、前記韻律制御音声データを生成する

4 . 前記韻律制御音声データを記憶するデータ記憶手段をさらに備え、前記出力制御手段は、所定のイベントが生じたときに、前記データ記憶手段に記憶された韻律制御音声デー夕を出力する

5 . 前記ロポットの行動を制御する行動制御手段をさらに備え、

前記出力制御手段は、前記行動制御手段による制御によって、音声の出力が行われる場合に、前記韻律制御音声データの出力を制限する

6 . 前記韻律制御音声データの出力に同期して、前記口ポットに、その口部を動かす行動をとらせる行動制御手段をさらに備える

7 . 前記行動制御手段は、前記韻律制御音声データに基づいて、前記口ポットの口部の動き具合を制御する

ことを特徴とする請求の範囲第 6項に記載のロボット制御装置。

8 . 少なくとも音声認識結果に基づいて行動するロボットを制御するロポット制御方法であって、

音声認識されるユーザの音声の韻律情報を分析する分析ステップと、前記韻律情報に基づいて、韻律を制御した音声データである韻律制御音声デー夕を生成する生成ステップと、

前記韻律制御音声デ一夕の出力を制御する出力制御ステップと

を備えることを特徴とするロポット制御方法。

9 . 少なくとも音声認識結果に基づいて行動するロポットを制御するロボット制御処理を、コンピュータに行わせるプログラムが記録されている記録媒体であつて、

音声認識されるユーザの音声の韻律情報を分析する分析ステップと、前記韻律情報に基づいて、韻律を制御した音声データである韻律制御音声データを生成する生成ステップと、

前記韻律制御音声データの出力を制御する出力制御ステップと

を備えるプログラムが記録されている

ことを特徴とする記録媒体。

1 0 . 少なくとも音声認識結果に基づいて行動する口ポットを制御するロポット制御処理を、コンピュータに行わせるプログラムであって、

音声認識されるユーザの音声の韻律情報を分析する分析ステップと、前記韻律情報に基づいて、韻律を制御した音声データである韻律制御音声デ一夕を生成する生成ステップと、

前記韻律制御音声デー夕の出力を制御する出力制御ステップと

を備えることを特徴とするプログラム。