JP2002318590A - Device and method for synthesizing voice, program and recording medium - Google Patents

Device and method for synthesizing voice, program and recording medium

Info

Publication number
JP2002318590A
JP2002318590A JP2001122038A JP2001122038A JP2002318590A JP 2002318590 A JP2002318590 A JP 2002318590A JP 2001122038 A JP2001122038 A JP 2001122038A JP 2001122038 A JP2001122038 A JP 2001122038A JP 2002318590 A JP2002318590 A JP 2002318590A
Authority
JP
Japan
Prior art keywords
sound
text
data
verbal
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001122038A
Other languages
Japanese (ja)
Inventor
Tomoaki Nitsuta
朋晃 新田
Makoto Akaha
誠 赤羽
Erika Kobayashi
恵理香 小林
Hideki Kishi
秀樹 岸
Rika Hasegawa
里香 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001122038A priority Critical patent/JP2002318590A/en
Publication of JP2002318590A publication Critical patent/JP2002318590A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Toys (AREA)

Abstract

PROBLEM TO BE SOLVED: To obtain synthesized sound which effectively expresses an intention and feeling or the like that are desired to be transmitted by a text. SOLUTION: A non-language sound generating module 21 extracts non- language sound information that is an information related to non-language type sound from a text. A non-language sound converting module 27 obtains acoustic data for effect sound corresponding to the non-language sound information. On the other hand, a rule voice synthesizing module 25 generates synthesized sound data corresponding to the text and a text non-language sound fusing module 29 superimposes the acoustic data obtained from the non-language information onto all of or a portion of the synthesized sound data.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声合成装置およ
び音声合成方法、並びにプログラムおよび記録媒体に関
し、特に、例えば、テキストから得られる非言語音情報
に基づいて、そのテキストに対応する合成音を生成する
ことにより、テキストの意味するところを、効果的に表
現する合成音を得ることができるようにする音声合成装
置および音声合成方法、並びにプログラムおよび記録媒
体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech synthesizer, a speech synthesis method, a program and a recording medium, and more particularly to, for example, synthesizing a speech corresponding to a text based on non-verbal sound information obtained from the text. The present invention relates to a speech synthesizing apparatus and a speech synthesizing method that can generate a synthesized sound that effectively expresses a meaning of text by generating the text, a program, and a recording medium.

【0002】[0002]

【従来の技術】例えば、音声合成装置では、入力された
テキストの形態素解析が行われ、その形態素解析結果に
基づいて、入力されたテキストに対応する合成音が生成
される。従って、音声合成装置が出力する合成音は、そ
のテキストの音韻をそのまま表現したものとなる。
2. Description of the Related Art For example, in a speech synthesizer, a morphological analysis of an input text is performed, and a synthesized speech corresponding to the input text is generated based on a result of the morphological analysis. Therefore, the synthesized speech output by the speech synthesis device is a representation of the phoneme of the text as it is.

【0003】[0003]

【発明が解決しようとする課題】ところで、人どうしの
会話等においては、いわゆる以心伝心や、行間を読むと
いったような形で、実際に言葉として表現されていない
非言語的な音の情報(非言語音情報)がやりとりされ
る。ここで、このような非言語音情報は、言葉にならな
い声や、身ぶり、表情等を媒介として、相手に伝えられ
る。
By the way, in conversations between people, non-verbal sound information (non-verbal information) that is not actually expressed as words in a form such as so-called conscience or reading between lines is used. Sound information) is exchanged. Here, such non-verbal sound information is transmitted to the other party through a non-verbal voice, a gesture, a facial expression, and the like.

【0004】従来の音声合成装置では、このような非言
語音情報を考慮せずに処理が行われていたため、テキス
トによって伝えようとする意図や感情等を十分に表現し
た合成音を生成することが困難であった。
In a conventional speech synthesizer, processing is performed without considering such non-verbal sound information. Therefore, it is necessary to generate a synthesized sound that sufficiently expresses the intention and emotion to be conveyed by text. Was difficult.

【0005】本発明は、このような状況に鑑みてなされ
たものであり、テキストによって伝えようとする意図や
感情等を、効果的に表現する合成音を得ることができる
ようにするものである。
The present invention has been made in view of such a situation, and it is an object of the present invention to obtain a synthesized sound that effectively expresses an intention, an emotion, and the like to be transmitted by text. .

【0006】[0006]

【課題を解決するための手段】本発明の音声合成装置
は、テキストとともに入力される、非言語的な音の情報
である非言語音情報に基づいて、音響データを生成する
音響データ生成手段と、テキストに対応する合成音デー
タを生成する音声合成手段と、音響データと合成音デー
タとを融合する融合手段とを備えることを特徴とする。
According to the present invention, there is provided a speech synthesizer for generating sound data based on non-verbal sound information which is non-verbal sound information input together with text. A voice synthesizing unit for generating synthetic voice data corresponding to text, and a fusing unit for fusing acoustic data and synthetic voice data.

【0007】本発明の音声合成方法は、テキストととも
に入力される、非言語的な音の情報である非言語音情報
に基づいて、音響データを生成する音響データ生成ステ
ップと、テキストに対応する合成音データを生成する音
声合成ステップと、音響データと合成音データとを融合
する融合ステップとを備えることを特徴とする。
[0007] A speech synthesis method according to the present invention includes an audio data generating step of generating audio data based on non-verbal sound information which is non-verbal sound information input together with text, and synthesizing corresponding to the text. It is characterized by comprising a voice synthesizing step of generating sound data, and a fusing step of fusing sound data and synthetic sound data.

【0008】本発明のプログラムは、テキストとともに
入力される、非言語的な音の情報である非言語音情報に
基づいて、音響データを生成する音響データ生成ステッ
プと、テキストに対応する合成音データを生成する音声
合成ステップと、音響データと合成音データとを融合す
る融合ステップとを備えることを特徴とする。
[0008] A program according to the present invention comprises a sound data generating step of generating sound data based on non-verbal sound information which is non-verbal sound information input together with a text; and a synthetic sound data corresponding to the text. And a fusing step of fusing acoustic data and synthesized sound data.

【0009】本発明の記録媒体は、テキストとともに入
力される、非言語的な音の情報である非言語音情報に基
づいて、音響データを生成する音響データ生成ステップ
と、テキストに対応する合成音データを生成する音声合
成ステップと、音響データと合成音データとを融合する
融合ステップとを備えるプログラムが記録されているこ
とを特徴とする。
[0009] A recording medium according to the present invention includes a sound data generating step of generating sound data based on non-verbal sound information which is non-verbal sound information input together with a text, and a synthetic sound corresponding to the text. A program including a voice synthesizing step of generating data and a fusing step of fusing acoustic data and synthetic sound data is recorded.

【0010】本発明の音声合成装置および音声合成方
法、並びにプログラムにおいては、テキストとともに入
力される、非言語的な音の情報である非言語音情報に基
づいて、音響データが生成されるとともに、テキストに
対応する合成音データが生成される。そして、音響デー
タと合成音データとが融合される。
[0010] In the speech synthesizing apparatus, the speech synthesizing method, and the program of the present invention, sound data is generated based on non-verbal sound information which is non-verbal sound information input together with text. Synthesized sound data corresponding to the text is generated. Then, the sound data and the synthesized sound data are merged.

【0011】[0011]

【発明の実施の形態】図1は、本発明を適用したロボッ
トの一実施の形態の外観構成例を示しており、図2は、
その電気的構成例を示している。
FIG. 1 shows an example of the appearance of a robot according to an embodiment of the present invention, and FIG.
An example of the electrical configuration is shown.

【0012】本実施の形態では、ロボットは、例えば、
犬等の四つ足の動物の形状のものとなっており、胴体部
ユニット2の前後左右に、それぞれ脚部ユニット3A,
3B,3C,3Dが連結されるとともに、胴体部ユニッ
ト2の前端部と後端部に、それぞれ頭部ユニット4と尻
尾部ユニット5が連結されることにより構成されてい
る。
In the present embodiment, for example, the robot
It has the shape of a four-legged animal such as a dog, and has leg units 3A,
3B, 3C, and 3D are connected, and a head unit 4 and a tail unit 5 are connected to a front end and a rear end of the body unit 2, respectively.

【0013】尻尾部ユニット5は、胴体部ユニット2の
上面に設けられたベース部5Bから、2自由度をもって
湾曲または揺動自在に引き出されている。
The tail unit 5 is drawn out from a base 5B provided on the upper surface of the body unit 2 so as to bend or swing with two degrees of freedom.

【0014】胴体部ユニット2には、ロボット全体の制
御を行うコントローラ10、ロボットの動力源となるバ
ッテリ11、並びにバッテリセンサ12および熱センサ
13からなる内部センサ部14などが収納されている。
The body unit 2 contains a controller 10 for controlling the entire robot, a battery 11 as a power source of the robot, and an internal sensor unit 14 including a battery sensor 12 and a heat sensor 13.

【0015】頭部ユニット4には、「耳」に相当するマ
イク(マイクロフォン)15、「目」に相当するCCD
(Charge Coupled Device)カメラ16、触覚に相当する
タッチセンサ17、「口」に相当するスピーカ18など
が、それぞれ所定位置に配設されている。また、頭部ユ
ニット4には、口の下顎に相当する下顎部4Aが1自由
度をもって可動に取り付けられており、この下顎部4A
が動くことにより、ロボットの口の開閉動作が実現され
るようになっている。
The head unit 4 includes a microphone (microphone) 15 corresponding to “ears” and a CCD corresponding to “eyes”.
(Charge Coupled Device) A camera 16, a touch sensor 17 corresponding to tactile sensation, a speaker 18 corresponding to a "mouth", and the like are arranged at predetermined positions. A lower jaw 4A corresponding to the lower jaw of the mouth is movably attached to the head unit 4 with one degree of freedom.
The opening and closing operation of the mouth of the robot is realized by the movement of.

【0016】脚部ユニット3A乃至3Dそれぞれの関節
部分や、脚部ユニット3A乃至3Dそれぞれと胴体部ユ
ニット2の連結部分、頭部ユニット4と胴体部ユニット
2の連結部分、頭部ユニット4と下顎部4Aの連結部
分、並びに尻尾部ユニット5と胴体部ユニット2の連結
部分などには、図2に示すように、それぞれアクチュエ
ータ3AA1乃至3AAK、3BA1乃至3BAK、3CA
1乃至3CAK、3DA1乃至3DAK、4A1乃至4AL
5A1および5A2が配設されている。
The joints of the leg units 3A to 3D, the connecting portions of the leg units 3A to 3D and the body unit 2, the connecting portions of the head unit 4 and the body unit 2, the head unit 4 and the lower jaw linking moiety parts 4A, and the like in the connecting portion of the tail unit 5 and the body unit 2, as shown in FIG. 2, each actuator 3AA 1 to 3AA K, 3BA 1 to 3BA K, 3CA
1 to 3CA K, 3DA 1 to 3DA K, 4A 1 to 4A L,
5A 1 and 5A 2 are disposed.

【0017】頭部ユニット4におけるマイク15は、ユ
ーザからの発話を含む周囲の音声(音)を集音し、得ら
れた音声信号を、コントローラ10に送出する。CCD
カメラ16は、周囲の状況を撮像し、得られた画像信号
を、コントローラ10に送出する。
The microphone 15 in the head unit 4 collects surrounding sounds (sounds) including utterances from the user, and sends out the obtained sound signals to the controller 10. CCD
The camera 16 captures an image of the surroundings, and sends the obtained image signal to the controller 10.

【0018】タッチセンサ17は、例えば、頭部ユニッ
ト4の上部に設けられており、ユーザからの「なでる」
や「たたく」といった物理的な働きかけにより受けた圧
力を検出し、その検出結果を圧力検出信号としてコント
ローラ10に送出する。
The touch sensor 17 is provided, for example, above the head unit 4 and “strokes” from the user.
It detects the pressure received by a physical action such as tapping or tapping, and sends the detection result to the controller 10 as a pressure detection signal.

【0019】胴体部ユニット2におけるバッテリセンサ
12は、バッテリ11の残量を検出し、その検出結果
を、バッテリ残量検出信号としてコントローラ10に送
出する。熱センサ13は、ロボット内部の熱を検出し、
その検出結果を、熱検出信号としてコントローラ10に
送出する。
The battery sensor 12 in the body unit 2 detects the remaining amount of the battery 11 and sends the detection result to the controller 10 as a battery remaining amount detection signal. The heat sensor 13 detects heat inside the robot,
The detection result is sent to the controller 10 as a heat detection signal.

【0020】コントローラ10は、CPU(Central Pro
cessing Unit)10Aやメモリ10B等を内蔵してお
り、CPU10Aにおいて、メモリ10Bに記憶された
制御プログラムが実行されることにより、各種の処理を
行う。
The controller 10 has a CPU (Central Pro
(Processing Unit) 10A, a memory 10B, and the like. The CPU 10A performs various processes by executing a control program stored in the memory 10B.

【0021】即ち、コントローラ10は、マイク15
や、CCDカメラ16、タッチセンサ17、バッテリセ
ンサ12、熱センサ13から与えられる音声信号、画像
信号、圧力検出信号、バッテリ残量検出信号、熱検出信
号に基づいて、周囲の状況や、ユーザからの指令、ユー
ザからの働きかけなどの有無を判断する。
That is, the controller 10 controls the microphone 15
And, based on sound signals, image signals, pressure detection signals, remaining battery level detection signals, and heat detection signals provided from the CCD camera 16, the touch sensor 17, the battery sensor 12, and the heat sensor 13, the surrounding conditions and the user Is determined, and whether or not there is a request from the user.

【0022】さらに、コントローラ10は、この判断結
果等に基づいて、続く行動を決定し、その決定結果に基
づいて、アクチュエータ3AA1乃至3AAK、3BA1
乃至3BAK、3CA1乃至3CAK、3DA1乃至3DA
K、4A1乃至4AL、5A1、5A2のうちの必要なもの
を駆動させる。これにより、頭部ユニット4を上下左右
に振らせたり、下顎部4Aを開閉させる。さらには、尻
尾部ユニット5を動かせたり、各脚部ユニット3A乃至
3Dを駆動して、ロボットを歩行させるなどの行動を行
わせる。
Furthermore, the controller 10, based on the determination results and the like, to determine the subsequent actions, based on the determination result, the actuators 3AA 1 to 3AA K, 3BA 1
To 3BA K, 3CA 1 to 3CA K, 3DA 1 to 3DA
K, 4A 1 to 4A L, 5A 1, 5A to drive the necessary of the two. Thereby, the head unit 4 is swung up, down, left and right, and the lower jaw 4A is opened and closed. Further, the tail unit 5 can be moved, and the leg units 3A to 3D are driven to perform actions such as walking the robot.

【0023】また、コントローラ10は、必要に応じ
て、合成音を生成し、スピーカ18に供給して出力させ
たり、ロボットの「目」の位置に設けられた図示しない
LED(Light Emitting Diode)を点灯、消灯または点
滅させる。
Further, the controller 10 generates a synthesized sound as necessary, and supplies the synthesized sound to the speaker 18 to output the synthesized sound, or an LED (Light Emitting Diode) (not shown) provided at the position of the “eye” of the robot. Turn on, turn off or blink.

【0024】以上のようにして、ロボットは、周囲の状
況等に基づいて自律的に行動をとるようになっている。
As described above, the robot autonomously behaves based on the surrounding conditions and the like.

【0025】次に、図3は、図2のコントローラ10の
機能的構成例を示している。なお、図3に示す機能的構
成は、CPU10Aが、メモリ10Bに記憶された制御
プログラムを実行することで実現されるようになってい
る。
FIG. 3 shows an example of a functional configuration of the controller 10 shown in FIG. Note that the functional configuration illustrated in FIG. 3 is realized by the CPU 10A executing a control program stored in the memory 10B.

【0026】コントローラ10は、特定の外部状態を認
識するセンサ入力処理部50、センサ入力処理部50の
認識結果を累積して、感情や、本能、成長の状態を表現
するモデル記憶部51、センサ入力処理部50の認識結
果等に基づいて、続く行動を決定する行動決定機構部5
2、行動決定機構部52の決定結果に基づいて、実際に
ロボットに行動を起こさせる姿勢遷移機構部53、各ア
クチュエータ3AA1乃至5A1および5A2を駆動制御
する制御機構部54、並びに合成音を生成する音声合成
部55から構成されている。
The controller 10 includes a sensor input processing section 50 for recognizing a specific external state, a model storage section 51 for accumulating recognition results of the sensor input processing section 50 and expressing emotions, instinct, and growth states, a sensor An action determination mechanism section 5 for determining a subsequent action based on a recognition result of the input processing section 50 and the like;
2, based on the determination result of the action determining unit 52, the actual posture transition mechanism unit 53 to take action on the robot, the actuators 3AA 1 to 5A 1 and 5A control mechanism unit 54 2 for controlling driving, as well as synthetic sound Is generated from the speech synthesis unit 55.

【0027】センサ入力処理部50は、マイク15や、
CCDカメラ16、タッチセンサ17等から与えられる
音声信号、画像信号、圧力検出信号等に基づいて、特定
の外部状態や、ユーザからの特定の働きかけ、ユーザか
らの指示等を認識し、その認識結果を表す状態認識情報
を、モデル記憶部51および行動決定機構部52に通知
する。
The sensor input processing unit 50 includes a microphone 15,
Based on audio signals, image signals, pressure detection signals, and the like provided from the CCD camera 16, the touch sensor 17, and the like, a specific external state, a specific action from the user, an instruction from the user, and the like are recognized, and the recognition result Is notified to the model storage unit 51 and the action determination mechanism unit 52.

【0028】即ち、センサ入力処理部50は、音声認識
部50Aを有しており、音声認識部50Aは、マイク1
5から与えられる音声信号について音声認識を行う。そ
して、音声認識部50Aは、その音声認識結果として
の、例えば、「歩け」、「伏せ」、「ボールを追いかけ
ろ」等の指令その他を、状態認識情報として、モデル記
憶部51および行動決定機構部52に通知する。
That is, the sensor input processing unit 50 has a voice recognition unit 50A, and the voice recognition unit 50A
Speech recognition is performed on the speech signal given from 5. Then, the voice recognition unit 50A uses the model storage unit 51 and the action determination mechanism unit as state recognition information, for example, commands such as “walk”, “down”, “chase the ball” and the like as the voice recognition result. Notify 52.

【0029】また、センサ入力処理部50は、画像認識
部50Bを有しており、画像認識部50Bは、CCDカ
メラ16から与えられる画像信号を用いて、画像認識処
理を行う。そして、画像認識部50Bは、その処理の結
果、例えば、「赤い丸いもの」や、「地面に対して垂直
なかつ所定高さ以上の平面」等を検出したときには、
「ボールがある」や、「壁がある」等の画像認識結果
を、状態認識情報として、モデル記憶部51および行動
決定機構部52に通知する。
The sensor input processing section 50 has an image recognizing section 50B. The image recognizing section 50B performs an image recognizing process using an image signal given from the CCD camera 16. When the image recognition unit 50B detects, for example, a “red round object” or a “plane that is perpendicular to the ground and equal to or more than a predetermined height” as a result of the processing,
Image recognition results such as “there is a ball” and “there is a wall” are notified to the model storage unit 51 and the action determination mechanism unit 52 as state recognition information.

【0030】さらに、センサ入力処理部50は、圧力処
理部50Cを有しており、圧力処理部50Cは、タッチ
センサ17から与えられる圧力検出信号を処理する。そ
して、圧力処理部50Cは、その処理の結果、所定の閾
値以上で、かつ短時間の圧力を検出したときには、「た
たかれた(しかられた)」と認識し、所定の閾値未満
で、かつ長時間の圧力を検出したときには、「なでられ
た(ほめられた)」と認識して、その認識結果を、状態
認識情報として、モデル記憶部51および行動決定機構
部52に通知する。
Further, the sensor input processing section 50 has a pressure processing section 50C, and the pressure processing section 50C processes a pressure detection signal given from the touch sensor 17. Then, as a result of the processing, the pressure processing unit 50C, when detecting a pressure that is equal to or more than a predetermined threshold value and for a short period of time, recognizes that the pressure processing unit 50C has been struck, and when the pressure is less than the predetermined threshold value, When a long-term pressure is detected, it is recognized as "patched (praised)", and the recognition result is notified to the model storage unit 51 and the action determination mechanism unit 52 as state recognition information.

【0031】モデル記憶部51は、ロボットの感情、本
能、成長の状態を表現する感情モデル、本能モデル、成
長モデルをそれぞれ記憶、管理している。
The model storage unit 51 stores and manages an emotion model, an instinct model, and a growth model expressing the emotion, instinct, and growth state of the robot.

【0032】ここで、感情モデルは、例えば、「うれし
さ」、「悲しさ」、「怒り」、「楽しさ」等の感情の状
態(度合い)を、所定の範囲(例えば、−1.0乃至
1.0等)の値によってそれぞれ表し、センサ入力処理
部50からの状態認識情報や時間経過等に基づいて、そ
の値を変化させる。本能モデルは、例えば、「食欲」、
「睡眠欲」、「運動欲」等の本能による欲求の状態(度
合い)を、所定の範囲の値によってそれぞれ表し、セン
サ入力処理部50からの状態認識情報や時間経過等に基
づいて、その値を変化させる。成長モデルは、例えば、
「幼年期」、「青年期」、「熟年期」、「老年期」等の
成長の状態(度合い)を、所定の範囲の値によってそれ
ぞれ表し、センサ入力処理部50からの状態認識情報や
時間経過等に基づいて、その値を変化させる。
Here, the emotion model indicates the state (degree) of emotions such as "joy,""sadness,""anger,""fun," for example, in a predetermined range (for example, -1.0). To 1.0 or the like), and the values are changed based on the state recognition information from the sensor input processing unit 50 or the passage of time. The instinct model is, for example, "appetite",
The state (degree) of the instinct, such as “sleep desire” and “exercise desire”, is represented by a value in a predetermined range, and the value is determined based on the state recognition information from the sensor input processing unit 50 or the passage of time. To change. The growth model is, for example,
The state of growth (degree) such as “childhood”, “adolescence”, “mature”, “elderly”, etc. is represented by a value in a predetermined range, and the state recognition information and time from the sensor input processing unit 50 are represented. The value is changed on the basis of progress or the like.

【0033】モデル記憶部51は、上述のようにして感
情モデル、本能モデル、成長モデルの値で表される感
情、本能、成長の状態を、状態情報として、行動決定機
構部52に送出する。
The model storage unit 51 sends the emotion, instinct, and growth state represented by the values of the emotion model, instinct model, and growth model as described above to the behavior determination mechanism unit 52 as state information.

【0034】なお、モデル記憶部51には、センサ入力
処理部50から状態認識情報が供給される他、行動決定
機構部52から、ロボットの現在または過去の行動、具
体的には、例えば、「長時間歩いた」などの行動の内容
を示す行動情報が供給されるようになっており、モデル
記憶部51は、同一の状態認識情報が与えられても、行
動情報が示すロボットの行動に応じて、異なる状態情報
を生成するようになっている。
The model storage unit 51 is supplied with state recognition information from the sensor input processing unit 50, and the current or past behavior of the robot, specifically, for example, “ The behavior information indicating the content of the behavior such as "walking for a long time" is supplied, and even if the same state recognition information is given, the model storage unit 51 responds to the behavior of the robot indicated by the behavior information. Thus, different state information is generated.

【0035】即ち、例えば、ロボットが、ユーザに挨拶
をし、ユーザに頭を撫でられた場合には、ユーザに挨拶
をしたという行動情報と、頭を撫でられたという状態認
識情報とが、モデル記憶部51に与えられ、この場合、
モデル記憶部51では、「うれしさ」を表す感情モデル
の値が増加される。
That is, for example, when the robot greets the user and strokes his / her head, the behavior information indicating that the robot greets the user and the state recognition information indicating that the head has been stroked are represented by a model. Provided to the storage unit 51, in this case,
In the model storage unit 51, the value of the emotion model representing “joy” is increased.

【0036】一方、ロボットが、何らかの仕事を実行中
に頭を撫でられた場合には、仕事を実行中であるという
行動情報と、頭を撫でられたという状態認識情報とが、
モデル記憶部51に与えられ、この場合、モデル記憶部
51では、「うれしさ」を表す感情モデルの値は変化さ
れない。
On the other hand, when the robot is stroked on the head while performing any work, the behavior information indicating that the robot is executing the work and the state recognition information indicating that the robot has been stroked on the head include:
The value is given to the model storage unit 51. In this case, the value of the emotion model representing “joy” is not changed in the model storage unit 51.

【0037】このように、モデル記憶部51は、状態認
識情報だけでなく、現在または過去のロボットの行動を
示す行動情報も参照しながら、感情モデルの値を設定す
る。これにより、例えば、何らかのタスクを実行中に、
ユーザが、いたずらするつもりで頭を撫でたときに、
「うれしさ」を表す感情モデルの値を増加させるよう
な、不自然な感情の変化が生じることを回避することが
できる。
As described above, the model storage unit 51 sets the value of the emotion model with reference to not only the state recognition information but also the behavior information indicating the current or past behavior of the robot. Thus, for example, while performing some task,
When the user strokes his head with the intention of mischief,
It is possible to avoid an unnatural change in emotion, such as increasing the value of the emotion model representing “joy”.

【0038】なお、モデル記憶部51は、本能モデルお
よび成長モデルについても、感情モデルにおける場合と
同様に、状態認識情報および行動情報の両方に基づい
て、その値を増減させるようになっている。また、モデ
ル記憶部51は、感情モデル、本能モデル、成長モデル
それぞれの値を、他のモデルの値にも基づいて増減させ
るようになっている。
The model storage unit 51 also increases and decreases the values of the instinct model and the growth model based on both the state recognition information and the behavior information, as in the case of the emotion model. Further, the model storage unit 51 increases or decreases the values of the emotion model, the instinct model, and the growth model based on the values of other models.

【0039】行動決定機構部52は、センサ入力処理部
50からの状態認識情報や、モデル記憶部51からの状
態情報、時間経過等に基づいて、次の行動を決定し、決
定された行動の内容を、行動指令情報として、姿勢遷移
機構部53に送出する。
The action determining mechanism 52 determines the next action based on the state recognition information from the sensor input processing section 50, the state information from the model storage section 51, the passage of time, and the like. The content is sent to the posture transition mechanism 53 as action command information.

【0040】即ち、行動決定機構部52は、ロボットが
とり得る行動をステート(状態)(state)に対応させた
有限オートマトンを、ロボットの行動を規定する行動モ
デルとして管理しており、この行動モデルとしての有限
オートマトンにおけるステートを、センサ入力処理部5
0からの状態認識情報や、モデル記憶部51における感
情モデル、本能モデル、または成長モデルの値、時間経
過等に基づいて遷移させ、遷移後のステートに対応する
行動を、次にとるべき行動として決定する。
That is, the action determining mechanism 52 manages a finite state automaton in which actions that can be taken by the robot correspond to states, as an action model that defines the actions of the robot. State in the finite state automaton as the sensor input processing unit 5
Transition based on state recognition information from 0, the value of the emotion model, instinct model, or growth model in the model storage unit 51, the passage of time, and the like, and the action corresponding to the state after the transition as the action to be taken next decide.

【0041】ここで、行動決定機構部52は、所定のト
リガ(trigger)があったことを検出すると、ステートを
遷移させる。即ち、行動決定機構部52は、例えば、現
在のステートに対応する行動を実行している時間が所定
時間に達したときや、特定の状態認識情報を受信したと
き、モデル記憶部51から供給される状態情報が示す感
情や、本能、成長の状態の値が所定の閾値以下または以
上になったとき等に、ステートを遷移させる。
Here, upon detecting that a predetermined trigger has occurred, the action determining mechanism 52 changes the state. That is, for example, when the time during which the action corresponding to the current state is being executed reaches a predetermined time, or when specific state recognition information is received, the action determining mechanism unit 52 is supplied from the model storage unit 51. The state is changed when the value of the emotion, instinct, or growth state indicated by the state information is equal to or less than a predetermined threshold.

【0042】なお、行動決定機構部52は、上述したよ
うに、センサ入力処理部50からの状態認識情報だけで
なく、モデル記憶部51における感情モデルや、本能モ
デル、成長モデルの値等にも基づいて、行動モデルにお
けるステートを遷移させることから、同一の状態認識情
報が入力されても、感情モデルや、本能モデル、成長モ
デルの値(状態情報)によっては、ステートの遷移先は
異なるものとなる。
As described above, the behavior determining mechanism 52 stores not only the state recognition information from the sensor input processing unit 50 but also the values of the emotion model, the instinct model, the growth model, and the like in the model storage unit 51. Based on the state transition based on the behavior model, the destination of the state transition differs depending on the emotion model, the instinct model, and the value of the growth model (state information) even if the same state recognition information is input. Become.

【0043】その結果、行動決定機構部52は、例え
ば、状態情報が、「怒っていない」こと、および「お腹
がすいていない」ことを表している場合において、状態
認識情報が、「目の前に手のひらが差し出された」こと
を表しているときには、目の前に手のひらが差し出され
たことに応じて、「お手」という行動をとらせる行動指
令情報を生成し、これを、姿勢遷移機構部53に送出す
る。
As a result, for example, when the state information indicates “not angry” and “not hungry”, the action determining mechanism 52 sets the state recognition information to “eye”. When the palm has been presented before, the action command information for taking the action of "hand" is generated in accordance with the palm being presented in front of the eyes, It is sent to the posture transition mechanism 53.

【0044】また、行動決定機構部52は、例えば、状
態情報が、「怒っていない」こと、および「お腹がすい
ている」ことを表している場合において、状態認識情報
が、「目の前に手のひらが差し出された」ことを表して
いるときには、目の前に手のひらが差し出されたことに
応じて、「手のひらをぺろぺろなめる」ような行動を行
わせるための行動指令情報を生成し、これを、姿勢遷移
機構部53に送出する。
Further, for example, when the state information indicates “not angry” and “stomach is hungry,” the action determining mechanism 52 determines that the state recognition information indicates “in front of the eyes. When the palm is displayed, it generates action command information for performing an action such as `` licking the palm '' in response to the palm being displayed in front of the eyes. This is sent to the posture transition mechanism 53.

【0045】また、行動決定機構部52は、例えば、状
態情報が、「怒っている」ことを表している場合におい
て、状態認識情報が、「目の前に手のひらが差し出され
た」ことを表しているときには、状態情報が、「お腹が
すいている」ことを表していても、また、「お腹がすい
ていない」ことを表していても、「ぷいと横を向く」よ
うな行動を行わせるための行動指令情報を生成し、これ
を、姿勢遷移機構部53に送出する。
In addition, for example, when the state information indicates “angry”, the action determining mechanism 52 determines that the state recognition information indicates that “the palm is put in front of the eyes”. When it indicates, even if the status information indicates that "stomach is hungry", or indicates that "stomach is not hungry", even if the state information indicates "being hungry", an action such as "turns to the side with a little bit" The action command information for performing the action is generated and sent to the posture transition mechanism 53.

【0046】なお、行動決定機構部52では、上述した
ように、ロボットの頭部や手足等を動作させる行動指令
情報の他、ロボットに発話を行わせる行動指令情報も生
成される。ロボットに発話を行わせる行動指令情報は、
音声合成部55に供給されるようになっており、音声合
成部55に供給される行動指令情報には、音声合成部5
5に生成させる合成音に対応するテキスト等が含まれ
る。そして、音声合成部55は、行動決定部52から行
動指令情報を受信すると、その行動指令情報に含まれる
テキストに基づき、合成音を生成し、スピーカ18に供
給して出力させる。これにより、スピーカ18からは、
例えば、ロボットの鳴き声、さらには、「お腹がすい
た」等のユーザへの各種の要求、「何?」等のユーザの
呼びかけに対する応答その他の音声出力が行われる。な
お、行動決定機構部52は、音声合成部55から合成音
を出力させる場合には、下顎部4Aを開閉させる行動指
令情報を、必要に応じて生成し、姿勢遷移機構部53に
出力する。この場合、合成音の出力に同期して、下顎部
4Aが開閉し、ユーザに、ロボットがしゃべっているか
のような印象を与えることができる。
The action determining mechanism 52 generates action command information for causing the robot to speak, in addition to action command information for operating the robot's head and limbs, as described above. The action command information that causes the robot to speak is
The voice command is supplied to the voice synthesis unit 55, and the action command information supplied to the voice synthesis unit 55 includes the voice synthesis unit 5.
5 includes a text corresponding to the synthesized sound to be generated. Then, when receiving the action command information from the action determination section 52, the speech synthesis section 55 generates a synthesized sound based on the text included in the action command information, and supplies the synthesized sound to the speaker 18 for output. Thereby, from the speaker 18,
For example, a cry of the robot, various requests to the user such as “I am hungry”, a response to the user's call such as “What?”, And other voice output are performed. When outputting a synthesized sound from the voice synthesizing unit 55, the action determining mechanism unit 52 generates action command information for opening and closing the lower jaw 4 </ b> A as necessary and outputs it to the posture transition mechanism unit 53. In this case, the lower jaw 4A opens and closes in synchronization with the output of the synthetic sound, and it is possible to give the user an impression as if the robot is talking.

【0047】姿勢遷移機構部53は、行動決定機構部5
2から供給される行動指令情報に基づいて、ロボットの
姿勢を、現在の姿勢から次の姿勢に遷移させるための姿
勢遷移情報を生成し、これを制御機構部54に送出す
る。
The posture transition mechanism unit 53 includes the action determination mechanism unit 5
Based on the action command information supplied from 2, posture change information for changing the posture of the robot from the current posture to the next posture is generated and transmitted to the control mechanism unit 54.

【0048】制御機構部54は、姿勢遷移機構部53か
らの姿勢遷移情報にしたがって、アクチュエータ3AA
1乃至5A1および5A2を駆動するための制御信号を生
成し、これを、アクチュエータ3AA1乃至5A1および
5A2に送出する。これにより、アクチュエータ3AA1
乃至5A1および5A2は、制御信号にしたがって駆動
し、ロボットは、自律的に行動を起こす。
In accordance with the posture transition information from the posture transition mechanism 53, the control mechanism 54
1 generates a control signal for driving the 5A 1 and 5A 2, which is sent to the actuator 3AA 1 to 5A 1 and 5A 2. Thereby, the actuator 3AA 1
To 5A 1 and 5A 2 is driven in accordance with the control signals, the robot causes the autonomous motions.

【0049】次に、図4は、図3の音声合成部55の構
成例を示している。
FIG. 4 shows an example of the configuration of the speech synthesizer 55 shown in FIG.

【0050】非言語音生成モジュール21には、行動決
定機構部52が出力する、音声合成の対象とするテキス
トを含む行動指令情報が供給されるようになっており、
非言語音生成モジュール21は、行動指令情報からテキ
ストを抽出し、さらに、そのテキストから非言語音情報
を抽出する。
The non-verbal sound generation module 21 is supplied with action command information including a text to be subjected to speech synthesis, output by the action determination mechanism 52,
The non-verbal sound generation module 21 extracts a text from the action command information, and further extracts non-verbal sound information from the text.

【0051】即ち、図5は、図4の非言語音生成モジュ
ール21の構成例を示している。
FIG. 5 shows a configuration example of the non-verbal sound generation module 21 of FIG.

【0052】行動指令情報は、テキスト処理部41に供
給されるようになっており、テキスト処理部41は、行
動指令情報に含まれるテキストを抽出し、抽出部42と
出力部45に供給する。
The action command information is supplied to a text processing unit 41. The text processing unit 41 extracts a text included in the action command information and supplies the text to the extraction unit 42 and the output unit 45.

【0053】抽出部42は、テキスト処理部41からの
テキストを受信し、言語解析部43を制御することによ
り、そのテキストの言語解析を行わせる。
The extraction unit 42 receives the text from the text processing unit 41 and controls the language analysis unit 43 to perform a language analysis of the text.

【0054】即ち、言語解析部43は、抽出部42の制
御にしたがい、テキストの形態素解析、構文解析、およ
び意味解析を行い、これらの言語解析結果を、抽出部4
2に供給する。
That is, the linguistic analysis unit 43 performs morphological analysis, syntactic analysis, and semantic analysis of the text under the control of the extracting unit 42, and outputs these linguistic analysis results to the extracting unit 4.
Feed to 2.

【0055】抽出部42は、さらに、言語解析部43か
らの言語解析結果に基づき、非言語音情報データベース
44を参照することで、テキストにおける非言語音情報
を抽出する。
The extracting unit 42 further extracts non-linguistic sound information in the text by referring to the non-linguistic sound information database 44 based on the linguistic analysis result from the linguistic analyzing unit 43.

【0056】即ち、非言語音情報データベース44は、
例えば、図6に示すように、見出しとタイプに対応付け
て、その見出しに対応する非言語音情報を記憶してい
る。
That is, the non-verbal sound information database 44
For example, as shown in FIG. 6, non-verbal sound information corresponding to the heading is stored in association with the heading and the type.

【0057】ここで、図6の実施の形態においては、見
出し「せみの声」に対して、非言語音情報「せみの声」
が、見出し「ビール」に対して、非言語音情報「ビール
を飲む音」が、見出し「ドア」と「たたく」の組に対し
て、非言語音情報「ドアをたたく音」が、見出し「楽し
い」に対して、非言語音情報「楽しそうな音」が、それ
ぞれ対応付けられている。
Here, in the embodiment of FIG. 6, non-verbal sound information "semi-voice" corresponds to the heading "semi-voice".
However, for the heading "Beer", the non-verbal sound information "Sound of beer drinking" is added, and for the pair of headings "Door" and "Slap", the non-linguistic sound information "Sound of tapping the door" is added to the heading " Non-verbal sound information “sounds that seem to be fun” is associated with “fun”.

【0058】また、図6の実施の形態においては、見出
しのタイプとして、「単語」、「係り受け」、および
「意味」があり、「単語」は、見出しが単語(単語列を
含む)であることを表す。また、「係り受け」は、見出
しの複数の単語が係り受け関係にあること(修飾語と被
修飾語の関係にあること)を表し、「意味」は、見出し
が単語の意味であることを表す。
In the embodiment shown in FIG. 6, there are "word", "dependency", and "meaning" as heading types, and "word" means that the heading is a word (including a word string). Indicates that there is. “Dependency” indicates that a plurality of words in the heading are in a dependency relationship (relationship between a modifier and a qualified word), and “meaning” indicates that the heading is the meaning of the word. Represent.

【0059】抽出部42は、非言語音情報データベース
44を参照することで、テキストから、「見出し」と
「タイプ」に合致する単語(以下、適宜、非言語音情報
対応単語という)を検出し、その非言語音情報対応単語
が合致する「見出し」と「タイプ」に対応付けられてい
る非言語音情報を、非言語音情報データベース44から
読み出す。
The extraction unit 42 refers to the non-verbal sound information database 44 to detect words matching the “heading” and “type” (hereinafter, appropriately referred to as non-verbal sound information-corresponding words) from the text. The non-linguistic sound information corresponding to the non-linguistic sound information-corresponding word is read from the non-linguistic sound information database 44.

【0060】従って、抽出部42では、例えば、テキス
ト「せみの声がうるさい」については、見出し「せみの
声」に合致し、かつ「単語」(ここでは、単語列も含む
ものとする)であるタイプの単語(列)「せみの声」
が、非言語音情報対応単語として検出される。そして、
抽出部42では、その非言語音情報対応単語「せみの
声」が合致する見出しとタイプに対応付けられている非
言語音情報「せみの声」が、非言語音情報データベース
44から読み出される。
Therefore, in the extraction unit 42, for example, the text “semi-voice is noisy” matches the heading “semi-voice” and is a type that is a “word” (here, a word string is also included). No word (row) "Semi no Voice"
Are detected as non-linguistic sound information corresponding words. And
In the extraction unit 42, the non-verbal sound information “semi-voice” associated with the heading and the type to which the non-verbal sound information corresponding word “semi-voice” matches is read from the non-verbal sound information database 44.

【0061】また、例えば、テキスト「彼はドアを大き
な音でたたいた」については、抽出部42では、見出し
「ドア」と「たたく」の組に合致し、かつ「係り受け」
であるタイプの単語「ドア」と「たたいた」の組が、非
言語音情報対応単語として検出される。そして、抽出部
42では、その非言語音情報対応単語「ドア」と「たた
いた」が合致する見出し「ドア」と「たたく」の組に対
応付けられている非言語音情報「ドアをたたく音」が、
非言語音情報データベース44から読み出される。
For example, for the text "he hit the door with a loud noise", the extraction unit 42 matches the set of the headings "door" and "hit" and "depends".
Is detected as a non-linguistic sound information corresponding word. Then, the extraction unit 42 strikes the non-linguistic sound information “slap the door” associated with the set of the heading “door” and “slap” in which the non-linguistic sound information corresponding words “door” and “slap” match. sound,
It is read from the non-verbal sound information database 44.

【0062】さらに、例えば、テキスト「彼女はほがら
かに笑いながら答えた」については単語「ほがらか」や
「笑い」が、楽しいという意味を表すことから、タイプ
が「意味」で、見出しが「楽しい」に合致する。従っ
て、抽出部42では、「ほがらか」や「笑い」が、非言
語音情報対応単語として検出され、さらに、その非言語
音情報対応単語「ほがらか」や「笑い」の意味を表す見
出し「楽しい」に対応付けられている非言語音情報「楽
しそうな音」が、非言語音情報データベース44から読
み出される。
Further, for example, in the text "She answered with a smile", the words "Smile" and "Laughter" represent fun. Matches "fun". Therefore, the extraction unit 42 detects “smile” and “laugh” as non-language sound information corresponding words, and further indicates the meaning of the non-language sound information corresponding words “smile” and “laugh”. The non-verbal sound information “happy sound” associated with the heading “fun” is read from the non-verbal sound information database 44.

【0063】なお、テキストにおける単語の各タイプの
見出しは、言語解析部43による言語解析結果に基づい
て認識することができる。
The headings of each type of word in the text can be recognized based on the result of the language analysis by the language analysis unit 43.

【0064】即ち、テキストにおける単語については、
タイプ「単語」の見出しは、言語解析部43における形
態素解析結果に基づいて認識することができる。また、
タイプ「係り受け」の見出しは、言語解析部43におけ
る構文解析結果に基づいて認識することができ、さら
に、タイプ「意味」の見出しは、言語解析部43におけ
る意味解析結果に基づいて認識することができる。
That is, for words in the text,
The heading of the type “word” can be recognized based on the result of the morphological analysis in the language analyzing unit 43. Also,
The heading of the type “dependency” can be recognized based on the syntax analysis result in the language analysis unit 43, and the heading of the type “meaning” can be recognized based on the semantic analysis result in the language analysis unit 43. Can be.

【0065】ここで、非言語音情報データベース44に
おける「見出し」としては、例えば、効果音を付与可能
な表現や、効果音を伴う行動もしくは状態を表す表現、
修飾表現などを採用することができる。
Here, as the “headline” in the non-verbal sound information database 44, for example, an expression to which a sound effect can be added, an expression indicating an action or state accompanied by a sound effect,
Modified expressions and the like can be adopted.

【0066】図6の実施の形態において、見出し「せみ
の声」については、例えば、「ミーンミーン」といった
効果音の付与が可能であり、また、見出し「ビール」に
ついては、「ゴクゴク」といった効果音の付与が可能で
あることから、これらの見出し「せみの声」や「ビー
ル」は、効果音を付与することが可能な表現であるとい
うことができる。さらに、見出し「ドア」と「たたく」
の組は、例えば、「ドンドン」といった効果音を伴っ
て、ドアをたたく行動を表すことから、効果音を伴う行
動もしくは状態を表す表現であるということができる。
また、見出し「楽しい」は、そのような意味の単語(例
えば、上述の「ほがらか」など)が名詞等を修飾するこ
とから、修飾表現であるということができる。
In the embodiment shown in FIG. 6, a sound effect such as "Mean Mean" can be given to the heading "Semi no Shou", and a sound effect such as "Gokugoku" can be given to the heading "Beer". Can be given, it can be said that these headings "Semi no Sui" and "Beer" are expressions to which a sound effect can be given. In addition, the headings "Door" and "Slap"
Represents an action of hitting a door with a sound effect such as “Don-Don”, and thus can be said to be an expression representing an action or state with a sound effect.
The heading "fun" can be said to be a modified expression because a word having such a meaning (for example, the above-mentioned "smile") modifies a noun or the like.

【0067】図5に戻り、抽出部42は、上述のように
して、テキストから、非言語音情報を抽出すると、その
非言語音情報を、出力部45に供給する。
Returning to FIG. 5, when extracting the non-verbal sound information from the text as described above, the extracting unit 42 supplies the non-verbal sound information to the output unit 45.

【0068】出力部45は、テキスト処理部41から供
給されるテキストを、抽出部42から供給される非言語
音情報とともに、非言語音情報解釈モジュール22(図
4)に供給する。
The output unit 45 supplies the text supplied from the text processing unit 41 to the non-verbal sound information interpretation module 22 (FIG. 4) together with the non-verbal sound information supplied from the extracting unit 42.

【0069】ここで、出力部45は、テキストおよび非
言語音情報を、例えば、テキストに、非言語音情報を付
加した形で、非言語音情報解釈モジュール22に供給す
る。あるいは、また、非言語音生成モジュール21は、
例えば、テキストと、非言語音情報とを、構造体の形に
して、非言語音情報解釈モジュール22に供給する。
Here, the output unit 45 supplies the text and the non-verbal sound information to the non-verbal sound information interpreting module 22, for example, in a form in which the non-verbal sound information is added to the text. Alternatively, the non-verbal sound generation module 21
For example, the text and the non-verbal sound information are supplied to the non-verbal sound information interpretation module 22 in the form of a structure.

【0070】非言語音情報解釈モジュール22は、非言
語音生成モジュール21から供給されるテキストと非言
語音情報のセットについて、後述するテキスト非言語音
融合モジュール29において、テキストに対応する合成
音データに対し、非言語音情報に対応する音響データを
融合させるタイミングを表すタイミングデータを生成
し、テキストと非言語音情報のセットに付加する。
The non-verbal sound information interpreting module 22 converts a set of text and non-verbal sound information supplied from the non-verbal sound generating module 21 into a synthesized non-verbal sound fusion module 29 described later. In response to this, timing data representing the timing at which the sound data corresponding to the non-verbal sound information is merged is generated and added to a set of text and non-verbal sound information.

【0071】ここで、テキストおよび非言語音情報のセ
ットに対するタイミングデータの付加は、例えば、タグ
を用いて行うことができる。
Here, the addition of the timing data to the set of text and non-verbal sound information can be performed using, for example, a tag.

【0072】即ち、例えば、テキストが、「今日はとっ
ても眠い」であり、そのテキスト「今日はとっても眠
い」における単語「眠い」に基づき、あくびの音を表す
非言語音情報「あくび」が抽出された場合において、タ
イミングデータとして、テキスト「今日はとっても眠
い」の先頭から3文字目の直後の位置を表すものが生成
されたときには、非言語音情報解釈モジュール22は、
タイミングデータが付加されたテキストおよび非言語音
情報のセット(以下、適宜、タイミング付きテキストセ
ットという)として、例えば、「今日は<あくび>とって
も眠い」を生成する。このタイミング付きテキストセッ
ト「今日は<あくび>とっても眠い」においては、タイミ
ングデータにしたがい、先頭から3文字目の直後に、非
言語情報「あくび」を表すタグ<あくび>が配置されて
おり、従って、先頭から3文字「今日は」の直後のタイ
ミングにおいて、非言語音情報「あくび」に対応する音
響データを融合することを表す。
That is, for example, the text is “Today is very sleepy”, and the non-verbal sound information “Yawn” representing the yawning sound is extracted based on the word “Sleepy” in the text “Today is very sleepy”. In this case, when a data representing a position immediately after the third character from the beginning of the text “Today is very sleepy” is generated as timing data, the non-verbal sound information interpretation module 22
As a set of text and non-verbal sound information to which timing data has been added (hereinafter, appropriately referred to as a text set with timing), for example, “Today's <Yawn> is very sleepy” is generated. In the text set with timing “Today is very sleepy <yawn>”, a tag <yawn> representing non-language information “yawn” is arranged immediately after the third character from the beginning according to the timing data. Represents that the sound data corresponding to the non-verbal sound information “yawn” is to be fused at the timing immediately after the first three characters “today is”.

【0073】また、この場合、非言語音情報解釈モジュ
ール22には、タイミング付きテキストセットとして、
例えば、「今日はとっても眠い,<あくび>,3」を生成さ
せることもできる。このタイミング付きテキストセット
「今日はとっても眠い,<あくび>,3」は、テキスト「今
日はとっても眠い」、非言語音情報「あくび」、および
先頭から3文字目の直後を表すタイミングデータ「3」
をセットにしたものであるが、このようなタイミング付
きテキストセットも、「今日は」の直後のタイミングに
おいて、非言語音情報「あくび」に対応する音響データ
を融合することを表す。
In this case, the non-verbal sound information interpretation module 22 stores the text set with timing as
For example, “Today is very sleepy, <yawn>, 3” can be generated. This text set with timing “Today is very sleepy, <yawn>, 3” is composed of the text “today is very sleepy”, non-verbal sound information “yawn”, and timing data “3” indicating immediately after the third character from the beginning.
This text set with timing also indicates that the sound data corresponding to the non-verbal sound information “yawn” is fused at the timing immediately after “today”.

【0074】その他、タイミング付きテキストセットと
しては、テキストの構造を表すテキスト構造体、非言語
音情報、およびタイミングデータのセット等を採用する
ことも可能である。
In addition, as the text set with timing, a text structure representing a text structure, non-verbal sound information, a set of timing data, and the like can be adopted.

【0075】なお、非言語音情報解釈モジュール22に
おいて、非言語音情報に対応する音響データを、テキス
トに対応する合成音データに融合させるタイミングとし
ては、例えば、合成音データにおいて、単語どうしの境
目や、ポーズがおかれる位置などの、何らかの区切りに
なっている部分を採用することができる。また、非言語
音情報に対応する音響データを、テキストに対応する合
成音データに融合させるタイミングは、音声合成部55
の外部から指定するようにすることも可能である。ここ
で、外部からタイミングを指定する方法としては、例え
ば、ユーザに指定してもらう方法や、行動指令情報に、
そのタイミングを含めて、音声合成部55に供給する方
法等がある。さらに、非言語音情報に対応する音響デー
タを、テキストに対応する合成音データに融合させるタ
イミングとしては、テキスト中の、非言語音情報に対応
する単語の開始位置等を採用することも可能である。
The timing at which the sound data corresponding to the non-verbal sound information is fused with the synthetic sound data corresponding to the text in the non-verbal sound information interpreting module 22 may be, for example, a boundary between words in the synthetic sound data. Alternatively, a part that is some kind of delimiter, such as a position where a pause is placed, can be adopted. The timing at which the sound data corresponding to the non-verbal sound information is merged with the synthesized sound data corresponding to the text is determined by the voice synthesizer 55.
It is also possible to specify from outside. Here, as a method of specifying the timing from the outside, for example, a method of having the user specify, or the action command information,
There is a method of supplying the data to the voice synthesizing unit 55 including the timing. Furthermore, as the timing at which the sound data corresponding to the non-verbal sound information is fused with the synthetic sound data corresponding to the text, the start position of the word corresponding to the non-verbal sound information in the text may be adopted. is there.

【0076】非言語音情報解釈モジュール22は、タイ
ミング付きテキストセットを生成すると、そのタイミン
グ付きテキストセットから、テキストと非言語音情報を
分離し、非言語音情報を、タイミング付きテキストセッ
トに含まれるタイミングデータとともに、非言語音変換
モジュール27に供給する。
When the non-verbal sound information interpretation module 22 generates the text set with timing, the non-verbal sound information is separated from the text set with timing and the non-verbal sound information is included in the text set with timing. Along with the timing data, it is supplied to the non-language sound conversion module 27.

【0077】即ち、タイミング付きテキストセットが、
例えば、上述の「今日は<あくび>とっても眠い」である
場合には、非言語音情報解釈モジュール22は、そのタ
イミング付きテキストセット「今日は<あくび>とっても
眠い」から、テキスト「今日はとっても眠い」と、非言
語音情報「あくび」とを分離する。さらに、非言語音情
報解釈モジュール22は、タイミング付きテキストセッ
ト「今日は<あくび>とっても眠い」における非言語音情
報<あくび>の位置から、タイミングデータが、先頭から
3文字目を表すことを認識し、その文字数である3を、
タイミングデータとして、非言語音情報「あくび」とと
もに、非言語音変換モジュール27に供給する。
That is, the text set with timing is
For example, when the above-mentioned “Today is <Yawning very sleepy”, the non-verbal sound information interpretation module 22 reads the text “Today is very sleepy” from the text set with timing “Today is <Yawning very sleepy”. And the non-verbal sound information “yawn”. Further, the non-verbal sound information interpretation module 22 recognizes that the timing data represents the third character from the beginning from the position of the non-verbal sound information <yawn> in the text set with timing “Today is <Yawning very sleepy”. And the number of characters, 3,
The timing data is supplied to the non-verbal sound conversion module 27 together with the non-verbal sound information “yawn”.

【0078】また、非言語音情報解釈モジュール22
は、形態素解析モジュール23および音声記号列生成モ
ジュール24を制御することで、タイミング付きテキス
トセットから分離したテキストを、その音韻情報等を表
す音声記号に変換する。
The non-verbal sound information interpretation module 22
Controls the morphological analysis module 23 and the phonetic symbol string generation module 24 to convert the text separated from the text set with timing into phonetic symbols representing the phoneme information and the like.

【0079】即ち、非言語音情報解釈モジュール22
は、テキストを、形態素解析モジュール23に供給し、
形態素解析モジュール23は、そのテキストの形態素解
析を行い、音声記号列生成モジュール24に供給する。
音声記号列生成モジュール24は、形態素解析モジュー
ル23による形態素解析結果に基づいて、テキストの音
韻情報等を含む音声記号を生成し、非言語音情報解釈モ
ジュール22に供給する。
That is, the non-verbal sound information interpretation module 22
Supplies the text to the morphological analysis module 23,
The morphological analysis module 23 performs a morphological analysis of the text and supplies it to the phonetic symbol string generation module 24.
The phonetic symbol string generation module 24 generates a phonetic symbol including phonemic information of the text based on the result of the morphological analysis by the morphological analysis module 23, and supplies the generated phonetic symbol to the non-verbal sound information interpreting module 22.

【0080】なお、形態素解析モジュール23は、特に
設ける必要はなく、テキストの形態素解析結果として
は、図5の言語解析部43で得られるものを用いること
が可能である。
The morphological analysis module 23 does not need to be provided, and the morphological analysis result of the text can be the one obtained by the language analysis unit 43 in FIG.

【0081】非言語音情報解釈モジュール22は、音声
記号列生成モジュール24から、テキストに対応する音
声記号(列)を受信すると、タイミングデータを、その
音声記号に対応したものに変換し、音声記号とともに、
規則合成モジュール25に供給する。
When the non-verbal sound information interpretation module 22 receives a voice symbol (string) corresponding to the text from the voice symbol string generation module 24, the non-verbal sound information interpretation module 22 converts the timing data into the one corresponding to the voice symbol, and With
It is supplied to the rule synthesizing module 25.

【0082】即ち、音声記号列生成モジュール24にお
いて、例えば、テキスト「今日はとっても眠い」につい
て、"(kyo'-wa/to'ttemo/nemui)"という音声記号が得ら
れたとする。
That is, it is assumed that the voice symbol string generation module 24 obtains, for example, a voice symbol "(kyo'-wa / to'ttemo / nemui)" for the text "Today is very sleepy."

【0083】ここで、音声記号"(kyo'-wa/to'ttemo/nem
ui)"においては、音韻情報が、ローマ字で表されてい
る。また、-は、長音を表し、()は、フレームの区切り
を表す。さらに、'は、アクセントを表し、/は、アクセ
ント句の区切りを表す。
Here, the phonetic symbol "(kyo'-wa / to'ttemo / nem
In "ui)", the phoneme information is represented in Roman characters.-represents a long sound, () represents a frame delimiter, 'represents an accent, and / represents an accent phrase. Represents a delimiter.

【0084】テキスト「今日はとっても眠い」のタイミ
ングデータは、上述したように、その先頭から3文字目
の直後を表すが、音声記号"(kyo'-wa/to'ttemo/nemui)"
において、テキスト「今日はとっても眠い」の先頭から
3文字目の直後に相当するのは、音韻情報"kyo-wa"の直
後である。従って、この場合、非言語音情報解釈モジュ
ール22では、先頭から3文字目というタイミングデー
タは、先頭から6文字目に変換される。なお、音声記号
における文字数は、音韻情報のみを対象にカウントする
ものとし、さらに、長音は音韻情報に含まれるものとす
る。
As described above, the timing data of the text "Today is very sleepy" represents immediately after the third character from the beginning, but the voice symbol "(kyo'-wa / to'ttemo / nemui)"
In the example, the part immediately after the third character from the beginning of the text “Today is very sleepy” is immediately after the phonetic information “kyo-wa”. Therefore, in this case, in the non-linguistic sound information interpretation module 22, the timing data of the third character from the beginning is converted to the sixth character from the beginning. Note that the number of characters in a phonetic symbol is counted only for phoneme information, and long sounds are included in phoneme information.

【0085】規則合成モジュール25は、非言語音情報
解釈モジュール22からの音声記号を用いて、規則音声
合成を行う。即ち、規則合成モジュール25は、まず、
非言語音情報解釈モジュール22から供給される音声記
号から、テキストに対応する合成音を生成する規則音声
合成を行うのに必要な情報を抽出する。ここで、規則音
声合成に必要な情報としては、例えば、ポーズの位置
や、アクセントおよびイントネーションを制御するため
の情報その他の韻律情報や、各単語の発音等の音韻情報
などがある。
The rule synthesizing module 25 uses the speech symbols from the non-verbal sound information interpreting module 22 to perform rule speech synthesis. That is, the rule synthesis module 25 first
From the speech symbols supplied from the non-verbal sound information interpretation module 22, information necessary for performing regular speech synthesis for generating a synthesized speech corresponding to the text is extracted. Here, the information necessary for the rule speech synthesis includes, for example, information for controlling the position of a pause, accent and intonation, other prosody information, and phoneme information such as pronunciation of each word.

【0086】さらに、規則合成モジュール25は、音素
片データベース26を参照して、非言語音生成モジュー
ル21からのテキストに対応する合成音の音声データ
(ディジタルデータ)を生成する。
Further, the rule synthesizing module 25 generates speech data (digital data) of synthesized speech corresponding to the text from the non-verbal sound generation module 21 with reference to the phoneme segment database 26.

【0087】即ち、音素片データベース26には、例え
ば、CV(Consonant, Vowel)や、VCV、CVC等の形
で音素片データが記憶されており、規則合成モジュール
25は、先に得た韻律情報や音韻情報に基づいて、必要
な音素片データを接続し、さらに、ポーズ、アクセン
ト、イントネーション等を適切に付加するように、ピッ
チ周波数の時間変化のパターン(ピッチパターン)や、
パワーの時間変化のパターン(パワーパターン)を設定
することで、非言語音生成モジュール21からのテキス
トに対応する合成音データを生成する。
That is, the speech segment database 26 stores speech segment data in the form of, for example, CV (Consonant, Vowel), VCV, CVC, and the like. Based on the phoneme information and the phoneme information, and a pattern of the time change of the pitch frequency (pitch pattern) such that a pause, accent, intonation, etc. are appropriately added,
By setting a time change pattern of power (power pattern), synthesized sound data corresponding to the text from the non-verbal sound generation module 21 is generated.

【0088】また、規則合成モジュール25は、非言語
音情報解釈モジュール22から音声記号とともに供給さ
れるタイミングデータを、生成した合成音データに対応
したものに変換する。
The rule synthesizing module 25 converts the timing data supplied together with the speech symbols from the non-verbal sound information interpreting module 22 into data corresponding to the generated synthesized sound data.

【0089】即ち、非言語音情報解釈モジュール22か
ら規則合成モジュール25に対して、例えば、上述した
ような音声記号"(kyo'-wa/to'ttemo/nemui)"と、その先
頭から6文字目の直後を表すタイミングデータが供給さ
れた場合において、音声記号の先頭から6文字目の直後
のタイミングが、例えば、合成音データの先頭から20
msであるときには、規則合成モジュール25では、6
文字目の直後を表すタイミングデータが、20msを表
すタイミングデータに変換される。
That is, the non-verbal sound information interpreting module 22 sends a rule to the rule synthesizing module 25, for example, using the above-mentioned phonetic symbol "(kyo'-wa / to'ttemo / nemui)" and the first six characters. When the timing data indicating immediately after the eye is supplied, the timing immediately after the sixth character from the beginning of the voice symbol is, for example, 20 times from the beginning of the synthetic sound data.
ms, the rule synthesizing module 25 sets 6
Timing data indicating immediately after the character is converted into timing data indicating 20 ms.

【0090】そして、規則合成モジュール25は、テキ
ストに対応する合成音データと、変換後のタイミングデ
ータを、テキスト非言語音融合モジュール29に供給す
る。
Then, the rule synthesis module 25 supplies the synthesized speech data corresponding to the text and the converted timing data to the text non-language sound fusion module 29.

【0091】非言語音変換モジュール27は、非言語音
情報解釈モジュール22からの非言語音情報とタイミン
グデータを受信し、その非言語音情報を用い、非言語音
変換テーブル記憶部28を参照することで、音響データ
を生成する。
The non-verbal sound conversion module 27 receives the non-verbal sound information and the timing data from the non-verbal sound information interpretation module 22, and refers to the non-verbal sound conversion table storage unit 28 using the non-verbal sound information. Thus, acoustic data is generated.

【0092】即ち、非言語音変換テーブル記憶部28
は、非言語音情報が表す効果音の音響データを、その非
言語音情報と対応付けた非言語音変換テーブルを記憶し
ており、非言語音変換モジュール27は、非言語音変換
テーブルにおいて、非言語音解釈モジュール22からの
非言語音情報と対応付けられている音響データを読み出
す。
That is, the non-language sound conversion table storage unit 28
Stores a non-linguistic sound conversion table in which sound data of a sound effect represented by the non-linguistic sound information is associated with the non-linguistic sound information. The sound data associated with the non-verbal sound information from the non-verbal sound interpretation module 22 is read.

【0093】ここで、非言語音変換テーブルにおいて
は、例えば、非言語音情報「あくび」に対して、あくび
の音である、例えば、「あーあ」などが記憶されてい
る。また、非言語音変換テーブルにおいては、図6に示
した非言語音情報「せみの声」に対しては、せみの鳴き
声である、例えば、「ミーンミーン」などが、非言語音
情報「ビールを飲む音」に対しては、ビールを飲むとき
の、喉が鳴ると言われている音に対応する、例えば、
「ゴクゴク」などが、非言語音情報「ドアをたたく音」
に対しては、ドアをたたいたときに生じる音である、例
えば、「ドンドン」などが、非言語音情報「楽しそうな
音」に対しては、楽しげな感情を表現する音である、例
えば、アップテンポで、明るい感じの曲(例えば、ハ長
調の曲)などが、それぞれ記憶されている。
Here, in the non-verbal sound conversion table, for example, for the non-verbal sound information “yawn”, a yawning sound such as “ah” is stored. Further, in the non-verbal sound conversion table, for the non-verbal sound information “semi-voice” shown in FIG. 6, for example, “mean mean” or the like For "drinking sound", it corresponds to the sound said to sound throat when drinking beer, for example,
"Gokugoku" and other non-verbal sound information "Sound of knocking on the door"
Is a sound generated when the door is hit, for example, "Don Don" is a sound that expresses a joyful emotion with respect to the non-verbal sound information "Pleasant sound" For example, a song that has a bright tempo (for example, a song in C major) at an up tempo is stored.

【0094】非言語音変換モジュール27は、非言語音
情報に対応する音響データを得ると、その音響データ
と、非言語音情報解釈モジュール22から非言語音情報
とともに供給されたタイミングデータとを、テキスト非
言語音融合モジュール29に供給する。
When obtaining the sound data corresponding to the non-verbal sound information, the non-verbal sound conversion module 27 converts the sound data and the timing data supplied together with the non-verbal sound information from the non-verbal sound information interpretation module 22 into the non-verbal sound information. It is supplied to the text non-verbal sound fusion module 29.

【0095】テキスト非言語音融合モジュール29は、
規則合成モジュール25からの合成音データと、非言語
音変換モジュール27からの音響データとを融合し、最
終的な合成音データを得て、発声モジュール30に供給
する。
The text non-language sound fusion module 29
The synthesized speech data from the rule synthesis module 25 and the sound data from the non-verbal sound conversion module 27 are merged to obtain final synthesized speech data, which is supplied to the utterance module 30.

【0096】即ち、テキスト非言語音融合モジュール2
9は、規則合成モジュール25から供給される合成音デ
ータの、同じく規則合成モジュール25から供給される
タイミングデータが表す位置から、非言語音変換モジュ
ール27から供給される音響データを挿入する。あるい
は、また、テキスト非言語音融合モジュール29は、規
則合成モジュール25から供給される合成音データに対
し、同じく規則合成モジュール25から供給されるタイ
ミングデータが表す位置から、非言語音変換モジュール
27から供給される音響データを重畳する。
That is, the text non-language sound fusion module 2
9 inserts the sound data supplied from the non-language sound conversion module 27 from the position of the synthesized sound data supplied from the rule synthesis module 25, which is also indicated by the timing data supplied from the rule synthesis module 25. Alternatively, the text / non-verbal sound fusion module 29 receives the synthesized voice data supplied from the rule synthesizing module 25 from the position represented by the timing data also supplied from the rule synthesizing module 25, The supplied acoustic data is superimposed.

【0097】なお、テキスト非言語音融合モジュール2
9では、規則合成モジュール25から供給される合成音
データに対し、非言語音変換モジュール27から供給さ
れる音響データを、その音響データの長さ分だけ重畳す
る他、合成音データの全体にわたって、音響データを繰
り返し重畳することも可能である。即ち、音響データ
は、合成音データの一部または全部に重畳することが可
能である。
The text non-language sound fusion module 2
In step 9, the sound data supplied from the non-verbal sound conversion module 27 is superimposed on the synthesized sound data supplied from the rule synthesizing module 25 by the length of the sound data. It is also possible to superimpose acoustic data repeatedly. That is, the sound data can be superimposed on part or all of the synthesized sound data.

【0098】また、テキスト非言語音融合モジュール2
9において、合成音データに、音響データを挿入する場
合には、音響データを複数回繰り返して挿入することが
可能である。
The text non-language sound fusion module 2
In 9, when sound data is inserted into synthesized sound data, sound data can be repeatedly inserted a plurality of times.

【0099】発声モジュール30は、テキスト非言語音
融合モジュール30が出力する合成音データを、必要に
応じて増幅し、さらに、D/A(Digital/Analog)変換を
行って、スピーカ18(図3)に供給する。
The utterance module 30 amplifies the synthesized sound data output from the text non-verbal sound fusion module 30 as necessary, and further performs D / A (Digital / Analog) conversion to obtain the speaker 18 (FIG. 3). ).

【0100】以上のように構成される音声合成部55で
は、行動決定機構部52(図3)から供給される行動指
令情報に含まれるテキストから、非言語音情報を抽出
し、さらに、そのテキストに対応する音声記号を生成す
る前処理、テキストから抽出された非言語音情報に対応
する音響データを生成する非言語音情報処理、およびテ
キストに対応する合成音データを生成し、その合成音デ
ータと、非言語音情報に対応する音響データとを融合し
て、最終的な合成音データを得る音声合成処理が行われ
る。
The speech synthesizing unit 55 configured as described above extracts non-verbal sound information from the text included in the action command information supplied from the action determination mechanism unit 52 (FIG. 3). Pre-processing to generate a speech symbol corresponding to the text, non-verbal sound information processing to generate sound data corresponding to the non-verbal sound information extracted from the text, and generating synthetic voice data corresponding to the text, and the synthesized voice data And sound data corresponding to the non-verbal sound information, and a speech synthesis process for obtaining final synthesized sound data is performed.

【0101】そこで、まず、図7のフローチャートを参
照して、前処理について説明する。
The preprocessing will be described first with reference to the flowchart of FIG.

【0102】非言語音生成モジュール21に対し、行動
決定機構部52(図3)から、音声合成の対象とするテ
キストを含む行動指令情報が供給されると、非言語音生
成モジュール21は、行動決定機構部52からの行動指
令情報を受信する。
When action instruction information including a text to be subjected to speech synthesis is supplied from the action determination mechanism unit 52 (FIG. 3) to the non-verbal sound generation module 21, the non-verbal sound generation module 21 The action command information from the determination mechanism unit 52 is received.

【0103】そして、非言語音生成モジュール21(図
5)のテキスト処理部41は、ステップS1において、
その行動指令情報から、そこに含まれるテキストを抽出
し、抽出部42と出力部45に供給して、ステップS2
に進む。
Then, the text processing unit 41 of the non-verbal sound generation module 21 (FIG. 5)
From the action command information, a text contained therein is extracted and supplied to the extraction unit 42 and the output unit 45, and the process proceeds to step S2.
Proceed to.

【0104】ステップS2では、抽出部42は、言語解
析部43を制御することにより、テキスト処理部41か
らのテキストについて、言語解析を行わせ、その言語解
析結果を受信する。さらに、抽出部42は、ステップS
3に進み、言語解析部43にからの言語解析結果に基づ
き、非言語音情報データベース44を参照することで、
テキストに、非言語音情報が存在するかどうかを判定す
る。
In step S2, the extraction unit 42 controls the language analysis unit 43 to perform a language analysis on the text from the text processing unit 41, and receives a result of the language analysis. Further, the extraction unit 42
3 and referring to the non-linguistic sound information database 44 based on the language analysis result from the language analysis unit 43,
It is determined whether or not non-verbal sound information exists in the text.

【0105】ステップS3において、非言語音情報が存
在しないと判定された場合、ステップS4に進み、出力
部45は、テキスト処理部41からのテキストだけを、
後段の非言語音情報解釈モジュール22(図4)に出力
し、ステップS7に進む。
If it is determined in step S3 that there is no non-verbal sound information, the process proceeds to step S4, where the output unit 45 outputs only the text from the text processing unit 41.
The information is output to the non-linguistic sound information interpretation module 22 (FIG. 4) at the subsequent stage, and the process proceeds to step S7.

【0106】ステップS7では、非言語音情報解釈モジ
ュール22が、非言語音生成モジュール21(の出力部
45)からのテキストを、形態素解析モジュール23に
供給する。これにより、ステップS7では、形態素解析
モジュール23において、そのテキストの形態素解析が
行われ、音声記号列生成モジュール24に供給される。
音声記号列生成モジュール24は、形態素解析モジュー
ル23による形態素解析結果に基づいて、テキストの音
韻情報等を含む音声記号を生成し、非言語音情報解釈モ
ジュール22に供給する。
In step S7, the non-verbal sound information interpretation module 22 supplies the text from the (non-verbal sound generation module 21 output unit 45) to the morphological analysis module 23. Accordingly, in step S7, the morphological analysis of the text is performed in the morphological analysis module 23, and the text is supplied to the phonetic symbol string generation module 24.
The phonetic symbol string generation module 24 generates a phonetic symbol including phonemic information of the text based on the result of the morphological analysis by the morphological analysis module 23, and supplies the generated phonetic symbol to the non-verbal sound information interpreting module 22.

【0107】その後、ステップS8に進み、非言語音情
報解釈モジュール22は、音声記号列生成モジュール2
4からの音声記号を、規則合成モジュール25に出力
し、前処理を終了する。
Thereafter, the process proceeds to step S8, where the non-verbal sound information interpreting module 22
Then, the phonetic symbol from No. 4 is output to the rule synthesizing module 25, and the preprocessing is terminated.

【0108】このように、非言語音情報解釈モジュール
22から音声記号列生成モジュール24に対して、音声
記号だけが供給される場合には、規則合成モジュール2
5およびテキスト非言語音融合モジュール29では、後
述する音声合成処理(図9)において、従来の場合と同
様の合成音データが生成される。
As described above, when only the speech symbols are supplied from the non-verbal sound information interpretation module 22 to the speech symbol string generation module 24, the rule synthesis module 2
5 and the text non-language sound fusion module 29 generate the same synthesized sound data as in the conventional case in a speech synthesis process (FIG. 9) described later.

【0109】一方、ステップS3において、非言語音情
報が存在すると判定された場合、即ち、テキストの中
に、非言語音情報データベース44に記憶された見出し
およびタイプに合致する単語(非言語音情報対応単語)
が存在する場合、抽出部42は、非言語音情報データベ
ース44から、その非言語音情報対文字列に対応付けら
れている非言語音情報を読み出し、出力部45に供給し
て、ステップS5に進む。
On the other hand, if it is determined in step S3 that non-verbal sound information is present, that is, a word (non-verbal sound information) matching the heading and type stored in the non-verbal sound information database 44 in the text Corresponding words)
Exists, the extraction unit 42 reads out the non-verbal sound information associated with the non-verbal sound information-character string from the non-verbal sound information database 44, supplies the non-verbal sound information to the output unit 45, and proceeds to step S5. move on.

【0110】ステップS5では、出力部45が、テキス
ト処理部41からのテキストと、抽出部42からの非言
語音情報とを、後段の非言語音情報解釈モジュール22
(図4)に出力する。
In step S5, the output unit 45 converts the text from the text processing unit 41 and the non-linguistic sound information from the extraction unit 42 into the non-linguistic sound information interpretation module 22 in the subsequent stage.
(FIG. 4).

【0111】非言語音情報解釈モジュール22は、非言
語音生成モジュール21(の出力部45)からテキスト
と、非言語音情報を受信すると、ステップS5からステ
ップS6に進み、そのテキストおよび非言語音情報につ
いて、タイミングデータを生成して、ステップS7に進
む。
When the non-verbal sound information interpretation module 22 receives the text and the non-verbal sound information from (the output unit 45 of) the non-verbal sound generation module 21, the process proceeds from step S5 to step S6, where the text and the non-verbal sound The timing data is generated for the information, and the process proceeds to step S7.

【0112】ステップS7では、非言語音情報解釈モジ
ュール22が、上述したように、非言語音生成モジュー
ル21(の出力部45)からのテキストを、形態素解析
モジュール23に供給し、これにより、形態素解析モジ
ュール23において、そのテキストの形態素解析が行わ
れ、さらに、音声記号列生成モジュール24において、
形態素解析モジュール23による形態素解析結果に基づ
いて、テキストの音韻情報等を含む音声記号が生成さ
れ、非言語音情報解釈モジュール22に供給される。
In step S7, the non-verbal sound information interpreting module 22 supplies the text from (the output unit 45 of) the non-verbal sound generating module 21 to the morphological analysis module 23, as described above. The analysis module 23 performs a morphological analysis of the text, and furthermore, the phonetic symbol string generation module 24
Based on the result of the morphological analysis performed by the morphological analysis module 23, a phonetic symbol including text phoneme information and the like is generated and supplied to the non-verbal sound information interpretation module 22.

【0113】その後、ステップS8に進み、非言語音情
報解釈モジュール22は、音声記号列生成モジュール2
4からの音声記号を、ステップS6で生成したタイミン
グデータとともに、規則合成モジュール25に出力す
る。さらに、この場合、ステップS8では、非言語音情
報解釈モジュール22は、ステップS5で得た非言語音
情報を、タイミングデータとともに、非言語音変換モジ
ュール27に出力し、前処理を終了する。
Thereafter, the process proceeds to step S8, where the non-verbal sound information interpreting module 22
Then, the voice symbol from No. 4 is output to the rule synthesizing module 25 together with the timing data generated in step S6. Further, in this case, in step S8, the non-verbal sound information interpretation module 22 outputs the non-verbal sound information obtained in step S5 together with the timing data to the non-verbal sound conversion module 27, and ends the preprocessing.

【0114】次に、図8のフローチャートを参照して、
非言語音情報処理について説明する。
Next, referring to the flowchart of FIG.
The non-verbal sound information processing will be described.

【0115】非言語音情報処理は、非言語音変換モジュ
ール27が、非言語音情報解釈モジュール22から供給
される、非言語音情報とタイミングデータを受信するこ
とにより開始される。
The non-verbal sound information processing is started when the non-verbal sound conversion module 27 receives the non-verbal sound information and the timing data supplied from the non-verbal sound information interpretation module 22.

【0116】即ち、非言語音変換モジュール27は、非
言語音情報解釈モジュール22から、非言語音情報とタ
イミングデータを受信すると、ステップS11におい
て、その非言語音情報を、非言語音変換テーブル記憶部
28から検索し、ステップS12に進む。
That is, when the non-verbal sound conversion module 27 receives the non-verbal sound information and the timing data from the non-verbal sound information interpretation module 22, in step S11, the non-verbal sound information is stored in the non-verbal sound conversion table. The search is performed from the unit 28, and the process proceeds to step S12.

【0117】ステップS12では、非言語音変換モジュ
ール27は、ステップS11の検索処理結果に基づい
て、非言語音情報解釈モジュール22からの非言語音情
報が、非言語音変換テーブル記憶部28に登録されてい
るかどうかを判定する。
In step S12, the non-linguistic sound conversion module 27 registers the non-linguistic sound information from the non-linguistic sound information interpretation module 22 in the non-linguistic sound conversion table storage unit 28 based on the search processing result in step S11. It is determined whether or not it has been performed.

【0118】ステップS12において、非言語音情報
が、非言語音変換テーブル記憶部28に登録されていな
いと判定された場合、ステップS13をスキップして、
非言語音情報処理を終了する。
If it is determined in step S12 that the non-verbal sound information is not registered in the non-verbal sound conversion table storage unit 28, step S13 is skipped and
The non-verbal sound information processing ends.

【0119】この場合、非言語音変換モジュール27か
らテキスト非言語音融合モジュール29に対しては、音
響データが供給されず、従って、後述する音声合成処理
において、規則合成モジュール25が出力する合成音デ
ータは、テキスト非言語音融合モジュール29で特に処
理されずに出力される。このため、音声合成部55から
は、従来の場合と同様の合成音データが出力される。
In this case, no acoustic data is supplied from the non-verbal sound conversion module 27 to the text non-verbal sound fusion module 29, and therefore, in the voice synthesis processing described later, the synthesized voice output from the rule synthesizing module 25 is output. The data is output without any special processing by the text non-verbal sound fusion module 29. For this reason, the synthesized voice data is output from the voice synthesizing unit 55 as in the conventional case.

【0120】一方、ステップS12において、非言語音
情報が、非言語音変換テーブル記憶部28に登録されて
いると判定された場合、ステップS13に進み、非言語
音変換モジュール27は、その非言語音情報に対応付け
られている音響データを、非言語音変換テーブル記憶部
28から読み出し、非言語音情報解釈モジュール22か
ら供給されたタイミングデータとともに、テキスト非言
語音融合モジュール29に供給して、非言語音情報処理
を終了する。
On the other hand, if it is determined in step S12 that the non-verbal sound information is registered in the non-verbal sound conversion table storage unit 28, the process proceeds to step S13, where the non-verbal sound conversion module 27 The sound data associated with the sound information is read from the non-verbal sound conversion table storage unit 28, and supplied to the text non-verbal sound fusion module 29 together with the timing data supplied from the non-verbal sound information interpretation module 22. The non-verbal sound information processing ends.

【0121】次に、図9のフローチャートを参照して、
音声合成処理について説明する。
Next, referring to the flowchart of FIG.
The speech synthesis processing will be described.

【0122】音声合成処理は、規則合成モジュール25
が、非言語音情報解釈モジュール22から供給される、
音声記号(さらには、タイミングデータ)を受信するこ
とにより開始される。
The speech synthesis processing is performed by the rule synthesis module 25.
Is supplied from the non-verbal sound information interpretation module 22.
It starts by receiving a phonetic symbol (and also timing data).

【0123】即ち、規則合成モジュール25は、非言語
音情報解釈モジュール22から、音声記号(さらには、
タイミングデータ)を受信すると、ステップS21にお
いて、その音声記号を用いて規則音声合成を行うことに
より、行動指令情報に含まれているテキストに対応する
合成音データを生成し、テキスト非言語音融合モジュー
ル29に供給する。
That is, the rule synthesizing module 25 sends the non-verbal sound information interpretation module 22
When the timing data is received, in step S21, synthesized speech data corresponding to the text included in the action command information is generated by performing regular speech synthesis using the speech symbols, and the text non-verbal sound fusion module is used. 29.

【0124】テキスト非言語音融合モジュール29は、
規則合成モジュール25から合成音データを受信する
と、ステップS22に進み、非言語音変換モジュール2
7から、非言語音情報に対応する音響データが送信され
てきたかどうかを判定する。
The text non-language sound fusion module 29
Upon receiving the synthesized speech data from the rule synthesis module 25, the process proceeds to step S22, where the non-verbal sound conversion module 2
From 7, it is determined whether or not the acoustic data corresponding to the non-verbal sound information has been transmitted.

【0125】ステップS22において、音響データが送
信されてきていないと判定された場合、ステップS23
をスキップして、ステップS24に進み、テキスト非言
語音融合モジュール29は、規則合成モジュール25か
らの合成音データを、そのまま、発声モジュール30に
供給して、音声合成処理を終了する。
If it is determined in step S22 that no sound data has been transmitted, the process proceeds to step S23.
Then, the text non-verbal sound fusion module 29 supplies the synthesized voice data from the rule synthesis module 25 to the utterance module 30 as it is, and ends the voice synthesis processing.

【0126】従って、この場合、スピーカ18からは、
規則合成モジュール25で生成された合成音データ(に
対応する合成音)がそのまま出力される。
Accordingly, in this case, the speaker 18 outputs
The synthesized speech data generated by the rule synthesis module 25 (synthesized speech corresponding to) is output as it is.

【0127】一方、ステップS22において、音響デー
タが送信されてきたと判定された場合、ステップS23
に進み、テキスト非言語音融合モジュール29は、その
音響データと、規則合成モジュール25からの合成音デ
ータとを融合し、発声モジュール30に供給して、音声
合成処理を終了する。
On the other hand, if it is determined in step S22 that the acoustic data has been transmitted, the process proceeds to step S23.
The text non-language sound fusion module 29 fuses the sound data with the synthesized sound data from the rule synthesis module 25, supplies the sound data to the utterance module 30, and ends the speech synthesis processing.

【0128】従って、この場合、スピーカ18からは、
規則合成モジュール25が出力する合成音データに、非
言語音変換モジュール27が出力する音響データが重
畳、または挿入されたものが出力される。即ち、例え
ば、規則合成モジュール25において、テキスト「今日
はとっても眠い」に対応する合成音データが生成される
とともに、非言語音変換モジュール27において、非言
語情報「あくび」に対応するあくびをする音(効果音)
「あーあ」の音響データが生成されたときには、テキス
ト非言語音融合モジュール29では、例えば、その合成
音データと音響データとが重畳されて出力される。その
結果、スピーカ18においては、「今日はとっても眠
い」という合成音が出力されるとともに、「あーあ」と
いうあくびをする効果音が出力される。
Accordingly, in this case, the speaker 18 outputs
The sound data output from the non-verbal sound conversion module 27 is superimposed or inserted on the synthesized sound data output from the rule synthesis module 25. That is, for example, the rule synthesis module 25 generates synthesized sound data corresponding to the text “Today is very sleepy”, and the non-verbal sound conversion module 27 generates a yawning sound corresponding to the non-verbal information “yawn”. (Sound effect)
When the sound data of “Ah” is generated, the text non-language sound fusion module 29 outputs the synthesized sound data and the sound data in a superimposed manner, for example. As a result, the speaker 18 outputs a synthesized sound “Today is very sleepy” and outputs a yawning sound effect “Ah”.

【0129】以上のように、テキストから、非言語音情
報を抽出し、その非言語音情報に対応する音響データを
生成して、テキストに対応する合成音データと融合する
ようにしたので、テキストの意味するところを、効果的
に表現する合成音を得ることが可能となり、その結果、
例えば、ロボットのエンタテイメント性を向上させるこ
と等が可能となる。
As described above, the non-verbal sound information is extracted from the text, the sound data corresponding to the non-verbal sound information is generated, and the sound data is merged with the synthesized sound data corresponding to the text. It is possible to obtain a synthesized sound that effectively expresses the meaning of
For example, it is possible to improve the entertainment property of the robot.

【0130】以上、本発明を、エンターテイメント用の
ロボット(疑似ペットとしてのロボット)に適用した場
合について説明したが、本発明は、これに限らず、例え
ば、音声合成装置を搭載した対話システムその他に広く
適用することが可能である。また、本発明は、現実世界
のロボットだけでなく、例えば、液晶ディスプレイ等の
表示装置に表示される仮想的なロボットにも適用可能で
ある。
Although the present invention has been described above in connection with the case where the present invention is applied to an entertainment robot (robot as a pseudo pet), the present invention is not limited to this. It can be widely applied. In addition, the present invention is applicable not only to a robot in the real world but also to a virtual robot displayed on a display device such as a liquid crystal display.

【0131】なお、本実施の形態においては、上述した
一連の処理を、CPU10Aにプログラムを実行させる
ことにより行うようにしたが、一連の処理は、それ専用
のハードウェアによって行うことも可能である。
In the present embodiment, the above-described series of processing is performed by causing the CPU 10A to execute a program. However, the series of processing may be performed by dedicated hardware. .

【0132】ここで、プログラムは、あらかじめメモリ
10B(図2)に記憶させておく他、フレキシブルディ
スク、CD-ROM(Compact Disc Read Only Memory),MO(Ma
gneto optical)ディスク,DVD(Digital Versatile Dis
c)、磁気ディスク、半導体メモリなどのリムーバブル記
録媒体に、一時的あるいは永続的に格納(記録)してお
くことができる。そして、このようなリムーバブル記録
媒体を、いわゆるパッケージソフトウエアとして提供
し、ロボット(メモリ10B)にインストールするよう
にすることができる。
The program is stored in the memory 10B (FIG. 2) in advance, and is stored in a flexible disk, CD-ROM (Compact Disc Read Only Memory), MO (Ma
gneto optical) disc, DVD (Digital Versatile Dis)
c) It can be temporarily or permanently stored (recorded) in a removable recording medium such as a magnetic disk or a semiconductor memory. Then, such a removable recording medium can be provided as so-called package software, and can be installed in the robot (memory 10B).

【0133】また、プログラムは、ダウンロードサイト
から、ディジタル衛星放送用の人工衛星を介して、無線
で転送したり、LAN(Local Area Network)、インターネ
ットといったネットワークを介して、有線で転送し、メ
モリ10Bにインストールすることができる。
The program is transferred from the download site wirelessly via an artificial satellite for digital satellite broadcasting, or by wire via a network such as a LAN (Local Area Network) or the Internet. Can be installed.

【0134】この場合、プログラムがバージョンアップ
されたとき等に、そのバージョンアップされたプログラ
ムを、メモリ10Bに、容易にインストールすることが
できる。
In this case, when the program is upgraded, the upgraded program can be easily installed in the memory 10B.

【0135】なお、本明細書において、CPU10Aに
各種の処理を行わせるためのプログラムを記述する処理
ステップは、必ずしもフローチャートとして記載された
順序に沿って時系列に処理する必要はなく、並列的ある
いは個別に実行される処理(例えば、並列処理あるいは
オブジェクトによる処理)も含むものである。
In the present specification, processing steps for describing a program for causing the CPU 10A to perform various kinds of processing do not necessarily have to be processed in chronological order in the order described in the flowchart, and may be performed in parallel or in parallel. The processing also includes processing executed individually (for example, parallel processing or processing by an object).

【0136】また、プログラムは、1のCPUにより処
理されるものであっても良いし、複数のCPUによって
分散処理されるものであっても良い。
Further, the program may be processed by one CPU or may be processed by a plurality of CPUs in a distributed manner.

【0137】次に、図4の音声合成部55は、専用のハ
ードウェアにより実現することもできるし、ソフトウェ
アにより実現することもできる。音声合成部55をソフ
トウェアによって実現する場合には、そのソフトウェア
を構成するプログラムが、汎用のコンピュータ等にイン
ストールされる。
Next, the voice synthesizing section 55 of FIG. 4 can be realized by dedicated hardware or software. When the speech synthesis unit 55 is realized by software, a program constituting the software is installed in a general-purpose computer or the like.

【0138】そこで、図10は、音声合成部55を実現
するためのプログラムがインストールされるコンピュー
タの一実施の形態の構成例を示している。
FIG. 10 shows a configuration example of an embodiment of a computer in which a program for realizing the speech synthesizing section 55 is installed.

【0139】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
The program is stored in a hard disk 105 or a ROM 1 as a recording medium built in the computer.
03 can be recorded in advance.

【0140】あるいはまた、プログラムは、フレキシブ
ルディスク、CD-ROM,MOディスク,DVD、磁気ディス
ク、半導体メモリなどのリムーバブル記録媒体111
に、一時的あるいは永続的に格納(記録)しておくこと
ができる。このようなリムーバブル記録媒体111は、
いわゆるパッケージソフトウエアとして提供することが
できる。
Alternatively, the program is stored in a removable recording medium 111 such as a flexible disk, CD-ROM, MO disk, DVD, magnetic disk, or semiconductor memory.
Can be stored (recorded) temporarily or permanently. Such a removable recording medium 111 includes:
It can be provided as so-called package software.

【0141】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN、インターネットといったネットワークを介
して、コンピュータに有線で転送し、コンピュータで
は、そのようにして転送されてくるプログラムを、通信
部108で受信し、内蔵するハードディスク105にイ
ンストールすることができる。
The program may be installed on the computer from the removable recording medium 111 as described above, or may be wirelessly transferred from a download site to the computer via an artificial satellite for digital satellite broadcasting, or transmitted over a LAN or the Internet. The program can be transferred to a computer via a network via a wire, and the program can be received by the communication unit 108 and installed on the built-in hard disk 105.

【0142】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
The computer has a CPU (Central Processing).
Unit) 102. The CPU 102 has a bus 1
The input / output interface 110 is connected to the CPU 102 via the input / output interface 110 and the user operates the input unit 107 including a keyboard, a mouse, and a microphone via the input / output interface 110. When a command is input, the ROM (Read O
nly Memory) 103 is executed. Alternatively, the CPU 102 may execute a program stored in the hard disk 105, a program transferred from a satellite or a network, received by the communication unit 108 and installed in the hard disk 105, or a removable recording medium 111 mounted in the drive 109. The program read and installed on the hard disk 105 is stored in a RAM (Random Access Memory).
y) Load to 104 and execute. Thereby, the CPU 10
2 performs processing according to the above-described flowchart or processing performed by the configuration of the above-described block diagram. Then, the CPU 102 transmits the processing result as necessary, for example, via the input / output interface 110.
An output is made from an output unit 106 composed of an LCD (Liquid CryStal Display), a speaker, or the like, or transmitted from a communication unit 108, and further recorded on the hard disk 105.

【0143】なお、本実施の形態では、行動決定機構部
52が生成するテキストから合成音を生成するようにし
たが、本発明は、あからじめ用意されたテキストから合
成音を生成する場合にも適用可能である。さらに、本発
明は、あらかじめ録音してある音声データを編集して、
目的とする合成音を生成する場合にも適用可能である。
In the present embodiment, the synthetic sound is generated from the text generated by the action determining mechanism 52. However, the present invention is applied to the case where the synthetic sound is generated from the text prepared in advance. It is also applicable to Furthermore, the present invention edits audio data recorded in advance,
The present invention is also applicable to a case where a desired synthetic sound is generated.

【0144】また、本実施の形態においては、テキスト
に対応する合成音データに、そのテキストから抽出した
非言語音情報に対応する効果音の音響データを融合(重
畳または挿入)するようにしたが、その他、音響データ
は、例えば、テキストの表示に同期して出力するように
すること等が可能である。
In the present embodiment, the sound data of the sound effect corresponding to the non-verbal sound information extracted from the text is fused (superimposed or inserted) with the synthetic sound data corresponding to the text. Alternatively, the sound data can be output, for example, in synchronization with the display of the text.

【0145】さらに、本発明は、ユーザが、テキスト
を、キーボード等によって入力し、そのテキストを、合
成音によって読み上げるような読み上げ装置にも適用す
ることができる。この場合、テキストを入力したユーザ
の意図や感情等を反映した、豊かな表現の合成音を生成
することが可能となる。
Furthermore, the present invention can also be applied to a reading device in which a user inputs a text with a keyboard or the like and reads the text with a synthetic sound. In this case, it is possible to generate a synthetic sound with a rich expression that reflects the intention and emotion of the user who has input the text.

【0146】また、テキストだけでなく、非言語音情報
も、ユーザが、キーボード等によって入力するようにす
ることができる。この場合、テキストには現れない感情
等を表現する合成音を得ることが可能となる。
In addition to text, non-verbal sound information can be input by the user using a keyboard or the like. In this case, it is possible to obtain a synthetic sound that expresses an emotion that does not appear in the text.

【0147】さらに、本実施の形態では、非言語音情報
に対応する音響データを、合成音データに融合するよう
にしたが、その他、例えば、非言語音情報に基づいて、
音質や韻律等といった音声タイプを制御した合成音デー
タを生成するようにすることも可能である。即ち、規則
合成モジュール25においては、非言語音情報に基づい
て音声タイプを設定し、その音声タイプにしたがって、
規則音声合成に用いる合成パラメータを設定して、合成
音データを生成するようにすることが可能である。
Further, in the present embodiment, the sound data corresponding to the non-verbal sound information is merged with the synthesized sound data. However, for example, based on the non-verbal sound information,
It is also possible to generate synthesized sound data in which sound types such as sound quality and prosody are controlled. That is, in the rule synthesizing module 25, a speech type is set based on the non-verbal sound information, and according to the speech type,
It is possible to generate synthesized speech data by setting synthesis parameters used for regular speech synthesis.

【0148】具体的には、規則合成モジュール25にお
いて、設定した音声タイプにしたがい、例えば、合成音
データの生成に用いる音素片データの周波数特性等を、
高域強調や低域強調、イコライジング等を行うことによ
って変更し、その周波数特性を変更した音素片データを
接続することで、合成音データを生成する。これによ
り、規則合成モジュール25では、男性または女性らし
い合成音データや、子供っぽい合成音データ、楽しげな
または悲しげな感じの合成音データ等の各種の音声タイ
プの合成音データを生成することができる。また、規則
合成モジュール25では、設定した音声タイプにしたが
い、ピッチパターンやパワーパターンを決定し、その決
定したピッチパターンやパワーパターンを有する合成音
データを生成するようにすることも可能である。
More specifically, in the rule synthesis module 25, for example, the frequency characteristics of the speech segment data used for generating the synthesized speech data are determined according to the set speech type.
Synthesized sound data is generated by changing by performing high-frequency emphasis, low-frequency emphasis, equalizing, and the like, and connecting the speech element data whose frequency characteristics have been changed. Thus, the rule synthesis module 25 generates synthetic sound data of various voice types, such as synthetic sound data of a man or a woman, synthetic sound data of a child, and synthetic sound data of a pleasant or sad feeling. be able to. Further, the rule synthesis module 25 can determine a pitch pattern or a power pattern according to the set voice type, and generate synthesized sound data having the determined pitch pattern or power pattern.

【0149】以上のように、合成音の音声タイプを制御
する場合には、自然な合成音を得ること等が可能とな
る。
As described above, when controlling the speech type of the synthesized sound, it is possible to obtain a natural synthesized sound.

【0150】また、本実施の形態においては、規則音声
合成によって、テキストから合成音を生成するようにし
たが、合成音は、規則音声合成以外の方法によって生成
することも可能である。
Further, in the present embodiment, the synthesized speech is generated from the text by the ruled speech synthesis, but the synthesized speech can be generated by a method other than the ruled speech synthesis.

【0151】[0151]

【発明の効果】以上の如く、本発明の音声合成装置およ
び音声合成方法、並びにプログラムによれば、テキスト
とともに入力される、非言語的な音の情報である非言語
音情報に基づいて、音響データが生成されるとともに、
テキストに対応する合成音データが生成され、音響デー
タと合成音データとが融合される。従って、テキストに
よって伝えようとする意図や感情等を、効果的に表現す
る合成音を得ること等が可能となる。
As described above, according to the speech synthesizing apparatus, the speech synthesizing method, and the program of the present invention, the sound is synthesized based on the non-verbal sound information, which is the information of the non-verbal sound input together with the text. As data is generated,
Synthesized sound data corresponding to the text is generated, and the sound data and the synthesized sound data are merged. Therefore, it is possible to obtain a synthesized sound that effectively expresses the intention, emotion, and the like to be transmitted by text.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明を適用したロボットの一実施の形態の外
観構成例を示す斜視図である。
FIG. 1 is a perspective view illustrating an external configuration example of a robot according to an embodiment of the present invention.

【図2】ロボットの内部構成例を示すブロック図であ
る。
FIG. 2 is a block diagram illustrating an example of an internal configuration of a robot.

【図3】コントローラ10の機能的構成例を示すブロッ
ク図である。
FIG. 3 is a block diagram illustrating a functional configuration example of a controller 10;

【図4】音声合成部55の構成例を示すブロック図であ
る。
FIG. 4 is a block diagram illustrating a configuration example of a speech synthesis unit 55;

【図5】非言語音生成モジュール21の構成例を示すブ
ロック図である。
FIG. 5 is a block diagram illustrating a configuration example of a non-language sound generation module 21.

【図6】非言語音情報データベース44の記憶内容を示
す図である。
FIG. 6 is a diagram showing storage contents of a non-verbal sound information database 44;

【図7】前処理を説明するフローチャートである。FIG. 7 is a flowchart illustrating pre-processing.

【図8】非言語音情報処理を説明するフローチャートで
ある。
FIG. 8 is a flowchart illustrating non-verbal sound information processing.

【図9】音声合成処理を説明するフローチャートであ
る。
FIG. 9 is a flowchart illustrating a speech synthesis process.

【図10】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
FIG. 10 is a block diagram illustrating a configuration example of a computer according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 頭部ユニット, 4A 下顎部, 10 コントロ
ーラ, 10A CPU, 10B メモリ, 15
マイク, 16 CCDカメラ, 17 タッチセン
サ, 18 スピーカ, 21 非言語音生成モジュー
ル, 22 非言語音情報解釈モジュール, 23 形
態素解析モジュール, 24 音声記号列生成モジュー
ル, 25 規則合成モジュール, 26 音素片デー
タベース,27 非言語音変換モジュール, 28 非
言語音変換テーブル記憶部, 29 テキスト非言語音
融合モジュール, 30 発声モジュール, 41 テ
キスト処理部, 42 抽出部, 43 言語解析部,
44 非言語音情報データベース, 45 出力部,
50 センサ入力処理部, 50A 音声認識部,
50B 画像認識部, 50C 圧力処理部, 51
モデル記憶部, 52 行動決定機構部, 53 姿勢
遷移機構部, 54 制御機構部, 55音声合成部,
101 バス, 102 CPU, 103 ROM, 1
04 RAM, 105 ハードディスク, 106 出
力部, 107 入力部, 108通信部, 109
ドライブ, 110 入出力インタフェース, 111
リムーバブル記録媒体
1 head unit, 4A lower jaw, 10 controller, 10A CPU, 10B memory, 15
Microphone, 16 CCD camera, 17 touch sensor, 18 speaker, 21 non-verbal sound generation module, 22 non-verbal sound information interpretation module, 23 morphological analysis module, 24 phonetic symbol string generation module, 25 rule synthesis module, 26 phoneme segment database, 27 non-verbal sound conversion module, 28 non-verbal sound conversion table storage unit, 29 text non-verbal sound fusion module, 30 utterance module, 41 text processing unit, 42 extraction unit, 43 language analysis unit,
44 non-verbal sound information database, 45 output unit,
50 sensor input processing unit, 50A speech recognition unit,
50B image recognition unit, 50C pressure processing unit, 51
Model storage unit, 52 action decision mechanism unit, 53 posture transition mechanism unit, 54 control mechanism unit, 55 speech synthesis unit,
101 bus, 102 CPU, 103 ROM, 1
04 RAM, 105 hard disk, 106 output unit, 107 input unit, 108 communication unit, 109
Drive, 110 input / output interface, 111
Removable recording medium

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 551H (72)発明者 小林 恵理香 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 岸 秀樹 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 長谷川 里香 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 2C150 CA02 DA05 DA24 DA25 DA26 DA27 DA28 DF02 DF04 DF06 DF33 DG02 DG13 ED10 ED42 ED52 EF16 EF23 EF28 EF29 EF33 FA04 5B009 RD01 RD03 5D015 KK01 5D045 AA20 5D108 CA01 CA07 CA11 CA29 ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G10L 15/00 G10L 3/00 551H (72) Inventor Erika Kobayashi 6-7-35 Kita Shinagawa, Shinagawa-ku, Tokyo Inside Sony Corporation (72) Inventor Hideki Kishi 6-7-35 Kita Shinagawa, Shinagawa-ku, Tokyo Sony Corporation (72) Inventor Rika Hasegawa 6-35 Kita Shinagawa, Shinagawa-ku, Tokyo Soni -Inc. F-term (reference) 2C150 CA02 DA05 DA24 DA25 DA26 DA27 DA28 DF02 DF04 DF06 DF33 DG02 DG13 ED10 ED42 ED52 EF16 EF23 EF28 EF29 EF33 FA04 5B009 RD01 RD03 5D015 KK01 5D045 AA205CA

Claims (14)

【特許請求の範囲】[Claims] 【請求項1】 テキストに対応する合成音を生成する音
声合成装置であって、 前記テキストとともに入力される、非言語的な音の情報
である非言語音情報に基づいて、音響データを生成する
音響データ生成手段と、 前記テキストに対応する合成音データを生成する音声合
成手段と、 前記音響データと合成音データとを融合する融合手段と
を備えることを特徴とする音声合成装置。
1. A speech synthesizer for generating a synthesized speech corresponding to a text, wherein the speech data is generated based on non-verbal sound information which is non-verbal sound information input together with the text. A speech synthesizer comprising: acoustic data generation means; speech synthesis means for generating synthesized speech data corresponding to the text; and fusion means for fusing the acoustic data and synthesized speech data.
【請求項2】 前記融合手段は、前記音響データを、前
記合成音データの全部または一部に重畳することによ
り、前記音響データと合成音データとを融合することを
特徴とする請求項1に記載の音声合成装置。
2. The apparatus according to claim 1, wherein the fusing unit fuses the sound data and the synthesized sound data by superimposing the sound data on all or a part of the synthesized sound data. A speech synthesizer as described.
【請求項3】 前記融合手段は、前記音響データを、前
記合成音データに挿入することにより、前記音響データ
と合成音データとを融合することを特徴とする請求項1
に記載の音声合成装置。
3. The fusion device according to claim 1, wherein the fusion unit fuses the acoustic data with the synthetic sound data by inserting the acoustic data into the synthetic sound data.
A speech synthesizer according to claim 1.
【請求項4】 前記融合手段は、前記合成音データにお
いて区切りになっている部分に、前記音響データを融合
することを特徴とする請求項1に記載の音声合成装置。
4. The speech synthesizer according to claim 1, wherein the fusion unit fuses the acoustic data with a delimiter in the synthetic sound data.
【請求項5】 前記融合手段は、前記合成音データのポ
ーズの部分に、前記音響データを融合することを特徴と
する請求項4に記載の音声合成装置。
5. The speech synthesizer according to claim 4, wherein the fusing unit fuses the sound data with a pause portion of the synthesized sound data.
【請求項6】 前記融合手段は、前記音響データを、前
記合成音データに、複数回融合することを特徴とする請
求項1に記載の音声合成装置。
6. The speech synthesizer according to claim 1, wherein the fusion unit fuses the acoustic data with the synthetic sound data a plurality of times.
【請求項7】 前記融合手段は、前記音響データを、前
記合成音データの、外部から指定された位置に融合する
ことを特徴とする請求項1に記載の音声合成装置。
7. The speech synthesizer according to claim 1, wherein the fusing unit fuses the sound data to a position of the synthesized sound data specified from the outside.
【請求項8】 前記合成音データに、前記音響データを
融合するタイミングを表すタイミングデータを生成する
生成手段をさらに備え、 前記融合手段は、前記タイミングデータにしたがって、
前記音響データと合成音データとを融合することを特徴
とする請求項1に記載の音声合成装置。
8. The apparatus according to claim 1, further comprising a generation unit configured to generate timing data indicating a timing at which the acoustic data is fused with the synthesized sound data, wherein the fusion unit performs processing in accordance with the timing data.
The speech synthesizer according to claim 1, wherein the sound data and the synthesized sound data are fused.
【請求項9】 前記テキストから、前記非言語音情報を
抽出する抽出手段をさらに備えることを特徴とする請求
項1に記載の音声合成装置。
9. The speech synthesizer according to claim 1, further comprising an extracting unit configured to extract the non-verbal sound information from the text.
【請求項10】 前記抽出手段は、前記テキストに、前
記非言語音情報を付加して出力することを特徴とする請
求項9に記載の音声合成装置。
10. The speech synthesizer according to claim 9, wherein said extracting means adds the non-verbal sound information to the text and outputs the text.
【請求項11】 前記抽出手段は、前記テキストと非言
語音情報とを、構造体の形で出力することを特徴とする
請求項9に記載の音声合成装置。
11. The speech synthesizer according to claim 9, wherein said extraction means outputs said text and non-verbal sound information in the form of a structure.
【請求項12】 テキストに対応する合成音を生成する
音声合成方法であって、 前記テキストとともに入力される、非言語的な音の情報
である非言語音情報に基づいて、音響データを生成する
音響データ生成ステップと、 前記テキストに対応する合成音データを生成する音声合
成ステップと、 前記音響データと合成音データとを融合する融合ステッ
プとを備えることを特徴とする音声合成方法。
12. A voice synthesizing method for generating a synthesized voice corresponding to a text, wherein the voice data is generated based on non-verbal sound information which is input with the text and is non-verbal sound information. A speech synthesis method, comprising: an acoustic data generation step; a speech synthesis step of generating synthesized speech data corresponding to the text; and a fusion step of fusing the acoustic data and the synthesized speech data.
【請求項13】 テキストに対応する合成音を生成する
音声合成処理を、コンピュータに行わせるプログラムで
あって、 前記テキストとともに入力される、非言語的な音の情報
である非言語音情報に基づいて、音響データを生成する
音響データ生成ステップと、 前記テキストに対応する合成音データを生成する音声合
成ステップと、 前記音響データと合成音データとを融合する融合ステッ
プとを備えることを特徴とするプログラム。
13. A program for causing a computer to perform a speech synthesis process for generating a synthesized speech corresponding to a text, based on non-verbal sound information which is non-verbal sound information input together with the text. A sound data generating step of generating sound data; a voice synthesizing step of generating synthesized sound data corresponding to the text; and a fusing step of fusing the sound data and the synthesized sound data. program.
【請求項14】 テキストに対応する合成音を生成する
音声合成処理を、コンピュータに行わせるプログラムが
記録されている記録媒体であって、 前記テキストとともに入力される、非言語的な音の情報
である非言語音情報に基づいて、音響データを生成する
音響データ生成ステップと、 前記テキストに対応する合成音データを生成する音声合
成ステップと、 前記音響データと合成音データとを融合する融合ステッ
プとを備えるプログラムが記録されていることを特徴と
する記録媒体。
14. A recording medium storing a program for causing a computer to perform a speech synthesis process for generating a synthesized sound corresponding to a text, wherein the information is non-verbal sound information input together with the text. A sound data generating step of generating sound data based on certain non-verbal sound information; a voice synthesizing step of generating synthesized sound data corresponding to the text; and a fusing step of fusing the sound data and synthesized sound data. A recording medium characterized by recording a program comprising:
JP2001122038A 2001-04-20 2001-04-20 Device and method for synthesizing voice, program and recording medium Withdrawn JP2002318590A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001122038A JP2002318590A (en) 2001-04-20 2001-04-20 Device and method for synthesizing voice, program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001122038A JP2002318590A (en) 2001-04-20 2001-04-20 Device and method for synthesizing voice, program and recording medium

Publications (1)

Publication Number Publication Date
JP2002318590A true JP2002318590A (en) 2002-10-31

Family

ID=18971814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001122038A Withdrawn JP2002318590A (en) 2001-04-20 2001-04-20 Device and method for synthesizing voice, program and recording medium

Country Status (1)

Country Link
JP (1) JP2002318590A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005003747A (en) * 2003-06-09 2005-01-06 Cai Media Kyodo Kaihatsu:Kk Interactive robot and dialogue system
JP2005110726A (en) * 2003-10-02 2005-04-28 Toshiba Corp Learning apparatus and method therefor
CN103226945A (en) * 2012-01-31 2013-07-31 三菱电机株式会社 An audio synthesis apparatus and an audio synthesis method
CN111640456A (en) * 2020-06-04 2020-09-08 合肥讯飞数码科技有限公司 Overlapped sound detection method, device and equipment

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005003747A (en) * 2003-06-09 2005-01-06 Cai Media Kyodo Kaihatsu:Kk Interactive robot and dialogue system
JP2005110726A (en) * 2003-10-02 2005-04-28 Toshiba Corp Learning apparatus and method therefor
CN103226945A (en) * 2012-01-31 2013-07-31 三菱电机株式会社 An audio synthesis apparatus and an audio synthesis method
CN111640456A (en) * 2020-06-04 2020-09-08 合肥讯飞数码科技有限公司 Overlapped sound detection method, device and equipment
CN111640456B (en) * 2020-06-04 2023-08-22 合肥讯飞数码科技有限公司 Method, device and equipment for detecting overlapping sound

Similar Documents

Publication Publication Date Title
JP4296714B2 (en) Robot control apparatus, robot control method, recording medium, and program
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
JP4150198B2 (en) Speech synthesis method, speech synthesis apparatus, program and recording medium, and robot apparatus
JP2002268699A (en) Device and method for voice synthesis, program, and recording medium
JP4687936B2 (en) Audio output device, audio output method, program, and recording medium
JP2003271174A (en) Speech synthesis method, speech synthesis device, program, recording medium, method and apparatus for generating constraint information and robot apparatus
JP2002358095A (en) Method and device for speech processing, program, recording medium
US7233900B2 (en) Word sequence output device
JP2002318594A (en) Language processing system and language processing method as well as program and recording medium
JP2002268663A (en) Voice synthesizer, voice synthesis method, program and recording medium
JP2002318590A (en) Device and method for synthesizing voice, program and recording medium
JP2003271172A (en) Method and apparatus for voice synthesis, program, recording medium and robot apparatus
JP2002258886A (en) Device and method for combining voices, program and recording medium
JP2001154693A (en) Robot controller and robot control method and recording medium
JP2002311981A (en) Natural language processing system and natural language processing method as well as program and recording medium
JP4016316B2 (en) Robot apparatus, robot control method, recording medium, and program
JP2002318593A (en) Language processing system and language processing method as well as program and recording medium
JP2002304187A (en) Device and method for synthesizing voice, program and recording medium
JP4656354B2 (en) Audio processing apparatus, audio processing method, and recording medium
JP4742415B2 (en) Robot control apparatus, robot control method, and recording medium
JP2003271181A (en) Information processor, information processing method, recording medium and program
JP2002120177A (en) Robot control device, robot control method and recording medium
JP2002189497A (en) Robot controller and robot control method, recording medium, and program
JP2003076398A (en) Robot device, robot control method, recording medium, and program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080701