WO2002031810A1 - Appareil de commande de robot - Google Patents

Appareil de commande de robot Download PDF

Info

Publication number
WO2002031810A1
WO2002031810A1 PCT/JP2001/008898 JP0108898W WO0231810A1 WO 2002031810 A1 WO2002031810 A1 WO 2002031810A1 JP 0108898 W JP0108898 W JP 0108898W WO 0231810 A1 WO0231810 A1 WO 0231810A1
Authority
WO
WIPO (PCT)
Prior art keywords
prosody
voice
control
output
unit
Prior art date
Application number
PCT/JP2001/008898
Other languages
English (en)
French (fr)
Inventor
Kazuo Ishii
Jun Hiroi
Wataru Onogi
Takashi Toyoda
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to US10/148,914 priority Critical patent/US7203642B2/en
Priority to DE60142842T priority patent/DE60142842D1/de
Priority to EP01976657A priority patent/EP1326230B1/en
Publication of WO2002031810A1 publication Critical patent/WO2002031810A1/ja

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H11/00Self-movable toy figures
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H2200/00Computerized interactive toys, e.g. dolls
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • the present invention relates to a robot control device, and more particularly to, for example, a robot control device suitable for use in a robot that acts based on a speech recognition result by a speech recognition device.
  • a mouth pot that performs voice recognition of a voice uttered by a user and performs an action such as performing a certain gesture or outputting a synthetic sound based on the voice recognition result (this specification) (Including stuffed toys) have been commercialized.
  • the present invention has been made in view of such a situation, and it is possible to solve the user's anxiety by making it possible to recognize that the voice of the user is recognized in the mouth pot. Is to be able to do.
  • the robot control device includes: an analysis unit configured to analyze prosody information of a user's voice to be subjected to voice recognition; and a generation unit configured to generate a prosody control voice data that is prosody-controlled voice data based on the prosody information. Means, and output control means for controlling the output of the prosody control voice data.
  • the robot control method of the present invention includes: an analysis step of analyzing prosody information of a voice of a user whose speech is recognized; a generation step of generating prosody control speech data that is speech data in which the prosody is controlled based on the prosody information. Controls the output of prosodic control voice data And an output control step.
  • the recording medium of the present invention comprises: an analysis step of analyzing prosody information of a user's voice to be recognized; and a generation step of generating prosody control voice data, which is a prosody-controlled voice based on the prosody information. And an output control step of controlling the output of the prosody control voice data.
  • the program according to the present invention includes: an analysis step of analyzing prosody information of a user's voice to be recognized; a generation step of generating prosody control voice data that is prosody-controlled speech data based on the prosody information; And an output control step of controlling the output of the control voice data.
  • the prosody information of the voice of the user whose voice is to be recognized is analyzed, and based on the prosody information, a prosody control speech data, which is speech data for controlling the prosody, is generated and output.
  • FIG. 1 is a perspective view showing an external configuration example of an embodiment of a robot to which the present invention is applied.
  • FIG. 2 is a block diagram showing an example of the internal configuration of the robot.
  • FIG. 3 is a block diagram illustrating a functional configuration example of the controller 10.
  • FIG. 4 is a block diagram illustrating a configuration example of the voice recognition unit 5OA.
  • FIG. 5 is a block diagram illustrating a configuration example of the speech synthesis unit 55.
  • FIG. 6 is a flowchart illustrating the process of the output control unit 57.
  • FIG. 7 is a block diagram showing a configuration example of the echo back unit 56.
  • FIG. 8 is a flowchart for explaining the echo back processing by the echo back unit 56.
  • FIG. 9 is a flowchart illustrating re-echo pack processing by the echo back unit 56.
  • FIG. 10 is a block diagram illustrating another functional configuration example of the controller 10. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 shows an example of an external configuration of an embodiment of a robot to which the present invention is applied
  • FIG. 2 shows an example of an electrical configuration thereof.
  • the robot is in the shape of a four-legged animal such as a dog, for example, and has leg units 3A, 3B, 3C, 3D is connected, and a head unit 4 and a tail unit 5 are connected to a front end and a rear end of the body unit 2, respectively.
  • the tail unit 5 is drawn out from a base unit 5B provided on the upper surface of the body unit 2 so as to bend or swing with two degrees of freedom.
  • the body unit 2 houses a controller 10 for controlling the entire mouth pot, a battery 11 as a power source for the robot, and an internal sensor unit 14 including a battery sensor 12 and a heat sensor 13.
  • the head unit 4 has a microphone (microphone) 15 equivalent to an “ear”, a CCD (Charge Coupled Device) camera 16 equivalent to an “eye”, an evening sensor 17 equivalent to a tactile sense, and an equivalent to a “mouth”. Speakers 18 and the like are arranged at predetermined positions.
  • a lower jaw 4A corresponding to the lower jaw of the mouth is movably attached to the head unit 4 with one degree of freedom. By moving the lower jaw 4A, the opening and closing operation of the mouth of the robot is realized. It has become so.
  • the microphone 15 in the head unit 4 collects surrounding sounds (sounds) including utterances from the user, and sends out the obtained sound signals to the controller 10.
  • the camera 16 captures an image of the surroundings, and sends the obtained image signal to the controller 10.
  • the touch sensor 17 is provided, for example, on the upper part of the head unit 4 and detects a pressure received by a physical action such as “stroking” or “slapping” from a user, and the detection result is used as a pressure detection signal. Send to controller 10.
  • the battery sensor 12 in the body unit 2 detects the remaining amount of the battery 11 and sends the detection result to the controller 10 as a battery remaining amount detection signal.
  • the heat sensor 13 detects the heat inside the robot, and sends the detection result to the controller 10 as a heat detection signal.
  • the controller 10 incorporates a CPU (Centrai Processing Unit) 1OA, a memory 10B, and the like.
  • the CPU 10A executes a control program stored in the memory 10B to execute the control program. Performs various processes.
  • the controller 10 is based on the audio signal, image signal, pressure detection signal, remaining battery detection signal, and heat detection signal provided from the microphone 15, the CCD camera 16, the evening sensor 17, the battery sensor 12, and the heat sensor 13. To determine the surrounding conditions, whether there is a command from the user, and whether or not there is any action from the user.
  • the controller 10 determines, based on the determination results and the like, followed by action determines, based on the determination result, Akuchiyue Isseki 3 to 3 AA K, 3 BA, or 3 BA K, 3 CAi to 3 CA K , 3DAt to 3DA K, or 4A physician 5 a 5 as driving the need of a 2.
  • the head unit 4 is swung up, down, left and right, and the lower jaw 4A is opened and closed.
  • the tail unit 5 can be moved, and the leg units 3A to 3D are driven to perform actions such as walking the mouth pot.
  • the controller 10 generates a synthesized sound or an echo-back sound as described later, as necessary, and supplies it to the speaker 18 for output, or is provided at the position of the "eye" of the mouth pot (not shown). Turns on, off or blinks the LED (Light Emitting Diode). As described above, the mouth pot takes an autonomous action based on the surrounding situation and the like.
  • FIG. 3 shows an example of a functional configuration of the controller 10 of FIG. Note that the functional configuration shown in FIG. 3 is realized by the CPU 10A executing a control program stored in the memory 10B.
  • the controller 10 accumulates the recognition results of the sensor input processing unit 50 and the sensor input processing unit 50 for recognizing a specific external state, and expresses the emotion, instinct, and growth state in the model storage unit 51.
  • the action decision mechanism section 52 which decides the subsequent action, based on the decision result of the action decision mechanism section 52, causes the mouth pot to actually act.
  • posture transition mechanism unit 3 each Akuchiyue Isseki 3 ⁇ optimum 5 a, and 5 a 2 controlling drive control mechanism 5 4, the speech synthesizer 5 5 for generating a synthesized speech, echo back to output an echo back speech It comprises a unit 56 and an output control unit 57 for controlling the output of audio data.
  • the sensor input processing unit 50 is configured to control a specific external state or a user input based on audio signals, image signals, pressure detection signals, and the like provided from the microphone 15, the CCD camera 16, the evening sensor 17, and the like. It recognizes specific actions, instructions from the user, etc., and notifies the model storage unit 51 and the action determination mechanism unit 52 of state recognition information indicating the recognition result.
  • the sensor input processing unit 50 has a voice recognition unit 5OA, and the voice recognition unit 5OA performs voice recognition on a voice signal given from the microphone 15. Then, the voice recognition unit 5 OA uses the model storage unit 51 and the action determination as the state recognition information, for example, commands such as “walk”, “down”, “chase a pole” and the like as the voice recognition result. Notify the mechanism section 52.
  • the sensor input processing section 50 has an image recognition section 50B, and the image recognition section 50B performs an image recognition process using an image signal provided from the CCD camera 16. Then, when the image recognition unit 50B detects, for example, “a red round object” or “a plane perpendicular to the ground and equal to or higher than a predetermined height” as a result of the processing, Image recognition results such as “there is a pole” and “there is a wall” are notified to the model storage unit 51 and the action determination mechanism unit 52 as state recognition information.
  • the sensor input processing section 50 has a pressure processing section 50C, and the pressure processing section 50C processes a pressure detection signal given from the evening sensor 17. Then, as a result of the processing, when the pressure processing section 50C detects a pressure that is equal to or more than a predetermined threshold value and is short-time, the pressure processing section 50C recognizes “hit”, and the pressure processing section 50C is less than the predetermined threshold value. When a long-term pressure is detected, it is recognized as “patched (praised)”, and the recognition result is used as state recognition information as the model storage unit 51 and the action determination mechanism unit 5. Notify 2.
  • the model storage unit 51 stores and manages an emotion model, an instinct model, and a growth model expressing the emotion, instinct, and growth state of the mouth pot.
  • the emotion model represents, for example, the state (degree) of emotions such as “joy”, “sadness”, “anger”, and “enjoyment” by values in a predetermined range, and performs sensor input processing.
  • the value is changed based on the state recognition information from the unit 50 or the passage of time.
  • the instinct model expresses the state (degree) of desire by instinct such as “appetite”, “sleep desire”, and “exercise desire” by values within a predetermined range, respectively.
  • the value is changed based on the state recognition information or the passage of time.
  • the growth model represents, for example, the state of growth (degree) such as “childhood”, “adolescence”, “mature”, “elderly”, etc., by a value within a predetermined range, and the sensor input processing unit 5 The value is changed based on the state recognition information from 0 or the passage of time.
  • the model storage unit 51 sends the emotion, instinct, and growth state represented by the values of the emotion model, instinct model, and growth model as described above to the behavior determination mechanism unit 52 as state information.
  • the model storage unit 51 is supplied with state recognition information from the sensor input processing unit 50, and from the action determination mechanism unit 52, the current or past action of the mouth pot, specifically, for example, Behavior information indicating the content of behavior such as "walking for a long time" is supplied, and even if the same state recognition information is given to the model storage unit 51, Different state information is generated according to the behavior of the robot indicated by the behavior information.
  • the behavior information indicating that the robot greeted the user and the state recognition information indicating that the robot was stroked by the user are represented by a model.
  • This is provided to the storage unit 51, and in this case, the value of the emotion model representing “joy” is increased in the model storage unit 51.
  • the behavior information indicating that the robot is performing the work and the state recognition information indicating that the robot has been stroked on the head are stored in the model storage unit 51.
  • the model storage unit 51 does not change the value of the emotion model representing “joy”.
  • the model storage unit 51 sets the value of the emotion model with reference to not only the state recognition information but also the behavior information indicating the current or past behavior of the robot. This can cause unnatural emotional changes, such as increasing the value of the emotional model representing “joy” when the user strokes his head while performing a task while performing some task. Can be avoided.
  • model storage unit 51 increases and decreases the values of the instinct model and the growth model based on both the state recognition information and the behavior information, as in the case of the emotion model.
  • model storage unit 51 increases and decreases the values of the emotion model, the instinct model, and the growth model based on the values of other models.
  • the action determining mechanism 52 determines the next action based on the state recognition information from the sensor input processing section 50, the state information from the model storage section 51, the passage of time, and the like, and determines the determined action. Is sent to the posture transition mechanism 53 as action command information.
  • the action determination mechanism 52 manages a finite automaton in which the action that the mouth pot can take in correspondence with the state (state) as an action model that defines the action of the mouth pot,
  • the state in the finite automaton as this behavior model is stored in the state recognition information from the sensor input processing unit 50 and in the model storage unit 51.
  • the transition is made based on the value of the emotion model, instinct model, or growth model, the passage of time, etc., and the action corresponding to the state after the transition is determined as the next action to be taken.
  • the action determination mechanism 52 when detecting that there is a predetermined trigger (trigger), the action determination mechanism 52 changes the state. That is, for example, when the time during which the action corresponding to the current state is being executed has reached a predetermined time, or when specific state recognition information is received, the action determining mechanism 52 The state is transited when the value of the emotion, instinct, or growth state indicated by the supplied state information falls below or above a predetermined threshold.
  • the action determination mechanism 52 includes not only the state recognition information from the sensor input processing unit 50 but also the values of the emotion model, the instinct model, the growth model, and the like in the model storage unit 51. Based on the transition of the state in the behavior model, the state transition destination differs depending on the emotion model, instinct model, and growth model value (state information) even if the same state recognition information is input. Becomes
  • the action determination mechanism 52 When the palm is displayed in front of the user, action instruction information to take the action of "hand” is generated in response to the palm being displayed in front of the user. Is sent to the posture transition mechanism 53.
  • the behavior determination mechanism unit 52 determines that the state recognition information indicates “the palm in front of the eyes.
  • the action command information for causing the user to perform an action such as "licking the palm of the hand” in response to the palm being held in front of the eyes.
  • the action determination mechanism part 5 for example, state information, in a case that the table that the "angry”, the state recognition information, " When the palm of your hand is shown in front of you, the status information indicates that you are hungry, but also indicates that you are not hungry. Also, "I look sideways.”
  • Action command information for causing such an action to be performed is generated and transmitted to the posture transition mechanism 53.
  • the behavior determination mechanism unit 52 stores the parameters of the behavior corresponding to the transition destination state based on the emotion, instinct, and growth state indicated by the state information supplied from the model storage unit 51. For example, it is possible to determine the walking speed, the magnitude and speed of the movement when moving the limbs, and in this case, the behavior command information including those parameters is included in the posture transition mechanism unit 53 Sent to
  • the action determining mechanism 52 generates action command information for causing the robot to speak, in addition to action command information for operating the head, limbs, and the like of the mouth pot.
  • the action command information for causing the mouth pot to speak is supplied to the speech synthesis section 55, and the action command information supplied to the speech synthesis section 55 is generated by the speech synthesis section 55.
  • a text or the like corresponding to the synthesized sound is included.
  • the voice synthesis section 55 upon receiving the action command information from the action determination section 52, the voice synthesis section 55 generates a synthesized sound based on the text included in the action command information, and outputs the synthesized sound to the speaker via the output control section 57.
  • Supply to 18 for output As a result, the speaker 18 can output, for example, a loud cry, various requests to the user such as “I am hungry”, a response to a user's call such as “What?”, And other voices. Output is performed.
  • the posture transition mechanism unit 53 generates posture transition information for transitioning the robot posture from the current posture to the next posture based on the behavior command information supplied from the behavior determination mechanism unit 52. This is sent to the control mechanism 54.
  • the postures that can transition from the current posture to the next are, for example, the physical shape of the robot such as the shape and weight of the torso, hands and feet, the connected state of each part, and the directions and angles at which the joints bend.
  • the physical shape of the robot such as the shape and weight of the torso, hands and feet, the connected state of each part, and the directions and angles at which the joints bend.
  • Akuchiyue Isseki 3 AA or is determined by the 5 and 5 a 2 mechanism.
  • the next posture includes a posture that can make a transition directly from the current posture and a posture that cannot make a transition directly.
  • a four-legged robot can make a direct transition from lying down with its limbs thrown out to lying down, but standing up It is not possible to make a direct transition to the state, and it is necessary to perform a two-step operation in which the limbs are once drawn close to the torso, become prone, and then stand up.
  • postures that cannot be performed safely For example, a four-legged mouth pot can easily fall down if you try to banzai with both front legs from a standing position on the four legs.
  • the posture transition mechanism unit 53 pre-registers the posture that can be directly transited, and if the action command information supplied from the behavior determination mechanism unit 52 indicates the posture that can be directly transited, that posture is registered.
  • the action command information is sent to the control mechanism unit 54 as it is as posture transition information.
  • the posture transition mechanism 53 temporarily changes the posture to another possible posture, and then changes the posture to the desired posture. Information is generated and sent to the control mechanism 54. This makes it possible to prevent the mouth pot from trying to perform a posture that cannot be transitioned, or from falling over.
  • the control mechanism section 54 generates a control signal for driving the actuators 3 AA to 3 A and 5 A 2 in accordance with the posture transition information from the posture transition mechanism section 53. Evening Transmit to 3 A Ai to 5 A t and 5 A 2 . As a result, 3 AA through 5 At and 5 A 2 are driven in accordance with the control signal, and the mouth pot takes an autonomous action.
  • the echo back unit 56 monitors a voice signal given from the microphone 15 and recognized by the voice recognition unit 50A, and a voice that repeats the voice signal (hereinafter referred to as echo back (Called voice).
  • the echo back sound is supplied to the speaker 18 via the output control unit 57 and output.
  • the output control unit 57 is supplied with the digital data of the synthesized sound from the voice synthesis unit 55 and the digitized data of the echo back sound from the echo back unit 56.
  • the DZA conversion of the digital data is converted to an analog audio signal and supplied to the speaker 18 for output.
  • the output control unit 57 is capable of synthesizing the synthesized sound from the voice synthesizing unit 55 and the echo back sound from the echo back unit 56. If the output to forces 18 conflicts, adjust for that conflict. That is, the output of the echo-back sound from the echo-back unit 56 is performed independently of the output of the synthesized sound performed by the voice synthesis unit 55 under the control of the action determination mechanism unit 52. Therefore, the output of the echo pack sound and the output of the synthesized sound may conflict with each other. Therefore, the output control unit 57 arbitrates the conflict.
  • FIG. 4 illustrates a configuration example of the voice recognition unit 5OA in FIG.
  • the audio signal from the microphone 15 is supplied to an AD (Analog Digital) converter 21.
  • the AD converter 21 samples and quantizes the audio signal, which is an analog signal from the microphone 15, and performs AZD conversion on the audio signal as a digital signal.
  • the audio data is supplied to the feature extraction unit 22 and the audio section detection unit 27.
  • the feature extraction unit 22 performs, for example, an MFCC (Mel Frequency Cepstrum Coef icent) analysis for each appropriate frame with respect to the audio data input thereto and obtains a result of the analysis.
  • the obtained MFCC is output to the matching unit 23 as a feature parameter (special vector).
  • the feature extraction unit 22 can also extract, for example, a linear prediction coefficient, a cepstrum coefficient, a line spectrum pair, and power (output of a filter bank) for each predetermined frequency band as a feature parameter.
  • the matching unit 23 uses the feature parameters from the feature extraction unit 22 to refer to the acoustic model storage unit 24, the dictionary storage unit 25, and the grammar storage unit 26 as necessary, and
  • the speech (input speech) input to 5 is recognized based on, for example, a continuous distribution HMM (Hidden Markov Mode l) method.
  • HMM Hidden Markov Mode l
  • the acoustic model storage unit 24 stores acoustic models representing acoustic features such as individual phonemes and syllables in the language of the speech to be recognized.
  • HMM OH dden Markov Mode l HMM OH dden Markov Mode l
  • the dictionary storage unit 25 stores a word dictionary in which information on pronunciation (phonological information) of each word to be recognized is described.
  • the grammar storage unit 26 describes how each word registered in the word dictionary in the dictionary storage unit 25 It stores grammar rules that describe whether it is linked (connected) to.
  • the grammar rule for example, a rule based on a context-free grammar (CFG) or a statistical word chain probability (N-gram) can be used.
  • CFG context-free grammar
  • N-gram statistical word chain probability
  • the matching unit 23 constructs a word acoustic model (word model) by referring to the word dictionary in the dictionary storage unit 25 and connecting the acoustic models stored in the acoustic model storage unit 24. I do. Further, the matching unit 23 connects several word models by referring to the grammar rules stored in the grammar storage unit 26, and uses the word models connected in this way to generate a feature. Based on the parameters, the speech input to the microphone 15 is recognized by the continuous distribution HMM method. That is, the matching unit 23 detects the sequence of the word model having the highest score (likelihood) in which the time-series feature parameters output by the feature extraction unit 22 are observed, and matches the sequence of the word model. The phoneme information (reading) of the corresponding word string is output as a speech recognition result.
  • word model word model
  • the matching unit 23 accumulates the occurrence probabilities of each feature parameter for the word string corresponding to the connected word model, and uses the accumulated value as a score to determine the word string with the highest score.
  • the phoneme information is output as a speech recognition result.
  • the recognition result of the voice input to the microphone 15 output as described above is output to the model storage unit 51 and the action determination mechanism unit 52 as state recognition information.
  • the voice section detection unit 27 calculates, for example, power of the voice data from the AD conversion unit 21 for each frame similar to the case where the special extraction unit 22 performs the MFCC analysis.
  • the voice section detection unit 27 compares the power of each frame with a predetermined threshold, and detects a section composed of frames having power equal to or higher than the threshold as a voice section in which the user's voice is input. I do. Then, the voice section detection section 27 supplies the detected voice section to the feature extraction section 22 and the matching section 23, and the feature extraction section 22 and the matching section 23 target only the voice section. c performs the processing
  • Fig. 5 shows a configuration example of a speech synthesizer 5 5 of FIG.
  • the text generation unit 31 is supplied with the action command information including the text to be subjected to speech synthesis, which is output from the action determination mechanism unit 52, and generates the text.
  • the unit 31 analyzes the text included in the action instruction information with reference to the dictionary storage unit 34 and the grammar storage unit 35 for generation.
  • the dictionary storage unit 34 stores a word dictionary in which part-of-speech information of each word and information such as readings and accents are described.
  • the grammar storage unit for generation 35 stores dictionary data. For words described in the word dictionary in Part 34, grammar rules for generation such as restrictions on word chains are stored. Then, based on the word dictionary and the grammatical rules for generation, the text generation unit 31 analyzes the text input therein, such as morphological analysis and syntax analysis, and is performed by the subsequent rule synthesizing unit 32. Extracts information necessary for rule-based speech synthesis.
  • the information necessary for the rule-based speech synthesis includes, for example, the position of the poise, information for controlling accent and intonation, other prosody information, and phonological information such as pronunciation of each word.
  • the information obtained by the text generation unit 31 is supplied to the rule synthesis unit 32, and the rule synthesis unit 32 refers to the phoneme segment storage unit 36 and converts the text input to the text generation unit 31.
  • the corresponding synthetic voice data (digital data) is generated. That is, the phoneme unit storage unit 36 stores phoneme unit data in the form of, for example, CV Consonant, Vowel), VCV, CVC, and the like. Based on this information, the necessary phoneme data is connected, and further, the waveform of the phoneme data is processed, so that pauses, accents, intonations, etc. are appropriately added, thereby inputting to the text generator 31. Generates voice data of synthesized speech corresponding to the text.
  • the audio data generated as described above is supplied to the speaker 18 via the output control unit 57 (FIG. 3).
  • a synthesized sound corresponding to the text input to is output.
  • the action determining mechanism 52 in FIG. 3 determines the next action based on the action model, but the content of the text output as the synthesized sound is associated with the action of the robot. It is possible to keep.
  • the output control unit 57 When the output control unit 57 receives the synthesized sound from the voice synthesis unit 55, the synthesized sound from the voice synthesis unit 55 is transmitted to the speaker unless the echo back sound is received from the echo back unit 56. Supply to 18 for output.
  • the output control unit 57 when receiving the echo-back sound from the echo-back unit 56, the output control unit 57 performs an output control process according to the flowchart of FIG.
  • the output control unit 57 first determines whether or not the synthesized voice is output from the voice synthesis unit 55 in step S1. If it is determined that no echo is output, the process proceeds to step S2, in which the echo-back sound received from the echo-back unit 56 is supplied to the speaker 18 for output, and the process ends.
  • step S1 when it is determined in step S1 that the synthesized voice is output from the voice synthesis unit 55, namely, the output of the synthesized voice from the voice synthesis unit 55 and the echo back from the echo back unit 56 If there is a conflict with the voice output, the process proceeds to step S3, where the output control unit 57 limits the output of the echo back voice, and supplies the synthesized sound from the voice synthesis unit 55 to the speaker 18. , Output and end the process.
  • the output control unit 57 If the output control unit 57 receives the synthesized sound from the voice synthesis unit 55 during the output of the echo back sound, the output control unit 57 stops the output of the echo back sound and outputs the synthesized sound from the voice synthesis unit 55. Priority.
  • the output control unit 57 Give priority to the output of synthesized sound. This is because the output of the synthesized sound from the voice synthesis unit 55 is based on the action command information from the action determination mechanism 52, and the mouth pot However, since the output of the echo-back sound is to repeat the utterance of the user, the synthesized sound from the voice synthesizer 55 is higher than that of the echo-back sound. Is considered to be highly important to
  • the output control unit 57 for example, it is possible to give priority to the output of the echo-back sound over the output of the synthesized sound from the sound synthesis unit '55. It is also possible to give priority to the output of the synthesized sound from the synthesizing unit 55 that has been received first.
  • FIG. 7 shows a configuration example of the echo back unit 56 of FIG.
  • the audio signal from the microphone 15 is supplied to the AD converter 41.
  • the A / D converter 41 samples and quantizes the audio signal, which is an analog signal from the microphone 15, and performs AZD conversion to audio data that is a digital signal.
  • This voice data is supplied to the prosody analysis unit 42 and the voice section detection unit 46.
  • the prosody analysis unit 42 extracts the prosody information of the voice data, such as pitch frequency and power, by analyzing the voice data input thereto for each appropriate frame. This prosody information is supplied to the sound generation unit 43.
  • the prosody analysis unit 42 sets the pitch frequency and the pitch of the audio data from the AD conversion unit 41 on a frame basis, for example, assuming that 32 ms, which is longer than the general pitch cycle of a human, as one frame. Ask.
  • the prosody analysis unit 42 obtains the power P (j) of the j-th frame according to the following equation.
  • Equation (1) where, in equation (1), X i represents the sample value of the i-th audio data from the beginning of the j-th frame, and ⁇ represents all the audio data samples of the j-th frame. Represents the summation of
  • the prosody analysis unit 42 calculates the autocorrelation value of the sample of the speech data of the j-th frame, and maximizes the autocorrelation value. Then, the pitch frequency f (j) of the j-th frame is calculated by the following equation.
  • the sound generation unit 43 generates an echo-back sound whose prosody is controlled based on the prosody information from the prosody analysis unit 42.
  • the sound generation unit 43 converts a non-phonological voice (hereinafter, appropriately referred to as a silent rhyme voice) having the same prosody as the prosody information from the prosody analysis unit 42 into a sine Are generated by superimposing them, and supplied to the output unit 44 as echo back sound.
  • a non-phonological voice hereinafter, appropriately referred to as a silent rhyme voice
  • Suzuki, Ishii, Takeuchi "Resonant imitation by non-segmented sound and its psychological effect", for the method of generating speech data from pitch frequency and power as prosodic information, for example, Examples are described in IPSJ Transactions, vol. 1, No. 5, ppl328-1337, May, 2000, JP-A-2000-181896, and the like.
  • the output unit 44 stores the echo back sound data from the sound generation unit 43 in the memory 45 and outputs the data to the output control unit 57 (FIG. 3).
  • the voice section detection unit 46 detects the voice section by performing the same processing as in the voice section detection unit 27 in FIG. 4 on the voice data from the AD conversion unit 41, and the prosody analysis unit 4 2 and the sound generator 43. As a result, the prosody analysis unit 42 and the sound generation unit 43 process only the speech section.
  • AD conversion unit 41 or the voice section detection unit 46 in FIG. 7 can also be used as the AD conversion unit 21 or the voice section detection unit 27 in FIG.
  • an echo back process according to the flowchart of FIG. 8 is performed.
  • step S11 the voice section detection unit 46 determines whether or not the voice section is based on the output of the AD conversion unit 41, and determines that the voice section is not a voice section. The processing is terminated, and the echo back processing from step S11 is restarted. If it is determined in step SI 1 that the voice section is a voice section, that is, if the user's voice is input to microphone 15, the process proceeds to step S 12, and the prosody analysis unit 42 performs AD conversion.
  • the prosody information is obtained by acoustically analyzing the output of the unit 41, that is, the user's voice input to the microphone 15, and supplying it to the sound generation unit 43.
  • step S13 the sound generation unit 43 generates a silent rhyme voice having the same prosody as the prosody information from the prosody analysis unit 42, and supplies it to the output unit 44 as echo back voice.
  • the output unit 44 stores the data of the echo back voice from the sound generation unit 43 in the memory 45 in step S 14, proceeds to step S 15, and outputs the echo back voice to the output control unit. 5 Output to 7 (Fig. 3) and end the process.
  • the echo back sound is supplied to the speaker 18 via the output control unit 57 and output.
  • the speaker 18 removes the phoneme from the voice uttered by the user and outputs it as echo back voice.
  • This echo-back voice is like repeating the voice of the user whose voice is to be recognized by the voice recognition unit 5 OA.
  • the user can output the echo-back voice.
  • the user can recognize that his / her own voice has been accepted in the mouth pot. Therefore, when the mouth pot does not take any action in response to the voice from the user (when the voice of the user is correctly recognized by the voice recognition unit 5 OA and when it is erroneously recognized). However, the user can be prevented from misunderstanding that the mouth pot is out of order.
  • the mouth pot understands the user's voice and gives the user a voice. It sounds as if you are repeating. Also, since the echo-back voice has the same prosody as the voice uttered by the user, the echo-back voice expresses the emotion obtained from the prosody. As a result, the user has a mouth pot, It sounds as if you understand the emotions of the user. Therefore, in the mouth pot, the user's voice is not simply recorded and reproduced, but can be given to the user an impression as if he / she understands it.
  • the echo pack sound is generated by superimposing the sine wave.
  • the echo back sound is a complicated sound such as a mouth pot call. It can be generated by preparing waveforms and connecting the waveforms.
  • the echo back voice for example, it is possible to recognize a phoneme constituting a user's voice and generate a speech having a phoneme composed of the phoneme sequence.
  • the echo-back sound can be generated, for example, by obtaining a cepstrum coefficient for a user's sound and using a digit filter that uses the cepstrum coefficient as a tap coefficient.
  • the mouth pot may give the user a so-called awkward impression as if the user's voice were simply recorded and played back. It is desirable that the back sound should not be very similar to the user's sound.
  • the sound generation unit 43 generates an echo-back sound having the same prosody as the user's voice, but the sound generation unit 43 includes the user's voice. It is also possible to generate an echo-back sound having a prosody obtained by processing the prosody of the sound.
  • the sound generation unit 43 receives the power Using P (j) and pitch frequency ⁇ (j), for example, an echo back sound y (t) can be generated according to the following equation.
  • Equation (3) where, in the equation (3), N is a positive integer.
  • the echo back sound y (t) obtained by making the power P (j) non-linearly logarithmic and making the pitch frequency f (j) N times larger than the sound of the j-th frame. Is generated.
  • N is set to, for example, 6 magnitude
  • an echo-back sound that is easy to hear and can be heard is obtained.
  • echo back sound having the same time length as the voice section of the user's voice is output, but echo back voice has the same time length as the voice section of the user's voice. Instead, they can have different lengths of time.
  • the user's voice is generated by interpolating or thinning out the power P (j) and the pitch frequency f (j). It is possible to generate an echo-back sound having a longer or shorter time duration than the sound section.
  • the echo back sound gives the user a natural feeling when the length of time is longer than the voice section of the user's voice, for example, 3 times 2 times.
  • an echo back voice is stored in the memory 45, and the output section 44 is stored in the memory 45.
  • Re-echo back processing is performed to read out and output the echo back sound as needed.
  • step S21 determines in step S21 whether a predetermined event has occurred. Return to step S21.
  • step S21 If it is determined in step S21 that a predetermined event has occurred, the process proceeds to step S22, where the output unit 44 reads the predetermined echo-back sound data stored in the memory 45. Then, the power is supplied to the speaker 18 via the output control unit 57, and the process returns to step S21.
  • the predetermined echo back sound stored in the memory 45 is output from the speaker 18.
  • the predetermined event for example, a certain value is set, a random number is generated, and when the random number matches the set value or when there is no external input, the predetermined event is set. For a continuous time period. In this case, the user does not give any stimulus to the mouth pot, but the mouth pot appears to start talking suddenly, so that the entertainment of the pot can be improved.
  • FIG. 10 shows another configuration example of the controller 10.
  • the controller 10 of FIG. 10 has the same configuration as that of FIG. 3 except that the model stored in the model storage unit 51 can be referred to in the echo back unit 56. Have been.
  • the sound generation unit 43 of the echo back unit 56 stores the data in the model storage unit 51 as shown by a dotted line in FIG. Emotional models, instinct models, and growth models are referenced.
  • the sound generation unit 43 controls the prosody extracted from the user's voice based on the emotion model, the instinct model, and the emotion of the mouth pot represented by the growth model, the instinct, and the growth state.
  • the sound generation unit 43 when the degree of pleasure or the degree of sadness of the mouth pot is high, the sound generation unit 43 generates an echo-back sound having a high or low pitch frequency according to the degree. In addition, the sound generation unit 43 If the degree of anger of the bird is high, an echo-back sound with a short utterance time is generated according to the degree. In addition, for example, when the degree of growth is high, the sound generation unit 43 can raise the pitch frequency of the ending to generate an echo-back sound for asking a question. The user can be prompted for the next utterance.
  • a predetermined echo back sound stored in the memory 45 is reproduced as a predetermined event using a random number, an external input, or the like.
  • the sound generation unit 43 of the echo back unit 56 refers to the emotion model, the instinct model, and the growth model stored in the model storage unit 51. Is stored in the memory 45 in association with the echo back sound generated by the sound generation unit 43 and the values of the emotion model and the like when the eco-packed sound is generated.
  • the fact that the value of the emotion model or the like stored in the storage unit 51 matches the value of the emotion model or the like stored in the memory 45 is defined as a predetermined event, and is associated with the value of the matched emotion model or the like.
  • the echo back sound from memory 45 It is possible to generate and output.
  • the echo back voice stored in the memory 45 is obtained when the value of the emotion model or the like becomes the same as that when the echo back voice was reproduced in the past.
  • the mouth pot will output the same echo-back sound when a certain emotion or the like occurs, since it will be reproduced. Then, as a result, the user can grasp the state of the mouth pot emotions and the like by making such an echo back sound. In other words, it is possible to share emotions and the like.
  • the action determining mechanism 52 and the output controller 57 can be configured to communicate between them.
  • the action determining mechanism 52 includes the output controller 57
  • action command information for driving the actuator that moves the lower jaw 4 A (FIG. 1) can be generated.
  • the lower jaw 4A moves in synchronization with the audio output from the —I can give the impression that Lopot is actually speaking.
  • the action determining mechanism 52 can control the movement of the lower jaw 4A based on the prosody information such as power of the audio output from the output controller 57 to the speaker 18 over a period of time. .
  • the movement of the lower jaw 4A is increased, thereby increasing the degree of opening of the mouth pot, while the power of the audio data is small.
  • the movement of the lower jaw 4A is reduced, which makes it possible to reduce the degree of opening of the mouth of the mouth pot.
  • the degree of opening of the mouth of the robot changes in accordance with the volume of the sound output from the speaker 18, so that the mouth pot can be made more realistic.
  • the present invention is not limited to this, and may be applied to various pots such as industrial pots. It can be widely applied. Further, the present invention is applicable not only to a robot in the real world but also to a virtual robot displayed on a display device such as a liquid crystal display.
  • the above-described series of processing is performed by causing the CPU 10A to execute a program, but the series of processing may be performed by dedicated hardware. .
  • the program is stored in the memory 10B (Fig. 2) in advance, and the floppy disk, CD-ROM (Compact Disc Read Only Memory), MO (Magneto op Ucal) disk, DVD (Digital Versatile Disc), It can be temporarily or permanently stored (recorded) on removable recording media such as magnetic disks and semiconductor memories. Then, such a removable recording medium can be provided as so-called package software, and can be installed in a robot (memory 10B).
  • CD-ROM Compact Disc Read Only Memory
  • MO Magnetic op Ucal
  • DVD Digital Versatile Disc
  • the program can be transmitted wirelessly from a down-link site via a satellite for digital satellite broadcasting, or via a wired connection via a network such as a LAN (Local Area Network) or the Internet, and can be stored in memory 10 B 1 Install Can be
  • the version-upgraded program can be easily installed in the memory 10B.
  • processing steps for describing a program for causing the CPU 1 OA to perform various types of processing do not necessarily need to be processed in chronological order in the order described as a flowchart, and may be performed in parallel. It also includes processes that are executed either individually or individually (eg, parallel processing or processing by objects). Further, the program may be processed by one CPU, or may be processed by a plurality of CPUs in a distributed manner.
  • prosody information of a user's voice to be recognized is analyzed, and based on the prosody information, prosody control voice data that is prosody-controlled voice data is generated and output. Therefore, the user can recognize that the robot's own voice has been received by listening to the prosody control voice data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Robotics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Toys (AREA)
  • Manipulator (AREA)

Description

明細書
ロボット制御装置 技術分野
本発明は、 ロボット制御装置に関し、 特に、 例えば、 音声認識装置による音声 認識結果に基づいて行動するロポットに用いて好適なロポット制御装置に関する。 背景技術
近年においては、 例えば、 玩具等として、 ユーザが発した音声を音声認識し、 その音声認識結果に基づいて、 ある仕草をしたり、 合成音を出力する等の行動を 行う口ポット (本明細書においては、 ぬいぐるみ状のものを含む) が製品化され ている。
しかしながら、 口ポットにおいては、 音声認識結果が得られても、 何の行動も 起こさない場合があり、 この場合、 ユーザは、 ロボットにおいて音声が認識され ているのかどうか、 あるいは口ポットが故障しているのかどうか不安になる。 発明の開示
本発明は、 このような状況に鑑みてなされたものであり、 口ポットにおいて、 ュ一ザの音声が認識されていることを分かるようにすることで、 ュ一ザの不安を 解消すること等ができるようにするものである。
本発明のロボット制御装置は、 音声認識されるユーザの音声の韻律情報を分析 する分析手段と、 韻律情報に基づいて、 韻律を制御した音声データである韻律制 御音声デ一夕を生成する生成手段と、 韻律制御音声データの出力を制御する出力 制御手段とを備えることを特徴とする。
本発明のロボット制御方法は、 音声認識されるユーザの音声の韻律情報を分析 する分析ステップと、 韻律情報に基づいて、 韻律を制御した音声データである韻 律制御音声データを生成する生成ステップと、 韻律制御音声データの出力を制御 する出力制御ステップとを備えることを特徴とする。
本発明の記録媒体は、 音声認識されるユーザの音声の韻律情報を分析する分析 ステップと、 韻律情報に基づいて、 韻律を制御した音声デ一夕である韻律制御音 声データを生成する生成ステップと、 韻律制御音声データの出力を制御する出力 制御ステップとを備えるプログラムが記録されていることを特徴とする。
本発明のプログラムは、 音声認識されるユーザの音声の韻律情報を分析する分 析ステップと、 韻律情報に基づいて、 韻律を制御した音声データである韻律制御 音声データを生成する生成ステップと、 韻律制御音声データの出力を制御する出 力制御ステップとを備えることを特徴とする。
本発明においては、 育声認識されるユーザの音声の韻律情報が分析され、 その 韻律情報に基づいて、 韻律を制御した音声データである韻律制御音声デ一夕が生 成されて出力される。 図面の簡単な説明
'図 1は、 本発明を適用したロボットの一実施の形態の外観構成例を示す斜視図 である。
図 2は、 ロポットの内部構成例を示すブロック図である。
図 3は、 コントローラ 1 0の機能的構成例を示すブロック図である。
図 4は、 音声認識部 5 O Aの構成例を示すブロック図である。
図 5は、 音声合成部 5 5の構成例を示すブロック図である。
図 6は、 出力制御部 5 7の処理を説明するフローチャートである。
図 7は、 エコーバック部 5 6の構成例を示すブロック図である。
図 8は、 エコーバック部 5 6によるェコ一バック処理を説明するフローチヤ一 トである。
図 9は、 エコーバック部 5 6による再エコーパック処理を説明するフローチヤ ートである。
図 1 0は、 コントローラ 1 0の他の機能的構成例を示すブロック図である。 発明を実施するための最良の形態
図 1は、 本発明を適用したロボットの一実施の形態の外観構成例を示しており、 図 2は、 その電気的構成例を示している。
本実施の形態では、 ロボットは、 例えば、 犬等の四つ足の動物の形状のものと なっており、 胴体部ュニット 2の前後左右に、 それぞれ脚部ュニット 3 A, 3 B, 3 C, 3Dが連結されるとともに、 胴体部ユニット 2の前端部と後端部に、 それ ぞれ頭部ュニッ卜 4と尻尾部ュニット 5が連結されることにより構成されている。 尻尾部ュニッ卜 5は、 胴体部ュニット 2の上面に設けられたベース部 5 Bから、 2自由度をもって湾曲または揺動自在に引き出されている。
胴体部ユニット 2には、 口ポット全体の制御を行うコントローラ 10、 ロボッ 卜の動力源となるバッテリ 1 1、 並びにバッテリセンサ 12および熱センサ 1 3 からなる内部センサ部 14などが収納されている。
頭部ユニット 4には、 「耳」 に相当するマイク (マイクロフォン) 1 5、 「目」 に相当する C CD (Charge Coupled Device)カメラ 16、 触覚に相当する 夕ツチセンサ 1 7、 「口」 に相当するスピーカ 18などが、 それぞれ所定位置に 配設されている。 また、 頭部ユニット 4には、 口の下顎に相当する下顎部 4 Aが 1自由度をもって可動に取り付けられており、 この下顎部 4 Aが動くことにより、 ロボットの口の開閉動作が実現されるようになっている。
脚部ユニット 3 A乃至 3Dそれぞれの関節部分や、 脚部ユニット 3 A乃至 3D それぞれと胴体部ュニット 2の連結部分、 頭部ュニット 4と胴体部ュニット 2の 連結部分、 頭部ユニット 4と下顎部 4 Aの連結部分、 並びに尻尾部ユニット 5と 胴体部ユニット 2の連結部分などには、 図 2に示すように、 それぞれァクチユエ —夕 3 AA,乃至 3 AAK、 3 BAi乃至 3 BAK、 3 CA,乃至 3 CAK、 3DA,乃 至 3DAK、 4A,乃至 4Aい 5 A(および 5 A2が配設されている。
頭部ユニット 4におけるマイク 15は、 ユーザからの発話を含む周囲の音声 (音) を集音し、 得られた音声信号を、 コントローラ 1 0に送出する。 CCD力 メラ 16は、 周囲の状況を撮像し、 得られた画像信号を、 コントローラ 1 0に送 出する。
タツチセンサ 17は、 例えば、 頭部ユニット 4の上部に設けられており、 ユー ザからの 「なでる」 や 「たたく」 といった物理的な働きかけにより受けた圧力を 検出し、 その検出結果を圧力検出信号としてコントローラ 10に送出する。
胴体部ュニット 2におけるバッテリセンサ 12は、 バッテリ 1 1の残量を検出 し、 その検出結果を、 バッテリ残量検出信号としてコントローラ 10に送出する。 熱センサ 13は、 ロボット内部の熱を検出し、 その検出結果を、 熱検出信号とし てコントローラ 1 0に送出する。
コント口一ラ 10は、 CPU(Centrai Processing Unit) 1 OAやメモリ 10 B等を内蔵しており、 CPU 1 0 Aにおいて、 メモリ 1 0 Bに記憶された制御プ ログラムが実行されることにより、 各種の処理を行う。
即ち、 コントローラ 10は、 マイク 1 5や、 CCDカメラ 16、 夕ツチセンサ 17、 バッテリセンサ 12、 熱センサ 13から与えられる音声信号、 画像信号、 圧力検出信号、 バッテリ残量検出信号、 熱検出信号に基づいて、 周囲の状況や、 ユーザからの指令、 ユーザからの働きかけなどの有無を判断する。
さらに、 コントローラ 10は、 この判断結果等に基づいて、 続く行動を決定し、 その決定結果に基づいて、 ァクチユエ一夕 3 乃至 3 AAK、 3 BA,乃至 3 BAK、 3 CAi乃至 3 CAK、 3DAt乃至 3DAK、 乃至 4Aい 5 A 5 A 2のうちの必要なものを駆動させる。 これにより、 頭部ユニット 4を上下左右に 振らせたり、 下顎部 4 Aを開閉させる。 さらには、 尻尾部ユニット 5を動かせた り、 各脚部ユニット 3 A乃至 3Dを駆動して、 口ポットを歩行させるなどの行動 を行わせる。
また、 コントローラ 10は、 必要に応じて、 合成音、 あるいは後述するような エコーバック音声を生成し、 スピーカ 18に供給して出力させたり、 口ポットの 「目」 の位置に設けられた図示しない LED (Light Emitting Diode) を点灯、 消灯または点滅させる。 以上のようにして、 口ポットは、 周囲の状況等に基づいて自律的に行動をとる ようになつている。
次に、 図 3は、 図 2のコントローラ 1 0の機能的構成例を示している。 なお、 図 3に示す機能的構成は、 C P U 1 0 Aが、 メモリ 1 0 Bに記憶された制御プロ グラムを実行することで実現されるようになっている。
コントローラ 1 0は、 特定の外部状態を認識するセンサ入力処理部 5 0、 センサ 入力処理部 5 0の認識結果を累積して、 感情や、 本能、 成長の状態を表現するモ デル記憶部 5 1、 センサ入力処理部 5 0の認識結果等に基づいて、 続く行動を決 定する行動決定機構部 5 2、 行動決定機構部 5 2の決定結果に基づいて、 実際に 口ポットに行動を起こさせる姿勢遷移機構部 5 3、 各ァクチユエ一夕 3 乃 至 5 A,および 5 A2を駆動制御する制御機構部 5 4、 合成音を生成する音声合成 部 5 5、 エコーバック音声を出力するエコーバック部 5 6、 並びに音声データの 出力を制御する出力制御部 5 7から構成されている。
センサ入力処理部 5 0は、 マイク 1 5や、 C C Dカメラ 1 6、 夕ツチセンサ 1 7等から与えられる音声信号、 画像信号、 圧力検出信号等に基づいて、 特定の外 部状態や、 ユーザからの特定の働きかけ、 ユーザからの指示等を認識し、 その認 識結果を表す状態認識情報を、 モデル記憶部 5 1および行動決定機構部 5 2に通 知する。
即ち、 センサ入力処理部 5 0は、 音声認識部 5 O Aを有しており、 音声認識部 5 O Aは、 マイク 1 5から与えられる音声信号について音声認識を行う。 そして、 音声認識部 5 O Aは、 その音声認識結果としての、 例えば、 「歩け」 、 「伏せ」 、 「ポールを追いかけろ」 等の指令その他を、 状態認識情報として、 モデル記憶部 5 1および行動決定機構部 5 2に通知する。
また、 センサ入力処理部 5 0は、 画像認識部 5 0 Bを有しており、 画像認識部 5 0 Bは、 C C Dカメラ 1 6から与えられる画像信号を用いて、 画像認識処理を 行う。 そして、 画像認識部 5 0 Bは、 その処理の結果、 例えば、 「赤い丸いも の」 や、 「地面に対して垂直なかつ所定高さ以上の平面」 等を検出したときには、 「ポールがある」 や、 「壁がある」 等の画像認識結果を、 状態認識情報として、 モデル記憶部 5 1および行動決定機構部 5 2に通知する。
さらに、 センサ入力処理部 5 0は、 圧力処理部 5 0 Cを有しており、 圧力処理 部 5 0 Cは、 夕ツチセンサ 1 7から与えられる圧力検出信号を処理する。 そして、 圧力処理部 5 0 Cは、 その処理の結果、 所定の閾値以上で、 かつ短時間の圧力を 検出したときには、 「たたかれた (しかられた) 」 と認識し、 所定の閾値未満で、 かつ長時間の圧力を検出したときには、 「なでられた (ほめられた) 」 と認識し て、 その認識結果を、 状態認識情報として、 モデル記憶部 5 1および行動決定機 構部 5 2に通知する。
モデル記憶部 5 1は、 口ポットの感情、 本能、 成長の状態を表現する感情モデ ル、 本能モデル、 成長モデルをそれぞれ記憶、 管理している。
ここで、 感情モデルは、 例えば、 「うれしさ」 、 「悲しさ」 、 「怒り」 、 「楽 しさ」 等の感情の状態 (度合い) を、 所定の範囲の値によってそれぞれ表し、 セ ンサ入力処理部 5 0からの状態認識情報や時間経過等に基づいて、 その値を変化 させる。 本能モデルは、 例えば、 「食欲」 、 「睡眠欲」 、 「運動欲」 等の本能に よる欲求の状態 (度合い) を、 所定の範囲の値によってそれぞれ表し、 センサ入 力処理部 5 0からの状態認識情報や時間経過等に基づいて、 その値を変化させる。 成長モデルは、 例えば、 「幼年期」 、 「青年期」 、 「熟年期」 、 「老年期」 等の 成長の状態 (度合い) を、 所定の範囲の値によってそれぞれ表し、 センサ入力処 理部 5 0からの状態認識情報や時間経過等に基づいて、 その値を変化させる。 モデル記憶部 5 1は、 上述のようにして感情モデル、 本能モデル、 成長モデル の値で表される感情、 本能、 成長の状態を、 状態情報として、 行動決定機構部 5 2に送出する。
なお、 モデル記憶部 5 1には、 センサ入力処理部 5 0から状態認識情報が供給 される他、 行動決定機構部 5 2から、 口ポットの現在または過去の行動、 具体的 には、 例えば、 「長時間歩いた」 などの行動の内容を示す行動情報が供給される ようになつており、 モデル記憶部 5 1は、 同一の状態認識情報が与えられても、 行動情報が示すロボットの行動に応じて、 異なる状態情報を生成するようになつ ている。
即ち、 例えば、 ロボットが、 ユーザに挨拶をし、 ュ一ザに頭を撫でられた場合 には、 ユーザに挨拶をしたという行動情報と、 頭を撫でられたという状態認識情 報とが、 モデル記憶部 5 1に与えられ、 この場合、 モデル記憶部 5 1では、 「う れしさ」 を表す感情モデルの値が増加される。
一方、 ロボットが、 何らかの仕事を実行中に頭を撫でられた場合には、 仕事を 実行中であるという行動情報と、 頭を撫でられたという状態認識情報とが、 モデ ル記憶部 5 1に与えられ、 この場合、 モデル記憶部 5 1では、 「うれしさ」 を表 す感情モデルの値は変化されない。
このように、 モデル記憶部 5 1は、 状態認識情報だけでなく、 現在または過去 のロボットの行動を示す行動情報も参照しながら、 感情モデルの値を設定する。 これにより、 例えば、 何らかのタスクを実行中に、 ユーザが、 いたずらするつも りで頭を撫でたときに、 「うれしさ」 を表す感情モデルの値を増加させるような、 不自然な感情の変化が生じることを回避することができる。
なお、 モデル記憶部 5 1は、 本能モデルおよび成長モデルについても、 感情モ デルにおける場合と同様に、 状態認識情報および行動情報の両方に基づいて、 そ の値を増減させるようになつている。 また、 モデル記憶部 5 1は、 感情モデル、 本能モデル、 成長モデルそれぞれの値を、 他のモデルの値にも基づいて増減させ るようになっている。
行動決定機構部 5 2は、 センサ入力処理部 5 0からの状態認識情報や、 モデル 記憶部 5 1からの状態情報、 時間経過等に基づいて、 次の行動を決定し、 決定さ れた行動の内容を、 行動指令情報として、 姿勢遷移機構部 5 3に送出する。
即ち、 行動決定機構部 5 2は、 口ポットがとり得る行動をステート (状態) (s tate)に対応させた有限ォ一トマトンを、 口ポットの行動を規定する行動モデル として管理しており、 この行動モデルとしての有限オートマトンにおけるステー トを、 センサ入力処理部 5 0からの状態認識情報や、 モデル記憶部 5 1における 感情モデル、 本能モデル、 または成長モデルの値、 時間経過等に基づいて遷移さ せ、 遷移後のステートに対応する行動を、 次にとるべき行動として決定する。
ここで、 行動決定機構部 5 2は、 所定のトリガ(tr igger)があったことを検出 すると、 ステートを遷移させる。 即ち、 行動決定機構部 5 2は、 例えば、 現在の ステートに対応する行動を実行している時間が所定時間に達したときや、 特定の 状態認識情報を受信したとき、 モデル記憶部 5 1から供給される状態情報が示す 感情や、 本能、 成長の状態の値が所定の閾値以下または以上になったとき等に、 ステートを遷移させる。
なお、 行動決定機構部 5 2は、 上述したように、 センサ入力処理部 5 0からの 状態認識情報だけでなく、 モデル記憶部 5 1における感情モデルや、 本能モデル、 成長モデルの値等にも基づいて、 行動モデルにおけるステートを遷移させること から、 同一の状態認識情報が入力されても、 感情モデルや、 本能モデル、 成長モ デルの値 (状態情報) によっては、 ステートの遷移先は異なるものとなる。
その結果、 行動決定機構部 5 2は、 例えば、 状態情報が、 「怒っていない」 こ と、 および 「お腹がすいていない」 ことを表している場合において、 状態認識情 報が、 「目の前に手のひらが差し出された」 ことを表しているときには、 目の前 に手のひらが差し出されたことに応じて、 「お手」 という行動をとらせる行動指 令情報を生成し、 これを、 姿勢遷移機構部 5 3に送出する。
また、 行動決定機構部 5 2は、 例えば、 状態情報が、 「怒っていない」 こと、 および 「お腹がすいている」 ことを表している場合において、 状態認識情報が、 「目の前に手のひらが差し出された」 ことを表しているときには、 目の前に手の ひらが差し出されたことに応じて、 「手のひらをぺろぺろなめる」 ような行動を 行わせるための行動指令情報を生成し、 これを、 姿勢遷移機構部 5 3に送出する c また、 行動決定機構部 5 2は、 例えば、 状態情報が、 「怒っている」 ことを表 している場合において、 状態認識情報が、 「目の前に手のひらが差し出された」 ことを表しているときには、 状態情報が、 「お腹がすいている」 ことを表してい ても、 また、 「お腹がすいていない」 ことを表していても、 「ぷいと横を向く」 ような行動を行わせるための行動指令情報を生成し、 これを、 姿勢遷移機構部 5 3に送出する。
なお、 行動決定機構部 5 2には、 モデル記憶部 5 1から供給される状態情報が 示す感情や、 本能、 成長の状態に基づいて、 遷移先のステートに対応する行動の パラメ一夕としての、 例えば、 歩行の速度や、 手足を動かす際の動きの大きさお よび速度などを決定させることができ、 この場合、 それらのパラメ一夕を含む行 動指令情報が、 姿勢遷移機構部 5 3に送出される。
また、 行動決定機構部 5 2では、 上述したように、 口ポットの頭部や手足等を 動作させる行動指令情報の他、 ロボットに発話を行わせる行動指令情報も生成さ れる。 口ポットに発話を行わせる行動指令情報は、 音声合成部 5 5に供給される ようになつており、 音声合成部 5 5に供給される行動指令情報には、 音声合成部 5 5に生成させる合成音に対応するテキスト等が含まれる。 そして、 音声合成部 5 5は、 行動決定部 5 2から行動指令情報を受信すると、 その行動指令情報に含 まれるテキストに基づき、 合成音を生成し、 出力制御部 5 7を介して、 スピーカ 1 8に供給して出力させる。 これにより、 スピーカ 1 8からは、 例えば、 ロポッ 卜の鳴き声、 さらには、 「お腹がすいた」 等のユーザへの各種の要求、 「何?」 等のュ一ザの呼びかけに対する応答その他の音声出力が行われる。
姿勢遷移機構部 5 3は、 行動決定機構部 5 2から供給される行動指令情報に基 づいて、 ロボットの姿勢を、 現在の姿勢から次の姿勢に遷移させるための姿勢遷 移情報を生成し、 これを制御機構部 5 4に送出する。
ここで、 現在の姿勢から次に遷移可能な姿勢は、 例えば、 胴体や手や足の形状、 重さ、 各部の結合状態のようなロボットの物理的形状と、 関節が曲がる方向や角 度のようなァクチユエ一夕 3 A A,乃至 5 および 5 A2の機構とによって決定 される。
また、 次の姿勢としては、 現在の姿勢から直接遷移可能な姿勢と、 直接には遷 移できない姿勢とがある。 例えば、 4本足のロボットは、 手足を大きく投げ出し て寝転んでいる状態から、 伏せた状態へ直接遷移することはできるが、 立った状 態へ直接遷移することはできず、 一旦、 手足を胴体近くに引き寄せて伏せた姿勢 になり、 それから立ち上がるという 2段階の動作が必要である。 また、 安全に実 行できない姿勢も存在する。 例えば、 4本足の口ポットは、 その 4本足で立って いる姿勢から、 両前足を挙げてバンザィをしょうとすると、 簡単に転倒してしま ラ。
このため、 姿勢遷移機構部 5 3は、 直接遷移可能な姿勢をあらかじめ登録して おき、 行動決定機構部 5 2から供給される行動指令情報が、 直接遷移可能な姿勢 を示す場合には、 その行動指令情報を、 そのまま姿勢遷移情報として、 制御機構 部 5 4に送出する。 一方、 行動指令情報が、 直接遷移不可能な姿勢を示す場合に は、 姿勢遷移機構部 5 3は、 遷移可能な他の姿勢に一旦遷移した後に、 目的の姿 勢まで遷移させるような姿勢遷移情報を生成し、 制御機構部 5 4に送出する。 こ れにより口ポットが、 遷移不可能な姿勢を無理に実行しょうとする事態や、 転倒 するような事態を回避することができるようになつている。
制御機構部 5 4は、 姿勢遷移機構部 5 3からの姿勢遷移情報にしたがって、 ァ クチユエ一夕 3 A A ,乃至 5 および 5 A2を駆動するための制御信号を生成し、 これを、 ァクチユエ一夕 3 A Ai乃至 5 A tおよび 5 A2に送出する。 これにより、 ァクチユエ一夕 3 A A,乃至 5 Atおよび 5 A2は、 制御信号にしたがって駆動し、 口ポットは、 自律的に行動を起こす。
エコーバック部 5 6は、 マイク 1 5から与えられ、 音声認識部 5 0 Aで音声認 識される音声信号を監視しており、 その音声信号を復唱するような音声 (以下、 適宜、 エコーバック音声という) を生成して出力する。 このエコーバック音声は、 出力制御部 5 7を介して、 スピーカ 1 8に供給されて出力される。
出力制御部 5 7には、 音声合成部 5 5からの合成音のディジタルデータと、 ェ コーバック部 5 6からのエコーバック音声のディジ夕ルデ一夕とが供給されるよ うになつており、 それらのディジタルデ一夕を、 アナログの音声信号に D ZA変 換し、 スピーカ 1 8に供給して出力させる。 また、 出力制御部 5 7は、 音声合成 部 5 5からの合成音と、 エコーバック部 5 6からのエコーバック音声の、 スピ一 力 1 8への出力が競合した場合に、 その競合を調整する。 即ち、 エコーバック部 5 6からのエコーバック音声の出力は、 行動決定機構部 5 2の制御にしたがって 音声合成部 5 5が行う合成音の出力とは独立に行われるようになつており、 この ため、 ェコ一パック音声の出力と合成音の出力とは競合する場合がある。 そこで、 出力制御部 5 7は、 その競合の調停を行う。
次に、 図 4は、 図 3の音声認識部 5 O Aの構成例を示している。
マイク 1 5からの音声信号は、 A D (Anal og Digi tal)変換部 2 1に供給される。 AD変換部 2 1では、 マイク 1 5からのアナログ信号である音声信号がサンプリ ング、 量子化され、 ディジタル信号である音声デ一夕に AZD変換される。 この 音声データは、 特徴抽出部 2 2および音声区間検出部 2 7に供給される。
特徴抽出部 2 2は、 そこに入力される音声デ一夕について、 適当なフレームご とに、 例えば、 M F C C (Mel Frequency Ceps t rum Coef f ic i ent)分析を行い、 そ の分析の結果得られる M F C Cを、 特徴パラメータ (特徵ベクトル) として、 マ ツチング部 2 3に出力する。 なお、 特徴抽出部 2 2では、 その他、 例えば、 線形 予測係数、 ケプストラム係数、 線スペクトル対、 所定の周波数帯域ごとのパワー (フィルタバンクの出力) 等を、 特徴パラメータとして抽出することが可能であ る。
マッチング部 2 3は、 特徴抽出部 2 2からの特徴パラメータを用いて、 音響モ デル記憶部 2 4、 辞書記憶部 2 5、 および文法記憶部 2 6を必要に応じて参照し ながら、 マイク 1 5に入力された音声 (入力音声) を、 例えば、 連続分布 HMM (Hi dden Markov Mode l)法に基づいて音声認識する。
即ち、 音響モデル記憶部 2 4は、 音声認識する音声の言語における個々の音素 や音節などの音響的な特徴を表す音響モデルを記憶している。 ここでは、 連続分 布 HMM法に基づいて音声認識を行うので、 音響モデルとしては、 HMM OH dde n Markov Mode l)が用いられる。 辞書記憶部 2 5は、 認識対象の各単語について、 その発音に関する情報 (音韻情報) が記述された単語辞書を記憶している。 文法 記憶部 2 6は、 辞書記憶部 2 5の単語辞書に登録されている各単語が、 どのよう に連鎖する (つながる) かを記述した文法規則を記憶している。 ここで、 文法規 則としては、 例えば、 文脈自由文法 (C F G) や、 統計的な単語連鎖確率 (N— g r a m) などに基づく規則を用いることができる。
マッチング部 2 3は、 辞書記憶部 2 5の単語辞書を参照することにより、 音響 モデル記憶部 2 4に記憶されている音響モデルを接続することで、 単語の音響モ デル (単語モデル) を構成する。 さらに、 マッチング部 2 3は、 幾つかの単語モ デルを、 文法記憶部 2 6に記憶された文法規則を参照することにより接続し、 そ のようにして接続された単語モデルを用いて、 特徴パラメ一夕に基づき、 連続分 布 HMM法によって、 マイク 1 5に入力された音声を認識する。 即ち、 マツチン グ部 2 3は、 特徴抽出部 2 2が出力する時系列の特徴パラメータが観測されるス コア (尤度) が最も高い単語モデルの系列を検出し、 その単語モデルの系列に対 応する単語列の音韻情報 (読み) を、 音声の認識結果として出力する。
より具体的には、 マッチング部 2 3は、 接続された単語モデルに対応する単語 列について、 各特徴パラメータの出現確率を累積し、 その累積値をスコアとして、 そのスコアを最も高くする単語列の音韻情報を、 音声認識結果として出力する。 以上のようにして出力される、 マイク 1 5に入力された音声の認識結果は、 状 態認識情報として、 モデル記憶部 5 1および行動決定機構部 5 2に出力される。 なお、 音声区間検出部 2 7は、 A D変換部 2 1からの音声データについて、 特 徵抽出部 2 2が M F C C分析を行うのと同様のフレームごとに、 例えば、 パワー を算出している。 さらに、 音声区間検出部 2 7は、 各フレームのパワーを、 所定 の閾値と比較し、 その閾値以上のパワーを有するフレームで構成される区間を、 ユーザの音声が入力されている音声区間として検出する。 そして、 音声区間検出 部 2 7は、 検出した音声区間を、 特徴抽出部 2 2とマッチング部 2 3に供給して おり、 特徴抽出部 2 2とマッチング部 2 3は、 音声区間のみを対象に処理を行う c 次に、 図 5は、 図 3の音声合成部 5 5の構成例を示している。
テキスト生成部 3 1には、 行動決定機構部 5 2が出力する、 音声合成の対象と するテキストを含む行動指令情報が供給されるようになっており、 テキスト生成 部 3 1は、 辞書記憶部 3 4や生成用文法記憶部 3 5を参照しながら、 その行動指 令情報に含まれるテキストを解析する。
即ち、 辞書記憶部 3 4には、 各単語の品詞情報や、 読み、 アクセント等の情報 が記述された単語辞書が記憶されており、 また、 生成用文法記憶部 3 5には、 辞 書記憶部 3 4の単語辞書に記述された単語について、 単語連鎖に関する制約等の 生成用文法規則が記憶されている。 そして、 テキスト生成部 3 1は、 この単語辞 書および生成用文法規則に基づいて、 そこに入力されるテキストの形態素解析や 構文解析等の解析を行い、 後段の規則合成部 3 2で行われる規則音声合成に必要 な情報を抽出する。 ここで、 規則音声合成に必要な情報としては、 例えば、 ポ一 ズの位置や、 アクセントおよびイントネーションを制御するための情報その他の 韻律情報や、 各単語の発音等の音韻情報などがある。
テキスト生成部 3 1で得られた情報は、 規則合成部 3 2に供給され、 規則合成 部 3 2では、 音素片記憶部 3 6を参照しながら、 テキスト生成部 3 1に入力され たテキストに対応する合成音の音声データ (ディジタルデ一夕) が生成される。 即ち、 音素片記憶部 3 6には、 例えば、 C V Consonant, Vowel)や、 V C V、 C V C等の形で音素片データが記憶されており、 規則合成部 3 2は、 テキスト生 成部 3 1からの情報に基づいて、 必要な音素片データを接続し、 さらに、 音素片 データの波形を加工することによって、 ポーズ、 アクセント、 イントネーション 等を適切に付加し、 これにより、 テキスト生成部 3 1に入力されたテキストに対 応する合成音の音声データを生成する。
以上のようにして生成された音声デ一夕は、 出力制御部 5 7 (図 3 ) を介して、 スピ一力 1 8に供給され、 これにより、 スピーカ 1 8からは、 テキスト生成部 3 1に入力されたテキストに対応する合成音が出力される。
なお、 図 3の行動決定機構部 5 2では、 上述したように、 行動モデルに基づい て、 次の行動が決定されるが、 合成音として出力するテキストの内容は、 ロボッ トの行動と対応付けておくことが可能である。
即ち、 例えば、 口ポットが、 座った状態から、 立った状態になる行動には、 テ キスト 「よつこいしよ」 などを対応付けておくことが可能である。 この場合、 口 ボットが、 座っている姿勢から、 立つ姿勢に移行するときに、 その姿勢の移行に 同期して、 合成音 「よつこいしよ」 を出力することが可能となる。
次に、 図 6のフローチヤ一トを参照して、 図 3の出力制御部 5 7の処理 (出力 制御処理) について説明する。
出力制御部 5 7は、 音声合成部 5 5からの合成音を受信すると、 ェコ一バック 部 5 6からエコーバック音声を受信していない限り、 音声合成部 5 5からの合成 音を、 スピーカ 1 8に供給して出力させる。
そして、 出力制御部 5 7は、 エコーバック部 5 6からエコーバック音声を受信 した場合、 図 6のフ口一チヤ一トにしたがった出力制御処理を行う。
即ち、 出力制御部 5 7は、 エコーバック部 5 6からエコーパック音声を受信し た場合、 まず最初に、 ステップ S 1において、 音声合成部 5 5から合成音が出力 されているかどうかを判定し、 出力されていないと判定した場合、 ステップ S 2 に進み、 エコーバック部 5 6から受信したエコーバック音声を、 スピーカ 1 8に 供給して出力させ、 処理を終了する。
一方、 ステップ S 1において、 音声合成部 5 5から合成音が出力されていると 判定された場合、 即ち、 音声合成部 5 5からの合成音の出力と、 エコーバック部 5 6からのエコーバック音声の出力とが競合した場合、 ステップ S 3に進み、 出 力制御部 5 7は、 エコーバック音声の出力を制限し、 音声合成部 5 5からの合成 音を、 スピーカ 1 8に供給して、 出力させ、 処理を終了する。
なお、 出力制御部 5 7はエコーバック音声の出力中に、 音声合成部 5 5から合 成音を受信した場合、 エコーバック音声の出力を中止し、 音声合成部 5 5からの 合成音の出力を優先させる。
以上のように、 出力制御部 5 7は、 音声合成部 5 5からの合成音の出力と、 ェ コーバック部 5 6からのエコーバック音声の出力とが競合した場合、 音声合成部 5 5からの合成音の出力を優先させる。 これは、 音声合成部 5 5からの合成音の 出力が、 行動決定機構部 5 2からの行動指令情報に基づくものであり、 口ポット の行動であるのに対して、 エコーバック音声の出力は、 ユーザの発話を復唱する ものであることから、 音声合成部 5 5からの合成音の方が、 エコーバック音声に 比較して、 ユーザに対する重要度が高いと考えられるためである。
但し、 出力制御部 5 7では、 例えば、 エコーバック音声の出力を、 音声合成部' 5 5からの合成音の出力より優先させることも可能であるし、 また、 例えば、 ェ コーバック音声と、 音声合成部 5 5からの合成音のうち、 先に受信した方の出力 を優先させるようにすること等も可能である。
次に、 図 7は、 図 3のエコーバック部 5 6の構成例を示している。
マイク 1 5からの音声信号は、 A D変換部 4 1に供給される。 A D変換部 4 1 では、 マイク 1 5からのアナログ信号である音声信号がサンプリング、 量子化さ れ、 ディジタル信号である音声データに AZD変換される。 この音声データは、 韻律分析部 4 2および音声区間検出部 4 6に供給される。
韻律分析部 4 2は、 そこに入力される音声データを、 適当なフレームごとに音 響分析することにより、 例えば、 ピッチ周波数やパワー等といった音声デ一夕の 韻律情報を抽出する。 この韻律情報は、 音生成部 4 3に供給される。
即ち、 韻律分析部 4 2は、 例えば、 人間の一般的なピッチ周期よりも長い 3 2 m s等を 1フレームとして、 A D変換部 4 1からの音声データのピッチ周波数と パヮ一を、 フレーム単位で求める。
具体的には、 韻律分析部 4 2は、 第 j フレームのパヮ一 P ( j ) を、 次式にし たがって求める。
P ( j ) =∑ X j2
• · · ( 1 ) 但し、 式 (1 ) において、 X iは、 第 jフレームの先頭から i番目の音声デー 夕のサンプル値を表し、 ∑は、 第 jフレームの音声デ一夕のサンプルすべてにつ いてのサメーションを表す。
また、 韻律分析部 4 2は、 第 j フレームの音声デ一夕のサンプルについて、 自 己相関値を演算し、 その自己相関値を最大にする、 0でないずれ量 (時間) てを 求めて、 次式により、 第 jフレームのピッチ周波数 f ( j ) を演算する。
f ( j ) = 1 /て
• · · ( 2 ) 音生成部 4 3は、 韻律分析部 4 2からの韻律情報に基づいて、 韻律を制御した エコーバック音声を生成する。
即ち、 音生成部 4 3は、 例えば、 韻律分析部 4 2からの韻律情報と同一の韻律 を有する、 音韻のない音声 (以下、 適宜、 無音韻音声という)' を、 サイン(s in) 波を重畳することにより生成し、 エコーバック音声として、 出力部 4 4に供給す る。
なお、 韻律情報としての、 例えば、 ピッチ周波数とパワーから音声デ一夕を生 成する方法については、 例えば、 鈴木、 石井、 竹内、 「非分節音による反響的な 模倣とその心理的影響」 、 情報処理学会論文誌、 vol. 1, No. 5, ppl328-1337, May, 2000や、 特開 2000-181896号公報等に、 その一例が記載されている。
出力部 4 4は、 音生成部 4 3からのエコーバック音声のデータを、 メモリ 4 5 に記憶させるとともに、 出力制御部 5 7 (図 3 ) に出力する。
音声区間検出部 4 6は、 A D変換部 4 1からの音声データについて、 図 4の音 声区間検出部 2 7における場合と同様の処理を行うことにより、 音声区間を検出 し、 韻律分析部 4 2と音生成部 4 3に供給する。 これにより、 韻律分析部 4 2と 音生成部 4 3では、 音声区間のみを対象に処理が行われる。
なお、 図 7の A D変換部 4 1または音声区間検出部 4 6と、 図 4の A D変換部 2 1または音声区間検出部 2 7とは、 それぞれ兼用することが可能である。
以上のように構成されるエコーバック部 5 6では、 例えば、 図 8のフローチヤ ートにしたがったエコーバック処理が行われる。
即ち、 まず最初に、 ステップ S 1 1において、 音声区間検出部 4 6が、 A D変 換部 4 1の出力に基づいて、 音声区間であるかどうかを判定し、 音声区間でない と判定した場合、 処理を終了し、 再度、 ステップ S 1 1からのエコーバック処理 を再開する。 また、 ステップ S I 1において、 音声区間であると判定された場合、 即ち、 マ イク 1 5に、 ユーザの音声が入力された場合、 ステップ S 1 2に進み、 韻律分析 部 4 2は、 AD変換部 4 1の出力、 即ち、 マイク 1 5に入力されたユーザの音声 を音響分析することにより、 その韻律情報を取得し、 音生成部 4 3に供給する。 音生成部 4 3は、 ステップ S 1 3において、 韻律分析部 4 2からの韻律情報と 同一の韻律を有する無音韻音声を生成し、 エコーバック音声として、 出力部 4 4 に供給する。
出力部 4 4は、 ステップ S 1 4において、 音生成部 4 3からのエコーバック音 声のデータを、 メモリ 4 5に記憶させ、 ステップ S 1 5に進み、 そのエコーバッ ク音声を、 出力制御部 5 7 (図 3 ) に出力して、 処理を終了する。
これにより、 エコーバック音声は、 出力制御部 5 7を介して、 スピーカ 1 8に 供給されて出力される。
従って、 この場合、 スピーカ 1 8からは、 ユーザが発した音声から、 その音韻 を無くしたものが、 エコーバック音声として出力される。
このエコーバック音声は、 音声認識部 5 O Aにおいて音声認識の対象とされる ユーザの音声を復唱するようなものであり、 このようなエコーバック音声が出力 される結果、 ユーザは、 エコーバック音声を聴くことにより、 口ポットにおいて、 自身の音声が受け付けられたことを認識することができる。 従って、 口ポットが、 ユーザからの音声に対する応答として、 何の行動も起こさない場合 (音声認識部 5 O Aにおいて、 ュ一ザの音声が正しく認識されている場合と、 誤って認識され ている場合の両方を含む) であっても、 ユーザにおいて、 口ポットが故障してい るといったような勘違いをすること等を防止することができる。
さらに、 エコーバック音声は、 ユーザが発した音声そのものではなく、 その音 声の音韻をなくしたものであるため、 ュ一ザには、 口ポットが、 ユーザの音声を 理解し、 自身の声で復唱しているかのように聞こえる。 また、 エコーバック音声 は、 ユーザが発した音声と同一の韻律を有することから、 その韻律から得られる 感情を表現するようなものとなっており、 その結果、 ユーザには、 口ポットが、 ュ一ザの感情を理解しているかのように聞こえる。 従って、 口ポットにおいて、 ユーザの音声を、 単に録音して再生しているのではなく、 理解しているかのよう な印象を、 ユーザに与えることができる。
なお、 ここでは、 音生成部 4 3において、 サイン波を重畳することによって、 エコーパック音声を生成するようにしたが、 その他、 例えば、 エコーバック音声 は、 口ポットの鳴き声となるような複雑な波形を用意しておき、 その波形をつな ぎ合わせることによって生成することが可能である。 さらに、 エコーバック音声 としては、 例えば、 ユーザの音声を構成する音素を認識し、 その音素列によって 構成される音韻を有するようなものを生成することが可能である。 また、 エコー バック音声は、 例えば、 ュ一ザの音声について、 ケプストラム係数を得て、 その ケプストラム係数をタップ係数とするディジ夕ルフィルタによって生成すること 等も可能である。
但し、 エコーバック音声が、 ユーザの音声に似過ぎると、 口ポットにおいて、 ユーザの音声を、 単に録音して再生しているかのような、 いわば興ざめした印象 を、 ユーザに与えかねないので、 エコーバック音声は、 ユーザの音声に、 あまり 似たものにしない方が望ましい。
また、 上述の場合には、 音生成部 4 3において、 ユーザの音声の韻律と同一の 韻律を有するエコーバック音声を生成するようにしたが、 音生成部 4 3には、 ュ 一ザの音声の韻律に加工を加えた韻律を有するエコーバック音声を生成させるこ とも可能である。
即ち、 例えば、 上述したようにして、 韻律分析部 4 2において、 第 j フレーム のパワー P ( j ) とピッチ周波数 f ( j ) が求められる場合には、 音生成部 4 3 では、 そのパヮ一 P ( j ) とピッチ周波数 ί ( j ) を用い、 例えば、 次式にした がって、 エコーバック音声 y ( t ) を生成することができる。
y ( t ) = 1 o g ( P ( j ) ) s i n ( 2 f ( j ) t )
… ( 3 ) 但し、 式 (3 ) において、 Nは、 正の整数である。 式 (3 ) によれば、 第 jフレームの音声に対して、 そのパワー P ( j ) を対数 によって非線形にし、 かつ、 ピッチ周波数 f ( j ) を N倍にしたエコーバック音 声 y ( t ) が生成される。
なお、 経験的には、 Nを、 例えば 6等とした場合に、 鳴き声らしく、 かつ聞き やすいエコーバック音声が得られる。
また、 上述の場合においては、 ユーザの音声の音声区間と同一の時間長のェコ 一バック音声が出力されることとなるが、 エコーバック音声は、 ユーザの音声の 音声区間と同一の時間長ではなく、 異なる時間長とすることが可能である。
即ち、 例えば、 式 (3 ) にしたがって、 エコーバック音声を生成する場合にお いては、 パワー P ( j ) やピッチ周波数 f ( j ) を補間または間引きすること等 によって、 ュ一ザの音声の音声区間よりも長いまたは短い時間長のェコ一バック 音声を生成するようにすることが可能である。
なお、 経験的には、 エコーバック音声は、 ユーザの音声の音声区間の、 例えば、 3ノ 2倍等の、 長めの時間長にする方が、 ユーザに自然な感じを与えるものとな る。
ところで、 図 7のェコ一バック部 5 6においては、 メモリ 4 5に、 ェコ一バッ' ク音声が記憶されるようになっており、 出力部 4 4は、 このメモリ 4 5に記憶さ れたエコーバック音声を、 必要に応じて読み出して出力する再エコーバック処理 を行う。
即ち、 再ェコ一バック処理では、 図 9のフローチャートに示すように、 出力部 4 4は、 ステップ S 2 1において、 所定のイベントが生じたかどうかを判定し、 生じていないと判定した場合、 ステップ S 2 1に戻る。
また、 ステップ S 2 1において、 所定のィベン卜が生じたと判定された場合、 ステップ S 2 2に進み、 出力部 4 4は、 メモリ 4 5に記憶された所定のエコーバ ック音声のデータを読み出し、 出力制御部 5 7を介して、 スピーカ 1 8に供給し て、 ステップ S 2 1に戻る。
従って、 再ェコ一バック処理によれば、 所定のイベントが生じた場合に、 メモ リ 4 5に記憶された所定のェコ一バック音声が、 スピーカ 1 8から出力される。 ここで、 所定のイベントとしては、 例えば、 ある値を設定しておき、 乱数を発 生させて、 その乱数が、 設定した値に一致した場合や、 外部からの入力がない状 態が、 所定の時間連続した場合等を採用することができる。 この場合、 ユーザか らすれば、 口ポットに対して、 何の刺激も与えていないのに、 口ポットが、 突然 喋りだしたように見えるので、 ロポットのエンタテイメント性を向上させること ができる。
また、 メモリ 4 5には、 エコーバック音声のデータを、 行動決定機構部 5 2が 出力する所定の行動指令情報と対応付けて記憶させておき、 行動決定機構部 5 2 が行動指令情報を出力した場合に、 その行動指令情報に対応付けられているェコ —バック音声を、 メモリ 4 5から読み出すようにすることも可能である。 この場 合、 行動決定機構部 5 2が出力する行動指令情報に対応する行動に同期して、 そ の行動指令情報に対応付けられているエコーバック音声が出力されることになる。 次に、 図 1 0は、 コントローラ 1 0の他の構成例を示している。 なお、 図中、 図 3における場合と対応する部分については、 同一の符号を付してあり、 以下で は、 その説明は、 適宜省略する。 即ち、 図 1 0のコントローラ 1 0は、 ェコ一バ ック部 5 6において、 モデル記憶部 5 1に記憶されたモデルが参照可能になって いる他は、 図 3における場合と同様に構成されている。
コントローラ 1 0が図 1 0に示したように構成される場合には、 エコーバック 部 5 6の音生成部 4 3において、 図 7に点線で示すように、 モデル記憶部 5 1に 記憶された感情モデルや、 本能モデル、 成長モデルが参照される。
そして、 音生成部 4 3は、 感情モデルや、 本能モデル、 成長モデルによって表 される口ポットの感情や、 本能、 成長の状態に基づいて、 ユーザの音声から抽出 した韻律を制御したエコーバック音声を生成する。
即ち、 音生成部 4 3は、 例えば、 口ポットの喜びの度合い、 または悲しみの度 合いが大きい場合には、 その度合いに応じて、 ピッチ周波数が高い、 または低い エコーバック音声をそれぞれ生成する。 また、 音生成部 4 3は、 例えば、 ロポッ 卜の怒りの度合いが大きい場合には、 その度合いに応じて、 発話時間の短いェコ —バック音声を生成する。 その他、 音生成部 4 3には、 例えば、 成長の度合いが 高い場合には、 語尾のピッチ周波数を高くして、 質問を行うようなエコーバック 音声を生成させること等が可能であり、 この場合、 ユーザに、 次の発話を促すこ とができる。
ここで、 図 9における場合には、 再エコーパック処理において、 乱数や外部か らの入力等を、 所定のイベントとして、 メモリ 4 5に記憶された所定のエコーバ ック音声を再生するようにしたが、 図 1 0の実施の形態のように、 ェコ一バック 部 5 6の音生成部 4 3において、 モデル記憶部 5 1に記憶された感情モデルや、 本能モデル、 成長モデルを参照する場合には、 音生成部 4 3で生成されたエコー バック音声を、 そのェコ一パック音声が生成されたときの感情モデル等の値ど対 応付けて、 メモリ 4 5に記憶しておき、 モデル記憶部 5 1に記憶された感情モデ ル等の値が、 メモリ 4 5に記憶されたものと一致したことを、 所定のイベントと して、 その一致した感情モデル等の値と対応付けられているエコーバック音声を、 メモリ 4 5から再生して出力するようにすることが可能である。
この場合、 再エコーバック処理によれば、 メモリ 4 5に記憶されたエコーバッ ク音声は、 感情モデル等の値が、 そのエコーバック音声が過去に再生されたとき のものと同一になったときに再生されることとなるから、 口ポットは、 ある感情 等の状態になると、 同一のエコーバック音声を出力することとなる。 そして、 そ の結果、 ュ一ザは、 そのようなエコーバック音声を聰くことによって、 口ポット の感情等の状態を把握することが可能となるので、 ュ一ザとロポットとの間で、 いわば、 感情等を共有することが可能となる。
なお、 行動決定機構部 5 2と出力制御部 5 7とは、 それらの間で通信を行うよ うに構成することができ、 この場合、 行動決定機構部 5 2には、 出力制御部 5 7 からスピーカ 1 8に音声デ一夕が出力されるときに、 下顎部 4 A (図 1 ) を動か すァクチユエ一夕を駆動する行動指令情報を生成させるようにすることができる この場合、 スピーカ 1 8からの音声出力に同期して、 下顎部 4 Aが動くので、 ュ —ザに、 ロポットが実際に喋っているかのような印象を与えることができる。 さらに、 行動決定機構部 52では、 下顎部 4Aの動きを、 出力制御部 57から スピーカ 18に出力される音声デ一夕の、 例えば、 パワー等の韻律情報に基づい て制御することが可能である。 即ち、 例えば、 音声データのパワーが大の場合に は、 下顎部 4 Aの動きを大きくし、 これにより、 口ポットの口の開き具合を大き くする一方、 音声データのパワーが小の場合には、 下顎部 4 Aの動きを小さくし、 これにより、 口ポットの口の開き具合を小さくすることが可能である。 この場合、 スピーカ 1 8から出力される音の大きさに対応して、 ロボッ卜の口の開き具合が 変化するので、 口ポットの喋り方に、 よりリアリティをもたせることができる。 以上、 本発明を、 エンターテイメント用の口ポット (疑似ペットとしてのロボ ット) に適用した場合について説明したが、 本発明は、 これに限らず、 例えば、 産業用のロポット等の各種のロポットに広く適用することが可能である。 また、 本発明は、 現実世界のロボットだけでなく、 例えば、 液晶ディスプレイ等の表示 装置に表示される仮想的なロポットにも適用可能である。
さらに、 本実施の形態においては、 上述した一連の処理を、 CPU 10Aにプ ログラムを実行させることにより行うようにしたが、 一連の処理は、 それ専用の ハ一ドウエアによって行うことも可能である。
なお、 プログラムは、 あらかじめメモリ 10 B (図 2) に記憶させておく他、 フロッピーティスク、 CD-ROM (Compact Disc Read Only Memory) , MO (Magneto op Ucal)ディスク, DVD(Digital Versatile Disc), 磁気ディスク、 半導体メモリ などのリム一バブル記録媒体に、 一時的あるいは永続的に格納 (記録) しておく ことができる。 そして、 このようなリムーバブル記録媒体を、 いわゆるパッケ一 ジソフトウェアとして提供し、 ロボット (メモリ 1 0 B) にインストールするよ うにすることができる。
また、 プログラムは、 ダウン口一ドサイトから、 ディジタル衛星放送用の人工 衛星を介して、 無線で転送したり、 LAN Local Area Network), インターネット といったネットワークを介して、 有線で転送し、 メモリ 1 0 Bにインス 1 ルす ることができる。
この場合、 プログラムがバ一ジョンアップされたとき等に、 そのバージョンァ ップされたプログラムを、 メモリ 1 0 Bに、 容易にインストールすることができ る。
ここで、 本明細書において、 C P U 1 O Aに各種の処理を行わせるためのプロ グラムを記述する処理ステップは、 必ずしもフローチャートとして記載された順 序に沿って時系列に処理する必要はなく、 並列的あるいは個別に実行される処理 (例えば、 並列処理あるいはオブジェクトによる処理) も含むものである。 また、 プログラムは、 1の C P Uにより処理されるものであっても良いし、 複 数の C P Uによって分散処理されるものであっても良い。 産業上の利用可能性
本発明によれば、 音声認識されるユーザの音声の韻律情報が分析され、 その韻 律情報に基づいて、 韻律を制御した音声データである韻律制御音声データが生成 されて出力される。 従って、 ユーザは、 韻律制御音声デ一夕を聴くことにより、 ロボットにおいて、 自身の音声が受け付けられたことを認識することができる。

Claims

請求の範囲
1 . 少なくとも音声認識結果に基づいて行動するロポットを制御するロポット 制御装置であって、
音声認識されるユーザの音声の韻律情報を分析する分析手段と、
前記韻律情報に基づいて、 韻律を制御した音声データである韻律制御音声デ一 夕を生成する生成手段と、
前記韻律制御音声データの出力を制御する出力制御手段と
を備えることを特徴とするロボット制御装置。
2 . 前記生成手段は、 音韻のない前記韻律制御音声データを生成する
ことを特徴とする請求の範囲第 1項に記載のロポット制御装置。
3 . 前記口ポットの感情、 本能、 または成長の状態を表すモデルを記憶するモ デル記憶手段をさらに備え、
前記生成手段は、 前記モデル記憶手段に記憶されたモデルが表す前記ロポット の感情、 本能、 または成長の状態にも基づいて、 前記韻律制御音声データを生成 する
ことを特徴とする請求の範囲第 1項に記載のロポット制御装置。
4 . 前記韻律制御音声データを記憶するデータ記憶手段をさらに備え、 前記出力制御手段は、 所定のイベントが生じたときに、 前記データ記憶手段に 記憶された韻律制御音声デー夕を出力する
ことを特徴とする請求の範囲第 1項に記載のロポット制御装置。
5 . 前記ロポットの行動を制御する行動制御手段をさらに備え、
前記出力制御手段は、 前記行動制御手段による制御によって、 音声の出力が行 われる場合に、 前記韻律制御音声データの出力を制限する
ことを特徴とする請求の範囲第 1項に記載のロポット制御装置。
6 . 前記韻律制御音声データの出力に同期して、 前記口ポットに、 その口部を 動かす行動をとらせる行動制御手段をさらに備える
ことを特徴とする請求の範囲第 1項に記載のロポット制御装置。
7 . 前記行動制御手段は、 前記韻律制御音声データに基づいて、 前記口ポット の口部の動き具合を制御する
ことを特徴とする請求の範囲第 6項に記載のロボット制御装置。
8 . 少なくとも音声認識結果に基づいて行動するロボットを制御するロポット 制御方法であって、
音声認識されるユーザの音声の韻律情報を分析する分析ステップと、 前記韻律情報に基づいて、 韻律を制御した音声データである韻律制御音声デー 夕を生成する生成ステップと、
前記韻律制御音声デ一夕の出力を制御する出力制御ステップと
を備えることを特徴とするロポット制御方法。
9 . 少なくとも音声認識結果に基づいて行動するロポットを制御するロボット 制御処理を、 コンピュータに行わせるプログラムが記録されている記録媒体であ つて、
音声認識されるユーザの音声の韻律情報を分析する分析ステップと、 前記韻律情報に基づいて、 韻律を制御した音声データである韻律制御音声デー タを生成する生成ステップと、
前記韻律制御音声データの出力を制御する出力制御ステップと
を備えるプログラムが記録されている
ことを特徴とする記録媒体。
1 0 . 少なくとも音声認識結果に基づいて行動する口ポットを制御するロポッ ト制御処理を、 コンピュータに行わせるプログラムであって、
音声認識されるユーザの音声の韻律情報を分析する分析ステップと、 前記韻律情報に基づいて、 韻律を制御した音声データである韻律制御音声デ一 夕を生成する生成ステップと、
前記韻律制御音声デー夕の出力を制御する出力制御ステップと
を備えることを特徴とするプログラム。
PCT/JP2001/008898 2000-10-11 2001-10-10 Appareil de commande de robot WO2002031810A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US10/148,914 US7203642B2 (en) 2000-10-11 2001-10-10 Robot control apparatus and method with echo back prosody
DE60142842T DE60142842D1 (de) 2000-10-11 2001-10-10 Robotersteuergerät
EP01976657A EP1326230B1 (en) 2000-10-11 2001-10-10 Robot control apparatus

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2000-310015 2000-10-11
JP2000310015 2000-10-11
JP2001-16872 2001-01-25
JP2001016872A JP4296714B2 (ja) 2000-10-11 2001-01-25 ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム

Publications (1)

Publication Number Publication Date
WO2002031810A1 true WO2002031810A1 (fr) 2002-04-18

Family

ID=26601837

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/008898 WO2002031810A1 (fr) 2000-10-11 2001-10-10 Appareil de commande de robot

Country Status (8)

Country Link
US (1) US7203642B2 (ja)
EP (1) EP1326230B1 (ja)
JP (1) JP4296714B2 (ja)
KR (1) KR100814569B1 (ja)
CN (1) CN1187734C (ja)
DE (1) DE60142842D1 (ja)
TW (1) TW586056B (ja)
WO (1) WO2002031810A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004068466A1 (en) * 2003-01-24 2004-08-12 Voice Signal Technologies, Inc. Prosodic mimic synthesis method and apparatus

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6909111B2 (en) * 2000-12-28 2005-06-21 Semiconductor Energy Laboratory Co., Ltd. Method of manufacturing a light emitting device and thin film forming apparatus
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
CN100357863C (zh) * 2002-05-14 2007-12-26 皇家飞利浦电子股份有限公司 用于电子设备的对话控制装置
JP4244812B2 (ja) * 2004-01-16 2009-03-25 ソニー株式会社 行動制御システム及びロボット装置の行動制御方法
JP4661074B2 (ja) 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
JP3812848B2 (ja) * 2004-06-04 2006-08-23 松下電器産業株式会社 音声合成装置
JP4483450B2 (ja) * 2004-07-22 2010-06-16 株式会社デンソー 音声案内装置、音声案内方法およびナビゲーション装置
US7599838B2 (en) * 2004-09-01 2009-10-06 Sap Aktiengesellschaft Speech animation with behavioral contexts for application scenarios
US8000837B2 (en) 2004-10-05 2011-08-16 J&L Group International, Llc Programmable load forming system, components thereof, and methods of use
JP4406615B2 (ja) * 2005-02-23 2010-02-03 任天堂株式会社 コマンド処理装置およびコマンド処理プログラム
US7689423B2 (en) * 2005-04-13 2010-03-30 General Motors Llc System and method of providing telematically user-optimized configurable audio
WO2007017853A1 (en) * 2005-08-08 2007-02-15 Nice Systems Ltd. Apparatus and methods for the detection of emotions in audio interactions
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20080032701A1 (en) * 2006-08-01 2008-02-07 Roberto Johann Handphone holder
GB2457855B (en) * 2006-11-30 2011-01-12 Nat Inst Of Advanced Ind Scien Speech recognition system and speech recognition system program
CN101224343B (zh) * 2007-01-19 2011-08-24 鸿富锦精密工业(深圳)有限公司 类生物及其部件控制模块
KR100911725B1 (ko) 2007-08-09 2009-08-10 한국과학기술원 언어청정로봇
US20100181943A1 (en) * 2009-01-22 2010-07-22 Phan Charlie D Sensor-model synchronized action system
US20120004910A1 (en) * 2009-05-07 2012-01-05 Romulo De Guzman Quidilig System and method for speech processing and speech to text
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US20110070805A1 (en) * 2009-09-18 2011-03-24 Steve Islava Selectable and Recordable Laughing Doll
CN102652336B (zh) * 2009-12-28 2015-02-18 三菱电机株式会社 声音信号复原装置以及声音信号复原方法
TWI416289B (zh) * 2010-05-28 2013-11-21 Compal Communications Inc 自動機械裝置及其控制方法
KR101234289B1 (ko) 2011-02-28 2013-02-18 동명대학교산학협력단 서비스 로봇을 위한 맥락적 상호작용이 가능한 인지 시스템 및 그 방법
KR101221188B1 (ko) 2011-04-26 2013-01-10 한국과학기술원 감정 음성 합성 기능을 가지는 보조 로봇 및 보조 로봇용 감정 음성 합성 방법 및 기록 매체
US8924011B2 (en) * 2012-04-03 2014-12-30 Knu-Industry Cooperation Foundation Intelligent robot apparatus responsive to environmental change and method of controlling and reconfiguring intelligent robot apparatus
CN103543979A (zh) * 2012-07-17 2014-01-29 联想(北京)有限公司 一种输出语音的方法、语音交互的方法及电子设备
US9443515B1 (en) * 2012-09-05 2016-09-13 Paul G. Boyce Personality designer system for a detachably attachable remote audio object
US20140122082A1 (en) * 2012-10-29 2014-05-01 Vivotext Ltd. Apparatus and method for generation of prosody adjusted sound respective of a sensory signal and text-to-speech synthesis
JP2014240884A (ja) * 2013-06-11 2014-12-25 株式会社東芝 コンテンツ作成支援装置、方法およびプログラム
US9310800B1 (en) * 2013-07-30 2016-04-12 The Boeing Company Robotic platform evaluation system
US10290300B2 (en) * 2014-07-24 2019-05-14 Harman International Industries, Incorporated Text rule multi-accent speech recognition with single acoustic model and automatic accent detection
US20180009118A1 (en) * 2015-02-17 2018-01-11 Nec Corporation Robot control device, robot, robot control method, and program recording medium
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
JP6701483B2 (ja) * 2015-11-10 2020-05-27 株式会社国際電気通信基礎技術研究所 アンドロイドロボットの制御システム、装置、プログラムおよび方法
US20170282383A1 (en) * 2016-04-04 2017-10-05 Sphero, Inc. System for content recognition and response action
JP6517762B2 (ja) * 2016-08-23 2019-05-22 ファナック株式会社 人とロボットが協働して作業を行うロボットの動作を学習するロボットシステム
WO2018183347A1 (en) 2017-03-27 2018-10-04 Pacific Cycle, Llc Interactive ride-on toy apparatus
JP6526098B2 (ja) * 2017-04-26 2019-06-05 ファナック株式会社 ロボットを操作するための操作装置、ロボットシステム、および操作方法
US11633863B2 (en) 2018-04-06 2023-04-25 Digital Dream Labs, Llc Condition-based robot audio techniques
US11443731B2 (en) 2020-04-09 2022-09-13 Rovi Guides, Inc. Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs
KR102295836B1 (ko) * 2020-11-20 2021-08-31 오로라월드 주식회사 성장형 스마트 토이 장치 및 스마트 토이 시스템
JP7192905B2 (ja) * 2021-03-16 2022-12-20 カシオ計算機株式会社 制御装置、制御方法及びプログラム
USD1030917S1 (en) * 2022-07-15 2024-06-11 Shenzhen Tbz Technology Co., Ltd. Artificial intelligence robot dog

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0437997B2 (ja) * 1982-12-28 1992-06-23 Tokyo Shibaura Electric Co
EP0730261A2 (en) * 1995-03-01 1996-09-04 Seiko Epson Corporation An interactive speech recognition device
JPH0962480A (ja) * 1995-08-25 1997-03-07 Casio Comput Co Ltd 音声出力装置
JPH09152884A (ja) * 1995-11-30 1997-06-10 Fujitsu Ten Ltd 音声合成装置
JPH10111786A (ja) * 1996-10-03 1998-04-28 Sharp Corp リズム制御対話装置
JP2000029492A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声翻訳装置、音声翻訳方法、音声認識装置
JP2000135186A (ja) * 1998-10-30 2000-05-16 Ym Creation:Kk 掃除玩具
JP2000254359A (ja) * 1999-03-05 2000-09-19 Casio Comput Co Ltd 音声変換機能を備えた電子機器
JP2000259601A (ja) * 1999-03-05 2000-09-22 Masami Kato 会話装置および方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4896357A (en) * 1986-04-09 1990-01-23 Tokico Ltd. Industrial playback robot having a teaching mode in which teaching data are given by speech
US5045327A (en) * 1987-06-24 1991-09-03 Sound Memory Corporation Digital recording and playback module system
JPH0437997A (ja) 1990-06-01 1992-02-07 Matsushita Electric Ind Co Ltd 電子レジスタ
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
US6572431B1 (en) * 1996-04-05 2003-06-03 Shalong Maa Computer-controlled talking figure toy with animated features
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US6173260B1 (en) * 1997-10-29 2001-01-09 Interval Research Corporation System and method for automatic classification of speech based upon affective content
US6604980B1 (en) * 1998-12-04 2003-08-12 Realityworks, Inc. Infant simulator
JP3936749B2 (ja) * 1998-04-16 2007-06-27 クリエイター・リミテッド 対話型玩具
US6173250B1 (en) * 1998-06-03 2001-01-09 At&T Corporation Apparatus and method for speech-text-transmit communication over data networks
US6980956B1 (en) * 1999-01-07 2005-12-27 Sony Corporation Machine apparatus and its driving method, and recorded medium
US6505155B1 (en) * 1999-05-06 2003-01-07 International Business Machines Corporation Method and system for automatically adjusting prompt feedback based on predicted recognition accuracy
JP3212578B2 (ja) * 1999-06-30 2001-09-25 インタロボット株式会社 身体的音声反応玩具
US6663393B1 (en) * 1999-07-10 2003-12-16 Nabil N. Ghaly Interactive play device and method
US6463412B1 (en) * 1999-12-16 2002-10-08 International Business Machines Corporation High performance voice transformation apparatus and method
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
US6996528B2 (en) * 2001-08-03 2006-02-07 Matsushita Electric Industrial Co., Ltd. Method for efficient, safe and reliable data entry by voice under adverse conditions

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0437997B2 (ja) * 1982-12-28 1992-06-23 Tokyo Shibaura Electric Co
EP0730261A2 (en) * 1995-03-01 1996-09-04 Seiko Epson Corporation An interactive speech recognition device
JPH0962480A (ja) * 1995-08-25 1997-03-07 Casio Comput Co Ltd 音声出力装置
JPH09152884A (ja) * 1995-11-30 1997-06-10 Fujitsu Ten Ltd 音声合成装置
JPH10111786A (ja) * 1996-10-03 1998-04-28 Sharp Corp リズム制御対話装置
JP2000029492A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声翻訳装置、音声翻訳方法、音声認識装置
JP2000135186A (ja) * 1998-10-30 2000-05-16 Ym Creation:Kk 掃除玩具
JP2000254359A (ja) * 1999-03-05 2000-09-19 Casio Comput Co Ltd 音声変換機能を備えた電子機器
JP2000259601A (ja) * 1999-03-05 2000-09-22 Masami Kato 会話装置および方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NORIKO SUZUKI ET AL.: "Hi-bunsetsu-on ni yoru hankyou-teki na mohou to sono sihnri-teki eikyou", JOHO SHORI GAKKAI RONBUNSHI, vol. 41, no. 5, May 2000 (2000-05-01), pages 1328 - 1338, XP002949772 *
See also references of EP1326230A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004068466A1 (en) * 2003-01-24 2004-08-12 Voice Signal Technologies, Inc. Prosodic mimic synthesis method and apparatus
US8768701B2 (en) 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus

Also Published As

Publication number Publication date
JP2002189488A (ja) 2002-07-05
TW586056B (en) 2004-05-01
JP4296714B2 (ja) 2009-07-15
CN1187734C (zh) 2005-02-02
KR20020067697A (ko) 2002-08-23
CN1393010A (zh) 2003-01-22
KR100814569B1 (ko) 2008-03-17
US20030055653A1 (en) 2003-03-20
EP1326230A1 (en) 2003-07-09
DE60142842D1 (de) 2010-09-30
US7203642B2 (en) 2007-04-10
EP1326230B1 (en) 2010-08-18
EP1326230A4 (en) 2006-07-12

Similar Documents

Publication Publication Date Title
JP4296714B2 (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
US20030163320A1 (en) Voice synthesis device
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
KR100879417B1 (ko) 음성 출력 장치
WO2002082423A1 (fr) Dispositif d'elaboration de suites de mots
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
WO2002086861A1 (fr) Processeur de langage
JP2002116792A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP4587009B2 (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002268663A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002258886A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP4656354B2 (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2002189497A (ja) ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
JP2002304187A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002120177A (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP4178777B2 (ja) ロボット装置、記録媒体、並びにプログラム
JP4742415B2 (ja) ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2002318590A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2001212779A (ja) 行動制御装置および行動制御方法、並びに記録媒体
JP2002318593A (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2004258290A (ja) 音声処理装置および方法、記録媒体、並びにプログラム
JP2005345529A (ja) 音声認識装置および方法、記録媒体、プログラム、並びにロボット装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWE Wipo information: entry into national phase

Ref document number: 2001976657

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020027007445

Country of ref document: KR

Ref document number: 018031005

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 1020027007445

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 10148914

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2001976657

Country of ref document: EP