WO2017199585A1 - ロボット、ロボットの動作方法、及びプログラム - Google Patents

ロボット、ロボットの動作方法、及びプログラム Download PDF

Info

Publication number
WO2017199585A1
WO2017199585A1 PCT/JP2017/012460 JP2017012460W WO2017199585A1 WO 2017199585 A1 WO2017199585 A1 WO 2017199585A1 JP 2017012460 W JP2017012460 W JP 2017012460W WO 2017199585 A1 WO2017199585 A1 WO 2017199585A1
Authority
WO
WIPO (PCT)
Prior art keywords
motion data
specific
general
word
voice
Prior art date
Application number
PCT/JP2017/012460
Other languages
English (en)
French (fr)
Inventor
中村 珠幾
裕介 栗本
貴之 毛利
慎哉 佐藤
佐藤 義雄
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Publication of WO2017199585A1 publication Critical patent/WO2017199585A1/ja

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators

Definitions

  • the present invention relates to a robot, a robot operation method, and a program including an utterance unit that outputs audio and a movable unit that executes an audio operation corresponding to the audio output by the utterance unit.
  • Patent Document 1 A robot that facilitates management of motion data is known (Patent Document 1).
  • the robot disclosed in Patent Document 1 can easily manage motion data for robot operation by a management method based on a first code system that expresses a posture and a second code system that expresses an action. To.
  • Patent Document 2 a robot including an utterance unit that outputs voice and a movable unit that executes a voice operation corresponding to the voice output by the utterance unit is known (Patent Document 2).
  • the robot disclosed in Patent Document 2 includes a voice content analysis unit that analyzes the content of an uttered sentence.
  • the voice content analysis unit outputs a gesture identifier when a key word appears in an utterance. For example, if an uttered sentence indicates a "Hello” or "Goodbye", the audio content analysis section outputs the gesture identifier indicating a gesture of waving to the target person. Thereby, it is possible to cause the robot to perform an operation according to the utterance content.
  • Japanese Patent Publication Japanese Laid-Open Patent Publication No. 2003-330513 (published on November 21, 2003)” Japanese Patent Publication “Special Table 2014-504959 Publication (February 27, 2014)”
  • the robot of Patent Document 1 as described above can perform necessary operations even in a state where only limited motion data is held, and the robot motion data can be easily managed. There is a problem that is not considered.
  • the robot Patent Document 2 is assigned one gesture against utterance of a single word, such as "Hello” or "Goodbye”, but not consider uttered sentence including a plurality of words There is no problem.
  • the present invention has been made in view of the above-described problems, and its purpose is to perform an operation suitable for the content of an utterance sentence including a plurality of words even when only limited motion data is held. It is to realize a robot that can do.
  • a robot includes an utterance unit that outputs audio, and a movable unit that executes an audio operation corresponding to the audio output by the utterance unit,
  • the voice includes a specific word and a general-purpose word that does not correspond to the specific word, and the voice operation is for specific motion data for a specific operation representing the meaning of the specific word, and for a general-purpose operation corresponding to the general-purpose word It is executed by combining with general-purpose motion data.
  • FIG. 1 is a block diagram illustrating a configuration of a robot according to a first embodiment. It is a graph which shows typically the relation between the voice data for the voice outputted from the voice output unit provided in the robot and the motion data for the operation executed by the robot. It is a graph which shows typically the relation between the voice data for voice outputted from the voice output part provided in the robot concerning Embodiment 2, and the motion data for the operation which the robot performs. 10 is a graph schematically showing a relationship between voice data for voice output from a voice output unit provided in a robot according to a third embodiment and motion data for operations performed by the robot. It is a flowchart which shows operation
  • FIG. 1 is a block diagram illustrating a configuration of the robot 1 according to the first embodiment.
  • the robot 1 includes an audio output unit 60 (speech unit) that outputs audio and a movable unit 70 that executes an audio operation corresponding to the audio output by the audio output unit 60.
  • an audio output unit 60 speech unit
  • a movable unit 70 that executes an audio operation corresponding to the audio output by the audio output unit 60.
  • the voice output by the voice output unit 60 includes specific words and general-purpose words that do not correspond to the specific words.
  • the voice operation executed by the movable unit 70 is executed by combining the specific motion data for the specific operation representing the meaning of the specific word and the general motion data for the general operation corresponding to the general word.
  • the movable unit 70 executes the specific operation at the timing when the specific word is output by the voice output unit 60.
  • the robot 1 includes a drive unit 50 that drives the movable unit 70, a control unit 100 that controls the drive unit 50 and the audio output unit 60, a sensor 10 that detects information from outside the robot 1, and a control unit 100.
  • a storage unit 40 for storing supplied data is provided.
  • the storage unit 40 describes an utterance content table 20 in which a plurality of utterance content data candidates for voice output from the audio output unit 60 are described, a plurality of specific motion data candidates, and a plurality of general-purpose motion data candidates.
  • Motion data table 30 describes an utterance content table 20 in which a plurality of utterance content data candidates for voice output from the audio output unit 60 are described, a plurality of specific motion data candidates, and a plurality of general-purpose motion data candidates.
  • the control unit 100 has an utterance trigger unit 101.
  • the utterance trigger unit 101 notifies the utterance content determination unit 102 of detection of information from the outside based on information from the outside detected by the sensor 10.
  • the utterance content determination unit 102 selects utterance content data from a plurality of utterance content data candidates described in the utterance content table 20, and the speech output control unit 103 and the drive control unit 104. (Motion data combination part).
  • the voice output control unit 103 controls the voice output unit 60 based on the utterance content data supplied from the utterance content determination unit 102.
  • the voice output unit 60 outputs voice corresponding to the utterance content data.
  • the drive control unit 104 determines which specific motion of the plurality of specific motion data candidates and the plurality of general-purpose motion data candidates described in the motion data table 30. The order and timing at which the data and general-purpose motion data are to be reproduced are determined, and the drive unit 50 is notified. The drive unit 50 drives the movable unit 70 based on the specific motion data, the reproduction order of the general-purpose motion data, and the reproduction timing determined by the drive control unit 104.
  • FIG. 2 shows audio data A1 for audio output from the audio output unit 60 provided in the robot 1, specific motion data F1 for operation performed by the movable unit 70 of the robot 1, general-purpose motion data G1,. It is a graph which shows typically the relation between G2.
  • the voice data A1 shown in FIG. 2 corresponds to the utterance content data supplied from the utterance content determination unit 102 to the drive control unit 104, and corresponds to the meaning “I see baseball”. This data represents the sound that is pronounced.
  • the voice data A1 includes a specific word “Yakyu”, a general-purpose word “I”, a general-purpose word “ha”, a general-purpose word “O”, and a general-purpose word “see”.
  • the specific motion data F1 is motion data for an operation related to baseball that represents the meaning of the specific word “Yakyu”.
  • the general-purpose motion data G1 and G2 are motion data for general operations not related to a specific word.
  • the operations related to baseball corresponding to the specific motion data F1 include an operation of swinging a bat and an operation of throwing a ball.
  • a general operation corresponding to the general-purpose motion data G1 and G2 includes, for example, an operation of shaking an arm.
  • the specific word may be a word indicating emotion such as emotion, and the action corresponding to the specific motion data F1 may be an action indicating the emotion.
  • the reproduction timing of the specific motion data F1 is determined so that the intermediate time between them is the time t3 and the two coincide with each other.
  • the general-purpose motion data G1 starts at time t0 when the reproduction of the audio data A1 is started and ends at time t4 when the reproduction of the specific motion data F1 is started.
  • the general-purpose motion data G2 starts at the playback end time t5 of the specific motion data F1 and ends at the playback end time t6 of the audio data A1.
  • a specific word such as “Yakyu”, specific motion data F1 suitable for the specific word, and general-purpose motion data G1 that can be used for general purposes are prepared in advance.
  • the voice output unit 60 of the robot 1 outputs a voice based on the voice data A1
  • the voice data A1 includes a specific word
  • the specific motion is output at the timing when the voice corresponding to the specific word is output.
  • Data F1 is reproduced.
  • General-purpose motion data G1 and G2 are reproduced when a voice corresponding to a general-purpose word that does not correspond to a specific word is output. In this way, by combining and reproducing specific motion data and general-purpose motion data according to the utterance content, it is possible to cause the robot to perform an action appropriate for the utterance content even when only limited motion data is retained. .
  • the drive control unit 104 When the utterance content is determined by the utterance content determination unit 102, the drive control unit 104, before the sound is output from the audio output unit 60, the time t0 at which the reproduction of the entire audio data A1 is started in advance.
  • the reproduction end time t6, the time t1 at which reproduction of a specific word included in the audio data A1 is started, the reproduction end time t2, etc. are calculated.
  • the utterance content determination unit 102 also calculates the playback time of the specific motion data F1 corresponding to the specific word.
  • One type of specific motion data may be provided for one specific word, or a plurality of types of specific motion data may be provided for one specific word. Further, common specific motion data may be provided for a plurality of specific words.
  • one type of general-purpose motion data may be repeatedly reproduced during a period corresponding to the reproduction time of the general-purpose word.
  • the general-purpose motion data having a reproduction time of 1 second, a reproduction time of 1.5
  • a plurality of types of general-purpose motion data may be prepared for each reproduction time, such as general-purpose motion data for seconds.
  • a plurality of types of general-purpose motion data having different operation contents in the same reproduction time may be provided and used properly.
  • the robot 1 configured as described above operates as follows.
  • the utterance trigger unit 101 notifies the utterance content determination unit 102 of the detection of information from the outside.
  • the utterance content determination unit 102 selects, for example, the utterance content data “I look at yakyu” from the plurality of utterance content data candidates described in the utterance content table 20, and the voice output control unit 103. And supplied to the drive control unit 104.
  • the drive control unit 104 selects the specific motion data F1 from the plurality of specific motion data candidates in the motion data table 30 based on the utterance content data supplied from the utterance content determination unit 102, and the motion data table 30
  • the general-purpose motion data G1 is selected from the plurality of general-purpose motion data candidates.
  • the drive control unit 104 determines that the reproduction timing of the specific motion data F1 starts at time t4 and ends at time t5, and starts the reproduction timing of the general-purpose motion data G1 at time t0 and ends at time t4. And it decides to start at time t5 and end at time t6.
  • the drive control unit 104 instructs the audio output control unit 103 to start audio output, and notifies the drive unit 50 of the reproduction order and reproduction timing of the specific motion data F1 and the general-purpose motion data G1.
  • the audio output control unit 103 controls the audio output unit 60 to output the audio data A1 from the audio output unit 60, and the drive unit 50 receives the specific motion data F1 and the general-purpose motion notified from the drive control unit 104.
  • the movable unit 70 is driven based on the reproduction order and reproduction timing of the data G1.
  • the specific motion data F1 for the specific operation indicating the meaning of the specific word “Yakyu” included in the sound output by the sound output unit 60, and the specific word “Yakyu”.
  • the voice operation corresponding to the voice output by the voice output unit 60 is executed by combining the general-purpose motion data G1 for the general-purpose action corresponding to the general-purpose word not corresponding to the above. For this reason, if the specific motion data F1 and the general motion data G1 are combined according to the specific word and the general word of the utterance, the voice operation corresponding to the utterance can be executed, and only limited motion data is retained. Even in the absence, it is possible to cause the robot 1 to perform an action suitable for the content of the spoken sentence including a plurality of words.
  • the robot can be more emotionally operated.
  • FIG. 3 shows audio data A2 for audio output from an audio output unit provided in the robot according to the second embodiment, specific motion data F1 and F2 for the operations executed by the robot, and general-purpose motion data G1. It is a graph which shows typically the relationship between these.
  • the voice data A1 of the first embodiment includes one specific word “Yakyu”, but the voice data A2 of the second embodiment has two specific words “Yakyu” and a specific word “Suki” (other specific words). Language).
  • the voice data A2 is data representing a voice that is pronounced “I am Yukikyusuki” corresponding to the meaning of “I like baseball”.
  • the time t5 at which the reproduction of the specific motion data F1 ends is after the time t7 at which the reproduction of the specific word “suki” is started.
  • the specific motion data F2 corresponding to the specific word “suki” is reproduced from a time t5 that is shifted from the time t7 when the reproduction of the specific word “suki” is started.
  • the specific motion data F2 ends reproduction at time t10 after time t6 when the audio data A2 ends.
  • the operation related to the feeling of liking corresponding to the specific motion data F2 includes, for example, an operation of pressing the chest with the arm of the robot.
  • the specific motion data F1 corresponding to the specific word “Yakyu” is also reproduced. It is possible to make the robot perform a voice motion suitable not only for other specific words.
  • FIG. 4 shows audio data A2 for audio output from an audio output unit provided in the robot according to the third embodiment, specific motion data F1 for the operations executed by the robot, and general-purpose motion data G1 and G3. It is a graph which shows typically the relationship between these.
  • members having the same functions as those described in the embodiment are given the same reference numerals, and descriptions thereof are omitted.
  • the motion data of the second embodiment includes specific motion data F1 and F2 and general-purpose motion data G1
  • the motion data of the third embodiment includes specific motion data F1 and general-purpose motion data G1 and G3.
  • the time t5 at which the reproduction of the specific motion data F1 ends is after the time t7 at which the reproduction of the specific word “suki” is started.
  • the specific motion data F2 corresponding to the specific word “suki” is shifted behind the time t7 when the reproduction of the specific word “suki” is started.
  • the time t10 at which the reproduction of the specific motion data F2 is ended may not coincide with the reproduction end time t11 of the audio data A2.
  • the general-purpose motion data G3 whose reproduction ends simultaneously with the time t11 when the reproduction of the audio data A2 ends is reproduced from the time t5 shifted behind the time t7 when the reproduction of the specific word “suki” is started. .
  • FIG. 5 is a flowchart illustrating the operation of the robot according to the third embodiment.
  • the drive control unit 104 sets the cursor time to zero (step S1).
  • the “cursor time” is the time representing the reproduction end time of the last general-purpose motion data or specific motion data of the general-purpose motion data and the specific motion data for which the reproduction timing assignment processing in the reproduction period of the audio data A2 has ended. It corresponds to. Initially, since there is neither general-purpose motion data nor specific motion data for which the reproduction timing assignment processing has been completed, “cursor time” is set to zero.
  • the drive control unit 104 determines whether or not a variable related to the number of specific words included in the audio data A2 is positive (step S2).
  • the drive control unit 104 acquires the “reproduction start time” of the target specific word (step S3). For example, if the specific word that is the target of the audio data A2 is “Yakyu”, the “reproduction start time” is the time t1, and if the specific word that is the target is “Suki”, the “reproduction start time” is the time t7. It is.
  • the drive control unit 104 determines whether or not the “reproduction start time” of the target specific word is greater than the cursor time (step S4).
  • the general-purpose having a reproduction time corresponding to the time obtained by subtracting the cursor time from the “reproduction start time”
  • the drive control unit 104 selects the motion data G1 from a plurality of general-purpose motion data candidates described in the motion data table 30, and stores the motion ID in the reproduction motion ID list (step S5).
  • the drive control unit 104 stores the motion ID of the specific motion data F1 in the playback motion ID list. Then, the drive control unit 104 adds the reproduction time of the general-purpose motion data G1 and the reproduction time of the specific motion data F1 to the cursor time (step S6).
  • the drive control unit 104 stores the motion ID of the specific motion data F1 in the reproduction motion ID list. To do. Then, the drive control unit 104 adds the reproduction time of the specific motion data F1 to the cursor time (step S7).
  • step S7 When the playback time of the specific motion data F1 is added to the cursor time (step S7), or when the playback time of the general-purpose motion data G1 and the playback time of the specific motion data F1 are added to the cursor time (step S6).
  • the drive control unit 104 determines whether or not the cursor time is equal to or greater than the time t11 when the utterance ends (step S8).
  • step S8 When it is determined that the cursor time is not equal to or greater than the time t11 when the utterance ends (NO in step S8), the variable related to the number of specific words is subtracted by 1 (step S9). Then, the process returns to step S2.
  • the drive control unit 104 sets the time obtained by subtracting the cursor time from the time t11 when the reproduction of the audio data A2 is finished as the reproduction time.
  • the general-purpose motion data G2 to be selected is selected from a plurality of general-purpose motion data candidates in the motion data table 30 and stored in the reproduction motion ID list (step S10).
  • step S8 When it is determined that the cursor time is equal to or greater than the time t11 when the utterance ends (YES in step S8), or when the drive control unit 104 stores the general-purpose motion data G2 in the playback motion ID list (step S10). End the process.
  • the general-purpose motion data G2 finishes reproduction at the same time as the time t11 when the reproduction of the audio data A2 ends, so the reproduction end time of the audio operation and the reproduction end of the audio data A2 The time can be matched, and the robot can perform a voice motion suitable for the speech content.
  • the end of the voice data and the end of the voice operation coincide, the behavior of the robot looks beautiful.
  • the control unit 100 of the robot 1 may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or may be realized by software using a CPU (Central Processing Unit).
  • a logic circuit hardware
  • IC chip integrated circuit
  • CPU Central Processing Unit
  • the control unit 100 includes a CPU that executes instructions of a program that is software that realizes each function, a ROM (Read Only Memory) in which the program and various data are recorded so as to be readable by a computer (or CPU), or A storage device (these are referred to as “recording media”), a RAM (Random Access Memory) for expanding the program, and the like are provided.
  • recording media these are referred to as “recording media”
  • RAM Random Access Memory
  • the objective of this invention is achieved when a computer (or CPU) reads the said program from the said recording medium and runs it.
  • the recording medium a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • the program may be supplied to the computer via an arbitrary transmission medium (such as a communication network or a broadcast wave) that can transmit the program.
  • a transmission medium such as a communication network or a broadcast wave
  • the present invention can also be realized in the form of a data signal embedded in a carrier wave in which the program is embodied by electronic transmission.
  • the robot 1 includes a speech unit (speech output unit 60) that outputs speech (speech data A1, A2), and speech (speech data A1) output by the speech unit (speech output unit 60). , A2) and a movable unit 70 that executes a voice action corresponding to A2), the voice (voice data A1, A2) includes a specific word and a general word that does not correspond to the specific word, and the voice action is the specified voice It is executed by combining specific motion data F1 and F2 for a specific operation representing the meaning of a word and general motion data G1 and G2 for a general operation corresponding to the general word.
  • a voice operation corresponding to the voice output by the utterance unit is executed by combining the data. For this reason, if motion data is combined according to a specific word and a general word of an utterance, a voice operation corresponding to the utterance can be executed, and even if only limited motion data is held, a plurality of words It is possible to cause the robot apparatus to perform an operation suitable for the content of the utterance sentence including the.
  • the movable unit 70 may execute the specific operation at a timing when the specific word is output by the utterance unit (speech output unit 60). .
  • the robot since the utterance timing of the specific word coincides with the execution timing of the specific action, it is possible to cause the robot to perform an action more appropriate to the utterance content.
  • the robot 1 includes the utterance content determination unit 102 that determines the content of the voice (voice data A1, A2) output by the utterance unit (speech output unit 60) in the above aspect 1 or 2.
  • the utterance content determination unit 102 determines the content of the voice (voice data A1, A2) output by the utterance unit (speech output unit 60) in the above aspect 1 or 2.
  • the specific motion data F1 and F2 are selected from a plurality of specific motion data candidates in the motion data table 30, the general motion data G1 and G2 are selected from a plurality of general motion data candidates in the motion data table 30, and the specific motion Data F1, F2 and the general-purpose motion data G1, G2
  • Motion data combination unit to combine the (drive control unit 104) may further comprise a.
  • the specific motion data and the general-purpose motion data can be combined according to the utterance content with a simple configuration.
  • the robot 1 according to aspect 4 of the present invention is the robot 1 according to aspect 3 described above, in which the motion data combination unit (drive control unit 104) is configured to perform the reproduction of the audio (audio data A1, A2) before the start of the reproduction.
  • the specific motion data F1, F2 and the general-purpose motion data G1, G2 may be selected and combined.
  • specific motion data and general-purpose motion data may be selected and combined as pre-processing for sound output and sound motion execution, real-time processing for sound output and sound motion execution is necessary.
  • the specific motion data and general-purpose motion data can be combined with a simple configuration.
  • the robot 1 according to Aspect 5 of the present invention is the robot 1 according to any one of the Aspects 1 to 3, further including the other specific word in which the voice (voice data A2) is reproduced after the specific word.
  • An operation is performed by combining the specific motion data F1, the general-purpose motion data G1, and other specific motion data F2 for another specific operation representing the meaning of the other specific word,
  • the time t5 at which the reproduction of the data F1 is finished is later than the time t7 at which the reproduction of the other specific word is started, and the other specific motion data F2 starts the reproduction at the time t5 at which the reproduction is finished. It may be reproduced from time t5 that is shifted after time t7 when the reproduction is started by a time corresponding to the difference from the time t7.
  • the robot 1 according to Aspect 6 of the present invention is the robot 1 according to any one of the Aspects 1 to 3, further including another specific word in which the voice (voice data A2) is reproduced after the specific word.
  • the time t5 at which the reproduction of the motion data F1 is finished is after the time t7 at which the reproduction of the other specific word is started, and the general-purpose motion data G2 starts the reproduction at the time t5 at which the reproduction is finished.
  • Playback is started at time t5 that is shifted from time t7 when the playback is started by a time corresponding to the difference from time t7, and playback is performed at the same time as time t11 when playback of the audio (audio data A2) is finished. You may end.
  • the general-purpose motion data finishes playing at the same time as the voice playback end time, it is possible to match the voice motion playback end time with the voice playback end time. It is possible to make the robot perform a voice motion suitable for the content.
  • a robot operation method includes an utterance step of outputting a voice, and a movable step of executing a voice operation corresponding to the voice output by the utterance step, wherein the voice is a specific word and the voice A general word that does not correspond to a specific word, and the voice action combines specific motion data for a specific action that represents the meaning of the specific word and general motion data for a general action corresponding to the general word Is executed.
  • a program according to an eighth aspect of the present invention is a program for causing a computer to function as an utterance unit that outputs audio and a control unit that executes an audio operation corresponding to the audio output by the utterance unit.
  • the utterance content determination unit 102 and the motion data combination unit (drive control unit 104) may be realized by a computer.
  • the utterance content determination unit 102, the motion data combination, A robot control program for realizing the utterance content determination unit 102 and the motion data combination unit (drive control unit 104) by a computer by operating as each unit (software element) included in the unit (drive control unit 104), and A recorded computer-readable recording medium also falls within the scope of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Toys (AREA)

Abstract

複数個の単語を含む発話文の内容にふさわしい動作ができるロボットを提供する。ロボット(1)が、音声を出力する音声出力部(60)と、音声に対応する音声動作を実行する可動部(70)とを備え、音声が特定単語と汎用単語とを含み、音声動作が、特定単語に対応する特定モーションデータと、汎用単語に対応する汎用モーションデータとを組み合わせることにより実行される。

Description

ロボット、ロボットの動作方法、及びプログラム
 本発明は、音声を出力する発話部と、この発話部により出力された音声に対応する音声動作を実行する可動部とを備えたロボット、ロボットの動作方法、及びプログラムに関する。
 動作データの管理を容易にしたロボットが知られている(特許文献1)。この特許文献1に開示されたロボットは、姿勢を表現する第1のコード体系と、動作を表現する第2のコード体系とに基づく管理方法により、ロボットの動作のためのモーションデータの管理を簡易にする。
 また、音声を出力する発話部と、この発話部により出力された音声に対応する音声動作を実行する可動部とを備えたロボットが知られている(特許文献2)。
 特許文献2に開示されたロボットは、発話文の内容を分析する音声内容分析部を備える。音声内容分析部は、あるキー単語が発話文に現れる場合、ジェスチャ識別子を出力する。例えば、発話文が「こんにちは」又は「さようなら」を示している場合、音声内容分析部は、目標人物に手を振るというジェスチャを示すジェスチャ識別子を出力する。これにより、発話内容に応じた動作をロボットにさせることができる。
日本国公開特許公報「特開2003-330513号公報(2003年11月21日公開)」 日本国公開特許公報「特表2014-504959号公報(2014年02月27日公表)」
 しかしながら、上述のような特許文献1のロボットは、限られたモーションデータしか保持していない状態でも必要な動作をさせることができ、ロボットのモーションデータの管理は簡易になるが、ロボットの発話内容について考慮されていないという問題がある。
 また、特許文献2のロボットは、「こんにちは」又は「さようなら」等の単一の単語から成る発話文に対して一つのジェスチャを割り当てているが、複数個の単語を含む発話文について考慮されていないという問題がある。
 本発明は、前記の問題点に鑑みてなされたものであり、その目的は、限られたモーションデータしか保持していない状態でも、複数個の単語を含む発話文の内容にふさわしい動作をすることができるロボットを実現することにある。
 上記の課題を解決するために、本発明の一態様に係るロボットは、音声を出力する発話部と、前記発話部により出力された音声に対応する音声動作を実行する可動部とを備え、前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行されることを特徴とする。
 本発明の一態様によれば、限られたモーションデータしか保持していない状態でも、複数個の単語を含む発話文の内容にふさわしい動作をすることができるロボットを提供できるという効果を奏する。
実施形態1に係るロボットの構成を示すブロック図である。 上記ロボットに設けられた音声出力部から出力される音声のための音声データと、上記ロボットが実行する動作のためのモーションデータとの間の関係を模式的に示すグラフである。 実施形態2に係るロボットに設けられた音声出力部から出力される音声のための音声データと、上記ロボットが実行する動作のためのモーションデータとの間の関係を模式的に示すグラフである。 実施形態3に係るロボットに設けられた音声出力部から出力される音声のための音声データと、上記ロボットが実行する動作のためのモーションデータとの間の関係を模式的に示すグラフである。 上記ロボットの動作を示すフローチャートである。
 以下、本発明の実施の形態について、詳細に説明する。
 〔実施形態1〕
 (実施形態1に係るロボットの構成)
 図1は、実施形態1に係るロボット1の構成を示すブロック図である。ロボット1は、音声を出力する音声出力部60(発話部)と、音声出力部60により出力された音声に対応する音声動作を実行する可動部70とを備える。
 音声出力部60により出力された音声は、特定単語と、特定単語に該当しない汎用単語とを含む。可動部70により実行される音声動作は、特定単語の意味を表す特定動作のための特定モーションデータと、汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行される。可動部70は、特定単語が音声出力部60により出力されるタイミングで特定動作を実行する。
 ロボット1には、可動部70を駆動する駆動部50と、駆動部50及び音声出力部60を制御する制御部100と、ロボット1の外部からの情報を検出するセンサー10と、制御部100に供給されるデータを記憶する記憶部40とが設けられる。
 記憶部40は、音声出力部60から出力される音声のための複数の発話内容データ候補が記述された発話内容テーブル20と、複数の特定モーションデータ候補と複数の汎用モーションデータ候補とが記述されたモーションデータテーブル30とを有する。
 制御部100は発話トリガ部101を有する。発話トリガ部101は、センサー10により検出された外部からの情報に基づいて、外部からの情報の検出を発話内容決定部102に通知する。発話内容決定部102は、発話トリガ部101からの通知に応じて、発話内容テーブル20に記述された複数の発話内容データ候補から発話内容データを選択し、音声出力制御部103及び駆動制御部104(モーションデータ組み合わせ部)に供給する。音声出力制御部103は、発話内容決定部102から供給された発話内容データに基づいて音声出力部60を制御する。音声出力部60は、発話内容データに対応する音声を出力する。
 駆動制御部104は、発話内容決定部102から供給される発話内容データに基づいて、モーションデータテーブル30に記述された複数の特定モーションデータ候補と複数の汎用モーションデータ候補とのうちのどの特定モーションデータ、汎用モーションデータをどのような順番、どのようなタイミングで再生するかを決定し、駆動部50に通知する。駆動部50は、駆動制御部104により決定された特定モーションデータ、汎用モーションデータの再生順番、再生タイミングに基づいて、可動部70を駆動する。
 図2は、ロボット1に設けられた音声出力部60から出力される音声のための音声データA1と、ロボット1の可動部70が実行する動作のための特定モーションデータF1、汎用モーションデータG1・G2との間の関係を模式的に示すグラフである。
 図2に示される音声データA1は、発話内容決定部102から駆動制御部104に供給される発話内容データに対応し、「私は野球を見ます」という意味に対応する「わたしはやきゅうをみます」と発音される音声を表すデータである。
 音声データA1は、特定単語「やきゅう」と、汎用単語「わたし」と、汎用単語「は」と、汎用単語「を」と、汎用単語「見ます」とを含む。特定モーションデータF1は、特定単語「やきゅう」の意味を表す野球に関連する動作のためのモーションデータである。汎用モーションデータG1・G2は、特定単語に関連しない一般的な動作のためのモーションデータである。
 例えば、特定モーションデータF1に対応する野球に関連する動作は、バットを振る動作、ボールを投げる動作を含む。汎用モーションデータG1・G2に対応する一般的な動作は、例えば、腕を振る動作を含む。
 特定単語は、喜怒哀楽等の感情を示す単語であってもよく、特定モーションデータF1に対応する動作は、上記感情を表す動作であってもよい。
 音声データA1に含まれる特定単語「やきゅう」のうちの最初の音声「や」は時刻t1に再生が開始され、最後の音声「う」は時刻t2に再生が終了する。そして、特定単語「やきゅう」に対応する特定モーションデータF1は、時刻t4に再生が開始され、時刻t5に再生が終了する。ここで、
(t1+t2)/2=(t4+T5)/2=t3
の関係が成立する。
 即ち、特定単語「やきゅう」の再生を開始する時刻t1と再生を終了する時刻t2との間の中間時刻と、特定モーションデータF1の再生を開始する時刻t4と再生を終了する時刻t5との間の中間時刻とが、共に時刻t3であり、両者が一致するように、特定モーションデータF1の再生タイミングが決定される。汎用モーションデータG1は、音声データA1の再生を開始する時刻t0に開始され特定モーションデータF1の再生を開始する時刻t4に終了する。汎用モーションデータG2は、特定モーションデータF1の再生終了時刻t5に開始され音声データA1の再生終了時刻t6に終了する。
 このように、予め、「やきゅう」等の特定単語と、当該特定単語にふさわしい特定モーションデータF1と、汎用的に使用できる汎用モーションデータG1が準備される。ロボット1の音声出力部60が音声データA1に基づいて音声を出力する際に、当該音声データA1に特定単語が含まれる場合には、その特定単語に対応する音声が出力されるタイミングで特定モーションデータF1が再生される。特定単語に該当しない汎用単語に対応する音声が出力される時に汎用モーションデータG1・G2が再生される。このように、発話内容に応じて特定モーションデータと汎用モーションデータとを組み合わせて再生することで、限られたモーションデータしか保持していない状態でも、発話内容にふさわしい動作をロボットにさせることができる。
 発話内容決定部102により発話内容が決定されると、駆動制御部104は、音声出力部60から音声が出力されるよりも前に、予め、音声データA1の全体の再生を開始する時刻t0、再生終了時刻t6、音声データA1に含まれる特定単語の再生を開始する時刻t1、再生終了時刻t2等を算出しておく。また、特定単語に対応する特定モーションデータF1の再生時間も発話内容決定部102は算出しておく。これらの値から、例えば、特定単語の発話を開始する時刻t1と発話を終了する時刻t2との間の丁度中間の時刻t3で当該特定単語に対応する特定モーションデータF1の丁度半分が再生されるように特定モーションデータF1の再生タイミングを調整する。音声データA1の再生を開始する時刻t0から特定モーションデータF1の再生を開始する時刻t4までの期間、及び、特定モーションデータF1の再生を終了する時刻t5から音声データA1の再生終了時刻t6までに期間は、それぞれ、その期間に一致する汎用モーションデータG1・G2を再生しておく。
 特定モーションデータは、一つの特定単語に対して1種類設けてもよいし、また、一つの特定単語に対して複数種類の特定モーションデータを設けて使い分けてもよい。また、複数の特定単語に対して共通の特定モーションデータを設けてもよい。
 汎用モーションデータは、1種類の汎用モーションデータを汎用単語の再生時間に対応する期間の間繰り返して再生してもよいし、また、例えば、再生時間1秒の汎用モーションデータ、再生時間1.5秒の汎用モーションデータというように再生時間ごとに複数種類の汎用モーションデータを準備してもよい。また、同じ再生時間(例えば、1秒)で動作内容の異なる複数種類の汎用モーションデータを設けて使い分けてもよい。
 (実施形態1に係るロボットの動作)
 このように構成されたロボット1は下記のように動作する。
 まず、ロボット1の外部からの情報がセンサー10により検出される。そして、発話トリガ部101が、外部からの情報の検出を発話内容決定部102に通知する。次に、発話内容決定部102が、発話内容テーブル20に記述された複数の発話内容データ候補から、例えば、「わたしはやきゅうをみます」という発話内容データを選択し、音声出力制御部103及び駆動制御部104に供給する。
 その後、駆動制御部104は、発話内容決定部102から供給された発話内容データに基づいて、モーションデータテーブル30の複数の特定モーションデータ候補の中から特定モーションデータF1を選択し、モーションデータテーブル30の複数の汎用モーションデータ候補の中から汎用モーションデータG1を選択する。そして、駆動制御部104は、特定モーションデータF1の再生タイミングを時刻t4で開始され時刻t5で終了するように決定し、汎用モーションデータG1の再生タイミングを時刻t0で開始され時刻t4で終了し、及び、時刻t5で開始され時刻t6で終了するように決定する。
 次に、駆動制御部104は、音声出力制御部103に音声出力の開始を指示すると共に、特定モーションデータF1及び汎用モーションデータG1の再生順番及び再生タイミングを駆動部50に通知する。その後、音声出力制御部103は、音声出力部60を制御して音声データA1を音声出力部60から出力させるとともに、駆動部50は、駆動制御部104から通知された特定モーションデータF1及び汎用モーションデータG1の再生順番及び再生タイミングに基づいて可動部70を駆動する。
 (実施形態1の効果)
 以上のように実施形態1によれば、音声出力部60により出力される音声に含まれる特定単語「やきゅう」の意味を表す特定動作のための特定モーションデータF1と、特定単語「やきゅう」に該当しない汎用単語に対応する汎用動作のための汎用モーションデータG1とを組み合わせることにより、音声出力部60により出力された音声に対応する音声動作が実行される。このため、発話の特定単語と汎用単語に応じて特定モーションデータF1と汎用モーションデータG1とを組み合わせれば、発話に対応する音声動作を実行することができ、限られたモーションデータしか保持していない状態でも、複数個の単語を含む発話文の内容にふさわしい動作をロボット1にさせることができる。
 このように、特定モーションデータ、汎用モーションデータを組み合わせて再生することで、膨大な種類の発話を実行するロボットでも、一定量の特定モーションデータ、汎用モーションデータを準備しておくだけで、複数個の単語を含む発話文の内容に沿った動作をさせることが可能となる。
 また、発話内容に沿った内容のモーションデータが、発話タイミングに合わせて再生されるため、ロボットに、より情緒的な動作をさせることができる。
 〔実施形態2〕
 本発明の他の実施形態について、図3に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 (実施形態2に係る音声データ、特定モーションデータ、汎用モーションデータの構成)
 図3は、実施形態2に係るロボットに設けられた音声出力部から出力される音声のための音声データA2と、上記ロボットが実行する動作のための特定モーションデータF1・F2、汎用モーションデータG1との間の関係を模式的に示すグラフである。
 実施形態1の音声データA1は1個の特定単語「やきゅう」を含んでいたが、実施形態2の音声データA2は2個の特定単語「やきゅう」及び特定単語「すき」(他の特定言語)を含む。音声データA2は、「私は野球が好きです」という意味に対応する「わたしはやきゅうがすきです」と発音される音声を表すデータである。
 特定単語「すき」は、時刻t7で再生が開始され時刻t9で再生が終了する。ここで、(t7+t8)/2=t9
の関係が成立する。
 特定モーションデータF1の再生が終了する時刻t5は、特定単語「すき」の再生が開始される時刻t7よりも後である。特定単語「すき」に対応する特定モーションデータF2は、特定単語「すき」の再生が開始される時刻t7よりも後にずれた時刻t5から再生される。そして、特定モーションデータF2は、音声データA2が終了する時刻t6よりも後の時刻t10に再生を終了する。
 特定モーションデータF2に対応する好きという感情に関連する動作は、例えば、ロボットの腕によって胸を押える動作を含む。
 以上のように実施形態2によれば、特定単語「やきゅう」に対応する特定モーションデータF1に加えて、他の特定単語「すき」に対応する特定モーションデータF2も再生されるので、特定単語のみならず他の特定単語にもふさわしい音声動作をロボットにさせることができる。
 〔実施形態3〕
 (実施形態3に係る音声データ、特定モーションデータ、汎用モーションデータの構成)
 図4は、実施形態3に係るロボットに設けられた音声出力部から出力される音声のための音声データA2と、上記ロボットが実行する動作のための特定モーションデータF1、汎用モーションデータG1・G3との間の関係を模式的に示すグラフである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 実施形態2のモーションデータは、特定モーションデータF1・F2、汎用モーションデータG1を含んでいたが、実施形態3のモーションデータは、特定モーションデータF1、汎用モーションデータG1・G3を含む。
 特定モーションデータF1の再生が終了する時刻t5は、特定単語「すき」の再生が開始される時刻t7よりも後である。ここで、前述した実施形態2の図3に示すように、特定単語「すき」に対応する特定モーションデータF2を、特定単語「すき」の再生が開始される時刻t7よりも後ろにずれた時刻t5から開始すると、特定モーションデータF2の再生が終了される時刻t10が、音声データA2の再生終了時刻t11と不一致となり得る。
 そこで、特定単語「すき」の再生が開始される時刻t7よりも後ろにずれた時刻t5からは、音声データA2の再生が終了する時刻t11と同時に再生が終了する汎用モーションデータG3が再生される。
 (実施形態3に係るロボットの動作)
 図5は、実施形態3に係るロボットの動作を示すフローチャートである。
 まず、駆動制御部104は、カーソル時刻を零に設定する(ステップS1)。ここで、「カーソル時刻」とは、音声データA2の再生期間における再生タイミング割り当て処理が終了した汎用モーションデータ及び特定モーションデータのうちの最後の汎用モーションデータ又は特定モーションデータの再生終了時刻を表す時刻に相当する。最初は、再生タイミング割り当て処理が終了した汎用モーションデータも特定モーションデータも存在しないので、「カーソル時刻」は零に設定される。
 そして、音声データA2に含まれる特定単語の数に関連する変数が正であるか否かを駆動制御部104は判定する(ステップS2)。特定単語の数に関連する変数が正であると判定したときは(ステップS2でYES)、対象となる特定単語の「再生開始時刻」を駆動制御部104は取得する(ステップS3)。例えば、音声データA2の対象となる特定単語が「やきゅう」であれば「再生開始時刻」は時刻t1であり、対象となる特定単語が「すき」であれば「再生開始時刻」は時刻t7である。
 次に、対象となる特定単語の「再生開始時刻」がカーソル時刻よりも大きいか否かを駆動制御部104は判定する(ステップS4)。対象となる特定単語の「再生開始時刻」がカーソル時刻よりも大きいと判定したときは(ステップS4でYES)、当該「再生開始時刻」からカーソル時刻を減算した時間に対応する再生時間を有する汎用モーションデータG1を、モーションデータテーブル30に記述された複数の汎用モーションデータ候補の中から駆動制御部104は選択して、そのモーションIDを再生モーションIDリストに格納する(ステップS5)。
 その後、駆動制御部104は、特定モーションデータF1のモーションIDを再生モーションIDリストに格納する。そして、駆動制御部104は、汎用モーションデータG1の再生時間と特定モーションデータF1の再生時間とをカーソル時刻に加算する(ステップS6)。
 対象となる特定単語の「再生開始時刻」がカーソル時刻よりも大きくないと判定したときは(ステップS4でNO)、駆動制御部104は、特定モーションデータF1のモーションIDを再生モーションIDリストに格納する。そして、駆動制御部104は、特定モーションデータF1の再生時間をカーソル時刻に加算する(ステップS7)。
 特定モーションデータF1の再生時間をカーソル時刻に加算したとき(ステップS7)、又は、汎用モーションデータG1の再生時間と特定モーションデータF1の再生時間とをカーソル時刻に加算したときは(ステップS6)、カーソル時刻が、発話を終了する時刻t11以上であるか否かを駆動制御部104は判定する(ステップS8)。
 カーソル時刻が、発話を終了する時刻t11以上でないと判断したときは(ステップS8でNO)、特定単語の数に関連する変数を1だけ減算する(ステップS9)。そして、ステップS2に戻る。
 特定単語の数に関連する変数が正でないと判定したときは(ステップS2でNO)、駆動制御部104は、音声データA2の再生を終了する時刻t11からカーソル時刻を減算した時間を再生時間とする汎用モーションデータG2を、モーションデータテーブル30の複数の汎用モーションデータ候補の中から選択して再生モーションIDリストに格納する(ステップS10)。
 カーソル時刻が発話を終了する時刻t11以上であると判断したときは(ステップS8でYES)、又は、駆動制御部104が汎用モーションデータG2を再生モーションIDリストに格納したときは(ステップS10)、処理を終了する。
 以上のように実施形態3によれば、汎用モーションデータG2は、音声データA2の再生を終了する時刻t11と同時刻に再生を終了するので、音声動作の再生終了時刻と音声データA2の再生終了時刻とを一致させることができ、音声の発話内容にふさわしい音声動作をロボットにさせることができる。また、音声データの終了と音声動作の終了が一致すると、ロボットの振る舞いがきれいに見える。
 〔実施形態4〕
 〔ソフトウェアによる実現例〕
 ロボット1の制御部100は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
 後者の場合、制御部100は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔まとめ〕
 本発明の態様1に係るロボット1は、音声(音声データA1、A2)を出力する発話部(音声出力部60)と、前記発話部(音声出力部60)により出力された音声(音声データA1、A2)に対応する音声動作を実行する可動部70とを備え、前記音声(音声データA1、A2)が特定単語と前記特定単語に該当しない汎用単語とを含み、前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータF1、F2と、前記汎用単語に対応する汎用動作のための汎用モーションデータG1、G2とを組み合わせることにより実行される。
 上記の構成によれば、発話部により出力される音声に含まれる特定単語の意味を表す特定動作のための特定モーションデータと、特定単語に該当しない汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより、発話部により出力された音声に対応する音声動作が実行される。このため、発話の特定単語と汎用単語に応じてモーションデータを組み合わせれば、発話に対応する音声動作を実行することができ、限られたモーションデータしか保持していない状態でも、複数個の単語を含む発話文の内容にふさわしい動作をロボット装置にさせることができる。
 本発明の態様2に係るロボット1は、上記態様1において、前記可動部70は、前記特定単語が前記発話部(音声出力部60)により出力されるタイミングで前記特定動作を実行してもよい。
 上記の構成によれば、特定単語の発話タイミングと特定動作の実行タイミングとが一致するので、発話内容により一層ふさわしい動作をロボットにさせることができる。
 本発明の態様3に係るロボット1は、上記態様1または2において、前記発話部(音声出力部60)により出力される音声(音声データA1、A2)の内容を決定する発話内容決定部102と、複数の特定モーションデータ候補と複数の汎用モーションデータ候補とが記述されたモーションデータテーブル30と、前記発話内容決定部102により決定された音声(音声データA1、A2)の内容に基づいて、前記モーションデータテーブル30の複数の特定モーションデータ候補から前記特定モーションデータF1、F2を選択し、前記モーションデータテーブル30の複数の汎用モーションデータ候補から前記汎用モーションデータG1、G2を選択し、前記特定モーションデータF1、F2と前記汎用モーションデータG1、G2とを組み合わせるモーションデータ組み合わせ部(駆動制御部104)とをさらに備えてもよい。
 上記の構成によれば、特定モーションデータと汎用モーションデータとを簡易な構成で発話内容に応じて組み合わせることができる。
 本発明の態様4に係るロボット1は、上記態様3において、前記モーションデータ組み合わせ部(駆動制御部104)が、前記音声(音声データA1、A2)の再生を開始する時刻よりも前に、前記特定モーションデータF1、F2及び前記汎用モーションデータG1、G2を選択して組み合わせてもよい。
 上記の構成によれば、音声の出力及び音声動作の実行の前処理として特定モーションデータ及び汎用モーションデータを選択し組み合わせればよいので、音声の出力及び音声動作の実行とのリアルタイム処理の必要が無く、簡素な構成で特定モーションデータ及び汎用モーションデータを組み合わせることができる。
 本発明の態様5に係るロボット1は、上記態様1から3のいずれか一態様において、前記音声(音声データA2)が前記特定単語の後で再生される他の特定単語をさらに含み、前記音声動作が、前記特定モーションデータF1と、前記汎用モーションデータG1と、前記他の特定単語の意味を表す他の特定動作のための他の特定モーションデータF2とを組み合わせることにより実行され、前記特定モーションデータF1の再生を終了する時刻t5が、前記他の特定単語の再生を開始する時刻t7よりも後であり、前記他の特定モーションデータF2は、前記再生を終了する時刻t5と前記再生を開始する時刻t7との間の差に相当する時間だけ前記再生を開始する時刻t7よりも後にずれた時刻t5から再生されてもよい。
 上記の構成によれば、特定単語に対応する特定モーションデータに加えて、他の特定単語に対応する他の特定モーションデータも再生されるので、特定単語のみならず他の特定単語にもふさわしい音声動作をロボットにさせることができる。
 本発明の態様6に係るロボット1は、上記態様1から3のいずれか一態様において、前記音声(音声データA2)が前記特定単語の後で再生される他の特定単語をさらに含み、前記特定モーションデータF1の再生を終了する時刻t5が、前記他の特定単語の再生を開始する時刻t7よりも後であり、前記汎用モーションデータG2は、前記再生を終了する時刻t5と前記再生を開始する時刻t7との間の差に相当する時間だけ前記再生を開始する時刻t7よりも後にずれた時刻t5から再生され、前記音声(音声データA2)の再生を終了する時刻t11と同時刻に再生を終了してもよい。
 上記の構成によれば、汎用モーションデータは、音声の再生終了時刻と同時刻に再生を終了するので、音声動作の再生終了時刻と音声の再生終了時刻とを一致させることができ、音声の発話内容にふさわしい音声動作をロボットにさせることができる。
 本発明の態様7に係るロボットの動作方法は、音声を出力する発話工程と、前記発話工程により出力された音声に対応する音声動作を実行する可動工程とを備え、前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行される。
 本発明の態様8に係るプログラムは、コンピュータを、音声を出力する発話部、前記発話部により出力された音声に対応する音声動作を実行させる制御部として機能させるためのプログラムであって、前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行される。
 本発明の各態様に係る発話内容決定部102、モーションデータ組み合わせ部(駆動制御部104)は、コンピュータによって実現してもよく、この場合には、コンピュータを上記発話内容決定部102、モーションデータ組み合わせ部(駆動制御部104)が備える各部(ソフトウェア要素)として動作させることにより上記発話内容決定部102、モーションデータ組み合わせ部(駆動制御部104)をコンピュータにて実現させるロボットの制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
 1 ロボット
30 モーションデータテーブル
60 音声出力部(発話部)
70 可動部
102 発話内容決定部
104 駆動制御部(モーションデータ組み合わせ部)
A1、A2 音声データ(音声)
F1、F2 特定モーションデータ
G1、G2 汎用モーションデータ

Claims (8)

  1.  音声を出力する発話部と、
     前記発話部により出力された音声に対応する音声動作を実行する可動部とを備え、
     前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、
     前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行されることを特徴とするロボット。
  2.  前記可動部は、前記特定単語が前記発話部により出力されるタイミングで前記特定動作を実行する請求項1に記載のロボット。
  3.  前記発話部により出力される音声の内容を決定する発話内容決定部と、
     複数の特定モーションデータ候補と複数の汎用モーションデータ候補とが記述されたモーションデータテーブルと、
     前記発話内容決定部により決定された音声の内容に基づいて、前記モーションデータテーブルの複数の特定モーションデータ候補から前記特定モーションデータを選択し、前記モーションデータテーブルの複数の汎用モーションデータ候補から前記汎用モーションデータを選択し、前記特定モーションデータと前記汎用モーションデータとを組み合わせるモーションデータ組み合わせ部とをさらに備える請求項1又は2に記載のロボット。
  4.  前記モーションデータ組み合わせ部が、前記音声の再生開始時刻よりも前に、前記特定モーションデータ及び前記汎用モーションデータを選択して組み合わせる請求項3に記載のロボット。
  5.  前記音声が前記特定単語の後で再生される他の特定単語をさらに含み、
     前記音声動作が、前記特定モーションデータと、前記汎用モーションデータと、前記他の特定単語の意味を表す他の特定動作のための他の特定モーションデータとを組み合わせることにより実行され、
     前記特定モーションデータの再生終了時刻が、前記他の特定単語の再生開始時刻よりも後であり、
     前記他の特定モーションデータは、前記再生終了時刻と前記再生開始時刻との間の差に相当する時間だけ前記再生開始時刻よりも後にずれた時刻から再生される請求項1から3のいずれか一項に記載のロボット。
  6.  前記音声が前記特定単語の後で再生される他の特定単語をさらに含み、
     前記特定モーションデータの再生終了時刻が、前記他の特定単語の再生開始時刻よりも後であり、
     前記汎用モーションデータは、前記再生終了時刻と前記再生開始時刻との間の差に相当する時間だけ前記再生開始時刻よりも後にずれた時刻から再生され、前記音声の再生終了時刻と同時刻に再生を終了する請求項1から3のいずれか一項に記載のロボット。
  7.  音声を出力する発話工程と、
     前記発話工程により出力された音声に対応する音声動作を実行する可動工程とを備え、
     前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、
     前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行されることを特徴とするロボットの動作方法。
  8.  コンピュータを、音声を出力する発話部、前記発話部により出力された音声に対応する音声動作を実行させる制御部として機能させるためのプログラムであって、
     前記音声が特定単語と前記特定単語に該当しない汎用単語とを含み、
     前記音声動作が、前記特定単語の意味を表す特定動作のための特定モーションデータと、前記汎用単語に対応する汎用動作のための汎用モーションデータとを組み合わせることにより実行されることを特徴とするプログラム。
PCT/JP2017/012460 2016-05-19 2017-03-27 ロボット、ロボットの動作方法、及びプログラム WO2017199585A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-100396 2016-05-19
JP2016100396 2016-05-19

Publications (1)

Publication Number Publication Date
WO2017199585A1 true WO2017199585A1 (ja) 2017-11-23

Family

ID=60325006

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/012460 WO2017199585A1 (ja) 2016-05-19 2017-03-27 ロボット、ロボットの動作方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2017199585A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019160105A1 (ja) * 2018-02-16 2019-08-22 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
US11989976B2 (en) 2018-02-16 2024-05-21 Nippon Telegraph And Telephone Corporation Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001260063A (ja) * 2000-03-21 2001-09-25 Sony Corp 多関節型ロボット及びその動作制御方法
JP2004017269A (ja) * 2002-06-20 2004-01-22 P To Pa:Kk ロボット制御装置、ロボット制御方法及びプログラム
JP2004034273A (ja) * 2002-07-08 2004-02-05 Mitsubishi Heavy Ind Ltd ロボット発話中の動作プログラム生成装置及びロボット
JP2005193331A (ja) * 2004-01-06 2005-07-21 Sony Corp ロボット装置及びその情動表出方法
JP2014504959A (ja) * 2011-01-26 2014-02-27 本田技研工業株式会社 人間型ロボットのジェスチャと音声の同期
JP2015013351A (ja) * 2013-07-08 2015-01-22 有限会社アイドリーマ ロボットを制御するためのプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001260063A (ja) * 2000-03-21 2001-09-25 Sony Corp 多関節型ロボット及びその動作制御方法
JP2004017269A (ja) * 2002-06-20 2004-01-22 P To Pa:Kk ロボット制御装置、ロボット制御方法及びプログラム
JP2004034273A (ja) * 2002-07-08 2004-02-05 Mitsubishi Heavy Ind Ltd ロボット発話中の動作プログラム生成装置及びロボット
JP2005193331A (ja) * 2004-01-06 2005-07-21 Sony Corp ロボット装置及びその情動表出方法
JP2014504959A (ja) * 2011-01-26 2014-02-27 本田技研工業株式会社 人間型ロボットのジェスチャと音声の同期
JP2015013351A (ja) * 2013-07-08 2015-01-22 有限会社アイドリーマ ロボットを制御するためのプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019160105A1 (ja) * 2018-02-16 2019-08-22 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
JPWO2019160105A1 (ja) * 2018-02-16 2021-02-04 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
US11404063B2 (en) 2018-02-16 2022-08-02 Nippon Telegraph And Telephone Corporation Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs
JP7157340B2 (ja) 2018-02-16 2022-10-20 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム
US11989976B2 (en) 2018-02-16 2024-05-21 Nippon Telegraph And Telephone Corporation Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs

Similar Documents

Publication Publication Date Title
KR102424520B1 (ko) 전자 장치 및 전자 장치의 동작 방법
WO2018135276A1 (ja) 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法
JP6495015B2 (ja) 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置
WO2017199585A1 (ja) ロボット、ロボットの動作方法、及びプログラム
JP2018132624A (ja) 音声対話装置
US10693944B1 (en) Media-player initialization optimization
JP2019113636A (ja) 音声認識システム
JP2019090945A (ja) 情報処理装置
US9443499B2 (en) Musical sound control apparatus, musical sound control method, program storage medium and electronic musical instrument
JP2009260718A (ja) 画像再生装置及び画像再生処理プログラム
JP6644141B2 (ja) 応答装置および応答装置の制御方法、制御プログラム
JP6772881B2 (ja) 音声対話装置
JP7224470B2 (ja) 音声対話装置、音声対話方法およびプログラム記録媒体
US20100076597A1 (en) Storytelling robot associated with actions and method therefor
JP6265670B2 (ja) 情報処理装置、サーバ、および、制御プログラム
JPWO2016104193A1 (ja) 対応決定装置、音声対話システム、対応決定装置の制御方法、および音声対話装置
JP2000089789A (ja) 音声認識装置及び記録媒体
JP2008136530A (ja) 録音データ自動出力システム
KR20190093268A (ko) 디바이스 제어 방법 및 그 장치
US20110307086A1 (en) Method, apparatus and recording medium for playing sound source
KR102170155B1 (ko) 발화 정지 시점을 고려한 발화 제어 방법 및 이를 위한 장치
CN110989964B (zh) 一种基于安卓***的音频回放方法、装置和电子设备
US11532312B2 (en) User-perceived latency while maintaining accuracy
JPWO2019058453A1 (ja) 音声対話制御装置および音声対話制御方法
JP2022061361A (ja) イベント検出装置、イベント検出方法、及びプログラム

Legal Events

Date Code Title Description
DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17799019

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 17799019

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP