WO2002066211A1 - Procede de commande de fonctionnement, programme, et support d'enregistrement pour dispositif robotise, et dispositif robotise correspondant - Google Patents

Procede de commande de fonctionnement, programme, et support d'enregistrement pour dispositif robotise, et dispositif robotise correspondant Download PDF

Info

Publication number
WO2002066211A1
WO2002066211A1 PCT/JP2002/001573 JP0201573W WO02066211A1 WO 2002066211 A1 WO2002066211 A1 WO 2002066211A1 JP 0201573 W JP0201573 W JP 0201573W WO 02066211 A1 WO02066211 A1 WO 02066211A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
unit
robot device
operation unit
time
Prior art date
Application number
PCT/JP2002/001573
Other languages
English (en)
French (fr)
Inventor
Jun Yokono
Kohtaro Sabe
Gabriel Costa
Takeshi Ohashi
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to US10/258,110 priority Critical patent/US6697711B2/en
Publication of WO2002066211A1 publication Critical patent/WO2002066211A1/ja

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour

Definitions

  • the present invention relates to a mouth pot device, an operation control method for a robot device, a program for controlling the operation of a robot device, and a program for recording the program. More specifically, the present invention relates to a recording medium suitable for a robot device to learn an operation.
  • a robot device whose external shape is formed by imitating an animal such as a dog or a cat. Some of such robot devices operate autonomously in response to external information or internal conditions. In order to learn the desired operation of such a robot device, a controller or the like was used. For example, the controller is a so-called joystick.
  • An object of the present invention is to provide a robot device, an operation control method of the robot device, a program for the same, and a recording medium on which the program is recorded.
  • An operation control method for a robot device is an operation control method for a robot device that controls the operation of a robot device having an operation unit.
  • the operation control method of the mouth port device includes a learning step of learning a time-series signal obtained in the operation unit in accordance with an operation of the operation unit, and a signal obtained in the operation unit by an external force applied to the operation unit.
  • the robot device learns the operation of the operation unit by the user, and after the learning, autonomously recalls the operation learned based on the external force applied to the operation unit. Operate.
  • a program according to the present invention is a program for controlling an operation of a robot device having an operation unit.
  • This program has a learning process of learning a time-series signal obtained in the operating unit in response to an operation of the operating unit, and a signal obtained in the operating unit by an external force applied to the operating unit and a time series learned in the learning process. And an operation control step of controlling the operation unit based on the signal of the mouth port.
  • the robot device learns a time-series signal obtained in the operating unit in response to the operation of the operating unit, and after learning, a signal obtained in the operating unit by an external force applied to the operating unit.
  • the operating unit can be controlled based on the learned time-series signals. In addition, this allows the robot device to autonomously operate by recalling the learned operation based on the external force applied to the operation unit.
  • a recording medium is a recording medium on which a program for controlling an operation of a mouth pot device having an operation unit is recorded.
  • the recording medium includes a learning process of learning a time-series signal obtained by the operating unit in response to an operation of the operating unit of the robot device, a signal obtained by the operating unit by an external force applied to the operating unit, and a learning process.
  • the robot device learns the operation of the operation unit by the user, and after learning, learns based on the external force applied to the operation unit. Recall the learned behavior and become able to operate autonomously.
  • the robot device is a robot device having an operation unit.
  • a learning means for learning a time-series signal obtained in the operation section in response to an operation of the operation section, and a signal and learning means obtained in the operation section by an external force applied to the operation section.
  • Operation control means for controlling the operation unit based on the time-series signal.
  • the robot device having such a configuration learns the operation of the operation unit by the user, and after learning, can recall the operation learned based on the external force applied to the operation unit and can operate autonomously.
  • FIG. 1 is a perspective view showing an external configuration of a robot apparatus shown as an embodiment of the present invention
  • FIG. 2 is a block diagram showing a main part of the robot apparatus for learning operations and the like. It is.
  • FIG. 3 is a diagram illustrating the operation of the robot device realized by learning.
  • FIG. 4 is a diagram showing R NN constituting a learning unit of the robot device shown in FIG.
  • FIG. 5 is a flowchart showing a process in the robot device at the time of learning.
  • FIG. 6 is a diagram showing inverse R NN constituting a prediction unit of the robot device shown in FIG.
  • FIG. 7 is a block diagram showing a circuit configuration of the robot device shown in FIG.
  • FIG. 8 is a block diagram showing a software configuration of the robot device shown in FIG. 1
  • FIG. 9 is a block diagram showing a configuration of the middleware layer in the software configuration of the robot device shown in FIG.
  • FIG. 10 is a block diagram showing the configuration of an application layer in the software configuration of the robot apparatus shown in FIG. 1.
  • FIG. 11 is a block diagram showing the application of FIG.
  • FIG. 3 is a block diagram showing a configuration of an action layer library of the action layer.
  • FIG. 12 is a diagram illustrating a finite probability automaton that is information for determining the action of the robot device.
  • FIG. 13 is a diagram illustrating a state transition table prepared for each node of the finite probability automaton.
  • FIG. 14 is a block diagram showing a more specific configuration of the learning unit and the like of the robot device shown in FIG.
  • FIG. 15 is a block diagram showing the configuration of the RNN module.
  • FIG. 1 shows a specific example of the robot device 1.
  • This robot device 1 is a so-called pet type robot having a shape imitating an animal such as a "dog", and is a leg unit 3A, 3B, 3C, 3D at the front, rear, left and right of the body unit 2.
  • the head unit 4 and the tail unit 5 are connected to the front and rear ends of the body unit 2, respectively.
  • the robot device 1 configured as described above, according to the self (internal) and surrounding (external) conditions and the instructions and actions from the user based on the control program, leg units 3A, 3B, 3C, 3D, etc. are operated to operate autonomously.
  • the robot device 1 can learn the operation taught by the user.
  • the learning performed by the robot device 1 is, for example, a process of expressing a pre-taught motion by simply pressing the buttocks for a moment.
  • FIG. 2 shows the configuration of a robot device 1 for performing such learning.
  • the robot device 1 has a sensor 101, a motion control unit 102, a learning unit 103, a prediction unit 104, and a driving unit 105.
  • the learning unit 103 operates the operation unit 106 for expressing the operation of the leg units 3A, 3B, 3C, 3D, the head unit 4, and the like. Learning of the time-series signal obtained in the operation unit 106 in response to the operation of The operation control unit 102 and the driving unit 105 learned the signal obtained in the operation unit 106 by the external force to the operation unit 106 after learning, and the learning unit 103 learned Based on time-series signals
  • the prediction unit 104 functions as an operation control means for controlling the operation unit 106, and the prediction unit 104 predicts from an initial signal obtained in the operation unit 106 by an external force applied to the operation unit 106 after learning. It functions as a prediction means to perform the prediction.
  • the sensor 11 detects the displacement of the operation unit 106.
  • the sensor 11 is a potentiometer or an encoder.
  • the sensor 11 is not limited to this, and may be any sensor that detects a displacement when the operating unit 106 of the robot device 1 is driven.
  • the sensor 11 is used to detect when the robot device 1 is operated by an external force applied by a user or the like. The displacement of the operating unit 106 is detected.
  • the operating unit 106 is the leg unit 3A, 3B, 3C, or 3D as described above
  • the sensor 11 in the case where the potentiometer is set to be over will cause the sensor 11 to be displaced.
  • the rotation angle which is the moving position of the leg unit 3A, 3B, 3C, 3D, is detected.
  • the sensor detection signal detected by the sensor 101 is output to the operation control unit 102.
  • the operation control unit 102 is control means for controlling the operation unit 106. Specifically, the operation unit 106 is controlled based on various information such as the sensor detection signal from the sensor 101 described above.
  • the operation control unit 102 executes the control of the operation unit 106 via the drive unit 105. That is, the operation control unit 102 outputs a control signal corresponding to various information such as a sensor detection signal to the driving unit 105.
  • the operation control unit 102 also outputs a sensor detection signal from the sensor 101 to the learning unit 103.
  • the learning unit 103 will be described later in detail.
  • the drive unit 105 controls the operation unit 106 based on a control signal from the operation control unit 102. That is, for example, based on the control signal, the driving unit 105 may be configured to operate the leg unit 3A, 3B, 3C, 3D, the head unit 4 or the tail unit 3A as the operating unit 106. Driving 5 mag.
  • the learning unit 103 is configured so that the operating unit 106 is operated, and a time-series signal (sensor detection signal) obtained in the operating unit 106 in accordance with the operation is learned. I have.
  • the learning unit 103 is a signal detected by the sensor 101 at the time of learning. For example, when a posture is forcibly changed by an external force applied by a user or the like as learning of an operation.
  • the time-series signal is, specifically, a sensor detection signal detected by the sensor 11 by a series of displacements or movements of the operation unit 106.
  • the sensor detection signal for example, as described above, the rotation angle (indirect angle) detected by the potentiometer as the displacement of the legs 3A, 3B, 3C, 3D can be mentioned.
  • the prediction unit 104 predicts (or imagines) the operation based on the learning result obtained from the sensor detection signal by the learning unit 103.
  • the prediction unit 104 associates an action or an external force applied to the robot apparatus with a motion to be predicted, and expresses the motion when such an action or external force is applied. (Ie, output the corresponding information to the operation control unit 102).
  • the following operations can be learned by the learning unit 103 and the prediction unit 104 described above.
  • the user performs, for example, an operation of pushing down the buttocks of the robot apparatus 1 downward.
  • the operation is taught by repeating the same operation several times.
  • the rotation angles of the leg units 3A, 3B, 3C, and 3D are set as learning targets, and are learned by the learning unit 103.
  • the robot device 1 predicts the motion by the prediction unit 104 based on the learning result of the learning unit 103. Specifically, when the user again pushes down the buttocks downward after learning, the robot apparatus 1 predicts that the operation has been learned earlier and expresses the corresponding operation. I do. Specifically, the robot device 1 predicts from the momentary downward load on the buttocks that the operation will be a previously taught operation based on a learning result obtained in advance, and The movement is expressed as autonomous movement.
  • the processing in the robot apparatus 1 when performing such an operation is performed by learning Based on the learning result of the unit 103, the magnitude and direction of the applied force are detected, and from the magnitude and direction, the motion of each joint and the required torque are calculated in the prediction unit 104.
  • This is a process of outputting information for driving evening.
  • the prediction unit 104 predicts (recalls) the motion from the magnitude and direction of the force based on the learning result, and outputs torque as control information for realizing such motion. The information is fed back to the operation control unit 102.
  • the user after learning the robot device 1, the user only has to momentarily press the buttocks of the mouth bot device 1 as shown in FIG. 3 so that the robot device 1 autonomously exhibits the corresponding learning operation. become.
  • the robot device expresses a hand motion as an autonomous action only by the user holding the hand of the robot device 1.
  • the learning unit 103 is configured by a neural network.
  • Nyurarunedzu network learning portion 1 3 is employed, for example, are layered as shown in FIG. 4, the input layer 1 0 3 have hidden layer (or intermediate layer) 1 0 3 2 and the output layer 1 0 3 3 .
  • the Nyurarunedzu network specifically, recurrent Nyurarunedzu preparative Wa chromatography click with loops Fi makes one Dobadzuku toward the input layer 1 0 3 from the output layer 1 0 3 3 (hereinafter, referred to. RNN).
  • Input layer 1 0 s 3 hidden layers 1 0 3 2 and the output layer 1 0 3 3 constituting the RNN has its its predetermined number of neurons, each neuron in each layer is bonded. This neuron is randomly connected between each layer.
  • a part of the neurons of the output layer 1 0 3 3 as context (context) which is a feedback neurons are coupled to the input layer 1 0 3 ⁇ .
  • context context
  • the connection of the neurons between the layers is conceived as a weighting factor.
  • the learning operation is performed as follows.
  • learning means to tune and store the weighting factor that connects the neurons between each layer. It is.
  • RNN learning is performed by information inputted as the learning target is inputted from the input layer 1 0 3 i toward the output layer 1 0 3 3.
  • information to be learned is input as a vector value.
  • each layer such an input vector is multiplied by a weight coefficient in each neuron, and is output to other neurons in a later layer.
  • RNN learning is roughly performed in the order of rehearse sequence and actual learning.
  • the rehearse sequence roughly includes a two-step process
  • the actual learning includes a roughly two-step process.
  • step S1 an input unit and a context unit of the RNN are initialized. For example, random initialization.
  • step S2 the output is set to a closed loop mode in which a self-feedback is applied to the input, and an N-step sequence is generated from the initial value after the initialization.
  • the process of the first and second steps described above is repeated a predetermined number of times (for example, L times in this case) to obtain a rehearse sequence of L columns.
  • the rehearse sequence of L columns is obtained in this way, and the actual learning is performed.
  • the first step of learning the rehearse sequence of L columns obtained by the above-described rehearse sequence and the latest empirical sequence of one column are added to obtain a (L + 1) -line learning sequence.
  • step S3 the learning sequence obtained in the first step is performed M times by, for example, a so-called backpropagation method, which is an erroneous backpropagation method, and a weighting factor (for example, it is also called weight matrix.)
  • backpropagation method which is an erroneous backpropagation method
  • weighting factor For example, it is also called weight matrix.
  • the miscalculation backpropagation, the outline, and the output layer 1 0 3 3 output from the value (e.g., predicted value of the sensor), actual values obtained in the next time (e.g., the sensor- the error of the predicted value) is a technique which Ru is Fidobadzuku to the input layer 1 0 3 i from the output layer 1 0 3 3.
  • a weighting factor to be a connection between the layers is obtained. For example, the end of learning is determined when an error between a pattern output from the input layer 103 and a required pattern is equal to or greater than a certain value, or is determined by repeating learning a predetermined number of times.
  • the learning unit 103 is configured by the RNN as described above.
  • the prediction unit 104 is configured as a part that performs prediction based on the learning result of the learning unit 103, and is configured as a part that performs processing by so-called inverse dynamics.
  • the learning unit 103 can be said to be configured as a unit that performs processing on such a prediction unit 104 by using so-called feed dynamics.
  • the prediction unit 104 is configured to perform prediction based on a learning result of the RNN based on a so-called inverse RNN (or RNN) positioned as an inverse transform of the above-described RNN. to illustrate in response to RNN shown in FIG. 4, it is as shown in FIG. 6, and an input layer 1 03 have hidden layer 1 03 2 and the output layer 103 3.
  • the prediction unit 104 is configured by such inverse RNN.
  • the input values are the sensor output that indicates the state of the sensor and the motor output that indicates the state of the motor, and the corresponding output value is the predicted value (hereinafter, the sensor-predicted value). Value).
  • the RNN as shown in FIG. 4, to the input layer 1 03 i, the sensor output S t and motor Isseki output m t is input, an output layer 103 3, against the state of the sensor corresponding to the input.
  • the output S t +1 and the output m t +1 corresponding to the current state are output.
  • a part of the output is fed back to the input layer 103 ⁇ ⁇ ⁇ as a context C t .
  • the RNN for example, performed by a server Uz click propagation method based on the output sensor predicted value S t + 1 actually error value S t + 1 of the sensor-measured in the following time.
  • a weighting coefficient in each layer is determined as a learning result by inputting information to the input layer 103 as described above. That is, for example, by such an RNN, the robot apparatus 1 can move each leg unit 3 A, 3 A when the buttocks are pushed downward. B, 3 C, 3 based on the sensor output S t which is the detection value of the potentiometer Isseki from D to, the determination of the weighting factor as a learning result.
  • the inverse RNN can obtain a predicted value based on the learning result as an inverse transform of such an RNN.
  • the inverse RNN is given a sensor predicted output S n and a context C n at time n.
  • the inverse RNN outputs the sensor input at time n ⁇ 1, the state input of the module, and the context Cn ⁇ i.
  • a process using the error between the input to the forward dynamics and the output result is performed by the back propagation method in the same manner as the above-described RNN.
  • the inverse RNN outputs the sensor input and the context sequentially to the input, thereby outputting the predicted order of the state of the mobile terminal as a predicted value.
  • the time series of the action for obtaining the sensor output S n at time n ⁇ 15 ⁇ 2 , ⁇ A n — i or the time series m 2 ,- ⁇ ⁇ , m n — i can be obtained.
  • the prediction unit 104 constituted by such an inverse RNN outputs such a time series of m / m, m 2 ,..., Irin-i to the operation control unit 102.
  • the operation control unit 102 obtains time-series torque information from the motor and time series and outputs the torque information to the drive unit 105.
  • the drive unit 105 controls the operation unit 105 based on the time-series torque information.
  • the robot apparatus 1 can again perform the operation taught in advance based on the learning result obtained in advance from the momentary downward load on the buttocks after learning. Predict what will happen, and express the movement as autonomous movement.
  • the learning unit 103 is configured by the RNN as described above, and the prediction unit 104 is configured by the inverse RNN.
  • the robot apparatus 1 learns the operation taught from the sensor-one information by the learning unit 13 configured by the RNN and the prediction unit 14 configured by the inverse RNN, and after the learning, By predicting the torque to be output in the next time from the input sensor information, it is possible to transition to the desired posture (the imagined posture).
  • the robot device 1 is a so-called pet mouth boat shaped like a “dog”, and has leg units 3 A, 3 B, 3 A, 3 B, respectively at the front and rear left sides of the body unit 2.
  • 3 C and 3 D are connected, and a head unit 4 and a tail unit 5 are connected to a front end and a rear end of the body unit 2, respectively.
  • the body unit 2 has a CPU (Central Processing Unit) 10, a DRAM (Dynamic Random Access Memory) 11, a flash ROM (Read Only Memory) 12, and a PC (Personal Computer).
  • a control unit 16 formed by connecting the single-in-one interface circuit 13 and the signal processing circuit 14 to each other via an internal bus 15 and a power source for the robot device 1 Battery 17 is stored.
  • the torso unit 2 also houses an angular velocity sensor 18 and an acceleration sensor 19 for detecting the direction and the acceleration of the movement of the robot device 1.
  • the head unit 4 has a CCD (Charge Coupled Device) camera 20 for imaging the external situation and the pressure received by the user from physical actions such as ⁇ stroke '' and ⁇ slap ''.
  • Sensor 21 for detecting the distance a distance sensor 22 for measuring the distance to an object located ahead, a microphone 23 for collecting external sounds, and output of sounds such as squeals Speaker 24 and an LED (Light Emitting Diode (not shown)) corresponding to the “eye” of the robot device 1 are arranged at predetermined positions.
  • CCD Charge Coupled Device
  • the joints of the leg units 3A to 3D, the connecting portions of the leg units 3A to 3D and the trunk unit 2, the connecting portions of the head unit 4 and the trunk unit 2, and Akuchiyue Isseki 2 5 ⁇ 2 5 n and potentiometers Isseki 2 6 1 ⁇ 2 6 n of degrees of freedom each correspond etc.
  • the consolidated portion of the tail 5 a tail portion Yunitsuto 5 is arranged.
  • Akuchiyue Isseki 2 5 ⁇ 2 5 n are useful as constituting the evening servomotor.
  • the leg units 3A to 3D are controlled by the drive of the servo mode, and the state shifts to the target posture or motion.
  • the potentiometer overnight 26 6 ⁇ 26 n is This constitutes the sensor 101 shown in FIG. 2 described above.
  • the signal processing circuit 14 sequentially captures the sensor data, image data, and audio data supplied from each of the above-described sensors, and receives these sequentially at predetermined positions in the DRAM 11 via the internal bus 15. Are stored sequentially. In addition, the signal processing circuit 14 sequentially takes in the remaining battery level data indicating the remaining battery level supplied from the battery 17 and stores it in a predetermined position in the DRAM 11.
  • the sensor data, image data, audio data, and remaining battery data stored in the DRAM 11 in this manner are used when the CPU 10 subsequently controls the operation of the robot device 1. Is done.
  • the CPU 10 is stored in the memory card 28 or the flash ROM 12 loaded in the PC power slot (not shown) of the body unit 2 when the power of the robot apparatus 1 is turned on.
  • the read control program is read out via the PC card interface circuit 13 or directly, and stored in the DRAM 11.
  • the CPU 10 has a function as the operation control unit 10 shown in FIG. 2 described above. Further, the CPU 10 then determines itself and its surroundings based on the sensor data, image data, audio data, and remaining battery power stored in the DRAM 11 sequentially from the signal processing circuit 14 as described above. Judgment of the situation, the user's instructions and the presence or absence of any action.
  • CPU 10 is configured to determine a subsequent action based on the determination result and a control program that is stored in the DRAM 1 1, drives the ⁇ click Chiyue Isseki 25 i ⁇ 25 n required based on the determination result As a result, the head unit 4 can be swung up, down, left and right, the tail unit 5A of the tail unit 5 can be moved, and each leg unit 3A ⁇
  • the CPU 10 generates an audio signal as needed, and supplies this to the speaker 24 as an audio signal via the signal processing circuit 14 so that the audio based on the audio signal is generated. Output to the outside or turn on / off or blink the above LED.
  • the robot device 1 is capable of acting autonomously in accordance with the situation of itself and the surroundings, and instructions and actions from the user.
  • the device driver layer 30 is located at the lowest layer of the control program, and is composed of a device / dryno set 31 including a plurality of device drivers.
  • each device driver is an object that is allowed to directly access hardware used in a normal combination such as a CCD camera 20 (FIG. 7) and a timer, and the driver from the corresponding hardware is used. Performs processing in response to an interrupt.
  • the robotic server 'object 32 is located at the lowest layer of the device dryino,' layer 30, and includes, for example, hardware such as the above-mentioned various sensor works 25 to 25 n.
  • Virtual robots 33 which are software groups that provide an interface for accessing the software
  • power managers 34 which are software groups that manage power switching, etc.
  • various other devices and drivers A device / driver / manager 35 composed of a group of software that manages the software, and a design robot 36 composed of a group of software that manages the mechanism of the port device 1.
  • the manager object 37 is composed of an object manager 38 and a service 'manager 39'.
  • the object 'manager' 38 is software that manages the activation and termination of each software group included in the mouth layer object 32, the middle 'ware' layer 40, and the application layer 41.
  • the service manager 39 is a software group that manages the connection of each object based on the connection information between the objects described in the connection file stored in the memory card 28 (FIG. 7). is there.
  • the middleware 'layer 40 is located on the upper layer of the robotic .sano' object 32 and is composed of software that provides basic functions of the robot device 1 such as image processing and voice processing. I have.
  • the application layer 41 is located in the upper layer of the middleware layer 40, and is based on a processing result processed by each software group constituting the middleware layer 40.
  • the mouth pot device 1 is composed of a group of software for determining the action of the device. The specific software configurations of the middle layer 40 and the application layer 41 are shown in FIG.
  • the middle layer 40 is for noise detection, temperature detection, brightness detection, scale recognition, distance detection, posture detection, one evening sensor, and motion detection, as shown in Fig. 9.
  • a recognition system 60 having a signal processing module 50 to 58 for color recognition and an input semantics comparator module 59, an output semantics converter overnight module 68, and attitude management, tracking, It comprises an output system 69 having signal processing modules 61 to 67 for motion reproduction, walking, fall recovery, LED lighting, and sound reproduction.
  • Each of the signal processing modules 50 to 58 of the recognition system 60 receives the sensor data and the like read from the DRAM 11 (FIG. 7) by the virtual robot 33 of the robotic 'server' object 32.
  • the corresponding data of the image data and the audio data is fetched, a predetermined process is performed based on the fetched data, and the processing result is given to the input semantics converter module 59.
  • the virtual robot 33 is configured as a part that exchanges or converts signals according to a predetermined communication protocol.
  • the input semantics converter module 59 based on the processing result given from each of these signal processing modules 50 to 58, detects “noisy”, “hot”, “bright”, “detected ball”, “ Self and surrounding conditions such as ⁇ fall detected '', ⁇ stroked '', ⁇ beated '', ⁇ domes are heard '', ⁇ moving object detected '' or ⁇ obstacle detected '' And recognizes commands and actions from the user, and outputs the recognition result to the application layer 41 (Fig. 7).
  • Application layer 41 is a behavior model library. It consists of five modules: 70, action switching module 71, learning module 72, emotion model 73, and instinct model 74.
  • the behavior model library 70 includes “when the battery level is low”, “returns to fall”, “when avoiding obstacles”, “when expressing emotions”, Independent action models 70! To 70n are provided corresponding to several preselected condition items such as "when a ball is detected”. These behavior models 70 ⁇ to 70 n are necessary when the recognition result is given from the input semantics converter module 59 or when a certain period of time has passed since the last recognition result was given. In response to this, the following actions are performed with reference to the parameter value of the corresponding emotion stored in the emotion model 73 and the parameter value of the corresponding desire stored in the instinct model 74, as described below. The decision is made, and the decision result is output to the action switching module 71.
  • each of the behavior models 70 i to 70 n has a single node (state) NODE as shown in FIG. 12 as a method for determining the next behavior. It is then set for the arc AR C i ⁇ AR C nl connecting between the ⁇ each node or transition from NOD E n to any other node NOD E 0 ⁇ NOD E n N_ ⁇ _DE 0 ⁇ NODE n
  • finite probability automaton determines stochastically based on the transition probabilities P to k.
  • each behavior model 70 i ⁇ 70 n it it to the node 00 £ () ⁇ 00 £ 11 for forming a self-behavior model 70 i to 70 11 to correspond, these nodes NODE.
  • NONODE n has a state transition table 80 as shown in FIG.
  • the node NODE ⁇ represented by the state transition table 80 in FIG. .
  • the recognition result of “Poll detection (BALL)” is given, the “size (SI ZE)” of the pole given together with the recognition result is in the range of “0 to 1000”.
  • the recognition result of “OB S TACLE” is given, the “distance (DIS TAN CE)” to the obstacle given together with the recognition result is “0 to 100”. Is a condition for transitioning to another node.
  • the node NODE is set in the column of “Transition destination node” in the column of “Transition probability to another node”.
  • Node names to which transition can be made from NODE n are listed, and transition can be made when all the conditions described in the "Input event name”, "Default value” and “Data range” rows are met
  • the transition probability to each of the other nodes NODE Q to NODE n is described in the corresponding place in the column “Transition probability to other nodes”, and the node NODE.
  • the action to be output when transitioning to NODE n is described in the “Output action” row in the “Transition probability to other node” column. Note that the sum of the probabilities of each row in the column of “transition probability to another node” is 100 [%].
  • node NOD E represented by the state transition table 80 in FIG. 13, for example, “ball detected (BALL)” and the “SIZE” of the ball is “0 to 1000” If the recognition result is given as a range, it is possible to transit to “node NODE 12 (node 120)” with a probability of “30 [%]”, at which time the action of “ACT I ⁇ N 1” is output. Will be done.
  • Each of the behavior models 70 i to 70 n is a node NODE described as such a state transition table 80.
  • ⁇ NODE n Ri Contact It is constructed as several leads, in such as when the recognition result from the input semantics converter Isseki module 59 is given, using a state transition table of the corresponding node NOD E Q ⁇ NODE n Then, the next action is determined stochastically, and the determination result is output to the action switching module 71. Have been.
  • the behavior switching module 71 shown in FIG. 10 is composed of behavior models 70 0 to 70 n of the behavior model library 70, and among the behaviors output from the behavior models 70 n to 70 n respectively, a behavior model 70 0 having a predetermined high priority.
  • ⁇ 70 n Select an action output from n and execute a command to execute the action (hereinafter referred to as an action command) as a middle 'wear' Layer 40 output semantics converter module 6 Send to 8.
  • the priority order is set higher for the behavior models 71 1 to 70 n shown on the lower side in FIG. 11.
  • the action switching module 71 determines that the action has been completed by the learning module 72, the emotion model 73, and the instinct. Notify model 74.
  • the learning module 72 recognizes the recognition result of the instruction received from the user, such as “hit” or “stroke”, from the recognition result given by the input semantics conversion module 59. input.
  • the learning module 72 lowers the probability of occurrence of the action when “beaten (scolded)” and “strokes (praise)”.
  • the corresponding transition probabilities of the corresponding behavior models 70 i to 70 n in the behavior model library 70 are changed so as to increase the occurrence probability of that behavior.
  • emotion models 73 are “joy”, “sadness”, “anger”, “surprise”, “disgust” and “fear”. For a total of six emotions, each emotion has a parameter that indicates the intensity of that emotion. Then, the emotion model 73 converts the parameter values of each of these emotions into specific recognition results, such as ⁇ hitted '' and ⁇ stroked '', which are given from the input semantic converter module 59. , And is periodically updated based on the elapsed time, the notification from the action switching module 71, and the like.
  • the emotion model 73 is determined based on the recognition result given from the input semantics converter module 59, the behavior of the robot device 1 at that time, the elapsed time since the last update, and the like. At that time calculated by the arithmetic expression ⁇ the variation of emotion delta [t], E [seven] Current parameter Isseki value of the emotion, the coefficient representing the sensitivity of the information moving as k e, the in the next period by equation (1) The parameter value E [t + 1] of the emotion is calculated, and the parameter value E is updated by replacing the parameter value E [t] with the current parameter value E [t] of the emotion.
  • the emotion model 73 updates parameter values of all emotions in the same manner.
  • each recognition result and the notification from the output semantics converter module 68 change the variation of the parameter value of each emotion ⁇ ⁇ [t].
  • the degree of influence is determined in advance. For example, a recognition result such as “hit” has a great effect on the parameter value variation ⁇ ⁇ [t] of the emotion of “anger”, and Recognition results such as “ta” have a large effect on the variation ⁇ ⁇ [7] of the parameter value of the emotion of “joy”.
  • the notification from the output semantics converter module 68 is so-called feedback information (action completion information) of the action, information of the expression result of the action, and the emotion model 73 is based on such information. Change emotions. This is the case, for example, when an action like “barking” lowers the emotional level of anger.
  • the notification from the output semantics converter module 68 is also input to the learning module 72 described above, and the learning module 72 responds to the behavior models 70 i to 70 n based on the notification. Change the transition probabilities.
  • the feedback of the action result may be provided by the output of the action switching module 71 (action with added emotion).
  • the instinct model 74 is based on four independent needs of “exercise”, “affection”, “appetite” and “curiosity”.
  • the instinct model 74 stores the parameter values representing the strength of the desire, and the recognition parameters given from the input semantics compa Results, elapsed time and action switching Update periodically based on notification from module 71.
  • the instinct model 74 calculates a predetermined calculation for “exercise greed”, “love lust” and “curiosity” based on the recognition result, the elapsed time, and the notification from the output semantics comparator module 68, and the like.
  • the amount of change in the desire at that time calculated by the equation is ⁇ ⁇ [k]
  • the current parameter value of the desire is I [k]
  • the coefficient ki representing the sensitivity of the desire is given as ( 2)
  • the instinct model 74 updates the parameter values of each desire except “appetite” in the same manner.
  • the recognition result and the notification from the output semantics converter module 68 indicate how much the variation ⁇ I [k]
  • the degree of influence is predetermined, and for example, the notification from the output semantics converter module 68 has a large effect on the variation ⁇ [k] of the parameter value of “fatigue”. I have.
  • the parameter values of each emotion and each desire are regulated so as to fluctuate in the range of 0 to 100, and the values of the coefficients k e and ki are also restricted. It is set individually for each emotion and each desire.
  • the output semantics converter module 68 of the middleware layer 40 includes the “forward” and “pleasant” provided by the action switching module 71 of the application layer 41 as described above.
  • An abstract action command such as "", “ringing” or “tracking (chasing a pole)" is given to the corresponding signal processing modules 61-67 of the output system 69.
  • the signal processing modules 61 to 67 When an action command is given, the signal processing modules 61 to 67 perform a corresponding action to perform the action based on the action command. Generate the servo command value to be given to 5 ⁇ to 25 n (Fig. 7), the audio data of the sound output from the speaker 24 (Fig. 7) and / or the drive data to be given to the LED of the "eye".
  • the these de Isseki Ropotidzuku. bar one server object 3 2 Virtual-Robodzu preparative 3 3 3 and the signal processing circuit 1 4 sequentially through the (FIG. 7) corresponding Akuchiyue Isseki 2 5! ⁇ 2 5 n Or, send them out to speaker 24 or LED sequentially.
  • the robot apparatus 1 can perform autonomous actions according to its own (internal) and surrounding (external) conditions, and instructions and actions from the user, based on the control program. Has been made.
  • the robot device 1 includes a signal processing module 61 1 for the virtual robot 33 described above, a tracking module module for posture management, a motion reproduction, a fall return and a walking.
  • a tracking module module for posture management In addition to 664, an action plan module 111, an RNN module 112, and a feature extraction module 113 are provided.
  • each of these components is configured as a control program. More specifically, the middle and wear layers 40 shown in FIG. 8 described above are configured, and as described above, for the tracking module module for posture management, for motion reproduction, for fall-back and for walking.
  • Each of the signal processing modules 6 1 to 6 4 is configured in the output system 69, and the feature amount extraction module 13 is configured in the recognition system 60.
  • the feature extraction module 113 processes the various types of sensor information, extracts the feature from the sensor information, and obtains the sensor feature. Then, the feature quantity extraction module 113 outputs the sensor one feature quantity to the RNN module 112.
  • the RNN module 112 has the functions of the learning unit 103 and the prediction unit 104 shown in FIG. 2 described above, and performs information learning and information prediction using the learning result. Has a function.
  • the RNN module 1 1 2 Is configured.
  • the RNN module 112 is configured by a control program as the learning module 72 shown in FIG.
  • RNN module 112 sensor information is given as an input, and at the same time, a command At output from the action planning module 111 is also given as an input.
  • RNN module 1 12 using the sensor features and commands that are input, performs the learning by the inverse model 1 12 2 as the forward model 1 1 2 iota and Inbasu RN N as RNN.
  • RNN module 1 1 2 the Fowa one Domoderu 1 1 2 ⁇ , sensor information (the sensor prediction value) of the next time from coming inputted sensor-information S t like S t + 1, and context C get t + 1 .
  • the sensor information S t +1 and the context C t +1 at the next time obtained in the RNN module 112 are stored in the action plan module 111.
  • the action plan module 111 stores the information in association with the internal state as necessary.
  • the internal state is an emotion or the like.
  • the action plan module 111 is a part for determining a plan of action of the robot device 1.
  • the action planning module 111 is configured as, for example, an action model library 70 shown in FIG.
  • the action plan module 111 includes the action models 70 i to 70 11 of the action model library 7 ⁇ described above.
  • the action of the robot device 1 is determined based on one desired action model.
  • Action Plan module 1 1 1, as shown in FIG. 14, action information A t corresponding to the action plan, and outputs the posture management module 61. Then, by the posture management module 61 subsequent processing, so that the control operation is made based on such behavior information A t.
  • the action plan module 111 in a state where the learning of the RNN module 112 has advanced (that is, after learning to some extent), stores the sensor information and context stored inside the action plan module 111.
  • the sensor information S and context C to be recalled are taken out and given to the RNN module 1 12 as input of a forward model 1 1 2 2 which is an inverse RNN.
  • the inverse RNN (recall) to realize time-series Alpha 1 5 Alpha 2 action, ⁇ ⁇ ⁇ , sequentially calculates the A n, with respect to posture management module 6 1 Send.
  • the action of the robot device 1 is executed so that the input expected by the action plan module 111 is obtained.
  • the user can directly apply a force to the robot apparatus 1 to form an intuitive interface between the user and the robot apparatus 1.
  • the robot device 1 By performing the same operation repeatedly, it is possible to predict the operation to be performed by the robot device 1 later, and to operate autonomously without performing the operation to the end.
  • the robot apparatus 1 autonomously expresses a corresponding operation by detecting a similar external force again after learning.
  • the present invention is not limited to this, and the robot device 1 can autonomously express the operation after learning from the beginning without using external force as a trigger.
  • the robot device 1 can express the motion after learning associated with a predetermined emotion.
  • the robot apparatus 1 wants to take a certain posture using the learned forward model, it solves the inverse dynamics to calculate the torque to be output, and reaches the target posture using the torque.
  • the learning unit is described as RNN
  • the prediction unit is described as inverse RNN.
  • the learning section is not limited to such neural nets.
  • the present invention can be applied to a program to be executed by the mouth pot device 1 as described above and a recording medium on which such a program is recorded.
  • Industrial applicability According to the operation control method of the robot device according to the present invention, the robot device learns the operation of the operation unit by the user, and after the learning, can recall the operation learned based on the external force to the operation unit and can operate autonomously. become.
  • the robot device can learn the operation of the operation unit by the user, and after the learning, can autonomously operate by recalling the operation learned based on the external force to the operation unit.
  • this program can be recorded on a recording medium and provided.
  • the robot device learns the operation of the operation unit by the user by reading the program recorded on the recording medium, and after learning, recalls the learned operation based on an external force applied to the operation unit. It will be able to operate autonomously.
  • the operating unit is operated, and learning means for learning a time-series signal obtained in the operating unit in accordance with the operation;
  • An operation control unit that controls the operation unit based on the obtained signal and a time-series signal learned by the learning unit learns the operation of the operation unit by the user. It can autonomously recall and learn the learned actions based on external force.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Robotics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Toys (AREA)

Description

明細書 ロボット装置の動作制御方法、 プログラム、 記録媒体及びロボット装置 技術分野 本発明は、 口ポット装置、 ロボット装置の動作制御方法、 ロボッ ト装置の動作 を制御すためのプログラム、 及びこのプログラムが記録された記録媒体に関し、 詳しくは、 ロボット装置が動作を学習するのに好適なものに関する。
背景技術 近年、 外観形状が犬や猫等の動物に模して形成されたロボット装置が提供され ている。 そのようなロボッ ト装置には、 外部からの情報や内部の状態に応じて自 律的に動作するものがある。 このようなロボッ ト装置を思い通りの動作を学習せ るためには、 コントローラ等を使用していた。 例えば、 コントローラとしてはい わゆるジョイスティックがあげられる。
ところで、 上述したようにロボッ ト装置に動作をコントローラ等によって学習 させるには、 ある程度の習熟が必要である。 さらに、 4足歩行のロボッ ト装置等 の場合には、 動作部のリンク構造が複雑になり制御がさらに難しくなる。
また、 ぺッ トのようにユーザに飼われているような状況にあるロボッ ト装置の 場合、 ユーザが実際のペットに対して行うように、 より現実に近い形で動作の教 示をできれば娯楽性はさらに向上する。 発明の鬨示 本発明の目的は、 上述の実情に鑑みてなされたものであり従来のロボット装置 の問題点を解決し、 より容易に且つより現実に近い形で動作の学習を実現できる ロボット装置、 またこのロボヅ ト装置の動作制御方法、 そのためのプログラム、 このプログラムが記録された記録媒体を提供することにある。
本発明に係るロボット装置の動作制御方法は、 動作部を有するロボッ ト装置の 動作を制御するロボット装置の動作制御方法である。 この口ポ ト装置の動作制 御方法は、 動作部の操作に応じて、 この動作部において得られる時系列の信号を 学習する学習工程と、 動作部にかかる外力によって動作部で得られる信号と学習 工程にて学習した時系列の信号とに基づいて動作部を制御する動作制御工程とを 有する。
このようなロボット装置の動作制御方法により、 ロボット装置は、 ユーザによ る動作部への操作を学習して、 学習後には、 動作部にかかる外力に基づいて学習 した動作を想起し自律的に動作する。
また、 本発明に係るプログラムは、 動作部を有するロボット装置の動作を制御 するためのプログラムである。 このプログラムは、 動作部の操作に応じて動作部 において得られる時系列の信号を学習する学習工程と、 動作部にかかる外力によ つて動作部で得られる信号と学習工程にて学習した時系列の信号とに基づいて動 作部を制御する動作制御工程とを口ポ ト装置に実行させる。
このようなプログラムにより、 ロボヅ ト装置は、 動作部の操作に応じて動作部 において得られる時系列の信号の学習をし、 学習後に動作部にかかる外力によつ て動作部で得られる信号と学習した時系列の信号とに基づいて動作部を制御でき るようになる。 また、 これによりロボッ ト装置は、 動作部への外力に基づいて学 習した動作を想起し自律的に動作する。
また、 本発明に係る記録媒体は、 動作部を有する口ポット装置の動作を制御す るためのプログラムが記録された記録媒体である。 この記録媒体は、 ロボット装 置の動作部の操作に応じて、 この動作部で得られる時系列の信号の学習をする学 習工程と動作部にかかる外力によって動作部で得られる信号と学習工程にて学習 した時系列の信号とに基づいて動作部を制御する動作制御工程とをロボット装置 に実行させるプログラムが記録されている。
このような記録媒体に記録されたプログラムにより、 ロボット装置は、 ユーザ による動作部の操作を学習して、 学習後には、 動作部にかかる外力に基づいて学 習した動作を想起し自律的に動作できるようになる。
また、 本発明に係るロボット装置は、 動作部を有するロボット装置である。 こ のロボット装置は、 動作部の操作に応じて、 この動作部において得られる時系列 の信号を学習する学習手段と、 動作部にかかる外力によって動作部で得られる信 号と学習手段が学習した時系列の信号とに基づいて動作部を制御する動作制御手 段とを備える。
このような構成を備えたロボット装置は、 ユーザによる動作部の操作を学習し て、 学習後には、 動作部にかかる外力に基づいて学習した動作を想起し自律的に 動作できる。
本発明のさらにほかの目的、 本発明によって得られる具体的な利点は、 以下に 説明される実施例の説明から一層明らかにされるであろう。 図面の簡単な説明 図 1は、 本発明の実施の形態として示すロボット装置の外観構成を示す斜視図 であり、 図 2は、 このロボット装置における動作の学習等をする要部を示すプロ ヅク図である。
図 3は、 学習によって実現されるロボット装置の動作を説明する図である。 図 4は、 図 1に示すロボット装置の学習部を構成する R N Nを示す図である。 また、 図 5は、 学習の際のロボット装置における処理を示すフローチャートで ある。
図 6は、 図 1に示すロボヅト装置の予測部を構成するィンバース R N Nを示す 図である。
図 7は、 図 1に示すロボット装置の回路構成を示すプロック図である。
図 8は、図 1に示すロボヅト装置のソフトウヱァ構成を示すプロック図であり、 図 9は、 図 8に示すロボヅト装置のソフトウエア構成におけるミ ドル · ウェア · レイヤの構成を示すプロック図である。
図 1 0は、 図 1に示すロボヅ ト装置のソフトウエア構成におけるアプリケーシ ヨン · レイヤの構成を示すプロヅク図であり、 図 1 1は、 図 1 0のアプリケーシ ョン · レイヤの行動モデルライブラリの構成を示すプロック図である。
図 1 2は、 ロボット装置の行動決定のための情報となる有限確率オートマトン を説明する図であり、 図 1 3は、 有限確率オートマトンの各ノードに用意された 状態遷移表を示す図である。
図 1 4は、 図 1に示すロボット装置の学習部等のより具体的な構成を示すプロ ヅクである。 図 1 5は、 R N Nモジュールの構成を示すブロック図である。 発明を実施するための最良の形態 以下、 本発明の実施の形態について図面を用いて詳細に説明する。 この実施の 形態は、 周囲の環境 (外的要因) や内部の状態 (内的要因) に応じて自律的に行 動を.する自律型のロボヅト装置である。
図 1には、ロボヅ ト装置 1の具体例を示している。このロボヅト装置 1は、 「犬」 等の動物を模した形状の、 いわゆるペッ ト型ロボットとされ、 胴体部ユニット 2 の前後左右にそれそれ脚部ュニヅト 3 A , 3 B , 3 C, 3 Dが連結されると共に、 胴体部ュニッ ト 2の前端部及び後端部にそれそれ頭部ュニッ ト 4及び尻尾部ュニ ヅト 5が連結されて構成されている。 このように構成されるロボヅ ト装置 1は、 制御プログラムに基づいて、 自己 (内部) 及び周囲 (外部) の状況や、 使用者か らの指示及び働きかけに応じて、 脚部ユニッ ト 3 A, 3 B, 3 C , 3 D等の動作 部を動作させて、 自律的に行動するようになされている。
そして、 このロボット装置 1は、 ユーザに教示された動作を、 学習することが できるようになされている。 ロボット装置 1がする学習とは、 後で詳述するよう に、 例えば、 尻部を一瞬押すだけで、 予め教示された動作を表出するようなもの である。 図 2には、 そのような学習をするためのロボッ ト装置 1の構成を示して いる。 ロボヅ ト装置 1は、 図 2に示すように、 センサー 1 0 1、 運動制御部 1 0 2、 学習部 1 0 3、 予測部 1 0 4及び駆動部 1 0 5を有している。
このような構成において、 学習部 1 0 3は、 脚部ユニット 3 A, 3 B , 3 C, 3 Dや頭部ュニット 4等の動作を発現させるための動作部 1 0 6が操作され、 そ の操作に応じて当該動作部 1 0 6において得られる時系列の信号の学習をする学 習手段として機能し、 動作制御部 1 0 2及び駆動部 1 0 5は、 学習後に動作部 1 0 6への外力により動作部 1 0 6において得られる信号と、 学習部 1 0 3が学習 した時系列の信号とに基づいて
、 動作部 1 0 6を制御する動作制御手段として機能し、 予測部 1 0 4は、 学習後 に動作部 1 0 6への外力により当該動作部 1 0 6において得られる初期の信号か ら予測する予測手段として機能する。
以下、 上述の口ポット装置 1の各構成部について詳細に説明する。 センサー 1 1は、 動作部 1 0 6の変位を検出する。 例えば、 センサー 1 1は、 ポテンショメ 一夕やエンコーダ等である。 なお、 センサー 1 1はこれに限定されないことはい うまでもなく、 ロボッ ト装置 1の動作部 1 0 6が駆動された際の変位を検出する ものであれば良い。 また、 このセンサー 1 1は、 ロボヅ ト装置 1が自らの動作と して駆動した際の動作部 1 0 6の変位の検出をする他に、 ユーザ等によって付与 される外力によって操作された際の動作部 1 0 6の変位を検出している。
例えば、 動作部 1 0 6が上述したような脚部ユニット 3 A , 3 B, 3 C , 3 D である場合には、 ポテンショメ一夕とされた場合のセンサー 1 1は、 変位した際 の脚部ュニヅ ト 3 A, 3 B, 3 C , 3 Dの移動位置とされる回転角度を検出する。 このセンサー 1 0 1が検出したセンサー検出信号は、 動作制御部 1 0 2に出力さ れる。
動作制御部 1 0 2は、 動作部 1 0 6を制御する制御手段である。 具体的には、 上述したセンサー 1 0 1からのセンサー検出信号等の各種情報に基づいて動作部 1 0 6を制御している。 この動作制御部 1 0 2は、 動作部 1 0 6の制御を、 駆動 部 1 0 5を介して実行している。 すなわち、 動作制御部 1 0 2は、 センサー検出 信号等の各種情報に応じた制御信号を、 駆動部 1 0 5に出力している。 また、 動 作制御部 1 0 2は、 センサー 1 0 1からのセンサー検出信号を、 学習部 1 0 3に も出力している。 学習部 1 0 3については後で詳述する。
駆動部 1 0 5では、 動作制御部 1 0 2からの制御信号に基づいて、 動作部 1 0 6を制御している。 すなわち例えば、 駆動部 1 0 5は、 制御信号に基づいて、 動 作部 1 0 6とされる脚部ュニヅト 3 A , 3 B , 3 C , 3 D、 頭部ュニヅト 4或い は尻尾部ュニット 5等を駆動させている。 - 学習部 1 0 3は、 動作部 1 0 6が操作され、 その操作に応じて動作部 1 0 6に おいて得られる時系列の信号 (センサー検出信号) を学習するものとして構成さ れている。 学習部 1 0 3は、 学習時の際にセンサー 1 0 1において検出される信 号であって、 例えば、 動作の学習としてユーザ等により外力が付与されて姿勢が 強制的に変化された際にセンサー 1 0 1が検出するセンサー検出信号である。 ここで、 時系列の信号は、 具体的には、 動作部 1 0 6の一連の変位或いは移動 によりセンサ一 1 1が検出したセンサー検出信号である。 センサー検出信号とし ては、 例えば、 上述したように、 脚部 3 A, 3 B , 3 C, 3 Dの変位としてポテ ンショメータが検出する回転角度 (間接角度) があげられる。
一方、 予測部 1 0 4は、 学習部 1 0 3がそのようなセンサー検出信号から得た 学習結果に基づいて、 動作を予測(或いは起想)する。例えば、予測部 1 0 4は、 行動やロボッ ト装置に付与される外力と予測対象とされる動作とを関連付けてお き、 そのような行動や外力が付与された際に、 動作を表出する (すなわち、 動作 制御部 1 0 2にそれに対応する情報を出力する) ような情報を動作制御部 1 0 2 に出力する。
例えば、 上述した学習部 1 0 3と予測部 1 0 4とにより次のような動作の学習 が可能になる。 ユーザは、 ロボヅト装置 1へのある動作の教示として、 例えば、 ロボット装置 1の尻部を下方向に押し下げる操作を行う。 例えば、 同様な操作を 何度か繰り返して動作の教示を行う。 この際、 ロボッ ト装置 1において、 脚部ュ ニット 3 A , 3 B , 3 C , 3 Dの回転角度が学習対象とされて、 学習部 1 0 3に よって学習される。
ロボット装置 1は、 予測部 1 0 4により、 そのような学習部 1 0 3による学習 結果に基づいて動作の予測を行う。 具体的には、 ロボット装置 1は、 学習後に再 びユーザ等によって尻部が下方向に押し下げられる操作が行われると、 先に学習 した動作であることを予測して、 対応する動作を表出する。 具体的には、 ロボッ ト装置 1は、 尻部への下方向への一瞬の負荷から、 予め得ている学習結果に基づ いてそれが予め教示された動作になることを予測して、 その動作を自律動作とし て発現させる。
具体的には、 このような動作をする際のロボット装置 1における処理は、 学習 部 1 0 3による学習結果に基づいて、力が加えられた大きさと方向とを検出して、 その大きさと方向から予測部 1 0 4において各関節の運動及び必要なトルクを計 算しァクチユエ一夕を駆動する情報を出力する処理である。 この場合において、 予測部 1 0 4は、 例えば、 学習結果に基づいて力の大きさ及び方向から動作を予 測して(想起して)、 このような動作を実現させるための制御情報としてトルク情 報を動作制御部 1 0 2にフィードバヅクさせる。
これにより、 ユーザは、 ロボット装置 1の学習後には、 図 3中に示すように口 ボット装置 1の尻部を一瞬押すだけで、 ロボット装置 1は、 対応する学習動作を 自律的に発現するようになる。 この応用としては、 ユーザがロボット装置 1の手 をとるだけで、 ロボット装置が自律行動としてお手の動作を発現するような場合 があげられる。
以下に、 このような動作を可能にする学習部 1 0 3及び予測部 1 0 4の構成に ついて具体的に説明する。
学習部 1 0 3は、 ニューラルネヅ トワークにより構成されている。 学習部 1 3 が採用するニューラルネヅ トワークは、 例えば、 図 4に示すように、 入力層 1 0 3い 隠れ層 (或いは中間層) 1 0 3 2及び出力層 1 0 3 3に階層化されている。 このニューラルネヅ トワークは、 具体的には、 出力層 1 0 3 3から入力層 1 0 3 に向かってフィ一ドバヅクするループを有するリカレント型ニューラルネヅ トヮ ーク (以下、 R N Nという。) である。
R N Nを構成する入力層 1 0 3い 隠れ層 1 0 3 2及び出力層 1 0 3 3は、 それ それ所定の数のニューロンを有し、 各層間で各ニューロンが結合されている。 そ して、 このニューロンは、 各層間でランダムに結合されている。 そして、 出力層 1 0 3 3の一部のニューロンは、 フィードバックニューロンとされるコンテキス ト (context) として、 入力層 1 0 3 丄に結合されている。 例えば、 出力層 1 0 3 3のニューロン数が 1 4のニューロンである場合、 出力層 1 0 3 3の 2つのニュー ロンがコンテキストとして入力層 1 0 3 丄に結合されている。 そして、 各層間の ニューロンの結合は, 重み係数として観念されるものである。 このような R N N において、 学習動作は、 次のように行われる。 なお、 学習とは、 ここでは、 この 各層間のニューロンを結合している重み係数をチューニングし記億していくこと である。
R N Nでは、 学習対象として入力された情報が入力層 1 0 3 iから出力層 1 0 3 3に向かって入力されることで学習が行われる。 例えば、 学習対象とされる情 報は、 ぺクトル値として入力される。 各層では、 このような入力べクトルに対し て、各ニューロンにて重み係数を乗算して、後の層の他のニューロンに出力する。 具体的には、 R N Nの学習は、 大別して、 リハースシーケンス、 実際の学習の 順番で実行される。 ここでリハースシーケンスは、 大別してさらに 2つのステヅ プのプロセスからなり、 実際の学習は、 大別した 2つのステップのプロセスから なる。
リハースシーケンスの第 1のステップでは、 図に示すように、 ステップ S 1に おいて、 R N Nの入力ユニッ ト、 コンテキストユニッ トを初期化する。 例えば、 ランダムに初期化する。
第 2のステヅプでは、 ステヅプ S 2において、 出力を、 入力に自己フィードパ ヅクをかける閉ループモードにして、 初期化後の初期値から Nステヅプのシ一ケ ンスを生成する。
そして、 上述の第 1及び第 2のステップのプロセスを、 所定回数 (例えば、 こ こでは、 L回とする。) 繰り返すことにより、 L列のリハースシーケンスを得る。 このように実行され、 L列のリハースシーケンスを得て、 実際の学習を実行す る。 学習の第 1のステップでは、 上述のリハースシーケンスにより得た L列のリ ハースシーケンスと最新の 1列の経験シーケンスとを足して、 (L + 1 )列の学習 用シーケンスを得る。
第 2のステップでは、 ステップ S 3において、 第 1のステップにより得た学習 用シーケンスを、 例えば誤算逆伝播法とされる、 いわゆるバヅクプロパゲーショ ン法により、 M回行って、 重み係数 (例えば、 重みマトリヅクスともいう。) を更 新する。
ここで、 誤算逆伝播法とは、 概略としては、 出力層 1 0 3 3から出力された値 (例えば、 センサーの予測値) と、 実際に次時刻で得られた値 (例えば、 センサ 一の予測値) の誤差を、 出力層 1 0 3 3から入力層 1 0 3 iにフィードバヅクさせ る手法である。 このような学習のステップにより、各層間の結合とされる重み係数が得られる。 例えば、 学習の終了については、 入力層 1 03 こより出力されたものと要求さ れるパターンとの誤差がある一定値以上になることで決定したり、 所定回数の学 習を繰り返すことで決定する。
以上のような RNNにより学習部 103が構成されている。 一方、 予測部 10 4は、 このような学習部 103の学習結果に基づいて予測する部分として構成さ れており、 いわゆるィンバースダイナミクスにより処理を行う部分として構成さ れている。 学習部 103は、 このような予測部 1 04に対していわゆるフォヮ一 ドダイナミクスにより処理を行う部分として構成されているといえる。
予測部 1 04は、 上述の RNNの逆変換として位置付けられる、 いわゆるイン バース RNN (或いは RNN— を基礎とし、 RNNの学習結果に基づいて予測 するように構成されている。 例えば、 インバース RNNは、 図 4に示した RNN に対応して図示すると、 図 6に示すようになり、 入力層 1 03い 隠れ層 1 032 及び出力層 1033によって構成されている。
このようなィンバース RNNにより予測部 104が構成されている。 次に上述 した RNNによる処理、 インバース RNNによる処理について、 具体例をあげて 説明する。 ここで、 RNNで考えた場合、 入力される値はセンサ一の状態を示す センサ一出力とモータの状態を示すモー夕出力になり、それに対応した出力値は、 予測値 (以下、 センサ一予測値という。) になる。
RNNには、 図 4に示すように、 入力層 1 03 iに、 センサー出力 S tとモ一夕 出力 mtとが入力され、 出力層 1033は、 この入力に対応するセンサーの状態に 対する出力 St + 1とモ一夕の状態に対する出力 mt + 1とをする。 そして、 RNN では、 その出力の一部が、 コンテキスト (context) C tとして、 入力層 1 03丄 にフィードバックされる。 また、 RNNでは、 例えば、 出力されたセンサー予測 値 St + 1と実際に次時刻で計測されたセンサ一の値 St + 1の誤差に基づいてバヅ クプロパゲーション法により実行される。
RNNでは、 このような入力層 1 03 への情報の入力により、 学習結果とし て、 各層における重み係数が決定される。 すなわち例えば、 このような RNNに より、 ロボット装置 1は、 尻部を下方向に押された際の各脚部ユニット 3 A, 3 B, 3 C, 3 Dからのポテンショメ一夕の検出値とされるセンサー出力 Stに基 づいて、 学習結果としての重み係数の決定を行う。
一方、 インバース RNNでは、 そのような RNNの逆変換として、 学習結果に 基づいて予測値を得ることができる。 具体的には、 インバース RNNは、 図 6に 示すように、 時刻 nのセンサー予測出力 Snとコンテキスト Cnが与えられる。 こ れにより、 インバース RNNは、 時刻 n— 1のセンサー入力とモ一夕の状態入力 とコンテキスト Cn—iとを出力するようになる。そして、ィンバース RNNでは、 上述の R N Nと同様にバックプロパゲーション法により、 フォワードダイナミク スへの入力と、 出力結果との誤差を使用した処理を行う。
インバース RNNは、 以上のような処理結果として、 センサー入力とコンテキ ストとを順次入力にフォードバックすることで、 時間をさかのぼってモー夕の状 態の順を予測値として出力する。 そして、 最終的には、 時刻 nのセンサー出力 S nを得るためのアクションの時系列 Α15 Α2,· · ·, An— i或いはモー夕の時系 列 m2 , - · ·, mn— iを得ることができるようになる。 このようなインバ ース RNNにより構成される予測部 1 04は、 このようなモー夕の時系列 , m2, . . ., irin-iを、 動作制御部 102に出力する。 動作制御部 1 02では、 モー夕の時系列から時系列のトルク情報を得て、 駆動部 1 05に出力する。 駆動 部 1 05は、 時系列のトルク情報に基づいて、 動作部 105を制御する。
このようなィンパース RNNにより、ロボット装置 1は、学習後において再び、 尻部への下方向への一瞬の負荷から、 予め得ている学習結果に基づいてそれが予 め教示された動作になるであろうことを予測して、 動作を自律動作として発現さ せる。
以上のような RNNによって学習部 1 03が構成されており、 また、 インバー ス RNNにより予測部 1 04が構成されている。 ロボヅト装置 1は、 以上のよう に、 RNNによって構成される学習部 1 3やインバース RNNによって構成され る予測部 14により、 センサ一情報から教示された動作を学習して、 学習後にお いては、 入力されたセンサー情報から次の時間での出力すべきトルクを予測する ことで、 希望の姿勢 (起想した姿勢) に遷移することができるようになる。
( 1 ) 本実施の形態によるロポッ ト装置の構成 上述の実施の形態の説明では、 ロボット装置 1に本発明を適用した場合につい て説明した。 以下では、 そのようなロボヅ ト装置 1についての、 より具体的な構 成を説明する。
ロボッ ト装置 1は、図 7に示すように、 「犬」を模した形状のいわゆるぺット口 ボヅトとされ、胴体部ュニット 2の前後左おにそれそれ脚部ュニット 3 A, 3 B , 3 C , 3 Dが連結されると共に、 胴体部ユニット 2の前端部及び後端部にそれぞ れ頭部ュニット 4及び尻尾部ュニット 5が連結されて構成されている。
胴体部ュニヅ ト 2には、 図 7に示すように、 C P U (Central Processing Unit) 1 0 、 D R A M (Dynamic Random Access Memory) 1 1、 フラッシュ R O M (Read Only Memory) 1 2 、 P C (Personal Computer) 力一ドイン夕一フエ ース回路 1 3及び信号処理回路 1 4が内部バス 1 5を介して相互に接続されるこ とにより形成されたコントロール部 1 6と、 このロボット装置 1の動力源として のバヅテリ 1 7とが収納されている。 また、 胴体部ュニヅ ト 2には、 ロボット装 置 1の向きや動きの加速度を検出するための角速度センサー 1 8及び加速度セン サ一 1 9なども収納されている。
また、 頭部ユニッ ト 4には、 外部の状況を撮像するための C C D ( Charge Coupled Device) カメラ 2 0と、 使用者からの 「撫でる」 や 「叩く」 といった物 理的な働きかけにより受けた圧力を検出するための夕ツチセンサー 2 1と、 前方 に位置する物体までの距離を測定するための距離センサー 2 2と、 外部音を集音 するためのマイクロホン 2 3と、 鳴き声等の音声を出力するためのスピーカ 2 4 と、 ロボヅ ト装置 1の 「目」 に相当する L E D (Light Emitting Diode) (図示せ ず) となどがそれそれ所定位置に配置されている。
さらに、 各脚部ュニット 3 A〜 3 Dの関節部分や各脚部ュニット 3 A〜 3 D及 び胴体部ュニッ ト 2の各連結部分、 頭部ュニット 4及び胴体部ュニット 2の連結 部分、 並びに尻尾部ュニツト 5の尻尾 5 Aの連結部分などにはそれぞれ自由度数 分のァクチユエ一夕 2 5 丄〜 2 5 n及びポテンショメ一夕 2 6 1 ~ 2 6 nが配設さ れている。 例えば、 ァクチユエ一夕 2 5 丄 〜 2 5 nはサーボモー夕を構成として有 している。 サ一ボモー夕の駆動により、 脚部ユニット 3 A〜 3 Dが制御されて、 目標の姿勢或いは動作に遷移する。 ここで、 ポテンショメ一夕 2 6 丄 〜 2 6 nは、 上述の図 2に示したセンサ一 10 1を構成している。
そして、 これら角速度センサ一 18、 加速度センサー 1 9、 夕ヅチセンサー 2 1、 距離センサ一 22、 マイクロホン 23、 スピーカ 24及び各ポテンショメ一 タ 26 i〜 2 6 nなどの各種センサー並びに L E D及び各ァクチユエ一夕 25丄〜
25 nは、 それそれ対応するハブ 27 i〜 27 nを介してコントロール部 1 6の信 号処理回路 14と接続され、 CCDカメラ 20及びバッテリ 17は、 それそれ信 号処理回路 14と直接接続されている。
信号処理回路 14は、 上述の各センサーから供給されるセンサーデ一夕や画像 デ一夕及び音声デ一夕を順次取り込み、 これらをそれそれ内部バス 1 5を介して DR AM 1 1内の所定位置に順次格納する。 また信号処理回路 14は、 これと共 にバッテリ 1 7から供給されるバッテリ残量を表すパッテリ残量デ一夕を順次取 り込み、 これを D RAM 1 1内の所定位置に格納する。
このようにして DRAM1 1に格納された各センサーデ一夕、 画像デ一夕、 音 声データ及ぴバヅテリ残量データは、 この後 CPU 1 0がこのロボヅ ト装置 1の 動作制御を行う際に利用される。
実際上 CPU 1 0は、 ロボッ ト装置 1の電源が投入された初期時、 胴体部ュニ ヅト 2の図示しない P C力一ドスロヅ トに装填されたメモリカード 28又はフラ ヅシュ ROM 12に格納された制御プログラムを P Cカードインターフヱ一ス回 路 1 3を介して又は直接読み出し、 これを DRAM1 1に格納する。 なお、 この CPU 1 0が、上述の図 2に示した動作制御部 1 0としての機能を併有している。 また、 CPU 1 0は、 この後上述のように信号処理回路 14より D RAM 1 1 に順次格納される各センサ一データ、 画像データ、 音声データ及びバッテリ残量 デ一夕に基づいて自己及び周囲の状況や、 使用者からの指示及び働きかけの有無 などを判断する。
さらに、 CPU 10は、 この判断結果及び DRAM 1 1に格納しだ制御プログ ラムに基づいて続く行動を決定すると共に、 当該決定結果に基づいて必要なァク チユエ一夕 25 i〜25 nを駆動させることにより、頭部ュニット 4を上下左右に 振らせたり、 尻尾部ユニット 5の尻尾 5 Aを動かせたり、 各脚部ュニヅ ト 3 A〜
3 Dを駆動させて歩行させるなどの行動を行わせる。 また、 この際 C P U 1 0は、 必要に応じて音声デ一夕を生成し、 これを信号処 理回路 1 4を介して音声信号としてスピーカ 2 4に与えることにより当該音声信 号に基づく音声を外部に出力させたり、 上述の L E Dを点灯、 消灯又は点滅させ る。
このようにしてこのロボヅト装置 1においては、 自己及び周囲の状況や、 使用 者からの指示及び働きかけに応じて自律的に行動し得るようになされている。
( 2 ) 制御プログラムのソフトウヱァ構成
ここで、ロボット装置 1における上述の制御プログラムのソフトウエア構成は、 図 8に示すようになる。この図 8において、デバイス · ドライバ 'レイヤ 3 0は、 この制御プログラムの最下位層に位置し、 複数のデバイス · ドライバからなるデ バイス · ドライノ · セヅ ト 3 1から構成されている。 この場合、 各デパイス · ド ライバは、 C C Dカメラ 2 0 (図 7 ) やタイマ等の通常のコンビ 夕で用いら れるハ一ドウエアに直接アクセスするごとを許されたオブジェクトであり、 対応 する ドウエアからの割り込みを受けて処理を行う。
また、 ロボティヅク ·サーバ 'オブジェクト 3 2は、 デバイス · ドライノ、" ' レ ィャ 3 0の最下位層に位置し、 例えば上述の各種センサーゃァクチユエ一夕 2 5 丄〜2 5 n等のハードウェアにアクセスするためのィン夕ーフェースを提供する ソフトウヱァ群でなるバーチャル · ロボヅト 3 3と、 電源の切換えなどを管理す るソフトウエア群でなるパワーマネージャ 3 4と、 他の種々のデバイス · ドライ バを管理するソフトウヱァ群でなるデバイス · ドライバ .マネージャ 3 5と、 口 ポヅト装置 1の機構を管理するソフトウヱァ群でなるデザィンド · ロボット 3 6 とから構成されている。
マネージャ ·オブジェクト 3 7は、 オブジェクト ·マネージャ 3 8及ぴサービ ス 'マネージャ 3 9から構成されている。 オブジェクト 'マネージャ 3 8は、 口 ポティヅク ·サ ·オブジェクト 3 2、 ミ ドル ' ウェア ' レイヤ 4 0、 及ぴァ プリケーシヨン · レイヤ 4 1に含まれる各ソフトウエア群の起動や終了を管理す るソフトウェア群であり、 サービス .マネージャ 3 9は、 メモリカード 2 8 (図 7 ) に格納されたコネクションファイルに記述されている各オブジェクト間の接 続情報に基づいて各オブジェクトの接続を管理するソフトウヱァ群である。 ミ ドル · ウェア ' レイヤ 4 0は、 ロボティヅク .サーノ ' 'オブジェクト 3 2の 上位層に位置し、 画像処理や音声処理などのこのロボット装置 1の基本的な機能 を提供するソフトウェア群から構成されている。 また、 アプリケーション ' レイ ャ 4 1は、 ミ ドル ·ウェア ·レイヤ 4 0の上位層に位置し、 当該ミ ドル 'ウエア - レイヤ 4 0を構成する各ソフトウエア群によって処理された処理結果に基づいて 口ポット装置 1の行動を決定するためのソフトウエア群から構成されている。 なお、 ミ ドル · ウェア ' レイヤ 4 0及びアプリケーシヨン · レイヤ 4 1の具体 なソフトウエア構成をそれそれ図 9に示す。
ミ ドル ·ゥヱァ ·レイヤ 4 0は、 図 9に示すように、騒音検出用、温度検出用、 明るさ検出用、 音階認識用、 距離検出用、 姿勢検出用、 夕ツチセンサ一用、 動き 検出用及び色認識用の各信号処理モジュール 5 0 〜 5 8並びに入力セマンティク スコンパ'一夕モジュール 5 9などを有する認識系 6 0と、 出力セマンティクスコ ンバ一夕モジュール 6 8並びに姿勢管理用、トラヅキング用、モーション再生用、 歩行用、 転倒復帰用、 L E D点灯用及び音再生用の各信号処理モジュール 6 1 〜 6 7などを有する出力系 6 9とから構成されている。
認識系 6 0の各信号処理モジュール 5 0 〜 5 8は、 ロボティック 'サーバ 'ォ ブジェク ト 3 2のバーチャル · ロボヅ ト 3 3により D R A M 1 1 (図 7 ) から読 み出される各センサーデータや画像データ及び音声デ一夕のうちの対応するデー 夕を取り込み、 当該データに基づいて所定の処理を施して、 処理結果を入力セマ ンテイクスコンバータモジュール 5 9に与える。 ここで、 例えば、 バーチャル ' ロボット 3 3は、 所定の通信規約によって、 信号の授受或いは変換をする部分と して構成されている。
入力セマンティクスコンバータモジュール 5 9は、 これら各信号処理モジュ一 ル 5 0 〜 5 8から与えられる処理結果に基づいて、 「うるさい」、 「暑い」、 「明る い」、 「ボールを検出した」、 「転倒を検出した」、 「撫でられた」、 「叩かれた」、 「ド ミソの音階が聞こえた」、 「動く物体を検出した」 又は 「障害物を検出した」 など の自己及び周囲の状況や、 使用者からの指令及び働きかけを認識し、 認識結果を アプリケーション · レイヤ 4 1 (図 7 ) に出力する。
アプリケーション · レイヤ 4 1は、 図 1 0に示すように、 行動モデルライブラ リ 70、 行動切換えモジュール 71、 学習モジュール 72、 感情モデル 73及び 本能モデル 74の 5つのモジュールから構成されている。
行動モデルライブラリ 70には、図 1 1に示すように、 「バッテリ残量が少なく なった場合」、 「転倒復帰する」、 「障害物を回避する場合」、 「感情を表現する場 合」、 「ボールを検出した場合」 などの予め選択されたいくつかの条件項目にそれ それ対応させて、 それそれ独立した行動モデル 70 !~ 70 nが設けられている。 そして、 これら行動モデル 70 ι〜70nは、 それそれ入力セマンティクスコン バー夕モジュール 59から認識結果が与えられたときや、 最後の認識結果が与え られてから一定時間が経過したときなどに、 必要に応じて後述のように感情モデ ル 73に保持されている対応する情動のパラメ一夕値や、 本能モデル 74に保持 されている対応する欲求のパラメ一夕値を参照しながら続く行動をそれそれ決定 し、 決定結果を行動切換えモジュール 7 1に出力する。
なお、 この実施の形態の場合、 各行動モデル 70 i〜70nは、 次の行動を決定 する手法として、 図 1 2に示すような 1つのノード (状態) NODE。〜 NOD Enから他のどのノード NOD E 0〜NOD Enに遷移するかを各ノード N〇D E 0~NODEnに間を接続するアーク AR C i〜AR Cn lに対してそれそれ設定 された遷移確率 P 〜卩 に基づいて確率的に決定する有限確率ォートマトンと 呼ばれるアルゴリズムを用いる。
具体的に、 各行動モデル 70 i〜70nは、 それそれ自己の行動モデル 70 i〜 7011を形成するノード 00£()〜 00£11にそれぞれ対応させて、 これらノ ード NODE。〜NODEnごとに図 1 3に示すような状態遷移表 80を有して いる。
この状態遷移表 80では、そのノード 00£。~ 〇0£11にぉぃて遷移条件 とする入カイペント (認識結果)が「入カイベント名」の行に優先順に列記され、 その遷移条件についてのさらなる条件が 「デ一夕名」 及び 「デ一夕範囲」 の行に おける対応する列に記述されている。
したがって、図 13の状態遷移表 80で表されるノード NODE丄。。では、 「ポ ールを検出 (BALL)」 という認識結果が与えられた場合に、 当該認識結果と共 に与えられるそのポールの 「大きさ (S I ZE)」 が「0から 1000」の範囲で あることや、 「障害物を検出 (OB S TACLE)」 という認識結果が与えられた 場合に、 当該認識結果と共に与えられるその障害物までの 「距離 (D I S TAN CE)」が「0から 1 00」の範囲であることが他のノードに遷移するための条件 となっている。
また、 このノード NODE 。では、 認識結果の入力がない場合においても、 行動モデル 70 i〜 70 nが周期的に参照する感情モデル 73及び本能モデル 7 4にそれぞれ保持された各情動及び各欲求のパラメ一夕値のうち、 感情モデル 7 3に保持された 「喜び ( J 0 Y)」、 「驚き (SURPR I S Ε)」 若しくは 「悲し み (SUDNE S S)」 のいずれかのパラメ一夕値が 「50から 100」 の範囲で あるときには他のノードに遷移することができるようになつている。
また、 状態遷移表 80では、 「他のノードへの遷移確率」の欄における 「遷移先 ノード」 の列にそのノード NODE。〜 NODEnから遷移できるノード名が列 記されていると共に、 「入力イベント名」、 「デ一夕値」及び「データの範囲」の行 に記述された全ての条件が揃ったときに遷移できる他の各ノ一ド NODE Q~N ODEnへの遷移確率が 「他のノードへの遷移確率」 の欄内の対応する箇所にそ れそれ記述され、そのノード NODE。〜 NODE nに遷移する際に出力すべき行 動が 「他のノードへの遷移確率」 の欄における 「出力行動」 の行に記述ざれてい る。なお、 「他のノードへの遷移確率」の欄における各行の確率の和は 1 00 [%] となっている。
したがって、 図 1 3の状態遷移表 80で表されるノード NOD E では、 例 えば「ボールを検出 (B AL L)」 し、 そのボールの「S I Z E (大きさ)」 が「0 から 1000」の範囲であるという認識結果が与えられた場合には、 「30 [%]」 の確率で 「ノード NODE 12。 (node 120)」 に遷移でき、 そのとき 「ACT I 〇N 1」 の行動が出力されることとなる。
各行動モデル 70 i〜70 nは、それそれこのような状態遷移表 80として記述 されたノード NODE。〜 NODEnがいくつも繋がるようにして構成されてお り、 入力セマンティクスコンバ一夕モジュール 59から認識結果が与えられたと きなどに、対応するノード NOD E Q〜NODEnの状態遷移表を利用して確率的 に次の行動を決定し、 決定結果を行動切換えモジュール 71に出力するようにな されている。
図 1 0に示す行動切換えモジュール 7 1は、 行動モデルライブラリ 7 0の各行 動モデル 7 0 ! ~ 7 0 nからそれそれ出力される行動のうち、予め定められた優先 順位の高い行動モデル 7 0 〜 7 0 nから出力された行動を選択し、当該行動を実 行すべき旨のコマンド (以下、 これを行動コマンドという。) をミ ドル ' ウェア ' レイヤ 4 0の出力セマンティクスコンバ一夕モジュール 6 8に送出する。 なお、 この実施の形態においては、 図 1 1において下側に表記された行動モデル 7 0 1 〜7 0 nほど優先順位が高く設定されている。
また、 行動切換えモジュール 7 1は、 行動完了後に出力セマンティクスコンパ' 一夕モジュール 6 8から与えられる行動完了情報に基づいて、 その行動が完了し たことを学習モジュール 7 2、 感情モデル 7 3及び本能モデル 7 4に通知する。 一方、 学習モジュール 7 2は、 入力セマンティクスコンバ一夕モジュール 5 9 から与えられる認識結果のうち、 「叩かれた」や「撫でられた」など、 使用者から の働きかけとして受けた教示の認識結果を入力する。
そして、 学習モジュール 7 2は、 この認識結果及び行動切換えモジュール 7 1 からの通知に基づいて、 「叩かれた (叱られた)」 ときにはその行動の発現確率を 低下させ、 「撫でられた (褒められた)」 ときにはその行動の発現確率を上昇させ るように、行動モデルライブラリ 7 0における対応する行動モデル 7 0 i〜 7 0 n の対応する遷移確率を変更する。
他方、感情モデル 7 3は、 「喜ぴ(joy)」、 「悲しみ(sadness)」、 「怒り(anger)」、 「驚き (surprise )」、 「嫌悪 (disgust)」 及び 「恐れ (fear)」 の合計 6つの情動 について、 各情動ごとにその情動の強さを表すパラメ一夕を保持している。 そし て、 感情モデル 7 3は、 これら各情動のパラメ一夕値を、 それそれ入力セマンテ ィクスコンバ一夕モジュール 5 9から与えられる 「叩かれた」及び「撫でられた」 などの特定の認識結果と、 経過時間及び行動切換えモジュール 7 1からの通知と などに基づいて周期的に更新する。
具体的には、 感情モデル 7 3は、 入力セマンティクスコンバータモジュール 5 9から与えられる認識結果と、 そのときのロボッ ト装置 1の行動と、 前回更新し てからの経過時間となどに基づいて所定の演算式により算出されるそのときのそ の情動の変動量を Δ Ε [ t ]、 現在のその情動のパラメ一夕値を E [七]、 その情 動の感度を表す係数を k eとして、 式 ( 1 ) によって次の周期におけるその情動 のパラメータ値 E [ t + 1 ] を算出し、 これを現在のその情動のパラメ一夕値 E [ t ] と置き換えるようにしてその情動のパラメ一夕値を更新する。 また、 感情 モデル 7 3は、 これと同様にして全ての情動のパラメ一夕値を更新する。
式 1
E[t +l]=E [t]+kexAE [t] なお、 各認識結果や出力セマンティクスコンバ一夕モジュール 6 8からの通知 が各情動のパラメ一夕値の変動量 Δ Ε [ t ] にどの程度の影響を与えるかは予め 決められており、 例えば 「叩かれた」 といった認識結果は 「怒り」 の情動のパラ メータ値の変動量 Δ Ε [ t ] に大きな影響を与え、 「撫でられた」といった認識結 果は 「喜び」 の情動のパラメ一夕値の変動量 Δ Ε [七] に大きな影響を与えるよ うになつている。
ここで、 出力セマンティクスコンバータモジュール 6 8からの通知とは、 いわ ゆる行動のフィードバック情報 (行動完了情報) であり、 行動の発現結果の情報 であり、 感情モデル 7 3は、 このような情報によっても感情を変化させる。 これ は、例えば、 「吠える」といった行動により怒りの感情レベルが下がるといったよ うなことである。 なお、 出力セマンティクスコンバータモジュール 6 8からの通 知は、上述した学習モジュール 7 2にも入力されており、学習モジュール 7 2は、 その通知に基づいて行動モデル 7 0 i〜 7 0 nの対応する遷移確率を変更する。 なお、 行動結果のフィードバックは、 行動切換えモジユレ一夕 7 1の出力 (感 情が付加された行動) によりなされるものであっても良い。
一方、 本能モデル 7 4は、 「運動欲 (exercise)」、 「愛情欲 (affection)」、 「食欲 (appetite)」及び「好奇心(curiosity)jの互いに独立した 4つの欲求について、 これら欲求ごとにその欲求の強さを表すパラメ一夕を保持している。 そして、 本 能モデル 7 4は、 これらの欲求のパラメ一夕値を、 それそれ入力セマンティクス コンパ一夕モジュール 5 9から与えられる認識結果や、 経過時間及び行動切換え モジュール 71からの通知などに基づいて周期的に更新する。
具体的には、 本能モデル 74は、 「運動欲」、 「愛情欲」及び「好奇心」 について は、 認識結果、 経過時間及び出力セマンティクスコンパ一夕モジュール 68から の通知などに基づいて所定の演算式により算出されるそのときのその欲求の変動 量を Δ Ι [k]、 現在のその欲求のパラメ一夕値を I [k]、 その欲求の感度を表 す係数 kiとして、 所定周期で (2) 式を用いて次の周期におけるその欲求のパ ラメ一夕値 I [k+ 1] を算出し、 この演算結果を現在のその欲求のパラメ一夕 値 I [k] と置き換えるようにしてその欲求のパラメ一夕値を更新する。 また、 本能モデル 74は、 これと同様にして 「食欲」 を除く各欲求のパラメ一夕値を更 新する。
式 2 l[k+l] = l[k]+kixAl[k] なお、 認識結果及び出力セマンティクスコンバータモジュール 68からの通知 などが各欲求のパラメ一夕値の変動量△ I [k] にどの程度の影響を与えるかは 予め決められており、 例えば出力セマンティクスコンバ一タモジュール 68から の通知は、 「疲れ」のパラメ一夕値の変動量 ΔΙ [k]に大きな影響を与えるよう になっている。
なお、 本実施の形態においては、 各情動及び各欲求 (本能) のパラメ一夕値が それぞれ 0から 100までの範囲で変動するように規制されており、 また係数 k e、 kiの値も各情動及び各欲求ごとに個別に設定されている。
一方、 ミ ドル · ウェア · レイヤ 40の出力セマンティクスコンバータモジユー ル 68は、 図 9に示すように、 上述のようにしてアプリケーション · レイヤ 41 の行動切換えモジュール 7 1から与えられる 「前進」、 「喜ぶ」、 「鳴く」 又は 「ト ラヅキング(ポールを追いかける)」といった抽象的な行動コマンドを出力系 69 の対応する信号処理モジュール 6 1〜 67に与える。
そしてこれら信号処理モジュール 6 1〜67は、 行動コマンドが与えられると 当該行動コマンドに基づいて、 その行動を行うために対応するァクチユエ一夕 2 5丄〜2 5 n (図 7 ) に与えるべきサーボ指令値や、 スピーカ 2 4 (図 7 ) から出 力する音の音声デ一夕及び又は 「目」 の L E Dに与える駆動データを生成し、 こ れらのデ一夕をロポティヅク .サーバ ·オブジェクト 3 2のバ一チャル · ロボヅ ト 3 3及び信号処理回路 1 4 (図 7 ) を順次介して対応するァクチユエ一夕 2 5 ! ~ 2 5 n又はスピーカ 2 4又は L E Dに順次送出する。
このようにしてロボット装置 1においては、 制御プログラムに基づいて、 自己 (内部) 及び周囲 (外部) の状況や、 使用者からの指示及び働きかけに応じた自 律的な行動を行うことができるようになされている。
( 3 ) ロポヅ ト装置への適用
以上がロボット装置 1の具体的な構成についての説明である。 次のこの具体的 な構成とされるロボット装置 1における学習について具体的に説明する。
ロボヅ ト装置 1は、 図 1 4に示すように、 上述のバーチャルロボヅト 3 3、 並 びに姿勢管理用トラッキングモジュールモジュール用、 モーション再生用、 転倒 復帰用及ぴ歩行用の信号処理モジュール 6 1〜6 4の他に、 行動計画モジュール 1 1 1、R N Nモジュール 1 1 2及び特徴量抽出モジュール 1 1 3を備えている。 例えば、 このような各構成部分は、 制御プログラムとして構成されている。 具体 的には、 上述の図 8に示したミ ドル, ウェア · レイヤ 4 0を構成しており、 上述 したように姿勢管理用トラヅキングモジュールモジュール用、モーション再生用、 転倒復帰用及び歩行用の各信号処理モジュール 6 1 ~ 6 4については、 出力系 6 9において構成されており、 特徴量抽出モジュール 1 1 3については、 認識系 6 0において構成されている。
図 1 5のように示される構成において、 ロボッ ト装置 1において検出された各 種センサー情報は、 特徴量抽出モジュール 1 1 3に入力される。
特徴量抽出モジュール 1 1 3では、 各種センサ一情報を処理して、 センサー情 報から特徴量を抽出し、 センサー特徴量を得る。 そして、 特徴量抽出モジュール 1 1 3は、 センサ一特徴量を、 R N Nモジュール 1 1 2に出力する。
R N Nモジュール 1 1 2は、 上述の図 2に示した学習部 1 0 3及び予測部 1 0 4の機能を併有しており、 情報の学習と、 その学習結果を利用した情報の予測を 行う機能を有している。 例えば、 R N Nモジュール 1 1 2は、 図 1 5に示すよう に構成されている。 また、 例えば、 この RNNモジュール 1 1 2は、 図 1 0に示 した学習モジュール 72として制御プログラムによって構成されている。
このような RNNモジュール 1 1 2には、 センサー情報が入力として与えられ ると同時に、 行動計画モジュール 1 1 1から出力されるコマンド Atも入力とし て与えられる。 RNNモジュール 1 12では、 入力されるセンサー特徴量とコマ ンドとを使用して、 RNNとしてのフォワードモデル 1 1 2 ιとィンバース RN Nとしてのインバースモデル 1 122とによる学習を行う。
学習の際には、 RNNモジュール 1 1 2は、フォヮ一ドモデル 1 1 2丄により、 入力されてくるセンサ一情報 S t等から次時刻のセンサー情報(センサー予測値) St + 1及びコンテキスト Ct + 1を得る。 RNNモジュール 1 1 2において得られ た次時刻のセンサー情報 St + 1及びコンテキスト Ct + 1は、 行動計画モジュール 1 1 1において記憶される。 例えば、 行動計画モジュール 1 1 1は、 必要に応じ て内部状態に関連付けて記憶する。 例えば、 内部状態とは、 感情等である。
行動計画モジュール 1 1 1は、 ロボッ ト装置 1の行動の計画を決定する部分で ある。 行動計画モジュール 1 1 1は、 例えば、 図 10に示した行動モデルライブ ラリ 70として構成されている。 学習 (学習フェイズ) の際 (すなわち、 未だ完 全に学習されていない場合) には、 行動計画モジュール 1 1 1は、 上述したよう な行動モデルライブラリ 7◦の行動モデル 70 i〜 7011のうちの一の所望の行 動モデルに基づいてロボヅ ト装置 1の行動を決定するようにしている。 行動計画 モジュール 1 1 1は、 図 14に示すように、 行動計画に応じた行動情報 Atを、 姿勢管理モジュール 6 1に出力している。 そして、 姿勢管理モジュール 6 1以降 の処理により、 そのような行動情報 Atに基づいて動作の制御がなされるように なる。
また、 行動計画モジュール 1 1 1は、 RNNモジュール 1 1 2の学習が進んだ 状態 (すなわち、 ある程度学習をした後) で、 行動計画モジュール 1 1 1の内部 にて記憶されたセンサー情報とコンテキストを起想させる必要が起こったときに、 起想させたいセンサー情報 Sとコンテキスト Cとを取り出し、 それをィンバース RNNとされるフォワードモデル 1 1 22の入力として R NNモジュール 1 1 2 に与える。 R N Nモジュール 1 1 2では、 この入力から、 インバース R N Nにより、 実現 する (想起する) アクションの時系列 Α 1 5 Α 2, · · · , A nを順次計算し、 姿勢 管理モジュール 6 1に対して送信する。 これにより、 行動計画モジュール 1 1 1 の期待する入力が得られるようにロポッ ト装置 1の行動が実行されるするように なる。
以上のように、 ロボット装置 1によれば、 ユーザが直接ロボット装置 1に対し て力を加えることで、 ユーザとロポット装置 1 との間で直感的なィン夕ーフエ一 スを形成することができ、 しかも、 繰り返して同じ操作を教えることによって、 後に、 ロボッ ト装置 1自身がとるべき動作を予測し、 最後まで操作しなくても自 律的に動作するようになる。
なお、 上述の実施の形態では、 学習後に、 ロボット装置 1が再び同様な外力を 検出することにより、 対応される動作を自律的に発現させる場合を説明した。 し かし、 これに限定されるものではなく、 ロボッ ト装置 1が、 外力の付与をトリガ とすることなく、 最初から自律的に、 学習後の動作を表出することもできる。 こ の場合、 ロボッ ト装置 1は、 感情等と学習後の動作とを関連付けておくことで、 所定の感情になつたときに関連付けされた学習後の動作を発現させることができ るようになる。 この場合、 ロボット装置 1は、 学習したフォワードモデルを用い て、 ある姿勢をとりたいときに、 インバースダイナミクスを解いて出力すべきト ルクを算出して、そのトルクを用いて、目標姿勢に到達するように動作部をする。 また、 上述の実施の形態では、 学習部を R N Nとし、 予測部をインバース R N Nとして、 説明した。 しかし、 学習部がそのようなニューラルネヅトに限定され ないことはいうまでもない。
また、 上述の実施の形態では、 本発明を、 ロボット装置 1 自体に適用した場合 について説明したが、 これに限定されるものではない。 例えば、 上述したような 口ポット装置 1に実行させるプログラムやそのようなプログラムが記録された記 録媒体に適用することもできる。 産業上の利用可能性 本発明に係るロボット装置の動作制御方法によれば、 ロボット装置は、 ユーザ による動作部の操作を学習し、 学習後に動作部への外力に基づいて学習した動作 を想起し自律的に動作できるようになる。
本発明に係るプログラムによれば、 ロボット装置は、 ユーザによる動作部の操 作を学習して、 学習後においては、 動作部への外力に基づいて学習した動作を想 起し自律的に動作できるようになる。 また、 このプログラムを記録媒体に記録し て提供することもできる。 この場合、 ロボッ ト装置は、 記録媒体に記録されたプ ログラムを読み取ることによって、 ユーザによる動作部の操作を学習し、 学習後 には、 動作部への外力に基づいて、 学習した動作を想起し自律的に動作できるよ うになる。
また、 本発明に係るロボット装置は、 動作部が操作され、 この操作に応じて動 作部において得られる時系列の信号の学習をする学習手段と、 学習後に動作部へ の外力により動作部において得られる信号と、 学習手段が学習した時系列の信号 とに基づいて動作部を制御する動作制御手段とを備えることにより、 ユーザによ る動作部の操作を学習し、 学習後には、 動作部への外力に基づいて、 学習した動 作を想起し自律的に動作できる。

Claims

請求の範囲
1 . 動作部を有するロボット装置の動作を制御するロボット装置の動作制御方法 であって、
上記動作部を操作し、 その操作に応じて動作部において得られる時系列の信号 を学習する学習工程と、
学習後に上記動作部への外力により上記動作部において得られる信号と、 上記 学習工程にて学習した上記時系列の信号とに基づいて、 上記動作部を制御する動 作制御工程と
を有することを特徴とするロボット装置の動作制御方法。
2 . 上記信号は、 上記動作部の位置を示すことを特徴とする請求の範囲第 1項記 載のロボツ ト装置の動作制御方法。
3 . 上記ロボット装置は、 上記動作部の動作を制御する際の当該動作部の移動位 置検出をする位置検出手段を備えており、
上記信号は、 上記位置検出手段の検出信号であることを特徴とする請求の範囲 第 2項記載のロポット装置の動作制御方法。
4 . 上記動作制御工程では、 上記学習後に上記動作部への外力により上記動作部 において得られる初期の信号から予測し、 その予測値と上記学習工程にて学習し た時系列の信号とを比較し、 その比較結果に基づいて上記動作部を制御すること を特徴とする請求の範囲第 1項記載のロボット装置の動作制御方法。
5 . 上記学習工程では、 入力層、 隠れ層及び出力層に向かって入力されるニュー ラルネッ トワークにより上記時系列の信号が学習されることを特徴とする請求の 範囲第 1項記載のロボット装置の動作制御方法。
6 . 上記ニューラルネットワークは、 上記出力層から上記入力層に向かってフィ ―ドパックするループを有するリカレントニューラルネヅトワークであることを 特徴とする請求の範囲第 5項記載のロボット装置の動作制御方法。
7 . 動作部を有するロボット装置の動作を制御するためのプログラムであって、 上記動作部が操作され、 その操作に応じて動作部において得られる時系列の信 号を学習する学習工程と、
学習後に上記動作部への外力により上記動作部において得られる信号と、 上記 学習工程にて学習した上記時系列の信号とに基づいて、 上記動作部を制御する動 作制御工程と
をロポット装置に実行させることを特徴とするプログラム。
8 . 動作部を有するロボット装置の動作を制御するためのプログラムが記録され た記録媒体であって、
上記動作部が操作され、 その操作に応じて動作部において得られる時系列の信 号を学習する学習工程と、
学習後に上記動作部への外力により上記動作部において得られる信号と、 上記 学習工程にて学習した上記時系列の信号とに基づいて、 上記動作部を制御する動 作制御工程と
をロボッ ト装置に実行させるプログラムが記録されたことを特徴とする記録媒 体。
9 . 動作部を有するロボット装置であって、
上記動作部が操作され、 その操作に応じて動作部において得られる時系列の信 号を学習する学習手段と、
学習後に上記動作部への外力により上記動作部において得られる信号と、 上記 学習手段が学習した上記時系列の信号とに基づいて、 上記動作部を制御する動作 制御手段と
を備えることを特徴とするロボット装置。
1 0 . 上記信号は、 上記動作部の位置を示すことを特徴とする請求の範囲第 9項 記載のロボット装置。
1 1 . 上記動作部の動作を制御する際の当該動作部の移動位置検出をする位置検 出手段を備えており、
上記信号は、 上記位置検出手段の検出信号であることを特徴とする請求の範囲 第 1 0項記載のロボット装置。
1 2 . 上記学習後に上記動作部への外力により上記動作部において得られる初期 の信号から予測する予測手段を備え、 上記動作制御手段は、 上記予測手段の予測値と上記学習手段にて学習した時系 列の信号とを比較し、 その比較結果に基づいて上記動作部を制御することを特徴 とする請求の範囲第 9項記載のロボッ ト装置。
1 3 . 上記学習手段は、 入力層、 隠れ層及び出力層に向かって入力されるニュー ラルネットワークにより上記時系列の信号を学習することを特徴とする請求の範 囲第 9項記載のロボット装置。
1 4 . 上記ニューラルネヅトワークは、 上記出力層から上記入力層に向かってフ ィ一ドバックするループを有するリカレントニューラルネヅトワークであること を特徴とする請求の範囲第 1 3項記載のロボット装置。
PCT/JP2002/001573 2001-02-21 2002-02-21 Procede de commande de fonctionnement, programme, et support d'enregistrement pour dispositif robotise, et dispositif robotise correspondant WO2002066211A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US10/258,110 US6697711B2 (en) 2001-02-21 2002-02-21 Operational control method, program, and recording media for robot device, and robot device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001045691A JP2002239960A (ja) 2001-02-21 2001-02-21 ロボット装置の動作制御方法、プログラム、記録媒体及びロボット装置
JP2001-45691 2001-02-21

Publications (1)

Publication Number Publication Date
WO2002066211A1 true WO2002066211A1 (fr) 2002-08-29

Family

ID=18907431

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/001573 WO2002066211A1 (fr) 2001-02-21 2002-02-21 Procede de commande de fonctionnement, programme, et support d'enregistrement pour dispositif robotise, et dispositif robotise correspondant

Country Status (5)

Country Link
US (1) US6697711B2 (ja)
JP (1) JP2002239960A (ja)
KR (1) KR20030007533A (ja)
CN (1) CN1457287A (ja)
WO (1) WO2002066211A1 (ja)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100451159B1 (ko) * 2001-12-18 2004-10-02 엘지전자 주식회사 로봇의 동작편집장치 및 방법
JP2004001162A (ja) * 2002-03-28 2004-01-08 Fuji Photo Film Co Ltd ペットロボット充電システム、受取装置、ロボット、及びロボットシステム
JP2004227163A (ja) * 2003-01-21 2004-08-12 Fanuc Ltd サーボ制御装置
JP3898686B2 (ja) * 2003-10-20 2007-03-28 ファナック株式会社 数値制御装置
JP4878842B2 (ja) * 2003-11-13 2012-02-15 独立行政法人科学技術振興機構 ロボットの駆動方法
US20070191986A1 (en) * 2004-03-12 2007-08-16 Koninklijke Philips Electronics, N.V. Electronic device and method of enabling to animate an object
JP4818716B2 (ja) * 2005-12-27 2011-11-16 富士通株式会社 ロボット制御装置
JP4812426B2 (ja) * 2005-12-27 2011-11-09 富士通株式会社 ロボット制御装置
KR100866212B1 (ko) * 2007-02-08 2008-10-30 삼성전자주식회사 유전자 로봇 플랫폼 및 유전자 로봇 행동 발현 방법
WO2009025032A1 (ja) * 2007-08-21 2009-02-26 Fujitsu Limited ロボット制御装置およびロボット制御方法
JP5069538B2 (ja) * 2007-10-26 2012-11-07 株式会社Ihi 脚式移動体の操縦方法及び脚式移動体
JP2011110621A (ja) * 2009-11-24 2011-06-09 Toyota Industries Corp ロボットの教示データを作成する方法およびロボット教示システム
KR101189772B1 (ko) * 2009-12-30 2012-10-10 한국생산기술연구원 쇼 윈도우용 인조물의 제어 장치 및 그 제어 방법
US9906838B2 (en) 2010-07-12 2018-02-27 Time Warner Cable Enterprises Llc Apparatus and methods for content delivery and message exchange across multiple content delivery networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9566710B2 (en) 2011-06-02 2017-02-14 Brain Corporation Apparatus and methods for operating robotic devices using selective state space training
US8805581B2 (en) * 2012-02-21 2014-08-12 GM Global Technology Operations LLC Procedural memory learning and robot control
US8924011B2 (en) * 2012-04-03 2014-12-30 Knu-Industry Cooperation Foundation Intelligent robot apparatus responsive to environmental change and method of controlling and reconfiguring intelligent robot apparatus
KR101997566B1 (ko) 2012-08-07 2019-07-08 삼성전자주식회사 수술 로봇 시스템 및 그 제어방법
US9186793B1 (en) 2012-08-31 2015-11-17 Brain Corporation Apparatus and methods for controlling attention of a robot
US9211645B2 (en) * 2012-12-13 2015-12-15 Korea Institute Of Industrial Technology Apparatus and method for selecting lasting feeling of machine
US9324245B2 (en) * 2012-12-13 2016-04-26 Korea Institute Of Industrial Technology Apparatus and method for creating artificial feelings
US20140288704A1 (en) * 2013-03-14 2014-09-25 Hanson Robokind And Intelligent Bots, Llc System and Method for Controlling Behavior of a Robotic Character
US9764468B2 (en) 2013-03-15 2017-09-19 Brain Corporation Adaptive predictor apparatus and methods
US9242372B2 (en) 2013-05-31 2016-01-26 Brain Corporation Adaptive robotic interface apparatus and methods
US9384443B2 (en) * 2013-06-14 2016-07-05 Brain Corporation Robotic training apparatus and methods
US9792546B2 (en) 2013-06-14 2017-10-17 Brain Corporation Hierarchical robotic controller apparatus and methods
US9314924B1 (en) 2013-06-14 2016-04-19 Brain Corporation Predictive robotic controller apparatus and methods
US9436909B2 (en) 2013-06-19 2016-09-06 Brain Corporation Increased dynamic range artificial neuron network apparatus and methods
US9579789B2 (en) 2013-09-27 2017-02-28 Brain Corporation Apparatus and methods for training of robotic control arbitration
US9296101B2 (en) 2013-09-27 2016-03-29 Brain Corporation Robotic control arbitration apparatus and methods
US9597797B2 (en) 2013-11-01 2017-03-21 Brain Corporation Apparatus and methods for haptic training of robots
US9463571B2 (en) 2013-11-01 2016-10-11 Brian Corporation Apparatus and methods for online training of robots
US9248569B2 (en) 2013-11-22 2016-02-02 Brain Corporation Discrepancy detection apparatus and methods for machine learning
US9358685B2 (en) 2014-02-03 2016-06-07 Brain Corporation Apparatus and methods for control of robot actions based on corrective user inputs
US9364950B2 (en) 2014-03-13 2016-06-14 Brain Corporation Trainable modular robotic methods
US9987743B2 (en) 2014-03-13 2018-06-05 Brain Corporation Trainable modular robotic apparatus and methods
US9533413B2 (en) * 2014-03-13 2017-01-03 Brain Corporation Trainable modular robotic apparatus and methods
US9346167B2 (en) 2014-04-29 2016-05-24 Brain Corporation Trainable convolutional network apparatus and methods for operating a robotic vehicle
CN104995575B (zh) * 2014-07-21 2018-12-14 深圳市大疆创新科技有限公司 一种数据处理方法、装置及飞行器
US9630318B2 (en) 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
US9426946B2 (en) 2014-12-02 2016-08-30 Brain Corporation Computerized learning landscaping apparatus and methods
US9592608B1 (en) * 2014-12-15 2017-03-14 X Development Llc Methods and systems for providing feedback during teach mode
US9717387B1 (en) 2015-02-26 2017-08-01 Brain Corporation Apparatus and methods for programming and training of robotic household appliances
US9840003B2 (en) 2015-06-24 2017-12-12 Brain Corporation Apparatus and methods for safe navigation of robotic devices
US9652712B2 (en) 2015-07-27 2017-05-16 Google Inc. Analyzing health events using recurrent neural networks
JP2017091431A (ja) * 2015-11-17 2017-05-25 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP6544219B2 (ja) * 2015-11-30 2019-07-17 オムロン株式会社 制御装置
US9919422B1 (en) 2016-01-06 2018-03-20 X Development Llc Methods and systems to provide mechanical feedback during movement of a robotic system
US10241514B2 (en) 2016-05-11 2019-03-26 Brain Corporation Systems and methods for initializing a robot to autonomously travel a trained route
CN114967433B (zh) * 2016-05-20 2023-08-18 谷歌有限责任公司 基于捕获物体的图像的机器学习方法和装置
KR101980603B1 (ko) 2016-05-20 2019-05-22 구글 엘엘씨 오브젝트(들)를 캡처하는 이미지(들)에 기초하는 그리고 환경에서의 미래 로봇 움직임에 대한 파라미터(들)에 기초하여 로봇 환경에서의 오브젝트(들)의 모션(들)을 예측하는 것과 관련된 머신 학습 방법들 및 장치
US9987752B2 (en) 2016-06-10 2018-06-05 Brain Corporation Systems and methods for automatic detection of spills
US10282849B2 (en) 2016-06-17 2019-05-07 Brain Corporation Systems and methods for predictive/reconstructive visual object tracker
US10016896B2 (en) 2016-06-30 2018-07-10 Brain Corporation Systems and methods for robotic behavior around moving bodies
DE102016215587A1 (de) * 2016-08-19 2018-02-22 Audi Ag Verfahren zum Betreiben eines zumindest teilautonom betriebenen Kraftfahrzeugs und Kraftfahrzeug
US10183590B2 (en) * 2016-09-23 2019-01-22 Faraday&Future Inc. Electric vehicle battery monitoring system
US10274325B2 (en) 2016-11-01 2019-04-30 Brain Corporation Systems and methods for robotic mapping
US10001780B2 (en) 2016-11-02 2018-06-19 Brain Corporation Systems and methods for dynamic route planning in autonomous navigation
US10723018B2 (en) 2016-11-28 2020-07-28 Brain Corporation Systems and methods for remote operating and/or monitoring of a robot
US10377040B2 (en) 2017-02-02 2019-08-13 Brain Corporation Systems and methods for assisting a robotic apparatus
US10852730B2 (en) 2017-02-08 2020-12-01 Brain Corporation Systems and methods for robotic mobile platforms
US10293485B2 (en) 2017-03-30 2019-05-21 Brain Corporation Systems and methods for robotic path planning
JP6951659B2 (ja) * 2017-05-09 2021-10-20 オムロン株式会社 タスク実行システム、タスク実行方法、並びにその学習装置及び学習方法
JP7156300B2 (ja) * 2017-10-30 2022-10-19 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
CN108621159B (zh) * 2018-04-28 2020-05-19 首都师范大学 一种基于深度学习的机器人动力学建模方法
KR102169879B1 (ko) 2019-06-03 2020-10-27 한국기계연구원 학습을 이용한 로봇의 충돌 감지 시스템 및 방법
JP7081577B2 (ja) 2019-10-31 2022-06-07 カシオ計算機株式会社 ロボット
JP2024047382A (ja) 2022-09-26 2024-04-05 カシオ計算機株式会社 機器の制御装置、機器、機器の制御方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1177560A (ja) * 1997-09-03 1999-03-23 Sony Corp 多関節型ロボット及び多関節型ロボットの位置教示方法
JPH11198075A (ja) * 1998-01-08 1999-07-27 Mitsubishi Electric Corp 行動支援装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001191276A (ja) * 1999-10-29 2001-07-17 Sony Corp ロボットシステム、ロボット装置及びその外装
EP1182610A1 (en) * 2000-02-09 2002-02-27 Sony Corporation Information processing device and method, data holding device, and program
WO2001058649A1 (fr) * 2000-02-14 2001-08-16 Sony Corporation Systeme robotique, dispositif robotise et procede de controle d'un tel systeme et dispositif et procede de traitement de donnees
CN1398214A (zh) * 2000-10-23 2003-02-19 索尼公司 有足机器人、用于有足机器人的动作控制方法、和存储介质
US6680753B2 (en) * 2001-03-07 2004-01-20 Matsushita Electric Industrial Co., Ltd. Method and apparatus for skipping and repeating audio frames
WO2002091356A1 (fr) * 2001-05-02 2002-11-14 Sony Corporation Dispositif robot, appareil de reconnaissance de caracteres, procede de lecture de caracteres, programme de commande et support d'enregistrement

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1177560A (ja) * 1997-09-03 1999-03-23 Sony Corp 多関節型ロボット及び多関節型ロボットの位置教示方法
JPH11198075A (ja) * 1998-01-08 1999-07-27 Mitsubishi Electric Corp 行動支援装置

Also Published As

Publication number Publication date
JP2002239960A (ja) 2002-08-28
US6697711B2 (en) 2004-02-24
CN1457287A (zh) 2003-11-19
KR20030007533A (ko) 2003-01-23
US20030144764A1 (en) 2003-07-31

Similar Documents

Publication Publication Date Title
WO2002066211A1 (fr) Procede de commande de fonctionnement, programme, et support d'enregistrement pour dispositif robotise, et dispositif robotise correspondant
US6539283B2 (en) Robot and action deciding method for robot
JP3714268B2 (ja) ロボット装置
US6889117B2 (en) Robot apparatus and method and system for controlling the action of the robot apparatus
JP2002301674A (ja) 脚式移動ロボット及びその運動教示方法、並びに記憶媒体
JP2002239963A (ja) ロボット装置、ロボット装置の動作制御方法、プログラム及び記録媒体
EP1508409A1 (en) Robot device and robot control method
JP2003039363A (ja) ロボット装置、ロボット装置の行動学習方法、ロボット装置の行動学習プログラム、及びプログラム記録媒体
US20080058988A1 (en) Robots with autonomous behavior
JP2003159674A (ja) ロボット装置、ロボット装置の外力検出方法及びロボット装置の外力検出プログラム、並びにロボット装置の外力検出のためのキャリブレーション方法及びロボット装置の外力検出のためのキャリブレーションプログラム
JP2002086378A (ja) 脚式ロボットに対する動作教示システム及び動作教示方法
JP2004298975A (ja) ロボット装置、障害物探索方法
JP2002239952A (ja) ロボット装置、ロボット装置の行動制御方法、プログラム及び記録媒体
JP2003136456A (ja) ロボット装置、ロボット装置の明るさ検出方法、明るさ検出プログラム及び記録媒体
KR20020067694A (ko) 로봇 장치 및 로봇 장치의 동작 제어 방법
JP2002059384A (ja) ロボットのための学習システム及び学習方法
JP2002205289A (ja) ロボット装置の動作制御方法、プログラム、記録媒体及びロボット装置
JP2003271958A (ja) 画像処理方法、その装置、そのプログラム、その記録媒体及び画像処理装置搭載型ロボット装置
JP2004130427A (ja) ロボット装置及びロボット装置の動作制御方法
JP2002120183A (ja) ロボット装置及びロボット装置の入力情報検出方法
JP2001157980A (ja) ロボット装置及びその制御方法
JP2001154707A (ja) ロボット装置及びその制御方法
JP2001157979A (ja) ロボット装置及びその制御方法
JP4193098B2 (ja) トラッキング装置、トラッキング装置のトラッキング方法及びロボット装置
JP2002269530A (ja) ロボット装置、ロボット装置の行動制御方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

WWE Wipo information: entry into national phase

Ref document number: 1020027013996

Country of ref document: KR

Ref document number: 10258110

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 028003616

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 1020027013996

Country of ref document: KR