WO2020230784A1 - 制御装置、ロボット、制御方法及び制御プログラム - Google Patents

制御装置、ロボット、制御方法及び制御プログラム Download PDF

Info

Publication number
WO2020230784A1
WO2020230784A1 PCT/JP2020/018975 JP2020018975W WO2020230784A1 WO 2020230784 A1 WO2020230784 A1 WO 2020230784A1 JP 2020018975 W JP2020018975 W JP 2020018975W WO 2020230784 A1 WO2020230784 A1 WO 2020230784A1
Authority
WO
WIPO (PCT)
Prior art keywords
robot
sound source
sound
control device
detected
Prior art date
Application number
PCT/JP2020/018975
Other languages
English (en)
French (fr)
Inventor
学 永尾
厚太 鍋嶌
Original Assignee
株式会社Preferred Networks
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Preferred Networks filed Critical 株式会社Preferred Networks
Publication of WO2020230784A1 publication Critical patent/WO2020230784A1/ja

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Definitions

  • This disclosure relates to control devices, robots, control methods and control programs.
  • a robot that operates based on a user's voice instruction has been known.
  • One example is a robot that detects the user's voice at an appropriate sound pressure by moving the microphone to an appropriate position when the user speaks.
  • the user's voice may not be detected.
  • the purpose of the present disclosure is to improve the voice detection rate in a robot that operates based on a user's voice instruction.
  • the control device has, for example, the following configuration. That is, A lip motion detection unit that detects the user's lip motion based on the acquired image data, A voice detector that detects voice data from the acquired sound data, It has an instruction unit for instructing to reduce the sound emitted by the sound source when the lip motion detection unit detects the user's lip motion and the voice detection unit does not detect the voice data.
  • FIG. 1 is a diagram showing an example of the appearance configuration of the robot.
  • FIG. 2 is a first diagram showing an example of the hardware configuration of the control device.
  • FIG. 3 is a first diagram showing an example of the functional configuration of the control device.
  • FIG. 4 is a first flowchart showing a flow of operation control processing by the control device.
  • FIG. 5 is a second diagram showing an example of the functional configuration of the control device.
  • FIG. 6 is a second flowchart showing the flow of operation control processing by the control device.
  • FIG. 7 is a third diagram showing an example of the functional configuration of the robot control device.
  • FIG. 8 is a third flowchart showing the flow of operation control processing by the control device.
  • FIG. 9 is a first diagram showing an example of the working environment of the robot.
  • FIG. 9 is a first diagram showing an example of the working environment of the robot.
  • FIG. 10 is a second diagram showing an example of the hardware configuration of the control device.
  • FIG. 11 is a second diagram showing an example of the working environment of the robot.
  • FIG. 12 is a third diagram showing an example of the working environment of the robot.
  • FIG. 13 is a fourth diagram showing an example of the functional configuration of the control device.
  • FIG. 14 is a fourth flowchart showing the flow of operation control processing by the control device.
  • FIG. 1 is a diagram showing an example of the appearance configuration of the robot.
  • the robot 10 operates based on the voice instruction of the user.
  • the robot 10 has a camera 110, a microphone 120, speakers 130 and 131, movable portions 140 and 150 (a plurality of joints and end effectors), and a movable portion 160 (moving mechanism). ..
  • the robot 10 has a built-in control device 100.
  • the control device 100 may be realized by another computer without being built in the robot 10. In that case, another computer transmits / receives information to / from the robot 10 by communication.
  • the camera 110 is an example of an image pickup device (imaging unit), and photographs the surroundings of the robot 10 to generate image data.
  • image pickup device imaging unit
  • FIG. 1 the case where the camera 110 has two image pickup elements is shown, but the number of image pickup elements is not limited to two. Further, although the example of FIG. 1 shows a case where the camera 110 is mounted on the robot 10, the camera 110 may be arranged separately from the robot 10.
  • the microphone 120 is an example of a sound collecting device (sound collecting unit), detects sound propagating in air or the like, and generates sound data.
  • the sounds detected by the microphone 120 include, in addition to the environmental sounds around the robot 10, the sounds emitted by the robot 10 itself, the sounds emitted by the user of the robot 10, and the like. Although only one microphone 120 is shown in the example of FIG. 1, the robot 10 may have a plurality of microphones.
  • Speakers 130 and 131 are examples of voice output devices, and output synthetic voices and the like based on voice signals generated by the control device 100.
  • the movable parts 140 and 150 are used in various tasks performed by the robot 10 (for example, a task of grasping an object while communicating with a user and moving the object while holding the object to carry the object to a target place). Perform a gripping operation or the like.
  • the plurality of joints and end effectors included in the movable portions 140 and 150 each include an actuator.
  • the movable portion 160 executes a moving operation or the like in various operations performed by the robot 10.
  • the moving mechanism included in the movable portion 160 includes wheels, a motor, gears, belts, actuators and the like.
  • the control device 100 has a control unit 102 that controls the operation of the camera 110 and the microphone 120, the outputs of the speakers 130 and 131, the operation of the actuators of the movable parts 140 and 150, and the operation of the motor and actuator of the movable part 160.
  • the control unit 102 causes the robot 10 to perform a gripping operation, a moving operation, and the like while communicating with the user.
  • control device 100 has a stop unit 101 that outputs a sound source control command to the control unit 102.
  • stop unit 101 cannot detect the user's voice due to the sound emitted by the speakers 130, 131 and the movable units 140 to 160 (the sound emitted by the robot 10 itself) while various operations are being performed by the robot 10.
  • a sound source control command is output to the control unit 102.
  • the stop unit 101 determines whether or not various operations are being performed by the robot 10 based on the work in progress flag.
  • control unit 102 controls, for example, the output of the speakers 130 and 131, which are sound sources, and the operations of the actuators, motors, and the like of the movable units 140 to 160, and creates a state in which the user's voice can be easily detected.
  • the voice detection rate can be improved in the robot 10 that operates based on the voice instruction of the user.
  • FIG. 2 is a first diagram showing an example of the hardware configuration of the control device.
  • the control device 100 includes a processor 201, a main storage device 202, an auxiliary storage device 203, a device interface 204, and a communication device 205, and each of these components is via a bus 210. It is realized as a connected computer.
  • the control device 100 includes one component for each component, but the control device 100 may include a plurality of the same component components. Further, in the example of FIG. 2, one control device is shown, but a plurality of control devices are arranged, and software (for example, a control program described later) is installed in the plurality of control devices. Each controller may be configured to perform different parts of the software. In this case, each of the plurality of control devices may communicate with each other via a network interface or the like.
  • the processor 201 is an electronic circuit (processing circuit, Processing circuitry) including an arithmetic unit.
  • the processor 201 performs arithmetic processing based on data and programs input from each component in the control device 100, and outputs an arithmetic result and a control signal to each component.
  • the processor 201 controls each component in the control device 100 by executing an OS (Operating System), an application, or the like.
  • the processor 201 is not limited to a specific processing circuit as long as it can perform the above processing.
  • the processing circuit may refer to one or more electronic circuits arranged on one chip, or may refer to one or more electronic circuits arranged on two or more chips or devices. Good. When a plurality of electronic circuits are used, each electronic circuit may communicate by wire or wirelessly.
  • the main storage device 202 is a storage device that stores electronic information such as instructions and data executed by the processor 201.
  • the electronic information stored in the main storage device 202 is directly read by the processor 201.
  • the auxiliary storage device 203 is a storage device other than the main storage device 202. It should be noted that these storage devices mean arbitrary electronic components capable of storing electronic information, and may be memory or storage. Further, the memory includes a volatile memory and a non-volatile memory, but any of them may be used.
  • the memory for storing electronic information in the control device 100 may be realized by the main storage device 202 or the auxiliary storage device 203.
  • the device interface 204 is an interface such as a USB (Universal Serial Bus) that connects to the camera 110, the microphone 120, the speakers 130, 131, and the movable parts 140 to 160 of the robot 10.
  • USB Universal Serial Bus
  • the communication device 205 is a communication device that communicates with various devices outside the robot 10.
  • the robot 10 transmits commands to various devices outside the robot 10 via the communication device 205 to control various devices outside the robot 10.
  • control device 100 has a control program installed, and when the processor 201 executes the program, the control device 100 functions as a stop unit 101 and a control unit 102.
  • the function of the stop unit 101 will be mainly described here.
  • FIG. 3 is a first diagram showing an example of the functional configuration of the control device.
  • the stop unit 101 includes a sound acquisition unit 301, a voice detection unit 302, an image acquisition unit 303, a face detection unit 304, a lip motion detection unit 305, and a determination unit 306.
  • Each unit of the stop unit 101 functions while the robot 10 receives an in-work flag indicating that the robot 10 is in the process of various operations from the control unit 102.
  • the sound acquisition unit 301 acquires the sound data generated by the microphone 120 and outputs it to the voice detection unit 302.
  • the voice detection unit 302 receives the sound data output by the sound acquisition unit 301, and determines whether or not the received sound data includes the voice data. When the voice detection unit 302 determines that the received sound data includes the voice data, the voice detection unit 302 detects the voice data and outputs the detected voice data to the determination unit 306.
  • the image acquisition unit 303 acquires the image data output by the camera 110 and outputs it to the face detection unit 304.
  • the face detection unit 304 receives the image data output by the image acquisition unit 303, detects the face of the user facing the direction of the camera 110, and cuts out the detected face image (face image data). Further, the face detection unit 304 outputs the cut out face image data to the lip motion detection unit 305.
  • the lip motion detection unit 305 detects the user's lip motion from the lip region included in the face image data. Further, the lip motion detection unit 305 outputs the detection result of the lip motion to the determination unit 306.
  • the determination unit 306 is an example of an instruction unit. It is determined whether or not the voice data is detected by the voice detection unit 302, and whether or not the detection result of the lip movement is output from the lip movement detection unit 305. Further, the determination unit 306 sends a sound source to the control unit 102 when the voice data is not detected by the voice detection unit 302 even though the lip movement detection result is output from the lip movement detection unit 305. By outputting a control command, it is instructed to reduce the sound emitted by the sound source.
  • the determination unit 306 outputs the detection result of the lip movement from the lip movement detection unit 305, and when the voice detection unit 302 detects the voice data, the determination unit 306 sends the detected voice data to the control unit 102. Output.
  • the control unit 102 When the control unit 102 receives the sound source control command output by the determination unit 306, the control unit 102 outputs an operation stop signal to the speakers 130, 131, the movable units 140 to 160, and the like. Then, the outputs of the speakers 130 and 131, which are sound sources, and the operations of the actuators, motors, and the like of the movable parts 140 to 160 are controlled. As a result, the control unit 102 can reduce the sound emitted by the sound source that hinders the detection of the voice data, and can create a state in which the voice data can be easily detected.
  • control unit 102 when the control unit 102 receives the voice data output by the determination unit 306, the control unit 102 recognizes the user's voice instruction based on the received voice data. Further, the control unit 102 outputs an operation signal to the camera 110, the microphone 120, the speakers 130, 131, the movable units 140 to 160, and the like based on the recognized voice instruction. Then, the operation of the camera 110 and the microphone 120, the output of the speakers 130 and 131, the actuators of the movable parts 140 to 160, the operation of the motor and the like are controlled. As a result, the control unit 102 can control the operations of the camera 110 and the microphone 120, the outputs of the speakers 130 and 131, and the operations of the movable units 140 to 160, etc., based on the voice instruction of the user.
  • FIG. 4 is a first flowchart showing a flow of operation control processing by the control device.
  • step S401 the stop unit 101 determines whether or not the robot 10 is working.
  • the stop unit 101 determines that the robot 10 is not working (determines NO in step S401), and ends the operation control process.
  • step S401 determines that the robot 10 is working (determines YES in step S401), and proceeds to step S402.
  • step S402 the image acquisition unit 303 acquires image data from the camera 110.
  • step S403 the face detection unit 304 determines from the acquired image data whether or not the face of the user facing the direction of the camera 110 has been detected. If the user's face is not detected in step S403 (NO in step S403), the process returns to step S401.
  • step S403 when the user's face is detected in step S403 (YES in step S403), the face detection unit 304 cuts out the face image data and proceeds to step S404.
  • step S404 the lip motion detection unit 305 determines whether or not the lip motion is detected based on the cut out face image data. If no lip movement is detected in step S404 (NO in step S404), the process returns to step S401.
  • step S404 if the lip movement is detected in step S404 (YES in step S404), the process proceeds to step S405.
  • step S403 the lip motion detection unit 305 repeatedly executes the process of step S404 as many times as the number of detected faces. If even one lip movement is detected in step S404, the process proceeds to step S405.
  • step S405 the sound acquisition unit 301 acquires sound data from the microphone 120.
  • step S406 the voice detection unit 302 determines whether or not the acquired sound data includes voice data. If it is determined in step S406 that the acquired sound data includes voice data, the voice detection unit 302 detects the voice data (YES in step S406). Further, the determination unit 306 returns to step S401 after outputting the detected voice data to the control unit 102.
  • the control unit 102 recognizes the user's voice instruction based on the detected voice data, and outputs the operation signal based on the recognized voice instruction to the camera 110, the microphone 120, the speakers 130, 131, and the movable unit 140 to. Output to 160 etc. Then, the operation of the camera 110 and the microphone 120, the output of the speakers 130 and 131, and the operation of the movable parts 140 to 160 and the like are controlled. As a result, the control unit 102 can control the operation of the camera 110 and the microphone 120, the outputs of the speakers 130 and 131, the actuators of the movable units 140 to 160, the operation of the motor, and the like based on the voice instruction of the user.
  • step S406 determines whether the acquired sound data does not include voice data. If it is determined in step S406 that the acquired sound data does not include voice data, the voice detection unit 302 does not detect the voice data (NO in step S406), so the process proceeds to step S407.
  • step S407 the determination unit 306 outputs a sound source control command to the control unit 102. Further, the control unit 102 outputs an operation stop signal to the speakers 130, 131, the movable units 140 to 160, and the like. Then, the output of the speakers 130 and 131, which are sound sources, and the operation of the movable parts 140 to 160 and the like are controlled. Specifically, the control unit 102 stops the output of synthetic voice other than the reaction to the user's voice instruction from the speakers 130 and 131, or stops the output of music from the speakers 130 and 131, or , The operation of the movable parts 140 to 160 and the like is stopped.
  • step S402 to step S406 are executed in order, but the processes from step S402 to step S404 and the processes from step S405 to step S406 are performed in parallel. May be executed.
  • the determination unit 306 performs the synchronization process before executing the process of step S407 and detects the lip movement, and the determination unit 306 does not detect the voice data only in step S407. Configure to perform the processing of.
  • step S406 when voice data is detected in step S406, it is described as returning to step S401.
  • the control unit 102 determines that the voice instruction cannot be recognized from the voice data or the certainty is low (for example, below a predetermined threshold value)
  • the determination unit 406 may be configured to proceed to step S407 and output a sound source control command.
  • control unit 102 -Detection status of voice data from sound data, or recognition status of detected voice data for example, voice recognition score (probability information)
  • voice recognition score for example, voice recognition score (probability information)
  • the control unit 102 when the determination unit 306 outputs the sound source control command in step S407, the control unit 102 outputs the operation stop signal to the speakers 130, 131, the movable units 140 to 160, and the like. .. However, even if the control unit 102 outputs a signal for lowering the volume to the speakers 130 and 131, or outputs a deceleration signal for reducing the operating speed of the movable parts 140 to 160 and the like to the movable parts 140 to 160 and the like. Good. As a result, the control unit 102 can reduce the volume of the speakers 130 and 131 and slow down the operation of the movable units 140 to 160 and the like.
  • the determination unit 306 detects it.
  • the voice data may be configured to be output to the control unit 102.
  • the control device 100 is -Detects the user's lip movement based on the acquired image data. -Detects voice data from the acquired sound data. -When the user's lip movement is detected and no voice data is detected, an operation stop signal (or a signal for lowering the volume, a deceleration signal) is output. Or -When the user's lip movement is detected and the voice data is detected, and the likelihood information when the voice data is recognized is equal to or less than a predetermined threshold value, the movement stop signal (or to lower the volume) Signal, deceleration signal) is output. -And by controlling the output of the speaker and the operation of the moving parts (or stopping the output of the speaker, lowering the volume, stopping the operation of the moving parts, decelerating), the speaker and moving parts that are sound sources Reduces the sound emitted by.
  • control device 100 according to the first embodiment can create a state in which voice data can be easily detected.
  • the voice detection rate can be improved in the robot that operates based on the voice instruction of the user.
  • the control device 100 executes a process for creating a state in which voice data can be easily detected as an operation control process, but in the second embodiment, the control device 100 further performs a process in that state. The process of prompting the utterance of the voice instruction is executed.
  • the second embodiment will be described focusing on the differences from the first embodiment.
  • FIG. 5 is a second diagram showing an example of the functional configuration of the control device.
  • the difference from the functional configuration shown in FIG. 3 is that the function of the determination unit 500 and the function of the control unit 510 are different from the function of the determination unit 306 and the function of the control unit 102 of FIG.
  • the determination unit 500 is an example of an instruction unit, and determines whether or not voice data is detected by the voice detection unit 302 and whether or not the lip movement detection result is output from the lip movement detection unit 305. Further, the determination unit 500 sends a sound source to the control unit 510 when the voice data is not detected by the voice detection unit 302 even though the lip movement detection result is output from the lip movement detection unit 305. Outputs a control command and a recurrence voice instruction. As a result, the determination unit 500 instructs to reduce the sound emitted by the sound source and also instructs to prompt the utterance of the voice instruction.
  • the determination unit 500 outputs the detection result of the lip movement from the lip movement detection unit 305, and when the voice detection unit 302 detects the voice data, the determination unit 500 sends the control unit 510. And output audio data.
  • the control unit 510 When the control unit 510 receives the sound source control command output by the determination unit 500, the control unit 510 outputs an operation stop signal to the speakers 130, 131, the movable units 140 to 160, and the like. Then, the operations of the speakers 130 and 131, which are sound sources, and the actuators and motors of the movable parts 140 to 160 are stopped. As a result, the control unit 510 can reduce the sound emitted by the sound source that hinders the detection of the voice data, and can create a state in which the voice data can be easily detected.
  • control unit 510 when the control unit 510 receives the recurrence voice instruction output by the determination unit 500, the control unit 510 generates a voice output signal prompting the utterance of the voice instruction, and generates a synthetic voice based on the generated voice output signal to the speakers 130 and 131. Output via.
  • the voice output signal for prompting the utterance of a voice instruction is, for example, a voice output signal for outputting a synthetic voice such as "Please speak again".
  • the control unit 510 can urge the user to utter a voice instruction under a state in which the voice data can be easily detected.
  • FIG. 6 is a second flowchart showing the flow of operation control processing by the control device. The difference from the flowchart shown in FIG. 4 is step S601.
  • step S601 the control unit 510 generates a voice output signal for prompting the utterance of a voice instruction, and outputs a synthetic voice based on the generated voice output signal via the speakers 130 and 131.
  • control device 100 according to the second embodiment has a configuration for prompting the utterance of a voice instruction in addition to the configuration of the control device 100 according to the first embodiment.
  • control device 100 can receive the voice instruction of the user in a state where the voice data can be easily detected.
  • the voice detection rate can be improved in the robot that operates based on the voice instruction of the user.
  • the control device 100 executes a process of creating a state in which voice data can be easily detected as an operation control process, but in the third embodiment, the control device 100 further performs a process of creating a state in which the voice data is easily detected. Based on this, it is determined whether or not the user has a voice instruction.
  • the third embodiment will be described focusing on the differences from the first embodiment.
  • FIG. 7 is a third diagram showing an example of the functional configuration of the control device.
  • the difference from the functional configuration shown in FIG. 3 is that the function of the determination unit 700 and the function of the control unit 710 are different from the function of the determination unit 306 and the function of the control unit 102 of FIG.
  • the determination unit 700 is an example of an instruction unit, and determines whether or not voice data is detected by the voice detection unit 302 and whether or not the lip movement detection result is output from the lip movement detection unit 305. Further, the determination unit 700 sends a sound source to the control unit 710 when the voice data is not detected by the voice detection unit 302 even though the lip movement detection result is output from the lip movement detection unit 305. Output a control command. As a result, the determination unit 700 instructs to reduce the sound emitted by the sound source.
  • the determination unit 700 outputs an operation restart instruction to the control unit 710 when the voice data is not detected by the voice detection unit 302 within a predetermined time after outputting the sound source control command, thereby producing a sound source. Instructs to resume the operation before outputting the control command. Further, the determination unit 700 outputs the voice data to the control unit 710 when the voice data is detected by the voice detection unit 302 during a predetermined time after the sound source control command is output.
  • the determination unit 700 outputs the detection result of the lip movement from the lip movement detection unit 305, and when the voice detection unit 302 detects the voice data, the determination unit 700 sends the control unit 710. Output audio data.
  • the control unit 710 When the control unit 710 receives the sound source control command output by the determination unit 700, the control unit 710 outputs an operation stop signal to the speakers 130, 131, the movable units 140 to 160, and the like. Then, the outputs of the speakers 130 and 131, which are sound sources, and the actuators, motors, and the like of the movable parts 140 to 160 are stopped. As a result, the control unit 710 can reduce the sound emitted by the sound source that hinders the detection of the voice data, and can create a state in which the voice data can be easily detected.
  • control unit 710 when the control unit 710 receives the voice data detected during a predetermined time after outputting the operation stop signal to the speakers 130, 131, the movable parts 140 to 160, etc., the control unit 710 receives the voice data detected by the user based on the received voice data. Recognize voice instructions. Further, the control unit 710 outputs an operation signal according to the recognized voice instruction to operate the camera 110 and the microphone 120, output the speakers 130 and 131, and operate the actuators and motors of the movable parts 140 to 160. Control. As a result, the control unit 710 operates the camera 110 and the microphone 120, outputs and moves the speakers 130 and 131, based on the user's voice instruction after receiving the sound source control command, regardless of the state before receiving the sound source control command. The operation of units 140 to 160 and the like can be controlled.
  • the control unit 710 when the control unit 710 receives the operation restart instruction output by the determination unit 700, the operation signal is such that the output of the speakers 130 and 131 and the operation of the movable units 140 to 160 and the like before receiving the sound source control command are restarted. Is output. As a result, the control unit 710 can restart the operations of the outputs of the speakers 130 and 131, the movable units 140 to 160, and the like before receiving the sound source control command.
  • FIG. 8 is a third flowchart showing the flow of operation control processing by the control device. The difference from the flowchart shown in FIG. 4 is steps S801 to S804.
  • step S801 the voice detection unit 302 determines whether or not voice data has been detected. If it is determined in step S801 that the voice data has been detected (YES in step S801), the process proceeds to step S802.
  • step S802 the determination unit 700 outputs the voice data detected by the voice detection unit 302 to the control unit 710.
  • the control unit 710 recognizes the user's voice instruction based on the voice data output by the determination unit 700, and outputs an operation signal corresponding to the recognized voice instruction to the camera 110, the microphone 120, the speakers 130, 131, and the movable unit. Output to 140 to 160 and so on. Then, the operation of the camera 110 and the microphone 120, the output of the speakers 130 and 131, and the operation of the movable parts 140 to 160 and the like are controlled.
  • step S801 if the voice data is not detected in step S801 (NO in step S801), the process proceeds to step S803.
  • step S803 the determination unit 700 determines whether or not a predetermined time has elapsed since the control unit 710 stopped the operations of the output of the speakers 130 and 131, the movable units 140 to 160, and the like in step S407. If it is determined in step S803 that the predetermined time has not elapsed (NO in step S803), the process returns to step S801.
  • step S803 determines whether the predetermined time has elapsed (YES in step S803). If it is determined in step S803 that the predetermined time has elapsed (YES in step S803), the process proceeds to step S804.
  • step S804 the determination unit 700 outputs an operation restart instruction to the control unit 710. Further, the control unit 710 outputs an operation signal so as to restart the operations of the speakers 130 and 131 and the movable units 140 to 160 before receiving the sound source control command. As a result, the control unit 710 can restart the operations of the outputs of the speakers 130 and 131, the movable units 140 to 160, and the like before receiving the sound source control command.
  • the control device 100 according to the third embodiment is further provided with the configuration of the control device 100 according to the first embodiment. -When a voice instruction is received in a state where voice data is easy to detect, the operation of the camera or microphone, the output of the speaker, the operation of moving parts, etc. are controlled based on the voice instruction. -When the voice instruction is not received under the state where the voice data is easy to detect, the operation of the speaker output, the moving part, etc. before creating the state where the voice data is easy to detect is restarted.
  • the control device 100 according to the third embodiment determines whether or not the user has given the voice instruction. It can be judged correctly. As a result, according to the control device 100 according to the third embodiment, it is possible to avoid a situation in which the robot operates against the intention of the user.
  • the camera 110 is described as being arranged on the robot 10. However, the camera 110 may be arranged in addition to the robot 10. Alternatively, the camera 110 may be arranged on the robot 10, and then a camera other than the camera 110 may be arranged on the robot 10.
  • the fourth embodiment will be described focusing on the differences from the first embodiment.
  • FIG. 9 is a first diagram showing an example of the working environment of the robot. As shown in FIG. 9, cameras 900_1 and 900_2 are attached to the living room 900 in which the robot 10 performs various tasks, and a user (not shown) of the robot 10 is photographed. Further, the image data taken by the cameras 900_1 and 900_2 is transmitted to the robot 10.
  • the face of the user of the robot 10 is detected and the lip movement is detected based on the image data taken by the cameras 900_1 and 900_2, which are separate from the robot 10. can do.
  • the face of the user is detected even when the camera 110 arranged on the robot 10 is not facing the user of the robot 10. At the same time, lip movement can be detected.
  • the face detection unit 304 of the control device 100 receives the image data
  • the face of the camera 110 is not the face of the user facing the direction of the camera 900_1 or the camera 900_2. Detects the user's face facing the direction.
  • the cameras 900_1 and 900_2 that are separate from the robot 10, it is possible to increase the possibility of detecting the lip movement of the user of the robot 10 (preventing omission of detection of the user's lip movement). it can).
  • the face detection unit 304 detects the face in each of the image data taken by the camera 110 arranged on the robot 10 and the image data taken by the cameras 900_1, 900_2, etc., which are separate from the robot 10. It may be configured as.
  • the lip motion detection unit 305 may be configured to detect the user's lip motion by selecting the face image data in which the lip region is captured from the face image data detected in each image data. Good. Then, in any of the face image data, when the user's lip movement is not detected, the detection result indicating that the user's lip movement is not detected may be output to the determination unit 306. Good.
  • FIG. 10 is a second diagram showing an example of the hardware configuration of the robot control device. The difference from the hardware configuration shown in FIG. 2 is that the communication device 205 communicates with the cameras 900_1 to 900_n, which are separate from the robot 10.
  • the control device 100 can acquire the image data captured and transmitted by the cameras 900_1 to 900_n.
  • the robot 10 according to the fourth embodiment acquires image data taken by a camera (a camera separate from the robot 10) attached to a living room in which the robot 10 performs various tasks. To do.
  • the robot 10 according to the fourth embodiment detects the user's lip movement based on the image data taken by the camera (and the image data taken by the camera mounted on the robot 10).
  • the possibility of detecting the lip movement of the user can be further increased.
  • control units 102, 510, and 710 control the outputs of the speakers 130 and 131 of the robot 10, the operations of the movable units 140 to 160, and the like based on the sound source control command. explained.
  • the sound source for which the control units 102, 510, and 710 reduce the sound based on the sound source control command is not limited to the speakers 130, 131, the movable parts 140 to 160, and the like of the robot 10.
  • it may be configured to reduce the sound emitted by an external sound source other than the robot 10.
  • the fifth embodiment will be described focusing on the differences from the first to fourth embodiments.
  • FIG. 11 is a second diagram showing an example of the working environment of the robot. As shown in FIG. 11, a plurality of external sound sources are arranged in the living room 1100 in which the robot 10 performs various tasks.
  • external sound sources such as audio equipment speakers, TV speakers, air conditioners, electric fans, air purifiers, and water supply facilities are arranged.
  • communication devices are arranged in audio equipment, televisions, and air conditioners, and are connected to the robot 10 via wired or wireless communication.
  • the operation of each device of the audio device, the television, and the air conditioner can be controlled via the communication device.
  • the control device 100 of the robot 10 according to the fifth embodiment transmits a signal for stopping the operation of each device to each device of the audio device, the television, and the air conditioner.
  • the control device 100 of the robot 10 according to the fifth embodiment stops the operation of each device and reduces the sound emitted by each device.
  • control device 100 of the robot 10 according to the fifth embodiment transmits a signal for lowering the volume, for example, to an audio device or a television.
  • the control device 100 of the robot 10 according to the fifth embodiment reduces the sound emitted by the audio equipment or the television.
  • control device 100 of the robot 10 according to the fifth embodiment outputs, for example, a signal for lowering the air volume (or a signal for changing the set temperature) or the like to the air conditioner.
  • the control device 100 of the robot 10 according to the fifth embodiment lowers the air volume of the air conditioner (changes the set temperature of the air conditioner) and reduces the sound emitted by the air conditioner.
  • control device 100 of the robot 10 according to the fifth embodiment it is possible to create a state in which voice data can be easily detected.
  • control device 100 of the robot 10 according to the fifth embodiment controls the operation of the movable portion 140 in order to operate each device of the electric fan, the air purifier, and the water supply facility.
  • the control device 100 of the robot 10 according to the fifth embodiment has a movable portion 140 so as to operate, for example, a switch for stopping the operation of the electric fan (or a switch for reducing the air volume). Control the operation.
  • the control device 100 of the robot 10 according to the fifth embodiment stops the operation of the electric fan and reduces the sound emitted by the electric fan.
  • control device 100 of the robot 10 according to the fifth embodiment controls the operation of the movable portion 140 so as to operate a switch for stopping the operation of the air purifier, for example. As a result, the control device 100 of the robot 10 according to the fifth embodiment stops the operation of the air purifier and reduces the sound emitted by the air purifier.
  • control device 100 of the robot 10 according to the fifth embodiment controls the operation of the movable portion 140 so as to, for example, twist the faucet of the water supply to stop the water (or reduce the amount of water).
  • the control device 100 of the robot 10 according to the fifth embodiment stops the water (or reduces the amount of water) and reduces the sound generated by the water flowing out from the tap.
  • the operation of the external sound source by controlling the operation of the movable portion 140 is realized by a known method.
  • external sound sources are arranged at different positions in the living room 1100, but the robot 10 may control each external sound source to reduce the sound emitted by each external sound source. .. Alternatively, the robot 10 may control one of the external sound sources to reduce the sound emitted by the one of the external sound sources.
  • the external sound source closer to the robot 10 may be controlled.
  • the external sound source controlled by the robot 10 may be limited to the external sound source arranged within the distance d from the robot 10.
  • the distance d may be changed according to the distance between the user of the robot 10 and the microphone 120 of the robot 10. For example, the distance d may be calculated by multiplying the distance between the user of the robot 10 and the microphone 120 of the robot 10 by a predetermined coefficient.
  • the robot 10 according to the fifth embodiment reduces the sound emitted by an external sound source other than the robot 10.
  • the control device 100 according to the first embodiment can create a state in which voice data can be easily detected.
  • the voice detection rate can be improved in the robot that operates based on the voice instruction of the user.
  • FIG. 12 is a third diagram showing an example of the working environment of the robot. The difference from the working environment shown in FIG. 11 is that in the case of the living room 1200, an external sound source remote controller is arranged.
  • the remote controller 1 is an operator for remotely controlling an audio device
  • the remote controller 2 is an operator for remotely controlling a television
  • the remote controller 3 is an operator for remotely controlling the air conditioner
  • the remote controller 4 is an operator for remotely controlling the electric fan.
  • each device of the audio device, the television, the air conditioner, and the electric fan is operated via the remote controller 1 to the remote controller 4.
  • control device 100 of the robot 10 controls the operation of the movable portion 150 so as to operate the remote controls 1 to 4 of each device of the audio device, the television, the air conditioner, and the electric fan. To do.
  • control device 100 of the robot 10 controls the operation of the movable portion 150 so that the remote controller 1 performs an operation for stopping the audio device or lowering the volume.
  • control device 100 of the robot 10 controls the operation of the movable portion 150 so that the remote controller 2 is operated to turn off the television or reduce the volume of the television. To do.
  • control device 100 of the robot 10 causes the remote controller 3 to perform an operation for stopping the air conditioner, lowering the air volume, or changing the set temperature. Controls the operation of 150.
  • control device 100 of the robot 10 controls the operation of the movable portion 150 so that the remote controller 4 is operated to stop the electric fan or reduce the air volume. ..
  • the robot 10 according to the sixth embodiment reduces the sound emitted by an external sound source other than the robot 10 by operating the external sound source remote controller.
  • the control device 100 according to the sixth embodiment can create a state in which voice data can be easily detected.
  • the voice detection rate can be improved in the robot that controls based on the voice instruction of the user.
  • the seventh embodiment in order to reduce the sound emitted by such an external sound source, the user is requested to operate the external sound source.
  • the seventh embodiment will be described focusing on the differences from the first embodiment.
  • FIG. 13 is a diagram showing an example of the functional configuration of the control device.
  • the difference from the functional configuration shown in FIG. 3 is that the function of the determination unit 1300 and the function of the control unit 1310 are different from the function of the determination unit 306 and the function of the control unit 102 of FIG.
  • the determination unit 1300 is an example of an instruction unit, and determines whether or not voice data is detected by the voice detection unit 302 and whether or not the lip movement detection result is output from the lip movement detection unit 305. Further, the determination unit 1300 sends a voice to the control unit 1310 when the voice data is not detected by the voice detection unit 302 even though the lip movement detection result is output from the lip movement detection unit 305. Output the output command. As a result, the determination unit 1300 instructs the user to operate the external sound source.
  • the determination unit 1300 outputs the detection result of the lip movement from the lip movement detection unit 305, and when the voice detection unit 302 detects the voice data, the determination unit 1300 sends the control unit 1310 to the control unit 1310. Output audio data.
  • control unit 1310 When the control unit 1310 receives the voice output command output by the determination unit 1300, the control unit 1310 generates a voice output signal for requesting the user of the robot 10 to operate the external sound source. Further, the control unit 1310 outputs the synthesized voice based on the generated voice output signal to the user via the speakers 130 and 131.
  • the audio output signal for requesting the operation of the external sound source is, for example, ⁇ "Please turn off the TV” ⁇ "Pause music”, ⁇ "I can't hear you, so please stop the water.” And so on.
  • control unit 1310 can create a state in which voice data can be easily detected.
  • FIG. 14 is a fourth flowchart showing the flow of operation control processing by the control device. The difference from the flowchart shown in FIG. 4 is step S1401.
  • step S1401 the determination unit 1300 outputs a voice output command.
  • the control unit 1310 receives the voice output command, the control unit 1310 generates a voice output signal for requesting the user to operate the external sound source, and generates a synthetic voice based on the generated voice output signal via the speakers 130 and 131. Output.
  • the control unit 1310 can reduce the sound emitted by the external sound source and create a state in which the voice data can be easily detected.
  • the control device 100 according to the seventh embodiment reduces the sound emitted by the external sound source by requesting the user to operate the external sound source. As a result, the control device 100 according to the seventh embodiment can create a state in which voice data can be easily detected. As a result, according to the control device 100 according to the seventh embodiment, the voice detection rate can be improved in the robot that operates based on the voice instruction of the user.
  • the timing at which the determination units 306, 500, 700, and 1300 output the sound source control command is not mentioned, but various cases can be considered as the timing at which the sound source control command is output.
  • the sound source control command is issued before the end of the lip movement is detected. May be output.
  • the lip motion detection unit 305 detected the start end of the lip motion
  • the voice detection unit 302 detected the start end of the voice data, but the deviation between the detection position of the start end of the lip movement and the detection position of the start end of the voice data. It is assumed that the amount is equal to or more than a predetermined threshold value.
  • the determination unit may output the sound source control command at the timing when the deviation amount becomes equal to or more than a predetermined threshold value. That is, the determination unit 306 may output a sound source control command based on the amount of deviation between the detection position of the start end of the lip movement and the detection position of the start end of the voice data.
  • the lip motion detection unit 305 detected the end of the lip motion
  • the voice detection unit 302 detected the end of the voice data, but the deviation between the detection position of the end of the lip movement and the detection position of the end of the voice data. It is assumed that the amount is equal to or more than a predetermined threshold value.
  • the determination unit may output the sound source control command at the timing when the deviation amount becomes equal to or more than a predetermined threshold value. That is, the determination unit 306 may output a sound source control command based on the amount of deviation between the detection position at the end of the lip movement and the detection position at the end of the voice data.
  • the robot 10 has been described as having the movable portions 140 to 160, but the robot 10 may have a movable portion other than the movable portions 140 to 160.
  • the movable portion other than the movable portion 140 to 160 includes, for example, a suction portion and a fan.
  • the order in which the control unit reduces the sound is not particularly mentioned, but for example, the sounds are produced according to a predetermined priority. It may be reduced. Alternatively, at the same time, all sounds may be reduced.
  • the function of the control device 100 has been described as being realized by the processor 201 executing the control program.
  • the function of the control device 100 may be realized by a circuit composed of an analog circuit, a digital circuit, or an analog / digital mixed circuit.
  • a control circuit that realizes the function of the control device 100 may be provided.
  • the implementation of each circuit may be by ASIC (Application Specific Integrated Circuit), FPGA (Field Programmable Gate Array) or the like.
  • the control program when executing the control program, may be stored in a storage medium such as a flexible disk or a CD-ROM, read by a computer, and executed.
  • the storage medium is not limited to a removable one such as a magnetic disk or an optical disk, and may be a fixed storage medium such as a hard disk device or a memory.
  • the processing by software may be implemented in a circuit such as FPGA and executed by hardware. The job may be executed by using an accelerator such as a GPU (Graphics Processing Unit), for example.
  • Robot 100 Control device 101: Stop unit 102: Control unit 110: Camera 120: Microphone 130, 131: Speaker 140, 150: Movable part 160: Movable part 301: Sound acquisition unit 302: Sound detection unit 303: Image acquisition Unit 304: Face detection unit 305: Lip motion detection unit 306: Judgment unit 500: Judgment unit 510: Control unit 700: Judgment unit 710: Control unit 900: Living room 900_1, 900_2: Camera 1100, 1200: Living room 1300: Judgment unit 1310 : Control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Robotics (AREA)
  • General Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させる。ロボットの制御装置は、少なくとも1つのメモリと、少なくとも1つのプロセッサと、を備え、前記少なくとも1つのプロセッサは、取得した画像データに基づいて、ユーザの***動作を検出することと、取得した音データから、音声データを検出することと、前記ユーザの***動作を検出した場合であって、前記音声データを検出しなかった場合に、音源が発する音を低減させるよう指示することとを実行するよう構成される。

Description

制御装置、ロボット、制御方法及び制御プログラム
 本開示は、制御装置、ロボット、制御方法及び制御プログラムに関する。
 従来より、ユーザの音声指示に基づいて動作するロボットが知られている。一例として、ユーザが発話した際に、マイクを適切な位置に移動させることで、ユーザの音声を適切な音圧で検出するロボットが挙げられる。
 しかしながら、このようなロボットであっても、例えば、ユーザの音声以外の音(ロボット自身が発する音や周囲の音)が大きい場合には、ユーザの音声を検出できないことがある。
特開2008-126329号公報
 本開示は、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることを目的とする。
 本開示の一態様による制御装置は、例えば、以下のような構成を有する。即ち、
 取得した画像データに基づいて、ユーザの***動作を検出する***動作検出部と、
 取得した音データから、音声データを検出する音声検出部と、
 前記***動作検出部が前記ユーザの***動作を検出した場合であって、前記音声検出部が音声データを検出しなかった場合に、音源が発する音を低減させるよう指示する指示部とを有する。
図1は、ロボットの外観構成の一例を示す図である。 図2は、制御装置のハードウェア構成の一例を示す第1の図である。 図3は、制御装置の機能構成の一例を示す第1の図である。 図4は、制御装置による動作制御処理の流れを示す第1のフローチャートである。 図5は、制御装置の機能構成の一例を示す第2の図である。 図6は、制御装置による動作制御処理の流れを示す第2のフローチャートである。 図7は、ロボットの制御装置の機能構成の一例を示す第3の図である。 図8は、制御装置による動作制御処理の流れを示す第3のフローチャートである。 図9は、ロボットの作業環境の一例を示す第1の図である。 図10は、制御装置のハードウェア構成の一例を示す第2の図である。 図11は、ロボットの作業環境の一例を示す第2の図である。 図12は、ロボットの作業環境の一例を示す第3の図である。 図13は、制御装置の機能構成の一例を示す第4の図である。 図14は、制御装置による動作制御処理の流れを示す第4のフローチャートである。
 以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
 [第1の実施形態]
 <ロボットの外観構成>
 はじめに、本実施形態に係る制御装置の制御対象であるロボットの外観構成について説明する。図1は、ロボットの外観構成の一例を示す図である。
 ロボット10は、ユーザの音声指示に基づいて動作する。図1に示すように、ロボット10は、カメラ110と、マイクロフォン120と、スピーカ130、131と、可動部140、150(複数の関節、エンドエフェクタ)と、可動部160(移動機構)とを有する。また、ロボット10は、制御装置100を内蔵する。ただし、制御装置100は、ロボット10に内蔵させずに、別のコンピュータで実現してもよい。その場合、別のコンピュータは、通信によりロボット10との間で情報の送受信を行う。
 カメラ110は撮像装置(撮像部)の一例であり、ロボット10の周囲を撮影し、画像データを生成する。なお、図1の例では、カメラ110が2つの撮像素子を有する場合について示しているが、撮像素子は2つに限定されない。また、図1の例は、カメラ110がロボット10に搭載される場合について示しているが、カメラ110は、ロボット10とは別体に配されていてもよい。
 マイクロフォン120は集音装置(集音部)の一例であり、空気などを伝播してくる音を検出し、音データを生成する。マイクロフォン120が検出する音には、ロボット10の周囲の環境音のほか、ロボット10自身が発する音、ロボット10のユーザが発する音声等が含まれる。なお、図1の例では、1つのマイクロフォン120のみを示したが、ロボット10は、複数のマイクロフォンを有していてもよい。
 スピーカ130、131は音声出力装置の一例であり、制御装置100において生成された音声信号に基づく合成音声等を出力する。
 可動部140、150は、ロボット10が行う各種作業(例えば、ユーザとコミュニケーションをとりながら、物体を把持し、把持した状態で移動することで、当該物体を目的の場所まで運ぶ作業等)において、把持動作等を実行する。可動部140、150に含まれる複数の関節及びエンドエフェクタは、それぞれ、アクチュエータを備える。
 可動部160は、ロボット10が行う各種作業において、移動動作等を実行する。可動部160に含まれる移動機構は、車輪、モータ、ギア、ベルト、アクチュエータ等を備える。
 制御装置100は、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140、150のアクチュエータ等の動作、可動部160のモータ、アクチュエータ等の動作を制御する制御部102を有する。制御部102は、ユーザとコミュニケーションをとりながら、ロボット10に把持動作や移動動作等を実行させる。
 また、制御装置100は、制御部102に対して音源制御命令を出力する停止部101を有する。停止部101は、ロボット10により各種作業が行われている最中に、スピーカ130、131や可動部140~160が発する音(ロボット10自身が発する音)が原因でユーザの音声を検出できない場合に、制御部102に音源制御命令を出力する。なお、停止部101では、ロボット10により各種作業が行われているか否かを、作業中フラグに基づいて判定する。
 これにより、制御部102では、例えば、音源であるスピーカ130、131の出力や可動部140~160のアクチュエータ、モータ等の動作を制御し、ユーザの音声が検出しやすい状態を作り出す。この結果、ユーザの音声指示に基づいて動作するロボット10において、音声検出率を向上させることができる。
 <制御装置のハードウェア構成>
 次に、ロボット10に内蔵される制御装置100のハードウェア構成について説明する。図2は、制御装置のハードウェア構成の一例を示す第1の図である。
 図2に示すように、制御装置100は、プロセッサ201と、主記憶装置202と、補助記憶装置203と、デバイスインタフェース204と、通信装置205とを備え、これらの各構成要素がバス210を介して接続されたコンピュータとして実現される。
 なお、図2の例では、制御装置100は、各構成要素を1個ずつ備えているが、同じ構成要素を複数個ずつ備えていてもよい。また、図2の例では、1台の制御装置が示されているが、複数台の制御装置を配し、ソフトウェア(例えば、後述する制御プログラム)が当該複数台の制御装置にインストールされて、各制御装置がソフトウェアの異なる一部の処理を実行するように構成してもよい。この場合、複数の制御装置それぞれがネットワークインタフェース等を介して、相互に通信してもよい。
 プロセッサ201は、演算装置を含む電子回路(処理回路、Processing circuit、Processing circuitry)である。プロセッサ201は、制御装置100内の各構成要素などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各構成要素などに出力する。具体的には、プロセッサ201は、OS(Operating System)やアプリケーションなどを実行することにより、制御装置100内の各構成要素を制御する。なお、プロセッサ201は、上記のような処理を行うことができれば特定の処理回路に限られるものではない。ここで、処理回路とは、1チップ上に配置された1又は複数の電子回路を指してもよいし、2つ以上のチップあるいはデバイス上に配置された1又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線または無線により通信してもよい。
 主記憶装置202は、プロセッサ201が実行する命令およびデータなどの電子情報を記憶する記憶装置である。主記憶装置202に記憶された電子情報はプロセッサ201により直接読み出される。補助記憶装置203は、主記憶装置202以外の記憶装置である。なお、これらの記憶装置は、電子情報を記憶可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれであってもよい。制御装置100内において電子情報を保存するためのメモリは、主記憶装置202または補助記憶装置203により実現されてもよい。
 デバイスインタフェース204は、ロボット10が有するカメラ110、マイクロフォン120、スピーカ130、131、可動部140~160と接続するUSB(Universal Serial Bus)などのインタフェースである。
 通信装置205は、ロボット10の外部の各種機器と通信を行う通信デバイスである。ロボット10は、通信装置205を介して、ロボット10の外部の各種機器に命令を送信し、外部の各種機器を制御する。
 <制御装置の機能構成>
 次に、ロボット10に内蔵される制御装置100の機能構成について説明する。上述したとおり、制御装置100には制御プログラムがインストールされており、プロセッサ201が、当該プログラムを実行することで、制御装置100は、停止部101及び制御部102として機能する。なお、制御装置100が実現するこれらの構成のうち、ここでは、主に停止部101の機能について説明する。
 図3は、制御装置の機能構成の一例を示す第1の図である。図3に示すように、停止部101は、音取得部301、音声検出部302、画像取得部303、顔検出部304、***動作検出部305、判定部306を有する。停止部101は、ロボット10が各種作業中であることを示す作業中フラグを制御部102から受信している間、各部が機能する。
 音取得部301は、マイクロフォン120により生成された音データを取得し、音声検出部302に出力する。
 音声検出部302は、音取得部301により出力された音データを受け取り、受け取った音データに音声データが含まれるか否かを判定する。また、音声検出部302は、受け取った音データに音声データが含まれると判定した場合、音声データを検出し、検出した音声データを判定部306に出力する。
 画像取得部303は、カメラ110により出力された画像データを取得し、顔検出部304に出力する。
 顔検出部304は、画像取得部303により出力された画像データを受け取り、カメラ110の方向を向いたユーザの顔を検出し、検出した顔の画像(顔画像データ)を切り出す。また、顔検出部304は、切り出した顔画像データを***動作検出部305に出力する。
 ***動作検出部305は、顔画像データに含まれる***領域から、ユーザの***動作を検出する。また、***動作検出部305は、***動作の検出結果を判定部306に出力する。
 判定部306は指示部の一例である。音声検出部302により音声データが検出されたか否か、及び、***動作検出部305より***動作の検出結果が出力されたか否かを判定する。また、判定部306は、***動作検出部305より***動作の検出結果が出力されたにも関わらず、音声検出部302により音声データが検出されていない場合に、制御部102に対して、音源制御命令を出力することで、音源が発する音を低減させるよう指示する。
 なお、判定部306は、***動作検出部305より***動作の検出結果が出力され、音声検出部302により音声データが検出された場合には、制御部102に対して、検出された音声データを出力する。
 制御部102は、判定部306により出力された音源制御命令を受け取ると、スピーカ130、131や可動部140~160等に動作停止信号を出力する。そして、音源であるスピーカ130、131の出力や可動部140~160のアクチュエータ、モータ等の動作を制御する。これにより、制御部102は、音声データの検出を妨げる音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。
 一方、制御部102は、判定部306により出力された音声データを受け取ると、受け取った音声データに基づいて、ユーザの音声指示を認識する。また、制御部102は、認識した音声指示に基づいて、カメラ110、マイクロフォン120、スピーカ130、131、可動部140~160等に動作信号を出力する。そして、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140~160のアクチュエータ、モータ等の動作を制御する。これにより、制御部102は、ユーザの音声指示に基づいて、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140~160等の動作を制御することができる。
 <動作制御処理の流れ>
 次に、制御装置100による動作制御処理の流れについて説明する。図4は、制御装置による動作制御処理の流れを示す第1のフローチャートである。
 ステップS401において、停止部101は、ロボット10が作業中であるか否かを判定する。制御部102から作業中フラグを受信していない場合、停止部101は、ロボット10が作業中でないと判定し(ステップS401においてNOと判定し)、動作制御処理を終了する。
 一方、制御部102から作業中フラグを受信している場合、停止部101は、ロボット10が作業中であると判定し(ステップS401においてYESと判定し)、ステップS402に進む。
 ステップS402において、画像取得部303は、カメラ110から画像データを取得する。
 ステップS403において、顔検出部304は、取得された画像データから、カメラ110の方向を向いたユーザの顔を検出したか否かを判定する。ステップS403において、ユーザの顔を検出しなかった場合には(ステップS403においてNOの場合には)、ステップS401に戻る。
 一方、ステップS403において、ユーザの顔を検出した場合には(ステップS403においてYESの場合)、顔検出部304は、顔画像データを切り出し、ステップS404に進む。
 ステップS404において、***動作検出部305は、切り出された顔画像データに基づいて***動作を検出したか否かを判定する。ステップS404において、***動作を検出しなかった場合には(ステップS404においてNOの場合には)、ステップS401に戻る。
 一方、ステップS404において、***動作を検出した場合には(ステップS404においてYESの場合には)、ステップS405に進む。
 なお、ステップS403において、ユーザの顔を複数検出した場合には、***動作検出部305は、ステップS404の処理を、検出された顔の数に応じた回数だけ繰り返し実行する。また、ステップS404において、***動作を1つでも検出した場合には、ステップS405に進む。
 ステップS405において、音取得部301は、マイクロフォン120から音データを取得する。
 ステップS406において、音声検出部302は、取得された音データに音声データが含まれるか否かを判定する。ステップS406において、取得された音データに音声データが含まれると判定された場合、音声検出部302は、音声データを検出する(ステップS406においてYES)。また、判定部306は、検出された音声データを制御部102に出力した後、ステップS401に戻る。
 この場合、制御部102では、検出された音声データに基づいて、ユーザの音声指示を認識し、認識した音声指示に基づく動作信号を、カメラ110、マイクロフォン120、スピーカ130、131、可動部140~160等に出力する。そして、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140~160等の動作を制御する。これにより、制御部102は、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140~160のアクチュエータ、モータ等の動作を、ユーザの音声指示に基づいて制御することができる。
 一方、ステップS406において、取得された音データに音声データが含まれないと判定された場合、音声検出部302は、音声データを検出しないため(ステップS406においてNO)、ステップS407に進む。
 ステップS407において、判定部306は、音源制御命令を制御部102に出力する。また、制御部102は、動作停止信号を、スピーカ130、131や可動部140~160等に出力する。そして、音源であるスピーカ130、131の出力や可動部140~160等の動作を制御する。具体的には、制御部102は、ユーザの音声指示に対する反応以外の合成音声をスピーカ130、131から出力するのを停止させる、あるいは、スピーカ130、131から音楽を出力するのを停止させる、あるいは、可動部140~160等の動作を停止させる。
 なお、図4の例では、ステップS402からステップS406までの処理を、順に実行する場合について示したが、ステップS402からステップS404までの処理と、ステップS405からステップS406までの処理とは、並行して実行されてもよい。
 その場合、判定部306がステップS407の処理を実行する前に同期処理を行い、***動作を検出した場合であって、かつ、音声データを検出しなかった場合にのみ、判定部306がステップS407の処理を実行するように構成する。
 また、図4の例では、ステップS406において、音声データを検出した場合、ステップS401に戻るものとして説明した。しかしながら、音声データを検出した場合であっても、制御部102が、当該音声データから音声指示を認識できない、または、その確信度が低い(例えば、所定の閾値以下)と判定した場合には、音声データが検出されなかった場合と同様な制御を行ってもよい。この場合、判定部406は、ステップS407に進み、音源制御命令を出力するように構成してもよい。
 このように構成することで、制御部102は、
・音データからの音声データの検出状況、または
・検出した音声データの認識状況(例えば、音声認識のスコア(尤度情報))、
に基づいて、動作停止信号を出力することが可能となる。
 また、図4の例では、ステップS407において判定部306が音源制御命令を出力した際、制御部102が、スピーカ130、131や可動部140~160等に動作停止信号を出力するものとして説明した。しかしながら、制御部102は、スピーカ130、131に音量を下げるための信号を出力したり、可動部140~160等に可動部140~160等の動作速度を落とすための減速信号を出力してもよい。これにより、制御部102は、スピーカ130、131の音量を下げたり、可動部140~160等の動作を減速させることができる。
 また、図4の例では省略したが、顔画像データに基づいて***動作を検出しなかった場合であっても、音声検出部302が音声データを検出した場合には、判定部306は、検出された音声データを制御部102に出力するように構成してもよい。
 <まとめ>
 以上の説明から明らかなように、第1の実施形態に係る制御装置100は、
・取得した画像データに基づいて、ユーザの***動作を検出する。
・取得した音データから音声データを検出する。
・ユーザの***動作を検出した場合であって、音声データを検出しなかった場合、動作停止信号(または音量を下げるための信号、減速信号)を出力する。あるいは、
・ユーザの***動作を検出し、かつ、音声データを検出した場合であって、音声データを認識した際の尤度情報が所定の閾値以下であった場合、動作停止信号(または音量を下げるための信号、減速信号)を出力する。
・そして、スピーカの出力や可動部等の動作を制御する(またはスピーカの出力を停止させる、音量を下げる、可動部等の動作を停止させる、減速させる)ことで、音源であるスピーカや可動部が発する音を低減させる。
 これにより、第1の実施形態に係る制御装置100では、音声データを検出しやすい状態を作り出すことができる。この結果、第1の実施形態に係る制御装置100によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。
 [第2の実施形態]
 上記第1の実施形態では、制御装置100が、動作制御処理として、音声データを検出しやすい状態を作り出す処理を実行したが、第2の実施形態では、更に、制御装置100が、当該状態のもとで音声指示の発話を促す処理を実行する。以下、第2の実施形態について、上記第1の実施形態との相違点を中心に説明する。
 <制御装置の機能構成>
 はじめに、第2の実施形態に係る制御装置100の機能構成について説明する。図5は、制御装置の機能構成の一例を示す第2の図である。図3に示した機能構成との相違点は、判定部500の機能及び制御部510の機能が、図3の判定部306の機能及び制御部102の機能とは異なる点である。
 判定部500は指示部の一例であり、音声検出部302により音声データが検出されたか否か、及び、***動作検出部305より***動作の検出結果が出力されたか否かを判定する。また、判定部500は、***動作検出部305より***動作の検出結果が出力されたにも関わらず、音声検出部302により音声データが検出されていない場合に、制御部510に対して、音源制御命令と再発声指示とを出力する。これにより、判定部500は、音源が発する音を低減させるよう指示するとともに、音声指示の発話を促すよう指示する。
 なお、判定部500は、図3の判定部306同様、***動作検出部305より***動作の検出結果が出力され、音声検出部302により音声データが検出された場合には、制御部510に対して、音声データを出力する。
 制御部510は、判定部500により出力された音源制御命令を受け取ると、スピーカ130、131や可動部140~160等に動作停止信号を出力する。そして、音源であるスピーカ130、131や可動部140~160のアクチュエータ、モータ等の動作を停止させる。これにより、制御部510は、音声データの検出を妨げる音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。
 また、制御部510は、判定部500により出力された再発声指示を受け取ると、音声指示の発話を促す音声出力信号を生成し、生成した音声出力信号に基づく合成音声を、スピーカ130、131を介して出力する。音声指示の発話を促す音声出力信号とは、例えば、「もう一度話してください」といった合成音声を出力するための音声出力信号である。これにより、制御部510は、音声データを検出しやすい状態のもとで、ユーザに音声指示の発話を促すことができる。
 <動作制御処理の流れ>
 次に、第2の実施形態に係る制御装置100による動作制御処理の流れについて説明する。図6は、制御装置による動作制御処理の流れを示す第2のフローチャートである。図4に示すフローチャートとの相違点は、ステップS601である。
 ステップS601において、制御部510は、音声指示の発話を促す音声出力信号を生成し、生成した音声出力信号に基づく合成音声を、スピーカ130、131を介して出力する。
 <まとめ>
 以上の説明から明らかなように、第2の実施形態に係る制御装置100は、上記第1の実施形態に係る制御装置100の構成に加えて、更に、音声指示の発話を促す構成を有する。
 これにより、第2の実施形態に係る制御装置100では、音声データを検出しやすい状態のもとで、ユーザの音声指示を受け取ることができる。この結果、第2の実施形態に係る制御装置100によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。
 [第3の実施形態]
 上記第1の実施形態では、制御装置100が、動作制御処理として、音声データを検出しやすい状態を作り出す処理を実行したが、第3の実施形態では、更に、制御装置100が、当該状態のもとでユーザの音声指示の有無を判定する。以下、第3の実施形態について、上記第1の実施形態との相違点を中心に説明する。
 <制御装置の機能構成>
 はじめに、第3の実施形態に係る制御装置100の機能構成について説明する。図7は、制御装置の機能構成の一例を示す第3の図である。図3に示した機能構成との相違点は、判定部700の機能及び制御部710の機能が、図3の判定部306の機能及び制御部102の機能とは異なる点である。
 判定部700は指示部の一例であり、音声検出部302により音声データが検出されたか否か、及び、***動作検出部305より***動作の検出結果が出力されたか否かを判定する。また、判定部700は、***動作検出部305より***動作の検出結果が出力されたにも関わらず、音声検出部302により音声データが検出されていない場合に、制御部710に対して、音源制御命令を出力する。これにより、判定部700は、音源が発する音を低減させるよう指示する。
 更に、判定部700は、音源制御命令を出力した後の所定時間の間に、音声検出部302により音声データが検出されなかった場合に、制御部710に動作再開指示を出力することで、音源制御命令を出力する前の動作を再開するよう指示する。また、判定部700は、音源制御命令を出力した後の所定時間の間に、音声検出部302により音声データが検出された場合に、制御部710に音声データを出力する。
 なお、判定部700は、図3の判定部306同様、***動作検出部305より***動作の検出結果が出力され、音声検出部302により音声データが検出された場合、制御部710に対して、音声データを出力する。
 制御部710は、判定部700により出力された音源制御命令を受け取ると、スピーカ130、131や可動部140~160等に動作停止信号を出力する。そして、音源であるスピーカ130、131の出力や可動部140~160のアクチュエータ、モータ等の動作を停止させる。これにより、制御部710は、音声データの検出を妨げる音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。
 また、制御部710は、スピーカ130、131や可動部140~160等に動作停止信号を出力した後の所定時間の間に検出された音声データを受け取ると、受け取った音声データに基づいて、ユーザの音声指示を認識する。また、制御部710は、認識した音声指示に応じた動作信号を出力することで、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140~160のアクチュエータ、モータ等の動作を制御する。これにより、制御部710は、音源制御命令を受け取る前の状態の如何によらず、受け取った後のユーザの音声指示に基づいて、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140~160等の動作を制御することができる。
 また、制御部710は、判定部700により出力された動作再開指示を受け取ると、音源制御命令を受け取る前のスピーカ130、131の出力、可動部140~160等の動作を再開するよう、動作信号を出力する。これにより、制御部710は、音源制御命令を受け取る前のスピーカ130、131の出力、可動部140~160等の動作を再開させることができる。
 <動作制御処理の流れ>
 次に、第3の実施形態に係る制御装置100による動作制御処理の流れについて説明する。図8は、制御装置による動作制御処理の流れを示す第3のフローチャートである。図4に示すフローチャートとの相違点は、ステップS801~S804である。
 ステップS801において、音声検出部302は、音声データを検出したか否かを判定する。ステップS801において、音声データを検出したと判定した場合には(ステップS801においてYESの場合には)、ステップS802に進む。
 ステップS802において、判定部700は、音声検出部302により検出された音声データを制御部710に出力する。制御部710は、判定部700により出力された音声データに基づいて、ユーザの音声指示を認識し、認識した音声指示に応じた動作信号を、カメラ110、マイクロフォン120、スピーカ130、131、可動部140~160等に出力する。そして、カメラ110やマイクロフォン120の動作、スピーカ130、131の出力、可動部140~160等の動作を制御する。
 一方、ステップS801において、音声データを検出していない場合には(ステップS801においてNOの場合には)、ステップS803に進む。
 ステップS803において、判定部700は、ステップS407において、制御部710がスピーカ130、131の出力、可動部140~160等の動作を停止させてから、所定時間が経過したか否かを判定する。ステップS803において、所定時間が経過していないと判定した場合には(ステップS803においてNOの場合には)、ステップS801に戻る。
 一方、ステップS803において、所定時間が経過したと判定した場合には(ステップS803においてYESの場合には)、ステップS804に進む。
 ステップS804において、判定部700は、制御部710に動作再開指示を出力する。また、制御部710は、音源制御命令を受け取る前のスピーカ130、131の出力、可動部140~160等の動作を再開するよう、動作信号を出力する。これにより、制御部710は、音源制御命令を受け取る前のスピーカ130、131の出力、可動部140~160等の動作を再開させることができる。
 <まとめ>
 以上の説明から明らかなように、第3の実施形態に係る制御装置100は、上記第1の実施形態に係る制御装置100の構成に加えて、更に、
・音声データを検出しやすい状態のもとで音声指示を受け取った場合に、当該音声指示に基づいて、カメラやマイクロフォンの動作、スピーカの出力、可動部等の動作を制御する。
・音声データを検出しやすい状態のもとで音声指示を受け取らなかった場合に、音声データを検出しやすい状態を作り出す前のスピーカの出力、可動部等の動作を再開させる。
 このように、音声データを検出しやすい状態のもとで、ユーザの音声指示の有無を判定することで、第3の実施形態に係る制御装置100では、ユーザが音声指示を行ったか否かを正しく判定することができる。この結果、第3の実施形態に係る制御装置100によれば、ユーザの意図に反してロボットが動作するといった事態を回避することができる。
 [第4の実施形態]
 上記第1乃至第3の実施形態では、カメラ110をロボット10に配するものとして説明した。しかしながら、カメラ110はロボット10以外に配してもよい。あるいは、カメラ110をロボット10に配したうえで、更に、カメラ110以外のカメラを、ロボット10以外に配してもよい。以下、第4の実施形態について、上記第1の実施形態との相違点を中心に説明する。
 <ロボットの作業環境>
 はじめに、第4の実施形態に係るロボット10の作業環境について説明する。図9は、ロボットの作業環境の一例を示す第1の図である。図9に示すように、ロボット10が各種作業を行う居室900には、カメラ900_1、900_2が取り付けられており、ロボット10のユーザ(不図示)を撮影する。また、カメラ900_1、900_2により撮影された画像データは、ロボット10に送信される。
 これにより、第4の実施形態に係るロボット10では、ロボット10とは別体のカメラ900_1、900_2により撮影された画像データに基づいて、ロボット10のユーザの顔を検出するとともに、***動作を検出することができる。
 この結果、例えば、第4の実施形態に係るロボット10の場合、ロボット10に配されたカメラ110が、ロボット10のユーザの方向を向いていない場合であっても、当該ユーザの顔を検出するとともに、***動作を検出することができる。
 なお、第4の実施形態に係るロボット10の場合、制御装置100の顔検出部304では、画像データを受け取った際、カメラ900_1またはカメラ900_2の方向を向いたユーザの顔ではなく、カメラ110の方向を向いたユーザの顔を検出する。このように、ロボット10とは別体のカメラ900_1、900_2を活用することで、ロボット10のユーザの***動作を検出する可能性を高めることができる(ユーザの***動作の検出漏れを防ぐことができる)。
 なお、図9の例では、ロボット10とは別体のカメラとして2台のカメラを活用する場合について示したが、活用する別体のカメラは2台に限定されない。また、顔検出部304は、ロボット10に配されたカメラ110により撮影された画像データと、ロボット10とは別体のカメラ900_1、900_2等により撮影された画像データのそれぞれにおいて顔を検出するように構成してもよい。
 また、***動作検出部305は、それぞれの画像データにおいて検出された顔画像データのうち、***領域が写っている顔画像データを選択して、ユーザの***動作を検出するように構成してもよい。そして、いずれの顔画像データにおいても、ユーザの***動作を検出しなかった場合に、ユーザの***動作を検出しなかった旨の検出結果を判定部306に対して出力するように構成してもよい。
 <制御装置のハードウェア構成>
 次に、第4の実施形態に係るロボット10に内蔵される制御装置100のハードウェア構成について説明する。図10は、ロボットの制御装置のハードウェア構成の一例を示す第2の図である。図2に示したハードウェア構成との相違点は、通信装置205が、ロボット10とは別体のカメラ900_1~900_nと通信を行う点である。
 通信装置205がカメラ900_1~900_nと通信を行うことで、制御装置100では、カメラ900_1~900_nにより撮影され、送信された画像データを取得することができる。
 <まとめ>
 以上の説明から明らかなように、第4の実施形態に係るロボット10は、ロボット10が各種作業を行う居室に取り付けられたカメラ(ロボット10とは別体のカメラ)が撮影した画像データを取得する。また、第4の実施形態に係るロボット10は、当該カメラにより撮影された画像データ(及び、ロボット10に搭載されたカメラにより撮影された画像データ)に基づいて、ユーザの***動作を検出する。
 これにより、第4の実施形態に係るロボット10によれば、上記第1の実施形態において説明した効果に加えて、更に、ユーザの***動作を検出する可能性を高めることができる。
 [第5の実施形態]
 上記第1乃至第4の実施形態では、制御部102、510、710が、音源制御命令に基づいて、ロボット10のスピーカ130、131の出力、可動部140~160等の動作を制御するものとして説明した。
 しかしながら、音源制御命令に基づいて制御部102、510、710が音を低減させる音源は、ロボット10のスピーカ130、131、可動部140~160等に限定されない。例えば、ロボット10以外の外部音源が発する音を低減させるように構成してもよい。以下、第5の実施形態について、上記第1乃至第4の実施形態との相違点を中心に説明する。
 <ロボットの作業環境>
 はじめに、第5の実施形態に係るロボット10の作業環境について説明する。図11は、ロボットの作業環境の一例を示す第2の図である。図11に示すように、ロボット10が各種作業を行う居室1100には、複数の外部音源が配されている。
 具体的には、居室1100には、オーディオ機器のスピーカ、テレビのスピーカ、エアコン、扇風機、空気清浄器、水道設備等の外部音源が配されている。
 このうち、オーディオ機器、テレビ、エアコンには、通信装置が配されており、ロボット10と有線または無線を介して通信可能に接続される。
 このため、第5の実施形態に係るロボット10の制御装置100では、オーディオ機器、テレビ、エアコンの各機器の動作を、当該通信装置を介して制御することができる。具体的には、第5の実施形態に係るロボット10の制御装置100は、オーディオ機器、テレビ、エアコンの各機器に、各機器の動作を停止させるための信号を送信する。これにより、第5の実施形態に係るロボット10の制御装置100は、各機器の動作を停止させ、当該各機器が発する音を低減させる。
 あるいは、第5の実施形態に係るロボット10の制御装置100は、オーディオ機器またはテレビに、例えば、音量を下げるための信号を送信する。これにより、第5の実施形態に係るロボット10の制御装置100は、オーディオ機器またはテレビが発する音を低減させる。
 また、第5の実施形態に係るロボット10の制御装置100は、エアコンに、例えば、風量を下げるための信号(あるいは、設定温度を変更するための信号)等を出力する。これにより、第5の実施形態に係るロボット10の制御装置100は、エアコンの風量を下げさせ(エアコンの設定温度を変更させ)、エアコンが発する音を低減させる。
 この結果、第5の実施形態に係るロボット10の制御装置100によれば、音声データを検出しやすい状態を作り出すことができる。
 また、第5の実施形態に係るロボット10の制御装置100では、扇風機、空気清浄器、水道設備の各機器を操作するために、可動部140の動作を制御する。具体的には、第5の実施形態に係るロボット10の制御装置100は、例えば、扇風機の動作を停止させるためのスイッチ(あるいは、風量を下げるためのスイッチ)を操作するよう、可動部140の動作を制御する。これにより、第5の実施形態に係るロボット10の制御装置100は、扇風機の動作を停止させ、扇風機が発する音を低減させる。
 また、第5の実施形態に係るロボット10の制御装置100は、例えば、空気清浄器の動作を停止させるためのスイッチを操作するよう、可動部140の動作を制御する。これにより、第5の実施形態に係るロボット10の制御装置100は、空気清浄器の動作を停止させ、空気清浄器が発する音を低減させる。
 また、第5の実施形態に係るロボット10の制御装置100は、例えば、水道の蛇口をひねり、水を止める(あるいは、水量を下げる)よう、可動部140の動作を制御する。これにより、第5の実施形態に係るロボット10の制御装置100は、水を止めさせ(あるいは水量を下げさせ)、水道の蛇口から水が流れ出ることで発する音を低減させる。
 なお、可動部140の動作を制御することによる外部音源の操作は、公知の方法により実現される。
 なお、図11の例では、居室1100内の異なる位置にも外部音源が配されているが、ロボット10は、それぞれの外部音源を制御し、それぞれの外部音源が発する音を低減させてもよい。あるいは、ロボット10は、いずれか一方の外部音源を制御し、いずれか一方の外部音源が発する音を低減させてもよい。
 なお、いずれか一方の外部音源を制御するにあたっては、ロボット10に近い方の外部音源を制御するように構成してもよい。
 また、ロボット10が制御する外部音源を、ロボット10から距離d以内に配された外部音源に限定してもよい。なお、距離dは、ロボット10のユーザとロボット10のマイクロフォン120との間の距離に応じて変更するように構成してもよい。例えば、距離dは、ロボット10のユーザとロボット10のマイクロフォン120との間の距離に、予め定められた係数をかけ合わせることで算出するように構成してもよい。
 <まとめ>
 以上の説明から明らかように、第5の実施形態に係るロボット10は、ロボット10以外の外部音源が発する音を低減させる。これにより、第1の実施形態に係る制御装置100では、音声データを検出しやすい状態を作り出すことができる。この結果、第5の実施形態に係る制御装置100によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。
 [第6の実施形態]
 上記第5の実施形態では、ロボット10以外の外部音源が発する音を直接的に低減させる場合について説明した。これに対して、第6の実施形態では、ロボット10以外の外部音源が、リモートコントローラを介して操作可能な場合においては、リモートコントローラを操作することで、ロボット10以外の外部音源が発する音を低減させる。以下、第6の実施形態について、上記第5の実施形態との相違点を中心に説明する。
 <ロボットの作業環境>
 はじめに、第6の実施形態に係るロボット10の作業環境について説明する。図12は、ロボットの作業環境の一例を示す第3の図である。図11に示す作業環境との違いは、居室1200の場合、外部音源遠隔操作器が配されている点である。
 なお、図12において、リモコン1は、オーディオ機器を遠隔操作するための操作器であり、リモコン2は、テレビを遠隔操作するための操作器である。また、リモコン3は、エアコンを遠隔操作するための操作器であり、リモコン4は、扇風機を遠隔操作するための操作器である。
 第6の実施形態に係るロボット10の制御装置100では、オーディオ機器、テレビ、エアコン、扇風機の各機器を、リモコン1~リモコン4等を介して操作する。
 具体的には、第6の実施形態に係るロボット10の制御装置100は、オーディオ機器、テレビ、エアコン、扇風機の各機器のリモコン1~リモコン4等を操作するよう、可動部150の動作を制御する。
 例えば、第6の実施形態に係るロボット10の制御装置100は、リモコン1に対して、オーディオ機器を停止させる、あるいは、音量を下げるための操作を行うよう、可動部150の動作を制御する。
 また、例えば、第6の実施形態に係るロボット10の制御装置100は、リモコン2に対して、テレビを消す、あるいは、テレビの音量を下げるための操作を行うよう、可動部150の動作を制御する。
 また、例えば、第6の実施形態に係るロボット10の制御装置100は、リモコン3に対して、エアコンを停止させる、風量を下げる、あるいは、設定温度を変更するための操作を行うよう、可動部150の動作を制御する。
 また、例えば、第6の実施形態に係るロボット10の制御装置100は、リモコン4に対して、扇風機を停止させる、あるいは、風量を下げるための操作を行うよう、可動部150の動作を制御する。
 <まとめ>
 以上の説明から明らかなように、第6の実施形態に係るロボット10は、外部音源遠隔操作器を操作することで、ロボット10以外の外部音源が発する音を低減させる。これにより、第6の実施形態に係る制御装置100では、音声データを検出しやすい状態を作り出すことができる。この結果、第6の実施形態に係る制御装置100によれば、ユーザの音声指示に基づいて制御するロボットにおいて、音声検出率を向上させることができる。
 [第7の実施形態]
 上記第1乃至第6の実施形態では、ロボット10が音源(外部音源を含む)が発する音を低減させる場合について説明した。しかしながら、ロボット10の作業環境には、ロボット10が(直接的か間接的かに関わらず)、音を低減させることができない外部音源が配されている場合もある。
 第7の実施形態では、このような外部音源が発する音を低減させるために、外部音源に対する操作をユーザに依頼する。以下、第7の実施形態について、上記第1の実施形態との相違点を中心に説明する。
 <制御装置の機能構成>
 はじめに、第7の実施形態に係る制御装置100の機能構成について説明する。図13は、制御装置の機能構成の一例を示す図である。図3に示した機能構成との相違点は、判定部1300の機能及び制御部1310の機能が、図3の判定部306の機能及び制御部102の機能とは異なる点である。
 判定部1300は指示部の一例であり、音声検出部302により音声データが検出されたか否か、及び、***動作検出部305より***動作の検出結果が出力されたか否かを判定する。また、判定部1300は、***動作検出部305より***動作の検出結果が出力されたにも関わらず、音声検出部302より音声データが検出されていない場合に、制御部1310に対して、音声出力命令を出力する。これにより、判定部1300は、外部音源の操作をユーザに依頼するよう指示する。
 なお、判定部1300は、図3の判定部306同様、***動作検出部305より***動作の検出結果が出力され、音声検出部302により音声データが検出された場合、制御部1310に対して、音声データを出力する。
 制御部1310は、判定部1300により出力された音声出力命令を受け取ると、ロボット10のユーザに、外部音源の操作を依頼するための音声出力信号を生成する。また、制御部1310は、生成した音声出力信号に基づく合成音声を、スピーカ130、131を介して、ユーザに出力する。
 なお、外部音源の操作を依頼するための音声出力信号とは、例えば、
・「テレビを消してください」
・「音楽を一時停止してください」、
・「聞き取れないので水を止めてください」、
等が挙げられる。
 これにより、制御部1310は、音声データを検出しやすい状態を作り出すことができる。
 <動作制御処理の流れ>
 次に、第7の実施形態に係る制御装置100による動作制御処理の流れについて説明する。図14は、制御装置による動作制御処理の流れを示す第4のフローチャートである。図4に示すフローチャートとの相違点は、ステップS1401である。
 ステップS1401において、判定部1300は音声出力命令を出力する。また、制御部1310は音声出力命令を受け取ると、ユーザに、外部音源の操作を依頼するための音声出力信号を生成し、生成した音声出力信号に基づく合成音声を、スピーカ130、131を介して出力する。これにより、制御部1310は、外部音源が発する音を低減させ、音声データを検出しやすい状態を作り出すことができる。
 <まとめ>
 以上の説明から明らかなように、第7の実施形態に係る制御装置100は、ユーザに対して、外部音源の操作を依頼することで、外部音源が発する音を低減させる。これにより、第7の実施形態に係る制御装置100では、音声データを検出しやすい状態を作り出すことができる。この結果、第7の実施形態に係る制御装置100によれば、ユーザの音声指示に基づいて動作するロボットにおいて、音声検出率を向上させることができる。
 [その他の実施形態]
 上記各実施形態では、判定部306、500、700、1300が音源制御命令を出力するタイミングについて言及しなかったが、音源制御命令を出力するタイミングとしては、様々なケースが考えられる。
 例えば、***動作検出部305により***動作の始端が検出されたが、音声検出部302により音声データの始端が検出されていない場合においては、***動作の終端が検出される前に、音源制御命令を出力してもよい。
 また、***動作検出部305により***動作の始端が検出され、音声検出部302により音声データの始端が検出されたが、***動作の始端の検出位置と、音声データの始端の検出位置とのずれ量が所定の閾値以上であったとする。この場合、判定部では、ずれ量が所定の閾値以上となったタイミングで音源制御命令を出力してもよい。つまり、判定部306は、***動作の始端の検出位置と、音声データの始端の検出位置とのずれ量に基づいて、音源制御命令を出力してもよい。
 また、***動作検出部305により***動作の終端が検出され、音声検出部302により音声データの終端が検出されたが、***動作の終端の検出位置と、音声データの終端の検出位置とのずれ量が所定の閾値以上であったとする。この場合、判定部では、ずれ量が所定の閾値以上となったタイミングで音源制御命令を出力してもよい。つまり、判定部306は、***動作の終端の検出位置と、音声データの終端の検出位置とのずれ量に基づいて、音源制御命令を出力してもよい。
 また、上記各実施形態において、ロボット10は、可動部140~160を有するものとして説明したが、ロボット10は、可動部140~160以外の可動部を有していてもよい。可動部140~160以外の可動部には、例えば、吸引部やファン等が含まれる。
 また、上記各実施形態では、複数の音源(外部音源を含む)がある場合に、制御部が音を低減させる順序について特に言及しなかったが、例えば、予め定められた優先順位に従って、音を低減させるようにしてもよい。あるいは、同時に、全ての音を低減させるようにしてもよい。
 また、上記各実施形態で説明した機能は、他の任意の実施形態で説明した機能と組み合わせて実現されてもよい。
 また、上記各実施形態において、制御装置100の機能は、プロセッサ201が、制御プログラムを実行することで実現されるものとして説明した。しかしながら、制御装置100の機能は、アナログ回路、デジタル回路又はアナログ・デジタル混合回路で構成された回路により実現されてもよい。また、制御装置100の機能を実現する制御回路を備えていてもよい。各回路の実装は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等によるものであってもよい。
 また、上記各実施形態において、制御プログラムを実行するにあたっては、制御プログラムをフレキシブルディスクやCD-ROM等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。また、ソフトウェアによる処理は、FPGA等の回路に実装され、ハードウェアが実行するものであってもよい。ジョブの実行は、例えば、GPU(Graphics Processing Unit)等のアクセラレータを使用して行ってもよい。
 なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
 本出願は、2019年5月13日に出願された日本国特許出願第2019-090756号に基づきその優先権を主張するものであり、同日本国特許出願の全内容を参照することにより本願に援用する。
10          :ロボット
100         :制御装置
101         :停止部
102         :制御部
110         :カメラ
120         :マイクロフォン
130、131     :スピーカ
140、150     :可動部
160         :可動部
301         :音取得部
302         :音声検出部
303         :画像取得部
304         :顔検出部
305         :***動作検出部
306         :判定部
500         :判定部
510         :制御部
700         :判定部
710         :制御部
900         :居室
900_1、900_2 :カメラ
1100、1200   :居室
1300        :判定部
1310        :制御部

Claims (16)

  1.  少なくとも1つのメモリと、
     少なくとも1つのプロセッサと、を備え、
      前記少なくとも1つのプロセッサは、
       取得した画像データに基づいて、ユーザの***動作を検出することと、
       取得した音データから、音声データを検出することと、
       前記ユーザの***動作を検出した場合であって、前記音声データを検出しなかった場合に、音源が発する音を低減させるよう指示することと
      を実行するよう構成される、
    ロボットの制御装置。
  2.  少なくとも1つのメモリと、
     少なくとも1つのプロセッサと、を備え、
      前記少なくとも1つのプロセッサは、
       取得した画像データに基づいて、ユーザの***動作を検出することと、
       取得した音データから、音声データを検出することと、
       前記検出した***動作の検出位置と前記検出した音声データの検出位置との間のずれ量に基づいて、音源が発する音を低減させるよう指示することと
      を実行するよう構成される、
    ロボットの制御装置。
  3.  少なくとも1つのメモリと、
     少なくとも1つのプロセッサと、を備え、
      前記少なくとも1つのプロセッサは、
       取得した画像データに基づいて、ユーザの***動作を検出することと、
       取得した音データから、音声データを検出することと、
       前記ユーザの***動作を検出し、かつ、前記音声データを検出した場合、前記音声データを認識した際の尤度情報に基づいて、音源が発する音を低減させるよう指示することと
      を実行するよう構成される、
    ロボットの制御装置。
  4.  前記少なくとも1つのプロセッサは、
     前記音源が発する音を低減させるよう指示した場合に、前記ロボットの可動部の動作を制御することで、前記音源が発する音を低減させること
     を実行するよう構成される、請求項1乃至3のいずれか1項に記載のロボットの制御装置。
  5.  前記少なくとも1つのプロセッサは、
     前記音源が発する音を低減させるよう指示した場合に、前記ロボットに搭載された音源を制御することで、前記音源が発する音を低減させること
     を実行するよう構成される、請求項1乃至3のいずれか1項に記載のロボットの制御装置。
  6.  前記音源は、前記ロボットとは別体の外部音源である、請求項1乃至3のいずれか1項に記載のロボットの制御装置。
  7.  前記少なくとも1つのプロセッサは、
     前記音源が発する音を低減させるよう指示された場合に、前記外部音源に信号を送信することで、前記外部音源が発する音を低減させること
     を実行するよう構成される、請求項6に記載のロボットの制御装置。
  8.  前記少なくとも1つのプロセッサは、
     前記音源が発する音を低減させるよう指示した場合に、前記外部音源を前記ロボットに操作させることで、前記外部音源が発する音を低減させること
     を実行するよう構成される、請求項6に記載のロボットの制御装置。
  9.  前記少なくとも1つのプロセッサは、
     前記音源が発する音を低減させるよう指示した場合に、前記外部音源を遠隔操作する操作器を前記ロボットに操作させることで、前記外部音源が発する音を低減させること
     を実行するよう構成される、請求項6に記載のロボットの制御装置。
  10.  前記少なくとも1つのプロセッサは、
     前記音源が発する音を低減させるよう指示した場合に、前記外部音源の操作を前記ユーザに依頼するための合成音声を出力することで、前記外部音源が発する音を低減させること
     を実行するよう構成される、請求項6に記載のロボットの制御装置。
  11.  前記音源が発する音を低減させるよう指示した場合に、更に、発声を促すよう指示する、請求項1乃至10のいずれか1項に記載のロボットの制御装置。
  12.  前記音源が発する音を低減させるよう指示した後の所定時間の間に、音声データが検出されなかった場合、前記音源が発する音を低減させる前の動作を再開するよう指示する、請求項4に記載のロボットの制御装置。
  13.  前記音源が発する音を低減させるよう指示した後の所定時間の間に、前記音声データが検出された場合、該検出された音声データに基づいて前記ロボットの可動部の動作を制御する、請求項4に記載のロボットの制御装置。
  14.  画像データを取得する撮像部と、
     音データを取得する集音部と、
     請求項1乃至13のいずれか1項に記載の制御装置と
     を有するロボット。
  15.  少なくとも1つのプロセッサが、
     取得した画像データに基づいて、ユーザの***動作を検出することと、
     取得した音データから、音声データを検出することと、
     前記ユーザの***動作を検出した場合であって、前記音声データを検出しなかった場合に、音源が発する音を低減させるよう指示することと
     を実行するロボットの制御方法。
  16.  少なくとも1つのプロセッサに、
     取得した画像データに基づいて、ユーザの***動作を検出することと、
     取得した音データから、音声データを検出することと、
     前記ユーザの***動作を検出した場合であって、前記音声データを検出しなかった場合に、音源が発する音を低減させるよう指示することと
     を実行させるための制御プログラム。
PCT/JP2020/018975 2019-05-13 2020-05-12 制御装置、ロボット、制御方法及び制御プログラム WO2020230784A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019090756A JP2020185630A (ja) 2019-05-13 2019-05-13 制御装置、ロボット、制御方法及び制御プログラム
JP2019-090756 2019-05-13

Publications (1)

Publication Number Publication Date
WO2020230784A1 true WO2020230784A1 (ja) 2020-11-19

Family

ID=73220765

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/018975 WO2020230784A1 (ja) 2019-05-13 2020-05-12 制御装置、ロボット、制御方法及び制御プログラム

Country Status (2)

Country Link
JP (1) JP2020185630A (ja)
WO (1) WO2020230784A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674746B (zh) * 2021-08-18 2022-09-16 北京百度网讯科技有限公司 人机交互方法、装置、设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006095635A (ja) * 2004-09-29 2006-04-13 Honda Motor Co Ltd 移動ロボットの制御装置
JP2008126329A (ja) * 2006-11-17 2008-06-05 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
JP2009222969A (ja) * 2008-03-17 2009-10-01 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
WO2015029362A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 機器制御方法及び機器制御システム
JP2017054065A (ja) * 2015-09-11 2017-03-16 株式会社Nttドコモ 対話装置および対話プログラム
JP2018185362A (ja) * 2017-04-24 2018-11-22 富士ソフト株式会社 ロボットおよびその制御方法
JP2019032387A (ja) * 2017-08-07 2019-02-28 株式会社Nttドコモ 制御装置、プログラムおよび制御方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006095635A (ja) * 2004-09-29 2006-04-13 Honda Motor Co Ltd 移動ロボットの制御装置
JP2008126329A (ja) * 2006-11-17 2008-06-05 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
JP2009222969A (ja) * 2008-03-17 2009-10-01 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法
WO2015029362A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 機器制御方法及び機器制御システム
JP2017054065A (ja) * 2015-09-11 2017-03-16 株式会社Nttドコモ 対話装置および対話プログラム
JP2018185362A (ja) * 2017-04-24 2018-11-22 富士ソフト株式会社 ロボットおよびその制御方法
JP2019032387A (ja) * 2017-08-07 2019-02-28 株式会社Nttドコモ 制御装置、プログラムおよび制御方法

Also Published As

Publication number Publication date
JP2020185630A (ja) 2020-11-19

Similar Documents

Publication Publication Date Title
EP3301948A1 (en) System and method for localization and acoustic voice interface
US11072077B2 (en) Robot system and operation method thereof
CN111629301B (zh) 用于控制多个扬声器播放音频的方法、装置和电子设备
JP2022539794A (ja) マルチモーダルユーザインターフェース
US20190222950A1 (en) Intelligent audio rendering for video recording
JP6531776B2 (ja) 音声対話システムおよび音声対話方法
JP2003000614A5 (ja)
JP2007266754A (ja) 車両用音声入出力装置および音声入出力装置用プログラム
WO2020230784A1 (ja) 制御装置、ロボット、制御方法及び制御プログラム
JP5206151B2 (ja) 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
JPWO2008001492A1 (ja) ロボット、ロボット制御方法、および、ロボット制御プログラム
JP7335979B2 (ja) 音声認識を用いて装置を制御する方法、及びこれを具現する装置
CN113826160A (zh) 在机器人与人的通信中的降噪
US10551730B2 (en) Image capturing apparatus and method of controlling the same
KR102115222B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
JP2005534958A (ja) 音声制御システムおよび方法
JP4655572B2 (ja) 信号処理方法および信号処理装置、ならびに、ロボット
US20210383808A1 (en) Control device, system, and control method
WO2016117421A1 (ja) 音声入力装置、情報処理装置、音声入力装置の制御方法、制御プログラム
JP4468777B2 (ja) 脚式歩行ロボットの制御装置
JP2023029363A (ja) ロボット、制御方法及びプログラム
KR102168812B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
WO2020174930A1 (ja) 制御装置、システム及び制御方法
JP2019072787A (ja) 制御装置、ロボット、制御方法、および制御プログラム
JP2019212965A5 (ja)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20806703

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20806703

Country of ref document: EP

Kind code of ref document: A1