WO2020158440A1 - 情報処理装置、情報処理方法、及びプログラムを記載した記録媒体 - Google Patents

情報処理装置、情報処理方法、及びプログラムを記載した記録媒体 Download PDF

Info

Publication number
WO2020158440A1
WO2020158440A1 PCT/JP2020/001428 JP2020001428W WO2020158440A1 WO 2020158440 A1 WO2020158440 A1 WO 2020158440A1 JP 2020001428 W JP2020001428 W JP 2020001428W WO 2020158440 A1 WO2020158440 A1 WO 2020158440A1
Authority
WO
WIPO (PCT)
Prior art keywords
reproduction
information
information processing
audio content
user
Prior art date
Application number
PCT/JP2020/001428
Other languages
English (en)
French (fr)
Inventor
高橋 慧
康之 古賀
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to DE112020000591.7T priority Critical patent/DE112020000591T5/de
Priority to JP2020569505A priority patent/JPWO2020158440A1/ja
Priority to US17/415,401 priority patent/US11826648B2/en
Publication of WO2020158440A1 publication Critical patent/WO2020158440A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/211Input arrangements for video game devices characterised by their sensors, purposes or types using inertial sensors, e.g. accelerometers or gyroscopes
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/212Input arrangements for video game devices characterised by their sensors, purposes or types using sensors worn by the player, e.g. for measuring heart beat or leg activity
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/213Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/216Input arrangements for video game devices characterised by their sensors, purposes or types using geographical information, e.g. location of the game device or player using GPS
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/217Input arrangements for video game devices characterised by their sensors, purposes or types using environment-related information, i.e. information generated otherwise than by the player, e.g. ambient temperature or humidity
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/22Setup operations, e.g. calibration, key configuration or button assignment
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/23Input arrangements for video game devices for interfacing with the game device, e.g. specific interfaces between game controller and console
    • A63F13/235Input arrangements for video game devices for interfacing with the game device, e.g. specific interfaces between game controller and console using a wireless connection, e.g. infrared or piconet
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/428Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving motion or position input signals, e.g. signals representing the rotation of an input controller or a player's arm motions sensed by accelerometers or gyroscopes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/04Sound-producing devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present technology relates to an information processing device, an information processing method, and a recording medium that describes a program applicable to voice control such as voice AR (Augmented Reality).
  • voice AR Augmented Reality
  • the moving time until the object operated by the player reaches the second entry area from the first entry area is calculated based on the image captured by the camera.
  • the output timing of the sound is adjusted so that the player hears the sound substantially at the same time when the object reaches the second intrusion area.
  • voice control such as voice AR
  • technology that enables to provide a high-quality virtual experience is required.
  • an object of the present technology is to provide a recording medium in which an information processing device, an information processing method, and a program capable of providing a high-quality virtual experience are described.
  • an information processing device includes a reproduction control unit.
  • the reproduction control unit uses the first reproduction method to reproduce the real object when the time information is within a predetermined time range based on time information regarding acquisition of sensor information generated based on the movement of the real object.
  • the reproduction of the audio content according to the movement of the audio content is controlled, and when the time information is outside the predetermined time range, the reproduction of the audio content is controlled by the second reproduction method.
  • the reproduction of the audio content corresponding to the movement of the real object is controlled based on the time information regarding the acquisition of the sensor information generated based on the movement of the real object. Specifically, when the time information is within the predetermined time range, the reproduction of the audio content is controlled by the first reproduction method. When the time information is out of the predetermined time range, the reproduction of the audio content is controlled by the second reproduction method. This makes it possible to provide a high quality virtual experience.
  • the time information may be generated by a sensor device based on the movement of the real object and transmitted to the information processing device.
  • the time information may be an arrival time from the time when the sensor information is generated or the time when the sensor information is transmitted to the information processing device to the time when the sensor information is acquired.
  • the first reproduction method may include reproduction of an attack sound according to the movement of the real object.
  • the second reproduction method may restrict reproduction of the attack sound.
  • the second reproduction method may include at least one of fade-in of the audio content and fade-out of the audio content.
  • the information processing device may further include a first determination unit that determines whether or not the user has operated the real object.
  • the reproduction control unit may control reproduction of the audio content based on the determination result by the first determination unit.
  • the information processing device may further include an acquisition unit capable of acquiring detection information including at least one of information about a user's state and information about surroundings.
  • the first determination unit may execute the determination based on the acquired detection information.
  • the first determination unit may execute the determination based on the distance between the real object and the user.
  • the first determination unit may execute the determination based on the movement of the user.
  • the information processing device may further include a second determination unit that determines the degree of interest of the user with respect to the real object.
  • the reproduction control unit may control reproduction of the audio content based on the determination result by the second determination unit.
  • the information processing device may further include an acquisition unit capable of acquiring detection information including at least one of information about a user's state and information about surroundings.
  • the second determination unit may execute the determination based on the acquired detection information.
  • the information processing device may further include an acquisition unit capable of acquiring detection information including at least one of information about a user's state and information about surroundings.
  • the reproduction control unit may control reproduction of the audio content based on the acquired detection information.
  • the reproduction control unit may control the reproduction of the audio content based on the surrounding environmental sound.
  • the reproduction control unit may control reproduction of the audio content based on the number of times the user operates the real object.
  • the reproduction control unit selects one or more pieces of sensor information serving as a reference for reproduction control from a plurality of pieces of sensor information generated based on the movement of the real object, and acquires the selected one or more pieces of sensor information.
  • the reproduction of the audio content may be controlled based on the time information.
  • the reproduction control unit may select the sensor information acquired earliest among the plurality of sensor information as the one or more sensor information serving as a reference for the reproduction control.
  • the reproduction control unit starts the reproduction of the audio content in response to the acquisition of the sensor information, and whether to continue the reproduction of the audio content based on the presence or absence of the information regarding the continuation of the reproduction of the audio content. May be determined.
  • the reproduction control unit may control reproduction of the audio content based on whether or not another audio content different from the audio content corresponding to the movement of the real object is reproduced.
  • An information processing method is an information processing method executed by a computer system, in which the time information is based on time information related to acquisition of sensor information generated based on a movement of a real object.
  • the reproduction of the audio content according to the movement of the real object is controlled by the first reproduction method when the time information is out of the predetermined time range. Controlling playback of the audio content by a playback method.
  • a recording medium in which a program according to an aspect of the present technology is recorded causes a computer system to execute the following steps. Based on the time information about the acquisition of the sensor information generated based on the movement of the real object, when the time information is within a predetermined time range, a sound according to the movement of the real object by the first reproduction method Controlling reproduction of the content, and controlling reproduction of the audio content by a second reproduction method when the time information is outside the predetermined time range.
  • FIG. 6 is a schematic diagram for explaining an outline of a voice AR system according to a first embodiment of the present technology. It is a block diagram which shows the structural example of a communication terminal. It is a block diagram showing an example of functional composition of a voice AR system.
  • FIG. 6 is a schematic diagram for explaining a delay that occurs from the start of movement of a real object to the output of audio content at a communication terminal. 7 is a flowchart showing an example of control of reproduction of audio content.
  • FIG. 6 is a schematic diagram for explaining an example of control of reproduction of audio content based on a delay amount.
  • FIG. 6 is a schematic diagram for explaining an example of an attack sound and a sound in which the attack sound is restricted.
  • 7 is a flowchart showing an example of reproduction control of audio contents by cooperation between a communication terminal and headphones. It is a schematic diagram for demonstrating the outline
  • FIG. 1 is a schematic diagram for explaining an outline of a voice AR system according to the first embodiment of the present technology.
  • the audio AR system corresponds to an embodiment of the information processing system according to the present technology.
  • the voice AR system 100 can provide a user with an auditory augmented reality (AR) experience.
  • AR auditory augmented reality
  • virtual audio content that has not actually occurred is output from headphones or the like worn by the user. This allows the user to enjoy various virtual experiences.
  • the application of this technology is not limited to AR systems in which only virtual audio content is played.
  • the present technology can be applied to an AR system capable of providing image content, tactile (haptic) feedback, and the like in addition to audio content. That is, the present technology is applicable to not only auditory AR experiences, but also AR systems that can provide visual AR and tactile AR experiences.
  • provision of the audio AR according to opening/closing of the door 1 is taken as an example. That is, in the present embodiment, the opening and closing of the door 1 will be described as an example of the real object and the movement of the real object.
  • real objects and movements of real objects are not limited.
  • examples of the movement of the real object include opening/closing of the real object, sliding of the real object, rotational movement of the real object, movement of the real object, and the like.
  • Specific examples include moving a stuffed animal or a robot, operating an operating device such as a button, lever, or steering wheel, or operating a moving body such as a car.
  • an operating device such as a button, lever, or steering wheel
  • a moving body such as a car.
  • the present technology can be widely applied to reproduction of various real objects and virtual audio contents according to movements of the real objects.
  • the voice AR system 100 includes a communication terminal 20 installed in the door 1, a communication terminal 40 carried by the user 2, and a headphone 3 worn by the user 2.
  • the communication terminal 40 corresponds to an embodiment of the information processing device according to the present technology.
  • the communication terminal 20 installed on the door 1 corresponds to an embodiment of the sensor device according to the present technology.
  • the communication terminal 20 senses the movement of the door 1 and generates sensor information based on the movement of the door 1. Then, the communication terminal 20 transmits the sensor information based on the movement of the door 1 to the communication terminal 40.
  • the sensor information includes arbitrary information based on the movement of the door 1.
  • the event ID indicating the event that the door 1 is opened is used as the sensor information.
  • information different from the event ID may be used as the information indicating the event in which the door 1 is opened.
  • information different from the information indicating the event that the door 1 is opened may be used.
  • a raw value (detection value) such as acceleration detected based on the movement of the door 1 by the sensor unit 25 (see FIG. 2) included in the communication terminal 20 may be used as the sensor information.
  • the communication terminal 40 controls the reproduction of the audio content according to the opening movement of the door 1, based on the sensor information based on the movement of the door 1 transmitted from the communication terminal 20. For example, the reproduction of audio contents including virtual sounds such as “Gacha!” and “Gee” that are similar to the sound actually generated when the door 1 is opened is controlled.
  • a sound different from the sound actually generated when the door 1 is opened may be reproduced as a virtual sound.
  • a voice such as “Wa! Ha! Ha! Welcome to horror land” may be output.
  • the communication terminal 40 controls reproduction of audio contents by the headphones 3. That is, the sound output from the headphones 3 worn by the user 3 is appropriately controlled.
  • the headphone 3 for example, an open type headphone, a headphone for hanging a neck, or the like is used.
  • the present invention is not limited to this, and headphones having other arbitrary configurations may be used.
  • the present technology can be applied even when a wearable device such as a smart watch or a speaker built in a smartphone or the like is used.
  • the audio content corresponding to the movement of the door 1 may be reproduced by the speaker built in the communication terminal 40.
  • the present technology can be applied to any audio output device.
  • the communication terminal 40 itself may be configured as headphones. That is, headphones equipped with the function of the communication terminal 40 may be used as the information processing apparatus according to the present technology. Of course, it may be configured as open headphones.
  • a glasses-type HMD Head Mounted Display
  • a transmissive display may be configured as the information processing device according to the present technology.
  • various audio contents are reproduced from the speaker or the like mounted on the HMD.
  • by superimposing the image of the virtual object on the real space it is possible to experience a visual AR. This provides a high quality virtual experience.
  • the information processing device according to the present technology can be realized by various devices.
  • the method of connecting the communication terminal 20, the communication terminal 40, and the headphone 3 in a communicable manner is not limited.
  • wireless LAN communication such as WiFi
  • short-range wireless communication such as Bluetooth (registered trademark).
  • any wireless or wired connection form may be used.
  • the user 2 can hear a virtual sound such as a horror scene or a door of a mountain hut according to the operation of a real object. As a result, the user 2 can obtain a voice AR experience that is distant from everyday life.
  • FIG. 2 is a block diagram showing a configuration example of the communication terminals 20 and 40.
  • the communication terminals 20 and 40 have the same configuration.
  • the configuration is not limited to this, and the configurations of the communication terminals 20 and 40 may be different from each other.
  • the communication terminal 20 and the communication terminal 40 have a controller 21, a speaker 22, a microphone 23, a camera 24, and a sensor unit 25.
  • the communication terminal 20 and the communication terminal 40 each include a display unit 26, an operation unit 27, an I/F (interface) unit 28, a communication unit 29, and a storage unit 30.
  • the speaker 22 can output various sounds.
  • the specific configuration of the speaker 22 is not limited.
  • the microphone 23 can acquire the sound generated in the vicinity.
  • the microphone 23 of the communication terminal 20 can detect and acquire a sound generated in response to opening and closing of the door 1 and ambient environmental sound.
  • the microphone 23 of the communication terminal 40 can detect and acquire the environmental sound around the user 2 and the voice uttered by the user 2. Further, when the user 2 operates the door 1, it is possible to detect a sound generated according to the operation.
  • the specific configuration of the microphone 23 is not limited.
  • the camera 24 can capture the surroundings and generate an image (image data) of the surroundings.
  • the camera 24 of the communication terminal 20 can take an image around the door 1, and can take an image of the face or the whole body of the person who operates the door 1.
  • capturing an object by the camera 24 and generating an image of the object may be referred to as capturing an image of the object.
  • the camera 24 of the communication terminal 40 can take an image of the surroundings of the user. For example, when the user 2 operates the door 1, it is possible to photograph the state of the operated door 2. For example, the state in which the door 1 is opened or the state in which the door 1 is closed is photographed.
  • a digital camera including an image sensor such as a CMOS (Complementary Metal-Oxide Semiconductor) sensor or a CCD (Charge Coupled Device) sensor is used. Further, an infrared camera equipped with infrared illumination such as an infrared LED may be used.
  • CMOS Complementary Metal-Oxide Semiconductor
  • CCD Charge Coupled Device
  • the sensor unit 25 includes a 9-axis sensor 31 and a GPS 32.
  • the 9-axis sensor 31 includes a 3-axis acceleration sensor, a 3-axis gyro sensor, and a 3-axis compass sensor.
  • the 9-axis sensor 31 can detect changes in the angle, movement, and orientation of the communication terminal 20 (40).
  • the GPS 32 can output the position information of the communication terminal 20 (40).
  • the sensor unit 25 of the communication terminal 20 can detect the movement, posture, orientation, etc. of the door 1. Further, it is possible to detect the position information of the door 1 accompanied by the communication terminal 20 by the GPS 32.
  • the sensor unit 25 of the communication terminal 40 can detect the movement, posture, orientation, etc. of the user 2. Further, it is possible to detect the position information of the user 2.
  • the type of sensor provided as the sensor unit 25 is not limited, and any sensor may be provided.
  • a biosensor or the like that can detect the body temperature and pulse rate of the user 2 may be provided.
  • a temperature sensor, a humidity sensor or the like capable of measuring the temperature and humidity of the surrounding environment may be provided.
  • the microphone 23 and the camera 24 shown in FIG. 2 may function as the sensor unit 25.
  • the display unit 26 is a display device using, for example, liquid crystal, EL (Electro-Luminescence), or the like, and displays various images and various GUIs (Graphical User Interfaces).
  • the operation unit 27 is, for example, a keyboard, a pointing device, a touch panel, or another operation device. When the operation unit 27 includes a touch panel, the touch panel can be integrated with the display unit 26.
  • the I/F unit 28 is an interface such as a USB (Universal Serial Bus) terminal and an HDMI (registered trademark) (High-Definition Multimedia Interface) terminal to which other devices and various cables are connected.
  • USB Universal Serial Bus
  • HDMI registered trademark
  • the communication unit 29 is a communication module for communicating with other devices, and for example, a wireless LAN (Local Area Network) module such as WiFi or a communication module for short-range wireless communication such as Bluetooth (registered trademark) is used. ..
  • a wireless LAN Local Area Network
  • WiFi Wireless Fidelity
  • Bluetooth registered trademark
  • the controller 21 controls the operation of each block included in the communication terminal 20 and the communication terminal 40.
  • the controller 21 has hardware necessary for the configuration of the computer, such as a CPU (processor), ROM, RAM, and HDD.
  • the information processing method according to the present technology is executed by the CPU loading a program (for example, an application program) according to the present technology recorded in advance in the ROM or the like into the RAM and executing the program.
  • the specific configuration of the controller 21 is not limited, and any hardware such as GPU, FPGA (Field Programmable Gate Array), ASIC (Application Specific Integrated Circuit), or the like may be used.
  • the program is installed in the communication terminal 20 and the communication terminal 40 via various recording media, for example.
  • the program may be installed via the Internet or the like.
  • the method of installing the program in the communication terminal 20 and the method of installing the program in the communication terminal 40 do not have to be the same, and different methods may be used.
  • the type of recording medium in which the program according to the present technology is recorded is not limited, and any computer-readable recording medium may be used.
  • any recording medium that records data non-temporarily may be used.
  • the communication terminal 20 and the communication terminal 40 can be realized by, for example, a smartphone, a tablet terminal, a wearable device, a sensor device, or the like.
  • the present invention is not limited to this, and any computer device may be used.
  • the communication terminal 20 any device capable of sensing the movement of the door 1 and capable of transmitting the sensor information may be used.
  • the communication terminal 40 any device capable of receiving sensor information and capable of controlling the reproduction of the audio content according to the movement of the door 1 based on the received sensor information may be used.
  • the communication terminal 20 may be realized by the cooperation of the device having the sensing function and the device having the communication function.
  • the communication terminal 40 may be realized by the cooperation of a device having a communication function and a device having a function of controlling reproduction of audio content.
  • a block included in the communication terminal 20 may be described by adding “a” to the code.
  • a block included in the communication terminal 40 may be described by adding “b” to the code.
  • the speaker 22 included in the communication terminal 20 may be described as “speaker 22a”.
  • the speaker 22 included in the communication terminal 40 may be described as “speaker 22b”.
  • FIG. 3 is a block diagram showing a functional configuration example of the audio AR system 100.
  • the CPU or the like of the controller 21a of the communication terminal 20 executes the program according to the present embodiment, whereby the motion recognition unit 34, the time acquisition unit 35, and the communication control unit 36 are realized as functional blocks. ..
  • Dedicated hardware such as an IC (Integrated Circuit) may be used to implement each block.
  • the CPU of the controller 21b of the communication terminal 40 executes the program according to the present embodiment, so that the communication control unit 54, the information processing unit 55, the delay calculation unit 56, and the reproduction control unit 57 are realized as functional blocks. To be done. Dedicated hardware such as an IC (Integrated Circuit) may be used to implement each block.
  • IC Integrated Circuit
  • the motion recognition unit 34 recognizes the motion of the door 1 based on the detection result of the sensor unit 25a of the communication terminal 20. For example, it is possible to recognize the opening movement of the door 1, the closing movement of the door 1, the speed of the movement, etc. based on the change in acceleration or the like. It is also possible to recognize that the door 1 has been knocked. Of course, the movement of the door 1 may be recognized based on an image captured by the camera 24a of the communication terminal 20, a voice acquired by the microphone 23a, or the like.
  • the movement recognition unit 34 generates an event ID according to the recognized movement of the door 1 and supplies it to the communication control unit 36. For example, when the door 1 is opened, the event ID "001" is supplied, and when the door 1 is closed, the event ID "001" is supplied. Different event IDs may be generated depending on the opening speed of the door 1.
  • the specific method for recognizing the movement of the door 1 is not limited, and any technique may be used.
  • an arbitrary machine learning algorithm using DNN (Deep Neural Network) or the like may be used.
  • AI artificial intelligence
  • deep learning deep learning
  • the time acquisition unit 35 acquires time information when the communication control unit 36 transmits an event ID corresponding to the movement of the door 1 recognized by the movement recognition unit 34 to another device (communication terminal 40).
  • a time stamp or the like is used as the time information.
  • the actual time information may be used as the time stamp, or the information of the clock that uniquely increases based on the common reference time may be used.
  • the method of acquiring the time information is not limited, and any method may be adopted. For example, the time from a mobile network (LTE: Long Term Evolution) or the like may be used.
  • the time stamp when the event ID is generated by the communication terminal 20 may be transmitted together with the event ID.
  • the arrival time from the time when the sensor information (event ID in the present embodiment) is generated by the communication terminal 20 to the time when the sensor information is acquired by the communication terminal 20 is calculated as the delay amount.
  • the communication control unit 36 controls communication with the communication terminal 40.
  • the operation of the communication unit 29 shown in FIG. 2 is controlled by the communication control unit 36, and various information (data) can be transmitted to the communication terminal 40.
  • the communication control unit 36 transmits the event ID corresponding to the movement of the door 1 and the time stamp as a set to the communication terminal 40.
  • the event ID corresponding to the movement of the door 1 recognized by the movement recognizing unit 34 corresponds to the sensor information generated based on the movement of the real object.
  • the information is not limited to this, and other information may be used.
  • a raw value (detection value) of the sensor unit 25a input to the motion recognition unit 34 may be transmitted to the communication terminal 40 as sensor information. Then, the recognition of the movement of the door 1 may be executed on the communication terminal 40 side.
  • the communication control unit 54 of the communication terminal 40 controls communication with the communication terminal 20.
  • the operation of the communication unit 29b of the communication terminal 40 is controlled by the communication control unit 54, and various information (data) can be received from the communication terminal 20.
  • various information (data) can be received from the communication terminal 20.
  • the communication control unit 54 supplies the event ID and the time stamp received from the communication terminal 20 to the information processing unit 55.
  • the information processing unit 55 has a user state detection unit 61, a situation detection unit 62, an event recognition unit 63, an event DB 64, a time acquisition unit 65, an interest degree determination unit 66, and a user determination unit 67.
  • the user state detection unit 61 based on the detection result (sensing result) by the sensor unit 25b of the communication terminal 40, the voice (voice data) acquired by the microphone 23b, the image (image data) captured by the camera 24b, and the like, It is possible to detect state information regarding the state of the user 2.
  • the status information of the user 2 it is possible to detect various information about the user 2, such as the posture, movement, position, and utterance content of the user 2. For example, information such as walking, running, moving on a train, driving, etc., and information on the type of sports in motion, etc. are detected as the state information of the user 2. It is also possible to detect the gesture of the user 2 and the line-of-sight direction.
  • the situation detection unit 62 based on the detection result (sensing result) by the sensor unit 25b, the sound (voice data) acquired by the microphone 23b, the image (image data) captured by the camera 24b, and the like, is related to the situation around It is possible to detect information. For example, it is possible to detect the type of the place where the user 2 is, the ambient sound, the type of the real object existing around, the distance between the real object and the user 2, the movement of the real object, the sound produced by the real object, and the like. is there.
  • the status information of these various users 2 and surrounding status information can be detected by any technique such as behavior analysis using machine learning.
  • the sensing result, voice data, and image data acquired by the communication terminal 20 may be input to the user status detection unit 61 and the status detection unit 62 via the communication control units 36 and 54. Then, based on the input information, the user's state information and surrounding situation information may be detected.
  • the communication terminal 20 may also be provided with the user status detection unit 61 and the status detection unit 62. Then, the state information of the user 2 detected by the communication terminal 20 and the surrounding situation information may be transmitted to the communication terminal 40.
  • the user status information and the surrounding status information are included in the detection information.
  • a configuration in which only the state information of the user is detected or a configuration in which only the situation information of the surroundings is detected may be adopted.
  • Information regarding the state of the user and information regarding the surrounding situation may be comprehensively detected as the detection information.
  • the user state detection unit 61 and the situation detection unit 62 function as an acquisition unit that can obtain detection information including at least one of information about the user's state and information about the surrounding situation.
  • the event recognition unit 63 recognizes the content of the event from the event ID supplied by the communication control unit 54. For example, when the event ID stored in the event DB 64 and the supplied event ID match, it is recognized that the event has occurred in the real space.
  • the event recognition unit 63 also wakes up in the real space based on the detection result (sensing result) by the sensor unit 25, the sound (voice data) acquired by the microphone 23, the image (image data) captured by the camera 24, and the like. It is also possible to recognize the event that occurred. For example, the event of opening the door 1 is recognized based on the sound of the door 1 opening.
  • the event recognition unit 63 can be configured as one function of the user state detection unit 61 and the situation detection unit 62.
  • the event DB 64 stores an event ID associated with the content of the event.
  • the stored event ID is not limited.
  • the event DB 64 is constructed by the HDD or the like in the controller 21.
  • the present invention is not limited to this, and the event DB 64 may be constructed by a storage device or the like provided outside the controller 21.
  • Information regarding the order of events may be stored in the event DB 64. For example, if there is an event ID of a bullet firing and an event ID of a bullet landing on an object, information indicating that an event of bullet firing is followed by an event of bullet firing may be stored. Further, for example, instead of the event ID, the movement of the real object may be specified by receiving a signal from a sensor terminal or a dedicated line that transmits only specific sensor information.
  • the time acquisition unit 65 acquires time information when the event ID and the time stamp are received from the communication terminal 20.
  • a time stamp is used. That is, the time stamp when the event ID and the time stamp are received is acquired.
  • the interest degree determination unit 66 determines the degree of interest of the user 2 with respect to the real object.
  • the degree of interest is a parameter indicating how much attention the user 2 has on the real object or how the user 2 is involved with the real object.
  • the degree of interest of the user 2 with respect to the door 1 is determined, for example. The determination by the interest level determination unit 66 will be described later in detail.
  • the interest level determination unit 66 functions as a second determination unit.
  • the interest level determination unit 66 can be configured as a function of the user state detection unit 61 and the situation detection unit 62. In this case, the interest level determination unit 66 also functions as an acquisition unit.
  • the user determination unit 67 determines whether or not the user 1 has operated the door 1. For example, the user determination unit 67 determines whether or not the user 1 has operated the door 1 based on the distance between the door 1 and the user 2 detected as the detection information, for example. Of course, other determination methods may be used.
  • the user determination unit 67 functions as a first determination unit.
  • the user determination unit 67 can be configured as a function of the user state detection unit 61 and the situation detection unit 62. In this case, the user determination unit 67 also functions as an acquisition unit.
  • the delay calculation unit 56 receives the sensor information (in this embodiment, the event ID) transmitted from the communication terminal 20 to the communication terminal 40 based on the time information supplied from the time acquisition unit 35 and the time acquisition unit 65. Calculate the delay amount (latency) until the delay.
  • the delay amount is calculated based on the time stamp transmitted together with the event ID and the time stamp at the time of receiving the event ID. That is, in the present embodiment, the arrival time from the time when the communication terminal 20 transmits the sensor information to the communication terminal 40 to the time when the communication terminal 20 acquires the sensor information is calculated as the delay amount.
  • the delay amount corresponds to time information regarding acquisition of sensor information generated based on the movement of a real object.
  • the reproduction control unit 57 controls the reproduction of the audio content according to the event recognized by the event recognition unit 63.
  • the reproduction of the audio content according to the movement of the door 1 is controlled based on the delay amount (arrival time).
  • the reproduction control unit 57 controls the reproduction of the audio content according to the movement of the door 1 by the first reproduction method when the delay amount (arrival time) is within the predetermined time range. To do.
  • the second reproduction control when the delay amount (arrival time) is out of the predetermined time range, reproduction of the audio content according to the movement of the door 1 is performed by the second reproduction method different from the first reproduction method. To control.
  • the reproduction control unit 57 can control the reproduction of the audio content corresponding to the event by different reproduction methods when the calculated delay amount is within the predetermined time range and when the calculated delay amount is outside the predetermined time range. It is possible. A specific example of the reproduction method according to the delay amount will be described later in detail.
  • the reproduction control unit 57 controls the reproduction of the audio content based on the detection information including the state information of the user and the surrounding situation information, the determination result of the interest level determination unit 66, and the determination result of the user determination unit 67. Is also possible.
  • the reproduction control unit 57 can also control the reproduction of the audio content based on the order of the events stored in the event DB.
  • the event ID it is not limited to the case where the event ID is used, and it is also possible to execute the reproduction of the audio content according to the movement of the real object without the event ID.
  • the movement of the real object is specified by receiving a signal from a sensor terminal that transmits only specific sensor information or a dedicated line.
  • the audio content corresponding to the movement of the identified real object based on the signal from the sensor terminal or the dedicated line.
  • both the reproduction of the audio content based on the event ID and the reproduction of the audio content not using the event ID may be executable.
  • FIG. 4 is a schematic diagram for explaining the delay that occurs from the start of the movement of the real object to the output of the audio content at the communication terminal 40.
  • the straight line 70 is the time axis of the communication terminal 20, and time passes along the arrow direction.
  • the straight line 80 is the time axis of the communication terminal 40, and time passes along the arrow direction.
  • the star mark 71 represents the timing when the door 1 moves.
  • Sensing 72 is executed by the sensor unit 25 of the communication terminal 20 according to the opening movement of the door 1.
  • the process 73 of FIG. 4 shows the process performed by the motion recognition unit 34, the time acquisition unit 35, and the communication control unit 36 as one process. That is, the movement recognition unit 34 recognizes the opening of the door 1, and the event ID corresponding to the opening of the door 1 is supplied to the communication control unit 36.
  • the time acquisition unit 35 acquires the time stamp of the transmission timing by the communication control unit 36.
  • the communication control unit 36 transmits the event ID and the time stamp.
  • the communication 75 in FIG. 4 expresses that the event ID and the time stamp are in communication. That is, the event ID and the time stamp transmitted from the communication terminal 20 represent the communication processing until reaching the communication terminal 40.
  • the process 81 of FIG. 4 shows the process performed by the communication control unit 54, the information processing unit 55, the delay calculation unit 56, and the reproduction control unit 57 of the communication terminal 40 as one process.
  • the communication control unit 54 supplies the event ID to the event recognition unit 63 and the time stamp to the time acquisition unit 65.
  • the event recognition unit 63 recognizes the event that the door 1 is opened based on the supplied event ID.
  • the time acquisition unit 65 acquires the time stamp (time when the process 81 was executed) when the supplied time stamp (time when the process 73 was executed) was received.
  • the delay calculation unit 56 calculates the delay amount from the time stamp when it is transmitted and the time stamp when it is received. That is, the time required for the communication 75 is calculated as the delay amount.
  • the reproduction control unit 57 controls the reproduction of the reproduction content according to the movement of the door 1 based on the delay amount and the event. As a result, the audio content corresponding to the opening movement of the door 1 is reproduced from the headphones 3 attached to the user 2 (reproduction 82 in FIG. 4).
  • the star mark 83 indicates the time when the user 2 perceives the sound of the audio content. As shown in FIG. 4, it takes some time for humans to perceive sound after the reproduction of the audio content is started.
  • the delay 85 in FIG. 4 indicates the time from the star mark 71 when the door moves to the star mark 83 when the user 2 perceives a sound.
  • the time required for the processing executed by the communication terminal 20 and the communication terminal 40, the time required for the communication 75 between the communication terminal 20 and the communication terminal 40 (delay amount), and the like can be mentioned.
  • the reproduction of the audio content is controlled based on the time (delay amount) of the communication 75.
  • the present technology can be applied by using the time taken for the processing executed by the communication terminal 20 and the communication terminal 40 as the delay amount. ..
  • the amount of delay changes depending on the environment of wireless communication by the communication terminals 20 and 40. For example, when the number of communication terminals that can communicate with the communication terminal 20 is large, the delay amount is large. Further, for example, when the communication volume between the communication terminals 20 and 40 is large, the delay amount is large. The amount of delay also changes depending on the performance of the communication unit 29 of the communication terminals 20 and 40.
  • the audio content by controlling the audio content according to the delay amount, it becomes possible to provide the user 2 with a high-quality virtual experience. That is, it becomes possible to provide a high-quality sound AR experience according to the delay amount. For example, it is possible to provide a satisfying viewing experience that accompanies the motion of the user 2 himself or the motion observed by the user 2. It is also possible to exert a cross-modal effect of sound and video.
  • FIG. 5 is a flowchart showing a control example of reproduction of audio contents.
  • FIG. 6 is a schematic diagram for explaining a control example of reproduction of audio content based on the delay amount.
  • FIG. 6A is a schematic diagram showing reproduction control when the delay amount is within a predetermined time range.
  • FIG. 6B is a schematic diagram showing reproduction control when the delay amount is outside the predetermined time range.
  • the door 1 is opened as shown by the star mark 71 in FIGS. 6A and 6B. Then, the sensor unit 25 or the like of the communication terminal 20 detects the sensing result based on the movement of the door 1 (step 101). The motion recognition unit 34 recognizes the event in which the door 1 is opened and generates an event ID (step 102).
  • the communication control unit 36 of the communication terminal 20 transmits the event ID and the time stamp ts0 acquired by the time acquisition unit 35 to the communication terminal 40 (step 103).
  • the communication control unit 54 of the communication terminal 40 receives the event ID transmitted from the communication terminal 20 indicating that the door 1 is opened and the time stamp ts0 at the time of transmission.
  • the event recognition unit 63 recognizes that the door 1 has been opened as an event that occurred in the real space based on the event ID indicating that the door has been opened. Further, the time acquisition unit 65 acquires the time stamp ts1 indicating the time when the event ID is received (step 104).
  • the delay calculation unit 56 calculates the delay amount from the time stamp ts1 indicating the received time and the time stamp ts0 indicating the transmitted time.
  • the reproduction control unit 57 determines whether the calculated delay amount is within a predetermined time range. In the present embodiment, 0.2 seconds is set as the predetermined time range. Therefore, the reproduction control unit determines whether the calculated delay amount is within 0.2 seconds (step 105).
  • the predetermined time range serving as the reference for the determination in step 105 is not limited and may be set arbitrarily. For example, a shorter time range such as 0.05 seconds may be set, or a longer time range such as 0.5 seconds may be set.
  • the reproduction control unit 57 uses the first reproduction method to detect the door 1. The control of the reproduction of the audio content according to the movement is executed.
  • a sound of "Gacha! at the moment when the door 1 is opened is reproduced (step 106). Then, after the attack sound is reproduced, a sound "Gee” corresponding to the opening movement of the door 1 is reproduced as a sound not including the attack sound (step 107).
  • the reproduction control unit 57 uses the second reproduction method to detect the door 1. The control of the reproduction of the audio content according to the movement is executed.
  • the attack sound “Gacha!” according to the movement of the door 1 is not reproduced, and the sound “Gee” that does not include the attack sound is reproduced. Further, the sound “Gee” that does not include the attack sound is reproduced by the fade-in.
  • the first reproduction method includes the attack sound according to the movement of the real object.
  • reproduction of attack sound according to the movement of the real object is restricted.
  • the regulation of the reproduction of the attack sound includes the stop of the reproduction of the sound defined as the attack sound and the reproduction of the sound other than the sound defined as the attack sound.
  • the regulation of reproduction of attack sound includes the reproduction of sound in which the attack sound is regulated. The attack sound and the sound in which the attack sound is restricted will be described in detail later.
  • the second reproduction method also includes fade-in of audio content. It should be noted that the "ghee" sound reproduced in step 108 may be faded out as it is. That is, the second reproduction method may include fade-out of audio content.
  • the first reproduction method and the second reproduction method are not limited to such a reproduction method.
  • the first reproduction method may not include the attack sound.
  • the second reproduction method may not include the fade-in and fade-out of the audio content.
  • the first reproduction method and the second reproduction method may be arbitrarily set in order to realize a high-quality viewing experience.
  • the attack sound when the delay amount 85 is within the predetermined range, the attack sound is reproduced.
  • the delay amount when the delay amount is out of the predetermined range, reproduction of the attack sound is restricted. As a result, the interlocking between the actual movement of the door 1 and the reproduction of the virtual sound is maintained high. As a result, it becomes possible to provide a high quality virtual experience.
  • the audio content is faded in and out.
  • the audio content is faded in and out.
  • by using the fade-in and fade-out of the audio contents it is possible to give a feeling of interlocking with the movement of the real object and the sound without preparing many sound sources in advance.
  • the reproduction of attack sound is restricted in step 108.
  • the attack sound may be reproduced even in the latter half of the audio content.
  • FIG. 7 is a schematic diagram for explaining an example of an attack sound and a sound in which the attack sound is restricted.
  • FIG. 7A is a schematic diagram showing an example of an attack sound.
  • FIG. 7B is a schematic diagram showing an example of the sound in which the attack sound is restricted.
  • the horizontal axis represents time and the vertical axis represents the amplitude of the waveform.
  • the attack sound and the sound in which the attack sound is restricted based on the waveform of the sound.
  • the attack sound and the sound in which the attack sound is regulated based on the change in amplitude over a certain period of time.
  • FIG. 7A it is possible to define a sound with large amplitude attenuation for a certain period of time as an attack sound.
  • the threshold and the like serving as a reference for determining whether or not the attenuation is large for a certain period of time may be set arbitrarily.
  • the amount of attenuation (attenuation rate) from the peak of the amplitude, the peak value, or the like may be used as a parameter for defining the attack sound.
  • the attack sounds include, for example, the sound “Gachat” that is generated when the door is opened, the sound that the gun “Ban” is fired, and the sound that is generated when objects "Gachan” collide with each other. Of course, it is not limited to these sounds.
  • the predetermined range As shown in FIG. 7B, it is possible to specify a sound whose amplitude change rate (change amount) within a predetermined range within a predetermined range as a sound whose attack sound is restricted. Further, it is possible to define a sound whose amplitude is substantially constant in a certain time as a sound whose attack sound is restricted.
  • the fixed time, the predetermined range, and the threshold value that determines whether or not it is substantially constant may be set arbitrarily.
  • the amount of attenuation (attenuation rate) from the peak of the amplitude may be used to define the attack sound as a regulated sound when the amount of attenuation (attenuation rate) is smaller than a predetermined threshold value. Further, the peak value or the like may be used as the determination parameter.
  • Sounds with controlled attack sounds include, for example, the sound of the "key” while the door is open, the sound of "falling” of the fallen leaves, the wind noise of the "hue” when the window is opened, and the “za”.
  • a continuous sound such as the sound of rain. Of course, it is not limited to these sounds.
  • An event ID is generated by the communication terminal carried by another person based on the movement of the other person, and is transmitted to the communication terminal 40 of the user 2 together with the time stamp.
  • a virtual attack sound that strongly steps on the fallen leaves is played, and then a virtual sound that quietly walks on the fallen leaves is played.
  • the delay amount is outside the predetermined time range, the sound of the virtual attack sound that strongly steps on the fallen leaves is not reproduced, and the virtual sound that quietly walks on the fallen leaves is faded in/fade out.
  • reproduction control can be executed.
  • another person corresponds to the real object.
  • attack sound a sound that has been reproduced within a predetermined time range (for example, within 0.5 seconds) and is not repeated thereafter may be defined as an attack sound.
  • a sound whose sound pressure level (amplitude) becomes equal to or less than half of the maximum value within a predetermined time range (for example, within 0.5 seconds) may be defined as an attack sound.
  • a sound that makes the user strongly recognize the timing at which the sound occurs is also possible to specify a sound that makes the user strongly recognize the timing at which the sound occurs as an attack sound. That is, it is possible to define, as an attack sound, a sound that causes a user who hears the sound to strongly recognize when the sound occurs. For example, a sudden sound, a sound that can be expressed as a short and strong sound, and the like are included. For example, a sound having a large increase in amplitude per unit time, a sound having a peak amplitude value larger than a predetermined threshold value, or the like can be defined as an attack sound.
  • the attack sound may be defined by the relevance (interlocking) with the movement of the real object.
  • a sound that causes the user to feel discomfort when the sound is delayed with respect to the movement of the real object may be defined as the attack sound.
  • it is also possible to define the sound by an expression different from the attack sound for example, a sound having a high temporal relevance or a sound that is not allowed to deviate from the motion.
  • Attack sound may be defined by the relevance (interlocking) to the user's operation on the real object. For example, a sound that makes the user feel uncomfortable when the sound is delayed with respect to the user's operation may be defined as the attack sound. For example, it is possible to specify the sound by an expression such as an operation-related sound.
  • a sound that occurs once for one movement may be specified as an attack sound.
  • a sound with a smooth change in sound pressure level may be specified as a sound with a controlled attack sound.
  • the present invention is not limited to this, and various sounds may be defined as sounds whose attack sound is restricted. For example, there is a sound that does not make the user feel uncomfortable even if the user repeatedly makes a motion with respect to a single motion of the user or a motion of a real object.
  • a sound other than the sound defined as the attack sound may be defined as the sound in which the attack sound is restricted.
  • the sound defined as the attack sound is actually reproduced, and the amount of delay up to which the user feels uncomfortable. It may be confirmed experimentally whether there is any. This makes it possible to realize a high quality virtual experience.
  • the audio AR system 100 when the delay amount is within the predetermined time range based on the delay amount (arrival time) related to the acquisition of the sensor information generated based on the movement of the door 1. , The reproduction of the audio content according to the movement of the door 1 is controlled by the first reproduction method, and when the delay amount is outside the predetermined time range, the audio content according to the movement of the door 1 by the second reproduction method. Playback is controlled. As a result, the audio content can be reproduced in consideration of the delay amount, so that it becomes possible to provide a high-quality virtual experience.
  • reproduction of audio content is controlled based on the amount of communication delay. If the delay amount is small, a sound such as an attack sound that is easy to draw attention is played, and if the delay amount is large, the sound content is controlled so as to regulate the attack sound that is likely to greatly impair the virtual experience due to the delay. Control playback. This makes it possible to provide a high quality virtual experience.
  • FIG. 8 is a schematic diagram for explaining the outline of the voice AR system according to the present embodiment.
  • a plurality of communication terminals 20a and 20b are installed as sensor devices on the door 1 which is an actual object.
  • the configurations of the sensor units 25 of the communication terminal 20a and the communication terminal 20b are not limited, and may have the same configuration or different configurations.
  • the configurations of the communication terminals 20a and 20b may be the same as or different from each other.
  • the method for detecting the movement of the door 1 is not limited, and any method may be adopted. That is, the communication terminals 20a and 20b may be able to detect the movement of the door 1 by the same detection method. Alternatively, the communication terminals 20a and 20b may be able to detect the movement of the door 1 by different detection methods.
  • sensor information (event ID) corresponding to the movement of the door 1 is generated from each of the communication terminals 20a and 20b, and is transmitted to the communication terminal 40 together with a time stamp.
  • the communication terminal 40 executes the reproduction control of the audio content illustrated in FIG. 5 based on the earliest acquired event ID and time stamp. This makes it possible to provide a high-quality virtual experience according to the delay amount.
  • the audio content may be played after waiting for the arrival of the sensor information (event ID) from both the communication terminals 20a and 20b.
  • the reproduction of the audio content is controlled based on the latest acquired event ID and time stamp.
  • the delay amount (arrival time) is likely to increase, but since the first reproduction method and the second reproduction method are appropriately selected to control the audio content, the virtual experience is impaired. Can be suppressed.
  • the sensor information from all the sensor devices is waited before the audio content is detected. Executes playback control.
  • the sensor information from all the sensor devices is waited before the audio content is detected. Executes playback control.
  • by using a plurality of sensor information it is possible to detect the movement of the real object with high accuracy, and it is possible to contribute to the improvement of the delay amount even with a sensor with low accuracy.
  • the sensor information (event ID) from both the communication terminals 20a and 20b corresponds to a plurality of sensor information generated based on the movement of the real object.
  • the plurality of pieces of reproduction information one or more pieces of sensor information serving as a reference for reproduction control are selected, and reproduction of the audio content is controlled based on time information regarding acquisition of the selected one or more pieces of sensor information.
  • the sensor information acquired earliest among the plurality of sensor information may be selected as the sensor information serving as a reference for reproduction control.
  • all the sensor information may be selected as the sensor information serving as a reference for reproduction control.
  • FIG. 9 is a schematic diagram for explaining the outline of the audio AR system according to the third embodiment of the present technology.
  • a headphone 140 having the function of the communication terminal 40 described in the first and second embodiments is used.
  • the headphone 140 has each block of the communication terminal 40 shown in FIGS. 2 and 3. In FIG. 9, the microphone 23 and the camera 24 are illustrated. Note that the speaker 22 is arranged in a portion worn on the ear. Further, the controller 21, the sensor unit 25, and the like are provided at arbitrary positions on the headphones 140.
  • the communication terminal 20 installed in the door 1 and the headphone 140 worn by the user may cooperate to execute the reproduction control of the audio content according to the movement of the door 1.
  • FIG. 10 is a flowchart showing an example of reproduction control of audio contents by cooperation between the communication terminal 20 and the headphones 140.
  • the event ID corresponding to the movement of the door 1 is transmitted from the communication terminal 20 to the communication terminal 40.
  • the event ID transmitted from the communication terminal 20 is received by the headphones 140 (step 201).
  • the headphone 140 acquires time information when the microphone 23 detects the sound of the movement of the door 1 corresponding to the event ID.
  • the time stamp ts0 is acquired and stored.
  • the time stamp ts0 when the voice data detected by the microphone 23 is analyzed and the voice of the movement of the door 1 corresponding to the event ID is detected is acquired.
  • the communication terminal 20 transmits an event ID indicating that the door 1 has been opened.
  • a time stamp ts0 at which the sound of the door 1 being opened is detected is stored.
  • the stored time stamp ts0 is acquired.
  • the headphone 140 acquires the current time stamp ts1 (step 203). Then, the reproduction of the audio content corresponding to the movement of the door 1 is controlled based on the delay amount between the time stamp ts0 when the sound of the movement of the door 1 corresponding to the event ID is detected and the current time stamp ts1. (Steps 204, 205, 206, 207).
  • the reception amount of the event ID from the communication terminal 20 installed in the real object is used as a trigger to calculate the delay amount between the detection timing of the sound of the movement of the door 1 corresponding to the event ID and the current time. Good. Then, the reproduction of the audio content may be controlled based on the delay amount.
  • the headphones 140 also function as a sensor device according to the present technology. Further, the sound data detected by the headphones 140 and the determination result that the sound of the movement of the door 1 corresponding to the event ID is included in the sensor information generated based on the movement of the real object. Then, the delay amount between the detection timing of the sound of the movement of the door 1 corresponding to the event ID and the current time corresponds to the time information regarding the acquisition of the sensor information.
  • the reception of the event ID from the communication terminal 20 installed in the real object is used as a trigger to improve the recognition accuracy of the movement of the door 1 and to make a voice corresponding to the delay amount. It becomes possible to control the reproduction of the content. As a result, it becomes possible to realize a high quality virtual experience.
  • the collaborative processing with the communication terminal 20 may be performed using not only the audio data detected by the microphone 23 of the headphone 140 but also the captured image captured by the camera 24 of the headphone 140. That is, the movement of the door 1 corresponding to the received event ID may be detected using the captured image, and the delay amount from the current time may be calculated.
  • FIG. 11 is a schematic diagram for explaining the outline of the voice AR system according to the fourth embodiment.
  • the reproduction of the audio content is controlled based on the delay amount of the sensor information.
  • the reproduction control of the audio content based on various conditions may be executed.
  • reproduction of audio content is controlled based on a case where another person other than the user operates a real object such as a door, or based on the degree of interest in the real object by the user
  • a real object such as a door
  • FIG. 11 it is assumed that there are users 2 and 4 near the door 1. From the perspective of the user 2, the user 4 corresponds to another person. From the perspective of the user 4, the user 2 corresponds to another person. A case where the door 4 is opened by the user 4 will be taken as an example.
  • the sensor unit 25 of the communication terminal 20 senses the movement of the door 1.
  • the motion recognition unit 34 recognizes the event that the door 1 is opened based on the sensing result.
  • the communication control unit 36 transmits the event ID corresponding to the recognized movement of the door 1 and the time stamp to the communication terminal 40a of the user 2 and the communication terminal 40b of the user 4.
  • the configurations of the communication terminal 40b of the user 2 and the communication terminal 40a of the user 4 are not limited, and may have the same configuration or different configurations. Of course, the same device may be used as the communication terminals 40a and 40b.
  • the user determination unit 67 of the communication terminal 40a of the user 2 determines whether the user 1 has operated the door 1.
  • the user determination unit 67 of the communication terminal 40b of the user 4 determines whether or not the user 1 has operated the door 1.
  • each user determination unit 67 determines whether or not the door 1 is operated by the user 2(4) based on the distance between the user 2(4) and the door 1.
  • the processing shown in FIG. 5 is executed to realize the voice AR.
  • the reproduction of the attack sound is restricted regardless of the delay amount of the sensor information (event ID).
  • the volume of audio content can be sufficiently suppressed.
  • the reproduction of the audio content itself may be restricted (for example, the stop of the content reproduction or the limitation of the volume is included).
  • the first reproduction method and the second reproduction method that are selectively executed based on the delay amount may be executed. That is, when it is determined that the user of the communication terminal has operated the door 1, the reproduction of the audio content according to the movement of the door 1 is controlled by the first reproduction method. When it is determined that the door 1 is operated by another person, the reproduction of the audio content according to the movement of the door 1 is controlled by the second reproduction method. Such processing may be executed.
  • the user can more realistically concentrate on and experience the nearby events.
  • the communication content can be reduced with respect to a distant event, the number of systems required for the voice AR system 100 can be reduced.
  • the determination method of the user determination unit 67 is not limited. For example, even when the camera 24 captures an image of the door 1 operated by the user 4, it may be determined that the person other than the user 2 has operated the real object. Further, for example, it may be determined from a sensor value acquired by the sensor unit 25 such as the acceleration of the door 1.
  • control of the reproduction of the audio content by the reproduction control unit 57 is not limited.
  • the reproduction of the audio content may be restricted.
  • the distance between the real object and the user is not limited to the case where it is used to determine the person who operates the door 1.
  • the reproduction control of the audio content may be executed based on the distance itself between the real object and the user. For example, based on whether or not the distance from the real object is within a certain range, is within a predetermined range close to the real object, is within a predetermined range away from the real object, or the like, May be controlled. This makes it possible to realize various virtual experiences and entertain the user.
  • the interest degree determination unit 66 determines how much the user 2 has an interest degree in the door 1 based on the detection information acquired by the microphone 23, the camera 24, and the sensor unit 25.
  • whether the user 2 is operating the door 1 or the user 4 operating the door 1 is in a group relationship with the user 2, or when the user 2 operates the door 1 Examples include whether the user has already experienced the output audio content, the user 2 is looking at the door 1, and the user 2 is facing the door 1 near the door 1.
  • the group relationship includes at least one of whether user 4 belongs to the same group as user 2, user 4 and family, user 4 and friend, or user 4 and an acquaintance on SNS (Social Networking-Service). But it's okay.
  • SNS Social Networking-Service
  • the present invention is not limited to this, and group relationships may be set based on relationships with various users 2.
  • the reproduction control unit 57 controls the reproduction of the audio content based on the determination result by the interest level determination unit 66. For example, the reproduction control unit 57 reproduces the attack sound when the degree of interest in the door 2 of the user 2 is high, such as when the user 4 who is a friend of the user 2 is operating the door 1. Further, when the user 2 is less interested in the door 1, the reproduction control unit 57 reproduces the sound in which the attack sound is restricted.
  • the same reproduction control as that performed by the user 2 is executed even if another person is operating.
  • the degree of interest of the user is low, the same reproduction control as that performed by another person is executed even when the user 2 is operating. For example, when the user 2 gazes in another direction or opens the door 1 while talking to another person, it is determined that the degree of interest of the user is low, and the reproduction of the attack sound is restricted. Alternatively, the reproduction of the audio content itself is restricted.
  • the method for determining the degree of interest is not limited.
  • the degree of interest may be determined based on whether the user 2 is moving or stopped. Further, for example, when the user 2 outputs various sounds such as music and other audio contents from the speaker 22, the reproduction of the audio contents according to the movement of the door 1 may be restricted.
  • control of audio content playback based on the degree of interest is not limited.
  • a numerical value may be associated with each degree of interest, and the reproduction of the audio content may be controlled when the threshold value is exceeded.
  • a plurality of interest level measurement methods may be arbitrarily combined and executed.
  • the reproduction control unit 57 may reproduce the attack sound.
  • the user 4 who operates the door 1 and the user 2 do not have a group relationship, but the user 2 is gazing at the door 1 near the door 1 and the sound output when the user 2 operates the door 1
  • the reproduction control unit 57 may reproduce the attack sound.
  • the reproduction control unit 57 may reproduce the attack sound when the user 2 is less interested in the door 1.
  • FIG. 12 is a schematic diagram showing control in which sensor information is regulated based on the degree of interest.
  • a straight line 110 indicates a sensor value such as acceleration related to the movement of the door, and time passes along the arrow direction.
  • the straight line 120 shows the waveform of the audio content output by the communication terminal 40, and time passes along the arrow direction.
  • the movement of the door 1 acquired by the sensor unit 25 is transmitted to the communication terminal 40.
  • the communication terminal 40 controls the reproduction of the audio content based on the transmitted movement of the door 1.
  • the movement of the door 1 is frequently transmitted at short time intervals, so that the user 2 can listen to the audio content regarding the movement of the door 1 in detail.
  • the reproduction control unit 57 controls the audio content according to the acceleration of the door 1.
  • the user 2 can experience a high quality virtual experience.
  • the amount of sensor information generated by the user 2 based on the movement of the door 1 transmitted from the sensor unit 25 is regulated based on the degree of interest in the door 1.
  • the communication control unit 54 does not regulate the information amount of the sensor information acquired by the sensor unit 25. To receive.
  • the communication control unit 54 regulates the information amount of the sensor information acquired by the sensor unit 25.
  • the communication control unit 54 receives only the first sensor information 111 when the door 1 is opened and the last sensor information 112 when the movement of the door 1 is stopped.
  • the communication control unit 36 on the transmission side may regulate the amount of sensor information to be transmitted.
  • the information amount of the sensor information may be regulated on both the transmitting side and the receiving side.
  • the method of regulating the amount of sensor information is not limited.
  • the amount of information may be regulated based on the communication environment of the communication terminals 20 and 40. Further, for example, when the user 2 has a high degree of interest in the door 1, more sensor information may be transmitted.
  • the sensor information of the door movement is frequently transmitted, it is possible to express a realistic sound according to the movement of the real object, which requires communication and processing resources. For example, when there are a plurality of real objects other than the door in which the communication terminal 20 is arranged, the amount of delay may increase if the sensor information of those objects is frequently transmitted.
  • the degree of interest of the user is determined, so that the sensor information is frequently sent only when the user is looking at or operating the real object, and the sensor information when not looking Is transmitted less frequently. With this, by reducing the delay amount, a high quality virtual experience can be experienced.
  • attack sounds such as sounds that the user mainly manipulates the real object, sounds that are high or loud, sounds that have large changes in amplitude per unit time, etc. Even in a crowded environment with a lot of users, the sound to be noticed most is reproduced in the most noticeable manner.
  • attack sound of a real object operated by another user and having low interest to the user is regulated. This makes it possible to concentrate on one's own experience because the operation sounds of other users are inconspicuous. Also, in the situation where various events occur around the user, it is possible to hear the sound concerning the event that is most interesting, and it becomes possible to concentrate on the important experience.
  • the real object on which the communication terminal 20 is installed is the door 1.
  • the present invention is not limited to this, and the real object may be an object existing in the real space operated by the user 2. Examples include chairs, bags, cars, switches, pens and the like. Further, for example, it may be an object that the user cannot operate.
  • the present technology can be applied to a liquid crystal display or the like that displays advertisements at stations. Further, the operation of the real object by the user 2 can be said to be the movement of the user 2.
  • the control of the reproduction of the audio content is controlled based on the delay amount and the degree of interest.
  • the control of the reproduction of the audio content is not limited to this, and the reproduction of the audio content may be controlled based on the surrounding environment of the user 2 or the surrounding environmental sound.
  • the reproduction of the audio content may be controlled based on the density of people, the brightness of lighting, the state of radio wave congestion, the presence or absence of friends, and the like.
  • the surrounding environmental sound is noisy or quiet (volume of the environmental sound), whether the same sound as the audio content is played, whether the user himself is talking, etc.
  • the playback of audio content may be controlled.
  • the reproduction of the audio content may be controlled based on whether or not the user concentrates on another content, whether or not he/she is viewing the video on a smartphone or the like. Further, for example, the reproduction of the audio content may be controlled based on the number of times the user 2 operates the door 1.
  • the control of the reproduction of the audio content is reproduced based on the order in which the events arrive.
  • the present invention is not limited to this, and the arrival order of event IDs may be synchronized. For example, when the event ID indicating the sound of the bullet landing on the wall arrives, the reproduction of the audio content may be restricted until the event ID indicating the sound of the bullet firing arrives. As a result, it is possible to prevent the virtual experience of the user from being impaired by correctly controlling the order of the reproduced audio contents.
  • FIG. 13 is a schematic diagram showing communication control of sensor information according to another embodiment.
  • a straight line 130 indicates a time axis of a waveform indicating a sensor value such as acceleration related to the movement of the door 1 as time passes along the arrow direction.
  • a straight line 140 indicates the time axis of the waveform indicating the waveform of the audio content output from the communication terminal 40 as time passes along the arrow direction.
  • the audio content is reproduced by transmitting the sensor information generated based on the opening movement of the door 1 to the communication terminal 40.
  • the present invention is not limited to this, and the sensor information generated based on the opening movement of the door 1 may be divided and transmitted in stages.
  • FIG. 13A is a schematic diagram showing that audio content is reproduced based on sensor information from the communication terminal 20.
  • the movement of the door is sensed by the communication terminal 20.
  • the communication control unit 36 transmits the sensor information 131 indicating that the door has started moving to the communication control unit 54 of the communication terminal 40.
  • the reproduction control unit 57 controls the reproduction of audio contents according to the movement of the door.
  • the communication control unit 36 transmits the sensor information 132 indicating that the door is moving to the communication control unit 54.
  • the reproduction control unit 57 controls the reproduction of the audio content according to the movement of the door.
  • the reproduction control unit 57 starts the reproduction of the audio content in response to the acquisition of the sensor information, and determines whether or not to continue the reproduction of the audio content based on the presence/absence of the information regarding the continuation of the reproduction of the audio content. decide.
  • the sensor information 131, 132, and 133 correspond to information regarding continuation of reproduction of audio content.
  • the reproduction control unit 57 In order for the reproduction control unit 57 to control the reproduction of the audio content according to the movement of the door, it is necessary to store sensor information indicating the operation of opening the door for several milliseconds. However, as shown in the above embodiment, the reproduction control unit 57 controls the reproduction of the audio content based on the communication delay amount, and thus the delay amount may increase when the sensor information is stored for several milliseconds. possible.
  • FIG. 13B is a schematic diagram showing that the reproduction of the audio content is stopped based on the sensor information from the communication terminal 20.
  • the movement of the door is sensed by the communication terminal 20, and the communication control unit 36 transmits the sensor information 131 indicating that the door has started to move to the communication control unit 54 of the communication terminal 40.
  • the reproduction control unit 57 controls the reproduction of audio contents according to the movement of the door.
  • the communication control unit 36 transmits the sensor information 133 indicating that the door has stopped to the communication control unit 54.
  • the reproduction control unit 57 controls the reproduction of the audio content based on the sensor information indicating that the door has stopped. For example, the reproduction of the audio content is stopped by fading out the sound of "chucking" that is reproduced when the door starts moving.
  • FIG. 14 is a diagram showing examples of audio contents corresponding to various scenes.
  • the sound generated when moving a real object such as a door is set to a virtual sound.
  • the present invention is not limited to this, and a virtual sound may be set according to various scenes.
  • audio content associated with a place or space may be played.
  • the voice of a bird or the sound of a river may be played when the user approaches a place where a picture of a bird or a river is displayed.
  • the rain sound may be reproduced when the user is watching the space (video) where it is raining.
  • audio content that changes depending on the movement of the user may be played.
  • the audio content may be reproduced such that the footsteps change depending on when the user is running or walking.
  • audio content that changes according to the movements of other users may be played. For example, footsteps may be played when another user is walking nearby.
  • audio content that changes depending on the movement of a real object in the real space may be played.
  • the sound of opening a treasure box in the real space may be reproduced only by the user who is using the communication terminal 40 at an event or the like where a game experience can be made in the real world.
  • various audio contents may be reproduced by operating windows, switches, remote controllers, and the like.
  • audio content that changes with a virtual event in a scenario may be played.
  • a virtual object imitating a haunt appears in the user's field of view a virtual haunt scream may be played.
  • the reproduction of the audio content according to the movement of the real object is controlled.
  • the present invention is not limited to this, and the communication terminal 40, a dedicated device, or the like may vibrate.
  • the sensor information generated based on the motion of the real object is transmitted from the communication terminal 20.
  • the present invention is not limited to this, and the communication terminal 20 may transmit a control signal indicating that the audio content is to be reproduced.
  • the reproduction of the audio content is performed by the first and second reproduction methods. Control was done.
  • the present invention is not limited to this, and the control of reproduction of the audio content may be performed even for the sound generated a little later than the movement of the real object. For example, when the open door is closed, the audio content may be played earlier than the door is closed based on the delay amount.
  • the delay amount is calculated from the time difference of the acquired time stamps.
  • the invention is not limited to this, and the delay amount information itself may be acquired instead of the time stamp.
  • the audio content is reproduced by all the users who possess the communication terminal 40.
  • the present invention is not limited to this, and the audio content may be output from the speaker 22 so that only some users who carry the communication terminal 40 can hear it.
  • the sound may be reproduced only on the speaker 22 of a specific user who needs a sound instruction from a ticket vending machine at a station or an information board.
  • the reproduction of the audio content is controlled according to the degree of interest of the user in the real object.
  • the present invention is not limited to this, and the volume of the audio content may be controlled according to the surrounding environment or the distance to other users or real objects.
  • the reproduction of the audio content of the movement of the real object may be restricted by the operation of 10 or more other users.
  • the reproduction of the audio content is controlled based on the delay amount.
  • the present invention is not limited to this, and when the delay on the communication terminal 40 side is large, the output audio content may be controlled to be a lightweight file.
  • a lightweight fixed file such as wave (RIFF waveform audio format) may be used.
  • a file in which voice synthesis is performed in real time may be used.
  • the sound in which the attack sound is restricted is played as a method of restricting the attack sound.
  • the method is not limited to this, and various attack sounds may be regulated.
  • the attack sound portion of the audio content may be faded in to hide it so that it is difficult for the user to perceive.
  • another sound such as a crowded sound may be overlaid.
  • the information processing method and the program according to the present technology are executed by linking a computer mounted on a communication terminal with another computer capable of communicating via a network or by another computer capable of communicating with an HMD.
  • the information processing device according to the present technology may be constructed.
  • the information processing method and the program according to the present technology can be executed not only in a computer system configured by a single computer but also in a computer system in which a plurality of computers operate in conjunction.
  • the system means a set of a plurality of constituent elements (devices, modules (parts), etc.), and it does not matter whether or not all the constituent elements are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems.
  • the information processing method according to an embodiment of the present technology by the computer system, and the execution of the program include, for example, when recognition of an event, calculation of a delay amount, control of reproduction of audio content, and the like are performed by a single computer, and each process. When both are executed by different computers. Execution of each process by a predetermined computer includes causing a part or all of the process to be executed by another computer and acquiring the result.
  • the information processing method and program according to the present technology can be applied to a configuration of cloud computing in which one function is shared by a plurality of devices via a network and jointly processes.
  • the effects described in the present disclosure are merely examples and are not limited, and other effects may be present.
  • the above description of a plurality of effects does not mean that those effects are necessarily exhibited simultaneously. It means that at least one of the above-mentioned effects can be obtained depending on the conditions and the like, and of course, an effect not described in the present disclosure may be exhibited.
  • the present technology can also take the following configurations.
  • (1) Based on the time information regarding the acquisition of sensor information generated based on the movement of the real object, when the time information is within a predetermined time range, the movement of the real object is determined by the first reproduction method.
  • An information processing apparatus comprising: a reproduction control unit that controls reproduction of audio content in accordance with the reproduction time, and controls reproduction of the audio content by a second reproduction method when the time information is outside the predetermined time range.
  • the information processing device is an arrival time from the time when the sensor information is generated or the time when the sensor information is transmitted to the information processing apparatus to the time when the sensor information is acquired.
  • the information processing device includes reproduction of an attack sound according to the movement of the real object
  • the second reproduction method is an information processing device that restricts reproduction of the attack sound.
  • the information processing apparatus includes at least one of fade-in of the audio content and fade-out of the audio content.
  • the information processing device further comprising: A first determination unit that determines whether or not the user has operated the real object, An information processing apparatus, wherein the reproduction control unit controls reproduction of the audio content based on a determination result by the first determination unit.
  • the information processing device further comprising: It is provided with an acquisition unit capable of acquiring detection information including at least one of information about a user's state or information about surroundings, The information processing apparatus, wherein the first determination unit executes the determination based on the acquired detection information.
  • the information processing device according to (6) or (7), The information processing apparatus, wherein the first determination unit executes the determination based on a distance between the real object and the user.
  • the information processing device according to any one of (6) to (8), The information processing apparatus, wherein the first determination unit executes the determination based on the movement of the user.
  • the information processing apparatus according to any one of (1) to (9), further comprising: A second determination unit that determines a degree of interest of the user with respect to the real object, An information processing apparatus, wherein the reproduction control unit controls reproduction of the audio content based on a determination result by the second determination unit.
  • the information processing apparatus according to any one of (1) to (11), further comprising: It is provided with an acquisition unit capable of acquiring detection information including at least one of information about a user's state or information about surroundings, The information processing apparatus, wherein the reproduction control unit controls reproduction of the audio content based on the acquired detection information. (13) The information processing device according to (12), An information processing apparatus, wherein the reproduction control unit controls reproduction of the audio content based on ambient environmental sound. (14) The information processing device according to (12) or (13), An information processing apparatus, wherein the reproduction control unit controls reproduction of the audio content based on the number of times the user operates the real object.
  • the information processing device selects one or more pieces of sensor information serving as a reference for reproduction control from a plurality of pieces of sensor information generated based on the movement of the real object, and acquires the selected one or more pieces of sensor information.
  • the information processing device An information processing apparatus, wherein the reproduction control unit selects the sensor information acquired earliest among the plurality of sensor information as the one or more sensor information serving as a reference for the reproduction control.
  • An information processing method wherein a computer system executes reproduction of audio content according to a second reproduction method and controls reproduction of the audio content according to a second reproduction method when the time information is outside the predetermined time range.
  • a computer system executes reproduction of audio content according to a second reproduction method and controls reproduction of the audio content according to a second reproduction method when the time information is outside the predetermined time range.
  • the movement of the real object is determined by the first reproduction method.
  • the information processing apparatus according to any one of (1) to (18), An information processing device for controlling reproduction of the audio content by open headphones.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Cardiology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Ecology (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Environmental Sciences (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本技術の一形態に係る情報処理装置は、再生制御部を具備する。前記再生制御部は、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御する。

Description

情報処理装置、情報処理方法、及びプログラムを記載した記録媒体
 本技術は、音声AR(Augmented Reality)等の音声制御に適用可能な情報処理装置、情報処理方法、及びプログラムを記載した記録媒体に関する。
 特許文献1に記載の音声出力方法では、カメラで撮影された画像をもとに、プレイヤーの操作するオブジェクトが第1進入領域から第2進入領域に到達するまでの移動時間が計算される。計算された移動時間が参照され、オブジェクトが第2侵入領域に到達するのと実質的に同時にプレイヤーが音声を聴取するように、音声の出力タイミングが調節される。これにより、視覚および聴覚の両方を通してアクションが認識されたことをプレイヤーに知らしめることが図られている(特許文献1の明細書段落[0052][0055]図8、9等)。
特開2008-12102号公報
 このような音声AR等の音声制御について、高品質な仮想体験を提供することを可能とする技術が求められている。
 以上のような事情に鑑み、本技術の目的は、高品質な仮想体験を提供することを可能とする情報処理装置、情報処理方法、及びプログラムを記載した記録媒体を提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、再生制御部を具備する。
 前記再生制御部は、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御する。
 この情報処理装置では、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、実物体の動きに応じた音声コンテンツの再生が制御される。具体的には、時間情報が所定の時間範囲内である場合には第1の再生方法で音声コンテンツの再生が制御される。時間情報が所定の時間範囲外である場合には第2の再生方法で音声コンテンツの再生が制御される。これにより、高品質な仮想体験を提供することを可能となる。
 前記時間情報は、センサ装置により、前記実物体の動きに基づいて生成され、前記情報処理装置へ送信されてもよい。
 前記時間情報は、前記センサ情報が生成された時間又は前記センサ情報が前記情報処理装置に送信された時間から、前記センサ情報が取得された時間までの到達時間であってもよい。
 前記第1の再生方法は、前記実物体の動きに応じたアタック音の再生を含んでもよい。この場合、前記第2の再生方法は、前記アタック音の再生を規制してもよい。
 前記第2の再生方法は、前記音声コンテンツのフェードイン、又は前記音声コンテンツのフェードアウトの少なくとも一方を含んでもよい。
 前記情報処理装置は、さらに、ユーザにより前記実物体が操作されたか否かを判定する第1の判定部を具備してもよい。この場合、前記再生制御部は、前記第1の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御してもよい。
 前記情報処理装置は、さらに、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備してもよい。この場合、前記第1の判定部は、取得された前記検出情報に基づいて、前記判定を実行してもよい。
 前記第1の判定部は、前記実物体と前記ユーザとの距離に基づいて、前記判定を実行してもよい。
 前記第1の判定部は、前記ユーザの動きに基づいて、前記判定を実行してもよい。
 前記情報処理装置は、さらに、前記実物体に対するユーザの関心度を判定する第2の判定部を具備してもよい。この場合、前記再生制御部は、前記第2の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御してもよい。
 前記情報処理装置は、さらに、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備してもよい。この場合、前記第2の前記判定部は、取得された前記検出情報に基づいて、前記判定を実行してもよい。
 前記情報処理装置は、さらに、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備してもよい。この場合、前記再生制御部は、取得された前記検出情報に基づいて、前記音声コンテンツの再生を制御してもよい。
 前記再生制御部は、周囲の環境音に基づいて、前記音声コンテンツの再生を制御してもよい。
 前記再生制御部は、前記実物体に対する前記ユーザの操作の回数に基づいて、前記音声コンテンツの再生を制御してもよい。
 前記再生制御部は、前記実物体の動きに基づいて生成される複数のセンサ情報のうち再生制御の基準となる1以上のセンサ情報を選択し、選択された前記1以上のセンサ情報の取得に関する時間情報に基づいて、前記音声コンテンツの再生を制御してもよい。
 前記再生制御部は、前記複数のセンサ情報のうち、最も早く取得されたセンサ情報を前記再生制御の基準となる前記1以上のセンサ情報として選択してもよい。
 前記再生制御部は、前記センサ情報の取得に応じて前記音声コンテンツの再生を開始し、前記音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、前記音声コンテンツの再生を継続するか否かを決定してもよい。
 前記再生制御部は、前記実物体の動きに応じた音声コンテンツとは異なる他の音声コンテンツの再生の有無に基づいて、前記音声コンテンツの再生を制御してもよい。
 本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御することを含む。
 本技術の一形態に係るプログラムが記録された記録媒体は、コンピュータシステムに以下のステップを実行させる。
 実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御するステップ。
本技術の第1の実施形態に係る音声ARシステムの概要を説明するための模式図である。 通信端末の構成例を示すブロック図である。 音声ARシステムの機能的な構成例を示すブロック図である。 実物体の動きが開始してから、音声コンテンツを通信端末で出力するまでに生じる遅延を説明するための模式図である。 音声コンテンツの再生の制御例を示すフローチャートである。 遅延量に基づいた音声コンテンツの再生の制御例を説明するための模式図である。 アタック音とアタック音が規制された音の一例を説明するための模式図である。 本実施形態に係る音声ARシステムの概要を説明するための模式図である。 本技術の第3の実施形態に係る音声ARシステムの概要を説明するための模式図である。 通信端末とヘッドフォンとの協働による音声コンテンツの再生制御例を示すフローチャートである。 第4の実施形態に係る音声ARシステムの概要を説明するための模式図である。 関心度に基づいてセンサ情報が規制される制御を示す模式図である。 他の実施形態に係るセンサ情報の通信制御を示す模式図である。 様々な場面に応じた音声コンテンツの例を示す図である。
 以下、本技術に係る実施形態を、図面を参照しながら説明する。
 <第1の実施形態>
 [音声ARシステム]
 図1は、本技術の第1の実施形態に係る音声ARシステムの概要を説明するための模式図である。音声ARシステムは、本技術に係る情報処理システムの一実施形態に相当する。
 音声ARシステム100は、ユーザに、聴覚的な拡張現実(AR:Augmented Reality)体験を提供することが可能である。例えば現実には発生していない仮想的な音声コンテンツを、ユーザが装着するヘッドフォン等から出力する。これによりユーザは、様々な仮想体験を楽しむことが可能となる。
 なお本技術の適用が、仮想的な音声コンテンツのみが再生されるARシステムに限定される訳ではない。音声コンテンツに加えて、画像コンテンツや、触覚(ハプティクス)フィードバック等を提供可能なARシステムに対して、本技術を適用可能である。すなわち聴覚的なAR体験のみならず、視覚的なAR体験や触覚的なAR体験を提供可能なARシステムに対しても、本技術は適用可能である。
 本実施形態では、図1に示すように、ドア1の開閉に応じた音声ARの提供を例に挙げる。すなわち本実施形態では、実物体及び実物体の動きとして、ドア1の開閉を例に挙げて説明を行う。
 もちろん実物体及び実物体の動きは限定されない。例えば、実物体の動きの例として、実物体の開閉、実物体のスライド、実物体の回転動作、実物体の移動等が挙げられる。具体例としては、ぬいぐるみやロボット等を動かす、ボタン、レバー、ハンドル等の操作デバイスを操作する、車等の移動体を操作する、といった例が挙げられる。これ以外にも、実空間とゲーム等のコンテンツが連動している特定の場所のアイテムや水道の蛇口等の実物体の小道具の操作等も挙げられる。種々の実物体及び実物体の動きに応じた仮想的な音声コンテンツの再生に対して、本技術を広く適用することが可能である。
 音声ARシステム100は、ドア1に設置される通信端末20、ユーザ2に携帯される通信端末40、及びユーザ2に装着されるヘッドフォン3を含む。通信端末40は、本技術に係る情報処理装置の一実施形態に相当する。ドア1に設置される通信端末20は、本技術に係るセンサ装置の一実施形態に相当する。
 ユーザ2によりドア1が開けられると、通信端末20によりドア1の動きがセンシングされ、ドア1の動きに基づいたセンサ情報が生成される。そして通信端末20により、ドア1の動きに基づいたセンサ情報が通信端末40へ送信される。
 センサ情報は、ドア1の動きに基づいた任意の情報を含む。本実施形態では、ドア1が開かれたイベントを表すイベントIDが、センサ情報として用いられる。もちろんドア1が開かれたイベントを表す情報として、イベントIDとは異なる情報が用いられてもよい。またセンサ情報として、ドア1が開かれたイベントを表す情報とは異なる情報が用いられてもよい。例えば、通信端末20が備えるセンサ部25(図2参照)により、ドア1の動きに基づいて検出される加速度等の生値(検出値)が、センサ情報として用いられてもよい。
 通信端末40は、通信端末20から送信されたドア1の動きに基づいたセンサ情報に基づいて、ドア1の開く動きに応じた音声コンテンツの再生を制御する。例えばドア1が開く際に実際に発生する音に類似した「ガチャ!」「ギー」というような仮想的な音を含む音声コンテンツの再生が制御される。
 もちろんドア1が開く際に実際に発生する音とは異なる音声が、仮想的な音声として再生されてもよい。例えば「ワ!ハ!ハ!ようこそホラーランドへ」等の音声が出力されてもよい。
 通信端末40は、ヘッドフォン3による音声コンテンツの再生を制御する。すなわちユーザ3に装着されたヘッドフォン3から出力される音声が適宜制御される。ヘッドフォン3としては、例えば開放型ヘッドフォンや首掛けヘッドフォン等が用いられる。もちろんこれに限定されず、他の任意の構成を有するヘッドフォンが用いられてもよい。
 またスマートウォッチ等のウェアラブルデバイスやスマートフォン等に内蔵されるスピーカが用いられる場合でも、本技術は適用可能である。例えば通信端末40に内蔵されたスピーカにより、ドア1の動きに応じた音声コンテンツが再生されてもよい。その他、任意の音声出力デバイスに対して、本技術は適用可能である。
 また例えば、通信端末40自体がヘッドフォンとして構成されてもよい。すなわち通信端末40の機能を搭載するヘッドフォンが、本技術に係る情報処理装置として用いられてもよい。もちろん開放型ヘッドフォンとして構成されてもよい。
 また透過型のディスプレイを備えたメガネ型のHMD(Head Mounted Display)が、本技術に係る情報処理装置として構成されてもよい。この場合、HMDに搭載されるスピーカ等から様々な音声コンテンツが再生される。また実空間に対して仮想オブジェクトの画像を重畳することで、視覚的なARを体験することも可能となる。これにより高品質な仮想体験が実現される。その他、種々の装置により本技術に係る情報処理装置を実現することが可能である。
 なお通信端末20、通信端末40、及びヘッドフォン3を通信可能に接続する方法は限定されない。例えばWiFi等の無線LAN通信や、Bluetooth(登録商標)等の近距離無線通信を利用することが可能である。その他、無線及び有線による任意の接続形態が用いられてもよい。
 このような音声ARを提供することで、例えばユーザ2は実物体の操作に応じて、ホラーシーンや山小屋のドア等の仮想的な音を聞くことができる。この結果、ユーザ2は、日常から離れた音声AR体験を得ることが可能となる。
 図2は、通信端末20及び40の構成例を示すブロック図である。本実施形態では、説明を簡素化するために、通信端末20及び40が互いに等しい構成を有するものとする。もちろんこれに限定されず、通信端末20及び40の構成が互いに異なっていてもよい。
 通信端末20及び通信端末40は、コントローラ21、スピーカ22、マイク23、カメラ24、及びセンサ部25を有する。また通信端末20及び通信端末40は、表示部26、操作部27、I/F(インタフェース)部28、通信部29、及び記憶部30を有する。
 スピーカ22は、種々の音を出力可能である。スピーカ22の具体的な構成は限定されない。
 マイク23は、周辺で発生する音声を取得することが可能である。例えば、通信端末20のマイク23は、ドア1の開閉に応じて発生する音声や、周囲の環境音を検出して取得することが可能である。
 通信端末40のマイク23は、ユーザ2の周囲の環境音や、ユーザ2が発する音声を検出して取得することが可能である。またユーザ2がドア1を操作する場合には、その操作に応じて発生する音声を検出することが可能である。マイク23の具体的な構成は限定されない。
 カメラ24は、周囲を撮影し周囲の画像(画像データ)を生成することが可能である。例えば通信端末20のカメラ24は、ドア1の周囲を撮影することが可能であり、ドア1を操作する人物の顔や全身等を撮影することが可能である。以下、カメラ24により対象物を撮影し対象物の画像を生成することを、対象物の画像を撮影すると記載する場合がある。
 通信端末40のカメラ24は、ユーザの周囲の画像を撮影することが可能である。例えば、ユーザ2がドア1を操作する場合には、操作されたドア2の状態を撮影することが可能である。例えばドア1が開けられた状態や、ドア1が閉められた状態が撮影される。
 カメラ24として、例えばCMOS(Complementary Metal-Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサ等のイメージセンサを備えるデジタルカメラが用いられる。また、例えば赤外線LED等の赤外線照明を搭載した赤外線カメラが用いられてもよい。
 センサ部25は、9軸センサ31、及びGPS32を含む。9軸センサ31は、3軸加速度センサ、3軸ジャイロセンサ、及び3軸コンパスセンサを含む。9軸センサ31により、通信端末20(40)の角度、移動、及び向きの変化を検出することが可能である。GPS32は、通信端末20(40)の位置情報を出力することが可能である。
 例えば通信端末20のセンサ部25により、ドア1の動き、姿勢、向き等を検出することが可能である。またGPS32により通信端末20が付随したドア1の位置情報を検出することが可能である。通信端末40のセンサ部25により、ユーザ2の動き、姿勢、向き等を検出することが可能である。またユーザ2の位置情報を検出することが可能である。
 センサ部25として設けられるセンサの種類は限定されず、任意のセンサが設けられてもよい。例えばユーザ2の体温及び脈拍数等を検出可能な生体センサ等が設けられてもよい。また周囲の環境の温度や湿度等を測定可能な温度センサや湿度センサ等が設けられてもよい。なお図2に示すマイク23及びカメラ24がセンサ部25として機能してもよい。
 表示部26は、例えば液晶、EL(Electro-Luminescence)等を用いた表示デバイスであり、種々の画像や種々のGUI(Graphical User Interface)等が表示される。操作部27は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。操作部27がタッチパネルを含む場合、そのタッチパネルは表示部26と一体となり得る。
 I/F部28は、USB(Universal Serial Bus)端子やHDMI(登録商標)(High-Definition Multimedia Interface)端子等の、他のデバイスや種々のケーブルが接続されるインタフェースである。
 通信部29は、他のデバイスと通信するための通信モジュールであり、例えばWiFi等の無線LAN(Local Area Network)モジュールや、Bluetooth(登録商標)等の近距離無線通信用の通信モジュールが用いられる。本実施形態では、通信部29を介して、通信端末20と通信端末40との通信が実行される。
 コントローラ21は、通信端末20及び通信端末40が有する各ブロックの動作を制御する。コントローラ21は、例えばCPU(プロセッサ)、ROM、RAM、及びHDD等のコンピュータの構成に必要なハードウェアを有する。CPUがROM等に予め記録されている本技術に係るプログラム(例えばアプリケーションプログラム)をRAMにロードして実行することにより、本技術に係る情報処理方法が実行される。
 コントローラ21の具体的な構成は限定されず、例えばGPU、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等の任意のハードウェアが用いられてもよい。
 プログラムは、例えば種々の記録媒体を介して通信端末20及び通信端末40にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。もちろん通信端末20へのプログラムのインストール方法と、通信端末40へのプログラムのインストール方法が同じである必要はなく、互いに異なる方法が用いられてもよい。
 本技術に係るプログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば非一時的にデータを記録する任意の記録媒体が用いられてよい。
 通信端末20及び通信端末40は、例えばスマートフォン、タブレット端末、ウェアラブル装置、センサ装置等により実現することが可能である。もちろんこれに限定されず、任意のコンピュータ装置が用いられてよい。例えば通信端末20として、ドア1の動きをセンシング可能であり、そのセンサ情報を送信可能な任意の装置が用いられてよい。また通信端末40として、センサ情報を受信可能であり、受信したセンサ情報に基づいてドア1の動きに応じた音声コンテンツンの再生を制御可能な任意の装置が用いられてよい。
 もちろんセンシング機能を有する装置、及び通信機能を有する装置が協働することで、通信端末20が実現されてもよい。また通信機能を有する装置、及び音声コンテンツの再生を制御する機能を有する装置が協働することで、通信端末40が実現されてもよい。
 以下の説明において、図2に示す各ブロックについて、通信端末20が有するブロックについては符号に「a」を添えて記載する場合がある。また通信端末40が有するブロックについては符号に「b」を添えて記載する場合がある。例えば通信端末20が有するスピーカ22については、「スピーカ22a」と記載する場合がある。通信端末40が有するスピーカ22については、「スピーカ22b」と記載する場合がある。
 図3は、音声ARシステム100の機能的な構成例を示すブロック図である。
 本実施形態では、通信端末20のコントローラ21aのCPU等が、本実施形態に係るプログラムを実行することで、機能ブロックとして動き認識部34、時間取得部35、及び通信制御部36が実現される。各ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
 また、通信端末40のコントローラ21bのCPU等が、本実施形態に係るプログラムを実行することで、機能ブロックとして通信制御部54、情報処理部55、遅延算出部56、及び再生制御部57が実現される。各ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
 動き認識部34は、通信端末20のセンサ部25aによる検出結果に基づいて、ドア1の動きを認識する。例えば加速度の変化等に基づいて、ドア1の開く動き、ドア1の閉まる動き、動きの速度、等を認識することが可能である。またドア1がノックされたこと等を認識することも可能である。もちろん通信端末20のカメラ24aにより撮影される画像や、マイク23aにより取得される音声等に基づいて、ドア1の動きが認識されてもよい。
 動き認識部34は、認識したドア1の動きに応じたイベントIDを生成し、通信制御部36に供給する。例えばドア1が開いた場合はイベントID「001」が供給され、ドア1が閉められた場合は、イベントID「001」が供給される。ドア1の開く速度に応じて異なるイベントIDが生成されてもよい。
 ドア1の動きを認識するための具体的な方法は限定されず、任意の技術が用いられてよい。例えばDNN(Deep Neural Network:深層ニューラルネットワーク)等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング(深層学習)を行うAI(人工知能)等を用いることで、ドア1の動きの認識精度を向上させることが可能となる。
 時間取得部35は、動き認識部34により認識されたドア1の動きに応じたイベントIDを、通信制御部36が他のデバイス(通信端末40)に送信する際の時間情報を取得する。時間情報としては、例えばタイムスタンプ等が用いられる。タイムスタンプとして実際の時間情報が用いられてもよいし、共通の基準時間を基準として一意に増加するクロックの情報が用いられてもよい。時間情報を取得する方法は限定されず、任意の方法が採用されてよい。例えば携帯網(LTE:Long Term Evolution)等からの時刻が利用されてもよい。
 なお、通信端末20にてイベントIDが生成される際のタイムスタンプが、イベントIDとともに送信されてもよい。この場合、通信端末20によりセンサ情報(本実施形態では、イベントID)が生成された時間から、通信端末20によりセンサ情報が取得された時間までの到達時間が、遅延量として算出される。
 通信制御部36は、通信端末40との通信を制御する。本実施形態では、通信制御部36により、図2に示す通信部29の動作が制御され、種々の情報(データ)を通信端末40に送信することが可能である。
 本実施形態では、通信制御部36により、ドア1の動きに応じたイベントID、及びタイムスタンプがセットで通信端末40に送信される。
 上記でも述べたが本実施形態では、動き認識部34により認識されたドア1の動きに応じたイベントIDが、実物体の動きに基づいて生成されるセンサ情報に相当する。もちろんこれに限定されず、他の情報が用いられてもよい。例えば動き認識部34に入力されるセンサ部25aの生値(検出値)等が、センサ情報として通信端末40に送信されてもよい。そして通信端末40側で、ドア1の動きの認識が実行されてもよい。
 通信端末40の通信制御部54は、通信端末20との通信を制御する。本実施形態では、通信制御部54により、通信端末40の通信部29bの動作が制御され、種々の情報(データ)を通信端末20から受信することが可能である。もちろん通信端末40から通信端末20に種々の情報(データ)に送信することも可能である。
 通信制御部54は、通信端末20から受信したイベントID及びタイムスタンプを情報処理部55に供給する。
 情報処理部55は、ユーザ状態検出部61と、状況検出部62と、イベント認識部63と、イベントDB64と、時間取得部65と、関心度判定部66と、ユーザ判定部67とを有する。
 ユーザ状態検出部61は、通信端末40のセンサ部25bによる検出結果(センシング結果)、マイク23bにより取得された音声(音声データ)、カメラ24bにより撮影された画像(画像データ)等に基づいて、ユーザ2の状態に関する状態情報を検出することが可能である。
 ユーザ2の状態情報として、例えばユーザ2の姿勢、動き、位置、発話内容等のユーザ2に関する種々の情報を検出することが可能である。例えば歩行中、走行中、電車にて移動中、運転中等の情報や運動しているスポーツの種類等の情報が、ユーザ2の状態情報として検出される。またユーザ2のジェスチャーや視線方向等を検出することも可能である。
 例えば、ドア1に対する操作、ユーザ2の足音、ユーザ2の発話内容、ドア1を注視しているかどうか、他の人物に対するコミュニケーションの有無等を検出することが可能である。これに限定されず、ユーザ2のあらゆる行動を検出することが可能である。
 状況検出部62は、センサ部25bによる検出結果(センシング結果)、マイク23bにより取得された音声(音声データ)、カメラ24bにより撮影された画像(画像データ)等に基づいて、周囲の状況に関する状況情報を検出することが可能である。例えばユーザ2がいる場所の種類、周囲の環境音、周囲に存在する実物体の種類、実物体とユーザ2との距離、実物体の動き、実物体が発する音声等を検出することが可能である。
 例えば、ドア1の動き、ドア1から発せられる音、周囲にいる他の人物の動き、他の人物の発話内容、他の人物の足音、屋内であるか屋外であるか、周囲の明るさ、天候等、種々の状況情報を検出することが可能である。
 これら種々のユーザ2の状態情報や周囲の状況情報は、例えば機械学習を用いた行動解析等の、任意の技術により検出可能である。
 なお、通信端末20により取得されたセンシング結果、音声データ、及び画像データが、通信制御部36及び54を介して、ユーザ状態検出部61及び状況検出部62に入力されてもよい。そして入力された各情報に基づいて、ユーザの状態情報や周囲の状況情報が検出されてもよい。
 また通信端末20にもユーザ状態検出部61及び状況検出部62が備えられてもよい。そして通信端末20により検出されたユーザ2の状態情報や、周囲の状況情報が、通信端末40に送信されてもよい。
 本実施形態において、ユーザの状態情報、及び周囲の状況情報は、検出情報に含まれる。ユーザの状態情報のみが検出される構成や、周囲の状況情報のみが検出される構成が採用されてもよい。またユーザの状態情報と周囲の状況情報とが明確に区分される必要は必ずしもない。ユーザの状態に関する情報、及び周囲の状況に関する情報が包括的に検出情報として検出されてよい。
 本実施形態において、ユーザ状態検出部61、及び状況検出部62は、ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部として機能する。
 イベント認識部63は、通信制御部54により供給されたイベントIDからイベントの内容を認識する。例えば、イベントDB64に記憶されるイベントIDと供給されたイベントIDとが一致した場合に、そのイベントが実空間で起きたと認識される。
 またイベント認識部63は、センサ部25による検出結果(センシング結果)、マイク23により取得された音声(音声データ)、カメラ24により撮影された画像(画像データ)等に基づいて、実空間で起きたイベントを認識することも可能である。例えばドア1が開く音に基づいて、ドア1が開いたイベントが認識される。イベント認識部63を、ユーザ状態検出部61及び状況検出部62の一機能として構成することも可能である。
 イベントDB64は、イベントの内容と紐づいたイベントIDが記憶される。記憶されるイベントIDは限定されない。本実施形態では、コントローラ21内のHDD等によりイベントDB64が構築される。これに限定されず、コントローラ21の外部に設けられた記憶デバイス等により、イベントDB64が構築されてもよい。
 イベントDB64に、イベントの順序に関する情報が記憶されてもよい。例えば、弾丸の発射のイベントIDと、弾丸が対象物に着弾するイベントIDとがある場合、弾丸の発射のイベントの後に、弾丸が着弾するイベントが続く旨の情報が記憶されてもよい。また例えば、イベントIDの代わりに、特定のセンサ情報のみを送信するセンサ端末や専用線から信号を受信することで、実物体の動きが特定されてもよい。
 時間取得部65は、通信端末20からイベントIDとタイムスタンプとを受信した際の時間情報を取得する。本実施形態では、タイムスタンプが用いられる。すなわちイベントIDとタイムスタンプとを受信した際のタイムスタンプが取得される。
 関心度判定部66は、実物体に対するユーザ2の関心度を判定する。関心度は、ユーザ2が実物体に対してどのぐらい注目しているか、又は実物体に対して関わっているかを示すパラメータである。本実施形態では、例えばドア1に対するユーザ2の関心度が判定される。関心度判定部66による判定については、後に詳しく説明する。
 本実施形態において、関心度判定部66は、第2の判定部として機能する。関心度判定部66を、ユーザ状態検出部61及び状況検出部62の一機能として構成することも可能である。この場合、関心度判定部66は、取得部としても機能する。
 ユーザ判定部67は、ユーザ2によりドア1が操作されたか否かを判定する。例えば、ユーザ判定部67は、例えば検出情報として検出されたドア1とユーザ2との距離に基づいて、ユーザ2によりドア1が操作されたか否かを判定する。もちろん他の判定方法が用いられてもよい。
 本実施形態において、ユーザ判定部67は、第1の判定部として機能する。ユーザ判定部67を、ユーザ状態検出部61及び状況検出部62の一機能として構成することも可能である。この場合、ユーザ判定部67は、取得部としても機能する。
 遅延算出部56は、時間取得部35及び時間取得部65から供給される時間情報に基づいて、通信端末20から送信されるセンサ情報(本実施形態では、イベントID)が通信端末40に受信されるまでの遅延量(レイテンシ)を算出する。
 本実施形態では、イベントIDとともに送信されるタイムスタンプと、イベントIDの受信の際のタイムスタンプとにより、遅延量が算出される。すなわち本実施形態では、通信端末20によりセンサ情報が通信端末40に送信された時間から、通信端末20によりセンサ情報が取得された時間までの到達時間が、遅延量として算出される。
 本実施形態において、遅延量(到達時間)は、実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に相当する。
 再生制御部57は、イベント認識部63により認識されたイベントに応じた音声コンテンツの再生を制御する。本実施形態では、遅延量(到達時間)に基づいて、ドア1の動きに応じた音声コンテンツの再生が制御される。
 例えば再生制御部57は、第1の再生制御として、遅延量(到達時間)が所定の時間範囲内であるときに、第1の再生方法でドア1の動きに応じた音声コンテンツの再生を制御する。また第2の再生制御として、遅延量(到達時間)が所定の時間範囲外であるときに、第1の再生方法とは異なる第2の再生方法でドア1の動きに応じた音声コンテンツの再生を制御する。
 すなわち再生制御部57は、算出された遅延量が所定の時間範囲内のときと、所定の時間範囲外であるときとで異なる再生方法で、イベントに応じた音声コンテンツの再生を制御することが可能である。遅延量に応じた再生方法の具体例は後に詳しく説明する。
 また再生制御部57は、ユーザの状態情報及び周囲の状況情報を含む検出情報、関心度判定部66による判定結果、及びユーザ判定部67による判定結果に基づいて、音声コンテンツの再生を制御することも可能である。
 また再生制御部57は、イベントDBに記憶されたイベントの順序に基づいて、音声コンテンツの再生を制御することも可能である。
 なおイベントIDが用いられる場合に限定される訳ではなく、イベントIDがなくても実物体の動きに応じた音声コンテンツの再生を実行させることも可能である。例えば上記したように、イベントIDの代わりに、特定のセンサ情報のみを送信するセンサ端末や専用線から信号を受信することで、実物体の動きが特定される構成が採用されるとする。この場合、当該センサ端末や専用線からの信号に基づいて、特定された実物体の動きに応じた音声コンテンツを再生することが可能である。またイベントIDに基づいた音声コンテンツの再生と、イベントIDを用いない音声コンテンツの再生の両方が実行可能であってもよい。
 図4は、実物体の動きが開始してから、音声コンテンツを通信端末40で出力するまでに生じる遅延を説明するための模式図である。
 直線70は、通信端末20の時間軸であり、矢印方向に沿って時間が経過する。直線80は、通信端末40の時間軸であり、矢印方向に沿って時間が経過する。
 星マーク71は、ドア1の動きがあったタイミングを表現している。ここではドア1が開かれた場合を例に挙げる。ドア1の開く動きに応じて、通信端末20のセンサ部25によりセンシング72が実行される。
 図4の処理73は、動き認識部34、時間取得部35、及び通信制御部36により行われる処理を1つの処理として示す。すなわち、動き認識部34によりドア1の開きが認識され、ドア1の開きに応じたイベントIDが通信制御部36に供給される。時間取得部35により、通信制御部36による送信タイミングのタイムスタンプが取得される。通信制御部36により、イベントID及びタイムスタンプが送信される。
 図4の通信75は、イベントID及びタイムスタンプが通信中であることを表現している。すなわち通信端末20から送信されたイベントID及びタイムスタンプが、通信端末40に到達するまでの通信処理が表現されている。
 図4の処理81は、通信端末40の通信制御部54、情報処理部55、遅延算出部56、及び再生制御部57により行われる処理を1つの処理として示す。
 本実施形態では、通信制御部54は、イベントIDをイベント認識部63に供給し、タイムスタンプを時間取得部65に供給する。イベント認識部63は、供給されたイベントIDに基づいて、ドア1が開かれた旨のイベントを認識する。時間取得部65は、供給されたタイムスタンプ(処理73が実行された時間)を受信した際のタイムスタンプ(処理81が実行された時間)を取得する。
 遅延算出部56は、送信された際のタイムスタンプと受信された際のタイムスタンプから、遅延量を算出する。すなわち、通信75に掛かる時間が遅延量として算出される。
 再生制御部57は、遅延量とイベントに基づいて、ドア1の動きに応じた再生コンテンツの再生を制御する。これによりユーザ2に装着されたヘッドフォン3から、ドア1の開く動きに応じた音声コンテンツが再生される(図4の再生82)。
 星マーク83は、ユーザ2が音声コンテンツの音を知覚した時間を示す。図4に示すように、音声コンテンツの再生が開始してから、人間が音を知覚するまでには多少の時間が掛かる。
 図4の遅延85は、ドアが動いた星マーク71からユーザ2が音を知覚した星マーク83までの時間を示す。遅延85の要因として、通信端末20及び通信端末40にて実行される処理に掛かる時間や、通信端末20と通信端末40との通信75に掛かる時間(遅延量)等が挙げられる。本実施形態では、通信75の時間(遅延量)に基づいて、音声コンテンツの再生が制御される。
 もちろん通信端末20及び通信端末40にて実行される処理に掛かる時間に基づいて、音声コンテンツの再生を制御することも可能である。例えば、無線方式とは異なる他の通信方式が採用される場合等において、通信端末20及び通信端末40にて実行される処理に掛かる時間を遅延量として、本技術を適用することも可能である。
 遅延量は、通信端末20及び通信端末40による無線通信の環境に応じて変化する。例えば、通信端末20と通信可能な通信端末の数が多い場合、遅延量は大きくなる。また例えば、通信端末20と通信端末40との通信量が多い場合も、遅延量は大きくなる。また通信端末20及び40の通信部29の性能等によっても、遅延量は変わってくる。
 以下に説明するように、遅延量に応じて音声コンテンツの制御を実行することで、ユーザ2に高品質な仮想体験を提供することが可能となる。すなわち遅延量に応じた高品質な音AR体験を提供することが可能となる。例えばユーザ2自身の動作やユーザ2が観察した動作に付随する、納得のできる視聴体験を提供することが可能となる。また音と映像のクロスモーダル効果を発揮することも可能となる。
 図5は、音声コンテンツの再生の制御例を示すフローチャートである。図6は、遅延量に基づいた音声コンテンツの再生の制御例を説明するための模式図である。図6Aは、遅延量が所定の時間範囲内であるときの再生制御を示す模式図である。図6Bは、遅延量が所定の時間範囲外であるときの再生制御を示す模式図である。以下、図5及び図6を参照しながら説明を行う。
 図6A及びBの星マーク71に示すように、ドア1が開かれる。そうすると通信端末20のセンサ部25等により、ドア1が開く動きに基づいたセンシング結果が検出される(ステップ101)。動き認識部34により、ドア1が開かれたイベントが認識され、イベントIDが生成される(ステップ102)。
 通信端末20の通信制御部36は、イベントIDと、時間取得部35により取得されたタイムスタンプts0とを、通信端末40に送信する(ステップ103)。
 通信端末40の通信制御部54は、通信端末20から送信されたドア1が開かれたことを示すイベントIDと送信時のタイムスタンプts0を受信する。イベント認識部63は、ドアが開かれたことを示すイベントIDから、実空間で起きたイベントとしてドア1が開かれたことを認識する。また時間取得部65は、イベントIDを受信した時間を示すタイムスタンプts1を取得する(ステップ104)。
 遅延算出部56は、受信した時間を示すタイムスタンプts1と送信した時間を示すタイムスタンプts0とから遅延量を算出する。
 再生制御部57は、算出された遅延量が、所定の時間範囲内であるか否かを判定する。本実施形態では、所定の時間範囲として0.2秒が設定される。従って再生制御部により、算出された遅延量が0.2秒以内であるか否かが判定される(ステップ105)。もちろんステップ105の判定の基準となる所定の時間範囲は限定されず、任意に設定されてよい。例えば、0.05秒等のさらに短い時間範囲が設定されてもよいし、0.5秒等のさらに長い時間範囲が設定されてもよい。
 図6Aに示すように、通信75に掛かる時間である遅延量85が0.2秒未満であった場合(ステップ105のYES)、再生制御部57は、第1の再生方法により、ドア1の動きに応じた音声コンテンツの再生の制御を実行する。
 本実施形態では、まずドア1の動きに応じたアタック音として、ドア1が開いた瞬間の「ガチャ!」という音が再生される(ステップ106)。そして、アタック音が再生された後に、アタック音を含まない音として、ドア1が開く動きに応じた「ギー」という音が再生される(ステップ107)。
 図6Bに示すように、通信75に掛かる時間である遅延量85が0.2秒以上であった場合(ステップ105のNO)、再生制御部57は、第2の再生方法により、ドア1の動きに応じた音声コンテンツの再生の制御を実行する。
 本実施形態では、ドア1の動きに応じたアタック音である「ガチャ!」は再生されず、アタック音を含まない「ギー」という音が再生される。またアタック音を含まない「ギー」という音は、フェードインにより再生される。
 このように本実施形態に係る第1の再生方法は、実物体の動きに応じたアタック音を含む。また第2の再生方法は、実物体の動きに応じたアタック音の再生が規制される。アタック音の再生の規制は、アタック音として規定された音の再生の停止、及びアタック音として規定された音以外の音の再生を含む。またアタック音の再生の規制は、アタック音が規制された音の再生を含む。アタック音及びアタック音が規制された音については、後に詳しく説明する。
 また第2の再生方法は、音声コンテンツのフェードインを含む。なおステップ108にて再生された「ギー」という音が、そのままフェードアウトされてもよい。すなわち第2の再生方法として、音声コンテンツのフェードアウトが含まれてもよい。
 もちろん第1の再生方法及び第2の再生方法が、このような再生方法に限定される訳ではない。例えば第1の再生方法がアタック音を含まない場合もあり得る。また第2の再生方法が音声コンテンツンのフェードインやフェードアウトを含まない場合もあり得る。高品質の視聴体験を実現するために、第1の再生方法及び第2の再生方法が任意に設定されてよい。
 図6に示す遅延量85が大きい場合に、音声ARとして、「ガチャ!」等のアタック音が再生されるとする。この場合、実際のドア1の動きと、仮想的な音声との連動性が損なわれてしまい、仮想体験の品質が大きく低減してしまう可能性が高い。例えばユーザ2がドアノブを捻ってドア1を大きく開いた後に、「ガチャ!」という音が聞えてしまい、ユーザ2にとって大きな違和感となってしまう。
 本実施形態では、遅延量85が所定範囲内の場合に、アタック音の再生が実行される。一方、遅延量が所定の範囲外の場合には、アタック音の再生が規制される。これにより、ドア1の実際の動きと、仮想的な音声の再生との連動性が高く維持される。この結果、高品質な仮想体験を提供することが可能となる。
 また遅延量が所定範囲外の場合には、音声コンテンツのフェードインやフェードアウトが実行される。これにより、実際のドア1の動きと仮想的な音声とのずれの影響をさらに抑制することが可能となり、仮想体験の品質を向上させることが可能となる。また音声コンテンツのフェードイン及びフェードアウトを用いることで、事前に多数の音源を用意することなく、実物体の動きと音との連動感が出せる。
 なお、図6に示す例では、ステップ108において、アタック音の再生が規制されている。これに限定されず、遅延量が所定範囲内の場合には、音声コンテンツの後半であっても、アタック音が再生されてもよい。
 図7は、アタック音とアタック音が規制された音の一例を説明するための模式図である。図7Aは、アタック音の一例を示す模式図である。図7Bは、アタック音が規制された音の一例を示す模式図である。
 図7のグラフは、横軸が時間であり、縦軸が波形の振幅を示す。例えば音の波形に基づいて、アタック音及びアタック音が規制された音を規定することが可能である。
 例えば、一定時間における振幅の変化に基づいて、アタック音及びアタック音が規制された音を規定することが可能である。図7Aに示すように、一定時間における振幅の減衰が大きい音を、アタック音として規定することが可能である。一定時間、及び減衰が大きいか否かを判定する基準となる閾値等は、任意に設定されてよい。もちろん振幅のピークからの減衰量(減衰率)や、ピーク値等が、アタック音を規定するためのパラメータとして用いられてもよい。
 図7Aに例示する波形の形状に着目して、類似した波形が繰り返されない音を、アタック音として規定することも可能である。類似した波形であるか否かを判定するための方法や、判定のためのパラメータ等は任意に設定されてよい。
 アタック音としては、例えば、「ガチャッ」というドアを開ける瞬間に発生する音、「バン」という銃の発射音、及び「ガチャン」という物同士が衝突した際に発生する音等が挙げられる。もちろんこれらの音に限定される訳ではない。
 図7Bに示すように、一定時間における振幅の変化率(変化量)が所定の範囲内となる音を、アタック音が規制された音として規定することが可能である。また一定時間において振幅が略一定となる音を、アタック音が規制された音として規定することが可能である。一定時間、及び所定の範囲、略一定であるか否かを定める閾値等は、任意に設定されてよい。もちろん、振幅のピークからの減衰量(減衰率)を用いて、減衰量(減衰率)が所定の閾値よりも小さい場合に、アタック音が規制された音として規定されてもよい。またピーク値等が、判定パラメータとして用いられてもよい。
 図7Bに例示する波形の形状に着目して、類似した波形が繰り返される音を、アタック音として規定することも可能である。類似した波形であるか否かを判定するための方法や、判定のためのパラメータ等は任意に設定されてよい。
 アタック音が規制された音としては、例えば、「キー」というドアが開いている間の音、「シャラシャラ」という落ち葉が擦れる音、「ヒュー」という窓を開けたときの風切り音、及び「ザー」という雨の音等の連続的な音が挙げられる。もちろんこれらの音に限定される訳ではない。
 例えば他の人物が落ち葉を強く踏みつけた後に、静かに落ち葉の上を歩いたとする。他の人物が携帯する通信端末により、他の人物の動きに基づいてイベントIDが生成され、タイムスタンプとともにユーザ2の通信端末40に送信される。
 イベントIDを受信するまでの遅延量が所定の時間範囲内の場合には、落ち葉を強く踏みつける仮想的なアタック音が再生された後に、落ち葉を静かに歩く仮想的な音が再生される。遅延量が所定の時間範囲外の場合は、落ち葉を強く踏みつける仮想的なアタック音の音は再生されず、落ち葉を静かに歩く仮想的な音がフェードンイン/フェードアウトされる。例えばこのような再生制御を実行することが可能である。なおこの例では、他の人物が実物体に相当する。
 なお、アタック音、及びアタック音が規制された音を規定する方法として、他の方法が採用されてよい。例えば所定の時間範囲内(例えば0.5秒以内)に音の再生が終了され、その後繰り返されない音がアタック音として規定されてもよい。また所定の時間範囲内(例えば0.5秒以内)に音圧レベル(振幅)が最大値の半分以下になる音が、アタック音として規定されてもよい。
 あるいは、類似した波形が繰り返される場合でも、その振幅が所定の値よりも大きい場合には、複数のアタック音として規定されてもよい。
 またその音が発生するタイミングを強くユーザに認識させる音を、アタック音として規定することも可能である。すなわちその音を聞いたユーザが、その音がいつ発生したかを強く認識させてしまう音を、アタック音として規定することが可能である。例えば突発的な音、短くて強い音と表現され得る音等が含まれる。例えば単位時間当たりの振幅の増加量が大きな音や振幅のピーク値が所定の閾値よりも大きい音等を、アタック音として規定することが可能である。
 また、実物体の動きとの関連性(連動性)により、アタック音が規定されてもよい。例えば、実物体の動きに対して遅延して発生する場合に、ユーザが違和感を覚えてしまう音を、アタック音として規定してもよい。この場合、アタック音とは異なる表現、例えば時間的に関連性が高い音や、動きとのずれが許容されない音といった表現で、その音を規定することも可能である。
 実物体へのユーザの操作との関連性(連動性)により、アタック音が規定されてもよい。例えばユーザの操作に対して遅延して発生する場合に、ユーザが違和感を覚えてしまう音を、アタック音として規定してもよい。例えば操作関連音といった表現で、その音を規定することも可能である。
 また1回の動き(1回の操作)に対して、1回発生する音が、アタック音として規定されてもよい。
 また例えば、音圧レベルの変化がなだらかな音等が、アタック音が規制された音として規定されてもよい。もちろんこれに限定されず、様々な音がアタック音が規制された音として定義されてよい。例えば、ユーザの1回の動作又は実物体の動きに対して、繰り返し再生されてもユーザが違和感を覚えない音が挙げられる。もちろんアタック音として規定された音以外の音が、アタック音が規制された音として規定されてもよい。
 なお図5のステップ105の判定の基準となる所定の時間範囲を設定する方法の1つとして、アタック音として規定された音を実際に再生して、どのくらいまでの遅延量であれば違和感を覚えないかを実験的に確認してもよい。これにより高品質な仮想体験を実現することが可能となる。
 以上、本実施形態に係る音声ARシステム100では、ドア1の動きに基づいて生成されるセンサ情報の取得に関する遅延量(到達時間)に基づいて、遅延量が所定の時間範囲内であるときに、第1の再生方法でドア1の動きに応じた音声コンテンツの再生が制御され、遅延量が所定の時間範囲外であるときに、第2の再生方法でドア1の動きに応じた音声コンテンツの再生が制御される。これにより、遅延量を考慮して音声コンテンツを再生することができるため、高品質な仮想体験を提供することを可能となる。
 実物体の動きをセンシングしてヘッドフォンで効果音等の仮想的な音声コンテンツを再生する場合、実物体で検知した動きの情報が小さい遅延量でヘッドフォンに伝わらないと良い仮想体験を作れない。一方で、無線帯域や処理のリソースには限りがあるので、混雑した状況だと遅延量を保証するのは難しい。
 そこで、本技術では、通信の遅延量に基づいて、音声コンテンツの再生を制御する。遅延量が小さい場合は、注意を向けやすいアタック音のような音を再生し、遅延量が大きい場合は、遅れることによって仮想体験を大きく損なう可能性の高いアタック音を規制するように音声コンテンツの再生を制御する。これにより、高品質な仮想体験を提供することを可能となる。
 本技術では、通信の遅延量に基づいて音声コンテンツの再生が制御されるため、他のユーザが多く無線帯域が混んで遅延が多い環境下でも、違和感の少ない音声AR体験が可能となる。
 また遅延量が大きい場合でも体験が大きく損なわれないため、BLE(Bluetooth Low Energy)等の低消費電力なプロトコルを使用でき、実物体側及びユーザが持つ通信端末の充電回数を減らすことが可能となる。
 <第2の実施形態>
 本技術に係る第2の実施形態の音声ARシステムについて説明する。これ以降の説明では、上記の実施形態で説明した音声ARシステム100における構成及び作用と同様な部分については、その説明を省略又は簡略化する。
 図8は、本実施形態に係る音声ARシステムの概要を説明するための模式図である。本実施形態では、実物体であるドア1に、センサ装置として、複数の通信端末20a及び20bが設置される。なお、通信端末20a及び通信端末20bのセンサ部25の構成は限定されず、互いに同じ構成であってもよいし異なる構成でもよい。
 通信端末20a及び20bの構成は、互いに同じであってもよいし、異なっていてもよい。またドア1の動きを検出する方法も限定されず、任意の方法が採用されてよい。すなわち通信端末20a及び20bが、同じ検出方法で、ドア1の動きを検出可能であってもよい。あるいは、通信端末20a及び20bが、互いに異なる検出方法で、ドア1の動きを検出可能であってもよい。
 本実施形態では、通信端末20a及び20bの各々から、ドア1の動きに応じたセンサ情報(イベントID)が生成され、タイムスタンプとともに、通信端末40に送信される。
 通信端末40では、最も早く取得したイベントID及びタイムスタンプを基準として、図5に例示する音声コンテンツの再生制御を実行する。これにより、遅延量に応じた高品質な仮想体験を提供することが可能である。
 なお、通信端末20a及び20bの両方からのセンサ情報(イベントID)の到着を待って、音声コンテンツの再生が実行されてもよい。この場合、典型的には、最も遅く取得したイベントID及びタイムスタンプを基準として、音声コンテンツの再生が制御される。この場合、遅延量(到達時間)が大きくなる可能性が高くなるが、第1の再生方法及び第2の再生方法が適宜選択されて音声コンテンツの制御が実行されるので、仮想体験が損なわれることが抑えられる。
 例えば、実物体の動きの検出精度を優先する場合や、実物体の動きに応じた音声コンテンツにアタック音が含まれない場合等では、全てのセンサ装置からのセンサ情報を待ってから音声コンテンツの再生制御を実行する。このように条件等に応じて設定を適宜選択することで、さらに高品質な仮想体験を実現することが可能である。また複数のセンサ情報を用いることで、高い精度で実物体の動きの検出をすることができ、精度の悪いセンサでも遅延量の改善に寄与できる。
 本実施形態において、通信端末20a及び20bの両方からのセンサ情報(イベントID)は、実物体の動きに基づいて生成される複数のセンサ情報に相当する。この複数の再生情報のうち、再生制御の基準となる1以上のセンサ情報が選択され、選択された1以上のセンサ情報の取得に関する時間情報に基づいて、音声コンテンツの再生が制御される。
 上記したように、複数のセンサ情報のうち、最も早く取得されたセンサ情報が、再生制御の基準となるセンサ情報として選択されてもよい。あるいは、全てのセンサ情報が、再生制御の基準となるセンサ情報として選択されてもよい。
 <第3の実施形態>
 図9は、本技術の第3の実施形態に係る音声ARシステムの概要を説明するための模式図である。本実施形態では、第1及び第2の実施形態において説明した通信端末40の機能が備えられたヘッドフォン140が用いられる。
 ヘッドフォン140は、図2及び図3に示す通信端末40の各ブロックを有する。図9では、マイク23と、カメラ24とが図示されている。なおスピーカ22は、耳に装着される部分に配置される。またコントローラ21やセンサ部25等は、ヘッドフォン140の任意の位置に設けられる。
 例えば、ドア1に設置された通信端末20と、ユーザにより装着されるヘッドフォン140とが協働することで、ドア1の動きに応じた音声コンテンツの再生制御が実行されてもよい。
 図10は、通信端末20とヘッドフォン140との協働による音声コンテンツの再生制御例を示すフローチャートである。まず通信端末20から通信端末40に、ドア1の動きに応じたイベントIDが送信される。
 ヘッドフォン140により、通信端末20から送信されたイベントIDが受信される(ステップ201)。ヘッドフォン140により、マイク23がイベントIDに対応するドア1の動きの音声を検出した時間情報が取得される。
 例えば、マイク23により検出された音声データが解析され、イベントIDに対応するドア1の動きの音声が検出された場合には、タイムスタンプts0が取得され記憶される。ステップ202では、通信端末20からイベントIDを受信した場合に、そのイベントIDに対応するドア1の動きの音声が検出された際のタイムスタンプts0が取得される。
 例えば、通信端末20からドア1が開いた旨のイベントIDが送信されたとする。ヘッドフォン140側では、ドア1が開いた音が検出されたタイムスタンプts0が記憶されている。ステップ202では、その記憶されたタイムスタンプts0が取得される。
 ヘッドフォン140は、現在のタイムスタンプts1を取得する(ステップ203)。そしてイベントIDに対応するドア1の動きの音が検出された際のタイムスタンプts0と、現在のタイムスタンプts1との遅延量に基づいて、ドア1の動きに応じた音声コンテンツの再生が制御される(ステップ204、205、206、207)。
 このように、実物体に設置されている通信端末20からのイベントIDの受信をトリガーとして、イベントIDに対応するドア1の動きの音声の検出タイミングと、現在時間との遅延量が算出されてもよい。そして遅延量に基づいて、音声コンテンツの再生が制御されてもよい。
 この場合、ヘッドフォン140は、本技術に係るセンサ装置としても機能する。またヘッドフォン140にて検出される音声データや、イベントIDに対応するドア1の動きの音であるという判定結果が、実物体の動きに基づいて生成されるセンサ情報に含まれる。そしてイベントIDに対応するドア1の動きの音声の検出タイミングと、現在時間との遅延量が、センサ情報の取得に関する時間情報に相当する。
 なお、マイク23により検出された音声データに基づいて、ドア1の動きを認識し、音声コンテンツの再生を認識することも可能である。一方、本実施形態のように、実物体に設置されている通信端末20からのイベントIDの受信をトリガーとすることで、ドア1の動きの認識精度を向上させつつ、遅延量に応じた音声コンテンツの再生制御が可能となる。この結果、高品質な仮想体験を実現することが可能となる。
 なお、ヘッドフォン140のマイク23により検出される音声データのみならず、ヘッドフォン140のカメラ24により撮影される撮影画像を用いて、通信端末20との協働処理が実行されてもよい。すなわち撮影画像を用いて、受信したイベントIDに対応するドア1の動きの検出が実行され、現在時間との遅延量が算出されてもよい。
 <第4の実施形態>
 図11は、第4の実施形態に係る音声ARシステムの概要を説明するための模式図である。
 上記の第1~第3の実施形態では、センサ情報の遅延量に基づいて、音声コンテンツの再生の制御が行われた。これに加えて、あるいはこれに代えて、様々な条件に基づいた音声コンテンツの再生制御が実行されてもよい。
 例えば、本実施形態では、ドア等の実物体に対して、ユーザ以外の他人が操作を行った場合や、ユーザの実物体に対する関心度に基づいて、音声コンテンツの再生の制御が実行される例を説明する
 図11に示すように、ドア1の付近にユーザ2とユーザ4とがいるとする。ユーザ2から見れば、ユーザ4は他の人物に相当する。ユーザ4から見れば、ユーザ2は他の人物に相当する。ユーザ4により、ドア1が開かれる場合を例に挙げる。
 ユーザ4がドア1を開けた場合、通信端末20のセンサ部25は、ドア1の動きをセンシングする。動き認識部34は、センシング結果に基づいて、ドア1が開いたイベントを認識する。通信制御部36は、認識されたドア1の動きに応じたイベントIDと、タイムスタンプとをユーザ2の通信端末40aと、ユーザ4の通信端末40bに送信する。なお、ユーザ2の通信端末40b、及びユーザ4の通信端末40aの構成は限定されず、互いに同じ構成であってもよいし異なる構成であってもよい。もちろん通信端末40a及び40bとして、同じデバイスが用いられてもよい。
 本実施形態では、ユーザ2の通信端末40aのユーザ判定部67により、ユーザ2によりドア1が操作されたか否かが判定される。同様に、ユーザ4の通信端末40bのユーザ判定部67により、ユーザ4によりドア1が操作されたか否かが判定される。例えば各ユーザ判定部67は、ユーザ2(4)とドア1との距離に基づいて、ユーザ2(4)によりドア1が操作されたか否かを判定する。
 ユーザ4の通信端末40bでは、ユーザ4によりドア1が操作されたと判定される。この場合、例えば図5に示す処理が実行され、音声ARが実現される。
 ユーザ2の通信端末40aでは、ユーザ2によりドア1が操作されていないと判定される。すなわち他の人物により、ドア1が操作されたと判定される。この場合、センサ情報(イベントID)の遅延量にかかわらず、アタック音の再生が規制される。または音声コンテンツのボリュームが十分に抑えられる。または、音声コンテンツの再生自体が規制されてもよい(例えばコンテンツ再生の停止やボリュームの制限等が含まれる)。
 例えば、遅延量に基づいて選択的に実行される第1の再生方法及び第2の再生方法が実行されてもよい。すなわち、通信端末のユーザによりドア1が操作されたと判定された場合に、第1の再生方法でドア1の動きに応じた音声コンテンツの再生を制御する。他の人物によりドア1が操作されたと判定された場合に、第2の再生方法でドア1の動きに応じた音声コンテンツの再生を制御する。このような処理が実行されてもよい。
 このように実物体とユーザとの距離の差に応じた音声コンテンツの再生制御が行われることで、ユーザはよりリアルに近くで起こっているイベントに集中して体験ができる。また遠くのイベントに関して通信内容を減らせることから、音声ARシステム100に用いられる必要なシステムを少なくできる。
 なお、ユーザ判定部67の判定方法は限定されない。例えば、カメラ24がユーザ4によりドア1が操作される画像が撮影された場合でも、実物体への操作がユーザ2以外の人物に行われたと判定してもよい。また例えば、ドア1の加速度等のセンサ部25の取得するセンサ値から判定されてもよい。
 また再生制御部57の音声コンテンツの再生の制御も限定されない。例えば、実物体への操作がユーザ2以外の人物に行われた場合、音声コンテンツの再生を規制してもよい。
 実物体とユーザとの距離が、ドア1を操作する人物の判定に用いられる場合に限定される訳ではない。実物体とユーザとの距離自体に基づいて、音声コンテンツの再生制御が実行されてもよい。例えば実物体からの距離が一定範囲であるか否か、実物体に近い所定の範囲内であるか否か、実物体から離れた所定の範囲内であるか否か等に基づいて、音声コンテンツの再生が制御されてもよい。これにより様々な仮想体験を実現することが可能となり、ユーザを楽しませることが可能となる。
 次に、ユーザ2がドア1に対する関心度に基づいて、音声コンテンツの再生の制御が行われる説明を行う。
 関心度判定部66は、マイク23、カメラ24、及びセンサ部25により取得される検出情報に基づいて、ユーザ2がドア1に対してどのくらいの関心度を持っているか判定する。
 関心度が判定される方法の例としては、ユーザ2がドア1を操作しているか、ドア1を操作しているユーザ4がユーザ2とグループ関係か、ユーザ2がドア1を操作した際に出力される音声コンテンツを既に体験しているか、ユーザ2がドア1を見ているか、ユーザ2がドア1の近くでドア1の方向を向いているか等が挙げられる。
 グループ関係は、ユーザ4がユーザ2と同じグループに属しているか、ユーザ4と家族か、ユーザ4と友人か、又はユーザ4とSNS(Social Networking-Service)上の知り合いかの少なくとも1つを含んでもよい。もちろんこれに限定されず、様々なユーザ2との関係性に基づいてグループ関係が設定されてよい。
 再生制御部57は、関心度判定部66による判定結果に基づいて、音声コンテンツの再生を制御する。例えば、再生制御部57は、ユーザ2の友人であるユーザ4がドア1を操作する姿を見ている場合等のユーザ2のドア1に対する関心度が高い場合、アタック音を再生する。また再生制御部57は、ユーザ2のドア1に対する関心度が低い場合、アタック音が規制された音を再生する。
 例えばユーザの関心度が高い場合には、他に人物が操作している場合でも、ユーザ2が操作している場合と同様の再生制御を実行する。一方で、ユーザの関心度が低い場合には、ユーザ2が操作している場合でも、他の人物が操作している場合と同様の再生制御を実行する。例えばユーザ2が他の方向を注視したり、他の人物と話しながらドア1を開けた場合には、ユーザの関心度が低いと判定され、アタック音の再生が規制される。あるいは音声コンテンツ自身の再生が規制される。
 なお、関心度が判定される方法は限定されない。例えば、ユーザ2が移動中や停止中に基づいて関心度が判定されてもよい。また例えば、ユーザ2が音楽等の様々な音や他の音声コンテンツがスピーカ22から出力されている場合、ドア1の動きに応じた音声コンテンツの再生が規制されてもよい。
 また関心度に基づいて音声コンテンツの再生の制御も限定されない。例えば、各関心度に数値を紐づけて、閾値を超えた場合に音声コンテンツの再生が制御されてもよい。また例えば、複数の関心度の測定方法が任意に組み合わされて実行されてもよい。
 すなわち、ユーザ4がドア1を操作した場合、上記の第4の実施形態ではアタック音が規制された音が再生された。この場合でも、ユーザ2がドア1に対して高い関心度があると判定された場合は、再生制御部57は、アタック音を再生してもよい。例えば、ドア1を操作するユーザ4とユーザ2とがグループ関係ではないが、ユーザ2がドア1の近くでドア1を凝視しており、ユーザ2がドア1を操作した際に出力される音声コンテンツを未体験の場合、再生制御部57は、アタック音を再生してもよい。
 また例えば、再生制御部57は、ユーザ2のドア1に対する関心度が低い場合にアタック音を再生してもよい。
 図12は、関心度に基づいてセンサ情報が規制される制御を示す模式図である。
 直線110は、ドアの動きに関する加速度等のセンサ値を示し、矢印方向に沿って時間が経過する。直線120は、通信端末40で出力される音声コンテンツの波形を示し、矢印方向に沿って時間が経過する。
 センサ部25により取得されるドア1の動きは、通信端末40に送信される。通信端末40は、送信されたドア1の動きに基づいて、音声コンテンツの再生を制御する。
 図12Aに示すように、ドア1の動きが短い時間間隔で頻繁に送信されることで、ユーザ2は、ドア1の動きに関する音声コンテンツを細かく聞くことができる。例えば、ドア1が勢いよく開けられた場合やドア1がゆっくりと開けられた場合に、再生制御部57は、ドア1の加速度に応じて音声コンテンツを制御する。これにより、ユーザ2は、高品質な仮想体験が体験できる。
 第4の実施形態では、ユーザ2がドア1に対する関心度に基づいて、センサ部25から送信されるドア1の動きに基づいて生成されるセンサ情報の情報量が規制される。
 図12Aに示すように、関心度判定部66がユーザ2のドア1に対する関心度が高いと判定した場合、通信制御部54は、センサ部25が取得したセンサ情報の情報量を規制せずに受信する。
 また図12Bに示すように、関心度判定部66がユーザ2のドア1に対する関心度が低いと判定した場合、通信制御部54は、センサ部25が取得したセンサ情報の情報量を規制する。具体的なセンサ情報の情報量の規制の例としては、通信制御部54は、ドア1が開いた最初のセンサ情報111と、ドア1の動きが停止した最後のセンサ情報112のみを受信する。
 ユーザ2のドア1に対する関心度が低いと判定した場合、送信側である通信制御部36により、送信するセンサ情報の情報量が規制されてもよい。もちろん送信側及び受信側の両方で、センサ情報の情報量が規制されてもよい。
 なお、センサ情報の情報量の規制する方法は限定されない。例えば、通信端末20及び通信端末40の通信環境に基づいて、情報量が規制されてもよい。また例えば、ユーザ2がドア1に対して高い関心度を持つ場合、より多くのセンサ情報が送信されてもよい。
 ドアの動きのセンサ情報が頻繁に送信されると実物体の動きにあったリアルな音表現が可能となる分、通信や処理のリソースがかかる。例えば、通信端末20が配置された実物体がドア以外にも複数ある場合、それらのセンサ情報を頻繁に送信されると遅延量が大きくなる可能性がある。
 このため、第4の実施形態では、ユーザの関心度が判定されることで、ユーザが実物体を見たり操作している時のみにセンサ情報が頻繁に送られ、見ていない時のセンサ情報の送信頻度は低減される。これにより、遅延量を減らすことで、高品質な仮想体験が体験できる。
 また、ユーザが実物体を主体的に操作した音のみ、高い音や音量の大きい音、単位時間当たりの振幅の変化が大きな音等のいわゆる目立つ音(アタック音)で再生されることで、他のユーザが多くいる混んだ環境でも、最も注目したい音が最も目立つように再生される。また、他人が操作したユーザの関心が低い実物体のアタック音が規制される。これにより、他のユーザの操作の音が目立たないため自分の体験に集中できる。またユーザの周りで様々な出来事(イベント)が起こっている状況において、一番関心のある出来事に関する音を聞くことが可能となり、大事な体験により集中することが可能となる。
 <その他の実施形態>
 本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
 上記の第1~第4の実施形態では、通信端末20が設置される実物体はドア1だった。これに限定されず、実物体は、ユーザ2により操作される実空間内に存在する物体であってもよい。例えば、いす、カバン、車、スイッチ、及びペン等が挙げられる。また例えば、ユーザが操作を行えない物体でもよい。例えば、駅の広告を表示する液晶ディスプレイ等にも本技術は適用可能である。またユーザ2の実物体の操作は、ユーザ2の動きとも言える。
 上記の第1~第4の実施形態では、音声コンテンツの再生の制御は、遅延量及び関心度等に基づいて制御された。これに限定されず、音声コンテンツの再生の制御は、ユーザ2の周囲の環境や周囲の環境音に基づいて、音声コンテンツの再生が制御されてもよい。例えば、人の密集度、照明の明るさ、電波の混雑状況、友人の有無等に基づいて、音声コンテンツの再生が制御されてもよい。また周囲の環境音がうるさい又は静かであるか否か(環境音の音量の大小)、音声コンテンツと同じような音が流れているか否か、ユーザ自身が会話しているか否か等に基づいて、音声コンテンツの再生が制御されてもよい。またユーザが別のコンテンツに集中しているか否か、スマートフォン等により映像を視聴しているか否か等に基づいて、音声コンテンツの再生が制御されてもよい。また例えば、ドア1に対するユーザ2の操作の回数に基づいて、音声コンテンツの再生が制御されてもよい。
 また上記の第1~第4の実施形態では、音声コンテンツの再生の制御は、イベントの到達する順番に基づいて再生された。これに限定されず、イベントIDの到達順序の同期が取られてもよい。例えば、弾丸が壁に着弾する音を示すイベントIDが到達した場合、弾丸の発射音を示すイベントIDが到達するまで音声コンテンツの再生が規制されてもよい。これにより、再生される音声コンテンツの順番が正しく制御されることで、ユーザの仮想体験が損なわれることを防ぐことが可能となる。
 図13は、他の実施形態に係るセンサ情報の通信制御を示す模式図である。図13に示すように、直線130は、矢印方向に沿って時間が経過し、ドア1の動きに関する加速度等のセンサ値を示す波形の時間軸を示す。直線140は、矢印方向に沿って時間が経過し、通信端末40で出力される音声コンテンツの波形を示す波形の時間軸を示す。
 上記の第1~第4の実施形態では、ドア1の開く動きに基づいて生成されるセンサ情報が通信端末40に送信されることにより音声コンテンツが再生された。これに限定されず、ドア1の開く動きに基づいて生成されるセンサ情報が段階的に分かれて送信されてもよい。
 図13Aは、通信端末20からのセンサ情報に基づいて音声コンテンツが再生されることを示す模式図である。
 図13Aに示すように、通信端末20によりドアの動きがセンシングされる。この時通信制御部36は、ドアが動き始めたことを示すセンサ情報131を通信端末40の通信制御部54に送信する。再生制御部57は、ドアが動き始めた動きに応じた音声コンテンツの再生を制御する。
 次にドアが更に開かれた場合、通信制御部36は、ドアが動いていることを示すセンサ情報132を通信制御部54に送信する。再生制御部57は、ドアが動いている動きに応じた音声コンテンツの再生を制御する。
 すなわち、再生制御部57は、センサ情報の取得に応じて音声コンテンツの再生を開始し、音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、音声コンテンツの再生を継続するか否かを決定する。なお、本実施形態において、センサ情報131、132、及び133は、音声コンテンツの再生の継続に関する情報に相当する。
 再生制御部57がドアの動きに応じた音声コンテンツの再生を制御するためには、ドアが開いたという動作を示すセンサ情報を数ミリ秒蓄える必要がある。しかし、上記の実施形態に示すように、再生制御部57は、通信の遅延量に基づいて音声コンテンツの再生を制御するため、センサ情報を数ミリ秒蓄えると遅延量が大きくなってしまう場合があり得る。
 本実施形態のようにセンサ情報が段階的に送信されることで、実物体が動いたと認識できるまでの遅延量を減らすことができる。これにより、高品質な仮想体験が体験できる。
 図13Bは、通信端末20からのセンサ情報に基づいて音声コンテンツの再生が停止されることを示す模式図である。
 図13Bに示すように、通信端末20によりドアの動きがセンシングされ、通信制御部36は、ドアが動き始めたことを示すセンサ情報131を通信端末40の通信制御部54に送信する。再生制御部57は、ドアが動き始めた動きに応じた音声コンテンツの再生を制御する。
 次にドアの動きが停止した場合、通信制御部36は、ドアが停止したことを示すセンサ情報133を通信制御部54に送信する。再生制御部57は、ドアが停止したセンサ情報に基づいて、音声コンテンツの再生を制御する。例えば、ドアが動き始めた際に再生された「ガチャッ」という音をフェードアウトすることで音声コンテンツの再生を停止させる。
 すなわち、図13Bでは、ドアが開いたという動きに応じた音声コンテンツが再生された後にドアの動きが停止した場合、音声コンテンツの再生を停止するように制御が行われる。この結果、ユーザによる意図しない実物体の動きに応じた音声コンテンツの再生を防ぐことが可能となる。
 図14は、様々な場面に応じた音声コンテンツの例を示す図である。
 上記の第1~第4の実施形態では、ドア等の実物体を動かす際に発生する音が仮想的な音に設定された。これに限定されず、様々な場面に応じて仮想的な音が設定されてよい。
 1つの例として、場所や空間に紐づけられた音声コンテンツが再生されてもよい。例えば、ユーザが鳥や川の絵が飾られている場所に近づいた場合に、鳥の声や川の音が再生されてもよい。また例えば、雨が降っている空間(映像)をユーザが視聴している場合に、雨音が再生されてもよい。
 1つの例として、ユーザの動きによって変わる音声コンテンツが再生されてもよい。例えば、ユーザが走っている時や歩いている時等に応じて足音が変わる様に音声コンテンツが再生されてもよい。
 1つの例として、他のユーザの動きにより変わる音声コンテンツが再生されてもよい。例えば、他のユーザが近くで歩いている場合に、足音が再生されてもよい。
 1つの例として、実空間内の実物体の動きにより変わる音声コンテンツが再生されてもよい。例えば、実世界でゲーム体験ができるイベント等で、実空間にある宝箱を開けるときの音が通信端末40を使用しているユーザにのみ再生されてもよい。これ以外にも、窓、スイッチ、リモコン等の操作にも様々な音声コンテンツが再生されてもよい。
 1つの例として、シナリオ内の仮想的なイベントで変わる音声コンテンツが再生されてもよい。例えば、ユーザの視野にお化けを模した仮想オブジェクトが現れた場合に、仮想のお化けの叫び声が再生されてもよい。
 もちろんこれらに限定されず、様々な場面が想定されてよい。例えば、車が雨の降ってない道路を走っている場合に、車載スピーカから雨が降っている道路を車が走っている際の音声コンテンツが再生されてもよい。
 上記の第1~第4の実施形態では、実物体の動きに応じた音声コンテンツの再生が制御された。これに限定されず、通信端末40や専用の装置等が振動をしてもよい。
 上記の第1~第4の実施形態では、通信端末20から実物体の動きに基づいて生成されたセンサ情報が送信された。これに限定されず、通信端末20から音声コンテンツを再生する旨の制御信号が送信されてもよい。
 上記の第1~第4の実施形態では、ドア1が開いた場合等の実物体の動きに対してすぐに音が発生する場合に第1の及び第2の再生方法で音声コンテンツの再生の制御が行われた。これに限定されず、実物体の動きに対して少し遅れて発生する音にも音声コンテンツの再生の制御が行われてもよい。例えば、開いているドアが閉まる場合、遅延量に基づいてドアが閉まるよりも早めに音声コンテンツが再生されてもよい。
 また上記の第1~第4の実施形態では、取得されたタイムスタンプの時間差から遅延量が算出された。これに限定されず、タイムスタンプではなく遅延量の情報そのものが取得されてもよい。
 上記の第1~第4の実施形態では、通信端末40を所持しているユーザ全員に音声コンテンツが再生された。これに限定されず、通信端末40を所持している一部ユーザにのみ聞こえるようにスピーカ22から音声コンテンツが出力されてもよい。例えば、駅の券売機や情報案内板等の音声指示を必要としている特定のユーザのスピーカ22にのみ音声が再生されてもよい。
 上記の第1~第4の実施形態では、ユーザの実物体に対する関心度に応じて音声コンテンツの再生が制御された。これに限定されず、周囲の環境や他のユーザ又は実物体との距離等に応じて音声コンテンツの音量が制御されてもよい。例えば、10人以降の他のユーザの操作による実物体の動きの音声コンテンツの再生が規制されてもよい。
 上記の第1~第4の実施形態では、遅延量に基づいて、音声コンテンツの再生が制御された。これに限定されず、通信端末40側の遅延が大きい場合に、出力される音声コンテンツが軽量なファイルに制御されてもよい。例えば、遅延が大きい場合、wave(RIFF waveform audio format)等の軽量な固定のファイルが用いられてもよう。また例えば、遅延が小さい場合は、リアルタイムで音声合成されたファイルが用いられてもよい。
 上記の第1~第4の実施形態では、アタック音を規制する方法として、アタック音が規制された音が再生された。これに限定されず、様々なアタック音を規制する方法が採用されてもよい。例えば、音声コンテンツのアタック音の部分をフェードインすることでユーザが知覚しづらいように隠してもよい。またアタック音が再生される時に雑踏の音等の別の音が重ねられてもよい。
 通信端末に搭載されたコンピュータとネットワーク等を介して通信可能な他のコンピュータとが連動することにより、あるいはHMDと通信可能な他のコンピュータにより、本技術に係る情報処理方法、及びプログラムが実行され、本技術に係る情報処理装置が構築されてもよい。
 すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお、本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
 コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば、イベントの認識、遅延量の算出、及び音声コンテンツの再生の制御等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部又は全部を他のコンピュータに実行させその結果を取得することを含む。
 すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
 各図面を参照して説明した情報処理部、イベント認識部、遅延算出部、再生制御部等の各構成、通信システムの制御フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。
 なお、本開示中に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。上記の複数の効果の記載は、それらの効果が必ずしも同時に発揮されるということを意味しているのではない。条件等により、少なくとも上記した効果のいずれかが得られることを意味しており、もちろん本開示中に記載されていない効果が発揮される可能性もある。
 以上説明した各形態の特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。
 なお、本技術は以下のような構成も採ることができる。
(1)実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御する再生制御部
 を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
 前記時間情報は、センサ装置により、前記実物体の動きに基づいて生成され、前記情報処理装置へ送信される
 情報処理装置。
(3)(2)に記載の情報処理装置であって、
 前記時間情報は、前記センサ情報が生成された時間又は前記センサ情報が前記情報処理装置に送信された時間から、前記センサ情報が取得された時間までの到達時間である
 情報処理装置。
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
 前記第1の再生方法は、前記実物体の動きに応じたアタック音の再生を含み、
 前記第2の再生方法は、前記アタック音の再生を規制する
 情報処理装置。
(5)(1)から(4)のうちいずれか1つに記載の情報処理装置であって、
 前記第2の再生方法は、前記音声コンテンツのフェードイン、又は前記音声コンテンツのフェードアウトの少なくとも一方を含む
 情報処理装置。
(6)(1)から(5)のうちいずれか1つに記載の情報処理装置であって、さらに、
 ユーザにより前記実物体が操作されたか否かを判定する第1の判定部を具備し、
 前記再生制御部は、前記第1の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
 情報処理装置。
(7)(6)に記載の情報処理装置であって、さらに、
 ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
 前記第1の判定部は、取得された前記検出情報に基づいて、前記判定を実行する
 情報処理装置。
(8)(6)又は(7)に記載の情報処理装置であって、
 前記第1の判定部は、前記実物体と前記ユーザとの距離に基づいて、前記判定を実行する
 情報処理装置。
(9)(6)から(8)のうちいずれか1つに記載の情報処理装置であって、
 前記第1の判定部は、前記ユーザの動きに基づいて、前記判定を実行する
 情報処理装置。
(10)(1)から(9)のうちいずれか1つに記載の情報処理装置であって、さらに、
 前記実物体に対するユーザの関心度を判定する第2の判定部を具備し、
 前記再生制御部は、前記第2の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
 情報処理装置。
(11)(10)に記載の情報処理装置であって、さらに、
 ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
 前記第2の前記判定部は、取得された前記検出情報に基づいて、前記判定を実行する
 情報処理装置。
(12)(1)から(11)のうちいずれか1つに記載の情報処理装置であって、さらに、
 ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
 前記再生制御部は、取得された前記検出情報に基づいて、前記音声コンテンツの再生を制御する
 情報処理装置。
(13)(12)に記載の情報処理装置であって、
 前記再生制御部は、周囲の環境音に基づいて、前記音声コンテンツの再生を制御する
 情報処理装置。
(14)(12)又は(13)に記載の情報処理装置であって、
 前記再生制御部は、前記実物体に対する前記ユーザの操作の回数に基づいて、前記音声コンテンツの再生を制御する
 情報処理装置。
(15)(1)から(14)のうちいずれか1つに記載の情報処理装置であって、
 前記再生制御部は、前記実物体の動きに基づいて生成される複数のセンサ情報のうち再生制御の基準となる1以上のセンサ情報を選択し、選択された前記1以上のセンサ情報の取得に関する時間情報に基づいて、前記音声コンテンツの再生を制御する
 情報処理装置。
(16)(15)に記載の情報処理装置であって、
 前記再生制御部は、前記複数のセンサ情報のうち、最も早く取得されたセンサ情報を前記再生制御の基準となる前記1以上のセンサ情報として選択する
 情報処理装置。
(17)(1)から(16)のうちいずれか1つに記載の情報処理装置であって、
 前記再生制御部は、前記センサ情報の取得に応じて前記音声コンテンツの再生を開始し、前記音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、前記音声コンテンツの再生を継続するか否かを決定する
 情報処理装置。
(18)(1)から(17)のうちいずれか1つに記載の情報処理装置であって、
 前記再生制御部は、前記実物体の動きに応じた音声コンテンツとは異なる他の音声コンテンツの再生の有無に基づいて、前記音声コンテンツの再生を制御する
 情報処理装置。
(19)実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御する
 ことをコンピュータシステムが実行する情報処理方法。
(20)実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御するステップ
 をコンピュータシステムに実行させるプログラムが記録された記録媒体。
(21)(1)から(18)のうちいずれか1つに記載の情報処理装置であって、
 開放型ヘッドフォンによる前記音声コンテンツの再生を制御する
 情報処理装置。
(22)(1)から(18)及び(21)のうちいずれか1つに記載の情報処理装置であって、
 開放型ヘッドフォンとして構成されている
 情報処理装置。
(23)(1)から(18)のうちいずれか1つに記載の情報処理装置であって、
 前記音声コンテンツを出力するヘッドフォンを具備し、
 HMD(Head Mounted Display)として構成されている
 情報処理装置。
 20…通信端末
 21…コントローラ
 34…動き認識部
 35…時間取得部
 40…通信端末
 56…遅延算出部
 57…再生制御部
 61…ユーザ状態検出部
 62…状況検出部
 63…イベント認識部
 65…時間取得部
 66…関心度判定部
 67…ユーザ判定部

Claims (20)

  1.  実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御する再生制御部
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記時間情報は、センサ装置により、前記実物体の動きに基づいて生成され、前記情報処理装置へ送信される
     情報処理装置。
  3.  請求項1に記載の情報処理装置であって、
     前記時間情報は、前記センサ情報が生成された時間又は前記センサ情報が前記情報処理装置に送信された時間から、前記センサ情報が取得された時間までの到達時間である
     情報処理装置。
  4.  請求項1に記載の情報処理装置であって、
     前記第1の再生方法は、前記実物体の動きに応じたアタック音の再生を含み、
     前記第2の再生方法は、前記アタック音の再生を規制する
     情報処理装置。
  5.  請求項1に記載の情報処理装置であって、
     前記第2の再生方法は、前記音声コンテンツのフェードイン、又は前記音声コンテンツのフェードアウトの少なくとも一方を含む
     情報処理装置。
  6.  請求項1に記載の情報処理装置であって、さらに、
     ユーザにより前記実物体が操作されたか否かを判定する第1の判定部を具備し、
     前記再生制御部は、前記第1の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
     情報処理装置。
  7.  請求項6に記載の情報処理装置であって、さらに、
     ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
     前記第1の判定部は、取得された前記検出情報に基づいて、前記判定を実行する
     情報処理装置。
  8.  請求項6に記載の情報処理装置であって、
     前記第1の判定部は、前記実物体と前記ユーザとの距離に基づいて、前記判定を実行する
     情報処理装置。
  9.  請求項6に記載の情報処理装置であって、
     前記第1の判定部は、前記ユーザの動きに基づいて、前記判定を実行する
     情報処理装置。
  10.  請求項1に記載の情報処理装置であって、さらに、
     前記実物体に対するユーザの関心度を判定する第2の判定部を具備し、
     前記再生制御部は、前記第2の判定部による判定結果に基づいて、前記音声コンテンツの再生を制御する
     情報処理装置。
  11.  請求項10に記載の情報処理装置であって、さらに、
     ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
     前記第2の前記判定部は、取得された前記検出情報に基づいて、前記判定を実行する
     情報処理装置。
  12.  請求項1に記載の情報処理装置であって、さらに、
     ユーザの状態に関する情報、又は周囲の状況に関する情報の少なくとも一方を含む検出情報を取得可能な取得部を具備し、
     前記再生制御部は、取得された前記検出情報に基づいて、前記音声コンテンツの再生を制御する
     情報処理装置。
  13.  請求項12に記載の情報処理装置であって、
     前記再生制御部は、周囲の環境音に基づいて、前記音声コンテンツの再生を制御する
     情報処理装置。
  14.  請求項12に記載の情報処理装置であって、
     前記再生制御部は、前記実物体に対する前記ユーザの操作の回数に基づいて、前記音声コンテンツの再生を制御する
     情報処理装置。
  15.  請求項1に記載の情報処理装置であって、
     前記再生制御部は、前記実物体の動きに基づいて生成される複数のセンサ情報のうち再生制御の基準となる1以上のセンサ情報を選択し、選択された前記1以上のセンサ情報の取得に関する時間情報に基づいて、前記音声コンテンツの再生を制御する
     情報処理装置。
  16.  請求項1に記載の情報処理装置であって、
     前記再生制御部は、前記複数のセンサ情報のうち、最も早く取得されたセンサ情報を前記再生制御の基準となる前記1以上のセンサ情報として選択する
     情報処理装置。
  17.  請求項1に記載の情報処理装置であって、
     前記再生制御部は、前記センサ情報の取得に応じて前記音声コンテンツの再生を開始し、前記音声コンテンツの再生の継続に関する情報の取得の有無に基づいて、前記音声コンテンツの再生を継続するか否かを決定する
     情報処理装置。
  18.  請求項1に記載の情報処理装置であって、
     前記再生制御部は、前記実物体の動きに応じた音声コンテンツとは異なる他の音声コンテンツの再生の有無に基づいて、前記音声コンテンツの再生を制御する
     情報処理装置。
  19.  実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御する
     ことをコンピュータシステムが実行する情報処理方法。
  20.  実物体の動きに基づいて生成されるセンサ情報の取得に関する時間情報に基づいて、前記時間情報が所定の時間範囲内であるときに、第1の再生方法で前記実物体の動きに応じた音声コンテンツの再生を制御し、前記時間情報が前記所定の時間範囲外であるときに、第2の再生方法で前記音声コンテンツの再生を制御するステップ
     をコンピュータシステムに実行させるプログラムが記録された記録媒体。
PCT/JP2020/001428 2019-01-30 2020-01-17 情報処理装置、情報処理方法、及びプログラムを記載した記録媒体 WO2020158440A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE112020000591.7T DE112020000591T5 (de) 2019-01-30 2020-01-17 Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und aufzeichnungsmedium, in dem ein programm geschrieben ist
JP2020569505A JPWO2020158440A1 (ja) 2019-01-30 2020-01-17 情報処理装置、情報処理方法、及びプログラムを記載した記録媒体
US17/415,401 US11826648B2 (en) 2019-01-30 2020-01-17 Information processing apparatus, information processing method, and recording medium on which a program is written

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019014705 2019-01-30
JP2019-014705 2019-01-30

Publications (1)

Publication Number Publication Date
WO2020158440A1 true WO2020158440A1 (ja) 2020-08-06

Family

ID=71842095

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/001428 WO2020158440A1 (ja) 2019-01-30 2020-01-17 情報処理装置、情報処理方法、及びプログラムを記載した記録媒体

Country Status (4)

Country Link
US (1) US11826648B2 (ja)
JP (1) JPWO2020158440A1 (ja)
DE (1) DE112020000591T5 (ja)
WO (1) WO2020158440A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7495187B2 (ja) 2019-12-13 2024-06-04 株式会社バンダイナムコエンターテインメント ゲームシステム及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010239245A (ja) * 2009-03-30 2010-10-21 Oki Electric Ind Co Ltd 環境音再生装置、環境音再生システム、環境音再生方法、およびプログラム
JP2014211808A (ja) * 2013-04-19 2014-11-13 日本電信電話株式会社 操作違和感軽減装置とその方法とプログラム
WO2017098772A1 (ja) * 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018109835A (ja) * 2016-12-28 2018-07-12 株式会社バンダイナムコエンターテインメント シミュレーションシステム及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1654892A (en) * 1926-07-10 1928-01-03 Emanuel P Meyer Door
US20070143127A1 (en) * 2005-12-21 2007-06-21 Dodd Matthew L Virtual host
JP4627052B2 (ja) 2006-07-06 2011-02-09 株式会社ソニー・コンピュータエンタテインメント 画像に連携した音声出力方法および装置
JP2010022646A (ja) * 2008-07-22 2010-02-04 Namco Bandai Games Inc プログラム、情報記憶媒体および画像生成システム
US8755949B2 (en) * 2009-12-22 2014-06-17 Electronics And Telecommunications Research Institute Telematics system using human body communication, portable device having telematics function using human body communication, and method for providing telematics service using human body communication
CN107996028A (zh) * 2015-03-10 2018-05-04 Ossic公司 校准听音装置
CN107847800B (zh) * 2015-09-15 2020-08-18 喀普康有限公司 游戏***、游戏***的控制方法以及非易失性存储介质
US10587945B2 (en) * 2016-04-11 2020-03-10 Sony Corporation Headphone, reproduction control method, and program
US9955279B2 (en) * 2016-05-11 2018-04-24 Ossic Corporation Systems and methods of calibrating earphones
KR102458962B1 (ko) * 2018-10-02 2022-10-26 한국전자통신연구원 가상 현실에서 음향 확대 효과 적용을 위한 음향 신호 제어 방법 및 장치
DE112019005499T5 (de) * 2018-11-01 2021-09-30 Sony Corporation Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und aufzeichnungsmedium
US20200312121A1 (en) * 2019-03-27 2020-10-01 Personal And Recreational Products, Inc. Alarm system supervisory by zone

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010239245A (ja) * 2009-03-30 2010-10-21 Oki Electric Ind Co Ltd 環境音再生装置、環境音再生システム、環境音再生方法、およびプログラム
JP2014211808A (ja) * 2013-04-19 2014-11-13 日本電信電話株式会社 操作違和感軽減装置とその方法とプログラム
WO2017098772A1 (ja) * 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018109835A (ja) * 2016-12-28 2018-07-12 株式会社バンダイナムコエンターテインメント シミュレーションシステム及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7495187B2 (ja) 2019-12-13 2024-06-04 株式会社バンダイナムコエンターテインメント ゲームシステム及びプログラム

Also Published As

Publication number Publication date
US20220040577A1 (en) 2022-02-10
JPWO2020158440A1 (ja) 2021-12-02
US11826648B2 (en) 2023-11-28
DE112020000591T5 (de) 2021-12-23

Similar Documents

Publication Publication Date Title
US11311804B2 (en) Incorporating and coordinating multiple home systems into a play experience
US10092827B2 (en) Active trigger poses
US10300372B2 (en) Virtual blaster
US11113884B2 (en) Techniques for immersive virtual reality experiences
JP4725936B1 (ja) 入力支援装置、入力支援方法及びプログラム
JP7163908B2 (ja) 情報処理装置、情報処理方法、および記録媒体
US10785447B2 (en) Information processing apparatus, information processing method, and program
CN108141696A (zh) 用于空间音频调节的***和方法
JP7020411B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US10317988B2 (en) Combination gesture game mechanics using multiple devices
JP2020039029A (ja) 動画配信システム、動画配信方法、及び動画配信プログラム
JP2016522465A (ja) 永続性コンパニオンデバイスを提供するための装置及び方法
US11354871B2 (en) Head-mountable apparatus and methods
JPWO2018155026A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2017002435A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2016045814A (ja) 仮想現実サービス提供システム、仮想現実サービス提供方法
WO2018173383A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6627775B2 (ja) 情報処理装置、情報処理方法およびプログラム
EP3621299A1 (en) Information processing device, information processing method, and program
WO2020158440A1 (ja) 情報処理装置、情報処理方法、及びプログラムを記載した記録媒体
JP2014170330A (ja) 仮想現実提示システム、仮想現実提示方法、仮想現実提示装置
EP4080907A1 (en) Information processing device and information processing method
WO2018190099A1 (ja) 音声提供装置、音声提供方法及びプログラム
EP4306192A1 (en) Information processing device, information processing terminal, information processing method, and program
WO2023281820A1 (ja) 情報処理装置、情報処理方法、記憶媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20748490

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020569505

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 20748490

Country of ref document: EP

Kind code of ref document: A1