WO2022224586A1 - 情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体 - Google Patents

情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体 Download PDF

Info

Publication number
WO2022224586A1
WO2022224586A1 PCT/JP2022/008277 JP2022008277W WO2022224586A1 WO 2022224586 A1 WO2022224586 A1 WO 2022224586A1 JP 2022008277 W JP2022008277 W JP 2022008277W WO 2022224586 A1 WO2022224586 A1 WO 2022224586A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
orientation
virtual
user
processing device
Prior art date
Application number
PCT/JP2022/008277
Other languages
English (en)
French (fr)
Inventor
雅俊 浜中
Original Assignee
国立研究開発法人理化学研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人理化学研究所 filed Critical 国立研究開発法人理化学研究所
Priority to JP2023516316A priority Critical patent/JPWO2022224586A1/ja
Publication of WO2022224586A1 publication Critical patent/WO2022224586A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present invention relates to an information processing device, an information processing method, a program, and an information recording medium for estimating the orientation of a user's face in the real world and outputting information according to this.
  • the sound source selection device disclosed in Patent Document 1 is headphones and a virtual sound source providing means for providing a plurality of virtual sound sources localized via the headphones to the listener wearing the headphones; virtual sound source selection means for selecting one virtual sound source from the plurality of virtual sound sources;
  • the virtual sound source providing means is localized sound source arrangement pattern storage means for storing a plurality of localized sound source arrangement patterns of the plurality of virtual sound sources to be provided to the listener; arrangement pattern selection means for selecting a desired pattern from the plurality of localized sound source arrangement patterns according to the listener's selection action; mixing means for providing the plurality of virtual sound sources according to the localized sound source arrangement pattern; a head movement detection sensor mounted on the headphones and detecting movement of the listener's head; head motion determination means for determining the motion of the head based on the output of the head motion detection sensor;
  • the arrangement pattern selection means selects another localized sound source arrangement pattern from the localized sound source arrangement pattern storage means
  • the front camera sometimes called the in-camera, front camera, or front camera.
  • a rear camera sometimes called a rear camera
  • a head movement detection sensor included in headphones is used to detect movement of the user's head.
  • audio equipment such as headphones and earphones used with smartphones and tablets have noise canceling functions and external audio capture functions, they are becoming popular, but most of them do not have head movement detection sensors. is.
  • the present invention is intended to solve the above problems, and includes an information processing apparatus, an information processing method, a program, and an information recording medium for estimating the orientation of a user's face in the real world and outputting information according to the orientation. Regarding.
  • An information processing apparatus has a camera, detecting a first orientation of the information processing device in a first coordinate system fixed in the real world; If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image. Estimate the orientation, calculating a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation; Information corresponding to the calculated third orientation is output.
  • an information processing device an information processing method, a program, and an information recording medium for estimating the direction of a user's face in the real world and outputting information according to this.
  • FIG. 1 is an explanatory diagram showing a schematic configuration of an information processing device according to an embodiment of the present invention
  • FIG. 4 is a flow chart showing control of an information processing method executed by the information processing apparatus according to the embodiment of the present invention
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing substitute photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in gray scale.
  • 4 is a drawing-substituting photograph showing an example of display by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 4 is a drawing-substituting photograph showing, in grayscale, a display example of a stage in a virtual concert venue by the information processing apparatus according to the embodiment of the present invention.
  • FIG. 10 is a drawing-substituting photograph showing a display example of a stage in a virtual concert venue by the information processing apparatus according to the embodiment of the present invention in monochrome binary.
  • 3 is a drawing-substitute photograph showing, in monochrome binary, a display example of a virtual room in which a plurality of displays are arranged by the information processing apparatus according to the embodiment of the present invention.
  • FIG. 4 is a drawing-substituting photograph showing, in grayscale, a display example of a virtual room in which a plurality of moving image contents are arranged by the information processing apparatus according to the embodiment of the present invention
  • 10 is a drawing-substituting photograph showing, in monochrome binary, a display example of a virtual room in which a plurality of pieces of moving image content are arranged by the information processing apparatus according to the embodiment of the present invention.
  • 10 is a drawing-substituting photograph showing, in grayscale, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • 10 is a drawing-substituting photograph showing, in monochrome binary, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • 10 is a drawing-substituting photograph showing, in grayscale, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • 10 is a drawing-substituting photograph showing, in monochrome binary, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • 10 is a drawing-substituting photograph showing, in grayscale, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • FIG. 10 is a drawing-substituting photograph showing, in monochrome binary, a display example when one moving image content is noticed in the virtual room by the information processing apparatus according to the embodiment of the present invention.
  • 1 is an explanatory diagram showing a schematic configuration of an information processing device that processes an object of interest according to an embodiment of the present invention
  • FIG. 1 is an explanatory diagram showing a schematic configuration of an information processing device according to an embodiment of the present invention. An outline will be described below with reference to this figure.
  • the information processing apparatus 101 has a camera 151. As shown in FIG. It has a detection unit 111 , an estimation unit 112 , a calculation unit 113 and an output unit 114 . Also, the audio equipment 152, the screen 153 of the display, etc. can be employed as the output destination of the information.
  • the information processing apparatus 101 is typically realized by executing a program on a portable computer such as a smart phone or a tablet.
  • the computer is connected to various output devices and input devices, and exchanges information with these devices.
  • Programs run on a computer can be distributed and sold by a server to which the computer is communicatively connected, as well as CD-ROM (Compact Disk Read Only Memory), flash memory, EEPROM (Electrically Erasable Programmable ROM). After recording on a non-transitory information recording medium such as the above, it is also possible to distribute and sell the information recording medium.
  • CD-ROM Compact Disk Read Only Memory
  • flash memory flash memory
  • EEPROM Electrically Erasable Programmable ROM
  • the program is installed on a computer's hard disk, solid state drive, flash memory, EEPROM, or other non-temporary information recording medium. Then, the computer realizes the information processing apparatus according to the present embodiment.
  • a computer's CPU Central Processing Unit
  • RAM Random Access Memory
  • OS Operating System
  • Various information required in the process of program execution can be temporarily recorded in the RAM.
  • the computer has a GPU (Graphics Processing Unit) for performing various image processing calculations at high speed.
  • GPU Graphics Processing Unit
  • libraries such as GPU and TensorFlow, it becomes possible to use learning functions and classification functions in various artificial intelligence processing under the control of CPU.
  • the information processing apparatus 101 of the present embodiment uses a dedicated electronic circuit instead of implementing the information processing apparatus of the present embodiment using a computer on which software is installed.
  • a portable camera, a portable electronic game device, or the like can be used as the information processing device 101 .
  • the program can also be used as material for generating wiring diagrams, timing charts, etc. of electronic circuits.
  • an electronic circuit that satisfies the specifications defined in the program is configured by FPGA (Field Programmable Gate Array) or ASIC (Application Specific Integrated Circuit), and the electronic circuit performs the functions defined in the program.
  • the information processing apparatus of this embodiment is realized by functioning as a dedicated device that fulfills the functions.
  • the information processing apparatus 101 will be described below assuming that it is implemented by a computer executing a program.
  • the information processing apparatus 101 can be connected wirelessly or by wire to audio equipment 152 such as headphones, earphones, neck speakers, bone conduction speakers, hearing aids, etc., as information output destinations.
  • audio equipment 152 such as headphones, earphones, neck speakers, bone conduction speakers, hearing aids, etc.
  • These audio devices 152 desirably have an external audio capture function.
  • the detection unit 111 detects the first orientation of the information processing device 101 in the first coordinate system fixed to the real world.
  • the orientation (first orientation) of the information processing device 101 in the first coordinate system fixed in the real world is detected via a geomagnetic sensor, an inertial sensor for detecting gravity, an acceleration sensor, a gyro sensor, etc., which the information processing device 101 has. can do.
  • the position (first position) of the information processing device 101 in the first coordinate system can also be detected by a geolocation detection function using GPS, Wifi access points, Bluetooth beacons, or the like.
  • estimating section 112 calculates the face image of the user in the second coordinate system fixed to information processing device 101 from the captured image and the face image. Estimate the second orientation of the face.
  • the information processing apparatus 101 extracts the face image drawn in the captured image by image recognition, recognizes the characteristic parts such as the eyes, nose, mouth, etc. Then, based on the face image, the information processing apparatus 101 Estimate the relative user face orientation (second orientation). A general face tracking technique can be applied to this process.
  • the position (second position) of the user's face relative to the information processing device 101 may be further estimated based on the position and size of the face image in the captured image.
  • calculation section 113 calculates a third orientation of the user's face in the real world (first coordinate system) from the detected first orientation and the estimated second orientation.
  • the directional transformation between the first coordinate system and the second coordinate system can be uniquely defined based on the first orientation. Further, when the first position is detected, it is possible to uniquely determine coordinate transformation of coordinate values between the first coordinate system and the second coordinate system based on the first orientation and the first position. .
  • the output unit 114 outputs information corresponding to the calculated third orientation.
  • the audio equipment 152 worn by the user or the screen 153 of the display can be adopted.
  • the information to be output is the voice mixed by setting one or more virtual sound sources in the real world and changing the intensity, tone, phase, etc. of the waveform associated with each virtual sound source according to the third direction. Information can be employed.
  • the ratio of the amplification factor based on the angle difference for each virtual sound source is maintained so that the average sound pressure does not change significantly when it is assumed that the face is rotated once.
  • the virtual direction associated with the virtual sound source is a virtual position where the virtual sound source is located in the first coordinate system; a first orientation and a first position detected by the detection unit 111; , the same processing as the former may be performed after calculation.
  • the third position can be obtained by coordinate-transforming the relative face position (second position) with respect to the information processing device 101 obtained by face tracking into a coordinate system fixed to the information processing device 101 .
  • the orientation of the user's face may be displayed on the display screen 153 like a compass. If a display mode is adopted in which the direction of the "needle" of the "compass” changes in accordance with the change in direction when the user changes the direction of the face, the range in which the screen 153 of the display falls within the user's field of vision. If it is within, the user can confirm that the present embodiment is operating properly.
  • direct sound and reverb sound may be generated based on the waveform of the virtual sound source, and the mixing ratio of the two may be changed according to the angular difference. If the angle difference is small, the user can be made to feel that the virtual sound source is being heard loudly from the front side by increasing the ratio of the direct sound. This is called echo correction.
  • the central sound range of the virtual sound source in the front is obtained, and for the virtual sound sources in other directions, the obtained central sound range is weakened by an equalizer to reduce the frequency fogging and reduce the virtual sound source in the front side. It is also possible to let the user listen by floating it. This is called center range correction.
  • saturation correction For the virtual sound source on the front side, it is possible to add saturation that strengthens the overtone components to make the sound brilliant, and make the virtual sound source on the front side stand out for the user to listen to. This is called saturation correction.
  • the camera 151 of the information processing apparatus 101 is a so-called front camera, its photographing direction matches the display direction of the screen 153 of the display and faces the direction in which the user is assumed to be positioned.
  • the user's face should be captured by the camera 151 .
  • correction may be used as an average default value.
  • dramatic correction may be made to emphasize the virtual sound source in front.
  • the user's face image and the user's hand image are image-recognized, and the position of the user's face (for example, the center position of the face) and the position of the user's hand (for example, the position of the tip of the little finger) ) and, after estimating, depending on the distance (closeness) between the two, the intensity of the dramatic correction can be changed, thereby easily responding to the gesture of listening.
  • the position of the user's hand image in the photographed image for example, the position of the tip of the little finger
  • the representative point of the photographed image for example, the center position of the photographed image, the center position of the face image, etc.
  • the output of the virtual sound source has directivity linked to this.
  • the external sound enters the user's ear as it is, such as a speaker
  • the environmental sound and the virtual sound are mixed without contradiction according to the direction of the user's face and provided to the user. It is possible to provide voice augmented reality.
  • FIG. 2 is a flow chart showing control of an information processing method executed by the information processing apparatus according to the embodiment of the present invention. Description will be made below with reference to this figure. It should be noted that each step of the following processing can be omitted as appropriate depending on the mode of application.
  • the information processing device 101 detects a first orientation (or first position) of the information processing device 101 in the real world (first coordinate system) via a geomagnetic sensor, a gyro sensor, an acceleration sensor, etc. (step S202). ).
  • Information processing device 101 then repeats the following process for each of the virtual sound sources (step S207).
  • the information processing device 101 acquires the virtual direction of the virtual sound source in the first coordinate system (step S208).
  • This virtual orientation may be determined in advance, or calculated based on the virtual position of the virtual sound source in the first coordinate system and the first position of the information processing device 101 (or the third position of the user's face).
  • the amplification factor may be further corrected according to the distance (closeness) between the virtual position of the virtual sound source and the first position (or third position). That is, the smaller the distance, the larger the amplification factor, and the like.
  • the information processing device 101 further corrects the new parameters for reproduction of all virtual sound sources based on their mutual relationships (step S211).
  • This correction includes, for example, center range correction for emphasizing the virtual sound source on the front side compared to other virtual sound sources, and power correction for maintaining the force of the entire virtual sound source as it is.
  • Step S212-S214 the process returns to step S202.
  • the result of detection of the orientation of the user's face and the result of detection of the tip of the little finger are displayed in a window. Until the user gets accustomed to the operation, he or she can check and practice gestures while holding a position where the camera 151 captures the user's face by looking at the detection results.
  • the window By tapping or sliding the on/off button to the left of the play button, the window can be closed as shown in Figures 5 and 6.
  • the window can be displayed again by tapping or sliding the same on/off button again.
  • musical instrument icons are arranged in a circle. This represents the orientation of the virtual sound source part placed in the virtual space.
  • the musical instruments are arranged at equal intervals, but they do not necessarily have to be evenly spaced and circular, and can be arranged arbitrarily.
  • the avatar of the operating user At the center of the circle is the avatar of the operating user, and the direction of the white arrow indicates the direction of the user's face.
  • the musical instrument icon at the tip of the white arrow corresponds to the virtual sound source positioned in front of the user.
  • the white arrow is pointing in a default direction (for example, upward), and if the user changes the direction of the face or moves the position of the smartphone, the direction of the white arrow changes accordingly.
  • Tapping on the avatar resets the direction of the white arrow and the placement (distance) of the instrument.
  • Two sliders are lined up at the bottom of the screen 153 .
  • the upper slider represents the distance to the musical instruments arranged in a circle in the virtual space, and the distance can be changed by moving the slider. In the arrangement shown in Figures 3 and 4 the distance is 20 meters, in Figures 9 and 10 it is 10 meters and in Figures 11 and 12 it is 30 meters. The distance from the avatar to the musical instrument shown on screen 153 also changes according to this distance.
  • the lower slider is linked to the degree of focusing, that is, the angle of the sector.
  • the degree of focusing can be changed by gestures, but it can also be adjusted by moving the slider directly.
  • the master volume (the default value of the mixer gain) for each instrument.
  • the information processing apparatus 101 multiplies the master volume by a multiplier corresponding to the angle difference, thereby once calculating the amplification factor used for mixing, and then performing correction so that the overall power becomes substantially constant.
  • the boost mode is set.
  • the boost mode when adjusting the amplification factor to keep the overall power constant, it is possible to emphasize the instrument in front by doubling the strength of the virtual sound source in front.
  • Figures 17 and 18 are examples of output when the same functions as the above smartphone are implemented on a tablet.
  • an augmented reality image is displayed overlaid with a video of a virtual person playing a virtual musical instrument in an uninhabited park captured by a rear camera.
  • the present embodiment can also be provided for virtual reality instead of augmented reality.
  • 19 and 20 provide the user with a virtual reality as if players of virtual musical instruments were arranged in a circle on the stage of a virtual concert venue and the user was placed in the center.
  • a virtual object is created by composing an image of playing a musical instrument.
  • a performance sound of a musical instrument is associated with each virtual object as a virtual sound source, and the virtual sound source is mixed and output in the same manner as in the above embodiment.
  • the user can have the experience of being the conductor of a virtual concert.
  • the user selects the avatar facing the user, i.e., the avatar positioned in front of the user, among the avatars of a plurality of performers, as the target of attention by using a gesture of listening. It can be identified as an object of interest.
  • the virtual object displayed in the center of the screen 153 becomes the target object.
  • the center of the screen is displayed.
  • the object of interest is the virtual object displayed in the direction in which the face is directed, not the virtual object displayed in the direction. That is, the pronunciation object that has the smallest angle difference between the virtual direction associated with the virtual sound source and the third direction and is equal to or less than the threshold angle is specified as the object of interest.
  • the user may be able to change the position and orientation of the object of interest.
  • the screen 153 when the screen 153 is configured as a touch screen, when the touch screen is touched and a tracing operation is performed, the object of interest is moved along the locus of the same shape obtained by translating the locus of the tracing operation. Also good.
  • the target object since the target object is specified, it is not necessary to touch the target object itself displayed on the screen 153, and the tracing operation can be performed on the screen 153 other than the place where the target object is displayed, The position of the target object can be changed without hiding the target object with the finger.
  • the virtual video played on each virtual display together with the sound functioning as the virtual sound source corresponds to the virtual object.
  • the user it is also possible for the user to view and compare more than 10 virtual moving images in order. That is, the virtual moving images can be exchanged on a virtual display arranged at a position invisible to the user in the virtual space.
  • the user can view the virtual moving images in order by rotating his or her body in the real space while holding the information processing device 101 .
  • the virtual display may be rotated around the user in the virtual space.
  • the user turns his face to one of the virtual moving images displayed on the screen 153 and makes a gesture such as listening, or keeps turning his face for the duration of the threshold time. , etc., the virtual moving image can be specified as the target object.
  • FIGS. 25 and 26 show how the virtual video drawn in the center of the screen in FIGS. 23 and 24 is identified as the object of interest, enlarged in the center of the screen, and the video and audio of the target object being played. .
  • the user can cancel the identification as the object of interest by making a gesture of spreading out his/her hand and bringing it closer to the camera 151 of the information processing device 101, by tapping the touch screen for a short period of time, or the like.
  • the virtual moving image surrounding the user in the virtual space is rotated around the user so that the virtual moving image whose identification has been canceled is positioned where the user's head is facing. It's good as a thing. That is, (the virtual orientation of) the virtual object placed in the virtual space around the virtual starting point in the virtual space so that the virtual orientation of the virtual object whose identification has been canceled matches the calculated third orientation. will be rotated.
  • the information processing apparatus 101 has a specifying unit 301 and a canceling unit 302 in addition to the configuration disclosed in FIG.
  • the identifying unit 301 and the canceling unit 302 acquire various kinds of information from the detecting unit 111, the estimating unit 112, and the calculating unit 113, and control the output unit 114 accordingly.
  • Each sounding object can be, for example, a virtual object in the above embodiment, which corresponds to an avatar of a performer playing a virtual musical instrument or a virtual display playing back a virtual moving image.
  • Each pronunciation object is associated with a virtual sound source.
  • the virtual sound source corresponds to the performance sound output by the virtual musical instrument or the sound reproduced together with the virtual moving image.
  • the appearance of the virtual world displayed on the screen 153 changes accordingly.
  • the screen 153 of the information processing device 101 functions as a "window" for looking into the virtual space.
  • the cancellation unit 302 of the information processing device 101 determines whether or not the cancellation condition is satisfied, and performs processing accordingly.
  • a specific condition is a condition for specifying one of a plurality of sounding objects as an attention object by the user
  • a cancellation condition is a condition for canceling identification as an attention object.
  • a gesture of listening closely, or continuing to face a specific sounding object for a predetermined period of time or longer is adopted as the specific condition.
  • a gesture of bringing the screen closer to 151, tapping on the touch screen that constitutes the screen 153, etc. are employed, but other conditions can also be employed.
  • the identifying unit 301 determines that the specific condition is satisfied, the sounding object having the smallest angular difference between the virtual direction associated with the virtual sound source and the calculated third direction is selected by the user. identified as the object of interest by
  • the output unit 114 mixes the virtual sound source with an intensity corresponding to the angle difference between the virtual direction associated with the virtual sound source and the calculated third direction.
  • output unit 114 outputs the virtual sound source associated with the specified object of interest to another virtual sound source. Give priority to the sound source.
  • the performance sound of the performer's virtual musical instrument corresponding to the object of interest and the sound accompanying the virtual moving image are output with priority over other sounds.
  • priority includes, for example, setting the amplification factor of the virtual sound source of the target object to a predetermined constant and setting the amplification factor of the other virtual sound sources to zero (mute) or a small value.
  • the virtual moving image corresponding to the object of interest is displayed in a predetermined size in the center of the screen for highlighting.
  • the cancellation unit 302 cancels the identification as the object of interest when the cancellation condition is satisfied.
  • priority output of the virtual sound source and highlighting on the screen 153 are ended, and the output method described first is adopted.
  • the position of the virtual object placed in the virtual space can also be rotated around the viewpoint in the virtual space. That is, the information processing apparatus 101 rotates the virtual orientation of the sound object placed in the virtual space around the viewpoint position based on a gesture based on the user's hand image included in the captured image or a touch operation on the screen.
  • the position and orientation of the avatar can be edited by pinching the player's avatar or touching the screen 153 with a plurality of fingers and rotating the avatar. That is, while the object of interest is being specified, the information processing apparatus 101 determines the position or orientation of the object of interest in the virtual space based on a gesture based on the user's hand image included in the captured image or a touch operation on the screen. can be changed.
  • the information processing apparatus has a camera, a detection unit that detects a first orientation of the information processing device in a first coordinate system fixed in the real world; If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image.
  • an estimator for estimating orientation a calculation unit that calculates a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation
  • An output unit for outputting information corresponding to the calculated third orientation is provided.
  • the information processing device is wirelessly or wiredly connected to the audio equipment worn by the user,
  • the output unit can be configured to output the information to the audio equipment.
  • the audio device can be configured to be headphones, earphones, neck speakers, bone conduction speakers, or hearing aids capable of capturing ambient sounds.
  • the output unit may a virtual orientation associated with the virtual sound source; the calculated third orientation; A sound obtained by mixing the virtual sound source with an intensity corresponding to the angle difference between the two can be output as the information.
  • the virtual orientation can be configured to be predetermined.
  • the information processing device displays video information corresponding to the detected first position and first orientation on a screen whose display direction is the same as the shooting direction of the camera,
  • the waveform of the virtual sound source may be corrected according to the size of the face image.
  • the captured image includes the face image of the user and the hand image of the user
  • the distance between the face of the user and the hand of the user in the second coordinate system to correct the waveform of the virtual sound source.
  • the waveform of the virtual sound source can be corrected according to the distance between the representative point of the captured image and the hand image. .
  • the virtual sound source is associated with a sounding object placed in the virtual space;
  • the information processing device is A screen in which the state of the virtual space observed from the viewpoint position and line-of-sight direction corresponding to the detected first position and first direction in which the sound object is arranged is displayed in the same direction as the shooting direction of the camera.
  • the output unit outputs the virtual sound source associated with the identified object of interest in preference to other virtual sound sources instead of outputting information according to the calculated third direction, displaying the identified object of interest on the screen while emphasizing it more than other pronunciation objects;
  • the identification as the target object can be canceled when the cancellation condition is satisfied.
  • the pronunciation object is a video that is played back with audio
  • the information processing device displaying the target object at a predetermined position in the screen at a predetermined magnification;
  • the output unit outputs a mixed sound by muting other virtual sound sources with a predetermined amplification factor for the virtual sound source associated with the object of interest,
  • the information processing device adjusts the viewpoint position so that the virtual orientation of the pronunciation object whose identification as the object of interest has been canceled matches the calculated third orientation. centered around the virtual orientation of the sounding object placed in the virtual space.
  • the information processing device virtualizes a sounding object arranged in the virtual space around the viewpoint position based on a gesture based on the hand image of the user included in the captured image or a touch operation on the screen. Can be configured to rotate orientation.
  • the pronunciation object is an avatar that emits a sound
  • the information processing device moves the object of interest in the virtual space based on a gesture based on the hand image of the user included in the captured image or a touch operation on the screen. It can be configured to change position or orientation.
  • an information processing device having a camera, detecting a first orientation of the information processing device in a first coordinate system fixed in the real world; If the photographed image taken by the camera contains the face image of the user, the second coordinate system of the user's face in the second coordinate system fixed to the information processing device can be obtained from the photographed image and the face image. Estimate the orientation, calculating a third orientation of the user's face in the first coordinate system from the detected first orientation and the estimated second orientation; It is configured to output information according to the calculated third orientation.
  • the program may be recorded on a non-temporary computer-readable information recording medium, distributed, and sold. It can also be distributed and sold through a temporary transmission medium such as a computer communication network.
  • a computer-readable non-temporary information recording medium is configured to record the above program.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

現実世界におけるユーザの顔の向きを推定し、これに応じた情報を出力する情報処理装置(101)を提供する。ここで、情報処理装置(101)はカメラ(151)を有する。検知部(111)は、現実世界に固定された第1座標系における情報処理装置(101)の第1向きを検知する。カメラ(151)により撮影されている撮影画像にユーザの顔画像が含まれていれば、推定部(112)は、撮影画像および顔画像から、情報処理装置(101)に固定された第2座標系におけるユーザの顔の第2向きを推定する。算出部(113)は、検知された第1向きと、推定された第2向きと、から、第1座標系におけるユーザの顔の第3向きを算出する。出力部(114)は、算出された第3向きに応じた情報を出力する。

Description

情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体
  本発明は、現実世界におけるユーザの顔の向きを推定し、これに応じた情報を出力するための情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体に関する。
  従来、ユーザの頭部の動きに応じた情報を出力する技術が提案されている。たとえば、特許文献1に開示される音源選択装置は、
  ヘッドフォンと、
  前記ヘッドフォンを装着した受聴者に対して前記ヘッドフォンを介して定位した複数の仮想音源を提供する仮想音源提供手段と、
  前記複数の仮想音源から1つの仮想音源を選択する仮想音源選択手段と
を備え、
  前記仮想音源提供手段が、
    前記受聴者に対して提供する前記複数の仮想音源の複数の定位音源配置パターンを記憶する定位音源配置パターン記憶手段と、
    前記受聴者の選択動作に応じて前記複数の定位音源配置パターンから所望のパターンを選択する配置パターン選択手段と、
    前記定位音源配置パターンに従って前記複数の仮想音源を提供するミキシング手段と
を有し、
  前記ヘッドフォンに装着されて前記受聴者の頭部の動きを検出する頭部動作検出センサと、
  前記頭部動作検出センサの出力に基づいて前記頭部の動きを判定する頭部動作判定手段と
を更に備え、
  前記配置パターン選択手段は、前記頭部動作判定手段が前記頭部の動きから予め定めた配置パターン変更動作を検出すると前記定位音源配置パターン記憶手段から別の前記定位音源配置パターンを選択して前記ミキシング手段に出力するように構成されている。
  一方で、近年のスマートフォンやタブレットでは、画面の表示方向と同じ方向を撮影方向とするフロントカメラ(インカメラ、正面カメラ、前面カメラと呼ばれることもある。)により画面を見るユーザの姿をセルフィーとして撮影したり、フロントカメラと逆向きを撮影方向とするリアカメラ(背面カメラと呼ばれることもある。)により、ユーザの前方に広がる世界の様子を、画面で確認しながら撮影できるようにしているものが多い。
  また、近年のスマートフォンやタブレットでは、GPS(Global Positioning System)やWifiアクセスポイント、Bluetooth(登録商標)ビーコン等を利用するジオロケーション検知機能、加速度センサ、地磁気センサなどにより、スマートフォンやタブレットの位置や向きを、現実世界に固定された世界座標系に対して検出できるようにしているものも多い。
  そして、スマートフォンやタブレットの画面に、現実世界の様子を拡張した様子を表示する拡張現実機能を提供する技術も広がりつつある。
特許第4837512号公報
  ここで、特許文献1に開示される技術では、ヘッドフォンが備える頭部動作検出センサを用いて、ユーザの頭部の動きを検出している。
  しかしながら、スマートフォンやタブレットとともに利用されるヘッドフォンやイヤフォン等の音響機器は、ノイズキャンセリング機能や外部音声取り込み機能を有するものが普及しつつあるものの、頭部動作検出センサは有していないことがほとんどである。
  そこで、既に普及しているスマートフォンやタブレット等の機能を利用してユーザの顔の向きを推定する技術が強く求められている。
  本発明は、上記の課題を解決するもので、現実世界におけるユーザの顔の向きを推定し、これに応じた情報を出力するための情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体に関する。
  本発明に係る情報処理装置は、カメラを有し、
  現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知し、
  前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定し、
  前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出し、
  前記算出された第3向きに応じた情報を出力する。
  本発明によれば、現実世界におけるユーザの顔の向きを推定し、これに応じた情報を出力するための情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体を提供することができる。
本発明の実施形態に係る情報処理装置の概要構成を示す説明図である。 本発明の実施形態に係る情報処理装置が実行する情報処理方法の制御を示すフローチャートである。 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による仮想コンサート会場の舞台の表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による仮想コンサート会場の舞台の表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による複数のディスプレイが配置された仮想部屋の表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による複数のディスプレイが配置された仮想部屋の表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による複数の動画コンテンツが配置された仮想部屋の表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による複数の動画コンテンツが配置された仮想部屋の表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をグレイスケールで示す図面代用写真である。 本発明の実施形態に係る情報処理装置による仮想部屋において1つの動画コンテンツが注目されたときの表示例をモノクロ2値で示す図面代用写真である。 本発明の実施形態に係る注目オブジェクトを処理する情報処理装置の概要構成を示す説明図である。
  以下に、本発明の実施形態を説明する。なお、本実施形態は、説明のためのものであり、本発明の範囲を制限するものではない。したがって、当業者であれば、本実施形態の各要素もしくは全要素を、これと均等なものに置換した実施形態を採用することが可能である。また、各実施例にて説明する要素は、用途に応じて適宜省略することも可能である。このように、本発明の原理にしたがって構成された実施形態は、いずれも本発明の範囲に含まれる。
  (構成)
  図1は、本発明の実施形態に係る情報処理装置の概要構成を示す説明図である。以下、本図を参照して概要を説明する。
  本図に示すように、本実施形態に係る情報処理装置101は、カメラ151を有する。検知部111 、推定部112、算出部113、出力部114を備える。また、情報の出力先として、音響機器152やディスプレイの画面153等を採用することができる。
  本実施形態に係る情報処理装置101は、典型的には、プログラムをスマートフォンやタブレット等の可搬型のコンピュータが実行することによって実現される。当該コンピュータは、各種の出力装置や入力装置に接続され、これらの機器と情報を送受する。
  コンピュータにて実行されるプログラムは、当該コンピュータが通信可能に接続されたサーバにより配布、販売することができるほか、CD-ROM(Compact Disk Read Only Memory)やフラッシュメモリ、EEPROM(Electrically Erasable Programmable ROM)などの非一時的(non-transitory)な情報記録媒体に記録した上で、当該情報記録媒体を配布、販売等することも可能である。
  プログラムは、コンピュータが有するハードディスク、ソリッドステートドライブ、フラッシュメモリ、EEPROM等の非一時的な情報記録媒体にインストールされる。すると、当該コンピュータにより、本実施形態における情報処理装置が実現されることになる。一般的には、コンピュータのCPU(Central Processing Unit)は、コンピュータのOS(Operating System)による管理の下、情報記録媒体からRAM(Random Access Memory)へプログラムを読み出してから、当該プログラムに含まれるコードを解釈、実行する。ただし、CPUがアクセス可能なメモリ空間内に情報記録媒体をマッピングできるようなアーキテクチャでは、RAMへの明示的なプログラムのロードは不要なこともある。なお、プログラムの実行の過程で必要とされる各種情報は、RAM内に一時的(temporary)に記録しておくことができる。
  さらに、コンピュータは、各種画像処理計算を高速に行うためのGPU(Graphics Processing Unit)を備えることが望ましい。GPUならびにTensorFlow等のライブラリを使うことで、CPUの制御の下、各種の人工知能処理における学習機能や分類機能を利用することができるようになる。
  なお、ソフトウェアをインストールするようなコンピュータにより本実施形態の情報処理装置を実現するのではなく、専用の電子回路を用いて本実施形態の情報処理装置101を構成することも可能である。たとえば、ポータブルカメラやポータブル電子ゲーム装置などを情報処理装置101として利用することができる。
  この態様では、プログラムを電子回路の配線図やタイミングチャート等を生成するための素材として利用することもできる。このような態様では、プログラムに定められる仕様を満たすような電子回路がFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)により構成され、当該電子回路は、当該プログラムに定められた機能を果たす専用機器として機能して、本実施形態の情報処理装置を実現する。
  以下では、理解を容易にするため、情報処理装置101は、コンピュータがプログラムを実行することによって実現される態様を想定して説明する。
  なお、情報処理装置101には、情報の出力先として、ヘッドホン、イヤホン、ネックスピーカー、骨伝導スピーカー、補聴器等の音響機器152を、無線または有線にて接続することができる。これらの音響機器152には、外部音声取り込み機能を有することが望ましい。
  また、上述のように、情報の出力先として、情報処理装置101が有する液晶ディスプレイ、有機EL(Organic Electro-Luminescence)ディスプレイ、電子インクを用いたペーパーディスプレイ等の画面153を採用することができる。これらのディスプレイをタッチスクリーンとすることで、情報処理装置101の入力装置として機能させることもできる。
  さて、本実施形態の情報処理装置101において、検知部111は、現実世界に固定された第1座標系における情報処理装置101の第1向きを検知する。
  現実世界に固定された第1座標系における情報処理装置101の向き(第1向き)は、情報処理装置101が有する地磁気センサや重力を検知する慣性センサ、加速度センサ、ジャイロセンサ等を介して検知することができる。
  また、第1座標系における情報処理装置101の位置(第1位置)は、GPS、Wifiアクセスポイント、Bluetoothビーコン等を用いたジオロケーション検知機能により検知することも可能である。
  一方、推定部112は、カメラ151により撮影されている撮影画像にユーザの顔画像が含まれていれば、撮影画像および顔画像から、情報処理装置101に固定された第2座標系におけるユーザの顔の第2向きを推定する。
  すなわち、情報処理装置101は、撮影画像に描画されている顔画像を画像認識により抽出し、目、鼻、口などの特徴部位を認識した上で、顔画像に基いて、情報処理装置101に対する相対的なユーザの顔の向き(第2向き)を推定する。この処理には、一般的なフェーストラッキング技術を適用することができる。
  なお、撮影画像内における顔画像の位置や大きさに基づいて、情報処理装置101に対する相対的なユーザの顔の位置(第2位置)をさらに推定することとしても良い。
  さらに、算出部113は、検知された第1向きと、推定された第2向きと、から、現実世界(第1座標系)におけるユーザの顔の第3向きを算出する。
  第1座標系と第2座標系の間での方向に関する変換は、第1向きに基いて、一意に定めることができる。また、第1位置が検知されている場合は、第1向きと第1位置に基いて、第1座標系と第2座標系の間での座標値の座標変換を、一意に定めることができる。
  そこで、撮影画像に基いて推定された第2向きの第2座標系における成分を、第1座標系における成分に変換することで、世界(地球)に対してユーザの顔がどちらを向いているかを表す第3向きを算出することができる。
  そして、出力部114は、算出された第3向きに応じた情報を出力する。情報の出力先としては、ユーザが装着する音響機器152やディスプレイの画面153を採用することができる。
  出力される情報としては、1つもしくは複数の仮想音源を現実世界内に設定し、第3向きに応じて各仮想音源に対応付けられる波形の強度、音色、位相等を変化させてミキシングした音声情報を採用することができる。
  仮想音源は、現実世界内で十分遠方に仮想的に配置したと想定して、聴取点からの仮想的な方向(仮想方位)のみをあらかじめ定めて対応付けても良い。また、仮想音源を現実世界内の位置に仮想的に配置しても良い。
  前者の場合、出力部114は、
    仮想音源に対応付けられる仮想方位と、
    算出された第3向きと、
の角度差に応じた強度(増幅率)で、仮想音源をミキシングする。角度差が小さければ、ユーザの正面に仮想音源があることになるから、ミキシング時の波形の強度を大きくすることで、顔の向きに応じて変化する音声拡張現実をユーザに提供することができるようになる。
  なお、仮想音源が複数ある場合には、顔の向きを一周させたと仮定した場合の平均音圧が大きく変化しないように、すなわち、各仮想音源についての角度差に基づいた増幅率の比は維持したまま、仮想音源のパワーの総和がほぼ一定となるように、ミキシング時の増幅率を調整することで、仮想音源全体の迫力を維持したまま、特定の仮想音源を強調することができるようになる。これをパワー補正という。
  また、角度差に応じてステレオ出力の左右の増幅率や時間差を変化させることで、仮想音源の方向をユーザに知得させることも可能である。たとえば、ユーザの右側に仮想音源がある場合には、右側の増幅率を左側の増幅率よりも大きくしたり、右側が左側に先行するように時間差を設定したりすれば、簡易的なバイノーラル再生を実現することができ、仮想音源の方向をユーザに感じさせることができる。
  後者の場合は、仮想音源に対応付けられる仮想方位を、
    仮想音源が第1座標系において配置される仮想位置と、
    検知部111により検知された第1向きおよび第1位置と、
から、算出した上で、前者と同様の処理を行えば良い。
  なお、第1向きおよび第1位置の測定精度、ならびに、第2位置の推定精度が十分に高い場合には、仮想方位の算出にあたって、第1位置ではなく、現実世界におけるユーザの顔の位置(第3位置)を利用しても良い。第3位置は、フェーストラッキングによって求められた情報処理装置101に対する相対的な顔の位置(第2位置)を、情報処理装置101に固定された座標系に座標変換すれば得られる。
  このほか、ユーザの顔の向きを、羅針盤のように、ディスプレイの画面153に表示しても良い。ユーザが顔の向きを変えた場合に、向きの変化に応じて、「羅針盤」の「針」の向きが変化するような表示態様を採用すれば、ユーザの視界にディスプレイの画面153が入る範囲内であれば、本実施形態が適切に稼働していることをユーザが確認できるようになる。
  また、仮想音源に対応付けられる仮想方位と、算出された第3向きと、の角度差に応じて、仮想音源の波形を、強度以外についても演出的に補正することで、正面側にある仮想音源を強調してユーザに聞かせることもできる。
  たとえば、仮想音源の波形にもとづいて、直接音とリバーブ音を生成し、角度差に応じて両者の混合比を変化させることとしても良い。角度差が小さければ、直接音の割合を増やすことで、仮想音源が正面側で大きな音で聞こえているようにユーザに感じさせることができる。これを反響補正という。
  また、正面側にある仮想音源の中心音域を求め、他の方向にある仮想音源については、求められた中心音域をイコライザーにより弱めることで、周波数的なかぶりを減らし、正面側にある仮想音源を浮き上がらせてユーザに聴取させることもできる。これを中心音域補正と呼ぶ。
  このほか、正面側にある仮想音源については、倍音成分を強化するサチレーションを加えてきらびやかな音にして、正面側にある仮想音源を浮き上がらせてユーザに聴取させることもできる。これをサチレーション補正という。
  さて、情報処理装置101が有するカメラ151が、いわゆるフロントカメラである場合、その撮影方向は、ディスプレイの画面153の表示方向と一致し、ユーザが位置すると想定する方向に向かう。
  したがって、ユーザが情報処理装置101の画面153を正面から見ていれば、ユーザの顔はカメラ151によって撮影されているはずである。
  そこで、ユーザの顔がカメラ151によって撮影されていない場合は、ユーザは特定の仮想音源に集中して聴取してはいない、と想定して、仮想音源の強度・ステレオ音声の時間差の調整や演出的な補正を平均的な既定値としても良い。
  なお、演出的な補正は、ユーザのジェスチャーによって調整することも可能である。
  たとえば、ユーザがディスプレイの画面153に顔を近付けた場合は、ユーザが正面に集中しようとしていると想定して、正面にある仮想音源を強調するような演出的な補正をしても良い。この態様では、撮影画像に描画されている顔画像の大きさに基づいて、演出的な補正の強さを変化させれば良いことになる。
  このほか、ユーザのジェスチャーにより、演出的な補正の強さを変化させることもできる。たとえば、耳をすますジェスチャーにより、ユーザが正面に集中しようとしていると想定して、正面にある仮想音源を強調するような演出的な補正をしても良い。
  たとえば、撮影画像から、ユーザの顔画像と、ユーザの手画像と、を画像認識し、ユーザの顔の位置(たとえば、顔の中心位置)と、ユーザの手の位置(たとえば、小指先端の位置)と、を推定した上で、両者の距離(近さ)に応じて、演出的な補正の強さを変化させることで、耳をすますジェスチャーに簡易に対応することができる。
  このほか、より簡易的に、ユーザの手画像の撮影画像内における位置(たとえば、小指先端の位置)と、撮影画像の代表点(たとえば、撮影画像の中心位置や顔画像の中心位置等。)と、の距離(近さ)に応じて、演出的な補正の強さを変化させることとしても良い。
  ここで、代表点として、撮影画像の中心位置を採用した場合には、フェーストラッキングに失敗して顔画像が認識できなかったときでも、手画像が認識されていれば、補正の強さを調整することができるようになる。
  なお、強度・時間差の調整や演出上の補正においては、算出された角度差や距離をそのまま直ちに反映させるのではなく、直近一定時間(たとえば、100ms程度)内の平均や減衰平均を使うこととにより、算出された値に近付けるようにして、値の変化を滑らかにすることとしても良い。
  上記の説明では、音声により拡張現実をユーザに体感させることとしており、現実世界においてユーザが顔の向きを変えると(ユーザの顔が情報処理装置101のカメラ151で撮影されていれば)その向きに応じて仮想音源の出力が変化する。
  したがって、現実世界における環境音に指向性が存在する場合であっても、仮想音源の出力は、これと連動した指向性を有することになり、音響機器152が外部音声取り込み可能な場合や、ネックスピーカーのように外部音声もそのままユーザの耳に入る場合であっても、環境音と仮想音は、顔の向きに応じて矛盾なく混合されてユーザに提供されることになり、ユーザに、リアルな音声拡張現実の提供をすることができる。
  なお、情報処理装置101がリアカメラを有する場合には、リアカメラで撮影した現実世界の撮影画像と、仮想音源と同じ位置に配置された仮想オブジェクトの外観と、を合成した拡張現実画像を生成して、情報処理装置101のディスプレイの画面153に表示することで、視覚と聴覚の両方の拡張現実をユーザに提供することもできる。
  (制御の流れ)
  図2は、本発明の実施形態に係る情報処理装置が実行する情報処理方法の制御を示すフローチャートである。以下、本図を参照して説明する。なお、以下の処理の各工程は、適用される態様に応じて、適宜省略が可能である。
  本処理が開始されると、情報処理装置101は、まず、各仮想音源の再生用のパラメータを既定値で初期化して(ステップS200)、ミキシング再生を開始する(ステップS201)。このパラメータには、増幅率(左右等、各チャンネル毎の増幅率としても良いし、全体のものとしても良い。)、直接音とリバーブ音の混合比、サチレーションの強度等、種々のものを採用することができ、処理開始の当初は、これらのパラメータに既定値が設定されることになる。
  この後、仮想音源の再生はバックグラウンド処理として並行して実行されるが、ミキシング用のパラメータは、以下の処理によって、ユーザの顔の向き等に応じて変更される。
  ついで、情報処理装置101は、地磁気センサ、ジャイロセンサ、加速度センサ等を介して、情報処理装置101の現実世界(第1座標系)における第1向き(や第1位置)を検知する(ステップS202)。
  さらに、情報処理装置101は、カメラ151にて撮影されている撮影画像から、ユーザの顔画像を画像認識により抽出する試行をする(ステップS203)。
  当該試行により、ユーザの顔画像の抽出に成功すれば(ステップS204;Yes)、情報処理装置101は、当該顔画像に基づいて、情報処理装置101に対する相対的な(第2座標系における)ユーザの顔の第2向き(や第2位置)を推定する(ステップS205)。
  そして、情報処理装置101は、推定された第2向き(や第2位置)を、検知された第1向き(や第1位置)に基いて、座標変換により、第1座標系におけるユーザーの顔の第3向き(や第3位置)を算出する(ステップS206)。
  ついで、情報処理装置101は、仮想音源のそれぞれについて、以下の処理を繰り返す(ステップS207)。
  すなわち、情報処理装置101は、当該仮想音源の第1座標系における仮想方位を取得する(ステップS208)。この仮想方位は、あらかじめ定めたものとしても良いし、第1座標系における当該仮想音源の仮想位置と情報処理装置101の第1位置(あるいは、ユーザの顔の第3位置)に基いて算定しても良い。
  ついで、情報処理装置101は、当該仮想方位と、第3向きと、の角度差に基づいて、当該仮想音源に対する再生用の新たなパラメータを算出する(ステップS209)。最も単純には、角度差に基づいて新たな増幅率を算出することとなるが、反響補正やサチレーション補正を加えても良い。
  このほか、当該仮想音源の仮想位置と第1位置(あるいは第3位置)との距離(近さ)に応じて、増幅率をさらに補正することとしても良い。すなわち、距離が小さければ小さいほど、増幅率を大きくする等である。
  すべての仮想音源について処理を繰り返した(ステップS210)後、情報処理装置101は、全仮想音源の再生用の新たなパラメータを、互いの関係に基づいてさらに補正する(ステップS211)。この補正には、たとえば、正面側の仮想音源を他の仮想音源に比べて強調する中心音域補正や、仮想音源全体の迫力をそのまま維持できるようにするパワー補正等が含まれる。
  そして、全仮想音源の再生用のパラメータを、新たなパラメータに滑らかに近付けるように(あるいは、そのまま新たなパラメータとするように)、新たなパラメータに基づく更新の処理を各仮想音源について繰り返してから(ステップS212-S214)、処理をステップS202に戻す。
  一方、ユーザの顔画像の抽出に失敗すれば(ステップS204;No)、全仮想音源のパラメータを既定値に近付けるように(あるいは、そのまま既定値とするように)、更新する既定値に基づく更新の処理を各仮想音源について繰り返してから(ステップS215-S217)、処理をステップS202に戻す。
  なお、上記の制御の流れでは省略したが、撮影画像からユーザの手画像を認識し、ユーザのジェスチャーに基づいて、正面側の仮想音声の増幅率を変更したり、サチレーション補正や中心音域補正の強度を変更したりしても良い。
  (ディスプレイの画面への出力)
  図3乃至18は、本発明の実施形態に係る情報処理装置による表示例をグレイスケールもしくはモノクロ2値で示す図面代用写真である。以下、これらの図を参照して説明する。
  図3, 4では、スマートフォンからなる情報処理装置101のディスプレイの画面153に種々の情報が表示されている。本図下方中央にある三角形の再生ボタンをタップすると、仮想音源からなる曲の再生が開始される。
  画面153の上方には、ユーザの顔の向きが検出された結果と、小指の先端が検出された検出の結果と、がウィンドウ内に表示されている。ユーザが操作に慣れるまではこの検出結果を見て、カメラ151でユーザの顔が撮影されるような位置を保持しつつ、ジェスチャーを確認・練習することができる。
  再生ボタンの左側にあるオンオフボタンをタップあるいはスライドすることで、図5, 6に示すようにウィンドウを閉じることができる。再度同じオンオフボタンをタップあるいはスライドすることで、ウィンドウを再度表示することもできる。
  画面153の中央には、円形に並んだ楽器のアイコンが並べられている。これは、仮想空間上に配置された仮想音源のパートの方位を表している。
  本図では、楽器が等間隔に並べられているが、必ずしも等間隔で円形である必要はなく、任意の配置が可能である。
  この円の上をスワイプすると、楽器は円形の中心を中心として回転し、図7, 8に示すように、自分の好きな楽器を好きな方向に配置することができる。
  円形の中央にあるのは、操作しているユーザのアバターであり、白矢印の方向がユーザーの顔の向きを表している。白矢印の先にある楽器のアイコンが、ユーザーの正面側に位置する仮想音源に相当する。
  本処理の開始時は、白矢印は既定の方向(たとえば上)を向いており、ユーザーが顔の向きをかえたり、スマートフォンの位置を動かしたりすると、それに応じて白矢印の向きが変化する。
  アバターの上をタップすると、白矢印の方向および楽器の配置(距離)がリセットされる。
  図3, 4では、白矢印の方向に、扇形が表示されている。これは、増幅率が0.5倍以上の範囲を表している。耳をすますジェスチャーをすることによって、扇形の角度が変化し、どの仮想音源が強調されているかがユーザに伝えられる。
  画面153の下部には2本のスライダが並んでいる。上のスライダーは、仮想空間上で円形に並んだ楽器との距離を表しており、スライダーを移動することで距離を変化させることができる。図3, 4に示す配置では、距離は20メートルであるが、図9, 10では、10メートルになっており、図11, 12では、30メートルになっている。そして、画面153に示されるアバターから楽器までの距離も、この距離に応じて変化する。
  下のスライダーは、フォーカスの利き具合、すなわち、扇形の角度に連動している。上記のように、ジェスチャーによってフォーカスの利き具合を変化させることもできるが、スライダーを直接移動させることで、調整することもできる。
  再生ボタンの右側にある歯車型の設定ボタンを押すと、図13, 14に示すように、設定フォームに遷移する。
  設定フォームでは、各楽器のマスターボリューム(ミキサー増幅率の既定値)が設定できる。情報処理装置101は、角度差に応じた乗数をマスターボリュームに掛け合わせることで、ミキシングに用いる増幅率を一旦計算した上で、全体のパワーがほぼ一定になるように補正を行う。
  図15, 16では、ブーストモードの設定がされている。ブーストモードでは、全体のパワーが一定になるように増幅率を調整する際に、正面側の仮想音源の強度を倍増させることで、正面の楽器を強調することができる。
  図17, 18は、上記のスマートフォンと同様の機能をタブレットにて実現した場合の出力例である。
  これらの図では、リアカメラで撮影されている無人の公園に、仮想楽器を演奏する仮想人物の動画が重畳された拡張現実画像が表示されている。
  一方で、拡張現実ではなく、仮想現実に本実施形態を提供することもできる。図19, 20は、仮想のコンサート会場の舞台に仮想楽器の演奏者を円状に配置し、その中央にユーザを配置したかのような仮想現実をユーザに提供する。
  本表示例では、仮想楽器の演奏者が10人、舞台の上に配置されており、演奏者のアバター(本図では、10人の演奏者のうちの3人のアバター)が舞台の上で楽器を演奏する映像を構成することで、仮想オブジェクトとしている。各仮想オブジェクトには、楽器の演奏音が仮想音源として対応付けられ、仮想音源は、上記実施形態と同様に、ミキシングされて出力される。
  この態様では、ユーザは仮想コンサートの指揮者のような体験をすることができる。
  上記実施形態と同様に、ユーザは、耳をすますジェスチャー等により、複数の演奏者のアバターのうち、ユーザが向いているアバター、すなわち、ユーザの正面に位置するアバターを、注目の対象を表す注目オブジェクトとして特定することができる。
  ユーザが情報処理装置101を自身の正面にて把持しており、顔を画面153の中央に向けている場合には、画面153の中央に表示されている仮想オブジェクトが注目オブジェクトとなる。
  一方で、ユーザが情報処理装置101を自身の正面にて把持していても、ユーザが顔を画面153の中央ではなく、右側や左側など、その他の方向に向けている場合には、画面中央に表示されている仮想オブジェクトではなく、顔を向けている方向に表示されている仮想オブジェクトが注目オブジェクトになる。すなわち、仮想音源に対応付けられる仮想方位と、第3向きとの、の角度差が閾角以下で最小の発音オブジェクトを、注目オブジェクトとして特定する。
  ジェスチャーではなく、所望の仮想オブジェクトに顔を向け続け、その向け続けた時間が所定の閾時間を超えると、当該仮想オブジェクトが注目オブジェクトとして特定されるようにしても良い。
  一旦注目オブジェクトとして演奏者のアバターが選択された後は、ユーザは、注目オブジェクトの位置や向きを変化させることができるようにしても良い。
  たとえば、画面153がタッチスクリーンとして構成されている場合には、タッチスクリーンに触れてなぞる操作をすると、注目オブジェクトが、なぞり操作の軌跡を平行移動した同じ形状の軌跡に沿って移動するようにしても良い。この態様では、注目オブジェクトが特定されているので、画面153に表示された注目オブジェクトそのものをタッチする必要はなく、画面153において注目オブジェクトが表示されている場所以外においてなぞり操作をすることができ、注目オブジェクトを指で隠さずに、注目オブジェクトの位置を変更することができる。
  また、画面153に対して、二本指や三本指でタッチして回転させる操作をすると、注目オブジェクトが、タッチする指の数に応じた軸周りに、タッチした角度だけ回転するようにしても良い。この態様においても、画面153に表示された注目オブジェクトそのものをタッチする必要はない。
  なお、タッチスクリーンで構成された画面153に対して行うこれらの種々の操作は、ジェスチャーによって代替することも可能である。
  上述の例では、仮想空間内の仮想オブジェクトとして、楽器を演奏する演奏者のアバターを配置したが、音声とともに再生される動画を仮想オブジェクトとすることもできる。図21, 22, 23, 24は、仮想部屋の中に複数の仮想ディスプレイが配置され、当該仮想ディスプレイにて仮想動画が再生される様子を示す表示例である。
  これらの表示例では、仮想音源として機能する音声とともに各仮想ディスプレイにて再生される仮想動画が、仮想オブジェクトに相当する。
  これらの図では、仮想空間内では、10個の仮想動画がユーザの周りに配置されており、ユーザは、情報処理装置101を把持して自身の向きを変更することによって、ユーザは複数の仮想動画を並べて見比べることができる。ユーザの頭が向いている仮想動画の仮想音源が、他の仮想動画の仮想音源よりも優先されて出力される。
  この態様では、10個より多くの仮想動画をユーザが順に見比べることも可能である。すなわち、仮想空間においてユーザから見えない位置に配置された仮想ディスプレイにおいて、仮想動画を交換すれば良い。
  この態様では、ユーザが情報処理装置101を把持したまま、自身の体を現実空間で回転させることで、仮想動画を順に並べて見ることができる。
  また、指の向きを短時間で水平方向に、右から左へ、あるいは、左から右へ変化させるようなジェスチャー、あるいは、画面153を構成するタッチスクリーンを左スライドあるいは右スライドさせる動作等によって、仮想空間内において、ユーザを中心に仮想ディスプレイを回転させても良い。
  これにより、複数の仮想動画を、カルーセル表示あるいはカバーフロー表示に類似した態様でユーザに提供することができる。
  上記実施形態と同様に、ユーザは、画面153に表示されているいずれかの仮想動画に顔を向けて、耳をすます等のジェスチャーをしたり、閾時間の時間長だけ顔を向け続けたり、等によって、当該仮想動画を注目オブジェクトとして特定することができる。
  仮想動画が注目オブジェクトとして特定されると、情報処理装置101は、注目オブジェクトとして特定された仮想動画(注目動画)を、画面153内の中央等、所定位置に、所定拡大率で表示して再生するとともに、当該注目オブジェクトに対応付けられる仮想音源、すなわち、当該仮想動画とともに再生させるべき音声(注目音声)を、他の仮想音源に優先して再生する。このとき、出力される音声のミキシングは、注目音声は所定の増幅率で、他の仮想音源はミュートする、すなわち、注目音声のみが出力され、他の仮想音声は出力されないようにしても良い。
  図25, 26は、図23, 24において画面中央に描画されていた仮想動画が注目オブジェクトとして特定され、画面中央に拡大されて、当該注目オブジェクト動画および音声が再生されている様子を示している。
  図27, 28, 29, 30は、ここで再生されている音声に合わせてユーザがダンスをし、現実空間における情報処理装置101やユーザの向きは変化しているが、画面中央にて再生される動画は注目オブジェクトのままであることを示している。
  この態様では、ユーザが手を広げて情報処理装置101のカメラ151に近付けるジェスチャーをしたり、タッチスクリーンに対して短時間だけタップする等によって、注目オブジェクトとしての特定を解除することができる。
  特定が解除されたときは、当該特定が解除された仮想動画がユーザの頭が向いている先に位置するように、仮想空間内においてユーザの周りを囲む仮想動画を、ユーザを中心に回転させることとしても良い。すなわち、特定が解除された仮想オブジェクトの仮想方位が、算出された第3向きに一致するように、仮想空間内における仮想始点を中心に、仮想空間内に配置された仮想オブジェクト(の仮想方位)を回転させることになる。
  この態様によれば、特定が解除された直後は、その仮想動画がユーザの顔が向く方に配置されており、仮想動画の列が、以前と同じ順序でほぼ同じ位置に配置されることとなるので、ユーザは、仮想動画を直感的に、順に見比べることができるようになる。
  これらの実施形態に係る情報処理装置101について、以下に整理して説明する。図31は、本発明の実施形態に係る注目オブジェクトを処理する情報処理装置の概要構成を示す説明図である。
  本実施形態に係る情報処理装置101は、図1に開示する構成に加えて、特定部301と、解除部302と、を有する。特定部301、解除部302は、検知部111、推定部112、算出部113から各種の情報を取得し、それに応じて、出力部114を制御する。
  上記のように、本実施形態に係る情報処理装置101では、複数の発音オブジェクトが仮想空間に配置されている。各発音オブジェクトは、たとえば、上記実施形態における仮想オブジェクトとすることができ、上記実施形態では、仮想楽器を演奏する演奏者のアバター、あるいは、仮想動画を再生する仮想ディスプレイに相当する。
  各発音オブジェクトは、仮想音源に対応付けられている。上記実施形態では、仮想音源は、仮想楽器により出力される演奏音や、仮想動画とともに再生される音声に相当する。
  そして、情報処理装置101は、仮想空間の様子を画面153に表示する。具体的には、第1位置および第1向きに応じた視点位置および視線方向により観察した仮想空間の様子を、カメラ151の撮影方向と同じ方向を表示方向とする画面153に表示する。
  情報処理装置101(の画面153)の位置や向きを変化させたり、ユーザの頭の位置や向きを変化させると、それに応じて、画面153に表示される仮想世界の様子が変化する。これにより、情報処理装置101の画面153が、仮想空間を覗き込むための「窓」として機能することとなる。
  ここで、情報処理装置101の特定部301は、特定条件が満たされたか否かを判定し、それに応じた処理を行う。
  また、情報処理装置101の解除部302は、解除条件が満たされたか否か、を判定し、それに応じた処理を行う。
  特定条件とは、複数の発音オブジェクトのうち、いずれかをユーザによる注目オブジェクトとして特定するための条件であり、解除条件とは、注目オブジェクトとしての特定を解除するための条件である。
  上記実施形態では、特定条件として、耳をすますジェスチャーがされていること、所定時間以上特定の発音オブジェクトの方を向き続けること、等を採用しており、解除条件として、手を広げてカメラ151に近付けるジェスチャーがされたことや、画面153を構成するタッチスクリーンをタップすること等を採用しているが、その他の条件を採用することも可能である。
  情報処理装置101において、特定部301は、特定条件が満たされる、と判定すると、仮想音源に対応付けられる仮想方位と、算出された第3向きと、の角度差が最小の発音オブジェクトを、ユーザによる注目オブジェクトとして特定する。
  注目オブジェクトは、仮想空間に配置された発音オブジェクトのうちユーザが注目したい、あるいは、注目していると推定されるオブジェクトである。上記実施形態では、画面153に表示されている発音オブジェクトであって、ユーザが向いている発音オブジェクトが注目オブジェクトとなりうる。すなわち、ユーザが画面153の中央を向いていれば、画面153中央に表示されている発音オブジェクトが、ユーザが画面153の右端を向いていれば、画面153の右端に表示されている発音オブジェクトが、ユーザが画面153の左端を向いていれば、画面153の左端に表示されている発音オブジェクトが、それぞれ注目オブジェクトとなりうる。
  さて、注目オブジェクトが特定されていないときは、出力部114は、仮想音源に対応付けられる仮想方位と、算出された第3向きと、の角度差に応じた強度で、仮想音源をミキシングするが、注目オブジェクトが特定されているときは、出力部114は、算出された第3向きに応じた情報を出力するのにかえて、特定された注目オブジェクトに対応付けられる仮想音源を、他の仮想音源に優先して出力する。
  上記実施形態では、注目オブジェクトに相当する演奏者の仮想楽器の演奏音や、仮想動画に伴う音声が、他の音声に優先して出力されることになる。ここで、「優先」とは、たとえば、注目オブジェクトの仮想音源の増幅率を所定の定数とし、他の仮想音源の増幅率をゼロ(ミュート)あるいは小さい値とする、等が含まれる。
  また、情報処理装置101は、画面153において、特定された注目オブジェクトを他の発音オブジェクトより強調して画面153に表示しても良い。
  上記実施形態では、注目オブジェクトに相当する演奏者の色を明るくしたり、演奏者にマークをつけたり、等の態様を採用することもできる。また、注目オブジェクトに相当する仮想動画を画面中央に所定サイズで表示することによって、強調表示をすることとしている。
  情報処理装置101において、解除部302は、解除条件が満たされると、注目オブジェクトとしての特定を解除する。これにより、仮想音源の優先出力や画面153における強調表示は終了し、最先に説明した出力手法が採用されることになる。
  仮想空間内に配置された仮想オブジェクトの位置は、仮想空間内の視点を中心に回転させることもできる。すなわち、情報処理装置101は、撮影画像に含まれるユーザの手画像に基づくジェスチャー、もしくは、画面に対するタッチ操作に基づいて、視点位置を中心に、仮想空間に配置された発音オブジェクトの仮想方位を回転させる。
  すると、指の向きを右から左あるいは左から右へ短時間に水平方向に変化させるジェスチャーや、画面153を構成するタッチスクリーンに対する右スライドや左スライドがされると、ユーザの視点位置の周りに並ぶ演奏者や仮想ディスプレイの動画が移動して、ユーザは、これらの様子を、順に見比べたり、その音声を聞き比べたりできるようになる。
  また、上記実施形態では、演奏者のアバターをつまんだり複数の指を画面153にタッチして回転させる操作により、アバターの位置や向きを編集可能としている。すなわち、情報処理装置101は、注目オブジェクトが特定されている間、撮影画像に含まれるユーザの手画像に基づくジェスチャー、もしくは、画面に対するタッチ操作に基づいて、注目オブジェクトの仮想空間における位置もしくは向きを変化させることができる。
  (まとめ)
  以上説明した通り、本実施形態に係る情報処理装置は、カメラを有し、
  現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知する検知部、
  前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定する推定部、
  前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出する算出部、
  前記算出された第3向きに応じた情報を出力する出力部
  を備えるように構成する。
  また、本実施形態に係る情報処理装置において、
  前記情報処理装置は、前記ユーザが装着する音響機器に無線もしくは有線により接続され、
  前記出力部は、前記情報を前記音響機器に出力する
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記音響機器は、外音取り込み可能なヘッドフォン、イヤフォン、ネックスピーカー、骨伝導スピーカー、もしくは、補聴器である
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、前記出力部は、
    仮想音源に対応付けられる仮想方位と、
    前記算出された第3向きと、
の角度差に応じた強度で前記仮想音源をミキシングした音声を前記情報として出力する
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記仮想方位は、あらかじめ定められる
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記検知部は、前記第1座標系における前記情報処理装置の第1位置をさらに検知し、
  前記仮想音源に対応付けられる前記仮想方位は、
    仮想音源が前記第1座標系において配置される仮想位置と、
    前記検知された第1向きおよび第1位置と、
から、算出される
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記情報処理装置は、前記検知された第1位置および第1向きに応じた映像情報を、前記カメラの撮影方向と同じ方向を表示方向とする画面に表示し、
  前記顔画像の大きさに応じて、前記仮想音源の波形を補正する
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記撮影画像に前記ユーザの前記顔画像と、前記ユーザの手画像と、が含まれていれば、前記第2座標系における前記ユーザの前記顔と、前記ユーザの手と、の距離に応じて、前記仮想音源の波形を補正する
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記撮影画像に前記ユーザの手画像が含まれていれば、前記撮影画像の代表点と、前記手画像と、の距離に応じて、前記仮想音源の波形を補正する
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記撮影画像に前記顔画像が含まれていなければ、前記強度を既定値とする
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記仮想音源は、仮想空間に配置された発音オブジェクトに対応付けられ、
  前記情報処理装置は、
    前記発音オブジェクトが配置された前記検知された第1位置および第1向きに応じた視点位置および視線方向により観察した前記仮想空間の様子を、前記カメラの撮影方向と同じ方向を表示方向とする画面に表示し、
    特定条件が満たされると、前記仮想音源に対応付けられる仮想方位と、前記算出された第3向きと、の角度差が最小の発音オブジェクトを、前記ユーザによる注目オブジェクトとして特定し、
    前記出力部は、前記算出された第3向きに応じた情報を出力するのにかえて、前記特定された注目オブジェクトに対応付けられる仮想音源を、他の仮想音源に優先して出力し、
    前記特定された注目オブジェクトを他の発音オブジェクトより強調して前記画面に表示し、
    解除条件が満たされると、前記注目オブジェクトとしての特定を解除する
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記発音オブジェクトは、音声とともに再生される動画であり、
  前記注目オブジェクトが特定されている間、前記情報処理装置は、
    前記注目オブジェクトを前記画面内の所定位置に所定拡大率で表示し、
    前記出力部は、前記注目オブジェクトに対応付けられる仮想音源を所定の増幅率で、他の仮想音源をミュートして、ミキシングした音声を出力し、
  前記注目オブジェクトとしての特定が解除されると、前記情報処理装置は、前記注目オブジェクトとしての特定が解除された発音オブジェクトの仮想方位が前記算出された第3向きに一致するように、前記視点位置を中心に、前記仮想空間に配置された発音オブジェクトの仮想方位を回転させる
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記情報処理装置は、前記撮影画像に含まれる前記ユーザの手画像に基づくジェスチャー、もしくは、前記画面に対するタッチ操作に基づいて、前記視点位置を中心に、前記仮想空間に配置された発音オブジェクトの仮想方位を回転させる
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記発音オブジェクトは、音声を発するアバターであり、
  前記注目オブジェクトが特定されている間、前記情報処理装置は、前記撮影画像に含まれる前記ユーザの手画像に基づくジェスチャー、もしくは、前記画面に対するタッチ操作に基づいて、前記注目オブジェクトの前記仮想空間における位置もしくは向きを変化させる
  ように構成することができる。
  本実施形態に係る情報処理方法は、カメラを有する情報処理装置が、
  現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知し、
  前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定し、
  前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出し、
  前記算出された第3向きに応じた情報を出力する
  ように構成する。
  本実施形態に係るプログラムは、カメラを有するコンピュータを、
  現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知する検知部、
  前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定する推定部、
  前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出する算出部、
  前記算出された第3向きに応じた情報を出力する出力部
  として機能させるように構成する。
  当該プログラムは、非一時的なコンピュータ読取可能な情報記録媒体に記録して配布、販売することができる。また、コンピュータ通信網等の一時的な伝送媒体を介して配布、販売することができる。
  本実施形態に係るコンピュータ読取可能な非一時的な情報記録媒体は、上記のプログラムが記録されるように構成する。
  本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
  本願においては、日本国に対して令和3年(2021年)4月20日(火)に出願した特許出願特願2021-070745を基礎とする優先権を主張するものとし、指定国の法令が許す限り、当該基礎出願の内容を本願に取り込むものとする。
  本発明によれば、現実世界におけるユーザの顔の向きを推定し、これに応じた情報を出力するための情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体を提供することができる。
  101 情報処理装置
  111 検知部
  112 推定部
  113 算出部
  114 出力部
  151 カメラ
  152 音響機器
  153 画面
  301 特定部
  302 解除部

Claims (17)

  1.   カメラを有する情報処理装置であって、
      現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知する検知部、
      前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定する推定部、
      前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出する算出部、
      前記算出された第3向きに応じた情報を出力する出力部
      を備えることを特徴とする情報処理装置。
  2.   前記情報処理装置は、前記ユーザが装着する音響機器に無線もしくは有線により接続され、
      前記出力部は、前記情報を前記音響機器に出力する
      ことを特徴とする請求項1に記載の情報処理装置。
  3.   前記音響機器は、外音取り込み可能なヘッドフォン、イヤフォン、ネックスピーカー、骨伝導スピーカー、もしくは、補聴器である
      ことを特徴とする請求項2に記載の情報処理装置。
  4.   前記出力部は、
        仮想音源に対応付けられる仮想方位と、
        前記算出された第3向きと、
    の角度差に応じた強度で前記仮想音源をミキシングした音声を前記情報として出力する
      ことを特徴とする請求項2または3に記載の情報処理装置。
  5.   前記仮想方位は、あらかじめ定められる
      ことを特徴とする請求項4に記載の情報処理装置。
  6.   前記検知部は、前記第1座標系における前記情報処理装置の第1位置をさらに検知し、
      前記仮想音源に対応付けられる前記仮想方位は、
        仮想音源が前記第1座標系において配置される仮想位置と、
        前記検知された第1向きおよび第1位置と、
    から、算出される
      ことを特徴とする請求項4に記載の情報処理装置。
  7.   前記情報処理装置は、前記検知された第1位置および第1向きに応じた映像情報を、前記カメラの撮影方向と同じ方向を表示方向とする画面に表示し、
      前記顔画像の大きさに応じて、前記仮想音源の波形を補正する
      ことを特徴とする請求項6に記載の情報処理装置。
  8.   前記撮影画像に前記ユーザの前記顔画像と、前記ユーザの手画像と、が含まれていれば、前記第2座標系における前記ユーザの前記顔と、前記ユーザの手と、の距離に応じて、前記仮想音源の波形を補正する
      ことを特徴とする請求項4に記載の情報処理装置。
  9.   前記撮影画像に前記ユーザの手画像が含まれていれば、前記撮影画像の代表点と、前記手画像と、の距離に応じて、前記仮想音源の波形を補正する
      ことを特徴とする請求項4に記載の情報処理装置。
  10.   前記撮影画像に前記顔画像が含まれていなければ、前記強度を既定値とする
      ことを特徴とする請求項4に記載の情報処理装置。
  11.   前記仮想音源は、仮想空間に配置された発音オブジェクトに対応付けられ、
      前記情報処理装置は、
        前記発音オブジェクトが配置された前記検知された第1位置および第1向きに応じた視点位置および視線方向により観察した前記仮想空間の様子を、前記カメラの撮影方向と同じ方向を表示方向とする画面に表示し、
        特定条件が満たされると、前記仮想音源に対応付けられる仮想方位と、前記算出された第3向きと、の角度差が最小の発音オブジェクトを、前記ユーザによる注目オブジェクトとして特定し、
        前記出力部は、前記算出された第3向きに応じた情報を出力するのにかえて、前記特定された注目オブジェクトに対応付けられる仮想音源を、他の仮想音源に優先して出力し、
        前記特定された注目オブジェクトを他の発音オブジェクトより強調して前記画面に表示し、
        解除条件が満たされると、前記注目オブジェクトとしての特定を解除する
      ことを特徴とする請求項4に記載の情報処理装置。
  12.   前記情報処理装置は、前記撮影画像に含まれる前記ユーザの手画像に基づくジェスチャー、もしくは、前記画面に対するタッチ操作に基づいて、前記視点位置を中心に、前記仮想空間に配置された発音オブジェクトの仮想方位を回転させる
      ことを特徴とする請求項11に記載の情報処理装置。
  13.   前記発音オブジェクトは、音声とともに再生される動画であり、
      前記注目オブジェクトが特定されている間、前記情報処理装置は、
        前記注目オブジェクトを前記画面内の所定位置に所定拡大率で表示し、
        前記出力部は、前記注目オブジェクトに対応付けられる仮想音源を所定の増幅率で、他の仮想音源をミュートして、ミキシングした音声を出力し、
      前記注目オブジェクトとしての特定が解除されると、前記情報処理装置は、前記注目オブジェクトとしての特定が解除された発音オブジェクトの仮想方位が前記算出された第3向きに一致するように、前記視点位置を中心に、前記仮想空間に配置された発音オブジェクトの仮想方位を回転させる
      ことを特徴とする請求項11または12に記載の情報処理装置。
  14.   前記発音オブジェクトは、音声を発するアバターであり、
      前記注目オブジェクトが特定されている間、前記情報処理装置は、前記撮影画像に含まれる前記ユーザの手画像に基づくジェスチャー、もしくは、前記画面に対するタッチ操作に基づいて、前記注目オブジェクトの前記仮想空間における位置もしくは向きを変化させる
      ことを特徴とする請求項11または12に記載の情報処理装置。
  15.   カメラを有する情報処理装置が、
      現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知し、
      前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定し、
      前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出し、
      前記算出された第3向きに応じた情報を出力する
      ことを特徴とする情報処理方法。
  16.   カメラを有するコンピュータを、
      現実世界に固定された第1座標系における前記情報処理装置の第1向きを検知する検知部、
      前記カメラにより撮影されている撮影画像にユーザの顔画像が含まれていれば、前記撮影画像および前記顔画像から、前記情報処理装置に固定された第2座標系における前記ユーザの顔の第2向きを推定する推定部、
      前記検知された第1向きと、前記推定された第2向きと、から、前記第1座標系における前記ユーザの顔の第3向きを算出する算出部、
      前記算出された第3向きに応じた情報を出力する出力部
      として機能させることを特徴とするプログラム。
  17.   請求項16に記載のプログラムが記録されたコンピュータ読取可能な非一時的な情報記録媒体。
PCT/JP2022/008277 2021-04-20 2022-02-28 情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体 WO2022224586A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023516316A JPWO2022224586A1 (ja) 2021-04-20 2022-02-28

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021070745 2021-04-20
JP2021-070745 2021-04-20

Publications (1)

Publication Number Publication Date
WO2022224586A1 true WO2022224586A1 (ja) 2022-10-27

Family

ID=83722776

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/008277 WO2022224586A1 (ja) 2021-04-20 2022-02-28 情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体

Country Status (2)

Country Link
JP (1) JPWO2022224586A1 (ja)
WO (1) WO2022224586A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008092193A (ja) * 2006-09-29 2008-04-17 Japan Science & Technology Agency 音源選択装置
JP2017092732A (ja) * 2015-11-11 2017-05-25 株式会社国際電気通信基礎技術研究所 聴覚支援システムおよび聴覚支援装置
WO2019026597A1 (ja) * 2017-07-31 2019-02-07 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
JP2019126033A (ja) * 2018-01-18 2019-07-25 株式会社電通ライブ 音声情報提供システム、音声情報提供装置、及びプログラム
US20190335288A1 (en) * 2014-12-23 2019-10-31 Ray Latypov Method of Providing to User 3D Sound in Virtual Environment
WO2020184021A1 (ja) * 2019-03-12 2020-09-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008092193A (ja) * 2006-09-29 2008-04-17 Japan Science & Technology Agency 音源選択装置
US20190335288A1 (en) * 2014-12-23 2019-10-31 Ray Latypov Method of Providing to User 3D Sound in Virtual Environment
JP2017092732A (ja) * 2015-11-11 2017-05-25 株式会社国際電気通信基礎技術研究所 聴覚支援システムおよび聴覚支援装置
WO2019026597A1 (ja) * 2017-07-31 2019-02-07 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
JP2019126033A (ja) * 2018-01-18 2019-07-25 株式会社電通ライブ 音声情報提供システム、音声情報提供装置、及びプログラム
WO2020184021A1 (ja) * 2019-03-12 2020-09-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2022224586A1 (ja) 2022-10-27

Similar Documents

Publication Publication Date Title
CN108769562B (zh) 生成特效视频的方法和装置
JP5992210B2 (ja) 情報処理プログラム、情報処理装置、情報処理システム、および情報処理方法
US9754621B2 (en) Appending information to an audio recording
EP3236346A1 (en) An apparatus and associated methods
US10798518B2 (en) Apparatus and associated methods
WO2021068903A1 (zh) 确定音量的调节比例信息的方法、装置、设备及存储介质
JP6932206B2 (ja) 空間オーディオの提示のための装置および関連する方法
AU2014200042B2 (en) Method and apparatus for controlling contents in electronic device
CN109346111B (zh) 数据处理方法、装置、终端及存储介质
CN109192218B (zh) 音频处理的方法和装置
JP2020520576A5 (ja)
KR20130056529A (ko) 휴대용 단말기에서 증강현실 서비스를 제공하기 위한 장치 및 방법
CN111276122A (zh) 音频生成方法及装置、存储介质
US20220225049A1 (en) An apparatus and associated methods for capture of spatial audio
CN110600034B (zh) 歌声生成方法、装置、设备及存储介质
JP5649809B2 (ja) マルチメディア付箋装置
CN107087208B (zh) 一种全景视频播放方法、***及存储装置
CN110136752B (zh) 音频处理的方法、装置、终端及计算机可读存储介质
WO2022224586A1 (ja) 情報処理装置、情報処理方法、プログラム、ならびに、情報記録媒体
US20160343158A1 (en) Effect control device, effect control method, and program
EP4113517A1 (en) Method and apparatus for processing videos
CN113766275A (zh) 视频剪辑方法、装置、终端及存储介质
US20160134809A1 (en) Image processing apparatus and control method of the same
CN109981893B (zh) 歌词显示方法及装置
US11647350B2 (en) Audio processing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22791368

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023516316

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22791368

Country of ref document: EP

Kind code of ref document: A1