WO2022004421A1 - 情報処理装置、出力制御方法、およびプログラム - Google Patents

情報処理装置、出力制御方法、およびプログラム Download PDF

Info

Publication number
WO2022004421A1
WO2022004421A1 PCT/JP2021/023152 JP2021023152W WO2022004421A1 WO 2022004421 A1 WO2022004421 A1 WO 2022004421A1 JP 2021023152 W JP2021023152 W JP 2021023152W WO 2022004421 A1 WO2022004421 A1 WO 2022004421A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
sound source
hrtf
output
speaker
Prior art date
Application number
PCT/JP2021/023152
Other languages
English (en)
French (fr)
Inventor
越 沖本
亨 中川
真志 藤原
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/011,829 priority Critical patent/US20230247384A1/en
Priority to JP2022533857A priority patent/JPWO2022004421A1/ja
Priority to DE112021003592.4T priority patent/DE112021003592T5/de
Priority to CN202180045499.6A priority patent/CN115777203A/zh
Publication of WO2022004421A1 publication Critical patent/WO2022004421A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/105Earpiece supports, e.g. ear hooks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Definitions

  • This technology is particularly related to an information processing device, an output control method, and a program that can appropriately reproduce the sense of distance of a sound source.
  • HRTF head-related transfer function
  • Patent Document 1 discloses a technique for reproducing stereophonic sound by using an HRTF measured by using a dummy head.
  • This technology was made in view of such a situation, and makes it possible to appropriately reproduce the sense of distance of the sound source.
  • the information processing device of one aspect of the present technology outputs the sound of a predetermined sound source constituting the audio of the content from a speaker installed in the listening space, and performs processing using a transmission function according to the sound source position. It is provided with an output control unit that outputs the generated sound of a virtual sound source different from the predetermined sound source from the output device for each listener.
  • the sound of a predetermined sound source constituting the audio of the content is output from a speaker installed in the listening space, and is generated by performing processing using a transmission function according to the sound source position.
  • the sound of a virtual sound source different from the predetermined sound source is output from the output device for each listener.
  • FIG. 1 It is a figure which shows the example of the state of viewing in a movie hall. It is a figure which shows the structural example of the acoustic processing apparatus. It is a flowchart explaining the reproduction processing of the acoustic processing apparatus which has the structure of FIG. It is a figure which shows the example of a dynamic object. It is a figure which shows the structural example of the acoustic processing apparatus. It is a flowchart explaining the reproduction processing of the acoustic processing apparatus which has the structure of FIG. It is a figure which shows the example of a dynamic object. It is a figure which shows the structural example of the acoustic processing apparatus. It is a figure which shows the example of a gain adjustment.
  • FIG. 1 It is a figure which shows the example of a sound source. It is a figure which shows the structural example of the acoustic processing apparatus. It is a figure which shows the structural example of the acoustic processing apparatus. It is a flowchart explaining the reproduction processing of the acoustic processing apparatus which has the structure of FIG. It is a figure which shows the configuration example of the hybrid type acoustic system. It is a figure which shows the example of the installation position of an in-vehicle speaker. It is a figure which shows the example of the virtual sound source. It is a figure which shows the example of the screen. It is a block diagram which shows the configuration example of a computer.
  • FIG. 1 is a diagram showing a configuration example of an acoustic processing system according to an embodiment of the present technology.
  • the sound processing system of FIG. 1 is composed of an sound processing device 1 and earphones (inner ear headphones) 2 worn by a user U as an audio listener.
  • the left side unit 2L constituting the earphone 2 is attached to the left ear of the user U, and the right side unit 2R is attached to the right ear.
  • the sound processing device 1 and the earphone 2 are connected by wire via a cable or wirelessly via communication of a predetermined standard such as wireless LAN or Bluetooth (registered trademark). Communication between the sound processing device 1 and the earphone 2 may be performed via a mobile terminal such as a smartphone owned by the user U. An audio signal obtained by reproducing the content is input to the sound processing device 1.
  • a predetermined standard such as wireless LAN or Bluetooth (registered trademark).
  • Communication between the sound processing device 1 and the earphone 2 may be performed via a mobile terminal such as a smartphone owned by the user U.
  • An audio signal obtained by reproducing the content is input to the sound processing device 1.
  • the audio signal obtained by playing the content of the movie is input to the sound processing device 1.
  • Movie audio signals include various sound signals such as audio, BGM, and environmental sounds.
  • the audio signal is composed of an audio signal L which is a signal for the left ear and an audio signal R which is a signal for the right ear.
  • the type of audio signal to be processed in the sound processing system is not limited to the audio signal of the movie.
  • Various types of sound signals such as sounds obtained by playing music content, sounds obtained by playing game content, voice messages, and electronic sounds such as chimes and buzzers, are used as processing targets. Be done.
  • the sound to be heard by the user U will be described as being a voice, but the user U will listen to a sound of a type other than the voice.
  • the various sounds described above, such as the sound of a movie and the sound obtained by playing back the contents of a game, are described here as sounds.
  • the sound processing device 1 processes the input audio signal so that the sound of the movie can be heard as if it were emitted from the positions of the left virtual speaker VSL and the right virtual speaker VSR shown by the broken lines on the right side of FIG. To give. That is, the sound processing device 1 localizes the sound image of the sound output from the earphone 2 so as to be felt as the sound from the left virtual speaker VSL and the right virtual speaker VSR.
  • the left virtual speaker VSL and the right virtual speaker VSR are not distinguished, they are collectively called virtual speaker VS.
  • the position of the virtual speaker VS is the position in front of the user U, and the number thereof is two.
  • the position and the number of the virtual sound sources corresponding to the virtual speaker VS are used for the progress of the movie. It changes appropriately according to it.
  • the convolution processing unit 11 of the sound processing device 1 performs sound image localization processing for outputting such sound on the audio signal, and the audio signal L and the audio signal R after the sound image localization processing are respectively the left side unit 2L. Output to the right unit 2R.
  • FIG. 2 is a diagram showing the principle of sound image localization processing.
  • the position of the dummy head DH is set as the position of the listener.
  • Microphones are provided on the left and right ears of the dummy head DH.
  • the left real speaker SPL and the right real speaker SPR are installed at the positions of the left and right virtual speakers that try to localize the sound image.
  • the actual speaker is a speaker that is actually installed.
  • the sound output from the left real speaker SPL and the right real speaker SPR is picked up in both ears of the dummy head DH, and the sound output from the left real speaker SPL and the right real speaker SPR is picked up in both ears of the dummy head DH.
  • a transfer function (HRTF: Head-related transfer function) that indicates a change in characteristics when the sound is reached is measured in advance. Instead of using the dummy head DH, a human may actually sit and a microphone may be placed near the ear to measure the transfer function.
  • the sound transfer function from the left real speaker SPL to the left ear of the dummy head DH is M11
  • the sound transfer function from the left real speaker SPL to the right ear of the dummy head DH is. It is assumed that it is M12. Further, it is assumed that the sound transfer function from the right real speaker SPR to the left ear of the dummy head DH is M21, and the sound transfer function from the right real speaker SPR to the right ear of the dummy head DH is M22.
  • the HRTF database 12 in FIG. 1 stores information on HRTF (information on coefficients representing HRTF), which is a transfer function measured in advance in this way.
  • the HRTF database 12 functions as a storage unit for storing HRTF information.
  • the convolution processing unit 11 reads out a pair of HRTF coefficients corresponding to the positions of the left virtual speaker VSL and the right virtual speaker VSR from the HRTF database 12, acquires them, and sets them in the filters 21 to 24.
  • the filter 21 performs a filter process of applying the transfer function M11 to the audio signal L, and outputs the filtered audio signal L to the addition unit 25.
  • the filter 22 performs a filter process of applying the transfer function M12 to the audio signal L, and outputs the filtered audio signal L to the addition unit 26.
  • the filter 23 performs a filter process of applying the transfer function M21 to the audio signal R, and outputs the filtered audio signal R to the addition unit 25.
  • the filter 24 performs a filter process of applying the transfer function M22 to the audio signal R, and outputs the filtered audio signal R to the addition unit 26.
  • the addition unit 25 which is an addition unit for the left channel, adds the audio signal L after the filter processing by the filter 21 and the audio signal R after the filter processing by the filter 23, and outputs the audio signal after the addition.
  • the added audio signal is transmitted to the earphone 2, and the sound corresponding to the audio signal is output from the left unit 2L of the earphone 2.
  • the addition unit 26 which is an addition unit for the right channel, adds the audio signal L after the filter processing by the filter 22 and the audio signal R after the filter processing by the filter 24, and outputs the audio signal after the addition.
  • the added audio signal is transmitted to the earphone 2, and the sound corresponding to the audio signal is output from the right unit 2R of the earphone 2.
  • the sound processing device 1 performs a convolution process using the HRTF according to the position where the sound image is to be localized, and the sound image of the sound from the earphone 2 is emitted from the virtual speaker VS. Localize as the user U feels.
  • FIG. 3 is a diagram showing the appearance of the earphone 2.
  • the right side unit 2R is configured by joining the driver unit 31 and the ring-shaped mounting portion 33 via a U-shaped sound conduit 32.
  • the right side unit 2R is mounted by pressing the mounting portion 33 around the outer ear hole and sandwiching the right ear between the mounting portion 33 and the driver unit 31.
  • the left side unit 2L has the same configuration as the right side unit 2R.
  • the left side unit 2L and the right side unit 2R are connected by wire or wirelessly.
  • the driver unit 31 of the right side unit 2R receives the audio signal transmitted from the sound processing device 1, and outputs the sound corresponding to the audio signal from the tip of the sound conduit 32 as shown by the arrow # 1.
  • a hole portion for outputting sound toward the external ear canal is formed.
  • the mounting portion 33 has a ring shape. Along with the sound of the content output from the tip of the sound conduit 32, the surrounding sound also reaches the external ear canal as shown by arrow # 2.
  • the earphone 2 is a so-called open ear type (open type) earphone that does not seal the ear canal.
  • a device other than the earphone 2 may be used as an output device used for listening to the sound of the content.
  • FIG. 4 is a diagram showing an example of an output device.
  • sealed headphones as shown in A of FIG. 4 are used.
  • the headphones shown in FIG. 4A are headphones equipped with a function of capturing external sound.
  • a shoulder-mounted neckband speaker as shown in B of FIG. 4 is used. Speakers are provided on the left and right units that make up the neckband speaker, and sound is output toward the user's ears.
  • an output device capable of capturing external sound such as the earphone 2, the headphone of A in FIG. 4, and the neckband speaker of B in FIG. 4, to be used for listening to the sound of the content.
  • ⁇ Multilayer HRTF> 5 and 6 are diagrams showing examples of HRTFs stored in the HRTF database 12.
  • the HRTF database 12 stores HRTF information for each sound source arranged spherically around the position of the reference dummy head DH.
  • a plurality of sound sources are arranged in a celestial sphere at a position separated by a distance b from the position O of the dummy head DH, and the distance a (a> b).
  • Multiple sound sources are arranged in a celestial sphere at positions that are only separated.
  • a layer of the sound source located at a position separated by a distance b from the center of the position O and a layer of a sound source located at a position separated by a distance a are formed.
  • sound sources of the same layer are arranged at equal intervals.
  • the HRTF layer B and the HRTF layer A which are all-sky spherical HRTF layers, are configured.
  • the HRTF layer A is the outer HRTF layer and the HRTF layer B is the inner HRTF layer.
  • each intersection of parallels and meridians represents a sound source position.
  • the HRTF at a certain sound source position is obtained by measuring the impulse response from that position at the positions of both ears of the dummy head DH and expressing it on the frequency axis.
  • the following methods can be considered as HRTF acquisition methods. 1. 1. How to place a real speaker at each sound source position and acquire it in one measurement. 2. A method of arranging real speakers at different distances and acquiring them by multiple measurements. Method to acquire by acoustic simulation 4. 4. A method of acquiring one HRTF layer by measuring using an actual speaker and estimating the other HRTF layer. A method of acquiring by estimating from an image of the ear using an inference model prepared in advance by machine learning.
  • the acoustic processing device 1 By preparing the HRTF in multiple layers, the acoustic processing device 1 switches the HRTF used for the sound image localization processing (convolution processing) from the HRTF of the HRTF layer A to the HRTF of the HRTF layer B, or from the HRTF of the HRTF layer B to the HRTF layer. It will be possible to switch to A's HRTF. By switching the HRTF, it is possible to reproduce the sound approaching and moving away from the user U.
  • FIG. 7 is a diagram showing an example of sound reproduction.
  • Arrow # 11 represents the sound of an object above user U falling
  • arrow # 12 represents the sound of an object in front of user U approaching.
  • the arrow # 13 represents the sound of an object near the user U falling to the feet
  • the arrow # 14 represents the sound of the moving object moving away at the feet behind the user U.
  • the sound processing device 1 switches the HRTF used for sound image localization processing from the HRTF of one HRTF layer to the HRTF of another HRTF layer, so that the depth cannot be reproduced by a conventional VAD (Virtual Auditory Display) system or the like. It is possible to reproduce various sounds that move in the direction.
  • VAD Virtual Auditory Display
  • the HRTFs for each sound source position arranged in a spherical shape are prepared, it is possible to reproduce not only the sound that moves above the user U but also the sound that moves below.
  • the shape of the HRTF layer is assumed to be an all-sky sphere (spherical shape), but it may be a hemispherical sphere or a different shape other than a sphere.
  • the sound sources may be arranged in an elliptical shape or a cube shape so as to surround the reference position, and a multi-layered HRTF layer may be formed. That is, it is possible to arrange all the HRTF sound sources constituting one HRTF layer at different distances from the center instead of arranging them at the same distance from the center.
  • the outer HRTF layer and the inner HRTF layer have the same shape, but they may have different shapes.
  • the multi-layered HRTF layer is composed of two layers, three or more HRTF layers may be provided.
  • the spacing between the HRTF layers may be the same or different.
  • the HRTF layer may be set with the position shifted in the horizontal and vertical directions from the position of the user U as the center position.
  • an output device such as headphones that does not have the function of capturing external sound.
  • ⁇ Application example of acoustic processing system> -Movie theater sound system The sound processing system of FIG. 1 is applied to, for example, a movie theater sound system.
  • a movie theater sound system For the output of the sound of the movie, not only the earphone 2 worn by each user sitting in the seat as an audience, but also an actual speaker installed at a predetermined position in the movie hall is used.
  • FIG. 8 is a plan view showing an example of the layout of an actual speaker in a movie hall.
  • actual speakers SP1 to SP5 are provided on the back side of the screen S installed in front of the movie theater.
  • An actual speaker such as a subwoofer is also provided on the back side of the screen S.
  • each small square-shaped rectangle shown along a straight line representing a wall surface represents a real speaker.
  • the earphone 2 is an earphone capable of capturing external sound. Each user listens to the sound output from the actual speaker together with the sound output from the earphone 2.
  • the output destination of the sound is controlled according to the type of sound source, such that the sound of a predetermined sound source is output from the earphone 2 and the sound of another sound source is output from the actual speaker. ..
  • the sound of the character included in the video is output from the earphone 2, and the environmental sound is output from the actual speaker.
  • FIG. 9 is a diagram showing the concept of a sound source in a movie hall.
  • a virtual sound source reproduced by a multi-layered HRTF is provided as a sound source around the user together with a real speaker installed on the back of the screen S or on the wall surface.
  • the speaker shown by the broken line along the circle indicating the HRTF layers A and B shows a virtual sound source reproduced based on the HRTF.
  • FIG. 9 shows a virtual sound source centered on a user sitting in a seat at the origin position of the coordinates set in the movie hall, but around each user sitting in a seat at another position.
  • the virtual sound source is reproduced in the same way using the multi-layered HRTF.
  • each user who is wearing the earphone 2 and watching a movie is HRTF together with the sound such as the environmental sound output from each real speaker including the real speakers SP1 and SP5. You will hear the sound of the virtual sound source reproduced based on.
  • circles of various sizes around the user wearing the earphone 2 including colored circles C1 to C4, represent virtual sound sources reproduced based on HRTFs.
  • the sound processing system of FIG. 1 realizes a hybrid type sound system in which sound is output using an actual speaker installed in a movie hall and an earphone 2 worn by each user. ..
  • the open type earphone 2 By combining the open type earphone 2 and the actual speaker, it is possible to control the sound optimized for each spectator and the sound that all spectators can hear in common.
  • the earphone 2 is used for the output of the sound optimized for each spectator, and the actual speaker is used for the output of the sound that is commonly heard by all the spectators.
  • the sound output from the actual speaker is referred to as the sound of the actual sound source in the sense of the sound output from the speaker actually installed. Since the sound output from the earphone 2 is the sound of the sound source virtually set based on the HRTF, it is the sound of the virtual sound source.
  • FIG. 11 is a diagram showing a configuration example of the sound processing device 1 as an information processing device that realizes a hybrid type sound system.
  • the sound processing device 1 is composed of a convolution processing unit 11, an HRTF database 12, a speaker selection unit 13, and an output control unit 14.
  • Sound source information which is information of each sound source, is input to the sound processing device 1.
  • the sound source information includes sound data and position information.
  • Sound data which is sound waveform data
  • the position information represents the coordinates of the sound source position in the three-dimensional space.
  • the position information is supplied to the HRTF database 12 and the speaker selection unit 13. In this way, for example, object-based audio data in which the information of each sound source is configured as a set of sound data and position information is input to the sound processing device 1.
  • the convolution processing unit 11 is composed of an HRTF application unit 11L and an HRTF application unit 11R.
  • a pair of HRTF coefficients (a pair of a coefficient for L and a coefficient for R) according to the position of the sound source read from the HRTF database 12 is set.
  • a convolution processing unit 11 is prepared for each sound source.
  • the HRTF application unit 11L performs a filter process for applying the HRTF to the audio signal L, and outputs the filtered audio signal L to the output control unit 14.
  • the HRTF application unit 11R performs a filter process for applying the HRTF to the audio signal R, and outputs the filtered audio signal R to the output control unit 14.
  • the HRTF application unit 11L is composed of the filter 21, the filter 22, and the addition unit 25 of FIG. 1, and the HRTF application unit 11R is composed of the filter 23, the filter 24, and the addition unit 26 of FIG.
  • the convolution processing unit 11 functions as a sound image localization processing unit that performs sound image localization processing by applying an HRTF to the audio signal to be processed.
  • the HRTF database 12 outputs a pair of HRTF coefficients according to the position of the sound source to the convolution processing unit 11 based on the position information.
  • the position information identifies the HRTF that constitutes the HRTF layer A or the HRTF that constitutes the HRTF layer B.
  • the speaker selection unit 13 selects an actual speaker to be used for audio output based on the position information.
  • the speaker selection unit 13 generates an audio signal to be output from the selected actual speaker and outputs it to the output control unit 14.
  • the output control unit 14 is composed of an actual speaker output control unit 14-1 and an earphone output control unit 14-2.
  • the actual speaker output control unit 14-1 outputs the audio signal supplied from the speaker selection unit 13 to the selected actual speaker and outputs it as the sound of the actual sound source.
  • the earphone output control unit 14-2 transmits the audio signal L and the audio signal R supplied from the convolution processing unit 11 to the earphone 2 worn by each user, and outputs the sound of the virtual sound source.
  • a computer that realizes the sound processing device 1 having such a configuration is installed at a predetermined position in a movie hall, for example.
  • step S1 the HRTF database 12 and the speaker selection unit 13 acquire the position information of the sound source.
  • step S2 the speaker selection unit 13 acquires speaker information according to the position of the sound source. Information such as the characteristics of the actual speaker is acquired.
  • step S3 the convolution processing unit 11 acquires a pair of HRTF coefficients according to the position of the sound source read from the HRTF database 12.
  • step S4 the speaker selection unit 13 allocates an audio signal to the actual speaker.
  • the audio signal is allocated based on the position of the sound source and the installation position of the actual speaker.
  • step S5 the actual speaker output control unit 14-1 outputs the sound corresponding to the audio signal from the actual speaker as the sound of the actual sound source according to the allocation by the speaker selection unit 13.
  • step S6 the convolution processing unit 11 performs the convolution processing for the audio signal based on the HRTF, and outputs the audio signal after the convolution processing to the output control unit 14.
  • step S7 the earphone output control unit 14-2 transmits the audio signal after the convolution process to the earphone 2, and outputs the sound of the virtual sound source.
  • the above processing is repeated for each sample of each sound source that constitutes the audio of the movie.
  • the HRTF coefficient pair is updated as appropriate according to the position information of the sound source.
  • the movie content includes video data as well as sound data.
  • the video data is processed by another processing unit.
  • the sound processing device 1 can control the sound optimized for each spectator and the sound to be heard by all the spectators in common, and can appropriately reproduce the sense of distance of the sound source. Become.
  • an object that moves from the position P1 on the screen S to the position P2 behind the movie theater is set.
  • the position in the absolute coordinates of the object at each timing is converted to the position based on the position of each user's seat, and the HRTF (HRTF of HRTF layer A or HRTF of HRTF layer B) according to the converted position is each. It is used for sound image localization processing of the sound output from the user's earphone 2.
  • the sound processing device 1 can control the output as follows.
  • the sound processing device 1 uses a position within a predetermined range from the position on the screen S of the character as a sound source. The sound to be positioned is output from the earphone 2.
  • the sound processing device 1 is within a predetermined range from the position of the actual speaker.
  • the sound of the sound source whose position is the sound source position is output from the actual speaker, and the sound of the virtual sound source whose sound source position is the position away from the actual speaker beyond the range is output from the earphone 2.
  • Sounds that are common to all spectators are output from the actual speakers, and are optimized for each user, such as sounds in different languages and sounds that change the direction of the sound source according to the seat position. Control to output the sound to be heard from the earphone 2
  • the sound processing device. 1 is to output the sound of the sound source whose sound source position is the same height as the height of the actual speaker from the actual speaker, and to output the sound of the virtual sound source whose sound source position is different from the height of the actual speaker. Output from.
  • the height in a predetermined range with respect to the height of the actual speaker is set as the same height as the height of the actual speaker.
  • the sound processing device 1 performs various controls to output the sound of a predetermined sound source constituting the audio of the movie from the actual speaker and output the sound of a sound source different from the sound source from the earphone 2 as the sound of the virtual sound source. be able to.
  • Example of output control 1 When the sound of the bed channel and the sound of the object are included in the audio of the movie, it is possible to use the actual speaker for the sound output of the bed channel and the earphone 2 for the sound output of the object. That is, the actual speaker is used to output the sound of the channel-based sound source, and the earphone 2 is used to output the sound of the object-based virtual sound source.
  • FIG. 14 is a diagram showing a configuration example of the sound processing device 1.
  • FIG. 14 Of the configurations shown in FIG. 14, the same configurations as those described with reference to FIG. 11 are designated by the same reference numerals. Duplicate explanations will be omitted. The same applies to FIG. 17 and the like described later.
  • the configuration shown in FIG. 14 is different from the configuration shown in FIG. 11 in that the control unit 51 is provided and the bed channel processing unit 52 is provided in place of the speaker selection unit 13. As the position information of the sound source, the bed channel information indicating from which actual speaker the sound of the sound source is output is supplied to the bed channel processing unit 52.
  • the control unit 51 controls the operation of each unit of the sound processing device 1. For example, the control unit 51 controls whether the sound of the input sound source is output from the actual speaker or the earphone 2 based on the attribute information of the sound source information input to the sound processing device 1.
  • the bed channel processing unit 52 selects an actual speaker to be used for sound output based on the bed channel information. From each of the actual speakers of Left, Center, Right, Left Surround, Right Surround, ..., The actual speaker used for sound output is specified.
  • step S11 the control unit 51 acquires the attribute information of the sound source to be processed.
  • step S12 the control unit 51 determines whether or not the sound source to be processed is an object-based sound source.
  • step S12 When it is determined in step S12 that the sound source to be processed is an object-based sound source, the same processing as described with reference to FIG. 12 for outputting the sound of the virtual sound source from the earphone 2 is performed.
  • step S13 the HRTF database 12 acquires the position information of the sound source.
  • step S14 the convolution processing unit 11 acquires a pair of HRTF coefficients read from the HRTF database 12 according to the position of the sound source.
  • step S15 the convolution processing unit 11 performs convolution processing on the audio signal of the object-based sound source, and outputs the audio signal after the convolution processing to the output control unit 14.
  • step S16 the earphone output control unit 14-2 transmits the audio signal after the convolution process to the earphone 2, and outputs the sound of the virtual sound source.
  • step S17 the bed channel processing unit 52 acquires the bed channel information and the bed.
  • the channel processing unit 52 identifies the actual speaker used for sound output based on the bed channel information.
  • step S18 the actual speaker output control unit 14-1 outputs the audio signal of the bed channel supplied from the bed channel processing unit 52 to the actual speaker and outputs it as the sound of the actual sound source.
  • step S11 After the sound of one sample is output in step S16 or step S18, the processing after step S11 is repeated.
  • the speaker selection unit 13 of FIG. 11 is provided in the sound processing device 1 together with the bed channel processing unit 52.
  • FIG. 16 is a diagram showing an example of a dynamic object.
  • the sound output of the dynamic object is mainly performed so that the sound from the actual speaker in the vicinity of the position P1 can be heard, and the sound source position is the position P2.
  • the sound source position is the position P3.
  • it is mainly performed so that the sound from the earphone 2 can be heard.
  • the sound generated by the sound image localization process using the HRTF of the HRTF layer A corresponding to the position P2 is mainly from the earphone 2. It is done so that it can be heard.
  • the sound output of the dynamic object is mainly the sound generated by the sound image localization process using the HRTF of the HRTF layer B corresponding to the position P3 from the earphone 2. It is done so that it can be heard.
  • the device used for sound output can be switched from the actual speaker to the earphone 2 according to the position of the dynamic object. Further, the HRTF used for the sound image localization processing of the sound output from the earphone 2 is switched from the HRTF of one HRTF layer to the HRTF of another HRTF layer.
  • Crossfade processing is applied to each sound in order to connect the sound before and after such switching occurs.
  • FIG. 17 is a diagram showing a configuration example of the sound processing device 1.
  • the configuration shown in FIG. 17 is different from the configuration shown in FIG. 11 in that a gain adjusting unit 61 and a gain adjusting unit 62 are provided in front of the convolution processing unit 11.
  • the audio signal and the position information of the sound source are supplied to the gain adjusting unit 61 and the gain adjusting unit 62.
  • the gain adjusting unit 61 and the gain adjusting unit 62 each adjust the gain of the audio signal according to the position of the sound source.
  • the audio signal L whose gain has been adjusted by the gain adjusting unit 61 is supplied to the HRTF application unit 11L-A, and the audio signal R is supplied to the HRTF application unit 11R-A. Further, the audio signal L whose gain has been adjusted by the gain adjusting unit 62 is supplied to the HRTF application unit 11LB, and the audio signal R is supplied to the HRTF application unit 11RB.
  • the convolution processing unit 11 includes an HRTF application unit 11L-A that performs convolution processing using the HRTF of the HRTF layer A, an HRTF application unit 11RA-A, and an HRTF application unit 11L- that performs convolution processing using the HRTF of the HRTF layer B.
  • B and the HRTF application unit 11R-B are provided.
  • the HRTF application unit 11LA and the HRTF application unit 11RA the HRTF coefficient of the HRTF layer A according to the position of the sound source is supplied from the HRTF database 12.
  • the HRTF coefficient of the HRTF layer B according to the position of the sound source is supplied from the HRTF database 12 to the HRTF application unit 11LB and the HRTF application unit 11RB.
  • the HRTF application unit 11L-A performs a filter process for applying the HRTF of the HRTF layer A to the audio signal L supplied from the gain adjustment unit 61, and outputs the filtered audio signal L.
  • the HRTF application unit 11R-A performs a filter process for applying the HRTF of the HRTF layer A to the audio signal R supplied from the gain adjustment unit 61, and outputs the filtered audio signal R.
  • the HRTF application unit 11L-B performs a filter process for applying the HRTF of the HRTF layer B to the audio signal L supplied from the gain adjustment unit 62, and outputs the filtered audio signal L.
  • the HRTF application unit 11R-B performs a filter process for applying the HRTF of the HRTF layer B to the audio signal R supplied from the gain adjustment unit 62, and outputs the filtered audio signal R.
  • the audio signal L output from the HRTF application unit 11L-A and the audio signal L output from the HRTF application unit 11L-B are added and then supplied to the earphone output control unit 14-2 to the earphone 2. It is output.
  • the audio signal R output from the HRTF application unit 11R-A and the audio signal R output from the HRTF application unit 11R-B are added and then supplied to the earphone output control unit 14-2 to the earphone 2. It is output.
  • the speaker selection unit 13 adjusts the gain of the audio signal and adjusts the volume of the sound output from the actual speaker according to the position of the sound source.
  • FIG. 18 is a diagram showing an example of gain adjustment.
  • a in FIG. 18 shows an example of gain adjustment by the speaker selection unit 13.
  • the gain adjustment by the speaker selection unit 13 is performed so that the gain becomes 100% when the object is in the vicinity of the position P1 and the gain is gradually lowered as the object moves away from the position P1.
  • FIG. 18 shows an example of gain adjustment by the gain adjusting unit 61.
  • the gain adjustment by the gain adjusting unit 61 is performed so that the gain is increased as the object approaches the position P2, and the gain becomes 100% when the object is in the vicinity of the position P2.
  • the position of the object approaches the position P2 from the position P1
  • the volume of the actual speaker fades out and the volume of the earphone 2 fades in.
  • the gain adjustment by the gain adjusting unit 61 is performed so as to gradually lower the gain as the distance from the position P2 increases.
  • C in FIG. 18 shows an example of gain adjustment by the gain adjusting unit 62.
  • the gain adjustment by the gain adjusting unit 62 is performed so that the gain is increased as the object approaches the position P3, and the gain becomes 100% when the object is in the vicinity of the position P3.
  • the volume of the sound output from the earphone 2 processed by the HRTF of the HRTF layer A fades out, and the HRTF of the HRTF layer B is used.
  • the volume of the processed sound will fade in.
  • Example of output control 3 It is also possible to include not only sound data and position information but also size information indicating the size of the sound source in the sound source information.
  • the sound of a large sound source is reproduced by sound image localization processing using HRTFs of multiple sound sources.
  • the sound of a large flying object contained in an image is reproduced by sound image localization processing using HRTFs of a plurality of sound sources.
  • FIG. 19 is a diagram showing an example of a sound source.
  • the sound source VS is set in the range including the position P1 and the position P2.
  • the sound source VS is reproduced by the sound image localization process using the HRTF of the sound source A1 set at the position P1 and the HRTF of the sound source A2 set at the position P2.
  • FIG. 20 is a diagram showing a configuration example of the sound processing device 1.
  • the size information of the sound source is input to the HRTF database 12 and the speaker selection unit 13 together with the position information.
  • the audio signal L of the sound source VS is supplied to the HRTF application unit 11L-A1 and the HRTF application unit 11L-A2, and the audio signal R is supplied to the HRTF application unit 11R-A1 and the HRTF application unit 11R-A2.
  • the convolution processing unit 11 includes an HRTF application unit 11L-A1 that performs convolution processing using the HRTF of the sound source A1, an HRTF application unit 11R-A1 that performs convolution processing, and an HRTF application unit 11L-A2 that performs convolution processing using the HRTF of the sound source A2.
  • the HRTF application unit 11R-A2 is provided.
  • the HRTF coefficient of the sound source A1 is supplied from the HRTF database 12.
  • the HRTF coefficient of the sound source A2 is supplied from the HRTF database 12.
  • the HRTF application unit 11L-A1 performs a filter process for applying the HRTF of the sound source A1 to the audio signal L, and outputs the filtered audio signal L.
  • the HRTF application unit 11R-A1 performs a filter process for applying the HRTF of the sound source A1 to the audio signal R, and outputs the filtered audio signal R.
  • the HRTF application unit 11L-A2 performs a filter process for applying the HRTF of the sound source A2 to the audio signal L, and outputs the filtered audio signal L.
  • the HRTF application unit 11R-A2 performs a filter process for applying the HRTF of the sound source A2 to the audio signal R, and outputs the filtered audio signal R.
  • the audio signal L output from the HRTF application unit 11L-A1 and the audio signal L output from the HRTF application unit 11L-A2 are added and then supplied to the earphone output control unit 14-2 to the earphone 2. It is output.
  • the audio signal R output from the HRTF application unit 11R-A1 and the audio signal R output from the HRTF application unit 11R-A2 are added and then supplied to the earphone output control unit 14-2 to the earphone 2. It is output.
  • the sound of a large sound source is reproduced by the sound image localization processing using the HRTFs of multiple sound sources.
  • HRTFs of three or more sound sources may be used for sound image localization processing.
  • a dynamic object may be used to reproduce the movement of a large sound source.
  • the crossfade processing as described above is appropriately performed.
  • a large sound source can be reproduced by sound image localization processing using multiple HRTFs in different HRTF layers, such as HRTFs in HRTF layer A and HRTFs in HRTF layer B. You may do it.
  • Example of output control 4 It is also possible to output the high-frequency sound from the earphone 2 and output the low-frequency sound from the actual speaker among the sounds of the movie.
  • a subwoofer provided as an actual speaker is used to output low-frequency sound.
  • FIG. 21 is a diagram showing a configuration example of the sound processing device 1.
  • the configuration of the sound processing device 1 shown in FIG. 21 is such that an HPF (High Pass Filter) 71 is provided in front of the convolution processing unit 11 and an LPF (Low Pass Filter) 72 is provided in front of the speaker selection unit 13. It is different from the configuration of FIG. Audio signals are supplied to the HPF71 and LPF72.
  • HPF High Pass Filter
  • LPF Low Pass Filter
  • the HPF71 extracts a high-frequency sound signal from the audio signal and outputs it to the convolution processing unit 11.
  • the LPF72 extracts a low-frequency sound signal from the audio signal and outputs it to the speaker selection unit 13.
  • the convolution processing unit 11 filters the signal supplied from the HPF 71 in each of the HRTF application unit 11L and the HRTF application unit 11R, and outputs the filtered audio signal.
  • the speaker selection unit 13 assigns the signal supplied from the LPF 72 to the subwoofer and outputs it.
  • step S31 the HRTF database 12 acquires the position information of the sound source.
  • step S32 the convolution processing unit 11 acquires a pair of HRTF coefficients according to the position of the sound source read from the HRTF database 12.
  • step S33 the HPF71 extracts a high frequency component signal from the audio signal. Further, the LPF 72 extracts a low frequency component signal from the audio signal.
  • step S34 the speaker selection unit 13 outputs the signal extracted by the LPF 72 to the actual speaker output control unit 14-1, and outputs the low-frequency sound from the subwoofer.
  • step S35 the convolution processing unit 11 performs convolution processing on the signal of the high frequency component extracted by the HPF71.
  • step S36 the earphone output control unit 14-2 transmits the audio signal after the convolution processing by the convolution processing unit 11 to the earphone 2, and outputs the high frequency sound.
  • FIG. 23 is a diagram showing a configuration example of a hybrid type acoustic system.
  • a hybrid type acoustic system is realized by combining the neckband speaker 101 and the speakers 103L and 103R, which are the built-in speakers of the TV 102.
  • the neckband speaker 101 is a shoulder-mounted output device described with reference to FIG. 4B.
  • the sound of the virtual sound source obtained by the sound image localization processing based on the HRTF is output from the neckband speaker 101.
  • the HRTF layer is shown in FIG. 23, a multi-layered HRTF layer is set around the user.
  • the sound of the object-based sound source and the sound of the channel-based sound source are output from the speakers 103L and 103R as the sound of the actual sound source.
  • an output device used for outputting the sound of the virtual sound source obtained by the sound image localization processing based on the HRTF various output devices prepared for each user and capable of outputting the sound to be heard by each user are provided. It can be used.
  • an output device used for outputting the sound of the actual sound source it is possible to use various output devices different from the actual speakers installed in the movie theater. Consumer theater speakers, smartphone or tablet speakers may be used to output the actual sound source.
  • the acoustic system realized by combining multiple types of output devices is called a hybrid acoustic system that allows users to hear customized sounds using HRTFs and common sounds for all users in the same space. You can also do it.
  • the number of users in the same space may be one as shown in FIG. 23 instead of multiple users.
  • a hybrid type acoustic system may be realized by using an in-vehicle speaker.
  • FIG. 24 is a diagram showing an example of the installation position of the in-vehicle speaker.
  • FIG. 24 shows the configuration around the driver's seat and the passenger seat of the car.
  • in-vehicle speakers are installed at various positions in the car such as around the dashboard in front of the driver's seat and the passenger seat, inside the car door, and inside the car ceiling. ..
  • the speaker SP21L and the speaker SP21R are provided above the backrest of the driver's seat, and the speaker SP22L and the speaker SP22R are provided above the backrest of the passenger seat.
  • Speakers are installed at each position in the same way behind the inside of the car.
  • the speaker provided in each seat is used to output the sound of the virtual sound source as an output device for the user sitting in that seat.
  • the speaker SP21L and the speaker SP21R are used to output sound to be heard by the user U sitting in the driver's seat, as shown by arrow # 51 in FIG.
  • Arrow # 51 indicates that the sound of the virtual sound source output from the speaker SP21L and the speaker SP21R is output to the user U sitting in the driver's seat.
  • the circle surrounding user U represents the HRTF layer. Only one HRTF layer is shown, but a multi-layered HRTF layer is set around the user.
  • the speaker SP22L and the speaker SP22R are used to output sound to be heard by a user sitting in the passenger seat.
  • the output device used for the output of the virtual sound source it is possible to use not only the output device worn by each user but also the output device installed around the user.
  • FIG. 26 is a diagram showing an example of a screen.
  • an acoustic transmission type screen in which an actual speaker can be installed on the back side may be installed, or as shown in B of FIG. 26, sound may be produced.
  • a direct-view type display that does not allow transmission may be installed.
  • the earphone 2 When a display that does not transmit sound is provided as the screen S, the earphone 2 is used to output the sound of the sound source existing at the position on the screen S, such as the voice of a character.
  • a head tracking function that detects the orientation of the user's face may be installed in an output device such as an earphone 2 used for outputting the sound of a virtual sound source.
  • the sound image localization process is performed so that the position of the sound image does not change even if the direction of the user's face changes.
  • an HRTF layer optimized for each listener and a commonly used HRTF (standard HRTF) layer may be provided.
  • HRTF optimization is performed, for example, by photographing the listener's ears with a camera and adjusting the standard HRTF based on the analysis results of the images obtained by the imaging.
  • the rear reverberation of the HRTF may be combined with the reverberation of the movie theater to blend the sound.
  • the reverberation with the audience and the reverberation without the audience may be switched.
  • the above-mentioned technology can also be applied to various content production sites such as movies, music, and games.
  • FIG. 27 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the sound processing device 1 is realized by a computer having a configuration as shown in FIG. 27.
  • the functional unit constituting the sound processing device 1 may be realized by a plurality of computers. For example, it is possible to realize a functional unit that controls the sound output to the actual speaker and a functional unit that controls the sound output to the earphone 2 in different computers.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the input / output interface 305 is further connected to the bus 304.
  • An input unit 306 including a keyboard, a mouse, and the like, and an output unit 307 including a display, a speaker, and the like are connected to the input / output interface 305.
  • the input / output interface 305 is connected to a storage unit 308 made of a hard disk, a non-volatile memory, etc., a communication unit 309 made of a network interface, etc., and a drive 310 for driving the removable media 311.
  • the CPU 301 loads the program stored in the storage unit 308 into the RAM 303 via the input / output interface 305 and the bus 304, and executes the above-mentioned series of processes. Is done.
  • the program executed by the CPU 301 is recorded on the removable media 311 or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting, and installed in the storage unit 308.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in the present specification, or processing is performed in parallel or at a necessary timing such as when a call is made. It may be a program to be performed.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • this technology can take a cloud computing configuration in which one function is shared by multiple devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • the output control unit outputs the sound of the virtual sound source from headphones capable of capturing external sound, which is the output device worn by each listener.
  • the content includes video data and sound data.
  • the output control unit outputs the sound of the virtual sound source whose sound source position is a position within a predetermined range from the position of the character included in the video from the headphones.
  • the output control unit outputs a sound having a sound source position at the same height as the height of the speaker from the speaker, and outputs a sound of the virtual sound source having a position different from the height of the speaker as the sound source position.
  • the information processing device according to (2) above which outputs sound from the headphones.
  • the output control unit outputs the sound of the virtual sound source whose sound source position is a position away from the speaker from the headphones.
  • a plurality of the virtual sound sources are arranged so that the layers of the virtual sound sources at the same distance from the reference position are multi-layered.
  • the information processing apparatus according to any one of (1) to (8), further comprising a storage unit for storing information of the transfer function with respect to the reference position in each virtual sound source.
  • each layer of the virtual sound source is configured by arranging a plurality of the virtual sound sources in a spherical shape.
  • the virtual sound sources in the same layer are arranged at equal intervals.
  • the plurality of layers of the virtual sound source include a layer of the virtual sound source whose transfer function is adjusted for each listener.
  • the information processing apparatus according to any one of (9) to (12) above, further comprising a sound image localization processing unit that applies the transfer function to the audio signal to be processed and generates the sound of the virtual sound source.
  • the sound image localization processing unit switches the sound output from the output device from the sound of the virtual sound source in a predetermined layer to the sound of the virtual sound source in another layer.
  • the output control unit outputs the sound of the virtual sound source of the predetermined layer and the sound of the virtual sound source of the other layer, which are generated based on the audio signal whose gain is adjusted, from the output device.
  • Information processing equipment The sound of a predetermined sound source that constitutes the audio of the content is output from the speaker installed in the listening space.
  • On the computer The sound of a predetermined sound source that constitutes the audio of the content is output from the speaker installed in the listening space.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、音源の距離感を適切に再現できるようにする情報処理装置、出力制御方法、およびプログラムに関する。 本技術の情報処理装置は、コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、音源位置に応じた伝達関数を用いた処理が行われることによって生成された、所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる。本技術は、映画館の音響システムに適用することができる。

Description

情報処理装置、出力制御方法、およびプログラム
 本技術は、特に、音源の距離感を適切に再現できるようにした情報処理装置、出力制御方法、およびプログラムに関する。
 音源から耳への音の伝わり方を数学的に表現する頭部伝達関数(HRTF:Head-Related Transfer Function)を用いて、ヘッドホンにおける音像を立体的に再現する技術がある。
 例えば、特許文献1には、ダミーヘッドを用いて測定したHRTFを利用して、立体音響を再生する技術が開示されている。
特開2009-260574号公報
 HRTFを用いることにより音像を立体的に再現することが可能であるが、聴取者に近づく音、聴取者から遠ざかる音などの、距離が変化する音像を再現することができない。
 本技術はこのような状況に鑑みてなされたものであり、音源の距離感を適切に再現できるようにするものである。
 本技術の一側面の情報処理装置は、コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる出力制御部を備える。
 本技術の一側面においては、コンテンツのオーディオを構成する所定の音源の音が聴取空間に設置されたスピーカから出力され、音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音が、それぞれの聴取者用の出力デバイスから出力される。
本技術の一実施形態に係る音響処理システムの構成例を示す図である。 音像定位処理の原理を示す図である。 イヤホンの外観を示す図である。 出力デバイスの例を示す図である。 HRTFデータベースに格納されるHRTFの例を示す図である。 HRTFデータベースに格納されるHRTFの例を示す図である。 音の再現の例を示す図である。 映画館内の実スピーカのレイアウトの例を示す平面図である。 映画館内の音源の概念を示す図である。 映画館内での視聴の様子の例を示す図である。 音響処理装置の構成例を示す図である。 図11の構成を有する音響処理装置の再生処理について説明するフローチャートである。 動的オブジェクトの例を示す図である。 音響処理装置の構成例を示す図である。 図14の構成を有する音響処理装置の再生処理について説明するフローチャートである。 動的オブジェクトの例を示す図である。 音響処理装置の構成例を示す図である。 ゲイン調整の例を示す図である。 音源の例を示す図である。 音響処理装置の構成例を示す図である。 音響処理装置の構成例を示す図である。 図21の構成を有する音響処理装置の再生処理について説明するフローチャートである。 ハイブリッド型の音響システムの構成例を示す図である。 車載スピーカの設置位置の例を示す図である。 仮想音源の例を示す図である。 スクリーンの例を示す図である。 コンピュータの構成例を示すブロック図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.音像定位処理について
 2.多層HRTF
 3.音響処理システムの適用例
 4.変形例
 5.その他の例
<音像定位処理について>
 図1は、本技術の一実施形態に係る音響処理システムの構成例を示す図である。
 図1の音響処理システムは、音響処理装置1と、オーディオの聴取者としてのユーザUが装着するイヤホン(インナーイヤーヘッドホン)2により構成される。イヤホン2を構成する左側ユニット2LはユーザUの左耳に装着され、右側ユニット2Rは右耳に装着される。
 音響処理装置1とイヤホン2は、ケーブルを介して有線によって、または、無線LANやBluetooth(登録商標)などの所定の規格の通信を介して無線によって接続される。ユーザUが持つスマートフォンなどの携帯端末を介して、音響処理装置1とイヤホン2の間の通信が行われるようにしてもよい。音響処理装置1に対しては、コンテンツを再生することによって得られたオーディオ信号が入力される。
 例えば、映画のコンテンツを再生することによって得られたオーディオ信号が音響処理装置1に入力される。映画のオーディオ信号には、音声、BGM、環境音などの各種の音の信号が含まれる。オーディオ信号は、左耳用の信号であるオーディオ信号Lと右耳用の信号であるオーディオ信号Rにより構成される。
 音響処理システムにおいて処理対象となるオーディオ信号の種類は、映画のオーディオ信号に限定されるものではない。音楽のコンテンツを再生して得られた音、ゲームのコンテンツを再生して得られた音、音声メッセージ、チャイムやブザー音等の電子音などの、様々な種類の音の信号が処理対象として用いられる。以下、適宜、ユーザUが聴く音が音声であるものとして説明するが、音声以外の種類の音をユーザUは聴くことになる。映画の音、ゲームのコンテンツを再生して得られた音などの上述した各種の音を、ここでは音声として説明する。
 音響処理装置1は、映画の音声が、図1の右側に破線で示す左仮想スピーカVSLと右仮想スピーカVSRの位置から放音されたものとして聴こえるように、入力されたオーディオ信号に対して処理を施す。すなわち、音響処理装置1は、イヤホン2から出力される音の音像を、左仮想スピーカVSLと右仮想スピーカVSRからの音として感じるように定位させる。
 左仮想スピーカVSLと右仮想スピーカVSRを区別しない場合、まとめて仮想スピーカVSという。図1の例においては、仮想スピーカVSの位置がユーザUの前方の位置であり、その数が2つとされているが、仮想スピーカVSに相当する仮想音源の位置と数は、映画の進行に応じて適宜変化する。
 音響処理装置1の畳み込み処理部11は、このような音声を出力させるための音像定位処理をオーディオ信号に対して施し、音像定位処理後のオーディオ信号Lとオーディオ信号Rを、それぞれ左側ユニット2Lと右側ユニット2Rに出力する。
 図2は、音像定位処理の原理を示す図である。
 所定のリファレンス環境において、ダミーヘッドDHの位置が聴取者の位置として設定される。ダミーヘッドDHの左耳部分と右耳部分にはマイクロフォンが設けられる。また、音像を定位させようとする左右の仮想スピーカの位置に、左実スピーカSPLと右実スピーカSPRが設置される。実スピーカは、実際に設置されているスピーカである。
 左実スピーカSPLと右実スピーカSPRから出力された音がダミーヘッドDHの両耳部分において収音され、左実スピーカSPLと右実スピーカSPRから出力された音がダミーヘッドDHの両耳部分に到達したときの特性の変化を示す伝達関数(HRTF:Head-related transfer function)が予め測定される。なお、ダミーヘッドDHを用いずに、実際に人間を座らせ、その耳近傍にマイクを置いて伝達関数の測定が行われるようにしてもよい。
 ここで、図2に示すように、左実スピーカSPLからダミーヘッドDHの左耳までの音の伝達関数がM11であり、左実スピーカSPLからダミーヘッドDHの右耳までの音の伝達関数がM12であるとする。また、右実スピーカSPRからダミーヘッドDHの左耳までの音の伝達関数がM21であり、右実スピーカSPRからダミーヘッドDHの右耳までの音の伝達関数がM22であるとする。
 図1のHRTFデータベース12には、このようにして予め測定された伝達関数であるHRTFの情報(HRTFを表す係数の情報)が格納されている。HRTFデータベース12は、HRTFの情報を記憶する記憶部として機能する。
 畳み込み処理部11は、映画の音声の出力時、左仮想スピーカVSLと右仮想スピーカVSRの位置に応じたHRTFの係数のペアをHRTFデータベース12から読み出して取得し、フィルタ21乃至24に設定する。
 フィルタ21は、オーディオ信号Lに伝達関数M11を適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Lを加算部25に出力する。フィルタ22は、オーディオ信号Lに伝達関数M12を適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Lを加算部26に出力する。
 フィルタ23は、オーディオ信号Rに伝達関数M21を適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Rを加算部25に出力する。フィルタ24は、オーディオ信号Rに伝達関数M22を適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Rを加算部26に出力する。
 左チャンネル用の加算部である加算部25は、フィルタ21によるフィルタ処理後のオーディオ信号Lと、フィルタ23によるフィルタ処理後のオーディオ信号Rを加算し、加算後のオーディオ信号を出力する。加算後のオーディオ信号がイヤホン2に対して送信され、オーディオ信号に応じた音がイヤホン2の左側ユニット2Lから出力される。
 右チャンネル用の加算部である加算部26は、フィルタ22によるフィルタ処理後のオーディオ信号Lと、フィルタ24によるフィルタ処理後のオーディオ信号Rを加算し、加算後のオーディオ信号を出力する。加算後のオーディオ信号がイヤホン2に対して送信され、オーディオ信号に応じた音がイヤホン2の右側ユニット2Rから出力される。
 このように、音響処理装置1は、音像を定位させようとする位置に応じたHRTFを用いた畳み込み処理をオーディオ信号に対して施し、イヤホン2からの音の音像が仮想スピーカVSから放音されたものとしてユーザUが感じるように定位させる。
 図3は、イヤホン2の外観を示す図である。
 図3の吹き出しに拡大して示すように、右側ユニット2Rは、ドライバユニット31とリング状の装着部33が、U字状の音導管32を介して接合されることによって構成される。右側ユニット2Rは、装着部33を外耳孔の周りに押し当て、装着部33とドライバユニット31とで右耳を挟むようにして装着される。
 左側ユニット2Lも右側ユニット2Rと同じ構成を有している。左側ユニット2Lと右側ユニット2Rは有線または無線で接続される。
 右側ユニット2Rのドライバユニット31は、音響処理装置1から送信されてきたオーディオ信号を受信し、オーディオ信号に応じた音を、矢印#1に示すように音導管32の先端から出力させる。音導管32と装着部33の接合部には、外耳孔に向けて音を出力する孔部が形成されている。
 装着部33はリング状の形状を有している。外耳孔には、音導管32の先端から出力されたコンテンツの音とともに、矢印#2に示すように周囲の音も到達することになる。
 このように、イヤホン2は、耳穴を密閉しない、いわゆるオープンイヤー型(開放型)のイヤホンである。コンテンツの音を聴くことに用いられる出力デバイスとして、イヤホン2以外のデバイスが用いられるようにしてもよい。
 図4は、出力デバイスの例を示す図である。
 コンテンツの音を聴くことに用いられる出力デバイスとして、図4のAに示すような密閉型のヘッドホン(オーバーイヤーヘッドホン)が用いられる。例えば図4のAに示すヘッドホンは、外音取り込みの機能が搭載されているヘッドホンである。
 また、コンテンツの音を聴くことに用いられる出力デバイスとして、図4のBに示すような肩載せ型のネックバンドスピーカが用いられる。ネックバンドスピーカを構成する左右のユニットにはスピーカが設けられており、ユーザの耳に向けて音が出力される。
 イヤホン2、図4のAのヘッドホン、図4のBのネックバンドスピーカといったように、外音の取り込みが可能な出力デバイスがコンテンツの音声の聴取に用いられるようにすることが可能である。
<多層HRTF>
 図5および図6は、HRTFデータベース12に格納されるHRTFの例を示す図である。
 HRTFデータベース12には、基準となるダミーヘッドDHの位置を中心として全天球状に配置されたそれぞれの音源におけるHRTFの情報が格納される。
 図6のA,Bに分けて示すように、ダミーヘッドDHの位置Oを中心として距離bだけ離れた位置に、全天球状に複数の音源が配置されるとともに、距離a(a>b)だけ離れた位置に、全天球状に複数の音源が配置される。これにより、位置Oを中心として距離bだけ離れた位置にある音源の層と、距離aだけ離れた位置にある音源の層とが構成される。例えば、同じ層の音源は等間隔に配置される。
 このようにして配置されたそれぞれの音源におけるHRTFが測定されることにより、全天球状のHRTFの層であるHRTF層BとHRTF層Aが構成される。HRTF層Aが外側のHRTFの層となり、HRTF層Bが内側のHRTFの層となる。
 図5、図6において、例えば、緯線と経線の各交点が音源位置を表す。ある音源位置のHRTFは、その位置からのインパルス応答をダミーヘッドDHの両耳の位置で測定し、周波数軸上で表現することで求められる。
 HRTFの取得方法としては、以下の手法が考えられる。
 1.実スピーカを各音源位置に配置し、一回の測定で取得する方法
 2.実スピーカを距離を変えて配置し、複数回の測定で取得する方法
 3.音響シミュレーションにより取得する方法
 4.一方のHRTF層については実スピーカを用いて測定し、他方のHRTF層については推定することによって取得する方法
 5.機械学習によって予め用意された推論モデルを用いて、耳の画像から推定することによって取得する方法
 HRTFが多層に用意されることにより、音響処理装置1は、音像定位処理(畳み込み処理)に用いるHRTFをHRTF層AのHRTFからHRTF層BのHRTFに切り替えたり、HRTF層BのHRTFからHRTF層AのHRTFに切り替えたりすることが可能となる。HRTFを切り替えることにより、ユーザUに近づく音や、遠ざかる音の再現が可能となる。
 図7は、音の再現の例を示す図である。
 矢印#11は、ユーザUの上方にある物体が落ちてくる音を表し、矢印#12は、ユーザUの前方にある物体が近づいてくる音を表す。これらの音は、音像定位処理に用いるHRTFをHRTF層AのHRTFからHRTF層BのHRTFに切り替えることによって再現される。
 また、矢印#13は、ユーザUの近くにある物体が足元に落ちる音を表し、矢印#14は、ユーザUの後方の足元で移動物体が離れる音を表す。これらの音は、音像定位処理に用いるHRTFをHRTF層BのHRTFからHRTF層AのHRTFに切り替えることによって再現される。
 このように、音響処理装置1は、音像定位処理に用いるHRTFを、あるHRTF層のHRTFから他のHRTF層のHRTFに切り替えることにより、従来のVAD(Virtual Auditory Display)システムなどでは再現できない、奥行き方向に動く様々な音を再現することが可能となる。
 また、全天球状に配置された各音源位置のHRTFが用意されるため、ユーザUの上方で動く音だけでなく、下方で動く音を再現することも可能となる。
 以上においては、HRTF層の形状が全天球状(球体状)であるものとしたが、半天球状であってもよいし、球体以外の異なる形状であってもよい。例えば、基準となる位置を囲むように楕円形状や立方体状に音源が配置され、多層のHRTF層が構成されるようにしてもよい。すなわち、1つのHRTF層を構成するHRTFの音源を全て中心から同じ距離の位置に配置するのではなく、異なる距離の位置に配置することも可能である。
 外側のHRTF層と内側のHRTF層が同じ形状であるものとしたが、それぞれ異なる形状であってもよい。
 多層のHRTF層が2層で構成されるものとしたが、3層以上のHRTF層が設けられるようにしてもよい。それぞれのHRTF層の間隔は同じ間隔であってもよいし、それぞれ異なる間隔であってもよい。
 HRTF層の中心位置がユーザUの位置であるものとしたが、ユーザUの位置から水平方向および垂直方向にずれた位置を中心位置としてHRTF層が設定されるようにしてもよい。
 なお、多層のHRTF層を用いて再現される音だけを聴く場合には、外音の取り込み機能のないヘッドホンなどの出力デバイスを用いることが可能である。
 すなわち、出力デバイスの組み合わせとして以下のような組み合わせが可能である。
 1.HRTF層AのHRTFを用いて再現された音と、HRTF層BのHRTFを用いて再現された音の両方の音の出力デバイスとして密閉型のヘッドホンを用いる。
 2.HRTF層AのHRTFを用いて再現された音と、HRTF層BのHRTFを用いて再現された音の両方の音の出力デバイスとして開放型のイヤホン(イヤホン2)を用いる。
 3.HRTF層AのHRTFを用いて再現された音の出力デバイスとして実スピーカを用い、HRTF層BのHRTFを用いて再現された音の出力デバイスとして開放型のイヤホンを用いる。
<音響処理システムの適用例>
・映画館の音響システム
 図1の音響処理システムは、例えば、映画館の音響システムに適用される。映画の音声の出力には、観客として座席に座っているそれぞれのユーザが装着するイヤホン2だけでなく、映画館内の所定の位置に設置された実スピーカも用いられる。
 図8は、映画館内の実スピーカのレイアウトの例を示す平面図である。
 図8に示すように、映画館の正面に設置されたスクリーンSの裏側には実スピーカSP1乃至SP5が設けられる。スクリーンSの裏側にはサブウーファーなどの実スピーカも設けられる。
 破線#21,#22,#23で囲んで示すように、映画館の左右の壁面と背面の壁面にも、それぞれ実スピーカが設置される。図8において、壁面を表す直線に沿って示される正方形状の小さな矩形はそれぞれ実スピーカを表す。
 上述したように、イヤホン2は外音の取り込みが可能なイヤホンである。それぞれのユーザは、イヤホン2から出力される音声とともに、実スピーカから出力される音声を聴くことになる。
 映画の音声のうち、所定の音源の音声がイヤホン2から出力され、他の音源の音声が実スピーカから出力されるといったように、音源の種類などに応じて、音声の出力先が制御される。
 例えば、映像に含まれるキャラクタの音声がイヤホン2から出力され、環境音が実スピーカから出力される。
 図9は、映画館内の音源の概念を示す図である。
 図9に示すように、ユーザの周りには、スクリーンSの裏や壁面に設置された実スピーカとともに、多層のHRTFにより再現される仮想音源が音源として設けられることになる。図9においてHRTF層A,Bを示す円に沿って破線で示すスピーカが、HRTFに基づいて再現される仮想音源を示す。図9には、映画館内に設定された座標の原点位置の座席に座っているユーザを中心とした仮想音源が示されているが、他の位置の座席に座っているそれぞれのユーザの周りにも、多層のHRTFを用いて仮想音源が同様にして再現される。
 これにより、図10に示すように、イヤホン2を装着して映画を視聴しているそれぞれのユーザは、実スピーカSP1,SP5を含むそれぞれの実スピーカから出力される環境音などの音声とともに、HRTFに基づいて再現された仮想音源の音声を聴くことになる。
 図10において、色付きの円C1乃至C4を含む、イヤホン2を装着しているユーザの周りにある様々なサイズの円は、HRTFに基づいて再現される仮想音源を表す。
 このように、図1の音響処理システムにより、映画館内に設置された実スピーカと、それぞれのユーザが装着するイヤホン2とを用いて音声の出力が行われる、ハイブリッド型の音響システムが実現される。
 開放型のイヤホン2と実スピーカを組み合わせることにより、それぞれの観客に最適化して聴かせる音と、観客全員に共通に聴かせる音とをそれぞれ制御することが可能となる。それぞれの観客に最適化して聴かせる音の出力にはイヤホン2が用いられ、観客全員に共通に聴かせる音の出力には実スピーカが用いられる。
 以下、適宜、実スピーカから出力される音を、実際に設置されているスピーカから出力される音という意味で実音源の音という。イヤホン2から出力される音は、HRTFに基づいて仮想的に設定された音源の音であるから仮想音源の音となる。
・音響処理装置1の基本的な構成と動作
 図11は、ハイブリッド型の音響システムを実現する情報処理装置としての音響処理装置1の構成例を示す図である。
 図11に示す構成のうち、図1を参照して説明した構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 音響処理装置1は、畳み込み処理部11、HRTFデータベース12、スピーカ選択部13、および出力制御部14により構成される。音響処理装置1に対しては、それぞれの音源の情報である音源情報が入力される。音源情報には、音データと位置情報が含まれる。
 音の波形データである音データは、畳み込み処理部11とスピーカ選択部13に供給される。位置情報は、音源位置の3次元空間内における座標を表す。位置情報はHRTFデータベース12とスピーカ選択部13に供給される。このように、例えば、それぞれの音源の情報が音データと位置情報のセットとして構成されるオブジェクトベースのオーディオデータが音響処理装置1に対して入力される。
 畳み込み処理部11は、HRTF適用部11LとHRTF適用部11Rにより構成される。HRTF適用部11LとHRTF適用部11Rに対しては、HRTFデータベース12から読み出された、音源の位置に応じたHRTFの係数のペア(L用の係数とR用の係数のペア)が設定される。音源毎に畳み込み処理部11が用意される。
 HRTF適用部11Lは、オーディオ信号Lに対してHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Lを出力制御部14に出力する。HRTF適用部11Rは、オーディオ信号Rに対してHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Rを出力制御部14に出力する。
 HRTF適用部11Lは、図1のフィルタ21、フィルタ22、および加算部25により構成され、HRTF適用部11Rは、図1のフィルタ23、フィルタ24、および加算部26により構成される。畳み込み処理部11は、処理対象のオーディオ信号に対してHRTFを適用することによって音像定位処理を行う音像定位処理部として機能する。
 HRTFデータベース12は、位置情報に基づいて、音源の位置に応じたHRTFの係数のペアを畳み込み処理部11に出力する。位置情報により、HRTF層Aを構成するHRTF、または、HRTF層Bを構成するHRTFが特定される。
 スピーカ選択部13は、位置情報に基づいて、音声の出力に用いる実スピーカを選択する。スピーカ選択部13は、選択した実スピーカから出力させるオーディオ信号を生成し、出力制御部14に出力する。
 出力制御部14は、実スピーカ出力制御部14-1とイヤホン出力制御部14-2により構成される。
 実スピーカ出力制御部14-1は、スピーカ選択部13から供給されたオーディオ信号を選択された実スピーカに出力し、実音源の音として出力させる。
 イヤホン出力制御部14-2は、畳み込み処理部11から供給されたオーディオ信号Lとオーディオ信号Rを、それぞれのユーザが装着するイヤホン2に送信し、仮想音源の音を出力させる。
 このような構成を有する音響処理装置1を実現するコンピュータが、例えば映画館内の所定の位置に設置される。
 図12のフローチャートを参照して、図11の構成を有する音響処理装置1の再生処理について説明する。
 ステップS1において、HRTFデータベース12とスピーカ選択部13は、音源の位置情報を取得する。
 ステップS2において、スピーカ選択部13は、音源の位置に応じたスピーカ情報を取得する。実スピーカの特性の情報などが取得される。
 ステップS3において、畳み込み処理部11は、HRTFデータベース12から読み出された、音源の位置に応じたHRTFの係数のペアを取得する。
 ステップS4において、スピーカ選択部13は、実スピーカに対するオーディオ信号の割り振りを行う。オーディオ信号の割り振りは、音源の位置と実スピーカの設置位置などに基づいて行われる。
 ステップS5において、実スピーカ出力制御部14-1は、スピーカ選択部13による割り振りに従って、オーディオ信号に対応する音を実スピーカから実音源の音として出力させる。
 ステップS6において、畳み込み処理部11は、オーディオ信号に対する畳み込み処理をHRTFに基づいて行い、畳み込み処理後のオーディオ信号を出力制御部14に出力する。
 ステップS7において、イヤホン出力制御部14-2は、畳み込み処理後のオーディオ信号をイヤホン2に送信し、仮想音源の音を出力させる。
 以上の処理が、映画のオーディオを構成する各音源の1サンプル毎に繰り返される。各サンプルの処理においては、HRTFの係数のペアが音源の位置情報に応じて適宜更新される。なお、映画のコンテンツには、音のデータとともに映像のデータが含まれる。映像のデータについては、他の処理部において処理が行われる。
 以上の処理により、音響処理装置1は、それぞれの観客に最適化して聴かせる音と、観客全員に共通に聴かせる音とをそれぞれ制御し、音源の距離感を適切に再現することが可能となる。
 例えば、図13の矢印#31に示すように映画館内の絶対座標を基準に動くオブジェクトを想定した場合、そのオブジェクトの音をイヤホン2から出力させることにより、同じコンテンツであっても座席の位置によってユーザ体験を変えることが可能となる。
 図13の例においては、スクリーンS上の位置である位置P1から映画館の後方の位置P2まで動くオブジェクトが設定されている。各タイミングにおけるオブジェクトの絶対座標における位置が、各ユーザの座席の位置を基準とした位置に変換され、変換後の位置に応じたHRTF(HRTF層AのHRTFまたはHRTF層BのHRTF)が、各ユーザのイヤホン2から出力させる音の音像定位処理に用いられる。
 映画館の前方右側の位置P11にある座席に座っているユーザAにとっては、イヤホン2から出力される音を聴くことによって、オブジェクトが左斜め前方から後方に移動するように感じることになる。また、映画館の後方左側の位置P12にある座席に座っているユーザBにとっては、イヤホン2から出力される音を聴くことによって、オブジェクトが正面から右斜め後方に移動するように感じることになる。
 多層のHRTFを用いることにより、または、音声の出力デバイスとして開放型のイヤホンと実スピーカを用いることにより、音響処理装置1は、以下のような出力の制御が可能となる。
 1.映像に含まれるキャラクタの音声をイヤホン2から出力させ、環境音を実スピーカから出力させるような制御
 この場合、音響処理装置1は、キャラクタのスクリーンS上の位置から所定の範囲内の位置を音源位置とする音声をイヤホン2から出力させる。
 2.映画館の中空に存在する音をイヤホン2から出力させ、ベッドチャンネルに含まれる環境音を実スピーカから出力させるような制御
 この場合、音響処理装置1は、実スピーカの位置から所定の範囲内の位置を音源位置とする音源の音を実スピーカから出力させ、その範囲を超えて、実スピーカから離れた位置を音源位置とする仮想音源の音をイヤホン2から出力させる。
 3.音源の位置が動く動的オブジェクトの音をイヤホン2から出力させ、音源の位置が固定の静的オブジェクトの音を実スピーカから出力させるような制御
 4.環境音やBGMなどの、観客全員に共通に聴かせる音を実スピーカから出力させ、言語が異なる音声、座席位置に応じて音源の方向を変えて聴かせる音などの、ユーザ毎に最適化して聴かせる音をイヤホン2から出力させるような制御
 5.実スピーカが設置された位置を含む水平面内に存在する音を実スピーカから出力させ、上記水平面から鉛直方向にずれた位置に存在する音をイヤホン2から出力させるような制御
 この場合、音響処理装置1は、実スピーカの高さと同じ高さの位置を音源位置とする音源の音を実スピーカから出力させ、実スピーカの高さと異なる高さの位置を音源位置とする仮想音源の音をイヤホン2から出力させる。例えば、実スピーカの高さを基準として所定の範囲の高さが、実スピーカの高さと同じ高さとして設定される。
 6.映画館内に存在するオブジェクトの音を実スピーカから出力させ、映画館の壁面の外側の位置や天井の外側の上方の位置に存在するオブジェクトの音をイヤホン2から出力させるような制御
 このように、音響処理装置1は、映画のオーディオを構成する所定の音源の音を実スピーカから出力させ、それとは異なる音源の音を仮想音源の音としてイヤホン2から出力させる各種の制御を行うことができる。
・出力制御の例1
 映画のオーディオにベッドチャンネルの音とオブジェクトの音が含まれる場合、ベッドチャンネルの音の出力に実スピーカを用い、オブジェクトの音の出力にイヤホン2を用いることが可能である。すなわち、チャンネルベースの音源の音の出力に実スピーカが用いられ、オブジェクトベースの仮想音源の音の出力にイヤホン2が用いられる。
 図14は、音響処理装置1の構成例を示す図である。
 図14に示す構成のうち、図11を参照して説明した構成と同じ構成には同じ符号を付してある。重複する説明については省略する。後述する図17等においても同様である。
 図14に示す構成は、制御部51が設けられるとともに、スピーカ選択部13に代えてベッドチャンネル処理部52が設けられる点で図11に示す構成と異なる。ベッドチャンネル処理部52に対しては、音源の位置情報として、その音源の音をどの実スピーカから出力させるのかを表すベッドチャンネル情報が供給される。
 制御部51は、音響処理装置1の各部の動作を制御する。例えば、制御部51は、音響処理装置1に入力された音源情報の属性情報に基づいて、入力された音源の音を実スピーカから出力させるのか、イヤホン2から出力させるのかを制御する。
 ベッドチャンネル処理部52は、ベッドチャンネル情報に基づいて、音の出力に用いる実スピーカを選択する。Left,Center,Right,Left Surround,Right Surround,・・・の各実スピーカの中から、音の出力に用いる実スピーカが特定される。
 図15のフローチャートを参照して、図14の構成を有する音響処理装置1の再生処理について説明する。
 ステップS11において、制御部51は、処理対象の音源の属性情報を取得する。
 ステップS12において、制御部51は、処理対象の音源がオブジェクトベースの音源であるか否かを判定する。
 処理対象の音源がオブジェクトベースの音源であるとステップS12において判定された場合、仮想音源の音をイヤホン2から出力させるための図12を参照して説明した処理と同様の処理が行われる。
 すなわち、ステップS13において、HRTFデータベース12は、音源の位置情報を取得する。
 ステップS14において、畳み込み処理部11は、HRTFデータベース12から読み出された、音源の位置に応じたHRTFの係数のペアを取得する。
 ステップS15において、畳み込み処理部11は、オブジェクトベースの音源のオーディオ信号に対して畳み込み処理を行い、畳み込み処理後のオーディオ信号を出力制御部14に出力する。
 ステップS16において、イヤホン出力制御部14-2は、畳み込み処理後のオーディオ信号をイヤホン2に送信し、仮想音源の音を出力させる。
 一方、処理対象の音源がオブジェクトベースの音源ではなく、チャンネルベースの音源であるとステップS12において判定された場合、ステップS17において、ベッドチャンネル処理部52は、ベッドチャンネル情報を取得する、また、ベッドチャンネル処理部52は、音の出力に用いる実スピーカをベッドチャンネル情報に基づいて特定する。
 ステップS18において、実スピーカ出力制御部14-1は、ベッドチャンネル処理部52から供給されたベッドチャンネルのオーディオ信号を実スピーカに出力し、実音源の音として出力させる。
 ステップS16またはステップS18において1サンプルの音の出力が行われた後、ステップS11以降の処理が繰り返される。
 チャンネルベースの音源の音だけでなく、オブジェクトベースの音源の音の出力に実スピーカが用いられるようにすることも可能である。この場合、ベッドチャンネル処理部52とともに、図11のスピーカ選択部13が音響処理装置1に設けられる。
・出力制御の例2
 図16は、動的オブジェクトの例を示す図である。
 矢印#41に示すように、スクリーンSの近傍の位置P1から、原点位置の座席に座るユーザに向かって移動する動的オブジェクトを想定する。時刻t1のタイミングで移動を開始する動的オブジェクトの軌跡とHRTF層Aは、位置P2において時刻t2のタイミングで交差する。また、動的オブジェクトの軌跡とHRTF層Bは、位置P3において時刻t3のタイミングで交差する。
 動的オブジェクトの音の出力は、音源位置が位置P1の近くに存在する場合には、主に、位置P1の近傍にある実スピーカからの音が聴こえるようにして行われ、音源位置が位置P2,P3の近くに存在する場合には、主に、イヤホン2からの音が聴こえるようにして行われる。
 また、動的オブジェクトの音の出力は、音源位置が位置P2の近くに存在する場合、位置P2に対応するHRTF層AのHRTFを用いた音像定位処理によって生成された音がイヤホン2から主に聴こえるようにして行われる。同様に、動的オブジェクトの音の出力は、音源位置が位置P3の近くに存在する場合、位置P3に対応するHRTF層BのHRTFを用いた音像定位処理によって生成された音がイヤホン2から主に聴こえるようにして行われる。
 このように、動的オブジェクトの音を再現する場合、動的オブジェクトの位置に応じて、音の出力に用いるデバイスが実スピーカからイヤホン2に切り替えられる。また、イヤホン2から出力させる音の音像定位処理に用いるHRTFが、あるHRTF層のHRTFから他のHRTF層のHRTFに切り替えられる。
 このような切り替えが生じる前の音と後の音をつなぎ合わせるために、クロスフェード処理がそれぞれの音に対して施される。
 図17は、音響処理装置1の構成例を示す図である。
 図17に示す構成は、畳み込み処理部11の前段にゲイン調整部61とゲイン調整部62が設けられる点で、図11の構成と異なる。ゲイン調整部61とゲイン調整部62に対しては、オーディオ信号と音源の位置情報が供給される。
 ゲイン調整部61とゲイン調整部62は、それぞれ、オーディオ信号のゲインを音源の位置に応じて調整する。ゲイン調整部61によりゲインが調整されたオーディオ信号LはHRTF適用部11L-Aに供給され、オーディオ信号RはHRTF適用部11R-Aに供給される。また、ゲイン調整部62によりゲインが調整されたオーディオ信号LはHRTF適用部11L-Bに供給され、オーディオ信号RはHRTF適用部11R-Bに供給される。
 畳み込み処理部11には、HRTF層AのHRTFを用いて畳み込み処理を行うHRTF適用部11L-AとHRTF適用部11R-A、HRTF層BのHRTFを用いて畳み込み処理を行うHRTF適用部11L-BとHRTF適用部11R-Bが設けられる。HRTF適用部11L-AとHRTF適用部11R-Aに対しては、音源の位置に応じたHRTF層AのHRTFの係数がHRTFデータベース12から供給される。HRTF適用部11L-BとHRTF適用部11R-Bに対しても同様に、音源の位置に応じたHRTF層BのHRTFの係数がHRTFデータベース12から供給される。
 HRTF適用部11L-Aは、ゲイン調整部61から供給されたオーディオ信号Lに対して、HRTF層AのHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Lを出力する。
 HRTF適用部11R-Aは、ゲイン調整部61から供給されたオーディオ信号Rに対して、HRTF層AのHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Rを出力する。
 HRTF適用部11L-Bは、ゲイン調整部62から供給されたオーディオ信号Lに対して、HRTF層BのHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Lを出力する。
 HRTF適用部11R-Bは、ゲイン調整部62から供給されたオーディオ信号Rに対して、HRTF層BのHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Rを出力する。
 HRTF適用部11L-Aから出力されたオーディオ信号LとHRTF適用部11L-Bから出力されたオーディオ信号Lは、加算された後、イヤホン出力制御部14-2に供給され、イヤホン2に対して出力される。HRTF適用部11R-Aから出力されたオーディオ信号RとHRTF適用部11R-Bから出力されたオーディオ信号Rは、加算された後、イヤホン出力制御部14-2に供給され、イヤホン2に対して出力される。
 スピーカ選択部13は、オーディオ信号のゲインを調整し、実スピーカから出力させる音の音量を音源の位置に応じて調整する。
 図18は、ゲイン調整の例を示す図である。
 図18のAは、スピーカ選択部13によるゲイン調整の例を示す。スピーカ選択部13によるゲイン調整は、オブジェクトが位置P1の近傍に存在する場合にゲインが100%となり、位置P1から離れるにつれて徐々にゲインを下げるようにして行われる。
 図18のBは、ゲイン調整部61によるゲイン調整の例を示す。ゲイン調整部61によるゲイン調整は、オブジェクトが位置P2に近づくにつれてゲインを上げ、位置P2の近傍に存在する場合にゲインが100%となるようにして行われる。これにより、オブジェクトの位置が位置P1から位置P2に近づくに従って、実スピーカの音量がフェードアウトし、イヤホン2の音量がフェードインすることになる。
 また、ゲイン調整部61によるゲイン調整は、位置P2から離れるにつれて徐々にゲインを下げるようにして行われる。
 図18のCは、ゲイン調整部62によるゲイン調整の例を示す。ゲイン調整部62によるゲイン調整は、オブジェクトが位置P3に近づくにつれてゲインを上げ、位置P3の近傍に存在する場合にゲインが100%となるようにして行われる。これにより、オブジェクトの位置が位置P2から位置P3に近づくに従って、イヤホン2から出力される、HRTF層AのHRTFを用いて処理が行われた音の音量がフェードアウトし、HRTF層BのHRTFを用いて処理が行われた音の音量がフェードインすることになる。
 このように動的オブジェクトの音をクロスフェードさせることにより、出力デバイスの切り替え時や音像定位処理に用いるHRTFの切り替え時における切り替え前後の音を自然な形で繋ぐことが可能となる。
・出力制御の例3
 音データと位置情報だけでなく、音源のサイズを表すサイズ情報が音源情報に含まれるようにすることも可能である。サイズが大きい音源の音は、複数の音源のHRTFを用いた音像定位処理によって再現される。例えば、映像に含まれる大きな飛行物体の音が、複数の音源のHRTFを用いた音像定位処理によって再現される。
 図19は、音源の例を示す図である。
 図19に色を付して示すように、位置P1と位置P2を含む範囲に音源VSが設定されているものとする。この場合、HRTF層AのHRTFのうち、位置P1に設定された音源A1のHRTFと位置P2に設定された音源A2のHRTFを用いた音像定位処理によって、音源VSが再現される。
 図20は、音響処理装置1の構成例を示す図である。
 図20に示すように、音源のサイズ情報が位置情報とともにHRTFデータベース12とスピーカ選択部13に入力される。音源VSのオーディオ信号Lは、HRTF適用部11L-A1とHRTF適用部11L-A2に供給され、オーディオ信号RはHRTF適用部11R-A1とHRTF適用部11R-A2に供給される。
 畳み込み処理部11には、音源A1のHRTFを用いて畳み込み処理を行うHRTF適用部11L-A1とHRTF適用部11R-A1、音源A2のHRTFを用いて畳み込み処理を行うHRTF適用部11L-A2とHRTF適用部11R-A2が設けられる。HRTF適用部11L-A1とHRTF適用部11R-A1に対しては、音源A1のHRTFの係数がHRTFデータベース12から供給される。HRTF適用部11L-A2とHRTF適用部11R-A2に対しては、音源A2のHRTFの係数がHRTFデータベース12から供給される。
 HRTF適用部11L-A1は、オーディオ信号Lに対して、音源A1のHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Lを出力する。
 HRTF適用部11R-A1は、オーディオ信号Rに対して、音源A1のHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Rを出力する。
 HRTF適用部11L-A2は、オーディオ信号Lに対して、音源A2のHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Lを出力する。
 HRTF適用部11R-A2は、オーディオ信号Rに対して、音源A2のHRTFを適用するフィルタ処理を行い、フィルタ処理後のオーディオ信号Rを出力する。
 HRTF適用部11L-A1から出力されたオーディオ信号LとHRTF適用部11L-A2から出力されたオーディオ信号Lは、加算された後、イヤホン出力制御部14-2に供給され、イヤホン2に対して出力される。HRTF適用部11R-A1から出力されたオーディオ信号RとHRTF適用部11R-A2から出力されたオーディオ信号Rは、加算された後、イヤホン出力制御部14-2に供給され、イヤホン2に対して出力される。
 以上のように、複数の音源のHRTFを用いた音像定位処理によって大きな音源の音が再現される。
 3つ以上の音源のHRTFが音像定位処理に用いられるようにすることも可能である。動的オブジェクトを用いて大きな音源の移動が再現されるようにしてもよい。動的オブジェクトが用いられる場合、上述したようなクロスフェード処理が適宜行われる。
 同じHRTF層の複数のHRTFを用いるのではなく、HRTF層AのHRTFとHRTF層BのHRTFといったように、異なるHRTF層の複数のHRTFを用いた音像定位処理によって、大きな音源が再現されるようにしてもよい。
・出力制御の例4
 映画の音のうち、高域の音をイヤホン2から出力させ、低域の音を実スピーカから出力させることも可能である。
 閾値となる所定の周波数以上の周波数の音が高域の音としてイヤホン2から出力され、その周波数未満の周波数の音が低域の音として実スピーカから出力される。例えば、低域の音の出力には、実スピーカとして設けられるサブウーファーが用いられる。
 図21は、音響処理装置1の構成例を示す図である。
 図21に示す音響処理装置1の構成は、畳み込み処理部11の前段にHPF(High Pass Filter)71が設けられ、スピーカ選択部13の前段にLPF(Low Pass Filter)72が設けられる点で、図11の構成と異なる。HPF71とLPF72に対しては、オーディオ信号が供給される。
 HPF71は、オーディオ信号から高域の音の信号を抽出し、畳み込み処理部11に出力する。
 LPF72は、オーディオ信号から低域の音の信号を抽出し、スピーカ選択部13に出力する。
 畳み込み処理部11は、HPF71から供給された信号に対して、HRTF適用部11LとHRTF適用部11Rのそれぞれにおいてフィルタ処理を施し、フィルタ処理後のオーディオ信号を出力する。
 スピーカ選択部13は、LPF72から供給された信号をサブウーファーに割り当て、出力する。
 図22のフローチャートを参照して、図21の構成を有する音響処理装置1の再生処理について説明する。
 ステップS31において、HRTFデータベース12は、音源の位置情報を取得する。
 ステップS32において、畳み込み処理部11は、HRTFデータベース12から読み出された、音源の位置に応じたHRTFの係数のペアを取得する。
 ステップS33において、HPF71は、オーディオ信号から高域成分の信号を抽出する。また、LPF72は、オーディオ信号から低域成分の信号を抽出する。
 ステップS34において、スピーカ選択部13は、LPF72により抽出された信号を実スピーカ出力制御部14-1に出力し、低域の音をサブウーファーから出力させる。
 ステップS35において、畳み込み処理部11は、HPF71により抽出された高域成分の信号に対して畳み込み処理を行う。
 ステップS36において、イヤホン出力制御部14-2は、畳み込み処理部11による畳み込み処理後のオーディオ信号をイヤホン2に送信し、高域の音を出力させる。
 以上の処理が、映画のオーディオを構成する各音源の1サンプル毎に繰り返される。各サンプルの処理においては、HRTFの係数のペアが音源の位置情報に応じて適宜更新される。
<変形例>
・出力デバイスの例
 映画館に設置された実スピーカと開放型のイヤホンであるイヤホン2が用いられるものとしたが、ハイブリッド型の音響システムが他の出力デバイスの組み合わせによって実現されるようにすることも可能である。
 図23は、ハイブリッド型の音響システムの構成例を示す図である。
 図23に示すように、ネックバンドスピーカ101と、TV102の内蔵スピーカであるスピーカ103L,103Rとの組み合わせによってハイブリッド型の音響システムが実現される。ネックバンドスピーカ101は、図4のBを参照して説明した肩載せ型の出力デバイスである。
 この場合、HRTFに基づく音像定位処理によって得られた仮想音源の音がネックバンドスピーカ101から出力される。図23にはHRTF層が1層しか示されていないが、ユーザの周りには多層のHRTF層が設定される。
 また、オブジェクトベースの音源の音、チャンネルベースの音源の音が実音源の音としてスピーカ103L,103Rから出力される。
 このように、HRTFに基づく音像定位処理によって得られた仮想音源の音の出力に用いる出力デバイスとして、それぞれのユーザ用として用意され、それぞれのユーザに聴かせる音を出力可能な各種の出力デバイスを用いることが可能である。
 また、実音源の音の出力に用いる出力デバイスとして、映画館に設置された実スピーカとは異なる各種の出力デバイスを用いることが可能である。コンシューマ向けのシアタースピーカ、スマートフォンやタブレットのスピーカが実音源の出力に用いられるようにしてもよい。
 複数種類の出力デバイスの組み合わせによって実現される音響システムは、HRTFを用いてユーザ毎にカスタマイズされた音と、同じ空間にいる全員のユーザ用の共通の音とを聴かせるハイブリッド型の音響システムということもできる。
 同じ空間にいるユーザは複数人ではなく図23に示すように1人であってもよい。
 ハイブリッド型の音響システムが車載スピーカを用いて実現されるようにしてもよい。
 図24は、車載スピーカの設置位置の例を示す図である。
 図24には、車の運転席と助手席の周りの構成が示されている。色付きの丸印で示すスピーカSP11乃至SP16のように、運転席と助手席の前方のダッシュボード周り、車のドアの内側、車の天井の内側などの車内の様々な位置に車載スピーカが設けられる。
 また、車には、ハッチ付きの丸印で示すように、運転席の背もたれの上方にスピーカSP21LとスピーカSP21Rが設けられ、助手席の背もたれの上方にスピーカSP22LとスピーカSP22Rが設けられる。
 車の内部の後方にも同様にして各位置にスピーカが設けられる。
 各座席に設けられるスピーカは、その座席に座っているユーザ用の出力デバイスとして仮想音源の音の出力に用いられる。例えば、スピーカSP21LとスピーカSP21Rは、図25の矢印#51に示すように、運転席に座るユーザUに聴かせる音の出力に用いられる。矢印#51は、スピーカSP21LとスピーカSP21Rから出力された仮想音源の音が運転席に座っているユーザUに向けて出力されていることを表す。ユーザUを囲む円はHRTF層を表す。HRTF層が1層しか示されていないが、ユーザの周りには多層のHRTF層が設定される。
 同様に、スピーカSP22LとスピーカSP22Rは、助手席に座るユーザに聴かせる音の出力に用いられる。
 各座席に設けられるスピーカを仮想音源の出力に用いるとともに、それ以外のスピーカを実音源の出力に用いることによっても、ハイブリッド型の音響システムを実現することが可能である。
 仮想音源の出力に用いる出力デバイスとして、各ユーザが装着する出力デバイスだけでなく、ユーザの周りに設置されている出力デバイスを用いることも可能である。
 このように、映画館だけでなく、車の中の空間や家の部屋などの様々な空間を聴取空間として、ハイブリッド型の音響システムによる音の聴取が行われるようにすることが可能である。
<その他の例>
 図26は、スクリーンの例を示す図である。
 映画館内のスクリーンSとして、図26のAに示すように、実スピーカを裏側に設置可能な音響透過型スクリーンが設置されるようにしてもよいし、図26のBに示すように、音を透過させない直視型のディスプレイが設置されるようにしてもよい。
 音を透過させないディスプレイがスクリーンSとして設けられる場合、キャラクタの音声といったように、スクリーンS上の位置に存在する音源の音の出力にイヤホン2が用いられる。
 ユーザの顔の向きを検出するヘッドトラッキング機能が、仮想音源の音の出力に用いるイヤホン2などの出力デバイスに搭載されるようにしてもよい。この場合、ユーザの顔の向きが変化したとしても音像の位置が変化しないように音像定位処理が行われる。
 HRTF層として、聴取者毎に最適化されたHRTFの層と、共通に使用されるHRTF(標準のHRTF)の層が設けられるようにしてもよい。HRTFの最適化は、例えば、聴取者の耳をカメラにより撮影し、撮影によって得られた画像の解析結果に基づいて標準のHRTFを調整することによって行われる。
 HRTFの最適化が行われる場合、前方などの所定の方向のHRTFのみが最適化されるようにしてもよい。これにより、HRTFを用いた処理に要するメモリを削減することが可能となる。
 HRTFの後部残響に映画館の残響を合わせて音を馴染ませるようにしてもよい。HRTFの後部残響として、観客が入っている状態における残響と観客が入っていない状態における残響が切り替えられるようにしてもよい。
 上述した技術は、映画、音楽、ゲームなどの各種のコンテンツ制作現場においても適用可能である。
・コンピュータの構成例
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図27は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 図27に示すような構成を有するコンピュータにより、音響処理装置1が実現される。音響処理装置1を構成する機能部が複数台のコンピュータにより実現されるようにしてもよい。例えば、実スピーカに対する音の出力を制御する機能部と、イヤホン2に対する音の出力を制御する機能部とがそれぞれ異なるコンピュータにおいて実現されるようにすることが可能である。
 CPU(Central Processing Unit)301、ROM(Read Only Memory)302、RAM(Random Access Memory)303は、バス304により相互に接続されている。
 バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、キーボード、マウスなどよりなる入力部306、ディスプレイ、スピーカなどよりなる出力部307が接続される。また、入出力インタフェース305には、ハードディスクや不揮発性のメモリなどよりなる記憶部308、ネットワークインタフェースなどよりなる通信部309、リムーバブルメディア311を駆動するドライブ310が接続される。
 以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを入出力インタフェース305及びバス304を介してRAM303にロードして実行することにより、上述した一連の処理が行われる。
 CPU301が実行するプログラムは、例えばリムーバブルメディア311に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部308にインストールされる。
 コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
・構成の組み合わせ例
 本技術は、以下のような構成をとることもできる。
(1)
 コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる出力制御部を備える
 情報処理装置。
(2)
 前記出力制御部は、それぞれの聴取者が装着する前記出力デバイスである、外音の取り込みが可能なヘッドホンから前記仮想音源の音を出力させる
 前記(1)に記載の情報処理装置。
(3)
 前記コンテンツは、映像のデータと音のデータとを含み、
 前記出力制御部は、前記映像に含まれるキャラクタの位置から所定の範囲内の位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
 前記(2)に記載の情報処理装置。
(4)
 前記出力制御部は、チャンネルベースの音を前記スピーカから出力させ、オブジェクトベースの前記仮想音源の音を前記ヘッドホンから出力させる
 前記(2)に記載の情報処理装置。
(5)
 前記出力制御部は、静的オブジェクトの音を前記スピーカから出力させ、動的オブジェクトの前記仮想音源の音を前記ヘッドホンから出力させる
 前記(2)に記載の情報処理装置。
(6)
 前記出力制御部は、複数の前記聴取者に共通に聴かせる音を前記スピーカから出力させ、それぞれの前記聴取者の位置に応じて音源の方向を変えて聴かせる音を前記ヘッドホンから出力させる
 前記(2)に記載の情報処理装置。
(7)
 前記出力制御部は、前記スピーカの高さと同じ高さの位置を音源位置とする音を前記スピーカから出力させ、前記スピーカの高さと異なる高さの位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
 前記(2)に記載の情報処理装置。
(8)
 前記出力制御部は、前記スピーカから離れた位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
 前記(2)に記載の情報処理装置。
(9)
 基準位置を中心として同じ距離にある前記仮想音源の層が多層となるように複数の前記仮想音源が配置され、
 それぞれの前記仮想音源における、前記基準位置に対する前記伝達関数の情報を記憶する記憶部をさらに備える
 前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
 前記仮想音源のそれぞれの層は、複数の前記仮想音源が全天球状に配置されることによって構成される
 前記(9)に記載の情報処理装置。
(11)
 同じ層の前記仮想音源は、等間隔で配置される
 前記(9)または(10)に記載の情報処理装置。
(12)
 前記仮想音源の複数の層には、前記伝達関数が前記聴取者毎に調整された前記仮想音源の層が含まれる
 前記(9)乃至(11)のいずれかに記載の情報処理装置。
(13)
 処理対象のオーディオ信号に対して前記伝達関数を適用し、前記仮想音源の音を生成する音像定位処理部をさらに備える
 前記(9)乃至(12)のいずれかに記載の情報処理装置。
(14)
 前記音像定位処理部は、前記出力デバイスから出力させる音を、所定の層の前記仮想音源の音から他の層の前記仮想音源の音に切り替える
 前記(13)に記載の情報処理装置。
(15)
 前記出力制御部は、ゲインが調整された前記オーディオ信号に基づいて生成された、前記所定の層の前記仮想音源の音と前記他の層の前記仮想音源の音とを前記出力デバイスから出力させる
 前記(14)に記載の情報処理装置。
(16)
 情報処理装置が、
 コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、
 音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる
 出力制御方法。
(17)
 コンピュータに、
 コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、
 音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる
 処理を実行させるためのプログラム。
 1 音響処理装置, 2 イヤホン, 11 畳み込み処理部, 12 HRTFデータベース, 13 スピーカ選択部, 14 出力制御部, 51 制御部, 52 ベッドチャンネル処理部, 61,62 ゲイン調整部, 71 HPF, 72 LPF

Claims (17)

  1.  コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる出力制御部を備える
     情報処理装置。
  2.  前記出力制御部は、それぞれの聴取者が装着する前記出力デバイスである、外音の取り込みが可能なヘッドホンから前記仮想音源の音を出力させる
     請求項1に記載の情報処理装置。
  3.  前記コンテンツは、映像のデータと音のデータとを含み、
     前記出力制御部は、前記映像に含まれるキャラクタの位置から所定の範囲内の位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
     請求項2に記載の情報処理装置。
  4.  前記出力制御部は、チャンネルベースの音を前記スピーカから出力させ、オブジェクトベースの前記仮想音源の音を前記ヘッドホンから出力させる
     請求項2に記載の情報処理装置。
  5.  前記出力制御部は、静的オブジェクトの音を前記スピーカから出力させ、動的オブジェクトの前記仮想音源の音を前記ヘッドホンから出力させる
     請求項2に記載の情報処理装置。
  6.  前記出力制御部は、複数の前記聴取者に共通に聴かせる音を前記スピーカから出力させ、それぞれの前記聴取者の位置に応じて音源の方向を変えて聴かせる音を前記ヘッドホンから出力させる
     請求項2に記載の情報処理装置。
  7.  前記出力制御部は、前記スピーカの高さと同じ高さの位置を音源位置とする音を前記スピーカから出力させ、前記スピーカの高さと異なる高さの位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
     請求項2に記載の情報処理装置。
  8.  前記出力制御部は、前記スピーカから離れた位置を音源位置とする前記仮想音源の音を前記ヘッドホンから出力させる
     請求項2に記載の情報処理装置。
  9.  基準位置を中心として同じ距離にある前記仮想音源の層が多層となるように複数の前記仮想音源が配置され、
     それぞれの前記仮想音源における、前記基準位置に対する前記伝達関数の情報を記憶する記憶部をさらに備える
     請求項1に記載の情報処理装置。
  10.  前記仮想音源のそれぞれの層は、複数の前記仮想音源が全天球状に配置されることによって構成される
     請求項9に記載の情報処理装置。
  11.  同じ層の前記仮想音源は、等間隔で配置される
     請求項9に記載の情報処理装置。
  12.  前記仮想音源の複数の層には、前記伝達関数が前記聴取者毎に調整された前記仮想音源の層が含まれる
     請求項9に記載の情報処理装置。
  13.  処理対象のオーディオ信号に対して前記伝達関数を適用し、前記仮想音源の音を生成する音像定位処理部をさらに備える
     請求項9に記載の情報処理装置。
  14.  前記音像定位処理部は、前記出力デバイスから出力させる音を、所定の層の前記仮想音源の音から他の層の前記仮想音源の音に切り替える
     請求項13に記載の情報処理装置。
  15.  前記出力制御部は、ゲインが調整された前記オーディオ信号に基づいて生成された、前記所定の層の前記仮想音源の音と前記他の層の前記仮想音源の音とを前記出力デバイスから出力させる
     請求項14に記載の情報処理装置。
  16.  情報処理装置が、
     コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、
     音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる
     出力制御方法。
  17.  コンピュータに、
     コンテンツのオーディオを構成する所定の音源の音を聴取空間に設置されたスピーカから出力させ、
     音源位置に応じた伝達関数を用いた処理が行われることによって生成された、前記所定の音源と異なる仮想音源の音を、それぞれの聴取者用の出力デバイスから出力させる
     処理を実行させるためのプログラム。
PCT/JP2021/023152 2020-07-02 2021-06-18 情報処理装置、出力制御方法、およびプログラム WO2022004421A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US18/011,829 US20230247384A1 (en) 2020-07-02 2021-06-18 Information processing device, output control method, and program
JP2022533857A JPWO2022004421A1 (ja) 2020-07-02 2021-06-18
DE112021003592.4T DE112021003592T5 (de) 2020-07-02 2021-06-18 Informationsverarbeitungsvorrichtung, Ausgabesteuerverfahren und Programm
CN202180045499.6A CN115777203A (zh) 2020-07-02 2021-06-18 信息处理装置、输出控制方法和程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020115136 2020-07-02
JP2020-115136 2020-07-02

Publications (1)

Publication Number Publication Date
WO2022004421A1 true WO2022004421A1 (ja) 2022-01-06

Family

ID=79316104

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/023152 WO2022004421A1 (ja) 2020-07-02 2021-06-18 情報処理装置、出力制御方法、およびプログラム

Country Status (5)

Country Link
US (1) US20230247384A1 (ja)
JP (1) JPWO2022004421A1 (ja)
CN (1) CN115777203A (ja)
DE (1) DE112021003592T5 (ja)
WO (1) WO2022004421A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024004130A1 (ja) * 2022-06-30 2024-01-04 日本電信電話株式会社 利用者装置、共通装置、それらによる方法、およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116744216B (zh) * 2023-08-16 2023-11-03 苏州灵境影音技术有限公司 基于双耳效应的汽车空间虚拟环绕声音频***及设计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160119737A1 (en) * 2013-05-24 2016-04-28 Barco Nv Arrangement and method for reproducing audio data of an acoustic scene
WO2017061218A1 (ja) * 2015-10-09 2017-04-13 ソニー株式会社 音響出力装置、音響生成方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009260574A (ja) 2008-04-15 2009-11-05 Sony Ericsson Mobilecommunications Japan Inc 音声信号処理装置、音声信号処理方法及び音声信号処理装置を備えた携帯端末

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160119737A1 (en) * 2013-05-24 2016-04-28 Barco Nv Arrangement and method for reproducing audio data of an acoustic scene
WO2017061218A1 (ja) * 2015-10-09 2017-04-13 ソニー株式会社 音響出力装置、音響生成方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024004130A1 (ja) * 2022-06-30 2024-01-04 日本電信電話株式会社 利用者装置、共通装置、それらによる方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2022004421A1 (ja) 2022-01-06
CN115777203A (zh) 2023-03-10
US20230247384A1 (en) 2023-08-03
DE112021003592T5 (de) 2023-04-13

Similar Documents

Publication Publication Date Title
US6038330A (en) Virtual sound headset and method for simulating spatial sound
US11877135B2 (en) Audio apparatus and method of audio processing for rendering audio elements of an audio scene
US9788134B2 (en) Method for processing of sound signals
JP2008512898A (ja) 録音音響による擬似三次元音響空間生成方法及び装置
US8442244B1 (en) Surround sound system
US11902772B1 (en) Own voice reinforcement using extra-aural speakers
WO2022004421A1 (ja) 情報処理装置、出力制御方法、およびプログラム
JP2018110366A (ja) 3dサウンド映像音響機器
US10321252B2 (en) Transaural synthesis method for sound spatialization
US11102604B2 (en) Apparatus, method, computer program or system for use in rendering audio
KR100566131B1 (ko) 음상 정위 기능을 가진 입체 음향을 생성하는 장치 및 방법
WO2022124084A1 (ja) 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
TW519849B (en) System and method for providing rear channel speaker of quasi-head wearing type earphone
RU2815621C1 (ru) Аудиоустройство и способ обработки аудио
RU2798414C2 (ru) Аудиоустройство и способ обработки аудио
RU2815366C2 (ru) Аудиоустройство и способ обработки аудио
Waldron Capturing Sound for VR & AR
Sousa The development of a'Virtual Studio'for monitoring Ambisonic based multichannel loudspeaker arrays through headphones

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21834574

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022533857

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 21834574

Country of ref document: EP

Kind code of ref document: A1