WO2024084920A1 - 音響処理方法、音響処理装置、及び、プログラム - Google Patents

音響処理方法、音響処理装置、及び、プログラム Download PDF

Info

Publication number
WO2024084920A1
WO2024084920A1 PCT/JP2023/035546 JP2023035546W WO2024084920A1 WO 2024084920 A1 WO2024084920 A1 WO 2024084920A1 JP 2023035546 W JP2023035546 W JP 2023035546W WO 2024084920 A1 WO2024084920 A1 WO 2024084920A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
information
processing
audio signal
acoustic
Prior art date
Application number
PCT/JP2023/035546
Other languages
English (en)
French (fr)
Inventor
成悟 榎本
智一 石川
陽 宇佐見
康太 中橋
宏幸 江原
摩里子 山田
修二 宮阪
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2024084920A1 publication Critical patent/WO2024084920A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • This disclosure relates to an audio processing method, an audio processing device, and a program.
  • Patent Document 1 Technology related to sound reproduction that allows a user to perceive stereoscopic sound in a virtual three-dimensional space is known (see, for example, Patent Document 1). Furthermore, in order to make the user perceive sound as coming from a sound source object to the user in such a three-dimensional space, processing is required to generate output sound information from the original sound information. Here, sound processing is sometimes performed to increase the sense of localization of the sound so that the user listening to the sound feels more real in the three-dimensional space. For example, a stereoscopic sound processing device is known that creates a sense of localization such that sound appears to be coming from the direction of the sound source coordinates input from a coordinate fluctuation adding device (see Patent Document 1).
  • this disclosure describes an acoustic processing method for more appropriately performing acoustic processing.
  • the acoustic processing method includes the steps of acquiring an audio signal by collecting sound emitted from a sound source using a sound collection device, performing acoustic processing on the audio signal to repeatedly change the relative position between the sound collection device and the sound source in the time domain, and outputting an output audio signal after the acoustic processing has been performed.
  • Another aspect of the present disclosure is an acoustic processing method for outputting an output audio signal that causes a sound emitted from a sound source object in a virtual sound space to be perceived as being heard at a listening point in the virtual sound space, and includes the steps of: acquiring an audio signal including the sound emitted from the sound source object; receiving an instruction to change the relative position between the listening point and the sound source object, the instruction including a first change amount by which the relative position is changed; executing acoustic processing on the audio signal to change the relative position by the first change amount and to repeatedly change the relative position by a second change amount in the time domain; and outputting the output audio signal after the acoustic processing has been executed.
  • the sound processing device includes an acquisition unit that acquires a sound signal obtained by collecting sound emitted from a sound source using a sound collection device, a processing unit that performs sound processing on the sound signal to repeatedly change the relative position between the sound collection device and the sound source in the time domain, and an output unit that outputs an output sound signal after the sound processing has been performed.
  • a sound processing device for outputting an output sound signal that causes a sound emitted from a sound source object in a virtual sound space to be perceived as being heard at a listening point in the virtual sound space, and includes an acquisition unit that acquires a sound signal including the sound emitted from the sound source object, a reception unit that receives an instruction to change the relative position between the listening point and the sound source object, the instruction including a first change amount by which the relative position is changed, a processing unit that executes sound processing on the sound signal to change the relative position by the first change amount and to repeatedly change the relative position by a second change amount in the time domain, and an output unit that outputs the output sound signal after the sound processing has been executed.
  • An aspect of the present disclosure can also be realized as a program for causing a computer to execute the acoustic processing method described above.
  • This disclosure makes it possible to perform acoustic processing more appropriately.
  • FIG. 1 is a schematic diagram showing a use example of a sound reproducing system according to an embodiment.
  • FIG. 2A is a diagram for explaining a use example of the sound reproduction system according to the embodiment.
  • FIG. 2B is a diagram for explaining a use example of the sound reproduction system according to the embodiment.
  • FIG. 3 is a block diagram showing a functional configuration of the sound reproducing system according to the embodiment.
  • FIG. 4 is a block diagram illustrating a functional configuration of an acquisition unit according to the embodiment.
  • FIG. 5 is a block diagram illustrating a functional configuration of a processing unit according to the embodiment.
  • FIG. 6 is a diagram for explaining another example of the sound reproducing system according to the embodiment.
  • FIG. 7 is a diagram for explaining another example of the sound reproducing system according to the embodiment.
  • FIG. 1 is a schematic diagram showing a use example of a sound reproducing system according to an embodiment.
  • FIG. 2A is a diagram for explaining a use example of the sound reproduction system according to the embodiment
  • FIG. 8 is a diagram for explaining another example of the sound reproducing system according to the embodiment.
  • FIG. 9 is a diagram for explaining another example of the sound reproducing system according to the embodiment.
  • FIG. 10 is a diagram for explaining another example of the sound reproducing system according to the embodiment.
  • FIG. 11 is a diagram for explaining another example of the sound reproducing system according to the embodiment.
  • FIG. 12 is a diagram for explaining another example of the sound reproducing system according to the embodiment.
  • FIG. 13 is a diagram for explaining another example of the sound reproducing system according to the embodiment.
  • FIG. 14 is a diagram for explaining another example of the sound reproducing system according to the embodiment.
  • FIG. 15 is a diagram for explaining another example of the sound reproducing system according to the embodiment.
  • FIG. 16 is a flowchart showing the operation of the sound processing device according to the embodiment.
  • FIG. 17 is a diagram for explaining frequency characteristics of the acoustic processing according to the embodiment.
  • FIG. 18 is a diagram for explaining the magnitude of fluctuation in sound processing according to the embodiment.
  • FIG. 19 is a diagram for explaining the period and angle of fluctuation of sound processing according to the embodiment.
  • FIG. 20 is a block diagram illustrating a functional configuration of a processing unit according to another example of the embodiment.
  • FIG. 21 is a flowchart showing the operation of a sound processing device according to another embodiment.
  • a calculation process is required to generate a sound arrival time difference between both ears and a sound level difference (or sound pressure difference) between both ears that is perceived as a stereoscopic sound for the sound signal of the sound source object.
  • a calculation process is performed by applying a stereoscopic sound filter.
  • a stereoscopic sound filter is an information processing filter that, when an output sound signal after applying the filter to the original sound information is reproduced, the position such as the direction and distance of the sound, the size of the sound source, the width of the space, etc. are perceived with a stereoscopic feeling.
  • One example of the computational process for applying such a stereophonic filter is the process of convolving a head-related transfer function with the signal of the target sound so that the sound is perceived as coming from a specific direction.
  • the acoustic processing method includes the steps of acquiring an audio signal by collecting sound emitted from a sound source using a sound collection device, performing acoustic processing on the audio signal to repeatedly change the relative position between the sound collection device and the sound source in the time domain, and outputting an output audio signal after acoustic processing has been performed.
  • the acoustic processing method according to the second aspect is the acoustic processing method according to the first aspect, and in the step of performing the acoustic processing, it is determined whether or not a change in the time domain of sound pressure in the audio signal satisfies a predetermined condition related to the change, and if it is determined that the predetermined condition is satisfied, the acoustic processing is performed, and if it is determined that the predetermined condition is not satisfied, the acoustic processing is not performed.
  • the acoustic processing method according to the third aspect is the acoustic processing method according to the first or second aspect, and in the step of performing the acoustic processing, the positional relationship between the sound collection device and the sound source is estimated using the audio signal, and it is determined whether the estimated positional relationship satisfies a predetermined condition regarding the positional relationship. If it is determined that the predetermined condition is satisfied, the acoustic processing is performed, and if it is determined that the predetermined condition is not satisfied, the acoustic processing is not performed.
  • the acoustic processing method is the acoustic processing method according to any one of the first to third aspects, in which the audio signal includes audio pickup situation information relating to the situation at the time of audio pickup, and in the step of performing the acoustic processing, it is determined whether the audio pickup situation information included in the audio signal satisfies a predetermined condition relating to the audio pickup situation information, and if it is determined that the predetermined condition is satisfied, the acoustic processing is performed, and if it is determined that the predetermined condition is not satisfied, the acoustic processing is not performed.
  • the acoustic processing method according to the fifth aspect is the acoustic processing method according to any one of the first to fourth aspects, and in the step of performing the acoustic processing, the positional relationship between the sound collection device and the sound source is estimated using the audio signal, and the acoustic processing is performed under processing conditions according to the estimated positional relationship.
  • This acoustic processing method makes it possible to execute acoustic processing under processing conditions that correspond to the positional relationship between the sound pickup device and the sound source estimated using the audio signal.
  • the acoustic processing method is an acoustic processing method for outputting an output audio signal that causes a sound emitted from a sound source object in a virtual sound space to be perceived as being heard at a listening point in the virtual sound space, and includes the steps of acquiring an audio signal including the sound emitted from the sound source object, accepting an instruction to change the relative position between the listening point and the sound source object, the instruction including a first change amount by which the relative position is changed, executing acoustic processing on the audio signal to change the relative position by the first change amount and repeatedly change the relative position by a second change amount in the time domain, and outputting an output audio signal for which acoustic processing has been executed.
  • this acoustic processing method when sound emitted from a sound source object in a virtual sound space is perceived as being heard at a listening point in the virtual sound space, in addition to changing the relative position by a first amount based on an instruction to change the relative position between the listening point and the sound source object, if the sense of realism has already been lost in the audio signal, the lost sense of realism can be reproduced by repeatedly changing the relative position between the listening point and the sound source object by a second amount in the time domain through acoustic processing to add fluctuations. In this way, it is possible to more appropriately execute acoustic processing from the perspective of reproducing the sense of realism.
  • the acoustic processing method according to the seventh aspect is the acoustic processing method according to the sixth aspect, in which the sound source object mimics a user in real space, and the acoustic processing method further includes a step of acquiring a detection result from a sensor that detects the user and is provided in the real space, and the second amount of change is calculated based on the detection result.
  • the second change amount can be calculated based on the detection result obtained from a sensor that detects a user in real space corresponding to the sound source object.
  • the acoustic processing method according to the eighth aspect is the acoustic processing method according to the sixth aspect, in which the sound source object mimics a user in real space, and the acoustic processing method further includes a step of acquiring a detection result from a sensor that detects the user and is provided in the real space, and the second amount of change is calculated independently of the detection result.
  • the second change amount can be calculated independently of the detection result obtained from the sensor that detects the user in the real space corresponding to the sound source object.
  • the acoustic processing method according to the ninth aspect is the acoustic processing method according to the sixth aspect, in which the second change amount is calculated independently of the first change amount.
  • This acoustic processing method makes it possible to calculate a second change amount that is independent of the first change amount.
  • the acoustic processing method according to the tenth aspect is the acoustic processing method according to the sixth aspect, in which the second change amount is calculated to be a larger value as the first change amount is larger.
  • the acoustic processing method according to the eleventh aspect is the acoustic processing method according to the sixth aspect, in which the second change amount is calculated to be a larger value as the first change amount is smaller.
  • the acoustic processing method is the acoustic processing method according to any one of the first to eleventh aspects, further including a step of acquiring control information for the audio signal, and in the step of executing the acoustic processing, if the control information indicates that the acoustic processing is to be executed, the acoustic processing is executed.
  • the sound processing device includes an acquisition unit that acquires a sound signal obtained by collecting sound emitted from a sound source using a sound collection device, a processing unit that performs sound processing on the sound signal to repeatedly change the relative position between the sound collection device and the sound source in the time domain, and an output unit that outputs an output sound signal after the sound processing has been performed.
  • Such an audio processing device can achieve the same effects as the audio processing method described above.
  • a sound processing device for outputting an output sound signal that causes a sound emitted from a sound source object in a virtual sound space to be perceived as being heard at a listening point in the virtual sound space, and includes an acquisition unit that acquires a sound signal including sound emitted from the sound source object, a reception unit that receives an instruction to change the relative position between the listening point and the sound source object, the instruction including a first change amount by which the relative position is changed by the instruction, a processing unit that executes sound processing on the sound signal to change the relative position by the first change amount and repeatedly change the relative position by a second change amount in the time domain, and an output unit that outputs an output sound signal after the sound processing has been executed.
  • Such an audio processing device can achieve the same effects as the audio processing method described above.
  • ordinal numbers such as first, second, and third may be attached to elements. These ordinal numbers are attached to elements in order to identify them, and do not necessarily correspond to a meaningful order. These ordinal numbers may be rearranged, newly added, or removed as appropriate.
  • Fig. 1 is a schematic diagram showing a use example of the sound reproduction system according to the embodiment.
  • Fig. 1 shows a user 99 using the sound reproduction system 100.
  • the audio reproduction system 100 shown in FIG. 1 is used simultaneously with the stereoscopic video reproduction device 200.
  • the image enhances the auditory realism and the sound enhances the visual realism, allowing the user to experience the image and sound as if they were actually at the scene where they were taken.
  • an image (moving image) of people talking it is known that even if the position of the sound image of the conversation sound is not aligned with the person's mouth, the user 99 will perceive it as the conversation sound coming from the person's mouth. In this way, the position of the sound image can be corrected by visual information, and the sense of realism can be enhanced by combining the image and sound.
  • the three-dimensional image reproduction device 200 is an image display device that is worn on the head of the user 99. Therefore, the three-dimensional image reproduction device 200 moves integrally with the head of the user 99.
  • the three-dimensional image reproduction device 200 is a glasses-type device that is supported by the ears and nose of the user 99, as shown in the figure.
  • the 3D video playback device 200 changes the image displayed in response to the movement of the user 99's head, allowing the user 99 to perceive the movement of his or her head within the three-dimensional image space.
  • the 3D video playback device 200 moves the three-dimensional image space in the opposite direction to the user 99's movement.
  • the 3D image reproduction device 200 displays two images with a parallax shift to each of the user's 99 eyes.
  • the user 99 can perceive the three-dimensional position of an object on the image based on the parallax shift of the displayed images.
  • the 3D image reproduction device 200 does not need to be used at the same time.
  • the 3D image reproduction device 200 is not an essential component of the present disclosure.
  • the 3D image reproduction device 200 may also be a general-purpose mobile terminal owned by the user 99, such as a smartphone or tablet device.
  • Such general-purpose mobile terminals are equipped with a display for displaying images, as well as various sensors for detecting the terminal's attitude and movement. They also have a processor for information processing, and can be connected to a network to send and receive information to and from a server device such as a cloud server.
  • a server device such as a cloud server.
  • the 3D image reproduction device 200 and the audio reproduction system 100 can be realized by combining a smartphone with general-purpose headphones or the like that do not have information processing functions.
  • the 3D image reproduction device 200 and the audio reproduction system 100 may be realized by appropriately arranging the head movement detection function, the video presentation function, the video information processing function for presentation, the sound presentation function, and the audio information processing function for presentation in one or more devices. If the 3D image reproduction device 200 is not required, it is sufficient to appropriately arrange the head movement detection function, the sound presentation function, and the audio information processing function for presentation in one or more devices.
  • the audio reproduction system 100 can be realized by a processing device such as a computer or smartphone that has the sound information processing function for presentation, and headphones or the like that have the head movement detection function and the sound presentation function.
  • the sound reproduction system 100 is a sound presentation device that is worn on the head of the user 99. Therefore, the sound reproduction system 100 moves integrally with the head of the user 99.
  • the sound reproduction system 100 in this embodiment is a so-called over-ear headphone type device.
  • the form of the sound reproduction system 100 may be, for example, two earplug-type devices that are worn independently on the left and right ears of the user 99.
  • the sound reproduction system 100 changes the sound presented in response to the movement of the user 99's head, allowing the user 99 to perceive that he or she is moving their head within a three-dimensional sound field. For this reason, as described above, the sound reproduction system 100 moves the three-dimensional sound field in the opposite direction to the movement of the user 99.
  • Figures 2A and 2B are diagrams for explaining a use case of the sound reproduction system according to the embodiment.
  • Figure 2A shows a user making a so-called video call.
  • the sound is collected under conditions where the positions of the mouth (sound source) and the headset microphone (sound collection device) hardly change, as in the case of a headset.
  • a sense of incongruity arises because the positions of the sound source and sound collection device hardly move in relation to the user moving on the screen.
  • the sense of incongruity of the sound is reduced and the sense of realism is increased by applying sound fluctuation that matches the movement of the user moving on the screen, or sound fluctuation that matches the general movement of the user during the conversation.
  • FIG. 2B shows a user who is recording the voice of a song for a so-called virtual live performance in a studio.
  • the user who is recording the voice may be a user different from the user 99 who is the listener. For example, a singer or an artist is assumed.
  • the user sings into a fixed microphone to record the voice of the song.
  • the voice is played on the virtual image in the right diagram, and a virtual live performance is realized by viewing the voice together with a video of an avatar imitating the user dancing and singing at a live venue in a virtual space.
  • the position of the sound source object (the avatar's head) in the virtual sound space is specified as the playback position of the voice following the movement of the avatar, even if the position is correct, the slight movement of the fluctuation that should be present in the actual user is not reproduced, and the realism of the sound is reduced.
  • an acoustic process is performed to increase the realism of the sound by giving the voice a fluctuation that should be present in the first place.
  • a sound collection device capable of collecting sound including the user's fluctuations is used in a video call as shown in FIG.
  • mechanical sound processing such as AGC (automatic volume control) may be applied to make the sound easier for the listener to hear, suppressing the fluctuations in the sound and creating a sense of discomfort.
  • AGC automatic volume control
  • This disclosure also includes the reduction of the discomfort of the sound and the increase in the sense of realism by adding back the fluctuations suppressed by such mechanical sound processing.
  • Fig. 3 is a block diagram showing the functional configuration of the sound reproducing system according to the embodiment.
  • the sound reproduction system 100 includes an information processing device 101, a communication module 102, a detector 103, and a driver 104.
  • the information processing device 101 is an example of an audio processing device, and is a calculation device for performing various signal processing in the audio reproduction system 100.
  • the information processing device 101 includes a processor and memory, such as a computer, and is realized in such a way that a program stored in the memory is executed by the processor. The execution of this program provides the functions related to each functional unit described below.
  • the information processing device 101 has an acquisition unit 111, a processing unit 121, and a signal output unit 141. Details of each functional unit of the information processing device 101 will be described below together with details of the configuration other than the information processing device 101.
  • the communication module 102 is an interface device for accepting input of sound information to the sound reproduction system 100.
  • the communication module 102 includes, for example, an antenna and a signal converter, and receives sound information from an external device via wireless communication. More specifically, the communication module 102 receives a wireless signal indicating sound information converted into a format for wireless communication using an antenna, and reconverts the wireless signal into sound information using a signal converter. In this way, the sound reproduction system 100 acquires sound information from an external device via wireless communication.
  • the sound information acquired by the communication module 102 is acquired by the acquisition unit 111. In this way, the sound information is input to the information processing device 101. Note that communication between the sound reproduction system 100 and the external device may be performed via wired communication.
  • the sound information acquired by the sound reproduction system 100 is an audio signal obtained by collecting sound emitted from a sound source using a sound collection device.
  • the sound information is encoded in a predetermined format, such as MPEG-H 3D Audio (ISO/IEC 23008-3) or MPEG-I.
  • the encoded sound information includes information about a specific sound reproduced by the sound reproduction system 100, information about the localization position when the sound image of the sound is localized at a specific position in a three-dimensional sound field (i.e., the sound is perceived as coming from a specific direction), and other metadata.
  • the sound information includes information about a plurality of sounds including a first specific sound and a second specific sound, and the sound images are localized so that the sound images when each sound is reproduced are perceived as coming from a different position in the three-dimensional sound field.
  • the sound information may include only information about the specified sound. In this case, information about the specified position may be acquired separately. As described above, the sound information includes first sound information about a first specified sound and second sound information about a second specified sound, but sound images may be localized at different positions in a three-dimensional sound field by acquiring multiple pieces of sound information including these separately and playing them simultaneously. In this way, there are no particular limitations on the form of the input sound information, and it is sufficient that the sound playback system 100 is equipped with an acquisition unit 111 that can handle various forms of sound information.
  • the metadata included in the sound information includes control information for controlling the acoustic processing for adding the fluctuation.
  • the control information is information for specifying whether or not to execute the acoustic processing. For example, when the control information specifies that the acoustic processing is to be executed, it may be determined whether or not a predetermined condition is satisfied, and the acoustic processing may be executed if the predetermined condition is satisfied, or the acoustic processing may be executed regardless of whether or not the predetermined condition is satisfied. On the other hand, when the control information specifies that the acoustic processing is not to be executed, the acoustic processing is not executed.
  • the acoustic processing may be executed by two triggers, that is, the determination of whether or not a predetermined condition is satisfied and whether or not the control information specifies that the acoustic processing is to be executed, or the acoustic processing may be executed by one trigger, that is, whether or not the acoustic processing is specified that the acoustic processing is to be executed.
  • the control information may not be included in the metadata.
  • the control information may be specified by the operation settings of the acoustic reproduction system 100, and may be stored in the storage unit. The control information may be acquired when the acoustic reproduction system 100 is started up, and used as described above.
  • the metadata may also include sound collection status information.
  • the sound collection status information is the reverberation level and noise level related to the collection of a specific sound included in the sound information. Details of the sound collection status information will be described later.
  • the sound information may be acquired as a bit stream.
  • An example of the structure of a bit stream when sound information is acquired as a bit stream will be described below.
  • the bit stream includes, for example, an audio signal and metadata.
  • the audio signal is sound data that expresses sound, such as information about the frequency and intensity of the sound.
  • the metadata may include spatial information other than the above-mentioned information.
  • the spatial information is information about the space in which a listener who hears a sound based on the audio signal is located.
  • the spatial information is information about a predetermined position (localization position) when the sound image of the sound is localized at a predetermined position in a sound space (for example, in a three-dimensional sound field), that is, when the listener perceives the sound as arriving from a predetermined direction.
  • the spatial information includes, for example, sound source object information and position information indicating the position of the listener.
  • Sound source object information is information about an object that generates sound based on an audio signal, that is, that reproduces an audio signal, and is information about a virtual object (sound source object) that is placed in a sound space, which is a virtual space that corresponds to the real space in which the object is placed.
  • Sound source object information includes, for example, information indicating the position of the sound source object placed in the sound space, information about the orientation of the sound source object, information about the directionality of the sound emitted by the sound source object, information indicating whether the sound source object belongs to a living thing, and information indicating whether the sound source object is a moving object.
  • an audio signal corresponds to one or more sound source objects indicated by the sound source object information.
  • the bitstream is composed of metadata (control information) and an audio signal.
  • the audio signal and metadata may be stored in a single bitstream or may be stored separately in multiple bitstreams. Similarly, the audio signal and metadata may be stored in a single file or may be stored separately in multiple files.
  • a bitstream may exist for each sound source, or for each playback time. If a bitstream exists for each playback time, multiple bitstreams may be processed in parallel at the same time.
  • Metadata may be added to each bitstream, or may be added together as information for controlling multiple bitstreams. Metadata may also be added for each playback time.
  • the audio signal and metadata may contain information indicating other bitstreams or files related to one or some of the bitstreams or files, or may contain information indicating other bitstreams or files related to each of all the bitstreams or files.
  • related bitstreams or files are, for example, bitstreams or files that may be used simultaneously during audio processing.
  • the related bitstreams or files may contain a bitstream or file that collectively describes information indicating other related bitstreams or files.
  • the information indicating the other related bitstream or file is, for example, an identifier indicating the other bitstream, or a file name, URL (Uniform Resource Locator), or URI (Uniform Resource Identifier) indicating the other file.
  • the acquisition unit 111 identifies or acquires the bitstream or file based on the information indicating the other related bitstream or file.
  • the bitstream may contain information indicating the other related bitstream, and may also contain information indicating a bitstream or file related to another bitstream or file.
  • the file containing information indicating the related bitstream or file may be, for example, a control file such as a manifest file used for content distribution.
  • the metadata may be obtained from sources other than the bitstream of the audio signal.
  • the metadata controlling the audio or the metadata controlling the video may be obtained from sources other than the bitstream, or both may be obtained from sources other than the bitstream.
  • the audio signal reproduction system may have a function of outputting metadata that can be used to control the video to a display device that displays images, or a three-dimensional video reproduction device that reproduces three-dimensional video (for example, three-dimensional video reproduction device 200 in the embodiment).
  • Metadata may be information used to describe a scene represented in sound space.
  • a scene is a term that refers to the collection of all elements that represent three-dimensional images and acoustic events in sound space, which are modeled in an audio signal reproduction system using metadata.
  • metadata here may include not only information that controls audio processing, but also information that controls video processing.
  • metadata may include information that controls only audio processing or video processing, or information used to control both.
  • the audio signal reproduction system generates virtual sound effects by performing acoustic processing on the audio signal using metadata included in the bitstream and additionally acquired interactive listener position information.
  • the acoustic effects of early reflection processing, obstacle processing, diffraction processing, blocking processing, and reverberation processing are described, but other acoustic processing may be performed using metadata.
  • the audio signal reproduction system may add acoustic effects such as distance attenuation effect, localization, and Doppler effect. Information for switching all or part of the acoustic effects on and off, and priority information may also be added as metadata.
  • the encoded metadata includes information about a sound space including a sound source object and an obstacle object, and information about a position when the sound image of the sound is localized at a specific position in the sound space (i.e., perceived as a sound arriving from a specific direction).
  • an obstacle object is an object that can affect the sound perceived by the listener, for example by blocking or reflecting the sound emitted by the sound source object until it reaches the listener.
  • Obstacle objects can include not only stationary objects, but also animals such as people, or moving objects such as machines.
  • the other sound source objects can be obstacle objects for any sound source object.
  • Non-sound-emitting objects which are objects that do not emit sound, such as building materials or inanimate objects, and sound source objects that emit sound can both be obstacle objects.
  • the metadata includes all or part of the information that represents the shape of the sound space, the shape and position information of obstacle objects that exist in the sound space, the shape and position information of sound source objects that exist in the sound space, and the position and orientation of the listener in the sound space.
  • the sound space may be either a closed space or an open space.
  • the metadata also includes information that indicates the reflectance of structures that can reflect sound in the sound space, such as floors, walls, or ceilings, and the reflectance of obstacle objects that exist in the sound space.
  • the reflectance is the ratio of the energy of the reflected sound to the incident sound, and is set for each frequency band of sound. Of course, the reflectance may be set uniformly regardless of the frequency band of sound.
  • parameters such as a uniform attenuation rate, diffracted sound, and early reflected sound may be used.
  • reflectance is used as an example, but the parameters related to obstacle objects or sound source objects included in the metadata may include information other than reflectance.
  • information other than reflectance may include information related to the material of the object as metadata related to both sound source objects and non-sound-producing objects.
  • information other than reflectance may include parameters such as diffusion rate, transmittance, and sound absorption rate.
  • Information about a sound source object may include volume, radiation characteristics (directivity), playback conditions, the number and type of sound sources emitted from one object, and information specifying the sound source area in the object.
  • the playback conditions may determine, for example, whether the sound is a continuous sound or an event-triggering sound.
  • the sound source area in the object may be determined in a relative relationship between the listener's position and the object's position, or may be determined based on the object.
  • the surface from which the listener is looking at the object is used as the reference, and the listener can be made to perceive that sound A is emitted from the right side of the object and sound B is emitted from the left side.
  • the surface from which the listener is looking at the object is used as the reference, and the listener can be made to perceive that which sound is emitted from which area of the object, regardless of the direction from which the listener is looking.
  • the listener can be made to perceive that a high-pitched sound is coming from the right side and a low-pitched sound is coming from the left side when the listener is looking at the object from the front.
  • the listener can be made to perceive that a low-pitched sound is coming from the right side and a high-pitched sound is coming from the left side when viewed from the back.
  • Spatial metadata can include time to early reflections, reverberation time, and the ratio of direct sound to diffuse sound. If the ratio of direct sound to diffuse sound is zero, the listener will only perceive direct sound.
  • FIG. 4 is a block diagram showing the functional configuration of the acquisition unit according to the embodiment.
  • the acquisition unit 111 according to the embodiment includes, for example, an encoded sound information input unit 112, a decode processing unit 113, and a sensing information input unit 114.
  • the encoded sound information input unit 112 is a processing unit to which the encoded (in other words, encoded) sound information acquired by the acquisition unit 111 is input.
  • the encoded sound information input unit 112 outputs the input sound information to the decoding processing unit 113.
  • the decoding processing unit 113 is a processing unit that decodes (in other words, decodes) the sound information output from the encoded sound information input unit 112 to generate information about a specific sound contained in the sound information and information about a specific position in a format that can be used for subsequent processing.
  • the sensing information input unit 114 will be explained below along with the functions of the detector 103.
  • the detector 103 is a device for detecting the speed of movement of the user 99's head.
  • the detector 103 is configured by combining various sensors used for detecting movement, such as a gyro sensor and an acceleration sensor.
  • the detector 103 is built into the sound reproduction system 100, but it may also be built into an external device, such as a 3D image reproduction device 200 that operates in response to the movement of the user 99's head in the same way as the sound reproduction system 100. In this case, the detector 103 does not need to be included in the sound reproduction system 100.
  • the detector 103 may detect the movement of the user 99 by capturing an image of the head movement of the user 99 using an external imaging device or the like and processing the captured image.
  • the detector 103 is, for example, fixed integrally to the housing of the sound reproduction system 100 and detects the speed of movement of the housing. After the sound reproduction system 100 including the housing is worn by the user 99, it moves integrally with the user 99's head, and as a result, the detector 103 can detect the speed of movement of the user 99's head.
  • the detector 103 may detect, for example, the amount of movement of the user 99's head by detecting the amount of rotation about at least one of three mutually orthogonal axes in three-dimensional space as the axis of rotation, or may detect the amount of displacement about at least one of the three axes as the direction of displacement. The detector 103 may also detect both the amount of rotation and the amount of displacement as the amount of movement of the user 99's head.
  • the sensing information input unit 114 acquires the movement speed of the head of the user 99 from the detector 103. More specifically, the sensing information input unit 114 acquires the amount of head movement of the user 99 detected by the detector 103 per unit time as the movement speed. In this way, the sensing information input unit 114 acquires at least one of the rotation speed and the displacement speed from the detector 103.
  • the amount of head movement of the user 99 acquired here is used to determine the position and posture (in other words, coordinates and orientation) of the user 99 in the three-dimensional sound field. In the sound reproduction system 100, the relative position of the sound image is determined based on the determined coordinates and orientation of the user 99, and the sound is reproduced.
  • the listening point in the three-dimensional sound field can be changed depending on the amount of head movement of the user 99.
  • the sensing information input unit 114 can accept an instruction to change the relative position between the listening point and the sound image (sound source object), including a first change amount by which the relative position changes depending on the instruction.
  • Relative position is a concept that indicates the position of one relative to the other, expressed by at least one of the relative distance and relative direction between the sound collection device or listening point and the sound image (sound source object).
  • the processing unit 121 determines, based on the determined coordinates and orientation of the user 99, from which direction in the three-dimensional sound field the user 99 will perceive a given sound as coming, and processes the sound information so that the output sound information to be reproduced will be such a sound. In addition to the above processing, the processing unit 121 then executes acoustic processing to impart fluctuations.
  • the fluctuations imparted here include fluctuations in relative distance, in which the distance between the sound source object and the sound pickup device changes repeatedly in the time domain, and fluctuations in relative direction, in which the direction between the sound source object and the sound pickup device changes repeatedly in the time domain.
  • FIG. 5 is a block diagram showing the functional configuration of a processing unit according to an embodiment.
  • the processing unit 121 includes a determination unit 122, a storage unit 123, and an execution unit 124 as functional parts for executing sound processing. Note that the processing unit 121 also includes other functional parts (not shown) related to the processing of the above-mentioned sound information.
  • the determination unit 122 performs a determination to decide whether or not to execute acoustic processing. For example, the determination unit 122 determines whether or not a predetermined condition is satisfied, and decides to execute acoustic processing if the predetermined condition is satisfied, and decides not to execute acoustic processing if the predetermined condition is not satisfied. Details of the predetermined condition will be described later. Information indicating the predetermined condition is stored in a storage device by the storage unit 123, for example.
  • the memory unit 123 is a memory controller that stores information in a memory device (not shown) that stores information, and performs processing to read information.
  • the execution unit 124 executes acoustic processing according to the determination result of the determination unit 122.
  • the signal output unit 141 is a functional unit that generates an output sound signal and outputs the generated output sound signal to the driver 104.
  • the signal output unit 141 determines the fixed position of the sound, performs processing for localizing the sound at that position, and generates an output audio signal as digital data for the sound information after acoustic processing has been performed according to the determination result.
  • the signal output unit 141 then generates a waveform signal by performing signal conversion from digital to analog based on the output audio signal, and causes the driver 104 to generate sound waves based on the waveform signal, presenting the sound to the user 99.
  • the driver 104 has, for example, a diaphragm and a driving mechanism such as a magnet and a voice coil. The driver 104 operates the driving mechanism according to the waveform signal, and vibrates the diaphragm using the driving mechanism.
  • the driver 104 generates sound waves by the vibration of the diaphragm according to the output audio signal (meaning that the output sound signal is "reproduced”; in other words, the meaning of "reproduction” does not include the perception by the user 99), and the sound waves propagate through the air and are transmitted to the ears of the user 99, and the user 99 perceives the sound.
  • the sound reproduction system 100 is a sound presentation device, and has been described as including an information processing device 101, a communication module 102, a detector 103, and a driver 104, but the functions of the sound reproduction system 100 may be realized by a plurality of devices or by a single device. This will be described with reference to Figures 6 to 15.
  • Figures 6 to 15 are diagrams for explaining another example of the sound reproduction system according to the embodiment.
  • the information processing device 601 may be included in the audio presentation device 602, and the audio presentation device 602 may perform both audio processing and sound presentation.
  • the information processing device 601 and the audio presentation device 602 may share the acoustic processing described in this disclosure, or a server connected to the information processing device 601 or the audio presentation device 602 via a network may perform part or all of the acoustic processing described in this disclosure.
  • the information processing device 601 is referred to as such, but if the information processing device 601 performs acoustic processing by decoding a bit stream generated by encoding at least a portion of the data of an audio signal or spatial information used in acoustic processing, the information processing device 601 may be referred to as a decoding device, and the acoustic reproduction system 100 (i.e., the stereophonic reproduction system 600 in the figure) may be referred to as a decoding processing system.
  • FIG. 7 is a functional block diagram showing a configuration of an encoding device 700 which is an example of an encoding device according to the present disclosure.
  • the input data 701 is data to be encoded, including spatial information and/or audio signals, that is input to the encoder 702. Details of the spatial information will be explained later.
  • the encoder 702 encodes the input data 701 to generate encoded data 703.
  • the encoded data 703 is, for example, a bit stream generated by the encoding process.
  • Memory 704 stores encoded data 703.
  • Memory 704 may be, for example, a hard disk or a solid-state drive (SSD), or may be another storage device.
  • SSD solid-state drive
  • a bit stream generated by the encoding process is given as an example of the encoded data 703 stored in the memory 704, but data other than a bit stream may be used.
  • the encoding device 700 may convert a bit stream into a predetermined data format and store the converted data in the memory 704.
  • the converted data may be, for example, a file or multiplexed stream that stores one or more bit streams.
  • the file is, for example, a file having a file format such as ISOBMFF (ISO Base Media File Format).
  • ISOBMFF ISO Base Media File Format
  • the encoded data 703 may also be in the form of multiple packets generated by dividing the bit stream or file.
  • the encoding device 700 may be provided with a conversion unit (not shown), or the conversion process may be performed by a CPU (Central Processing Unit).
  • FIG. 8 is a functional block diagram showing a configuration of a decoding device 800 which is an example of a decoding device according to the present disclosure.
  • the memory 804 stores, for example, the same data as the encoded data 703 generated by the encoding device 700.
  • the memory 804 reads out the stored data and inputs it as input data 803 to the decoder 802.
  • the input data 803 is, for example, a bit stream to be decoded.
  • the memory 804 may be, for example, a hard disk or SSD, or may be another storage device.
  • the decoding device 800 may not use the data stored in the memory 804 as input data 803 as it is, but may convert the read data and generate converted data as input data 803.
  • the data before conversion may be, for example, multiplexed data that stores one or more bit streams.
  • the multiplexed data may be, for example, a file having a file format such as ISOBMFF.
  • the data before conversion may also be in the form of multiple packets generated by dividing the bit stream or file.
  • the decoding device 800 may be provided with a conversion unit (not shown), or the conversion process may be performed by a CPU.
  • the decoder 802 decodes the input data 803 to generate an audio signal 801 that is presented to the listener.
  • FIG. 9 is a functional block diagram showing a configuration of an encoding device 900, which is another example of an encoding device according to the present disclosure.
  • components having the same functions as those in Fig. 7 are denoted by the same reference numerals, and descriptions of these components are omitted.
  • the coding device 700 differs from the coding device 700 in that the coding device 900 includes a transmission unit 901 that transmits the coded data 703 to the outside, whereas the coding device 700 includes a memory 704 that stores the coded data 703.
  • the transmitting unit 901 transmits a transmission signal 902 to another device or server based on the encoded data 703 or data in another data format generated by converting the encoded data 703.
  • the data used to generate the transmission signal 902 is, for example, the bit stream, multiplexed data, file, or packet described in the encoding device 700.
  • Fig. 10 is a functional block diagram showing a configuration of a decoding device 1000, which is another example of a decoding device according to the present disclosure.
  • Fig. 10 components having the same functions as those in Fig. 8 are denoted by the same reference numerals, and descriptions of these components are omitted.
  • the decoding device 800 differs from the decoding device 1000 in that the decoding device 800 is provided with a memory 804 that reads the input data 803, whereas the decoding device 1000 is provided with a receiving unit 1001 that receives the input data 803 from outside.
  • the receiving unit 1001 receives the received signal 1002, acquires the received data, and outputs the input data 803 to be input to the decoder 802.
  • the received data may be the same as the input data 803 to be input to the decoder 802, or may be data in a different data format from the input data 803. If the received data is data in a different data format from the input data 803, the receiving unit 1001 may convert the received data into the input data 803, or a conversion unit or CPU (not shown) provided in the decoding device 1000 may convert the received data into the input data 803.
  • the received data is, for example, a bit stream, multiplexed data, a file, or a packet, as described in the encoding device 900.
  • FIG. 11 is a functional block diagram showing a configuration of a decoder 1100, which is an example of the decoder 802 in FIG. 8 or FIG.
  • the input data 803 is an encoded bitstream and includes encoded audio data, which is an encoded audio signal, and metadata used for audio processing.
  • the spatial information management unit 1101 acquires metadata contained in the input data 803 and analyzes the metadata.
  • the metadata includes information describing elements that act on sounds arranged in a sound space.
  • the spatial information management unit 1101 manages spatial information necessary for sound processing obtained by analyzing the metadata, and provides the spatial information to the rendering unit 1103.
  • the information used for sound processing is called spatial information in this disclosure, it may be called something else.
  • the information used for the sound processing may be called, for example, sound space information or scene information.
  • the spatial information input to the rendering unit 1103 may be called a spatial state, a sound space state, a scene state, etc.
  • the spatial information may be managed for each sound space or for each scene. For example, when different rooms are represented as virtual spaces, each room may be managed as a different sound space scene, or the spatial information may be managed as different scenes depending on the scene being represented, even if it is the same space.
  • an identifier for identifying each piece of spatial information may be assigned.
  • the spatial information data may be included in a bitstream, which is one form of input data 803, or the bitstream may include an identifier for the spatial information and the spatial information data may be obtained from somewhere other than the bitstream. If the bitstream includes only an identifier for the spatial information, the identifier for the spatial information may be used during rendering to obtain the spatial information data stored in the memory of the audio signal processing device or an external server as input data.
  • the information managed by the spatial information management unit 1101 is not limited to the information included in the bitstream.
  • the input data 803 may include data indicating the characteristics or structure of the space obtained from a software application or server that provides VR or AR as data not included in the bitstream.
  • the input data 803 may include data indicating the characteristics or position of a listener or an object as data not included in the bitstream.
  • the input data 803 may include information obtained by a sensor provided in a terminal including a decoding device as information indicating the position of the listener, or information indicating the position of the terminal estimated based on information obtained by the sensor.
  • the spatial information management unit 1101 may communicate with an external system or server to obtain spatial information and the position of the listener.
  • the spatial information management unit 1101 may obtain clock synchronization information from an external system and execute a process of synchronizing with the clock of the rendering unit 1103.
  • the space in the above description may be a virtually formed space, i.e., a VR space, or may be a real space or a virtual space corresponding to a real space, i.e., an AR space or an MR (Mixed Reality) space.
  • the virtual space may also be called a sound field or sound space.
  • the information indicating a position in the above description may be information such as coordinate values indicating a position within a space, information indicating a relative position with respect to a predetermined reference position, or information indicating the movement or acceleration of a position within a space.
  • the audio data decoder 1102 decodes the encoded audio data contained in the input data 803 to obtain an audio signal.
  • the encoded audio data acquired by the stereophonic sound reproduction system 600 is a bitstream encoded in a specific format, such as MPEG-H 3D Audio (ISO/IEC 23008-3).
  • MPEG-H 3D Audio is merely one example of an encoding method that can be used to generate the encoded audio data contained in the bitstream, and the encoded audio data may also be included in a bitstream encoded in another encoding method.
  • the encoding method used may be a lossy codec such as MP3 (MPEG-1 Audio Layer-3), AAC (Advanced Audio Coding), WMA (Windows Media Audio), AC3 (Audio Codec-3), or Vorbis, or a lossless codec such as ALAC (Apple Lossless Audio Codec) or FLAC (Free Lossless Audio Codec), or any other encoding method may be used.
  • MP3 MPEG-1 Audio Layer-3
  • AAC Advanced Audio Coding
  • WMA Windows Media Audio
  • AC3 Audio Codec-3
  • Vorbis Vorbis
  • ALAC Apple Lossless Audio Codec
  • FLAC Free Lossless Audio Codec
  • PCM Pulse Code Modulation
  • the decoding process may be, for example, a process of converting an N-bit binary number into a number format (e.g., floating-point format) that can be processed by the rendering unit 1103 when the number of quantization bits of the PCM data is N.
  • a number format e.g., floating-point format
  • the rendering unit 1103 receives an audio signal and spatial information, performs acoustic processing on the audio signal using the spatial information, and outputs the audio signal 801 after acoustic processing.
  • the spatial information management unit 1101 reads metadata of the input signal, detects rendering items such as objects or sounds defined in the spatial information, and sends them to the rendering unit 1103. After rendering begins, the spatial information management unit 1101 grasps changes over time in the spatial information and the position of the listener, and updates and manages the spatial information. The spatial information management unit 1101 then sends the updated spatial information to the rendering unit 1103. The rendering unit 1103 generates and outputs an audio signal to which acoustic processing has been added based on the audio signal included in the input data and the spatial information received from the spatial information management unit 1101.
  • the spatial information update process and the audio signal output process with added acoustic processing may be executed in the same thread, or the spatial information management unit 1101 and the rendering unit 1103 may be allocated to independent threads.
  • the thread startup frequency may be set individually, or the processes may be executed in parallel.
  • the spatial information management unit 1101 and the rendering unit 1103 execute processing in different independent threads, it is possible to allocate computational resources preferentially to the rendering unit 1103, so that sound output processing that cannot tolerate even the slightest delay, for example, sound output processing in which a delay of even one sample (0.02 msec) would cause a popping noise, can be safely performed.
  • the allocation of computational resources to the spatial information management unit 1101 is limited.
  • updating spatial information is a low-frequency process (for example, a process such as updating the direction of the listener's face). For this reason, unlike the output processing of audio signals, it does not necessarily require an instantaneous response, so even if the allocation of computational resources is limited, there is no significant impact on the acoustic quality provided to the listener.
  • the spatial information may be updated periodically at preset times or intervals, or when preset conditions are met.
  • the spatial information may also be updated manually by the listener or the manager of the sound space, or may be triggered by a change in an external system. For example, if a listener operates a controller to instantly warp the position of his or her avatar, or to instantly advance or reverse the time, or if the manager of the virtual space suddenly performs a performance that changes the environment of the venue, the thread in which the spatial information management unit 1101 is located may be started as a one-off interrupt process in addition to being started periodically.
  • the role of the information update thread that executes the spatial information update process is, for example, to update the position or orientation of the listener's avatar placed in the virtual space based on the position or orientation of the VR goggles worn by the listener, and to update the position of objects moving in the virtual space, and these roles are handled within a processing thread that runs relatively infrequently, on the order of a few tens of Hz. Processing to reflect the properties of direct sound may be performed in such an infrequent processing thread. This is because the properties of direct sound change less frequently than the frequency with which audio processing frames for audio output occur. By doing so, the computational load of the process can be made relatively small, and the risk of pulsive noise occurring when information is updated at an unnecessarily fast frequency can be avoided.
  • FIG. 12 is a functional block diagram showing the configuration of a decoder 1200, which is another example of the decoder 802 in FIG. 8 or FIG. 10.
  • FIG. 12 differs from FIG. 11 in that the input data 803 includes an uncoded audio signal rather than encoded audio data.
  • the input data 803 includes a bitstream including metadata and an audio signal.
  • the spatial information management unit 1201 is the same as the spatial information management unit 1101 in FIG. 11, so a description thereof will be omitted.
  • the rendering unit 1202 is the same as the rendering unit 1103 in FIG. 11, so a description thereof will be omitted.
  • the configuration in FIG. 12 is called a decoder, but it may also be called an audio processing unit that performs audio processing.
  • a device that includes an audio processing unit may be called an audio processing device rather than a decoding device.
  • an audio signal processing device (information processing device 601) may be called an audio processing device.
  • Fig. 13 is a diagram showing an example of the physical configuration of an encoding device.
  • the encoding device shown in Fig. 13 is an example of the encoding devices 700 and 900 described above.
  • the encoding device in FIG. 13 includes a processor, a memory, and a communication interface.
  • the processor may be, for example, a CPU (Central Processing Unit), a DSP (Digital Signal Processor), or a GPU (Graphics Processing Unit), and the encoding process of the present disclosure may be performed by the CPU, DSP, or GPU executing a program stored in memory.
  • the processor may also be a dedicated circuit that performs signal processing on audio signals, including the encoding process of the present disclosure.
  • Memory is composed of, for example, RAM (Random Access Memory) or ROM (Read Only Memory). Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • the communication IF (Inter Face) is a communication module that supports communication methods such as Bluetooth (registered trademark) or WIGIG (registered trademark).
  • the encoding device has the function of communicating with other communication devices via the communication IF, and transmits an encoded bit stream.
  • the communication module is composed of, for example, a signal processing circuit and an antenna corresponding to the communication method.
  • Bluetooth registered trademark
  • WIGIG registered trademark
  • the communication IF may be a wired communication method such as Ethernet (registered trademark), USB (Universal Serial Bus), or HDMI (registered trademark) (High-Definition Multimedia Interface) instead of the wireless communication method described above.
  • Fig. 14 is a diagram showing an example of the physical configuration of an audio signal processing device. Note that the audio signal processing device in Fig. 14 may be a decoding device. Also, a part of the configuration described here may be provided in a sound presentation device 602. Also, the audio signal processing device shown in Fig. 14 is an example of the above-mentioned audio signal processing device 601.
  • the acoustic signal processing device in FIG. 14 includes a processor, a memory, a communication IF, a sensor, and a speaker.
  • the processor may be, for example, a CPU (Central Processing Unit), a DSP (Digital Signal Processor), or a GPU (Graphics Processing Unit), and the CPU, DSP, or GPU may execute a program stored in memory to perform the audio processing or decoding processing of the present disclosure.
  • the processor may also be a dedicated circuit that performs signal processing on audio signals, including the audio processing of the present disclosure.
  • Memory is composed of, for example, RAM (Random Access Memory) or ROM (Read Only Memory). Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • the communication IF (Inter Face) is a communication module compatible with communication methods such as Bluetooth (registered trademark) or WIGIG (registered trademark).
  • the audio signal processing device shown in FIG. 2I has a function of communicating with other communication devices via the communication IF, and acquires a bitstream to be decoded.
  • the acquired bitstream is stored, for example, in a memory.
  • the communication module is composed of, for example, a signal processing circuit and an antenna corresponding to the communication method.
  • Bluetooth registered trademark
  • WIGIG registered trademark
  • the communication IF may be a wired communication method such as Ethernet (registered trademark), USB (Universal Serial Bus), or HDMI (registered trademark) (High-Definition Multimedia Interface) instead of the wireless communication method described above.
  • the sensor performs sensing to estimate the position or orientation of the listener. Specifically, the sensor estimates the position and/or orientation of the listener based on one or more detection results of the position, orientation, movement, velocity, angular velocity, acceleration, etc. of a part of the listener's body, such as the listener's head, or the whole, and generates position information indicating the position and/or orientation of the listener.
  • the position information may be information indicating the position and/or orientation of the listener in real space, or information indicating the displacement of the position and/or orientation of the listener based on the position and/or orientation of the listener at a specified time.
  • the position information may also be information indicating the position and/or orientation relative to the stereophonic reproduction system or an external device equipped with the sensor.
  • the sensor may be, for example, an imaging device such as a camera or a ranging device such as LiDAR (Light Detection and Ranging), and may capture the movement of the listener's head and detect the movement of the listener's head by processing the captured image.
  • the sensor may be a device that performs position estimation using wireless signals of any frequency band, such as millimeter waves.
  • the audio signal processing device shown in FIG. 14 may obtain position information from an external device equipped with a sensor via a communication IF.
  • the audio signal processing device does not need to include a sensor.
  • the external device is, for example, the audio presentation device 602 described in FIG. 6 or a 3D image playback device worn on the listener's head.
  • the sensor is configured by combining various sensors such as a gyro sensor and an acceleration sensor.
  • the sensor may detect, for example, the angular velocity of rotation about at least one of three mutually orthogonal axes in the sound space as the speed of movement of the listener's head, or may detect the acceleration of displacement with at least one of the three axes as the displacement direction.
  • the sensor may detect, for example, the amount of movement of the listener's head as the amount of rotation about at least one of three mutually orthogonal axes in the sound space, or the amount of displacement about at least one of the three axes. Specifically, the sensor detects 6DoF (position (x, y, z) and angle (yaw, pitch, roll)) as the listener's position.
  • the sensor is configured by combining various sensors used for detecting movement, such as a gyro sensor and an acceleration sensor.
  • the sensor only needs to be capable of detecting the position of the listener, and may be realized by a camera or a GPS (Global Positioning System) receiver. Position information obtained by performing self-position estimation using LiDAR (Laser Imaging Detection and Ranging) or the like may also be used. For example, when the audio signal playback system is realized by a smartphone, the sensor is built into the smartphone.
  • GPS Global Positioning System
  • the sensor may also include a temperature sensor such as a thermocouple that detects the temperature of the audio signal processing device shown in FIG. 14, and a sensor that detects the remaining charge of a battery provided in or connected to the audio signal processing device.
  • a temperature sensor such as a thermocouple that detects the temperature of the audio signal processing device shown in FIG. 14, and a sensor that detects the remaining charge of a battery provided in or connected to the audio signal processing device.
  • a speaker for example, has a diaphragm, a drive mechanism such as a magnet or voice coil, and an amplifier, and presents the audio signal after acoustic processing as sound to the listener.
  • the speaker operates the drive mechanism in response to the audio signal (more specifically, a waveform signal that indicates the waveform of the sound) amplified via the amplifier, and the drive mechanism vibrates the diaphragm.
  • the diaphragm vibrates in response to the audio signal, generating sound waves that propagate through the air and are transmitted to the listener's ears, allowing the listener to perceive the sound.
  • the audio signal processing device shown in FIG. 14 has a speaker and presents an audio signal after acoustic processing through the speaker
  • the means for presenting the audio signal is not limited to the above configuration.
  • the audio signal after acoustic processing may be output to an external audio presentation device 602 connected by a communication module. Communication through the communication module may be wired or wireless.
  • the audio signal processing device shown in FIG. 14 may have a terminal for outputting an analog audio signal, and a cable such as an earphone may be connected to the terminal to present the audio signal from the earphone or the like.
  • the audio signal is reproduced by headphones, earphones, a head-mounted display, a neck speaker, a wearable speaker, a surround speaker consisting of multiple fixed speakers, or the like that is worn on the head or part of the body of the listener, which is the audio presentation device 602.
  • FIG. 15 is a functional block diagram showing an example of a detailed configuration of the rendering units 1103 and 1202 in FIGS.
  • the rendering unit is composed of an analysis unit and a synthesis unit, and applies acoustic processing to the sound data contained in the input signal before outputting it.
  • the input signal is composed of, for example, spatial information, sensor information, and sound data.
  • the input signal may include a bitstream composed of sound data and metadata (control information), in which case the metadata may include spatial information.
  • Spatial information is information about the sound space (three-dimensional sound field) created by the stereophonic playback system, and is composed of information about the objects contained in the sound space and information about the listener.
  • Objects include sound source objects that emit sound and act as sound sources, and non-sound producing objects that do not emit sound. Non-sound producing objects function as obstacle objects that reflect sounds emitted by sound source objects, but sound source objects may also function as obstacle objects that reflect sounds emitted by other sound source objects.
  • Information that is commonly assigned to sound source objects and non-sound generating objects includes position information, shape information, and the rate at which the volume decays when the object reflects sound.
  • the position information is expressed as coordinate values on three axes, for example the X-axis, Y-axis, and Z-axis, in Euclidean space, but it does not necessarily have to be three-dimensional information.
  • it may be two-dimensional information expressed as coordinate values on two axes, the X-axis and the Y-axis.
  • the position information of an object is determined by the representative position of a shape expressed by a mesh or voxel.
  • the shape information may also include information about the surface material.
  • the information may also include information indicating whether the object belongs to a living organism or whether the object is a moving object. If the object is a moving object, the position information may move over time, and the changed position information or the amount of change is transmitted to the rendering unit.
  • Information about the sound source object includes the information commonly assigned to the sound source object and non-sound generating object described above, as well as sound data and information necessary to radiate the sound data into the sound space.
  • the sound data is data that expresses the sound perceived by the listener, including information about the frequency and intensity of the sound.
  • the sound data is typically a PCM signal, but may also be data compressed using an encoding method such as MP3.
  • the rendering unit may include a decoding unit (not shown).
  • the data may be decoded by the audio data decoder 1102.
  • At least one piece of sound data needs to be set for one sound source object, and multiple pieces of sound data may be set.
  • identification information for identifying each piece of sound data may be assigned, and the identification information for the sound data may be held as information related to the sound source object.
  • Information necessary for radiating sound data into a sound space may include, for example, information on the reference volume that serves as a standard when playing back sound data, information indicating the properties (also called characteristics) of the sound data, information on the position of the sound source object, information on the orientation of the sound source object, information on the directionality of the sound emitted by the sound source object, etc.
  • the reference volume information is, for example, the effective value of the amplitude value of the sound data at the sound source position when the sound data is radiated into the sound space, and may be expressed as a floating point decibel (dB) value.
  • the reference volume is 0 dB
  • Such information is assigned to one piece of sound data or to multiple pieces of sound data collectively.
  • the information indicating the properties of the sound data may be, for example, information regarding the volume of the sound source, and may be information indicating time-series fluctuations. For example, if the sound space is a virtual conference room and the sound source is a speaker, the volume transitions intermittently over a short period of time. Expressed more simply, this can be said to be alternating between sound and silence parts.
  • the volume information of the sound source includes not only information on the volume of the sound, but also information on the transition of the volume of the sound, and such information may be used as information indicating the nature of the sound data.
  • the information on the transition in loudness may be data showing frequency characteristics in a time series. It may be data showing the duration of a section where sound is present. It may be data showing a time series of the duration of a section where sound is present and the duration of a section where sound is absent. It may be data listing multiple sets of data on the duration for which the amplitude of a sound signal can be considered to be stationary (considered to be roughly constant) and the amplitude value of the signal during that time in a time series. It may be data on the duration for which the frequency characteristics of a sound signal can be considered to be stationary. It may be data listing multiple sets of data on the duration for which the frequency characteristics of a sound signal can be considered to be stationary and the frequency characteristics during that time in a time series.
  • the data format may be, for example, data showing the outline of a spectrogram.
  • the volume that is the basis for the frequency characteristics may be the reference volume.
  • the information on the reference volume and the information showing the properties of the sound data may be used to calculate the volume of the direct sound or reflected sound to be perceived by the listener, as well as in a selection process for selecting whether or not to make the sound perceived by the listener.
  • Other examples of the information showing the properties of the sound data and specific ways in which it is used in the selection process will be described later.
  • Orientation information is typically expressed in terms of yaw, pitch, and roll.
  • the roll rotation may be omitted and the information may be expressed in terms of azimuth (yaw) and elevation (pitch).
  • Orientation information may change over time, and if it does, it is transmitted to the rendering unit.
  • the information about the listener is information about the listener's position and orientation in sound space.
  • the position information is expressed as a position on the XYZ axes in Euclidean space, but it does not necessarily have to be three-dimensional information and can be two-dimensional information.
  • Orientation information is typically expressed in yaw, pitch, and roll. Alternatively, the roll rotation can be omitted and it can be expressed in azimuth (yaw) and elevation (pitch).
  • the position information and orientation information can change over time, and if they do change, they are transmitted to the rendering unit.
  • the sensor information includes the amount of rotation or displacement detected by a sensor worn by the listener, and the position and orientation of the listener.
  • the sensor information is transmitted to the rendering unit, which updates the position and orientation information of the listener based on the sensor information.
  • the sensor information may be, for example, position information obtained by a mobile terminal performing self-position estimation using a GPS, a camera, or LiDAR (Laser Imaging Detection and Ranging).
  • Information obtained from outside via a communication module other than a sensor may be detected as sensor information.
  • Information indicating the temperature of the audio signal processing device and information indicating the remaining battery level may be obtained from the sensor.
  • Computing resources (CPU capacity, memory resources, PC performance) of the audio signal processing device and audio signal presentation device may be obtained in real time.
  • the analysis unit performs the same function as the acquisition unit 111 in the above example. In other words, it analyzes the input signal and acquires the necessary information in the processing unit 121.
  • the synthesis unit performs functions equivalent to those of the processing unit 121 and signal output unit 141 in the above example. Based on the audio signal of the direct sound and information on the direct sound arrival time and volume at the time of direct sound arrival calculated by the analysis unit, it processes the input audio signal to generate direct sound. It also processes the input audio signal to generate reflected sound based on information on the reflected sound arrival time and volume at the time of reflected sound arrival calculated by the analysis unit. The synthesis unit synthesizes the generated direct sound and reflected sound and outputs it.
  • Fig. 16 is a flowchart showing the operation of the sound reproduction system according to the embodiment.
  • Fig. 17 is a diagram for explaining the frequency characteristics of the sound processing according to the embodiment.
  • Fig. 18 is a diagram for explaining the magnitude of fluctuation of the sound processing according to the embodiment.
  • Fig. 19 is a diagram for explaining the period and angle of fluctuation of the sound processing according to the embodiment.
  • the judgment unit 122 judges whether or not acoustic processing is to be executed. Specifically, the judgment unit 122 reads out predetermined conditions stored in the memory unit 123, and judges whether or not the predetermined conditions are satisfied, thereby judging whether or not acoustic processing is to be executed (S102).
  • the change in the sound pressure of a specific sound in the acquired sound information in the time domain is below a specific threshold, it is considered that the specific sound in the sound information does not contain fluctuations and adding fluctuations is appropriate. If a condition regarding the change in sound pressure in the time domain is set as a condition that can be considered appropriate for performing acoustic processing, it can be determined that the specified condition is met when the change in sound pressure in the time domain is below the above threshold.
  • FIG. 17 shows the difference in distance traveled by sounds of each frequency in each direction in the horizontal plane at the same sound pressure when the sounds are emitted from the sound source (the center of each dashed circle).
  • Each diagram in FIG. 17 shows the difference in the propagation characteristics of the sound in each direction at that frequency, and it can be said that the more distorted the shape is, the more likely the fluctuation of the sound source is reflected.
  • the shape changes from a circular shape to a distorted shape, and it can be said that the fluctuation is more likely to be reflected.
  • the shape changes from a circular shape to a more distorted shape, and it can be said that the fluctuation is more likely to be reflected.
  • acoustic processing when adding fluctuation, even if acoustic processing is performed on frequencies below 1000 Hz, it is difficult to obtain the effect of fluctuation. Therefore, acoustic processing may be performed only on frequencies above 1000 Hz, or only on frequencies above 4000 Hz. Alternatively, acoustic processing may be performed such that the fluctuation increases as the frequency increases.
  • the positional relationship between the sound collection device and the sound source is estimated using a specific position or the sound pressure of a specific sound in the acquired sound information, and if the estimated positional relationship is below a specific threshold, it is considered that a close-talking sound collection device such as a headset microphone is being used, and therefore the specific sound in the sound information does not contain fluctuations and it is considered appropriate to add fluctuations. If a condition regarding the estimated positional relationship is set as a condition that can be considered appropriate for performing acoustic processing, it can be determined that the specific condition is met when the positional relationship is below the above threshold.
  • Figure 18 shows the results of plotting human head movement on three axes, XYZ.
  • the top row shows a plot of head movement in the Y-axis direction (up and down)
  • the middle row shows a plot of head movement in the Z-axis direction (front and back)
  • the bottom row shows a plot of head movement in the X-axis direction (left and right).
  • the human head can move ⁇ 0.2 m in the X-axis direction (left and right), ⁇ 0.02 m in the Y-axis direction (up and down), and ⁇ 0.05 m in the Z-axis direction (front and back).
  • the estimated positional relationship is considered to be below a certain threshold, such as when a close-talking sound pickup device such as a headset microphone is used.
  • sound processing when adding fluctuations, sound processing can be performed by reproducing a movement of ⁇ 0.2 m in the X-axis direction (left-right direction), a movement of ⁇ 0.02 m in the Y-axis direction (up-down direction), and a movement of ⁇ 0.05 m in the Z-axis direction (front-back direction).
  • sound processing can be performed under processing conditions that correspond to the positional relationship between the sound pickup device and the sound source.
  • Figure 19 also shows the results of plotting the rotation angle of a human head movement on three rotation axes: Yaw, Pitch, and Roll.
  • the upper row shows the rotation angle at the Yaw angle
  • the middle row shows the rotation angle at the Pitch angle
  • the lower row shows the rotation angle at the Roll angle.
  • the human head rotates at a Yaw angle of ⁇ 20 degrees, a Pitch angle of ⁇ 10 degrees, and a Yaw angle of ⁇ 3 degrees over a 3-4 s period.
  • the estimated positional relationship is considered to be below a certain threshold, such as when a close-talking sound pickup device such as a headset microphone is used.
  • sound processing when adding fluctuations, sound processing can be performed by reproducing a rotation of ⁇ 20 degrees in the Yaw angle, a rotation of ⁇ 10 degrees in the Pitch angle, and a rotation of ⁇ 3 degrees in the Yaw angle in a cycle of 3 to 4 seconds. In this way, sound processing can be performed under processing conditions that correspond to the positional relationship between the sound pickup device and the sound source.
  • the reverberation level and/or noise level indicated in the sound collection situation information is below a predetermined threshold, it is considered that a close-talking sound collection device such as a headset microphone is being used, and therefore the predetermined sound of the sound information does not contain fluctuations and it is considered appropriate to add fluctuations. If conditions regarding the reverberation level and/or noise level indicated in the sound collection situation information are set as conditions that are considered appropriate for performing acoustic processing, it can be determined that the predetermined conditions are met when the reverberation level and/or noise level indicated in the sound collection situation information is below the above threshold.
  • information about the sound collection device (information identifying the device, such as the model number, or information indicating the characteristics of the device, such as whether or not fluctuation is required) that indicates that a close-talking sound collection device, such as a headset microphone, was used to collect sound may be used to determine that the specified conditions are met if the information indicates that a close-talking sound collection device, such as a headset microphone, was used.
  • the execution unit 124 executes the acoustic processing (S103). On the other hand, if the determination unit 122 determines that the above-mentioned predetermined condition is not satisfied (No in S102), the execution unit 124 does not execute the acoustic processing (S104). Then, the signal output unit 141 generates and outputs an output audio signal (S105).
  • Fig. 20 is a block diagram showing the functional configuration of a processing unit according to another example of the embodiment.
  • Fig. 21 is a flowchart showing the operation of an audio processing device according to another example of the embodiment. Note that in the following description of the other example, the "sound collection device" in some of the above-mentioned embodiments may be replaced with "listening point" to omit the description.
  • the sound reproduction system of the alternative embodiment differs in that it includes a processing unit 121a instead of the processing unit 121.
  • the processing unit 121a has a calculation unit 125 instead of the determination unit 122.
  • the calculation unit 125 calculates a first change amount and a second change amount.
  • the first change amount is an amount of change based on an instruction to change the relative position between the listening point and the sound source object, and corresponds to the amount of movement in the so-called VR space. And, in the virtual sound space only, it is the amount of change in the relative position between the listening point and the sound source object accompanying the movement of the listening point.
  • the first change amount is an instruction of the change in the relative position at that time, that is, the change amount, is obtained by obtaining the detection result from the detector 103 as a sensor. That is, in this example, the acquisition unit 111 (particularly the sensing information input unit 114) receives an instruction including the first change amount.
  • the first change amount and the second change amount are calculated separately.
  • the second change amount may be calculated based on the detection result, or may be calculated independently of the detection result.
  • the second change amount may be calculated by a function using the rate of change in the relative position between the sound source object and the listening point shown in the detection result, or the first change amount, which is the change amount.
  • the second change amount may be calculated uniquely without using (independently of) the rate of change in the relative position between the sound source object and the listening point, or the first change amount, which is the change amount, simply based on information attached to the content when the content was created, such as control information and sound collection situation information.
  • the second change amount which corresponds to the magnitude of the fluctuation, should be in accordance with the first change amount, and the larger the first change amount is, the larger the second change amount should be.
  • the second change amount which corresponds to the magnitude of the fluctuation
  • changes according to the first change amount it may be appropriate to set the second change amount to a smaller amount (e.g., 0) as the first change amount increases.
  • adding fluctuation does not have much of an effect of increasing the sense of realism. This is because the change due to the fluctuation and the change in relative position are synchronized and overlap or cancel each other out, making it difficult for the listener to perceive that fluctuation has been added.
  • the acquisition unit 111 acquires sound information (audio signal) (S201).
  • the calculation unit 125 calculates a first change amount (S202).
  • the calculation unit 125 also calculates a second change amount (S203). Whether or not to execute sound processing (whether or not to impart fluctuation) can be set by whether or not to calculate the second change amount as 0.
  • the execution unit 124 executes sound processing as sound processing, which changes the relative position by the first change amount and repeatedly changes the relative position by the second change amount in the time domain (S204).
  • the signal output unit 141 generates and outputs an output sound signal (S205).
  • the sound reproduction system described in the above embodiment may be realized as a single device having all the components, or may be realized by allocating each function to a plurality of devices and coordinating these devices.
  • a sound processing device such as a smartphone, a tablet terminal, or a PC may be used as the device corresponding to the sound processing device.
  • a server may perform all or part of the renderer's functions. That is, all or part of the acquisition unit 111, the processing unit 121, and the signal output unit 141 may be present in a server (not shown).
  • the sound reproduction system 100 is realized by combining, for example, a sound processing device such as a computer or a smartphone, a sound presentation device such as a head-mounted display (HMD) or earphones worn by the user 99, and a server (not shown).
  • a sound processing device such as a computer or a smartphone
  • a sound presentation device such as a head-mounted display (HMD) or earphones worn by the user 99
  • a server not shown.
  • the computer, the sound presentation device, and the server may be connected to each other so as to be able to communicate with each other via the same network, or may be connected via different networks. If they are connected via different networks, there is a high possibility that communication delays will occur, so processing on the server may be permitted only when the computer, sound presentation device, and server are connected to be able to communicate via the same network. Also, depending on the amount of bitstream data accepted by the sound reproduction system 100, it may be determined whether the server will take on all or part of the functions of the renderer.
  • the sound reproduction system of the present disclosure can also be realized as a sound processing device that is connected to a reproduction device equipped with only a driver and that only reproduces an output sound signal generated based on acquired sound information for the reproduction device.
  • the sound processing device may be realized as hardware equipped with a dedicated circuit, or as software that causes a general-purpose processor to execute specific processing.
  • processing performed by a specific processing unit may be executed by another processing unit.
  • the order of multiple processes may be changed, and multiple processes may be executed in parallel.
  • each component may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or processor reading and executing a software program recorded on a recording medium such as a hard disk or semiconductor memory.
  • each component may be realized by hardware.
  • each component may be a circuit (or an integrated circuit). These circuits may form a single circuit as a whole, or each may be a separate circuit. Furthermore, each of these circuits may be a general-purpose circuit, or a dedicated circuit.
  • the general or specific aspects of the present disclosure may be realized in an apparatus, a device, a method, an integrated circuit, a computer program, or a recording medium such as a computer-readable CD-ROM.
  • the general or specific aspects of the present disclosure may be realized in any combination of an apparatus, a device, a method, an integrated circuit, a computer program, and a recording medium.
  • the present disclosure may be realized as an audio signal reproducing method executed by a computer, or as a program for causing a computer to execute the audio signal reproducing method.
  • the present disclosure may be realized as a computer-readable non-transitory recording medium on which such a program is recorded.
  • this disclosure also includes forms obtained by applying various modifications to each embodiment that a person skilled in the art may conceive, or forms realized by arbitrarily combining the components and functions of each embodiment within the scope of the spirit of this disclosure.
  • the encoded sound information in this disclosure can be rephrased as a bitstream including a sound signal, which is information about a specific sound reproduced by the sound reproduction system 100, and metadata, which is information about a localization position when a sound image of the specific sound is localized at a specific position in a three-dimensional sound field.
  • the sound information may be acquired by the sound reproduction system 100 as a bitstream encoded in a specific format such as MPEG-H 3D Audio (ISO/IEC 23008-3).
  • the encoded sound signal includes information about a specific sound reproduced by the sound reproduction system 100.
  • the specific sound here is a sound emitted by a sound source object present in the three-dimensional sound field or a natural environmental sound, and may include, for example, a mechanical sound or the voice of an animal including a human.
  • the sound reproduction system 100 will acquire multiple sound signals corresponding to the multiple sound source objects.
  • Metadata is information used to control, for example, the acoustic processing of a sound signal in the sound reproduction system 100.
  • the metadata may be information used to describe a scene expressed in a virtual space (three-dimensional sound field).
  • a scene is a term that refers to a collection of all elements that represent three-dimensional images and acoustic events in a virtual space, which are modeled in the sound reproduction system 100 using metadata.
  • the metadata here may include not only information that controls acoustic processing, but also information that controls video processing.
  • the metadata may include information that controls only one of the acoustic processing and the video processing, or may include information used to control both.
  • the bitstream acquired by the sound reproduction system 100 may include such metadata.
  • the sound reproduction system 100 may acquire the metadata separately, separately from the bitstream, as described below.
  • the sound reproduction system 100 performs sound processing on the sound signal using metadata included in the bitstream and additionally acquired position information of the interactive user 99, thereby generating virtual sound effects.
  • sound effects such as early reflection sound generation, late reverberation sound generation, diffraction sound generation, distance attenuation effect, localization, sound image localization processing, or Doppler effect may be added.
  • Information for switching all or part of the sound effects on and off may also be added as metadata.
  • Metadata may be obtained from sources other than the bitstream of audio information.
  • the metadata controlling the audio or the metadata controlling the video may be obtained from sources other than the bitstream, or both metadata may be obtained from sources other than the bitstream.
  • the audio reproduction system 100 may have a function for outputting metadata that can be used for controlling the video to a display device that displays images or a 3D video reproduction device that reproduces 3D video.
  • the encoded metadata includes information about a three-dimensional sound field including a sound source object that emits a sound and an obstacle object, and information about a position when the sound image of the sound is localized at a predetermined position in the three-dimensional sound field (i.e., the sound is perceived as arriving from a predetermined direction), i.e., information about the predetermined direction.
  • an obstacle object is an object that can affect the sound perceived by the user 99, for example, by blocking or reflecting the sound emitted by the sound source object until it reaches the user 99.
  • obstacle objects can include animals such as people, or moving objects such as machines.
  • the other sound source objects can be obstacle objects for any sound source object.
  • both non-sound source objects such as building materials or inanimate objects and sound source objects that emit sounds can be obstacle objects.
  • the spatial information constituting the metadata may include not only the shape of the three-dimensional sound field, but also information representing the shape and position of obstacle objects present in the three-dimensional sound field, and the shape and position of sound source objects present in the three-dimensional sound field.
  • the three-dimensional sound field may be either a closed space or an open space
  • the metadata includes information representing the reflectance of structures that can reflect sound in the three-dimensional sound field, such as floors, walls, or ceilings, and the reflectance of obstacle objects present in the three-dimensional sound field.
  • the reflectance is the ratio of the energy of the reflected sound to the incident sound, and is set for each frequency band of the sound.
  • the reflectance may be set uniformly regardless of the frequency band of the sound.
  • parameters such as the attenuation rate, diffracted sound, or early reflected sound, which are set uniformly, may be used.
  • reflectance was mentioned as a parameter related to an obstacle object or sound source object included in the metadata, but the metadata may also include information other than reflectance.
  • metadata related to both sound source objects and non-sound source objects may include information related to the material of the object.
  • the metadata may include parameters such as diffusion rate, transmittance, or sound absorption rate.
  • Information about the sound source object may include volume, radiation characteristics (directivity), playback conditions, the number and type of sound sources emitted from one object, or information specifying the sound source area in the object.
  • the playback conditions may determine, for example, whether the sound is a sound that continues to play continuously or a sound that triggers an event.
  • the sound source area in the object may be determined in a relative relationship between the position of the user 99 and the position of the object, or may be determined based on the object.
  • the surface on which the user 99 is looking at the object is used as the reference, and the user 99 can be made to perceive that sound X is coming from the right side of the object and sound Y is coming from the left side as seen by the user 99.
  • it is determined based on the object it is possible to fix which sound is coming from which area of the object, regardless of the direction in which the user 99 is looking.
  • the user 99 can be made to perceive that a high-pitched sound is coming from the right side and a low-pitched sound is coming from the left side when looking at the object from the front.
  • the user 99 goes around to the back of the object, the user 99 can be made to perceive that a low-pitched sound is coming from the right side and a high-pitched sound is coming from the left side when viewed from the back.
  • Spatial metadata can include the time to early reflections, reverberation time, or the ratio of direct sound to diffuse sound. If the ratio of direct sound to diffuse sound is zero, the user 99 will only perceive direct sound.
  • information indicating the position and orientation of the user 99 in the three-dimensional sound field may be included in the bitstream as metadata in advance as an initial setting, or may not be included in the bitstream. If the information indicating the position and orientation of the user 99 is not included in the bitstream, the information indicating the position and orientation of the user 99 is obtained from information other than the bitstream.
  • the position information of the user 99 in the VR space may be obtained from an app that provides VR content
  • the position information of the user 99 for presenting sound as AR may be obtained by using, for example, position information obtained by a mobile terminal performing self-position estimation using a GPS, a camera, or LiDAR (Laser Imaging Detection and Ranging).
  • the sound signal and metadata may be stored in one bitstream or may be stored separately in multiple bitstreams.
  • the sound signal and metadata may be stored in one file or may be stored separately in multiple files.
  • information indicating other related bitstreams may be included in one or some of the multiple bitstreams in which the audio signal and metadata are stored. Also, information indicating other related bitstreams may be included in the metadata or control information of each bitstream of the multiple bitstreams in which the audio signal and metadata are stored.
  • information indicating other related bitstreams or files may be included in one or some of the multiple files in which the audio signal and metadata are stored. Also, information indicating other related bitstreams or files may be included in the metadata or control information of each bitstream of the multiple bitstreams in which the audio signal and metadata are stored.
  • the related bitstreams or files are, for example, bitstreams or files that may be used simultaneously during audio processing.
  • information indicating other related bitstreams may be described collectively in the metadata or control information of one bitstream among the multiple bitstreams storing audio signals and metadata, or may be described separately in the metadata or control information of two or more bitstreams among the multiple bitstreams storing audio signals and metadata.
  • information indicating other related bitstreams or files may be described collectively in the metadata or control information of one file among the multiple files storing audio signals and metadata, or may be described separately in the metadata or control information of two or more files among the multiple files storing audio signals and metadata.
  • a control file in which information indicating other related bitstreams or files is described collectively may be generated separately from the multiple files storing audio signals and metadata. In this case, the control file does not have to store audio signals and metadata.
  • the information indicating the other related bitstream or file may be, for example, an identifier indicating the other bitstream, a file name indicating the other file, a URL (Uniform Resource Locator), or a URI (Uniform Resource Identifier).
  • the acquisition unit 111 identifies or acquires the bitstream or file based on the information indicating the other related bitstream or file.
  • the information indicating the other related bitstream may be included in the metadata or control information of at least some of the bitstreams among the multiple bitstreams storing the sound signal and metadata
  • the information indicating the other related file may be included in the metadata or control information of at least some of the files among the multiple files storing the sound signal and metadata.
  • the file including the information indicating the related bitstream or file may be, for example, a control file such as a manifest file used for content distribution.
  • This disclosure is useful when reproducing sound, such as allowing a user to perceive three-dimensional sound.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

情報処理方法は、音源から発せられる音を、収音装置を用いて収音した音声信号を取得するステップ(S101)と、前記音声信号に対して、前記収音装置と前記音源との相対位置を時間領域で繰り返し変化させる音響処理を実行するステップ(S103)と、前記音響処理を実行済みの出力音声信号を出力するステップ(S105)とを含む。

Description

音響処理方法、音響処理装置、及び、プログラム
 本開示は、音響処理方法、音響処理装置、及び、プログラムに関する。
 従来、仮想的な三次元空間内で、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている(例えば、特許文献1参照)。また、このような三次元空間内で音源オブジェクトからユーザへと到来するように音を知覚させるためには、元となる音情報から出力音情報を生成する処理が必要となる。ここで、音を受聴するユーザに三次元空間内での臨場感をより感じさせるために、音の定位感を増加させる音響処理が行われることがある。例えば、座標ゆらぎ付加装置から入力された音源座標の方向から音が聴こえてくるように定位感をもたらす立体音響処理装置が知られている(特許文献1参照)。
特開2005-295416号公報
 音の定位感を増加させるためにゆらぎを付与する場合、そのゆらぎの付与の音響処理が適切に実行できない場合がある。そこで、本開示では、音響処理をより適切に実行するための音響処理方法等について説明する。
 本開示の一態様に係る音響処理方法は、音源から発せられる音を、収音装置を用いて収音した音声信号を取得するステップと、前記音声信号に対して、前記収音装置と前記音源との相対位置を時間領域で繰り返し変化させる音響処理を実行するステップと、前記音響処理を実行済みの出力音声信号を出力するステップとを含む。
 また、本開示の別の一態様に係る音響処理方法は、仮想音空間内の音源オブジェクトから発せられる音を、前記仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理方法であって、前記音源オブジェクトから発せられる音を含む音声信号を取得するステップと、前記受聴点と前記音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって前記相対位置が変化する第1変化量を含む指示を受け付けるステップと、前記音声信号に対して、前記相対位置を前記第1変化量変化させ、かつ、前記相対位置を時間領域で第2変化量繰り返し変化させる音響処理を実行するステップと、前記音響処理を実行済みの前記出力音声信号を出力するステップとを含む。
 また本開示の一態様に係る音響処理装置は、音源から発せられる音を、収音装置を用いて収音した音声信号を取得する取得部と、前記音声信号に対して、前記収音装置と前記音源との相対位置を時間領域で繰り返し変化させる音響処理を実行する処理部と、前記音響処理を実行済みの出力音声信号を出力する出力部とを備える。
 また、本開示の別の一態様に係る音響処理装置は、仮想音空間内の音源オブジェクトから発せられる音を、前記仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理装置であって、前記音源オブジェクトから発せられる音を含む音声信号を取得する取得部と、前記受聴点と前記音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって前記相対位置が変化する第1変化量を含む指示を受け付ける受付部と、前記音声信号に対して、前記相対位置を前記第1変化量変化させ、かつ、前記相対位置を時間領域で第2変化量繰り返し変化させる音響処理を実行する処理部と、前記音響処理を実行済みの前記出力音声信号を出力する出力部とを備える。
 また、本開示の一態様は、上記に記載の音響処理方法をコンピュータに実行させるためのプログラムとして実現することもできる。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 本開示によれば、音響処理をより適切に実行することが可能となる。
図1は、実施の形態に係る音響再生システムの使用事例を示す概略図である。 図2Aは、実施の形態に係る音響再生システムの使用事例を説明するための図である。 図2Bは、実施の形態に係る音響再生システムの使用事例を説明するための図である。 図3は、実施の形態に係る音響再生システムの機能構成を示すブロック図である。 図4は、実施の形態に係る取得部の機能構成を示すブロック図である。 図5は、実施の形態に係る処理部の機能構成を示すブロック図である。 図6は、実施の形態に係る音響再生システムの別の例を説明するための図である。 図7は、実施の形態に係る音響再生システムの別の例を説明するための図である。 図8は、実施の形態に係る音響再生システムの別の例を説明するための図である。 図9は、実施の形態に係る音響再生システムの別の例を説明するための図である。 図10は、実施の形態に係る音響再生システムの別の例を説明するための図である。 図11は、実施の形態に係る音響再生システムの別の例を説明するための図である。 図12は、実施の形態に係る音響再生システムの別の例を説明するための図である。 図13は、実施の形態に係る音響再生システムの別の例を説明するための図である。 図14は、実施の形態に係る音響再生システムの別の例を説明するための図である。 図15は、実施の形態に係る音響再生システムの別の例を説明するための図である。 図16は、実施の形態に係る音響処理装置の動作を示すフローチャートである。 図17は、実施の形態に係る音響処理の周波数特性について説明するための図である。 図18は、実施の形態に係る、音響処理のゆらぎの大きさについて説明するための図である。 図19は、実施の形態に係る、音響処理のゆらぎの周期及び角度について説明するための図である。 図20は、実施の形態の別例に係る処理部の機能構成を示すブロック図である。 図21は、実施の形態の別例に係る音響処理装置の動作を示すフローチャートである。
 (開示の基礎となった知見)
 従来、仮想的な三次元空間内(以下、三次元音場又は仮想音空間という場合がある)で、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている(例えば、特許文献1参照)。この技術を用いることで、ユーザは仮想空間内の所定位置に音源オブジェクトが存在し、その方向から音が到来するかのごとく、この音を知覚することができる。このように仮想的な三次元空間内の所定位置に音像を定位させるには、例えば、音源オブジェクトの音の信号に対して、立体的な音として知覚されるような両耳間での音の到来時間差、及び、両耳間での音のレベル差(又は音圧差)などを生じさせる計算処理が必要となる。このような計算処理は、立体音響フィルタを適用することによって行われる。立体音響フィルタは、元の音情報に対して、当該フィルタを適用した後の出力音信号が再生されると、音の方向や距離などの位置や音源の大きさ、空間の広さなどが立体感をもって知覚されるようになる情報処理用のフィルタである。
 このような立体音響フィルタの適用の計算処理の一例として、所定方向から到来する音として知覚させるための頭部伝達関数を目的の音の信号に対して畳み込む処理が知られている。この頭部伝達関数の畳み込みの処理を、音源オブジェクトの位置からユーザ位置までの音の到来方向に対して、十分に細かい角度で実施することで、ユーザが体感する臨場感が向上される。
 また、近年、仮想現実(VR:Virtual Reality)に関する技術の開発が盛んに行われている。仮想現実では、三次元音場での音の定位感が映像の臨場感にもつながるため、定位感を増加させるための音響処理が実行されることがある。音の定位感を増加させるためにゆらぎを付与する場合、その効果の観点では全ての音に一様にゆらぎを付与する必要はない。言い換えると、ゆらぎの付与が効果的に作用する条件が存在する。そのような条件を満たす場合のみにゆらぎの付与を行うことで不必要に処理リソースを準備する必要がなくなるため好適といえる。
 より具体的な本開示の概要は、以下の通りである。
 本開示の第1態様に係る音響処理方法は、音源から発せられる音を、収音装置を用いて収音した音声信号を取得するステップと、音声信号に対して、収音装置と音源との相対位置を時間領域で繰り返し変化させる音響処理を実行するステップと、音響処理を実行済みの出力音声信号を出力するステップとを含む。
 このような音響処理方法によれば、収音装置を用いて収音した音声信号のように、集音装置の配置位置が、音源の位置に対して相対的に変化しない等の臨場感が失われる条件である場合に、音響処理によって収音装置と音源との相対位置を時間領域で繰り返し変化させてゆらぎを付与することで、失われた臨場感を再生させることができる。このように、臨場感の再生という観点で音響処理をより適切に実行することが可能となる。
 また、第2態様に係る音響処理方法は、第1態様に記載の音響処理方法であって、音響処理を実行するステップでは、音声信号における音圧の時間領域における変化が、当該変化に関する所定の条件を満たすか否かを判定し、所定の条件を満たすと判定された場合に音響処理を実行し、所定の条件を満たさないと判定された場合に音響処理を実行しない。
 このような音響処理方法によれば、音声信号における音圧の時間領域における変化に関する所定の条件を満たすか否かの判定により音響処理の実行の有無を変化させることができる。
 また、第3態様に係る音響処理方法は、第1又は第2態様に記載の音響処理方法であって、音響処理を実行するステップでは、音声信号を用いて収音装置と音源との位置関係を推定し、推定した位置関係が、当該位置関係に関する所定の条件を満たすか否かを判定し、所定の条件を満たすと判定された場合に音響処理を実行し、所定の条件を満たさないと判定された場合に音響処理を実行しない。
 このような音響処理方法によれば、音声信号を用いて推定した収音装置と音源との位置関係に関する所定の条件を満たすか否かの判定により音響処理の実行の有無を変化させることができる。
 また、第4態様に係る音響処理方法は、第1~第3態様のいずれか1態様に記載の音響処理方法であって、音声信号は、収音時の状況に関する収音状況情報を含み、音響処理を実行するステップでは、音声信号に含まれる収音状況情報が、当該収音状況情報に関する所定の条件を満たすか否かを判定し、所定の条件を満たすと判定された場合に音響処理を実行し、所定の条件を満たさないと判定された場合に音響処理を実行しない。
 このような音響処理方法によれば、音声信号に含まれる収音状況情報に関する所定の条件を満たすか否かの判定により音響処理の実行の有無を変化させることができる。
 また、第5態様に係る音響処理方法は、第1~第4態様のいずれか1態様に記載の音響処理方法であって、音響処理を実行するステップでは、音声信号を用いて収音装置と音源との位置関係を推定し、推定した位置関係に応じた処理条件で音響処理を実行する。
 このような音響処理方法によれば、音声信号を用いて推定した収音装置と音源との位置関係に応じた処理条件で音響処理を実行することができる。
 また、第6態様に係る音響処理方法は、仮想音空間内の音源オブジェクトから発せられる音を、仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理方法であって、音源オブジェクトから発せられる音を含む音声信号を取得するステップと、受聴点と音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって相対位置が変化する第1変化量を含む指示を受け付けるステップと、音声信号に対して、相対位置を第1変化量変化させ、かつ、相対位置を時間領域で第2変化量繰り返し変化させる音響処理を実行するステップと、音響処理を実行済みの出力音声信号を出力するステップとを含む。
 このような音響処理方法によれば、仮想音空間内の音源オブジェクトから発せられる音を、仮想音空間内の受聴点において受聴したように知覚させる際に、受聴点と音源オブジェクトとの相対位置を変化させる指示に基づく第1変化量の相対位置の変化とは別に、音声信号ですでに臨場感が失われている場合に、音響処理によって受聴点と音源オブジェクトとの相対位置を時間領域で第2変化量繰り返し変化させてゆらぎを付与することで、失われた臨場感を再生させることができる。このように、臨場感の再生という観点で音響処理をより適切に実行することが可能となる。
 また、第7態様に係る音響処理方法は、第6態様に記載の音響処理方法であって、音源オブジェクトは、実空間のユーザを模しており、音響処理方法は、実空間に設けられた、ユーザを検知するセンサから検知結果を取得するステップをさらに含み、第2変化量は、検知結果に基づき算出される。
 このような音響処理方法によれば、第2変化量として、音源オブジェクトに対応する実空間のユーザを検知するセンサから取得した検知結果により第2変化量を算出することができる。
 また、第8態様に係る音響処理方法は、第6態様に記載の音響処理方法であって、音源オブジェクトは、実空間のユーザを模しており、音響処理方法は、実空間に設けられた、ユーザを検知するセンサから検知結果を取得するステップをさらに含み、第2変化量は、検知結果とは独立して算出される。
 このような音響処理方法によれば、音源オブジェクトに対応する実空間のユーザを検知するセンサから取得した検知結果とは独立して、第2変化量を算出することができる。
 また、第9態様に係る音響処理方法は、第6態様に記載の音響処理方法であって、第2変化量は、第1変化量とは独立して算出される。
 このような音響処理方法によれば、第1変化量とは独立した第2変化量を算出することができる。
 また、第10態様に係る音響処理方法は、第6態様に記載の音響処理方法であって、第2変化量は、第1変化量が大きいほど大きい数値として算出される。
 このような音響処理方法によれば、第1変化量が大きいほど大きい第2変化量を算出することができる。
 また、第11態様に係る音響処理方法は、第6態様に記載の音響処理方法であって、第2変化量は、第1変化量が小さいほど大きい数値として算出される。
 このような音響処理方法によれば、第1変化量が小さいほど大きい第2変化量を算出することができる。
 また、第12態様に係る音響処理方法は、第1~11のいずれか1態様に記載の音響処理方法であって、音声信号に対する制御情報を取得するステップをさらに含み、音響処理を実行するステップでは、制御情報が、音響処理を実行させることを示していた場合に、音響処理を実行する。
 このような音響処理方法によれば、取得した制御情報が、音響処理を実行させることを示していた場合に、音響処理を実行することができる。
 また、本開示の第13態様に係る音響処理装置は、音源から発せられる音を、収音装置を用いて収音した音声信号を取得する取得部と、音声信号に対して、収音装置と音源との相対位置を時間領域で繰り返し変化させる音響処理を実行する処理部と、音響処理を実行済みの出力音声信号を出力する出力部とを備える。
 このような音響処理装置によれば、上記に記載の音響処理方法と同様の効果を奏することができる。
 また、本開示の第14態様に係る音響処理装置は、仮想音空間内の音源オブジェクトから発せられる音を、仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理装置であって、音源オブジェクトから発せられる音を含む音声信号を取得する取得部と、受聴点と音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって相対位置が変化する第1変化量を含む指示を受け付ける受付部と、音声信号に対して、相対位置を第1変化量変化させ、かつ、相対位置を時間領域で第2変化量繰り返し変化させる音響処理を実行する処理部と、音響処理を実行済みの出力音声信号を出力する出力部とを備える。
 このような音響処理装置によれば、上記に記載の音響処理方法と同様の効果を奏することができる。
 さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。
 また、以下の説明において、第1、第2及び第3等の序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。
 (実施の形態)
 [概要]
 はじめに、実施の形態に係る音響再生システムの概要について説明する。図1は、実施の形態に係る音響再生システムの使用事例を示す概略図である。図1では、音響再生システム100を使用するユーザ99が示されている。
 図1に示す音響再生システム100は、立体映像再生装置200と同時に使用されている。立体的な画像及び立体的な音を同時に視聴することで、画像が聴覚的な臨場感を、音が視覚的な臨場感をそれぞれ高め合い、画像及び音が撮られた現場に居るかのように体感することができる。例えば、人が会話をする画像(動画像)が表示されている場合に、会話音の音像の定位が当該人の口元とずれている場合にも、ユーザ99が、当該人の口から発せられた会話音として知覚することが知られている。このように視覚情報によって、音像の位置が補正されるなど、画像と音とが併せられることで臨場感が高められることがある。
 立体映像再生装置200は、ユーザ99の頭部に装着される画像表示デバイスである。したがって、立体映像再生装置200は、ユーザ99の頭部と一体的に移動する。例えば、立体映像再生装置200は、図示するように、ユーザ99の耳と鼻とで支持するメガネ型のデバイスである。
 立体映像再生装置200は、ユーザ99の頭部の動きに応じて表示する画像を変化させることで、ユーザ99が三次元画像空間内で頭部を動かしているように知覚させる。つまり、ユーザ99の正面に三次元画像空間内の物体が位置しているときに、ユーザ99が右を向くと当該物体がユーザ99の左方向に移動し、ユーザ99が左を向くと当該物体がユーザ99の右方向に移動する。このように、立体映像再生装置200は、ユーザ99の動きに対して、三次元画像空間をユーザ99の動きとは逆方向に移動させる。
 立体映像再生装置200は、ユーザ99の左右の目それぞれに視差分のずれが生じた2つの画像をそれぞれ表示する。ユーザ99は、表示される画像の視差分のずれに基づき、画像上の物体の三次元的な位置を知覚することができる。なお、音響再生システム100を睡眠誘導用のヒーリング音の再生に使用する等、ユーザ99が目を閉じて使用する場合等には、立体映像再生装置200が同時に使用される必要はない。つまり、立体映像再生装置200は、本開示の必須の構成要素ではない。立体映像再生装置200としては、専用の映像表示デバイスの他にも、ユーザ99が所有するスマートフォン、タブレット装置など、汎用の携帯端末が用いられる場合もある。
 このような汎用の携帯端末には、映像を表示するためのディスプレイの他に、端末の姿勢や動きを検知するための各種のセンサが搭載されている。さらには、情報処理用のプロセッサも搭載され、ネットワークに接続してクラウドサーバなどのサーバ装置と情報の送受信が可能になっている。つまり、立体映像再生装置200及び音響再生システム100をスマートフォンと、情報処理機能のない汎用のヘッドフォン等との組み合わせによって実現することもできる。
 この例のように、頭部の動きを検知する機能、映像の提示機能、提示用の映像情報処理機能、音の提示機能、及び、提示用の音情報処理機能を1以上の装置に適切に配置して立体映像再生装置200及び音響再生システム100を実現してもよい。立体映像再生装置200が不要である場合には、頭部の動きを検知する機能、音の提示機能、及び、提示用の音情報処理機能を1以上の装置に適切に配置できればよく、例えば、提示用の音情報処理機能を有するコンピュータ又はスマートフォンなどの処理装置と、頭部の動きを検知する機能及び音の提示機能を有するヘッドフォン等とによって音響再生システム100を実現することもできる。
 音響再生システム100は、ユーザ99の頭部に装着される音提示デバイスである。したがって、音響再生システム100は、ユーザ99の頭部と一体的に移動する。例えば、本実施の形態における音響再生システム100は、いわゆるオーバーイヤーヘッドホン型のデバイスである。なお、音響再生システム100の形態に特に限定はなく、例えば、ユーザ99の左右の耳にそれぞれ独立して装着される2つの耳栓型のデバイスであってもよい。
 音響再生システム100は、ユーザ99の頭部の動きに応じて提示する音を変化させることで、ユーザ99が三次元音場内で頭部を動かしているようにユーザ99に知覚させる。このため、上記したように、音響再生システム100は、ユーザ99の動きに対して三次元音場をユーザ99の動きとは逆方向に移動させる。
 ここで、ユーザ99が受聴する音の臨場感を高めるという目的で、音にゆらぎを付与する音響処理を実行することがある。例えば、図2A及び図2Bは、実施の形態に係る音響再生システムの使用事例を説明するための図である。図2Aでは、いわゆるビデオ通話をしているユーザが示されている。図2Aの左図において、音声がヘッドセットのように、口(音源)とヘッドセットのマイク(収音装置)との位置がほとんど変わらない条件で収音される。しかしながら、右図の通話先では、映像上で動くユーザに対して、音源と収音装置との位置がほとんど移動しないことによる違和感が生じる。このような場合に、映像上で動くユーザの動きに合わせた音のゆらぎ、あるいは、会話中のユーザの一般的な動きに合わせた音のゆらぎを適用することで、音の違和感が低減されて臨場感が増加される。
 また、図2Bでは、いわゆるヴァーチャルライブ用の歌の音声をスタジオ収音しているユーザが示されている。収音しているユーザは受聴者であるユーザ99とは異なるユーザであってもよい。例えば、歌手やアーティストなどが想定される。図2Bの左図において、ユーザが固定されたマイクに向かって歌うことで歌の音声が収音される。収音された音声を用いて、右図のヴァーチャル映像上で音声を再生し、仮想空間内のライブ会場でユーザを模したアバターが踊りながら歌う映像とともに視聴をすることで、ヴァーチャルライブが実現される。このとき、アバターの動きに追従して音声の再生位置として、仮想音空間内の音源オブジェクト(アバターの頭部)の位置を指定すると、位置は合っていても実際のユーザにあるはずのゆらぎのわずかな動きが再現されず、音の臨場感が減少してしまう。本開示においては、このように、本来あるはずのゆらぎを音声に与えることで、音の臨場感を増加させる音響処理を行う。また、同様の課題が生じる別の状況として、図2Aのようなビデオ通話でユーザのゆらぎも含めて収音可能な収音装置を用いても、聴者に聞き取りやすい音にするためにAGC(自動音量調整)と呼ばれる機械的音声処理等が適用されて、音声からゆらぎが抑制されて逆に違和感が生じる場合がある。このような機械的音声処理によって抑制されたゆらぎを再び付与することで、音の違和感を低減して臨場感を増加させることも本開示には含まれる。
 一方、ゆらぎの付与は、出力される出力音信号にフィルタ処理をすることで、音を時間領域で繰り返し移動させるようにして行われる。この処理は、時間領域の連続する2つの時点でそれぞれ異なるフィルタを適用する必要があるため煩雑であり、ゆらぎの効果が見込まれない条件においては、音響処理を適用しないことが望ましい。
 [構成]
 次に、図3を参照して、本実施の形態に係る音響再生システム100の構成について説明する。図3は、実施の形態に係る音響再生システムの機能構成を示すブロック図である。
 図3に示すように、本実施の形態に係る音響再生システム100は、情報処理装置101と、通信モジュール102と、検知器103と、ドライバ104と、を備える。
 情報処理装置101は、音響処理装置の一例であり、音響再生システム100における各種の信号処理を行うための演算装置である、情報処理装置101は、例えば、コンピュータなどの、プロセッサとメモリとを備え、メモリに記憶されたプログラムがプロセッサによって実行される形で実現される。このプログラムの実行によって、以下で説明する各機能部に関する機能が発揮される。
 情報処理装置101は、取得部111、処理部121、及び、信号出力部141を有する。情報処理装置101が有する各機能部の詳細は、情報処理装置101以外の構成の詳細と併せて以下に説明する。
 通信モジュール102は、音響再生システム100への音情報の入力を受け付けるためのインタフェース装置である。通信モジュール102は、例えば、アンテナと信号変換器とを備え、無線通信により外部の装置から音情報を受信する。より詳しくは、通信モジュール102は、無線通信のための形式に変換された音情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号から音情報への再変換を行う。これにより、音響再生システム100は、外部の装置から無線通信により音情報を取得する。通信モジュール102によって取得された音情報は、取得部111によって取得される。このようにして音情報は、情報処理装置101に入力される。なお、音響再生システム100と外部の装置との通信は、有線通信によって行われてもよい。
 音響再生システム100が取得する音情報は、音源から発せられる音を、収音装置を用いて収音した音声信号である。音情報は、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)、MPEG-I等の所定の形式で符号化されている。一例として、符号化された音情報には、音響再生システム100によって再生される所定音についての情報と、当該音の音像を三次元音場内において所定位置に定位させる(つまり所定方向から到来する音として知覚させる)際の定位位置に関する情報と、その他のメタデータとが含まれる。例えば、音情報には第1の所定音及び第2の所定音を含む複数の音に関する情報が含まれ、それぞれの音が再生された際の音像を三次元音場内における異なる位置から到来する音として知覚させるように音像を定位させる。
 この立体的な音によって、例えば、立体映像再生装置200を用いて視認される画像と併せて、視聴されるコンテンツなどの臨場感を向上することができる。なお、音情報には、所定音についての情報のみが含まれていてもよい。この場合、所定位置に関する情報を別途取得してもよい。また、上記したように、音情報は、第1の所定音に関する第1音情報、及び、第2の所定音に関する第2音情報を含むが、これらを別個に含む複数の音情報をそれぞれ取得し、同時に再生することで三次元音場内における異なる位置に音像を定位させてもよい。このように、入力される音情報の形態に特に限定はなく、音響再生システム100に各種の形態の音情報に応じた取得部111が備えられればよい。
 音情報に含まれるメタデータは、ゆらぎを付与するための音響処理を制御するための制御情報を含む。制御情報は、音響処理を実行するか否かを指定するための情報である。例えば、制御情報において音響処理を実行することが指定されている場合に、さらに所定の条件を満たすか否かを判定して、所定の条件を満たす場合に音響処理を実行してもよいし、所定の条件を満たすか否かの判定によらず、音響処理を実行してもよい。一方で、制御情報において音響処理を実行しないことが指定されている場合には、音響処理を実行しない。このように、所定の条件を満たすか否かの判定と、制御情報において音響処理を実行することが指定されているか否かとの2つのトリガによって、音響処理を実行してもよく、音響処理を実行することが指定されているか否かの1つのトリガによって、音響処理を実行してもよい。制御情報は、メタデータに含まれていなくてもよい。例えば、制御情報は、音響再生システム100の動作設定によって指定することができ、記憶部に記憶されてもよい。そして、制御情報は、音響再生システム100の起動時に取得されて上記のように用いられてもよい。
 また、メタデータには、収音状況情報が含まれてもよい。収音状況情報は、音情報に含まれる所定音の収音に係る残響レベル及び雑音レベルである。収音状況情報の詳細については後述する。
 音情報はビットストリームとして取得されてもよい。音情報をビットストリームとして取得する場合のビットストリームの構造例について説明する。ビットストリームには、例えば、音声信号と、メタデータと、が含まれる。音声信号は、音の周波数及び強弱に関する情報などを示す、音が表現された音データである。メタデータは、上述した情報以外の空間情報を含んでいてもよい。空間情報は、音声信号に基づく音を聞くリスナが位置する空間に関する情報である。具体的には、空間情報は、当該音の音像を、音空間(例えば、三次元音場内)における所定の位置に定位させる際の、つまり、リスナに所定方向から到達する音として知覚させる際の当該所定の位置(定位位置)に関する情報である。空間情報には、例えば、音源オブジェクト情報と、リスナの位置を示す位置情報と、が含まれる。
 音源オブジェクト情報は、音声信号に基づく音を発生させる、つまり、音声信号を再生する物体を示すオブジェクトの情報であって、当該物体が配置される実空間に対応する仮想的な空間である音空間に配置される仮想的なオブジェクト(音源オブジェクト)に関する情報である。音源オブジェクト情報は、例えば、音空間に配置される音源オブジェクトの位置を示す情報、音源オブジェクトの向きに関する情報、音源オブジェクトが発する音の指向性に関する情報、音源オブジェクトが生物に属するか否かを示す情報、及び、音源オブジェクトが動体であるか否かを示す情報などを含む。例えば、音声信号は、音源オブジェクト情報が示す1以上の音源オブジェクトに対応している。
 ビットストリームのデータ構造の一例として、ビットストリームは、例えばメタデータ(制御情報)と音声信号とで構成される。
 音声信号とメタデータとは一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に音声信号とメタデータとは一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。
 ビットストリームは音源ごとに存在してもよいし、再生時間ごとに存在してもよい。再生時間ごとにビットストリームが存在する場合、同時に複数のビットストリームが並列で処理されてもよい。
 メタデータは、ビットストリームごとに付与されてもよく、複数のビットストリームを制御する情報としてまとめて付与されてもよい。また、メタデータは、再生時間ごとに付与されてもよい。
 音声信号とメタデータとは、複数のビットストリーム又は複数のファイルに別々に格納されている場合、一つもしくは一部のビットストリーム又はファイルに関連する他のビットストリーム又はファイルを示す情報が含まれていてもよいし、全てのビットストリーム又はファイルのそれぞれに関連する他のビットストリーム又はファイルを示す情報が含まれていてもよい。ここで、関連するビットストリーム又はファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連するビットストリーム又はファイルには、関連する他のビットストリーム又はファイルを示す情報をまとめて記述したビットストリーム又はファイルが含まれていてもよい。
 ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば、当該他のビットストリームを示す識別子又は他のファイルを示すファイル名又はURL(Uniform Resource Locator)又はURI(Uniform Resource Identifier)などである。この場合、取得部111は、関連する他のビットストリーム又はファイルを示す情報に基づいてビットストリーム又はファイルを特定又は取得する。また、ビットストリーム内に関連する他のビットストリームを示す情報が含まれていると共に、ビットストリーム内に別のビットストリーム又はファイルに関連するビットストリーム又はファイルを示す情報を含めていてもよい。また、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイルなどの制御ファイルであってもよい。
 なお、全てのメタデータ又は一部のメタデータは音声信号のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。また、映像を制御するメタデータが音声信号再生システム(音響再生システム100に対応)で取得されるビットストリームに含まれる場合は、音声信号再生システムは映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置(例えば、実施の形態における立体映像再生装置200)に対して出力する機能を備えていてもよい。
 さらに、メタデータに含まれる情報の例について説明する。
 メタデータは、音空間で表現されるシーンを記述するために用いられる情報であってもよい。ここで、シーンとは、メタデータを用いて音声信号再生システムでモデリングされる、音空間における三次元映像及び音響イベントを表すすべての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。勿論、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。
 音声信号再生システムは、ビットストリームに含まれるメタデータ及び、追加で取得されるインタラクティブなリスナの位置情報などを用いて、音声信号に音響処理を行うことで、仮想的な音響効果を生成する。本実施の形態では、音響効果のうち、初期反射処理と、障害物処理と、回折処理と、遮断処理と、残響処理とを行う場合を説明するが、メタデータを用いてほかの音響処理を行ってもよい。例えば、音声信号再生システムは、距離減衰効果、ローカリゼーション、ドップラー効果などの音響効果を付加することが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報、優先度情報をメタデータとして付加してもよい。
 また、一例として、符号化されたメタデータは、音源オブジェクト及び障害物オブジェクトを含む音空間に関する情報と、当該音の音像を音空間内において所定位置に定位させる(つまり、所定方向から到達する音として知覚させる)際の定位位置に関する情報とを含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がリスナへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、リスナが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、音空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。建材又は無生物などの音を発しないオブジェクトである非発音オブジェクトも、音を発する音源オブジェクトも障害物オブジェクトとなり得る。
 メタデータには、音空間の形状、音空間に存在する障害物オブジェクトの形状情報及び位置情報、音空間に存在する音源オブジェクトの形状情報及び位置情報、並びに音空間におけるリスナの位置及び向きをそれぞれ表す情報の全て又は一部が含まれる。
 音空間は、閉空間又は開空間のいずれであってもよい。また、メタデータには、例えば床、壁、又は天井等の音空間において音を反射し得る構造物の反射率、及び音空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。勿論、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。音空間が開空間の場合は、例えば一律で設定された減衰率、回折音、初期反射音などのパラメータが用いられてもよい。
 上記の説明では、反射率を例に挙げたが、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして、反射率以外の情報を含んでいてもよい。例えば、反射率以外の情報は、音源オブジェクト及び非発音オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、反射率以外の情報は、拡散率、透過率、吸音率などのパラメータを含んでいてもよい。
 音源オブジェクトに関する情報として、音量、放射特性(指向性)、再生条件、一つのオブジェクトから発せられる音源の数及び種類、並びに、オブジェクトにおける音源領域を指定する情報などを含めてもよい。再生条件では例えば、継続的に流れ続ける音なのか、イベント発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、リスナの位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。オブジェクトにおける音源領域がリスナの位置とオブジェクトの位置との相対的な関係で定められる場合、リスナがオブジェクトを見ている面を基準とし、リスナから見てオブジェクトの右側からは音A、左側からは音Bが発せられているようにリスナに知覚させることができる。オブジェクトにおける音源領域がオブジェクトを基準として定められる場合、リスナの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにリスナに知覚させることができる。この場合、リスナがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにリスナに知覚させることができる。
 空間に関するメタデータとして、初期反射音までの時間、残響時間、直接音と拡散音との比率などを含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをリスナに知覚させることができる。
 取得部111の一例を、図4を用いて説明する。図4は、実施の形態に係る取得部の機能構成を示すブロック図である。図4に示すように、本実施の形態における取得部111は、例えば、エンコード音情報入力部112、デコード処理部113、及び、センシング情報入力部114を備える。
 エンコード音情報入力部112は、取得部111が取得した、符号化された(言い換えるとエンコードされている)音情報が入力される処理部である。エンコード音情報入力部112は、入力された音情報をデコード処理部113へと出力する。
 デコード処理部113は、エンコード音情報入力部112から出力された音情報を復号する(言い換えるとデコードする)ことにより音情報に含まれる所定音に関する情報と、所定位置に関する情報とを、以降の処理に用いられる形式で生成する処理部である。
 センシング情報入力部114については、検知器103の機能とともに、以下に説明する。
 検知器103は、ユーザ99の頭部の動き速度を検知するための装置である。検知器103は、ジャイロセンサ、加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。本実施の形態では、検知器103は、音響再生システム100に内蔵されているが、例えば、音響再生システム100と同様にユーザ99の頭部の動きに応じて動作する立体映像再生装置200等、外部の装置に内蔵されていてもよい。この場合、検知器103は、音響再生システム100に含まれなくてもよい。また、検知器103として、外部の撮像装置などを用いて、ユーザ99の頭部の動きを撮像し、撮像された画像を処理することでユーザ99の動きを検知してもよい。
 検知器103は、例えば、音響再生システム100の筐体に一体的に固定され、筐体の動きの速度を検知する。上記の筐体を含む音響再生システム100は、ユーザ99が装着した後、ユーザ99の頭部と一体的に移動するため、検知器103は、結果としてユーザ99の頭部の動きの速度を検知することができる。
 検知器103は、例えば、ユーザ99の頭部の動きの量として、三次元空間内で互いに直交する3軸の少なくとも一つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも一つを変位方向とする変位量を検知してもよい。また、検知器103は、ユーザ99の頭部の動きの量として、回転量及び変位量の両方を検知してもよい。
 センシング情報入力部114は、検知器103からユーザ99の頭部の動き速度を取得する。より具体的には、センシング情報入力部114は、単位時間あたりに検知器103が検知したユーザ99の頭部の動きの量を動きの速度として取得する。このようにしてセンシング情報入力部114は、検知器103から回転速度及び変位速度の少なくとも一方を取得する。ここで取得されるユーザ99の頭部の動きの量は、三次元音場内のユーザ99の位置及び姿勢(言い換えると座標及び向き)を決定するために用いられる。音響再生システム100では、決定されたユーザ99の座標及び向きに基づいて、音像の相対的な位置を決定して音が再生される。このため、ユーザ99の頭部の動きの量によって三次元音場内の受聴点を変更することができる。言い換えると、センシング情報入力部114は、受聴点と音像(音源オブジェクト)との相対位置を変化させる指示であって、指示によって相対位置が変化する第1変化量を含む指示を受け付けることができる。なお相対位置とは、収音装置又は受聴点と音像(音源オブジェクト)との相対距離、及び相対方向の少なくとも一方によって表現される、一方に対する他方の位置を示す概念である。
 処理部121は、決定されたユーザ99の座標及び向きに基づいて、所定音について、三次元音場内のいずれの方向から到来する音としてユーザ99に知覚させるかを上記のユーザ99の座標及び向きに基づいて決定し、再生される出力音情報がそのような音となるように、音情報を処理する。そして、処理部121は、上記の処理とともに、ゆらぎを付与するための音響処理を実行する。ここで付与されるゆらぎは、音源オブジェクトと収音装置との距離が時間領域において繰り返し変化する相対距離のゆらぎと、音源オブジェクトと収音装置との方向が時間領域において繰り返し変化する相対方向のゆらぎとが含まれる。
 図5は、実施の形態に係る処理部の機能構成を示すブロック図である。処理部121は、図5に示すように、音響処理を実行するための機能部分として、判定部122、記憶部123及び実行部124を備える。なお、処理部121は、上記の音情報の処理に係る機能部分として図示しないその他の機能部分を有する。
 判定部122は、音響処理を実行するか否かを決定するための判定を行う。判定部122は、例えば、所定の条件を満たすか否かを判定することで、当該所定の条件を満たす場合に音響処理を実行すると決定し、当該所定の条件を満たさない場合に音響処理を実行しないと決定する。所定の条件の詳細については後述する。所定の条件を示す情報は、例えば、記憶部123によって記憶デバイスに記憶されている。
 記憶部123は、情報を記憶している記憶デバイス(不図示)に情報を格納する、及び、情報を読み出す処理を行う記憶コントローラである。
 実行部124は、判定部122の判定結果に応じて音響処理を実行する。
 信号出力部141は、出力音信号を生成し、生成された出力音信号をドライバ104へと出力する機能部である。
 信号出力部141は、音の定位置を決定し、その位置に定位させるための処理とともに、判定結果に応じて音響処理が実行された後の音情報に対して、デジタルデータとしての出力音声信号を生成する。そして、信号出力部141は、出力音声信号に基づいてデジタル信号からアナログ信号への信号変換などを行うことで、波形信号を生成し、波形信号に基づいてドライバ104に音波を発生させ、ユーザ99に音を提示する。ドライバ104は、例えば、振動板とマグネット及びボイスコイルなどの駆動機構とを有する。ドライバ104は、波形信号に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、ドライバ104は、出力音声信号に応じた振動板の振動により、音波を発生させ(出力音信号を「再生」することを意味する、すなわち、ユーザ99が知覚することは「再生」の意味には含まれない)、音波が空気を伝播してユーザ99の耳に伝達し、ユーザ99が音を知覚する。
 [本実施の形態に係る音響再生システムの別の例]
 上述の例において、本実施の形態に係る音響再生システム100は、音提示デバイスであり、情報処理装置101と、通信モジュール102と、検知器103と、ドライバ104とを備えることを説明したが、音響再生システム100の機能を複数の装置で実現してもよいし一つの装置で実現してもよい。図6~図15を用いて説明する。図6~図15は、実施の形態に係る音響再生システムの別の例を説明するための図である。
 例えば、情報処理装置601が音声提示デバイス602に含まれ、音声提示デバイス602が音響処理と音の提示との両方を行ってもよい。また、情報処理装置601と音声提示デバイス602とが本開示で説明する音響処理を分担して実施してもよいし、情報処理装置601又は音声提示デバイス602とネットワークを介して接続されたサーバが本開示で説明する音響処理の一部又は全体を実施してもよい。
 なお、上記説明では、情報処理装置601と呼んでいるが、情報処理装置601が音声信号又は音響処理に用いる空間情報の少なくとも一部のデータを符号化して生成されたビットストリームを復号して音響処理を実施する場合、情報処理装置601は復号装置と呼ばれてもよいし、音響再生システム100(つまり、図中の立体音響再生システム600)は、復号処理システムと呼ばれてもよい。
 ここでは、音響再生システム100が復号処理システムとして機能する例について説明する。
 <符号化装置の例>
 図7は、本開示の符号化装置の一例である符号化装置700の構成を示す機能ブロック図である。
 入力データ701はエンコーダ702に入力される空間情報及び/又は音声信号を含む符号化対象となるデータである。空間情報の詳細については後で説明する。
 エンコーダ702は、入力データ701を符号化して、符号化データ703を生成する。符号化データ703は、例えば、符号化処理によって生成されたビットストリームである。
 メモリ704は、符号化データ703を格納する。メモリ704は、例えば、ハードディスク又はSSD(Solid-State Drive)であってもよいし、その他の記憶装置であってもよい。
 なお、上記説明ではメモリ704に記憶される符号化データ703の一例として符号化処理によって生成されたビットストリームを挙げたが、ビットストリーム以外のデータであってもよい。例えば、符号化装置700は、ビットストリームを所定のデータフォーマットに変換して生成された変換後のデータをメモリ704に記憶してもよい。変換後のデータは、例えば、一又は複数のビットストリームを格納したファイル又は多重化ストリームであってもよい。ここで、ファイルは、例えばISOBMFF(ISO Base Media File Formatなどのファイルフォーマットを有するファイルである。また、符号化データ703は、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。エンコーダ702で生成されたビットストリームをビットストリームとは異なるデータに変換する場合、符号化装置700は、図示されていない変換部を備えていてもよいし、CPU(Central Processing Unit)で変換処理を行ってもよい。
 <復号装置の例>
 図8は、本開示の復号装置の一例である復号装置800の構成を示す機能ブロック図である。
 メモリ804は、例えば、符号化装置700で生成された符号化データ703と同じデータを格納している。メモリ804は、保存されているデータを読み出し、デコーダ802の入力データ803として入力する。入力データ803は、例えば、復号対象となるビットストリームである。メモリ804は、例えば、ハードディスク又はSSDであってもよいし、その他の記憶装置であってもよい。
 なお、復号装置800は、メモリ804が記憶しているデータをそのまま入力データ803とするのではなく、読み出したデータを変換して生成された変換後のデータを入力データ803としてもよい。変換前のデータは、例えば、一又は複数のビットストリームを格納した多重化データであってもよい。ここで、多重化データは、例えばISOBMFFなどのファイルフォーマットを有するファイルであってもよい。また、変換前のデータは、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。メモリ804から読み出したビットストリームとは異なるデータをビットストリームに変換する場合、復号装置800は、図示されていない変換部を備えていてもよいし、CPUで変換処理を行ってもよい。
 デコーダ802は、入力データ803を復号して、リスナに提示される音声信号801を生成する。
 <符号化装置の別の例>
 図9は、本開示の符号化装置の別の一例である符号化装置900の構成を示す機能ブロック図である。図9では、図7の構成と同じ機能を有する構成に図7の構成と同じ符号を付しており、これらの構成については説明を省略する。
 符号化装置700は符号化データ703を記憶するメモリ704を備えているのに対し、符号化装置900は符号化データ703を外部に対して送信する送信部901を備える点で符号化装置700と異なる。
 送信部901は、符号化データ703又は符号化データ703を変換して生成した別のデータ形式のデータに基づいて送信信号902を別の装置又はサーバに対して送信する。送信信号902の生成に用いられるデータは、例えば、符号化装置700で説明したビットストリーム、多重化データ、ファイル、又はパケットである。
 <複合装置の別の例>
 図10は、本開示の復号装置の別の一例である復号装置1000の構成を示す機能ブロック図である。図10では、図8の構成と同じ機能を有する構成に図8の構成と同じ符号を付しており、これらの構成については説明を省略する。
 復号装置800は入力データ803を読み出すメモリ804を備えているのに対し、復号装置1000は入力データ803を外部から受信する受信部1001を備える点で復号装置800と異なる。
 受信部1001は、受信信号1002を受信して受信データを取得し、デコーダ802に入力される入力データ803を出力する。受信データは、デコーダ802に入力される入力データ803と同じであってもよいし、入力データ803とは異なるデータ形式のデータであってもよい。受信データが、入力データ803と異なるデータ形式のデータの場合、受信部1001が受信データを入力データ803に変換してもよいし、復号装置1000が備える図示されていない変換部又はCPUが受信データを入力データ803に変換してもよい。受信データは、例えば、符号化装置900で説明したビットストリーム、多重化データ、ファイル、又はパケットである。
 <デコーダの機能説明>
 図11は、図8又は図10におけるデコーダ802の一例であるデコーダ1100の構成を示す機能ブロック図である。
 入力データ803は符号化されたビットストリームであり、符号化された音声信号である符号化音声データと音響処理に用いるメタデータとを含んでいる。
 空間情報管理部1101は、入力データ803に含まれるメタデータを取得して、メタデータを解析する。メタデータは、音空間に配置された音に作用する要素を記述した情報を含む。空間情報管理部1101は、メタデータを解析して得られた音響処理に必要な空間情報を管理し、レンダリング部1103に対して空間情報を提供する。なお、本開示では音響処理に用いる情報が空間情報と呼ばれているが、それ以外の呼び方であってもよい。当該音響処理に用いる情報は、例えば、音空間情報と呼ばれてもよいし、シーン情報と呼ばれてもよい。また、音響処理に用いる情報が経時的に変化する場合、レンダリング部1103に入力される空間情報は、空間状態、音空間状態、シーン状態などと呼ばれてもよい。
 また、空間情報は音空間ごと又はシーンごとに管理されていてもよい。例えば、異なる部屋を仮想空間として表現する場合、それぞれの部屋が異なる音空間のシーンとして管理されてもよいし、同じ空間であっても表現する場面に応じて異なるシーンとして空間情報が管理されてもよい。空間情報の管理において、それぞれの空間情報を識別する識別子が付与されておいてもよい。空間情報のデータは、入力データ803の一形態であるビットストリームに含まれていてもよいし、ビットストリームが空間情報の識別子を含み、空間情報のデータはビットストリーム以外から取得してもよい。ビットストリームに空間情報の識別子のみが含まれる場合、レンダリング時に空間情報の識別子を用いて、音響信号処理装置のメモリ又は外部のサーバに記憶された空間情報のデータが入力データとして取得されてもよい。
 なお、空間情報管理部1101が管理する情報は、ビットストリームに含まれる情報に限定されない。例えば、入力データ803は、ビットストリームには含まれないデータとして、VR又はARを提供するソフトウェアアプリケーション又はサーバから取得された空間の特性又は構造を示すデータを含んでいてもよい。また、例えば、入力データ803は、ビットストリームには含まれないデータとして、リスナ又はオブジェクトの特性又は位置などを示すデータを含んでいてもよい。また、入力データ803は、リスナの位置を示す情報として復号装置を含む端末が備えるセンサで取得された情報、又は、センサで取得された情報に基づいて推定された端末の位置を示す情報を含んでいてもよい。つまり、空間情報管理部1101は、外部のシステム又はサーバと通信し、空間情報及びリスナの位置を取得してもよい。また、空間情報管理部1101が外部のシステムからクロック同期情報を取得し、レンダリング部1103のクロックと同期する処理を実行してもよい。なお、上記の説明における空間は、仮想的に形成された空間、つまりVR空間であってもよいし、実空間又は実空間に対応する仮想空間、つまりAR空間又はMR(Mixed Reality)空間であってもよい。また、仮想空間は音場又は音空間と呼ばれてもよい。また、上記の説明における位置を示す情報は、空間内における位置を示す座標値などの情報であってもよいし、所定の基準位置に対する相対位置を示す情報であってもよいし、空間内の位置の動き又は加速度を示す情報であってもよい。
 音声データデコーダ1102は、入力データ803に含まれる符号化音声データを復号して、音声信号を取得する。
 立体音響再生システム600が取得する符号化音声データは、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)等の所定の形式で符号化されたビットストリームである。なお、MPEG-H 3D Audioはあくまでビットストリームに含まれる符号化音声データを生成する際に利用可能な符号化方式の一例であり、他の符号化方式で符号化されたビットストリームと符号化音声データとして含んでいてもよい。例えば、用いられる符号化方式は、MP3(MPEG-1 Audio Layer-3)、AAC(Advanced Audio Coding)、WMA(Windows Media Audio)、AC3(Audio Codec-3)、Vorbisなどの非可逆コーデックであってもよいし、ALAC(Apple Lossless Audio Codec)、FLAC(Free Lossless Audio Codec)などの可逆コーデックであってもよいし、上記以外の任意の符号化方式が用いられてもよい。例えば、PCM(Pulse Code Modulation)データが符号化音声データの一種であるとしてもよい。この場合、復号処理は、例えば、当該PCMデータの量子化ビット数がNである場合、Nビットの二進数を、レンダリング部1103が処理できる数形式(例えば浮動小数点形式)に変換する処理としてもよい。
 レンダリング部1103は、音声信号と空間情報とを入力とし、空間情報を用いて音声信号に音響処理を施して、音響処理後の音声信号801を出力する。
 空間情報管理部1101は、レンダリングを開始する前に、入力信号のメタデータを読み込み、空間情報で規定されたオブジェクト又は音などのレンダリングアイテムを検出し、レンダリング部1103に送信する。レンダリング開始後、空間情報管理部1101は、空間情報及びリスナの位置の経時的な変化を把握し、空間情報を更新して管理する。そして、空間情報管理部1101は、更新された空間情報をレンダリング部1103に送信する。レンダリング部1103は入力データに含まれる音声信号と、空間情報管理部1101から受信した空間情報とに基づいて音響処理を付加した音声信号を生成し出力する。
 空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが同じスレッドで実行されてもよいし、空間情報管理部1101とレンダリング部1103とはそれぞれ独立したスレッドに配分してもよい。空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが異なるスレッドで処理される場合、スレッドの起動頻度が個々に設定されてもよいし、並行して処理が実行されてもよい。
 空間情報管理部1101とレンダリング部1103とが異なる独立したスレッドで処理を実行することで、レンダリング部1103に優先的に演算資源を割り当てることができるので、僅かな遅延も許容できないような出音処理の場合、例えば、1サンプル(0.02msec)でも遅延した場合にプチっというノイズが発生するような出音処理であっても安全に実施することができる。その際、空間情報管理部1101には演算資源の割り当てが制限される。しかし、空間情報の更新は、音声信号の出力処理と比較して、低頻度の処理(例えば、受聴者の顔の向きの更新のような処理)である。このため、音声信号の出力処理のように必ずしも瞬間的に応答しなければならないというものではないので、演算資源の割り当てを制限しても受聴者に与えられる音響的な品質に大きな影響はない。
 空間情報の更新は、予め設定された時間又は期間ごとに定期的に実行されてもよいし、予め設定された条件が満たされた場合に実行されてもよい。また、空間情報の更新は、リスナ又は音空間の管理者によって手動で実行されてもよいし、外部システムの変化をトリガとして実行されてもよい。例えば、受聴者がコントローラを操作して、自身のアバターの立ち位置を瞬間的にワープしたり、時刻を瞬時に進めたり戻したり、或いは、仮想空間の管理者が、突如、場の環境を変更するような演出を施したりした場合、空間情報管理部1101が配置されたスレッドは、定期的な起動に加えて、単発的な割り込み処理として起動されてもよい。
 空間情報の更新処理を実行する情報更新スレッドが担う役割は、例えば、受聴者が装着しているVRゴーグルの位置又は向きに基づいて、仮想空間内に配置された受聴者のアバターの位置又は向きを更新する処理、及び、仮想空間内を移動している物体の位置の更新などであり、数10Hz程度の比較的低頻度で起動する処理スレッド内で賄われるものである。そのような、発生頻度の低い処理スレッドで直接音の性質を反映させる処理が行われるようにしてもよい。それは、オーディオ出力のためのオーディオ処理フレームの発生頻度より直接音の性質が変動する頻度が低いためである。むしろそうすることで、当該処理の演算負荷を相対的に小さくすることができるし、不必要に速い頻度で情報を更新するとパルシブなノイズが発生するリスクが生じるので、そのリスクを回避することもできる。
 図12は、図8又は図10におけるデコーダ802の別の一例であるデコーダ1200の構成を示す機能ブロック図である。
 図12は、入力データ803が、符号化音声データではなく符号化されていない音声信号を含んでいる点で図11と異なる。入力データ803は、メタデータを含むビットストリームと音声信号を含む。
 空間情報管理部1201は、図11の空間情報管理部1101と同じであるため説明を省略する。
 レンダリング部1202は、図11のレンダリング部1103と同じであるため説明を省略する。
 なお、上記説明では図12の構成がデコーダと呼ばれているが、音響処理を実施する音響処理部と呼ばれてもよい。また、音響処理部を含む装置が復号装置ではなく音響処理装置と呼ばれてもよい。また、音響信号処理装置(情報処理装置601)が音響処理装置と呼ばれてもよい。
 <符号化装置の物理的構成>
 図13は、符号化装置の物理的構成の一例を示す図である。また、図13に示される符号化装置は、上記の符号化装置700及び900などの一例である。
 図13の符号化装置は、プロセッサと、メモリと、通信IFとを備える。
 プロセッサは、例えば、CPU(Central Processing Unit)又はDSP(Digital Signal Processor)又はGPU(Graphics Processing Unit)であり、当該CPU又はDSP又はGPUがメモリに記憶されたプログラム実行することで本開示の符号化処理を実施してもよい。また、プロセッサは、本開示の符号化処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はSSD(Solid State Drive)などの半導体メモリなどを含んでいてもよい。また、CPU又はGPUに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。
 通信IF(Inter Face)は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)などの通信方式に対応した通信モジュールである。符号化装置は、通信IFを介して他の通信装置と通信を行う機能を有し、符号化されたビットストリームを送信する。
 通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてBluetooth(登録商標)又はWIGIG(登録商標)を例に挙げたが、LTE(Long Term Evolution)、NR(New Radio)、又はWi-Fi(登録商標)などの通信方式に対応していてもよい。また、通信IFは、上記のような無線通信方式ではなく、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)などの有線の通信方式であってもよい。
 <音響信号処理装置の物理的構成>
 図14は、音響信号処理装置の物理的構成の一例を示す図である。なお、図14の音響信号処理装置は、復号装置であってもよい。また、ここで説明する構成の一部は音声提示装置602に備えられていてもよい。また、図14に示される音響信号処理装置は、上記の音響信号処理装置601の一例である。
 図14の音響信号処理装置は、プロセッサと、メモリと、通信IFと、センサと、スピーカとを備える。
 プロセッサは、例えば、CPU(Central Processing Unit)又はDSP(Digital Signal Processor)又はGPU(Graphics Processing Unit)であり、当該CPU又はDSP又はGPUがメモリに記憶されたプログラム実行することで本開示の音響処理又はデコード処理を実施してもよい。また、プロセッサは、本開示の音響処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はSSD(Solid State Drive)などの半導体メモリなどを含んでいてもよい。また、CPU又はGPUに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。
 通信IF(Inter Face)は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)などの通信方式に対応した通信モジュールである。図2Iに示される音響信号処理装置は、通信IFを介して他の通信装置と通信を行う機能を有し、復号対象のビットストリームを取得する。取得したビットストリームは、例えば、メモリに格納される。
 通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてBluetooth(登録商標)又はWIGIG(登録商標)を例に挙げたが、LTE(Long Term Evolution)、NR(New Radio)、又はWi-Fi(登録商標)などの通信方式に対応していてもよい。また、通信IFは、上記のような無線通信方式ではなく、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)などの有線の通信方式であってもよい。
 センサは、リスナの位置又は向きを推定するためのセンシングを行う。具体的には、センサは、リスナの頭部など身体の一部又は全体の位置、向き、動き、速度、角速度、又は加速度などのうちいずれか一つ又は複数の検出結果に基づいてリスナの位置及び/又は向きを推定し、リスナの位置及び/又は向きを示す位置情報を生成する。なお、位置情報は実空間におけるリスナの位置及び/又は向きを示す情報であってもよいし、所定の時点におけるリスナの位置及び/又は向きを基準としたリスナの位置及び/又は向きの変位を示す情報であってもよい。また、位置情報は、立体音響再生システム又はセンサを備える外部装置との相対的な位置及び/又は向きを示す情報であってもよい。
 センサは、例えば、カメラなどの撮像装置又はLiDAR(Light Detection And Ranging)などの測距装置であってもよく、リスナの頭部の動きを撮像し、撮像された画像を処理することでリスナの頭部の動きを検知してもよい。また、センサとして例えばミリ波などの任意の周波数帯域の無線を用いて位置推定を行う装置を用いてもよい。
 なお、図14に示される音響信号処理装置は、センサを備える外部の機器から通信IFを介して位置情報を取得してもよい。この場合、音響信号処理装置はセンサを含んでいなくてもよい。ここで、外部の機器とは、例えば図6で説明した音声提示装置602又は、リスナの頭部に装着される立体映像再生装置などである。このときセンサは、例えば、ジャイロセンサ及び加速度センサなど各種のセンサを組み合わせて構成される。
 センサは、例えば、リスナの頭部の動きの速度として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転の角速度を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位の加速度を検知してもよい。
 センサは、例えば、リスナの頭部の動きの量として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位量を検知してもよい。具体的には、センサは、リスナの位置として6DoF(位置(x、y、z)及び角度(yaw、pitch、roll))を検知する。センサは、ジャイロセンサ及び加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。
 なお、センサは、リスナの位置を検出できればよく、カメラ又はGPS(Global Positioning System)受信機などにより実現されてもよい。LiDAR(Laser Imaging Detection and Ranging)等を用いて自己位置推定を実施して得られた位置情報を用いてもよい。例えば、センサは、音声信号再生システムがスマートフォンにより実現される場合には、スマートフォンに内蔵される。
 また、センサには、図14に示される音響信号処理装置の温度を検出する熱電対などの温度センサ、及び、音響信号処理装置が備える、又は音響信号処理装置と接続されたバッテリの残量を検出するセンサなどが含まれていてもよい。
 スピーカは、例えば、振動板と、マグネット又はボイスコイル等の駆動機構とアンプとを有し、音響処理後の音声信号を音としてリスナに提示する。スピーカは、アンプを介して増幅させた音声信号(より具体的には、音の波形を示す波形信号)に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、音声信号に応じて振動する振動板は、音波を発生させ、音波が空気を伝播してリスナの耳に伝達し、リスナが音を知覚する。
 なお、ここでは図14に示される音響信号処理装置がスピーカを備え、当該スピーカを介して音響処理後の音声信号を提示する場合を例に挙げて説明したが、音声信号の提示手段は上記の構成に限定されない。例えば、通信モジュールで接続された外部の音声提示装置602に音響処理後の音声信号が出力されてもよい。通信モジュールで行う通信は有線でも無線でもよい。また別の例として、図14に示される音響信号処理装置が音声のアナログ信号を出力する端子を備え、端子にイヤホンなどのケーブルを接続してイヤホンなどから音声信号を提示してもよい。上記の場合、音声提示装置602であるリスナの頭部又は体の一部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、ネックスピーカー、ウェアラブルスピーカー、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどが音声信号を再生する。
 <レンダリング部の機能説明>
 図15は、図11および図12のレンダリング部1103および1202の詳細な構成の一例を示す機能ブロック図である。
 レンダリング部は、解析部と、合成部とで構成され、入力信号に含まれる音データに対して音響処理を付加し出力する。
 以下、入力信号に含まれる情報について説明する。
 入力信号は、例えば、空間情報とセンサ情報と音データとで構成される。入力信号は、音データとメタデータ(制御情報)とで構成されるビットストリームを含んでいてもよく、その場合メタデータに空間情報が含まれていてもよい。
 空間情報は、立体音響再生システムが作り出す音空間(三次元音場)に関する情報であって、音空間に含まれるオブジェクトに関する情報とリスナに関する情報とで構成される。オブジェクトには、音を発し音源となる音源オブジェクトと、音を発しない非発音オブジェクトが存在する。非発音オブジェクトは、音源オブジェクトが発した音を反射する障害物オブジェクトとして機能するが、音源オブジェクトが別の音源オブジェクトが発した音を反射する障害物オブジェクトとして機能する場合もある。
 音源オブジェクトと非発音オブジェクトに共通して付与される情報として、位置情報や形状情報、オブジェクトが音を反射する際の音量の減衰率などがある。
 位置情報は、ユークリッド空間の例えばX軸、Y軸、Z軸の3軸の座標値で表されるが、必ずしも三次元情報でなくてもよい。例えば、X軸、Y軸の2軸の座標値で表される二次元情報であってもよい。オブジェクトの位置情報は、メッシュやボクセルで表現される形状の代表位置で定められる。
 形状情報は、表面の素材に関する情報を含んでいてもよい。
 また、オブジェクトが生物に属するか否かを示す情報やオブジェクトが動体であるか否かを示す情報などを含んでいてもよい。オブジェクトが動体である場合、位置情報は時間とともに移動してもよく、変化した位置情報または変化量がレンダリング部に伝送される。
 音源オブジェクトに関する情報は、上述した音源オブジェクトと非発音オブジェクトに共通して付与される情報に加えて、音データと音データを音空間内に放射するために必要な情報とを含む。
 音データは、音の周波数および強弱に関する情報などを示す、リスナに知覚される音が表現されたデータである。音データは、典型的にはPCM信号であるが、MP3等の符号化方式を用いて圧縮されたデータであってもよい。その場合は、少なくとも当該信号が合成部に到達するまでに復号される必要があるため、レンダリング部に図示しない復号部を含んでいてもよい。或いは音声データデコーダ1102で復号してもよい。
 1つの音源オブジェクトに対して少なくとも1つの音データが設定されていればよく、複数の音データが設定されていてもよい。また、それぞれの音データを識別する識別情報を付与し、音源オブジェクトに関する情報として、音データの識別情報を保持してもよい。
 音データを音空間内に放射するために必要な情報として、例えば、音データを再生する際に基準となる基準音量の情報、音データの性質(特性ともいう)を示す情報、音源オブジェクトの位置に関する情報、音源オブジェクトの向きに関する情報、音源オブジェクトが発する音の指向性に関する情報などを含んでいてもよい。基準音量の情報は、例えば、音データを音空間に放射する際の音源位置における音データの振幅値の実効値であって、デシベル(dB)値として浮動小数点で表されてもよい。
 例えば基準音量が0dBの場合、音データが示す信号レベルの音量を増減させることなくそのままの音量で上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよいし、-6dBの場合、音データが示す信号レベルの音量を約半分にして上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。これらの情報は、1つの音データに対してまたは複数の音データに対してまとめて付与される。
 音データの性質を示す情報は、例えば、音源の音量に関する情報であって、その時系列的な変動を示す情報であってもよい。例えば、音空間が仮想会議室であり、音源が話者である場合、音量は短い時間で断続的に遷移する。それをさらに単純に表現すれば、有音部分と無音部分が交互に発生する、とも言える。
 また、音空間がコンサートホールであり、音源が演奏者である場合、音量は一定の時間長維持される。また、音空間が戦場であり、音源が爆発物である場合、爆発音の音量は一瞬だけ大となり以降は無音であり続ける。このように音源の音量の情報は、音の大きさの情報のみならず、音の大きさの遷移の情報を含むものであり、そのような情報を音データの性質を示す情報としてもよい。
 ここで、音の大きさの遷移の情報は、周波数特性を時系列に示したデータであってもよい。有音である区間の継続時間長を示したデータであってもよい。有音である区間の継続時間長と無音である区間の時間長の時系列を示したデータであってもよい。音信号の振幅が定常的であるとみなせる(概ね一定であるとみなせる)継続時間とその間の当該信号の振幅値のデータを複数組時系列で列挙したデータなどであってもよい。音信号の周波数特性が定常的であるとみなせる継続時間のデータであってもよい。音信号の周波数特性が定常的であるとみなせる継続時間とその間の当該周波数特性のデータを複数組時系列で列挙したデータなどであってもよい。
 データの形式として例えば、スペクトログラムの概形を示すデータであってもよい。また、上記周波数特性の基準となる音量を上記基準音量としてもよい。基準音量の情報と音データの性質を示す情報は、リスナに知覚させる直接音または反射音の音量を算出する他、リスナに知覚させるか否か選択をするための選択処理に用いられてもよい。音データの性質を示す情報の他の例や具体的な選択処理への用いられ方については後述する。
 向きに関する情報は、典型的には、yaw、pitch、rollで表現される。または、rollの回転を省略し、アジマス(yaw)、エレベーション(pitch)で表現してもよい。向き情報は時間とともに変化してもよく、変化した場合、レンダリング部に伝送される。
 リスナに関する情報は、音空間におけるリスナの位置情報と向きに関する情報である。位置情報はユークリッド空間のXYZ軸の位置で表されるが、必ずしも三次元情報でなくてもよく、二次元情報であってもよい。向きに関する情報は、典型的には、yaw、pitch、rollで表現される。または、rollの回転を省略し、アジマス(yaw)、エレベーション(pitch)で表現してもよい。位置情報と向き情報とは時間とともに変化してもよく、変化した場合、レンダリング部に伝送される。
 センサ情報は、リスナが装着するセンサで検知された回転量又は変位量等とリスナの位置及び向きとを含む情報である。センサ情報はレンダリング部に伝送され、レンダリング部はセンサ情報に基づいてリスナの位置及び向きの情報を更新する。センサ情報は、例えば携帯端末がGPS、カメラ、又はLiDAR(Laser Imaging Detection and Ranging)等を用いて自己位置推定を実施して得られた位置情報が用いられてもよい。またセンサ以外から、通信モジュールを通じて外部から取得した情報をセンサ情報として検出してもよい。センサから、音声信号処理装置の温度を示す情報、および、バッテリの残量を示す情報を取得してもよい。音声信号処理装置や音声信号提示装置の演算資源(CPU能力、メモリ資源、PC性能)などをリアルタイムで取得してもよい。
 解析部は、上述の例における取得部111と同等の機能を担う。つまり、入力信号の解析を行い、処理部121で必要な情報を取得する。
 合成部は、上述の例における処理部121と信号出力部141と同等の機能を担う。直接音の音声信号と、解析部が算出した直接音到来時刻と直接音到来時音量の情報とに基づいて、入力された音声信号を加工し直接音を生成する。また、解析部が算出した反射音到来時刻と反射音到来時音量の情報に基づいて、入力された音声信号を加工し反射音を生成する。合成部は、生成した直接音と反射音を合成し出力する。
 [動作]
 次に、図16~図19を参照して、上記に説明した音響再生システム100の動作について説明する。図16は、実施の形態に係る音響再生システムの動作を示すフローチャートである。また、図17は、実施の形態に係る音響処理の周波数特性について説明するための図である。図18は、実施の形態に係る、音響処理のゆらぎの大きさについて説明するための図である。図19は、実施の形態に係る、音響処理のゆらぎの周期及び角度について説明するための図である。
 なお、図16に示す各ステップの前に、制御情報に基づく判定によって、音響処理を実行する設定になっているとして説明する。図16に示すように、まず、取得部111により音情報(音声信号)を取得する(S101)。次に、判定部122は、音響処理を実行するか否かを判定する。具体的には、判定部122は、記憶部123において記憶された所定の条件を読み出し、所定の条件を満たすか否かを判定することで、音響処理を実行するか否かを判定する(S102)。
 所定の条件について、以下、いくつかの例を述べる。
 まず、取得した音情報における所定音の音圧の時間領域における変化が所定の閾値以下である場合に、音情報の所定音にゆらぎが含まれておらず、ゆらぎの付与が適切であると考えられる。音響処理を行うために適切といえる条件として、音圧の時間領域における変化に関する条件を設定すれば、上記の閾値以下の音圧の時間領域における変化を示す場合に所定の条件を満たすと判定することができる。
 ここで、図17には、各周波数の音が音源(各破線円の中心)から発せられた場合において、水平面内の各方向で同じ音圧で到達する距離の差が示されている。図17に示す各図では、その周波数において、音の各方向における伝播特性の差を示しており、形状がいびつであるほど、音源のゆらぎが反映されやすいといえる。言い換えると、音源のゆらぎを音圧の時間領域における変化によって判断するために、所定音を周波数ごとに分解して、より音源のゆらぎが反映されやすい周波数で、音圧の時間領域における変化を示すか否かを判定するとよい。例えば、図中に示す、1000Hz以上の周波数であれば、形状が円形からいびつな形に変化しており、ゆらぎが反映されやすいといえる。また、図中に示す、4000Hz以上の周波数であれば、形状が円形からよりいびつな形に変化しており、ゆらぎがより反映されやすいといえる。
 逆に、図17に示すように、ゆらぎを付与する場合に、1000Hz未満の周波数に音響処理を実行しても、ゆらぎの効果が得られにくいということもできる。そのため、音響処理においては、1000Hz以上の周波数のみに音響処理を実行してもよいし、4000Hz以上の周波数のみに音響処理を実行してもよい。あるいは、周波数が大きくなるほどゆらぎが大きいとなる音響処理を実行してもよい。
 また、取得した音情報における所定位置又は所定音の音圧を用いて収音装置と音源との位置関係を推定し、推定した位置関係が所定の閾値以下である場合に、ヘッドセットのマイクのような接話型の収音装置が用いられていると考えられるので、音情報の所定音にゆらぎが含まれておらず、ゆらぎの付与が適切であると考えられる。音響処理を行うために適切といえる条件として、推定した位置関係に関する条件を設定すれば、上記の閾値以下の位置関係を示す場合に所定の条件を満たすと判定することができる。
 ここで、図18には、ヒトの頭部の動きをXYZの3軸において、プロットした結果を示している。図18では、上段にY軸方向(上下方向)の頭部の動きのプロットを示し、中段にZ軸方向(前後方向)の頭部の動きのプロットを示し、下段にX軸方向(左右方向)の頭部の動きのプロットを示している。図中に示すように、ヒトの頭部は、X軸方向(左右方向)に±0.2mの動きがあり、Y軸方向(上下方向)に±0.02mの動きがあり、Z軸方向(前後方向)に±0.05mの動きがあることが分かる。
 つまり、このような大きさの動きがないのであれば、推定した位置関係がヘッドセットのマイクのような接話型の収音装置が用いられているような所定の閾値以下であると考えられる。
 逆に、図18に示すように、ゆらぎを付与する場合に、X軸方向(左右方向)に±0.2mの動きを、Y軸方向(上下方向)に±0.02mの動きを、Z軸方向(前後方向)に±0.05mの動きを再現して音響処理を実行してもよい。このように、収音装置と音源との位置関係に応じた処理条件で音響処理を実行することもできる。
 また、図19には、ヒトの頭部の動きをYaw、Pitch、Rollの3つの回転軸において、回転角をプロットした結果を示している。図19では、上段にYaw角での回転角を示し、中段にPitch角での回転角を示し、下段にRoll角での回転角を示している。図中に示すように、ヒトの頭部は、3~4s周期で、Yaw角に±20度の回転があり、Pitch角に±10度の回転があり、Yaw角に±3度の回転があることが分かる。
 つまり、このような周期及び角度の動きがないのであれば、推定した位置関係がヘッドセットのマイクのような接話型の収音装置が用いられているような所定の閾値以下であると考えられる。
 逆に、図19に示すように、ゆらぎを付与する場合に、3~4s周期で、Yaw角に±20度の回転を、Pitch角に±10度の回転を、Yaw角に±3度の回転を再現して音響処理を実行してもよい。このように、収音装置と音源との位置関係に応じた処理条件で音響処理を実行することもできる。
 また、収音時の状況に関する収音状況情報を用いて、収音状況情報に示される残響レベル及び/又は雑音レベルが所定の閾値以下である場合に、ヘッドセットのマイクのような接話型の収音装置が用いられていると考えられるので、音情報の所定音にゆらぎが含まれておらず、ゆらぎの付与が適切であると考えられる。音響処理を行うために適切といえる条件として、収音状況情報に示される残響レベル及び/又は雑音レベルに関する条件を設定すれば、上記の閾値以下の残響レベル及び/又は雑音レベルを示す場合に所定の条件を満たすと判定することができる。
 その他、ヘッドセットのマイクのような接話型の収音装置を用いて収音したという収音機器に関する情報(型番などの機器を特定する情報又はゆらぎの付与の要否などの機器の特性を示す情報)を用いて、当該情報によって、ヘッドセットのマイクのような接話型の収音装置が用いられていることが示される場合は所定の条件を満たすと判定してもよい。
 図16に戻り、判定部122が上記所定の条件を満たすと判定した場合(S102でYes)、実行部124が音響処理を実行する(S103)。一方、判定部122が上記所定の条件を満たさないと判定した場合(S102でNo)、実行部124は音響処理を実行しない(S104)。そして、信号出力部141が、出力音声信号を生成して出力する(S105)。
 [別例]
 以下、図20及び図21を用いて、実施の形態の別例に係る音響再生システムについて説明する。図20は、実施の形態の別例に係る処理部の機能構成を示すブロック図である。図21は、実施の形態の別例に係る音響処理装置の動作を示すフローチャートである。なお、以下の別例に係る説明では、上記実施の形態の一部の説明の「収音装置」を「受聴点」に読み替えることで説明を省略する場合がある。
 上記実施の形態の音響再生システム100に比べて、実施の形態の別例に係る音響再生システムは、処理部121に代えて、処理部121aを備える点で異なる。
 処理部121aは、判定部122の代わりに、算出部125を有する。算出部125は、第1変化量及び第2変化量を算出する。第1変化量とは、受聴点と音源オブジェクトとの相対位置を変化させる指示に基づく変化量であり、いわゆるVR空間内での移動の移動量に対応している。そして、仮想音空間に限ってみれば、受聴点の移動に伴う受聴点と音源オブジェクトとの相対位置の変化の変化量である。第1変化量は、センサとしての検知器103から検知結果を取得することでそのときの相対位置の変化の指示、すなわち、変化量を取得する。つまり本例では、取得部111(特にセンシング情報入力部114)が第1変化量を含む指示を受け付ける。
 本実施の形態では、このような相対位置の変化に加えて、ゆらぎによる受聴点の変化が生じるので、第1変化量と第2変化量とを分けて算出する。なお、第2変化量を0とすることで判定部122による処理を経ることなく、音響処理を実行することと実行しないこととを分けることができる。第2変化量は、検知結果によって算出されてもよいし、検知結果とは独立して算出されてもよい。例えば、第2変化量は、検知結果に示される音源オブジェクトと受聴点との相対位置の変化の変化速度、又は、変化量である第1変化量を用いた関数によって算出されてもよい。あるいは、第2変化量は、音源オブジェクトと受聴点との相対位置の変化の変化速度、又は、変化量である第1変化量を用いることなく(独立して)、単に制御情報及び収音状況情報などの、コンテンツ作成時にコンテンツに付された情報等によって、一義的に算出されてもよい。
 ところで、第1変化量が大きい場合、停止している受聴点に対して音源オブジェクトが大きく移動している場合がある。このような場合、第1変化量が大きいほど、その音源オブジェクトのゆらぎも大きくなることが自然である。つまり、第1変化量が大きいほど第2変化量が大きくなるとよい。そのため、音響処理において、ゆらぎの大きさにあたる第2変化量が、第1変化量に応じて、第1変化量が大きいほど大きい第2変化量となればよい。
 一方で、音響処理において、ゆらぎの大きさにあたる第2変化量が、第1変化量に応じて、変化する例として、逆に、第1変化量が大きいほど小さい(例えば0の)第2変化量とすることが適切な場合もある。具体的には、例えば、第1変化量が大きい(又は相対位置の変化の速度が速い)場合、ゆらぎを付与してもあまり臨場感の増加効果がみられない。これは、ゆらぎによる変化と相対位置の変化とが同期して重なり合い、又は、打ち消し合うことで、ゆらぎが付与されていることが聴者に知覚されにくいためである。そのような場合には、第1変化量が大きいほど小さい(例えば0の)第2変化量とすればよい。
 以下、本例に係る音響再生システムの動作を説明する。なお、図21に示す各ステップの前に、制御情報に基づく判定によって、音響処理を実行する設定になっているとして説明する。図21に示すように、まず、取得部111により音情報(音声信号)を取得する(S201)。次に、算出部125は、第1変化量を算出する(S202)。また、算出部125は、第2変化量を算出する(S203)。音響処理を実行するか否か(ゆらぎを付与するか否か)は、第2変化量を0と算出するか否かによって設定することができる。そして、実行部124は、音響処理として、相対位置を第1変化量変化させ、かつ、相対位置を時間領域で第2変化量繰り返し変化させる音響処理を実行する(S204)。その後、信号出力部141が、出力音声信号を生成して出力する(S205)。
 (その他の実施の形態)
 以上、実施の形態について説明したが、本開示は、上記の実施の形態に限定されるものではない。
 例えば、上記の実施の形態に説明した音響再生システムは、構成要素をすべて備える一つの装置として実現されてもよいし、複数の装置に各機能が割り振られ、この複数の装置が連携することで実現されてもよい。後者の場合には、音響処理装置に該当する装置として、スマートフォン、タブレット端末、又は、PCなどの音響処理装置が用いられてもよい。例えば、音響効果を付加した音響信号を生成するレンダラとしての機能を有する音響再生システム100において、レンダラの機能のすべて又は一部をサーバが担ってもよい。つまり、取得部111、処理部121、信号出力部141のすべて又は一部は、図示しないサーバに存在してもよい。その場合、音響再生システム100は、例えば、コンピュータ又はスマートフォンなどの音響処理装置と、ユーザ99に装着されるヘッドマウントディスプレイ(HMD)やイヤホンなどの音提示デバイスと、図示しないサーバとを組み合わせて実現される。なお、コンピュータと音提示デバイスとサーバとが同一のネットワークで通信可能に接続されていてもよいし、異なるネットワークで接続されていてもよい。異なるネットワークで接続されている場合、通信に遅延が発生する可能性が高くなるため、コンピュータと音提示デバイスとサーバとが同一ネットワークで通信可能に接続されている場合にのみサーバでの処理を許可してもよい。また、音響再生システム100が受け付けるビットストリームのデータ量に応じて、レンダラのすべて又は一部の機能をサーバが担うか否かを決定してもよい。
 また、本開示の音響再生システムは、ドライバのみを備える再生装置に接続され、当該再生装置に対して、取得した音情報に基づいて生成された出力音信号を再生するのみの音響処理装置として実現することもできる。この場合、音響処理装置は、専用の回路を備えるハードウェアとして実現してもよいし、汎用のプロセッサに特定の処理を実行させるためのソフトウェアとして実現してもよい。
 また、上記の実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。
 また、上記の実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路(又は集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
 また、本開示の全般的又は具体的な態様は、装置、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよい。また、本開示の全般的又は具体的な態様は、装置、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 例えば、本開示は、コンピュータによって実行される音声信号再生方法として実現されてもよいし、音声信号再生方法コンピュータに実行させるためのプログラムとして実現されてもよい。本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。
 その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
 なお、本開示における符号化された音情報は、音響再生システム100によって再生される所定音についての情報である音信号及び、当該所定音の音像を三次元音場内において所定位置に定位させる際の定位位置に関する情報であるメタデータを含むビットストリームと言い換えることができる。例えばMPEG-H 3D Audio(ISO/IEC 23008-3)等の所定の形式で符号化されたビットストリームとして音情報が音響再生システム100に取得されてもよい。一例として、符号化された音信号は、音響再生システム100によって再生される所定音についての情報を含む。ここでいう所定音は、三次元音場に存在する音源オブジェクトが発する音又は自然環境音であって、例えば、機械音、又は人を含む動物の音声等を含み得る。なお、三次元音場に音源オブジェクトが複数存在する場合、音響再生システム100は、複数の音源オブジェクトにそれぞれ対応する複数の音信号を取得することになる。
 一方、メタデータとは、例えば、音響再生システム100において音信号に対する音響処理を制御するために用いられる情報である。メタデータは、仮想空間(三次元音場)で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、音響再生システム100でモデリングされる、仮想空間における三次元映像及び音響イベントを表す全ての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。もちろん、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。本開示において音響再生システム100が取得するビットストリームには、このようなメタデータが含まれている場合がある。あるいは、音響再生システム100は、後述するようにビットストリームとは別に、メタデータを単体で取得してもよい。
 音響再生システム100は、ビットストリームに含まれるメタデータ、及び追加で取得されるインタラクティブなユーザ99の位置情報等を用いて、音信号に音響処理を行うことで、仮想的な音響効果を生成する。例えば、初期反射音生成、後期残響音生成、回折音生成、距離減衰効果、ローカリゼーション、音像定位処理、又はドップラー効果等の音響効果が付加されることが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報がメタデータとして付加されてもよい。
 なお、全てのメタデータ又は一部のメタデータは、音情報のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。
 また、映像を制御するメタデータが音響再生システム100で取得されるビットストリームに含まれる場合は、音響再生システム100は映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。
 また、一例として、符号化されたメタデータは、音を発する音源オブジェクト、及び障害物オブジェクトを含む三次元音場に関する情報と、当該音の音像を三次元音場内において所定位置に定位させる(つまり、所定方向から到達する音として知覚させる)際の定位位置に関する情報、すなわち所定方向に関する情報とを含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がユーザ99へと到達するまでの間において、例えば音を遮ったり、音を反射したりして、ユーザ99が知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、三次元音場に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。また、建材又は無生物等の非発音源オブジェクトも、音を発する音源オブジェクトも、いずれも障害物オブジェクトとなり得る。
 メタデータを構成する空間情報として、三次元音場の形状だけでなく、三次元音場に存在する障害物オブジェクトの形状及び位置と、三次元音場に存在する音源オブジェクトの形状及び位置とをそれぞれ表す情報が含まれていてもよい。三次元音場は、閉空間又は開空間のいずれであってもよく、メタデータには、例えば床、壁、又は天井等の三次元音場において音を反射し得る構造物の反射率、及び三次元音場に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、入射音に対する反射音のエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。また、三次元音場が開空間の場合は、例えば一律で設定された減衰率、回折音、又は初期反射音等のパラメータが用いられてもよい。
 上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして反射率が挙げられたが、メタデータは、反射率以外の情報を含んでいてもよい。例えば、音源オブジェクト及び非発音源オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報が含まれていてもよい。具体的には、メタデータは、拡散率、透過率、又は吸音率等のパラメータを含んでいてもよい。
 音源オブジェクトに関する情報として、音量、放射特性(指向性)、再生条件、ひとつのオブジェクトから発せられる音源の数及び種類、又はオブジェクトにおける音源領域を指定する情報等が含まれてもよい。再生条件では、例えば、継続的に流れ続ける音なのかイベント発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、ユーザ99の位置とオブジェクトの位置との相対的な関係で定められてもよいし、オブジェクトを基準として定められてもよい。ユーザ99の位置とオブジェクトの位置との相対的な関係で定められる場合、ユーザ99がオブジェクトを見ている面を基準とし、ユーザ99から見てオブジェクトの右側からは音X、左側からは音Yが発せられているようにユーザ99に知覚させることができる。オブジェクトを基準として定められる場合、ユーザ99の見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにユーザ99に知覚させることができる。この場合、ユーザ99がオブジェクトの背面に回り込むと、背面から見て右側からは低い音、左側からは高い音が流れているようにユーザ99に知覚させることができる。
 空間に関するメタデータとして、初期反射音までの時間、残響時間、又は直接音と拡散音との比率等を含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをユーザ99に知覚させることができる。
 また、三次元音場におけるユーザ99の位置及び向きを示す情報が初期設定として予めメタデータとしてビットストリームに含まれていてもよいし、ビットストリームに含まれていなくてもよい。ユーザ99の位置及び向きを示す情報がビットストリームに含まれていない場合、ユーザ99の位置及び向きを示す情報はビットストリーム以外の情報から取得される。例えば、VR空間におけるユーザ99の位置情報であれば、VRコンテンツを提供するアプリから取得されてもよいし、ARとして音を提示するためのユーザ99の位置情報であれば、例えば携帯端末がGPS、カメラ、又はLiDAR(Laser Imaging Detection and Ranging)等を用いて自己位置推定を実施して得られた位置情報が用いられてもよい。なお、音信号とメタデータとは、一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に、音信号とメタデータとは、一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。
 音信号とメタデータとが複数のビットストリームに別々に格納されている場合、関連する他のビットストリームを示す情報が、音信号とメタデータとが格納された複数のビットストリームのうちの一つ又は一部のビットストリームに含まれていてもよい。また、関連する他のビットストリームを示す情報が、音信号とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。音信号とメタデータとが複数のファイルに別々に格納されている場合、関連する他のビットストリーム又はファイルを示す情報が、音信号とメタデータとが格納された複数のファイルのうちの一つ又は一部のファイルに含まれていてもよい。また、関連する他のビットストリーム又はファイルを示す情報が、音信号とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。
 ここで、関連するビットストリーム又はファイルはそれぞれ、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連する他のビットストリームを示す情報は、音信号とメタデータとを格納した複数のビットストリームのうちの一つのビットストリームのメタデータ又は制御情報にまとめて記述されていてもよいし、音信号とメタデータとを格納した複数のビットストリームのうちの二以上のビットストリームのメタデータ又は制御情報に分割して記述されていてもよい。同様に、関連する他のビットストリーム又はファイルを示す情報は、音信号とメタデータとを格納した複数のファイルのうちの一つのファイルのメタデータ又は制御情報にまとめて記述されていてもよいし、音信号とメタデータとを格納した複数のファイルのうちの二以上のファイルのメタデータ又は制御情報に分割して記述されていてもよい。また、関連する他のビットストリーム又はファイルを示す情報を、まとめて記述した制御ファイルが音信号とメタデータとを格納した複数のファイルとは別に生成されてもよい。このとき、制御ファイルは音信号とメタデータとを格納していなくてもよい。
 ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、URL(Uniform Resource Locator)、又はURI(Uniform Resource Identifier)等である。この場合、取得部111は、関連する他のビットストリーム又はファイルを示す情報に基づいて、ビットストリーム又はファイルを特定又は取得する。また、関連する他のビットストリームを示す情報が音信号とメタデータとを格納した複数のビットストリームのうちの少なくとも一部のビットストリームのメタデータ又は制御情報に含まれていると共に、関連する他のファイルを示す情報が音信号とメタデータとを格納した複数のファイルのうちの少なくとも一部のファイルのメタデータ又は制御情報に含まれていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイル等の制御ファイルであってもよい。
 本開示は、立体的な音をユーザに知覚させる等の音響再生の際に有用である。
   99 ユーザ
  100 音響再生システム
  101 情報処理装置
  102 通信モジュール
  103 検知器
  104 ドライバ
  111 取得部
  112 エンコード音情報入力部
  113 デコード処理部
  114 センシング情報入力部
  121、121a 処理部
  122 判定部
  123 記憶部
  124 実行部
  125 算出部
  141 信号出力部
  200 立体映像再生装置
  600 立体音響再生システム
  601 情報処理装置
  602 音声提示デバイス
  700、900 符号化装置
  701、803 入力データ
  702 エンコーダ
  703 符号化データ
  704、804 メモリ
  800、1000 複合装置
  801 音声信号
  802、1100、1200 デコーダ
  901 送信部
  902 送信信号
 1001 受信部
 1002 受信信号
 1101、1201 空間情報管理部
 1102 音声データデコーダ
 1103、1202 レンダリング部

Claims (15)

  1.  音源から発せられる音を、収音装置を用いて収音した音声信号を取得するステップと、
     前記音声信号に対して、前記収音装置と前記音源との相対位置を時間領域で繰り返し変化させる音響処理を実行するステップと、
     前記音響処理を実行済みの出力音声信号を出力するステップとを含む
     音響処理方法。
  2.  前記音響処理を実行するステップでは、
      前記音声信号における音圧の時間領域における変化が、当該変化に関する所定の条件を満たすか否かを判定し、
      前記所定の条件を満たすと判定された場合に前記音響処理を実行し、
      前記所定の条件を満たさないと判定された場合に前記音響処理を実行しない
     請求項1に記載の音響処理方法。
  3.  前記音響処理を実行するステップでは、
      前記音声信号を用いて前記収音装置と前記音源との位置関係を推定し、
      推定した前記位置関係が、当該位置関係に関する所定の条件を満たすか否かを判定し、
      前記所定の条件を満たすと判定された場合に前記音響処理を実行し、
      前記所定の条件を満たさないと判定された場合に前記音響処理を実行しない
     請求項1に記載の音響処理方法。
  4.  前記音声信号は、収音時の状況に関する収音状況情報を含み、
     前記音響処理を実行するステップでは、
      前記音声信号に含まれる前記収音状況情報が、当該収音状況情報に関する所定の条件を満たすか否かを判定し、
      前記所定の条件を満たすと判定された場合に前記音響処理を実行し、
      前記所定の条件を満たさないと判定された場合に前記音響処理を実行しない
     請求項1に記載の音響処理方法。
  5.  前記音響処理を実行するステップでは、
      前記音声信号を用いて前記収音装置と前記音源との位置関係を推定し、
      推定した前記位置関係に応じた処理条件で前記音響処理を実行する
     請求項1に記載の音響処理方法。
  6.  仮想音空間内の音源オブジェクトから発せられる音を、前記仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理方法であって、
     前記音源オブジェクトから発せられる音を含む音声信号を取得するステップと、
     前記受聴点と前記音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって前記相対位置が変化する第1変化量を含む指示を受け付けるステップと、
     前記音声信号に対して、前記相対位置を前記第1変化量変化させ、かつ、前記相対位置を時間領域で第2変化量繰り返し変化させる音響処理を実行するステップと、
     前記音響処理を実行済みの前記出力音声信号を出力するステップとを含む
     音響処理方法。
  7.  前記音源オブジェクトは、実空間のユーザを模しており、
     前記音響処理方法は、前記実空間に設けられた、前記ユーザを検知するセンサから検知結果を取得するステップをさらに含み、
     前記第2変化量は、前記検知結果に基づき算出される
     請求項6に記載の音響処理方法。
  8.  前記音源オブジェクトは、実空間のユーザを模しており、
     前記音響処理方法は、前記実空間に設けられた、前記ユーザを検知するセンサから検知結果を取得するステップをさらに含み、
     前記第2変化量は、前記検知結果とは独立して算出される
     請求項6に記載の音響処理方法。
  9.  前記第2変化量は、前記第1変化量とは独立して算出される
     請求項6に記載の音響処理方法。
  10.  前記第2変化量は、前記第1変化量が大きいほど大きい数値として算出される
     請求項6に記載の音響処理方法。
  11.  前記第2変化量は、前記第1変化量が小さいほど大きい数値として算出される
     請求項6に記載の音響処理方法。
  12.  前記音声信号に対する制御情報を取得するステップをさらに含み、
     前記音響処理を実行するステップでは、
     前記制御情報が、前記音響処理を実行させることを示していた場合に、前記音響処理を実行する
     請求項1又は6に記載の音響処理方法。
  13.  音源から発せられる音を、収音装置を用いて収音した音声信号を取得する取得部と、
     前記音声信号に対して、前記収音装置と前記音源との相対位置を時間領域で繰り返し変化させる音響処理を実行する処理部と、
     前記音響処理を実行済みの出力音声信号を出力する出力部とを備える
     音響処理装置。
  14.  仮想音空間内の音源オブジェクトから発せられる音を、前記仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理装置であって、
     前記音源オブジェクトから発せられる音を含む音声信号を取得する取得部と、
     前記受聴点と前記音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって前記相対位置が変化する第1変化量を含む指示を受け付ける受付部と、
     前記音声信号に対して、前記相対位置を前記第1変化量変化させ、かつ、前記相対位置を時間領域で第2変化量繰り返し変化させる音響処理を実行する処理部と、
     前記音響処理を実行済みの前記出力音声信号を出力する出力部とを備える
     音響処理装置。
  15.  請求項1又は6に記載の音響処理方法をコンピュータに実行させるための
     プログラム。
PCT/JP2023/035546 2022-10-19 2023-09-28 音響処理方法、音響処理装置、及び、プログラム WO2024084920A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202263417398P 2022-10-19 2022-10-19
US63/417,398 2022-10-19

Publications (1)

Publication Number Publication Date
WO2024084920A1 true WO2024084920A1 (ja) 2024-04-25

Family

ID=90737700

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/035546 WO2024084920A1 (ja) 2022-10-19 2023-09-28 音響処理方法、音響処理装置、及び、プログラム

Country Status (1)

Country Link
WO (1) WO2024084920A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006086921A (ja) * 2004-09-17 2006-03-30 Sony Corp オーディオ信号の再生方法およびその再生装置
JP2012506673A (ja) * 2008-10-20 2012-03-15 ジェノーディオ,インコーポレーテッド オーディオ空間化および環境シミュレーション
JP2013034107A (ja) * 2011-08-02 2013-02-14 Copcom Co Ltd 音源定位制御プログラムおよび音源定位制御装置
JP2022052798A (ja) * 2020-09-24 2022-04-05 ピクシーダストテクノロジーズ株式会社 音響処理装置、音響処理方法、および音響処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006086921A (ja) * 2004-09-17 2006-03-30 Sony Corp オーディオ信号の再生方法およびその再生装置
JP2012506673A (ja) * 2008-10-20 2012-03-15 ジェノーディオ,インコーポレーテッド オーディオ空間化および環境シミュレーション
JP2013034107A (ja) * 2011-08-02 2013-02-14 Copcom Co Ltd 音源定位制御プログラムおよび音源定位制御装置
JP2022052798A (ja) * 2020-09-24 2022-04-05 ピクシーダストテクノロジーズ株式会社 音響処理装置、音響処理方法、および音響処理プログラム

Similar Documents

Publication Publication Date Title
KR102502383B1 (ko) 오디오 신호 처리 방법 및 장치
JP6799141B2 (ja) 空間化オーディオを用いた複合現実システム
CN108141696B (zh) 用于空间音频调节的***和方法
US10979842B2 (en) Methods and systems for providing a composite audio stream for an extended reality world
CA3123982C (en) Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
CN112602053B (zh) 音频装置和音频处理的方法
US11109177B2 (en) Methods and systems for simulating acoustics of an extended reality world
CN112312297B (zh) 音频带宽减小
Murphy et al. Spatial sound for computer games and virtual reality
CN113614685A (zh) 音频装置及其方法
JP7457525B2 (ja) 受信装置、コンテンツ伝送システム、及びプログラム
WO2020189263A1 (ja) 音響処理装置、音響処理方法、および音響処理プログラム
WO2024084920A1 (ja) 音響処理方法、音響処理装置、及び、プログラム
WO2024084949A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024014389A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084997A1 (ja) 音響処理装置及び音響処理方法
WO2024084950A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084998A1 (ja) 音響処理装置及び音響処理方法
WO2024084999A1 (ja) 音響処理装置及び音響処理方法
WO2023199815A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2023199778A1 (ja) 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム
WO2024014390A1 (ja) 音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置
JP2020188435A (ja) オーディオエフェクト制御装置、オーディオエフェクト制御システム、オーディオエフェクト制御方法及びプログラム
WO2023199813A1 (ja) 音響処理方法、プログラム、及び音響処理システム
RU2815621C1 (ru) Аудиоустройство и способ обработки аудио

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23879568

Country of ref document: EP

Kind code of ref document: A1