WO2024084949A1 - 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置 - Google Patents

音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置 Download PDF

Info

Publication number
WO2024084949A1
WO2024084949A1 PCT/JP2023/036004 JP2023036004W WO2024084949A1 WO 2024084949 A1 WO2024084949 A1 WO 2024084949A1 JP 2023036004 W JP2023036004 W JP 2023036004W WO 2024084949 A1 WO2024084949 A1 WO 2024084949A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
information
listener
wind
change
Prior art date
Application number
PCT/JP2023/036004
Other languages
English (en)
French (fr)
Inventor
陽 宇佐見
智一 石川
宏幸 江原
康太 中橋
成悟 榎本
摩里子 山田
修二 宮阪
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2024084949A1 publication Critical patent/WO2024084949A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • This disclosure relates to an acoustic signal processing method, etc.
  • Patent Document 1 discloses technology related to a stereophonic calculation method, which is an acoustic signal processing method.
  • a stereophonic calculation method which is an acoustic signal processing method.
  • the arrival time of sound at a listener (observer) is controlled so as to change depending on the distance between the sound source and the listener and the speed of sound.
  • Patent Document 1 it may be difficult to give the listener a sense of realism.
  • the present disclosure therefore aims to provide an acoustic signal processing method and the like that can give listeners a sense of realism.
  • the acoustic signal processing method includes an acquisition step of acquiring object information indicating a change in an object causing wind and a predetermined timing related to the change in the object, and an output step of outputting aerodynamic sound data indicating aerodynamic sound caused by the wind a predetermined time after the predetermined timing indicated by the acquired object information based on the change in the object.
  • a computer program causes a computer to execute the above-mentioned acoustic signal processing method.
  • An audio signal processing device includes an acquisition unit that acquires object information indicating a change in an object that causes wind and a predetermined timing related to the change in the object, and an output unit that outputs aerodynamic sound data indicating aerodynamic sound caused by the wind a predetermined time after the predetermined timing indicated by the acquired object information based on the change in the object.
  • the acoustic signal processing method can provide a sense of realism to the listener.
  • FIG. 1 is a diagram showing an immersive audio playback system, which is an example of a system to which the audio processing or decoding processing of the present disclosure can be applied.
  • FIG. 2 is a functional block diagram showing a configuration of an encoding device which is an example of an encoding device according to the present disclosure.
  • FIG. 3 is a functional block diagram showing a configuration of a decoding device which is an example of the decoding device of the present disclosure.
  • FIG. 4 is a functional block diagram showing a configuration of an encoding device that is another example of an encoding device according to the present disclosure.
  • FIG. 5 is a functional block diagram showing a configuration of a decoding device which is another example of the decoding device of the present disclosure.
  • FIG. 1 is a diagram showing an immersive audio playback system, which is an example of a system to which the audio processing or decoding processing of the present disclosure can be applied.
  • FIG. 2 is a functional block diagram showing a configuration of an encoding device which is an example of an
  • FIG. 6 is a functional block diagram showing a configuration of a decoder which is an example of the decoder in FIG. 3 or FIG.
  • FIG. 7 is a functional block diagram showing the configuration of a decoder which is another example of the decoder in FIG. 3 or FIG.
  • FIG. 8 is a diagram showing an example of a physical configuration of an audio signal processing device.
  • FIG. 9 is a diagram illustrating an example of a physical configuration of an encoding device.
  • FIG. 10 is a block diagram illustrating a functional configuration of an audio signal processing device according to an embodiment.
  • FIG. 11 is a flowchart of a first operation example of the audio signal processing device according to the embodiment.
  • FIG. 12 is a diagram showing an electric fan, which is an object, and a listener according to the first operation example.
  • FIG. 13A is a diagram illustrating the process of determining the predetermined time in step S40 shown in FIG.
  • FIG. 13B is a diagram illustrating a detailed example of the output of aerodynamic sound data according to the embodiment.
  • FIG. 13C is a diagram illustrating another detailed example of the output of aerodynamic sound data according to the embodiment.
  • FIG. 14 is a flowchart of a second operation example of the audio signal processing device according to the embodiment.
  • FIG. 15 is a diagram showing an ambulance and a listener, which are objects according to the second operation example.
  • FIG. 16 is a schematic diagram for explaining the predetermined timing according to the second operation example.
  • FIG. 17 is a flowchart illustrating the details of step S35 according to the second operation example.
  • FIG. 18 is a flowchart illustrating details of step S35 according to another first example of the second operation example.
  • FIG. 19 is a functional block diagram and an example of steps for explaining a case where the rendering unit in FIG. 6 and FIG. 7 performs pipeline
  • Patent Document 1 discloses technology relating to a stereophonic calculation method, which is an acoustic signal processing method.
  • the arrival time of sound to the listener is controlled to change according to the distance between the sound source and the listener and the speed of sound. More specifically, the arrival time is controlled to become longer as the distance increases, and longer as the speed of sound decreases. This allows the listener to recognize the distance between the object emitting the sound (i.e., the sound source) and themselves.
  • Sound that has been controlled in this way is used in applications such as virtual reality (VR) or augmented reality (AR) to reproduce three-dimensional sound in a space (virtual space) in which a user (listener) exists. Sound that has been controlled in this way is particularly used in virtual spaces where information on the listener's 6 DoF (Degrees of Freedom) is sensed.
  • VR virtual reality
  • AR augmented reality
  • the sound that reaches the listener disclosed in Patent Document 1 is the traveling sound of a vehicle (moving sound source), which is an object in VR or AR, and is the sound (engine sound, etc.) emitted by the vehicle itself.
  • a vehicle creates wind when it moves. Aerodynamic sound is generated when the wind created by the vehicle reaches the listener's ears. This aerodynamic sound is a sound that is generated, for example, according to the shape of the listener L's ear when wind caused by an object (for example, a vehicle) reaches the listener.
  • objects that create wind are not limited to objects that run (move) like the above-mentioned vehicle, but also include objects that generate wind, such as an electric fan.
  • Patent Document 1 does not disclose how to allow aerodynamic sound to be heard by the listener. More specifically, Patent Document 1 does not disclose technology for controlling the time it takes for aerodynamic sound to reach the listener when an object creates wind. With the technology disclosed in Patent Document 1, the listener is unable to hear the aerodynamic sound at the appropriate timing, which causes the listener to feel uncomfortable and makes it difficult for the listener to obtain a sense of realism. Therefore, there is a demand for an audio signal processing method that can provide the listener with a sense of realism.
  • the acoustic signal processing method includes an acquisition step of acquiring object information indicating a change in an object causing wind and a predetermined timing related to the change in the object, and an output step of outputting aerodynamic sound data indicating aerodynamic sound caused by the wind a predetermined time after the predetermined timing indicated by the acquired object information based on the change in the object.
  • the acoustic signal processing method according to the second aspect of the present disclosure is the acoustic signal processing method according to the first aspect, in which the object information indicates a change in the wind due to a change in the object and the predetermined timing is the timing of the change in the wind, and the acoustic signal processing method includes a determination step of determining the predetermined time based on the wind indicated by the acquired object information.
  • the acoustic signal processing method according to the third aspect of the present disclosure is the acoustic signal processing method according to the second aspect, in which the change in wind indicated by the object information indicates a change in the wind speed, and in the determination step, the predetermined time is determined based on the wind speed.
  • the specified time is determined based on the wind speed, allowing the listener to hear the aerodynamic sound at a more appropriate time.
  • the acoustic signal processing method according to the fourth aspect of the present disclosure is the acoustic signal processing method according to the third aspect, in which the aerodynamic sound is a sound generated at the changed wind speed.
  • the acoustic signal processing method is the acoustic signal processing method according to the first aspect, in which the object information indicates the position of the object, and the acoustic signal processing method includes a determination step of determining the predetermined time based on the distance between the position of the listener of the aerodynamic sound and the position of the object indicated by the acquired object information.
  • the specified time is determined based on the distance, allowing the listener to hear the aerodynamic sound at a more appropriate time.
  • the acoustic signal processing method according to the sixth aspect of the present disclosure is the acoustic signal processing method according to the third or fourth aspect, in which the object information indicates the position of the object, and in the determination step, the predetermined time is determined based on the wind speed and the distance between the position of the listener of the aerodynamic sound and the position of the object indicated by the acquired object information.
  • the specified time is determined based on the wind speed and the distance, allowing the listener to hear the aerodynamic sound at a more appropriate time.
  • the acoustic signal processing method according to the seventh aspect of the present disclosure is an acoustic signal processing method according to any one of the first to sixth aspects, in which the object information indicates that the predetermined timing is a first timing for outputting sound data associated with the object, and in the output step, the aerodynamic sound data is output a predetermined time after the first timing indicated by the acquired object information.
  • the aerodynamic sound data can be output a predetermined time after the first timing at which the sound is output, allowing the listener to hear the aerodynamic sound at a more appropriate timing.
  • an acoustic signal processing method is an acoustic signal processing method according to any one of the first to sixth aspects, in which the object information indicates the position of the object and the predetermined timing is a second timing at which the distance between the position of the listener of the aerodynamic sound and the position of the object becomes shorter than a predetermined distance, and in the output step, the aerodynamic sound data is output after the predetermined time from the second timing indicated by the acquired object information.
  • the aerodynamic sound data can be output at the second time when the distance becomes shorter than the predetermined distance, in other words, at the time when a predetermined time has elapsed since the second time when the object approached the listener, allowing the listener to hear the aerodynamic sound at a more appropriate time.
  • the acoustic signal processing method according to the ninth aspect of the present disclosure is an acoustic signal processing method according to any one of the first to sixth aspects, in which the object information indicates that the change in wind due to a change in the object is a change in the wind direction and the predetermined timing is a third timing at which the change in wind direction occurred, and in the output step, the aerodynamic sound data is output the predetermined time after the third timing indicated by the acquired object information.
  • an audio signal processing method is the audio signal processing method according to the sixth aspect, in which the object is an object that generates the sound and the wind indicated by sound data associated with the object, and the aerodynamic sound is an aerodynamic sound that is generated when the wind generated by the object reaches the listener.
  • the acoustic signal processing method according to the eleventh aspect of the present disclosure is the acoustic signal processing method according to the tenth aspect, in which, when the distance is D, the distance from the position of the object at which the wind speed becomes So is U, and the predetermined time is t, t satisfies the following formula:
  • the time from the specified timing until the wind generated by the object reaches the listener can be determined as the specified time. Therefore, since the aerodynamic sound data can be output when such a specified time has elapsed from the specified timing, the listener can hear the aerodynamic sound at a more appropriate timing.
  • the acoustic signal processing method according to a twelfth aspect of the present disclosure is the acoustic signal processing method according to the sixth aspect, in which the object is an object that generates the wind by moving the position of the object, and the aerodynamic sound is aerodynamic sound that is generated when the wind generated by the movement reaches the listener.
  • the audio signal processing method according to a thirteenth aspect of the present disclosure is the audio signal processing method according to the twelfth aspect, in which the predetermined timing indicated by the object information is the timing at which the amount of change in the distance over time turns from negative to positive.
  • the acoustic signal processing method according to the 14th aspect of the present disclosure is the acoustic signal processing method according to the 12th or 13th aspect, in which, when the distance is D, the distance from the position of the object at which the wind speed of the wind generated by the movement becomes So is U, and the predetermined time is t, t satisfies the following formula:
  • the time from the specified timing until the wind generated by the object reaches the listener can be determined as the specified time. Therefore, since the aerodynamic sound data can be output when such a specified time has elapsed from the specified timing, the listener can hear the aerodynamic sound at a more appropriate timing.
  • a computer program according to a fifteenth aspect of the present disclosure is a computer program for causing a computer to execute an acoustic signal processing method according to any one of the first to fourteenth aspects.
  • an audio signal processing device includes an acquisition unit that acquires object information indicating a change in an object causing wind and a predetermined timing related to the change in the object, and an output unit that outputs aerodynamic sound data indicating aerodynamic sound caused by the wind a predetermined time after the predetermined timing indicated by the acquired object information based on the change in the object.
  • ordinal numbers such as first and second may be attached to elements. These ordinal numbers are attached to elements in order to identify them, and do not necessarily correspond to a meaningful order. These ordinal numbers may be rearranged, newly added, or removed as appropriate.
  • each figure is a schematic diagram and is not necessarily an exact illustration. Therefore, the scale and the like are not necessarily the same in each figure.
  • the same reference numerals are used for substantially the same configuration, and duplicate explanations are omitted or simplified.
  • ⁇ 3D sound reproduction system> 1 is a diagram showing a stereophonic (immersive audio) reproduction system A0000 as an example of a system to which the acoustic processing or decoding processing of the present disclosure can be applied.
  • the stereophonic reproduction system A0000 includes an acoustic signal processing device A0001 and an audio presentation device A0002.
  • the acoustic signal processing device A0001 performs acoustic processing on the audio signal emitted by the virtual sound source to generate an audio signal after acoustic processing that is presented to the listener (i.e., the listener).
  • the audio signal is not limited to a voice, but may be any audible sound.
  • Acoustic processing is, for example, signal processing performed on an audio signal in order to reproduce one or more sound-related effects that a sound generated from a sound source experiences between the time the sound is emitted and the time the listener hears the sound.
  • the acoustic signal processing device A0001 performs acoustic processing based on information that describes the factors that cause the above-mentioned sound-related effects.
  • the spatial information includes, for example, information indicating the positions of the sound source, the listener, and surrounding objects, information indicating the shape of the space, parameters related to sound propagation, and the like.
  • the acoustic signal processing device A0001 is, for example, a PC (Personal Computer), a smartphone, a tablet, or a game console.
  • the signal after acoustic processing is presented to the listener (user) from the audio presentation device A0002.
  • the audio presentation device A0002 is connected to the audio signal processing device A0001 via wireless or wired communication.
  • the audio signal after acoustic processing generated by the audio signal processing device A0001 is transmitted to the audio presentation device A0002 via wireless or wired communication.
  • the audio presentation device A0002 is composed of multiple devices, such as a device for the right ear and a device for the left ear, the multiple devices present sounds in synchronization with each other or with the audio signal processing device A0001.
  • the audio presentation device A0002 is, for example, headphones, earphones, or a head-mounted display worn on the listener's head, or a surround speaker composed of multiple fixed speakers.
  • the stereophonic sound reproduction system A0000 may be used in combination with an image presentation device or a stereoscopic image presentation device that provides an ER (Extended Reality) experience, including visual VR or AR.
  • ER Extended Reality
  • FIG. 1 shows an example of a system configuration in which the acoustic signal processing device A0001 and the audio presentation device A0002 are separate devices
  • the stereophonic sound reproduction system A0000 to which the acoustic signal processing method or decoding method of the present disclosure can be applied is not limited to the configuration of FIG. 1.
  • the acoustic signal processing device A0001 may be included in the audio presentation device A0002, which may perform both acoustic processing and sound presentation.
  • the acoustic signal processing device A0001 and the audio presentation device A0002 may share the acoustic processing described in this disclosure, or a server connected to the acoustic signal processing device A0001 or the audio presentation device A0002 via a network may perform part or all of the acoustic processing described in this disclosure.
  • the audio signal processing device A0001 is referred to as such, but if the audio signal processing device A0001 performs audio processing by decoding a bit stream generated by encoding at least a portion of the data of the audio signal or spatial information used in the audio processing, the audio signal processing device A0001 may be referred to as a decoding device.
  • FIG. 2 is a functional block diagram showing a configuration of an encoding device A0100, which is an example of an encoding device according to the present disclosure.
  • the input data A0101 is data to be encoded, including spatial information and/or audio signals, that is input to the encoder A0102. Details of the spatial information will be explained later.
  • the encoder A0102 encodes the input data A0101 to generate encoded data A0103.
  • the encoded data A0103 is, for example, a bit stream generated by the encoding process.
  • Memory A0104 stores the encoded data A0103.
  • Memory A0104 may be, for example, a hard disk or a solid-state drive (SSD), or may be other memory.
  • a bit stream generated by the encoding process is given as an example of the encoded data A0103 stored in the memory A0104, but data other than a bit stream may be used.
  • the encoding device A0100 may convert the bit stream into a predetermined data format and store the converted data in the memory A0104.
  • the converted data may be, for example, a file or multiplexed stream that stores one or more bit streams.
  • the file is, for example, a file having a file format such as ISOBMFF (ISO Base Media File Format).
  • ISOBMFF ISO Base Media File Format
  • the encoded data A0103 may also be in the form of multiple packets generated by dividing the bit stream or file.
  • the encoding device A0100 may be provided with a conversion unit (not shown), or the conversion process may be performed by a CPU (Central Processing Unit).
  • FIG. 3 is a functional block diagram showing a configuration of a decoding device A 0110 which is an example of a decoding device according to the present disclosure.
  • the memory A0114 stores, for example, the same data as the encoded data A0103 generated by the encoding device A0100.
  • the memory A0114 reads out the stored data and inputs it as input data A0113 to the decoder A0112.
  • the input data A0113 is, for example, a bit stream to be decoded.
  • the memory A0114 may be, for example, a hard disk or SSD, or may be some other memory.
  • the decoding device A0110 may not directly use the data stored in the memory A0114 as the input data A0113, but may convert the read data and generate converted data as the input data A0113.
  • the data before conversion may be, for example, multiplexed data that stores one or more bit streams.
  • the multiplexed data may be, for example, a file having a file format such as ISOBMFF.
  • the data before conversion may also be in the form of multiple packets generated by dividing the bit stream or file.
  • the decoding device A0110 may be provided with a conversion unit (not shown), or the conversion process may be performed by a CPU.
  • the decoder A0112 decodes the input data A0113 to generate an audio signal A0111 that is presented to the listener.
  • Fig. 4 is a functional block diagram showing a configuration of an encoding device A0120, which is another example of an encoding device according to the present disclosure.
  • components having the same functions as those in Fig. 2 are given the same reference numerals, and descriptions of these components are omitted.
  • the encoding device A0100 differs from the encoding device A0100 in that the encoding device A0120 includes a transmission unit A0121 that transmits the encoded data A0103 to the outside, whereas the encoding device A0100 stores the encoded data A0103 in a memory A0104.
  • the transmitting unit A0121 transmits a transmission signal A0122 to another device or server based on the encoded data A0103 or data in a different data format generated by converting the encoded data A0103.
  • the data used to generate the transmission signal A0122 is, for example, the bit stream, multiplexed data, file, or packet described in the encoding device A0100.
  • Fig. 5 is a functional block diagram showing a configuration of a decoding device A0130, which is another example of a decoding device according to the present disclosure.
  • components having the same functions as those in Fig. 3 are given the same reference numerals, and descriptions of these components are omitted.
  • the decryption device A0130 differs from the decryption device A0110 in that, while the decryption device A0110 reads the input data A0113 from the memory A0114, the decryption device A0130 has a receiving unit A0131 that receives the input data A0113 from outside.
  • the receiving unit A0131 receives the receiving signal A0132, acquires the received data, and outputs the input data A0113 to be input to the decoder A0112.
  • the received data may be the same as the input data A0113 to be input to the decoder A0112, or may be data in a format different from that of the input data A0113. If the received data is in a format different from that of the input data A0113, the receiving unit A0131 may convert the received data into the input data A0113, or a conversion unit or CPU (not shown) included in the decoding device A0130 may convert the received data into the input data A0113.
  • the received data is, for example, a bit stream, multiplexed data, a file, or a packet, as described for the encoding device A0120.
  • FIG. 6 is a functional block diagram showing a configuration of a decoder A0200 which is an example of the decoder A0112 in FIG. 3 or FIG.
  • the input data A0113 is an encoded bitstream and includes encoded audio data, which is an encoded audio signal, and metadata used for audio processing.
  • the spatial information management unit A0201 acquires metadata contained in the input data A0113 and analyzes the metadata.
  • the metadata includes information describing elements that act on sounds arranged in a sound space.
  • the spatial information management unit A0201 manages spatial information necessary for sound processing obtained by analyzing the metadata, and provides the spatial information to the rendering unit A0203.
  • the information used for sound processing is called spatial information in this disclosure, it may be called something else.
  • the information used for sound processing may be called, for example, sound space information or scene information.
  • the spatial information input to the rendering unit A0203 may be called a spatial state, a sound space state, a scene state, etc.
  • the spatial information may be managed for each sound space or for each scene.
  • the spatial information may be managed as scenes of different sound spaces for each room, or the spatial information may be managed as different scenes depending on the scene being represented even if the room is the same space.
  • an identifier for identifying each piece of spatial information may be assigned.
  • the spatial information data may be included in a bitstream, which is one form of input data, or the bitstream may include an identifier for the spatial information and the spatial information data may be obtained from somewhere other than the bitstream. If the bitstream includes only an identifier for the spatial information, the identifier for the spatial information may be used during rendering to obtain the spatial information data stored in the memory of the acoustic signal processing device A0001 or an external server as input data.
  • the information managed by the spatial information management unit A0201 is not limited to the information included in the bitstream.
  • the input data A0113 may include data indicating the characteristics or structure of the space obtained from a software application or server that provides VR or AR as data not included in the bitstream.
  • the input data A0113 may include data indicating the characteristics or position of a listener or an object as data not included in the bitstream.
  • the input data A0113 may include information obtained by a sensor provided in a terminal including a decoding device as information indicating the position of the listener, or information indicating the position of the terminal estimated based on information obtained by the sensor.
  • the spatial information management unit A0201 may communicate with an external system or server to obtain spatial information and the position of the listener. Also, the spatial information management unit A0201 may obtain clock synchronization information from an external system and execute a process of synchronizing with the clock of the rendering unit A0203.
  • the space in the above description may be a virtually formed space, i.e., a VR space, or may be a real space (i.e., a physical space) or a virtual space corresponding to the real space, i.e., an AR or MR (Mixed Reality).
  • the virtual space may also be called a sound field or sound space.
  • the information indicating a position in the above description may be information such as coordinate values indicating a position within a space, information indicating a relative position with respect to a predetermined reference position, or information indicating the movement or acceleration of a position within a space.
  • the audio data decoder A0202 decodes the encoded audio data contained in the input data A0113 to obtain an audio signal.
  • the encoded audio data acquired by the stereophonic reproduction system A0000 is a bitstream encoded in a specific format, such as MPEG-H 3D Audio (ISO/IEC 23008-3).
  • MPEG-H 3D Audio is merely one example of an encoding method that can be used to generate the encoded audio data contained in the bitstream, and the encoded audio data may also include a bitstream encoded in another encoding method.
  • the encoding method used may be a lossy codec such as MP3 (MPEG-1 Audio Layer-3), AAC (Advanced Audio Coding), WMA (Windows Media Audio), AC3 (Audio Codec-3), or Vorbis, or a lossless codec such as ALAC (Apple Lossless Audio Codec) or FLAC (Free Lossless Audio Codec), or any encoding method other than the above may be used.
  • MP3 MPEG-1 Audio Layer-3
  • AAC Advanced Audio Coding
  • WMA Windows Media Audio
  • AC3 Audio Codec-3
  • Vorbis Vorbis
  • ALAC Apple Lossless Audio Codec
  • FLAC Free Lossless Audio Codec
  • PCM pulse code modulation
  • the decoding process may be, for example, a process of converting an N-bit binary number into a number format (e.g., floating-point format) that can be processed by the rendering unit A0203 when the number of quantization bits of the PCM data is N.
  • a number format e.g., floating-point format
  • the rendering unit A0203 receives an audio signal and spatial information, performs acoustic processing on the audio signal using the spatial information, and outputs the processed audio signal A0111.
  • the spatial information management unit A0201 reads the metadata of the input signal, detects rendering items such as objects or sounds defined in the spatial information, and sends them to the rendering unit A0203. After rendering begins, the spatial information management unit A0201 grasps changes over time in the spatial information and the listener's position, and updates and manages the spatial information. The spatial information management unit A0201 then sends the updated spatial information to the rendering unit A0203. The rendering unit A0203 generates and outputs an audio signal to which acoustic processing has been added based on the audio signal included in the input data A0113 and the spatial information received from the spatial information management unit A0201.
  • the spatial information update process and the audio signal output process with added acoustic processing may be executed in the same thread, or the spatial information management unit A0201 and the rendering unit A0203 may each be assigned to an independent thread.
  • the thread startup frequency may be set individually, or the processes may be executed in parallel.
  • the spatial information management unit A0201 and the rendering unit A0203 execute their processes in different independent threads, it is possible to allocate computational resources preferentially to the rendering unit A0203, so that sound output processing that cannot tolerate even the slightest delay, such as sound output processing in which a delay of even one sample (0.02 msec) would cause a popping noise, can be safely performed.
  • the allocation of computational resources to the spatial information management unit A0201 is limited.
  • updating spatial information is a low-frequency process (for example, processing such as updating the direction of the listener's face). For this reason, unlike audio signal output processing, it does not necessarily require an instantaneous response, so limiting the allocation of computational resources does not have a significant impact on the acoustic quality provided to the listener.
  • Updating of the spatial information may be performed periodically at preset times or periods, or when preset conditions are met.
  • updating of the spatial information may be performed manually by the listener or the manager of the sound space, or may be performed when triggered by a change in an external system. For example, if a listener operates a controller to instantly warp the position of his/her avatar, or to instantly advance or reverse the time, or if the manager of the virtual space suddenly performs a performance that changes the environment of the place, the thread in which the spatial information management unit A0201 is placed may be started as a one-off interrupt process in addition to being started periodically.
  • the role of the information update thread that executes the spatial information update process is, for example, to update the position or orientation of the listener's avatar placed in the virtual space based on the position or orientation of the VR goggles worn by the listener, and to update the position of objects moving in the virtual space, and these roles are handled within a processing thread that runs relatively infrequently, on the order of a few tens of Hz. Processing to reflect the properties of direct sound may be performed in such an infrequent processing thread. This is because the properties of direct sound change less frequently than the frequency with which audio processing frames for audio output occur. By doing so, the computational load of the process can be made relatively small, and the risk of pulsive noise occurring when information is updated at an unnecessarily fast frequency can be avoided.
  • FIG. 7 is a functional block diagram showing the configuration of a decoder A0210, which is another example of the decoder A0112 in FIG. 3 or FIG. 5.
  • the decoder A0210 shown in FIG. 7 differs from the decoder A0200 shown in FIG. 6 in that the input data A0113 includes an uncoded audio signal rather than encoded audio data.
  • the input data A0113 includes a bitstream including metadata and an audio signal.
  • the spatial information management unit A0211 is the same as the spatial information management unit A0201 in FIG. 6, so a description thereof will be omitted.
  • the rendering unit A0213 is the same as the rendering unit A0203 in Figure 6, so a description of it will be omitted.
  • the configuration in FIG. 7 is called the decoder A0210, but it may also be called an audio processing unit that performs audio processing.
  • a device that includes an audio processing unit may be called an audio processing device rather than a decoding device.
  • the audio signal processing device A0001 may be called an audio processing device.
  • Fig. 8 is a diagram showing an example of the physical configuration of an audio signal processing device. Note that the audio signal processing device in Fig. 8 may be a decoding device. Also, a part of the configuration described here may be provided in the audio presentation device A0002. Also, the audio signal processing device shown in Fig. 8 is an example of the above-mentioned audio signal processing device A0001.
  • the acoustic signal processing device in FIG. 8 includes a processor, a memory, a communication IF, a sensor, and a speaker.
  • the processor may be, for example, a CPU (Central Processing Unit), a DSP (Digital Signal Processor) or a GPU (Graphics Processing Unit), and the CPU, DSP or GPU may execute a program stored in memory to perform the acoustic processing or decoding processing of the present disclosure.
  • the processor may also be a dedicated circuit that performs signal processing on audio signals, including the acoustic processing of the present disclosure.
  • Memory is composed of, for example, RAM (Random Access Memory) or ROM (Read Only Memory). Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • the communication IF Inter Face
  • the audio signal processing device shown in FIG. 8 has a function of communicating with other communication devices via the communication IF, and acquires a bitstream to be decoded.
  • the acquired bitstream is stored in a memory, for example.
  • the communication module is composed of, for example, a signal processing circuit and an antenna corresponding to the communication method.
  • Bluetooth registered trademark
  • WIGIG registered trademark
  • the communication IF may be a wired communication method such as Ethernet (registered trademark), USB (Universal Serial Bus), or HDMI (registered trademark) (High-Definition Multimedia Interface) instead of the wireless communication method described above.
  • the sensor performs sensing to estimate the position or orientation of the listener. Specifically, the sensor estimates the position and/or orientation of the listener based on one or more detection results of the position, orientation, movement, velocity, angular velocity, acceleration, etc. of a part of the listener's body, such as the head, or the whole of the listener, and generates position information indicating the position and/or orientation of the listener.
  • the position information may be information indicating the position and/or orientation of the listener in real space, or information indicating the displacement of the position and/or orientation of the listener based on the position and/or orientation of the listener at a specified time.
  • the position information may also be information indicating the position and/or orientation relative to the stereophonic reproduction system A0000 or an external device equipped with the sensor.
  • the sensor may be, for example, an imaging device such as a camera or a ranging device such as LiDAR (Light Detection and Ranging), and may capture the movement of the listener's head and detect the movement of the listener's head by processing the captured image.
  • the sensor may be a device that performs position estimation using wireless signals of any frequency band, such as millimeter waves.
  • the audio signal processing device shown in FIG. 8 may acquire position information from an external device equipped with a sensor via a communication IF.
  • the audio signal processing device does not need to include a sensor.
  • the external device is, for example, the audio presentation device A0002 described in FIG. 1 or a 3D image playback device worn on the listener's head.
  • the sensor is configured by combining various sensors such as a gyro sensor and an acceleration sensor.
  • the sensor may detect, for example, the angular velocity of rotation about at least one of three mutually orthogonal axes in the sound space as the speed of movement of the listener's head, or may detect the acceleration of displacement with at least one of the three axes as the displacement direction.
  • the sensor may detect, for example, the amount of movement of the listener's head as the amount of rotation about at least one of three mutually orthogonal axes in the sound space, or the amount of displacement about at least one of the three axes. Specifically, the sensor detects 6DoF (position (x, y, z) and angle (yaw, pitch, roll)) as the listener's position.
  • the sensor is configured by combining various sensors used for detecting movement, such as a gyro sensor and an acceleration sensor.
  • the sensor only needs to be capable of detecting the position of the listener, and may be realized by a camera or a GPS (Global Positioning System) receiver, etc. Position information obtained by performing self-position estimation using LiDAR (Laser Imaging Detection and Ranging) or the like may be used. For example, when the audio signal playback system is realized by a smartphone, the sensor is built into the smartphone.
  • GPS Global Positioning System
  • the sensor may also include a temperature sensor such as a thermocouple that detects the temperature of the audio signal processing device shown in FIG. 8, and a sensor that detects the remaining charge of a battery provided in or connected to the audio signal processing device.
  • a temperature sensor such as a thermocouple that detects the temperature of the audio signal processing device shown in FIG. 8, and a sensor that detects the remaining charge of a battery provided in or connected to the audio signal processing device.
  • a speaker for example, has a diaphragm, a drive mechanism such as a magnet or voice coil, and an amplifier, and presents the audio signal after acoustic processing as sound to the listener.
  • the speaker operates the drive mechanism in response to the audio signal (more specifically, a waveform signal that indicates the waveform of the sound) amplified via the amplifier, and the drive mechanism vibrates the diaphragm.
  • the diaphragm vibrates in response to the audio signal, generating sound waves that propagate through the air and are transmitted to the listener's ears, causing the listener to perceive the sound.
  • the audio signal processing device shown in FIG. 8 is provided with a speaker and an audio signal after acoustic processing is presented through the speaker
  • the means for presenting the audio signal is not limited to the above configuration.
  • the audio signal after acoustic processing may be output to an external audio presentation device A0002 connected by a communication module. Communication through the communication module may be wired or wireless.
  • the audio signal processing device shown in FIG. 8 may be provided with a terminal for outputting an analog audio signal, and an audio signal may be presented from an earphone or the like by connecting a cable such as an earphone to the terminal.
  • the audio signal is reproduced by headphones, earphones, a head-mounted display, a neck speaker, a wearable speaker, a surround speaker composed of multiple fixed speakers, or the like that is worn on the head or part of the body of the listener, which is the audio presentation device A0002.
  • Fig. 9 is a diagram showing an example of the physical configuration of an encoding device.
  • the encoding device shown in Fig. 9 is an example of the encoding devices A0100 and A0120 described above.
  • the encoding device in FIG. 9 includes a processor, a memory, and a communication interface.
  • the processor may be, for example, a CPU (Central Processing Unit) or a DSP (Digital Signal Processor), and the encoding process of the present disclosure may be performed by the CPU or GPU executing a program stored in memory.
  • the processor may also be a dedicated circuit that performs signal processing on audio signals, including the encoding process of the present disclosure.
  • Memory is composed of, for example, RAM (Random Access Memory) or ROM (Read Only Memory). Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • the communication IF (Inter Face) is a communication module that supports communication methods such as Bluetooth (registered trademark) or WIGIG (registered trademark).
  • the encoding device has the function of communicating with other communication devices via the communication IF, and transmits an encoded bit stream.
  • the communication module is composed of, for example, a signal processing circuit and an antenna corresponding to the communication method.
  • Bluetooth registered trademark
  • WIGIG registered trademark
  • the communication IF may be a wired communication method such as Ethernet (registered trademark), USB (Universal Serial Bus), or HDMI (registered trademark) (High-Definition Multimedia Interface) instead of the wireless communication method described above.
  • FIG. 10 is a block diagram showing a functional configuration of the acoustic signal processing device 100 according to the present embodiment.
  • the audio signal processing device 100 is a device for outputting aerodynamic sound data indicating aerodynamic sound caused by wind generated by an object in a virtual space (sound reproduction space).
  • the audio signal processing device 100 according to this embodiment is a device that is used in various applications in virtual spaces, such as virtual reality or augmented reality (VR or AR), for example.
  • VR or AR augmented reality
  • An object in a virtual space is included in the content (here, video is an example of the content) displayed on the display unit 300, which displays the content executed within the virtual space.
  • the object there is no particular limitation on the object, so long as it is an object that creates wind.
  • An object is, for example, a moving body that generates wind by moving its position.
  • Moving bodies include, for example, objects that represent plants and animals, man-made objects, or natural objects.
  • objects that represent man-made objects include vehicles, bicycles, and airplanes.
  • objects that represent man-made objects include sports equipment such as baseball bats and tennis rackets, and furniture such as desks, chairs, and grandfather clocks.
  • an object may be at least one of something that can move within the content and something that can be moved, but is not limited to this.
  • the object may be an object that can blow air.
  • objects include, for example, electric fans, circulators, paper fans, and air conditioners.
  • Aerodynamic sound is sound that occurs when wind generated by an object reaches the listener's ears in a virtual space.
  • the aerodynamic sound is the aerodynamic sound that is generated when the wind generated by the object reaches the listener. More specifically, the aerodynamic sound is the sound that is generated when the wind blown out from an electric fan reaches the listener, for example, depending on the shape of the listener's ear.
  • the aerodynamic sound is generated when wind generated by the object's movement reaches the listener, and more specifically, is the sound that is generated when the wind reaches the listener, for example, depending on the shape of the listener's ear.
  • the object may also be an object that creates wind and generates sound.
  • the sound generated by the object is a sound indicated by sound data associated with the object (hereinafter sometimes referred to as object sound data).
  • object sound data For example, if the object is an electric fan, the sound generated by the object is a motor sound generated by a motor possessed by the electric fan.
  • the sound generated by the object is a siren sound emitted by the ambulance.
  • the object is an electric fan, which is an example of an object that can blow air.
  • the acoustic signal processing device 100 outputs aerodynamic sound data representing aerodynamic sounds in a virtual space to the headphones 200.
  • the headphones 200 are a device that reproduces aerodynamic sound, and are an audio output device that presents the aerodynamic sound to the listener. More specifically, the headphones 200 reproduce the aerodynamic sound based on the aerodynamic sound data output by the audio signal processing device 100. This allows the listener to hear the aerodynamic sound. Note that instead of the headphones 200, other output channels such as speakers may be used.
  • the headphones 200 include a head sensor unit 201 and an output unit 202.
  • the head sensor unit 201 senses the position of the listener, which is determined by the horizontal coordinates and vertical height in the virtual space, and outputs second position information indicating the position of the listener of the aerodynamic sound in the virtual space to the acoustic signal processing device 100.
  • the head sensor unit 201 may sense 6DoF information of the listener's head.
  • the head sensor unit 201 may be an inertial measurement unit (IMU), an accelerometer, a gyroscope, a magnetic sensor, or a combination of these.
  • the output unit 202 is a device that reproduces the sound that reaches the listener in the sound reproduction space. More specifically, the output unit 202 reproduces the aerodynamic sound based on aerodynamic sound data indicating the aerodynamic sound output from the acoustic signal processing device 100.
  • the object is an electric fan
  • sound data indicating a motor sound is output from the audio signal processing device 100
  • the output unit 202 reproduces the motor sound based on the output sound data.
  • sound data indicating a siren sound is output from the audio signal processing device 100, and the output unit 202 reproduces the siren sound based on the output sound data.
  • the display unit 300 is a display device that displays content (images) including objects in a virtual space. The process by which the display unit 300 displays content will be described later.
  • the display unit 300 is realized by a display panel such as a liquid crystal panel or an organic EL (Electro Luminescence) panel, for example.
  • the acoustic signal processing device 100 shown in FIG. 10 will be described.
  • the acoustic signal processing device 100 outputs aerodynamic sound data to the headphones 200 a predetermined time after a predetermined timing.
  • the acoustic signal processing device 100 includes an acquisition unit 110, a determination unit 120, an output unit 130, and a storage unit 140.
  • the acquisition unit 110 acquires object information.
  • the object information is information indicating the change in the object causing the wind, the specified timing of the change in the object, the change in the wind due to the change in the object, and the position of the object.
  • object information is treated as information including first change information indicating the change in the object causing the wind, timing information indicating the specified timing of the change in the object, second change information indicating the change in the wind due to the change in the object, and first position information indicating the position of the object.
  • the object information includes sound data (object sound data) that indicates the sound.
  • the object information may also include shape information that indicates the shape of the object.
  • the acquisition unit 110 acquires second position information. As described above, the second position information is information indicating the position of the listener in the virtual space.
  • the acquisition unit 110 acquires aerodynamic sound data indicating aerodynamic sound.
  • the aerodynamic sound data is stored in the storage unit 140, and the acquisition unit 110 acquires the aerodynamic sound data stored in the storage unit 140.
  • the acquisition unit 110 may acquire the object information, second position information, and aerodynamic sound data, for example, from an input signal, or may acquire the object information, second position information, and aerodynamic sound data from other sources.
  • the input signal will be described below.
  • the object sound data and aerodynamic sound data may be collectively referred to as sound data.
  • the input signal is composed of, for example, spatial information, sensor information, and sound data (audio signal). Furthermore, the above information and sound data may be included in one input signal, or the above information and sound data may be included in multiple separate signals.
  • the input signal may include a bit stream composed of sound data and metadata (control information), in which case the metadata may include information identifying the spatial information and sound data.
  • the first change information, timing information, second change information, first position information, shape information, object sound data, second position information, and aerodynamic sound data described above may be included in the input signal. More specifically, the first change information, timing information, second change information, first position information, and shape information may be included in spatial information, and the second position information may be generated based on information obtained from sensor information.
  • the sensor information may be obtained from the head sensor unit 201, or may be obtained from another external device.
  • the spatial information is information about the sound space (three-dimensional sound field) created by the stereophonic reproduction system A0000, and is composed of information about the objects contained in the sound space and information about the listener.
  • Objects include sound source objects that emit sound and act as sound sources, and non-sound producing objects that do not emit sound. Non-sound producing objects function as obstacle objects that reflect sounds emitted by sound source objects, but there are also cases where sound source objects function as obstacle objects that reflect sounds emitted by other sound source objects. Obstacle objects may also be called reflecting objects.
  • Information that is commonly assigned to sound source objects and non-sound-producing objects includes position information, shape information, and the rate at which the sound volume decays when the object reflects sound.
  • the position information is expressed by coordinate values on three axes, for example, the X-axis, Y-axis, and Z-axis in Euclidean space, but it does not necessarily have to be three-dimensional information.
  • the position information may be two-dimensional information expressed by coordinate values on two axes, for example, the X-axis and Y-axis.
  • the position information of an object is determined by the representative position of a shape expressed by a mesh or voxel.
  • the shape information may also include information about the surface material.
  • the attenuation rate may be expressed as a real number less than 1 or greater than 0, or as a negative decibel value. In real space, sound volume is not amplified by reflection, so the attenuation rate is set to a negative decibel value, but for example, to create an eerie feeling in an unreal space, an attenuation rate of greater than 1, i.e., a positive decibel value, may be set. Also, the attenuation rate may be set to a different value for each frequency band that makes up multiple frequency bands, or a value may be set independently for each frequency band. Also, if an attenuation rate is set for each type of material on the object surface, a corresponding attenuation rate value may be used based on information about the surface material.
  • the information commonly assigned to the sound source object and the non-sound generating object may include information indicating whether the object belongs to a living thing or not, or information indicating whether the object is a moving object or not. If the object is a moving object, the position information may move over time, and the changed position information or the amount of change is transmitted to the rendering units A0203 and A0213.
  • Information about the sound source object includes, in addition to the information commonly given to the sound source object and non-sound generating object described above, object sound data and information necessary for radiating the object sound data into the sound space.
  • the object sound data is data expressing the sound perceived by the listener, including information about the frequency and strength of the sound.
  • the object sound data is typically a PCM signal, but may also be data compressed using an encoding method such as MP3. In that case, the signal needs to be decoded at least before it reaches the generation unit (generation unit 907 described later in FIG. 19), so the rendering units A0203 and A0213 may include a decoding unit (not shown). Alternatively, the signal may be decoded by the audio data decoder A0202.
  • At least one object sound data may be set for one sound source object, and multiple object sound data may be set.
  • identification information for identifying each object sound data may be assigned, and the identification information for the object sound data may be stored as metadata as information relating to the sound source object.
  • Information necessary for emitting object sound data into a sound space may include, for example, information on the reference volume that serves as a reference when playing back the object sound data, information on the position of the sound source object, information on the orientation of the sound source object, and information on the directionality of the sound emitted by the sound source object.
  • the reference volume information may be, for example, the effective value of the amplitude value of the object sound data at the sound source position when the object sound data is emitted into the sound space, and may be expressed as a floating point decibel (db) value.
  • db decibel
  • the reference volume information may indicate that sound is emitted into the sound space from the position indicated by the information regarding the position at the same volume without increasing or decreasing the volume of the signal level indicated by the object sound data.
  • the reference volume information is -6 db
  • the reference volume information may indicate that sound is emitted into the sound space from the position indicated by the information regarding the position with the volume of the signal level indicated by the object sound data reduced to about half.
  • the reference volume information may be assigned to one object sound data or to multiple object sound data collectively.
  • the volume information included in the information necessary to radiate object sound data into a sound space may include, for example, information indicating time-series fluctuations in the volume of the sound source. For example, if the sound space is a virtual conference room and the sound source is a speaker, the volume transitions intermittently over a short period of time. Expressed more simply, this can be said to mean that sound and silence occur alternately. Also, if the sound space is a concert hall and the sound source is a performer, the volume is maintained for a certain period of time. Also, if the sound space is a battlefield and the sound source is an explosion, the volume of the explosion sound will increase for a moment and then remain silent. In this way, the volume information of the sound source includes not only sound volume information but also information on the transition of sound volume, and such information may be used as information indicating the nature of the object sound data.
  • the loudness transition information may be data showing frequency characteristics in a time series.
  • the loudness transition information may be data showing the duration of a section where sound is present.
  • the loudness transition information may be data showing a time series of the duration of a section where sound is present and the duration of a section where sound is absent.
  • the loudness transition information may be data listing multiple sets of durations during which the amplitude of a sound signal can be considered to be stationary (approximately constant) and data on the amplitude value of the signal during that time in a time series.
  • the loudness transition information may be data listing multiple sets of durations during which the frequency characteristics of a sound signal can be considered to be stationary.
  • the loudness transition information may be data listing multiple sets of durations during which the frequency characteristics of a sound signal can be considered to be stationary and data on the frequency characteristics during that time in a time series.
  • the loudness transition information may be data showing the outline of a spectrogram, for example, as a data format.
  • the volume that serves as a reference for the frequency characteristics may be the reference volume.
  • the reference volume information and information indicating the properties of the object sound data may be used to calculate the volume of the direct sound or reflected sound to be perceived by the listener, as well as in a selection process to select whether or not to perceive it.
  • Orientation information is typically expressed in yaw, pitch, and roll.
  • the roll rotation may be omitted and it may be expressed in azimuth (yaw) and elevation (pitch).
  • Orientation information may change over time, and if it does, it is transmitted to rendering units A0203 and A0213.
  • the information about the listener is information about the listener's position and orientation in sound space.
  • the position information is expressed as positions on the X-, Y-, and Z-axes in Euclidean space, but it does not necessarily have to be three-dimensional information and may be two-dimensional information.
  • Orientation information is typically expressed in yaw, pitch, and roll. Alternatively, the orientation information may be expressed in azimuth (yaw) and elevation (pitch) without the roll rotation.
  • the position information and orientation information may change over time, and if they do change, they are transmitted to the rendering units A0203 and A0213.
  • the sensor information includes the amount of rotation or displacement detected by a sensor worn by the listener and the position and orientation of the listener.
  • the sensor information is transmitted to the rendering units A0203 and A0213, which update the position and orientation information of the listener based on the sensor information.
  • the sensor information may be position information obtained by a mobile terminal performing self-position estimation using a GPS, a camera, or LiDAR (Laser Imaging Detection and Ranging).
  • Information obtained from outside through a communication module other than the sensor may be detected as sensor information.
  • Information indicating the temperature of the acoustic signal processing device 100 and information indicating the remaining battery level may be obtained from the sensor as sensor information.
  • Information indicating the computational resources (CPU capacity, memory resources, PC performance) of the acoustic signal processing device 100 or the audio presentation device A0002 may be obtained in real time as sensor information.
  • the acquisition unit 110 acquires the object information from the storage unit 140, but is not limited to this, and may acquire the object information from a device other than the acoustic signal processing device 100 (for example, a server device 500 such as a cloud server).
  • the acquisition unit 110 acquires the second position information from the headphones 200 (more specifically, the head sensor unit 201), but is not limited to this.
  • the first change information is information that indicates a change in the object that creates wind.
  • a change in the object means a change in the state of the object.
  • the object since the object is an electric fan, the following are examples of changes in the state of the object:
  • a change in the state of an object is when an electric fan is switched between ON and OFF (hereinafter may be referred to as an "ON/OFF switch").
  • an ON/OFF switch Another example of a change in the state of an object is when a switch that controls the fan's wind speed is switched from low to high (hereinafter may be referred to as a "wind speed switch”).
  • a switch that controls the fan's oscillation is switched from no oscillation to oscillation (hereinafter may be referred to as a "wind direction switch”).
  • the second change information is information that indicates a change in the wind due to a change in the object.
  • the second change information indicates a change in the wind speed or a change in the wind direction (wind direction) as a change in the wind due to a change in the object.
  • the content of the information indicated by the second change information changes according to the change in the state of the object indicated by the first change information.
  • the second change information indicates, for example, that the wind speed has switched from 0 m/s to V1 m/s (V1>0). If the change in the state of the object indicated by the first change information is a "wind speed switch”, the second change information indicates, for example, that the wind speed has switched from V2 m/s to V3 m/s (V3>V2). If the change in the state of the object indicated by the first change information is a "wind direction switch", the second change information indicates, for example, that the wind direction has switched from a constant state to a changing state. In this way, it is preferable for the second change information to be information that depends on the first change information.
  • V1, V2, and V3, which indicate the wind speed are, for example, the wind speed at the position where the object, an electric fan, is placed.
  • the timing information is information that indicates a predetermined timing regarding a change in an object.
  • the acoustic signal processing device 100 outputs aerodynamic sound data to the headphones 200 a predetermined time after this predetermined timing.
  • the predetermined timing indicates the start of the predetermined time for outputting the aerodynamic sound data.
  • the specified timing indicated by the timing information is the timing of a change in wind, more specifically, the timing of a change in wind due to a change in an object.
  • the specified timing is the timing of a change in wind speed or direction due to a change in an object.
  • the specified timing is the timing when the wind speed changes.
  • An example of a change in wind speed is when an electric fan, which is an object, is switched from OFF to ON.
  • the wind speed changes from 0 m/s to V1 m/s
  • the predetermined timing is the timing when the wind speed changes, that is, the timing when the wind speed changes from 0 m/s to V1 m/s.
  • the predetermined timing is the timing when the wind speed changes and is also the timing (first timing) when sound data (object sound data) associated with the electric fan, which is an object, is output.
  • the audio signal processing device 100 (more specifically, the output unit 130) according to this embodiment outputs sound data (object sound data) associated with the electric fan at the predetermined timing (first timing).
  • the timing information included in the object information indicates that the predetermined timing is the timing of the change in wind and is the first timing.
  • the specified timing may also be, for example, a timing specified by an administrator of the audio signal processing device 100.
  • the object in the virtual space is included in the content (image) displayed on the display unit 300, and in this embodiment, it is an electric fan.
  • the first position information is information that indicates where in the virtual space the electric fan is located at a given point in time. Note that in the virtual space, for example, the electric fan may be moved by the user picking it up and moving it. For this reason, the acquisition unit 110 continuously acquires the first position information. The acquisition unit 110 acquires the first position information, for example, each time the spatial information is updated by the spatial information management units A0201 and A0211.
  • the sound data may be a sound signal such as PCM (Pulse Code Modulation) data, but is not limited to this and may be any information that indicates the properties of the sound.
  • PCM Pulse Code Modulation
  • the sound data relating to the sound signal may be the PCM data representing the sound signal itself, or may be data consisting of information indicating that the component is a noise signal and information indicating that the volume is X decibels.
  • the sound data relating to the sound data may be the PCM data representing the sound signal itself, or may be data consisting of information indicating that the component is a noise signal and information indicating the peak/dip of the frequency component.
  • a sound signal based on sound data means PCM data that represents the sound data.
  • the aerodynamic sound data is stored in advance in the storage unit 140, as described above.
  • the aerodynamic sound data is data that captures the sound that occurs when wind reaches a human ear or a model that mimics a human ear.
  • the aerodynamic sound data is data that captures the sound that occurs when wind reaches a model that mimics a human ear.
  • a dummy head microphone or the like is used as a model that mimics a human ear, and the aerodynamic sound data is collected.
  • the wind changes due to a change in the object.
  • the aerodynamic sound is the aerodynamic sound caused by the wind before the change, or the wind after the change.
  • the aerodynamic sound may be the aerodynamic sound caused by the wind after the change, for example, the aerodynamic sound caused by the wind at the changed wind speed, or the aerodynamic sound caused by the wind in the changed wind direction.
  • Shape information is information that indicates the shape of an object in virtual space.
  • Shape information indicates the shape of an object, and more specifically, indicates the three-dimensional shape of the object as a rigid body.
  • the shape of an object may be indicated, for example, by a sphere, rectangular prism, cube, polyhedron, cone, pyramid, cylinder, prism, or a combination of these.
  • shape information may be expressed, for example, as mesh data, or as a collection of multiple faces made up of voxels, three-dimensional point clouds, or vertices with three-dimensional coordinates.
  • the first change information includes object identification information for identifying the object.
  • the timing information also includes object identification information
  • the second change information also includes object identification information
  • the first position information also includes object identification information
  • the object sound data also includes object identification information
  • the shape information also includes object identification information.
  • the acquisition unit 110 acquires the first change information, timing information, second change information, first position information, object sound data, and shape information separately, the object indicated by each of the first change information, timing information, second change information, first position information, object sound data, and shape information is identified by referring to the object identification information included in each of the first change information, timing information, second change information, first position information, object sound data, and shape information.
  • the object indicated by each of the first change information, timing information, second change information, first position information, object sound data, and shape information is the same electric fan.
  • the first change information, timing information, second change information, first position information, object sound data, and shape information acquired by the acquisition unit 110 are each identified as information relating to an electric fan by referring to six object identification information. Therefore, the first change information, the timing information, the second change information, the first position information, the object sound data, and the shape information are linked together as information indicating the electric fan.
  • the listener may move in the virtual space.
  • the second position information is information indicating where in the virtual space the listener is located at a given point in time. Since the listener can move in the virtual space, the acquisition unit 110 continuously acquires the second position information. The acquisition unit 110 acquires the second position information, for example, each time the spatial information is updated by the spatial information management units A0201 and A0211.
  • the above-mentioned first change information, timing information, second change information, first position information, shape information, object sound data, second position information, and aerodynamic sound data may be included in the metadata, control information, or header information included in the input signal.
  • sound data including object sound data and aerodynamic sound data is a sound signal (PCM data)
  • information for identifying the sound signal may be included in the metadata, control information, or header information, and the sound signal may be included in something other than the metadata, control information, or header information.
  • the audio signal processing device 100 (more specifically, the acquisition unit 110) may acquire metadata, control information, or header information included in the input signal, and perform audio processing based on the metadata, control information, or header information.
  • the audio signal processing device 100 (more specifically, the acquisition unit 110) only needs to acquire the above-mentioned first change information, timing information, second change information, first position information, shape information, object sound data, second position information, and aerodynamic sound data, and the acquisition source is not limited to the input signal.
  • the sound data, including the object sound data and the aerodynamic sound data, and the metadata may be stored in one input signal, or may be stored separately in multiple input signals.
  • sound signals other than sound data including object sound data and aerodynamic sound data may be stored as audio content information in the input signal.
  • the audio content information may be subjected to encoding processing such as MPEG-H 3D Audio (ISO/IEC 23008-3) (hereinafter referred to as MPEG-H 3D Audio).
  • MPEG-H 3D Audio MPEG-H 3D Audio
  • the technology used for the encoding processing is not limited to MPEG-H 3D Audio, and other well-known technologies may be used.
  • information such as the above-mentioned first change information, timing information, second change information, first position information, shape information, object sound data, second position information, and aerodynamic sound data may be the subject of encoding processing.
  • the audio signal processing device 100 acquires the sound signal and metadata contained in the encoded bitstream.
  • audio content information is acquired and decoded.
  • the audio signal processing device 100 functions as a decoder (e.g., decoders A0200 and A0210) included in a decoding device (e.g., decoding devices A0110 and A0130), and more specifically, functions as rendering units A0203 and A0213 included in the decoder.
  • the term audio content information in this disclosure is to be interpreted as information including the sound signal itself, first change information, timing information, second change information, first position information, shape information, object sound data, second position information, and aerodynamic sound data, in accordance with the technical content.
  • the acquisition unit 110 outputs the acquired object information and second position information to the determination unit 120 and the output unit 130.
  • the determination unit 120 determines the predetermined time based on the wind indicated by the object information acquired by the acquisition unit 110. In other words, the determination unit 120 determines the predetermined time based on the wind generated by the object.
  • the determination unit 120 determines the predetermined time based on the wind speed indicated by the second change information included in the acquired object information and the distance between the position of the listener and the position of the object. If the predetermined time is t seconds, then as an example, t>0 is satisfied, but this is not limited to this, and the predetermined time may be, for example, 0.1 seconds or more and 5 seconds or less.
  • the determination unit 120 can determine, for example, a time specified by an administrator of the acoustic signal processing device 100 as the predetermined time. Furthermore, the determination unit 120 calculates the distance as follows.
  • the determination unit 120 calculates the distance between the position of the listener and the position of the object based on the first position information included in the object information acquired by the acquisition unit 110 and the acquired second position information. As described above, the acquisition unit 110 acquires the first position information and the second position information in the virtual space each time the spatial information is updated by the spatial information management units A0201 and A0211. The determination unit 120 calculates the distance between the position of the listener and the position of the object in the virtual space based on the multiple pieces of first position information and multiple pieces of second position information acquired each time the spatial information is updated.
  • the determination unit 120 determines the specified time and outputs it to the output unit 130.
  • the output unit 130 outputs the aerodynamic sound data acquired by the acquisition unit 110 a predetermined time determined by the determination unit 120 from the predetermined timing indicated by the object information acquired by the acquisition unit 110.
  • the output unit 130 outputs the aerodynamic sound data to the headphones 200. This enables the headphones 200 to play the aerodynamic sound indicated by the output aerodynamic sound data. In other words, the listener can hear the aerodynamic sound a predetermined time after the predetermined timing.
  • the memory unit 140 is a storage device that stores computer programs executed by the acquisition unit 110, the determination unit 120, and the output unit 130, as well as object information and aerodynamic sound data.
  • the shape information is information used to generate an image of an object in a virtual space, and is also information that indicates the shape of the object (electric fan).
  • the shape information is also information that is used to generate the content (image) that is displayed on the display unit 300.
  • the acquisition unit 110 also outputs the acquired shape information to the display unit 300.
  • the display unit 300 acquires the shape information output by the acquisition unit 110.
  • the display unit 300 further acquires attribute information indicating attributes (such as color) other than the shape of the object (electric fan) in the virtual space.
  • the display unit 300 may acquire the attribute information directly from a device other than the audio signal processing device 100 (the server device 500), or may acquire it from the audio signal processing device 100.
  • the display unit 300 generates and displays content (video) based on the acquired shape information and attribute information.
  • FIG. 11 is a flowchart of a first operation example of the acoustic signal processing device 100 according to this embodiment.
  • Fig. 12 is a diagram showing an electric fan F, which is an object, and a listener L according to the first operation example.
  • the acquisition unit 110 acquires object information (S10).
  • the object information includes first change information indicating a change in the object causing the wind W, timing information indicating a predetermined timing related to the change in the object, second change information indicating a change in the wind W due to the change in the object, and first position information indicating the position of the object.
  • the object information also includes object sound data indicating a motor sound, and shape information. This step S10 corresponds to the acquisition step.
  • the second change information indicates a change in the wind speed of the wind W as a change in the wind W due to a change in the object.
  • the specified timing indicated by the timing information is the timing of the change in the wind W, more specifically, the timing of the change in the wind W due to a change in the object.
  • the acquisition unit 110 acquires second position information indicating the position of the listener L in the virtual space from the headphones 200 (S20). Furthermore, the acquisition unit 110 acquires aerodynamic sound data indicating the aerodynamic sound stored in the storage unit 140 (S30).
  • the determination unit 120 determines the predetermined time based on the wind speed indicated by the second change information and the distance between the position of the listener L and the position of the object (electric fan F) (S40). This step S40 corresponds to the determination step.
  • the output unit 130 outputs sound data (object sound data) associated with the electric fan F at a predetermined timing (S50). Then, the output unit 130 outputs aerodynamic sound data indicating aerodynamic sound caused by the wind W a predetermined time after the predetermined timing (S60). This step S60 corresponds to an output step.
  • the specified timing is the timing of a change in the wind W, that is, the timing when the wind speed changes due to a change in the object.
  • the specified timing is the timing when the electric fan F is switched from OFF to ON.
  • the determination unit 120 may determine the specified time as the time from the specified time until the wind W generated by the electric fan F reaches the listener L.
  • FIG. 13A is a diagram explaining the process for determining the predetermined time in step S40 shown in FIG. 11.
  • the distance between the position of the listener L and the position of the object (electric fan F) is defined as D. More specifically, the distance between the position of the listener L's ear and the position of the object (electric fan F) is defined as D. Note that the distance D is calculated by the determination unit 120 based on the first position information included in the object information acquired by the acquisition unit 110 and the acquired second position information.
  • V So x (U/x)
  • the average wind speed up to a position at distance D satisfies the following formula.
  • t The time (predetermined time) from when the electric fan F is switched from OFF to ON (i.e., the predetermined timing) until the wind W generated by the object electric fan F reaches the listener L is t, which is the distance divided by the average wind speed, and satisfies the following formula.
  • step S60 aerodynamic sound data is output when a predetermined time t has elapsed from the predetermined timing.
  • the listener L can hear the aerodynamic sound output from the headphones 200 at the time when the wind W generated by the fan F reaches the listener L (predetermined time t) after the electric fan F is switched from OFF to ON (i.e., the predetermined timing). Therefore, the listener L can hear the aerodynamic sound at the same timing as in real space, that is, at the appropriate timing, so the listener L is less likely to feel uncomfortable and can obtain a sense of realism.
  • the specified timing is the timing when the electric fan F is switched from OFF to ON, and is the first timing when the object sound data associated with the object, the electric fan F, is output.
  • the above operation includes the following meaning. That is, the meaning is that "the aerodynamic sound indicated by the aerodynamic sound data is output so as to become a sound with an amplitude that can be perceived by the listener L from the specified timing until the specified time t has elapsed.” This is realized, for example, by a filter that has the specified time t as a time constant when outputting the aerodynamic sound data. Specifically, it may be done as follows.
  • FIG. 13B is a diagram illustrating a detailed example of the output of aerodynamic sound data according to this embodiment.
  • FIG. 13C is a diagram illustrating another detailed example of the output of aerodynamic sound data according to this embodiment.
  • FIG. 13B is a diagram showing a trigger signal indicating the ON/OFF change of electric fan F.
  • (a) of FIG. 13B shows a trigger signal whose value is "0" when electric fan F is OFF and whose value is "1" when electric fan F is ON.
  • (b) of FIG. 13B is a diagram showing the above-mentioned trigger signal multiplied by a time constant t. In other words, the above-mentioned trigger signal is multiplied by a low-pass filter whose time constant is a predetermined time t.
  • (c) of FIG. 13B is a diagram showing aerodynamic sound data whose amplitude has been amplified according to the magnitude of the output signal of the low-pass filter.
  • t does not necessarily have to be a value calculated precisely based on the formula below, but may be a value simply approximated so that t increases as the distance D increases.
  • FIG. 13C is a diagram showing a trigger signal indicating the ON/OFF change of electric fan F.
  • FIG. 13B is a diagram showing the above-mentioned trigger signal multiplied by a time constant t, and shows a trigger signal multiplied by a time constant t smaller than the time constant t in (b) of Fig. 13B.
  • (c) of Fig. 13C is a diagram showing aerodynamic sound data controlled according to the value of the trigger signal multiplied by the time constant t shown in (b) of Fig. 13C.
  • the specified timing is the timing when the electric fan F is switched from OFF to ON, and is the first timing at which the object sound data associated with the object, the electric fan F, is output.
  • step S50 the listener L can hear the motor sound of the fan F output from the headphones 200 at the timing when the electric fan F is switched from OFF to ON. Furthermore, by the processing of step S60, the listener L can hear the aerodynamic sound output from the headphones 200 at the timing when the time has passed since the listener L heard the motor sound and the wind W caused by switching the electric fan F from OFF to ON reaches the listener L.
  • the motor sound reaches the listener L at the speed of sound and is heard by the listener L, and the aerodynamic sound is heard by the listener L when the wind W reaches the listener L.
  • the speed of sound is generally faster than the wind speed, and in this operation example, as in real space, the listener L hears the motor sound first and then the aerodynamic sound. Therefore, the listener L can hear the motor sound (sound represented by the sound data associated with the object) and the aerodynamic sound at the same timing as in real space, that is, at the appropriate timing, so the listener L is less likely to feel uncomfortable and can experience a sense of realism.
  • the predetermined timing is the timing when the wind speed changes and the timing (first timing) when sound data (object sound data) associated with the object, electric fan F, is output, but this is not limited to the above.
  • the object information may indicate a change in the direction of the wind W due to a change in the object (electric fan F). More specifically, the object information may indicate a change in the direction (wind direction) of the wind W as a change in the wind W due to a change in the object (electric fan F). This is the case, for example, when the change in the state of the object indicated by the first change information is a "wind direction change" and the second change information indicates that the wind direction has changed from a constant state to a changing state.
  • the timing information included in the object information indicates that the specified timing is the third timing at which a change in the direction of the wind W (wind direction) occurs.
  • the output unit 130 may output aerodynamic sound data indicating the aerodynamic sound caused by the wind W a predetermined time after the third timing (predetermined timing) indicated by the object information.
  • the specified timing and the specified time are not limited to those shown in Operation Example 1.
  • the specified timing may be a timing (specified timing) specified by a user (e.g., an administrator of the acoustic signal processing device 100), and the specified time may be a time (specified time) specified by the administrator.
  • the determination unit 120 may determine the timing and time specified by the user as the specified timing and the specified time.
  • the acoustic signal processing device 100 may include a reception unit, which receives the timing and time specified by the user, and the determination unit 120 may determine the timing and time received by the reception unit as the specified timing and the specified time.
  • the administrator specifies the specified timing and time so that the listener L can hear the aerodynamic sound at the same timing as in real space.
  • the listener L can hear the aerodynamic sound at the same timing as in real space, that is, at the appropriate timing, so the listener L is less likely to feel uncomfortable and can obtain a sense of realism.
  • the aerodynamic sound data is stored in advance in the storage unit 140, but this is not limited to the above.
  • the determination unit 120 may generate the aerodynamic sound data.
  • the determination unit 120 may generate the aerodynamic sound data by acquiring a noise signal and processing the acquired noise signal with each of a plurality of band emphasis filters.
  • the determination unit 120 determines the predetermined time based on the wind speed indicated by the second change information and the distance between the position of the listener L and the position of the object (electric fan F), but this is not limited to this.
  • the object information may include first position information indicating the position of the object, and the determination unit 120 may determine the predetermined time based on the distance between the position of the listener L of the aerodynamic sound and the position of the object indicated by the first position information included in the acquired object information.
  • the predetermined time corresponding to a reference distance is set, and the predetermined time is determined so that the longer the distance between the position of the listener L of the aerodynamic sound and the position of the object is longer than the reference distance, and the shorter the predetermined time is determined so that the shorter the distance between the position of the listener L of the aerodynamic sound and the position of the object is shorter than the reference distance.
  • Modification of the embodiment Modifications of the embodiment will be described below, focusing on the differences from the embodiment, and explanations of commonalities will be omitted or simplified.
  • the acoustic signal processing device 100 is used, but the object in the virtual space is different.
  • the object according to this modified example is a vehicle, which is a moving body. More specifically, the object is an ambulance.
  • the aerodynamic sound is a sound that is generated when the wind W, which is generated by the movement of the object's position, reaches the listener L.
  • the object, the ambulance is an object that generates sound, and generates a siren sound.
  • the object information in this modified example is information indicating the change in the object causing the wind W, the specified timing of the change in the object, the change in the wind W due to the change in the object, and the position of the object.
  • the object information is treated as information including first change information indicating the change in the object causing the wind W, timing information indicating the specified timing of the change in the object, second change information indicating the change in the wind W due to the change in the object, and first position information indicating the position of the object.
  • the first change information is information that indicates a change in the object that is causing the wind W, and in this modified example, the change in the object means a change in the position of the object.
  • the first location information is information that indicates the location within the virtual space of the ambulance at a given point in time. Note that in the virtual space, the ambulance may travel and its location may change, for example, when operated by a driver. For this reason, the acquisition unit 110 continuously acquires the first location information.
  • the second change information is information that indicates a change in the wind W due to a change in the object.
  • the content of the information indicated by the second change information changes according to the change in the position of the object indicated by the first change information.
  • the second change information indicates that the wind speed of the wind W generated by the movement of the object has changed from a first predetermined value to a second predetermined value, or that the wind direction has changed from a first predetermined direction to a second predetermined direction.
  • first and second predetermined values are, for example, the wind speed at the position where the ambulance is located
  • first and second predetermined directions are, for example, the wind direction at the position where the ambulance is located.
  • the first change information indicates that an ambulance approaches the listener L and then moves away from the listener L.
  • the wind W generated by the movement of the ambulance blows strongly toward the listener L while the ambulance is approaching the listener L, and blows weakly toward the listener L while the ambulance is moving away from the listener L. Therefore, the wind speed of the wind W is a high value toward the listener L while the ambulance is approaching the listener L, and a low value toward the listener L while the ambulance is moving away from the listener L. In this way, the wind W (more specifically, the wind speed of the wind W) is changing.
  • the wind speed of the wind W generated by the object is considered to be the same as the moving speed of the ambulance.
  • the moving speed of the ambulance is calculated by differentiating the position of the ambulance with respect to time in the virtual space based on the first position information.
  • the timing information is information indicating a predetermined timing regarding a change in an object.
  • the predetermined timing indicated by the timing information is the timing of a change in the wind W, more specifically, the timing of a change in the wind W due to a change in the position of the object.
  • the predetermined timing is the timing when the wind speed changes due to a change in the position of the object, and as one example, the timing when an ambulance approaches the listener L and then moves away from the listener L.
  • the predetermined timing is the timing when the amount of change in the distance between the position of the listener L and the position of the object in the virtual space turns from negative to positive over time.
  • this predetermined timing is the timing when the object is closest to the listener L in the virtual space.
  • the predetermined timing may also be the timing when the wind direction changes due to a change in the position of the object.
  • FIG. 14 is a flowchart of a second operation example of the acoustic signal processing device 100 according to this embodiment.
  • Fig. 15 is a diagram showing an ambulance A and a listener L which are objects according to the second operation example.
  • the acquisition unit 110 acquires object information (S10).
  • the object information includes first change information indicating a change in the object causing the wind W, timing information indicating a predetermined timing related to the change in the object, second change information indicating a change in the wind W due to the change in the object, and first position information indicating the position of the object.
  • the object information also includes object sound data indicating a siren sound, and shape information.
  • the second change information indicates a change in the wind speed of the wind W as a change in the wind W due to a change in the object.
  • the specified timing indicated by the timing information is the timing of the change in the wind W, more specifically, the timing of the change in the wind W due to a change in the object.
  • the acquisition unit 110 acquires second position information indicating the position of the listener L in the virtual space from the headphones 200 (S20). Furthermore, the acquisition unit 110 acquires aerodynamic sound data indicating the aerodynamic sound stored in the storage unit 140 (S30).
  • the output unit 130 determines whether or not the predetermined timing has arrived (S35). If the predetermined timing has not arrived (No in step S35), the process of step S35 is repeated.
  • the determination unit 120 determines the specified time based on the wind speed indicated by the second change information and the distance between the position of the listener L and the position of the object (ambulance A) (S40).
  • the output unit 130 outputs aerodynamic sound data indicating the aerodynamic sound caused by the wind W a predetermined time after the predetermined timing (S60).
  • step S35 in this operation example will now be explained in more detail.
  • the specified timing is the timing of a change in the wind W. More specifically, the specified timing is the timing when the wind speed changes due to a change in the object's position, and is the timing when the amount of change in the distance between the position of the listener L and the position of the object in the virtual space turns from negative to positive over time.
  • FIG. 16 is a schematic diagram for explaining the specified timing according to operation example 2.
  • Ambulance A moves in the order of (a), (b), and (c) shown in FIG. 16. Also, assume that the position of listener L remains constant while ambulance A moves from (a) to (c). While ambulance A moves from (a) to (b), the amount of change in the distance between the position of listener L and the position of the object in the virtual space is negative. While ambulance A moves from (b) to (c), the amount of change in the distance between the position of listener L and the position of the object in the virtual space is positive. Therefore, the timing at which the amount of change in distance turns from negative to positive is when ambulance A is in position (b) shown in FIG. 16.
  • step S35 the process shown in FIG. 17 is performed.
  • FIG. 17 is a flowchart explaining the details of step S35 in operation example 2.
  • the determination unit 120 judges whether or not the timing (predetermined timing) has come when the amount of change in the distance between the position of the listener L and the position of the object (ambulance A) in the virtual space has turned from negative to positive (S35a).
  • the determination unit 120 calculates the amount of change in the distance by calculating the distance between the position of the listener L and the position of the object (ambulance A) and differentiating the calculated distance. If the answer is Yes in step S35a, the processing of step S40 is performed, and if the answer is No in step S35a, the processing of step S35 is repeated.
  • the listener L hears the aerodynamic sound when the time has passed from when the amount of change in the distance between the listener L's position and the object's position turns from negative to positive until the wind W created by ambulance A reaches the listener L.
  • the time when the amount of change in the distance turns from negative to positive is the time when the object is closest to the listener L, and is the specified time. Therefore, the determination unit 120 may determine the time from the specified time until the wind W created by ambulance A reaches the listener L as the specified time.
  • the predetermined time is determined based on the same idea as in Figure 13A described in Operation Example 1. That is, as shown in Figure 15, the distance between the position of the listener L and the position of the object (ambulance A) is set to D, and more specifically, the distance between the position of ambulance A at the position (b) shown in Figure 16 and the position of the listener L is set to D.
  • V So x (U/x)
  • the average wind speed up to a position at distance D satisfies the following formula.
  • the time (predetermined time) from when the change in the distance between the position of the listener L and the position of the object turns from negative to positive (i.e., the specified time) until the wind W generated by the object, ambulance A, reaches the listener L is t, which is the distance divided by the average wind speed, and satisfies the following formula.
  • step S60 aerodynamic sound data is output when a predetermined time t has elapsed from the predetermined timing.
  • the listener L can hear the aerodynamic sound output from the headphones 200 from the time when the change in the distance between the listener L's position and the object's position turns from negative to positive (i.e., the specified time) until the time when the wind W created by the ambulance A reaches the listener L (specified time t). Therefore, the listener L can hear the aerodynamic sound at the same timing as in real space, that is, at the appropriate timing, so the listener L is less likely to feel uncomfortable and can obtain a sense of realism.
  • the listener L hears the aerodynamic sound after a vehicle such as ambulance A comes closest to the listener L. For this reason, if the listener L hears the aerodynamic sound before the ambulance A comes closest to the listener L in virtual space, the listener L will feel uncomfortable.
  • the timing when the amount of change in the distance between the position of the listener L and the position of the object turns from negative to positive is set as the specified timing.
  • ambulance A is an object that generates sound, and generates a siren sound.
  • the output unit 130 may output an object sound signal indicating a siren sound so that listener L hears a siren sound accompanied by the Doppler effect.
  • the predetermined timing was the timing when the change in the distance between the position of the listener L and the position of the object turned from negative to positive, but this is not limited to this.
  • the predetermined timing may be the timing (second timing) when the distance between the position of the listener L and the position of the object becomes shorter than the predetermined distance.
  • the predetermined distance is, for example, several meters to several tens of meters, and is a distance that indicates that the distance between the position of the listener L and the position of the object has become sufficiently close.
  • the predetermined distance may be, for example, a value specified by an administrator of the acoustic signal processing device 100.
  • step S35 the process shown in FIG. 18 is performed.
  • FIG. 18 is a flowchart explaining the details of step S35 according to another first example of operation example 2.
  • step S30 the determination unit 120 judges whether or not the timing (second timing) has come when the distance between the position of the listener L and the position of the object (ambulance A) in the virtual space becomes shorter than a predetermined distance (S35b). As described above, if the answer is Yes in step S35b, the processing of step S40 is performed, and if the answer is No in step S35b, the processing of step S35 is repeated.
  • the listener L can hear the aerodynamic sound output from the headphones 200 at the time when the time has passed from the second time when the distance between the position of the listener L and the position of the object (ambulance A) becomes sufficiently close to the time when the wind W generated by the ambulance A reaches the listener L.
  • step S35 the processes of both steps S35a and S35b shown in FIG. 17 and FIG. 18 are performed. If both steps S35a and S35b are Yes, the process of step S40 is performed, and if at least one of steps S35a and S35b is No, the process of step S35 is repeated. The process shown in this other second example of operation example 2 may be performed.
  • FIG. 19 is a functional block diagram and a diagram showing an example of steps for explaining a case where the rendering units A0203 and A0213 in FIG. 6 and FIG. 7 perform pipeline processing.
  • a rendering unit 900 which is an example of the rendering units A0203 and A0213 in FIG. 6 and FIG. 7, is used for explanation.
  • Pipeline processing refers to dividing the process for creating sound effects into multiple processes and executing each process one by one in sequence. Each of the divided processes performs, for example, signal processing on the audio signal, or the generation of parameters to be used in the signal processing.
  • the rendering unit 900 in this embodiment includes, as pipeline processing, processing for applying, for example, a reverberation effect, early reflection processing, distance attenuation effect, binaural processing, and the like.
  • pipeline processing processing for applying, for example, a reverberation effect, early reflection processing, distance attenuation effect, binaural processing, and the like.
  • the above processing is only an example, and other processing may be included, or some processing may not be included.
  • the rendering unit 900 may include diffraction processing or occlusion processing as pipeline processing, or may omit reverberation processing, for example, if it is not necessary.
  • each processing may be expressed as a stage, and an audio signal such as a reflected sound generated as a result of each processing may be expressed as a rendering item.
  • the order of each stage in the pipeline processing and the stages included in the pipeline processing are not limited to the example shown in FIG. 19.
  • the rendering unit 900 does not need to include all of the stages shown in FIG. 19, and some stages may be omitted or other stages may exist in addition to the rendering unit 900.
  • each process analyzes the metadata contained in the input signal and calculates the parameters required to generate reflected sounds.
  • the rendering unit 900 includes a reverberation processing unit 901, an early reflection processing unit 902, a distance attenuation processing unit 903, a selection unit 904, a calculation unit 906, a generation unit 907, and a binaural processing unit 905.
  • the reverberation processing unit 901 performs a reverberation processing step
  • the early reflection processing unit 902 performs an early reflection processing step
  • the distance attenuation processing unit 903 performs a distance attenuation processing step
  • the selection unit 904 performs a selection processing step
  • the binaural processing unit 905 performs a binaural processing step.
  • the reverberation processor 901 In the reverberation processing step, the reverberation processor 901 generates an audio signal indicating reverberation or parameters required for generating an audio signal.
  • Reverberation is a sound that includes reverberation that reaches the listener as reverberation after direct sound.
  • reverberation is a reverberation that reaches the listener after being reflected more times (e.g., several tens of times) than the initial reflection sound, at a relatively late stage (e.g., about a hundred and several tens of ms after the direct sound arrives) after the initial reflection sound described below reaches the listener.
  • the reverberation processor 901 refers to the audio signal and spatial information contained in the input signal, and performs calculations using a predetermined function prepared in advance to generate reverberation.
  • the reverberation processor 901 may generate reverberation by applying a known reverberation generation method to the sound signal.
  • a known reverberation generation method is the Schroeder method, but is not limited to this.
  • the reverberation processor 901 uses the shape and acoustic characteristics of the sound reproduction space indicated by the spatial information. This allows the reverberation processor 901 to calculate parameters for generating an audio signal indicating reverberation.
  • the early reflection processing unit 902 calculates parameters for generating an early reflection sound based on the spatial information.
  • the early reflection sound is a reflection sound that reaches the listener after one or more reflections at a relatively early stage (for example, about several tens of milliseconds after the direct sound arrives) after the direct sound from the sound source object reaches the listener.
  • the early reflection processing unit 902 refers to the sound signal and metadata, for example, and calculates the path (path length) of the reflection sound that reflects from the sound source object to the object and reaches the listener using the shape, size, and position of objects such as structures of the three-dimensional sound field (space), and the reflectance of the object.
  • the early reflection processing unit 902 may also calculate the path (path length) of the direct sound. Information indicating the path may be used as a parameter for generating the early reflection sound, and may also be used as a parameter for the selection process of the reflection sound in the selection unit 904.
  • the distance attenuation processing unit 903 calculates the volume of the sound reaching the listener based on the difference between the path length of the direct sound and the path length of the reflected sound calculated by the early reflection processing unit 902. Since the volume of the sound reaching the listener attenuates in proportion to the distance to the listener (inversely proportional to the distance) relative to the volume of the sound source, the volume of the direct sound can be obtained by dividing the volume of the sound source by the length of the path of the direct sound, and the volume of the reflected sound can be calculated by dividing the volume of the sound source by the length of the path of the reflected sound.
  • the selection unit 904 selects the sound to be generated.
  • the selection process may be performed based on parameters calculated in the previous step.
  • sounds not selected in the selection process do not need to be subjected to processing subsequent to the selection process in the pipeline processing.
  • processing subsequent to the selection process for sounds not selected it is possible to reduce the computational load on the acoustic signal processing device 100 compared to the case where it is decided not to execute only binaural processing for sounds not selected.
  • the order of the selection process is set to be executed in an earlier order among the orders of multiple processes in the pipeline process, more processing after the selection process can be omitted, and the amount of calculation can be reduced even more.
  • the selection process is executed in an order prior to the processing of the calculation unit 906 and the generation unit 907, processing of aerodynamic sounds related to objects that have been determined not to be selected can be omitted, and the amount of calculation in the acoustic signal processing device 100 can be reduced even further.
  • parameters calculated as part of the pipeline process that generates the rendering items may be used by the selection unit 904 or the calculation unit 906.
  • the binaural processing unit 905 performs signal processing on the audio signal of the direct sound so that the sound is perceived as reaching the listener from the direction of the sound source object. Furthermore, the binaural processing unit 905 performs signal processing so that the reflected sound is perceived as reaching the listener from an obstacle object related to the reflection. Based on the coordinates and orientation of the listener in the sound space (i.e., the position and orientation of the listening point), a process is performed to apply a HRIR (Head-Related Impulse Responses) DB (Data base) so that the sound reaches the listener from the position of the sound source object or the position of the obstacle object. Note that the position and direction of the listening point may be changed in accordance with, for example, the movement of the listener's head. Also, information indicating the position of the listener may be obtained from a sensor.
  • HRIR Head-Related Impulse Responses
  • HRIR Head-Related Impulse Responses
  • HRIR Head-Related Impulse Responses
  • HRIR is a response characteristic that is converted from an expression in the frequency domain to an expression in the time domain by Fourier transforming the head-related transfer function, which represents the changes in sound caused by surrounding objects including the auricle, the human head, and shoulders as a transfer function.
  • the HRIR DB is a database that contains such information.
  • the rendering unit 900 may include processing units not shown.
  • it may include a diffraction processing unit or an occlusion processing unit.
  • the diffraction processing unit executes a process to generate an audio signal that indicates a sound that includes diffracted sound caused by an obstacle between the listener and the sound source object in a three-dimensional sound field (space).
  • diffracted sound is sound that travels from the sound source object to the listener by going around the obstacle.
  • the diffraction processing unit refers to the sound signal and metadata, and uses the position of the sound source object in the three-dimensional sound field (space), the position of the listener, and the positions, shapes, and sizes of obstacles to calculate a path from the sound source object to the listener, bypassing obstacles, and generates diffracted sound based on that path.
  • the occlusion processing unit generates an audio signal that can be heard when a sound source object is located behind an obstacle object, based on the spatial information acquired in any of the steps and information such as the material of the obstacle object.
  • the position information given to the sound source object is defined as a "point" in the virtual space, and the details of the invention have been described assuming that the sound source is a so-called "point sound source”.
  • a spatially extended sound source that is not a point sound source may be defined as an object having a length, size, or shape. In such a case, since the distance between the listener and the sound source or the direction from which the sound comes is not determined, the reflected sound resulting from this may be limited to the processing of "selecting" by the selection unit 904 without analysis or regardless of the analysis result.
  • a representative point such as the center of gravity of the object may be determined, and the processing of the present disclosure may be applied assuming that the sound is generated from that representative point.
  • the threshold value may be adjusted according to the information on the spatial extension of the sound source before applying the processing of the present disclosure.
  • the bitstream includes, for example, an audio signal and metadata.
  • the audio signal is sound data that represents sound, and indicates information about the frequency and intensity of the sound.
  • the spatial information included in the metadata is information about the space in which a listener who hears a sound based on the audio signal is located. Specifically, the spatial information is information about a specific position (localization position) when the sound image of the sound is localized at a specific position in a sound space (for example, in a three-dimensional sound field), that is, when the listener perceives the sound as arriving from a specific direction.
  • the spatial information includes, for example, sound source object information and position information indicating the position of the listener.
  • Sound source object information is information about an object that generates sound based on an audio signal, that is, that reproduces an audio signal, and is information about a virtual object (sound source object) that is placed in a sound space, which is a virtual space that corresponds to the real space in which the object is placed.
  • Sound source object information includes, for example, information indicating the position of the sound source object placed in the sound space, information about the orientation of the sound source object, information about the directionality of the sound emitted by the sound source object, information indicating whether the sound source object belongs to a living thing, and information indicating whether the sound source object is a moving object.
  • an audio signal corresponds to one or more sound source objects indicated by the sound source object information.
  • the bitstream is composed of metadata (control information) and an audio signal.
  • the audio signal and metadata may be stored in a single bitstream or may be stored separately in multiple bitstreams. Similarly, the audio signal and metadata may be stored in a single file or may be stored separately in multiple files.
  • a bitstream may exist for each sound source, or for each playback time. If a bitstream exists for each playback time, multiple bitstreams may be processed in parallel at the same time.
  • Metadata may be added to each bitstream, or may be added together as information for controlling multiple bitstreams. Metadata may also be added for each playback time.
  • the audio signal and metadata may be included in information indicating other bitstreams or files related to one or some of the bitstreams or files, or the audio signal and metadata may be included in information indicating other bitstreams or files related to each of all the bitstreams or files.
  • the related bitstreams or files are, for example, bitstreams or files that may be used simultaneously during audio processing.
  • the related bitstreams or files may include a bitstream or file that collectively describes information indicating other related bitstreams or files.
  • the information indicating other related bitstreams or files is, for example, an identifier indicating the other bitstream, a file name indicating the other file, a URL (Uniform Resource Locator) or a URI (Uniform Resource Identifier), etc.
  • the acquisition unit 110 identifies or acquires the bitstream or file based on the information indicating the other related bitstreams or files.
  • the bitstream may contain information indicating other related bitstreams, and may contain information indicating a bitstream or file related to another bitstream or file.
  • a file containing information indicating a related bitstream or file may be, for example, a control file such as a manifest file used in content distribution.
  • the metadata may be obtained from sources other than the bitstream of the audio signal.
  • the metadata that controls the audio or the metadata that controls the video may be obtained from sources other than the bitstream, or both may be obtained from sources other than the bitstream.
  • the audio signal reproduction system may have a function of outputting metadata that can be used to control the video to a display device that displays images, or a 3D video reproduction device that reproduces 3D video.
  • Metadata may be information used to describe a scene represented in sound space.
  • a scene is a term that refers to the collection of all elements that represent three-dimensional images and acoustic events in sound space, which are modeled in an audio signal reproduction system using metadata.
  • metadata here may include not only information that controls audio processing, but also information that controls video processing.
  • metadata may include information that controls only audio processing or video processing, or information used to control both.
  • the audio signal reproduction system generates virtual sound effects by performing acoustic processing on the audio signal using metadata included in the bitstream and additionally acquired interactive listener position information.
  • acoustic processing such as distance attenuation effect, localization, and Doppler effect.
  • information for switching all or part of the acoustic effects on and off, and priority information may be added as metadata.
  • the encoded metadata includes information about a sound space including a sound source object and an obstacle object, and information about a position when the sound image of the sound is localized at a specific position in the sound space (i.e., perceived as a sound arriving from a specific direction).
  • an obstacle object is an object that can affect the sound perceived by the listener, for example by blocking or reflecting the sound emitted by the sound source object before it reaches the listener.
  • Obstacle objects can include not only stationary objects, but also animals such as people, or moving objects such as machines.
  • the other sound source objects can be obstacle objects for any sound source object.
  • Non-sound-emitting objects which are objects that do not emit sound, such as building materials or inanimate objects, and sound source objects that emit sound can both be obstacle objects.
  • the metadata includes all or part of the information that represents the shape of the sound space, the shape and position information of obstacle objects that exist in the sound space, the shape and position information of sound source objects that exist in the sound space, and the position and orientation of the listener in the sound space.
  • the sound space may be either a closed space or an open space.
  • the metadata also includes information that indicates the reflectance of structures that can reflect sound in the sound space, such as floors, walls, or ceilings, and the reflectance of obstacle objects that exist in the sound space.
  • the reflectance is the ratio of the energy of the reflected sound to the incident sound, and is set for each frequency band of sound. Of course, the reflectance may be set uniformly regardless of the frequency band of sound.
  • parameters such as a uniform attenuation rate, diffracted sound, and early reflected sound may be used.
  • reflectance was mentioned as a parameter related to an obstacle object or sound source object included in the metadata, but information other than reflectance may also be included.
  • information other than reflectance may include information related to the material of the object as metadata related to both sound source objects and non-sound-producing objects.
  • information other than reflectance may include parameters such as diffusion rate, transmittance, and sound absorption rate.
  • Information about the sound source object may include volume, radiation characteristics (directivity), playback conditions, the number and type of sound sources emitted from one object, and information specifying the sound source area in the object.
  • the playback conditions may determine, for example, whether the sound is a continuous sound or an event-triggered sound.
  • the sound source area in the object may be determined in a relative relationship between the listener's position and the object's position, or may be determined based on the object.
  • the surface of the object the listener is looking at is used as the reference, and the listener can perceive that sound C is emitted from the right side of the object and sound E is emitted from the left side of the object as seen from the listener.
  • the sound source area in the object is determined based on the object, it is possible to fix which sound is emitted from which area of the object, regardless of the direction the listener is looking. For example, the listener can perceive that a high-pitched sound is coming from the right side and a low-pitched sound is coming from the left side when the object is viewed from the front. In this case, if the listener goes around to the back of the object, the listener can perceive that a low-pitched sound is coming from the right side and a high-pitched sound is coming from the left side when viewed from the back.
  • Spatial metadata can include time to early reflections, reverberation time, and the ratio of direct sound to diffuse sound. If the ratio of direct sound to diffuse sound is zero, the listener will only perceive direct sound.
  • the acoustic signal processing method includes an acquisition step of acquiring object information indicating a change in an object causing wind W and a predetermined timing related to the change in the object, and an output step of outputting aerodynamic sound data indicating aerodynamic sound caused by the wind W a predetermined time after the predetermined timing indicated by the acquired object information that is based on the change in the object.
  • the specified timing is, for example, the timing of a change in the wind W
  • the specified time is, for example, the time it takes for the wind W generated by the electric fan F to reach the listener L.
  • the specified timing is, for example, the timing of a change in the wind W
  • the specified time is, for example, the time it takes for the wind W generated by the ambulance A to reach the listener L.
  • the listener L can hear the aerodynamic sound at the same timing as in real space, that is, at the appropriate timing, so the listener L is less likely to feel uncomfortable and can obtain a sense of realism.
  • the acoustic signal processing method according to the embodiment can provide the listener L with a sense of realism.
  • the specified timing may be a timing (specified timing) specified by the user, and the time specified by the user may be the specified time.
  • the user may specify the specified timing and time so that the listener L can hear the aerodynamic sound at the same timing as in real space, and the specified specified timing and time may be the specified timing and specified time. Even in this case, the listener L can hear the aerodynamic sound at the same timing as in real space, that is, at the appropriate timing, so that the listener L is less likely to feel uncomfortable and can obtain a sense of presence.
  • the object information indicates a change in the wind W due to a change in the object
  • the predetermined timing is the timing of the change in the wind W.
  • the audio signal processing method includes a determination step of determining the predetermined time based on the wind W indicated by the acquired object information.
  • aerodynamic sound data can be output when a predetermined time determined based on the wind W has elapsed since the wind W changed, allowing the listener L to hear the aerodynamic sound at a more appropriate time.
  • the change in the wind W indicated by the object information indicates a change in the wind speed of the wind W
  • the predetermined time is determined based on the wind speed
  • the specified time is determined based on the wind speed, allowing the listener L to hear the aerodynamic sound at a more appropriate time.
  • the aerodynamic sound is the sound generated by the changed wind speed.
  • the object information indicates the position of the object.
  • the acoustic signal processing method includes a determination step of determining the predetermined time based on the distance between the position of the listener L of the aerodynamic sound and the position of the object indicated by the acquired object information.
  • the specified time is determined based on the distance, allowing the listener L to hear the aerodynamic sound at a more appropriate time.
  • the object information indicates the position of the object.
  • the predetermined time is determined based on the wind speed and the distance between the position of the listener L of the aerodynamic sound and the position of the object indicated by the acquired object information.
  • the specified time is determined based on the wind speed and the distance, allowing the listener L to hear the aerodynamic sound at a more appropriate time.
  • the object information indicates that the predetermined timing is a first timing for outputting sound data associated with the object.
  • the aerodynamic sound data is output a predetermined time after the first timing indicated by the acquired object information.
  • the aerodynamic sound data can be output a predetermined time after the first timing at which the sound is output, allowing the listener L to hear the aerodynamic sound at a more appropriate timing.
  • the specified timing is, for example, the timing when the electric fan F is switched from OFF to ON.
  • the time specified time
  • the listener L can hear the aerodynamic sound output from the headphones 200. Therefore, since the listener L can hear the aerodynamic sound at the same timing as in real space, that is, at the appropriate timing, the listener L is less likely to feel uncomfortable and can obtain a sense of realism.
  • the audio signal processing method according to the embodiment can provide the listener L with a sense of realism.
  • the object information indicates the position of the object
  • the predetermined timing indicates that the predetermined timing is a second timing at which the distance between the position of the listener L of the aerodynamic sound and the position of the object becomes shorter than the predetermined distance.
  • the aerodynamic sound data is output a predetermined time after the second timing indicated by the acquired object information.
  • the aerodynamic sound data can be output at the second time when the distance becomes shorter than the predetermined distance, in other words, at the time when a predetermined time has elapsed since the second time when the object approached the listener L, allowing the listener L to hear the aerodynamic sound at a more appropriate time.
  • the specified timing is, for example, the timing when the amount of change in the distance between the position of the listener L and the position of the object turns from negative to positive.
  • the time (specified time) for the wind W created by the ambulance A to reach the listener L has elapsed from this specified timing, the listener L can hear the aerodynamic sound output from the headphones 200. Therefore, since the listener L can hear the aerodynamic sound at the same timing as in real space, that is, at the appropriate timing, the listener L is less likely to feel uncomfortable and can obtain a sense of realism.
  • the acoustic signal processing method according to the modified example of the embodiment can provide the listener L with a sense of realism.
  • the object information indicates that the change in the wind W due to the change in the object is a change in the direction of the wind W
  • the predetermined timing is a third timing at which the change in the direction of the wind W occurred.
  • the aerodynamic sound data is output a predetermined time after the third timing indicated by the acquired object information.
  • the aerodynamic sound data can be output when a predetermined time has elapsed since the third timing when the change in the direction of the wind W occurred, allowing the listener L to hear the aerodynamic sound at a more appropriate timing.
  • the object is an object that generates a sound and wind W indicated by sound data associated with the object
  • the aerodynamic sound is an aerodynamic sound that is generated when the wind W generated by the object reaches the listener L.
  • the distance is D
  • the distance from the object position at which the wind speed is So is U. If the predetermined time is t, then t satisfies the following formula.
  • the time from the specified timing until the wind W generated by the object reaches the listener L can be determined as the specified time. Therefore, since the aerodynamic sound data can be output at a timing when such a specified time has elapsed from the specified timing, the listener L can hear the aerodynamic sound at a more appropriate timing.
  • the time at which the wind W generated by the electric fan F reaches the listener L can be determined as the predetermined time. Therefore, the listener L can hear the aerodynamic sound at the same timing as in real space, that is, at the appropriate timing, so the listener L is less likely to feel uncomfortable and can obtain a sense of realism. In this way, the audio signal processing method according to the embodiment can provide the listener L with a sense of realism.
  • the object is an object that generates wind W by moving the position of the object
  • the aerodynamic sound is aerodynamic sound that occurs when the wind W generated by the movement reaches the listener L.
  • the predetermined timing indicated by the object information is the timing at which the amount of change in distance over time changes from negative to positive.
  • the distance is D
  • the distance from the object's position at which the wind speed of the wind W generated by the movement becomes So is U. If the predetermined time is t, then t satisfies the following formula.
  • the time from the specified timing until the wind W generated by the object reaches the listener L can be determined as the specified time. Therefore, since the aerodynamic sound data can be output at a timing when such a specified time has elapsed from the specified timing, the listener L can hear the aerodynamic sound at a more appropriate timing.
  • the time at which the wind W generated by ambulance A reaches the listener L can be determined as the predetermined time. Therefore, the listener L can hear the aerodynamic sound at the same timing as in real space, that is, at the appropriate timing, so the listener L is less likely to feel uncomfortable and can obtain a sense of realism.
  • the acoustic signal processing method according to the embodiment can provide the listener L with a sense of realism.
  • the computer program according to the embodiment is a computer program for causing a computer to execute the above-described acoustic signal processing method.
  • the acoustic signal processing device 100 also includes an acquisition unit 110 that acquires object information indicating the change in the object causing the wind W and a predetermined timing related to the change in the object, and an output unit 130 that outputs aerodynamic sound data indicating the aerodynamic sound caused by the wind W a predetermined time after the predetermined timing indicated by the acquired object information based on the change in the object.
  • the present disclosure is not limited to these embodiment and modified examples.
  • the present disclosure may be realized by arbitrarily combining the components described in this specification, or by excluding some of the components.
  • the present disclosure also includes modified examples obtained by applying various modifications that a person skilled in the art can think of to the above embodiment and modified examples without departing from the gist of the present disclosure, i.e., the meaning indicated by the words described in the claims.
  • an example was given in which the object was an electric fan F, but this is not limited to this.
  • an object that creates wind W is given as an example.
  • the object that creates the wind W may be, for example, an object into which the wind W blows, such as a window or door.
  • an object into which the wind W blows such as a window or door.
  • the wind W blows into the building when the window or door opens, causing the listener L to hear aerodynamic sound.
  • the timing at which the window or door opens corresponds to a predetermined timing, and the wind W is generated at the position of the window or door, and the technology disclosed herein can be applied.
  • the object that generates the wind W may be, for example, an object from which the wind W blows out, such as a vent or exhaust hole.
  • a vent or exhaust hole When the wind W blows out from a vent or exhaust hole, it is meaningless in the virtual space to precisely define the position at which the wind W is generated, and the technology disclosed herein can be applied assuming that the wind W is generated at the position of the exit of the vent or exhaust hole.
  • the specified timing can be determined by an administrator of the virtual space or an administrator of the audio signal processing device 100.
  • a reception unit provided in the audio signal processing device 100 may receive the timing specified by the administrator, and the determination unit 120 may determine the timing received by the reception unit as the specified timing.
  • Some of the components constituting the above-mentioned audio signal processing device may be a computer system composed of a microprocessor, ROM, RAM, hard disk unit, display unit, keyboard, mouse, etc.
  • a computer program is stored in the RAM or hard disk unit.
  • the microprocessor achieves its functions by operating in accordance with the computer program.
  • the computer program is composed of a combination of multiple instruction codes that indicate commands for a computer to achieve a specified function.
  • Some of the components constituting the above-mentioned audio signal processing device may be composed of a single system LSI (Large Scale Integration).
  • a system LSI is an ultra-multifunctional LSI manufactured by integrating multiple components on a single chip, and specifically, is a computer system including a microprocessor, ROM, RAM, etc.
  • a computer program is stored in the RAM. The system LSI achieves its functions when the microprocessor operates in accordance with the computer program.
  • Some of the components constituting the above-mentioned audio signal processing device may be composed of an IC card or a standalone module that can be attached to and detached from each device.
  • the IC card or the module is a computer system composed of a microprocessor, ROM, RAM, etc.
  • the IC card or the module may include the above-mentioned ultra-multifunction LSI.
  • the IC card or the module achieves its functions by the microprocessor operating according to a computer program. This IC card or this module may be tamper-resistant.
  • some of the components constituting the above-mentioned audio signal processing device may be the computer program or the digital signal recorded on a computer-readable recording medium, such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray (registered trademark) Disc), semiconductor memory, etc. Also, they may be digital signals recorded on such recording media.
  • a computer-readable recording medium such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray (registered trademark) Disc), semiconductor memory, etc.
  • BD Blu-ray (registered trademark) Disc
  • some of the components constituting the above-mentioned audio signal processing device may transmit the computer program or the digital signal via a telecommunications line, a wireless or wired communication line, a network such as the Internet, data broadcasting, etc.
  • the present disclosure may be the methods described above. It may also be a computer program that implements these methods using a computer, or a digital signal that includes the computer program.
  • the present disclosure may also provide a computer system having a microprocessor and a memory, the memory storing the computer program, and the microprocessor operating in accordance with the computer program.
  • the program or the digital signal may also be implemented by another independent computer system by recording it on the recording medium and transferring it, or by transferring the program or the digital signal via the network, etc.
  • This disclosure can be used in audio signal processing methods and audio signal processing devices, and is particularly applicable to audio systems, etc.
  • Audio signal processing device 110 Acquisition unit 120 Decision unit 130 Output unit 140 Storage unit 200 Headphones 201 Head sensor unit 202 Output unit 300 Display unit 900 Rendering unit 901 Reverberation processing unit 902 Early reflection processing unit 903 Distance attenuation processing unit 904 Selection unit 905 Binaural processing unit 906 Calculation unit 907 Generation unit A Ambulance A0000 Stereophonic sound reproduction system A0001 Acoustic signal processing device A0002 Audio presentation device A0100 Encoding device A0101 Input data A0102 Encoder A0103 Encoded data A0104 Memory A0110 Decoding device A0111 Audio signal A0112 Decoder A0113 Input data A0114 Memory A0120 Encoding device A0121 Transmission unit A0122 Transmission signal A0130 Decoding device A0131 Receiving unit A0132 Received signal A0200 Decoder A0201 Spatial information management unit A0202 Audio data decoder A0203 Rendering unit A0210 Decoder A0211 Spatial information management unit A0213 Rendering unit F Fan L Listener

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

音響信号処理方法は、風を起こすオブジェクトの変化、及び、オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得ステップと、取得されたオブジェクト情報が示す所定タイミングから、オブジェクトの変化に基づく所定時間後に風による空力音を示す空力音データを出力する出力ステップと、を含む。

Description

音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
 本開示は、音響信号処理方法などに関する。
 特許文献1では、音響信号処理方法である立体音響計算方法に係る技術が開示されている。この音響信号処理方法では、受聴者(観測者)への音の到達時間が音源と受聴者との距離及び音速に応じて変化するように制御される。
特開2013-201577号公報 国際公開第2021/180938号
 ところで、特許文献1が示す技術では、受聴者に臨場感を与えることが困難な場合がある。
 そこで、本開示は、受聴者に臨場感を与えることができる音響信号処理方法などを提供することを目的とする。
 本開示の一態様に係る音響信号処理方法は、風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得ステップと、取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力ステップと、を含む。
 また、本開示の一態様に係るコンピュータプログラムは、上記の音響信号処理方法をコンピュータに実行させる。
 また、本開示の一態様に係る音響信号処理装置は、風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得部と、取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力部と、を備える。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一態様に係る音響信号処理方法によれば、受聴者に臨場感を与えることができる。
図1は、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響(Immersive Audio)再生システムを示す図である。 図2は、本開示の符号化装置の一例である符号化装置の構成を示す機能ブロック図である。 図3は、本開示の復号装置の一例である復号装置の構成を示す機能ブロック図である。 図4は、本開示の符号化装置の別の一例である符号化装置の構成を示す機能ブロック図である。 図5は、本開示の復号装置の別の一例である復号装置の構成を示す機能ブロック図である。 図6は、図3又は図5におけるデコーダの一例であるデコーダの構成を示す機能ブロック図である。 図7は、図3又は図5におけるデコーダの別の一例であるデコーダの構成を示す機能ブロック図である。 図8は、音響信号処理装置の物理的構成の一例を示す図である。 図9は、符号化装置の物理的構成の一例を示す図である。 図10は、実施の形態に係る音響信号処理装置の機能構成を示すブロック図である。 図11は、実施の形態に係る音響信号処理装置の動作例1のフローチャートである。 図12は、動作例1に係るオブジェクトである扇風機と受聴者とを示す図である。 図13Aは、図11が示すステップS40で所定時間が決定される処理を説明する図である。 図13Bは、実施の形態に係る空力音データの出力の詳細な例が説明された図である。 図13Cは、実施の形態に係る空力音データの出力の詳細な他の例が説明された図である。 図14は、実施の形態に係る音響信号処理装置の動作例2のフローチャートである。 図15は、動作例2に係るオブジェクトである救急車と受聴者とを示す図である。 図16は、動作例2に係る所定タイミングを説明するための模式図である。 図17は、動作例2に係るステップS35の詳細を説明するフローチャートである。 図18は、動作例2の他の第1例に係るステップS35の詳細を説明するフローチャートである。 図19は、図6及び図7のレンダリング部がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。
 (本開示の基礎となった知見)
 従来、仮想空間において、受聴者への音の到達時間が制御される音響信号処理方法が知られている。
 特許文献1では、音響信号処理方法である立体音響計算方法に係る技術が開示されている。この音響信号処理方法では、受聴者への音の到達時間が音源と受聴者との距離及び音速に応じて変化するように制御される。より具体的には、到達時間が、当該距離が増加するに従って長くなり、音速が遅いほど長くなるように制御される。これにより、受聴者は、音を発するオブジェクトつまりは音源と受聴者自身との距離を認識することができる。
 このような制御が行われた音は、仮想現実(バーチャル・リアリティ:VR(Virtual Reality))、又は、拡張現実(オーグメンテッド・リアリティ:AR(Augmented Reality))などの、ユーザ(受聴者)が存在する空間(仮想空間)において立体的な音を再生するためのアプリケーションにおいて、利用されている。このような制御が行われた音は、特に、受聴者の6DoF(Degrees of Freedom)の情報がセンシングされるような仮想空間において、利用される。
 ところで、特許文献1に開示される受聴者へ到達する音は、VR又はARにおけるオブジェクトである車両(移動音源)の走行音であり、当該車両自身が発する音(エンジン音など)である。しかしながら、現実空間においては、例えば車両は走行すると風を起こす。この車両によって起こされた風が、受聴者に耳に到達することで、空力音が生じる。この空力音は、オブジェクト(例えば車両)による風が受聴者に達した場合に、例えば受聴者Lの耳の形状に応じて生じる音である。なお、風を起こすオブジェクトは、上記車両のように走行(移動)するオブジェクトに限られず、扇風機のように風を発生させるオブジェクトも含まれる。
 しかしながら、特許文献1には、空力音をどのように受聴者へ受聴させるかについての開示がない。より具体的には、特許文献1では、オブジェクトが風を起こした場合に受聴者への空力音の到達時間を制御する技術が開示されていない。特許文献1に開示される技術では、受聴者は適切なタイミングで空力音を受聴することができないため、受聴者は違和感を覚えてしまい、受聴者は臨場感を得ることが難しい。従って、受聴者に臨場感を与えることができる音響信号処理方法などが求められている。
 そこで、本開示の第1態様に係る音響信号処理方法は、風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得ステップと、取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力ステップと、を含む。
 これにより、所定タイミングから所定時間が経過したタイミングで、空力音データを出力することができる。このため、受聴者は適切なタイミングで空力音を受聴することができるので、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理方法が実現される。
 また例えば、本開示の第2態様に係る音響信号処理方法は、前記オブジェクト情報は、前記オブジェクトの変化による前記風の変化と、前記所定タイミングが、前記風の変化のタイミングであることとを示し、前記音響信号処理方法は、取得された前記オブジェクト情報が示す前記風に基づいて、前記所定時間を決定する決定ステップを含む、第1態様に係る音響信号処理方法である。
 これにより、風が変化したタイミングから、当該風に基づいて決定された所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。
 また例えば、本開示の第3態様に係る音響信号処理方法は、前記オブジェクト情報が示す前記風の変化は、前記風の風速の変化を示し、前記決定ステップでは、前記風速に基づいて、前記所定時間を決定する、第2態様に係る音響信号処理方法である。
 これにより、風速に基づいて所定時間が決定されるため、受聴者は、より適切なタイミングで空力音を受聴することができる。
 また例えば、本開示の第4態様に係る音響信号処理方法は、前記空力音は、変化後の前記風速で生じる音である、第3態様に係る音響信号処理方法である。
 これにより、仮想空間で受聴者が受聴する空力音を、現実空間で受聴者が受聴する空力音により近い音とすることができる。
 また例えば、本開示の第5態様に係る音響信号処理方法は、前記オブジェクト情報は、前記オブジェクトの位置を示し、前記音響信号処理方法は、前記空力音の受聴者の位置と、取得された前記オブジェクト情報が示す前記オブジェクトの位置との距離に基づいて、前記所定時間を決定する決定ステップを含む、第1態様に係る音響信号処理方法である。
 これにより、当該距離に基づいて所定時間が決定されるため、受聴者は、より適切なタイミングで空力音を受聴することができる。
 また例えば、本開示の第6態様に係る音響信号処理方法は、前記オブジェクト情報は、前記オブジェクトの位置を示し、前記決定ステップでは、前記風速、及び、前記空力音の受聴者の位置と、取得された前記オブジェクト情報が示す前記オブジェクトの位置との距離に基づいて、前記所定時間を決定する、第3又は4態様に係る音響信号処理方法である。
 これにより、風速と当該距離とに基づいて所定時間が決定されるため、受聴者は、より適切なタイミングで空力音を受聴することができる。
 また例えば、本開示の第7態様に係る音響信号処理方法は、前記オブジェクト情報は、前記所定タイミングが、前記オブジェクトに対応付けられた音データを出力する第1タイミングであることを示し、前記出力ステップでは、取得された前記オブジェクト情報が示す前記第1タイミングから前記所定時間後に前記空力音データを出力する、第1~6態様のいずれか1つの態様に係る音響信号処理方法である。
 これにより、例えばオブジェクトが音を発生させる場合に、当該音が出力された第1タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。
 また例えば、本開示の第8態様に係る音響信号処理方法は、前記オブジェクト情報は、前記オブジェクトの位置と、前記所定タイミングが、前記空力音の受聴者の位置と前記オブジェクトの位置との距離が所定距離より短くなる第2タイミングであることとを示し、前記出力ステップでは、取得された前記オブジェクト情報が示す前記第2タイミングから前記所定時間後に前記空力音データを出力する、第1~6態様のいずれか1つの態様に係る音響信号処理方法である。
 これにより、当該距離が所定距離より短くなった第2タイミング、つまりは、オブジェクトが受聴者に近づいた第2タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。
 また例えば、本開示の第9態様に係る音響信号処理方法は、前記オブジェクト情報は、前記オブジェクトの変化による前記風の変化が前記風の向きの変化であることと、前記所定タイミングが、前記風の向きの変化が起こった第3タイミングであることとを示し、前記出力ステップでは、取得された前記オブジェクト情報が示す第3タイミングから前記所定時間後に前記空力音データを出力する、第1~6態様のいずれか1つの態様に係る音響信号処理方法である。
 これにより、風の向きの変化が起こった第3タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。
 また例えば、本開示の第10態様に係る音響信号処理方法は、前記オブジェクトは、前記オブジェクトに対応付けられた音データが示す音及び前記風を発生させるオブジェクトであり、前記空力音は、前記オブジェクトが発生させた前記風が前記受聴者に到達することによって生じる空力音である、第6態様に係る音響信号処理方法である。
 これにより、音及び風を発生させる扇風機などをオブジェクトとすることができ、当該オブジェクトから吹出された風による空力音を実現することができる。
 また例えば、本開示の第11態様に係る音響信号処理方法は、前記距離をDとし、前記風速がSoとなる前記オブジェクトの位置からの距離をUとし、前記所定時間をtとした場合、前記tは、下記式を満たす、第10態様に係る音響信号処理方法である。
 t={(D-U)^2}/{So×U×(log(D)-log(U))
 これにより、決定ステップでは、所定タイミングからオブジェクトが発生させた風が受聴者に到達するまでの時間を所定時間として決定することができる。よって、所定タイミングからこのような所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。
 また例えば、本開示の第12態様に係る音響信号処理方法は、前記オブジェクトは、前記オブジェクトの位置の移動により前記風を発生させるオブジェクトであり、前記空力音は、前記移動により発生した前記風が前記受聴者に到達することによって生じる空力音である、第6態様に係る音響信号処理方法である。
 これにより、移動により風を発生させる車両などをオブジェクトとすることができ、当該移動により発生した風による空力音を実現することができる。
 また例えば、本開示の第13態様に係る音響信号処理方法は、前記オブジェクト情報が示す前記所定タイミングは、時間の経過に伴う前記距離の変化量が負から正に転じたタイミングである、第12態様に係る音響信号処理方法である。
 これにより、受聴者の位置とオブジェクトの位置との距離が最も近くなるタイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。
 また例えば、本開示の第14態様に係る音響信号処理方法は、前記距離をDとし、前記移動により発生した前記風の前記風速がSoとなる前記オブジェクトの位置からの距離をUとし、前記所定時間をtとした場合、前記tは、下記式を満たす、第12又は13態様に係る音響信号処理方法である。
 t={(D-U)^2}/{So×U×(log(D)-log(U))
 これにより、決定ステップでは、所定タイミングからオブジェクトが発生させた風が受聴者に到達するまでの時間を所定時間として決定することができる。よって、所定タイミングからこのような所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者は、より適切なタイミングで空力音を受聴することができる。
 また例えば、本開示の第15態様に係るコンピュータプログラムは、第1~14態様のいずれか1つの態様に係る音響信号処理方法をコンピュータに実行させるためのコンピュータプログラムである。
 これにより、コンピュータが、コンピュータプログラムに従って、上記の音響信号処理方法を実行することができる。
 また例えば、本開示の第16態様に係る音響信号処理装置は、風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得部と、取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力部と、を備える。
 これにより、所定タイミングから所定時間が経過したタイミングで、空力音データを出力することができる。このため、受聴者は適切なタイミングで空力音を受聴することができるので、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理装置が実現される。
 さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。
 また、以下の説明において、第1及び第2などの序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。
 また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、各図において縮尺などは必ずしも一致していない。各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化する。
 本明細書において、垂直などの要素間の関係性を示す用語、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。
 (実施の形態)
 [本開示の音響処理技術又は符号化/復号技術を適用可能な装置例]
 <立体音響再生システム>
 図1は、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響(Immersive Audio)再生システムA0000を示す図である。立体音響再生システムA0000は、音響信号処理装置A0001と音声提示装置A0002とを含む。
 音響信号処理装置A0001は、仮想音源が発した音声信号に対して音響処理を施して、リスナ(つまりは受聴者)に対して提示される音響処理後の音声信号を生成する。音声信号は声に限らず可聴音であればよい。音響処理とは、例えば、音源から発生した音が、当該音が発せられてからリスナが聴くまでの間に受ける一又は複数の音に関する作用を再現するために音声信号に対して施される信号処理である。音響信号処理装置A0001は、上述した音に関する作用を引き起こす要因を記述した情報に基づいて音響処理を実施する。空間情報は、例えば、音源、リスナ、周囲のオブジェクトの位置を示す情報、空間の形状を示す情報、音の伝搬に関するパラメータなどを含む。音響信号処理装置A0001は、例えば、PC(Personal Computer)、スマートフォン、タブレット、又はゲームコンソールなどである。
 音響処理後の信号は、音声提示装置A0002からリスナ(ユーザ)に提示される。音声提示装置A0002は、無線又は有線の通信を介して音響信号処理装置A0001と接続されている。音響信号処理装置A0001で生成された音響処理後の音声信号は、無線又は有線の通信を介して音声提示装置A0002に伝送される。音声提示装置A0002が、例えば、右耳用のデバイス及び左耳用のデバイスなど複数のデバイスで構成されている場合、複数のデバイス間又は複数のデバイスのそれぞれと音響信号処理装置A0001とが通信することで、複数のデバイスは同期して音を提示する。音声提示装置A0002は、例えば、リスナの頭部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどである。
 なお、立体音響再生システムA0000は、視覚的にVR又はARを含むER(Extended Reality)体験を提供する画像提示装置又は立体映像提示装置と組み合わせて用いられてもよい。
 なお、図1は、音響信号処理装置A0001と音声提示装置A0002とが別々の装置であるシステム構成例を示しているが、本開示の音響信号処理方法又は復号方法が適用可能な立体音響再生システムA0000は図1の構成に限定されない。例えば、音響信号処理装置A0001が音声提示装置A0002に含まれ、音声提示装置A0002が音響処理と音の提示との両方を行ってもよい。また、音響信号処理装置A0001と音声提示装置A0002とが本開示で説明する音響処理を分担して実施してもよいし、音響信号処理装置A0001又は音声提示装置A0002にネットワークを介して接続されたサーバが本開示で説明する音響処理の一部又は全体を実施してもよい。
 なお、上記説明では、音響信号処理装置A0001と呼んでいるが、音響信号処理装置A0001が音声信号又は音響処理に用いる空間情報の少なくとも一部のデータを符号化して生成されたビットストリームを復号して音響処理を実施する場合、音響信号処理装置A0001は復号装置と呼ばれてもよい。
 <符号化装置の例>
 図2は、本開示の符号化装置の一例である符号化装置A0100の構成を示す機能ブロック図である。
 入力データA0101はエンコーダA0102に入力される空間情報及び/又は音声信号を含む符号化対象となるデータである。空間情報の詳細については後で説明する。
 エンコーダA0102は、入力データA0101を符号化して、符号化データA0103を生成する。符号化データA0103は、例えば、符号化処理によって生成されたビットストリームである。
 メモリA0104は、符号化データA0103を格納する。メモリA0104は、例えば、ハードディスク又はSSD(Solid-State Drive)であってもよいし、その他のメモリであってもよい。
 なお、上記説明ではメモリA0104に記憶される符号化データA0103の一例として符号化処理によって生成されたビットストリームを挙げたが、ビットストリーム以外のデータであってもよい。例えば、符号化装置A0100は、ビットストリームを所定のデータフォーマットに変換して生成された変換後のデータをメモリA0104に記憶してもよい。変換後のデータは、例えば、一又は複数のビットストリームを格納したファイル又は多重化ストリームであってもよい。ここで、ファイルは、例えばISOBMFF(ISO Base Media File Format)などのファイルフォーマットを有するファイルである。また、符号化データA0103は、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。エンコーダA0102で生成されたビットストリームをビットストリームとは異なるデータに変換する場合、符号化装置A0100は、図示されていない変換部を備えていてもよいし、CPU(Central Processing Unit)で変換処理を行ってもよい。
 <復号装置の例>
 図3は、本開示の復号装置の一例である復号装置A0110の構成を示す機能ブロック図である。
 メモリA0114は、例えば、符号化装置A0100で生成された符号化データA0103と同じデータを格納している。メモリA0114は、保存されているデータを読み出し、デコーダA0112の入力データA0113として入力する。入力データA0113は、例えば、復号対象となるビットストリームである。メモリA0114は、例えば、ハードディスク又はSSDであってもよいし、その他のメモリであってもよい。
 なお、復号装置A0110は、メモリA0114が記憶しているデータをそのまま入力データA0113とするのではなく、読み出したデータを変換して生成された変換後のデータを入力データA0113としてもよい。変換前のデータは、例えば、一又は複数のビットストリームを格納した多重化データであってもよい。ここで、多重化データは、例えばISOBMFFなどのファイルフォーマットを有するファイルであってもよい。また、変換前のデータは、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。メモリA0114から読み出したビットストリームとは異なるデータをビットストリームに変換する場合、復号装置A0110は、図示されていない変換部を備えていてもよいし、CPUで変換処理を行ってもよい。
 デコーダA0112は、入力データA0113を復号して、リスナに提示される音声信号A0111を生成する。
 <符号化装置の別の例>
 図4は、本開示の符号化装置の別の一例である符号化装置A0120の構成を示す機能ブロック図である。図4では、図2の構成と同じ機能を有する構成に図2の構成と同じ符号を付しており、これらの構成については説明を省略する。
 符号化装置A0100は符号化データA0103をメモリA0104に記憶していたのに対し、符号化装置A0120は符号化データA0103を外部に対して送信する送信部A0121を備える点で符号化装置A0100と異なる。
 送信部A0121は、符号化データA0103又は符号化データA0103を変換して生成した別のデータ形式のデータに基づいて送信信号A0122を別の装置又はサーバに対して送信する。送信信号A0122の生成に用いられるデータは、例えば、符号化装置A0100で説明したビットストリーム、多重化データ、ファイル、又はパケットである。
 <復号装置の別の例>
 図5は、本開示の復号装置の別の一例である復号装置A0130の構成を示す機能ブロック図である。図5では、図3の構成と同じ機能を有する構成に図3の構成と同じ符号を付しており、これらの構成については説明を省略する。
 復号装置A0110は入力データA0113をメモリA0114から読み出していたのに対し、復号装置A0130は入力データA0113を外部から受信する受信部A0131を備える点で復号装置A0110と異なる。
 受信部A0131は、受信信号A0132を受信して受信データを取得し、デコーダA0112に入力される入力データA0113を出力する。受信データは、デコーダA0112に入力される入力データA0113と同じであってもよいし、入力データA0113とは異なるデータ形式のデータであってもよい。受信データが、入力データA0113と異なるデータ形式のデータの場合、受信部A0131が受信データを入力データA0113に変換してもよいし、復号装置A0130が備える図示されていない変換部又はCPUが受信データを入力データA0113に変換してもよい。受信データは、例えば、符号化装置A0120で説明したビットストリーム、多重化データ、ファイル、又はパケットである。
 <デコーダの機能説明>
 図6は、図3又は図5におけるデコーダA0112の一例であるデコーダA0200の構成を示す機能ブロック図である。
 入力データA0113は符号化されたビットストリームであり、符号化された音声信号である符号化音声データと音響処理に用いるメタデータとを含んでいる。
 空間情報管理部A0201は、入力データA0113に含まれるメタデータを取得して、メタデータを解析する。メタデータは、音空間に配置された音に作用する要素を記述した情報を含む。空間情報管理部A0201は、メタデータを解析して得られた音響処理に必要な空間情報を管理し、レンダリング部A0203に対して空間情報を提供する。なお、本開示では音響処理に用いる情報が空間情報と呼ばれているが、それ以外の呼び方であってもよい。当該音響処理に用いる情報は、例えば、音空間情報と呼ばれてもよいし、シーン情報と呼ばれてもよい。また、音響処理に用いる情報が経時的に変化する場合、レンダリング部A0203に入力される空間情報は、空間状態、音空間状態、シーン状態などと呼ばれてもよい。
 また、空間情報は音空間ごと又はシーンごとに管理されていてもよい。例えば、異なる部屋を仮想空間として表現する場合、それぞれの部屋が異なる音空間のシーンとして空間情報が管理されてもよいし、同じ空間であっても表現する場面に応じて異なるシーンとして空間情報が管理されてもよい。空間情報の管理において、それぞれの空間情報を識別する識別子が付与されておいてもよい。空間情報のデータは、入力データの一形態であるビットストリームに含まれていてもよいし、ビットストリームが空間情報の識別子を含み、空間情報のデータはビットストリーム以外から取得してもよい。ビットストリームに空間情報の識別子のみが含まれる場合、レンダリング時に空間情報の識別子を用いて、音響信号処理装置A0001のメモリ又は外部のサーバに記憶された空間情報のデータが入力データとして取得されてもよい。
 なお、空間情報管理部A0201が管理する情報は、ビットストリームに含まれる情報に限定されない。例えば、入力データA0113は、ビットストリームには含まれないデータとして、VR又はARを提供するソフトウェアアプリケーション又はサーバから取得された空間の特性又は構造を示すデータを含んでいてもよい。また、例えば、入力データA0113は、ビットストリームには含まれないデータとして、リスナ又はオブジェクトの特性又は位置などを示すデータを含んでいてもよい。また、入力データA0113は、リスナの位置を示す情報として復号装置を含む端末が備えるセンサで取得された情報、又は、センサで取得された情報に基づいて推定された端末の位置を示す情報を含んでいてもよい。つまり、空間情報管理部A0201は外部のシステム又はサーバと通信し、空間情報及びリスナの位置を取得してもよい。また、空間情報管理部A0201が外部のシステムからクロック同期情報を取得し、レンダリング部A0203のクロックと同期する処理を実行してもよい。なお、上記の説明における空間は、仮想的に形成された空間、つまりVR空間であってもよいし、実空間(つまりは現実空間)又は実空間に対応する仮想空間、つまりAR又はMR(Mixed Reality)であってもよい。また、仮想空間は音場又は音空間と呼ばれてもよい。また、上記の説明における位置を示す情報は、空間内における位置を示す座標値などの情報であってもよいし、所定の基準位置に対する相対位置を示す情報であってもよいし、空間内の位置の動き又は加速度を示す情報であってもよい。
 音声データデコーダA0202は、入力データA0113に含まれる符号化音声データを復号して、音声信号を取得する。
 立体音響再生システムA0000が取得する符号化音声データは、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)などの所定の形式で符号化されたビットストリームである。なお、MPEG-H 3D Audioはあくまでビットストリームに含まれる符号化音声データを生成する際に利用可能な符号化方式の一例であり、他の符号化方式で符号化されたビットストリームと符号化音声データとして含んでいてもよい。例えば、用いられる符号化方式は、MP3(MPEG-1 Audio Layer-3)、AAC(Advanced Audio Coding)、WMA(Windows Media Audio)、AC3(Audio Codec―3)、Vorbisなどの非可逆コーデックであってもよいし、ALAC(Apple Lossless Audio Codec)、FLAC(Free Lossless Audio Codec)などの可逆コーデックであってもよいし、上記以外の任意の符号化方式が用いられてもよい。例えば、PCM(pulse code modulation)データが符号化音声データの一種であるとしてもよい。この場合、復号処理は、例えば、当該PCMデータの量子化ビット数がNである場合、Nビットの二進数を、レンダリング部A0203が処理できる数形式(例えば浮動小数点形式)に変換する処理としてもよい。
 レンダリング部A0203は、音声信号と空間情報とを入力とし、空間情報を用いて音声信号に音響処理を施して、音響処理後の音声信号A0111を出力する。
 空間情報管理部A0201は、レンダリングを開始する前に、入力信号のメタデータを読み込み、空間情報で規定されたオブジェクト又は音などのレンダリングアイテムを検出し、レンダリング部A0203に送信する。レンダリング開始後、空間情報管理部A0201は、空間情報及びリスナの位置の経時的な変化を把握し、空間情報を更新して管理する。そして、空間情報管理部A0201は、更新された空間情報をレンダリング部A0203に送信する。レンダリング部A0203は入力データA0113に含まれる音声信号と、空間情報管理部A0201から受信した空間情報とに基づいて音響処理を付加した音声信号を生成し出力する。
 空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが同じスレッドで実行されてもよいし、空間情報管理部A0201とレンダリング部A0203とはそれぞれ独立したスレッドに配分してもよい。空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが異なるスレッドで処理される場合、スレッドの起動頻度が個々に設定されてもよいし、平行して処理が実行されてもよい。
 空間情報管理部A0201とレンダリング部A0203とが異なる独立したスレッドで処理を実行することで、レンダリング部A0203に優先的に演算資源を割り当てることができるので、僅かな遅延も許容できないような出音処理の場合、例えば、1サンプル(0.02msec)でも遅延した場合にプチっというノイズが発生するような出音処理であっても安全に実施することができる。その際、空間情報管理部A0201には演算資源の割り当てが制限される。しかし、空間情報の更新は、音声信号の出力処理と比較して、低頻度の処理(例えば、受聴者の顔の向きの更新のような処理)である。このため、音声信号の出力処理のように必ずしも瞬間的に応答しなければならないというものではないので、演算資源の割り当てを制限しても受聴者に与える音響的な品質に大きな影響はない。
 空間情報の更新は、予め設定された時間又は期間ごとに定期的に実行されてもよいし、予め設定された条件が満たされた場合に実行されてもよい。また、空間情報の更新は、リスナ又は音空間の管理者によって手動で実行されてもよいし、外部システムの変化をトリガとして実行されてもよい。例えば、受聴者がコントローラーを操作して、自身のアバターの立ち位置を瞬間的にワープしたり、時刻を瞬時に進めたり戻したり、或いは、仮想空間の管理者が、突如、場の環境を変更するような演出を施したりした場合、空間情報管理部A0201が配置されたスレッドは、定期的な起動に加えて、単発的な割り込み処理として起動されてもよい。
 空間情報の更新処理を実行する情報更新スレッドが担う役割は、例えば、受聴者が装着しているVRゴーグルの位置又は向きに基づいて、仮想空間内に配置された受聴者のアバターの位置又は向きを更新する処理、及び、仮想空間内を移動している物体の位置の更新などであり、数10Hz程度の比較的低頻度で起動する処理スレッド内で賄われるものである。そのような、発生頻度の低い処理スレッドで直接音の性質を反映させる処理が行われるようにしてもよい。それは、オーディオ出力のためのオーディオ処理フレームの発生頻度より直接音の性質が変動する頻度が低いためである。むしろそうすることで、当該処理の演算負荷を相対的に小さくすることができるし、不必要に速い頻度で情報を更新するとパルシブなノイズが発生するリスクが生じるので、そのリスクを回避することもできる。
 図7は、図3又は図5におけるデコーダA0112の別の一例であるデコーダA0210の構成を示す機能ブロック図である。
 図7が示すデコーダA0210は、入力データA0113が、符号化音声データではなく符号化されていない音声信号を含んでいる点で図6が示すデコーダA0200と異なる。入力データA0113は、メタデータを含むビットストリームと音声信号を含む。
 空間情報管理部A0211は、図6の空間情報管理部A0201と同じであるため説明を省略する。
 レンダリング部A0213は、図6のレンダリング部A0203と同じであるため説明を省略する。
 なお、上記説明では図7の構成がデコーダA0210と呼ばれているが、音響処理を実施する音響処理部と呼ばれてもよい。また、音響処理部を含む装置が復号装置ではなく音響処理装置と呼ばれてもよい。また、音響信号処理装置A0001が音響処理装置と呼ばれてもよい。
 <音響信号処理装置の物理的構成>
 図8は、音響信号処理装置の物理的構成の一例を示す図である。なお、図8の音響信号処理装置は、復号装置であってもよい。また、ここで説明する構成の一部は音声提示装置A0002に備えられていてもよい。また、図8に示される音響信号処理装置は、上記の音響信号処理装置A0001の一例である。
 図8の音響信号処理装置は、プロセッサと、メモリと、通信IFと、センサと、スピーカとを備える。
 プロセッサは、例えば、CPU(Central Processing Unit)、DSP(Digital Signal Processor)又はGPU(Graphics Processing Unit)であり、当該CPU、DSP又はGPUがメモリに記憶されたプログラム実行することで本開示の音響処理又はデコード処理を実施してもよい。また、プロセッサは、本開示の音響処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はSSD(Solid State Drive)などの半導体メモリなどを含んでいてもよい。また、CPU又はGPUに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。
 通信IF(Inter Face)は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)などの通信方式に対応した通信モジュールである。図8に示される音響信号処理装置は、通信IFを介して他の通信装置と通信を行う機能を有し、復号対象のビットストリームを取得する。取得したビットストリームは、例えば、メモリに格納される。
 通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてBluetooth(登録商標)又はWIGIG(登録商標)を例に挙げたが、LTE(Long Term Evolution)、NR(New Radio)、又はWi-Fi(登録商標)などの通信方式に対応していてもよい。また、通信IFは、上記のような無線通信方式ではなく、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)などの有線の通信方式であってもよい。
 センサは、リスナの位置又は向きを推定するためのセンシングを行う。具体的には、センサは、リスナの頭部など身体の一部又は全体の位置、向き、動き、速度、角速度、又は加速度などのうちいずれか一つ又は複数の検出結果に基づいてリスナの位置及び/又は向きを推定し、リスナの位置及び/又は向きを示す位置情報を生成する。なお、位置情報は実空間におけるリスナの位置及び/又は向きを示す情報であってもよいし、所定の時点におけるリスナの位置及び/又は向きを基準としたリスナの位置及び/又は向きの変位を示す情報であってもよい。また、位置情報は、立体音響再生システムA0000又はセンサを備える外部装置との相対的な位置及び/又は向きを示す情報であってもよい。
 センサは、例えば、カメラなどの撮像装置又はLiDAR(Light Detection And Ranging)などの測距装置であってもよく、リスナの頭部の動きを撮像し、撮像された画像を処理することでリスナの頭部の動きを検知してもよい。また、センサとして例えばミリ波などの任意の周波数帯域の無線を用いて位置推定を行う装置を用いてもよい。
 なお、図8に示される音響信号処理装置は、センサを備える外部の機器から通信IFを介して位置情報を取得してもよい。この場合、音響信号処理装置はセンサを含んでいなくてもよい。ここで、外部の機器とは、例えば図1で説明した音声提示装置A0002又は、リスナの頭部に装着される立体映像再生装置などである。このときセンサは、例えば、ジャイロセンサ及び加速度センサなど各種のセンサを組み合わせて構成される。
 センサは、例えば、リスナの頭部の動きの速度として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転の角速度を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位の加速度を検知してもよい。
 センサは、例えば、リスナの頭部の動きの量として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位量を検知してもよい。具体的には、センサは、リスナの位置として6DoF(位置(x、y、z)及び角度(yaw、pitch、roll))を検知する。センサは、ジャイロセンサ及び加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。
 なお、センサは、リスナの位置を検出できればよく、カメラ又はGPS(Global Positioning System)受信機などにより実現されてもよい。LiDAR(Laser Imaging Detection and Ranging)などを用いて自己位置推定を実施して得られた位置情報を用いてもよい。例えば、センサは、音声信号再生システムがスマートフォンにより実現される場合には、スマートフォンに内蔵される。
 また、センサには、図8に示される音響信号処理装置の温度を検出する熱電対などの温度センサ、及び、音響信号処理装置が備える、又は音響信号処理装置と接続されたバッテリの残量を検出するセンサなどが含まれていてもよい。
 スピーカは、例えば、振動板と、マグネット又はボイスコイルなどの駆動機構とアンプとを有し、音響処理後の音声信号を音としてリスナに提示する。スピーカは、アンプを介して増幅させた音声信号(より具体的には、音の波形を示す波形信号)に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、音声信号に応じて振動する振動板は、音波を発生させ、音波が空気を伝搬してリスナの耳に伝達し、リスナが音を知覚する。
 なお、ここでは図8に示される音響信号処理装置がスピーカを備え、当該スピーカを介して音響処理後の音声信号を提示する場合を例に挙げて説明したが、音声信号の提示手段は上記の構成に限定されない。例えば、通信モジュールで接続された外部の音声提示装置A0002に音響処理後の音声信号が出力されてもよい。通信モジュールで行う通信は有線でも無線でもよい。また別の例として、図8に示される音響信号処理装置が音声のアナログ信号を出力する端子を備え、端子にイヤホンなどのケーブルを接続してイヤホンなどから音声信号を提示してもよい。上記の場合、音声提示装置A0002であるリスナの頭部又は体の一部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、ネックスピーカー、ウェアラブルスピーカー、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどが音声信号を再生する。
 <符号化装置の物理的構成>
 図9は、符号化装置の物理的構成の一例を示す図である。また、図9に示される符号化装置は、上記の符号化装置A0100及びA0120などの一例である。
 図9の符号化装置は、プロセッサと、メモリと、通信IFとを備える。
 プロセッサは、例えば、CPU(Central Processing Unit)又はDSP(Digital Signal Processor)であり、当該CPU又はGPUがメモリに記憶されたプログラム実行することで本開示の符号化処理を実施してもよい。また、プロセッサは、本開示の符号化処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はSSD(Solid State Drive)などの半導体メモリなどを含んでいてもよい。また、CPU又はGPUに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。
 通信IF(Inter Face)は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)などの通信方式に対応した通信モジュールである。符号化装置は、通信IFを介して他の通信装置と通信を行う機能を有し、符号化されたビットストリームを送信する。
 通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてBluetooth(登録商標)又はWIGIG(登録商標)を例に挙げたが、LTE(Long Term Evolution)、NR(New Radio)、又はWi-Fi(登録商標)などの通信方式に対応していてもよい。また、通信IFは、上記のような無線通信方式ではなく、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)などの有線の通信方式であってもよい。
 [構成]
 さらに、実施の形態に係る音響信号処理装置100の構成について説明する。図10は、本実施の形態に係る音響信号処理装置100の機能構成を示すブロック図である。
 本実施の形態に係る音響信号処理装置100は、仮想空間(音再生空間)におけるオブジェクトが起こす風による空力音を示す空力音データを出力するための装置である。本実施の形態に係る音響信号処理装置100は、一例として仮想現実又は拡張現実(VR又はAR)などの仮想空間における様々なアプリケーションに応用される装置である。
 仮想空間におけるオブジェクトは、当該仮想空間内で実行されるコンテンツ(ここでは一例として映像)を表示する表示部300に表示される当該コンテンツに含まれるものである。また、オブジェクトは、風を起こすオブジェクトであれば、特に限定されない。
 オブジェクトは、例えば、当該オブジェクトの位置の移動により風を発生させる移動体である。移動体は、例えば、動植物、人工物又は自然物などを示すオブジェクトを含む。人工物を示すオブジェクトの例として、車両、自転車及び航空機などが挙げられる。また、人工物を示すオブジェクトの例として、野球用のバット及びテニス用のラケットなどのスポーツ用品と、机、椅子及び柱時計などの家具と、などが挙げられる。なお、オブジェクトは、一例としては、当該コンテンツ内にて移動し得るもの、及び、移動され得るもののうち少なくとも一方であるとよいがこれに限られない。
 また例えば、オブジェクトは、送風することができるオブジェクトであってもよい。このようなオブジェクトは、例えば、扇風機、サーキュレータ、うちわ及びエアコンなどである。
 本実施の形態に係る空力音について説明する。空力音は、仮想空間内において、オブジェクトが起こす風が受聴者の耳に到達することで生じる音である。
 オブジェクトが扇風機などの送風することができるオブジェクトである場合には、空力音は、オブジェクトが発生させた風が受聴者に到達することによって生じる空力音である。より具体的には、空力音は、扇風機から吹出された風が受聴者に達することで、例えば受聴者の耳の形状に応じて生じる音である。
 オブジェクトが移動体(例えば車両)である場合には、空力音は、オブジェクトの位置の移動により発生した風が受聴者に到達することによって生じる空力音であり、より具体的には、当該風が受聴者に達することで、例えば受聴者の耳の形状に応じて生じる音である。
 また、オブジェクトは、風を起こし、さらに、音を発生させるオブジェクトであってもよい。オブジェクトが発生させる音は、オブジェクトに対応付けられた音データ(以下オブジェクト音データと記載する場合がある)が示す音である。例えば、オブジェクトが扇風機である場合には、オブジェクトが発生させる音は、扇風機が有するモーターが発生させるモーター音である。また、例えば、オブジェクトが救急車である場合には、オブジェクトが発生させる音は、救急車から発されるサイレン音である。
 なお、本実施の形態においては、オブジェクトは、送風することができるオブジェクトの一例である扇風機である。
 音響信号処理装置100は、仮想空間における空力音を示す空力音データを、ヘッドフォン200に出力する。
 次に、ヘッドフォン200について説明する。
 ヘッドフォン200は、空力音を再生する装置であり、空力音を受聴者に提示する音声出力装置である。より具体的には、ヘッドフォン200は、音響信号処理装置100によって出力された空力音データに基づいて、空力音を再生する。これにより受聴者は、空力音を受聴することができる。なお、ヘッドフォン200にかえて、スピーカなど他の出力チャンネルが用いられてもよい。
 図10が示すように、ヘッドフォン200は、頭部センサ部201と、出力部202とを備える。
 頭部センサ部201は、仮想空間における水平面の座標及び垂直方向の高さで定められる受聴者の位置をセンシングして、仮想空間における空力音の受聴者の位置を示す第2位置情報を音響信号処理装置100に出力する。
 頭部センサ部201は、受聴者の頭部の6DoFの情報をセンシングするとよい。例えば、頭部センサ部201は、慣性測定ユニット(IMU:Inertial Measurement Unit)、加速度計、ジャイロスコープ、磁気センサ又はこれらの組合せであるとよい。
 出力部202は、音再生空間において受聴者に到達する音を再生する装置である。より具体的には、出力部202は、音響信号処理装置100から出力された上記空力音を示す空力音データに基づいて、上記空力音を再生する。
 また、オブジェクトが扇風機である場合には、モーター音を示す音データが音響信号処理装置100から出力され、出力部202は、出力された当該音データに基づいて、上記モーター音を再生する。同様に、オブジェクトが救急車である場合には、サイレン音を示す音データが音響信号処理装置100から出力され、出力部202は、出力された当該音データに基づいて、上記サイレン音を再生する。
 続いて、表示部300について説明する。
 表示部300は、仮想空間におけるオブジェクトを含むコンテンツ(映像)を表示する表示装置である。表示部300がコンテンツを表示するための処理については、後述する。表示部300は、例えば、液晶パネル又は有機EL(Electro Luminescence)パネルなどの表示パネルによって実現される。
 さらに、図10が示す音響信号処理装置100について説明する。本実施の形態においては、音響信号処理装置100は、所定のタイミングから、所定時間後に、空力音データをヘッドフォン200に出力する。
 図10が示すように、音響信号処理装置100は、取得部110と、決定部120と、出力部130と、記憶部140とを備える。
 取得部110は、オブジェクト情報を取得する。オブジェクト情報は、風を起こすオブジェクトの変化、当該オブジェクトの変化に関する所定タイミング、当該オブジェクトの変化による当該風の変化、及び、当該オブジェクトの位置を示す情報である。なお、以下、オブジェクト情報は、風を起こすオブジェクトの変化を示す第1変化情報と、当該オブジェクトの変化に関する所定タイミングを示すタイミング情報と、当該オブジェクトの変化による当該風の変化を示す第2変化情報と、当該オブジェクトの位置を示す第1位置情報とを含む情報として取り扱う。
 オブジェクトが音を発生させるオブジェクトである場合には、オブジェクト情報は、当該音を示す音データ(オブジェクト音データ)を含む。また、オブジェクト情報は、オブジェクトの形状を示す形状情報を含んでもよい。
 取得部110は、第2位置情報を取得する。第2位置情報とは、上記の通り、仮想空間における受聴者の位置を示す情報である。取得部110は、空力音を示す空力音データを取得する。記憶部140には空力音データが記憶されており、取得部110は記憶部140に記憶されている空力音データを取得する。
 取得部110は、例えば入力信号から、オブジェクト情報、第2位置情報及び空力音データを取得してもよいし、それ以外からオブジェクト情報、第2位置情報及び空力音データを取得してもよい。入力信号については、下記で説明する。また、以下では、オブジェクト音データ及び空力音データをまとめて音データと記載する場合がある。
 入力信号は、例えば、空間情報とセンサ情報と音データ(音声信号)とで構成される。また、上記の情報と音データとは1つの入力信号に含まれていてもよいし、複数の別々の信号に上述の情報と音データとが含まれていてもよい。入力信号は、音データとメタデータ(制御情報)とで構成されるビットストリームを含んでいてもよく、その場合メタデータに空間情報及び音データを識別する情報が含まれていてもよい。
 上記で説明した、第1変化情報、タイミング情報、第2変化情報、第1位置情報、形状情報、オブジェクト音データ、第2位置情報、及び、空力音データは、入力信号に含まれていてもよい。より具体的には、第1変化情報、タイミング情報、第2変化情報、第1位置情報及び形状情報は空間情報に含まれていてもよく、第2位置情報はセンサ情報から取得される情報に基づいて生成されてもよい。センサ情報は、頭部センサ部201から取得されてもよく、他の外部装置から取得されてもよい。
 空間情報は、立体音響再生システムA0000が作り出す音空間(三次元音場)に関する情報であって、音空間に含まれるオブジェクトに関する情報とリスナに関する情報とで構成される。オブジェクトには、音を発し音源となる音源オブジェクトと、音を発しない非発音オブジェクトとが存在する。非発音オブジェクトは、音源オブジェクトが発した音を反射する障害物オブジェクトとして機能するが、音源オブジェクトが別の音源オブジェクトが発した音を反射する障害物オブジェクトとして機能する場合もある。障害物オブジェクトは反射オブジェクトと呼ばれてもよい。
 音源オブジェクトと非発音オブジェクトとに共通して付与される情報として、位置情報、形状情報、及び、オブジェクトが音を反射する際の音量の減衰率などがある。
 位置情報は、ユークリッド空間の例えばX軸、Y軸、Z軸の3軸の座標値で表されるが、必ずしも三次元情報でなくてもよい。位置情報は、例えば、X軸、Y軸の2軸の座標値で表される二次元情報であってもよい。オブジェクトの位置情報は、メッシュ又はボクセルで表現される形状の代表位置で定められる。
 形状情報は、表面の素材に関する情報を含んでいてもよい。
 減衰率は、1以下又は0以上の実数で表現してもよいし、マイナスのデシベル値で表現してもよい。実空間では反射によって音量が増幅することはないため、減衰率はマイナスのデシベル値が設定されるが、例えば、非現実空間の不気味さを演出するために、あえて1以上の減衰率、すなわち、プラスのデシベル値が設定されてもよい。また、減衰率は、複数の周波数帯域を構成する周波数帯域毎に異なる値が設定されてもよいし、周波数帯域毎に独立に値が設定されてもよい。また、減衰率がオブジェクト表面の素材の種類ごとに設定されている場合、表面の素材に関する情報に基づいて対応する減衰率の値が用いられてもよい。
 また、音源オブジェクトと非発音オブジェクトとに共通して付与される情報は、オブジェクトが生物に属するか否かを示す情報又は、オブジェクトが移動体であるか否かを示す情報などを含んでいてもよい。オブジェクトが移動体である場合、位置情報は時間とともに移動してもよく、変化した位置情報又は変化量がレンダリング部A0203及びA0213に伝送される。
 音源オブジェクトに関する情報は、上述した音源オブジェクトと非発音オブジェクトとに共通して付与される情報に加えて、オブジェクト音データとオブジェクト音データを音空間内に放射するために必要な情報とを含む。オブジェクト音データは、音の周波数及び強弱に関する情報などを示す、リスナに知覚される音が表現されたデータである。オブジェクト音データは、典型的にはPCM信号であるが、MP3などの符号化方式を用いて圧縮されたデータであってもよい。その場合は、少なくとも当該信号が生成部(図19で後述する生成部907)に到達するまでに復号化される必要があるため、レンダリング部A0203及びA0213に図示しない復号部を含んでいてもよい。或いは、当該信号は、音声データデコーダA0202で復号化してもよい。
 1つの音源オブジェクトに対して少なくとも1つのオブジェクト音データが設定されていればよく、複数のオブジェクト音データが設定されていてもよい。また、それぞれのオブジェクト音データを識別する識別情報が付与され、音源オブジェクトに関する情報として、オブジェクト音データの識別情報がメタデータとして保持されてもよい。
 オブジェクト音データを音空間内に放射するために必要な情報として、例えば、オブジェクト音データを再生する際に基準となる基準音量の情報、音源オブジェクトの位置に関する情報、音源オブジェクトの向きに関する情報、及び、音源オブジェクトが発する音の指向性に関する情報などが含まれていてもよい。
 基準音量の情報は、例えば、オブジェクト音データを音空間に放射する際の音源位置におけるオブジェクト音データの振幅値の実効値であって、デシベル(db)値として浮動小数点で表されてもよい。例えば基準音量が0dbの場合、基準音量の情報は、オブジェクト音データが示す信号レベルの音量を増減させることなくそのままの音量で上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、-6dbの場合、オブジェクト音データが示す信号レベルの音量を約半分にして上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、1つのオブジェクト音データに対して又は複数のオブジェクト音データに対してまとめて付与されてもよい。
 オブジェクト音データを音空間内に放射するために必要な情報に含まれる音量の情報として、例えば、音源の音量の時系列的な変動を示す情報が含まれていてもよい。例えば、音空間が仮想会議室であり、音源が話者である場合、音量は短い時間で断続的に遷移する。それをさらに単純に表現すれば、有音部分と無音部分とが交互に発生する、とも言える。また、音空間がコンサートホールであり、音源が演奏者である場合、音量は一定の時間長維持される。また、音空間が戦場であり、音源が爆発物である場合、爆発音の音量は一瞬だけ大となり以降は無音であり続ける。このように音源の音量の情報は、音の大きさの情報のみならず、音の大きさの遷移の情報を含むものであり、そのような情報をオブジェクト音データの性質を示す情報としてもよい。
 ここで、音の大きさの遷移の情報は、周波数特性を時系列に示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長を示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長と無音である区間の時間長との時系列を示したデータであってもよい。音の大きさの遷移の情報は、音信号の振幅が定常的であるとみなせる(概ね一定であるとみなせる)継続時間とその間の当該信号の振幅値のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間のデータであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間とその間の当該周波数特性のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、データの形式として例えば、スペクトログラムの概形を示すデータであってもよい。また、上記周波数特性の基準となる音量を上記基準音量としてもよい。基準音量の情報とオブジェクト音データの性質とを示す情報は、リスナに知覚させる直接音又は反射音の音量を算出する他、リスナに知覚させるか否か選択をするための選択処理に用いられてもよい。
 向きに関する情報は、典型的には、yaw、pitch、rollで表現される。または、rollの回転を省略し、アジマス(yaw)、エレベーション(pitch)で表現してもよい。向き情報は時間とともに変化してもよく、変化した場合、レンダリング部A0203及びA0213に伝送される。
 リスナに関する情報は、音空間におけるリスナの位置情報と向きとに関する情報である。位置情報はユークリッド空間のX軸、Y軸及びZ軸の位置で表されるが、必ずしも三次元情報でなくてもよく、二次元情報であってもよい。向きに関する情報は、典型的には、yaw、pitch、rollで表現される。または、向きに関する情報は、rollの回転を省略し、アジマス(yaw)、エレベーション(pitch)で表現してもよい。位置情報と向き情報とは時間とともに変化してもよく、変化した場合、レンダリング部A0203及びA0213に伝送される。
 センサ情報は、リスナが装着するセンサで検知された回転量又は変位量などとリスナの位置及び向きとを含む情報である。センサ情報はレンダリング部A0203及びA0213に伝送され、レンダリング部A0203及びA0213はセンサ情報に基づいてリスナの位置及び向きの情報を更新する。センサ情報は、例えば携帯端末がGPS、カメラ、又はLiDAR(Laser Imaging Detection and Ranging)などを用いて自己位置推定を実施して得られた位置情報が用いられてもよい。またセンサ以外から、通信モジュールを通じて外部から取得した情報がセンサ情報として検出されてもよい。センサから、音響信号処理装置100の温度を示す情報、及び、バッテリの残量を示す情報が、センサ情報として、取得されてもよい。音響信号処理装置100又は音声提示装置A0002の演算資源(CPU能力、メモリ資源、PC性能)を示す情報などがセンサ情報として、リアルタイムで取得されてもよい。
 本実施の形態においては、取得部110は、オブジェクト情報を記憶部140から取得するがこれに限られず、音響信号処理装置100以外の装置(例えばクラウドサーバなどのサーバ装置500)から取得してもよい。また、取得部110は、第2位置情報をヘッドフォン200(より具体的には、頭部センサ部201)から取得するがこれに限られない。
 ここで、オブジェクト情報が含む情報を説明する。
 まずは、第1変化情報について説明する。
 第1変化情報は、風を起こすオブジェクトの変化を示す情報である。本実施の形態においては、オブジェクトの変化は、オブジェクトの状態の変化を意味する。ここではオブジェクトが扇風機であるため、オブジェクトの状態の変化とは、例えば以下の例が挙げられる。
 例えば、オブジェクトの状態の変化は、扇風機のONとOFFとが切替えられたこと(以下「ON/OFF切替え」と記載する場合がある)である。また例えば、オブジェクトの状態の変化は、扇風機の風速を指示するスイッチが、弱から強に切替えられたこと(以下「風速切替え」と記載する場合がある)である。また例えば、オブジェクトの状態の変化は、扇風機の首振りを指示するスイッチが、首振り無しから首振り有りへ切替えられたこと(以下「風向切替え」と記載する場合がある)である。
 さらに、第2変化情報について説明する。
 第2変化情報は、オブジェクトの変化による風の変化を示す情報である。第2変化情報は、オブジェクトの変化による風の変化として、風の風速の変化、又は、風の向き(風向)の変化を示す。本実施の形態においては、第1変化情報が示すオブジェクトの状態の変化に応じて、第2変化情報が示す情報の内容が変化する。
 第1変化情報が示すオブジェクトの状態の変化が「ON/OFF切替え」である場合に、第2変化情報は、例えば風速が0m/sからV1m/s(V1>0)に切替えられたことを示す。また、第1変化情報が示すオブジェクトの状態の変化が「風速切替え」である場合に、第2変化情報は、例えば風速がV2m/sから例えばV3m/s(V3>V2)に切替えられたことを示す。また、第1変化情報が示すオブジェクトの状態の変化が「風向切替え」である場合に、第2変化情報は、例えば風向が一定の状態から変化する状態に切替えられたことを示す。このように、第2変化情報は、第1変化情報に依存する情報であるとよい。
 なお、風速を示す上記V1、V2及びV3は、例えば、オブジェクトである扇風機が配置された位置における風速である。
 続いて、タイミング情報について説明する。
 タイミング情報は、オブジェクトの変化に関する所定タイミングを示す情報である。上記の通り、音響信号処理装置100は、この所定のタイミングから、所定時間後に、空力音データをヘッドフォン200に出力する。所定タイミングは、空力音データを出力するための所定時間が始まるタイミングを示す。
 タイミング情報が示す所定タイミングは、風の変化のタイミングであり、より具体的には、オブジェクトの変化による風の変化のタイミングである。例えば、所定タイミングは、オブジェクトの変化により、風速が変化したタイミング又は風向が変化したタイミングである。
 さらに、所定タイミングが、風速が変化したタイミングである場合について説明する。
 風速が変化する例として、オブジェクトである扇風機がOFFからONへ切替えられる例が挙げられる。このとき、例えば風速が0m/sからV1m/sに変化し、所定タイミングは、風速が変化したタイミング、つまりは風速が0m/sからV1m/sに変化したタイミングである。なお、扇風機がOFFからONへ切替えられたときには、上記の通り、扇風機はモーター音を発生させる。従って、この場合には、所定タイミングは、風速が変化したタイミングであり、かつ、オブジェクトである扇風機に対応付けられた音データ(オブジェクト音データ)を出力するタイミング(第1タイミング)である。換言すると、本実施の形態に係る音響信号処理装置100(より具体的には、出力部130)は、所定タイミング(第1タイミング)に、扇風機に対応付けられた音データ(オブジェクト音データ)を出力する。なお、オブジェクト情報が含むタイミング情報には、所定タイミングが、風の変化のタイミングであり、かつ、第1タイミングであることが示されている。
 また、所定タイミングは、例えば音響信号処理装置100の管理者によって指定されたタイミングであってもよい。
 さらに、第1位置情報について説明する。
 上記の通り、仮想空間におけるオブジェクトは、表示部300に表示されるコンテンツ(映像)に含まれるものであり、本実施の形態においては、扇風機である。
 第1位置情報は、仮想空間における扇風機が、ある時点において、仮想空間内のどの位置にあるのかを示す情報である。なお、仮想空間においては、例えばユーザが扇風機を手に取って移動することで、扇風機が移動される可能性がある。このため、取得部110は、継続的に第1位置情報を取得する。取得部110は、例えば、空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに第1位置情報を取得する。
 さらに、オブジェクトに対応付けられたオブジェクト音データ、及び、空力音データを含む音データについて説明する。
 本明細書で説明されるオブジェクト音データ及び空力音データを含む音データは、PCM(Pulse Code Modulation)データのような音信号であってもよく、また、これに限られず、音の性質を示すための情報であればよい。
 一例として仮に音信号が、音量がXデシベルの雑音信号である場合に、当該音信号に係る音データは、当該音信号を示すPCMデータそのものであってもよく、成分が雑音信号であることを示す情報及び音量がXデシベルであることを示す情報からなるデータであってもよい。他の一例として仮に音信号が、周波数成分のPeak/Dipが所定の特性である雑音信号である場合に、当該音データに係る音データは、当該音信号を示すPCMデータそのものであってもよく、成分が雑音信号であることを示す情報及び周波数成分のPeak/Dipを示す情報からなるデータであってもよい。
 なお、本明細書では、音データに基づく音信号とは、当該音データを示すPCMデータであることを意味する。
 また、空力音データは、上記の通り、予め記憶部140に記憶されている。空力音データとは、人の耳又は人の耳を模したモデルに風が到達することで生じる音が収音されたデータである。本実施の形態においては、空力音データは、人の耳を模したモデルに風が到達することで生じる音が収音されたデータである。人の耳を模したモデルとしてダミーヘッドマイクなどが用いられ、空力音データが収音される。
 また、上記の通り、本実施の形態においては、オブジェクトの変化により、風が変化する。空力音は、変化前の風、又は、変化後の風による空力音である。なお、空力音は、変化後の風による空力音であるとよく、例えば、変化後の風速での風による空力音、又は、変化後の風向での風による空力音であるとよい。
 次に、形状情報について説明する。
 形状情報は、仮想空間におけるオブジェクトの形状を示す情報である。形状情報は、オブジェクトの形状を示し、より具体的には、オブジェクトの剛体として三次元形状を示す。オブジェクトの形状は、例えば、球体、直方体、立方体、多面体、円錐、角錐、円柱、角柱など、またこれらの組み合わせなどにより示される。なお、形状情報は、例えばメッシュデータ、又は、例えばボクセル、三次元点群もしくは三次元座標を持つ頂点からなる複数の面の集合として表現されてもよい。
 なお、第1変化情報にはオブジェクトを識別するためのオブジェクト識別情報が含まれている。また、タイミング情報にもオブジェクト識別情報が含まれ、第2変化情報にもオブジェクト識別情報が含まれ、第1位置情報にもオブジェクト識別情報が含まれ、オブジェクト音データにもオブジェクト識別情報が含まれ、形状情報にもオブジェクト識別情報が含まれている。
 このため、取得部110が第1変化情報、タイミング情報、第2変化情報、第1位置情報、オブジェクト音データ、及び、形状情報を別個で取得したとしても、第1変化情報、タイミング情報、第2変化情報、第1位置情報、オブジェクト音データ、及び、形状情報のそれぞれに含まれるオブジェクト識別情報が参照されることで、第1変化情報、タイミング情報、第2変化情報、第1位置情報、オブジェクト音データ、及び、形状情報のそれぞれが示すオブジェクトが識別される。例えばここでは、第1変化情報、タイミング情報、第2変化情報、第1位置情報、オブジェクト音データ、及び、形状情報のそれぞれが示すオブジェクトが、同一の扇風機であることが容易に識別することができる。つまり、取得部110が取得した第1変化情報、タイミング情報、第2変化情報、第1位置情報、オブジェクト音データ、及び、形状情報のそれぞれは、6つのオブジェクト識別情報が参照されることで当該第1変化情報、当該タイミング情報、当該第2変化情報、当該第1位置情報、当該オブジェクト音データ、及び、当該形状情報が扇風機に係る情報であることが明らかになる。従って、当該第1変化情報、当該タイミング情報、当該第2変化情報、当該第1位置情報、当該オブジェクト音データ、及び、当該形状情報は当該扇風機について示す情報として紐づけられる。
 続いて、第2位置情報について説明する。
 受聴者は、仮想空間において移動し得る。第2位置情報は、仮想空間における受聴者が、ある時点において、仮想空間内のどの位置に居るのかを示す情報である。なお、受聴者は仮想空間において移動することができるため、取得部110は継続的に第2位置情報を取得する。取得部110は、例えば、空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに第2位置情報を取得する。
 なお、上記の第1変化情報、タイミング情報、第2変化情報、第1位置情報、形状情報、オブジェクト音データ、第2位置情報、及び、空力音データなどは、入力信号に含まれるメタデータ、制御情報又はヘッダ情報に含まれていてもよい。オブジェクト音データ及び空力音データを含む音データが音信号(PCMデータ)の場合、音信号を識別する情報がメタデータ、制御情報又はヘッダ情報に含まれていてもよく、音信号はメタデータ、制御情報又はヘッダ情報以外に含まれていてもよい。つまり、音響信号処理装置100(より具体的には、取得部110)は、入力信号に含まれるメタデータ、制御情報又はヘッダ情報を取得し、メタデータ、制御情報又はヘッダ情報に基づいて音響処理を行ってもよい。なお、音響信号処理装置100(より具体的には、取得部110)は、上記の第1変化情報、タイミング情報、第2変化情報、第1位置情報、形状情報、オブジェクト音データ、第2位置情報、及び、空力音データを取得すればよく、取得先は入力信号に限定されない。オブジェクト音データ及び空力音データを含む音データとメタデータとは一つの入力信号に格納されていてもよいし、複数の入力信号に別々に格納されていてもよい。
 また、入力信号にオブジェクト音データ及び空力音データを含む音データ以外の音信号がオーディオコンテンツ情報として格納されていてもよい。オーディオコンテンツ情報は、MPEG-H 3D Audio(ISO/IEC 23008-3)(以下、MPEG-H 3D Audioと記載)などの符号化処理が施されているとよい。また、符号化処理に用いる技術はMPEG-H 3D Audioに限られず、公知の他の技術が用いられてもよい。また、上記の第1変化情報、タイミング情報、第2変化情報、第1位置情報、形状情報、オブジェクト音データ、第2位置情報、及び、空力音データなどの情報を符号化処理対象としてもよい。
 つまり、音響信号処理装置100は、符号化されたビットストリームに含まれる音信号及びメタデータを取得する。音響信号処理装置100においては、オーディオコンテンツ情報が取得されて復号される。本実施の形態においては、音響信号処理装置100は、復号装置(例えば復号装置A0110及びA0130)が備えるデコーダ(例えばデコーダA0200及びA0210)として機能し、より具体的には、当該デコーダが有するレンダリング部A0203及びA0213として機能する。なお、本開示におけるオーディオコンテンツ情報という用語は、技術内容に即して、音信号そのものや、第1変化情報、タイミング情報、第2変化情報、第1位置情報、形状情報、オブジェクト音データ、第2位置情報、及び、空力音データを含む情報として読み替えて解釈するものとする。
 取得部110は、取得したオブジェクト情報及び第2位置情報を決定部120及び出力部130に出力する。
 決定部120は、取得部110によって取得されたオブジェクト情報が示す風に基づいて、所定時間を決定する。すなわち、決定部120は、オブジェクトが起こす風に基づいて、所定時間を決定する。
 例えば、決定部120は、取得されたオブジェクト情報が含む第2変化情報が示す風速と、受聴者の位置とオブジェクトの位置との距離に基づいて、所定時間を決定する。所定時間をt秒とすると、一例としてt>0を満たすがこれに限られず、所定時間は、例えば0.1秒以上5秒以下であってもよい。決定部120は、例えば音響信号処理装置100の管理者によって指定された時間を所定時間として決定することができる。また、決定部120は、当該距離を以下のように算出する。
 決定部120は、取得部110によって取得されたオブジェクト情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、受聴者の位置とオブジェクトの位置との距離を算出する。上記の通り、取得部110は仮想空間における第1位置情報及び第2位置情報を空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに取得している。決定部120は、空間情報の更新ごとに取得された複数の第1位置情報及び複数の第2位置情報に基づいて、仮想空間において受聴者の位置とオブジェクトの位置との距離を算出する。
 決定部120は、所定時間を決定し、出力部130へ出力する。
 出力部130は、取得部110によって取得されたオブジェクト情報が示す所定タイミングから、決定部120によって決定された所定時間後に、取得部110によって取得された空力音データを出力する。ここでは、出力部130は、空力音データをヘッドフォン200に出力する。これにより、ヘッドフォン200は、出力された空力音データが示す空力音を再生することができる。つまり受聴者は、所定タイミングから所定時間後に空力音を受聴することができる。
 記憶部140は、取得部110、決定部120、出力部130が実行するコンピュータプログラムなどと、オブジェクト情報と、空力音データとが記憶される記憶装置である。
 ここで、本実施の形態に係る形状情報について再度説明する。形状情報は、仮想空間におけるオブジェクトの映像の生成のために用いられる情報であってオブジェクト(扇風機)の形状を示す情報でもある。つまり、形状情報は、表示部300に表示されるコンテンツ(映像)を生成するためにも用いられる情報である。
 取得部110は、取得した形状情報を表示部300にも出力する。表示部300は、取得部110によって出力された形状情報を取得する。表示部300は、さらに、オブジェクト(扇風機)の仮想空間における形状以外の属性(色彩など)を示す属性情報を取得する。表示部300は、属性情報を、音響信号処理装置100以外の装置(サーバ装置500)から直接取得してもよく、音響信号処理装置100から取得してもよい。表示部300は、取得した形状情報及び属性情報に基づいて、コンテンツ(映像)を生成して、表示する。
 以下、音響信号処理装置100によって行われる音響信号処理方法の動作例1について説明する。
 [動作例1]
 図11は、本実施の形態に係る音響信号処理装置100の動作例1のフローチャートである。図12は、動作例1に係るオブジェクトである扇風機Fと受聴者Lとを示す図である。
 図11が示すように、はじめに、取得部110は、オブジェクト情報を取得する(S10)。上記の通り、オブジェクト情報は、風Wを起こすオブジェクトの変化を示す第1変化情報と、当該オブジェクトの変化に関する所定タイミングを示すタイミング情報と、当該オブジェクトの変化による当該風Wの変化を示す第2変化情報と、当該オブジェクトの位置を示す第1位置情報とを含む。また、オブジェクト情報は、モーター音を示すオブジェクト音データと、形状情報とを含む。このステップS10が取得ステップに相当する。
 ここでは、第2変化情報は、オブジェクトの変化による風Wの変化として、風Wの風速の変化を示す。また、タイミング情報が示す所定タイミングは、風Wの変化のタイミングであり、より具体的には、オブジェクトの変化による風Wの変化のタイミングである。
 続いて、取得部110は、仮想空間における受聴者Lの位置を示す第2位置情報をヘッドフォン200から取得する(S20)。さらに、取得部110は、記憶部140に記憶されている空力音を示す空力音データを取得する(S30)。
 次に、決定部120は、第2変化情報が示す風速と、受聴者Lの位置とオブジェクト(扇風機F)の位置との距離に基づいて、所定時間を決定する(S40)。このステップS40が決定ステップに相当する。
 さらに、出力部130は、所定タイミングに、扇風機Fに対応付けられた音データ(オブジェクト音データ)を出力する(S50)。そして出力部130は、所定タイミングから所定時間後に、風Wによる空力音を示す空力音データを出力する(S60)。このステップS60が出力ステップに相当する。
 ここで、本動作例における所定タイミング及び所定時間について説明する。
 ここでは、所定タイミングは、風Wの変化のタイミングであり、オブジェクトの変化により風速が変化したタイミングである。一例として、受聴者Lは、表示部300に扇風機Fが表示されるコンテンツを視聴している場合に、所定タイミングは、扇風機FがOFFからONへ切替えられたタイミングである。
 現実空間では、扇風機FがOFFからONへ切替えられたタイミング(つまりは所定タイミング)から、扇風機Fが起こす風Wが受聴者Lに到達する時間が経過したタイミングで、受聴者Lは空力音を受聴する。従って、決定部120は、所定タイミングから、扇風機Fが起こす風Wが受聴者Lに到達するまでの時間を、所定時間として決定するとよい。
 図13Aは、図11が示すステップS40で所定時間が決定される処理を説明する図である。
 受聴者Lの位置とオブジェクト(扇風機F)の位置との距離をDとする。より具体的には、受聴者Lの耳の位置とオブジェクト(扇風機F)の位置との距離をDとする。なお、距離Dは、取得部110によって取得されたオブジェクト情報が含む第1位置情報、及び、取得された第2位置情報に基づいて、決定部120によって算出されている。
 オブジェクトである扇風機Fが発生させる風Wの風速がSoとなるオブジェクト(扇風機F)の位置からの距離をUとする。また、扇風機Fから受聴者Lに向かう方向をx軸方向とし、扇風機Fからx軸方向への距離をxとする。風Wの風速Vは距離xに反比例するため、風速Vと距離xとは、以下の式を満たす。
 V = So×(U/x)
 距離Dの位置までの平均風速は、以下の式を満たす。
Figure JPOXMLDOC01-appb-M000001
 扇風機FがOFFからONへ切替えられたタイミング(つまりは所定タイミング)から、オブジェクトである扇風機Fが起こす風Wが受聴者Lに到達するまでの時間(所定時間)であるtは、距離を平均風速で割った値であり、下記式を満たす。
 t = {(D-U)^2}/{So×U×(log(D)-log(U))
 なお、上記式における「^」はべき乗を求める演算子を表す。
 そして、上記の通り、ステップS60では所定タイミングから、所定時間tが経過したタイミングで、空力音データが出力される。
 これにより、扇風機FがOFFからONへ切替えられたタイミング(つまりは所定タイミング)から、扇風機Fが起こす風Wが受聴者Lに到達する時間(所定時間t)が経過したタイミングで、受聴者Lは、ヘッドフォン200から出力された空力音を受聴することができる。従って、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Lは空力音を受聴することができるので、受聴者Lは違和感を覚えにくく、受聴者Lは臨場感を得ることができる。
 さらには、本動作例においては、所定タイミングは、扇風機FがOFFからONへ切替えられたタイミングであり、オブジェクトである扇風機Fに対応付けられたオブジェクト音データが出力される第1タイミングである。
 なお、上記動作は、下記の意味を含むことは言うまでもない。すなわち、当該意味とは、「所定タイミングから、所定時間tが経過したタイミングまでに、空力音データが示す空力音が、受聴者Lが知覚できる振幅の音となるように出力される。」ということである。それは、例えば、空力音データの出力に際して、所定時間tを時定数とするフィルタで実現される。具体的には、下記の様にしてもよい。
 図13Bは、本実施の形態に係る空力音データの出力の詳細な例が説明された図である。図13Cは、本実施の形態に係る空力音データの出力の詳細な他の例が説明された図である。
 図13Bの(a)は、扇風機FのON/OFFの変化を示すトリガ信号を表す図である。図13Bの(a)には、扇風機FがOFFであるときは値が「0」で、扇風機FがONであるときは値が「1」となるトリガ信号が示されている。図13Bの(b)は、時定数tが掛けられた上記トリガ信号を表す図である。すなわち、上記トリガ信号は、時定数が所定時間tであるLowPassフィルタが掛けられる。図13Bの(c)は、上記LowPassフィルタの出力信号の大きさに応じて振幅が増幅された空力音データを表す図である。
 これにより、所定時間tが経過したタイミングで、空力音データが出力される、という動作を極めて簡単に模擬することができる。また、これにより、空力音の発生理由か消滅した際の動作(扇風機FがONからOFFに変化した際の動作)が自動的に模擬されることができる。
 ここで、tは、必ずしも正確に下記式に基づいて算出された値でなくてもよく、距離Dが大きいほどtが大きくなるように簡便に近似した値でもよい。
 t = {(D-U)^2}/{So×U×(log(D)-log(U))
 なお、上記式における「^」はべき乗を求める演算子を表す。
 図13Cの(a)は、図13Bの(a)と同じく、扇風機FのON/OFFの変化を示すトリガ信号を表す図である。図13Cの(b)は、図13Bの(b)と同じく、時定数tが掛けられた上記トリガ信号を表す図であり、図13Bの(b)における時定数tより小さい時定数tが掛けられたトリガ信号を表している。図13Cの(c)は、図13Cの(b)が示す時定数tが掛けられたトリガ信号の値に応じて制御された空力音データを表す図である。
 上記の通り、所定タイミングは、扇風機FがOFFからONへ切替えられたタイミングであり、オブジェクトである扇風機Fに対応付けられたオブジェクト音データが出力される第1タイミングである。
 従って、ステップS50の処理により、扇風機FがOFFからONへ切替えられたタイミングで、受聴者Lは、ヘッドフォン200から出力された扇風機Fのモーター音を受聴することができる。さらに、ステップS60の処理により、受聴者Lがモーター音を受聴してから、扇風機FがOFFからONへ切替えられたことによる風Wが受聴者Lに到達する時間が経過したタイミングで、受聴者Lは、ヘッドフォン200から出力された空力音を受聴することができる。
 現実空間では、モーター音は、音速で受聴者Lに到達し受聴者Lに受聴され、空力音は、風Wが受聴者Lに到達したときに受聴者Lに受聴される。現実空間では音速は風速より早いことが一般的であり、本動作例においては、現実空間と同様に、受聴者Lは、先にモーター音を受聴し、その後空力音を受聴する。従って、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Lはモーター音(オブジェクトに対応付けられた音データが示す音)及び空力音を受聴することができるので、受聴者Lは違和感を覚えにくく、受聴者Lは臨場感をえることができる。
 なお、動作例1においては、所定タイミングとして、風速が変化したタイミングであり、かつ、オブジェクトである扇風機Fに対応付けられた音データ(オブジェクト音データ)を出力するタイミング(第1タイミング)が用いられたがこれに限られない。
 例えば、オブジェクト情報が、オブジェクト(扇風機F)の変化による風Wの向きの変化を示す場合がある。より具体的には、オブジェクト情報が、オブジェクト(扇風機F)の変化による風Wの変化として、風Wの向き(風向)の変化を示す場合である。この場合とは、例えば、第1変化情報が示すオブジェクトの状態の変化が「風向切替え」であり、第2変化情報が、風向が一定の状態から変化する状態に切替えられたことを示す場合である。
 この場合に、オブジェクト情報が含むタイミング情報は、所定タイミングが、風Wの向き(風向)の変化が起こった第3タイミングであることを示す。
 このように、扇風機Fの風向の変化が起こると、受聴者Lに到達する風Wの状態が変化するため、受聴者Lが受聴する空力音も変化する。このため、図11が示すステップS60において、出力部130は、オブジェクト情報が示す第3タイミング(所定タイミング)から所定時間後に、風Wによる空力音を示す空力音データを出力してもよい。
 さらに、所定タイミング及び所定時間は、動作例1に示されるものに限られない。所定タイミングがユーザ(例えば音響信号処理装置100の管理者)によって指定されたタイミング(指定タイミング)であり、所定時間が当該管理者によって指定された時間(所定時間)であってもよい。決定部120は、当該ユーザによって指定されたタイミング及び時間を所定タイミング及び所定時間として決定してもよい。例えば、音響信号処理装置100が受付部を備え、当該受付部は当該ユーザによって指定されたタイミング及び時間を受付け、決定部120が受付部によって受付けられたタイミング及び時間を、所定タイミング及び所定時間として決定してもよい。この場合、当該管理者は、現実空間と同様のタイミングで受聴者Lが空力音を受聴することができるように、指定タイミング及び時間を指定する。
 この場合においても、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Lは空力音を受聴することができるので、受聴者Lは違和感を覚えにくく、受聴者Lは臨場感を得ることができる。
 また、実施の形態の動作例1においては、空力音データは、予め記憶部140に記憶されていたがこれに限られない。例えば、決定部120が、空力音データを生成してもよい。例えば、決定部120は、雑音信号を取得して、取得された雑音信号を複数の帯域強調フィルタのそれぞれで処理することで、空力音データを生成してもよい。
 また、実施の形態の動作例1においては、決定部120は、第2変化情報が示す風速と、受聴者Lの位置とオブジェクト(扇風機F)の位置との距離に基づいて、所定時間を決定したが、これに限られない。例えば、オブジェクト情報は、当該オブジェクトの位置を示す第1位置情報を含み、決定部120は、空力音の受聴者Lの位置と、取得されたオブジェクト情報が含む第1位置情報が示すオブジェクトの位置との距離に基づいて、所定時間を決定してもよい。例えば基準となる距離に対応する所定時間が定められており、空力音の受聴者Lの位置とオブジェクトの位置との距離が基準となる距離より長いほど所定時間が長くなるように、空力音の受聴者Lの位置とオブジェクトの位置との距離が基準となる距離より短いほど所定時間が短くなるように、所定時間が決定されるとよい。
 (実施の形態の変形例)
 以下、実施の形態の変形例について説明する。以下では、実施の形態との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 [構成]
 変形例においては、実施の形態に係る音響信号処理装置100が用いられるが、仮想空間におけるオブジェクトが異なる。本変形例に係るオブジェクトは、移動体である車両である。より具体的には、オブジェクトは、救急車である。この場合、空力音は、オブジェクトの位置の移動により発生した風Wが受聴者Lに到達することによって生じる音である。また、オブジェクトである救急車は、音を発生させるオブジェクトであり、サイレン音を発生させる。
 本変形例に係るオブジェクト情報は、風Wを起こすオブジェクトの変化、当該オブジェクトの変化に関する所定タイミング、当該オブジェクトの変化による当該風Wの変化、及び、当該オブジェクトの位置を示す情報である。なお、実施の形態と同じく、オブジェクト情報は、風Wを起こすオブジェクトの変化を示す第1変化情報と、当該オブジェクトの変化に関する所定タイミングを示すタイミング情報と、当該オブジェクトの変化による当該風Wの変化を示す第2変化情報と、当該オブジェクトの位置を示す第1位置情報とを含む情報として取り扱う。
 第1変化情報は風Wを起こすオブジェクトの変化を示す情報であり、本変形例においては、当該オブジェクトの変化は、当該オブジェクトの位置の変化を意味する。
 第1位置情報は、仮想空間における救急車が、ある時点において、仮想空間内のどの位置にあるのかを示す情報である。なお、仮想空間においては、例えば運転手によって操作されることで、救急車が走行しその位置が移動する可能性がある。このため、取得部110は、継続的に第1位置情報を取得する。
 第2変化情報は、オブジェクトの変化による風Wの変化を示す情報である。本実施の形態においては、第1変化情報が示すオブジェクトの位置の変化に応じて、第2変化情報が示す情報の内容が変化する。
 例えば、第1変化情報がオブジェクトの位置が変化したことを示す場合に、第2変化情報はオブジェクトの移動により発生する風Wの、風速が第1所定値から第2所定値へ変化したこと又は風向が第1所定方向から第2所定方向へ変化したことを示す。なお、上記第1及び第2所定値は、例えば、救急車が配置された位置における風速であり、上記第1及び第2所定方向は、例えば、救急車が配置された位置における風向である。
 より具体的な例として、第1変化情報が、救急車が受聴者Lに近づきその後受聴者Lから離れたことを示す場合について説明する。この場合、救急車の移動により発する風Wは、救急車が受聴者Lに近づく間には受聴者Lに向かって強く吹き、救急車が受聴者Lから離れる間には受聴者Lに向かって弱く吹く。従って、当該風Wの風速は、救急車が受聴者Lに近づく間には受聴者Lに向かって高い値であり、救急車が受聴者Lから離れる間には受聴者Lに向かって低い値である。このように、当該風W(より具体的には当該風Wの風速)が変化している。
 なお、本変形例においては、オブジェクトである救急車が起こす風Wの風速は、当該救急車の移動速度と同じであるとみなす。救急車の移動速度は、第1位置情報に基づいて、仮想空間において救急車の位置を時間で微分することにより算出される。
 続いて、タイミング情報について説明する。
 タイミング情報は、オブジェクトの変化に関する所定タイミングを示す情報である。タイミング情報が示す所定タイミングは、風Wの変化のタイミングであり、より具体的には、オブジェクトの位置の変化による風Wの変化のタイミングである。例えば、所定タイミングは、オブジェクトの位置の変化により風速が変化したタイミングであり、一例として、救急車が受聴者Lに近づきその後受聴者Lから離れたタイミングである。この場合、所定タイミングは、時間の経過に伴う、仮想空間における受聴者Lの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミングである。換言すると、この所定タイミングは、仮想空間においてオブジェクトが受聴者Lに最も近づいたタイミングである。また例えば、所定タイミングは、オブジェクトの位置の変化により風向が変化したタイミングであってもよい。
 以下、音響信号処理装置100によって行われる音響信号処理方法の動作例2について説明する。
 [動作例2]
 図14は、本実施の形態に係る音響信号処理装置100の動作例2のフローチャートである。図15は、動作例2に係るオブジェクトである救急車Aと受聴者Lとを示す図である。
 図14が示すように、はじめに、取得部110は、オブジェクト情報を取得する(S10)。上記の通り、オブジェクト情報は、風Wを起こすオブジェクトの変化を示す第1変化情報と、当該オブジェクトの変化に関する所定タイミングを示すタイミング情報と、当該オブジェクトの変化による当該風Wの変化を示す第2変化情報と、当該オブジェクトの位置を示す第1位置情報とを含む。また、オブジェクト情報は、サイレン音を示すオブジェクト音データと、形状情報とを含む。
 ここでは、第2変化情報は、オブジェクトの変化による風Wの変化として、風Wの風速の変化を示す。また、タイミング情報が示す所定タイミングは、風Wの変化のタイミングであり、より具体的には、オブジェクトの変化による風Wの変化のタイミングである。
 続いて、取得部110は、仮想空間における受聴者Lの位置を示す第2位置情報をヘッドフォン200から取得する(S20)。さらに、取得部110は、記憶部140に記憶されている空力音を示す空力音データを取得する(S30)。
 さらに、出力部130は、所定タイミングになったか否かを判断する(S35)。所定タイミングになっていない場合(ステップS35でNo)に、ステップS35の処理が繰り返される。
 所定タイミングになっている場合(ステップS35でYes)、決定部120は、第2変化情報が示す風速と、受聴者Lの位置とオブジェクト(救急車A)の位置との距離に基づいて、所定時間を決定する(S40)。
 そして、出力部130は、所定タイミングから所定時間後に、風Wによる空力音を示す空力音データを出力する(S60)。
 さらに本動作例に係る所定タイミングとステップS35の処理とについてより詳細に説明する。
 本動作例においては、所定タイミングは、風Wの変化のタイミングである。より具体的には、所定タイミングは、オブジェクトの位置の変化により風速が変化したタイミングであり、時間の経過に伴う、仮想空間における受聴者Lの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミングである。
 図16は、動作例2に係る所定タイミングを説明するための模式図である。
 救急車Aは、図16が示す(a)、(b)及び(c)の順に移動する。また、救急車Aが(a)~(c)まで移動する間、受聴者Lの位置は一定であるとする。救急車Aが(a)から(b)へ移動する間は、仮想空間における受聴者Lの位置とオブジェクトの位置との距離の変化量は、負である。救急車Aが(b)から(c)へ移動する間は、仮想空間における受聴者Lの位置とオブジェクトの位置との距離の変化量は、正である。従って、当該距離の変化量が負から正に転じたタイミングは、図16が示す(b)の位置に救急車Aが居るタイミングである。
 従って、ステップS35では、以下図17で示される処理が行われる。図17は、動作例2に係るステップS35の詳細を説明するフローチャートである。
 ステップS30の処理が行われた後、決定部120は、仮想空間における受聴者Lの位置とオブジェクト(救急車A)の位置との距離の変化量が負から正に転じたタイミング(所定タイミング)になったか否かを判断する(S35a)。なお、決定部120は、受聴者Lの位置とオブジェクト(救急車A)の位置との距離を算出し、算出された距離を微分することで、距離の変化量を算出する。ステップS35aでYesの場合にステップS40の処理が行われ、ステップS35aでNoの場合にステップS35の処理が繰り返される。
 さらに、本動作例に係る所定時間についてより詳細に説明する。
 現実空間では、受聴者Lの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミングから、救急車Aが起こす風Wが受聴者Lに到達する時間が経過したタイミングで、受聴者Lは空力音を受聴する。なお上記の通り、当該距離の変化量が負から正に転じたタイミングは、オブジェクトが受聴者Lに最も近づいたタイミングであり、所定タイミングである。従って、決定部120は、所定タイミングから、救急車Aが起こす風Wが受聴者Lに到達するまでの時間を、所定時間として決定するとよい。
 本動作例においては、動作例1で説明した図13Aと同じ思想で所定時間が決定される。すなわち、図15が示すように受聴者Lの位置とオブジェクト(救急車A)の位置との距離をDとし、より具体的には、図16が示す(b)の位置の救急車Aの位置と受聴者Lの位置との距離をDとする。
 オブジェクトである救急車Aが発生させる風Wの風速がSoとなるオブジェクト(救急車A)の位置からの距離をUとする。また、救急車Aから受聴者Lに向かう方向をx軸方向とし、救急車Aからx軸方向への距離をxとする。風Wの風速Vは距離xに反比例するため、風速Vと距離xとは、以下の式を満たす。
 V = So×(U/x)
 距離Dの位置までの平均風速は、以下の式を満たす。
Figure JPOXMLDOC01-appb-M000002
 受聴者Lの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミング(つまりは所定タイミング)から、オブジェクトである救急車Aが起こす風Wが受聴者Lに到達するまでの時間(所定時間)であるtは、距離を平均風速で割った値であり、下記式を満たす。
 t = {(D-U)^2}/{So×U×(log(D)-log(U))
 そして、上記の通り、ステップS60では所定タイミングから、所定時間tが経過したタイミングで、空力音データが出力される。
 これにより、受聴者Lの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミング(つまりは所定タイミング)から、救急車Aが起こす風Wが受聴者Lに到達する時間(所定時間t)が経過したタイミングで、受聴者Lは、ヘッドフォン200から出力された空力音を受聴することができる。従って、現実空間と同様のタイミングでつまりは適切なタイミングで、受聴者Lは空力音を受聴することができるので、受聴者Lは違和感を覚えにくく、受聴者Lは臨場感を得ることができる。
 さらに説明すると以下の通りである。現実空間においては、救急車Aなどの車両が受聴者Lに最も近づいた後に、受聴者Lが空力音を受聴する。このため、仮想空間において、救急車Aが受聴者Lに最も近づく前に、受聴者Lが空力音を受聴すると、受聴者Lは違和感を覚えてしまう。動作例2では、受聴者Lの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミング(つまりは、オブジェクトが受聴者Lに最も近づいたタイミング)を所定タイミングとする。これにより、オブジェクトである救急車Aなどの車両が受聴者Lに最も近づいた後に、受聴者Lが空力音を受聴することができ、つまりは適切なタイミングで、受聴者Lは空力音を受聴することができるので、受聴者Lは違和感を覚えにくく、受聴者Lは臨場感を得ることができる。
 なお、救急車Aは、音を発生させるオブジェクトであり、サイレン音を発生させる。図16が示すように、救急車Aの位置が変化する、つまりは救急車Aが移動する場合には、受聴者Lがドップラー効果を伴ったサイレン音を受聴するように、出力部130は、サイレン音を示すオブジェクト音信号を出力するとよい。
 なお上記動作例2においては、所定タイミングは、受聴者Lの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミングであったがこれに限らない。例えば、動作例2の他の第1例においては、所定タイミングは、受聴者Lの位置とオブジェクトの位置との距離が所定距離よりも短くなったタイミング(第2タイミング)であってもよい。所定距離とは、例えば数m~数十mとであり、受聴者Lの位置とオブジェクトの位置との距離が十分に近づいたことを示す距離である。所定距離は、例えば音響信号処理装置100の管理者によって指定された値であってもよい。
 この場合、ステップS35では、以下図18で示される処理が行われる。図18は、動作例2の他の第1例に係るステップS35の詳細を説明するフローチャートである。
 ステップS30の処理が行われた後、決定部120は、仮想空間における受聴者Lの位置とオブジェクト(救急車A)の位置との距離が所定距離よりも短くなったタイミング(第2タイミング)になったか否かを判断する(S35b)。上記の通り、ステップS35bでYesの場合にステップS40の処理が行われ、ステップS35bでNoの場合にステップS35の処理が繰り返される。
 このように、動作例2の他の第1例においても、受聴者Lの位置とオブジェクト(救急車A)の位置との距離が十分に近づいた第2タイミングから、救急車Aが起こす風Wが受聴者Lに到達する時間が経過したタイミングで、受聴者Lは、ヘッドフォン200から出力された空力音を受聴することができる。
 さらに、動作例2の他の第2例について説明する。動作例2の他の第2例では、ステップS35において、図17及び図18が示すステップS35a及びS35bの両方の処理が行われる。ステップS35a及びS35bの両方でYesであれば、ステップS40の処理が行われ、ステップS35a及びS35bうち少なくとも一方がNoであれば、ステップS35の処理が繰り返される。このような動作例2の他の第2例で示される処理が行われてもよい。
 続いて、パイプライン処理について説明する。
 上述の音響信号処理装置100で行われる処理の一部又は全ては、例えば特許文献2で説明されているようなパイプライン処理の一部として行われてもよい。図19は、図6及び図7のレンダリング部A0203及びA0213がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。図19での説明においては、図6及び図7のレンダリング部A0203及びA0213の一例であるレンダリング部900を用いて説明する。
 パイプライン処理とは、音響効果を付与するための処理を複数の処理に分割し、各処理を1つずつ順番に実行することを指す。分割された処理のそれぞれでは、例えば、音声信号に対する信号処理、又は信号処理に用いるパラメータの生成などが実行される。
 本実施の形態におけるレンダリング部900は、パイプライン処理として、例えば残響効果、初期反射処理、距離減衰効果、バイノーラル処理などを施す処理を含む。ただし、上記の処理は一例であり、それ以外の処理を含んでいてもよいし、一部の処理を含んでいなくてもよい。例えば、レンダリング部900がパイプライン処理として、回折処理又はオクルージョン処理を含んでいてもよいし、例えば残響処理が不要な場合は省略されてもよい。また、それぞれの処理をステージと表現し、それぞれの処理の結果生成される反射音などの音声信号をレンダリングアイテムと表現してもよい。パイプライン処理における各ステージの順番と、パイプライン処理に含まれるステージとは図19に示した例に限られない。
 なお、図19で示すすべてのステージがレンダリング部900に備わっていなくてもよく、一部のステージが省略されたり、レンダリング部900以外に他のステージが存在したりしてもよい。
 パイプライン処理の一例として、残響処理、初期反射処理、距離減衰処理、選択処理、生成処理、バイノーラル処理のそれぞれで行われる処理について説明する。それぞれの処理では入力信号に含まれるメタデータを解析して、反射音の生成に必要なパラメータを算出する。
 なお、図19においては、レンダリング部900は、残響処理部901、初期反射処理部902、距離減衰処理部903、選択部904、算出部906、生成部907及びバイノーラル処理部905を備える。ここでは、残響処理部901が残響処理ステップを、初期反射処理部902が初期反射処理ステップを、距離減衰処理部903が距離減衰処理ステップを、選択部904が選択処理ステップを、バイノーラル処理部905がバイノーラル処理ステップを行う例について説明する。
 残響処理ステップでは、残響処理部901が残響音を示す音声信号又は音声信号の生成に必要なパラメータを生成する。残響音とは、直接音の後に残響としてリスナに到達する残響音を含む音である。一例として、残響音は、後述する初期反射音がリスナへ到達した後の比較的後期(例えば、直接音の到達時から百数十ms程度)の段階で、初期反射音よりも多くの回数(例えば、数十回)の反射を経てリスナへ到達する残響音である。残響処理部901は、入力信号に含まれる音声信号及び空間情報を参照し、事前に準備してある残響音を生成するための所定の関数を用いて計算する。
 残響処理部901は、当該音信号に、公知の残響生成方法を適用して、残響を生成してもよい。公知の残響生成方法とは、一例として、シュレーダー法であるが、これに限られない。また、残響処理部901は、公知の残響生成処理を適用する際に、空間情報が示す音再生空間の形状及び音響特性を用いる。これにより、残響処理部901は、残響を示す音声信号を生成するためのパラメータを算出することができる。
 初期反射処理ステップでは、初期反射処理部902が、空間情報に基づいて、初期反射音を生成するためのパラメータを算出する。初期反射音は、音源オブジェクトから直接音がリスナへ到達した後の比較的初期(例えば、直接音の到達時から数十ms程度)の段階で、1回以上の反射を経てリスナへ到達する反射音である。初期反射処理部902は、例えば音信号及びメタデータを参照し、三次元音場(空間)の形状、大きさ、構造物などのオブジェクトの位置、及びオブジェクトの反射率などを用いて、音源オブジェクトからオブジェクトで反射してリスナに到達する反射音の経路(経路の長さ)を計算する。また、初期反射処理部902が直接音の経路(経路の長さ)も算出してもよい。当該経路を示す情報が初期反射音を生成するためのパラメータとして用いられるとともに、選択部904における反射音の選択処理のためのパラメータとして用いられてもよい。
 距離減衰処理ステップでは、距離減衰処理部903が、初期反射処理部902が算出した直接音の経路の長さと反射音の経路の長さとの差に基づいて、リスナに到達する音量を算出する。リスナに到達する音量は、音源の音量に対して、リスナまでの距離に比例して減衰(距離に反比例)するので、直接音の音量は、音源の音量を直接音の経路の長さで除して得ることができ、反射音の音量は、音源の音量を反射音の経路の長さで除して算出することができる。
 選択処理ステップでは、選択部904が、生成する音を選択する。それ以前のステップで算出されたパラメータに基づいて、選択処理が実行されてもよい。
 選択処理がパイプライン処理の一部で実行される場合、選択処理において選択されなかった音については、パイプライン処理における選択処理以降の処理を実行する対象としなくてもよい。選択されなかった音について選択処理以降の処理を実行しないことで、選択されなかった音についてバイノーラル処理のみを実行しないことを決定する場合よりも、音響信号処理装置100の演算負荷を低減することが可能になる。
 また、本実施の形態で説明した選択処理がパイプライン処理の一部で実行される場合、選択処理の順番が、パイプライン処理における複数の処理の順番のうちより早い順番で実行されるように設定すると、より多くの選択処理以降の処理を省略できるため、より多くの演算量を削減することができる。例えば算出部906及び生成部907が処理より前の順番で選択処理が実行されると、選択しないことが決定されたオブジェクトに係る空力音についての処理を省略することができ、より音響信号処理装置100における演算量を削減することが出来る。
 また、レンダリングアイテムを生成するパイプライン処理の一部で算出されたパラメータが、選択部904又は算出部906で用いられてもよい。
 バイノーラル処理ステップでは、バイノーラル処理部905が、直接音の音声信号に対して音源オブジェクトの方向からリスナに到達する音として知覚されるように、信号処理を実行する。さらにバイノーラル処理部905は、反射音が反射に関わる障害物オブジェクトからリスナに到達する音として知覚されるように、信号処理を実行する。音空間におけるリスナの座標及び向き(つまり、受聴点の位置及び向き)に基づいて、音源オブジェクトの位置又は障害物オブジェクトの位置から音がリスナに到達するように、HRIR(Head―Related Impulse Responses) DB(Data base)を適用する処理を実行する。なお、受聴点は、例えば、リスナの頭部の動きに合わせてその位置及び方向が変化されてもよい。また、リスナの位置を示す情報がセンサから取得されてもよい。
 パイプライン処理及びバイノーラル処理に用いるプログラム、音響処理に必要な空間情報、HRIR DB、及び、閾値データなどその他のパラメータは、音響信号処理装置100に備わるメモリ又は外部から取得する。HRIR(Head―Related Impulse Responses)とは、1個のインパルスを発生させたときの応答特性である。言い換えれば、HRIRとは、耳殻、人頭及び肩まで含めた周辺物によって生じる音の変化を伝達関数として表現した頭部伝達関数をフーリエ変換することで、周波数領域における表現から時間領域における表現に変換された応答特性である。HRIR DBは、このような情報を含むデータベースである。
 また、パイプライン処理の一例として、レンダリング部900は図示していない処理部を含んでいてもよい。例えば、回折処理部又はオクルージョン処理部を含んでいてもよい。
 回折処理部は、三次元音場(空間)におけるリスナと音源オブジェクトとの間にある障害物に起因する回折音を含む音を示す音声信号を生成する処理を実行する。回折音は、音源オブジェクトとリスナとの間に障害物がある場合に、当該障害物を回り込むようにして音源オブジェクトからリスナへ到達する音である。
 回折処理部は、例えば音信号及びメタデータを参照し、三次元音場(空間)における音源オブジェクトの位置、リスナの位置、並びに障害物の位置、形状、及び大きさなどを用いて、音源オブジェクトから障害物を迂回してリスナへと到達する経路を計算し、当該経路に基づいて回折音を生成する。
 オクルージョン処理部は、いずれかのステップで取得した空間情報及び障害物オブジェクトの材質などの情報に基づいて、障害物オブジェクトの向こう側に音源オブジェクトがある場合に漏れ聞こえる音声信号を生成する。
 なお、上記実施の形態では、音源オブジェクトに付与する位置情報は、仮想空間内における「点」として定義したものであり、所謂「点音源」であるとして発明の詳細を説明した。一方で、仮想空間における音源を定義する方法として、長さ、大きさ又は形状などを有する物体として、点音源でない、空間的に拡張された音源を定義する場合もある。そのような場合は、リスナと音源との距離又は音の到来方向が確定しないので、それに起因する反射音は解析が行われるまでもなく、或いは解析結果の如何にかかわらず、上記選択部904で「選択する」方の処理に限定してもよい。そうすることによって、反射音を選択しないことによって生じるかもしれない音質の劣化を避けることができるからである。又は、当該物体の重心など代表点が定められて、その代表点から音が発生しているとして本開示の処理を適用してもよいが、その場合は、音源の空間的な拡張の情報に応じて閾値を調整した上で本開示の処理を適用してもよい。
 続いて、ビットストリームの構造例について説明する。
 ビットストリームには、例えば、音声信号と、メタデータと、が含まれる。音声信号は、音の周波数及び強弱に関する情報などを示す、音が表現された音データである。メタデータに含まれる空間情報は、音声信号に基づく音を聞くリスナが位置する空間に関する情報である。具体的には、空間情報は、当該音の音像を、音空間(例えば、三次元音場内)における所定の位置に定位させる際の、つまり、リスナに所定方向から到達する音として知覚させる際の当該所定の位置(定位位置)に関する情報である。空間情報には、例えば、音源オブジェクト情報と、リスナの位置を示す位置情報とが含まれる。
 音源オブジェクト情報は、音声信号に基づく音を発生させる、つまり、音声信号を再生する物体を示すオブジェクトの情報であって、当該物体が配置される実空間に対応する仮想的な空間である音空間に配置される仮想的なオブジェクト(音源オブジェクト)に関する情報である。音源オブジェクト情報は、例えば、音空間に配置される音源オブジェクトの位置を示す情報、音源オブジェクトの向きに関する情報、音源オブジェクトが発する音の指向性に関する情報、音源オブジェクトが生物に属するか否かを示す情報、及び、音源オブジェクトが動体であるか否かを示す情報などを含む。例えば、音声信号は、音源オブジェクト情報が示す1以上の音源オブジェクトに対応している。
 ビットストリームのデータ構造の一例として、ビットストリームは、例えばメタデータ(制御情報)と音声信号とで構成される。
 音声信号とメタデータとは一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に音声信号とメタデータとは一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。
 ビットストリームは音源ごとに存在してもよいし、再生時間ごとに存在してもよい。再生時間ごとにビットストリームが存在する場合、同時に複数のビットストリームが並列で処理されてもよい。
 メタデータは、ビットストリームごとに付与されてもよく、複数のビットストリームを制御する情報としてまとめて付与されてもよい。また、メタデータは、再生時間ごとに付与されてもよい。
 音声信号とメタデータとは、複数のビットストリーム又は複数のファイルに別々に格納されている場合、音声信号とメタデータとは、一つ又は一部のビットストリーム又はファイルに関連する他のビットストリーム又はファイルを示す情報に含まれていてもよいし、音声信号とメタデータとは、全てのビットストリーム又はファイルのそれぞれに関連する他のビットストリーム又はファイルを示す情報に含まれていてもよい。ここで、関連するビットストリーム又はファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連するビットストリーム又はファイルには、関連する他のビットストリーム又はファイルを示す情報をまとめて記述したビットストリーム又はファイルが含まれていてもよい。ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、URL(Uniform Resource Locator)又はURI(Uniform Resource Identifier)などである。この場合、取得部110は、関連する他のビットストリーム又はファイルを示す情報に基づいてビットストリーム又はファイルを特定又は取得する。また、ビットストリーム内に関連する他のビットストリームを示す情報が含まれていると共に、ビットストリーム内に別のビットストリーム又はファイルに関連するビットストリーム又はファイルを示す情報を含めていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイルなどの制御ファイルであってもよい。
 なお、全てのメタデータ又は一部のメタデータは音声信号のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。また、映像を制御するメタデータが音声信号再生システムで取得されるビットストリームに含まれる場合は、音声信号再生システムは映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。
 さらに、メタデータに含まれる情報の例について説明する。
 メタデータは、音空間で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、音声信号再生システムでモデリングされる、音空間における三次元映像及び音響イベントを表すすべての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。勿論、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。
 音声信号再生システムは、ビットストリームに含まれるメタデータ及び、追加で取得されるインタラクティブなリスナの位置情報などを用いて、音声信号に音響処理を行うことで、仮想的な音響効果を生成する。ここでは、音響効果のうち、初期反射処理と、障害物処理と、回折処理と、遮断処理と、残響処理とを行う場合を説明するが、メタデータを用いてほかの音響処理を行ってもよい。例えば、音声信号再生システムは、距離減衰効果、ローカリゼーション、ドップラー効果などの音響効果を付加することが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報、優先度情報をメタデータとして付加してもよい。
 また、一例として、符号化されたメタデータは、音源オブジェクト及び障害物オブジェクトを含む音空間に関する情報と、当該音の音像を音空間内において所定位置に定位させる(つまり、所定方向から到達する音として知覚させる)際の定位位置に関する情報とを含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がリスナへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、リスナが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人などの動物、又は機械などの動体を含み得る。また、音空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。建材又は無生物などの音を発しないオブジェクトである非発音オブジェクトも、音を発する音源オブジェクトも障害物オブジェクトとなり得る。
 メタデータには、音空間の形状、音空間に存在する障害物オブジェクトの形状情報及び位置情報、音空間に存在する音源オブジェクトの形状情報及び位置情報、並びに音空間におけるリスナの位置及び向きをそれぞれ表す情報のすべて又は一部が含まれる。
 音空間は、閉空間又は開空間のいずれであってもよい。また、メタデータには、例えば床、壁、又は天井などの音空間において音を反射し得る構造物の反射率、及び音空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。勿論、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。音空間が開空間の場合は、例えば一律で設定された減衰率、回折音、初期反射音などのパラメータが用いられてもよい。
 上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして、反射率を挙げたが反射率以外の情報を含んでいてもよい。例えば、反射率以外の情報は、音源オブジェクト及び非発音オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、反射率以外の情報は、拡散率、透過率、吸音率などのパラメータを含んでいてもよい。
 音源オブジェクトに関する情報として、音量、放射特性(指向性)、再生条件、ひとつのオブジェクトから発せられる音源の数及び種類、並びに、オブジェクトにおける音源領域を指定する情報などを含めてもよい。再生条件では例えば、継続的に流れ続ける音なのかイベントで発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、リスナの位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。オブジェクトにおける音源領域がリスナの位置とオブジェクトの位置との相対的な関係で定められる場合、リスナが見ているオブジェクトの面を基準とし、リスナから見てオブジェクトの右側からは音C、左側からは音Eが発せられているようにリスナに知覚させることができる。オブジェクトにおける音源領域がオブジェクトを基準として定められる場合、リスナの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにリスナに知覚させることができる。この場合、リスナがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにリスナに知覚させることができる。
 空間に関するメタデータとして、初期反射音までの時間、残響時間、直接音と拡散音との比率などを含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをリスナに知覚させることができる。
 (効果など)
 実施の形態に係る音響信号処理方法は、風Wを起こすオブジェクトの変化、及び、オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得ステップと、取得されたオブジェクト情報が示す所定タイミングから、オブジェクトの変化に基づく所定時間後に風Wによる空力音を示す空力音データを出力する出力ステップと、を含む。
 これにより、所定タイミングから所定時間が経過したタイミングで、空力音データを出力することができる。このため、受聴者Lは適切なタイミングで空力音を受聴することができるので、受聴者Lは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Lに臨場感を与えることができる音響信号処理方法が実現される。
 例えば、動作例1が示すように、所定タイミングは、例えば、風Wの変化のタイミングであり、また所定時間は、例えば、扇風機Fが起こす風Wが受聴者Lに到達する時間である。
 例えば、動作例2が示すように、所定タイミングは、例えば、風Wの変化のタイミングであり、また所定時間は、例えば、救急車Aが起こす風Wが受聴者Lに到達する時間である。
 動作例1及び2が示す場合においては、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Lは空力音を受聴することができるので、受聴者Lは違和感を覚えにくく、受聴者Lは臨場感を得ることができる。このように、実施の形態に係る音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 また例えば、所定タイミングがユーザに指定されたタイミング(指定タイミング)であり、当該ユーザによって指定された時間が所定時間であってもよい。この場合、当該ユーザは、現実空間と同様のタイミングで受聴者Lが空力音を受聴することができるように、指定タイミング及び時間を指定し、指定された指定タイミング及び時間を、所定タイミング及び所定時間としてもよい。この場合においても、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Lは空力音を受聴することができるので、受聴者Lは違和感を覚えにくく、受聴者Lは臨場感を得ることができる。
 また、実施の形態に係る音響信号処理方法は、オブジェクト情報は、オブジェクトの変化による風Wの変化と、所定タイミングが、風Wの変化のタイミングであることとを示す。音響信号処理方法は、取得されたオブジェクト情報が示す風Wに基づいて、所定時間を決定する決定ステップを含む。
 これにより、風Wが変化したタイミングから、当該風Wに基づいて決定された所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Lは、より適切なタイミングで空力音を受聴することができる。
 また、実施の形態に係る音響信号処理方法は、オブジェクト情報が示す風Wの変化は、風Wの風速の変化を示し、決定ステップでは、風速に基づいて、所定時間を決定する。
 これにより、風速に基づいて所定時間が決定されるため、受聴者Lは、より適切なタイミングで空力音を受聴することができる。
 また、実施の形態に係る音響信号処理方法は、空力音は、変化後の風速で生じる音である。
 これにより、仮想空間で受聴者Lが受聴する空力音を、現実空間で受聴者Lが受聴する空力音により近い音とすることができる。
 また、実施の形態に係る音響信号処理方法は、オブジェクト情報は、オブジェクトの位置を示す。音響信号処理方法は、空力音の受聴者Lの位置と、取得されたオブジェクト情報が示すオブジェクトの位置との距離に基づいて、所定時間を決定する決定ステップを含む。
 これにより、当該距離に基づいて所定時間が決定されるため、受聴者Lは、より適切なタイミングで空力音を受聴することができる。
 また、実施の形態に係る音響信号処理方法は、オブジェクト情報は、オブジェクトの位置を示す。決定ステップでは、風速、及び、空力音の受聴者Lの位置と、取得されたオブジェクト情報が示すオブジェクトの位置との距離に基づいて、所定時間を決定する。
 これにより、風速と当該距離とに基づいて所定時間が決定されるため、受聴者Lは、より適切なタイミングで空力音を受聴することができる。
 また、実施の形態に係る音響信号処理方法は、オブジェクト情報は、所定タイミングが、オブジェクトに対応付けられた音データを出力する第1タイミングであることを示す。出力ステップでは、取得されたオブジェクト情報が示す第1タイミングから所定時間後に空力音データを出力する。
 これにより、例えばオブジェクトが音を発生させる場合に、当該音が出力された第1タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Lは、より適切なタイミングで空力音を受聴することができる。
 例えば、動作例1が示すように、オブジェクトが扇風機Fでありモーター音を発生させる場合に、所定タイミングは、例えば、扇風機FがOFFからONへ切替えられたタイミングである。この所定タイミングから、扇風機Fが起こす風Wが受聴者Lに到達する時間(所定時間)が経過したタイミングで、受聴者Lは、ヘッドフォン200から出力された空力音を受聴することができる。従って、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Lは空力音を受聴することができるので、受聴者Lは違和感を覚えにくく、受聴者Lは臨場感を得ることができる。このように、実施の形態に係る音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 また、実施の形態の変形例に係る音響信号処理方法は、オブジェクト情報は、オブジェクトの位置と、所定タイミングが、空力音の受聴者Lの位置とオブジェクトの位置との距離が所定距離より短くなる第2タイミングであることとを示す。出力ステップでは、取得されたオブジェクト情報が示す第2タイミングから所定時間後に空力音データを出力する。
 これにより、当該距離が所定距離より短くなった第2タイミング、つまりは、オブジェクトが受聴者Lに近づいた第2タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Lは、より適切なタイミングで空力音を受聴することができる。
 例えば、動作例2が示すように、所定タイミングは、例えば、受聴者Lの位置とオブジェクトの位置との距離の変化量が負から正に転じたタイミングである。この所定タイミングから、救急車Aが起こす風Wが受聴者Lに到達する時間(所定時間)が経過したタイミングで、受聴者Lは、ヘッドフォン200から出力された空力音を受聴することができる。従って、現実空間と同様のタイミングでつまりは適切なタイミングで、受聴者Lは空力音を受聴することができるので、受聴者Lは違和感を覚えにくく、受聴者Lは臨場感を得ることができる。このように、実施の形態の変形例に係る音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 また、実施の形態に係る音響信号処理方法は、オブジェクト情報は、オブジェクトの変化による風Wの変化が風Wの向きの変化であることと、所定タイミングが、風Wの向きの変化が起こった第3タイミングであることとを示す。出力ステップでは、取得されたオブジェクト情報が示す第3タイミングから所定時間後に空力音データを出力する。
 これにより、風Wの向きの変化が起こった第3タイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Lは、より適切なタイミングで空力音を受聴することができる。
 また、実施の形態に係る音響信号処理方法は、オブジェクトは、オブジェクトに対応付けられた音データが示す音及び風Wを発生させるオブジェクトであり、空力音は、オブジェクトが発生させた風Wが受聴者Lに到達することによって生じる空力音である。
 これにより、音及び風Wを発生させる扇風機Fなどをオブジェクトとすることができ、当該オブジェクトから吹出された風Wによる空力音を実現することができる。
 また、実施の形態に係る音響信号処理方法は、距離をDとし、風速がSoとなるオブジェクトの位置からの距離をUとする。所定時間をtとした場合、tは、下記式を満たす。
 t={(D-U)^2}/{So×U×(log(D)-log(U))
 これにより、決定ステップでは、所定タイミングからオブジェクトが発生させた風Wが受聴者Lに到達するまでの時間を所定時間として決定することができる。よって、所定タイミングからこのような所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Lは、より適切なタイミングで空力音を受聴することができる。
 例えば、動作例1が示すように、決定ステップでは、扇風機Fが起こす風Wが受聴者Lに到達する時間を所定時間として決定することができる。このため、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Lは空力音を受聴することができるので、受聴者Lは違和感を覚えにくく、受聴者Lは臨場感を得ることができる。このように、実施の形態に係る音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 また、実施の形態の変形例に係る音響信号処理方法は、オブジェクトは、オブジェクトの位置の移動により風Wを発生させるオブジェクトであり、空力音は、移動により発生した風Wが受聴者Lに到達することによって生じる空力音である。
 これにより、移動により風Wを発生させる車両などをオブジェクトとすることができ、当該移動により発生した風Wによる空力音を実現することができる。
 また、実施の形態の変形例に係る音響信号処理方法は、オブジェクト情報が示す所定タイミングは、時間の経過に伴う距離の変化量が負から正に転じたタイミングである。
 これにより、受聴者Lの位置とオブジェクトの位置との距離が最も近くなるタイミングから所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Lは、より適切なタイミングで空力音を受聴することができる。
 また、実施の形態の変形例に係る音響信号処理方法は、距離をDとし、移動により発生した風Wの風速がSoとなるオブジェクトの位置からの距離をUとする。所定時間をtとした場合、tは、下記式を満たす。
 t={(D-U)^2}/{So×U×(log(D)-log(U))
 これにより、決定ステップでは、所定タイミングからオブジェクトが発生させた風Wが受聴者Lに到達するまでの時間を所定時間として決定することができる。よって、所定タイミングからこのような所定時間が経過したタイミングで、空力音データを出力することができるため、受聴者Lは、より適切なタイミングで空力音を受聴することができる。
 例えば、動作例2が示すように、決定ステップでは、救急車Aが起こす風Wが受聴者Lに到達する時間を所定時間として決定することができる。このため、現実空間と同様のタイミングつまりは適切なタイミングで、受聴者Lは空力音を受聴することができるので、受聴者Lは違和感を覚えにくく、受聴者Lは臨場感を得ることができる。このように、実施の形態に係る音響信号処理方法は、受聴者Lに臨場感を与えることができる。
 また、実施の形態に係るコンピュータプログラムは、上記記載の音響信号処理方法をコンピュータに実行させるためのコンピュータプログラムである。
 これにより、コンピュータが、コンピュータプログラムに従って、上記の音響信号処理方法を実行することができる。
 また、実施の形態に係る音響信号処理装置100は、風Wを起こすオブジェクトの変化、及び、オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得部110と、取得されたオブジェクト情報が示す所定タイミングから、オブジェクトの変化に基づく所定時間後に風Wによる空力音を示す空力音データを出力する出力部130と、を備える。
 これにより、所定タイミングから所定時間が経過したタイミングで、空力音データを出力することができる。このため、受聴者Lは適切なタイミングで空力音を受聴することができるので、受聴者Lは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Lに臨場感を与えることができる音響信号処理装置100が実現される。
 (その他の実施の形態)
 以上、本開示の態様に係る音響信号処理方法及び音響信号処理装置について、実施の形態及び変形例に基づいて説明したが、本開示は、この実施の形態及び変形例に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態及び変形例に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。
 上記実施の形態では、オブジェクトが扇風機Fである例を示したがこれに限られない。ここでは、風Wを起こすオブジェクトを例示する。
 風Wを起こすオブジェクトは、例えば、窓又は扉などの風Wが吹き込むオブジェクトであってもよい。仮想空間において、受聴者Lが建物の中に居りかつ当該建物の外では風Wが吹いている例では、窓又は扉が開くことによって風Wが建物の中に吹き込み、これにより、受聴者Lは、空力音を受聴する。この例では、窓又は扉が開いたタイミングが所定タイミングに相当し、窓又は扉の位置で風Wが発生する、として、本開示の技術を適用することができる。
 風Wを起こすオブジェクトは、例えば、風穴又は排気孔などの風Wが吹き出すオブジェクトであってもよい。風穴又は排気孔から吹き出す風Wにおいては、風Wが発生する位置を正確に定義することは仮想空間においては意味がなく、風穴又は排気孔の出口の位置で風Wが発生する、として、本開示の技術を適用することができる。この場合には、所定タイミングは、仮想空間の管理者又は音響信号処理装置100の管理者が決定することができる。例えば、音響信号処理装置100が備える受付部は、当該管理者によって指定されたタイミングを受付け、決定部120が受付部によって受付けられたタイミングを、所定タイミングとして決定してもよい。
 また、以下に示す形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。
 (1)上記の音響信号処理装置を構成する構成要素の一部は、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムであってもよい。前記RAM又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
 (2)上記の音響信号処理装置を構成する構成要素の一部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
 (3)上記の音響信号処理装置を構成する構成要素の一部は、各装置に脱着可能なICカード又は単体のモジュールから構成されているとしてもよい。前記ICカード又は前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカード又は前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカード又は前記モジュールは、その機能を達成する。このICカード又はこのモジュールは、耐タンパ性を有するとしてもよい。
 (4)また、上記の音響信号処理装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。
 また、上記の音響信号処理装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送などを経由して伝送するものとしてもよい。
 (5)本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
 (6)また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
 (7)また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワークなどを経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
 本開示は、音響信号処理方法及び音響信号処理装置に利用可能であり、特に、音響システムなどに適用可能である。
100 音響信号処理装置
110 取得部
120 決定部
130 出力部
140 記憶部
200 ヘッドフォン
201 頭部センサ部
202 出力部
300 表示部
900 レンダリング部
901 残響処理部
902 初期反射処理部
903 距離減衰処理部
904 選択部
905 バイノーラル処理部
906 算出部
907 生成部
A 救急車
A0000 立体音響再生システム
A0001 音響信号処理装置
A0002 音声提示装置
A0100 符号化装置
A0101 入力データ
A0102 エンコーダ
A0103 符号化データ
A0104 メモリ
A0110 復号装置
A0111 音声信号
A0112 デコーダ
A0113 入力データ
A0114 メモリ
A0120 符号化装置
A0121 送信部
A0122 送信信号
A0130 復号装置
A0131 受信部
A0132 受信信号
A0200 デコーダ
A0201 空間情報管理部
A0202 音声データデコーダ
A0203 レンダリング部
A0210 デコーダ
A0211 空間情報管理部
A0213 レンダリング部
F 扇風機
L 受聴者

Claims (16)

  1.  風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得ステップと、
     取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力ステップと、
     を含む、
     音響信号処理方法。
  2.  前記オブジェクト情報は、
      前記オブジェクトの変化による前記風の変化と、
      前記所定タイミングが、前記風の変化のタイミングであることとを示し、
     前記音響信号処理方法は、取得された前記オブジェクト情報が示す前記風に基づいて、前記所定時間を決定する決定ステップを含む、
     請求項1に記載の音響信号処理方法。
  3.  前記オブジェクト情報が示す前記風の変化は、前記風の風速の変化を示し、
     前記決定ステップでは、前記風速に基づいて、前記所定時間を決定する、
     請求項2に記載の音響信号処理方法。
  4.  前記空力音は、変化後の前記風速で生じる音である、
     請求項3に記載の音響信号処理方法。
  5.  前記オブジェクト情報は、前記オブジェクトの位置を示し、
     前記音響信号処理方法は、前記空力音の受聴者の位置と、取得された前記オブジェクト情報が示す前記オブジェクトの位置との距離に基づいて、前記所定時間を決定する決定ステップを含む、
     請求項1に記載の音響信号処理方法。
  6.  前記オブジェクト情報は、前記オブジェクトの位置を示し、
     前記決定ステップでは、前記風速、及び、前記空力音の受聴者の位置と、取得された前記オブジェクト情報が示す前記オブジェクトの位置との距離に基づいて、前記所定時間を決定する、
     請求項3に記載の音響信号処理方法。
  7.  前記オブジェクト情報は、前記所定タイミングが、前記オブジェクトに対応付けられた音データを出力する第1タイミングであることを示し、
     前記出力ステップでは、取得された前記オブジェクト情報が示す前記第1タイミングから前記所定時間後に前記空力音データを出力する、
     請求項1に記載の音響信号処理方法。
  8.  前記オブジェクト情報は、
      前記オブジェクトの位置と、
      前記所定タイミングが、前記空力音の受聴者の位置と前記オブジェクトの位置との距離が所定距離より短くなる第2タイミングであることとを示し、
     前記出力ステップでは、取得された前記オブジェクト情報が示す前記第2タイミングから前記所定時間後に前記空力音データを出力する、
     請求項1に記載の音響信号処理方法。
  9.  前記オブジェクト情報は、
      前記オブジェクトの変化による前記風の変化が前記風の向きの変化であることと、
      前記所定タイミングが、前記風の向きの変化が起こった第3タイミングであることとを示し、
     前記出力ステップでは、取得された前記オブジェクト情報が示す第3タイミングから前記所定時間後に前記空力音データを出力する、
     請求項1に記載の音響信号処理方法。
  10.  前記オブジェクトは、前記オブジェクトに対応付けられた音データが示す音及び前記風を発生させるオブジェクトであり、
     前記空力音は、前記オブジェクトが発生させた前記風が前記受聴者に到達することによって生じる空力音である、
     請求項6に記載の音響信号処理方法。
  11.  前記距離をDとし、
     前記風速がSoとなる前記オブジェクトの位置からの距離をUとし、
     前記所定時間をtとした場合、前記tは、下記式を満たす、
     t={(D-U)^2}/{So×U×(log(D)-log(U))
     請求項10に記載の音響信号処理方法。
  12.  前記オブジェクトは、前記オブジェクトの位置の移動により前記風を発生させるオブジェクトであり、
     前記空力音は、前記移動により発生した前記風が前記受聴者に到達することによって生じる空力音である、
     請求項6に記載の音響信号処理方法。
  13.  前記オブジェクト情報が示す前記所定タイミングは、時間の経過に伴う前記距離の変化量が負から正に転じたタイミングである、
     請求項12に記載の音響信号処理方法。
  14.  前記距離をDとし、
     前記移動により発生した前記風の前記風速がSoとなる前記オブジェクトの位置からの距離をUとし、
     前記所定時間をtとした場合、前記tは、下記式を満たす、
     t={(D-U)^2}/{So×U×(log(D)-log(U))
     請求項12に記載の音響信号処理方法。
  15.  請求項1~14のいずれか1項に記載の音響信号処理方法をコンピュータに実行させるためのコンピュータプログラム。
  16.  風を起こすオブジェクトの変化、及び、前記オブジェクトの変化に関する所定タイミングを示すオブジェクト情報を取得する取得部と、
     取得された前記オブジェクト情報が示す前記所定タイミングから、前記オブジェクトの変化に基づく所定時間後に前記風による空力音を示す空力音データを出力する出力部と、
     を備える、
     音響信号処理装置。
PCT/JP2023/036004 2022-10-19 2023-10-03 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置 WO2024084949A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202263417397P 2022-10-19 2022-10-19
US63/417,397 2022-10-19

Publications (1)

Publication Number Publication Date
WO2024084949A1 true WO2024084949A1 (ja) 2024-04-25

Family

ID=90737351

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/036004 WO2024084949A1 (ja) 2022-10-19 2023-10-03 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置

Country Status (1)

Country Link
WO (1) WO2024084949A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110972053A (zh) * 2019-11-25 2020-04-07 腾讯音乐娱乐科技(深圳)有限公司 构造听音场景的方法和相关装置
WO2020255810A1 (ja) * 2019-06-21 2020-12-24 ソニー株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020255810A1 (ja) * 2019-06-21 2020-12-24 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN110972053A (zh) * 2019-11-25 2020-04-07 腾讯音乐娱乐科技(深圳)有限公司 构造听音场景的方法和相关装置

Similar Documents

Publication Publication Date Title
US11792598B2 (en) Spatial audio for interactive audio environments
KR102609668B1 (ko) 가상, 증강, 및 혼합 현실
CN108141696B (zh) 用于空间音频调节的***和方法
US10979842B2 (en) Methods and systems for providing a composite audio stream for an extended reality world
JP2019523607A (ja) 空間化オーディオを用いた複合現実システム
EP3687190B1 (en) Mapping virtual sound sources to physical speakers in extended reality applications
US11109177B2 (en) Methods and systems for simulating acoustics of an extended reality world
CN112602053B (zh) 音频装置和音频处理的方法
Murphy et al. Spatial sound for computer games and virtual reality
US20210065675A1 (en) Reverberation gain normalization
WO2020189263A1 (ja) 音響処理装置、音響処理方法、および音響処理プログラム
WO2024084949A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024014389A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084950A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024014390A1 (ja) 音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置
JP7267096B2 (ja) オーディオエフェクト制御システム、オーディオエフェクト制御装置、受信装置、オーディオエフェクト制御方法、受信装置の制御方法及びプログラム
WO2024084920A1 (ja) 音響処理方法、音響処理装置、及び、プログラム
WO2024084997A1 (ja) 音響処理装置及び音響処理方法
WO2024084999A1 (ja) 音響処理装置及び音響処理方法
WO2023199815A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2024084998A1 (ja) 音響処理装置及び音響処理方法
WO2023199778A1 (ja) 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム
WO2023199818A1 (ja) 音響信号処理装置、音響信号処理方法、及び、プログラム
WO2023199813A1 (ja) 音響処理方法、プログラム、及び音響処理システム
CN117476014A (zh) 音频处理方法、装置、存储介质及设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23879596

Country of ref document: EP

Kind code of ref document: A1