WO2024084950A1 - 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置 - Google Patents

音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置 Download PDF

Info

Publication number
WO2024084950A1
WO2024084950A1 PCT/JP2023/036007 JP2023036007W WO2024084950A1 WO 2024084950 A1 WO2024084950 A1 WO 2024084950A1 JP 2023036007 W JP2023036007 W JP 2023036007W WO 2024084950 A1 WO2024084950 A1 WO 2024084950A1
Authority
WO
WIPO (PCT)
Prior art keywords
processing
sound
sound data
information
smooth function
Prior art date
Application number
PCT/JP2023/036007
Other languages
English (en)
French (fr)
Inventor
陽 宇佐見
智一 石川
宏幸 江原
康太 中橋
成悟 榎本
摩里子 山田
修二 宮阪
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Publication of WO2024084950A1 publication Critical patent/WO2024084950A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • This disclosure relates to an acoustic signal processing method, etc.
  • Patent Document 1 also discloses a technology for outputting images and sounds in order to create a realistic virtual space. Patent Document 1 also discloses a technology for changing the sound of the wind in accordance with changes in wind strength in the virtual space.
  • Patent Document 1 it may be difficult to give the listener a sense of realism.
  • the present disclosure therefore aims to provide an acoustic signal processing method and the like that can give listeners a sense of realism.
  • the acoustic signal processing method includes an acquisition step of acquiring sound data indicating a waveform of a reference sound, a processing step of processing the sound data so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on simulation information that simulates fluctuations in a natural phenomenon, and an output step of outputting the processed sound data.
  • a computer program causes a computer to execute the above-mentioned acoustic signal processing method.
  • an audio signal processing device includes an acquisition unit that acquires audio data indicating a waveform of a reference sound, a processing unit that processes the audio data so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on simulation information that simulates fluctuations in a natural phenomenon, and an output unit that outputs the processed audio data.
  • the acoustic signal processing method can provide a sense of realism to the listener.
  • FIG. 1 is a diagram showing an immersive audio playback system, which is an example of a system to which the audio processing or decoding processing of the present disclosure can be applied.
  • FIG. 2 is a functional block diagram showing a configuration of an encoding device which is an example of an encoding device according to the present disclosure.
  • FIG. 3 is a functional block diagram showing a configuration of a decoding device which is an example of the decoding device of the present disclosure.
  • FIG. 4 is a functional block diagram showing a configuration of an encoding device that is another example of an encoding device according to the present disclosure.
  • FIG. 5 is a functional block diagram showing a configuration of a decoding device which is another example of the decoding device of the present disclosure.
  • FIG. 1 is a diagram showing an immersive audio playback system, which is an example of a system to which the audio processing or decoding processing of the present disclosure can be applied.
  • FIG. 2 is a functional block diagram showing a configuration of an encoding device which is an example of an
  • FIG. 6 is a functional block diagram showing a configuration of a decoder which is an example of the decoder in FIG. 3 or FIG.
  • FIG. 7 is a functional block diagram showing the configuration of a decoder which is another example of the decoder in FIG. 3 or FIG.
  • FIG. 8 is a diagram showing an example of a physical configuration of an audio signal processing device.
  • FIG. 9 is a diagram illustrating an example of a physical configuration of an encoding device.
  • FIG. 10 is a block diagram showing a functional configuration of the acoustic signal processing device according to the first embodiment.
  • FIG. 11 is a diagram showing an electric fan and a listener, which are examples of objects according to the first embodiment.
  • FIG. 12 is a diagram showing sound data according to the first embodiment.
  • FIG. 13 is a diagram illustrating an example of a smooth function according to the first embodiment.
  • FIG. 14 is a flowchart of a first operation example of the acoustic signal processing device according to the first embodiment.
  • FIG. 15 is a diagram for explaining the processing performed by the processing unit according to the first embodiment.
  • FIG. 16 is another diagram for explaining the process performed by the processing unit according to the first embodiment.
  • FIG. 17 is a diagram showing sound data (aerodynamic sound data) according to the first embodiment.
  • FIG. 18 is a diagram showing R, which is a value indicated by a smooth function according to the first embodiment, and the amplification rate and attenuation rate of the volume of aerodynamic sound.
  • FIG. 19 is a diagram showing divided aerodynamic sound data according to the first embodiment.
  • FIG. 19 is a diagram showing divided aerodynamic sound data according to the first embodiment.
  • FIG. 20 is a diagram showing another example of two smooth functions according to the first embodiment.
  • FIG. 21 is a diagram showing an example in which a parameter specifying a smooth function according to the first embodiment is changed.
  • FIG. 22 is a diagram showing another example of two smooth functions according to the first embodiment.
  • FIG. 23 is a block diagram showing a functional configuration of an acoustic signal processing device according to a modified example.
  • FIG. 24 is a block diagram showing a functional configuration of a second processing unit according to a modified example.
  • FIG. 25 is a diagram showing aerodynamic sound data according to a modified example.
  • FIG. 26 is a conceptual diagram of the process by the second processing unit according to the modified example.
  • FIG. 27 is a block diagram showing a functional configuration of a sampling rate conversion unit according to a modified example.
  • FIG. 28 is a state transition diagram of values indicated by a smooth function according to a modified example.
  • FIG. 29 is a block diagram showing another functional configuration of the acoustic signal processing device according to the modified example.
  • FIG. 30 is a block diagram showing a functional configuration of an information processing device according to the second embodiment.
  • FIG. 31 is a diagram for explaining the reading of sound data according to the conventional technique and the reading of sound data according to the second embodiment.
  • FIG. 32 is a diagram for explaining the process performed by the information processing device according to the second embodiment.
  • FIG. 33 is a diagram for explaining another process performed by the information processing device according to the second embodiment.
  • FIG. 34 is a functional block diagram and a diagram showing an example of steps for explaining a case where the rendering unit in FIG. 6 and FIG. 7 performs pipeline processing.
  • Patent Literature 1 discloses a technology for outputting images and sounds in order to create a realistic virtual space, and also discloses a technology for changing the sound of the wind in accordance with changes in the strength of the wind in the virtual space.
  • a virtual space is a space in which a user (listener) exists, such as virtual reality (VR) or augmented reality (AR).
  • VR virtual reality
  • AR augmented reality
  • the wind sound produced using the technology disclosed in Patent Document 1 is used in an application for reproducing three-dimensional sound in such a virtual space.
  • Such controlled sound is used in particular in a virtual space where 6DoF (Degrees of Freedom) information of the listener is sensed.
  • 6DoF Degrees of Freedom
  • fluctuations in natural phenomena include fluctuations.
  • Natural phenomena in real space include, for example, the wind blowing, the water flowing in a river, and the behavior of animals.
  • fluctuations in natural phenomena include fluctuations in wind speed or wind direction, and fluctuations in wind speed or wind direction include fluctuations.
  • Patent Document 1 can allow the listener to hear the sound of wind, it cannot reproduce the sound of wind that includes fluctuations in real space. Therefore, when the listener hears such wind sounds, the listener feels uncomfortable and it is difficult for the listener to obtain a sense of realism. For this reason, there is a demand for an audio signal processing method that can give the listener a sense of realism.
  • the acoustic signal processing method includes an acquisition step of acquiring sound data indicating a waveform of a reference sound, a processing step of processing the sound data so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on simulation information that simulates fluctuations in a natural phenomenon, and an output step of outputting the processed sound data.
  • sound data is processed to change at least one of the frequency components, phase, and amplitude of the waveform based on simulation information that simulates fluctuations in natural phenomena that contain fluctuations.
  • fluctuations occur in at least one of the frequency components, phase, and amplitude
  • the sound represented by the processed sound data also has fluctuations in at least one of the frequency components, phase, and amplitude. Therefore, the listener can hear a sound in which at least one of the frequency components, phase, and amplitude has occurred, and the listener can obtain a sense of realism without feeling unnatural.
  • an acoustic signal processing method that can give the listener a sense of realism is realized.
  • the acoustic signal processing method according to the second aspect of the present disclosure is the acoustic signal processing method according to the first aspect, in which the reference sound is an aerodynamic sound generated by wind, and in the processing step, the sound data is processed so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on the simulation information in which the fluctuations in the wind speed are simulated.
  • the listener can hear aerodynamic sound with fluctuations in at least one of the frequency components, phase, and amplitude, and the listener can experience a sense of realism without feeling any discomfort.
  • an acoustic signal processing method that can give the listener a sense of realism is realized.
  • the acoustic signal processing method is the acoustic signal processing method according to the second aspect, in which, in the processing step, a smooth function that simulates the fluctuations in the wind speed is determined as the simulation information, and the sound data is processed so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on the value indicated by the determined smooth function.
  • the acoustic signal processing method according to the fourth aspect of the present disclosure is the acoustic signal processing method according to the third aspect, in which the value indicated by the smooth function is information indicating the ratio between the wind speed of the aerodynamic sound, which is the reference sound, and the wind speed of the aerodynamic sound indicated by the sound data after processing in the processing step.
  • the acoustic signal processing method according to the fifth aspect of the present disclosure is the acoustic signal processing method according to the fourth aspect, in which, in the processing step, the smooth function is determined so that a parameter specifying the smooth function varies irregularly.
  • the listener can hear aerodynamic sound with irregular fluctuations in at least one of the frequency components, phase, and amplitude, and the listener can feel less discomfort and have a greater sense of realism.
  • an acoustic signal processing method that can give the listener a greater sense of realism is realized.
  • the acoustic signal processing method according to the sixth aspect of the present disclosure is an acoustic signal processing method according to any one of the third to fifth aspects, in which, in the processing step, the sound data is processed so as to shift the frequency components of the waveform to frequencies proportional to the values indicated by the determined smooth function.
  • the listener can hear a sound with fluctuating frequency components, and can get a sense of realism without feeling strange.
  • an acoustic signal processing method that can give the listener a sense of realism is realized.
  • the acoustic signal processing method according to the seventh aspect of the present disclosure is the acoustic signal processing method according to the third aspect, in which, in the processing step, the sound data is processed so as to change the amplitude value of the waveform in proportion to the ⁇ power of the value indicated by the determined smooth function.
  • the listener can hear a sound with fluctuations in amplitude, and the listener can experience a sense of realism without feeling any discomfort.
  • an acoustic signal processing method that can give the listener a sense of realism is realized.
  • the acoustic signal processing method according to the eighth aspect of the present disclosure is the acoustic signal processing method according to the fourth or fifth aspect, in which, in the processing step, the acquired sound data is divided into processing frames of a predetermined time, and the sound data is processed for each of the divided processing frames.
  • the acoustic signal processing method according to the ninth aspect of the present disclosure is the acoustic signal processing method according to the eighth aspect, in which, in the processing step, the smooth function is determined for each divided processing frame such that the value of the smooth function is 1.0 at the first time and the last time of the processing frame.
  • the acoustic signal processing method according to the tenth aspect of the present disclosure is the acoustic signal processing method according to the ninth aspect, in which, in the processing step, parameters that specify the smooth function are determined for each of the divided processing frames.
  • An acoustic signal processing method is the acoustic signal processing method according to the tenth aspect, in which the parameter is the time from the first time to the last time.
  • the parameter to be the time from the first time of the processing frame to the last time of that processing frame.
  • the acoustic signal processing method according to the twelfth aspect of the present disclosure is the acoustic signal processing method according to the tenth aspect, in which the parameter is a value related to the maximum value of the smooth function.
  • the acoustic signal processing method according to the thirteenth aspect of the present disclosure is the acoustic signal processing method according to the tenth aspect, in which the parameter is a parameter that varies the position at which the smooth function reaches a maximum value.
  • the acoustic signal processing method according to the fourteenth aspect of the present disclosure is the acoustic signal processing method according to the tenth aspect, in which the parameter is a parameter that varies the steepness of the variation of the smooth function.
  • the acoustic signal processing method is an acoustic signal processing method according to the tenth aspect, in which, in the processing step, a first parameter and a second parameter that specify the smooth function are determined, the acquired sound data is processed so as to change at least one of the frequency components, phase, and amplitude values of the waveform based on the smooth function specified by the determined first parameter, the acquired sound data is processed so as to change at least one of the frequency components, phase, and amplitude values of the waveform based on the smooth function specified by the determined second parameter, and, in the output step, the sound data processed based on the smooth function specified by the determined first parameter is output to a first output channel, and the sound data processed based on the smooth function specified by the determined second parameter is output to a second output channel.
  • the acoustic signal processing method according to the 16th aspect of the present disclosure is an acoustic signal processing method according to any one of the 10th to 15th aspects, in which the aerodynamic sound is a sound generated by the wind colliding with an object, and in the processing step, the parameters are determined by simulating the characteristics of the wind speed.
  • the sound data can be processed to change at least one of the frequency components, phase, and amplitude of the waveform.
  • the acoustic signal processing method is an acoustic signal processing method according to any one of the tenth to fifteenth aspects, in which the aerodynamic sound is a sound generated by the wind colliding with the ear of a listener who hears the aerodynamic sound, and in the processing step, the parameters are determined by simulating the characteristics of the wind direction.
  • the sound data can be processed to change at least one of the frequency components, phase, and amplitude of the waveform.
  • the acoustic signal processing method according to the eighteenth aspect of the present disclosure is the acoustic signal processing method according to the eighth aspect, in which the maximum value of the smooth function does not exceed 3.
  • the acoustic signal processing method according to the 19th aspect of the present disclosure is the acoustic signal processing method according to the 8th aspect, in which the minimum value of the smooth function is not below 0.
  • the acoustic signal processing method according to the 20th aspect of the present disclosure is an acoustic signal processing method according to the 8th aspect, which includes a receiving step of receiving an instruction specifying Va, the wind speed, and Vp, the instantaneous wind speed, of the wind, and in the processing step, determines the smooth function so that the maximum value of the smooth function is Vp/Va.
  • the acoustic signal processing method according to the twenty-first aspect of the present disclosure is the acoustic signal processing method according to the eighth aspect, in which the average value of the predetermined time is three seconds.
  • the acoustic signal processing method according to the twenty-second aspect of the present disclosure is the acoustic signal processing method according to the sixteenth aspect, in which the object is an object having a shape resembling an ear.
  • the computer program according to the twenty-third aspect of the present disclosure is a computer program for causing a computer to execute the acoustic signal processing method according to any one of the first to twenty-second aspects.
  • the audio signal processing device includes an acquisition unit that acquires audio data indicating a waveform of a reference sound, a processing unit that processes the audio data so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on simulation information that simulates fluctuations in a natural phenomenon, and an output unit that outputs the processed audio data.
  • sound data is processed to change at least one of the frequency components, phase, and amplitude of the waveform based on simulation information that simulates fluctuations in natural phenomena that contain fluctuations.
  • fluctuations occur in at least one of the frequency components, phase, and amplitude
  • the sound represented by the processed sound data also has fluctuations in at least one of the frequency components, phase, and amplitude. Therefore, the listener can hear a sound in which at least one of the frequency components, phase, and amplitude has occurred, and the listener is less likely to feel uncomfortable and can obtain a sense of realism.
  • an audio signal processing device that can give the listener a sense of realism is realized.
  • ordinal numbers such as first and second may be attached to elements. These ordinal numbers are attached to elements in order to identify them, and do not necessarily correspond to a meaningful order. These ordinal numbers may be rearranged, newly added, or removed as appropriate.
  • each figure is a schematic diagram and is not necessarily an exact illustration. Therefore, the scale and the like are not necessarily the same in each figure.
  • the same reference numerals are used for substantially the same configuration, and duplicate explanations are omitted or simplified.
  • ⁇ 3D sound reproduction system> 1 is a diagram showing a stereophonic (immersive audio) reproduction system A0000 as an example of a system to which the acoustic processing or decoding processing of the present disclosure can be applied.
  • the stereophonic reproduction system A0000 includes an acoustic signal processing device A0001 and an audio presentation device A0002.
  • the acoustic signal processing device A0001 performs acoustic processing on the audio signal emitted by the virtual sound source to generate an audio signal after acoustic processing that is presented to the listener (i.e., the listener).
  • the audio signal is not limited to a voice, but may be any audible sound.
  • Acoustic processing is, for example, signal processing performed on an audio signal in order to reproduce one or more sound-related effects that a sound generated from a sound source experiences between the time the sound is emitted and the time the listener hears the sound.
  • the acoustic signal processing device A0001 performs acoustic processing based on information that describes the factors that cause the above-mentioned sound-related effects.
  • the spatial information includes, for example, information indicating the positions of the sound source, the listener, and surrounding objects, information indicating the shape of the space, parameters related to sound propagation, and the like.
  • the acoustic signal processing device A0001 is, for example, a PC (Personal Computer), a smartphone, a tablet, or a game console.
  • the signal after acoustic processing is presented to the listener (user) from the audio presentation device A0002.
  • the audio presentation device A0002 is connected to the audio signal processing device A0001 via wireless or wired communication.
  • the audio signal after acoustic processing generated by the audio signal processing device A0001 is transmitted to the audio presentation device A0002 via wireless or wired communication.
  • the audio presentation device A0002 is composed of multiple devices, such as a device for the right ear and a device for the left ear, the multiple devices present sounds in synchronization with each other or with the audio signal processing device A0001.
  • the audio presentation device A0002 is, for example, headphones, earphones, or a head-mounted display worn on the listener's head, or a surround speaker composed of multiple fixed speakers.
  • the stereophonic sound reproduction system A0000 may be used in combination with an image presentation device or a stereoscopic image presentation device that provides an ER (Extended Reality) experience, including visual VR or AR.
  • ER Extended Reality
  • FIG. 1 shows an example of a system configuration in which the acoustic signal processing device A0001 and the audio presentation device A0002 are separate devices
  • the stereophonic sound reproduction system A0000 to which the acoustic signal processing method or decoding method of the present disclosure can be applied is not limited to the configuration of FIG. 1.
  • the acoustic signal processing device A0001 may be included in the audio presentation device A0002, which may perform both acoustic processing and sound presentation.
  • the acoustic signal processing device A0001 and the audio presentation device A0002 may share the acoustic processing described in this disclosure, or a server connected to the acoustic signal processing device A0001 or the audio presentation device A0002 via a network may perform part or all of the acoustic processing described in this disclosure.
  • the audio signal processing device A0001 is referred to as such, but if the audio signal processing device A0001 performs audio processing by decoding a bit stream generated by encoding at least a portion of the data of the audio signal or spatial information used in the audio processing, the audio signal processing device A0001 may be referred to as a decoding device.
  • FIG. 2 is a functional block diagram showing a configuration of an encoding device A0100, which is an example of an encoding device according to the present disclosure.
  • the input data A0101 is data to be encoded, including spatial information and/or audio signals, that is input to the encoder A0102. Details of the spatial information will be explained later.
  • the encoder A0102 encodes the input data A0101 to generate encoded data A0103.
  • the encoded data A0103 is, for example, a bit stream generated by the encoding process.
  • Memory A0104 stores the encoded data A0103.
  • Memory A0104 may be, for example, a hard disk or a solid-state drive (SSD), or may be other memory.
  • a bit stream generated by the encoding process is given as an example of the encoded data A0103 stored in the memory A0104, but data other than a bit stream may be used.
  • the encoding device A0100 may convert the bit stream into a predetermined data format and store the converted data in the memory A0104.
  • the converted data may be, for example, a file or multiplexed stream that stores one or more bit streams.
  • the file is, for example, a file having a file format such as ISOBMFF (ISO Base Media File Format).
  • ISOBMFF ISO Base Media File Format
  • the encoded data A0103 may also be in the form of multiple packets generated by dividing the bit stream or file.
  • the encoding device A0100 may be provided with a conversion unit (not shown), or the conversion process may be performed by a CPU (Central Processing Unit).
  • FIG. 3 is a functional block diagram showing a configuration of a decoding device A 0110 which is an example of a decoding device according to the present disclosure.
  • the memory A0114 stores, for example, the same data as the encoded data A0103 generated by the encoding device A0100.
  • the memory A0114 reads out the stored data and inputs it as input data A0113 to the decoder A0112.
  • the input data A0113 is, for example, a bit stream to be decoded.
  • the memory A0114 may be, for example, a hard disk or SSD, or may be some other memory.
  • the decoding device A0110 may not directly use the data stored in the memory A0114 as the input data A0113, but may convert the read data and generate converted data as the input data A0113.
  • the data before conversion may be, for example, multiplexed data that stores one or more bit streams.
  • the multiplexed data may be, for example, a file having a file format such as ISOBMFF.
  • the data before conversion may also be in the form of multiple packets generated by dividing the bit stream or file.
  • the decoding device A0110 may be provided with a conversion unit (not shown), or the conversion process may be performed by a CPU.
  • the decoder A0112 decodes the input data A0113 to generate an audio signal A0111 that is presented to the listener.
  • Fig. 4 is a functional block diagram showing a configuration of an encoding device A0120, which is another example of an encoding device according to the present disclosure.
  • components having the same functions as those in Fig. 2 are given the same reference numerals, and descriptions of these components are omitted.
  • the encoding device A0100 differs from the encoding device A0100 in that the encoding device A0120 includes a transmission unit A0121 that transmits the encoded data A0103 to the outside, whereas the encoding device A0100 stores the encoded data A0103 in a memory A0104.
  • the transmitting unit A0121 transmits a transmission signal A0122 to another device or server based on the encoded data A0103 or data in a different data format generated by converting the encoded data A0103.
  • the data used to generate the transmission signal A0122 is, for example, the bit stream, multiplexed data, file, or packet described in the encoding device A0100.
  • Fig. 5 is a functional block diagram showing a configuration of a decoding device A0130, which is another example of a decoding device according to the present disclosure.
  • components having the same functions as those in Fig. 3 are given the same reference numerals, and descriptions of these components are omitted.
  • the decryption device A0130 differs from the decryption device A0110 in that, while the decryption device A0110 reads the input data A0113 from the memory A0114, the decryption device A0130 has a receiving unit A0131 that receives the input data A0113 from outside.
  • the receiving unit A0131 receives the receiving signal A0132, acquires the received data, and outputs the input data A0113 to be input to the decoder A0112.
  • the received data may be the same as the input data A0113 to be input to the decoder A0112, or may be data in a format different from that of the input data A0113. If the received data is in a format different from that of the input data A0113, the receiving unit A0131 may convert the received data into the input data A0113, or a conversion unit or CPU (not shown) included in the decoding device A0130 may convert the received data into the input data A0113.
  • the received data is, for example, a bit stream, multiplexed data, a file, or a packet, as described for the encoding device A0120.
  • FIG. 6 is a functional block diagram showing a configuration of a decoder A0200 which is an example of the decoder A0112 in FIG. 3 or FIG.
  • the input data A0113 is an encoded bitstream and includes encoded audio data, which is an encoded audio signal, and metadata used for audio processing.
  • the spatial information management unit A0201 acquires metadata contained in the input data A0113 and analyzes the metadata.
  • the metadata includes information describing elements that act on sounds arranged in a sound space.
  • the spatial information management unit A0201 manages spatial information necessary for sound processing obtained by analyzing the metadata, and provides the spatial information to the rendering unit A0203.
  • the information used for sound processing is called spatial information in this disclosure, it may be called something else.
  • the information used for sound processing may be called, for example, sound space information or scene information.
  • the spatial information input to the rendering unit A0203 may be called a spatial state, a sound space state, a scene state, etc.
  • the spatial information may be managed for each sound space or for each scene.
  • the spatial information may be managed as scenes of different sound spaces for each room, or the spatial information may be managed as different scenes depending on the scene being represented even if the room is the same space.
  • an identifier for identifying each piece of spatial information may be assigned.
  • the spatial information data may be included in a bitstream, which is one form of input data, or the bitstream may include an identifier for the spatial information and the spatial information data may be obtained from somewhere other than the bitstream. If the bitstream includes only an identifier for the spatial information, the identifier for the spatial information may be used during rendering to obtain the spatial information data stored in the memory of the acoustic signal processing device A0001 or an external server as input data.
  • the information managed by the spatial information management unit A0201 is not limited to the information included in the bitstream.
  • the input data A0113 may include data indicating the characteristics or structure of the space obtained from a software application or server that provides VR or AR as data not included in the bitstream.
  • the input data A0113 may include data indicating the characteristics or position of a listener or an object as data not included in the bitstream.
  • the input data A0113 may include information obtained by a sensor provided in a terminal including a decoding device as information indicating the position of the listener, or information indicating the position of the terminal estimated based on information obtained by the sensor.
  • the spatial information management unit A0201 may communicate with an external system or server to obtain spatial information and the position of the listener. Also, the spatial information management unit A0201 may obtain clock synchronization information from an external system and execute a process of synchronizing with the clock of the rendering unit A0203.
  • the space in the above description may be a virtually formed space, i.e., a VR space, or may be a real space (i.e., a physical space) or a virtual space corresponding to the real space, i.e., an AR or MR (Mixed Reality).
  • the virtual space may also be called a sound field or sound space.
  • the information indicating a position in the above description may be information such as coordinate values indicating a position within a space, information indicating a relative position with respect to a predetermined reference position, or information indicating the movement or acceleration of a position within a space.
  • the audio data decoder A0202 decodes the encoded audio data contained in the input data A0113 to obtain an audio signal.
  • the encoded audio data acquired by the stereophonic reproduction system A0000 is a bitstream encoded in a specific format, such as MPEG-H 3D Audio (ISO/IEC 23008-3).
  • MPEG-H 3D Audio is merely one example of an encoding method that can be used to generate the encoded audio data contained in the bitstream, and the encoded audio data may also include a bitstream encoded in another encoding method.
  • the encoding method used may be a lossy codec such as MP3 (MPEG-1 Audio Layer-3), AAC (Advanced Audio Coding), WMA (Windows Media Audio), AC3 (Audio Codec-3), or Vorbis, or a lossless codec such as ALAC (Apple Lossless Audio Codec) or FLAC (Free Lossless Audio Codec), or any other encoding method may be used.
  • MP3 MPEG-1 Audio Layer-3
  • AAC Advanced Audio Coding
  • WMA Windows Media Audio
  • AC3 Audio Codec-3
  • Vorbis Vorbis
  • ALAC Apple Lossless Audio Codec
  • FLAC Free Lossless Audio Codec
  • the decoding process may be, for example, a process of converting an N-bit binary number into a number format (e.g., floating-point format) that can be processed by the rendering unit A0203 when the number of quantization bits of the PCM data is N.
  • a number format e.g., floating-point format
  • the rendering unit A0203 receives an audio signal and spatial information, performs acoustic processing on the audio signal using the spatial information, and outputs the processed audio signal A0111.
  • the spatial information management unit A0201 reads the metadata of the input signal, detects rendering items such as objects or sounds defined in the spatial information, and sends them to the rendering unit A0203. After rendering begins, the spatial information management unit A0201 grasps changes over time in the spatial information and the position of the listener, and updates and manages the spatial information. The spatial information management unit A0201 then sends the updated spatial information to the rendering unit A0203. The rendering unit A0203 generates and outputs an audio signal to which acoustic processing has been added based on the audio signal included in the input data A0113 and the spatial information received from the spatial information management unit A0201.
  • the spatial information update process and the audio signal output process with added acoustic processing may be executed in the same thread, or the spatial information management unit A0201 and the rendering unit A0203 may each be assigned to an independent thread.
  • the thread startup frequency may be set individually, or the processes may be executed in parallel.
  • the spatial information management unit A0201 and the rendering unit A0203 execute their processes in different independent threads, it is possible to allocate computational resources preferentially to the rendering unit A0203, so that sound output processing that cannot tolerate even the slightest delay, such as sound output processing in which a delay of even one sample (0.02 msec) would cause a popping noise, can be safely performed.
  • the allocation of computational resources to the spatial information management unit A0201 is limited.
  • updating spatial information is a low-frequency process (for example, processing such as updating the direction of the listener's face). For this reason, unlike audio signal output processing, it does not necessarily require an instantaneous response, so limiting the allocation of computational resources does not have a significant impact on the acoustic quality provided to the listener.
  • Updating of the spatial information may be performed periodically at preset times or periods, or when preset conditions are met.
  • updating of the spatial information may be performed manually by the listener or the manager of the sound space, or may be performed when triggered by a change in an external system. For example, if a listener operates a controller to instantly warp the position of his/her avatar, or to instantly advance or reverse the time, or if the manager of the virtual space suddenly performs a performance that changes the environment of the place, the thread in which the spatial information management unit A0201 is placed may be started as a one-off interrupt process in addition to being started periodically.
  • the role of the information update thread that executes the spatial information update process is, for example, to update the position or orientation of the listener's avatar placed in the virtual space based on the position or orientation of the VR goggles worn by the listener, and to update the position of objects moving in the virtual space, and these roles are handled within a processing thread that runs relatively infrequently, on the order of a few tens of Hz. Processing to reflect the properties of direct sound may be performed in such an infrequent processing thread. This is because the properties of direct sound change less frequently than the frequency with which audio processing frames for audio output occur. By doing so, the computational load of the process can be made relatively small, and the risk of pulsive noise occurring when information is updated at an unnecessarily fast frequency can be avoided.
  • FIG. 7 is a functional block diagram showing the configuration of a decoder A0210, which is another example of the decoder A0112 in FIG. 3 or FIG. 5.
  • the decoder A0210 shown in FIG. 7 differs from the decoder A0200 shown in FIG. 6 in that the input data A0113 includes an uncoded audio signal rather than encoded audio data.
  • the input data A0113 includes a bitstream including metadata and an audio signal.
  • the spatial information management unit A0211 is the same as the spatial information management unit A0201 in FIG. 6, so a description thereof will be omitted.
  • the rendering unit A0213 is the same as the rendering unit A0203 in Figure 6, so a description of it will be omitted.
  • the configuration in FIG. 7 is called the decoder A0210, but it may also be called an audio processing unit that performs audio processing.
  • a device that includes an audio processing unit may be called an audio processing device rather than a decoding device.
  • the audio signal processing device A0001 may be called an audio processing device.
  • Fig. 8 is a diagram showing an example of the physical configuration of an audio signal processing device. Note that the audio signal processing device in Fig. 8 may be a decoding device. Also, a part of the configuration described here may be provided in the audio presentation device A0002. Also, the audio signal processing device shown in Fig. 8 is an example of the above-mentioned audio signal processing device A0001.
  • the acoustic signal processing device in FIG. 8 includes a processor, a memory, a communication IF, a sensor, and a speaker.
  • the processor may be, for example, a CPU (Central Processing Unit), a DSP (Digital Signal Processor) or a GPU (Graphics Processing Unit), and the CPU, DSP or GPU may execute a program stored in memory to perform the acoustic processing or decoding processing of the present disclosure.
  • the processor may also be a dedicated circuit that performs signal processing on audio signals, including the acoustic processing of the present disclosure.
  • Memory is composed of, for example, RAM (Random Access Memory) or ROM (Read Only Memory). Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • the communication IF Inter Face
  • the audio signal processing device shown in FIG. 8 has a function of communicating with other communication devices via the communication IF, and acquires a bitstream to be decoded.
  • the acquired bitstream is stored in a memory, for example.
  • the communication module is composed of, for example, a signal processing circuit and an antenna corresponding to the communication method.
  • Bluetooth registered trademark
  • WIGIG registered trademark
  • the communication IF may be a wired communication method such as Ethernet (registered trademark), USB (Universal Serial Bus), or HDMI (registered trademark) (High-Definition Multimedia Interface) instead of the wireless communication method described above.
  • the sensor performs sensing to estimate the position or orientation of the listener. Specifically, the sensor estimates the position and/or orientation of the listener based on one or more detection results of the position, orientation, movement, velocity, angular velocity, acceleration, etc. of a part of the listener's body, such as the head, or the whole of the listener, and generates position information indicating the position and/or orientation of the listener.
  • the position information may be information indicating the position and/or orientation of the listener in real space, or information indicating the displacement of the position and/or orientation of the listener based on the position and/or orientation of the listener at a specified time.
  • the position information may also be information indicating the position and/or orientation relative to the stereophonic reproduction system A0000 or an external device equipped with the sensor.
  • the sensor may be, for example, an imaging device such as a camera or a ranging device such as LiDAR (Light Detection and Ranging), and may capture the movement of the listener's head and detect the movement of the listener's head by processing the captured image.
  • the sensor may be a device that performs position estimation using wireless signals of any frequency band, such as millimeter waves.
  • the audio signal processing device shown in FIG. 8 may acquire position information from an external device equipped with a sensor via a communication IF.
  • the audio signal processing device does not need to include a sensor.
  • the external device is, for example, the audio presentation device A0002 described in FIG. 1 or a 3D image playback device worn on the listener's head.
  • the sensor is configured by combining various sensors such as a gyro sensor and an acceleration sensor.
  • the sensor may detect, for example, the angular velocity of rotation about at least one of three mutually orthogonal axes in the sound space as the speed of movement of the listener's head, or may detect the acceleration of displacement with at least one of the three axes as the displacement direction.
  • the sensor may detect, for example, the amount of movement of the listener's head as the amount of rotation about at least one of three mutually orthogonal axes in the sound space, or the amount of displacement about at least one of the three axes. Specifically, the sensor detects 6DoF (position (x, y, z) and angle (yaw, pitch, roll)) as the listener's position.
  • the sensor is configured by combining various sensors used for detecting movement, such as a gyro sensor and an acceleration sensor.
  • the sensor only needs to be capable of detecting the position of the listener, and may be realized by a camera or a GPS (Global Positioning System) receiver, etc. Position information obtained by performing self-position estimation using LiDAR (Laser Imaging Detection and Ranging) or the like may be used. For example, when the audio signal playback system is realized by a smartphone, the sensor is built into the smartphone.
  • GPS Global Positioning System
  • the sensor may also include a temperature sensor such as a thermocouple that detects the temperature of the audio signal processing device shown in FIG. 8, and a sensor that detects the remaining charge of a battery provided in or connected to the audio signal processing device.
  • a temperature sensor such as a thermocouple that detects the temperature of the audio signal processing device shown in FIG. 8, and a sensor that detects the remaining charge of a battery provided in or connected to the audio signal processing device.
  • a speaker for example, has a diaphragm, a drive mechanism such as a magnet or voice coil, and an amplifier, and presents the audio signal after acoustic processing as sound to the listener.
  • the speaker operates the drive mechanism in response to the audio signal (more specifically, a waveform signal that indicates the waveform of the sound) amplified via the amplifier, and the drive mechanism vibrates the diaphragm.
  • the diaphragm vibrates in response to the audio signal, generating sound waves that propagate through the air and are transmitted to the listener's ears, causing the listener to perceive the sound.
  • the audio signal processing device shown in FIG. 8 is provided with a speaker and an audio signal after acoustic processing is presented through the speaker
  • the means for presenting the audio signal is not limited to the above configuration.
  • the audio signal after acoustic processing may be output to an external audio presentation device A0002 connected by a communication module. Communication through the communication module may be wired or wireless.
  • the audio signal processing device shown in FIG. 8 may be provided with a terminal for outputting an analog audio signal, and an audio signal may be presented from an earphone or the like by connecting a cable such as an earphone to the terminal.
  • the audio signal is reproduced by headphones, earphones, a head-mounted display, a neck speaker, a wearable speaker, a surround speaker composed of multiple fixed speakers, or the like that is worn on the head or part of the body of the listener, which is the audio presentation device A0002.
  • Fig. 9 is a diagram showing an example of the physical configuration of an encoding device.
  • the encoding device shown in Fig. 9 is an example of the encoding devices A0100 and A0120 described above.
  • the encoding device in FIG. 9 includes a processor, a memory, and a communication interface.
  • the processor may be, for example, a CPU (Central Processing Unit) or a DSP (Digital Signal Processor), and the encoding process of the present disclosure may be performed by the CPU or GPU executing a program stored in memory.
  • the processor may also be a dedicated circuit that performs signal processing on audio signals, including the encoding process of the present disclosure.
  • Memory is composed of, for example, RAM (Random Access Memory) or ROM (Read Only Memory). Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • Memory may also include magnetic storage media such as hard disks or semiconductor memory such as SSDs (Solid State Drives). Memory may also include internal memory built into the CPU or GPU.
  • the communication IF (Inter Face) is a communication module that supports communication methods such as Bluetooth (registered trademark) or WIGIG (registered trademark).
  • the encoding device has the function of communicating with other communication devices via the communication IF, and transmits an encoded bit stream.
  • the communication module is composed of, for example, a signal processing circuit and an antenna corresponding to the communication method.
  • Bluetooth registered trademark
  • WIGIG registered trademark
  • the communication IF may be a wired communication method such as Ethernet (registered trademark), USB (Universal Serial Bus), or HDMI (registered trademark) (High-Definition Multimedia Interface) instead of the wireless communication method described above.
  • Fig. 10 is a block diagram showing the functional configuration of the acoustic signal processing device 100 according to this embodiment.
  • the audio signal processing device 100 is a device for acquiring, processing, and outputting sound data indicating the waveform of a reference sound. By outputting the sound data, a listener can hear the sound indicated by the sound data.
  • the audio signal processing device 100 according to this embodiment is a device that is used in various applications in virtual spaces, such as virtual reality or augmented reality (VR or AR), as one example.
  • the reference sound may be any sound, for example a sound related to a natural phenomenon.
  • the natural phenomenon is not particularly limited as long as it is a phenomenon that occurs in the natural world, for example, the wind blowing, the water flowing in a river, the behavior of animals, etc.
  • Sounds related to natural phenomena are, for example, sounds caused by the wind blowing, the murmuring sound of water flowing in a river, the cries of animals, etc.
  • aerodynamic sound that occurs when the wind collides with an object in the virtual space.
  • This aerodynamic sound is sound that occurs when the wind reaches, for example, the listener's ear and collides with it.
  • aerodynamic sound is sound that originates from the wind blowing in the virtual space.
  • the reference sound is an aerodynamic sound generated by wind W.
  • the reference sound is not limited to this, and may be the babbling sound of flowing water in a river or the cries of animals, etc.
  • wind in a virtual space is wind caused by an object in that virtual space.
  • FIG. 11 is a diagram showing an electric fan FN, which is an example of an object according to this embodiment, and a listener L.
  • the object is an object that can blow air, such as an electric fan FN
  • the aerodynamic sound is aerodynamic sound that is generated when the wind W generated by the electric fan FN reaches the listener L. More specifically, the aerodynamic sound is a sound that is generated when the wind W blown out from the electric fan FN reaches the listener L, for example, depending on the shape of the listener L's ear.
  • the aerodynamic sound is generated when wind W, generated by the movement of the object's position, reaches the listener L.
  • the wind W in the virtual space is, for example, a wind that occurs naturally in real space and is reproduced in the virtual space (hereinafter, natural wind), and the location of its generation cannot be identified in the virtual space.
  • natural wind a wind that occurs naturally in real space and is reproduced in the virtual space
  • the location of its generation cannot be identified in the virtual space.
  • the wind W in the virtual space is natural wind, it can also be said to be a wind that is not caused by an object.
  • the object in this embodiment is not limited to the electric fan FN.
  • the object in the virtual space is not particularly limited as long as it is included in the content (here, video as an example) displayed on the display unit 300 that displays the content executed in the virtual space.
  • the object may be, for example, a moving body that generates wind by moving its position.
  • Moving bodies include, for example, objects that represent plants and animals, man-made objects, or natural objects.
  • objects that represent man-made objects include vehicles, bicycles, and airplanes.
  • objects that represent man-made objects include sports equipment such as baseball bats and tennis rackets, and furniture such as desks, chairs, and grandfather clocks.
  • the object may be at least one of an object that can move within the content and an object that can be moved.
  • the object may be an object that can blow air.
  • objects include, for example, a circulator, a hand fan, and an air conditioner.
  • the object may also be an object that generates a sound.
  • the sound generated by the object is a sound indicated by sound data associated with the object (hereinafter sometimes referred to as object sound data).
  • object sound data For example, if the object is an electric fan FN, the sound generated by the object is a motor sound generated by a motor possessed by the electric fan FN.
  • the sound generated by the object is a siren sound emitted by the ambulance.
  • the acoustic signal processing device 100 processes sound data (aerodynamic sound data) that indicates the waveform of a reference sound, which is an aerodynamic sound in a virtual space, and outputs it to the headphones 200.
  • sound data that indicates the waveform of the reference sound (aerodynamic sound) may be referred to as aerodynamic sound data.
  • the headphones 200 are a device that reproduces aerodynamic sound, and are an audio output device that presents the aerodynamic sound to the listener L. More specifically, the headphones 200 reproduce the aerodynamic sound based on the aerodynamic sound data output by the audio signal processing device 100. This allows the listener L to hear the aerodynamic sound. Note that instead of the headphones 200, other output channels such as speakers may be used.
  • the headphones 200 include a head sensor unit 201 and an output unit 202.
  • the head sensor unit 201 senses the position of the listener L, which is determined by the horizontal coordinates and vertical height in the virtual space, and outputs second position information indicating the position of the listener L of the aerodynamic sound in the virtual space to the acoustic signal processing device 100.
  • the head sensor unit 201 may sense 6DoF information of the head of the listener L.
  • the head sensor unit 201 may be an inertial measurement unit (IMU), an accelerometer, a gyroscope, a magnetic sensor, or a combination of these.
  • the output unit 202 is a device that reproduces the sound that reaches the listener L in the sound reproduction space. More specifically, the output unit 202 reproduces the aerodynamic sound based on aerodynamic sound data indicating the aerodynamic sound output from the acoustic signal processing device 100.
  • the display unit 300 is a display device that displays content (images) including objects in a virtual space. The process by which the display unit 300 displays content will be described later.
  • the display unit 300 is realized by a display panel such as a liquid crystal panel or an organic EL (Electro Luminescence) panel, for example.
  • the acoustic signal processing device 100 shown in FIG. 10 will be described.
  • the acoustic signal processing device 100 acquires sound data (aerodynamic sound data) that indicates the waveform of a reference sound, which is an aerodynamic sound in a virtual space, processes the sound data, and outputs the sound data to the headphones 200.
  • the acoustic signal processing device 100 includes an acquisition unit 110, a processing unit 120, an output unit 130, a memory unit 140, and a reception unit 150.
  • the acquisition unit 110 acquires sound data indicating the waveform of a reference sound (aerodynamic sound).
  • FIG. 12 is a diagram showing sound data according to this embodiment. As FIG. 12 shows, the sound data is data indicating a waveform indicating, for example, time and amplitude, and in this case is aerodynamic sound data.
  • the sound data (aerodynamic sound data) is stored in the storage unit 140, and the acquisition unit 110 acquires the sound data (aerodynamic sound data) stored in the storage unit 140.
  • the acquisition unit 110 acquires first position information indicating the position of an object (e.g., an electric fan FN). Furthermore, if the object is an object that generates a sound, the acquisition unit 110 acquires object sound data indicating the sound. Furthermore, the acquisition unit 110 acquires shape information indicating the shape of the object.
  • an object e.g., an electric fan FN
  • the acquisition unit 110 acquires object sound data indicating the sound. Furthermore, the acquisition unit 110 acquires shape information indicating the shape of the object.
  • the acquisition unit 110 acquires second position information.
  • the second position information is information indicating the position of the listener L in the virtual space.
  • the acquisition unit 110 may acquire sound data indicating the waveform of the reference sound, first position information, object sound data, shape information, and second position information from, for example, an input signal.
  • the acquisition unit 110 may also acquire sound data indicating the waveform of the reference sound, first position information, object sound data, shape information, and second position information from something else.
  • the input signal is described below.
  • sound data indicating the waveform of the reference sound (aerodynamic sound data) and object sound data may be collectively referred to as sound data.
  • the input signal is composed of, for example, spatial information, sensor information, and sound data (audio signal). Furthermore, the above information and sound data may be included in one input signal, or the above information and sound data may be included in multiple separate signals.
  • the input signal may include a bit stream composed of sound data and metadata (control information), in which case the metadata may include information identifying the spatial information and sound data.
  • the sound data indicating the waveform of the reference sound, the first position information, the object sound data, the shape information, and the second position information described above may be included in the input signal. More specifically, the first position information and the shape information may be included in the spatial information, and the second position information may be generated based on information obtained from the sensor information.
  • the sensor information may be obtained from the head sensor unit 201, or may be obtained from another external device.
  • the spatial information is information about the sound space (three-dimensional sound field) created by the stereophonic reproduction system A0000, and is composed of information about the objects contained in the sound space and information about the listener.
  • Objects include sound source objects that emit sound and act as sound sources, and non-sound producing objects that do not emit sound. Non-sound producing objects function as obstacle objects that reflect sounds emitted by sound source objects, but there are also cases where sound source objects function as obstacle objects that reflect sounds emitted by other sound source objects. Obstacle objects may also be called reflecting objects.
  • Information that is commonly assigned to sound source objects and non-sound-producing objects includes position information, shape information, and the rate at which the sound volume decays when the object reflects sound.
  • the position information is expressed by coordinate values on three axes, for example, the X-axis, Y-axis, and Z-axis in Euclidean space, but it does not necessarily have to be three-dimensional information.
  • the position information may be two-dimensional information expressed by coordinate values on two axes, for example, the X-axis and Y-axis.
  • the position information of an object is determined by the representative position of a shape expressed by a mesh or voxel.
  • the shape information may also include information about the surface material.
  • the attenuation rate may be expressed as a real number less than 1 or greater than 0, or as a negative decibel value. In real space, sound volume is not amplified by reflection, so the attenuation rate is set to a negative decibel value, but for example, to create an eerie feeling in an unreal space, an attenuation rate of greater than 1, i.e., a positive decibel value, may be set. Also, the attenuation rate may be set to a different value for each frequency band that makes up multiple frequency bands, or a value may be set independently for each frequency band. Also, if an attenuation rate is set for each type of material on the object surface, a corresponding attenuation rate value may be used based on information about the surface material.
  • the information commonly assigned to the sound source object and the non-sound generating object may include information indicating whether the object belongs to a living thing or not, or information indicating whether the object is a moving object or not. If the object is a moving object, the position information may move over time, and the changed position information or the amount of change is transmitted to the rendering units A0203 and A0213.
  • Information about the sound source object includes, in addition to the information commonly given to the sound source object and non-sound generating object described above, object sound data and information necessary for radiating the object sound data into the sound space.
  • the object sound data is data expressing the sound perceived by the listener, including information about the frequency and strength of the sound.
  • the object sound data is typically a PCM signal, but may also be data compressed using an encoding method such as MP3. In that case, the signal needs to be decoded at least before it reaches the generation unit (generation unit 907 described later in FIG. 34), so the rendering units A0203 and A0213 may include a decoding unit (not shown). Alternatively, the signal may be decoded by the audio data decoder A0202.
  • At least one object sound data may be set for one sound source object, and multiple object sound data may be set.
  • identification information for identifying each object sound data may be assigned, and the identification information for the object sound data may be stored as metadata as information relating to the sound source object.
  • Information necessary for emitting object sound data into a sound space may include, for example, information on the reference volume that serves as a reference when playing back the object sound data, information on the position of the sound source object, information on the orientation of the sound source object, and information on the directionality of the sound emitted by the sound source object.
  • the reference volume information may be, for example, the effective value of the amplitude value of the object sound data at the sound source position when the object sound data is emitted into the sound space, and may be expressed as a floating point decibel (db) value.
  • db decibel
  • the reference volume information may indicate that sound is emitted into the sound space from the position indicated by the information regarding the position at the same volume without increasing or decreasing the volume of the signal level indicated by the object sound data.
  • the reference volume information is -6 db
  • the reference volume information may indicate that sound is emitted into the sound space from the position indicated by the information regarding the position with the volume of the signal level indicated by the object sound data reduced to about half.
  • the reference volume information may be assigned to one object sound data or to multiple object sound data collectively.
  • the volume information included in the information necessary to radiate object sound data into a sound space may include, for example, information indicating time-series fluctuations in the volume of the sound source. For example, if the sound space is a virtual conference room and the sound source is a speaker, the volume transitions intermittently over a short period of time. Expressed more simply, this can be said to mean that sound and silence occur alternately. Also, if the sound space is a concert hall and the sound source is a performer, the volume is maintained for a certain period of time. Also, if the sound space is a battlefield and the sound source is an explosion, the volume of the explosion sound will increase for a moment and then remain silent. In this way, the volume information of the sound source includes not only sound volume information but also information on the transition of sound volume, and such information may be used as information indicating the nature of the object sound data.
  • the loudness transition information may be data showing frequency characteristics in a time series.
  • the loudness transition information may be data showing the duration of a section where sound is present.
  • the loudness transition information may be data showing a time series of the duration of a section where sound is present and the duration of a section where sound is absent.
  • the loudness transition information may be data listing multiple sets of durations during which the amplitude of a sound signal can be considered to be stationary (approximately constant) and data on the amplitude value of the signal during that time in a time series.
  • the loudness transition information may be data listing multiple sets of durations during which the frequency characteristics of a sound signal can be considered to be stationary.
  • the loudness transition information may be data listing multiple sets of durations during which the frequency characteristics of a sound signal can be considered to be stationary and data on the frequency characteristics during that time in a time series.
  • the loudness transition information may be data showing the outline of a spectrogram, for example, as a data format.
  • the volume that serves as a reference for the frequency characteristics may be the reference volume.
  • the reference volume information and information indicating the properties of the object sound data may be used to calculate the volume of the direct sound or reflected sound to be perceived by the listener, as well as in a selection process to select whether or not to perceive it.
  • Orientation information is typically expressed in yaw, pitch, and roll.
  • the roll rotation may be omitted and it may be expressed in azimuth (yaw) and elevation (pitch).
  • Orientation information may change over time, and if it does, it is transmitted to rendering units A0203 and A0213.
  • the information about the listener is information about the listener's position and orientation in sound space.
  • the position information is expressed as positions on the X-, Y-, and Z-axes in Euclidean space, but it does not necessarily have to be three-dimensional information and may be two-dimensional information.
  • Orientation information is typically expressed in yaw, pitch, and roll. Alternatively, the orientation information may be expressed in azimuth (yaw) and elevation (pitch) without the roll rotation.
  • the position information and orientation information may change over time, and if they do change, they are transmitted to the rendering units A0203 and A0213.
  • the sensor information includes the amount of rotation or displacement detected by a sensor worn by the listener and the position and orientation of the listener.
  • the sensor information is transmitted to the rendering units A0203 and A0213, which update the position and orientation information of the listener based on the sensor information.
  • the sensor information may be position information obtained by a mobile terminal performing self-position estimation using a GPS, a camera, or LiDAR (Laser Imaging Detection and Ranging).
  • Information obtained from outside through a communication module other than the sensor may be detected as sensor information.
  • Information indicating the temperature of the acoustic signal processing device 100 and information indicating the remaining battery level may be obtained from the sensor as sensor information.
  • Information indicating the computational resources (CPU capacity, memory resources, PC performance) of the acoustic signal processing device 100 or the audio presentation device A0002 may be obtained in real time as sensor information.
  • the acquisition unit 110 acquires sound data indicating the waveform of the reference sound, the first position information, the object sound data, and the shape information from the storage unit 140, but this is not limited to this, and the information may be acquired from a device other than the acoustic signal processing device 100 (for example, a server device 500 such as a cloud server).
  • the acquisition unit 110 acquires the second position information from the headphones 200 (more specifically, the head sensor unit 201), but this is not limited to this.
  • the object in the virtual space is included in the content (image) displayed on the display unit 300, and in this embodiment, is, for example, an electric fan FN.
  • the first position information is information that indicates the position of the electric fan FN in the virtual space at a certain point in time. Note that in the virtual space, for example, the electric fan FN may be moved by the user picking up the electric fan FN and moving it. For this reason, the acquisition unit 110 continuously acquires the first position information. The acquisition unit 110 acquires the first position information, for example, each time the spatial information is updated by the spatial information management units A0201 and A0211.
  • the sound data may be a sound signal such as PCM (Pulse Code Modulation) data, but is not limited to this and may be any information that indicates the properties of the sound.
  • PCM Pulse Code Modulation
  • the sound data relating to the sound signal may be the PCM data representing the sound signal itself, or may be data consisting of information indicating that the component is a noise signal and information indicating that the volume is X decibels.
  • the sound data relating to the sound data may be the PCM data representing the sound signal itself, or may be data consisting of information indicating that the component is a noise signal and information indicating the peak/dip of the frequency component.
  • a sound signal based on sound data means PCM data that represents the sound data.
  • aerodynamic sound data which is sound data indicating the waveform of the reference sound, is stored in advance in the storage unit 140, as described above. Aerodynamic sound is sound generated when the wind W collides with an object, and in this case, it is sound generated when the wind W collides with the ear of the listener L. Aerodynamic sound data is data that captures the sound generated when the wind W collides with a human ear or an object (model) having a shape that imitates a human ear. In this embodiment, the aerodynamic sound data is data that captures the sound generated when the wind reaches an object (model) that imitates a human ear. A dummy head microphone or the like is used as a model that imitates a human ear, and the aerodynamic sound data is collected.
  • Shape information is information that indicates the shape of an object in virtual space.
  • Shape information indicates the shape of an object, and more specifically, indicates the three-dimensional shape of the object as a rigid body.
  • the shape of an object may be indicated, for example, by a sphere, rectangular prism, cube, polyhedron, cone, pyramid, cylinder, prism, or a combination of these.
  • shape information may be expressed, for example, as mesh data, or as a collection of multiple faces made up of voxels, three-dimensional point clouds, or vertices with three-dimensional coordinates.
  • the first position information includes object identification information for identifying the object.
  • the object sound data also includes object identification information
  • the shape information also includes object identification information.
  • the acquisition unit 110 acquires the first position information, the object sound data, and the shape information separately, the object indicated by each of the first position information, the object sound data, and the shape information is identified by referring to the object identification information included in each of the first position information, the object sound data, and the shape information.
  • the object identification information included in each of the first position information, the object sound data, and the shape information.
  • it is easy to identify that the object indicated by each of the first position information, the object sound data, and the shape information is the same electric fan FN.
  • each of the first position information, the object sound data, and the shape information acquired by the acquisition unit 110 becomes clear that the first position information, the object sound data, and the shape information are information related to the electric fan FN. Therefore, the first position information, the object sound data, and the shape information are linked as information indicating the electric fan FN.
  • the listener L can move in the virtual space.
  • the second position information is information indicating where the listener L is located in the virtual space at a given point in time. Since the listener L can move in the virtual space, the acquisition unit 110 continuously acquires the second position information. The acquisition unit 110 acquires the second position information, for example, each time the spatial information is updated by the spatial information management units A0201 and A0211.
  • the sound data indicating the waveform of the reference sound, the first position information, the object sound data, the shape information, and the second position information may be included in the metadata, control information, or header information included in the input signal.
  • the sound data including the object sound data and the aerodynamic sound data is a sound signal (PCM data)
  • information identifying the sound signal may be included in the metadata, control information, or header information
  • the sound signal may be included in other than the metadata, control information, or header information.
  • the sound signal processing device 100 (more specifically, the acquisition unit 110) may acquire the metadata, control information, or header information included in the input signal, and perform sound processing based on the metadata, control information, or header information.
  • the sound signal processing device 100 (more specifically, the acquisition unit 110) only needs to acquire the sound data indicating the waveform of the reference sound, the first position information, the object sound data, the shape information, and the second position information, and the acquisition destination is not limited to the input signal.
  • the sound data including the object sound data and the aerodynamic sound data and the metadata may be stored in one input signal, or may be stored separately in multiple input signals.
  • sound signals other than sound data may be stored as audio content information in the input signal.
  • the audio content information may be subjected to encoding processing such as MPEG-H 3D Audio (ISO/IEC 23008-3) (hereinafter referred to as MPEG-H 3D Audio).
  • MPEG-H 3D Audio ISO/IEC 23008-3
  • the technology used for the encoding processing is not limited to MPEG-H 3D Audio, and other well-known technologies may be used.
  • information such as sound data indicating the waveform of the reference sound, first position information, object sound data, shape information, and second position information may be the subject of encoding processing.
  • the audio signal processing device 100 acquires the sound signal and metadata contained in the encoded bitstream.
  • audio content information is acquired and decoded.
  • the audio signal processing device 100 functions as a decoder (e.g., decoders A0200 and A0210) included in a decoding device (e.g., decoding devices A0110 and A0130), and more specifically, functions as rendering units A0203 and A0213 included in the decoder.
  • the term audio content information in this disclosure is to be interpreted as information including sound data indicating the sound signal itself or the waveform of a reference sound, first position information, object sound data, shape information, and second position information, in accordance with the technical content.
  • the acquisition unit 110 outputs the sound data indicating the waveform of the acquired reference sound, the first position information, the object sound data, the shape information, and the second position information to the processing unit 120 and the output unit 130.
  • the processing unit 120 processes the sound data so as to change at least one of the frequency components, phase, and amplitude value of the waveform indicated by the sound data indicating the waveform of the reference sound, based on simulation information in which the fluctuations in the natural phenomenon are simulated.
  • the reference sound is an aerodynamic sound generated by wind W
  • the natural phenomenon in the simulation information is the blowing of wind W.
  • the fluctuations in the natural phenomenon are fluctuations in wind W, and more specifically, mean fluctuations in the wind speed of wind W.
  • the fluctuations in the natural phenomenon may also be fluctuations in the direction (wind direction) of wind W, etc.
  • the simulated information is information that simulates fluctuations in natural phenomena that include fluctuations.
  • the simulated information is information that simulates fluctuations in the wind speed of the wind W, and more specifically, is information that expresses the fluctuations included in the fluctuations in the wind speed of the wind W.
  • the simulation information is a smooth function that simulates fluctuations in wind speed.
  • the processing unit 120 determines, as the simulation information, a smooth function that simulates fluctuations in wind speed.
  • a smooth function means that it is both differentiable and continuous. In other words, a smooth function is one that does not have sharp points.
  • FIG. 13 is a diagram showing an example of a smooth function according to the present embodiment.
  • the smooth function is, for example, a sine curve, but is not limited to this and may be a cosine curve, etc.
  • the processing unit 120 processes the sound data so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on the value indicated by the smooth function determined by the processing unit 120. For example, the processing unit 120 processes the sound data so as to shift the frequency components of the waveform to a frequency proportional to the value indicated by the smooth function that simulates the fluctuations in wind speed.
  • the value indicated by the smooth function is the value on the vertical axis shown in FIG. 13, and is information indicating the ratio between the wind speed of the aerodynamic sound, which is the reference sound, and the wind speed of the aerodynamic sound indicated by the sound data after processing by the processing unit 120.
  • the value indicated by the smooth function is a value indicating the ratio between the wind speed of the aerodynamic sound before processing and the wind speed of the aerodynamic sound after processing.
  • the processing unit 120 processes the sound data and outputs it to the output unit 130.
  • the output unit 130 outputs the sound data processed by the processing unit 120.
  • the output unit 130 outputs the processed aerodynamic sound data to the headphones 200. This allows the headphones 200 to play the aerodynamic sound indicated by the output aerodynamic sound data. In other words, the listener L can hear the aerodynamic sound.
  • the storage unit 140 is a storage device that stores the computer programs executed by the acquisition unit 110, processing unit 120, and output unit 130, as well as aerodynamic sound data.
  • the reception unit 150 receives operations from a user of the audio signal processing device 100 (e.g., the creator of the content executed in the virtual space).
  • the reception unit 150 is realized by a hardware button, but may also be realized by a touch panel or the like.
  • the shape information is information used to generate an image of an object in a virtual space, and is also information that indicates the shape of the object (electric fan FN).
  • the shape information is also information that is used to generate the content (image) that is displayed on the display unit 300.
  • the acquisition unit 110 also outputs the acquired shape information to the display unit 300.
  • the display unit 300 acquires the shape information output by the acquisition unit 110.
  • the display unit 300 further acquires attribute information indicating attributes (such as color) other than the shape of the object (electric fan FN) in the virtual space.
  • the display unit 300 may acquire the attribute information directly from a device other than the audio signal processing device 100 (server device 500), or may acquire it from the audio signal processing device 100.
  • the display unit 300 generates and displays content (video) based on the acquired shape information and attribute information.
  • FIG. 14 is a flowchart of a first operation example of the acoustic signal processing device 100 according to this embodiment.
  • the reception unit 150 receives an operation indicating that the simulation information is a smooth function that simulates fluctuations in wind speed (S10).
  • the reception unit 150 receives this operation, for example, from a user of the acoustic signal processing device 100.
  • the acquisition unit 110 acquires sound data indicating the waveform of the reference sound (S20).
  • the reference sound is an aerodynamic sound generated by wind
  • the sound data indicating the waveform of the reference sound is aerodynamic sound data.
  • This step S20 corresponds to the acquisition step.
  • the processing unit 120 determines a smooth function that simulates the fluctuation of the wind speed as the simulated information that simulates the fluctuation of the natural phenomenon (S30).
  • the processing unit 120 may determine the simulated information according to the operation received in step S10. In this operation example, the processing unit 120 determines the smooth function shown in FIG. 13 as the simulated information.
  • the processing unit 120 processes the sound data (aerodynamic sound data) so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on the value (ratio) indicated by the smooth function determined by the processing unit 120 (S40).
  • steps S30 and S40 correspond to processing steps.
  • the processing unit 120 outputs the processed sound data (aerodynamic sound data) to the output unit 130.
  • the output unit 130 outputs the sound data (aerodynamic sound data) processed by the processing unit 120 to the headphones 200 (S50). Note that this step S50 corresponds to the output step.
  • FIG. 15 is a diagram for explaining the processing performed by the processing unit 120 in this embodiment.
  • FIG. 15 is a diagram showing the sound data shown in FIG. 12 (aerodynamic sound data D1 before processing) and the smooth function shown in FIG. 13.
  • the horizontal axis which is the time axis, corresponds to the aerodynamic sound data D1 before processing and the smooth function.
  • FIG. 15 is a diagram for explaining the processing in the area enclosed by the dashed-dotted rectangle in (a) of FIG. 15.
  • (b) of FIG. 15 shows an enlarged view of the aerodynamic sound data D1 before processing, the smooth function, and the aerodynamic sound data D11 after processing.
  • the aerodynamic sound data D1 before processing is shown by multiple black dots in FIG. 15(b).
  • Each of the multiple black dots corresponds to the aerodynamic sound data D1 before processing shown in FIG. 15(a). It can also be said that each of the multiple black dots is a sample point of the aerodynamic sound data D1 before processing.
  • the processing unit 120 first performs a first process. This first process is described below.
  • the processing unit 120 determines an interpolation function that interpolates between one black point and another black point adjacent to the one black point.
  • the interpolation function is, for example, a spline function, but is not limited to this and may be any known function.
  • the processing unit 120 may also perform linear interpolation (straight-line interpolation) between one black point and another black point adjacent to the one black point, in which case the load of the calculation process is reduced. As shown in FIG. 15(b), in the first process, all of the space between two adjacent black points is interpolated.
  • a line is drawn by interpolating between one black dot and another black dot adjacent to that one.
  • the interval between multiple black dots before processing is defined as "1".
  • the processing unit 120 performs a second process. This second process is described below.
  • the processing unit 120 reads the value of one black dot, which is the pre-processing aerodynamic sound data D1 at time t, and determines the read value as the post-processing aerodynamic sound data D11 at that time t.
  • the post-processing aerodynamic sound data D11 is shown by multiple white dots (open dots) in FIG. 15(c).
  • the processing unit 120 reads the value of the smooth function for each unit time. For example, the processing unit 120 reads "0.5”, “0.5", “0.4999”, “0.4998”, etc. as the values of the smooth function.
  • the processing unit 120 determines the value of the smooth function read at the time t as the stride, and reads the value of the interpolation function at a position that is the stride ahead in time from one black dot in the aerodynamic sound data D1 before processing at the time t.
  • the processing unit 120 determines the value of the read interpolation function as the value of the processed aerodynamic sound data D11. At this time, the processing unit 120 determines the spacing of the processed aerodynamic sound data D11 (multiple white dots) so that the spacing of the processed aerodynamic sound data D11 (multiple black dots) is the same value as the spacing of the aerodynamic sound data D1 (multiple black dots) before processing, in other words, so that it is "1". In this way, the second processing is performed.
  • the processing unit 120 reads the value of the black point B1, which is the aerodynamic sound data D1 before processing at time t1, and determines the read value as the value of the white point B11 in the aerodynamic sound data D11 after processing at time t1. In other words, the processing unit 120 uses the read value of the black point B1 as the value of the white point B11 as it is.
  • the processing unit 120 reads the value of the smooth function at time t1, which is 0.5, and determines this as the stride.
  • the aerodynamic sound data D1 before processing at time t1 is indicated by the black point B1
  • the processing unit 120 reads the value of the interpolation function at a position 0.5 in time from the black point B1, which is the aerodynamic sound data D1 before processing. This position is indicated as position P1 in FIG. 15(b).
  • the processing unit 120 determines the value of the interpolation function that was read (the value indicated at position P1) as the value of the processed aerodynamic sound data D11.
  • the processing unit 120 determines the spacing of the processed aerodynamic sound data D11 (multiple white dots) so that the spacing of the processed aerodynamic sound data D11 (multiple white dots) is "1", which is the same value as the spacing of the aerodynamic sound data D1 (multiple black dots) before processing.
  • the aerodynamic sound data D11 after processing has a shape that is elongated in the horizontal direction from the aerodynamic sound data D1 before processing. Therefore, the aerodynamic sound data D11 after processing is sound data whose frequency components have been shifted to lower frequencies compared to the aerodynamic sound data D1 before processing.
  • FIG. 16 is another diagram for explaining the processing performed by the processing unit 120 in this embodiment.
  • FIG. 16 like (a) in FIG. 15, is a diagram showing the sound data (aerodynamic sound data) shown in FIG. 12 and the smooth function shown in FIG. 13.
  • FIG. 16 are diagrams for explaining the processing in the area enclosed by the dashed line rectangle in (a) of FIG. 16.
  • (b) and (c) of FIG. 15 each show an enlarged view of the aerodynamic sound data D1 before processing, the smooth function, and the aerodynamic sound data D11 after processing.
  • the unprocessed aerodynamic sound data D1 shown in (b) and (c) of FIG. 16 is also subjected to the same processing as that described using (b) of FIG. 15. In other words, the first processing and the second processing are performed.
  • the processing unit 120 reads values of the smooth function such as "1", “1”, “1.0001”, and "1.0002". Because the values of the smooth function read are around 1, the processed aerodynamic sound data D11 has the same shape as the aerodynamic sound data D1 before processing. Therefore, the processed aerodynamic sound data D11 is sound data in which the frequency components have hardly shifted compared to the aerodynamic sound data D1 before processing.
  • the processing unit 120 reads values of the smooth function such as "1.5”, “1.5”, “1.4999”, and "1.4998". Because the value of the smooth function that is read is around 1.5, the processed aerodynamic sound data D11 has a shape that is the same as the aerodynamic sound data D1 before processing but shrunk in the horizontal direction. Therefore, the processed aerodynamic sound data D11 is sound data in which the frequency components have been shifted to higher frequencies compared to the aerodynamic sound data D1 before processing.
  • the simulated information is information that simulates fluctuations in natural phenomena that include fluctuations, and more specifically, is information that expresses fluctuations due to changes in the wind speed of the wind W, and in this operation example, is information that is represented by a smooth function.
  • sound data showing the waveform of a reference sound is processed so that the frequency components of the waveform change based on simulation information that simulates fluctuations in natural phenomena that contain fluctuations.
  • fluctuations occur in the frequency components of the processed aerodynamic sound data, and the aerodynamic sound shown by the processed aerodynamic sound data also has fluctuations in the frequency components. Therefore, the listener L can hear aerodynamic sound with such fluctuations in the frequency components, and can obtain a sense of realism without feeling strange.
  • step S40 of operation example 1 the following processing may be performed.
  • the stride may be determined as follows.
  • the sampling frequency of the aerodynamic sound data before it is processed by the processing unit 120 is Fsc
  • the sampling frequency of the aerodynamic sound data output by the output unit 130 is Fso
  • Fsc and Fso are different values.
  • the stride should satisfy the following formula:
  • Fso is 48 kHz
  • Fsc downsample Fsc from 48 kHz to 16 kHz. This makes it possible to reduce the memory size to one-third when aerodynamic sound data of the same length is stored in the storage unit 140. In addition, this makes it possible to reduce the discomfort at the seams between aerodynamic sound data, since the length of time of the output aerodynamic sound data becomes three times as long when the same memory size is used.
  • FIG. 17 is a diagram showing sound data according to this embodiment. More specifically, (a) and (b) of FIG. 17 are diagrams showing the frequency characteristics of aerodynamic sound data before processing (for example, the aerodynamic sound data D1 before processing shown in FIG. 15), where the horizontal axis is a logarithmic axis in FIG. 17(a) and the horizontal axis is a linear axis in FIG. 17(b). Also, (c) of FIG. 17 is a diagram showing the frequency characteristics in which the frequency components of the aerodynamic sound data shown in FIG. 17(b) are shifted to the high frequency side. Here, the frequency components in FIG. 17(c) are shifted to twice the frequency of the frequency components in FIG. 17(b). For example, the frequency component of 2000 Hz in FIG. 17(b) is shifted to the high frequency side to become the frequency component of 4000 kHz in FIG. 17(c).
  • the solid line shows the frequency characteristics when the sampling frequency of the aerodynamic sound data before processing is 16 kHz
  • the dashed line shows the frequency characteristics when the sampling frequency of the aerodynamic sound data before processing is 48 kHz. Note that the dashed line overlaps with the solid line in the low frequency range, so it is not shown.
  • aerodynamic sound data often shows characteristic structures in the low frequency range, and these components decrease monotonically in the high frequency range.
  • the solid line shows the frequency characteristics when the sampling frequency of the shifted aerodynamic sound data is 16 kHz
  • the dashed line shows the frequency characteristics when the sampling frequency of the shifted aerodynamic sound data is 48 kHz. Note that the dashed line overlaps with the solid line in the low frequency range, so it is not shown.
  • Another advantage is that there is almost no increase in computing resources required to reduce memory size and suppress the appearance of aliasing distortion.
  • the aerodynamic sound data is stored in advance in the storage unit 140, but this is not limited to the above.
  • the processing unit 120 may generate the aerodynamic sound data.
  • the processing unit 120 may generate the aerodynamic sound data by acquiring a noise signal and processing the acquired noise signal with each of a plurality of band emphasis filters.
  • the sound data (aerodynamic sound data) is processed so as to change the frequency components of the waveform, but this is not limiting.
  • the sound data (aerodynamic sound data) is processed so as to change the amplitude value of the waveform.
  • steps S10 to S30 are performed in the same way as in operation example 1.
  • the processing unit 120 processes the sound data (aerodynamic sound data) so as to change the amplitude value of the waveform based on the value (ratio) indicated by the smooth function determined by the processing unit 120.
  • the amplitude value of the waveform indicates the level of volume of the aerodynamic sound indicated by the aerodynamic sound data indicated by that waveform.
  • the volume of the aerodynamic sound is proportional to the ⁇ power of the wind speed of the wind W. Therefore, the processing unit 120 processes the sound data so that the amplitude value of the waveform changes in proportion to the ⁇ power of the value indicated by the determined smooth function.
  • the value of ⁇ differs depending on the type of aerodynamic sound.
  • aerodynamic noise which occurs when wind gets into the gap between one object and another.
  • This type of aerodynamic noise is known as cavity noise.
  • the volume of this type of aerodynamic noise is proportional to the fourth power of the wind speed (see Non-Patent Document 1).
  • R be the value indicated by the smooth function that simulates the fluctuations in wind speed.
  • the volume of the aerodynamic sound is amplified or attenuated by a value that corresponds to R ⁇ .
  • R when R is greater than 1, the sound is amplified, and when R is less than 1, the sound is attenuated.
  • the volume of aerodynamic sound when the volume of aerodynamic sound is proportional to the ⁇ power of the wind speed, the volume of the aerodynamic sound will fluctuate very sharply. This sharp fluctuation will be explained using Figure 18.
  • FIG. 18 is a diagram showing the relationship between R, which is a value indicated by a smooth function according to this embodiment, and the amplification rate and attenuation rate of the volume of aerodynamic sound.
  • a threshold value r is used.
  • 1.3 is used as the threshold value r.
  • the amplification factor (attenuation factor) G be different between the section (1/r) ⁇ R ⁇ r and the section R ⁇ (1/r) and r ⁇ R.
  • the section (1/r) ⁇ R ⁇ r is shown by a dashed rectangle.
  • the dashed and solid lines are lines for the case where the amplification factor (attenuation factor) G is different between the section (1/r) ⁇ R ⁇ r and the section R ⁇ (1/r) and r ⁇ R.
  • the dashed and solid lines indicate that in the range (1/r) ⁇ R ⁇ r, the amplification factor (attenuation factor) G satisfies the following formula.
  • the dashed dotted line indicates that in the ranges R ⁇ (1/r) and r ⁇ R, the amplification factor (attenuation factor) G satisfies the following formula.
  • the amplification rate (attenuation rate) G is close to R ⁇ when R is near 1.0, i.e., the correct trend is achieved, and monotonic amplification (monotonic attenuation) occurs when R is not near 1.0, and sudden fluctuations can be avoided.
  • the solid line in Figure 18 indicates that in the ranges R ⁇ (1/r) and r ⁇ R, the amplification factor (attenuation factor) G satisfies the following formula.
  • the value of ⁇ can be set arbitrarily by a user of the audio signal processing device 100 (e.g., the creator of the content executed in the virtual space). That is, the reception unit 150 may receive an operation from the creator specifying the value of ⁇ , and the processing unit 120 may determine the value specified by the received operation as the value of ⁇ .
  • the value of ⁇ By setting the value of ⁇ to a value such as 0.7, 1.0, 1.5, or 2.0, which is significantly different from academically correct values but is used to create a "plausible" increase or decrease in the volume of aerodynamic sounds in the virtual space, sudden fluctuations may be avoided.
  • the values of r and b may also be determined in a similar manner.
  • the aerodynamic sound data is processed so that the frequency components change in the first operation example, and the amplitude values change in the second operation example, but this is not limiting.
  • the aerodynamic sound data may be processed so that the phase of the waveform changes.
  • the processing unit 120 processes the sound data so that the phase of the waveform changes according to the value indicated by the determined smooth function.
  • At least one of the frequency components, phase, and amplitude of the waveform may change.
  • two of the frequency components, phase, and amplitude of the waveform may change, or all of the frequency components, phase, and amplitude of the waveform may change.
  • the processing unit 120 may divide the sound data (aerodynamic sound data) indicating the waveform of the reference sound acquired by the acquisition unit 110 into processing frames F of a predetermined time, and process the sound data for each divided processing frame F.
  • FIG. 19 is a diagram showing divided aerodynamic sound data according to this embodiment.
  • the aerodynamic sound data is divided into multiple processing frames F.
  • the predetermined time Ts of each of the multiple processing frames F may be the same, or as shown in FIG. 19, may be different from each other. That is, FIG. 19 shows processing frames F1 to F6 which are an example of processing frames F, and predetermined times Ts1 to Ts6 which are an example of predetermined times Ts. Each of the predetermined times Ts1 to Ts6 is different from each other.
  • the processing unit 120 determines a smooth function that simulates fluctuations in wind speed as simulation information that simulates fluctuations in a natural phenomenon. At this time, the processing unit 120 may determine the smooth function such that the parameters that specify the smooth function vary irregularly. Furthermore, the processing unit 120 determines the parameters that specify the smooth function for each divided processing frame F. That is, for example, the processing unit 120 determines the parameters that specify the smooth function corresponding to processing frame F1 shown in FIG. 19.
  • the processing unit 120 determines the parameters that specify the smooth function corresponding to processing frame F2, the parameters that specify the smooth function corresponding to processing frame F3, the parameters that specify the smooth function corresponding to processing frame F4, the parameters that specify the smooth function corresponding to processing frame F5, and the parameters that specify the smooth function corresponding to processing frame F6.
  • the processing unit 120 determines a smooth function for each divided processing frame F such that the value of the smooth function is 1.0 at the first time and the last time of the processing frame F. For example, in the smooth function corresponding to the processing frame F2 of the predetermined time Ts2, the value indicated by the smooth function is 1.0 at times t2 and t3.
  • F(t) F(t)
  • An example of a parameter that specifies a smooth function is the time from the first time of a processing frame F to the last time of the processing frame F, which is T in the above formula.
  • T the last time of the processing frame F
  • the smooth function corresponding to processing frame F2 shown in FIG. 19 it is the time from time t2 to time t3.
  • the smooth function is a sine curve, the parameter corresponds to one period.
  • Another example of a parameter that specifies a smooth function is a value related to the maximum value of the smooth function, which is H in the above formula. As shown in this embodiment, when the smooth function is a sine curve, another example of the parameter can be said to be a value that determines the maximum value of the smooth function.
  • Another example of a parameter that specifies a smooth function is a parameter that varies the position at which the smooth function reaches its maximum value, which is x in the above formula.
  • Another example of a parameter that specifies a smooth function is a parameter that varies the steepness of the variation of the smooth function, which is y in the above formula.
  • the processing unit 120 determines these parameters so that they vary irregularly, thereby determining a smooth function. For example, the processing unit 120 may determine the parameters based on random numbers.
  • the processing unit 120 may include a random number sequence generation unit, and the processing unit 120 may change parameters according to the output sequence.
  • a truly random number sequence is essentially one that has no regularity or reproducibility.
  • the sequence generated by the random number sequence generation unit may be a pseudo-random number sequence generated by a deterministic calculation process.
  • a pseudo-random number sequence such as that generated by the rand() function in the C language may be used, or any other known algorithm for generating pseudo-random numbers may be used.
  • a finite-length random number sequence, a finite-length pseudo-random number sequence, or a finite-length sequence created to create a sense of irregularity may be stored in the storage unit 140 and used repeatedly to be used as a long-term pseudo-random number sequence.
  • the receiving unit 150 may also receive an operation from a user of the acoustic signal processing device 100 (e.g., a creator of content executed in a virtual space) specifying a value for a parameter.
  • the processing unit 120 may determine the value specified by the operation received by the receiving unit 150 as the parameter.
  • FIG. 20 shows another example of two smooth functions according to the present embodiment.
  • the smooth functions shown in (a) and (b) of FIG. 20 are determined so that the parameters that specify the smooth functions vary irregularly.
  • the parameters should be determined by simulating the nature of the wind speed of the wind W.
  • the fluctuations in the wind speed of the wind W include fluctuations, that is, in real space, the wind speed is not constant but fluctuates while fluctuating.
  • the wind W may blow at the listener L at a first wind speed, and then at a second wind speed that is different from the first wind speed.
  • the parameters should be determined by simulating the nature of the wind speed fluctuating while fluctuating.
  • the maximum value of the smooth function should not exceed 3, and the minimum value of the smooth function should not fall below 0. In other words, the value indicated by the smooth function should be between 0 and 3 inclusive.
  • the parameters should be determined so that the values indicated by the smooth function are as described above.
  • the reason why the maximum value of the smooth function should not exceed 3 is as follows.
  • fluctuations in the speed of the wind W include fluctuations, and there are cases where the wind W blows at a strong wind speed (instantaneous wind speed) instantaneously.
  • the wind speed is, for example, the 10-minute average wind speed
  • the instantaneous wind speed is, for example, the 3-second average wind speed.
  • the instantaneous wind speed is about 1.5 to 3 times the wind speed.
  • the value indicated by the smooth function is the ratio between the wind speed of the aerodynamic sound, which is the reference sound, and the wind speed of the aerodynamic sound indicated by the sound data after processing.
  • the processing unit 120 determines a smooth function such that the maximum value of the smooth function is Vp/Va. More specifically, the processing unit 120 determines parameters that specify the smooth function such that the maximum value of the smooth function is Vp/Va.
  • the reception unit 150 receives an instruction specifying Va, which is the wind speed of wind W, and Vp, which is the instantaneous wind speed of wind W, and the processing unit 120 determines parameters that specify the smooth function such that the maximum value of the smooth function is Vp/Va in accordance with the received instruction.
  • the display unit of the audio signal processing device 100 displays an image in which words indicating the strength of the wind W are linked to the wind speed and instantaneous wind speed of the wind W indicated by the words.
  • the image for example, when the word is "slightly strong wind", the wind speed is linked to "10 or more and less than 15 (m/s)" and the instantaneous wind speed is linked to "20 (m/s)". Also, in the image, when the word is “strong wind”, the wind speed is linked to "15 or more and less than 20 (m/s)" and the instantaneous wind speed is linked to "30 (m/s)".
  • a user of the audio signal processing device 100 visually views the image displayed on the display unit.
  • the reception unit 150 receives an instruction from the user to specify words expressing the strength of the wind W.
  • the processing unit 120 determines the wind speed and instantaneous wind speed associated with the words specified by the received instruction as Va and Vp, and determines parameters that specify a smooth function such that the maximum value of the smooth function is Vp/Va.
  • the processing unit 120 also divides the aerodynamic sound data into processing frames F of a predetermined time, and the average value of this predetermined time is preferably 3 seconds.
  • the instantaneous wind speed is, for example, the 3-second average wind speed. Therefore, by making the average value of the predetermined time 3 seconds, the predetermined time can be made to correspond to the time for measuring the instantaneous wind speed (i.e. 3 seconds), and the strong wind speed (instantaneous wind speed) of the wind W that blows momentarily in the virtual space can be made to approximate the wind that blows in the real space.
  • FIG. 21 is a diagram showing an example in which the parameters that specify the smooth function according to this embodiment are changed.
  • FIG. 21(a) shows the same smooth function as FIG. 13.
  • FIG. 21(b) shows a smooth function in which T in the above formula is changed.
  • FIG. 21(c) shows a smooth function in which H in the above formula is changed.
  • FIG. 21(d) shows a smooth function in which x in the above formula is changed.
  • FIG. 21(e) shows a smooth function in which y in the above formula is changed.
  • the processed aerodynamic sound data is output to the headphones 200, which is one output channel, but this is not limited to this.
  • the processed aerodynamic sound data may be output to each of the first output channel and the second output channel.
  • the first output channel outputs aerodynamic sound to one ear of the listener L
  • the second output channel outputs aerodynamic sound to the other ear of the listener L.
  • the processing unit 120 determines a first parameter and a second parameter that each specify a smooth function.
  • the processing unit 120 processes the acquired sound data (aerodynamic sound data) so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on the smooth function specified by the first parameter determined by the processing unit 120.
  • This processed aerodynamic sound data is referred to as aerodynamic sound data A.
  • the processing unit 120 processes the acquired sound data (aerodynamic sound data) so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on the smooth function specified by the second parameter determined by the processing unit 120.
  • This processed aerodynamic sound data is referred to as aerodynamic sound data B.
  • the output unit 130 outputs the sound data (aerodynamic sound data A) processed based on the smooth function specified by the determined first parameter to a first output channel.
  • the output unit 130 outputs the sound data (aerodynamic sound data B) processed based on the smooth function specified by the determined second parameter to a second output channel.
  • FIG. 22 shows another example of two smooth functions according to the present embodiment.
  • FIG. 22(a) shows a smooth function specified by a first parameter
  • FIG. 22(b) shows a smooth function specified by a second parameter.
  • the first output channel is the channel that outputs to the right ear
  • the second output channel is the channel that outputs to the left ear.
  • the first and second parameters should be determined by simulating the nature of the direction (wind direction) of the wind W.
  • the change in the direction (wind direction) of the wind W includes fluctuations, that is, in real space, the wind direction is not constant but fluctuates.
  • the wind W may blow from the right side of the listener L, and then blow from in front of the listener L.
  • the first and second parameters should be determined by simulating the nature of the wind direction fluctuating and changing.
  • FIG. 23 is a block diagram showing the functional configuration of the acoustic signal processing device 100a according to this modified example.
  • the acoustic signal processing device 100a according to this modified example has the same configuration as the acoustic signal processing device 100 according to embodiment 1, except that it has a processing device 120a instead of the processing device 120.
  • the processing unit 120a has a first processing unit 121 and a second processing unit 122.
  • the first processing unit 121 performs the processing of step S30 described in FIG. 14.
  • the second processing unit 122 performs the following processing based on the value indicated by the smooth function determined by the first processing unit 121.
  • FIG. 24 is a block diagram showing the functional configuration of the second processing unit 122 according to this modified example.
  • the second processing unit 122 has a sampling rate conversion unit 1001, a rearrangement unit 1002, and a connection unit 1003.
  • the sampling rate conversion unit 1001 acquires sound data (aerodynamic sound data) that indicates the waveform of the reference sound and the value indicated by the smooth function determined by the first processing unit 121.
  • the sampling rate conversion unit 1001 converts the sampling rate of the aerodynamic sound data for each processing frame F, based on the value indicated by the acquired smooth function.
  • the sampling rate of the aerodynamic sound data is Fs
  • the interval (sample interval) between sample points of the aerodynamic sound data before processing is 1/Fs seconds.
  • the sampling rate conversion unit 1001 upsamples the aerodynamic sound data so that the sample interval is 0.5 times (1/(2 ⁇ Fs)), i.e., the sampling rate is 2 ⁇ Fs. If the value indicated by the smooth function is 2, the sampling rate conversion unit 1001 downsamples the aerodynamic sound data so that the sample interval is twice (2/Fs), i.e., the sampling rate is Fs/2. The sampling rate conversion unit outputs the aerodynamic sound data with the sampling rate converted to the rearrangement unit 1002.
  • the rearrangement unit 1002 performs processing to return the interval between aerodynamic sound data after sampling rate conversion to Fs. With this processing, when the value indicated by the smooth function is greater than 1, the aerodynamic sound data is played back at a faster speed. Conversely, when the value indicated by the smooth function is less than 1, the aerodynamic sound data is played back at a slower speed. This shifts the frequency components of the aerodynamic sound data toward the higher or lower frequency ranges, making it possible to generate aerodynamic sound with a natural sense of fluctuation. Next, the rearrangement unit 1002 outputs the aerodynamic sound data with the sample point positions rearranged to the connection unit 1003.
  • the connection unit 1003 performs processing to prevent discontinuity between processing frames F. This processing will be explained using two processing frames F.
  • the two processing frames F are a previous processing frame and a current processing frame.
  • the current processing frame is the processing frame F that is the target of processing by the processing unit 120 at that time, and the previous processing frame is the processing frame F immediately before the current processing frame.
  • the connection unit 1003 performs a windowed addition process on multiple sample points located behind the rearranged aerodynamic sound data generated from the aerodynamic sound data of the previous processing frame, and multiple sample points located before the rearranged aerodynamic sound data generated from the aerodynamic sound data of the current processing frame. This process avoids discontinuities between processing frames F that occur due to fluctuations in the values indicated by the smooth function.
  • FIG. 25 is a diagram showing aerodynamic sound data according to this modified example.
  • FIG. 26 is a conceptual diagram of processing by the second processing unit 122 according to this modified example. Aerodynamic sound data is processed in units of processing frames F. Two adjacent processing frames F are set so that they partially overlap each other. This is to avoid discontinuity by performing windowed addition on one or more sample points located behind among the multiple sample points after rearrangement of the previous processing frame and one or more sample points located ahead among the multiple sample points after rearrangement of the current processing frame. For example, as shown in FIG. 25, two adjacent processing frames Fn and Fn+1 partially overlap each other. More specifically, the two processing frames Fn and Fn+1 overlap during the time period from time t14 to time t13. Note that processing frame Fn corresponds to the previous processing frame, and processing frame Fn+1 corresponds to the current processing frame.
  • sampling rate of the aerodynamic sound data is Fs
  • the value indicated by the smooth function for processing frame Fn is 0.5
  • the value indicated by the smooth function for processing frame Fn+1 is 0.75.
  • the value indicated by the smooth function is 0.5
  • sampling rate conversion is performed so that the sampling rate becomes 2 ⁇ Fs (sample interval is 1/(2 ⁇ Fs)).
  • the rearrangement unit 1002 then rearranges the positions of the sample points after sampling rate conversion so that the sample interval becomes 1/Fs, in other words, so that the original positions are restored. Therefore, the time length of the sample points after rearrangement is twice the time length of the sample points of the aerodynamic sound data converted by the sampling rate conversion unit 1001.
  • one or more rearmost sample points among the rearranged sample points are windowed together with one or more frontmost sample points among the rearranged sample points in the current processing frame, and the result is output.
  • the value indicated by the smooth function in processing frame n+1 is 0.75, so the time length of the rearranged sample points is 4/3 times the time length of the sample points of the aerodynamic sound data converted by the sampling rate conversion unit 1001. Note that rearranged sample points in sections where windowed addition is not performed are output as sound data as is.
  • sampling rate conversion unit 1001 will now be explained in more detail using Figure 27.
  • FIG. 27 is a block diagram showing the functional configuration of the sampling rate conversion unit 1001 according to this modified example.
  • the sampling rate conversion unit 1001 has an upsampling unit 1021, a low-pass filter unit 1022, a downsampling unit 1023, and an XY setting unit 1024.
  • the upsampling unit 1021 acquires sound data (aerodynamic sound data), and the XY setting unit 1024 acquires a value indicated by the smooth function.
  • the XY setting unit 1024 sets an upsampling value X used by the upsampling unit 1021 and a downsampling value Y used by the downsampling unit 1023.
  • the upsampling value is X
  • the upsampling unit 1021 upsamples the aerodynamic sound data by X times.
  • the downsampling value is Y
  • the downsampling unit 1023 downsamples the aerodynamic sound data by 1/Y times.
  • the upsampling unit 1021 inserts X-1 zero values between sample points.
  • the downsampling unit 1023 thins out every Y sample points and outputs them.
  • the low-pass filter unit 1022 performs the following processing to prevent aliasing distortion.
  • the sampling rate of the aerodynamic sound data is Fs
  • the sampling rate of the aerodynamic sound data after sampling rate conversion is Fs'.
  • the low-pass filter unit 1022 processes the aerodynamic sound data output from the upsampling unit 1021 using a low-pass filter with characteristics such that the cutoff frequency is min(Fs, Fs')/2.
  • the value indicated by the smooth function is one of the values 0.25, 0.5, 1, 2, and 4.
  • the value indicated by the smooth function is one of the values 0.5, 0.75, 1, 1.5, and 2.
  • the possible values or numbers indicated by the smooth function are not limited to those exemplified here.
  • FIG. 28 is a state transition diagram of the values indicated by the smooth function according to this modified example. That is, FIG. 28 shows the transition over time of the values indicated by the smooth function. Each circle represents a state, and when in state p(0), p(0) is output as the value indicated by the smooth function. Furthermore, a(e, f) indicates the probability of transitioning from state e to state f. To represent natural sound fluctuations, it is desirable to have a setting that only allows transitions to the same state or adjacent states, as in this example, but depending on the application, more intense fluctuations may be desired, so any transition may be specified without being limited to this example.
  • processing may be performed to vary the amplitude value of the aerodynamic sound data acquired by the sampling rate conversion unit 1001.
  • FIG. 29 is a block diagram showing another functional configuration of the acoustic signal processing device 100a according to this modified example.
  • the processing unit 120a of the acoustic signal processing device 100a has a second processing unit 122b instead of the second processing unit 122.
  • the second processing unit 122b has a sampling rate conversion unit 1001, an amplitude adjustment unit 1031, a rearrangement unit 1002, and a connection unit 1003.
  • an amplitude adjustment unit 1031 is placed after the sampling rate conversion unit 1001.
  • This amplitude adjustment unit 1031 corrects the amplitude value so that the amplitude value of the aerodynamic sound data after sampling rate conversion output from the sampling rate conversion unit 1001 fluctuates.
  • a method of correction for example, it may be fluctuated over time as shown in the state transition diagram of values indicated by the smooth function in FIG. 28.
  • it may be configured to use one of a number of amplitude fluctuation patterns prepared in advance and correct the amplitude value by multiplying the aerodynamic sound data by the amplitude fluctuation pattern.
  • the amplitude adjustment unit 1031 may be located after the rearrangement unit 1002 or after the connection unit 1003.
  • Fig. 30 is a block diagram showing the functional configuration of information processing device 600 according to this embodiment.
  • the information processing device 600 includes a cyclic address unit 610, a frequency shift unit 620, a memory unit 630, a section designation unit 640, a cross-fade unit 650, and a read control unit 660.
  • the information processing device 600 is used to solve at least one of these problems.
  • FIG. 31 is a diagram for explaining the reading of sound data according to the conventional technology and the reading of sound data according to this embodiment.
  • FIG. 31(a) is a diagram for explaining the reading of sound data according to the conventional technology
  • FIG. 31(b) is a diagram for explaining the reading of sound data according to this embodiment.
  • a storage unit in which aerodynamic sound data is stored, and a cyclic address unit cyclically cycles from the start address at which the aerodynamic sound data in the storage unit is stored to the end address at which the aerodynamic sound data is stored.
  • the cyclic address unit reads out the aerodynamic sound data from the storage unit and outputs it.
  • the aerodynamic sound data (for example the unprocessed aerodynamic sound data D1 shown in FIG. 15) is made up of multiple sample points, more specifically, it is made up of N sample points as shown in FIG. 31(b).
  • the first M sample points of the aerodynamic sound data and the last M sample points are cross-faded in advance to create M cross-faded sample points.
  • (N-2M) samples are created in the middle part of the aerodynamic sound data, excluding the first M sample points and the last M sample points.
  • aerodynamic sound data consisting of (N-M) samples combining M cross-faded sample points and (N-2M) samples in the middle portion is stored.
  • a series of (N-M) addresses corresponding to the aerodynamic sound data consisting of (N-M) samples are set in this storage unit 630.
  • the cyclic address unit 610 cyclically cycles from the start address to the end address of aerodynamic sound data composed of (N-M) samples stored in the storage unit 630, reads out the aerodynamic sound data, and outputs it to the frequency shift unit 620.
  • the frequency shift unit 620 acquires the output aerodynamic sound data, shifts its frequency, and outputs it to an output channel such as the headphones 200 according to the first embodiment.
  • the first M sample points and the last M sample points are cross-faded, so problems such as noise occurring at the joins between aerodynamic sound data are unlikely to occur.
  • FIG. 32 is a diagram for explaining the processing performed by the information processing device 600 according to this embodiment.
  • FIG. 32 is a diagram showing the configuration of the storage unit 630 according to this embodiment.
  • the storage unit 630 stores aerodynamic sound data (for example, the unprocessed aerodynamic sound data D1 shown in Figure 15), and is provided with a first pointer Pt1 and a second pointer Pt2.
  • the first pointer Pt1 indicates the read position from which the stored aerodynamic sound data is read.
  • the second pointer Pt2 is a pointer that moves in conjunction with the first pointer Pt1, and is a pointer that indicates the read position from which the aerodynamic sound data is read from the storage unit 630.
  • the interval designation unit 640 designates a first interval A1 and a second interval A2.
  • the second interval A2 is a subsequent interval adjacent to the first interval A1.
  • the second pointer Pt2 moves through a subsequent interval A3 adjacent to the second interval A2.
  • the first section A1 and the second section A2 can be arbitrarily set by the user of the information processing device 600. That is, the reception unit of the information processing device 600 receives an operation from the user specifying the first section A1 and the second section A2, and the section designation unit 640 determines the sections specified by the received operation as the first section A1 and the second section A2.
  • the cross-fade unit 650 performs fade-in processing on the aerodynamic sound data read from the read position indicated by the first pointer Pt1, and outputs the faded-in aerodynamic sound data.
  • the cross-fade unit 650 performs fade-out processing on the aerodynamic sound data read from the read position indicated by the second pointer Pt2, and outputs the faded-out aerodynamic sound data.
  • the read control unit 660 causes the cross-fade unit 650 to output aerodynamic sound data that has been faded in while the read position indicated by the first pointer Pt1 is included in the first section A1 and aerodynamic sound data is being read from the first section A1.
  • the read control unit 660 outputs aerodynamic sound data read from the second section A2 by the cyclic address unit 610 while the read position indicated by the first pointer Pt1 is not included in the first section A1 and aerodynamic sound data is not being read from the first section A1.
  • the fade-in processed aerodynamic sound data output by the cross-fade unit 650, or the aerodynamic sound data read from the second section A2 by the cyclic address unit 610 is output to the frequency shift unit 620.
  • the frequency shift unit 620 acquires the fade-in processed aerodynamic sound data that has been output, or the aerodynamic sound data that has been read from the second section A2, shifts the frequency, and outputs it to an output channel such as the headphones 200 according to embodiment 1, for example.
  • FIG. 32 is a diagram showing an example in which the first pointer Pt1 according to this embodiment circulates between the first section A1 and the second section A2.
  • the first pointer Pt1 circulates between the first section A1 and the second section A2. While the read position indicated by the first pointer Pt1 is included in the first section A1, aerodynamic sound data is read from the read position indicated by the first pointer Pt1, and aerodynamic sound data is also read from the read position indicated by the second pointer Pt2 linked to the first pointer Pt1.
  • the cross-fade unit 650 performs cross-fade processing on the two aerodynamic sound data that have been read.
  • the read position indicated by the first pointer Pt1 is included in the first section A1
  • the read position indicated by the second pointer Pt2 linked to the first pointer Pt1 is included in the section A3 linked to the first section A1, and aerodynamic sound data is also read from the section A3.
  • FIG. 32 is a diagram showing an example in which the second pointer Pt2 according to this embodiment circulates between the second section A2 and section A3.
  • the second pointer Pt2 circulates between the second section A2 and section A3. While the read position indicated by the second pointer Pt2 is included in section A3, aerodynamic sound data is read from the read position indicated by the second pointer Pt2, and aerodynamic sound data is also read from the read position indicated by the first pointer Pt1.
  • the cross-fade unit 650 performs cross-fade processing on the two aerodynamic sound data that have been read.
  • the read position indicated by the second pointer Pt2 is included in the second section A2
  • the read position indicated by the first pointer Pt1 is included in the first section A1 in conjunction with the second pointer Pt2, and aerodynamic sound data is also read from the first section A1.
  • Figure 33 is a diagram for explaining other processing performed by the information processing device 600 according to this embodiment.
  • the interval designation unit 640 randomly updates the first interval A1 and the second interval A2.
  • the interval designation unit 640 sequentially updates the position of the end point of the second interval A2 and the positions of the start point and end point of the next first interval A1.
  • FIG. 33 the state in which aerodynamic sound data is read out transitions in the order of FIG. 33(a), FIG. 33(b), FIG. 33(c), FIG. 33(d), FIG. 33(e), FIG. 33(f), and FIG. 33(g).
  • FIG. 33 show state 1 in which aerodynamic sound data is read out
  • (b) and (e) of FIG. 33 show state 2 in which aerodynamic sound data is read out
  • (c) and (f) of FIG. 33 show state 3 in which aerodynamic sound data is read out.
  • the predetermined timing can be set arbitrarily by the user of the information processing device 600. That is, a reception unit included in the information processing device 600 can receive an operation from the user instructing the predetermined timing, and the interval designation unit 640 can determine the timing instructed by the received operation as the predetermined timing.
  • state 1, state 2, and state 3 are repeated in this order, and by randomly specifying the end point of the second section A2 and the next first section A1 in state 2, the listener L is prevented from repeatedly hearing the same aerodynamic sound. Therefore, the unnatural "rhythm" that occurs when the same aerodynamic sound is repeated is not generated.
  • FIG. 34 is a functional block diagram and a diagram showing an example of steps for explaining a case where the rendering units A0203 and A0213 in FIG. 6 and FIG. 7 perform pipeline processing.
  • the explanation in FIG. 34 the explanation will be given using a rendering unit 900, which is an example of the rendering units A0203 and A0213 in FIG. 6 and FIG. 7.
  • Pipeline processing refers to dividing the process for creating sound effects into multiple processes and executing each process one by one in sequence. Each of the divided processes performs, for example, signal processing on the audio signal, or the generation of parameters to be used in the signal processing.
  • the rendering unit 900 in this embodiment includes, as pipeline processing, processing for applying, for example, a reverberation effect, early reflection processing, distance attenuation effect, binaural processing, and the like.
  • pipeline processing processing for applying, for example, a reverberation effect, early reflection processing, distance attenuation effect, binaural processing, and the like.
  • the above processing is only an example, and other processing may be included, or some processing may not be included.
  • the rendering unit 900 may include diffraction processing or occlusion processing as pipeline processing, or may omit reverberation processing, for example, if it is not necessary.
  • each processing may be expressed as a stage, and an audio signal such as a reflected sound generated as a result of each processing may be expressed as a rendering item.
  • the order of each stage in the pipeline processing and the stages included in the pipeline processing are not limited to the example shown in FIG. 34.
  • the rendering unit 900 does not necessarily have to include all of the stages shown in FIG. 34; some stages may be omitted, or other stages may exist in addition to the rendering unit 900.
  • each process analyzes the metadata contained in the input signal and calculates the parameters required to generate reflected sounds.
  • the rendering unit 900 includes a reverberation processing unit 901, an early reflection processing unit 902, a distance attenuation processing unit 903, a selection unit 904, a calculation unit 906, a generation unit 907, and a binaural processing unit 905.
  • the reverberation processing unit 901 performs a reverberation processing step
  • the early reflection processing unit 902 performs an early reflection processing step
  • the distance attenuation processing unit 903 performs a distance attenuation processing step
  • the selection unit 904 performs a selection processing step
  • the binaural processing unit 905 performs a binaural processing step.
  • the reverberation processor 901 In the reverberation processing step, the reverberation processor 901 generates an audio signal indicating reverberation or parameters required for generating an audio signal.
  • Reverberation is a sound that includes reverberation that reaches the listener as reverberation after direct sound.
  • reverberation is a reverberation that reaches the listener after being reflected more times (e.g., several tens of times) than the initial reflection sound, at a relatively late stage (e.g., about a hundred and several tens of ms after the direct sound arrives) after the initial reflection sound described below reaches the listener.
  • the reverberation processor 901 refers to the audio signal and spatial information contained in the input signal, and performs calculations using a predetermined function prepared in advance to generate reverberation.
  • the reverberation processor 901 may generate reverberation by applying a known reverberation generation method to the sound signal.
  • a known reverberation generation method is the Schroeder method, but is not limited to this.
  • the reverberation processor 901 uses the shape and acoustic characteristics of the sound reproduction space indicated by the spatial information. This allows the reverberation processor 901 to calculate parameters for generating an audio signal indicating reverberation.
  • the early reflection processing unit 902 calculates parameters for generating an early reflection sound based on the spatial information.
  • the early reflection sound is a reflection sound that reaches the listener after one or more reflections at a relatively early stage (for example, about several tens of milliseconds after the direct sound arrives) after the direct sound from the sound source object reaches the listener.
  • the early reflection processing unit 902 refers to the sound signal and metadata, for example, and calculates the path (path length) of the reflection sound that reflects from the sound source object to the object and reaches the listener using the shape, size, and position of objects such as structures of the three-dimensional sound field (space), and the reflectance of the object.
  • the early reflection processing unit 902 may also calculate the path (path length) of the direct sound. Information indicating the path may be used as a parameter for generating the early reflection sound, and may also be used as a parameter for the selection process of the reflection sound in the selection unit 904.
  • the distance attenuation processing unit 903 calculates the volume of the sound reaching the listener based on the difference between the path length of the direct sound and the path length of the reflected sound calculated by the early reflection processing unit 902. Since the volume of the sound reaching the listener attenuates in proportion to the distance to the listener (inversely proportional to the distance) relative to the volume of the sound source, the volume of the direct sound can be obtained by dividing the volume of the sound source by the length of the path of the direct sound, and the volume of the reflected sound can be calculated by dividing the volume of the sound source by the length of the path of the reflected sound.
  • the selection unit 904 selects the sound to be generated.
  • the selection process may be performed based on parameters calculated in the previous step.
  • sounds not selected in the selection process do not need to be subjected to processing subsequent to the selection process in the pipeline processing.
  • processing subsequent to the selection process for sounds not selected it is possible to reduce the computational load on the acoustic signal processing device 100 compared to the case where it is decided not to execute only binaural processing for sounds not selected.
  • the order of the selection process is set to be executed in an earlier order among the orders of multiple processes in the pipeline process, more processing after the selection process can be omitted, and the amount of calculation can be reduced even more.
  • the selection process is executed in an order prior to the processing of the calculation unit 906 and the generation unit 907, processing of aerodynamic sounds related to objects that have been determined not to be selected can be omitted, and the amount of calculation in the acoustic signal processing device 100 can be reduced even further.
  • parameters calculated as part of the pipeline process that generates the rendering items may be used by the selection unit 904 or the calculation unit 906.
  • the binaural processing unit 905 performs signal processing on the audio signal of the direct sound so that the sound is perceived as reaching the listener from the direction of the sound source object. Furthermore, the binaural processing unit 905 performs signal processing so that the reflected sound is perceived as reaching the listener from an obstacle object related to the reflection. Based on the coordinates and orientation of the listener in the sound space (i.e., the position and orientation of the listening point), a process is performed to apply a HRIR (Head-Related Impulse Responses) DB (Data base) so that the sound reaches the listener from the position of the sound source object or the position of the obstacle object. Note that the position and direction of the listening point may be changed in accordance with, for example, the movement of the listener's head. Also, information indicating the position of the listener may be obtained from a sensor.
  • HRIR Head-Related Impulse Responses
  • HRIR Head-Related Impulse Responses
  • HRIR Head-Related Impulse Responses
  • HRIR is a response characteristic that is converted from an expression in the frequency domain to an expression in the time domain by Fourier transforming the head-related transfer function, which represents the changes in sound caused by surrounding objects including the auricle, the human head, and shoulders as a transfer function.
  • the HRIR DB is a database that contains such information.
  • the rendering unit 900 may include processing units not shown.
  • it may include a diffraction processing unit or an occlusion processing unit.
  • the diffraction processing unit executes a process to generate an audio signal that indicates a sound that includes diffracted sound caused by an obstacle between the listener and the sound source object in a three-dimensional sound field (space).
  • diffracted sound is sound that travels from the sound source object to the listener by going around the obstacle.
  • the diffraction processing unit refers to the sound signal and metadata, and uses the position of the sound source object in the three-dimensional sound field (space), the position of the listener, and the positions, shapes, and sizes of obstacles to calculate a path from the sound source object to the listener, bypassing obstacles, and generates diffracted sound based on that path.
  • the occlusion processing unit generates an audio signal that can be heard when a sound source object is located behind an obstacle object, based on the spatial information acquired in any of the steps and information such as the material of the obstacle object.
  • the position information given to the sound source object is defined as a "point" in the virtual space, and the details of the invention have been described assuming that the sound source is a so-called "point sound source”.
  • a spatially extended sound source that is not a point sound source may be defined as an object having a length, size, or shape. In such a case, since the distance between the listener and the sound source or the direction from which the sound comes is not determined, the reflected sound resulting from this may be limited to the processing of "selecting" by the selection unit 904 without analysis or regardless of the analysis result.
  • a representative point such as the center of gravity of the object may be determined, and the processing of the present disclosure may be applied assuming that the sound is generated from that representative point.
  • the threshold value may be adjusted according to the information on the spatial extension of the sound source before applying the processing of the present disclosure.
  • the bitstream includes, for example, an audio signal and metadata.
  • the audio signal is sound data that represents sound, and indicates information about the frequency and intensity of the sound.
  • the spatial information included in the metadata is information about the space in which a listener who hears a sound based on the audio signal is located. Specifically, the spatial information is information about a specific position (localization position) when the sound image of the sound is localized at a specific position in a sound space (for example, in a three-dimensional sound field), that is, when the listener perceives the sound as arriving from a specific direction.
  • the spatial information includes, for example, sound source object information and position information indicating the position of the listener.
  • Sound source object information is information about an object that generates sound based on an audio signal, that is, that reproduces an audio signal, and is information about a virtual object (sound source object) that is placed in a sound space, which is a virtual space that corresponds to the real space in which the object is placed.
  • Sound source object information includes, for example, information indicating the position of the sound source object placed in the sound space, information about the orientation of the sound source object, information about the directionality of the sound emitted by the sound source object, information indicating whether the sound source object belongs to a living thing, and information indicating whether the sound source object is a moving object.
  • an audio signal corresponds to one or more sound source objects indicated by the sound source object information.
  • the bitstream is composed of metadata (control information) and an audio signal.
  • the audio signal and metadata may be stored in a single bitstream or may be stored separately in multiple bitstreams. Similarly, the audio signal and metadata may be stored in a single file or may be stored separately in multiple files.
  • a bitstream may exist for each sound source, or for each playback time. If a bitstream exists for each playback time, multiple bitstreams may be processed in parallel at the same time.
  • Metadata may be added to each bitstream, or may be added together as information for controlling multiple bitstreams. Metadata may also be added for each playback time.
  • the audio signal and metadata may be included in information indicating other bitstreams or files related to one or some of the bitstreams or files, or the audio signal and metadata may be included in information indicating other bitstreams or files related to each of all the bitstreams or files.
  • the related bitstreams or files are, for example, bitstreams or files that may be used simultaneously during audio processing.
  • the related bitstreams or files may include a bitstream or file that collectively describes information indicating other related bitstreams or files.
  • the information indicating other related bitstreams or files is, for example, an identifier indicating the other bitstream, a file name indicating the other file, a URL (Uniform Resource Locator) or a URI (Uniform Resource Identifier), etc.
  • the acquisition unit 110 identifies or acquires the bitstream or file based on the information indicating the other related bitstreams or files.
  • the bitstream may contain information indicating other related bitstreams, and may contain information indicating a bitstream or file related to another bitstream or file.
  • a file containing information indicating a related bitstream or file may be, for example, a control file such as a manifest file used in content distribution.
  • the metadata may be obtained from sources other than the bitstream of the audio signal.
  • the metadata that controls the audio or the metadata that controls the video may be obtained from sources other than the bitstream, or both may be obtained from sources other than the bitstream.
  • the audio signal reproduction system may have a function of outputting metadata that can be used to control the video to a display device that displays images, or a 3D video reproduction device that reproduces 3D video.
  • Metadata may be information used to describe a scene represented in sound space.
  • a scene is a term that refers to the collection of all elements that represent three-dimensional images and acoustic events in sound space, which are modeled in an audio signal reproduction system using metadata.
  • metadata here may include not only information that controls audio processing, but also information that controls video processing.
  • metadata may include information that controls only audio processing or video processing, or information used to control both.
  • the audio signal reproduction system generates virtual sound effects by performing acoustic processing on the audio signal using metadata included in the bitstream and additionally acquired interactive listener position information.
  • acoustic processing such as distance attenuation effect, localization, and Doppler effect.
  • information for switching all or part of the acoustic effects on and off, and priority information may be added as metadata.
  • the encoded metadata includes information about a sound space including a sound source object and an obstacle object, and information about a position when the sound image of the sound is localized at a specific position in the sound space (i.e., perceived as a sound arriving from a specific direction).
  • an obstacle object is an object that can affect the sound perceived by the listener, for example by blocking or reflecting the sound emitted by the sound source object before it reaches the listener.
  • Obstacle objects can include not only stationary objects, but also animals such as people, or moving objects such as machines.
  • the other sound source objects can be obstacle objects for any sound source object.
  • Non-sound-emitting objects which are objects that do not emit sound, such as building materials or inanimate objects, and sound source objects that emit sound can both be obstacle objects.
  • the metadata includes all or part of the information that represents the shape of the sound space, the shape and position information of obstacle objects that exist in the sound space, the shape and position information of sound source objects that exist in the sound space, and the position and orientation of the listener in the sound space.
  • the sound space may be either a closed space or an open space.
  • the metadata also includes information that indicates the reflectance of structures that can reflect sound in the sound space, such as floors, walls, or ceilings, and the reflectance of obstacle objects that exist in the sound space.
  • the reflectance is the ratio of the energy of the reflected sound to the incident sound, and is set for each frequency band of sound. Of course, the reflectance may be set uniformly regardless of the frequency band of sound.
  • parameters such as a uniform attenuation rate, diffracted sound, and early reflected sound may be used.
  • reflectance was mentioned as a parameter related to an obstacle object or sound source object included in the metadata, but information other than reflectance may also be included.
  • information other than reflectance may include information related to the material of the object as metadata related to both sound source objects and non-sound-producing objects.
  • information other than reflectance may include parameters such as diffusion rate, transmittance, and sound absorption rate.
  • Information about the sound source object may include volume, radiation characteristics (directivity), playback conditions, the number and type of sound sources emitted from one object, and information specifying the sound source area in the object.
  • the playback conditions may determine, for example, whether the sound is a continuous sound or an event-triggered sound.
  • the sound source area in the object may be determined in a relative relationship between the listener's position and the object's position, or may be determined based on the object.
  • the surface of the object the listener is looking at is used as the reference, and the listener can perceive that sound C is emitted from the right side of the object and sound E is emitted from the left side of the object as seen from the listener.
  • the sound source area in the object is determined based on the object, it is possible to fix which sound is emitted from which area of the object, regardless of the direction the listener is looking. For example, the listener can perceive that a high-pitched sound is coming from the right side and a low-pitched sound is coming from the left side when the object is viewed from the front. In this case, if the listener goes around to the back of the object, the listener can perceive that a low-pitched sound is coming from the right side and a high-pitched sound is coming from the left side when viewed from the back.
  • Spatial metadata can include time to early reflections, reverberation time, and the ratio of direct sound to diffuse sound. If the ratio of direct sound to diffuse sound is zero, the listener will only perceive direct sound.
  • the acoustic signal processing method includes an acquisition step of acquiring sound data indicating a waveform of a reference sound, a processing step of processing the sound data so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on simulation information in which fluctuations in a natural phenomenon are simulated, and an output step of outputting the processed sound data.
  • sound data is processed to change at least one of the frequency components, phase, and amplitude of the waveform based on simulation information that simulates fluctuations in natural phenomena that contain fluctuations.
  • fluctuations occur in at least one of the frequency components, phase, and amplitude
  • the sound represented by the processed sound data also has fluctuations in at least one of the frequency components, phase, and amplitude. Therefore, the listener L can hear a sound in which at least one of the frequency components, phase, and amplitude has occurred, and the listener L is less likely to feel uncomfortable and can obtain a sense of realism.
  • an acoustic signal processing method that can give the listener L a sense of realism is realized.
  • the simulated information is information that simulates the fluctuations of a natural phenomenon that includes fluctuations, and more specifically, is information that expresses the fluctuations due to the fluctuations in the wind speed of the wind W, and in the operation example 1, is information that is represented by a smooth function.
  • sound data (aerodynamic sound data) indicating the waveform of a reference sound is processed so that the frequency components of the waveform change based on simulation information that simulates fluctuations in natural phenomena that contain fluctuations.
  • fluctuations occur in the frequency components of the processed aerodynamic sound data, and the aerodynamic sound indicated by the processed aerodynamic sound data also has fluctuations in the frequency components. Therefore, listener L can hear aerodynamic sound with such fluctuations in the frequency components, and can obtain a sense of realism without feeling unnatural.
  • an acoustic signal processing method that can provide listener L with a sense of realism is realized.
  • the example of wind W blowing is used as a natural phenomenon, but this is not limited to this, and natural phenomena such as flowing water in a river or animal behavior may also be used.
  • the listener L will hear the babbling sound caused by the flowing river water.
  • the simulated information is information that expresses fluctuations caused by changes in the flow speed of the river water or changes in the flow direction of the river water.
  • the listener L When the example of animal behavior is used as a natural phenomenon, the listener L will hear the animal's cries, etc.
  • the simulated information is information that expresses fluctuations due to changes in the volume of the animal's cries, etc.
  • the simulated information is information that simulates the fluctuations of the natural phenomenon that includes fluctuations. Therefore, as shown in operation example 1, by using the simulated information, the listener L can hear a sound in which at least one of the frequency components, phase, and amplitude number fluctuates, and the listener L can obtain a sense of realism without feeling strange. In other words, an acoustic signal processing method that can provide the listener L with a sense of realism is realized.
  • the reference sound is an aerodynamic sound generated by wind W
  • the sound data is processed so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on simulation information that simulates fluctuations in the wind speed of the wind W.
  • the listener L can hear aerodynamic sound with fluctuations in at least one of the frequency components, phase, and amplitude, and the listener L can obtain a sense of realism without feeling any discomfort.
  • an acoustic signal processing method that can provide the listener L with a sense of realism is realized.
  • a smooth function that simulates the fluctuations in the wind speed of the wind W is determined as simulation information, and the sound data is processed so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on the value indicated by the determined smooth function.
  • the value indicated by the smooth function is information indicating the ratio between the wind speed of the aerodynamic sound, which is the reference sound, and the wind speed of the aerodynamic sound indicated by the sound data after processing in the processing step.
  • a smooth function is determined such that the parameters that specify the smooth function vary irregularly.
  • the listener L can hear aerodynamic sound with irregular fluctuations in at least one of the frequency components, phase, and amplitude, and the listener L is less likely to feel uncomfortable and can experience a greater sense of realism.
  • an acoustic signal processing method that can give the listener L a greater sense of realism is realized.
  • sound data is processed so as to shift the frequency components of the waveform to a frequency proportional to the value indicated by the determined smooth function.
  • the listener L can hear a sound with fluctuating frequency components, and the listener L can get a sense of realism without feeling any discomfort.
  • an acoustic signal processing method that can give the listener L a sense of realism is realized.
  • sound data (aerodynamic sound data) indicating the waveform of the reference sound is processed so that the frequency components of the waveform change based on simulated information (smooth function) that simulates fluctuations in the wind speed of the wind W, which contains fluctuations.
  • simulated information smooth function
  • the aerodynamic sound indicated by the processed aerodynamic sound data also has fluctuations in the frequency components. Therefore, the listener L can hear aerodynamic sound with such fluctuations in the frequency components, and can obtain a sense of realism without feeling strange.
  • sound data is processed so that the amplitude value of the waveform is changed in proportion to the ⁇ th power of the value indicated by the determined smooth function.
  • the listener L can hear a sound with fluctuations in the amplitude value, and the listener L can obtain a sense of realism without feeling any discomfort.
  • an acoustic signal processing method that can provide the listener L with a sense of realism is realized.
  • sound data (aerodynamic sound data) indicating the waveform of the reference sound is processed so that the amplitude value of the waveform changes in proportion to the ⁇ power of the value indicated by a smooth function, which is simulation information that simulates fluctuations in the wind speed of the wind W that contains fluctuations.
  • a smooth function which is simulation information that simulates fluctuations in the wind speed of the wind W that contains fluctuations.
  • the acquired sound data is divided into processing frames F of a predetermined time, and the sound data is processed for each divided processing frame F.
  • a smooth function is determined for each divided processing frame F such that the value of the smooth function is 1.0 at the first time and the last time of the processing frame F.
  • parameters that specify a smooth function are determined for each divided processing frame F.
  • the parameter is the time from the first time to the last time.
  • the parameter to be the time from the first time of a processing frame F to the last time of that processing frame F.
  • the parameter is a value related to the maximum value of a smooth function.
  • the parameter varies the position at which the smooth function reaches its maximum value.
  • the parameter is a parameter that varies the steepness of the variation of the smooth function.
  • a first parameter and a second parameter that specify a smooth function are determined, the acquired sound data is processed so as to vary at least one of the frequency components, phase, and amplitude values of the waveform based on the smooth function specified by the determined first parameter, the acquired sound data is processed so as to vary at least one of the frequency components, phase, and amplitude values of the waveform based on the smooth function specified by the determined second parameter, and in the output step, the sound data processed based on the smooth function specified by the determined first parameter is output to a first output channel, and the sound data processed based on the smooth function specified by the determined second parameter is output to a second output channel.
  • aerodynamic sound is sound generated when wind W collides with an object, and in the processing step, parameters are determined by simulating the characteristics of the wind speed of the wind W.
  • parameters are determined by simulating the fluctuations in the wind speed of the wind W, which includes fluctuations. Based on the smooth function specified by these parameters, the sound data can be processed to change at least one of the frequency components, phase, and amplitude of the waveform.
  • aerodynamic sound is sound that is generated when wind W collides with the ear of a listener L who hears the aerodynamic sound, and in the processing step, parameters are determined by simulating the characteristics of the wind direction of the wind W.
  • parameters are determined by simulating the fluctuations in the direction of the wind W, which contains fluctuations. Based on the smooth function specified by these parameters, the sound data can be processed to change at least one of the frequency components, phase, and amplitude of the waveform.
  • the maximum value of the smooth function does not exceed 3.
  • the minimum value of the smooth function does not fall below 0.
  • the acoustic signal processing method includes a receiving step for receiving an instruction specifying Va, which is the wind speed of the wind W, and Vp, which is the instantaneous wind speed of the wind W, and in the processing step, a smooth function is determined so that the maximum value of the smooth function is Vp/Va.
  • the average value for the predetermined time is 3 seconds.
  • the object is an object having a shape resembling an ear.
  • the computer program according to the first embodiment causes a computer to execute the above-described acoustic signal processing method.
  • the acoustic signal processing device 100 includes an acquisition unit 110 that acquires sound data indicating the waveform of a reference sound, a processing unit 120 that processes the sound data so as to change at least one of the frequency components, phase, and amplitude value of the waveform based on simulation information that simulates fluctuations in a natural phenomenon, and an output unit 130 that outputs the processed sound data.
  • the sound data is processed so as to change at least one of the frequency components, phase, and amplitude of the waveform based on simulation information that simulates fluctuations in natural phenomena that contain fluctuations.
  • fluctuations occur in at least one of the frequency components, phase, and amplitude
  • the sound represented by the processed sound data also has fluctuations in at least one of the frequency components, phase, and amplitude. Therefore, the listener L can hear a sound in which at least one of the frequency components, phase, and amplitude has occurred, and the listener L is less likely to feel uncomfortable and can obtain a sense of realism.
  • an acoustic signal processing device 100 that can provide the listener L with a sense of realism is realized.
  • the present disclosure is not limited to these embodiment and modified examples.
  • the present disclosure may be realized by arbitrarily combining the components described in this specification, or by excluding some of the components.
  • the present disclosure also includes modified examples obtained by applying various modifications that a person skilled in the art can think of to the above embodiment and modified examples without departing from the gist of the present disclosure, i.e., the meaning indicated by the words described in the claims.
  • Some of the components constituting the above-mentioned audio signal processing device may be a computer system composed of a microprocessor, ROM, RAM, hard disk unit, display unit, keyboard, mouse, etc.
  • a computer program is stored in the RAM or hard disk unit.
  • the microprocessor achieves its functions by operating in accordance with the computer program.
  • the computer program is composed of a combination of multiple instruction codes that indicate commands for a computer to achieve a specified function.
  • Some of the components constituting the above-mentioned audio signal processing device may be composed of a single system LSI (Large Scale Integration).
  • a system LSI is an ultra-multifunctional LSI manufactured by integrating multiple components on a single chip, and specifically, is a computer system including a microprocessor, ROM, RAM, etc.
  • a computer program is stored in the RAM. The system LSI achieves its functions when the microprocessor operates in accordance with the computer program.
  • Some of the components constituting the above-mentioned audio signal processing device may be composed of an IC card or a standalone module that can be attached to and detached from each device.
  • the IC card or the module is a computer system composed of a microprocessor, ROM, RAM, etc.
  • the IC card or the module may include the above-mentioned ultra-multifunction LSI.
  • the IC card or the module achieves its functions by the microprocessor operating according to a computer program. This IC card or this module may be tamper-resistant.
  • some of the components constituting the above-mentioned audio signal processing device may be the computer program or the digital signal recorded on a computer-readable recording medium, such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray (registered trademark) Disc), semiconductor memory, etc. Also, they may be digital signals recorded on such recording media.
  • a computer-readable recording medium such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray (registered trademark) Disc), semiconductor memory, etc.
  • BD Blu-ray (registered trademark) Disc
  • some of the components constituting the above-mentioned audio signal processing device may transmit the computer program or the digital signal via a telecommunications line, a wireless or wired communication line, a network such as the Internet, data broadcasting, etc.
  • the present disclosure may be the methods described above. It may also be a computer program that implements these methods using a computer, or a digital signal that includes the computer program.
  • the present disclosure may also provide a computer system having a microprocessor and a memory, the memory storing the computer program, and the microprocessor operating in accordance with the computer program.
  • the program or the digital signal may also be implemented by another independent computer system by recording it on the recording medium and transferring it, or by transferring the program or the digital signal via the network, etc.
  • This disclosure can be used in audio signal processing methods and audio signal processing devices, and is particularly applicable to audio systems, etc.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

音響信号処理方法は、基準音の波形を示す音データを取得する取得ステップと、自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する処理ステップと、処理された音データを出力する出力ステップと、を含む。

Description

音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
 本開示は、音響信号処理方法などに関する。
 また、特許文献1には、リアリティのある仮想空間を創出するために、映像及び音を出力する技術が開示されている。この特許文献1においては、当該仮想空間における風の強さの変化にあわせて、風の音も変化させる技術が開示されている。
特開1998-2151162号公報 国際公開第2021/180938号
Yoshinori Dobashi、他2名、Real-time rendering of aerodynamic sound using sound textures based on computational fluid dynamics、ACM Transactions on Graphics、Vol. 22、 No. 3、p732-740
 ところで、特許文献1が示す技術では、受聴者に臨場感を与えることが困難な場合がある。
 そこで、本開示は、受聴者に臨場感を与えることができる音響信号処理方法などを提供することを目的とする。
 本開示の一態様に係る音響信号処理方法は、基準音の波形を示す音データを取得する取得ステップと、自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理ステップと、処理された前記音データを出力する出力ステップと、を含む。
 また、本開示の一態様に係るコンピュータプログラムは、上記の音響信号処理方法をコンピュータに実行させる。
 また、本開示の一態様に係る音響信号処理装置は、基準音の波形を示す音データを取得する取得部と、自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理部と、処理された前記音データを出力する出力部と、を備える。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一態様に係る音響信号処理方法によれば、受聴者に臨場感を与えることができる。
図1は、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響(Immersive Audio)再生システムを示す図である。 図2は、本開示の符号化装置の一例である符号化装置の構成を示す機能ブロック図である。 図3は、本開示の復号装置の一例である復号装置の構成を示す機能ブロック図である。 図4は、本開示の符号化装置の別の一例である符号化装置の構成を示す機能ブロック図である。 図5は、本開示の復号装置の別の一例である復号装置の構成を示す機能ブロック図である。 図6は、図3又は図5におけるデコーダの一例であるデコーダの構成を示す機能ブロック図である。 図7は、図3又は図5におけるデコーダの別の一例であるデコーダの構成を示す機能ブロック図である。 図8は、音響信号処理装置の物理的構成の一例を示す図である。 図9は、符号化装置の物理的構成の一例を示す図である。 図10は、実施の形態1に係る音響信号処理装置の機能構成を示すブロック図である。 図11は、実施の形態1に係るオブジェクトの一例である扇風機と受聴者とを示す図である。 図12は、実施の形態1に係る音データを示す図である。 図13は、実施の形態1に係る滑らかな関数の一例を示す図である。 図14は、実施の形態1に係る音響信号処理装置の動作例1のフローチャートである。 図15は、実施の形態1に係る処理部が行う処理を説明するための図である。 図16は、実施の形態1に係る処理部が行う処理を説明するための他の図である。 図17は、実施の形態1に係る音データ(空力音データ)を示す図である。 図18は、実施の形態1に係る滑らかな関数が示す値であるRと空力音の音量の増幅率及び減衰率とを示す図である。 図19は、実施の形態1に係る分割された空力音データを示す図である。 図20は、実施の形態1に係る2つの滑らかな関数の他の一例を示す図である。 図21は、実施の形態1に係る滑らかな関数を特定するパラメータが変化した例を示す図である。 図22は、実施の形態1に係る2つの滑らかな関数の他の一例を示す図である。 図23は、変形例に係る音響信号処理装置の機能構成を示すブロック図である。 図24は、変形例に係る第2処理部の機能構成を示すブロック図である。 図25は、変形例に係る空力音データを示す図である。 図26は、変形例に係る第2処理部による処理の概念図である。 図27は、変形例に係るサンプリングレート変換部の機能構成を示すブロック図である。 図28は、変形例に係る滑らかな関数が示す値の状態遷移図である。 図29は、変形例に係る音響信号処理装置の他の機能構成を示すブロック図である。 図30は、実施の形態2に係る情報処理装置の機能構成を示すブロック図である。 図31は、従来技術に係る音データの読み出しと、実施の形態2に係る音データの読み出しとを説明するための図である。 図32は、実施の形態2に係る情報処理装置が行う処理を説明するための図である。 図33は、実施の形態2に係る情報処理装置が行う他の処理を説明するための図である。 図34は、図6及び図7のレンダリング部がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。
 (本開示の基礎となった知見)
 特許文献1には、リアリティのある仮想空間を創出するために、映像及び音を出力する技術が開示されている。この特許文献1においては、当該仮想空間における風の強さの変化にあわせて、風の音も変化させる技術が開示されている。
 仮想空間とは、例えば、仮想現実(バーチャル・リアリティ:VR(Virtual Reality))、又は、拡張現実(オーグメンテッド・リアリティ:AR(Augmented Reality))などの、ユーザ(受聴者)が存在する空間である。特許文献1に開示される技術が用いられた風の音は、このような仮想空間において立体的な音を再生するためのアプリケーションで、利用されている。このような制御が行われた音は、特に、受聴者の6DoF(Degrees of Freedom)の情報がセンシングされるような仮想空間において、利用される。特許文献1の技術が利用されることで、風が吹くなどの自然現象が仮想空間において再現されている。
 ところで、現実空間においては、自然現象の変動には、揺らぎが含まれている。現実空間における自然現象とは、例えば、風が吹く、川の水が流れる、動物の行動などである。例えば、自然現象の変動とは、風の風速の変動又は風の向き(風向)の変動などであり、風の風速の変動又は風の向き(風向)の変動には揺らぎが含まれる。
 しかしながら、特許文献1に開示される技術では、受聴者に風の音を受聴させることはできるが、この風の音は現実空間における揺らぎを含む風の音を再現することはできない。従って、受聴者がこのような風の音を受聴すると、受聴者は違和感を覚えてしまい、受聴者は臨場感を得ることが難しい。このため、受聴者に臨場感を与えることができる音響信号処理方法などが求められている。
 そこで、本開示の第1態様に係る音響信号処理方法は、基準音の波形を示す音データを取得する取得ステップと、自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理ステップと、処理された前記音データを出力する出力ステップと、を含む。
 これにより、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理される。このため処理された音データにおいては、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなり、処理された音データが示す音にも周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなる。従って、受聴者は、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた音を受聴することができ、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理方法が実現される。
 本開示の第2態様に係る音響信号処理方法は、前記基準音は、風によって生じる空力音であり、前記処理ステップでは、前記風の風速の変動が模擬された前記模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように前記音データを処理する、第1態様に係る音響信号処理方法である。
 これにより、受聴者は、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた空力音を受聴することができ、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理方法が実現される。
 本開示の第3態様に係る音響信号処理方法は、前記処理ステップでは、前記模擬情報として、前記風の風速の変動が模擬された滑らかな関数を決定し、決定された前記滑らかな関数が示す値に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように前記音データを処理する、第2態様に係る音響信号処理方法である。
 これにより、滑らかな関数が示す値により、音データが処理されることができる。
 本開示の第4態様に係る音響信号処理方法は、前記滑らかな関数が示す値は、前記基準音である空力音の風速と、前記処理ステップで処理された後の前記音データが示す空力音の風速との比率を示す情報である第3態様に係る音響信号処理方法である。
 これにより、基準音である空力音の風速と処理された後の音データが示す空力音の風速との比率により、音データが処理されることができる。
 本開示の第5態様に係る音響信号処理方法は、前記処理ステップでは、前記滑らかな関数を特定するパラメータが不規則に変化するように前記滑らかな関数を決定する、第4態様に係る音響信号処理方法である。
 これにより、受聴者は、周波数成分、位相及び振幅数のうち少なくとも一つに、不規則に変化する揺らぎが生じた空力音を受聴することができ、受聴者は違和感をより覚えにくく臨場感をより得ることができる。つまりは、受聴者に臨場感をより与えることができる音響信号処理方法が実現される。
 本開示の第6態様に係る音響信号処理方法は、前記処理ステップでは、前記波形の周波数成分を、決定された前記滑らかな関数が示す値に比例した周波数にシフトさせるように前記音データを処理する、第3~5態様のいずれか1つの態様に係る音響信号処理方法である。
 これにより、受聴者は、周波数成分に揺らぎが生じた音を受聴することができ、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理方法が実現される。
 本開示の第7態様に係る音響信号処理方法は、前記処理ステップでは、前記波形の振幅値を、決定された前記滑らかな関数が示す値のα乗に比例して変化させるように前記音データを処理する、第3態様に係る音響信号処理方法である。
 これにより、受聴者は、振幅値に揺らぎが生じた音を受聴することができ、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理方法が実現される。
 本開示の第8態様に係る音響信号処理方法は、前記処理ステップでは、取得された前記音データを所定時間の処理フレームに分割し、分割した前記処理フレームごとに、前記音データを処理する、第4又は5態様に係る音響信号処理方法である。
 これにより、演算処理の負荷が低減された音響信号処理方法が実現される。
 本開示の第9態様に係る音響信号処理方法は、前記処理ステップでは、分割した前記処理フレームごとに、前記処理フレームの最初の時刻及び最後の時刻において、前記滑らかな関数の値が1.0になるように、前記滑らかな関数を決定する、第8態様に係る音響信号処理方法である。
 これにより、処理フレームと、当該処理フレームの次の処理フレームとの繋ぎ目にノイズ音が生じることが抑制される。
 本開示の第10態様に係る音響信号処理方法は、前記処理ステップでは、前記滑らかな関数を特定するパラメータを、分割した前記処理フレームごとに決定する、第9態様に係る音響信号処理方法である。
 これにより、演算処理の負荷が低減された音響信号処理方法が実現される。
 本開示の第11態様に係る音響信号処理方法は、前記パラメータは、前記最初の時刻から前記最後の時刻までの時間である、第10態様に係る音響信号処理方法である。
 これにより、パラメータを処理フレームの最初の時刻から当該処理フレームの最後の時刻までの時間とすることができる。
 本開示の第12態様に係る音響信号処理方法は、前記パラメータは、前記滑らかな関数の最大値に係る値である、第10態様に係る音響信号処理方法である。
 これにより、パラメータを滑らかな関数の最大値に係る値とすることができる。
 本開示の第13態様に係る音響信号処理方法は、前記パラメータは、前記滑らかな関数が最大値に達する位置を変動させるパラメータである、第10態様に係る音響信号処理方法である。
 これにより、パラメータを滑らかな関数が最大値に達する位置を変動させるパラメータとすることができる。
 本開示の第14態様に係る音響信号処理方法は、パラメータは、前記滑らかな関数の変動の急峻さを変動させるパラメータである、第10態様に係る音響信号処理方法である。
 これにより、パラメータを滑らかな関数の変動の急峻さを変動させるパラメータとすることができる。
 本開示の第15態様に係る音響信号処理方法は、前記処理ステップでは、前記滑らかな関数を特定する第1パラメータ及び第2パラメータを決定し、決定された前記第1パラメータによって特定される前記滑らかな関数に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように取得された前記音データを処理し、決定された前記第2パラメータによって特定される前記滑らかな関数に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように取得された前記音データを処理し、前記出力ステップでは、決定された前記第1パラメータによって特定される前記滑らかな関数に基づいて処理された前記音データを、第1出力チャンネルに出力し、決定された前記第2パラメータによって特定される前記滑らかな関数に基づいて処理された前記音データを、第2出力チャンネルに出力する、第10態様に係る音響信号処理方法である。
 これにより、出力チャンネルごとに、異なる音データを出力することができる。
 本開示の第16態様に係る音響信号処理方法は、前記空力音は、前記風が物体と衝突することによって発生する音であり、前記処理ステップでは、前記風の風速の性質を模擬して前記パラメータを決定する、第10~15態様のいずれか1つの態様に係る音響信号処理方法である。
 これにより、揺らぎが含まれている風の風速の変動を模擬してパラメータが決定される。このパラメータにより特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理されることができる。
 本開示の第17態様に係る音響信号処理方法は、前記空力音は、前記風が、前記空力音を受聴する受聴者の耳と衝突することによって発生する音であり、前記処理ステップでは、前記風の風向の性質を模擬して前記パラメータを決定する、第10~15態様のいずれか1つの態様に係る音響信号処理方法である。
 これにより、揺らぎが含まれている風の向きの変動を模擬してパラメータが決定される。このパラメータにより特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理されることができる。
 本開示の第18態様に係る音響信号処理方法は、前記滑らかな関数の最大値は、3を超えない、第8態様に係る音響信号処理方法である。
 これにより、滑らかな関数の最大値を3以下とすることができる。
 本開示の第19態様に係る音響信号処理方法は、前記滑らかな関数の最小値は、0を下回らない、第8態様に係る音響信号処理方法である。
 これにより、滑らかな関数の最小値を0以上とすることができる。
 本開示の第20態様に係る音響信号処理方法は、前記風の前記風速であるVaと前記風の瞬間風速であるVpとを指定する指示を受付ける受付ステップを含み、前記処理ステップでは、前記滑らかな関数の最大値がVp/Vaとなるように前記滑らかな関数を決定する、第8態様に係る音響信号処理方法である。
 これにより、滑らかな関数の最大値とVp/Vaとすることができる。
 本開示の第21態様に係る音響信号処理方法は、前記所定時間の平均値は、3秒である、第8態様に係る音響信号処理方法である。
 これにより、処理フレームの時間長さである所定時間の平均値を3秒とすることができる。
 本開示の第22態様に係る音響信号処理方法は、前記物体は、耳を模した形状を有する物体である、第16態様に係る音響信号処理方法である。
 これにより、例えばダミーヘッドマイクなどを用いて空力音を収音することができる。
 本開示の第23態様に係るコンピュータプログラムは、第1~22態様のいずれか1つの態様に係る音響信号処理方法をコンピュータに実行させるためのコンピュータプログラムである。
 これにより、コンピュータが、コンピュータプログラムに従って、上記の音響信号処理方法を実行することができる。
 本開示の第24態様に係る音響信号処理装置は、基準音の波形を示す音データを取得する取得部と、自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理部と、処理された前記音データを出力する出力部と、を備える。
 これにより、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理される。このため処理された音データにおいては、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなり、処理された音データが示す音にも周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなる。従って、受聴者は、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた音を受聴することができ、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理装置が実現される。
 さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。
 また、以下の説明において、第1及び第2などの序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。
 また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、各図において縮尺などは必ずしも一致していない。各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化する。
 本明細書において、垂直などの要素間の関係性を示す用語、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数%程度の差異をも含むことを意味する表現である。
 (実施の形態1)
 [本開示の音響処理技術又は符号化/復号技術を適用可能な装置例]
 <立体音響再生システム>
 図1は、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響(Immersive Audio)再生システムA0000を示す図である。立体音響再生システムA0000は、音響信号処理装置A0001と音声提示装置A0002とを含む。
 音響信号処理装置A0001は、仮想音源が発した音声信号に対して音響処理を施して、リスナ(つまりは受聴者)に対して提示される音響処理後の音声信号を生成する。音声信号は声に限らず可聴音であればよい。音響処理とは、例えば、音源から発生した音が、当該音が発せられてからリスナが聴くまでの間に受ける一又は複数の音に関する作用を再現するために音声信号に対して施される信号処理である。音響信号処理装置A0001は、上述した音に関する作用を引き起こす要因を記述した情報に基づいて音響処理を実施する。空間情報は、例えば、音源、リスナ、周囲のオブジェクトの位置を示す情報、空間の形状を示す情報、音の伝搬に関するパラメータなどを含む。音響信号処理装置A0001は、例えば、PC(Personal Computer)、スマートフォン、タブレット、又はゲームコンソールなどである。
 音響処理後の信号は、音声提示装置A0002からリスナ(ユーザ)に提示される。音声提示装置A0002は、無線又は有線の通信を介して音響信号処理装置A0001と接続されている。音響信号処理装置A0001で生成された音響処理後の音声信号は、無線又は有線の通信を介して音声提示装置A0002に伝送される。音声提示装置A0002が、例えば、右耳用のデバイス及び左耳用のデバイスなど複数のデバイスで構成されている場合、複数のデバイス間又は複数のデバイスのそれぞれと音響信号処理装置A0001とが通信することで、複数のデバイスは同期して音を提示する。音声提示装置A0002は、例えば、リスナの頭部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどである。
 なお、立体音響再生システムA0000は、視覚的にVR又はARを含むER(Extended Reality)体験を提供する画像提示装置又は立体映像提示装置と組み合わせて用いられてもよい。
 なお、図1は、音響信号処理装置A0001と音声提示装置A0002とが別々の装置であるシステム構成例を示しているが、本開示の音響信号処理方法又は復号方法が適用可能な立体音響再生システムA0000は図1の構成に限定されない。例えば、音響信号処理装置A0001が音声提示装置A0002に含まれ、音声提示装置A0002が音響処理と音の提示との両方を行ってもよい。また、音響信号処理装置A0001と音声提示装置A0002とが本開示で説明する音響処理を分担して実施してもよいし、音響信号処理装置A0001又は音声提示装置A0002にネットワークを介して接続されたサーバが本開示で説明する音響処理の一部又は全体を実施してもよい。
 なお、上記説明では、音響信号処理装置A0001と呼んでいるが、音響信号処理装置A0001が音声信号又は音響処理に用いる空間情報の少なくとも一部のデータを符号化して生成されたビットストリームを復号して音響処理を実施する場合、音響信号処理装置A0001は復号装置と呼ばれてもよい。
 <符号化装置の例>
 図2は、本開示の符号化装置の一例である符号化装置A0100の構成を示す機能ブロック図である。
 入力データA0101はエンコーダA0102に入力される空間情報及び/又は音声信号を含む符号化対象となるデータである。空間情報の詳細については後で説明する。
 エンコーダA0102は、入力データA0101を符号化して、符号化データA0103を生成する。符号化データA0103は、例えば、符号化処理によって生成されたビットストリームである。
 メモリA0104は、符号化データA0103を格納する。メモリA0104は、例えば、ハードディスク又はSSD(Solid-State Drive)であってもよいし、その他のメモリであってもよい。
 なお、上記説明ではメモリA0104に記憶される符号化データA0103の一例として符号化処理によって生成されたビットストリームを挙げたが、ビットストリーム以外のデータであってもよい。例えば、符号化装置A0100は、ビットストリームを所定のデータフォーマットに変換して生成された変換後のデータをメモリA0104に記憶してもよい。変換後のデータは、例えば、一又は複数のビットストリームを格納したファイル又は多重化ストリームであってもよい。ここで、ファイルは、例えばISOBMFF(ISO Base Media File Format)などのファイルフォーマットを有するファイルである。また、符号化データA0103は、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。エンコーダA0102で生成されたビットストリームをビットストリームとは異なるデータに変換する場合、符号化装置A0100は、図示されていない変換部を備えていてもよいし、CPU(Central Processing Unit)で変換処理を行ってもよい。
 <復号装置の例>
 図3は、本開示の復号装置の一例である復号装置A0110の構成を示す機能ブロック図である。
 メモリA0114は、例えば、符号化装置A0100で生成された符号化データA0103と同じデータを格納している。メモリA0114は、保存されているデータを読み出し、デコーダA0112の入力データA0113として入力する。入力データA0113は、例えば、復号対象となるビットストリームである。メモリA0114は、例えば、ハードディスク又はSSDであってもよいし、その他のメモリであってもよい。
 なお、復号装置A0110は、メモリA0114が記憶しているデータをそのまま入力データA0113とするのではなく、読み出したデータを変換して生成された変換後のデータを入力データA0113としてもよい。変換前のデータは、例えば、一又は複数のビットストリームを格納した多重化データであってもよい。ここで、多重化データは、例えばISOBMFFなどのファイルフォーマットを有するファイルであってもよい。また、変換前のデータは、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。メモリA0114から読み出したビットストリームとは異なるデータをビットストリームに変換する場合、復号装置A0110は、図示されていない変換部を備えていてもよいし、CPUで変換処理を行ってもよい。
 デコーダA0112は、入力データA0113を復号して、リスナに提示される音声信号A0111を生成する。
 <符号化装置の別の例>
 図4は、本開示の符号化装置の別の一例である符号化装置A0120の構成を示す機能ブロック図である。図4では、図2の構成と同じ機能を有する構成に図2の構成と同じ符号を付しており、これらの構成については説明を省略する。
 符号化装置A0100は符号化データA0103をメモリA0104に記憶していたのに対し、符号化装置A0120は符号化データA0103を外部に対して送信する送信部A0121を備える点で符号化装置A0100と異なる。
 送信部A0121は、符号化データA0103又は符号化データA0103を変換して生成した別のデータ形式のデータに基づいて送信信号A0122を別の装置又はサーバに対して送信する。送信信号A0122の生成に用いられるデータは、例えば、符号化装置A0100で説明したビットストリーム、多重化データ、ファイル、又はパケットである。
 <復号装置の別の例>
 図5は、本開示の復号装置の別の一例である復号装置A0130の構成を示す機能ブロック図である。図5では、図3の構成と同じ機能を有する構成に図3の構成と同じ符号を付しており、これらの構成については説明を省略する。
 復号装置A0110は入力データA0113をメモリA0114から読み出していたのに対し、復号装置A0130は入力データA0113を外部から受信する受信部A0131を備える点で復号装置A0110と異なる。
 受信部A0131は、受信信号A0132を受信して受信データを取得し、デコーダA0112に入力される入力データA0113を出力する。受信データは、デコーダA0112に入力される入力データA0113と同じであってもよいし、入力データA0113とは異なるデータ形式のデータであってもよい。受信データが、入力データA0113と異なるデータ形式のデータの場合、受信部A0131が受信データを入力データA0113に変換してもよいし、復号装置A0130が備える図示されていない変換部又はCPUが受信データを入力データA0113に変換してもよい。受信データは、例えば、符号化装置A0120で説明したビットストリーム、多重化データ、ファイル、又はパケットである。
 <デコーダの機能説明>
 図6は、図3又は図5におけるデコーダA0112の一例であるデコーダA0200の構成を示す機能ブロック図である。
 入力データA0113は符号化されたビットストリームであり、符号化された音声信号である符号化音声データと音響処理に用いるメタデータとを含んでいる。
 空間情報管理部A0201は、入力データA0113に含まれるメタデータを取得して、メタデータを解析する。メタデータは、音空間に配置された音に作用する要素を記述した情報を含む。空間情報管理部A0201は、メタデータを解析して得られた音響処理に必要な空間情報を管理し、レンダリング部A0203に対して空間情報を提供する。なお、本開示では音響処理に用いる情報が空間情報と呼ばれているが、それ以外の呼び方であってもよい。当該音響処理に用いる情報は、例えば、音空間情報と呼ばれてもよいし、シーン情報と呼ばれてもよい。また、音響処理に用いる情報が経時的に変化する場合、レンダリング部A0203に入力される空間情報は、空間状態、音空間状態、シーン状態などと呼ばれてもよい。
 また、空間情報は音空間ごと又はシーンごとに管理されていてもよい。例えば、異なる部屋を仮想空間として表現する場合、それぞれの部屋が異なる音空間のシーンとして空間情報が管理されてもよいし、同じ空間であっても表現する場面に応じて異なるシーンとして空間情報が管理されてもよい。空間情報の管理において、それぞれの空間情報を識別する識別子が付与されておいてもよい。空間情報のデータは、入力データの一形態であるビットストリームに含まれていてもよいし、ビットストリームが空間情報の識別子を含み、空間情報のデータはビットストリーム以外から取得してもよい。ビットストリームに空間情報の識別子のみが含まれる場合、レンダリング時に空間情報の識別子を用いて、音響信号処理装置A0001のメモリ又は外部のサーバに記憶された空間情報のデータが入力データとして取得されてもよい。
 なお、空間情報管理部A0201が管理する情報は、ビットストリームに含まれる情報に限定されない。例えば、入力データA0113は、ビットストリームには含まれないデータとして、VR又はARを提供するソフトウェアアプリケーション又はサーバから取得された空間の特性又は構造を示すデータを含んでいてもよい。また、例えば、入力データA0113は、ビットストリームには含まれないデータとして、リスナ又はオブジェクトの特性又は位置などを示すデータを含んでいてもよい。また、入力データA0113は、リスナの位置を示す情報として復号装置を含む端末が備えるセンサで取得された情報、又は、センサで取得された情報に基づいて推定された端末の位置を示す情報を含んでいてもよい。つまり、空間情報管理部A0201は外部のシステム又はサーバと通信し、空間情報及びリスナの位置を取得してもよい。また、空間情報管理部A0201が外部のシステムからクロック同期情報を取得し、レンダリング部A0203のクロックと同期する処理を実行してもよい。なお、上記の説明における空間は、仮想的に形成された空間、つまりVR空間であってもよいし、実空間(つまりは現実空間)又は実空間に対応する仮想空間、つまりAR又はMR(Mixed Reality)であってもよい。また、仮想空間は音場又は音空間と呼ばれてもよい。また、上記の説明における位置を示す情報は、空間内における位置を示す座標値などの情報であってもよいし、所定の基準位置に対する相対位置を示す情報であってもよいし、空間内の位置の動き又は加速度を示す情報であってもよい。
 音声データデコーダA0202は、入力データA0113に含まれる符号化音声データを復号して、音声信号を取得する。
 立体音響再生システムA0000が取得する符号化音声データは、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)などの所定の形式で符号化されたビットストリームである。なお、MPEG-H 3D Audioはあくまでビットストリームに含まれる符号化音声データを生成する際に利用可能な符号化方式の一例であり、他の符号化方式で符号化されたビットストリームと符号化音声データとして含んでいてもよい。例えば、用いられる符号化方式は、MP3(MPEG-1 Audio Layer-3)、AAC(Advanced Audio Coding)、WMA(Windows Media Audio)、AC3(Audio Codec―3)、Vorbisなどの非可逆コーデックであってもよいし、ALAC(Apple Lossless Audio Codec)、FLAC(Free Lossless Audio Codec)などの可逆コーデックであってもよいし、上記以外の任意の符号化方式が用いられてもよい。例えば、PCM(pulse code modulation)データが符号化音声データの一種であるとしてもよい。この場合、復号処理は、例えば、当該PCMデータの量子化ビット数がNである場合、Nビットの二進数を、レンダリング部A0203が処理できる数形式(例えば浮動小数点形式)に変換する処理としてもよい。
 レンダリング部A0203は、音声信号と空間情報とを入力とし、空間情報を用いて音声信号に音響処理を施して、音響処理後の音声信号A0111を出力する。
 空間情報管理部A0201は、レンダリングを開始する前に、入力信号のメタデータを読み込み、空間情報で規定されたオブジェクト又は音などのレンダリングアイテムを検出し、レンダリング部A0203に送信する。レンダリング開始後、空間情報管理部A0201は、空間情報及びリスナの位置の経時的な変化を把握し、空間情報を更新して管理する。そして、空間情報管理部A0201は、更新された空間情報をレンダリング部A0203に送信する。レンダリング部A0203は入力データA0113に含まれる音声信号と、空間情報管理部A0201から受信した空間情報とに基づいて音響処理を付加した音声信号を生成し出力する。
 空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが同じスレッドで実行されてもよいし、空間情報管理部A0201とレンダリング部A0203とはそれぞれ独立したスレッドに配分してもよい。空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが異なるスレッドで処理される場合、スレッドの起動頻度が個々に設定されてもよいし、平行して処理が実行されてもよい。
 空間情報管理部A0201とレンダリング部A0203とが異なる独立したスレッドで処理を実行することで、レンダリング部A0203に優先的に演算資源を割り当てることができるので、僅かな遅延も許容できないような出音処理の場合、例えば、1サンプル(0.02msec)でも遅延した場合にプチっというノイズが発生するような出音処理であっても安全に実施することができる。その際、空間情報管理部A0201には演算資源の割り当てが制限される。しかし、空間情報の更新は、音声信号の出力処理と比較して、低頻度の処理(例えば、受聴者の顔の向きの更新のような処理)である。このため、音声信号の出力処理のように必ずしも瞬間的に応答しなければならないというものではないので、演算資源の割り当てを制限しても受聴者に与える音響的な品質に大きな影響はない。
 空間情報の更新は、予め設定された時間又は期間ごとに定期的に実行されてもよいし、予め設定された条件が満たされた場合に実行されてもよい。また、空間情報の更新は、リスナ又は音空間の管理者によって手動で実行されてもよいし、外部システムの変化をトリガとして実行されてもよい。例えば、受聴者がコントローラーを操作して、自身のアバターの立ち位置を瞬間的にワープしたり、時刻を瞬時に進めたり戻したり、或いは、仮想空間の管理者が、突如、場の環境を変更するような演出を施したりした場合、空間情報管理部A0201が配置されたスレッドは、定期的な起動に加えて、単発的な割り込み処理として起動されてもよい。
 空間情報の更新処理を実行する情報更新スレッドが担う役割は、例えば、受聴者が装着しているVRゴーグルの位置又は向きに基づいて、仮想空間内に配置された受聴者のアバターの位置又は向きを更新する処理、及び、仮想空間内を移動している物体の位置の更新などであり、数10Hz程度の比較的低頻度で起動する処理スレッド内で賄われるものである。そのような、発生頻度の低い処理スレッドで直接音の性質を反映させる処理が行われるようにしてもよい。それは、オーディオ出力のためのオーディオ処理フレームの発生頻度より直接音の性質が変動する頻度が低いためである。むしろそうすることで、当該処理の演算負荷を相対的に小さくすることができるし、不必要に速い頻度で情報を更新するとパルシブなノイズが発生するリスクが生じるので、そのリスクを回避することもできる。
 図7は、図3又は図5におけるデコーダA0112の別の一例であるデコーダA0210の構成を示す機能ブロック図である。
 図7が示すデコーダA0210は、入力データA0113が、符号化音声データではなく符号化されていない音声信号を含んでいる点で図6が示すデコーダA0200と異なる。入力データA0113は、メタデータを含むビットストリームと音声信号を含む。
 空間情報管理部A0211は、図6の空間情報管理部A0201と同じであるため説明を省略する。
 レンダリング部A0213は、図6のレンダリング部A0203と同じであるため説明を省略する。
 なお、上記説明では図7の構成がデコーダA0210と呼ばれているが、音響処理を実施する音響処理部と呼ばれてもよい。また、音響処理部を含む装置が復号装置ではなく音響処理装置と呼ばれてもよい。また、音響信号処理装置A0001が音響処理装置と呼ばれてもよい。
 <音響信号処理装置の物理的構成>
 図8は、音響信号処理装置の物理的構成の一例を示す図である。なお、図8の音響信号処理装置は、復号装置であってもよい。また、ここで説明する構成の一部は音声提示装置A0002に備えられていてもよい。また、図8に示される音響信号処理装置は、上記の音響信号処理装置A0001の一例である。
 図8の音響信号処理装置は、プロセッサと、メモリと、通信IFと、センサと、スピーカとを備える。
 プロセッサは、例えば、CPU(Central Processing Unit)、DSP(Digital Signal Processor)又はGPU(Graphics Processing Unit)であり、当該CPU、DSP又はGPUがメモリに記憶されたプログラム実行することで本開示の音響処理又はデコード処理を実施してもよい。また、プロセッサは、本開示の音響処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はSSD(Solid State Drive)などの半導体メモリなどを含んでいてもよい。また、CPU又はGPUに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。
 通信IF(Inter Face)は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)などの通信方式に対応した通信モジュールである。図8に示される音響信号処理装置は、通信IFを介して他の通信装置と通信を行う機能を有し、復号対象のビットストリームを取得する。取得したビットストリームは、例えば、メモリに格納される。
 通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてBluetooth(登録商標)又はWIGIG(登録商標)を例に挙げたが、LTE(Long Term Evolution)、NR(New Radio)、又はWi-Fi(登録商標)などの通信方式に対応していてもよい。また、通信IFは、上記のような無線通信方式ではなく、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)などの有線の通信方式であってもよい。
 センサは、リスナの位置又は向きを推定するためのセンシングを行う。具体的には、センサは、リスナの頭部など身体の一部又は全体の位置、向き、動き、速度、角速度、又は加速度などのうちいずれか一つ又は複数の検出結果に基づいてリスナの位置及び/又は向きを推定し、リスナの位置及び/又は向きを示す位置情報を生成する。なお、位置情報は実空間におけるリスナの位置及び/又は向きを示す情報であってもよいし、所定の時点におけるリスナの位置及び/又は向きを基準としたリスナの位置及び/又は向きの変位を示す情報であってもよい。また、位置情報は、立体音響再生システムA0000又はセンサを備える外部装置との相対的な位置及び/又は向きを示す情報であってもよい。
 センサは、例えば、カメラなどの撮像装置又はLiDAR(Light Detection And Ranging)などの測距装置であってもよく、リスナの頭部の動きを撮像し、撮像された画像を処理することでリスナの頭部の動きを検知してもよい。また、センサとして例えばミリ波などの任意の周波数帯域の無線を用いて位置推定を行う装置を用いてもよい。
 なお、図8に示される音響信号処理装置は、センサを備える外部の機器から通信IFを介して位置情報を取得してもよい。この場合、音響信号処理装置はセンサを含んでいなくてもよい。ここで、外部の機器とは、例えば図1で説明した音声提示装置A0002又は、リスナの頭部に装着される立体映像再生装置などである。このときセンサは、例えば、ジャイロセンサ及び加速度センサなど各種のセンサを組み合わせて構成される。
 センサは、例えば、リスナの頭部の動きの速度として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転の角速度を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位の加速度を検知してもよい。
 センサは、例えば、リスナの頭部の動きの量として、音空間内で互いに直交する3軸の少なくとも1つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも1つを変位方向とする変位量を検知してもよい。具体的には、センサは、リスナの位置として6DoF(位置(x、y、z)及び角度(yaw、pitch、roll))を検知する。センサは、ジャイロセンサ及び加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。
 なお、センサは、リスナの位置を検出できればよく、カメラ又はGPS(Global Positioning System)受信機などにより実現されてもよい。LiDAR(Laser Imaging Detection and Ranging)などを用いて自己位置推定を実施して得られた位置情報を用いてもよい。例えば、センサは、音声信号再生システムがスマートフォンにより実現される場合には、スマートフォンに内蔵される。
 また、センサには、図8に示される音響信号処理装置の温度を検出する熱電対などの温度センサ、及び、音響信号処理装置が備える、又は音響信号処理装置と接続されたバッテリの残量を検出するセンサなどが含まれていてもよい。
 スピーカは、例えば、振動板と、マグネット又はボイスコイルなどの駆動機構とアンプとを有し、音響処理後の音声信号を音としてリスナに提示する。スピーカは、アンプを介して増幅させた音声信号(より具体的には、音の波形を示す波形信号)に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、音声信号に応じて振動する振動板は、音波を発生させ、音波が空気を伝搬してリスナの耳に伝達し、リスナが音を知覚する。
 なお、ここでは図8に示される音響信号処理装置がスピーカを備え、当該スピーカを介して音響処理後の音声信号を提示する場合を例に挙げて説明したが、音声信号の提示手段は上記の構成に限定されない。例えば、通信モジュールで接続された外部の音声提示装置A0002に音響処理後の音声信号が出力されてもよい。通信モジュールで行う通信は有線でも無線でもよい。また別の例として、図8に示される音響信号処理装置が音声のアナログ信号を出力する端子を備え、端子にイヤホンなどのケーブルを接続してイヤホンなどから音声信号を提示してもよい。上記の場合、音声提示装置A0002であるリスナの頭部又は体の一部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、ネックスピーカー、ウェアラブルスピーカー、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどが音声信号を再生する。
 <符号化装置の物理的構成>
 図9は、符号化装置の物理的構成の一例を示す図である。また、図9に示される符号化装置は、上記の符号化装置A0100及びA0120などの一例である。
 図9の符号化装置は、プロセッサと、メモリと、通信IFとを備える。
 プロセッサは、例えば、CPU(Central Processing Unit)又はDSP(Digital Signal Processor)であり、当該CPU又はGPUがメモリに記憶されたプログラム実行することで本開示の符号化処理を実施してもよい。また、プロセッサは、本開示の符号化処理を含む音声信号に対する信号処理を行う専用回路であってもよい。
 メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はSSD(Solid State Drive)などの半導体メモリなどを含んでいてもよい。また、CPU又はGPUに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。
 通信IF(Inter Face)は、例えば、Bluetooth(登録商標)又はWIGIG(登録商標)などの通信方式に対応した通信モジュールである。符号化装置は、通信IFを介して他の通信装置と通信を行う機能を有し、符号化されたビットストリームを送信する。
 通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてBluetooth(登録商標)又はWIGIG(登録商標)を例に挙げたが、LTE(Long Term Evolution)、NR(New Radio)、又はWi-Fi(登録商標)などの通信方式に対応していてもよい。また、通信IFは、上記のような無線通信方式ではなく、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)などの有線の通信方式であってもよい。
 [構成]
 さらに、実施の形態1に係る音響信号処理装置100の構成について説明する。図10は、本実施の形態に係る音響信号処理装置100の機能構成を示すブロック図である。
 本実施の形態に係る音響信号処理装置100は、基準音の波形を示す音データを取得し、処理し、出力するための装置である。音データが出力されることで、受聴者は、当該音データが示す音を受聴することができる。本実施の形態に係る音響信号処理装置100は、一例として仮想現実又は拡張現実(VR又はAR)などの仮想空間における様々なアプリケーションに応用される装置である。
 基準音は、どのような音であってもよいが、例えば自然現象に関する音である。本実施の形態においては、自然現象は、自然界において起こる現象であれば特に限定されないが、例えば、風が吹く、川の水が流れる、動物の行動などの現象である。自然現象に関する音とは、例えば、風が吹くことにより生じる音、川の水が流れることによるせせらぎ音、動物の鳴き声などである。
 ここで、風が吹くことにより生じる音に着目すると、仮想空間内において、風が物体と衝突することで発生する空力音が挙げられる。この空力音は、風が、例えば受聴者の耳に到達して衝突することで生じる音である。このように、空力音は、仮想空間に吹く風に由来する音である。
 本実施の形態においては、基準音は、風Wによって生じる空力音である。なおこれに限られず、基準音は、川の水が流れることによるせせらぎ音又は動物の鳴き声などであってもよい。
 仮想空間における風は、一例として、当該仮想空間におけるオブジェクトに起因する風である。
 図11は、本実施の形態に係るオブジェクトの一例である扇風機FNと受聴者Lとを示す図である。オブジェクトが扇風機FNなどの送風することができるオブジェクトである場合には、空力音は、扇風機FNが発生させた風Wが受聴者Lに到達することによって生じる空力音である。より具体的には、空力音は、扇風機FNから吹出された風Wが受聴者Lに達することで、例えば受聴者Lの耳の形状に応じて生じる音である。
 また例えば、オブジェクトが移動体(例えば車両)である場合には、空力音は、オブジェクトの位置の移動により発生した風Wが受聴者Lに到達することによって生じる空力音である。
 また、仮想空間における風Wは、一例として、現実空間において自然に発生した風が当該仮想空間で再現された風(以下、自然風)であり、その発生位置を仮想空間で特定されることができない風である。仮想空間における風Wが自然風である場合には、オブジェクトに起因しない風であるとも言える。
 なお、本実施の形態に係るオブジェクトは、扇風機FNに限られない。仮想空間におけるオブジェクトは、当該仮想空間内で実行されるコンテンツ(ここでは一例として映像)を表示する表示部300に表示される当該コンテンツに含まれるものであれば、特に限定されない。
 オブジェクトは、例えば、当該オブジェクトの位置の移動により風を発生させる移動体であってもよい。移動体は、例えば、動植物、人工物又は自然物などを示すオブジェクトを含む。人工物を示すオブジェクトの例として、車両、自転車及び航空機などが挙げられる。また、人工物を示すオブジェクトの例として、野球用のバット及びテニス用のラケットなどのスポーツ用品と、机、椅子及び柱時計などの家具と、などが挙げられる。なお、オブジェクトは、一例としては、当該コンテンツ内にて移動し得るもの、及び、移動され得るもののうち少なくとも一方であってもよい。
 また例えば、オブジェクトは、送風することができるオブジェクトであってもよい。このようなオブジェクトは、例えば、上記扇風機FN以外には、サーキュレータ、うちわ及びエアコンなどである。
 また、オブジェクトは、音を発生させるオブジェクトであってもよい。オブジェクトが発生させる音は、オブジェクトに対応付けられた音データ(以下オブジェクト音データと記載する場合がある)が示す音である。例えば、オブジェクトが扇風機FNである場合には、オブジェクトが発生させる音は、扇風機FNが有するモーターが発生させるモーター音である。また、例えば、オブジェクトが救急車である場合には、オブジェクトが発生させる音は、救急車から発されるサイレン音である。
 音響信号処理装置100は、仮想空間における空力音である基準音の波形を示す音データ(空力音データ)を処理して、ヘッドフォン200に出力する。なお、以下では、基準音(空力音)の波形を示す音データを空力音データと記載する場合がある。
 次に、ヘッドフォン200について説明する。
 ヘッドフォン200は、空力音を再生する装置であり、空力音を受聴者Lに提示する音声出力装置である。より具体的には、ヘッドフォン200は、音響信号処理装置100によって出力された空力音データに基づいて、空力音を再生する。これにより受聴者Lは、空力音を受聴することができる。なお、ヘッドフォン200にかえて、スピーカなど他の出力チャンネルが用いられてもよい。
 図10が示すように、ヘッドフォン200は、頭部センサ部201と、出力部202とを備える。
 頭部センサ部201は、仮想空間における水平面の座標及び垂直方向の高さで定められる受聴者Lの位置をセンシングして、仮想空間における空力音の受聴者Lの位置を示す第2位置情報を音響信号処理装置100に出力する。
 頭部センサ部201は、受聴者Lの頭部の6DoFの情報をセンシングするとよい。例えば、頭部センサ部201は、慣性測定ユニット(IMU:Inertial Measurement Unit)、加速度計、ジャイロスコープ、磁気センサ又はこれらの組合せであるとよい。
 出力部202は、音再生空間において受聴者Lに到達する音を再生する装置である。より具体的には、出力部202は、音響信号処理装置100から出力された上記空力音を示す空力音データに基づいて、上記空力音を再生する。
 続いて、表示部300について説明する。
 表示部300は、仮想空間におけるオブジェクトを含むコンテンツ(映像)を表示する表示装置である。表示部300がコンテンツを表示するための処理については、後述する。表示部300は、例えば、液晶パネル又は有機EL(Electro Luminescence)パネルなどの表示パネルによって実現される。
 さらに、図10が示す音響信号処理装置100について説明する。本実施の形態においては、音響信号処理装置100は、仮想空間における空力音である基準音の波形を示す音データ(空力音データ)を取得して、処理して、ヘッドフォン200に出力する。
 図10が示すように、音響信号処理装置100は、取得部110と、処理部120と、出力部130と、記憶部140と、受付部150とを備える。
 取得部110は、基準音(空力音)の波形を示す音データを取得する。図12は、本実施の形態に係る音データを示す図である。図12が示すように、音データは、例えば時間と振幅とが示された波形を示すデータであり、ここでは空力音データである。
 記憶部140には当該音データ(空力音データ)が記憶されており、取得部110は記憶部140に記憶されている当該音データ(空力音データ)を取得する。
 取得部110は、オブジェクト(例えば扇風機FN)の位置を示す第1位置情報を取得する。また、オブジェクトが音を発生させるオブジェクトである場合には、取得部110は、当該音を示すオブジェクト音データを取得する。また、取得部110は、オブジェクトの形状を示す形状情報を取得する。
 取得部110は、第2位置情報を取得する。第2位置情報とは、上記の通り、仮想空間における受聴者Lの位置を示す情報である。
 取得部110は、例えば入力信号から、基準音の波形を示す音データ、第1位置情報、オブジェクト音データ、形状情報及び第2位置情報を取得してもよい。また、取得部110は、それ以外から、基準音の波形を示す音データ、第1位置情報、オブジェクト音データ、形状情報及び第2位置情報を取得してもよい。入力信号については、下記で説明する。また、以下では、基準音の波形を示す音データ(空力音データ)及びオブジェクト音データをまとめて音データと記載する場合がある。
 入力信号は、例えば、空間情報とセンサ情報と音データ(音声信号)とで構成される。また、上記の情報と音データとは1つの入力信号に含まれていてもよいし、複数の別々の信号に上述の情報と音データとが含まれていてもよい。入力信号は、音データとメタデータ(制御情報)とで構成されるビットストリームを含んでいてもよく、その場合メタデータに空間情報及び音データを識別する情報が含まれていてもよい。
 上記で説明した、基準音の波形を示す音データ、第1位置情報、オブジェクト音データ、形状情報及び第2位置情報は、入力信号に含まれていてもよい。より具体的には、第1位置情報及び形状情報は空間情報に含まれていてもよく、第2位置情報はセンサ情報から取得される情報に基づいて生成されてもよい。センサ情報は、頭部センサ部201から取得されてもよく、他の外部装置から取得されてもよい。
 空間情報は、立体音響再生システムA0000が作り出す音空間(三次元音場)に関する情報であって、音空間に含まれるオブジェクトに関する情報とリスナに関する情報とで構成される。オブジェクトには、音を発し音源となる音源オブジェクトと、音を発しない非発音オブジェクトとが存在する。非発音オブジェクトは、音源オブジェクトが発した音を反射する障害物オブジェクトとして機能するが、音源オブジェクトが別の音源オブジェクトが発した音を反射する障害物オブジェクトとして機能する場合もある。障害物オブジェクトは反射オブジェクトと呼ばれてもよい。
 音源オブジェクトと非発音オブジェクトとに共通して付与される情報として、位置情報、形状情報、及び、オブジェクトが音を反射する際の音量の減衰率などがある。
 位置情報は、ユークリッド空間の例えばX軸、Y軸、Z軸の3軸の座標値で表されるが、必ずしも三次元情報でなくてもよい。位置情報は、例えば、X軸、Y軸の2軸の座標値で表される二次元情報であってもよい。オブジェクトの位置情報は、メッシュ又はボクセルで表現される形状の代表位置で定められる。
 形状情報は、表面の素材に関する情報を含んでいてもよい。
 減衰率は、1以下又は0以上の実数で表現してもよいし、マイナスのデシベル値で表現してもよい。実空間では反射によって音量が増幅することはないため、減衰率はマイナスのデシベル値が設定されるが、例えば、非現実空間の不気味さを演出するために、あえて1以上の減衰率、すなわち、プラスのデシベル値が設定されてもよい。また、減衰率は、複数の周波数帯域を構成する周波数帯域毎に異なる値が設定されてもよいし、周波数帯域毎に独立に値が設定されてもよい。また、減衰率がオブジェクト表面の素材の種類ごとに設定されている場合、表面の素材に関する情報に基づいて対応する減衰率の値が用いられてもよい。
 また、音源オブジェクトと非発音オブジェクトとに共通して付与される情報は、オブジェクトが生物に属するか否かを示す情報又は、オブジェクトが移動体であるか否かを示す情報などを含んでいてもよい。オブジェクトが移動体である場合、位置情報は時間とともに移動してもよく、変化した位置情報又は変化量がレンダリング部A0203及びA0213に伝送される。
 音源オブジェクトに関する情報は、上述した音源オブジェクトと非発音オブジェクトとに共通して付与される情報に加えて、オブジェクト音データとオブジェクト音データを音空間内に放射するために必要な情報とを含む。オブジェクト音データは、音の周波数及び強弱に関する情報などを示す、リスナに知覚される音が表現されたデータである。オブジェクト音データは、典型的にはPCM信号であるが、MP3などの符号化方式を用いて圧縮されたデータであってもよい。その場合は、少なくとも当該信号が生成部(図34で後述する生成部907)に到達するまでに復号化される必要があるため、レンダリング部A0203及びA0213に図示しない復号部を含んでいてもよい。或いは、当該信号は、音声データデコーダA0202で復号化してもよい。
 1つの音源オブジェクトに対して少なくとも1つのオブジェクト音データが設定されていればよく、複数のオブジェクト音データが設定されていてもよい。また、それぞれのオブジェクト音データを識別する識別情報が付与され、音源オブジェクトに関する情報として、オブジェクト音データの識別情報がメタデータとして保持されてもよい。
 オブジェクト音データを音空間内に放射するために必要な情報として、例えば、オブジェクト音データを再生する際に基準となる基準音量の情報、音源オブジェクトの位置に関する情報、音源オブジェクトの向きに関する情報、及び、音源オブジェクトが発する音の指向性に関する情報などが含まれていてもよい。
 基準音量の情報は、例えば、オブジェクト音データを音空間に放射する際の音源位置におけるオブジェクト音データの振幅値の実効値であって、デシベル(db)値として浮動小数点で表されてもよい。例えば基準音量が0dbの場合、基準音量の情報は、オブジェクト音データが示す信号レベルの音量を増減させることなくそのままの音量で上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、-6dbの場合、オブジェクト音データが示す信号レベルの音量を約半分にして上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、1つのオブジェクト音データに対して又は複数のオブジェクト音データに対してまとめて付与されてもよい。
 オブジェクト音データを音空間内に放射するために必要な情報に含まれる音量の情報として、例えば、音源の音量の時系列的な変動を示す情報が含まれていてもよい。例えば、音空間が仮想会議室であり、音源が話者である場合、音量は短い時間で断続的に遷移する。それをさらに単純に表現すれば、有音部分と無音部分とが交互に発生する、とも言える。また、音空間がコンサートホールであり、音源が演奏者である場合、音量は一定の時間長維持される。また、音空間が戦場であり、音源が爆発物である場合、爆発音の音量は一瞬だけ大となり以降は無音であり続ける。このように音源の音量の情報は、音の大きさの情報のみならず、音の大きさの遷移の情報を含むものであり、そのような情報をオブジェクト音データの性質を示す情報としてもよい。
 ここで、音の大きさの遷移の情報は、周波数特性を時系列に示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長を示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長と無音である区間の時間長との時系列を示したデータであってもよい。音の大きさの遷移の情報は、音信号の振幅が定常的であるとみなせる(概ね一定であるとみなせる)継続時間とその間の当該信号の振幅値のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間のデータであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間とその間の当該周波数特性のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、データの形式として例えば、スペクトログラムの概形を示すデータであってもよい。また、上記周波数特性の基準となる音量を上記基準音量としてもよい。基準音量の情報とオブジェクト音データの性質とを示す情報は、リスナに知覚させる直接音又は反射音の音量を算出する他、リスナに知覚させるか否か選択をするための選択処理に用いられてもよい。
 向きに関する情報は、典型的には、yaw、pitch、rollで表現される。または、rollの回転を省略し、アジマス(yaw)、エレベーション(pitch)で表現してもよい。向き情報は時間とともに変化してもよく、変化した場合、レンダリング部A0203及びA0213に伝送される。
 リスナに関する情報は、音空間におけるリスナの位置情報と向きとに関する情報である。位置情報はユークリッド空間のX軸、Y軸及びZ軸の位置で表されるが、必ずしも三次元情報でなくてもよく、二次元情報であってもよい。向きに関する情報は、典型的には、yaw、pitch、rollで表現される。または、向きに関する情報は、rollの回転を省略し、アジマス(yaw)、エレベーション(pitch)で表現してもよい。位置情報と向き情報とは時間とともに変化してもよく、変化した場合、レンダリング部A0203及びA0213に伝送される。
 センサ情報は、リスナが装着するセンサで検知された回転量又は変位量などとリスナの位置及び向きとを含む情報である。センサ情報はレンダリング部A0203及びA0213に伝送され、レンダリング部A0203及びA0213はセンサ情報に基づいてリスナの位置及び向きの情報を更新する。センサ情報は、例えば携帯端末がGPS、カメラ、又はLiDAR(Laser Imaging Detection and Ranging)などを用いて自己位置推定を実施して得られた位置情報が用いられてもよい。またセンサ以外から、通信モジュールを通じて外部から取得した情報がセンサ情報として検出されてもよい。センサから、音響信号処理装置100の温度を示す情報、及び、バッテリの残量を示す情報が、センサ情報として、取得されてもよい。音響信号処理装置100又は音声提示装置A0002の演算資源(CPU能力、メモリ資源、PC性能)を示す情報などがセンサ情報として、リアルタイムで取得されてもよい。
 本実施の形態においては、取得部110は、基準音の波形を示す音データ、第1位置情報、オブジェクト音データ及び形状情報を記憶部140から取得するがこれに限られず、音響信号処理装置100以外の装置(例えばクラウドサーバなどのサーバ装置500)から取得してもよい。また、取得部110は、第2位置情報をヘッドフォン200(より具体的には、頭部センサ部201)から取得するがこれに限られない。
 さらに、第1位置情報について説明する。
 上記の通り、仮想空間におけるオブジェクトは、表示部300に表示されるコンテンツ(映像)に含まれるものであり、本実施の形態においては、例えば扇風機FNである。
 第1位置情報は、仮想空間における扇風機FNが、ある時点において、仮想空間内のどの位置にあるのかを示す情報である。なお、仮想空間においては、例えばユーザが扇風機FNを手に取って移動することで、扇風機FNが移動される可能性がある。このため、取得部110は、継続的に第1位置情報を取得する。取得部110は、例えば、空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに第1位置情報を取得する。
 さらに、基準音(空力音)の波形を示す音データ、及び、オブジェクトに対応付けられたオブジェクト音データを含む音データについて説明する。
 本明細書で説明されるオブジェクト音データ及び空力音データを含む音データは、PCM(Pulse Code Modulation)データのような音信号であってもよく、また、これに限られず、音の性質を示すための情報であればよい。
 一例として仮に音信号が、音量がXデシベルの雑音信号である場合に、当該音信号に係る音データは、当該音信号を示すPCMデータそのものであってもよく、成分が雑音信号であることを示す情報及び音量がXデシベルであることを示す情報からなるデータであってもよい。他の一例として仮に音信号が、周波数成分のPeak/Dipが所定の特性である雑音信号である場合に、当該音データに係る音データは、当該音信号を示すPCMデータそのものであってもよく、成分が雑音信号であることを示す情報及び周波数成分のPeak/Dipを示す情報からなるデータであってもよい。
 なお、本明細書では、音データに基づく音信号とは、当該音データを示すPCMデータであることを意味する。
 また、基準音の波形を示す音データである空力音データは、上記の通り、予め記憶部140に記憶されている。空力音は、風Wが物体と衝突することによって発生する音であり、ここでは、風Wが受聴者Lの耳と衝突することによって発生する音である。空力音データとは、風Wが人の耳又は人の耳を模した形状を有する物体(モデル)と衝突することで発生する音が収音されたデータである。本実施の形態においては、空力音データは、人の耳を模した物体(モデル)に風が到達することで生じる音が収音されたデータである。人の耳を模したモデルとしてダミーヘッドマイクなどが用いられ、空力音データが収音される。
 次に、形状情報について説明する。
 形状情報は、仮想空間におけるオブジェクトの形状を示す情報である。形状情報は、オブジェクトの形状を示し、より具体的には、オブジェクトの剛体として三次元形状を示す。オブジェクトの形状は、例えば、球体、直方体、立方体、多面体、円錐、角錐、円柱、角柱など、またこれらの組み合わせなどにより示される。なお、形状情報は、例えばメッシュデータ、又は、例えばボクセル、三次元点群もしくは三次元座標を持つ頂点からなる複数の面の集合として表現されてもよい。
 なお、第1位置情報にはオブジェクトを識別するためのオブジェクト識別情報が含まれている。また、オブジェクト音データにもオブジェクト識別情報が含まれ、形状情報にもオブジェクト識別情報が含まれている。
 このため、取得部110が第1位置情報、オブジェクト音データ、及び、形状情報を別個で取得したとしても、第1位置情報、オブジェクト音データ、及び、形状情報のそれぞれに含まれるオブジェクト識別情報が参照されることで、第1位置情報、オブジェクト音データ、及び、形状情報のそれぞれが示すオブジェクトが識別される。例えばここでは、第1位置情報、オブジェクト音データ、及び、形状情報のそれぞれが示すオブジェクトが、同一の扇風機FNであることが容易に識別することができる。つまり、取得部110が取得した第1位置情報、オブジェクト音データ、及び、形状情報のそれぞれは、3つのオブジェクト識別情報が参照されることで当該第1位置情報、当該オブジェクト音データ、及び、当該形状情報が扇風機FNに係る情報であることが明らかになる。従って、当該第1位置情報、当該オブジェクト音データ、及び、当該形状情報は当該扇風機FNについて示す情報として紐づけられる。
 続いて、第2位置情報について説明する。
 受聴者Lは、仮想空間において移動し得る。第2位置情報は、仮想空間における受聴者Lが、ある時点において、仮想空間内のどの位置に居るのかを示す情報である。なお、受聴者Lは仮想空間において移動することができるため、取得部110は継続的に第2位置情報を取得する。取得部110は、例えば、空間情報管理部A0201及びA0211で実行される空間情報の更新ごとに第2位置情報を取得する。
 なお、上記の基準音の波形を示す音データ、第1位置情報、オブジェクト音データ、形状情報及び第2位置情報などは、入力信号に含まれるメタデータ、制御情報又はヘッダ情報に含まれていてもよい。オブジェクト音データ及び空力音データを含む音データが音信号(PCMデータ)の場合、音信号を識別する情報がメタデータ、制御情報又はヘッダ情報に含まれていてもよく、音信号はメタデータ、制御情報又はヘッダ情報以外に含まれていてもよい。つまり、音響信号処理装置100(より具体的には、取得部110)は、入力信号に含まれるメタデータ、制御情報又はヘッダ情報を取得し、メタデータ、制御情報又はヘッダ情報に基づいて音響処理を行ってもよい。なお、音響信号処理装置100(より具体的には、取得部110)は、上記の基準音の波形を示す音データ、第1位置情報、オブジェクト音データ、形状情報及び第2位置情報を取得すればよく、取得先は入力信号に限定されない。オブジェクト音データ及び空力音データを含む音データとメタデータとは一つの入力信号に格納されていてもよいし、複数の入力信号に別々に格納されていてもよい。
 また、入力信号にオブジェクト音データ及び空力音データを含む音データ以外の音信号がオーディオコンテンツ情報として格納されていてもよい。オーディオコンテンツ情報は、MPEG-H 3D Audio(ISO/IEC 23008-3)(以下、MPEG-H 3D Audioと記載)などの符号化処理が施されているとよい。また、符号化処理に用いる技術はMPEG-H 3D Audioに限られず、公知の他の技術が用いられてもよい。また、上記の基準音の波形を示す音データ、第1位置情報、オブジェクト音データ、形状情報及び第2位置情報などの情報を符号化処理対象としてもよい。
 つまり、音響信号処理装置100は、符号化されたビットストリームに含まれる音信号及びメタデータを取得する。音響信号処理装置100においては、オーディオコンテンツ情報が取得されて復号される。本実施の形態においては、音響信号処理装置100は、復号装置(例えば復号装置A0110及びA0130)が備えるデコーダ(例えばデコーダA0200及びA0210)として機能し、より具体的には、当該デコーダが有するレンダリング部A0203及びA0213として機能する。なお、本開示におけるオーディオコンテンツ情報という用語は、技術内容に即して、音信号そのものや基準音の波形を示す音データ、第1位置情報、オブジェクト音データ、形状情報及び第2位置情報を含む情報として読み替えて解釈するものとする。
 取得部110は、取得した基準音の波形を示す音データ、第1位置情報、オブジェクト音データ、形状情報及び第2位置情報を処理部120及び出力部130に出力する。
 処理部120は、自然現象の変動が模擬された模擬情報に基づいて、基準音の波形を示す音データが示す波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する。本実施の形態においては、基準音が風Wによって生じる空力音であるため、模擬情報における自然現象は、風Wが吹くことである。自然現象の変動は、風Wの変動であり、より具体的には、風Wの風速の変動を意味する。なお、自然現象の変動は、風Wの向き(風向)の変動などであってもよい。
 現実空間においては、自然現象の変動には揺らぎ(例えば1/f揺らぎなど)が含まれている。従って、模擬情報は、揺らぎが含まれている自然現象の変動が模擬された情報である。本実施の形態においては、模擬情報は、風Wの風速の変動が模擬された情報であり、より具体的には、風Wの風速の変動に含まれる揺らぎを表現した情報である。
 より具体的には、模擬情報は、風速の変動が模擬された滑らかな関数である。ここでは、処理部120が、模擬情報として、風速の変動が模擬された滑らかな関数を決定する。
 滑らかな関数は、微分可能でありかつ連続であることを意味する。換言すると、滑らかな関数は、尖った点を有していない関数である。
 図13は、本実施の形態に係る滑らかな関数の一例を示す図である。図13が示すように、滑らかな関数は、一例として正弦曲線であるが、これに限られず、余弦曲線などであってもよい。
 処理部120は、処理部120によって決定された滑らかな関数が示す値に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する。例えば、処理部120は、当該波形の周波数成分を、風速の変動が模擬された滑らかな関数が示す値に比例した周波数にシフトさせるように音データを処理する。
 滑らかな関数が示す値とは、図13が示す縦軸の値であり、基準音である空力音の風速と、処理部120によって処理された後の音データが示す空力音の風速との比率を示す情報である。つまり、滑らかな関数が示す値とは、処理前の空力音の風速と、処理後の空力音の風速との比率を示す値である。
 処理部120は、音データを処理して、出力部130へ出力する。
 出力部130は、処理部120によって処理された音データを出力する。ここでは、出力部130は、処理された空力音データをヘッドフォン200に出力する。これにより、ヘッドフォン200は、出力された空力音データが示す空力音を再生することができる。つまり受聴者Lは、空力音を受聴することができる。
 記憶部140は、取得部110、処理部120、出力部130が実行するコンピュータプログラムなどと、空力音データとが記憶される記憶装置である。
 受付部150は、音響信号処理装置100のユーザ(例えば、仮想空間内で実行されるコンテンツの作成者)からの操作を受付ける。受付部150は、具体的には、ハードウェアボタンで実現されるが、タッチパネルなどによって実現されてもよい。
 ここで、本実施の形態に係る形状情報について再度説明する。形状情報は、仮想空間におけるオブジェクトの映像の生成のために用いられる情報であってオブジェクト(扇風機FN)の形状を示す情報でもある。つまり、形状情報は、表示部300に表示されるコンテンツ(映像)を生成するためにも用いられる情報である。
 取得部110は、取得した形状情報を表示部300にも出力する。表示部300は、取得部110によって出力された形状情報を取得する。表示部300は、さらに、オブジェクト(扇風機FN)の仮想空間における形状以外の属性(色彩など)を示す属性情報を取得する。表示部300は、属性情報を、音響信号処理装置100以外の装置(サーバ装置500)から直接取得してもよく、音響信号処理装置100から取得してもよい。表示部300は、取得した形状情報及び属性情報に基づいて、コンテンツ(映像)を生成して、表示する。
 以下、音響信号処理装置100によって行われる音響信号処理方法の動作例1及び2について説明する。
 [動作例1]
 図14は、本実施の形態に係る音響信号処理装置100の動作例1のフローチャートである。
 図14が示すように、はじめに、受付部150は、模擬情報が、風速の変動が模擬された滑らかな関数であることを指示する操作を受付ける(S10)。受付部150は、例えば、音響信号処理装置100のユーザから、当該操作を受付ける。
 続いて、取得部110は、基準音の波形を示す音データを取得する(S20)。本動作例では、基準音は風によって生じる空力音であり、基準音の波形を示す音データは空力音データである。このステップS20が取得ステップに相当する。
 処理部120は、自然現象の変動が模擬された模擬情報として、風速の変動が模擬された滑らかな関数を決定する(S30)。処理部120は、ステップS10で受付けられた操作に従って、模擬情報を決定するとよい。本動作例では、処理部120は、模擬情報として、図13が示す滑らかな関数を決定する。
 さらに処理部120は、処理部120によって決定された滑らかな関数が示す値(比率)に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データ(空力音データ)を処理する(S40)。
 なお、このステップS30及びステップS40が処理ステップに相当する。
 処理部120は、処理された音データ(空力音データ)を出力部130に出力する。
 出力部130は、処理部120によって処理された音データ(空力音データ)をヘッドフォン200へ出力する(S50)。なお、このステップS50が出力ステップに相当する。
 これにより、受聴者Lは、ヘッドフォン200から出力された空力音を受聴することができる。
 ここで、処理部120が行うステップS30及びS40における処理についてより詳細に説明する。
 図15は、本実施の形態に係る処理部120が行う処理を説明するための図である。
 図15の(a)は、図12で示した音データ(処理前の空力音データD1)と図13で示した滑らかな関数とを示す図である。図15の(a)が示すように、処理前の空力音データD1と滑らかな関数とにおいて、時間軸である横軸が対応している。
 図15の(b)は、図15の(a)における一点鎖線の矩形で囲まれた領域における処理を説明するための図である。図15の(b)には、処理前の空力音データD1と、滑らかな関数と、処理後の空力音データD11とが拡大されて示されている。
 処理前の空力音データD1は、図15の(b)の複数の黒点で示されている。複数の黒点のそれぞれが、図15の(a)で示される処理前の空力音データD1に対応している。また、複数の黒点のそれぞれは、処理前の空力音データD1のサンプル点であるとも言える。
 処理部120は、まず、第1処理を行う。この第1処理について以下説明する。
 処理部120は、1つの黒点と、当該1つの黒点に隣接する他の1つの黒点との間を補間する補間関数を決定する。補間関数は、例えば、スプライン関数であるが、これに限られず、公知の関数であってもよい。また処理部120は、1つの黒点と、当該1つの黒点に隣接する他の1つの黒点との間を線形補間(直線補間)してもよく、この場合、演算処理の負荷が低減される。図15の(b)が示すように、第1処理では、隣接する2つの黒点の間の全てが補間される。
 これにより、図15の(b)に示されるように、1つの黒点と、当該1つの黒点に隣接する他の1つの黒点との間が補間され、線が示されている。また、処理前の複数の黒点の間隔が「1」であると定義する。
 続いて、処理部120は、第2処理を行う。この第2処理について以下説明する。
 第2処理において、処理部120は、時刻tにおける処理前の空力音データD1である1つの黒点の値を読み取り、読み取った値を当該時刻tにおける処理後の空力音データD11として決定する。なお、処理後の空力音データD11は、図15の(c)の複数の白点(白抜きの点)で示されている。
 次に処理部120は、単位時間ごとに滑らかな関数の値を読み取る。例えば、処理部120は、滑らかな関数の値として、「0.5」、「0.5」、「0.4999」及び「0.4998」などを読み取る。
 処理部120は、当該時刻tにおいて読み取った滑らかな関数の値をストライドとして決定し、当該時刻tにおける処理前の空力音データD1の1つの黒点からの時刻がストライドだけ進んだ位置での補間関数の値を読み取る。
 さらに、処理部120は、読み取った補間関数の値を処理後の空力音データD11の値として決定する。このとき、処理部120は、処理後の空力音データD11(複数の白点)の間隔が、処理前の空力音データD1(複数の黒点)の間隔と同じ値となるように、つまりは、「1」となるように、処理後の空力音データD11(複数の白点)の間隔を決定する。このように、第2処理が行われる。
 この第2処理について時刻t1に着目して、具体例を説明する。
 処理部120は、時刻t1における処理前の空力音データD1である黒点B1の値を読み取り、読み取った値を時刻t1における処理後の空力音データD11の白点B11の値として決定する。つまり、処理部120は、読み取った黒点B1の値をそのまま白点B11の値として利用する。
 さらに、処理部120は、時刻t1における滑らかな関数の値である0.5を読み取り、これがストライドとして決定される。時刻t1における処理前の空力音データD1は黒点B1で示されており、処理部120は、処理前の空力音データD1である黒点B1から時刻が0.5だけ進んだ位置での補間関数の値を読み取る。当該位置は、図15の(b)では、位置P1で示されている。
 そして、処理部120は、読み取った補間関数の値(位置P1で示される値)を処理後の空力音データD11の値として決定する。処理部120は、処理後の空力音データD11(複数の白点)の間隔が、処理前の空力音データD1(複数の黒点)の間隔と同じ値である「1」となるように、処理後の空力音データD11(複数の白点)の間隔を決定する。
 この第1処理及び第2処理により、処理後の空力音データD11は、処理前の空力音データD1が横方向に間延びした形状となっている。従って、処理後の空力音データD11は、処理前の空力音データD1に比べて、周波数成分が低域にシフトした音データとなっている。
 図16は、本実施の形態に係る処理部120が行う処理を説明するための他の図である。
 図16の(a)は、図15の(a)と同じく、図12で示した音データ(空力音データ)と図13で示した滑らかな関数とを示す図である。
 図16の(b)及び(c)は、それぞれ図16の(a)における一点鎖線の矩形で囲まれた領域における処理を説明するための図である。図15の(b)及び(c)のそれぞれには、処理前の空力音データD1と、滑らかな関数と、処理後の空力音データD11とが拡大されて示されている。
 図16の(b)及び(c)に示される処理前の空力音データD1においても、図15の(b)を用いて説明された処理と同様の処理が行われる。すなわち、第1処理及び第2処理が行われる。
 図16の(b)においては、処理部120は、滑らかな関数の値として、「1」、「1」、「1.0001」及び「1.0002」などを読み取る。読み取られた滑らかな関数の値が1程度であるため、処理後の空力音データD11は、処理前の空力音データD1と同等の形状である。従って、処理後の空力音データD11は、処理前の空力音データD1に比べて、周波数成分がほとんどシフトしていない音データとなっている。
 図16の(c)においては、処理部120は、滑らかな関数の値として、「1.5」、「1.5」、「1.4999」及び「1.4998」などを読み取る。読み取られた滑らかな関数の値が1.5程度であるため、処理後の空力音データD11は、処理前の空力音データD1が横方向に縮んだ形状となっている。従って、処理後の空力音データD11は、処理前の空力音データD1に比べて、周波数成分が高域にシフトした音データとなっている。
 上記の通り模擬情報は、揺らぎが含まれている自然現象の変動が模擬された情報であり、より具体的には、風Wの風速の変動による揺らぎを表現した情報であり、本動作例においては、滑らかな関数で示される情報である。
 本動作例においては、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて波形の周波数成分が変化するように、基準音の波形を示す音データ(空力音データ)が処理される。このため、処理された空力音データにおいては周波数成分に揺らぎが生じることとなり、処理された空力音データが示す空力音にも周波数成分に揺らぎが生じることとなる。従って、受聴者Lは、このような周波数成分に揺らぎが生じた空力音を受聴することができ、違和感を覚えにくく臨場感を得ることができる。
 また、動作例1のステップS40において、以下の処理が行われるとよい。
 上記の通りステップS40では、ストライドは以下のように決定されるとよい。ここでは、処理部120によって処理される前の空力音データのサンプリング周波数をFscとし、出力部130によって出力される空力音データのサンプリング周波数をFsoとし、FscとFsoとは異なる値であるとする。
 この場合、ストライドは、以下の式を満たすとよい。
 滑らかな関数の値 × (Fsc/Fso)
 ストライドが上記式を満たすことによる効果を以下に説明する。
 例えば、Fsoが48kHzである場合に、Fscを48kHzから16kHzにダウンサンプリングしておくとよい。これにより、例えば同じ時間長さの空力音データが記憶部140に記憶されている場合に、メモリサイズを1/3に低減させることができる。また、これにより、例えば同じメモリサイズが設けられる場合、出力される空力音データの時間長さが3倍になるので、空力音データ同士のつなぎ目部分の違和感を低減できる。
 さらに、折り返し歪の低減が可能であることについて説明する。図17は、本実施の形態に係る音データを示す図である。より具体的には、図17の(a)及び(b)のそれぞれは処理前の空力音データ(例えば図15が示す処理前の空力音データD1)の周波数特性を示す図であり、図17の(a)では横軸が対数軸であり、図17の(b)では横軸がリニア軸である。また、図17の(c)は図17の(b)に示される空力音データの周波数成分が、高周波側へシフトされた周波数特性を示す図である。ここでは、図17の(c)における周波数成分は、図17の(b)における周波数成分が2倍の周波数へシフトされておいる。例えば、図17の(b)の2000Hzの周波数成分が、図17(c)の4000kHzの周波数成分となるように、高周波数側へシフトされている。
 図17の(a)及び(b)において、実線は処理前の空力音データのサンプリング周波数が16kHzである場合の周波数特性を示し、一点鎖線は処理前の空力音データのサンプリング周波数が48kHzである場合の周波数特性を示している。なお、一点鎖線は、低周波数領域においては、実線と重なっているため、図示されていない。
 図17が示すように、空力音データは、低周波数領域に特徴的な構造が現れ、高周波数領域ではその成分は単調に減少する、という場合が多い。
 図17の(c)において、実線はシフトされた空力音データのサンプリング周波数が16kHzである場合の周波数特性を示し、一点鎖線はシフトされた空力音データのサンプリング周波数が48kHzである場合の周波数特性を示している。なお、一点鎖線は、低周波数領域においては、実線と重なっているため、図示されていない。
 一点鎖線で示した空力音データのサンプリング周波数が48kHzである場合、図17の(b)には12kHz以上の周波数領域に周波数成分があり、図17の(c)には破線で示される折り返し歪が出現する。
 実線で示した空力音データのサンプリング周波数が16kHzである場合、図17の(b)には12kHz以上の周波数領域に周波数成分がないので、図17の(c)には折り返し歪が出現しない。
 このように、周波数シフトによる折り返し歪の出現を抑制することができる。
 また、上記の、メモリサイズの低減及び折り返し歪の出現の抑制に必要とされる演算資源の増加はほとんどない、という効果もある。
 以上が、ストライドが上記式を満たすことによる効果に相当する。
 また、本実施の形態の動作例1においては、空力音データは、予め記憶部140に記憶されていたがこれに限られない。例えば、処理部120が、空力音データを生成してもよい。例えば、処理部120は、雑音信号を取得して、取得された雑音信号を複数の帯域強調フィルタのそれぞれで処理することで、空力音データを生成してもよい。
 [動作例2]
 上記のように、動作例1では、波形の周波数成分を変化させるように音データ(空力音データ)が処理されたがこれに限られない。動作例2では、波形の振幅値を変化させるように音データ(空力音データ)が処理される。
 すなわち、動作例2においては、動作例1と同じく、ステップS10~S30が行われる。そして、ステップS40で、処理部120は、処理部120によって決定された滑らかな関数が示す値(比率)に基づいて、波形の振幅値を変化させるように音データ(空力音データ)を処理する。
 波形の振幅値は、当該波形が示す空力音データが示す空力音の音量の程度を意味する。空力音と、この空力音を発生させる風Wの風速とは、以下の関係を有する。空力音の音量は、風Wの風速のα乗に比例する。従って、処理部120は、波形の振幅値を、決定された滑らかな関数が示す値のα乗に比例して変化させるように音データを処理する。αの値は空力音の種類によって異なる。
 例えば、棒状のオブジェクトが風を切ることによって発生する空力音がある。野球に用いられるバットなどがスイングされることで、この空力音が発生する。この種類の空力音の音量は風速の6乗に比例する(非特許文献1参照)。
 また例えば、オブジェクトと他のオブジェクトとの隙間に風が入り込む際に発生する空力音がある。この空力音はいわゆるCavity音である。この種類の空力音の音量は、風速の4乗に比例する(非特許文献1参照)。
 ここで、風速の変動が模擬された滑らかな関数が示す値をRとする。上記のいずれの種類の空力音の場合であっても、当該空力音の音量は、R^αに応じた値で増幅又は減衰する。すなわち、Rが1より大きい場合は増幅となり、Rが1より小さい場合は減衰となる。ここで注意しなければならないことは、空力音の音量が風速のα乗に比例する場合には、空力音の音量が非常に急峻な変動となることである。この急峻な変動について図18を用いて説明する。
 図18は、本実施の形態に係る滑らかな関数が示す値であるRと空力音の音量の増幅率及び減衰率とを示す図である。図18における二点鎖線は、αが6である場合におけるRと空力音の音量との関係を示している。なお、R=1の近傍では、二点鎖線は実線と重なっている。
 図18における二点鎖線が示すように、R=2.0においては増幅率が30dBを超えており、R=0.5においては減衰率が-30dBを下回っている。このような急峻な変動を忠実に再現させるためには非常にダイナミックレンジの広い高価な再生機材が必要となり、このような再生機材は、仮想空間の音響的演出としては過剰である。
 このような高価な再生機材が必要となることを回避するために、閾値rが用いられる。一例として図18では、閾値rとして1.3が用いられている。例えば、(1/r)<R<rの区間と、R<(1/r)及びr<Rの区間とでは、増幅率(減衰率)Gが異なるとよい。図18においては、(1/r)<R<rの区間が破線の矩形で示されている。図18においては、一点鎖線及び実線は、(1/r)<R<rの区間と、R<(1/r)及びr<Rの区間とでは増幅率(減衰率)Gが異なる場合の線である。
 一点鎖線及び実線は、(1/r)<R<rの区間では、増幅率(減衰率)Gは、以下の式を満たす。
 G=R^α
 また、一点鎖線は、R<(1/r)及びr<Rの区間では、増幅率(減衰率)Gは、以下の式を満たす。
 G={r×(R/r)}^α = (r)^α×(R/r)^b
 なお、bをαより小さい値とすることで、R=1.0近傍では、増幅率(減衰率)G=R^αに近い傾向つまりは正しい傾向を実現し、R=1.0近傍以外では単調増幅(単調減衰)となり、かつ、急峻な変動を回避することができる。
 図18における一点鎖線は、r=1.3、b=2.0の条件を満たす。しかしながらこの一点鎖線においては、R=r及びR=1/rにおいて、増幅、減衰の傾向が不連続に変化する。このため、R=rの近傍及びR=1/rの近傍において違和感が生じる場合がある。
 そこで、bを定数とするのではなく、bの値が、R=rの位置ではαと同じ値であり、Rが大きくなるにつれ徐々にαの値より小さな値としてもよい。図18における実線は、R<(1/r)及びr<Rの区間では、増幅率(減衰率)Gは、以下の式を満たす。
 G= (r)^α×(R/r)^b ただしb=α^(r/R)
 図18における実線に従って音量を増減させることによって、風速の微妙な変動(R=1近傍の僅かな変動)に従って敏感に音量を変動させることができ、かつ、Rの増減によって音量が急峻に変動することを避けることができる。
 なお、αの値は、音響信号処理装置100のユーザ(例えば、仮想空間内で実行されるコンテンツの作成者)が任意に設定できるとよい。すなわち、受付部150が、当該作成者から、αの値を指示する操作を受付け、処理部120が受付けられた操作が指示する値を、αの値として決定するとよい。αの値を、0.7、1.0、1.5又は2.0など、学術的に正しい値からは大きく異なるが、仮想空間において「それらしい」空力音の音量の増減を演出するための値とすることで、急峻な変動が回避されてもよい。また、上記rの値及びbの値も同様に決定されるとよい。
 また、動作例1においては周波数成分が、動作例2においては振幅値が変化するように空力音データが処理されたが、これに限られない。例えば、波形の位相が変化するように空力音データが処理されてもよい。この場合、処理部120は、波形の位相を、決定された滑らかな関数が示す値に応じて変化させるように音データを処理する。
 また、波形の周波数成分、位相及び振幅数のうち少なくとも一つが変化すればよい。例えば、波形の周波数成分、位相及び振幅数のうち二つが変化してもよく、波形の周波数成分、位相及び振幅数の全てが変化してもよい。
 なお、動作例1及び2において、処理部120は、取得部110によって取得された基準音の波形を示す音データ(空力音データ)を所定時間の処理フレームFに分割し、分割した処理フレームFごとに、音データを処理してもよい。
 図19は、本実施の形態に係る分割された空力音データを示す図である。図19では、空力音データが複数の処理フレームFに分割されている。また、複数の処理フレームFのそれぞれの所定時間Tsは、同じでもよく、図19が示すように、互いに異なっていてもよい。つまり、図19においては、処理フレームFの一例である処理フレームF1~F6が図示され、所定時間Tsの一例である所定時間Ts1~Ts6が図示されている。所定時間Ts1~Ts6のそれぞれは、互いに異なっている。
 また、動作例1及び2では、模擬情報として図13が示す滑らかな関数が用いられたが、これとは異なる滑らかな関数が用いられてもよい。
 例えば動作例1及び2のステップS30において、処理部120は、自然現象の変動が模擬された模擬情報として、風速の変動が模擬された滑らかな関数を決定する。このとき、処理部120は、滑らかな関数を特定するパラメータが不規則に変化するように滑らかな関数を決定するとよい。さらに、処理部120は、滑らかな関数を特定するパラメータを、分割した処理フレームFごとに決定する。つまり例えば、処理部120は、図19が示す処理フレームF1に対応する滑らかな関数を特定するパラメータを決定する。同様に、処理部120は、処理フレームF2に対応する滑らかな関数を特定するパラメータを、処理フレームF3に対応する滑らかな関数を特定するパラメータを、処理フレームF4に対応する滑らかな関数を特定するパラメータを、処理フレームF5に対応する滑らかな関数を特定するパラメータを、処理フレームF6に対応する滑らかな関数を特定するパラメータを、決定する。
 さらに、処理部120は、分割した処理フレームFごとに、処理フレームFの最初の時刻及び最後の時刻において、滑らかな関数の値が1.0になるように、滑らかな関数を決定する。例えば、所定時間Ts2の処理フレームF2に対応する滑らかな関数においては、時刻t2と時刻t3とにおいて、滑らかな関数が示す値は、1.0である。
 図13が示す滑らかな関数をF(t)とすると、F(t)は、以下の式で表される。
 F(t)=H×{sin[2π×(t/T)^(x)]}^(y)+1.0 (0.0≦t<T)
 滑らかな関数を特定するパラメータの一例は、処理フレームFの最初の時刻から当該処理フレームFの最後の時刻までの時間であり、上記式におけるTである。例えば、図19が示す処理フレームF2に対応する滑らかな関数においては、時刻t2から時刻t3までの時間である。つまり、滑らかな関数が正弦曲線である場合には、当該パラメータは、1つの周期に相当する。
 また、滑らかな関数を特定するパラメータの他の一例は、当該滑らかな関数の最大値に係る値であり、上記式におけるHである。本実施の形態が示すように、滑らかな関数が正弦曲線である場合には、当該パラメータの他の一例は、当該滑らかな関数の最大値を決定する値であるとも言える。
 また、滑らかな関数を特定するパラメータの他の一例は、当該滑らかな関数が最大値に達する位置を変動させるパラメータであり、上記式におけるxである。
 また、滑らかな関数を特定するパラメータの他の一例は、当該滑らかな関数の変動の急峻さを変動させるパラメータであり、上記式におけるyである。
 処理部120は、これらのパラメータが不規則に変化するように当該パラメータを決定することで、滑らかな関数を決定する。例えば、処理部120は、乱数に基づいて、パラメータを決定するとよい。
 例えば、処理部120が乱数列生成部を備え、処理部120は、その出力数列に応じてパラメータを変更するようにしてもよい。ここで、真の乱数列は本来、規則性も再現性もないものである。しかし、コンピュータ上でそれを実現することは困難であるので、上記乱数列生成部が生成する数列は、確定的な計算過程で生成する疑似乱数列でよい。例えば、C言語におけるrand()関数が生成するような疑似乱数列が用いられてもよいし、その他、疑似乱数を生成する既知のどのようなアルゴリズムが用いられてもよい。また、有限長の乱数列、有限長の疑似乱数列、又は、不規則感を演出するために作成した有限長の数列が記憶部140に記憶され、それが繰り返し用いられることで、長時間の疑似乱数列として用いられてもよい。
 また、受付部150が、音響信号処理装置100のユーザ(例えば、仮想空間内で実行されるコンテンツの作成者)から、パラメータの値を指示する操作を受付けてもよい。処理部120は、受付部150によって受付けられた操作が指示する値を当該パラメータとして決定してもよい。
 図20は、本実施の形態に係る2つの滑らかな関数の他の一例を示す図である。図20の(a)及び(b)のそれぞれが示す滑らかな関数は、滑らかな関数を特定するパラメータが不規則に変化するように決定されている。
 なお、このとき、パラメータは、風Wの風速の性質を模擬して、決定されるとよい。上記の通り、風Wの風速の変動には揺らぎが含まれており、つまりは、現実空間においては、風速は、一定ではなく、揺らぎながら変動している。例えば、風Wは、受聴者Lに第1風速で吹いた後に、第1風速とは異なる第2風速で吹くこともある。このように、風速が揺らぎながら変動しているという性質を模擬して、パラメータが決定されるとよい。
 滑らかな関数の最大値は3を超えないとよく、また、滑らかな関数の最小値は0を下回らないとよい。つまり、滑らかな関数が示す値は、0以上3以下であるとよい。滑らかな関数が示す値が上記の通りとなるように、パラメータが決定されるとよい。
 滑らかな関数の最大値は3を超えないとよい理由は、以下の通りである。現実空間では、風Wの風速の変動には揺らぎが含まれており、瞬間的に強い風速(瞬間風速)の風Wが吹く場合がある。風速は例えば10分間平均風速であり、瞬間風速は例えば3秒平均風速である。このような場合に、瞬間風速は、風速の1.5倍~3倍程度となることが知られている。滑らかな関数が示す値は、基準音である空力音の風速と、処理された後の音データが示す空力音の風速との比率である。滑らかな関数の最大値を3以下とすることで、瞬間的に吹く強い風速(瞬間風速)の風Wを、より具体的には当該風Wによる空力音を仮想空間において再現することができる。
 また、風Wの風速をVaとし、風Wの瞬間風速をVpとする。この場合、処理部120は、滑らかな関数の最大値がVp/Vaとなるように滑らかな関数を決定する。より具体的には、処理部120は、滑らかな関数の最大値がVp/Vaとなるように、滑らかな関数を特定するパラメータを決定する。例えば、受付部150は、風Wの風速であるVaと風Wの瞬間風速であるVpとを指定する指示を受付け、処理部120は、受付けられた指示に従って、滑らかな関数の最大値がVp/Vaとなるように、滑らかな関数を特定するパラメータを決定する。
 なおこのときに、音響信号処理装置100が備える表示部に、風Wの強さを表す言葉と、当該言葉で示される風Wの風速及び瞬間風速とが紐づけられた画像が表示されるとよい。当該画像においては、例えば当該言葉が「やや強い風」である場合に、風速は「10以上15未満(m/s)」かつ瞬間風速は「20(m/s)」であることが紐づけられている。また、当該画像においては、例えば当該言葉が「強い風」である場合に、風速は「15以上20未満(m/s)」かつ瞬間風速は「30(m/s)」であることが紐づけられている。
 音響信号処理装置100のユーザ(例えば、仮想空間内で実行されるコンテンツの作成者)は、当該表示部に表示された当該画像を視認する。そして、受付部150は、ユーザから、風Wの強さを表す言葉を指定する指示を受付ける。処理部120は、受付けられた指示が指定する言葉に紐づけられた風速及び瞬間風速を、Va及びVpとして決定し、滑らかな関数の最大値がVp/Vaとなるように、滑らかな関数を特定するパラメータを決定する。
 この場合でも、瞬間的に吹く強い風速(瞬間風速)の風Wを、より具体的には当該風Wによる空力音を仮想空間において再現することができる。
 また、処理部120は、空力音データを所定時間の処理フレームFに分割したが、この所定時間の平均値は、3秒であるとよい。上記の通り、瞬間風速は、例えば3秒平均風速である。従って、所定時間の平均値が3秒であることで、所定時間を、瞬間風速を計測する時間(つまりは3秒)と対応させることができ、仮想空間において瞬間的に吹く強い風速(瞬間風速)の風Wを、現実空間で吹く風に近づけることができる。
 ここで、上記4つのパラメータが変化した場合の滑らかな関数について図21を用いてより詳細に説明する。
 図21は、本実施の形態に係る滑らかな関数を特定するパラメータが変化した例を示す図である。図21の(a)には、図13と同じ滑らかな関数が示されている。図21の(b)は、上記式のTが変化した滑らかな関数を示す図である。図21の(c)は、上記式のHが変化した滑らかな関数を示す図である。図21の(d)は、上記式のxが変化した滑らかな関数を示す図である。図21の(e)は、上記式のyが変化した滑らかな関数を示す図である。
 ところで、上記動作例1及び2においては、1つの出力チャンネルであるヘッドフォン200に処理された空力音データが出力されたが、これに限られない、例えば、第1出力チャンネル及び第2出力チャンネルのそれぞれに、処理された空力音データが出力されてもよい。第1出力チャンネルは受聴者Lの一方の耳に空力音を出力し、第2出力チャンネルは受聴者Lの他方の耳に空力音を出力する。
 このような場合に、処理部120は、それぞれ滑らかな関数を特定する第1パラメータと第2パラメータとを決定する。処理部120は、処理部120によって決定された第1パラメータによって特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように取得された音データ(空力音データ)を処理する。この処理された空力音データを空力音データAとする。処理部120は、処理部120によって決定された第2パラメータによって特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように取得された音データ(空力音データ)を処理する。この処理された空力音データを空力音データBとする。
 出力部130は、決定された第1パラメータによって特定される滑らかな関数に基づいて処理された音データ(空力音データA)を、第1出力チャンネルに出力する。出力部130は、決定された第2パラメータによって特定される滑らかな関数に基づいて処理された音データ(空力音データB)を、第2出力チャンネルに出力する。
 図22は、本実施の形態に係る2つの滑らかな関数の他の一例を示す図である。図22の(a)は、第1パラメータによって特定される滑らかな関数を示し、図22の(b)は、第2パラメータによって特定される滑らかな関数を示す。ここでは、第1出力チャンネルは、右耳に出力するチャンネルであり、第2出力チャンネルは、左耳に出力するチャンネルである。
 これにより、出力チャンネルごとに、異なる空力音データを出力することができる。
 なお、このとき、第1パラメータ及び第2パラメータは、風Wの向き(風向)の性質を模擬して、決定されるとよい。上記の通り、風Wの向き(風向)の変動には揺らぎが含まれており、つまりは、現実空間においては、風向は、一定ではなく、揺らぎながら変動している。例えば、風Wは、受聴者Lの右側から吹いた後に、受聴者Lの正面から吹くこともある。このように、風向が揺らぎながら変動しているという性質を模擬して、第1パラメータ及び第2パラメータが決定されるとよい。
 (実施の形態1の変形例)
 以下、実施の形態1の変形例について説明する。以下では、実施の形態1との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 [構成]
 まずは、本変形例に係る音響信号処理装置100aの構成について説明する。図23は、本変形例に係る音響信号処理装置100aの機能構成を示すブロック図である。
 本変形例に係る音響信号処理装置100aは、処理部120にかえて処理部120aを備える点を除いて、実施の形態1に係る音響信号処理装置100と同じ構成を有する。
 処理部120aは、第1処理部121と第2処理部122とを有する。
 第1処理部121は、図14で説明されたステップS30の処理を行う。第2処理部122は、第1処理部121によって決定された滑らかな関数が示す値に基づいて、以下の処理を行う。
 図24は、本変形例に係る第2処理部122の機能構成を示すブロック図である。第2処理部122は、サンプリングレート変換部1001と、再配置部1002と、接続部1003とを有する。
 サンプリングレート変換部1001は、基準音の波形を示す音データ(空力音データ)と第1処理部121によって決定された滑らかな関数が示す値とを取得する。
 サンプリングレート変換部1001は、取得した滑らかな関数が示す値に基づいて、処理フレームFごとに空力音データのサンプリングレートを変換する。空力音データのサンプリングレートがFsの場合、処理前の空力音データ(例えば図15が示す処理前の空力音データD1)のサンプル点とサンプル点との間隔(サンプル間隔)は1/Fs秒となる。
 滑らかな関数が示す値が0.5となる場合、サンプリングレート変換部1001は、サンプル間隔が0.5倍(1/(2・Fs))、つまりサンプリングレートが2・Fsとなるように、空力音データをアップサンプリングする。また、滑らかな関数が示す値が2となる場合、サンプリングレート変換部1001は、サンプル間隔が2倍(2/Fs)、つまりサンプリングレートがFs/2となるように空力音データをダウンサンプリングする。サンプリングレート変換部は、サンプリングレート変換された空力音データを、再配置部1002に出力する。
 再配置部1002は、サンプリングレート変換後の空力音データとサンプリングレート変換後の空力音データとの間隔をFsに戻す処理を行う。この処理により、滑らかな関数が示す値が1より大きな値を取るときは、空力音データが早回しして再生されることとなる。また滑らかな関数が示す値が1より小さいときは、空力音データが遅回しして再生されることとなる。これにより、空力音データの周波数成分が高域側にシフトし又は低域側にシフトし、自然な揺らぎが感じられる空力音の生成が可能になる。次に、再配置部1002は、サンプル点の位置が再配置された空力音データを接続部1003に出力する。
 接続部1003は、処理フレームF間の不連続の発生を抑えるための処理を行う。ここでは、2つの処理フレームFを用いて当該処理の説明を行う。2つの処理フレームFは、前処理フレームと現処理フレームとである。現処理フレームは当該時刻における処理部120の処理の対象となる処理フレームFであり、前処理フレームは当該現処理フレームの1つ前の処理フレームFである。
 接続部1003は、前処理フレームの空力音データから生成された再配置後の空力音データの時間的に後ろに位置する複数のサンプル点と、現処理フレームの空力音データから生成された再配置後の空力音データの時間的に前に位置する複数のサンプル点とを窓掛け加算する処理を行う。この処理により、滑らかな関数が示す値が変動することによる生じる処理フレームF間の不連続を回避する。
 図25は、本変形例に係る空力音データを示す図である。また、図26は、本変形例に係る第2処理部122による処理の概念図である。空力音データは、処理フレームF単位で処理が行われる。また隣接する2つの処理フレームFは、互いの一部がオーバーラップされるように設定される。これは、前処理フレームの再配置後の複数のサンプル点のうちの後ろに位置する1以上のサンプル点と、現処理フレームの再配置後の複数のサンプル点のうち前に位置する1以上のサンプル点とを窓掛け加算を行い、不連続の発生を回避するためである。例えば、図25が示すように、隣接する2つの処理フレームFn及びFn+1は、互いの一部がオーバーラップしている。より具体的には、時刻t14から時刻t13までの時間において、2つの処理フレームFn及びFn+1は重なっている。なお、処理フレームFnが前処理フレームに相当し、処理フレームFn+1が現処理フレームに相当する。
 空力音データのサンプリングレートをFs、処理フレームFnの滑らかな関数が示す値を0.5、処理フレームFn+1の滑らかな関数が示す値を0.75としたときの例を説明する。処理フレームFnでは、滑らかな関数が示す値が0.5であるので、サンプリングレートが2・Fs(サンプル間隔が1/(2・Fs))となるようにサンプリングレート変換が行われる。再配置部1002は、次に、サンプリングレート変換後のサンプル点の位置を、サンプル間隔が1/Fsとなるように、つまりは元に戻るように再配置を行う。そのため、再配置後のサンプル点の時間長は、サンプリングレート変換部1001によって変換された空力音データのサンプル点の時間長の2倍になる。
 そして、再配置後の複数のサンプル点のうち後ろに位置する1以上のサンプル点と、現処理フレームの再配置後の複数のサンプル点のうち前に位置する1以上のサンプル点とを窓掛け加算する処理を行い出力する。この例では、処理フレームn+1における滑らかな関数が示す値は0.75となっているので、再配置後のサンプル点の時間長は、サンプリングレート変換部1001によって変換された空力音データのサンプル点の時間長の4/3倍になる。なお、窓掛け加算が行われない区間の再配置後のサンプル点は、そのまま音データとして出力される。
 ここで、サンプリングレート変換部1001について、図27を用いて、より詳細に説明する。
 図27は、本変形例に係るサンプリングレート変換部1001の機能構成を示すブロック図である。サンプリングレート変換部1001は、アップサンプル部1021と、ローパスフィルタ部1022と、ダウンサンプル部1023と、XY設定部1024とを有する。
 アップサンプル部1021は、音データ(空力音データ)を取得し、XY設定部1024は、滑らかな関数が示す値を取得する。XY設定部1024は、アップサンプル部1021で用いられるアップサンプル値X、ダウンサンプル部1023で用いられるダウンサンプル値Yを設定する。ここで、アップサンプル値がXの場合、アップサンプル部1021は、空力音データをX倍にアップサンプルする。ダウンサンプル値がYの場合、ダウンサンプル部1023は、空力音データを1/Y倍にダウンサンプルする。XY設定部1024におけるX及びYの設定は、Y/Xが滑らかな関数が示す値となるX及びYの組み合わせの中で、X及びYが最小の整数となるように決定される。例えば、滑らかな関数が示す値が0.5の場合に、(X,Y)=(2,1)、滑らかな関数が示す値が0.75の場合に、(X,Y)=(4,3)、滑らかな関数が示す値が1.5の場合に、(X,Y)=(2,3)のように設定される。なお、X=1の場合、アップサンプル部1021ではアップサンプル処理は行われず空力音データがそのまま出力され、Y=1の場合、ダウンサンプル部1023ではダウンサンプル処理は行われず空力音データがそのまま出力される。
 アップサンプル部1021では、X-1個のゼロ値をサンプル点とサンプル点との間に挿入する。ダウンサンプル部1023は、Y個おきにサンプル点を間引いて出力する。ローパスフィルタ部1022は、折り返し歪の発生を防ぐため、以下の処理を行う。ここで、空力音データのサンプリングレートをFs、サンプリングレート変換後の空力音データのサンプリングレートをFs’とする。このとき、ローパスフィルタ部1022は、アップサンプル部1021から出力された空力音データを、遮断周波数がmin(Fs,Fs’)/2となる特性のローパスフィルタで処理する。
 さらに、滑らかな関数が示す値の時間的な変動パターンを例示する。ここでは、滑らかな関数が示す値は5個の値のうちのいずれかで表される。ここでは変動パターン1及び変動パターン2について説明する。
 変動パターン1では、滑らかな関数が示す値は0.25,0.5,1,2,4のうちいずれかの値となる。変動パターン2では、滑らかな関数が示す値は0.5,0.75,1,1.5,2のうちいずれかの値となる。滑らかな関数が示す値が取り得る値、又は、取り得る個数はここで例示しているものに限らない。
 また、図28は、本変形例に係る滑らかな関数が示す値の状態遷移図である。すなわち図28は、滑らかな関数が示す値の時間的な遷移の様子を示している。それぞれの円は状態を表し、p(0)の状態のときは滑らかな関数が示す値としてp(0)を出力する。また、a(e,f)は状態eから状態fへ遷移する確率を示す。自然な音の揺らぎを表すため、この例のように自分自身もしくは隣接する状態への遷移のみ認める設定が望ましいが、アプリケーションによっては激しい揺らぎが望ましい場合もあるので、この例に限らず、どのような遷移を規定しても良い。
 なお、本変形例においては、サンプリングレート変換部1001によって取得された空力音データの振幅値に変動を与える処理が行われてもよい。
 図29は、本変形例に係る音響信号処理装置100aの他の機能構成を示すブロック図である。ここでは、音響信号処理装置100aの処理部120aは、第2処理部122にかえて、第2処理部122bを有する。第2処理部122bは、サンプリングレート変換部1001と、振幅調整部1031と、再配置部1002と、接続部1003とを有する。
 図29では、サンプリングレート変換部1001の後段に振幅調整部1031が配置されている。この振幅調整部1031は、サンプリングレート変換部1001より出力されるサンプリングレート変換後の空力音データの振幅値がゆらぐように振幅値を修正する。その修正方法としては、例えば、図28の滑らかな関数が示す値の状態遷移図のように、時間的に変動させても良い。また、あらかじめ用意されている複数の振幅変動パターンのいずれかを用いて、当該空力音データに振幅変動パターンを乗じることで振幅値を修正する構成であっても良い。
 また、振幅調整部1031は、再配置部1002の後段にあってもよいし、接続部1003の後段にあってもよい。
 (実施の形態2)
 以下、実施の形態2について説明する。以下では、実施の形態1及び変形例との相違点を中心に説明し、共通点の説明を省略又は簡略化する。
 [構成]
 まずは、本実施の形態に係る情報処理装置600の構成について説明する。図30は、本実施の形態に係る情報処理装置600の機能構成を示すブロック図である。
 情報処理装置600は、巡回アドレス部610と、周波数シフト部620と、記憶部630と、区間指定部640と、クロスフェード部650と、読み出し制御部660とを備える。
 空力音データの時間長さが短い場合に、この空力音データが繰り返し用いられると、空力音データ同士の繋ぎ目でノイズが生じてしまうなどの課題も生じる。本実施の形態に係る情報処理装置600は、これらの課題のうち少なくとも一方を解決するために用いられる。
 図31は、従来技術に係る音データの読み出しと、本実施の形態に係る音データの読み出しとを説明するための図である。図31の(a)は従来技術に係る音データの読み出しを説明するための図であり、図31の(b)は本実施の形態に係る音データの読み出しを説明するための図である。
 従来技術に係る音データ(空力音データ)の読み出しについて説明する。従来技術においては、空力音データが記憶されている記憶部が設けられており、巡回アドレス部は、当該記憶部の空力音データが記憶されている始点のアドレスから、当該空力音データが記憶されている終点のアドレスまでを巡回する。巡回アドレス部が、上記の記憶部から空力音データを読み出して、出力する。
 そして、次に、本実施の形態に係る音データ(空力音データ)の読み出しについて説明する。
 ここでは、空力音データ(例えば図15が示す処理前の空力音データD1)は、複数のサンプル点で構成されており、より具体的には図31の(b)が示すようにN個のサンプル点で構成されている。ここで、当該空力音データの先頭のM個のサンプル点と末尾のM個のサンプル点とが予めクロスフェードされ、クロスフェードされたM個のサンプル点が作成される。また、当該空力音データの先頭のM個のサンプル点と末尾のM個のサンプル点とが除かれた中間部分の(N-2M)個のサンプルとが作成される。
 本実施の形態に係る記憶部630には、クロスフェードされたM個のサンプル点と、中間部分の(N-2M)個のサンプルとが結合された(N-M)個のサンプルで構成された空力音データが記憶されている。この記憶部630には、(N-M)個のサンプルで構成された空力音データに対応する(N-M)個の一連のアドレスが設定されている。
 本実施の形態においては、巡回アドレス部610が、記憶部630に記憶されている(N-M)個のサンプルで構成された空力音データの始点のアドレスから、終点のアドレスまでを巡回して、当該空力音データを読み出して、周波数シフト部620に出力する。周波数シフト部620は、出力された当該空力音データを取得して、その周波数をシフトさせ、例えば、実施の形態1に係るヘッドフォン200などの出力チャンネルに出力する。
 本実施の形態に係る情報処理装置600においては、先頭のM個のサンプル点と末尾のM個のサンプル点とがクロスフェードされていることから、空力音データ同士の繋ぎ目でノイズが生じてしまうなどの課題が生じ難い。
 さらに、本実施の形態に係る情報処理装置600は、以下の処理を行うとよい。図32は、本実施の形態に係る情報処理装置600が行う処理を説明するための図である。
 図32の(a)は、本実施の形態に係る記憶部630の構成を示す図である。ここでは、記憶部630には、空力音データ(例えば図15が示す処理前の空力音データD1)が記憶されており、また、第1ポインタPt1と第2ポインタPt2とが設けられている。第1ポインタPt1は、記憶されている空力音データを読み出す読み出し位置を示す。第2ポインタPt2は、第1ポインタPt1に連動して移動するポインタであって、記憶部630から空力音データを読み出す読み出し位置を示すポインタである。
 区間指定部640は、第1区間A1及び第2区間A2を指定する。第2区間A2は、第1区間A1に隣接する後続の区間である。第2ポインタPt2は、第2区間A2に隣接する後続の区間A3を移動する。
 なお、第1区間A1及び第2区間A2は、情報処理装置600のユーザが任意に設定できるとよい。すなわち、情報処理装置600が備える受付部が、当該ユーザから、第1区間A1及び第2区間A2を指示する操作を受付け、区間指定部640が受付けられた操作が指示する区間を、第1区間A1及び第2区間A2として決定するとよい。
 クロスフェード部650は、第1ポインタPt1が示す読み出し位置から読み出された空力音データをフェードイン処理して、フェードイン処理した空力音データを出力する。クロスフェード部650は、第2ポインタPt2が示す読み出し位置から読み出された空力音データをフェードアウト処理して、フェードアウト処理した空力音データを出力する。
 読み出し制御部660は、第1ポインタPt1が示す読み出し位置が第1区間A1に含まれており、当該第1区間A1から空力音データが読み出されている間は、クロスフェード部650にフェードイン処理した空力音データを出力させる。読み出し制御部660は、第1ポインタPt1が示す読み出し位置が第1区間A1に含まれておらず、当該第1区間A1から空力音データが読み出されていない間は、巡回アドレス部610によって第2区間A2から読み出された空力音データを出力する。
 そして、クロスフェード部650が出力したフェードイン処理された空力音データ、又は、巡回アドレス部610によって第2区間A2から読み出された空力音データは、周波数シフト部620に出力される。周波数シフト部620は、出力されたフェードイン処理された空力音データ、又は、第2区間A2から読み出された空力音データを取得して、その周波数をシフトさせ、例えば、実施の形態1に係るヘッドフォン200などの出力チャンネルに出力する。
 続いて、図32の(b)及び(c)で示される処理について説明する。
 図32の(b)は、本実施の形態に係る第1ポインタPt1が第1区間A1及び第2区間A2を巡回する例を示す図である。この例においては、第1ポインタPt1は、第1区間A1と第2区間A2とを巡回する。第1ポインタPt1が示す読み出し位置が第1区間A1に含まれる間には、第1ポインタPt1が示す読み出し位置から空力音データが読み出され、第1ポインタPt1と連動する第2ポインタPt2が示す読み出し位置からも空力音データが読み出される。クロスフェード部650は、読み出された2つの空力音データに対して、クロスフェード処理を行う。なお、第1ポインタPt1が示す読み出し位置が第1区間A1に含まれている間は、第1ポインタPt1と連動して第2ポインタPt2が示す読み出し位置が、第1区間A1に連動する区間A3に含まれているとよく、区間A3からも空力音データが読み出されるとよい。
 図32の(c)は、本実施の形態に係る第2ポインタPt2が第2区間A2及び区間A3を巡回する例を示す図である。この例においては、第2ポインタPt2は、第2区間A2及び区間A3を巡回する。第2ポインタPt2が示す読み出し位置が区間A3に含まれる間には、第2ポインタPt2が示す読み出し位置から空力音データが読み出され、第1ポインタPt1が示す読み出し位置からも空力音データが読み出される。クロスフェード部650は、読み出された2つの空力音データに対して、クロスフェード処理を行う。なお、第2ポインタPt2が示す読み出し位置が第2区間A2に含まれている間は、第2ポインタPt2と連動して第1ポインタPt1が示す読み出し位置が第1区間A1に含まれているとよく、第1区間A1からも空力音データが読み出されるとよい。
 さらに、本実施の形態に係る情報処理装置600は、以下の処理を行うとよい。図33は、本実施の形態に係る情報処理装置600が行う他の処理を説明するための図である。
 この他の処理においては、区間指定部640は、第1区間A1と第2区間A2とを無作為に(ランダムに)更新する。区間指定部640は、第2区間A2の終点の位置及び次の第1区間A1の始点及び終点の位置を逐次更新する。
 図33が示す他の処理においては、図33の(a)、図33の(b)、図33の(c)、図33の(d)、図33の(e)、図33の(f)、図33の(g)の順に空力音データが読み出される状態が遷移する。
 図33の(a)、(d)及び(g)のそれぞれは空力音データが読み出される状態1を示し、図33の(b)及び(e)のそれぞれは空力音データが読み出される状態2を示し、図33の(c)及び(f)のそれぞれは空力音データが読み出される状態3を示す。
 図33においては、状態1、状態2、状態3がこの順で繰り返される。
 図33の(a)が示す状態1においては、第2区間A2から空力音データが読み出されている。なお、このときに、第2区間A2の終点は、定まっていない。
 図33の(b)が示す状態2においては、第2区間A2から空力音データが読み出されている。そして、区間指定部640は、所定のタイミングで、第2区間A2の終点と次の第1区間A1とを無作為に指定する。なお、次の第1区間A1に連動する区間A3は、第2区間A2に隣接する後続の区間であるため、区間指定部640が指定する必要はなく、自動的に決定される。
 なお、所定のタイミングは、情報処理装置600のユーザが任意に設定できるとよい。すなわち、情報処理装置600が備える受付部が、当該ユーザから、所定のタイミングを指示する操作を受付け、区間指定部640が受付けられた操作が指示するタイミングを、所定のタイミングとして決定するとよい。
 図33の(c)が示す状態3においては、第2区間A2からの空力音データの読み出しが終了している。そして、クロスフェード部650は、次の第1区間A1から読み出された空力音データ、及び、次の第1区間A1に連動する区間A3から読み出された空力音データに対して、クロスフェード処理を行う。
 図33の(d)が示す状態1においては、次の第2区間A2から空力音データが読み出されている。なお、この次の第2区間A2は、図33の(c)で示される次の第1区間A1に隣接する後続の区間であるため、区間指定部640は、この次の第2区間A2の始点を指定する必要はなく、自動的に決定される。つまり、図33の(c)を用いて説明されたクロスフェード処理が終了すると、この次の第2区間A2から空力音データの読み出しが行われる。なお、このときに、図33の(a)が示す状態1と同じく、第2区間A2の終点は定まっていない。
 図33の(e)が示す状態2においては、第2区間A2(図33の(d)で示される次の第2区間A2に相当)から空力音データが読み出されている。そして、区間指定部640は、所定のタイミングで、当該第2区間A2の終点と次の第1区間A1とを無作為に指定する。なお、次の第1区間A1に連動する区間A3は、第2区間A2に隣接する後続の区間であるため、区間指定部640が指定する必要はなく、自動的に決定される。
 図33の(f)が示す状態3においては、第2区間A2(図33の(e)で示される次の第2区間A2に相当)からの空力音データの読み出しが終了している。そして、クロスフェード部650は、次の第1区間A1から読み出された空力音データ、及び、次の第1区間A1に連動する区間A3から読み出された空力音データに対して、クロスフェード処理を行う。
 図33の(g)が示す状態1においては、次の第2区間A2から空力音データが読み出されている。なお、この次の第2区間A2は、図33の(f)で示される次の第1区間A1に隣接する後続の区間であるため、区間指定部640は、この次の第2区間A2の始点を指定する必要はなく、自動的に決定される。つまり、図33の(c)を用いて説明されたクロスフェード処理が終了すると、この次の第2区間A2から空力音データの読み出しが行われる。なお、このときに、図33の(a)が示す状態1と同じく、第2区間A2の終点は定まっていない。
 図33が示すように、状態1、状態2、状態3がこの順で繰り返され、状態2において無作為に、第2区間A2の終点と次の第1区間A1を指定することで、受聴者Lは、同じ空力音を繰り返して受聴することが回避される。従って、同じ空力音を繰り返すことによって生じる不自然な「リズム」が生成されない。
 続いて、パイプライン処理について説明する。
 上述の音響信号処理装置100で行われる処理の一部又は全ては、例えば特許文献2で説明されているようなパイプライン処理の一部として行われてもよい。図34は、図6及び図7のレンダリング部A0203及びA0213がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。図34での説明においては、図6及び図7のレンダリング部A0203及びA0213の一例であるレンダリング部900を用いて説明する。
 パイプライン処理とは、音響効果を付与するための処理を複数の処理に分割し、各処理を1つずつ順番に実行することを指す。分割された処理のそれぞれでは、例えば、音声信号に対する信号処理、又は信号処理に用いるパラメータの生成などが実行される。
 本実施の形態におけるレンダリング部900は、パイプライン処理として、例えば残響効果、初期反射処理、距離減衰効果、バイノーラル処理などを施す処理を含む。ただし、上記の処理は一例であり、それ以外の処理を含んでいてもよいし、一部の処理を含んでいなくてもよい。例えば、レンダリング部900がパイプライン処理として、回折処理又はオクルージョン処理を含んでいてもよいし、例えば残響処理が不要な場合は省略されてもよい。また、それぞれの処理をステージと表現し、それぞれの処理の結果生成される反射音などの音声信号をレンダリングアイテムと表現してもよい。パイプライン処理における各ステージの順番と、パイプライン処理に含まれるステージとは図34に示した例に限られない。
 なお、図34で示すすべてのステージがレンダリング部900に備わっていなくてもよく、一部のステージが省略されたり、レンダリング部900以外に他のステージが存在したりしてもよい。
 パイプライン処理の一例として、残響処理、初期反射処理、距離減衰処理、選択処理、生成処理、バイノーラル処理のそれぞれで行われる処理について説明する。それぞれの処理では入力信号に含まれるメタデータを解析して、反射音の生成に必要なパラメータを算出する。
 なお、図34においては、レンダリング部900は、残響処理部901、初期反射処理部902、距離減衰処理部903、選択部904、算出部906、生成部907及びバイノーラル処理部905を備える。ここでは、残響処理部901が残響処理ステップを、初期反射処理部902が初期反射処理ステップを、距離減衰処理部903が距離減衰処理ステップを、選択部904が選択処理ステップを、バイノーラル処理部905がバイノーラル処理ステップを行う例について説明する。
 残響処理ステップでは、残響処理部901が残響音を示す音声信号又は音声信号の生成に必要なパラメータを生成する。残響音とは、直接音の後に残響としてリスナに到達する残響音を含む音である。一例として、残響音は、後述する初期反射音がリスナへ到達した後の比較的後期(例えば、直接音の到達時から百数十ms程度)の段階で、初期反射音よりも多くの回数(例えば、数十回)の反射を経てリスナへ到達する残響音である。残響処理部901は、入力信号に含まれる音声信号及び空間情報を参照し、事前に準備してある残響音を生成するための所定の関数を用いて計算する。
 残響処理部901は、当該音信号に、公知の残響生成方法を適用して、残響を生成してもよい。公知の残響生成方法とは、一例として、シュレーダー法であるが、これに限られない。また、残響処理部901は、公知の残響生成処理を適用する際に、空間情報が示す音再生空間の形状及び音響特性を用いる。これにより、残響処理部901は、残響を示す音声信号を生成するためのパラメータを算出することができる。
 初期反射処理ステップでは、初期反射処理部902が、空間情報に基づいて、初期反射音を生成するためのパラメータを算出する。初期反射音は、音源オブジェクトから直接音がリスナへ到達した後の比較的初期(例えば、直接音の到達時から数十ms程度)の段階で、1回以上の反射を経てリスナへ到達する反射音である。初期反射処理部902は、例えば音信号及びメタデータを参照し、三次元音場(空間)の形状、大きさ、構造物などのオブジェクトの位置、及びオブジェクトの反射率などを用いて、音源オブジェクトからオブジェクトで反射してリスナに到達する反射音の経路(経路の長さ)を計算する。また、初期反射処理部902が直接音の経路(経路の長さ)も算出してもよい。当該経路を示す情報が初期反射音を生成するためのパラメータとして用いられるとともに、選択部904における反射音の選択処理のためのパラメータとして用いられてもよい。
 距離減衰処理ステップでは、距離減衰処理部903が、初期反射処理部902が算出した直接音の経路の長さと反射音の経路の長さとの差に基づいて、リスナに到達する音量を算出する。リスナに到達する音量は、音源の音量に対して、リスナまでの距離に比例して減衰(距離に反比例)するので、直接音の音量は、音源の音量を直接音の経路の長さで除して得ることができ、反射音の音量は、音源の音量を反射音の経路の長さで除して算出することができる。
 選択処理ステップでは、選択部904が、生成する音を選択する。それ以前のステップで算出されたパラメータに基づいて、選択処理が実行されてもよい。
 選択処理がパイプライン処理の一部で実行される場合、選択処理において選択されなかった音については、パイプライン処理における選択処理以降の処理を実行する対象としなくてもよい。選択されなかった音について選択処理以降の処理を実行しないことで、選択されなかった音についてバイノーラル処理のみを実行しないことを決定する場合よりも、音響信号処理装置100の演算負荷を低減することが可能になる。
 また、本実施の形態で説明した選択処理がパイプライン処理の一部で実行される場合、選択処理の順番が、パイプライン処理における複数の処理の順番のうちより早い順番で実行されるように設定すると、より多くの選択処理以降の処理を省略できるため、より多くの演算量を削減することができる。例えば算出部906及び生成部907が処理より前の順番で選択処理が実行されると、選択しないことが決定されたオブジェクトに係る空力音についての処理を省略することができ、より音響信号処理装置100における演算量を削減することが出来る。
 また、レンダリングアイテムを生成するパイプライン処理の一部で算出されたパラメータが、選択部904又は算出部906で用いられてもよい。
 バイノーラル処理ステップでは、バイノーラル処理部905が、直接音の音声信号に対して音源オブジェクトの方向からリスナに到達する音として知覚されるように、信号処理を実行する。さらにバイノーラル処理部905は、反射音が反射に関わる障害物オブジェクトからリスナに到達する音として知覚されるように、信号処理を実行する。音空間におけるリスナの座標及び向き(つまり、受聴点の位置及び向き)に基づいて、音源オブジェクトの位置又は障害物オブジェクトの位置から音がリスナに到達するように、HRIR(Head―Related Impulse Responses) DB(Data base)を適用する処理を実行する。なお、受聴点は、例えば、リスナの頭部の動きに合わせてその位置及び方向が変化されてもよい。また、リスナの位置を示す情報がセンサから取得されてもよい。
 パイプライン処理及びバイノーラル処理に用いるプログラム、音響処理に必要な空間情報、HRIR DB、及び、閾値データなどその他のパラメータは、音響信号処理装置100に備わるメモリ又は外部から取得する。HRIR(Head―Related Impulse Responses)とは、1個のインパルスを発生させたときの応答特性である。言い換えれば、HRIRとは、耳殻、人頭及び肩まで含めた周辺物によって生じる音の変化を伝達関数として表現した頭部伝達関数をフーリエ変換することで、周波数領域における表現から時間領域における表現に変換された応答特性である。HRIR DBは、このような情報を含むデータベースである。
 また、パイプライン処理の一例として、レンダリング部900は図示していない処理部を含んでいてもよい。例えば、回折処理部又はオクルージョン処理部を含んでいてもよい。
 回折処理部は、三次元音場(空間)におけるリスナと音源オブジェクトとの間にある障害物に起因する回折音を含む音を示す音声信号を生成する処理を実行する。回折音は、音源オブジェクトとリスナとの間に障害物がある場合に、当該障害物を回り込むようにして音源オブジェクトからリスナへ到達する音である。
 回折処理部は、例えば音信号及びメタデータを参照し、三次元音場(空間)における音源オブジェクトの位置、リスナの位置、並びに障害物の位置、形状、及び大きさなどを用いて、音源オブジェクトから障害物を迂回してリスナへと到達する経路を計算し、当該経路に基づいて回折音を生成する。
 オクルージョン処理部は、いずれかのステップで取得した空間情報及び障害物オブジェクトの材質などの情報に基づいて、障害物オブジェクトの向こう側に音源オブジェクトがある場合に漏れ聞こえる音声信号を生成する。
 なお、上記実施の形態1及び2では、音源オブジェクトに付与する位置情報は、仮想空間内における「点」として定義したものであり、所謂「点音源」であるとして発明の詳細を説明した。一方で、仮想空間における音源を定義する方法として、長さ、大きさ又は形状などを有する物体として、点音源でない、空間的に拡張された音源を定義する場合もある。そのような場合は、リスナと音源との距離又は音の到来方向が確定しないので、それに起因する反射音は解析が行われるまでもなく、或いは解析結果の如何にかかわらず、上記選択部904で「選択する」方の処理に限定してもよい。そうすることによって、反射音を選択しないことによって生じるかもしれない音質の劣化を避けることができるからである。又は、当該物体の重心など代表点が定められて、その代表点から音が発生しているとして本開示の処理を適用してもよいが、その場合は、音源の空間的な拡張の情報に応じて閾値を調整した上で本開示の処理を適用してもよい。
 続いて、ビットストリームの構造例について説明する。
 ビットストリームには、例えば、音声信号と、メタデータと、が含まれる。音声信号は、音の周波数及び強弱に関する情報などを示す、音が表現された音データである。メタデータに含まれる空間情報は、音声信号に基づく音を聞くリスナが位置する空間に関する情報である。具体的には、空間情報は、当該音の音像を、音空間(例えば、三次元音場内)における所定の位置に定位させる際の、つまり、リスナに所定方向から到達する音として知覚させる際の当該所定の位置(定位位置)に関する情報である。空間情報には、例えば、音源オブジェクト情報と、リスナの位置を示す位置情報とが含まれる。
 音源オブジェクト情報は、音声信号に基づく音を発生させる、つまり、音声信号を再生する物体を示すオブジェクトの情報であって、当該物体が配置される実空間に対応する仮想的な空間である音空間に配置される仮想的なオブジェクト(音源オブジェクト)に関する情報である。音源オブジェクト情報は、例えば、音空間に配置される音源オブジェクトの位置を示す情報、音源オブジェクトの向きに関する情報、音源オブジェクトが発する音の指向性に関する情報、音源オブジェクトが生物に属するか否かを示す情報、及び、音源オブジェクトが動体であるか否かを示す情報などを含む。例えば、音声信号は、音源オブジェクト情報が示す1以上の音源オブジェクトに対応している。
 ビットストリームのデータ構造の一例として、ビットストリームは、例えばメタデータ(制御情報)と音声信号とで構成される。
 音声信号とメタデータとは一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に音声信号とメタデータとは一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。
 ビットストリームは音源ごとに存在してもよいし、再生時間ごとに存在してもよい。再生時間ごとにビットストリームが存在する場合、同時に複数のビットストリームが並列で処理されてもよい。
 メタデータは、ビットストリームごとに付与されてもよく、複数のビットストリームを制御する情報としてまとめて付与されてもよい。また、メタデータは、再生時間ごとに付与されてもよい。
 音声信号とメタデータとは、複数のビットストリーム又は複数のファイルに別々に格納されている場合、音声信号とメタデータとは、一つ又は一部のビットストリーム又はファイルに関連する他のビットストリーム又はファイルを示す情報に含まれていてもよいし、音声信号とメタデータとは、全てのビットストリーム又はファイルのそれぞれに関連する他のビットストリーム又はファイルを示す情報に含まれていてもよい。ここで、関連するビットストリーム又はファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連するビットストリーム又はファイルには、関連する他のビットストリーム又はファイルを示す情報をまとめて記述したビットストリーム又はファイルが含まれていてもよい。ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、URL(Uniform Resource Locator)又はURI(Uniform Resource Identifier)などである。この場合、取得部110は、関連する他のビットストリーム又はファイルを示す情報に基づいてビットストリーム又はファイルを特定又は取得する。また、ビットストリーム内に関連する他のビットストリームを示す情報が含まれていると共に、ビットストリーム内に別のビットストリーム又はファイルに関連するビットストリーム又はファイルを示す情報を含めていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイルなどの制御ファイルであってもよい。
 なお、全てのメタデータ又は一部のメタデータは音声信号のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。また、映像を制御するメタデータが音声信号再生システムで取得されるビットストリームに含まれる場合は、音声信号再生システムは映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。
 さらに、メタデータに含まれる情報の例について説明する。
 メタデータは、音空間で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、音声信号再生システムでモデリングされる、音空間における三次元映像及び音響イベントを表すすべての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。勿論、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。
 音声信号再生システムは、ビットストリームに含まれるメタデータ及び、追加で取得されるインタラクティブなリスナの位置情報などを用いて、音声信号に音響処理を行うことで、仮想的な音響効果を生成する。ここでは、音響効果のうち、初期反射処理と、障害物処理と、回折処理と、遮断処理と、残響処理とを行う場合を説明するが、メタデータを用いてほかの音響処理を行ってもよい。例えば、音声信号再生システムは、距離減衰効果、ローカリゼーション、ドップラー効果などの音響効果を付加することが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報、優先度情報をメタデータとして付加してもよい。
 また、一例として、符号化されたメタデータは、音源オブジェクト及び障害物オブジェクトを含む音空間に関する情報と、当該音の音像を音空間内において所定位置に定位させる(つまり、所定方向から到達する音として知覚させる)際の定位位置に関する情報とを含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がリスナへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、リスナが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人などの動物、又は機械などの動体を含み得る。また、音空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。建材又は無生物などの音を発しないオブジェクトである非発音オブジェクトも、音を発する音源オブジェクトも障害物オブジェクトとなり得る。
 メタデータには、音空間の形状、音空間に存在する障害物オブジェクトの形状情報及び位置情報、音空間に存在する音源オブジェクトの形状情報及び位置情報、並びに音空間におけるリスナの位置及び向きをそれぞれ表す情報のすべて又は一部が含まれる。
 音空間は、閉空間又は開空間のいずれであってもよい。また、メタデータには、例えば床、壁、又は天井などの音空間において音を反射し得る構造物の反射率、及び音空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。勿論、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。音空間が開空間の場合は、例えば一律で設定された減衰率、回折音、初期反射音などのパラメータが用いられてもよい。
 上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして、反射率を挙げたが反射率以外の情報を含んでいてもよい。例えば、反射率以外の情報は、音源オブジェクト及び非発音オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、反射率以外の情報は、拡散率、透過率、吸音率などのパラメータを含んでいてもよい。
 音源オブジェクトに関する情報として、音量、放射特性(指向性)、再生条件、ひとつのオブジェクトから発せられる音源の数及び種類、並びに、オブジェクトにおける音源領域を指定する情報などを含めてもよい。再生条件では例えば、継続的に流れ続ける音なのかイベントで発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、リスナの位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。オブジェクトにおける音源領域がリスナの位置とオブジェクトの位置との相対的な関係で定められる場合、リスナが見ているオブジェクトの面を基準とし、リスナから見てオブジェクトの右側からは音C、左側からは音Eが発せられているようにリスナに知覚させることができる。オブジェクトにおける音源領域がオブジェクトを基準として定められる場合、リスナの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにリスナに知覚させることができる。この場合、リスナがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにリスナに知覚させることができる。
 空間に関するメタデータとして、初期反射音までの時間、残響時間、直接音と拡散音との比率などを含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをリスナに知覚させることができる。
 (効果など)
 実施の形態1に係る音響信号処理方法は、基準音の波形を示す音データを取得する取得ステップと、自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する処理ステップと、処理された音データを出力する出力ステップと、を含む。
 これにより、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理される。このため処理された音データにおいては、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなり、処理された音データが示す音にも周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなる。従って、受聴者Lは、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた音を受聴することができ、受聴者Lは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Lに臨場感を与えることができる音響信号処理方法が実現される。
 上記実施の形態1の動作例1では、自然現象として風Wが吹く例が用いられた。上記の通り模擬情報は、揺らぎが含まれている自然現象の変動が模擬された情報であり、より具体的には、風Wの風速の変動による揺らぎを表現した情報であり、動作例1においては、滑らかな関数で示される情報である。
 動作例1においては、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて波形の周波数成分が変化するように、基準音の波形を示す音データ(空力音データ)が処理される。このため、処理された空力音データにおいては周波数成分に揺らぎが生じることとなり、処理された空力音データが示す空力音にも周波数成分に揺らぎが生じることとなる。従って、受聴者Lは、このような周波数成分に揺らぎが生じた空力音を受聴することができ、違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Lに臨場感を与えることができる音響信号処理方法が実現される。
 なお、上記実施の形態1の動作例1では、自然現象として風Wが吹く例が用いられたがこれに限られず、川の水が流れる、動物の行動などの自然現象が用いられてもよい。
 自然現象として川の水が流れる例が用いられる場合、受聴者Lは、川の水が流れることによるせせらぎ音を受聴することとなる。この場合、模擬情報は、川の水の流速の変動、又は、川の水の流れの向きの変動による揺らぎを表現した情報である。
 自然現象として動物の行動の例が用いられる場合、受聴者Lは、動物の鳴き声などを受聴することとなる。この場合、模擬情報は、動物の鳴き声の大きさの変動などによる揺らぎを表現した情報である。
 すなわち、自然現象として、川の水が流れる、動物の行動などの現象が用いられた場合でも、模擬情報は、揺らぎが含まれている自然現象の変動が模擬された情報である。従って、動作例1で示したように、模擬情報が用いられることで、受聴者Lは、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた音を受聴することができ、受聴者Lは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Lに臨場感を与えることができる音響信号処理方法が実現される。
 実施の形態1に係る音響信号処理方法は、基準音は、風Wによって生じる空力音であり、処理ステップでは、風Wの風速の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する。
 これにより、受聴者Lは、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた空力音を受聴することができ、受聴者Lは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Lに臨場感を与えることができる音響信号処理方法が実現される。
 実施の形態1に係る音響信号処理方法は、処理ステップでは、模擬情報として、風Wの風速の変動が模擬された滑らかな関数を決定し、決定された滑らかな関数が示す値に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する。
 これにより、滑らかな関数が示す値により、音データが処理されることができる。
 実施の形態1に係る音響信号処理方法は、滑らかな関数が示す値は、基準音である空力音の風速と、処理ステップで処理された後の音データが示す空力音の風速との比率を示す情報である。
 これにより、基準音である空力音の風速と処理された後の音データが示す空力音の風速との比率により、音データが処理されることができる。
 実施の形態1に係る音響信号処理方法は、処理ステップでは、滑らかな関数を特定するパラメータが不規則に変化するように滑らかな関数を決定する。
 これにより、受聴者Lは、周波数成分、位相及び振幅数のうち少なくとも一つに、不規則に変化する揺らぎが生じた空力音を受聴することができ、受聴者Lは違和感をより覚えにくく臨場感をより得ることができる。つまりは、受聴者Lに臨場感をより与えることができる音響信号処理方法が実現される。
 実施の形態1に係る音響信号処理方法は、処理ステップでは、波形の周波数成分を、決定された滑らかな関数が示す値に比例した周波数にシフトさせるように音データを処理する。
 これにより、受聴者Lは、周波数成分に揺らぎが生じた音を受聴することができ、受聴者Lは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Lに臨場感を与えることができる音響信号処理方法が実現される。
 すなわち、動作例1が示すように、揺らぎが含まれている風Wの風速の変動が模擬された模擬情報(滑らかな関数)に基づいて波形の周波数成分が変化するように、基準音の波形を示す音データ(空力音データ)が処理される。このため、処理された空力音データにおいては周波数成分に揺らぎが生じることとなり、処理された空力音データが示す空力音にも周波数成分に揺らぎが生じることとなる。従って、受聴者Lは、このような周波数成分に揺らぎが生じた空力音を受聴することができ、違和感を覚えにくく臨場感を得ることができる。
 実施の形態1に係る音響信号処理方法は、処理ステップでは、波形の振幅値を、決定された滑らかな関数が示す値のα乗に比例して変化させるように音データを処理する。
 これにより、受聴者Lは、振幅値に揺らぎが生じた音を受聴することができ、受聴者Lは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Lに臨場感を与えることができる音響信号処理方法が実現される。
 すなわち、動作例2が示すように、揺らぎが含まれている風Wの風速の変動が模擬された模擬情報である滑らかな関数が示す値のα乗に比例して、波形の振幅値が変化するように、基準音の波形を示す音データ(空力音データ)が処理される。このため、処理された空力音データにおいては振幅値に揺らぎが生じることとなり、処理された空力音データが示す空力音にも振幅値に揺らぎが生じることとなる。従って、受聴者Lは、このような振幅値に揺らぎが生じた空力音を受聴することができ、違和感を覚えにくく臨場感を得ることができる。
 実施の形態1に係る音響信号処理方法は、処理ステップでは、取得された音データを所定時間の処理フレームFに分割し、分割した処理フレームFごとに、音データを処理する。
 これにより、演算処理の負荷が低減された音響信号処理方法が実現される。
 実施の形態1に係る音響信号処理方法は、処理ステップでは、分割した処理フレームFごとに、処理フレームFの最初の時刻及び最後の時刻において、滑らかな関数の値が1.0になるように、滑らかな関数を決定する。
 これにより、処理フレームFと、当該処理フレームFの次の処理フレームFとの繋ぎ目にノイズ音が生じることが抑制される。
 実施の形態1に係る音響信号処理方法は、処理ステップでは、滑らかな関数を特定するパラメータを、分割した処理フレームFごとに決定する。
 これにより、演算処理の負荷が低減された音響信号処理方法が実現される。
 実施の形態1に係る音響信号処理方法は、パラメータは、最初の時刻から最後の時刻までの時間である。
 これにより、パラメータを処理フレームFの最初の時刻から当該処理フレームFの最後の時刻までの時間とすることができる。
 実施の形態1に係る音響信号処理方法は、パラメータは、滑らかな関数の最大値に係る値である。
 これにより、パラメータを滑らかな関数の最大値に係る値とすることができる。
 実施の形態1に係る音響信号処理方法は、パラメータは、滑らかな関数が最大値に達する位置を変動させるパラメータである。
 これにより、パラメータを滑らかな関数が最大値に達する位置を変動させるパラメータとすることができる。
 実施の形態1に係る音響信号処理方法は、パラメータは、滑らかな関数の変動の急峻さを変動させるパラメータである。
 これにより、パラメータを滑らかな関数の変動の急峻さを変動させるパラメータとすることができる。
 実施の形態1に係る音響信号処理方法は、処理ステップでは、滑らかな関数を特定する第1パラメータ及び第2パラメータを決定し、決定された第1パラメータによって特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように取得された音データを処理し、決定された第2パラメータによって特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように取得された音データを処理し、出力ステップでは、決定された第1パラメータによって特定される滑らかな関数に基づいて処理された音データを、第1出力チャンネルに出力し、決定された第2パラメータによって特定される滑らかな関数に基づいて処理された音データを、第2出力チャンネルに出力する。
 これにより、出力チャンネルごとに、異なる音データを出力することができる。
 実施の形態1に係る音響信号処理方法は、空力音は、風Wが物体と衝突することによって発生する音であり、処理ステップでは、風Wの風速の性質を模擬してパラメータを決定する。
 これにより、揺らぎが含まれている風Wの風速の変動を模擬してパラメータが決定される。このパラメータにより特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理されることができる。
 実施の形態1に係る音響信号処理方法は、空力音は、風Wが、空力音を受聴する受聴者Lの耳と衝突することによって発生する音であり、処理ステップでは、風Wの風向の性質を模擬してパラメータを決定する。
 これにより、揺らぎが含まれている風Wの向きの変動を模擬してパラメータが決定される。このパラメータにより特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理されることができる。
 実施の形態1に係る音響信号処理方法は、滑らかな関数の最大値は、3を超えない。
 これにより、滑らかな関数の最大値を3以下とすることができる。
 実施の形態1に係る音響信号処理方法は、滑らかな関数の最小値は、0を下回らない。
 これにより、滑らかな関数の最小値を0以上とすることができる。
 実施の形態1に係る音響信号処理方法は、風Wの風速であるVaと風Wの瞬間風速であるVpとを指定する指示を受付ける受付ステップを含み、処理ステップでは、滑らかな関数の最大値がVp/Vaとなるように滑らかな関数を決定する。
 これにより、滑らかな関数の最大値とVp/Vaとすることができる。
 実施の形態1に係る音響信号処理方法は、所定時間の平均値は、3秒である。
 これにより、処理フレームFの時間長さである所定時間の平均値を3秒とすることができる。
 実施の形態1に係る音響信号処理方法は、物体は、耳を模した形状を有する物体である。
 これにより、例えばダミーヘッドマイクなどを用いて空力音を収音することができる。
 実施の形態1に係るコンピュータプログラムは、上記記載の音響信号処理方法をコンピュータに実行させる。
 これにより、コンピュータが、コンピュータプログラムに従って、上記の音響信号処理方法を実行することができる。
 実施の形態1に係る音響信号処理装置100は、基準音の波形を示す音データを取得する取得部110と、自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する処理部120と、処理された音データを出力する出力部130と、を備える。
 これにより、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理される。このため処理された音データにおいては、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなり、処理された音データが示す音にも周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなる。従って、受聴者Lは、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた音を受聴することができ、受聴者Lは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Lに臨場感を与えることができる音響信号処理装置100が実現される。
 (その他の実施の形態)
 以上、本開示の態様に係る音響信号処理方法及び音響信号処理装置について、実施の形態及び変形例に基づいて説明したが、本開示は、この実施の形態及び変形例に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態及び変形例に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。
 また、以下に示す形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。
 (1)上記の音響信号処理装置を構成する構成要素の一部は、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムであってもよい。前記RAM又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
 (2)上記の音響信号処理装置を構成する構成要素の一部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
 (3)上記の音響信号処理装置を構成する構成要素の一部は、各装置に脱着可能なICカード又は単体のモジュールから構成されているとしてもよい。前記ICカード又は前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカード又は前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカード又は前記モジュールは、その機能を達成する。このICカード又はこのモジュールは、耐タンパ性を有するとしてもよい。
 (4)また、上記の音響信号処理装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。
 また、上記の音響信号処理装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送などを経由して伝送するものとしてもよい。
 (5)本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
 (6)また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
 (7)また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワークなどを経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
 本開示は、音響信号処理方法及び音響信号処理装置に利用可能であり、特に、音響システムなどに適用可能である。
100、100a 音響信号処理装置
110 取得部
120、120a 処理部
121 第1処理部
122、122b 第2処理部
130 出力部
140 記憶部
150 受付部
200 ヘッドフォン
201 頭部センサ部
202 出力部
300 表示部
500 サーバ装置
600 情報処理装置
610 巡回アドレス部
620 周波数シフト部
630 記憶部
640 区間指定部
650 クロスフェード部
660 読み出し制御部
900 レンダリング部
901 残響処理部
902 初期反射処理部
903 距離減衰処理部
904 選択部
905 バイノーラル処理部
906 算出部
907 生成部
1001 サンプリングレート変換部
1002 再配置部
1003 接続部
1021 アップサンプル部
1022 ローパスフィルタ部
1023 ダウンサンプル部
1024 XY設定部
1031 振幅調整部
A1 第1区間
A2 第2区間
A3 区間
A0000 立体音響再生システム
A0001 音響信号処理装置
A0002 音声提示装置
A0100 符号化装置
A0101 入力データ
A0102 エンコーダ
A0103 符号化データ
A0104 メモリ
A0110 復号装置
A0111 音声信号
A0112 デコーダ
A0113 入力データ
A0114 メモリ
A0120 符号化装置
A0121 送信部
A0122 送信信号
A0130 復号装置
A0131 受信部
A0132 受信信号
A0200 デコーダ
A0201 空間情報管理部
A0202 音声データデコーダ
A0203 レンダリング部
A0210 デコーダ
A0211 空間情報管理部
A0213 レンダリング部
D1 処理前の空力音データ
D11 処理後の空力音データ
FN 扇風機
F、F1、F2、F3、F4、F5、F6、Fn、Fn+1 処理フレーム
L 受聴者
Pt1 第1ポインタ
Pt2 第2ポインタ

Claims (24)

  1.  基準音の波形を示す音データを取得する取得ステップと、
     自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理ステップと、
     処理された前記音データを出力する出力ステップと、
     を含む、
     音響信号処理方法。
  2.  前記基準音は、風によって生じる空力音であり、
     前記処理ステップでは、前記風の風速の変動が模擬された前記模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように前記音データを処理する、
     請求項1に記載の音響信号処理方法。
  3.  前記処理ステップでは、
      前記模擬情報として、前記風の風速の変動が模擬された滑らかな関数を決定し、
      決定された前記滑らかな関数が示す値に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように前記音データを処理する、
     請求項2に記載の音響信号処理方法。
  4.  前記滑らかな関数が示す値は、前記基準音である空力音の風速と、前記処理ステップで処理された後の前記音データが示す空力音の風速との比率を示す情報である
     請求項3に記載の音響信号処理方法。
  5.  前記処理ステップでは、前記滑らかな関数を特定するパラメータが不規則に変化するように前記滑らかな関数を決定する、
     請求項4に記載の音響信号処理方法。
  6.  前記処理ステップでは、前記波形の周波数成分を、決定された前記滑らかな関数が示す値に比例した周波数にシフトさせるように前記音データを処理する、
     請求項3に記載の音響信号処理方法。
  7.  前記処理ステップでは、前記波形の振幅値を、決定された前記滑らかな関数が示す値のα乗に比例して変化させるように前記音データを処理する、
     請求項3に記載の音響信号処理方法。
  8.  前記処理ステップでは、取得された前記音データを所定時間の処理フレームに分割し、分割した前記処理フレームごとに、前記音データを処理する、
     請求項4に記載の音響信号処理方法。
  9.  前記処理ステップでは、分割した前記処理フレームごとに、前記処理フレームの最初の時刻及び最後の時刻において、前記滑らかな関数の値が1.0になるように、前記滑らかな関数を決定する、
     請求項8に記載の音響信号処理方法。
  10.  前記処理ステップでは、前記滑らかな関数を特定するパラメータを、分割した前記処理フレームごとに決定する、
     請求項9記載の音響信号処理方法。
  11.  前記パラメータは、前記最初の時刻から前記最後の時刻までの時間である、
     請求項10に記載の音響信号処理方法。
  12.  前記パラメータは、前記滑らかな関数の最大値に係る値である、
     請求項10に記載の音響信号処理方法。
  13.  前記パラメータは、前記滑らかな関数が最大値に達する位置を変動させるパラメータである、
     請求項10に記載の音響信号処理方法。
  14.  パラメータは、前記滑らかな関数の変動の急峻さを変動させるパラメータである、
     請求項10に記載の音響信号処理方法。
  15.  前記処理ステップでは、
      前記滑らかな関数を特定する第1パラメータ及び第2パラメータを決定し、
      決定された前記第1パラメータによって特定される前記滑らかな関数に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように取得された前記音データを処理し、
      決定された前記第2パラメータによって特定される前記滑らかな関数に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように取得された前記音データを処理し、
     前記出力ステップでは、
      決定された前記第1パラメータによって特定される前記滑らかな関数に基づいて処理された前記音データを、第1出力チャンネルに出力し、
      決定された前記第2パラメータによって特定される前記滑らかな関数に基づいて処理された前記音データを、第2出力チャンネルに出力する、
     請求項10に記載の音響信号処理方法。
  16.  前記空力音は、前記風が物体と衝突することによって発生する音であり、
     前記処理ステップでは、前記風の風速の性質を模擬して前記パラメータを決定する、
     請求項10に記載の音響信号処理方法。
  17.  前記空力音は、前記風が、前記空力音を受聴する受聴者の耳と衝突することによって発生する音であり、
     前記処理ステップでは、前記風の風向の性質を模擬して前記パラメータを決定する、
     請求項10に記載の音響信号処理方法。
  18.  前記滑らかな関数の最大値は、3を超えない、
     請求項8に記載の音響信号処理方法。
  19.  前記滑らかな関数の最小値は、0を下回らない、
     請求項8に記載の音響信号処理方法。
  20.  前記風の前記風速であるVaと前記風の瞬間風速であるVpとを指定する指示を受付ける受付ステップを含み、
     前記処理ステップでは、前記滑らかな関数の最大値がVp/Vaとなるように前記滑らかな関数を決定する、
     請求項8に記載の音響信号処理方法。
  21.  前記所定時間の平均値は、3秒である、
     請求項8に記載の音響信号処理方法。
  22.  前記物体は、耳を模した形状を有する物体である、
     請求項16に記載の音響信号処理方法。
  23.  請求項1~22のいずれか1項に記載の音響信号処理方法をコンピュータに実行させるためのコンピュータプログラム。
  24.  基準音の波形を示す音データを取得する取得部と、
     自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理部と、
     処理された前記音データを出力する出力部と、
     を備える、
     音響信号処理装置。
PCT/JP2023/036007 2022-10-19 2023-10-03 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置 WO2024084950A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263417389P 2022-10-19 2022-10-19
US63/417,389 2022-10-19
US202363457495P 2023-04-06 2023-04-06
US63/457,495 2023-04-06

Publications (1)

Publication Number Publication Date
WO2024084950A1 true WO2024084950A1 (ja) 2024-04-25

Family

ID=90737345

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/036007 WO2024084950A1 (ja) 2022-10-19 2023-10-03 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置

Country Status (1)

Country Link
WO (1) WO2024084950A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110972053A (zh) * 2019-11-25 2020-04-07 腾讯音乐娱乐科技(深圳)有限公司 构造听音场景的方法和相关装置
WO2020255810A1 (ja) * 2019-06-21 2020-12-24 ソニー株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020255810A1 (ja) * 2019-06-21 2020-12-24 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN110972053A (zh) * 2019-11-25 2020-04-07 腾讯音乐娱乐科技(深圳)有限公司 构造听音场景的方法和相关装置

Similar Documents

Publication Publication Date Title
KR102502383B1 (ko) 오디오 신호 처리 방법 및 장치
Serafin et al. Sonic interactions in virtual reality: State of the art, current challenges, and future directions
EP3684083A1 (en) Processing audio signals
CN111052770B (zh) 空间音频下混频的方法及***
US11950084B2 (en) 3D audio rendering using volumetric audio rendering and scripted audio level-of-detail
CN112602053B (zh) 音频装置和音频处理的方法
US11109177B2 (en) Methods and systems for simulating acoustics of an extended reality world
US11250834B2 (en) Reverberation gain normalization
US11417347B2 (en) Binaural room impulse response for spatial audio reproduction
US20230007427A1 (en) Audio scene change signaling
WO2020189263A1 (ja) 音響処理装置、音響処理方法、および音響処理プログラム
WO2024084950A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024084949A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024014389A1 (ja) 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置
WO2024014390A1 (ja) 音響信号処理方法、情報生成方法、コンピュータプログラム、及び、音響信号処理装置
JP7267096B2 (ja) オーディオエフェクト制御システム、オーディオエフェクト制御装置、受信装置、オーディオエフェクト制御方法、受信装置の制御方法及びプログラム
WO2024084920A1 (ja) 音響処理方法、音響処理装置、及び、プログラム
WO2023199815A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2024084999A1 (ja) 音響処理装置及び音響処理方法
WO2024084998A1 (ja) 音響処理装置及び音響処理方法
WO2024084997A1 (ja) 音響処理装置及び音響処理方法
WO2023199778A1 (ja) 音響信号処理方法、プログラム、音響信号処理装置、および、音響信号再生システム
WO2023199818A1 (ja) 音響信号処理装置、音響信号処理方法、及び、プログラム
WO2023199817A1 (ja) 情報処理方法、情報処理装置、音響再生システム、及び、プログラム
WO2023199813A1 (ja) 音響処理方法、プログラム、及び音響処理システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23879597

Country of ref document: EP

Kind code of ref document: A1