WO2018079850A1 - 信号処理装置、信号処理方法およびプログラム - Google Patents

信号処理装置、信号処理方法およびプログラム Download PDF

Info

Publication number
WO2018079850A1
WO2018079850A1 PCT/JP2017/039405 JP2017039405W WO2018079850A1 WO 2018079850 A1 WO2018079850 A1 WO 2018079850A1 JP 2017039405 W JP2017039405 W JP 2017039405W WO 2018079850 A1 WO2018079850 A1 WO 2018079850A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
audio signal
content
sound
environmental sound
Prior art date
Application number
PCT/JP2017/039405
Other languages
English (en)
French (fr)
Inventor
康平 関口
雄太 湯山
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to JP2018547230A priority Critical patent/JP6737342B2/ja
Publication of WO2018079850A1 publication Critical patent/WO2018079850A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/04Sound-producing devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Definitions

  • One embodiment according to the present invention relates to a signal processing apparatus, a signal processing method, and a program for performing localization addition processing on an audio signal.
  • the sealed headphone signal processing apparatus described in Patent Document 1 performs processing to localize content sounds and surrounding sounds at different positions, so that these sounds do not overlap and the contents sound and the surrounding sounds are clear. Can listen to.
  • an embodiment of the present invention aims to provide a signal processing device, a signal processing method, and a program that can naturally listen to a target content while naturally listening to BGM such as environmental sound.
  • the signal processing apparatus includes an input unit and a localization processing unit.
  • the input unit inputs the first audio signal related to the environmental sound and the second audio signal related to the content.
  • the localization processing unit performs a first localization process that localizes the first audio signal around a listener and a second localization process that localizes the second audio signal at a position different from the first localization process. .
  • the signal processing apparatus can naturally listen to target content while naturally listening to BGM such as environmental sound.
  • FIG. 1A and 1B are schematic diagrams showing an audio signal processing system. It is a block diagram which shows the structure of a signal processing apparatus. 12 is a block diagram illustrating a configuration of a signal processing device according to an application example 1. FIG. It is a block diagram which shows the structure of the signal processing apparatus which concerns on the application example 2. FIG. It is a block diagram which shows the structure of the signal processing apparatus which concerns on the application example 3. FIG. FIG. 6A is a diagram illustrating a chart for inputting a user's mood. FIG. 6B is a diagram illustrating an example of a combination of environmental sound and content. It is a flowchart which shows operation
  • FIG. 12A and FIG. 12B show a screen on which the user inputs an evaluation for an option. It shows the time and the stress level of the user.
  • FIG. 1 (A) and 1 (B) are schematic views (top view) showing an audio signal processing system.
  • FIG. 2 is a block diagram illustrating a configuration of the signal processing device.
  • the audio signal processing system includes a signal processing device 1, a headphone unit 2L, and a headphone unit 2R.
  • the signal processing apparatus 1 includes an input interface (I / F) 11, a localization processing unit 12, an amplification unit 13L, an amplification unit 13R, an output interface (I / F) 14, a storage unit 15, a user interface (I / F) 16, And a control unit 19.
  • the signal processing device 1 may be a dedicated headphone unit (portable amplifier) or a general information processing device (for example, a smartphone).
  • Each component in the signal processing device 1 may be hardware, but may be configured by a function of the control unit 19.
  • the control unit 19 is hardware called an IC, CPU, MPU, LSI, or microcontroller.
  • the control unit 19 can implement each configuration with software by executing the program 151 stored in the storage unit 15.
  • the storage unit 15 is a memory (storage medium) that stores the program 151.
  • the storage unit 15 is hardware called HDD, SSD, flash memory, EEPROM, or the like.
  • the localization processing unit 12 is composed of, for example, a DSP (Digital Signal Processor).
  • the localization processing unit 12 performs various signal processes on the input audio signal.
  • the localization processing unit 12 can also be realized by a program 151 executed by the control unit 19.
  • the input I / F 11 inputs an audio signal from another device such as an audio player or the storage unit 15.
  • the input audio signal includes a first audio signal related to the environmental sound and a second audio signal related to the content.
  • Environmental sounds correspond to sounds in nature that do not include melody and rhythm.
  • the environmental sound is, for example, a bonfire, rain sound, wave sound, forest sound, thunder sound, insect voice, or animal voice.
  • environmental noise includes noise from the city, the sound of vehicles, and the noise of cafés.
  • the content is music including general melody or rhythm.
  • audio including speech such as reading is also included in the content.
  • the user selects the environmental sound and the content type through the user I / F 16.
  • the first audio signal related to the environmental sound and the second audio signal related to the content are input to the localization processing unit 12.
  • Each of the first audio signal and the second audio signal may be a monaural signal or a stereo signal. Further, the first audio signal and the second audio signal may be multi-channel audio signals having three or more channels.
  • the localization processing unit 12 performs a localization process for each of the first audio signal related to the environmental sound and the second audio signal related to the content.
  • the localization process uses a head-related transfer function (hereinafter referred to as HRTF) corresponding to a predetermined listener's head shape.
  • HRTF head-related transfer function
  • the localization process can also be realized by the left and right mixing balance.
  • HRTF is an impulse response that expresses the difference in sound volume, arrival time, and frequency characteristics from a virtual speaker installed at a certain position to the left and right ears.
  • the localization processing unit 12 uses, as the second audio signal, HRTF to be localized by the virtual speaker VR1 positioned at the front right and HRTF to be localized at the virtual speaker VL1 positioned at the left front.
  • HRTF to be localized by the virtual speaker VR1 positioned at the front right
  • HRTF to be localized at the virtual speaker VL1 positioned at the left front.
  • the user can perceive as if the sound related to the content is being output from the sound source at the position of the virtual speaker VL1 and the virtual speaker VR1.
  • the localization processing unit 12 includes a filter 121L, a filter 121R, a filter 122L, a filter 122R, an adder 123L, and an adder 123R.
  • the filter 121L adds the HRTF of the path from the virtual speaker VL1 to the left ear to the second audio signal related to the content.
  • the second audio signal is a signal of two or more channels
  • the left channel audio signal is input to the filter 121L.
  • the filter 121R adds the HRTF of the path from the virtual speaker VL1 to the right ear to the second audio signal related to the content.
  • the second audio signal is a signal of two or more channels
  • the right channel audio signal is input to the filter 121R.
  • the adder 123L synthesizes the output signals of the filter 121L and the filter 122L.
  • the adder 123R combines the output signals of the filter 121R and the filter 122R.
  • the output signal of the adder 123L is amplified by the amplification unit 13L and output from the output unit 14. Thereby, the L channel audio signal is input to the headphone unit 2L.
  • the output signal of the adder 123R is amplified by the amplifier 13R and output from the output unit 14. Thereby, the R channel audio signal is input to the headphone unit 2R.
  • the user can perceive as if the sound related to the content is being output from the sound source at the position of the virtual speaker VL1 and the virtual speaker VR1.
  • the localization processing unit 12 can perform a process of applying HRTF so that the sound image is localized at a plurality of sound source positions corresponding to the indirect sound, and can form a sound field in an arbitrary region.
  • the localization processing unit 12 can form a sound field in an area Zone2 in front of the user as shown in FIG.
  • the filter 121L adds the HRTF of the path from the plurality of sound source positions corresponding to the indirect sound to the left ear to the second audio signal related to the content.
  • the filter 121R adds the HRTF of the path from the plurality of sound source positions corresponding to the indirect sound to the right ear to the second audio signal related to the content.
  • Each indirect sound may be controlled in delay and gain by a delay unit and a gain control unit (not shown).
  • the user can output a sound from a speaker installed in front and recognize a sound image in the front zone 2.
  • the filter 122L adds the HRTF of a path from a plurality of distant predetermined positions to the left ear to the first audio signal related to the environmental sound.
  • the filter 122R adds the HRTF of a route from a plurality of distant predetermined positions to the right ear to the first audio signal related to the environmental sound.
  • the user recognizes the sound image of the environmental sound in the zone 1 surrounding the user. That is, the user recognizes the sound image as if it is wrapped around without clearly recognizing the sound source position of the environmental sound.
  • the first pattern is that the localization processing unit 12 localizes the first audio signal around the user and locates the second audio signal at a specific position closer to the listener than the position where the first audio signal is localized. This is the case.
  • the localization processing unit 12 localizes the first audio signal that is the environmental sound in Zone 1 shown in FIG. 1A and the second audio signal that is the content at the position of the virtual speaker VR1.
  • the user recognizes the environmental sound in the area around him and the content in the position of the virtual speaker VR1. As a result, the user can recognize that the content is surrounded by the environmental sound while flowing from the position of the virtual speaker VR1.
  • the localization processing unit 12 localizes the second audio signal of English conversation at the position of the virtual speaker VR1.
  • the user recognizes the sound image of English conversation at the position of the virtual speaker VR1.
  • the localization processing unit 12 localizes the noise of a hustle and bustle in a foreign market in Zone1.
  • the user recognizes the sound image of the hustle and bustle of the foreign market in the zone 1 around him.
  • the second pattern is a case where the localization processing unit 12 localizes the first audio signal to the user's own surroundings and localizes the second audio signal.
  • the localization processing unit 12 localizes the first audio signal, which is an environmental sound, to Zone 1 shown in FIG. 1A, and localizes the second audio signal, which is content.
  • the user recognizes the content in the head and the environmental sound around the user. As a result, the user can clearly listen to the content while being surrounded by environmental sounds.
  • the localization processing unit 12 localizes the second audio signal of classical music in the head.
  • the user recognizes the sound image of classical music in his head.
  • the localization processing unit 12 localizes the sound of the forest in Zone1.
  • the user recognizes the sound image of the sound of the forest in the area Zone1 around him.
  • the user can clearly listen to the classical music localized in the head while getting the feeling of being surrounded by the sound of the forest. Thereby, since the user can view classical music while obtaining a relaxing effect like being in a forest, a more efficient relaxing effect can be obtained.
  • the localization processing unit 12 localizes the first audio signal at a specific position around the user, and localizes the second audio signal at a position different from the first audio signal around the user. Is the case.
  • the localization processing unit 12 localizes the first audio signal that is the environmental sound at the position of the virtual speaker VR3 illustrated in FIG. 1B and the second audio signal that is the content at the position of the virtual speaker VR4.
  • the user recognizes the first audio signal at the position of the virtual speaker VR3 and the second audio signal at the position of the virtual speaker VR4.
  • the user recognizes the first audio signal and the second audio signal as sounds flowing from the side, so that the burden of feeling from the sound is small, and the user can listen to the sound naturally without stress.
  • the localization processing unit 12 localizes the first audio signal of the bonfire sound at the position of the virtual speaker VR3.
  • the user recognizes a sound image of a bonfire sound at the position of the virtual speaker VR3.
  • the localization processing unit 12 localizes the second audio signal of the music to the position of the virtual speaker VR4.
  • the user recognizes the sound image of the music at the position of the virtual speaker VR4.
  • the user can simultaneously recognize the fire sound heard from the left front direction and the content flowing from the right front direction. Thereby, since the user can feel the sound without stress, a feeling of relaxation is obtained. For example, when the user is in a crowded train, a sense of being in a different space can be obtained, so the relaxation effect is further enhanced.
  • FIG. 7 is a flowchart showing the operation of the signal processing apparatus 1.
  • the signal processing apparatus 1 selects data related to environmental sound and content (s11). For example, the user selects data using the user I / F 16.
  • the input I / F 11 reads out data related to the environmental sound and content designated by the user from the storage unit 15.
  • the localization processing unit 12 performs localization processing for each of the first audio signal related to the environmental sound and the second audio signal related to the content (s12, s13). Thereafter, the localization processing unit 12 synthesizes the audio signals after the localization processing (s14). The synthesized audio signal is output via the output unit 14 (s15).
  • the signal processing apparatus 1 localizes BGM such as environmental sounds around the listener (area Zone1), and localizes the sound of the content outside the surroundings (for example, the front area Zone2).
  • BGM such as environmental sounds around the listener
  • the BGM such as sound and the sound of the content are not mixed.
  • the environmental sound is recognized as a sound image that is wrapped around without clearly recognizing the position of the sound source, the listener does not feel unnatural. Therefore, according to the signal processing device 1, the user can naturally listen to the target content while listening to the environmental sound naturally.
  • FIG. 3 is a block diagram showing the configuration of the signal processing apparatus according to Application Example 1.
  • the signal processing device 1 includes a selection unit 17.
  • the selection unit 17 is a functional unit realized by a program 151 executed by the CPU of the signal processing device 1 or the like.
  • the selection unit 17 selects environmental sound and content. That is, in the above example, the environmental sound and the content are manually specified by the user, but in the application example 1, the environmental sound and the content are automatically selected.
  • the selection unit 17 receives the user's mood via the user I / F 16.
  • the selection unit 17 selects a combination of environmental sound and content suitable for the input user's mood.
  • FIG. 6A shows the relationship between the user's mood and the selected sound.
  • FIG. 6B is a diagram illustrating an example of a combination of environmental sound and content.
  • FIG. 8 is a flowchart showing the data selection operation.
  • the user selects the current mood on the chart (s21).
  • the user can select from a calm state to an excited state along the vertical axis, and can select from a dark mood to a bright mood along the horizontal axis.
  • Each position selected on the chart is associated with an environmental sound or content.
  • Information indicating the correspondence between the user's mood and the environmental sound is stored in the storage unit 15. For example, in the example of FIGS. 6A and 6B, when the user is in the excited state with the highest mood and in a bright mood, the environmental sound of the grassland is associated. Therefore, the selection unit 17 selects the grassland as the environmental sound.
  • the selection unit 17 selects content corresponding to the selected environmental sound.
  • Information indicating the association between the environmental sound and the content is also stored in the storage unit 15. For example, the environmental sound of grassland is associated with content in the rock genre. Therefore, the selection unit 17 selects the environmental sound of the grassland and the rock content (s22).
  • the selection unit 17 may select only environmental sounds or only contents.
  • the content is manually selected by the user.
  • the relationship between the user's mood and the environmental sound or the content may be associated in advance, but the selection unit 17 may select the corresponding content each time according to the user's mood.
  • the vertical axis corresponds to the BPM (Beats Per Minute) indicating the performance tempo and the amount of sound information (the number of instruments, etc.).
  • the horizontal axis corresponds to timbre (frequency characteristics) and sound.
  • the selection unit 17 selects environmental sound and content data corresponding to the input BPM corresponding to the user's mood, the amount of sound information, the timbre, and the sound.
  • an environmental sound with a high BPM and a large amount of sound information is selected.
  • Information regarding BPM, the amount of sound information, timbre, and sound is added to the data of each environmental sound.
  • the environmental sound data is MP3 data
  • these information is included in the ID3 tag.
  • the MIDI data includes information indicating the performance tempo and the number of musical instruments.
  • the selection unit 17 can select the corresponding content each time according to the input user's mood.
  • FIG. 4 is a block diagram showing the configuration of the signal processing apparatus according to Application Example 2.
  • the signal processing apparatus 1 includes a sensor 18.
  • the sensor 18 is a sensor that detects a user's state (state information), and is, for example, an acceleration sensor, a temperature sensor, or a camera.
  • the selection unit 17 accepts the user's mood according to the state of the user detected by the sensor 18 and selects environmental sound or content.
  • the selection unit 17 determines with the acceleration sensor that the user is running, and further estimates the user's mood according to the running pitch. When the traveling pitch is fast, it is estimated that the user is in an excited state. When the running pitch is slow, it is estimated that the user is in a calm state. For example, the selection unit 17 selects an environmental sound or content with a high BPM when in an excited state, and an environmental sound or content with a low BPM when in a calm state. In addition, for example, the selection unit 17 can select the environmental sound or content according to the user's state by previously storing the sensor value and the environmental sound or content in the storage unit 15 in association with each other. .
  • the sensor 18 may include a touch sensor that detects a touch operation when a display unit (not shown) is touched with a finger.
  • the control unit 19 outputs an instruction that prompts the user to perform a touch operation to the control unit of the smartphone.
  • the control unit of the smartphone displays a message “Please tap the touch panel multiple times” on the screen.
  • the control unit 19 calculates an average time of tap intervals detected by the sensor 18. An interval between user taps and a user state at that time are stored in the storage unit 15 as data associated in advance.
  • the control unit 19 estimates the state of the user from the tap interval detected by the sensor 18.
  • the user's tap interval is short when excited, and the user's tap interval is long when calm.
  • the control unit 19 can select the user state close to the user's tap interval and estimate the user state by comparing the result detected by the sensor 18 with data stored in the storage unit 15 in advance.
  • the selection unit 17 can select the environmental sound or the content without the user having to select the mood.
  • FIG. 5 is a block diagram showing a configuration of a signal processing apparatus according to Application Example 3.
  • FIG. 9 is a flowchart showing the operation of the signal processing apparatus 1 according to the application example 3.
  • the signal processing apparatus 1 includes a microphone 101.
  • the microphone 101 acquires ambient environmental sounds.
  • the environmental sound acquired by the microphone 101 is stored in the storage unit 15 and recorded (s31).
  • the selection unit 17 analyzes the recorded environmental sound (s32), and selects the corresponding content (s33). That is, the selection unit 17 estimates the type of environmental sound (for example, bonfire, rain sound, wave sound, forest sound, thunder sound, insect voice, animal voice, etc.), and uses the estimated environmental sound as the estimated environmental sound. Select the corresponding content.
  • the type of environmental sound for example, bonfire, rain sound, wave sound, forest sound, thunder sound, insect voice, animal voice, etc.
  • FIG. 11 is a block diagram showing a configuration of a signal processing device according to Application Example 4.
  • the acquisition of the environmental sound may be binaural recording.
  • a signal processing apparatus for binaural recording requires a plurality of microphones.
  • the signal processing device 1 according to the application example 4 includes microphones 101 and 102.
  • the microphones 101 and 102 acquire sound information including HRTFs in the spaces arranged at the time of recording.
  • the user can perceive that environmental sound is being output from the sound source at the position of the virtual speaker VR1. Therefore, the user can listen to the environmental sound in a more natural state.
  • the selection unit 17 can estimate whether or not the user is outside the room by analyzing an image or video acquired by a camera or the like. For example, the selection unit 17 analyzes the color of the image.
  • the storage unit 15 stores information in which the color of the image is associated with whether the image is indoors or outdoors.
  • the selection unit 17 inputs an image acquired by a smartphone or the like owned by the user to the selection unit 17 via the user interface (I / F) 16.
  • the selection unit 17 compares the acquired image with the information stored in the storage unit 15 and determines whether the image is indoors or outdoors.
  • the selection unit 17 selects an up-tempo song when it is determined that the place where the user is, for example, outside the room.
  • the selection unit 17 selects a calm song when it is determined that the place where the user is, for example, indoors.
  • the selection part 17 can select the environmental sound or content according to a user's place.
  • the selection unit 17 can further select elements that are sensed by sight, smell, and the like other than images related to content or environmental sounds, light, wind, smell, and the like.
  • the storage unit 15 stores information on light associated with content or environmental sound in advance.
  • the information on light is, for example, information such as light color, light emission time, blinking, or illuminance.
  • the signal processing device 1 or a smartphone or the like used at the same time includes a display unit (such as an LED, LCD, or OLED) that emits light.
  • the control unit 19 obtains light information associated with the selected content or environmental sound from the storage unit 15. Based on the information acquired by the storage unit 15, the control unit 19 inputs an instruction to emit light to the signal processing device 1 or a display unit such as a smartphone used simultaneously with the reproduction of the content or the environmental sound.
  • the display unit emits light associated with the content or the environmental sound. Thereby, the user can further experience the content or the environmental sound more realistically.
  • the environmental sound or content stored in the storage unit 15 is selected.
  • the information for identifying the data related to the selected environmental sound or content is used.
  • Data to be downloaded may be downloaded from an external server or the like.
  • the selection unit 17 may learn combinations of environmental sounds and contents selected by the user in the past, and perform selection based on the learning result.
  • the user simply selects either the environmental sound or the content manually, and the corresponding content or environmental sound is automatically selected.
  • the selection unit 17 can automatically select the environmental sound corresponding to the content selected by the user by learning the BPM and the environmental sound of the content selected by the user.
  • the selection unit 17 can automatically select the environmental sound corresponding to the genre of the content selected by the user by learning the genre of the content selected by the user and the environmental sound.
  • learning of the selection unit 17 will be described.
  • the content or environmental sound parameter and the parameter indicating the user state are associated with each other and accumulated in the storage unit 15.
  • FIGS. 12A and 12B show screens for the user to input an evaluation for the sound being played back.
  • the screen 121 or the screen 122 is displayed on a display unit (not shown) such as a smartphone owned by the user.
  • the user I / F 16 displays an option of “Yes” or “No” in response to the question “Is music A right for you?” .
  • the user I / F 16 displays an option “Yes” or “No” in response to the question “Does the environmental sound match the current mood?” .
  • the user I / F 16 displays the screen 121 and the screen 122 and accepts an evaluation from the user with respect to the sound being reproduced. That is, the user inputs to the sensor 18 via the user I / F 16 whether or not the content and the environmental sound are suitable for the mood at that time.
  • the control unit 19 performs various parameters such as BPM and sound number of the content being played back and parameters of the sensor 18 (for example, temperature, weather, heart rate, etc.). Are associated with each other.
  • the control unit 19 stores, in the storage unit 15, an evaluation from the user with respect to the associated voice being played.
  • control unit 19 instructs the selection unit 17 to select another content or environmental sound from the content or environmental sound being reproduced. Thereby, another content or environmental sound is reproduced, and a new screen 121 or screen 122 is presented to the user.
  • the control unit 19 repeats until the option received on the new screen 121 or 122 is “Yes”. Thereby, user evaluation data for the content or environmental sound associated with the parameters of the sensor 18 is accumulated in the storage unit 15.
  • the selection unit 17 selects content or environmental sound suitable for the current user state based on the data stored in the storage unit 15.
  • the parameter of the sensor 18 changes. For example, when the user moves from the outdoor to the indoor, the temperature detected by the temperature sensor may change.
  • the selection unit 17 determines the values such as the BPM and the number of sounds of the content associated with the currently detected parameter of the sensor 18 based on the data accumulated in the storage unit 15. Select near content or environmental sound. Thereby, the selection part 17 can select automatically the content or environmental sound suitable for the condition where the user was put. Therefore, the user can listen to the content or environmental sound corresponding to the psychological state.
  • the learning of the selection unit 17 may be automated with artificial intelligence.
  • data stored in the storage unit 15 is transmitted from a plurality of terminals to a server (not shown).
  • a neural network is formed in the server.
  • values detected by the sensor 18 such as heart rate, body temperature, ambient sound, temperature, and the like serve as an input layer.
  • two elements of excitement or calmness, lightness or darkness detected by the sensor 18 are intermediate layers of the neural network.
  • Content or environmental sound is the output layer.
  • the neural network outputs content or environmental sound corresponding to the value of the sensor 18 as a result.
  • the neural network can improve the precision of the output with respect to an input by deep learning by collecting data from a plurality of terminals.
  • the selection unit 17 obtains the corresponding content or environmental sound by transmitting the value detected by the sensor 18 to the server. Thereby, the selection part 17 can raise the precision which selects the content or environmental sound according to a user's mood.
  • the selection unit 17 can provide the user with content and environmental sound according to the location based on the user's psychological state, time, and the like, using the learning function. Moreover, the selection part 17 can use not only a user's psychological state and time but various elements, such as the weather of the day, temperature, physical condition, and the place, as a judgment element.
  • the temperature or physical condition can be obtained by the sensor 18. Information such as weather may be obtained through the Internet.
  • the selection part 17 can select more suitable for a user's mental state. For example, the feeling varies depending on whether the person is hot or cold at the same temperature. For this reason, even if the temperature is the same, the content and environmental sound that people feel comfortable listening to are different. Therefore, by accumulating and learning data of actual temperature and feeling by evaluation of the sensory temperature received by the sensor 18, the selection unit 17 can more appropriately match the content and environment suitable for the user's psychological state existing in the situation. Sound and can be provided.
  • the selection unit is learned by learning the data in which the psychological state at the time of the user is accumulated according to the city area, the grassland, the mountain, the sea, or a further finely divided place thereof. 17 can provide content and environmental sound more suitable for the psychological state of the user who is present on the spot.
  • the music A is played as content.
  • the option “Yes” is received multiple times on the screen 121.
  • data in which the specific time zone and music A are associated is stored in the storage unit 15.
  • the selection unit 17 automatically selects the music piece A or the music piece A and the music piece A and BPM, the number of sounds, etc. that are close in this time zone.
  • the selection unit 17 can select content according to the user's mood. Also, the user is freed from the hassle of selecting music during busy hours of commuting hours.
  • the selection unit 17 can automatically select environmental sounds using the same learning function. For example, a case will be described in which the music A is played as the content and the stream of Ogawa is played as the environmental sound.
  • the selection unit 17 stores data in which the time and the environmental sound are associated with each other by the learning function as described above. Based on this data, the selection unit 17 may automatically select the music piece A and the stream of Ogawa during the morning commute. In addition, the selection unit 17 may automatically select a song A or a stream of Ogawa that has a similar value such as BPM and number of sounds.
  • FIG. 13 shows the time and the degree of stress of the user.
  • there are various means of transportation such as walking, buses and trains.
  • the user's movement in the morning commuting time is in the order of walking from the house, train, walking, and work.
  • the stress of the user who is moving on foot is relatively small, and the stress of the user who is moving on a crowded train is relatively large.
  • the psychological state of the user changes depending on whether it is near the house or near the work place even on the same walk.
  • the control unit 19 displays a screen 121 and a screen 122 for the user to input an evaluation for the option on the smartphone owned by the user.
  • the control unit 19 stores the selection received on the screen 121 and the screen 122 in the storage unit 15 as to whether the content and the environmental sound are suitable for the mood at that time.
  • the user's psychological state is a state in which stress is low, and the heart rate value detected by the sensor 18 is in a steady state.
  • the psychological state of the user changes, stress increases, and the value of the heart rate detected by the sensor 18 increases.
  • the selection unit 17 can select another content, for example, the music B when the value of the heart rate exceeds a predetermined threshold.
  • the selection unit 17 changes the environmental sound in accordance with the change of content. For example, the selection unit 17 changes the environmental sound to a wider space sound. Thereby, a user's stress is reduced.
  • control unit 19 may store the event associated with the date and time data, the content related to the event, and the environmental sound in the storage unit 15.
  • the control unit 19 reads the date and time data stored in the storage unit 15 to instruct the selection unit 17 to select content and environmental sound related to the event associated with the specific date and time. Thereby, the content and environmental sound relevant to the event can be accurately provided to the user.
  • the selection unit 17 selects content related to English as the content to be selected during the morning commuting time on Tuesday. As a result, the user can be reminded of the lesson of the day and learning motivation can be improved. Furthermore, since the selection part 17 can select the content and environmental sound which suited the user's psychological state, it can improve learning motivation more.
  • the localization processing unit 12 may change the position of localization for each of the first audio signal related to the environmental sound and the second audio signal related to the content by the learning function.
  • the control unit 19 receives information from the sensor 18 indicating that the user's psychological state is bright, the control unit 19 instructs the localization processing unit 12 to localize the content.
  • the control unit 19 receives information with a dark psychological state of the user from the sensor 18, the control unit 19 instructs the localization processing unit 12 to localize the content forward or far away from the user. Thereby, the localization processing unit 12 performs localization of content according to the psychological state of the user.
  • the selection unit 17 may acquire combination information indicating a combination of environmental sound and content from another user. In this case, the user can enjoy a combination of environmental sound and content recommended by other users. For the combination of environmental sound and content, the selection unit 17 can provide combination information more suitable for each user by the learning function of the selection unit 17 and a server (not shown). For example, music C and environmental sound D are selected as specific contents when the user is in a certain environment, for example, a cafe.
  • the signal processing device 1 transmits the selected data to the server and accumulates it. At the same time, the signal processing device 1 also transmits user-specific data such as age, personality, or gender related to this user and stores it in the server.
  • the signal processing device 1 transmits data unique to the user 2 to the server.
  • the server selects content or environmental sound with conditions close to the user 2's unique data.
  • the server selects the music piece C and the environmental sound D as contents and transmits them to the signal processing device 1 used by the user 2.
  • the user 2 can provide more suitable combination information for each user from the information stored in the server.
  • the environmental sound and the sound related to the content are output to the headphones, but may be output to, for example, a speaker.
  • crosstalk cancellation processing is performed.
  • the environmental sound is output from all speakers installed around the listening position, and the content is output from the speakers installed in the front. Also in this case, the environmental sound is localized around the listener (corresponding to the first localization process), and the content is localized at a position different from the first localization process (corresponding to the second localization process).
  • VL1, VR1 ... virtual speaker 1 signal processing devices 2L, 2R ... headphone unit 11 ... input unit 12 ... localization processing unit 13L, 13R ... amplification unit 14 ... output unit 15 ... storage unit 17 ... selection unit 18 ... sensor 101 ... microphone 121L, 121R, 122L, 122R ... filters 123L, 123R ... adders

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

環境音等の(BGM)を自然に聴きながらも目的のコンテンツを自然に聴くことができる信号処理装置、信号処理方法およびプログラムを提供する。 信号処理装置は、入力部と、定位処理部と、を備えている。入力部は、環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、を入力する。定位処理部は、前記第1オーディオ信号を聴取者の周囲に定位させる第1定位処理と、前記第2オーディオ信号を前記第1定位処理とは異なる位置に定位させる第2定位処理と、を行なう。

Description

信号処理装置、信号処理方法およびプログラム
 この発明に係る一実施形態は、オーディオ信号に定位付加処理を行なう信号処理装置、信号処理方法およびプログラムに関するものである。
 従来、オーディオ信号に定位付加処理を行なう信号処理装置として、例えば特許文献1に記載の密閉型ヘッドフォン用信号処理装置がある。
 特許文献1に記載の密閉型ヘッドフォン用信号処理装置は、コンテンツ音と周囲の音とを異なる位置に定位させる処理を行うため、これらの音が重ならずに、コンテンツ音も周囲の音も明瞭に聴くことができる。
特開2014-174430号公報
 近年、ユーザは、音楽等の目的のコンテンツだけではなく、環境音等をBGMとして加えて聴くことがある。
 しかし、目的のコンテンツと環境音等のBGMとを単純にミックスした場合、音が入り混じるため、聞きづらい音になる。
 また、特許文献1の装置では、両方のコンテンツを分離することができるが、環境音が所定の位置に定位するため、不自然になる可能性がある。
 そこで、本発明に係る一実施形態は、環境音等のBGMを自然に聴きながらも目的のコンテンツを自然に聴くことができる信号処理装置、信号処理方法およびプログラムを提供することを目的とする。
 この発明に係る一実施形態の信号処理装置は、入力部と、定位処理部と、を備えている。入力部は、環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、を入力する。定位処理部は、前記第1オーディオ信号を聴取者の周囲に定位させる第1定位処理と、前記第2オーディオ信号を前記第1定位処理とは異なる位置に定位させる第2定位処理と、を行なう。
 本発明に係る一実施形態の信号処理装置は、環境音等のBGMを自然に聴きながらも目的のコンテンツを自然に聴くことができる。
図1(A)および図1(B)は、オーディオ信号処理システムを示す概略図である。 信号処理装置の構成を示すブロック図である。 応用例1に係る信号処理装置の構成を示すブロック図である。 応用例2に係る信号処理装置の構成を示すブロック図である。 応用例3に係る信号処理装置の構成を示すブロック図である。 図6(A)は、ユーザの気分を入力するためのチャートを示す図である。図6(B)は、環境音とコンテンツの組み合わせの一例を示す図である。 信号処理装置の動作を示すフローチャートである。 データ選択の動作を示すフローチャートである。 データ選択の動作を示すフローチャートである。 ユーザの気分と選出される音の関係を示す図である。 応用例4に係る信号処理装置の構成を示すブロック図である。 図12(A)及び図12(B)は、ユーザが選択肢に対する評価を入力する画面を示したものである。 時間とユーザのストレス度合いを示したものである。
 図1(A)および図1(B)は、オーディオ信号処理システムを示す概略図(上面図)である。図2は、信号処理装置の構成を示すブロック図である。
 図1(A)に示すように、オーディオ信号処理システムは、信号処理装置1と、ヘッドフォンユニット2Lと、ヘッドフォンユニット2Rと、を備えている。
 信号処理装置1は、入力インタフェース(I/F)11、定位処理部12、増幅部13L、増幅部13R、出力インタフェース(I/F)14、記憶部15、ユーザインタフェース(I/F)16、および制御部19を備えている。信号処理装置1は、ヘッドフォンの専用ユニット(ポータブルアンプ)であってもよいが、一般的な情報処理装置(例えばスマートフォン)であってもよい。信号処理装置1における各構成は、ハードウェアであってもよいが、制御部19の機能により構成されてもよい。制御部19は、IC、CPU、MPU、LSI、またはマイクロコントローラ、等と称されるハードウェアである。制御部19は、記憶部15に記憶されているプログラム151を実行することにより、各構成をソフトウェアで実現することが可能である。記憶部15は、プログラム151を記憶するメモリ(記憶媒体)である。記憶部15は、HDD、SSD、フラッシュメモリ、またはEEPROM、等と称されるハードウェアである。定位処理部12は、例えばDSP(Digital Signal Processor)からなる。定位処理部12は、入力したオーディオ信号に種々の信号処理を施す。なお、定位処理部12は、制御部19が実行するプログラム151により実現することも可能である。
 入力I/F11は、オーディオプレーヤ等の他装置、または記憶部15から、オーディオ信号を入力する。入力されるオーディオ信号は、環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、が含まれる。環境音は、メロディおよびリズムを含まない自然界の音に対応する。環境音は、例えば、たき火、雨音、波の音、森林の音、雷の音、虫の声、または動物の声等である。また、街の喧騒音、乗り物の音、またはカフェ等の雑踏音等も、環境音に含まれる。コンテンツは、一般的なメロディまたはリズムを含む音楽である。また、朗読などの発話を含む音声も、コンテンツに含まれる。環境音と、コンテンツの種類は、ユーザI/F16を介してユーザが選択する。
 これら環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、は、定位処理部12に入力される。第1オーディオ信号および第2オーディオ信号は、それぞれモノラル信号であってもよいし、ステレオ信号であってもよい。また、第1オーディオ信号および第2オーディオ信号は、3チャンネル以上のマルチチャンネルオーディオ信号であってもよい。
 定位処理部12は、環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、のそれぞれについて、定位処理を行なう。定位処理は、所定の聴取者の頭部形状に対応する頭部伝達関数(以下、HRTFと言う。)を用いる。なお、左右のミキシングバランスによっても、定位処理を実現することが可能である。
 HRTFは、ある位置に設置した仮想スピーカからそれぞれ左右の耳に至る音の大きさ、到達時間、および周波数特性の差を表現したインパルス応答である。定位処理部12は、例えば、図1(A)に示すように、右前方に位置する仮想スピーカVR1に定位させるHRTFおよび左前方に位置する仮想スピーカVL1に定位させるHRTFを、第2オーディオ信号に付与する。これにより、ユーザは、仮想スピーカVL1および仮想スピーカVR1の位置における音源から、コンテンツに係る音が出力されている様に知覚することができる。
 図2に示すように、定位処理部12は、フィルタ121L、フィルタ121R、フィルタ122L、フィルタ122R、加算器123L、および加算器123Rを備えている。
 フィルタ121Lは、仮想スピーカVL1から左耳に至る経路のHRTFを、コンテンツに係る第2オーディオ信号に付与する。第2オーディオ信号が2チャンネル以上の信号である場合には、フィルタ121Lには、左側チャンネルのオーディオ信号が入力される。
 フィルタ121Rは、仮想スピーカVL1から右耳に至る経路のHRTFを、コンテンツに係る第2オーディオ信号に付与する。第2オーディオ信号が2チャンネル以上の信号である場合には、フィルタ121Rには、右側チャンネルのオーディオ信号が入力される。
 加算器123Lは、フィルタ121Lおよびフィルタ122Lの出力信号を合成する。加算器123Rは、フィルタ121Rおよびフィルタ122Rの出力信号を合成する。
 加算器123Lの出力信号は、増幅部13Lで増幅され、出力部14から出力される。これにより、ヘッドフォンユニット2Lには、Lチャンネルのオーディオ信号が入力される。加算器123Rの出力信号は、増幅部13Rで増幅され、出力部14から出力される。これにより、ヘッドフォンユニット2Rには、Rチャンネルのオーディオ信号が入力される。
 よって、ユーザは、仮想スピーカVL1および仮想スピーカVR1の位置における音源から、コンテンツに係る音が出力されている様に知覚することができる。
 ヘッドフォンで音を聞く場合には、聴取環境における間接音(壁または床等からの反射音および残響音)が存在しない。そのため、ユーザは、仮想スピーカVL1および仮想スピーカVR1の位置における音源からの直接音だけが聞こえる状態となる。そこで、定位処理部12は、間接音に対応する複数の音源位置に音像が定位するように、HRTFを付与する処理を行ない、任意の領域に音場を形成させることもできる。例えば、定位処理部12は、図1(A)に示すように、ユーザの前方の領域Zone2に音場を形成させることができる。この場合、フィルタ121Lは、間接音に対応する複数の音源位置から左耳に至る経路のHRTFを、コンテンツに係る第2オーディオ信号に付与する。また、フィルタ121Rは、間接音に対応する複数の音源位置から右耳に至る経路のHRTFを、コンテンツに係る第2オーディオ信号に付与する。また、各間接音は、不図示の遅延器およびゲイン制御部で、遅延およびゲインの制御が行なわれてもよい。
 以上の処理により、ユーザは、前方設置されたスピーカから音が出力され、前方の領域Zone2に音像を認識することができる。
 次に、フィルタ122Lは、遠方の複数の所定位置から左耳に至る経路のHRTFを、環境音に係る第1オーディオ信号に付与する。フィルタ122Rは、遠方の複数の所定位置から右耳に至る経路のHRTFを、環境音に係る第1オーディオ信号に付与する。
 これにより、ユーザは、自身の周囲の領域Zone1に環境音の音像を認識する。すなわち、ユーザは、環境音の音源位置を明確に認識することなく、周囲から包まれる様な音像として認識することになる。
 以下、定位処理部12における第1オーディオ信号及び第2オーディオ信号の定位処理の代表的な3つのパターンについて説明する。
 一つ目のパターンは、定位処理部12が第1オーディオ信号をユーザ自身の周囲へ定位させ、第2オーディオ信号を第1オーディオ信号の定位させた位置より前記聴取者から近い特定の位置に定位させる場合である。例えば、定位処理部12は、図1(A)に示すZone1に環境音である第1オーディオ信号を、仮想スピーカVR1の位置にコンテンツである第2オーディオ信号を定位させる。ユーザは、自身の周囲の領域に環境音を、仮想スピーカVR1の位置にコンテンツを認識する。これにより、ユーザは、コンテンツが仮想スピーカVR1の位置から流れつつ、環境音に囲まれているように認識することができる。
 例えば、コンテンツとして英会話が選択され、環境音としてその英会話が行われている場所、例えば外国の市場の雑踏の音が選択されている場合を想定する。定位処理部12は、英会話の第2オーディオ信号を仮想スピーカVR1の位置に定位させる。ユーザは、仮想スピーカVR1の位置に英会話の音像を認識する。定位処理部12は、外国の市場の雑踏の音をZone1に定位させる。ユーザは、自身の周囲の領域Zone1に外国の市場の雑踏の音の音像を認識する。これにより、ユーザはあたかも外国の市場でユーザの前方左前にいる人物と会話しているような臨場感を得ることができるため、より効率的な学習効果が得られる。
 二つ目のパターンは、定位処理部12が第1オーディオ信号をユーザ自身の周囲へ定位させ、第2オーディオ信号を頭内定位させる場合である。例えば、定位処理部12は、環境音である第1オーディオ信号を図1(A)に示すZone1に定位させ、コンテンツである第2オーディオ信号を頭内定位させる。ユーザは、頭内にコンテンツを、ユーザ自身の周囲に環境音を認識する。これにより、ユーザは、環境音に包まれつつも、コンテンツを明確に聴くことができる。
 例えば、コンテンツとしてクラシック音楽が選択され、環境音として森林の音が選択されている場合を想定する。定位処理部12は、クラシック音楽の第2オーディオ信号を頭内定位させる。ユーザは、頭内にクラシック音楽の音像を認識する。定位処理部12は、森林の音をZone1に定位させる。ユーザは、自身の周囲の領域Zone1に森林の音の音像を認識する。ユーザは森林の音で包まれているような感覚を得ながらも、頭内定位されたクラシック音楽を明確に聞き取ることができる。これにより、ユーザは森林にいるようなリラックス効果を得ながらクラシック音楽を視聴できるため、より効率的なリラックス効果が得られる。
 三つ目のパターンは、定位処理部12が第1オーディオ信号をユーザ自身の周囲における特定の位置に定位させ、第2オーディオ信号をユーザ自身の周囲における第1オーディオ信号とは異なる位置に定位させる場合である。例えば、定位処理部12は、図1(B)に示す仮想スピーカVR3の位置に環境音である第1オーディオ信号を、仮想スピーカVR4の位置にコンテンツである第2オーディオ信号を定位させる。ユーザは、仮想スピーカVR3の位置に第1オーディオ信号を、仮想スピーカVR4の位置に第2オーディオ信号を認識する。これにより、ユーザは、第1オーディオ信号及び第2オーディオ信号を傍から流れてくる音として認識することとなるため、音から感じる負担が少なく、ユーザはストレスなく自然に音を聴くことができる。
 例えば、環境音として焚火の音が選択され、コンテンツとして楽曲が選択されている場合を想定する。定位処理部12は、焚火の音の第1オーディオ信号を仮想スピーカVR3の位置に定位させる。ユーザは、仮想スピーカVR3の位置に焚火の音の音像を認識する。定位処理部12は、楽曲の第2オーディオ信号を仮想スピーカVR4の位置に定位させる。ユーザは、仮想スピーカVR4の位置に楽曲の音像を認識する。ユーザは前方左側の方向から聞こえてくる焚火の音と、前方右側の方向から流れてくるコンテンツを同時に認識することができる。これにより、ユーザは、ストレスがなく音を感じることができるため、リラックス感が得られる。例えば、ユーザが混雑した電車の中にいる場合に、別の異空間にいる感覚を得られるため、リラックス効果がより高まる。
 図7は、信号処理装置1の動作を示すフローチャートである。まず、信号処理装置1は、環境音およびコンテンツに係るデータを選択する(s11)。データの選択は、例えばユーザがユーザI/F16を用いて指定する。入力I/F11は、記憶部15から、ユーザが指定した環境音およびコンテンツに係るデータを読み出す。
 次に、定位処理部12は、環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、のそれぞれについて、定位処理を行なう(s12,s13)。その後、定位処理部12は、定位処理後の各オーディオ信号を合成する(s14)。合成後のオーディオ信号は、出力部14を介して出力される(s15)。
 以上の様にして、信号処理装置1は、環境音等のBGMを聴取者の周囲(領域Zone1)に定位させ、コンテンツの音を周囲以外(例えば前方の領域Zone2)に定位させることで、環境音等のBGMとコンテンツの音が入り混じることがない。また、環境音は、音源位置を明確に認識することなく、周囲から包まれる様な音像として認識することになるため、聴取者が不自然に感じることもない。したがって、信号処理装置1によれば、ユーザは、環境音を自然に聴きながらも目的のコンテンツを自然に聴くことができる。
 次に、図3は、応用例1に係る信号処理装置の構成を示すブロック図である。この例では、信号処理装置1は、選出部17を備えている。選出部17は、信号処理装置1のCPU等が実行するプログラム151により実現される機能部である。
 選出部17は、環境音とコンテンツとを選出する。すなわち、上記の例では、環境音およびコンテンツは、ユーザが手動で指定していたが、応用例1においては、環境音およびコンテンツは、自動選択される。
 応用例1に係る選出部17は、ユーザI/F16を介してユーザの気分が入力される。選出部17は、入力されたユーザの気分に適した環境音およびコンテンツの組み合わせを選出する。
 図6(A)は、ユーザの気分と選択される音の関係を示す図である。図6(B)は、環境音とコンテンツの組み合わせの一例を示す図である。図8は、データ選出の動作を示すフローチャートである。
 図6(A)に示すように、まず、ユーザは、現在の自身の気分を、チャート上で選択する(s21)。この例では、ユーザは、縦軸に沿って、穏やかな状態から興奮状態まで選択することができ、横軸に沿って、暗い気分から明るい気分まで選択することができる。
 チャート上で選択した各位置には、環境音またはコンテンツが関連付けられている。ユーザの気分と環境音の対応付けを示す情報は、記憶部15に記憶されている。例えば、図6(A)および図6(B)の例では、最もユーザの気分が高い興奮状態であり、明るい気分である場合には、草原の環境音が対応付けられている。したがって、選出部17は、環境音として草原を選出する。
 さらに、選出部17は、選出した環境音に対応するコンテンツを選出する。環境音とコンテンツの対応付けを示す情報も、記憶部15に記憶されている。例えば、草原の環境音には、ロックのジャンルのコンテンツが対応付けられている。したがって、選出部17は、草原の環境音と、ロックのコンテンツを選出する(s22)。
 ただし、環境音およびコンテンツの選出の両方を行なうことは、必須ではない。例えば、選出部17は、環境音だけを選出してもよいし、コンテンツだけを選出してもよい。環境音だけを選出する場合には、コンテンツは、ユーザが手動で選択する。
 また、ユーザの気分と環境音またはコンテンツとの関係は、予め対応付けられていてもよいが、選出部17が、ユーザの気分に応じて、その都度、対応するコンテンツを選出してもよい。例えば、図10に示すように、ユーザが選択するチャート上において、縦軸は、演奏テンポを示すBPM(Beats Per Minute)および音の情報量(楽器の数の多さ等)に対応する。横軸は、音色(周波数特性)および響きに対応している。選出部17は、入力されたユーザの気分に対応するBPM、音の情報量、音色、および響きに対応する環境音およびコンテンツのデータを選出する。
 例えば、ユーザの気分が高い興奮状態であり、明るい気分である場合には、BPMが高く、音の情報量が多い環境音を選出する。BPM、音の情報量、音色、および響きに関する情報は、各環境音のデータに付加されている。例えば環境音のデータがMP3データである場合には、ID3タグにこれら情報が含まれている。また、例えば、環境音およびコンテンツのデータがMIDIデータである場合には、当該MIDIデータに演奏テンポおよび楽器の数を示す情報が含まれている。
 したがって、選出部17は、入力されたユーザの気分に応じて、その都度、対応するコンテンツを選出することができる。
 次に、図4は、応用例2に係る信号処理装置の構成を示すブロック図である。この例では、信号処理装置1は、センサ18を備えている。センサ18は、ユーザの状態(状態情報)を検出するセンサであり、例えば加速度センサ、温度センサ、またはカメラ等である。この例では、選出部17は、センサ18で検出されたユーザの状態に応じて、ユーザの気分を受け付け、環境音またはコンテンツを選出する。
 例えば、選出部17は、加速度センサで、ユーザが走っている状態であると判定し、さらに走行ピッチに応じて、ユーザの気分を推定する。走行ピッチが速い場合には、ユーザが興奮状態であると推定する。走行ピッチが遅い場合には、ユーザが穏やかな状態であると推定する。例えば、選出部17は、興奮状態であるときは、BPMが高い環境音またはコンテンツを、穏やかな状態であるときはBPMが低い環境音またはコンテンツを選出する。また、例えば、選出部17は、予めセンサの値と環境音またはコンテンツとを対応付けて記憶部15に記憶しておくことで、ユーザの状態に応じた環境音またはコンテンツを選択することができる。
 また、センサ18は、表示部(不図示)を指でタッチしたときのタッチ操作を検知するタッチセンサを備えていてもよい。制御部19は、スマートフォンの制御部にユーザにタッチ操作を促す指示を出力する。スマートフォンの制御部は、「タッチパネルを複数回タップして下さい」という表示を画面に表示させる。制御部19は、センサ18で検知したタップの間隔の平均時間を算出する。ユーザのタップの間隔とその時のユーザの状態とを予め対応付けたデータとして記憶部15に記憶しておく。
 制御部19は、センサ18で検知したタップの間隔から、ユーザの状態を推定する。興奮状態であるときはユーザのタップの間隔が短く、穏やかな状態であるときはユーザのタップの間隔が長い。制御部19は、センサ18で検知した結果を記憶部15に予め記憶されたデータに照らし合わせて、ユーザのタップの間隔に近いユーザの状態を選択し、ユーザの状態を推定することができる。
 これにより、ユーザは、気分の選択を行なう必要なく、選出部17が環境音またはコンテンツを選出することができる。
 次に、図5は、応用例3に係る信号処理装置の構成を示すブロック図である。図9は、応用例3に係る信号処理装置1の動作を示すフローチャートである。この例では、信号処理装置1は、マイク101を備えている。マイク101は、周囲の環境音を取得する。マイク101で取得された環境音は、記憶部15に記憶され、録音される(s31)。
 そして、選出部17は、録音された環境音の解析を行ない(s32)、対応するコンテンツを選出する(s33)。すなわち、選出部17は、環境音の種類(例えば、たき火、雨音、波の音、森林の音、雷の音、虫の声、または動物の声等)を推定し、推定した環境音に対応するコンテンツを選択する。
 この場合、現在のユーザの周囲の環境に応じた適切なコンテンツが選出される。また、録音された環境音が、周囲遠方に定位するため、より自然な状態で、環境音を聴きながらも目的のコンテンツを聴くことができる。
 図11は、応用例4に係る信号処理装置の構成を示すブロック図である。環境音の取得は、バイノーラル録音であってもよい。バイノーラル録音をする場合の信号処理装置は複数のマイクが必要である。例えば、図11に示すように、応用例4に係る信号処理装置1はマイク101及び102を備える。マイク101及び102は、それぞれの録音時に配置された空間においてHRTFが含まれた音情報を取得する。ユーザは、例えば、仮想スピーカVR1の位置における音源から、環境音が出力されている様に知覚することができる。したがって、ユーザはより自然な状態で環境音を聴くことが可能となる。
 また、選出部17は、カメラ等で取得された画像や映像を解析して、ユーザが室外にいるかいないかを推定することができる。例えば、選出部17は、画像の色を解析する。記憶部15は、画像の色と室内又は室外であるかとを対応付けた情報を記憶する。選出部17は、ユーザが所有するスマートフォンなどで取得した画像をユーザインタフェース(I/F)16を介して選出部17に入力する。選出部17は、取得された画像と記憶部15に記憶された情報とを照らし合わせて、室内又は室外であるかを判断する。選出部17は、ユーザいる場所が例えば、室外と判断するとアップテンポな曲を選出する。これに対して、選出部17は、ユーザいる場所が例えば、室内と判断すると落ち着いた曲を選出する。これにより、選出部17は、ユーザいる場所に応じた環境音またはコンテンツを選択することができる。
 なお、選出部17は、コンテンツまたは環境音に関連する映像、光、風、匂いなどの音以外の視覚や嗅覚等で感じる要素をさらに選出することも可能である。例えば、環境音に関連する要素が光である場合について説明する。記憶部15は、予めコンテンツまたは環境音に対応付けられた光に関する情報を記憶する。光に関する情報とは、例えば、光の色や発光時間、点滅の有無、又は照度などの情報である。信号処理装置1又はこれと同時に使用されるスマートフォン等は、光を発する表示部(LED、LCD、又はOLED等)を備える。
 選出部17がコンテンツまたは環境音を選出すると、制御部19は、選出されたコンテンツまたは環境音に対応付けられた光の情報を記憶部15から取得する。記憶部15で取得された情報を基に、制御部19は、信号処理装置1又はこれと同時に使用されるスマートフォン等の表示部に、コンテンツまたは環境音の再生とともに光を発する指示を入力する。表示部は、コンテンツまたは環境音に対応付けられた光を発する。これにより、ユーザはさらにコンテンツまたは環境音をリアルに体感することができる。
 なお、応用例においては、いずれも記憶部15に記憶されている環境音またはコンテンツを選出する例を示したが、例えば、選出した環境音またはコンテンツに係るデータを識別する情報を用いて、対応するデータを外部のサーバ等からダウンロードしてもよい。
 また、選出部17は、過去にユーザが選択した環境音およびコンテンツの組み合わせを学習し、学習結果に基づいて選出を行なってもよい。この場合、ユーザは、環境音またはコンテンツのいずれかを手動で選択するだけで、対応するコンテンツまたは環境音が自動で選出される。例えば、選出部17は、ユーザが選択したコンテンツのBPMと環境音とを学習することで、ユーザが選択したコンテンツに応じた環境音を自動で選出することができる。また、選出部17は、ユーザが選択したコンテンツのジャンルと環境音とを学習することで、ユーザが選択したコンテンツのジャンルに応じた環境音を自動で選出することができる。以下、選出部17の学習について説明する。
 選出部17の学習においては、例えば、コンテンツ又は環境音のパラメータとユーザの状態を示すパラメータとを関連付けて記憶部15に蓄積させる。
 図12(A)及び図12(B)は、ユーザが再生中の音声に対する評価を入力する画面を示したものである。選出部17の学習においては、図12(A)及び図12(B)に示すように、ユーザが所有するスマートフォンなどの表示部(不図示)に、画面121又は画面122が表示される。例えば、図12(A)に示すように、「楽曲Aは今の気分に合っていますか?」という質問に対して、ユーザI/F16は、「はい」又は「いいえ」の選択肢を表示する。また、図12(B)に示すように、「環境音は今の気分に合っていますか?」という質問に対して、ユーザI/F16は、「はい」又は「いいえ」の選択肢を表示する。
 ユーザI/F16は、画面121及び画面122を表示させて、再生中の音声に対するユーザからの評価を受け付ける。すなわち、コンテンツ及び環境音がその時の気分に適しているか否かをユーザは、ユーザI/F16を介してセンサ18に入力する。画面121又は画面122が受け付けた選択肢が「はい」の場合、制御部19は再生中のコンテンツのBPM、音数等の各種パラメータと、センサ18のパラメータ(例えば、温度、天気、心拍数等)と、を対応付ける。制御部19は、対応付けた再生中の音声に対するユーザからの評価を、記憶部15に記憶する。
 受け付けた選択肢が「いいえ」の場合、制御部19は再生中のコンテンツ又は環境音から別のコンテンツ又は環境音を選出部17へ選択させる命令を行う。これにより、別のコンテンツ又は環境音が再生され、ユーザに新たな画面121又は画面122が提示される。制御部19は、新たな画面121又は画面122で受け付けた選択肢が「はい」になるまで繰り返す。これにより、センサ18のパラメータと対応付けられたコンテンツ又は環境音に対するユーザの評価のデータが、記憶部15に蓄積される。
 選出部17は、記憶部15に蓄積されたデータを基に、現在のユーザの状態に適したコンテンツ又は環境音を選択する。ユーザの置かれた状況等に変化が生じると、センサ18のパラメータには変化が生じる。例えば、ユーザが室外から室内へ移動した場合、温度センサにおいて検出される温度に変化が生じる場合が挙げられる。
 ユーザの状態に変化が生じると、選出部17は、記憶部15に蓄積されたデータを基に、現在検出されているセンサ18のパラメータに対応付けられたコンテンツのBPM、音数等の値が近いコンテンツ又は環境音を選択する。これにより、選出部17は、ユーザの置かれた状況に適したコンテンツ又は環境音を自動で選択することができる。したがって、ユーザは心理状態に対応したコンテンツ又は環境音を聴くことができる。
 なお、選出部17の学習は、人工知能で自動化してもよい。例えば、記憶部15に蓄積されたデータを複数端末から不図示のサーバへ送信する。サーバでは例えばニューラルネットワークが形成されている。ニューラルネットワークにおいては、心拍数、体温、周囲の音、気温、等のセンサ18において検出される値等が入力層となる。さらに、センサ18において検出される興奮又は落ち着き、明又は暗の2つの要素がニューラルネットワークの中間層となる。コンテンツ又は環境音が出力層となる。ニューラルネットワークは、センサ18の値に応じたコンテンツ又は環境音を結果として出力する。そして、ニューラルネットワークは、複数の端末からデータを集めることにより、ディープラーニングで入力に対する出力の精度を高めることができる。選出部17は、サーバにセンサ18において検出される値を送信することにより、対応するコンテンツ又は環境音を得る。これにより、選出部17は、ユーザの気分に応じたコンテンツ又は環境音を選出する精度を上げることができる。
 このように、選出部17は、学習機能により、ユーザの心理状態、時間等を基にユーザにその場に応じたコンテンツと環境音とを提供することができる。また、選出部17は、ユーザの心理状態、時間だけでなく、その日の天気、温度、体調、その場所等の様々な要素を判断要素とすることができる。ここで、温度又は体調などは、センサ18で取得されたものを利用可能である。また、天気等の情報はインターネットを通じて入手してもよい。
 例えば、温度又は体調などに関しては、センサ18で取得されたものが使用できる。さらに、これに対してユーザの体感温度に関する評価をセンサ18で受け付けて、補正してもよい。これにより、センサ18で取得される情報の精度が高まるため、選出部17はユーザの心理状態により適した選出をすることができる。例えば、同一の温度においても暑がりの人と寒がりの人によって、感じ方は変わる。このため、同一の温度であっても人により聴いて心地よく感じるコンテンツや環境音は異なる。したがって、センサ18で受け付けた体感温度の評価により、実際の温度と感じ方のデータを蓄積し学習することによって、選出部17は、よりその状況に存在するユーザの心理状態に適したコンテンツと環境音とを提供することができる。
 また、場所に関しては、市街地、草原、山、海、又はこれらのさらに細かく細分された場所に応じて、その場にユーザがいた時の心理状態が蓄積されたデータを学習することによって、選出部17は、よりその場に存在するユーザの心理状態に適したコンテンツと環境音とを提供することができる。
 例えば、コンテンツとして楽曲Aが再生されている場合について説明する。ここで、朝の通勤時間帯に楽曲Aが再生されているときに、画面121において選択肢「はい」を複数回受け付ける。これにより、特定の時間帯と楽曲Aとが関連付けられたデータが記憶部15に記憶される。このデータを基に選出部17は、この時間帯において楽曲A又は、楽曲AとBPM、音数等の値が近い楽曲を自動で選出する。このような学習機能により、選出部17は、ユーザの気分に応じたコンテンツを選出することができる。また、ユーザは通勤時間帯の忙しい時間帯に楽曲を選択する煩わしさから解放される。
 同様に、選出部17は、環境音についても同様の学習機能により自動で選出することができる。例えば、コンテンツとして楽曲Aが、環境音として小川のせせらぎが再生されている場合について説明する。選出部17は、上述のような学習機能により、時間と環境音とが関連付けられたデータが記憶部15に記憶される。このデータを基に選出部17は、朝の通勤時間帯に楽曲Aと小川のせせらぎとを自動で選出させてもよい。また、選出部17は、楽曲A又は小川のせせらぎとBPM、音数等の値が近いものを自動で選出させてもよい。
 図13は、時間とユーザのストレス度合いを示したものである。通勤においては、例えば、徒歩、バス、電車等、様々な交通手段がある。図13に示す例は、ユーザの朝の通勤時間帯における移動が、家から徒歩、電車、徒歩、職場の順である場合を想定する。徒歩で移動している時間帯のユーザのストレスは比較的少なく、混雑した電車に乗って移動している時間帯のユーザのストレスは比較的大きい。また、同じ徒歩においても、家の近くか職場の近くであるかによってもユーザの心理状態は変化する。
 ここで、図12(A)及び(B)に示すように、制御部19は、ユーザが所有するスマートフォンにユーザが選択肢に対する評価を入力するための画面121、画面122を表示する。制御部19は、その時の気分にコンテンツ及び環境音が適しているか否かについて面121及び画面122で受け付けた選択を、記憶部15へ記憶する。
 例えば、ユーザが図13に示す家から徒歩で移動中の場合において、楽曲Aと小川のせせらぎが選択されている場合を想定する。この状態において、ユーザの心理状態はストレスが少ない状態であり、センサ18において検出される心拍数の値が定常状態であるとする。ここで、ユーザが電車に乗り込むと、ユーザの心理状態が変化しストレスが増加し、センサ18において検出される心拍数の値が上昇する。
 選出部17は、例えば心拍数の値が所定の閾値を越えると、別のコンテンツ、例えば楽曲Bを選出することができる。
 また、コンテンツの変更に合わせ、選出部17は環境音を変更する。例えば、選出部17は、環境音をより広い空間の音へ変更する。これにより、ユーザのストレスが軽減される。
 また、制御部19は、日時のデータに対応付けられたイベント及びそのイベントに関連するコンテンツと環境音とを記憶部15に記憶してもよい。制御部19は、記憶部15に記憶された日時のデータを読み取ることにより、選出部17に特定の日時に対応付けられたイベントに関連するコンテンツと環境音とを選出する指示をする。これにより、ユーザにイベントに関連するコンテンツと環境音とを的確に提供することができる。
 例えば、定期的にそのイベントがある場合、例えば毎週火曜日に英語のレッスンがある場合、火曜日の朝の通勤時間に選択されるコンテンツとして選出部17は、英語に関連するものを選択する。これにより、ユーザに当日のレッスンを思い出させ、学習意欲を向上させることができる。さらに、選出部17は、ユーザの心理状態にあったコンテンツ及び環境音を選択することができるため、より学習意欲を向上させることができる。
 さらに、定位処理部12は、学習機能により環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、のそれぞれについて、定位させる位置を変化させてもよい。制御部19は、センサ18からユーザの心理状態が明るい情報を受け付けると、定位処理部12にコンテンツを頭内定位させる指示をする。これに対して、制御部19はセンサ18からユーザの心理状態が暗い情報を受け付けると、定位処理部12にコンテンツをユーザの前方又は遠方に定位させる指示をする。これにより、定位処理部12はユーザの心理状態に応じた、コンテンツの定位を行う。
 また、選出部17は、他のユーザから、環境音とコンテンツとの組み合わせを示す組み合わせ情報を取得してもよい。この場合、ユーザは、他のユーザがお勧めする環境音とコンテンツとの組み合わせを楽しむことができる。環境音とコンテンツとの組み合わせについても、選出部17及び不図示のサーバの学習機能により、選出部17は、ユーザ毎により適した組み合わせ情報を提供することができる。例えば、ユーザがある環境、例えばカフェにいるときに特定のコンテンツとして楽曲Cと環境音Dを選択する。信号処理装置1は、サーバにこの選出データを送信し、蓄積する。また、同時に信号処理装置1は、このユーザに関する、年齢、性格、又は性別等のユーザ固有のデータも送信してサーバに蓄積する。例えば、別のユーザ2が信号処理装置1を使用する際、信号処理装置1は、ユーザ2の固有のデータがサーバに送信する。サーバは、このユーザ2の固有のデータに近い条件のコンテンツ又は環境音を選出する。サーバは、例えば、コンテンツとして楽曲Cと環境音Dを選択して、ユーザ2の使用する信号処理装置1に送信する。これによりユーザ2は、サーバに蓄積された情報から、ユーザ毎にさらに適した組み合わせ情報を提供することができる。
 なお、本実施形態では、環境音およびコンテンツに係る音をヘッドフォンに出力する例をしめしたが、例えばスピーカに出力してもよい。スピーカを用いてHRTFによる定位処理を行なう場合にはクロストークキャンセルの処理を行なう。
 HRTF以外の定位処理としては、環境音は、聴取位置の周囲に設置された全てのスピーカから出力させ、コンテンツは前方に設置されたスピーカから出力させる。この場合も、環境音は、聴取者の周囲に定位(第1定位処理に対応)し、コンテンツは第1定位処理とは異なる位置に定位(第2定位処理に対応)する。
 最後に、前記実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲とを含む。
VL1,VR1…仮想スピーカ
1…信号処理装置
2L,2R…ヘッドフォンユニット
11…入力部
12…定位処理部
13L,13R…増幅部
14…出力部
15…記憶部
17…選出部
18…センサ
101…マイク
121L,121R,122L,122R…フィルタ
123L,123R…加算器

Claims (11)

  1.  環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、を入力する入力部と、
     前記第1オーディオ信号を聴取者の周囲に定位させる第1定位処理と、前記第2オーディオ信号を前記第1定位処理で定位させる位置とは異なる位置に定位させる第2定位処理と、を行なう定位処理部と、
     を備えた信号処理装置。
  2.  前記定位処理部は、前記第2オーディオ信号を、前記聴取者の前方の特定の位置に定位させる、
     請求項1に記載の信号処理装置。
  3.  前記特定の位置は、前記第1オーディオ信号を定位させる位置より前記聴取者に近い、
     請求項2に記載の信号処理装置。
  4.  前記定位処理部は、前記第2オーディオ信号を、前記聴取者の前方の特定の位置よりも遠い位置に定位させる、
     請求項1に記載の信号処理装置。
  5.  前記環境音または前記コンテンツを選出する選出部を備えた、
     請求項1から請求項4のいずれかに記載の信号処理装置。
  6.  前記選出部は、過去に選択した環境音およびコンテンツの組み合わせを学習し、学習結果に基づいて、前記選出を行なう、
     請求項5に記載の信号処理装置。
  7.  ユーザの状態を示す状態情報を取得し、取得した状態情報に応じて前記選出を行なう、
     請求項5に記載の信号処理装置。
  8.  他のユーザから、前記環境音と前記コンテンツとの組み合わせを示す組み合わせ情報を取得し、取得した組み合わせ情報に応じて前記選出を行なう、
     請求項5に記載の信号処理装置。
  9.  環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、を入力し、
     前記第1オーディオ信号を聴取者の周囲に定位させる第1定位処理と、前記第2オーディオ信号を前記第1定位処理で定位させる位置とは異なる位置に定位させる第2定位処理と、を行なう、
     信号処理方法。
  10.  前記第2オーディオ信号を、前記聴取者の前方の特定の位置に定位させる、
     請求項9に記載の信号処理方法。
  11.  コンピュータに、
     環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、を入力し、
     前記第1オーディオ信号を聴取者の周囲に定位させる第1定位処理と、前記第2オーディオ信号を前記第1定位処理とは異なる位置に定位させる第2定位処理と、をさせる、
     プログラム。
PCT/JP2017/039405 2016-10-31 2017-10-31 信号処理装置、信号処理方法およびプログラム WO2018079850A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018547230A JP6737342B2 (ja) 2016-10-31 2017-10-31 信号処理装置および信号処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016213373 2016-10-31
JP2016-213373 2016-10-31

Publications (1)

Publication Number Publication Date
WO2018079850A1 true WO2018079850A1 (ja) 2018-05-03

Family

ID=62023724

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/039405 WO2018079850A1 (ja) 2016-10-31 2017-10-31 信号処理装置、信号処理方法およびプログラム

Country Status (2)

Country Link
JP (1) JP6737342B2 (ja)
WO (1) WO2018079850A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019208185A (ja) * 2018-05-30 2019-12-05 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および音発生方法
JP2020154645A (ja) * 2019-03-19 2020-09-24 ユニ・チャーム株式会社 プログラム、コンテンツ表示方法、及びコンピュータ
JP2023503959A (ja) * 2019-11-25 2023-02-01 テンセント ミュージック エンターテイメント テクノロジー (シンチェン) カンパニー リミテッド リスニングシーンを構築する方法及び関連装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250199A (ja) * 2004-03-05 2005-09-15 Yamaha Corp オーディオ機器
JP2014174430A (ja) * 2013-03-12 2014-09-22 Yamaha Corp 密閉型ヘッドフォン用信号処理装置および密閉型ヘッドフォン
JP2015198297A (ja) * 2014-03-31 2015-11-09 株式会社東芝 音響制御装置、電子機器及び音響制御方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131674A (ja) * 2001-10-22 2003-05-09 Megafusion Corp 楽曲検索システム
JP2004086189A (ja) * 2002-07-02 2004-03-18 Matsushita Electric Ind Co Ltd 楽曲検索システム
JP2007172675A (ja) * 2005-12-19 2007-07-05 Konica Minolta Photo Imaging Inc 再生装置、プログラムおよび再生システム
JP2008270901A (ja) * 2007-04-16 2008-11-06 Sony Ericsson Mobilecommunications Japan Inc 電話端末及び通信システム
JP2016066389A (ja) * 2014-09-22 2016-04-28 ヤマハ株式会社 再生制御装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250199A (ja) * 2004-03-05 2005-09-15 Yamaha Corp オーディオ機器
JP2014174430A (ja) * 2013-03-12 2014-09-22 Yamaha Corp 密閉型ヘッドフォン用信号処理装置および密閉型ヘッドフォン
JP2015198297A (ja) * 2014-03-31 2015-11-09 株式会社東芝 音響制御装置、電子機器及び音響制御方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019208185A (ja) * 2018-05-30 2019-12-05 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および音発生方法
WO2019230567A1 (ja) * 2018-05-30 2019-12-05 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および音発生方法
US11337025B2 (en) 2018-05-30 2022-05-17 Sony Ineractive Entertainment Inc. Information processing apparatus and sound generation method
JP2020154645A (ja) * 2019-03-19 2020-09-24 ユニ・チャーム株式会社 プログラム、コンテンツ表示方法、及びコンピュータ
JP7125908B2 (ja) 2019-03-19 2022-08-25 ユニ・チャーム株式会社 プログラム、コンテンツ表示方法、及びコンピュータ
JP2023503959A (ja) * 2019-11-25 2023-02-01 テンセント ミュージック エンターテイメント テクノロジー (シンチェン) カンパニー リミテッド リスニングシーンを構築する方法及び関連装置
JP7436664B2 (ja) 2019-11-25 2024-02-21 テンセント ミュージック エンターテイメント テクノロジー (シンチェン) カンパニー リミテッド リスニングシーンを構築する方法及び関連装置

Also Published As

Publication number Publication date
JPWO2018079850A1 (ja) 2019-09-19
JP6737342B2 (ja) 2020-08-05

Similar Documents

Publication Publication Date Title
US11039264B2 (en) Method of providing to user 3D sound in virtual environment
US20210006927A1 (en) Sound output device, sound generation method, and program
US10292002B2 (en) Systems and methods for delivery of personalized audio
TW201820315A (zh) 改良型音訊耳機裝置及其聲音播放方法、電腦程式
US7585252B2 (en) Personal training device using multi-dimensional spatial audio
JP6737342B2 (ja) 信号処理装置および信号処理方法
WO2019002909A1 (en) METHOD FOR PROVIDING AN INTERACTIVE MUSICAL COMPOSITION TO A USER
US10051372B2 (en) Headset enabling extraordinary hearing
Mariette Human factors research in audio augmented reality
US20150086023A1 (en) Audio control apparatus and method
Jenny et al. Can I trust my ears in VR? Literature review of head-related transfer functions and valuation methods with descriptive attributes in virtual reality
JP6798561B2 (ja) 信号処理装置、信号処理方法およびプログラム
WO2018190099A1 (ja) 音声提供装置、音声提供方法及びプログラム
Väänänen et al. Testing the user experience of an augmented reality headset and 3D audio-guided pedestrian navigation
US20240181201A1 (en) Methods and devices for hearing training
WO2023281820A1 (ja) 情報処理装置、情報処理方法、記憶媒体
Laamanen Virtual Heritage: Audio design for immersive virtual environments using researched spatializers.
Lorenz Impact of Head-Tracking on the listening experience of binaural music
Kalogianni et al. The city soundscape and the brain
US20180035236A1 (en) Audio System with Binaural Elements and Method of Use with Perspective Switching
CN114598985A (zh) 音频处理方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17865382

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018547230

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17865382

Country of ref document: EP

Kind code of ref document: A1