WO2012144227A1 - 音声信号再生装置、音声信号再生方法 - Google Patents

音声信号再生装置、音声信号再生方法 Download PDF

Info

Publication number
WO2012144227A1
WO2012144227A1 PCT/JP2012/002740 JP2012002740W WO2012144227A1 WO 2012144227 A1 WO2012144227 A1 WO 2012144227A1 JP 2012002740 W JP2012002740 W JP 2012002740W WO 2012144227 A1 WO2012144227 A1 WO 2012144227A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
signal
speaker
virtual
reproduction
Prior art date
Application number
PCT/JP2012/002740
Other languages
English (en)
French (fr)
Inventor
潤二 荒木
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to JP2012528581A priority Critical patent/JP5118267B2/ja
Publication of WO2012144227A1 publication Critical patent/WO2012144227A1/ja
Priority to US14/013,939 priority patent/US9538307B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present invention relates to an acoustic signal processing technique for performing sound image localization processing using a head-related transfer function, and in particular, a speaker installed in front of the listening position (hereinafter referred to as “front speaker”) and a speaker installed in the vicinity of the ear (hereinafter referred to as “front speaker”).
  • the present invention relates to an audio signal reproducing apparatus and an audio signal reproducing method having a function of realizing a virtual sound image localization at a desired position using “a near-ear speaker”.
  • a virtual sound image is generated as follows.
  • a measurement speaker is installed at a position where a virtual sound image (hereinafter also referred to as a virtual sound source) is to be localized, and a head-related transfer function from the measurement speaker to the listener's ear canal entrance is measured.
  • This head-related transfer function measured in this way is set as a target characteristic.
  • the head-related transfer function from the reproduction speaker used to localize the virtual sound image to the listening position is measured.
  • This head-related transfer function measured in this way is used as a reproduction characteristic.
  • the measurement speaker installed at the position where the virtual sound image is to be localized is used only for measuring the target characteristic. As a result, it is not used when the listener reproduces the reproduction sound source thereafter. That is, only the reproduction speaker is used to localize the virtual sound source by reproducing the reproduction sound source.
  • the head related transfer function for virtual sound localization is calculated using the target characteristic and the reproduction characteristic.
  • the calculated head-related transfer function is used as a filter characteristic.
  • a front speaker installed in front of a listener as represented by a front virtual surround system is used.
  • a near-ear speaker installed in the vicinity of the ear as represented by a headphone virtual surround system or (3) a front speaker and a listener installed in front of the listener by combining both of them.
  • a near-ear speaker installed near the ear is used together.
  • Patent Document 1 A system using both a front speaker and a near-ear speaker is disclosed in Patent Document 1, Patent Document 2, and the like.
  • Patent Document 1 describes a game machine body having a function expansion terminal.
  • This function expansion terminal has an audio output function.
  • the game machine body is connected to a television receiver including a speaker.
  • the game machine main body outputs sound from the television receiver and also outputs sound from the headphones connected to the function expansion terminal.
  • this game machine main body has a function of reproducing sound from a speaker and giving the headphone reproduction signal a time delay until the sound wave reaches the listener. That is, the game machine body makes adjustments so that the listener can hear the sound from the speaker and the headphone playback signal from the headphones at the same time.
  • the user can simultaneously listen to the sound from the television receiver and the sound from the headphones, so that the sound can be reproduced and created with a greater sense of presence than before. Furthermore, by giving a time delay to the headphone playback signal, the sound image localization position can be brought closer to or away from the listener.
  • Patent Document 2 discloses a technique for improving the localization accuracy of an audio channel that is localized backward particularly by using a front speaker and a near-ear speaker together.
  • the conventional technique has a problem that the position where the virtual sound image is localized is unclear.
  • an object of the present invention is to provide an audio signal reproduction device that can localize a virtual sound image at a more accurate position.
  • an audio signal reproduction device includes a first speaker group, which is a plurality of speakers arranged around a listener, and the reception unit more than the first speaker group.
  • An audio signal for reproducing an audio signal including position information indicating a virtual sound image position to be localized for each of a plurality of audio channels with respect to each of a second speaker group which is a plurality of speakers arranged at positions close to the listener.
  • a playback device for acquiring the audio signal; performing signal processing on the audio signal; and a first playback signal for the first speaker group in which sound is localized at a first virtual sound image position; and A virtual sound field generation unit that generates a second reproduction signal for the second speaker group in which sound is localized at a second virtual sound image position substantially the same as the first virtual sound image position, and the virtual sound field generation unit includes: , The first reproduction Of the first virtual sound image position, the first sound localized at the first position, and the second reproduction signal, localized at substantially the same position as the first position, and the first sound The first reproduction signal and the second reproduction signal are generated so that at least one of the phase and the sound pressure value is different at the listening position between the second sound and the substantially same second sound.
  • the audio signal reproduction device can suppress the deviation between the two speaker groups that occurs when the first speaker group and the second speaker group generate the same virtual sound image. Therefore, the virtual sound image can be localized at a more accurate position.
  • the virtual sound field generation unit outputs the first reproduction signal from the first speaker group so that listening times of the two sounds having substantially the same characteristics are different by a time within a predetermined range.
  • the time and the output time for outputting the second reproduction signal from the second speaker group may be adjusted.
  • the audio signal reproduction device 100 adjusts the timing for outputting sound from the first speaker group and the timing for outputting sound from the second speaker group, so that a minute time within a predetermined range can be obtained. It is possible to control so that the reproduced sound reaches the listener with a deviation. Therefore, the listener listens to two sounds that have the preceding sound effect. As a result, the listener can hear that the virtual sound field localized by the sound that arrives later coincides with the virtual sound field localized by the sound that arrived first, even though the timing of listening is shifted. . Furthermore, the listener is strongly aware of the sound that has arrived earlier than the sound that has arrived later.
  • the virtual sound field generation unit is configured to cause the first reproduction signal and the second reproduction signal so that the first sound reaches the listening position earlier than the second sound by the predetermined range of time. May be generated.
  • the sound reproduced by the first speaker group contributes more greatly to the localization of the virtual sound field.
  • the audio signal reproduction device 100 can localize a better sense of distance.
  • the virtual sound field generation unit is configured to cause the first reproduction signal and the second reproduction signal so that the second sound reaches the listening position earlier than the first sound by the predetermined range of time. May be generated.
  • the sound reproduced by the second speaker group contributes more greatly to the localization of the virtual sound field.
  • the audio signal reproduction device 100 can localize a better direction feeling.
  • the virtual sound field generation unit causes the first reproduction so that the second sound reaches the listening position before the first sound.
  • the signal and the second reproduction signal may be generated.
  • a sound whose sound image is localized behind the listener and having substantially the same characteristics included in each of the first reproduction signal and the second reproduction signal is output from the second speaker group first. can do.
  • the listener is strongly aware of the sound output from the second speaker group with respect to the sound whose sound image is localized backward.
  • the listener can more clearly recognize the direction of the sound image localization position for the rear sound.
  • the virtual sound field generation unit causes the first reproduction so that the first sound reaches the listening position before the second sound.
  • the signal and the second reproduction signal may be generated.
  • a sound whose sound image is localized in front of the listener and having substantially the same characteristics included in each of the first reproduction signal and the second reproduction signal is output from the first speaker group first. can do.
  • the listener is strongly aware of the sound output from the first speaker group with respect to the sound whose sound image is localized forward.
  • the listener can more clearly recognize the distance of the sound image localization position for the forward sound.
  • the predetermined range may be greater than 0 milliseconds and less than 20 milliseconds.
  • the virtual sound field generation unit may further include a sound pressure value adjustment unit that adjusts the sound pressure value by multiplying each of the plurality of audio channels by a corresponding gain.
  • the virtual sound field generating unit can generate a virtual sound field by changing the gain for each audio channel signal corresponding to the localized sound source. That is, for each virtual sound source, the sound pressure value of the sound reproduced from the virtual sound source can be changed, and the gain balance as the entire virtual sound field can be adjusted. As a result, it is possible to suppress the bias and separation of the sound field due to the virtual sound images generated by the first speaker group and the second speaker group.
  • the virtual sound field generation unit may be configured such that a sound pressure value of a sound localized in front of the listener among sounds localized at the first virtual sound image position is a sound pressure of sound localized in the rear of the listener.
  • the first reproduction signal may be generated so as to be larger than the value.
  • the virtual sound field generation unit may be configured such that, among sounds localized at the second virtual sound image position, a sound pressure value of a sound localized at the rear of the listener is a sound pressure of a sound localized at the front of the listener.
  • the second reproduction signal may be generated so as to be larger than the value.
  • the present invention can be realized not only as an audio signal reproduction device, but also as an audio signal reproduction method that uses processing means constituting the audio signal reproduction device as steps, or as a program that causes a computer to execute these steps. Further, it can be realized as a recording medium such as a computer-readable CD-ROM in which the program is recorded, or can be realized as information, data, or a signal indicating the program. These programs, information, data, and signals may be distributed via a communication network such as the Internet.
  • the present invention can be realized as a semiconductor integrated circuit (LSI) that realizes part or all of the functions of such an audio signal reproduction device, or as an audio signal reproduction system including such an audio signal reproduction device. You can.
  • LSI semiconductor integrated circuit
  • FIG. 1 is a block diagram showing a configuration of an audio signal reproduction device according to Embodiments 1 and 2.
  • FIG. 2 is a block diagram illustrating a configuration of the audio signal reproduction device according to the first embodiment.
  • FIG. 3 is a diagram illustrating an example of a positional relationship between a speaker group and a listener.
  • FIG. 4 is a conceptual diagram for explaining the preceding sound effect.
  • FIG. 5 is a flowchart showing an example of the operation of the audio signal reproduction device according to the embodiment.
  • FIG. 6 is a diagram illustrating a delay of a signal value of a certain audio channel reproduced by each speaker in the audio signal reproduction device according to the embodiment and the modification.
  • FIG. 1 is a block diagram showing a configuration of an audio signal reproduction device according to Embodiments 1 and 2.
  • FIG. 2 is a block diagram illustrating a configuration of the audio signal reproduction device according to the first embodiment.
  • FIG. 3 is a diagram illustrating an example of a positional relationship between a speaker group
  • FIG. 7 is a diagram illustrating the influence of the arrival of sound from the two speaker groups according to the embodiment and the modification on the sound field localization.
  • FIG. 8 is a diagram illustrating a sound field realized in the audio signal reproduction device according to Embodiment 1 and its modification.
  • FIG. 9 is a diagram showing another example of the audio signal reproduction device according to Embodiment 1 and its modification.
  • FIG. 10 is a block diagram showing a configuration of an audio signal reproduction device according to the second embodiment.
  • FIG. 11 is a flowchart showing an example of the operation of the audio signal reproduction device according to the second embodiment.
  • FIG. 12 is a diagram illustrating the gain of the signal value of each audio channel signal reproduced by each speaker in the audio signal reproduction device according to the second embodiment and the modification thereof.
  • FIG. 13 is a diagram illustrating a sound field realized in the case (1) of the acoustic signal processing device according to the second embodiment and the modification thereof.
  • FIG. 14 is a diagram illustrating a sound field realized in the case (2) of the acoustic signal processing device according to the second embodiment and the modification thereof.
  • FIG. 15 is a diagram illustrating a sound field realized by the case (3) of the acoustic signal processing device according to the second embodiment and the modification thereof.
  • FIG. 16 is a diagram illustrating a sound field realized in the case (4) of the acoustic signal processing device according to the second embodiment and the modification thereof.
  • FIG. 17 is a diagram showing an example of a more detailed configuration of the audio signal reproduction device according to the second embodiment.
  • FIG. 18 is a diagram illustrating a more detailed configuration of an audio signal reproduction device according to a modification of the second embodiment.
  • FIG. 19 is a block diagram of a hardware configuration of a computer system that realizes the audio signal reproduction device according to the first and second embodiments and the modification.
  • a front virtual surround system using a front speaker has good localization accuracy of an audio channel (that is, a virtual sound image) localized in front of a listener.
  • an audio channel that is, a virtual sound image
  • the audio channel that is localized behind the listener has poor localization accuracy.
  • a virtual surround system using a near-ear speaker has good localization accuracy in the direction of the audio channel.
  • the sense of distance of the audio channel localized in front of the listener cannot be reproduced properly. Specifically, it tends to be localized at a position closer to the listener than the target position.
  • Cited Document 1 the listener listens to the sound from the speaker and the headphone playback signal from the headphones at the same time. For this reason, it is difficult to utilize the advantages of the front speaker or the near-ear speaker described above. As a result, the localization position of the virtual sound image becomes inaccurate.
  • each of the front speaker and the near-ear speaker localizes the virtual sound image at the same position, so that the sound field formed by the virtual sound image is biased and becomes an unnatural sound field.
  • the output sound pressure level of either the front speaker or the near-ear speaker is extremely high, the virtual sound image from one speaker becomes dominant and sound field separation occurs. As a result, the localization position of the virtual sound image is still inaccurate.
  • FIG. 1 shows functional blocks of an audio signal reproduction device 100 according to the present embodiment.
  • the audio signal reproduction device 100 is a first speaker group 51 which is a plurality of speakers arranged around the listener 10 and a plurality of speakers which are arranged at positions closer to the listener than the first speaker group.
  • For each of the second speaker groups 52 an audio signal including position information indicating a virtual sound image position to be localized for each of a plurality of audio channels is reproduced.
  • the audio signal reproduction device 100 includes an acquisition unit 1 and a virtual sound field generation unit 80.
  • the acquisition unit 1 acquires an audio signal from a sound source and distributes it to two audio signals.
  • the virtual sound field generator 80 performs signal processing on the audio signal, and is substantially the same as the first reproduction signal for the first speaker group 51 in which sound is localized at the first virtual sound image position and the first virtual sound image position.
  • a second reproduction signal for the second speaker group 52 whose sound is localized at the second virtual sound image position is generated.
  • the virtual sound field generation unit 80 is indicated by the first reproduction signal, and is indicated by the first sound localized at the first position among the first virtual sound image positions and the second reproduction signal, and is substantially the same as the first position.
  • the first reproduction signal and the second reproduction signal are generated so that at least one of the phase and the sound pressure value is different at the listening position from the second sound that is localized at the same position and that is substantially the same as the first sound. .
  • Embodiment 1 a specific example in which the virtual sound field generation unit 80 generates the first reproduction signal and the second reproduction signal so that the phases of the first sound and the second sound are different at the listening position will be described as Embodiment 1. This will be described in detail.
  • FIG. 2 is a block diagram showing a configuration of the audio signal reproduction device 100A according to the present embodiment.
  • the audio signal reproduction device 100A includes a first speaker group 51, which is a plurality of speakers arranged around the listener, and a plurality of speakers arranged at positions closer to the listener than the first speaker group 51.
  • This is an audio signal reproduction device that outputs an audio signal that has been subjected to the sound field generation processing with respect to the second speaker group 52 that is the other speaker.
  • the audio signal reproduction device 100A includes an acquisition unit 1 and a virtual sound field generation unit 80A.
  • the acquisition unit 1 acquires an audio signal including a plurality of audio channel signals.
  • a description will be given of a 5ch (channel) audio signal (that is, an audio signal including five audio channel signals) as an example, but the number of audio channel signals is not limited to this.
  • an audio signal including an arbitrary audio channel signal such as 2ch, 4ch, or 7ch can be input.
  • the acquisition unit 1 also distributes the acquired audio signal and reproduces the first audio signal to be reproduced as the first reproduction sound by the first speaker group 51 and the second reproduction sound by the second speaker group 52.
  • the second audio signal is generated.
  • the virtual sound field generator 80A performs signal processing on the first audio signal and the second audio signal, respectively, and the first reproduction signal and the second virtual signal for the first speaker group in which sound is localized at the first virtual sound image position.
  • a second reproduction signal for the second speaker group whose sound is localized at the sound image position is generated.
  • the virtual sound field generation unit 80A is indicated by the first reproduction signal, indicated by the first sound localized at the first position among the first virtual sound image positions, and the second reproduction signal, and is substantially the same as the first position.
  • the first reproduction signal and the second reproduction signal are generated so that the second sound that is localized at the same position and the second sound that is substantially the same as the first sound has a different phase at the listening position.
  • the first audio signal subjected to the signal processing by the virtual sound field generation unit 80A is also referred to as a first reproduction signal.
  • the second audio signal that has been subjected to signal processing by the virtual sound field generation unit 80A is also referred to as a second reproduction signal.
  • the two sounds having substantially the same characteristics may include two sounds having the same characteristics.
  • the feature means the frequency and amplitude of the sound, and hereinafter, two sounds having substantially the same feature are also referred to as “same sound”.
  • the virtual sound field generation unit 80A outputs the first reproduction signal from the first speaker group 51 so that the listening times of two sounds having substantially the same characteristics are different by a time within a predetermined range. The output time and the output time for outputting the second reproduction signal from the second speaker group 52 are adjusted.
  • the virtual sound field generation unit 80A generates the first reproduction signal and the second reproduction signal so that the first sound reaches the listening position of the listener 10 earlier than the second sound by a predetermined range of time. May be.
  • the virtual sound field generation unit 80A generates the first reproduction signal and the second reproduction signal so that the second sound reaches the listening position of the listener 10 earlier than the first sound by a predetermined range of time. May be.
  • the virtual sound field generation unit 80A includes an output time difference control unit 3 and a filter processing unit 70.
  • the output time difference control unit 3 outputs the first reproduction signal and the second reproduction signal so that the first sound and the second sound arrive at the listener 10 at different times by a predetermined time. To control the difference.
  • the virtual sound field generation unit 80A may perform sound field generation processing so that the first sound reaches the listener 10 before the second sound, and conversely, the second sound is generated from the first sound.
  • the sound field generation processing may be performed so as to reach the listener 10 first.
  • the output time difference control unit 3 may control the difference in output time so that the first sound reaches the listener 10 before the second sound, and conversely, the second sound is generated from the first sound.
  • the difference in output time may be controlled so as to reach the listener 10 first.
  • the filter processing unit 70 determines the first audio signal so that the third speaker group localized by the first reproduced sound and the fourth speaker group localized by the second reproduced sound are localized at the same predetermined position.
  • the second audio signal is filtered.
  • the filter processing unit 70 in the present embodiment converts the first audio signal of 5ch into 2ch and outputs it to the first speaker group 51.
  • each of the third speaker groups is localized at a position associated with each of the 5ch included in the audio signal.
  • the filter processing unit 70 converts the second audio signal of 5ch into 2ch and outputs it to the second speaker group 52.
  • the fourth speaker group is localized at a position corresponding to each of the 5ch included in the audio signal. Since the specific processing content of the filter processing unit 70 is determined by the head related transfer function according to the related art described above, the details are omitted.
  • the filter processing unit 70 includes a near-ear speaker filter 4 and a front speaker filter 5.
  • the front speaker filter 5 filters the first audio signal so that the third speaker group (virtual sound source 11 to virtual sound source 15 to be described later) is localized at a predetermined position by the first reproduction sound. .
  • the near-ear speaker filter 4 filters the second sound signal so that the fourth speaker group (virtual sound source 21 to virtual sound source 25, which will be described later) is localized at a predetermined position by the second reproduced sound. Apply.
  • the first speaker group 51 includes a front L (Left) speaker 6 and a front R (Right) speaker 7.
  • the second speaker group 52 includes a near-ear L speaker 8 and a near-ear R speaker 9.
  • the audio signal reproducing device 100A converts a front L channel signal (hereinafter referred to as an FL signal) included in a multi-channel audio signal that is an input signal into a set of front L speaker 6 and front R speaker 7, and a set of ears. Playback is performed using at least one of the near L speaker 8 and the near ear R speaker 9. Thereby, the audio signal reproducing device 100A localizes the virtual sound source for reproducing the FL signal as a virtual front L channel speaker (hereinafter referred to as a virtual FL speaker).
  • the virtual FL speaker 11 is localized by the first reproduction sound reproduced by both the front L speaker 6 and the front R speaker 7, and is reproduced by both the near-ear L speaker 8 and the near-R speaker 9. It is assumed that the virtual FL speaker 21 is localized by the second reproduced sound.
  • the audio signal reproduction device 100A uses a front R channel signal (hereinafter referred to as an FR signal) included in a multi-channel audio signal as an input signal as one set of the front L speaker 6 and the front R speaker 7, and one set. Reproduction using at least one set of the near-ear L speaker 8 and near-ear R speaker 9.
  • the audio signal reproducing device 100A localizes the virtual sound source for reproducing the FR signal as a virtual front R channel speaker (virtual FR speaker).
  • the virtual FR speaker 12 is localized by the first reproduction sound reproduced by both the front L speaker 6 and the front R speaker 7, and is reproduced by both the near-ear L speaker 8 and near-ear R speaker 9.
  • the virtual FR speaker 22 is localized by the second reproduced sound.
  • the audio signal reproducing device 100A uses a set of a front L speaker 6 and a front R speaker 7 as a surround L channel signal (hereinafter referred to as an SL signal) included in a multichannel audio signal as an input signal, and 1 Playback is performed using at least one of the near-ear L speaker 8 and near-ear R speaker 9 in the set.
  • the audio signal reproduction device 100A localizes the virtual sound source for reproducing the SL signal as a virtual surround L channel speaker (virtual SL speaker).
  • the virtual SL speaker 13 is localized by the first reproduction sound reproduced by both the front L speaker 6 and the front R speaker 7, and is reproduced by both the near-ear L speaker 8 and the near-R speaker 9.
  • the virtual SL speaker 23 is localized by the second reproduced sound.
  • the audio signal reproduction device 100A converts a surround R channel signal (hereinafter referred to as an SR signal) included in a multi-channel audio signal as an input signal into one set of front L speaker 6 and front R speaker 7, and one set. Reproduction using at least one set of the near-ear L speaker 8 and near-ear R speaker 9. Thereby, the audio signal reproduction device 100A localizes the virtual sound source for reproducing the SR signal as a virtual surround R channel speaker (virtual SR speaker).
  • the virtual SR speaker 14 is localized by the first reproduction sound reproduced by both the front L speaker 6 and the front R speaker 7, and by both the near-ear L speaker 8 and the near-ear R speaker 9.
  • the virtual SR speaker 24 is localized by the reproduced second reproduced sound.
  • the audio signal reproducing device 100A uses a center channel signal (hereinafter referred to as C signal) included in a multi-channel audio signal as an input signal as one set of front L speaker 6 and front R speaker 7, and one set of Playback is performed using at least one of the near-ear L speaker 8 and near-ear R speaker 9.
  • C signal center channel signal
  • the audio signal reproducing device 100A localizes the virtual sound source for reproducing the C signal as a virtual center channel speaker (virtual C speaker).
  • the virtual C speaker 15 is localized by the first reproduction sound reproduced by both the front L speaker 6 and the front R speaker 7, and by both the near-ear L speaker 8 and near-ear R speaker 9.
  • the virtual C speaker 25 is localized by the reproduced second reproduced sound.
  • an input signal including a plurality of audio channel signals (FR signal, SR signal, FL signal, SL signal, and C signal) is input from the acquisition unit 1.
  • each audio channel signal corresponds to each virtual speaker.
  • the output time difference control unit 3 controls the phase difference between the front speaker signal and the near-ear speaker signal, and controls the timing at which each signal is output from the front speaker and the near-ear speaker.
  • the near-ear speaker filter 4 performs filter processing based on the near-ear speaker filter coefficient on the 5ch near-ear speaker signal (that is, the second audio signal) output from the output time difference control unit 3.
  • a 2-channel virtual sound field generation signal is generated, and each audio channel signal is output to the near-ear L speaker 8 and the near-ear R speaker 9.
  • the processing based on the near-ear speaker filter coefficient in the near-ear speaker filter 4 is as follows, for example, when the near-ear speaker signal includes an SL signal and an SR signal. . That is, it is assumed that the virtual sound field generation signal generated by the near-ear speaker filter 4 by processing the SL signal and the SR signal is reproduced by each of the near-ear L speaker 8 and the near-ear R speaker 9. At this time, the SL signal is reproduced from the virtual SL speaker 23 which is a virtual sound source localized at a position corresponding to the SL signal, and the SR signal is reproduced from the virtual SR speaker 24 which is a virtual sound source localized at a position corresponding to the SR signal.
  • the process of giving the characteristics perceived by the listener 10 to each of the SL signal and the SR signal as being reproduced is called a process based on the near-ear speaker filter coefficient.
  • the front speaker filter 5 performs a filter process based on the front speaker filter coefficient on the 5ch front speaker signal (that is, the first audio signal) output from the output time difference control unit 3, thereby performing a 2ch virtual process. Sound field generation signals are generated and output to the front L speaker 6 and the front R speaker 7 respectively.
  • the processing based on the front speaker filter coefficient in the front speaker filter 5 is as follows, for example, when the SL signal and the SR signal are included in the front speaker signal. That is, it is assumed that the virtual sound field generation signal generated by the front speaker filter 5 by processing the SL signal and the SR signal is reproduced by each of the front L speaker 6 and the front R speaker 7. At this time, the SL signal is reproduced from the virtual SL speaker 13 which is a virtual sound source localized at a position corresponding to the SL signal, and the SR signal is reproduced from the virtual SR speaker 14 which is a virtual sound source localized at a position corresponding to the SR signal.
  • the process of giving the characteristic perceived by the listener 10 to each of the SL signal and the SR signal as being reproduced is called a process based on the filter coefficient for the front speaker.
  • the listener 10 receives virtual FL speakers 11 and 21, virtual FR speakers 12 and 22, virtual SL speakers 13 and 23, virtual SR speakers 14, and virtual SR that are nonexistent virtual sound sources. 24, and the reproduced sound can be heard from the positions of the virtual C speakers 15 and 25.
  • the present invention is intended to provide an audio signal reproduction apparatus for solving this problem, and therefore, this problem and a solution will be described in more detail below.
  • FIG. 3 is a diagram illustrating an example of a positional relationship between each speaker included in the first speaker group 51 and the second speaker group 52 and the listener.
  • the distance between the front L speaker 6 and the listener 10 is 1 [m]
  • the distance between the near-ear L speaker 8 and the listener 10 is m [m] (l >> m).
  • the sound speed is c [m / s].
  • T 1 l / c [s]
  • T 2 m / c [s]
  • T 1 -T 2 is approximately 15 [ms]. That is, when the first sound and the second sound are the same sound, the listener 10 hears the same sound with a shift of 15 [ms]. This sounds as an unnatural echo for the listener 10.
  • the near-ear L speaker 8 reproduces the same sound later than the front L speaker 6 by T 1 -T 2 [s], so that the same sound reaches the listener 10 at the same time.
  • the playback time is controlled. That is, the value of T 1 -T 2 is obtained in advance from the positional relationship between the assumed listener 10 and the first speaker group 51 and the second speaker group 52 (the aforementioned l and m), and the same value is obtained.
  • the second speaker group 52 is controlled so that the sound is reproduced with a delay of T 1 -T 2 [s] from the first speaker group 51.
  • the reproduced sound by the first speaker group 51 subjected to the filter processing based on the front speaker filter coefficient and the reproduced sound from the second speaker group 52 subjected to the filter processing based on the near-ear speaker filter coefficient Even if the listener 10 reaches the listener 10 at the same time, the listener 10 feels uncomfortable in hearing. This is because the virtual sound field generated by the first speaker group 51 and the virtual sound field generated by the second speaker group 52 are accurate even when the timing to reach the ear of the listener 10 is aligned. This is because the sound field is separated, biased, or blurred.
  • the audio signal reproduction device 100A according to the present embodiment suppresses this uncomfortable feeling by the preceding sound effect.
  • FIG. 3 is a conceptual diagram for explaining the precedence sound effect.
  • the waveform 510 represents the waveform of the first sound that has reached the listener 10 at time t1
  • the waveform 512 represents the waveform of the second sound that has reached the listener 10 at time t2 and is the same sound as the first sound. Let's represent.
  • ⁇ t varies depending on the environment, it is known that 0 ⁇ t ⁇ 20 [ms].
  • the audio signal reproduction device 100A has the first reproduction signal so that the time when the first sound reaches the listener 10 and the time when the second sound arrives at the listener 10 are shifted by ⁇ t that causes the preceding sound effect. And a difference in output time between the second reproduction signal and the second reproduction signal. Thereby, the position of the virtual sound source localized by the sound that has reached later is accurately matched with the position of the virtual sound source that is localized by the preceding sound that has reached the listener 10 first among the first sound and the second sound. Can do.
  • FIG. 5 is a flowchart showing an example of the operation of the audio signal reproduction device 100A according to the present embodiment.
  • the acquisition unit 1 acquires an audio signal including a plurality of audio channel signals (S21).
  • the acquisition unit 1 includes the same audio signal in order to individually process and reproduce the audio signal including the plurality of audio channel signals acquired by the acquisition unit 1 by the front speaker and the near-ear speaker. Distribution is made to the system (that is, the first audio signal and the second audio signal) (S22).
  • the ratio of signal values may be changed, or the ratio of signal values for distribution may be changed in consideration of the efficiency of the front speaker and the near-ear speaker.
  • the ratio may be changed so that the signal value becomes larger as the distance between the listener 10 and the speaker increases. Further, the ratio may be changed so that the lower the efficiency of the speaker, the larger the signal value.
  • the output time difference between the two signals for example, considering the distance between the listener and the front speaker and the listener and the near-ear speaker, the front speaker signal and the near-ear speaker signal at the listener's position.
  • the output time difference may be controlled so that the phases are aligned.
  • the acquisition unit 1 may control the output time difference so that the second reproduction signal is delayed by T 1 ⁇ T 2 [s].
  • step S22 the acquisition unit 1 hears the output of the front speaker (first reproduction sound) and the output of the near-ear speaker (second reproduction sound) at the position of the listener 10 in terms of audibility.
  • the magnitudes of the signal values are made to be equal, and the phase of the output of the front speaker and the output of the near-ear speaker is aligned at the position of the listener 10 (that is, the first sound and the second sound are simultaneously transmitted to the listener 10. It is assumed that the same audio signal is distributed to the two systems so as to reach.
  • the output time difference control unit 3 controls the output timing of each audio channel signal reproduced by the front speaker and the near-ear speaker (S23).
  • Step S22 and step S23 will be described in more detail with reference to FIGS. 6A and 6B.
  • FIG. 6A shows the waveform of the second reproduction signal given a delay of N [msec] as compared to the first reproduction signal
  • FIG. 6B shows the waveform of the first reproduction signal. Represents.
  • N 0
  • the listener 10 is meant to listen to reproduced sounds of phase equal both signals simultaneously.
  • the output time difference control unit 3 considers N 0 as a reference, and outputs the first reproduction signal and the second reproduction signal so as to increase or decrease the delay amount of the second reproduction signal by ⁇ t. Time is controlled (S23).
  • the delay time N is set to an appropriate value by the output time difference control unit 3 so that a desired sound field is formed by the front speaker output and the near-ear speaker output.
  • the appropriate delay amount for example, a subjective evaluation experiment is performed in advance, and the delay amount between the front speaker output and the near-ear speaker output is varied to obtain a delay amount that can obtain a desired sound field by the preceding sound effect. To decide.
  • the delay amount is not too large. Specifically, as described above, 0 ⁇ t ⁇ 20 [msec] may be considered. As a result of the subject experiment, it is preferable that 2 [msec] ⁇ t ⁇ 8 [msec] in more detail.
  • step S22 a delay (N 0 ) for reducing the arrival time difference between the first reproduction signal and the second reproduction signal to the listener 10 to zero is set to one voice.
  • step S23 a two-stage process of increasing / decreasing the delay amount of any one of the audio signals was performed in order to produce the preceding sound effect.
  • the difference may be controlled.
  • the audio signal reproduction device 100A uses a time that exceeds 0 milliseconds and less than 20 milliseconds as the predetermined range.
  • the output time difference control unit 3 determines that the absolute value of the difference between the first time at which the first sound reaches the listener 10 and the second time at which the second sound reaches the listener 10 is 0 milliseconds. And the difference in output time between the first reproduction signal and the second reproduction signal may be controlled so as to be less than 20 milliseconds.
  • the output time difference control unit 3 sets the first reproduction signal and the second reproduction signal so that the second time is earlier than the first time by more than 0 milliseconds and less than 20 milliseconds.
  • the difference in output time may be controlled.
  • the output time difference control unit 3 outputs the first reproduction signal and the second reproduction signal so that the first time is earlier than the second time by more than 0 milliseconds and less than 20 milliseconds. The difference may be controlled.
  • the output time difference control unit 3 is the first time when the first sound, which is the sound included in the first reproduction sound, reaches the listener 10 and the sound included in the second reproduction sound.
  • the absolute value of the difference from the second time at which the second sound, which is the same sound as the first sound, reaches the listener 10 is more than 0 milliseconds and less than 20 milliseconds.
  • the difference in output time between the first reproduction signal and the second reproduction signal may be controlled.
  • the output time difference control unit 3 performs the first reproduction signal and the second reproduction signal so that the absolute value of the difference between the first time and the second time is greater than 2 milliseconds and less than 8 milliseconds.
  • the output time difference may be controlled.
  • the output time difference control unit 3 outputs the first reproduction signal and the second reproduction signal so that the second time is earlier than the first time by more than 2 milliseconds and less than 8 milliseconds. The difference may be controlled.
  • the characteristics of the virtual sound field localized for the listener 10 change depending on which of the first sound and the second sound reaches the listener 10 first.
  • this difference will be described with reference to FIG.
  • FIG. 7 is a diagram illustrating the influence of the arrival of sound from each of the two speaker groups (the first speaker group 51 and the second speaker group 52) according to the embodiment on the sound field localization.
  • Table 331 shows the sound field localization characteristics when the second sound reproduced from the second speaker group 52 installed near the ear reaches the listener 10 first by ⁇ t.
  • the virtual sound field that is localized in this case is a virtual sound field that is more accurate in the sense of direction than the sense of distance.
  • Table 332 shows the tendency of the sound field localization when the first sound reproduced from the first speaker group 51 installed in front of the listener 10 reaches the listener 10 first by ⁇ t.
  • the virtual sound field that is localized in this case is a virtual sound field that is superior in the sense of distance than the sense of direction.
  • the reproduced sound of the first speaker group 51 is the virtual sound.
  • the reproduced sound of the second speaker group 52 is more sensitive to the direction of the virtual sound field (especially when the first speaker group 51 is in front of the listener 10, This is because it is more excellent in localization.
  • the audio signal reproduction device 100A suppresses the unpleasant sensation in hearing caused by the combined use of the first speaker group 51 and the second speaker group 52 by the preceding sound effect.
  • a more natural and accurate virtual sound field can be localized by individually selecting which localization accuracy or direction is prioritized according to the position of the sound field.
  • the virtual sound source (11, 12, 15) that is localized in front of the listener 10 is left to the first speaker group 51, and the virtual sound source (23, 23) is localized in the rear of the listener 10.
  • the localization of 24 is left to the second speaker group 52, it becomes possible to achieve both localization of distance and direction.
  • the output time difference control unit 3 included in the audio signal reproduction device 100A has the sound included in the audio channel signal corresponding to the virtual sound source localized in front of the listener 10 out of the audio channel signals included in the first audio signal. It is preferable to control the difference in the output time of the audio signal so as to reach the listener 10 earlier by ⁇ t than the same sound included in the second audio signal. Similarly, the output time difference control unit 3 converts the sound included in the audio channel signal corresponding to the virtual sound source localized behind the listener 10 among the audio channel signals included in the second audio signal into the first audio signal. It is desirable to control the difference in the output time of the audio signal so as to reach the listener 10 earlier by ⁇ t than the same included sound.
  • the virtual sound field generation unit 80A causes the second sound to reach the listening position before the first sound.
  • a first reproduction signal and a second reproduction signal may be generated.
  • the virtual sound field generation unit 80A causes the first reproduction signal and the second reproduction signal so that the first sound reaches the listening position before the second sound. May be generated.
  • the output time difference control unit 3 may control the output timing for all of the plurality of audio channel signals constituting the front speaker signal and the near-ear speaker signal, or only certain audio channel signals. The output timing may be controlled for.
  • the near-ear speaker signal is not delayed and the front speaker signal is delayed, but the front speaker signal is not delayed and the near-ear speaker signal is delayed. May be.
  • FIG. 8 shows the first speaker group in which the first reproduction signal and the second reproduction signal whose output time difference is controlled by the output time difference control unit 3 included in the audio signal reproduction device 100A according to the present embodiment are as described above.
  • An example of a plurality of virtual sound images generated by being output from 51 and the second speaker group 52 is shown.
  • the front L speaker 6 and the front R speaker 7 generate a virtual FL speaker 30, a virtual FR speaker 31, a virtual center channel speaker (virtual C speaker) 32, a virtual SL speaker 33, and a virtual SR speaker 34.
  • the virtual FL speaker 35, the virtual FR speaker 36, the virtual C speaker 37, the virtual SL speaker 38, and the virtual SR speaker 39 are generated by the near-ear L speaker 8 and the near-ear R speaker 9. Yes.
  • FIG. 8 five audio channel signals are processed by the audio signal reproducing device 100A. However, as described above, only a specific audio channel signal may be processed.
  • the virtual sound field generation unit 80 ⁇ / b> A includes the output time difference control unit 3 in the previous stage of the filter processing unit 70.
  • the filter processing unit 70 is configured to perform sound field generation processing.
  • the audio signal reproduction device 100A does not necessarily have to include the output time difference control unit 3 as a separate processing unit before the filter processing unit 70.
  • FIG. 9 is a block diagram showing a modification of the audio signal reproduction device 100A according to the present embodiment.
  • the output time difference control unit 3 is incorporated in the filter processing unit 70.
  • the output time difference control unit 3 in this modification is implemented as software integrated with the near-ear speaker filter 4 and the front speaker filter 5.
  • each of the near-ear speaker filter 4 and the front speaker filter 5 performs a delay process on each audio channel signal and a sound field generation process.
  • the output time difference control unit 3 corresponds to the phase of each audio channel signal among the elements included in the matrix representing the filter coefficient of each of the near-ear speaker filter 4 and the front speaker filter 5. Only the element is implemented by delaying (or advancing) the phase. In this case, in the processing inside the filter processing unit 70, the processing of the output time difference control unit 3 and the processing of the near-ear speaker filter 4 and the front speaker filter 5 are executed in random order.
  • the output time difference control unit 3 has the same effect regardless of whether the output time difference control unit 3 is provided in the previous stage of the filter processing unit 70 or as a part of the configuration of the filter processing unit 70.
  • the first speaker group does not necessarily have to be installed in front of the listener 10.
  • the first speaker group may be installed behind the listener 10.
  • the output time difference control unit 3 controls the difference in the output time so that the reproduced sound of the first audio signal reaches the listener 10 earlier than the reproduced sound of the second audio signal, the localization of the sense of distance behind is further increased. Accuracy is improved.
  • the audio signal reproduction device 100A reproduces the acquired audio signal with the first speaker group (for example, the front speaker), and the second speaker.
  • the first speaker group for example, the front speaker
  • the second speaker In the case of reproduction with a group (for example, a speaker near the ear), control is performed so that the reproduced sound reaches the listener with a slight shift within a predetermined range.
  • the listener listens to two sounds that have the preceding sound effect.
  • the listener can hear that the virtual sound field localized by the sound that arrives later coincides with the virtual sound field localized by the sound that arrived first, even though the timing of listening is shifted.
  • the listener is strongly aware of the sound that has arrived earlier than the sound that has arrived later.
  • FIG. 10 is a block diagram showing a configuration of the audio signal reproduction device 100B according to the present embodiment.
  • the audio signal reproduction device 100B receives a front speaker (hereinafter also referred to as a first speaker group) 51 that is a plurality of speakers arranged around the listener 10 and the first speaker group 51.
  • An audio signal reproduction device that outputs an audio signal subjected to sound field generation processing to a near-ear speaker (hereinafter also referred to as a second speaker group) 52 that is a plurality of speakers arranged at positions close to a listener. is there.
  • the audio signal reproduction device 100B includes an acquisition unit 1 and a virtual sound field generation unit 80B.
  • the acquisition unit 1 acquires an audio signal including a plurality of audio channel signals.
  • a description will be given of a 5ch (channel) audio signal (that is, an audio signal including five audio channel signals) as an example, but the number of audio channel signals is not limited to this.
  • an audio signal including an arbitrary audio channel signal such as 2ch, 4ch, or 7ch can be input.
  • the acquisition unit 1 also uses a first audio signal for reproduction as a first reproduction sound by the first speaker group 51 and a second reproduction sound for reproduction as a second reproduction sound by the second speaker group 52 from the acquired audio signal. 2 audio signals are generated. That is, the first audio signal and the second audio signal are audio signals each including a 5-channel audio channel signal.
  • the virtual sound field generator 80B localizes the third speaker group, which is a virtual sound source associated with each of the plurality of audio channel signals, to a predetermined position by the first reproduction sound, and uses the second reproduction sound.
  • the fourth speaker group which is a plurality of virtual sound sources different from the third speaker group and is associated with each of the plurality of audio channel signals, is localized at a predetermined position.
  • a sound field generation process is performed on the first audio signal and the second audio signal.
  • the virtual sound field generation unit 80B determines that the sound pressure values of the virtual sound sources included in the third speaker group and the fourth speaker group correspond to the audio channel signal corresponding to the virtual sound source and the audio channel signal. A sound field generation process is performed so as to obtain a sound pressure value obtained by multiplying the gain corresponding to. More specifically, the virtual sound field generation unit 80B is indicated by the first reproduction signal, indicated by the first sound localized at the first position among the first virtual sound image positions, and the second reproduction signal, A sound that is localized at the same position as the position and that is included in the first sound and the second reproduction signal and has substantially the same characteristics has a different sound pressure value at the listening position. As described above, the first reproduction signal and the second reproduction signal are generated. Details will be described later.
  • the virtual sound field generation unit 80B includes a sound pressure value adjustment unit 3 and a filter processing unit 70.
  • the sound pressure value adjustment unit 3 adjusts the sound pressure value by multiplying each of the plurality of audio channel signals by a corresponding gain.
  • the filter processing unit 70 performs filtering processing on the first audio signal so that the third speaker group is localized by the first reproduction sound, and filters the second audio signal so that the fourth speaker group is localized by the second reproduction sound. Apply processing.
  • the third speaker group and the fourth speaker group are localized at the same position.
  • the filter processing unit 70 changes the frequency amplitude response and the phase response for each of a plurality of audio channel signals constituting the first audio signal and the second audio signal. Since the specific processing content of the filter processing unit 70 is determined by the head related transfer function according to the related art described above, the details are omitted.
  • the filter processing unit 70 includes a near-ear speaker filter 4 and a front speaker filter 5.
  • the front speaker filter 5 filters the first audio signal so that the third speaker group (virtual sound source 11 to virtual sound source 15 to be described later) is localized at a predetermined position by the first reproduction sound. .
  • the near-ear speaker filter 4 filters the second sound signal so that the fourth speaker group (virtual sound source 21 to virtual sound source 25, which will be described later) is localized at a predetermined position by the second reproduced sound. Apply.
  • the positions of the third speaker group and the fourth speaker group are shifted in FIG. 10, but in reality, they may be localized at the same position corresponding to the audio channel signal or at different positions. May be. In the following description, a case where localization is performed at the same position will be described.
  • the first speaker group including the front L speaker 6 and the front R speaker 7, and the near-ear L speaker 8 and the near-ear R speaker 9 are connected via the audio signal reproduction device 100B configured as shown in FIG.
  • the listener 10 receives virtual FL speakers 11 and 21, virtual FR speakers 12 and 22, virtual SL speakers 13 and 23, virtual sound sources that do not exist. Reproduced sound is heard from the positions of the SR speakers 14 and 24 and the virtual C speakers 15 and 25.
  • the audio signal reproduction device 100B solves the above problem by setting a gain for each audio channel signal corresponding to the virtual sound field in the virtual sound field generation unit 80B.
  • FIG. 11 is a flowchart showing an example of the operation of the audio signal reproduction device 100B according to the present embodiment.
  • the acquisition unit 1 acquires an audio signal including a plurality of audio channel signals (S21).
  • the acquisition unit 1 processes and reproduces the acquired audio signal including the plurality of audio channel signals by the front speaker 51 and the near-ear speaker 52, respectively, so as to reproduce the two systems of audio signals composed of the same audio signal.
  • a signal (that is, a first audio signal and a second audio signal) is generated (S22).
  • the distance between the listener and the front speaker 51 and the distance between the listener and the near-ear speaker 52 are generated.
  • the gain of the signal value at the time may be changed, the gain of the signal value at the time of generation may be changed in consideration of the efficiency of the front speaker 51 and the near-ear speaker 52, or a plurality of audio channel signals
  • the gain of each signal value may be individually changed.
  • the signal value means a sound pressure value that is a value indicating the level of the sound pressure specified in the signal for each audio channel signal.
  • the gain may be changed so that the signal value increases as the distance between the listener 10 and the speaker increases. Further, the gain may be changed so that the signal value becomes larger as the efficiency of the speaker becomes worse.
  • the same audio signal is output from the two audio systems with signal values such that the output of the front speaker 51 and the output of the near-ear speaker 52 are equal in terms of hearing at the position of the listener 10. A case where a signal is generated will be described.
  • FIG. 12 shows the gain of each audio channel signal that is determined in advance for the front speaker and the near-ear speaker and stored in the sound pressure value adjusting unit 3 according to the present embodiment. More specifically, the gain of the 5ch audio signal (FL signal, FR signal, C signal, SL signal, and SR signal) output to the front speaker 51 and the 5ch audio signal (output to the near-ear speaker 52) ( (FL signal, FR signal, C signal, SL signal, and SR signal).
  • the gain is a sound pressure value included in each of the first sound signal and the second sound signal acquired by the sound pressure value adjusting unit 3 (hereinafter, this sound pressure value is also referred to as a predetermined sound pressure value).
  • this sound pressure value is also referred to as a predetermined sound pressure value.
  • the sound pressure value adjustment unit 3 uses the sound pressure value of the corresponding audio channel signal as it is (that is, the sound pressure value included in the audio signal acquired by the acquisition unit 1). Output.
  • the gain is 0, the sound pressure value adjustment unit 3 does not output the corresponding audio channel signal.
  • the gain exceeds 1 the sound pressure value adjustment unit 3 adjusts and outputs the sound pressure value of the corresponding audio channel signal so as to be larger than the sound pressure value originally included.
  • the gain exceeds 0 and is less than 1
  • the sound pressure value adjustment unit 3 adjusts the sound pressure value of the corresponding audio channel signal so as to be smaller than the sound pressure value originally included.
  • the sound pressure value adjustment unit 3 does not necessarily have to adjust the sound pressure value by a factor of two. For example, when an arbitrary real number is R and a gain value is G, the sound pressure value adjustment unit 3 may multiply the sound pressure value by G ⁇ R. Further, when the gain is 2, the sound pressure value may be a times the predetermined sound pressure value, and when the gain is 3, the sound pressure value may be b times the default sound pressure value. Here, a ⁇ b.
  • the gain value stored by the sound pressure value adjustment unit 3 may be any of an order scale, an interval scale, and a proportional scale.
  • Cases (1) to (6) corresponding to the respective columns in FIG. 12 represent cases in which the sound pressure values of the respective audio channel signals are adjusted by the respective gains and reproduced by the respective speakers.
  • Case (7) represents a combination of gains that is not set by the sound pressure value adjustment unit 3 in the present embodiment.
  • the FL signal, the FR signal, and the C signal are not reproduced because the gain is 0, and the SL signal and the SR signal are not reproduced. Is reproduced with a predetermined sound pressure value because the gain is 1. That is, the FL signal, the FR signal, and the C signal are output with a gain of 1 as the front speaker signal, and the SL signal and the SR signal are output with a gain of 1 as the near-ear speaker signal.
  • the FL signal, the FR signal, and the C signal for the front speaker signal and the SL signal and the SR signal for the near-ear speaker signal have the same gain of 1, they are output as signal values having the same gain magnitude. Is done.
  • the front speaker signal whose signal value has been adjusted in this way is output to the front speaker filter 5, and the near-ear speaker signal whose signal value has been adjusted is output to the near-ear speaker filter 4 (S24).
  • the generated sound field is shown in FIG.
  • the virtual FL speaker 30, the virtual FR speaker 31, and the virtual C speaker 32 are localized by the first reproduction sound reproduced from the front L speaker 6 and the front R speaker 7. Further, the virtual SL speaker 33 and the virtual SR speaker 34 are localized by the second reproduction sound reproduced from the near-ear L speaker 8 and the near-ear R speaker 9.
  • the actual speakers that generate such a sound field are the front L speaker 6, the front R speaker 7, the near-ear L speaker 8, and the near-ear R speaker 9, but the listener 10 can: The positions of the virtual FL speaker 30, the virtual FR speaker 31, and the virtual C speaker 32 that are localized by the speaker 6 and the front R speaker 7, and (2) the localization by the near-ear L speaker 8 and the near-ear R speaker 9.
  • the virtual sound source is perceived with equal signal values at the positions of the virtual SL speaker 33 and the virtual SR speaker 34.
  • the gains of the FL signal, FR signal, C signal, SL signal, and SR signal are all designated as 1 in each audio channel signal for front speakers.
  • 1 is specified for the gain of the FL signal, FR signal, and C signal
  • 2 is specified for the gain of the SL signal and SR signal. That is, as a front speaker signal, an FL signal, an FR signal, a C signal, an SL signal, and an SR signal are output with a gain of 1.
  • the FL signal, the FR signal, and the C signal are output with a gain of 1
  • the SL signal and the SR signal are output with a gain of 2.
  • the front speaker signal whose signal value has been adjusted in this way is output to the front speaker filter 5, and the near-ear speaker signal whose signal value has been adjusted is output to the near-ear speaker filter 4 (S24).
  • the generated sound field is shown in FIG.
  • the virtual FL speaker 40, the virtual FR speaker 41, the virtual C speaker 42, the virtual SL speaker 43, and the virtual SR speaker 44 are generated by the first reproduction sound reproduced from the front L speaker 6 and the front R speaker 7. I'll pan. Also, the virtual FL speaker 45, the virtual FR speaker 46, the virtual C speaker 47, the virtual SL speaker 48, and the virtual SR speaker 49 are generated by the second reproduction sound reproduced from the near-ear L speaker 8 and the near-ear R speaker 9. I'll pan.
  • the actual speakers that generate such a sound field are the front L speaker 6, the front R speaker 7, the near-ear L speaker 8, and the near-ear R speaker 9, but the listener 10 can: The positions of the virtual FL speaker 40, the virtual FR speaker 41, the virtual C speaker 42, the virtual SL speaker 43, and the virtual SR speaker 44, which are localized by the speaker 6 and the front R speaker 7, and (2) the near-ear L speaker 8,
  • the virtual sound source is perceived at the positions of the virtual FL speaker 45, the virtual FR speaker 46, the virtual C speaker 47, the virtual SL speaker 48, and the virtual SR speaker 49, which are localized by the near-ear R speaker 9.
  • the gain of the signal value used to localize the virtual SL speaker 48 and the virtual SR speaker 49 by the near-ear L speaker 8 and the near-ear R speaker 9 is “2”, particularly the near-ear speaker 52.
  • the perception of the virtual sound source behind can be emphasized.
  • “2” is designated as the gain of the FL signal, the FR signal, and the C signal in each audio channel signal for the front speaker. Further, “1” is designated for the gains of the SL signal and the SR signal. Similarly, in each audio channel signal for the near-ear speaker, “1” is designated as the gain of the FL signal, the FR signal, and the C signal. In addition, “2” is designated as the gain of the SL signal and the SR signal.
  • the FL signal, the FR signal, and the C signal are output with the gain “2”, and the SL signal and the SR signal are output with the gain “1”. Further, as the near-ear speaker signal, the FL signal, the FR signal, and the C signal are output with a gain “1”, and the SL signal and the SR signal are output with a gain “2”.
  • the front speaker signal whose signal value is adjusted in this way is output to the front speaker filter 5, and the near-ear speaker signal whose signal value is adjusted is output to the near-ear speaker filter 4 (S24). )
  • the generated sound field is shown in FIG.
  • the virtual FL speaker 50, the virtual FR speaker 51, the virtual C speaker 52, the virtual SL speaker 53, and the virtual SR speaker 54 are generated by the first reproduction sound reproduced from the front L speaker 6 and the front R speaker 7. I'll pan. Also, the virtual FL speaker 55, the virtual FR speaker 56, the virtual C speaker 57, the virtual SL speaker 58, and the virtual SR speaker 59 are generated by the second reproduction sound reproduced from the near-ear L speaker 8 and the near-ear R speaker 9. I'll pan.
  • the actual speakers that generate such a sound field are the front L speaker 6, the front R speaker 7, the near-ear L speaker 8, and the near-ear R speaker 9, but the listener 10 can: The positions of the virtual FL speaker 50, the virtual FR speaker 51, the virtual C speaker 52, the virtual SL speaker 53, and the virtual SR speaker 54, which are localized by the speaker 6 and the front R speaker 7, and (2) the near-ear L speaker 8,
  • the virtual sound source is perceived at the positions of the virtual FL speaker 55, the virtual FR speaker 56, the virtual C speaker 57, the virtual SL speaker 58, and the virtual SR speaker 59 that are localized by the R speaker 9 near the ear.
  • the gains of signal values used for localizing the SL speaker 58 and the virtual SR speaker 59 are both “2”. Therefore, it is possible to emphasize the perception of the virtual sound source in front of the listener 10 that is localized by the front speaker 51 and the virtual sound source in the rear of the listener 10 that is localized by the near-ear speaker 52.
  • “2” is designated as the gain of the FL signal, the FR signal, and the C signal in each audio channel signal for the front speaker
  • the gain of the SL signal and the SR signal is designated as the gain of the SL signal and the SR signal.
  • “1” is designated.
  • “1” is designated as the gain of the FL signal, the FR signal, the C signal, the SL signal, and the SR signal. That is, as the front speaker signal, the FL signal, the FR signal, and the C signal are output with a gain “2”, and the SL signal and the SR signal are output with a gain “1”. Further, the FL signal, the FR signal, the C signal, the SL signal, and the SR signal are output with a gain “1” as the near-ear speaker signal.
  • the front speaker signal whose signal value is adjusted in this way is output to the front speaker filter 5, and the near-ear speaker signal whose signal value is adjusted is output to the near-ear speaker filter 4 ( S24)
  • the generated sound field is shown in FIG.
  • the virtual FL speaker 60, the virtual FR speaker 61, the virtual C speaker 62, the virtual SL speaker 63, and the virtual SR speaker 64 are generated by the first reproduction sound reproduced from the front L speaker 6 and the front R speaker 7. I'll pan. Also, the virtual FL speaker 65, the virtual FR speaker 66, the virtual C speaker 67, the virtual SL speaker 68, and the virtual SR speaker 69 are generated by the second reproduction sound reproduced from the near-ear L speaker 8 and the near-ear R speaker 9. I'll pan.
  • the actual speakers that generate such a sound field are the front L speaker 6, the front R speaker 7, the near-ear L speaker 8, and the near-ear R speaker 9, but the listener 10 can: The positions of the virtual FL speaker 60, the virtual FR speaker 61, the virtual C speaker 62, the virtual SL speaker 63, and the virtual SR speaker 64, which are localized by the speaker 6 and the front R speaker 7, and (2) the near-ear L speaker 8,
  • the virtual sound source is perceived at the positions of the virtual FL speaker 65, the virtual FR speaker 66, the virtual C speaker 67, the virtual SL speaker 68, and the virtual SR speaker 69 that are localized by the R speaker 9 near the ear.
  • the front virtual speaker 51 in particular has a virtual front.
  • the perception of the sound source can be emphasized.
  • Cases (1) to (6) shown in FIGS. 13 to 16, respectively, show examples of gains in the audio signal reproduction device 100B according to the present embodiment, and signals of audio channel signals for the respective speakers.
  • the gain for the value is not limited to this.
  • the virtual sound field generator 80B includes (1) a gain of an audio channel signal corresponding to a first virtual sound source that is at least one virtual sound source included in the third speaker group, and (2) The first audio signal and the second audio so that the gain of the audio channel signal corresponding to the virtual sound source that is at least one virtual sound source included in the fourth speaker group and is localized at the same position as the first virtual sound source is different.
  • the signal may be subjected to sound field generation processing.
  • the virtual sound field generation unit 80B includes a gain of an audio channel signal corresponding to at least one virtual sound source included in at least one of the third speaker group and the fourth speaker group. And the sound field generation processing may be performed so that the gain of the audio channel signal corresponding to another virtual sound source included in the speaker group is different.
  • gain “1” is designated for all audio channel signals included in the audio signal for the front speaker.
  • a gain “2” is specified for all audio channel signals included in the audio signal for the near-ear speaker. That is, all the audio channel signals in the first audio signal have the same gain and all the audio channel signals in the second audio signal have the same gain, but the first audio signal and the second audio signal have corresponding audio.
  • the virtual sound field generation unit 80B may perform sound field generation processing so that the gains of the channel signals are different.
  • the gain of the audio channel signal included in the audio signal for the front speaker is designated as gain 2 for the C signal and designated as gain 1 for the other signals.
  • the gain of the audio channel signal included in the audio signal for the near-ear speaker is designated as gain 2 for the C signal and designated as gain 1 for the other signals. That is, the gains of the corresponding audio channel signals are the same between the first audio signal and the second audio signal, but the gains of all the audio channel signals included in the first audio signal are not the same, and the gains in the second audio signal are not the same.
  • the virtual sound field generation unit 80B may perform sound field generation processing so that the gains of all audio channel signals included in are not the same.
  • FIG. 12 shows the gain used by the audio signal reproduction device according to the related art. That is, the audio signal reproduction device according to the related art does not include the sound pressure value adjustment unit 3 and outputs the audio channel signal without setting the gain.
  • case (3) is most preferable.
  • the virtual sound field generation unit 80B has the gain of the audio channel signal corresponding to the virtual sound source localized in front of the listener 10 among the plurality of virtual sound sources included in the third speaker group behind the listener 10. It is preferable that the sound field generation processing is performed on the first audio signal so as to be larger than the gain of the audio channel signal corresponding to the localized virtual sound source.
  • the virtual sound field generation unit 80B has the sound pressure value of the sound localized in the front of the listener among the sounds localized in the first virtual sound image position, the sound pressure value of the sound localized in the rear of the listener. It is preferable to generate the first reproduction signal so as to be larger.
  • the virtual sound source localized in front of the listener 10 can be localized more accurately by using the first reproduction sound of the first speaker group 51 which is a speaker installed in front of the listener 10. This is because it can.
  • the virtual sound field generation unit 80B has a gain of an audio channel signal corresponding to a virtual sound source localized behind the listener 10 among the plurality of virtual sound sources included in the fourth speaker group in front of the listener 10. It is preferable to perform the sound field generation process on the second audio signal so that the gain of the audio channel signal corresponding to the virtual sound source to be localized becomes larger.
  • the virtual sound field generation unit 80B has the sound pressure value of the sound localized at the rear of the listener among the sounds localized at the second virtual sound image position, and the sound pressure value of the sound localized at the front of the listener. It is preferable to generate the second reproduction signal so as to be larger.
  • the virtual sound source that is localized behind the listener 10 is localized more accurately with the second reproduced sound of the second speaker group 52 that is a speaker installed in the vicinity of the listener's 10 ear. It is because it can do.
  • the virtual sound field generation unit 80B can generate a virtual sound field by changing the gain for each audio channel signal corresponding to the localized virtual sound source. That is, for each virtual sound source, the sound pressure value of the sound reproduced from the virtual sound source can be changed, and the gain balance as the entire virtual sound field can be adjusted. As a result, it is possible to suppress the bias and separation of the sound field due to the virtual sound images generated by the first speaker group and the second speaker group.
  • the audio signal reproducing device 100B uses the second speaker group 52 to localize a virtual sound source that should be localized particularly behind the listener 10. Can be made. Thereby, the audio signal reproduction device 100B can improve the localization accuracy of the rear virtual sound image as compared with the front virtual surround system using only the front speaker whose localization accuracy of the rear virtual sound source is weak.
  • the audio signal reproduction device 100B is a first speaker that is a virtual sound source that is located in front of the listener 10 and is positioned in front of the listener 10.
  • the sound source is localized by the speaker group 51, and the sound source is localized by the second speaker group 52, which is a speaker installed near the ear of the listener 10, so that a more accurate sound field is localized. be able to.
  • the sound pressure value adjustment unit 3 may determine a gain to be used in accordance with an instruction from the listener 10 acquired through a separately provided user interface (not shown). For example, which case to use among the cases (1) to (6) shown in FIG. 12 may be determined by an instruction from the listener 10. Further, the listener 10 may input the gain of each audio channel signal through a user interface (not shown), and store it in the sound pressure value adjustment unit 3 as a new case.
  • the gain value associated with each audio channel signal as shown in FIG. 12 does not necessarily have to be stored in the sound pressure value adjustment unit 3, for example, an external storage in which the gain is stored.
  • the sound pressure value adjusting unit 3 may acquire the medium.
  • the sound pressure value adjustment unit 3 can be implemented using a plurality of amplifiers (so-called amplifiers).
  • FIG. 17 is a block diagram showing an example of a more detailed configuration of the sound pressure value adjustment unit 3 according to the present embodiment.
  • the sound pressure value adjustment unit 3 having a function capable of variably controlling the signal value according to the gain of the audio channel signal for each speaker has a signal value corresponding to the gain of the audio channel signal for each speaker.
  • the amplifier 421 and the amplifier 422 may be variably controlled.
  • the amplifier 421 and the amplifier 422 are specifically electronic circuits that amplify and output any one of voltage, current, and power of the input signal.
  • the virtual sound field generation unit 80 ⁇ / b> B includes the sound pressure value adjustment unit 3 before the filter processing unit 70, and the first sound in which the sound pressure value is adjusted by the sound pressure value adjustment unit 3.
  • the filter processing unit 70 is configured to perform sound field generation processing on each of the signal and the second audio signal.
  • the audio signal reproduction device 100B may not necessarily include the sound pressure value adjustment unit 3 as a separate processing unit before the filter processing unit 70.
  • FIG. 18 is a block diagram showing a more detailed configuration of an audio signal reproduction device according to a modification of the present embodiment.
  • the acquisition unit 1 generates two types of audio signals, a near-ear speaker signal and a front speaker signal, from an audio signal composed of a plurality of audio channel signals, and a filter processing unit 70. Output to.
  • the sound pressure value adjustment unit 3 is incorporated in the filter processing unit 70.
  • the sound pressure value adjustment unit 3 in the present modification is not implemented as an electronic circuit, but as software, similar to the near-ear speaker filter 4 and the front speaker filter 5.
  • the gain of the filter coefficient itself corresponding to each audio channel signal included in each of the near-ear speaker filter 4 and the front speaker filter 5 is matched with the gain stored in the sound pressure value adjustment unit 3. adjust.
  • the sound pressure value adjusting unit 3 is a sound pressure value of each audio channel signal among the elements included in the matrix representing the filter coefficient of each of the near-ear speaker filter 4 and the front speaker filter 5. It is only necessary to perform a calculation process such as multiplying a corresponding gain value only for an element corresponding to.
  • the sound pressure value adjustment unit 3 has the same effect regardless of whether the sound pressure value adjustment unit 3 is provided before the filter processing unit 70 or as a part of the configuration of the filter processing unit 70. .
  • the audio signal reproduction device 100B by appropriately controlling the output sound pressure levels of the front speaker 51 and the near-ear speaker 52 according to a desired sound field, The localization accuracy of the virtual sound source generated from each speaker can be controlled. As a result, it is possible to suppress a sense of incongruity in the sense of hearing such as separation and bias of the sound field, enhance the localization accuracy of a desired direction, and generate a sound field that emphasizes backward localization by a virtual sound source, for example. As a result, the sound image can be localized more accurately.
  • the virtual sound field generation unit is indicated by the first reproduction signal, and is indicated by the first sound localized at the first position among the first virtual sound image positions and the second reproduction signal, and substantially the same position as the first position.
  • the first reproduction signal and the second reproduction signal are generated such that at least one of the phase and the sound pressure value is different at the listening position between the second sound and the second sound that is substantially the same as the first sound. Good.
  • the phase is controlled rather than the sound pressure value, the localization of the sound image position can be made more accurate, but the cost becomes higher. Therefore, a more appropriate configuration of the audio signal reproduction device may be determined in consideration of the accuracy and cost of the sound image.
  • Each functional block shown in the block diagrams is typically realized as an LSI that is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • the functional blocks other than the memory may be integrated into one chip.
  • LSI is used, but depending on the degree of integration, it may be called IC, system LSI, super LSI, or ultra LSI.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • only the means for storing the data to be encoded or decoded may be configured separately instead of being integrated into one chip.
  • FIG. 19 is a block diagram illustrating a hardware configuration of a computer system that implements an audio signal reproduction device.
  • the audio signal reproduction apparatus includes a computer 734, a keyboard 736 and a mouse 738 for giving instructions to the computer 734, a display 732 for presenting information such as calculation results of the computer 734, and a program executed by the computer 734.
  • a CD-ROM (Compact Disc-Read Only Memory) device 740 and a communication modem 752 for reading are included.
  • a program that is a process performed by the audio signal reproduction device is stored in a CD-ROM 742 that is a computer-readable medium, and is read by the CD-ROM device 740.
  • the data is read by the communication modem 752 through a computer network.
  • the computer 734 includes a CPU (Central Processing Unit) 744, a ROM (Read Only Memory) 746, a RAM (Random Access Memory) 748, a hard disk 750, a communication modem 752, and a bus 754.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 744 executes the program read via the CD-ROM device 740 or the communication modem 752.
  • the ROM 746 stores programs and data necessary for the operation of the computer 734.
  • the RAM 748 stores data such as parameters at the time of program execution.
  • the hard disk 750 stores programs and data.
  • the communication modem 752 communicates with other computers via a computer network.
  • the bus 754 connects the CPU 744, ROM 746, RAM 748, hard disk 750, communication modem 752, display 732, keyboard 736, mouse 738, and CD-ROM device 740 to each other.
  • a part or all of the constituent elements constituting each of the above devices may be constituted by an IC card or a single module that can be attached to and detached from each device.
  • the IC card or module is a computer system that includes a microprocessor, ROM, RAM, and the like.
  • the IC card or the module may include the super multifunctional LSI described above.
  • the IC card or the module achieves its function by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.
  • the present invention may be the method described above. Further, the present invention may be a computer program that realizes these methods by a computer, or may be a digital signal composed of the computer program.
  • the present invention provides a recording medium capable of reading the computer program or the digital signal, such as a flexible disk, a hard disk, a CD-ROM, an MO, a DVD, a DVD-ROM, a DVD-RAM, a BD (Blu-ray Disc). (Registered trademark)), a memory card such as a USB memory or an SD card, or a semiconductor memory. Further, the digital signal may be recorded on these recording media.
  • a recording medium capable of reading the computer program or the digital signal, such as a flexible disk, a hard disk, a CD-ROM, an MO, a DVD, a DVD-ROM, a DVD-RAM, a BD (Blu-ray Disc). (Registered trademark)), a memory card such as a USB memory or an SD card, or a semiconductor memory.
  • the digital signal may be recorded on these recording media.
  • the present invention may also be a computer system including a microprocessor and a memory, in which the memory stores the computer program, and the microprocessor operates according to the computer program.
  • program or the digital signal is recorded on the recording medium and transferred, or the program or the digital signal is transferred via the network or the like and executed by another independent computer system. You may do that.
  • the present invention can be applied to a device that can reproduce a music signal and includes a device that drives two or more pairs of speakers, and is particularly applicable to a surround system, a TV, an AV amplifier, a component, a mobile phone, a portable audio device, and the like. it can.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

 本発明に係る音声信号再生装置(100)は、音声信号を取得する取得部(1)と、音声信号に対して信号処理を行い、第1仮想音像位置に音が定位する第1スピーカ群(51)用の第1再生信号、及び第1仮想音像位置と略同一の第2仮想音像位置に音が定位する第2スピーカ群(52)用の第2再生信号を生成する仮想音場生成部(80)とを備え、仮想音場生成部(80)は、第1再生信号により示され、第1仮想音像位置のうち第1位置に定位する第1音と、第2再生信号により示され、第1位置と略同一位置に定位し、かつ、第1音と略同一の第2音とが、受聴位置において、位相及び音圧値の少なくとも一方が異なるように、第1再生信号および第2再生信号を生成する。

Description

音声信号再生装置、音声信号再生方法
 本発明は、頭部伝達関数を用いた音像定位処理を行う音響信号処理技術に関し、特に受聴位置前方に設置したスピーカ(以後、「フロントスピーカ」と呼ぶ)と耳近傍に設置したスピーカ(以後、「耳近傍スピーカ」と呼ぶ)とを用いて所望の位置に仮想音像定位を実現する機能を有する音声信号再生装置及び音声信号再生方法に関する。
 仮想音像定位技術において、頭部伝達関数(HRTF:Head-Related Transfer Function)を用いて受聴者の前方及び後方の仮想音像定位を実現する手法がある。この手法では次のようにして仮想音像を生成する。
 まず、仮想音像(以後、仮想音源ともいう)を定位させたい位置に測定用スピーカを設置し、この測定用スピーカから受聴者の外耳道入り口までの頭部伝達関数を測定する。こうして測定されたこの頭部伝達関数を目標特性とする。
 続いて、再生音源を再生することにより、仮想音像を定位させるために用いる再生スピーカから受聴位置までの頭部伝達関数を測定する。こうして測定されたこの頭部伝達関数を再生特性とする。
 ここで、仮想音像を定位させたい位置に設置した測定用スピーカは、目標特性を測定することにのみ用いられる。結果として、以後、受聴者が再生音源を再生する際には使用されない。すなわち、再生スピーカのみが再生音源を再生することで仮想音源を定位させるために用いられる。
 そして、目標特性と再生特性を用いて仮想音像定位のための頭部伝達関数を算出する。算出される頭部伝達関数をフィルタ特性とする。このフィルタ特性を再生音源に畳み込むことで、仮想的なスピーカから音が出力されているように聴き取れる再生音源を生成することができる。
 このように仮想音像を生成する際に、再生音源を再生するために用いる再生スピーカとしては、(1)フロントバーチャルサラウンドシステムに代表されるように受聴者前方に設置されるフロントスピーカを使用する場合、(2)ヘッドホンバーチャルサラウンドシステムに代表されるように耳近傍に設置される耳近傍スピーカを使用する場合、または、(3)これら両方を組み合わせて受聴者前方に設置されたフロントスピーカと受聴者の耳近傍に設置された耳近傍スピーカとを併用する場合がある。
 フロントスピーカと耳近傍スピーカとを併用するシステムが、特許文献1及び特許文献2等に開示されている。
 例えば、特許文献1には、機能拡張端子を有するゲーム機本体が記載されている。この機能拡張端子は、音声出力機能を備える。また、ゲーム機本体はスピーカを備えるテレビジョン受像機に接続される。このゲーム機本体は、テレビジョン受像機から音声を出力させるとともに、機能拡張端子に接続されるヘッドホンから音声を出力させる。
 また、このゲーム機本体は、スピーカから音声を再生し、その音波が受聴者に到達するまでの時間遅延をヘッドホン再生信号に与える機能を有する。つまり、ゲーム機本体はスピーカからの音声とヘッドホンからのヘッドホン再生信号が受聴者に同時に聞こえるように調整を行う。
 上記のように構成することで、ユーザはテレビジョン受像機からの音声と、ヘッドホンからの音声を同時に受聴することができるため、今まで以上の臨場感を持った音声の再現、創出ができる。さらに、ヘッドホン再生信号に時間遅延を与えることにより、音像定位位置を受聴者に近づけたり、離したりできる。
 また、特許文献2では、フロントスピーカと耳近傍スピーカとを併用することにより、特に後方に定位するオーディオチャンネルの定位精度を改善する技術が示されている。
特許第4348886号公報 特開2006-345480号公報
 しかしながら、従来技術においては、仮想音像が定位する位置が不明確であるという課題がある。
 そこで本発明は、仮想音像をより正確な位置に定位させることが可能な音声信号再生装置を提供することを目的とする。
 上記従来の課題を解決するため、本発明の一形態である音声信号再生装置は、受聴者の周囲に配置される複数のスピーカである第1スピーカ群と、当該第1スピーカ群よりも前記受聴者に近い位置に配置される複数のスピーカである第2スピーカ群とのそれぞれに対して、複数のオーディオチャンネル毎に定位すべき仮想音像位置を示す位置情報が含まれる音声信号を再生する音声信号再生装置であって、前記音声信号を取得する取得部と、前記音声信号に対して信号処理を行い、第1仮想音像位置に音が定位する前記第1スピーカ群用の第1再生信号、及び前記第1仮想音像位置と略同一の第2仮想音像位置に音が定位する前記第2スピーカ群用の第2再生信号を生成する仮想音場生成部とを備え、前記仮想音場生成部は、前記第1再生信号により示され、前記第1仮想音像位置のうち第1位置に定位する第1音と、前記第2再生信号により示され、前記第1位置と略同一位置に定位し、かつ、前記第1音と略同一の第2音とが、受聴位置において、位相及び音圧値の少なくとも一方が異なるように、前記第1再生信号および前記第2再生信号を生成する。
 これによると、音声信号再生装置は、第1スピーカ群と第2スピーカ群とでそれぞれ同じ仮想音像を生成する際に生じる、両スピーカ群間におけるズレを抑制することができる。したがって、仮想音像をより正確な位置に定位させることができる。
 また、前記仮想音場生成部は、前記略同一の特徴を有する2つの音の受聴時刻が所定の範囲内の時間だけ異なるように、前記第1再生信号を前記第1スピーカ群から出力する出力時刻および前記第2再生信号を前記第2スピーカ群から出力する出力時刻を調整するとしてもよい。
 この構成によると、音声信号再生装置100は、第1スピーカ群から音を出力するタイミングおよび、第2スピーカ群から音を出力するタイミングを調整するころにより、事前に定められた範囲内の微少時間だけずれて再生音が受聴者に到達するように制御することができる。したがって、受聴者は、先行音効果が生じた2つの音を受聴することになる。その結果、受聴者は、受聴するタイミングがずれているにもかかわらず、後に到達した音により定位する仮想の音場が、先に到達した音により定位した仮想の音場と一致するように聞こえる。さらに、受聴者は、後に到達した音よりも先に到達した音を強く意識する。よって、フロントスピーカと耳近傍スピーカとで生成する仮想の音場において生じる、音場の分離、偏り、またはぼやけによる聴感上の違和感を抑制するとともに、フロントスピーカから音を出力する際のメリットまたは、耳近傍スピーカから音を出力する際のメリットを活用できる。
 また、前記仮想音場生成部は、前記第1音が、前記第2音よりも前記所定の範囲の時間だけ先に前記受聴位置に到達するよう、前記第1再生信号および前記第2再生信号を生成するとしてもよい。
 この構成によると、第1スピーカ群で再生された音が、仮想音場の定位に、より大きく寄与するようになる。その結果、音声信号再生装置100は、より優れた距離感を定位させることができる。
 また、前記仮想音場生成部は、前記第2音が、前記第1音よりも前記所定の範囲の時間だけ先に前記受聴位置に到達するよう、前記第1再生信号および前記第2再生信号を生成するとしてもよい。
 この構成によると、第2スピーカ群で再生された音が、仮想音場の定位に、より大きく寄与するようになる。その結果、音声信号再生装置100は、より優れた方向感を定位させることができる。
 また、前記第1位置が、前記受聴者の後方である場合、前記仮想音場生成部は、前記第2音が、前記第1音よりも先に前記受聴位置に到達するよう前記第1再生信号および前記第2再生信号を生成するとしてもよい。
 この構成によると、受聴者の後方に音像が定位する音であって、第1再生信号および第2再生信号のそれぞれに含まれる略同一の特徴を有する音を、第2スピーカ群から先に出力することができる。このようにすることで、受聴者は後方に音像が定位する音については、第2スピーカ群から出力される音を強く意識することになる。その結果、第1スピーカ群および第2スピーカ群から音を聞いているにもかかわらず、受聴者は後方の音については音像定位位置の方向をより明確に認識することができる。
 また、前記第1位置が、前記受聴者の前方である場合、前記仮想音場生成部は、前記第1音が、前記第2音よりも先に前記受聴位置に到達するよう前記第1再生信号および前記第2再生信号を生成するとしてもよい。
 この構成によると、受聴者の前方に音像が定位する音であって、第1再生信号および第2再生信号のそれぞれに含まれる略同一の特徴を有する音を、第1スピーカ群から先に出力することができる。このようにすることで、受聴者は前方に音像が定位する音については、第1スピーカ群から出力される音を強く意識することになる。その結果、第1スピーカ群および第2スピーカ群から音を聞いているにもかかわらず、受聴者は前方の音については音像定位位置の距離をより明確に認識することができる。
 具体的には、前記所定の範囲は、0ミリ秒を超え、かつ、20ミリ秒未満であるとしてもよい。
 また、前記仮想音場生成部は、さらに、前記複数のオーディオチャンネルの各々に、対応するゲインを乗じることにより前記音圧値を調整する音圧値調整部を有するとしてもよい。
 この構成によると、仮想音場生成部は、定位する仮想音源に対応するオーディオチャンネル信号ごとにゲインを変更し、仮想音場を生成することができる。すなわち、仮想音源ごとに、仮想音源から再生される音の音圧値を変更し、仮想音場全体としてのゲインバランスを調整することが可能となる。その結果、第1スピーカ群と第2スピーカ群で生成される仮想音像による音場の偏りや分離を抑えることができる。
 また、前記仮想音場生成部は、前記第1仮想音像位置に定位する音のうち、前記受聴者の前方に定位する音の音圧値が、前記受聴者の後方に定位する音の音圧値よりも大きくなるように、前記第1再生信号を生成するとしてもよい。
 また、前記仮想音場生成部は、前記第2仮想音像位置に定位する音のうち、前記受聴者の後方に定位する音の音圧値が、前記受聴者の前方に定位する音の音圧値よりも大きくなるように、前記第2再生信号を生成するとしてもよい。
 なお、本発明は、音声信号再生装置として実現できるだけでなく、音声信号再生装置を構成する処理手段をステップとする音声信号再生方法として実現したり、それらステップをコンピュータに実行させるプログラムとして実現したり、そのプログラムを記録したコンピュータ読み取り可能なCD-ROMなどの記録媒体として実現したり、そのプログラムを示す情報、データ又は信号として実現したりすることもできる。そして、それらプログラム、情報、データ及び信号は、インターネット等の通信ネットワークを介して配信してもよい。
 さらに、本発明は、このような音声信号再生装置の機能の一部又は全てを実現する半導体集積回路(LSI)として実現したり、このような音声信号再生装置を含む音声信号再生システムとして実現したりできる。
 以上より、仮想音像の位置をより正確に定位させることが可能な音声信号再生装置を提供できる。
図1は、実施の形態1及び2に係る音声信号再生装置の構成を示すブロック図である。 図2は、実施の形態1に係る音声信号再生装置の構成を示すブロック図である。 図3は、スピーカ群と受聴者との位置関係の一例を示す図である。 図4は、先行音効果を説明するための概念図である。 図5は、実施の形態に係る音声信号再生装置の動作の一例を示すフローチャートである。 図6は、実施の形態及び変形例に係る音声信号再生装置において、各スピーカで再生するあるオーディオチャンネルの信号値の遅延を表す図である。 図7は、実施の形態及び変形例に係る2つのスピーカ群からの音の到達の先後が音場定位に与える影響を示す図である。 図8は、実施の形態1及びその変形例に係る音声信号再生装置において、実現される音場を表す図である。 図9は、実施の形態1及びその変形例に係る音声信号再生装置の他の例を示す図である。 図10は、実施の形態2に係る音声信号再生装置の構成を示すブロック図である。 図11は、実施の形態2に係る音声信号再生装置の動作の一例を示すフローチャートである。 図12は、実施の形態2及びその変形例に係る音声信号再生装置において、各スピーカで再生する各オーディオチャンネル信号の信号値のゲインを表す図である。 図13は、実施の形態2及びその変形例に係る音響信号処理装置のケース(1)で実現される音場を表す図である。 図14は、実施の形態2及びその変形例に係る音響信号処理装置のケース(2)で実現される音場を表す図である。 図15は、実施の形態2及びその変形例に係る音響信号処理装置のケース(3)で実現される音場を表す図である。 図16は、実施の形態2及びその変形例に係る音響信号処理装置のケース(4)で実現される音場を表す図である。 図17は、実施の形態2に係る音声信号再生装置のより詳細な構成の一例を示す図である。 図18は、実施の形態2の変形例に係る音声信号再生装置のより詳細な構成を示す図である。 図19は、実施の形態1及び2並びに変形例にかかる音声信号再生装置を実現するコンピュータシステムのハードウェア構成を示すブロック図である。
 (本発明の基礎となった知見)
 本発明者は、「背景技術」の欄において記載した仮想音像定位技術に関し、以下の問題が生じることを見出した。
 一般的に、フロントスピーカを用いるフロントバーチャルサラウンドシステムは、受聴者の前方に定位するオーディオチャンネル(すなわち、仮想音像)の定位精度はよいことが知られている。しかし、このサラウンドシステムの場合、受聴者の後方に定位するオーディオチャンネルは定位精度が悪い。一方、耳近傍スピーカを用いるバーチャルサラウンドシステムは、オーディオチャンネルの方向については定位精度がよいことが知られている。しかし、特に受聴者の前方に定位するオーディオチャンネルの距離感が適切に再現できない。具体的には、目標位置よりも受聴者に近い位置に定位する傾向にある。
 引用文献1の場合、受聴者は、スピーカからの音声とヘッドホンからのヘッドホン再生信号を同時に聞くことになる。そのため、上記に記載したフロントスピーカにおけるメリットまたは耳近傍スピーカのメリットを活用することが難しい。その結果、仮想音像の定位位置が不正確になる。
 また、フロントスピーカと耳近傍スピーカとの各々が、同じ位置に仮想音像を定位させることにより、仮想音像により形成される音場に偏りが発生して不自然な音場になってしまう。また、フロントスピーカ、もしくは耳近傍スピーカのどちらか一方の出力音圧レベルが極端に大きいと、一方のスピーカからの仮想音像が支配的になり、音場の分離が発生してしまう。その結果、やはり仮想音像の定位位置が不正確になる。
 本発明は、上記課題を解決することにより、仮想音像をより正確な位置に定位させることが可能な音声信号再生装置を提供することを目的とする。
 以下、図面を参照しながら、本発明の実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 (実施の形態1)
 図1は、本実施の形態に係る音声信号再生装置100の機能ブロックを示す。
 音声信号再生装置100は、受聴者10の周囲に配置される複数のスピーカである第1スピーカ群51と、当該第1スピーカ群よりも前記受聴者に近い位置に配置される複数のスピーカである第2スピーカ群52とのそれぞれに対して、複数のオーディオチャンネル毎に定位すべき仮想音像位置を示す位置情報が含まれる音声信号を再生する。
 図1に示される様に、音声信号再生装置100は、取得部1と、仮想音場生成部80とを備える。
 取得部1は、音源から音声信号を取得し、2つの音声信号に分配する。
 仮想音場生成部80は、音声信号に対して信号処理を行い、第1仮想音像位置に音が定位する第1スピーカ群51用の第1再生信号、及び第1仮想音像位置と略同一の第2仮想音像位置に音が定位する第2スピーカ群52用の第2再生信号を生成する。ここで、仮想音場生成部80は、第1再生信号により示され、第1仮想音像位置のうち第1位置に定位する第1音と、第2再生信号により示され、第1位置と略同一位置に定位し、かつ、第1音と略同一の第2音とが、受聴位置において、位相及び音圧値の少なくとも一方が異なるように、第1再生信号および第2再生信号を生成する。
 以下、受聴位置において、第1音と第2音との位相が異なるように、仮想音場生成部80が第1再生信号及び第2再生信号を生成する具体例を、実施の形態1としてより詳細に説明する。
 図2は、本実施の形態に係る音声信号再生装置100Aの構成を示すブロック図である。
 本実施の形態に係る音声信号再生装置100Aは、受聴者の周囲に配置される複数のスピーカである第1スピーカ群51と、第1スピーカ群51よりも受聴者に近い位置に配置される複数のスピーカである第2スピーカ群52とに対して音場生成処理が施された音声信号を出力する音声信号再生装置である。
 図2に示されるように、音声信号再生装置100Aは、取得部1、及び仮想音場生成部80Aを備える。
 取得部1は、複数のオーディオチャンネル信号を含む音声信号を取得する。本実施の形態では、5ch(チャンネル)の音声信号(すなわち、5つのオーディオチャンネル信号を含む音声信号)を例に説明するが、オーディオチャンネル信号の数はこれに限られない。例えば、2ch、4ch、又は、7chなど、任意のオーディオチャンネル信号を含む音声信号を入力とすることができる。
 取得部1は、また、取得した音声信号を分配し、第1スピーカ群51で第1再生音として再生するための第1音声信号と、第2スピーカ群52で第2再生音として再生するための第2音声信号とを生成する。
 仮想音場生成部80Aは、第1音声信号及び第2音声信号に対してそれぞれ信号処理を行い、第1仮想音像位置に音が定位する第1スピーカ群用の第1再生信号および第2仮想音像位置に音が定位する第2スピーカ群用の第2再生信号を生成する。ここで、仮想音場生成部80Aは、第1再生信号により示され、第1仮想音像位置のうち第1位置に定位する第1音と、第2再生信号により示され、第1位置と略同一位置に定位し、かつ、第1音と略同一の第2音とが、受聴位置において位相が異なるように、第1再生信号および第2再生信号を生成する。以後、仮想音場生成部80Aによる信号処理が施された第1音声信号を、第1再生信号ともいう。また、仮想音場生成部80Aによって信号処理が施された第2音声信号を、第2再生信号ともいう。
 なお、略同一の特徴を有する2つの音とは、同一の特徴を有する2つの音を含んでもよい。また、特徴とは音の周波数及び振幅の値などを意味し、以後、略同一の特徴を有する2つの音を、「同じ音」ともいう。
 具体的には、仮想音場生成部80Aは、略同一の特徴を有する2つの音の受聴時刻が所定の範囲内の時間だけ異なるように、第1再生信号を第1スピーカ群51から出力する出力時刻および第2再生信号を第2スピーカ群52から出力する出力時刻を調整する。
 例えば、仮想音場生成部80Aは、第1音が、第2音よりも所定の範囲の時間だけ先に受聴者10の受聴位置に到達するよう、第1再生信号および第2再生信号を生成してもよい。
 または、仮想音場生成部80Aは、第2音が、第1音よりも所定の範囲の時間だけ先に受聴者10の受聴位置に到達するよう、第1再生信号および第2再生信号を生成してもよい。
 より詳細には、仮想音場生成部80Aは、出力時間差制御部3と、フィルタ処理部70とを有する。
 出力時間差制御部3は、第1音と、第2音とが、事前に定められた時間だけ異なる時刻に受聴者10へ到達するように、第1再生信号と第2再生信号との出力時間の差を制御する。
 なお、仮想音場生成部80Aは、第1音が第2音よりも先に受聴者10に到達するように音場生成処理を施してもよく、逆に、第2音が第1音よりも先に受聴者10に到達するように音場生成処理を施してもよい。すなわち、出力時間差制御部3は、第1音が第2音よりも先に受聴者10に到達するように出力時間の差を制御してもよく、逆に、第2音が第1音よりも先に受聴者10に到達するように出力時間の差を制御してもよい。
 フィルタ処理部70は、第1再生音により定位する第3スピーカ群と、第2再生音により定位する第4スピーカ群とが、事前に定められた同じ位置に定位するように、第1音声信号及び第2音声信号にフィルタ処理を施す。
 例えば、本実施の形態におけるフィルタ処理部70は、5chの第1音声信号を2chへ変換し、第1スピーカ群51へ出力する。第1スピーカ群51で再生された第1再生音を聴く受聴者10にとっては、音声信号に含まれていた5chの各々に対応づけられた位置へ、第3スピーカ群の各々が定位する。また、フィルタ処理部70は、5chの第2音声信号を2chへ変換し、第2スピーカ群52へ出力する。第2スピーカ群52で再生された第2再生音を聴く受聴者10にとっては、音声信号に含まれていた5chの各々に対応づけられた位置へ、第4スピーカ群が定位する。フィルタ処理部70の具体的な処理内容は、前述した関連技術に係る頭部伝達関数により決定されるため、詳細は省略する。
 より詳細には、フィルタ処理部70は、耳近傍スピーカ用フィルタ4と、フロントスピーカ用フィルタ5とを有する。
 フロントスピーカ用フィルタ5は、第1再生音により第3スピーカ群(後述する、仮想音源11~仮想音源15)が事前に定められた位置に定位するように、第1音声信号にフィルタ処理を施す。
 耳近傍スピーカ用フィルタ4は、第2再生音により第4スピーカ群(後述する、仮想音源21~仮想音源25)が事前に定められた位置に定位するように、第2音声信号にフィルタ処理を施す。
 以下、上記構成による、音声信号再生装置100Aについて、より詳細に説明する。
 本実施の形態に係る第1スピーカ群51は、フロントL(Left)スピーカ6と、フロントR(Right)スピーカ7とを備える。また、第2スピーカ群52は、耳近傍Lスピーカ8と、耳近傍Rスピーカ9とを備える。
 音声信号再生装置100Aは、入力信号であるマルチチャンネルの音声信号に含まれるフロントLチャンネル信号(以下、FL信号という)を1組のフロントLスピーカ6及びフロントRスピーカ7、並びに、1組の耳近傍Lスピーカ8及び耳近傍Rスピーカ9の少なくとも一方の組を用いて再生する。これにより、音声信号再生装置100Aは、FL信号を再生するための仮想音源を、仮想フロントLチャンネルスピーカ(以下、仮想FLスピーカという)として定位させる。本実施の形態ではフロントLスピーカ6及びフロントRスピーカ7の両スピーカにより再生される第1再生音により仮想FLスピーカ11が定位し、耳近傍Lスピーカ8及び耳近傍Rスピーカ9の両スピーカにより再生される第2再生音により、仮想FLスピーカ21が定位するとする。
 また、音声信号再生装置100Aは、入力信号であるマルチチャンネルの音声信号に含まれるフロントRチャンネル信号(以下、FR信号という)を1組のフロントLスピーカ6及びフロントRスピーカ7、並びに、1組の耳近傍Lスピーカ8及び耳近傍Rスピーカ9の少なくとも一方の組を用いて再生する。これにより、音声信号再生装置100Aは、FR信号を再生するための仮想音源を、仮想フロントRチャンネルスピーカ(仮想FRスピーカ)として定位させる。本実施の形態ではフロントLスピーカ6及びフロントRスピーカ7の両スピーカにより再生される第1再生音により仮想FRスピーカ12が定位し、耳近傍Lスピーカ8及び耳近傍Rスピーカ9の両スピーカにより再生される第2再生音により仮想FRスピーカ22が定位する。
 同様に、音声信号再生装置100Aは、入力信号であるマルチチャンネルの音声信号に含まれるサラウンドLチャンネル信号(以下、SL信号という)を1組のフロントLスピーカ6及びフロントRスピーカ7、並びに、1組の耳近傍Lスピーカ8及び耳近傍Rスピーカ9の少なくとも一方の組を用いて再生する。これにより、音声信号再生装置100Aは、SL信号を再生するための仮想音源を、仮想サラウンドLチャンネルスピーカ(仮想SLスピーカ)として定位させる。本実施の形態ではフロントLスピーカ6及びフロントRスピーカ7の両スピーカにより再生される第1再生音により仮想SLスピーカ13が定位し、耳近傍Lスピーカ8及び耳近傍Rスピーカ9の両スピーカにより再生される第2再生音により仮想SLスピーカ23が定位する。
 また、音声信号再生装置100Aは、入力信号であるマルチチャンネルの音声信号に含まれるサラウンドRチャンネル信号(以下、SR信号という)を1組のフロントLスピーカ6及びフロントRスピーカ7、並びに、1組の耳近傍Lスピーカ8及び耳近傍Rスピーカ9の少なくとも一方の組を用いて再生する。これにより、音声信号再生装置100Aは、SR信号を再生するための仮想音源を、仮想サラウンドRチャンネルスピーカ(仮想SRスピーカ)として定位させる。本実施の形態では、フロントLスピーカ6及びフロントRスピーカ7の両スピーカにより再生される第1再生音により仮想SRスピーカ14が定位し、耳近傍Lスピーカ8及び耳近傍Rスピーカ9の両スピーカにより再生される第2再生音により仮想SRスピーカ24が定位する。
 また、音声信号再生装置100Aは、入力信号であるマルチチャンネルの音声信号に含まれるセンターチャンネル信号(以下、C信号という)を1組のフロントLスピーカ6及びフロントRスピーカ7、並びに、1組の耳近傍Lスピーカ8及び耳近傍Rスピーカ9の少なくとも一方の組を用いて再生する。これにより、音声信号再生装置100Aは、C信号を再生するための仮想音源を、仮想センターチャンネルスピーカ(仮想Cスピーカ)として定位させる。本実施の形態では、フロントLスピーカ6及びフロントRスピーカ7の両スピーカにより再生される第1再生音により仮想Cスピーカ15が定位し、耳近傍Lスピーカ8及び耳近傍Rスピーカ9の両スピーカにより再生される第2再生音により仮想Cスピーカ25が定位する。
 図2に示すように、複数のオーディオチャンネル信号(FR信号、SR信号、FL信号、SL信号、及びC信号)を含む入力信号は取得部1から入力される。ここで、各オーディオチャンネル信号は、各仮想スピーカに対応する。
 出力時間差制御部3はフロントスピーカ用信号と耳近傍スピーカ用信号との位相差を制御し、後段のフロントスピーカと耳近傍スピーカとから各信号を出力するタイミングを制御する。
 耳近傍スピーカ用フィルタ4は、出力時間差制御部3から出力された5chの耳近傍スピーカ用信号(すなわち、第2音声信号)に対して、耳近傍スピーカ用フィルタ係数に基づくフィルタ処理を行うことで2chの仮想音場生成信号を生成し、各々のオーディオチャンネル信号を耳近傍Lスピーカ8と耳近傍Rスピーカ9とに出力する。
 耳近傍スピーカ用フィルタ4における耳近傍スピーカ用フィルタ係数に基づく処理とは、例えば、耳近傍スピーカ用信号にSL信号とSR信号とが含まれている場合を例に挙げると、以下の通りとなる。すなわち、SL信号及びSR信号に処理を施すことで耳近傍スピーカ用フィルタ4が生成した仮想音場生成信号が、耳近傍Lスピーカ8及び耳近傍Rスピーカ9の各々で再生されているとする。このとき、SL信号が、SL信号に対応した位置に定位する仮想音源である仮想SLスピーカ23から再生され、SR信号が、SR信号に対応した位置に定位する仮想音源である仮想SRスピーカ24から再生されているように、受聴者10に知覚されるような特性を、SL信号及びSR信号の各々に与える処理を耳近傍スピーカ用フィルタ係数に基づく処理という。
 フロントスピーカ用フィルタ5は、出力時間差制御部3から出力された5chのフロントスピーカ用信号(すなわち、第1音声信号)に対して、フロントスピーカ用フィルタ係数に基づくフィルタ処理を行うことで2chの仮想音場生成信号を生成し、各々をフロントLスピーカ6とフロントRスピーカ7とに出力する。
 フロントスピーカ用フィルタ5におけるフロントスピーカ用フィルタ係数に基づく処理とは、例えば、フロントスピーカ用信号にSL信号とSR信号とが含まれている場合を例に挙げると、以下の通りとなる。すなわち、SL信号及びSR信号に処理を施すことでフロントスピーカ用フィルタ5が生成した仮想音場生成信号が、フロントLスピーカ6及びフロントRスピーカ7の各々で再生されているとする。このとき、SL信号が、SL信号に対応した位置に定位する仮想音源である仮想SLスピーカ13から再生され、SR信号が、SR信号に対応した位置に定位する仮想音源である仮想SRスピーカ14から再生されているように、受聴者10に知覚されるような特性を、SL信号及びSR信号の各々に与える処理をフロントスピーカ用フィルタ係数に基づく処理という。
 このように構成された音声信号再生装置100Aを介して、フロントLスピーカ6及びフロントRスピーカ7を含む第1スピーカ群と、耳近傍Lスピーカ8及び耳近傍Rスピーカ9を含む第2スピーカ群とからそれぞれ再生される音を聴くことにより、受聴者10には、実在しない仮想音源である、仮想FLスピーカ11及び21、仮想FRスピーカ12及び22、仮想SLスピーカ13及び23、仮想SRスピーカ14及び24、並びに仮想Cスピーカ15及び25の位置から再生音が聞こえる。
 ここで前述のように、第1スピーカ群による第1再生音、及び、第2スピーカ群による第2再生音の各々を用いて各仮想音源を定位させる場合、同一の仮想音源を定位させるための同一の音が、同時に受聴者10へ到達するように再生されると、受聴者は聴感上の違和感を生じる。
 本願発明は、この課題を解消するための音声信号再生装置の提供を目的としたものであるため、以下、この課題と解決方法について、より詳細に説明する。
 図3は、第1スピーカ群51及び第2スピーカ群52に含まれる各スピーカと、受聴者との位置関係の一例を示す図である。ここで、フロントLスピーカ6と受聴者10との距離をl[m]とし、耳近傍Lスピーカ8と受聴者10との距離をm[m](l>>m)とする。また、音速をc[m/s]とする。このとき、フロントLスピーカ6から再生された第1再生音に含まれる第1音が受聴者10へ届くまでに要する時間Tは、T=l/c[s]となり、耳近傍Lスピーカ8から再生された第2再生音に含まれる第2音が受聴者10へ届くまでに要する時間Tは、T=m/c[s]となる。
 よって、フロントLスピーカ6による第1音の再生時刻と耳近傍Lスピーカ8による第2音の再生時刻とが同時であれば、第2音の方が、T-T[s]だけ早く受聴者10へ到達する。例えば、l=5[m]、m=3[cm]、c=346[m/s]の場合、T-Tは、およそ15[ms]となる。すなわち、第1音と第2音とが同じ音である場合に、受聴者10は15[ms]ずれて、同じ音を聞くことになる。これは、受聴者10にとって不自然なエコーとなって聞こえる。
 よって、従来は、耳近傍Lスピーカ8が、フロントLスピーカ6よりも、T-T[s]だけ遅く同じ音を再生することにより、同じ音が同時に受聴者10へ到達するように、再生時間が制御されることが一般的である。すなわち、想定される受聴者10と、第1スピーカ群51及び第2スピーカ群52との位置関係(前述のl、m)から、T-Tの値を事前に求めておき、同一の音を、第2スピーカ群52は、第1スピーカ群51よりもT-T[s]だけ遅れて再生するように、制御される。
 しかし、前述のとおり、フロントスピーカ用フィルタ係数に基づくフィルタ処理がなされた第1スピーカ群51による再生音と、耳近傍スピーカ用フィルタ係数に基づくフィルタ処理がなされた第2スピーカ群52による再生音とが同時に受聴者10へ到達した場合であっても、受聴者10は聴感上の違和感を覚える。これは、受聴者10の耳に到達するタイミングが揃っている場合においても、第1スピーカ群51で生成する仮想の音場と、第2スピーカ群52で生成する仮想の音場とは、正確には一致せず、音場の分離、偏り、またはぼやけなどが生じるためである。
 そこで本実施の形態に係る音声信号再生装置100Aは、先行音効果によって、この違和感を抑制する。
 図3は、先行音効果を説明するための概念図である。ここで、波形510は時刻t1に受聴者10へ到達した第1音の波形を表し、波形512は時刻t2に受聴者10へ到達した、第1音と同じ音である第2音の波形を表すとする。
 先行音効果とは、Δt=|t2-t1|が所定の範囲に含まれている場合には、後に到達した第2音の音源方向の定位が、先に到達した第1音の音源方向の定位へ偏って聞こえる現象をいう。ここで、Δtは、環境によって異なるが、およそ、0<Δt<20[ms]であることが知られている。
 すなわち、音声信号再生装置100Aは、第1音が受聴者10へ到達する時刻と、第2音が受聴者10へ到達する時刻とが、先行音効果が生じるΔtだけずれるよう、第1再生信号と第2再生信号との出力時間の差を制御する。これにより、第1音と第2音のうち、先に受聴者10へ到達した先行音により定位する仮想音源の位置へ、後から到達した音により定位する仮想音源の位置を正確に一致させることができる。
 次に、以上のように構成された本実施の形態に係る音声信号再生装置100Aの音像定位処理についてより詳細に説明する。
 図5は、本実施の形態に係る音声信号再生装置100Aの動作の一例を示すフローチャートである。
 まず、取得部1は、複数のオーディオチャンネル信号を含む音声信号を取得する(S21)。
 次に、取得部1は、取得部1で取得した複数のオーディオチャンネル信号を含む音声信号を、フロントスピーカと耳近傍スピーカとでそれぞれ個別に処理して再生するために、同一音声信号からなる2系統(すなわち、第1音声信号と第2音声信号と)に分配する(S22)。
 なお、必ずしも同一音声信号からなる2系統に分配する必要はなく、信号値の大きさについては、例えば受聴者とフロントスピーカ、及び受聴者と耳近傍スピーカの距離を考慮して、分配する際の信号値の比率を変更してもよいし、フロントスピーカと耳近傍スピーカの能率を考慮して、分配する際の信号値の比率を変更してもよい。
 例えば、受聴者10とスピーカとの距離が遠いほど、より大きな信号値となるように比率を変更してもよい。また、スピーカの能率が悪いほど、より大きな信号値となるように比率を変更してもよい。
 また、2系統の信号間における出力時間差については、例えば受聴者とフロントスピーカ、及び受聴者と耳近傍スピーカとの距離を考慮して、受聴者の位置でフロントスピーカ用信号と耳近傍スピーカ用信号の位相が揃うように出力時間差を制御してもよい。
 例えば、図3を参照して、取得部1はT-T[s]だけ第2再生信号が遅れるように出力時間差を制御してもよい。
 本実施の形態においてはこれ以降、取得部1が、ステップS22において、受聴者10の位置でフロントスピーカの出力(第1再生音)と耳近傍スピーカの出力(第2再生音)とが聴感上等しくなるように信号値の大きさを揃え、かつフロントスピーカの出力と耳近傍スピーカの出力の位相が受聴者10の位置で揃う(すなわち、第1音と第2音とが同時に受聴者10へ到達する)ように同一音声信号を2系統に分配するものとする。
 次に、出力時間差制御部3は、フロントスピーカと耳近傍スピーカとで再生する各オーディオチャンネル信号の出力タイミングを制御する(S23)。
 ステップS22及びステップS23について、図6の(a)及び図6の(b)を用いてより詳細に説明する。
 図6の(a)は、第1再生信号と比較して、N[msec]の遅延を与えられた第2再生信号の波形を表し、図6の(b)は、第1再生信号の波形を表している。図6の(a)において、第2再生信号に遅延がなく、第1再生信号と第2再生信号の位相が揃っている場合(N=0)は、両信号が同時に再生されたことを表す。
 また、第2再生信号がNだけ第1再生信号よりも遅延している場合(N=N)は、受聴者10が位相の等しい両信号の再生音を同時に聴くことを意味する。本実施の形態においては、前述したように取得部1が、取得した音声信号を分配後に、第2再生信号をNだけ遅延させて出力する(S22)。なお、図3を参照して、N=T-Tである。
 本実施の形態に係る出力時間差制御部3は、Nを基準に考えると、これよりもΔtだけ、第2再生信号の遅延量を増減させるよう、第1再生信号及び第2再生信号の出力時間を制御する(S23)。図6は、遅延量N=N-Δtとすることで、第2再生信号が受聴者10にとって先行音となるように制御した場合を示す。
 ここで、遅延量Nは、フロントスピーカ出力と耳近傍スピーカ出力によって所望の音場が形成されるように適切な値が出力時間差制御部3により設定される。適切な遅延量は、例えばあらかじめ主観評価実験を行い、フロントスピーカ出力と耳近傍スピーカ出力との間の遅延量を可変させて、先行音効果により所望の音場が得られるような遅延量を求めることで決定する。
 ただし、遅延量が大きすぎると受聴者がフロントスピーカ用信号と耳近傍スピーカ用信号を別々に知覚することにより不快なエコー感が増大し、フロントスピーカによる音場と耳近傍スピーカによる音場が分離して音場の一体感が失われてしまう、という問題が発生する。よって、遅延量は、大きすぎないことが望ましい。具体的には、前述のように、0<Δt<20[msec]とすることが考えられる。なお、被験者実験の結果、より詳細には、2[msec]<Δt<8[msec]とすることが好ましい。
 なお、本実施の形態においては説明のため、(1)ステップS22において、第1再生信号と第2再生信号との受聴者10への到達時間差を0にする遅延(N)を一方の音声信号に与えた後、(2)ステップS23において、先行音効果を生じさせるために、いずれかの音声信号の遅延量を増減させるという2段階の処理を行った。
 しかし、必ずしも遅延処理を2段階に分割する必要はなく、1段階で行ってもよい。例えば、N及びΔtを事前に定めておき、出力時間差制御部3が、第1再生信号及び第2再生信号のうちの一方を常にΔt=N-Δtだけ遅延させるよう、出力時間の差を制御してもよい。
 すなわち、本実施の形態に係る音声信号再生装置100Aは、所定の範囲として、0ミリ秒を超え、かつ、20ミリ秒未満となる時間を使用することが好ましい。
 言いかえると、出力時間差制御部3は、第1音が受聴者10へ到達する第1時刻と、第2音が受聴者10へ到達する第2時刻との差の絶対値が、0ミリ秒を超え、かつ、20ミリ秒未満となるように、第1再生信号と第2再生信号との出力時間の差を制御してもよい。
 より詳細には、出力時間差制御部3は、第2時刻が第1時刻よりも、0ミリ秒を超えて20ミリ秒未満の時間だけ早くなるように、第1再生信号と第2再生信号との出力時間の差を制御してもよい。また、出力時間差制御部3は、第1時刻が第2時刻よりも、0ミリ秒を超えて20ミリ秒未満の時間だけ早くなるように、第1再生信号と第2再生信号との出力時間の差を制御してもよい。
 すなわち、本実施の形態に係る出力時間差制御部3は、第1再生音に含まれる音である第1音が受聴者10へ到達する第1時刻と、第2再生音に含まれる音であって、第1音と同一の音である第2音が受聴者10へ到達する第2時刻との差の絶対値が、0ミリ秒を超え、かつ、20ミリ秒未満となるように、第1再生信号と第2再生信号との出力時間の差を制御してもよい。
 詳細には、出力時間差制御部3は、第1時刻と第2時刻との差の絶対値が、2ミリ秒を超えて8ミリ秒未満となるように、第1再生信号と第2再生信号との出力時間の差を制御してもよい。また、出力時間差制御部3は、第2時刻が第1時刻よりも、2ミリ秒を超えて8ミリ秒未満の時間だけ早くなるように、第1再生信号と第2再生信号との出力時間の差を制御してもよい。
 なお、本実施の形態において、第1音と第2音のどちらが先に受聴者10へ到達するかによって、受聴者10にとって定位する仮想音場の特性は変化する。以下、図7を参照して、この違いを説明する。
 図7は、実施の形態に係る2つのスピーカ群(第1スピーカ群51及び第2スピーカ群52)の各々からの音の到達の先後が音場定位に与える影響を示す図である。
 表331は、耳近傍に設置される第2スピーカ群52から再生された第2音が、Δtだけ先に受聴者10へ到達した場合の音場定位の特性を示す。表331に示されるように、この場合に定位する仮想音場は、距離感よりも方向感の精度に優れた仮想音場となる。
 また、表332は、受聴者10の前方に設置される第1スピーカ群51から再生された第1音が、Δtだけ先に受聴者10へ到達した場合の音場定位の傾向を示す。表332に示されるように、この場合に定位する仮想音場は、方向感よりも距離感の精度に優れた仮想音場となる。
 これは、第1スピーカ群51の再生音により定位する仮想音場と、第2スピーカ群52の再生音により定位する仮想音場とを比較すると、第1スピーカ群51の再生音は、仮想音場の距離感の定位により優れ、一方、第2スピーカ群52の再生音は、仮想音場の方向感(第1スピーカ群51が受聴者10の前方にある場合には、特に後方の方向感)の定位により優れるためである。
 よって、本実施の形態に係る音声信号再生装置100Aは、第1スピーカ群51と第2スピーカ群52とを併用することにより生じる聴感上の違和感を、先行音効果によって抑制することに加え、仮想音場の位置に応じて、距離感と方向のいずれの定位精度を優先するかを個別に選択することで、より自然で精度の高い仮想音場を定位させることができる。
 例えば、図2を参照して、受聴者10の前方に定位させる仮想音源(11、12、15)の定位を第1スピーカ群51に任せ、受聴者10の後方に定位させる仮想音源(23、24)の定位を第2スピーカ群52に任せることで、距離と方向の定位を両立させることが可能となる。
 よって、音声信号再生装置100Aが備える出力時間差制御部3は、第1音声信号に含まれるオーディオチャンネル信号のうち、受聴者10の前方に定位させる仮想音源に対応するオーディオチャンネル信号に含まれる音は、第2音声信号に含まれる同じ音よりも、Δtだけ早く受聴者10へ到達するように、音声信号の出力時間の差を制御することが好ましい。同様に、出力時間差制御部3は、第2音声信号に含まれるオーディオチャンネル信号のうち、受聴者10の後方に定位させる仮想音源に対応するオーディオチャンネル信号に含まれる音は、第1音声信号に含まれる同じ音よりも、Δtだけ早く受聴者10へ到達するように、音声信号の出力時間の差を制御することが望ましい。
 言いかえると、第1仮想音像位置のうち、第1位置が受聴者の後方である場合、仮想音場生成部80Aは、第2音が、第1音よりも先に受聴位置に到達するよう第1再生信号および第2再生信号を生成してもよい。また、第1位置が、受聴者の前方である場合、仮想音場生成部80Aは、第1音が、第2音よりも先に受聴位置に到達するよう第1再生信号および第2再生信号を生成してもよい。
 すなわち、出力時間差制御部3は、フロントスピーカ用信号と耳近傍スピーカ用信号の各信号を構成する複数のオーディオチャンネル信号の全てを対象として出力タイミングを制御してもよいし、あるオーディオチャンネル信号だけを対象として出力タイミングを制御してもよい。また、図6においては耳近傍スピーカ用信号には遅延を与えず、フロントスピーカ用信号に遅延を与えているが、フロントスピーカ用信号には遅延を与えず、耳近傍スピーカ用信号に遅延を与えてもよい。
 図8は、以上のようにして、本実施の形態に係る音声信号再生装置100Aが備える出力時間差制御部3が出力時間差を制御した第1再生信号と第2再生信号とが、第1スピーカ群51と第2スピーカ群52とから出力されることによって生成された複数の仮想音像の一例を示す。
 図8は、フロントLスピーカ6とフロントRスピーカ7とによって、仮想FLスピーカ30、仮想FRスピーカ31、仮想センターチャンネルスピーカ(仮想Cスピーカ)32、仮想SLスピーカ33、及び、仮想SRスピーカ34が生成され、耳近傍Lスピーカ8と耳近傍Rスピーカ9とによって、仮想FLスピーカ35、仮想FRスピーカ36、仮想Cスピーカ37、仮想SLスピーカ38、及び、仮想SRスピーカ39が生成される様子を表している。
 なお、図8では5チャンネルのオーディオチャンネル信号を音声信号再生装置100Aによる処理の対象としているが、前述のとおり、ある特定のオーディオチャンネル信号だけを対象としてもよい。
 なお、図2では、仮想音場生成部80Aは、フィルタ処理部70の前段に出力時間差制御部3を備えており、出力時間差制御部3によって出力時間に差がつけられた各オーディオチャンネル信号に対して、フィルタ処理部70が音場生成処理を施す構成になっている。しかし、音声信号再生装置100Aは、必ずしもフィルタ処理部70の前段に別個の処理部として出力時間差制御部3を備えなくてもよい。
 図9は、本実施の形態に係る音声信号再生装置100Aの変形例を示すブロック図である。本変形例では、出力時間差制御部3はフィルタ処理部70の中に取り込まれている。
 すなわち、本変形例における出力時間差制御部3は、耳近傍スピーカ用フィルタ4及びフロントスピーカ用フィルタ5と一体となったソフトウェアとして実装される。
 具体的には、耳近傍スピーカ用フィルタ4及びフロントスピーカ用フィルタ5の各々は、各オーディオチャンネル信号に対して遅延処理を施すととともに、音場生成処理を施す。より具体的には、出力時間差制御部3は、耳近傍スピーカ用フィルタ4及びフロントスピーカ用フィルタ5の各々が有するフィルタ係数を表す行列に含まれる要素のうち、各オーディオチャンネル信号の位相に該当する要素にのみ、位相を遅らせる(又は、進ませる)ことで実装される。この場合、フィルタ処理部70内部の処理において、出力時間差制御部3の処理と、耳近傍スピーカ用フィルタ4及びフロントスピーカ用フィルタ5の処理とは、順不同で実行される。
 すなわち、図9に示すように、出力時間差制御部3は、フィルタ処理部70の前段にあっても、フィルタ処理部70の構成の一部として実装されても、同様の効果を奏する。
 なお、第1スピーカ群は、必ずしも受聴者10の前に設置されていなくてもよい。例えば、第1スピーカ群を受聴者10の後方に設置してもよい。この場合、出力時間差制御部3が、第2音声信号の再生音よりも早く第1音声信号の再生音が受聴者10に届くよう、出力時間の差を制御すると、より後方の距離感の定位精度が向上する。
 以上述べたように、本実施の形態に係る音声信号再生装置100Aによると、音声信号再生装置は、取得した音声信号を、第1スピーカ群(例えばフロントスピーカ)で再生した場合と、第2スピーカ群(例えば耳近傍スピーカ)で再生した場合とでは、事前に定められた範囲内の微少時間だけずれて再生音が受聴者に到達するように制御する。これにより受聴者は、先行音効果が生じた2つの音を受聴することになる。結果、受聴者は、受聴するタイミングがずれているにもかかわらず、後に到達した音により定位する仮想の音場が、先に到達した音により定位した仮想の音場と一致するように聞こえる。さらに、受聴者は、後に到達した音よりも先に到達した音を強く意識する。よって、フロントスピーカと耳近傍スピーカとで生成する仮想の音場において生じる、音場の分離、偏り、またはぼやけによる聴感上の違和感を抑制するとともに、フロントスピーカから音を出力する際のメリットまたは、耳近傍スピーカから音を出力する際のメリットを活用できる。
 (実施の形態2)
 次に、受聴位置において、第1音と第2音との音圧値が異なるように、仮想音場生成部が第1再生信号及び第2再生信号を生成する実施例を、実施の形態2として詳細に説明する。
 図10は、本実施の形態に係る音声信号再生装置100Bの構成を示すブロック図である。
 本実施の形態に係る音声信号再生装置100Bは、受聴者10の周囲に配置される複数のスピーカであるフロントスピーカ(以下、第1スピーカ群ともいう)51と、第1スピーカ群51よりも受聴者に近い位置に配置される複数のスピーカである耳近傍スピーカ(以下、第2スピーカ群ともいう)52とに対して、音場生成処理が施された音声信号を出力する音声信号再生装置である。
 図10に示されるように、音声信号再生装置100Bは、取得部1及び仮想音場生成部80Bを備える。
 取得部1は、複数のオーディオチャンネル信号を含む音声信号を取得する。本実施の形態では、5ch(チャンネル)の音声信号(すなわち、5つのオーディオチャンネル信号を含む音声信号)を例に説明するが、オーディオチャンネル信号の数はこれに限られない。例えば、2ch、4ch、又は、7chなど、任意のオーディオチャンネル信号を含む音声信号を入力とすることができる。
 また、取得部1は、取得した音声信号から、第1スピーカ群51で第1再生音として再生するための第1音声信号と、第2スピーカ群52で第2再生音として再生するための第2音声信号とを生成する。すなわち、第1音声信号及び第2音声信号は、それぞれ5chのオーディオチャンネル信号を含む音声信号である。
 仮想音場生成部80Bは、第1再生音により、複数のオーディオチャンネル信号の各々に対応付けられた仮想音源である第3スピーカ群が事前に定められた位置に定位し、第2再生音により、第3スピーカ群とは異なる複数の仮想音源であって、複数のオーディオチャンネル信号の各々に対応付けられた仮想音源である第4スピーカ群が事前に定められた位置に定位するように、第1音声信号及び第2音声信号に音場生成処理を施す。
 具体的には、仮想音場生成部80Bは、第3スピーカ群及び第4スピーカ群に含まれる各々の仮想音源の音圧値が、当該仮想音源に対応するオーディオチャンネル信号と、当該オーディオチャンネル信号に対応するゲインとを乗じて得られる音圧値となるように、音場生成処理を施す。より具体的には、仮想音場生成部80Bは、第1再生信号により示され、第1仮想音像位置のうち第1位置に定位する第1音と、第2再生信号により示され、第1位置と略同一位置に定位し、かつ、第1音と前記第2再生信号とに含まれる音であって、略同一の特徴を有する第2音とが、受聴位置において、音圧値が異なるように、第1再生信号および第2再生信号を生成する。詳細は後述する。
 また、仮想音場生成部80Bは、音圧値調整部3と、フィルタ処理部70とを有する。
 音圧値調整部3は、複数のオーディオチャンネル信号の各々に、対応するゲインを乗じることにより音圧値を調整する。
 フィルタ処理部70は、第1再生音により第3スピーカ群が定位するように第1音声信号にフィルタ処理を施し、第2再生音により第4スピーカ群が定位するように第2音声信号にフィルタ処理を施す。ここで、第3スピーカ群と第4スピーカ群とは同じ位置に定位する。具体的には、フィルタ処理部70は、第1音声信号及び第2音声信号を構成する複数のオーディオチャンネル信号の各々に対して、周波数振幅応答及び位相応答を変更する。フィルタ処理部70の具体的な処理内容は、前述した関連技術に係る頭部伝達関数により決定されるため、詳細は省略する。
 フィルタ処理部70は、耳近傍スピーカ用フィルタ4と、フロントスピーカ用フィルタ5とを有する。
 フロントスピーカ用フィルタ5は、第1再生音により第3スピーカ群(後述する、仮想音源11~仮想音源15)が事前に定められた位置に定位するように、第1音声信号にフィルタ処理を施す。
 耳近傍スピーカ用フィルタ4は、第2再生音により第4スピーカ群(後述する、仮想音源21~仮想音源25)が事前に定められた位置に定位するように、第2音声信号にフィルタ処理を施す。
 なお、図示の都合上、図10において第3スピーカ群と第4スピーカ群の位置はずれているが、実際は、それぞれオーディオチャンネル信号に対応する同じ位置に定位してもよいし、異なる位置に定位してもよい。以降の説明では、同じ位置に定位する場合について述べる。
 図10に示される様に構成された音声信号再生装置100Bを介して、フロントLスピーカ6及びフロントRスピーカ7を含む第1スピーカ群と、耳近傍Lスピーカ8及び耳近傍Rスピーカ9を含む第2スピーカ群とからそれぞれ再生される音を聴くことにより、受聴者10には、実在しない仮想音源である、仮想FLスピーカ11及び21、仮想FRスピーカ12及び22、仮想SLスピーカ13及び23、仮想SRスピーカ14及び24、並びに仮想Cスピーカ15及び25の位置から再生音が聞こえる。
 しかし、前述のように、第1スピーカ群による第1再生音、及び、第2スピーカ群による第2再生音の各々を用いて各仮想音源を定位させる場合、同一の仮想音源を定位させるための同一の音が、同じゲインで再生されると、受聴者は聴感上の違和感を生じる。すなわち、複数の仮想音源全体としてゲインバランスが適切でないために、仮想音源により形成される音場に偏りが発生して不自然な音場になり、また、一方のスピーカで定位する仮想音場が支配的となることで音場の分離が発生してしまう。
 そこで、本実施の形態に係る音声信号再生装置100Bは、仮想音場生成部80Bにおいて、仮想音場に対応するオーディオチャンネル信号ごとにゲインを設定することにより、上記課題を解決する。
 次に、以上のように構成された本実施の形態に係る音声信号再生装置100Bの音像定位処理について、より詳細に説明する。
 図11は、本実施の形態に係る音声信号再生装置100Bの動作の一例を示すフローチャートである。
 まず、取得部1は、複数のオーディオチャンネル信号を含む音声信号を取得する(S21)。
 次に、取得部1は、取得した複数のオーディオチャンネル信号を含む音声信号をフロントスピーカ51と耳近傍スピーカ52とでそれぞれ個別に処理して再生するために、同一音声信号からなる2系統の音声信号(すなわち、第1音声信号と第2音声信号と)を生成する(S22)。
 なお、必ずしも同一音声信号からなる2系統の音声信号を生成する必要はなく、例えば受聴者とフロントスピーカ51との距離、及び受聴者と耳近傍スピーカ52との距離などを考慮して、生成する際の信号値のゲインを変更しても良いし、フロントスピーカ51と耳近傍スピーカ52の能率を考慮して、生成する際の信号値のゲインを変更しても良いし、複数のオーディオチャンネル信号の各信号値のゲインを個別に変更しても良い。ここで、信号値とは、オーディオチャンネル信号毎に信号内で指定されている音圧の大きさを示す値である音圧値を意味する。
 例えば、受聴者10とスピーカとの距離が遠いほど、より大きな信号値となるようにゲインを変更してもよい。また、スピーカの能率が悪いほど、より大きな信号値となるようにゲインを変更してもよい。
 本実施例においては、以降、簡単のために、受聴者10の位置でフロントスピーカ51の出力と耳近傍スピーカ52の出力とが聴感上等しくなるような信号値で同一音声信号を2系統の音声信号を生成した場合について述べる。
 次に、フロントスピーカ51と耳近傍スピーカ52とで再生する各オーディオチャンネル信号の音圧値を調整する(S23)。具体的な調整方法について、図12を用いて説明する。
 図12は、あらかじめフロントスピーカ用及び耳近傍スピーカ用に決定され、本実施の形態に係る音圧値調整部3が記憶している、各オーディオチャンネル信号のゲインを表している。より詳細には、フロントスピーカ51へ出力される5chの音声信号(FL信号、FR信号、C信号、SL信号、及びSR信号)のゲインと、耳近傍スピーカ52へ出力される5chの音声信号(FL信号、FR信号、C信号、SL信号、及びSR信号)のゲインとを示す。
 前述のとおり、ゲインとは、音圧値調整部3が取得した第1音声信号及び第2音声信号の各々に含まれている音圧値(以後、この音圧値を既定音圧値ともいう)からの増減度合いを示す。ここで、ゲインが1の場合、音圧値調整部3は、対応するオーディオチャンネル信号の音圧値をそのまま(すなわち、取得部1が取得した音声信号に含まれている音圧値のまま)出力する。また、ゲインが0の場合、音圧値調整部3は、対応するオーディオチャンネル信号を出力しない。また、ゲインが1を超える場合、音圧値調整部3は、対応するオーディオチャンネル信号の音圧値を、元々含まれている音圧値よりも大きくなるように調整して出力する。逆に、ゲインが0を超えて1未満の場合、音圧値調整部3は、対応するオーディオチャンネル信号の音圧値を、元々含まれている音圧値よりも小さくなるように調整して出力する。
 なお、ゲインが2である場合であっても、音圧値調整部3は必ずしも音圧値を2倍に調整しなくてもよい。例えば、任意の実数をR、ゲインの値をGとした場合、音圧値調整部3は、音圧値をG×R倍にしてもよい。また、ゲインが2のときは、音圧値を既定音圧値のa倍に、ゲインが3のときは、音圧値を既定音圧値のb倍にしてもよい。ここで、a<bとする。
 すなわち、音圧値調整部3が記憶するゲインの値は、順序尺度、間隔尺度、比例尺度のうちのいずれであってもよい。
 図12の各列に対応するケース(1)~(6)は、それぞれのゲインで各オーディオチャンネル信号の音圧値を調整し、各スピーカで再生するケースをそれぞれ表している。なお、ケース(7)は、本実施の形態における音圧値調整部3によっては設定されないゲインの組合せを示す。
 以下、各ケースについて説明する。
 ケース(1)の場合、第1音声信号に含まれるフロントスピーカ用の各オーディオチャンネル信号において、FL信号、FR信号、及びC信号はゲインが1のため既定音圧値で再生され、SL信号、及びSR信号はゲインが0のために再生されず、無音となる。
 同様に、第2音声信号に含まれる耳近傍スピーカ用の各オーディオチャンネル信号において、FL信号、FR信号、及びC信号はゲインが0のために再生されず無音であり、SL信号、及びSR信号はゲインが1のため既定音圧値で再生される。つまり、フロントスピーカ用信号として、FL信号、FR信号、及びC信号がゲイン1で出力され、耳近傍スピーカ用信号として、SL信号、及びSR信号がゲイン1で出力されることとなる。
 従って、フロントスピーカ用信号のFL信号、FR信号、及びC信号と、耳近傍スピーカ用信号のSL信号、及びSR信号とは共にゲインが1で等しいため、ゲインの大きさが等しい信号値として出力される。このように信号値を調整されたフロントスピーカ用信号がフロントスピーカ用フィルタ5へ出力され、信号値を調整された耳近傍スピーカ用信号が耳近傍スピーカ用フィルタ4へ出力されることにより(S24)生成される音場を図13に表す。
 図13において、フロントLスピーカ6とフロントRスピーカ7とから再生される第1再生音により、仮想FLスピーカ30と仮想FRスピーカ31と仮想Cスピーカ32とが定位する。また、耳近傍Lスピーカ8と耳近傍Rスピーカ9とから再生される第2再生音により、仮想SLスピーカ33と仮想SRスピーカ34とが定位する。
 このような音場を生成している現実のスピーカはフロントLスピーカ6、フロントRスピーカ7、耳近傍Lスピーカ8、及び耳近傍Rスピーカ9であるが、受聴者10は、(1)フロントLスピーカ6、及びフロントRスピーカ7により定位する、仮想FLスピーカ30、仮想FRスピーカ31、及び仮想Cスピーカ32の位置と、(2)耳近傍Lスピーカ8、及び耳近傍Rスピーカ9により定位する、仮想SLスピーカ33、及び仮想SRスピーカ34の位置とに、仮想音源をそれぞれ等しい信号値で知覚する。
 次に、ケース(2)の場合、フロントスピーカ用の各オーディオチャンネル信号において、FL信号、FR信号、C信号、SL信号、及びSR信号のゲインには全て1が指定されている。同様に、耳近傍スピーカ用の各オーディオチャンネル信号において、FL信号、FR信号、及びC信号のゲインには1が指定され、SL信号、及びSR信号のゲインには2が指定されている。つまり、フロントスピーカ用信号として、FL信号、FR信号、C信号、SL信号、及びSR信号がゲイン1で出力される。また、耳近傍スピーカ用信号として、FL信号、FR信号、及びC信号がゲイン1で出力され、SL信号、及びSR信号がゲイン2で出力される。
 このように信号値を調整されたフロントスピーカ用信号がフロントスピーカ用フィルタ5へ出力され、信号値を調整された耳近傍スピーカ用信号が耳近傍スピーカ用フィルタ4へ出力されることにより(S24)生成される音場を図14に表す。
 図14において、フロントLスピーカ6とフロントRスピーカ7とから再生される第1再生音により、仮想FLスピーカ40と仮想FRスピーカ41と仮想Cスピーカ42と仮想SLスピーカ43と仮想SRスピーカ44とが定位する。また、耳近傍Lスピーカ8と耳近傍Rスピーカ9とから再生される第2再生音により、仮想FLスピーカ45と仮想FRスピーカ46と仮想Cスピーカ47と仮想SLスピーカ48と仮想SRスピーカ49とが定位する。
 このような音場を生成している現実のスピーカはフロントLスピーカ6、フロントRスピーカ7、耳近傍Lスピーカ8、及び耳近傍Rスピーカ9であるが、受聴者10は、(1)フロントLスピーカ6、及びフロントRスピーカ7により定位する、仮想FLスピーカ40、仮想FRスピーカ41、仮想Cスピーカ42、仮想SLスピーカ43、及び仮想SRスピーカ44の位置と、(2)耳近傍Lスピーカ8、及び耳近傍Rスピーカ9により定位する、仮想FLスピーカ45、仮想FRスピーカ46、仮想Cスピーカ47、仮想SLスピーカ48、及び仮想SRスピーカ49の位置とに、仮想音源をそれぞれ知覚する。
 ここで、耳近傍Lスピーカ8と耳近傍Rスピーカ9とにより仮想SLスピーカ48と仮想SRスピーカ49とを定位させるために用いる信号値のゲインが「2」であるために、特に耳近傍スピーカ52による後方の仮想音源の知覚を強調することができる。
 次に、ケース(3)の場合、フロントスピーカ用の各オーディオチャンネル信号において、FL信号、FR信号、及びC信号のゲインには「2」が指定されている。また、SL信号、及びSR信号のゲインには「1」が指定されている。同様に、耳近傍スピーカ用の各オーディオチャンネル信号において、FL信号、FR信号、及びC信号のゲインには「1」が指定されている。また、SL信号、及びSR信号のゲインには「2」が指定されている。
 つまり、フロントスピーカ用信号として、FL信号、FR信号、及びC信号がゲイン「2」で出力され、SL信号、及びSR信号がゲイン「1」で出力される。また、耳近傍スピーカ用信号として、FL信号、FR信号、及びC信号がゲイン「1」で出力され、SL信号、及びSR信号がゲイン「2」で出力される。
 このように信号値を調整されたフロントスピーカ用信号が、フロントスピーカ用フィルタ5へ出力され、信号値を調整された耳近傍スピーカ用信号が耳近傍スピーカ用フィルタ4へ出力されることにより(S24)生成される音場を図15に表す。
 図15において、フロントLスピーカ6とフロントRスピーカ7とから再生される第1再生音により、仮想FLスピーカ50と仮想FRスピーカ51と仮想Cスピーカ52と仮想SLスピーカ53と仮想SRスピーカ54とが定位する。また、耳近傍Lスピーカ8と耳近傍Rスピーカ9とから再生される第2再生音により、仮想FLスピーカ55と仮想FRスピーカ56と仮想Cスピーカ57と仮想SLスピーカ58と仮想SRスピーカ59とが定位する。
 このような音場を生成している現実のスピーカはフロントLスピーカ6、フロントRスピーカ7、耳近傍Lスピーカ8、及び耳近傍Rスピーカ9であるが、受聴者10は、(1)フロントLスピーカ6、及びフロントRスピーカ7により定位する、仮想FLスピーカ50、仮想FRスピーカ51、仮想Cスピーカ52、仮想SLスピーカ53、及び仮想SRスピーカ54の位置と、(2)耳近傍Lスピーカ8、及び耳近傍Rスピーカ9により定位する、仮想FLスピーカ55、仮想FRスピーカ56、仮想Cスピーカ57、仮想SLスピーカ58、及び仮想SRスピーカ59の位置とに、仮想音源をそれぞれ知覚する。
 ここで、フロントLスピーカ7とフロントRスピーカ8とにより仮想FLスピーカ50と仮想FRスピーカ51とを定位させるために用いる信号値のゲインと、耳近傍Lスピーカ8と耳近傍Rスピーカ9とにより仮想SLスピーカ58と仮想SRスピーカ59とを定位させるために用いる信号値のゲインがともに「2」である。よって、特にフロントスピーカ51により定位する、受聴者10より前方の仮想音源と、耳近傍スピーカ52により定位する、受聴者10より後方の仮想音源の知覚を強調することができる。
 次に、ケース(4)の場合、フロントスピーカ用の各オーディオチャンネル信号において、FL信号、FR信号、及びC信号のゲインには「2」が指定され、SL信号、及びSR信号のゲインには「1」が指定されている。同様に、耳近傍スピーカ用の各オーディオチャンネル信号において、FL信号、FR信号、C信号、SL信号、及びSR信号のゲインには「1」が指定されている。つまり、フロントスピーカ用信号として、FL信号、FR信号、及びC信号がゲイン「2」で出力され、SL信号、及びSR信号がゲイン「1」で出力される。また、耳近傍スピーカ用信号として、FL信号、FR信号、C信号、SL信号、及びSR信号がゲイン「1」で出力される。
 このように信号値を調整されたフロントスピーカ用信号が、フロントスピーカ用フィルタ5へ出力され、信号値を調整された耳近傍スピーカ用信号が、耳近傍スピーカ用フィルタ4へ出力されることにより(S24)生成される音場を図16に表す。
 図16において、フロントLスピーカ6とフロントRスピーカ7とから再生される第1再生音により、仮想FLスピーカ60と仮想FRスピーカ61と仮想Cスピーカ62と仮想SLスピーカ63と仮想SRスピーカ64とが定位する。また、耳近傍Lスピーカ8と耳近傍Rスピーカ9とから再生される第2再生音により、仮想FLスピーカ65と仮想FRスピーカ66と仮想Cスピーカ67と仮想SLスピーカ68と仮想SRスピーカ69とが定位する。
 このような音場を生成している現実のスピーカはフロントLスピーカ6、フロントRスピーカ7、耳近傍Lスピーカ8、及び耳近傍Rスピーカ9であるが、受聴者10は、(1)フロントLスピーカ6、及びフロントRスピーカ7により定位する、仮想FLスピーカ60、仮想FRスピーカ61、仮想Cスピーカ62、仮想SLスピーカ63、及び仮想SRスピーカ64の位置と、(2)耳近傍Lスピーカ8、及び耳近傍Rスピーカ9により定位する、仮想FLスピーカ65、仮想FRスピーカ66、仮想Cスピーカ67、仮想SLスピーカ68、及び仮想SRスピーカ69の位置とに、仮想音源をそれぞれ知覚する。
 ここで、フロントLスピーカ7とフロントRスピーカ8により仮想FLスピーカ60と仮想FRスピーカ61とを定位させるために用いる信号値のゲインが「2」であるために、特にフロントスピーカ51による前方の仮想音源の知覚を強調することができる。
 なお、図13~図16にそれぞれ示した、ケース(1)~(6)は本実施の形態に係る音声信号再生装置100Bにおけるゲインの一例を示しており、各スピーカ用のオーディオチャンネル信号の信号値に対するゲインは、これに限られない。
 すなわち、本実施の形態に係る仮想音場生成部80Bは、(1)第3スピーカ群に含まれる少なくとも1つの仮想音源である第1仮想音源に対応するオーディオチャンネル信号のゲインと、(2)第4スピーカ群に含まれる少なくとも1つの仮想音源であって、第1仮想音源と同じ位置に定位する仮想音源に対応するオーディオチャンネル信号のゲインとが異なるように、第1音声信号及び第2音声信号に音場生成処理を施してもよい。
 また、本実施の形態に係る仮想音場生成部80Bは、第3スピーカ群及び第4スピーカ群のうちの少なくとも一方のスピーカ群に含まれる、少なくとも1つの仮想音源に対応するオーディオチャンネル信号のゲインと、当該スピーカ群に含まれる他の仮想音源に対応するオーディオチャンネル信号のゲインとが異なるように、音場生成処理を施してもよい。
 次に、本実施の形態に係る仮想音場生成部80Bが用いるゲインの限界事例を、図12に示されるケース(5)及び(6)を参照して説明する。
 図12のケース(5)において、フロントスピーカ用の音声信号に含まれる全てのオーディオチャンネル信号には、ゲイン「1」が指定されている。また、耳近傍スピーカ用の音声信号に含まれる全てのオーディオチャンネル信号には、ゲイン「2」が指定されている。すなわち、第1音声信号内の全てのオーディオチャンネル信号のゲインは等しく、第2音声信号内の全てのオーディオチャンネル信号のゲインも等しいが、第1音声信号と第2音声信号とで、対応するオーディオチャンネル信号のゲインが異なるように、本実施の形態に係る仮想音場生成部80Bは音場生成処理を施してもよい。
 また、図12のケース(6)において、フロントスピーカ用の音声信号に含まれるオーディオチャンネル信号のゲインは、C信号にはゲイン2が指定され、その他の信号にはゲイン1が指定されている。また、耳近傍スピーカ用の音声信号に含まれるオーディオチャンネル信号のゲインも、C信号にはゲイン2が指定され、その他の信号にはゲイン1が指定されている。すなわち、第1音声信号と第2音声信号とで、対応するオーディオチャンネル信号のゲインは等しいが、第1音声信号内に含まれる全てのオーディオチャンネル信号のゲインは同一ではなく、第2音声信号内に含まれる全てのオーディオチャンネル信号のゲインも同一とはならないように、本実施の形態に係る仮想音場生成部80Bは音場生成処理を施してもよい。
 なお、図12のケース(7)は、関連技術に係る音声信号再生装置が使用するゲインを示す。すなわち、関連技術に係る音声信号再生装置は音圧値調整部3を備えておらず、オーディオチャンネル信号ごとにゲインを設定しないで出力する。
 なお、図12に示されるケース(1)~(7)のうち、ケース(3)が最も好ましい。
 すなわち、仮想音場生成部80Bは、第3スピーカ群に含まれる複数の仮想音源のうち、受聴者10の前方に定位する仮想音源に対応するオーディオチャンネル信号のゲインが、受聴者10の後方に定位する仮想音源に対応するオーディオチャンネル信号のゲインよりも大きくなるように、前記第1音声信号へ前記音場生成処理を施すことが好ましい。言いかえると、仮想音場生成部80Bは、第1仮想音像位置に定位する音のうち、受聴者の前方に定位する音の音圧値が、受聴者の後方に定位する音の音圧値よりも大きくなるように、第1再生信号を生成することが好ましい。
 受聴者10の前方に定位する仮想音源は、受聴者10の前方に設置されたスピーカである第1スピーカ群51の第1再生音で定位させる方が、より正確な音場を定位させることができるためである。
 また、仮想音場生成部80Bは、第4スピーカ群に含まれる複数の仮想音源のうち、受聴者10の後方に定位する仮想音源に対応するオーディオチャンネル信号のゲインが、受聴者10の前方に定位する仮想音源に対応するオーディオチャンネル信号のゲインよりも大きくなるように、第2音声信号へ前記音場生成処理を施すことが好ましい。言いかえると、仮想音場生成部80Bは、第2仮想音像位置に定位する音のうち、受聴者の後方に定位する音の音圧値が、受聴者の前方に定位する音の音圧値よりも大きくなるように、第2再生信号を生成することが好ましい。
 受聴者10の後方に定位する仮想音源は、受聴者10の耳近傍に設置されたスピーカである第2スピーカ群52の第2再生音で定位させる方が、より正確な音場を定位させることができるためである。
 以上述べたように、本実施の形態において仮想音場生成部80Bは、定位する仮想音源に対応するオーディオチャンネル信号ごとにゲインを変更し、仮想音場を生成することができる。すなわち、仮想音源ごとに、仮想音源から再生される音の音圧値を変更し、仮想音場全体としてのゲインバランスを調整することが可能となる。その結果、第1スピーカ群と第2スピーカ群で生成される仮想音像による音場の偏りや分離を抑えることができる。
 また、例えば図12のケース(1)又はケース(2)に示されるゲインによれば、音声信号再生装置100Bは、特に受聴者10の後方に定位させるべき仮想音源を第2スピーカ群52で定位させることができる。これにより、音声信号再生装置100Bは、後方の仮想音源の定位精度が弱いフロントスピーカだけを用いるフロントバーチャルサラウンドシステムと比較して、後方の仮想音像の定位精度を向上させることができる。
 また、例えば図12のケース(3)に示されるゲインによれば、音声信号再生装置100Bは、受聴者10の前方に定位する仮想音源を受聴者10の前方に設置されたスピーカである第1スピーカ群51で定位させ、受聴者10の後方に定位する仮想音源を受聴者10の耳近傍に設置されたスピーカである第2スピーカ群52で定位させることにより、より正確な音場を定位させることができる。
 なお、音圧値調整部3は、別途備えたユーザインタフェース(図示なし)を通じて取得した受聴者10からの指示により、使用するゲインを決定してもよい。例えば、図12に示されるケース(1)~(6)のうち、どのケースを使用するかを、受聴者10からの指示により決定してもよい。また、受聴者10が、各オーディオチャンネル信号のゲインを、ユーザインタフェース(図示なし)により入力し、これを新たなケースとして、音圧値調整部3へ記憶させてもよい。
 なお、図12に示されるような、各オーディオチャンネル信号に対応付けられたゲインの値は、音圧値調整部3が必ずしも記憶している必要はなく、例えば、ゲインが記憶されている外部記憶媒体から音圧値調整部3が取得してもよい。
 なお、本実施の形態に係る音圧値調整部3は、複数の増幅器(いわゆるアンプ)を用いて実装することができる。
 図17は、本実施の形態に係る音圧値調整部3のより詳細な構成の一例を示すブロック図である。同図に示すように、各スピーカ用のオーディオチャンネル信号のゲインに応じて信号値を可変制御できる機能を有する音圧値調整部3は、各スピーカ用のオーディオチャンネル信号のゲインに応じて信号値を可変制御できる増幅器421および増幅器422で構成されるとしてもよい。ここで増幅器421及び増幅器422は、具体的には、入力信号の電圧、電流、又は電力のいずれかを増幅させて出力する電子回路である。
 なお、図17では、仮想音場生成部80Bは、フィルタ処理部70の前段に音圧値調整部3を備えており、音圧値調整部3により音圧値の調整がなされた第1音声信号及び第2音声信号の各々に対して、フィルタ処理部70が音場生成処理を施す構成になっている。しかし、音声信号再生装置100Bは、必ずしもフィルタ処理部70の前段に別個の処理部として音圧値調整部3を備えなくてもよい。
 図18は、本実施の形態の変形例に係る音声信号再生装置のより詳細な構成を示すブロック図である。同図に示すように、取得部1は、複数のオーディオチャンネル信号によって構成される音声信号から、耳近傍スピーカ用信号とフロントスピーカ用信号との2系統の音声信号を生成し、フィルタ処理部70に出力する。
 本変形例では、音圧値調整部3はフィルタ処理部70の中に取り込まれている。
 すなわち、本変形例における音圧値調整部3は、電子回路ではなく、耳近傍スピーカ用フィルタ4及びフロントスピーカ用フィルタ5と同様に、ソフトウェアとして実装される。
 具体的には、耳近傍スピーカ用フィルタ4及びフロントスピーカ用フィルタ5の各々が有する各オーディオチャンネル信号に対応するフィルタ係数そのもののゲインを、音圧値調整部3が記憶しているゲインにあわせて調整する。より具体的には、音圧値調整部3は、耳近傍スピーカ用フィルタ4及びフロントスピーカ用フィルタ5の各々が有するフィルタ係数を表す行列に含まれる要素のうち、各オーディオチャンネル信号の音圧値に該当する要素にのみ、対応するゲインの値を乗算する等の計算処理を行えばよい。
 図17及び図18に示したように、音圧値調整部3は、フィルタ処理部70の前段にあっても、フィルタ処理部70の構成の一部として実装されても、同様の効果を奏する。
 以上説明したように、本実施の形態に係る音声信号再生装置100Bによれば、フロントスピーカ51及び耳近傍スピーカ52の出力音圧レベルを所望の音場に応じて各々適切に制御する事により、それぞれのスピーカから生成される仮想音源の定位精度を制御することができる。その結果、音場の分離や偏りなどの聴感上の違和感を抑えるとともに、所望の方位の定位精度を強調し、例えば仮想音源による後方定位を強調した音場を生成する事ができる。その結果、音像をより正確に定位させることができる。
 なお、上記実施の形態1及び実施の形態2を組み合わせてもよい。例えば、仮想音場生成部は、第1再生信号により示され、第1仮想音像位置のうち第1位置に定位する第1音と、第2再生信号により示され、第1位置と略同一位置に定位し、かつ、第1音と略同一の第2音とが、受聴位置において、位相及び音圧値の少なくとも一方が異なるように、第1再生信号および第2再生信号を生成してもよい。音圧値よりも位相を制御する方が、音像位置の定位をより正確にすることができるが、コストがより高くなる。したがって、音像の精度とコストとを考慮し、音声信号再生装置のより適切な構成を決定してもよい。
 なお、ブロック図(図1、9,10、17、18)に示される各機能ブロックは典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
 例えばメモリ以外の機能ブロックが1チップ化されていても良い。
 ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
 さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
 また、各機能ブロックのうち、符号化または復号化の対象となるデータを格納する手段だけ1チップ化せずに別構成としても良い。
 以上、図面を参照してこの発明の実施の形態を説明したが、この発明は、図示した実施の形態のものに限定されない。図示した実施の形態に対して、この発明と同一の範囲において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。
 なお、本実施形態で説明した音声信号再生装置は、コンピュータにより実現することも可能である。図19は、音声信号再生装置を実現するコンピュータシステムのハードウェア構成を示すブロック図である。
 音声信号再生装置は、コンピュータ734と、コンピュータ734に指示を与えるためのキーボード736及びマウス738と、コンピュータ734の演算結果等の情報を提示するためのディスプレイ732と、コンピュータ734で実行されるプログラムを読み取るためのCD-ROM(Compact Disc-Read Only Memory)装置740及び通信モデム752とを含む。
 音声信号再生装置が行う処理であるプログラムは、コンピュータで読取可能な媒体であるCD-ROM742に記憶され、CD-ROM装置740で読み取られる。又は、コンピュータネットワークを通じて通信モデム752で読み取られる。
 コンピュータ734は、CPU(Central Processing Unit)744と、ROM(Read Only Memory)746と、RAM(Random Access Memory)748と、ハードディスク750と、通信モデム752と、バス754とを含む。
 CPU744は、CD-ROM装置740又は通信モデム752を介して読み取られたプログラムを実行する。ROM746は、コンピュータ734の動作に必要なプログラムやデータを記憶する。RAM748は、プログラム実行時のパラメタなどのデータを記憶する。ハードディスク750は、プログラムやデータなどを記憶する。通信モデム752は、コンピュータネットワークを介して他のコンピュータとの通信を行う。バス754は、CPU744、ROM746、RAM748、ハードディスク750、通信モデム752、ディスプレイ732、キーボード736、マウス738及びCD-ROM装置740を相互に接続する。
 さらにまた、上記の各装置を構成する構成要素の一部又は全部は、各装置に脱着可能なICカード又は単体のモジュールから構成されているとしてもよい。ICカード又はモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカード又はモジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ICカード又はモジュールは、その機能を達成する。このICカード又はこのモジュールは、耐タンパ性を有するとしてもよい。
 また、本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
 さらに、本発明は、上記コンピュータプログラム又は上記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray Disc(登録商標))、USBメモリ、SDカードなどのメモリカード、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている上記デジタル信号であるとしてもよい。
 また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしてもよい。
 また、上記プログラム又は上記デジタル信号を上記記録媒体に記録して移送することにより、又は上記プログラム又は上記デジタル信号を、上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
 本発明は、音楽信号が再生可能で2組以上の対となるスピーカを駆動する装置を備えた機器に適用でき、特にサラウンドシステム、TV、AVアンプ、コンポ、携帯電話機、ポータブルオーディオ機器等に適用できる。
 1 取得部
 3 音圧値調整部
 4 耳近傍スピーカ用フィルタ
 5 フロントスピーカ用フィルタ
 6 フロントLスピーカ
 7 フロントRスピーカ
 8 耳近傍Lスピーカ
 9 耳近傍Rスピーカ
10 受聴者
11、21、30、35、40、45、50、55、60、65 仮想FLスピーカ(仮想音源)
12、22、31、36、41、46、51、56、61、66 仮想FRスピーカ(仮想音源)
13、23、33、38、43、48、53、58、63、68 仮想SLスピーカ(仮想音源)
14、24、34、39、44、49、54、59、64、69 仮想SRスピーカ(仮想音源)
15、25、32、37、42、47、52、57、62、67 仮想Cスピーカ(仮想音源)
51 第1スピーカ群(フロントスピーカ)
52 第2スピーカ群(耳近傍スピーカ)
70 フィルタ処理部
80、80A、80B 仮想音場生成部
100、100A、100B 音声信号再生装置
421、422 増幅器
510、512 波形
732 ディスプレイ
734 コンピュータ
736 キーボード
738 マウス
740 CD-ROM装置
742 CD-ROM
744 CPU
746 ROM
748 RAM
750 ハードディスク
752 通信モデム
754 バス

Claims (11)

  1.  受聴者の周囲に配置される複数のスピーカである第1スピーカ群と、当該第1スピーカ群よりも前記受聴者に近い位置に配置される複数のスピーカである第2スピーカ群とのそれぞれに対して、複数のオーディオチャンネル毎に定位すべき仮想音像位置を示す位置情報が含まれる音声信号を再生する音声信号再生装置であって、
     前記音声信号を取得する取得部と、
     前記音声信号に対して信号処理を行い、第1仮想音像位置に音が定位する前記第1スピーカ群用の第1再生信号、及び前記第1仮想音像位置と略同一の第2仮想音像位置に音が定位する前記第2スピーカ群用の第2再生信号を生成する仮想音場生成部とを備え、
     前記仮想音場生成部は、前記第1再生信号により示され、前記第1仮想音像位置のうち第1位置に定位する第1音と、前記第2再生信号により示され、前記第1位置と略同一位置に定位し、かつ、前記第1音と略同一の第2音とが、受聴位置において、位相及び音圧値の少なくとも一方が異なるように、前記第1再生信号および前記第2再生信号を生成する
     音声信号再生装置。
  2.  前記仮想音場生成部は、前記略同一の特徴を有する2つの音の受聴時刻が所定の範囲内の時間だけ異なるように、前記第1再生信号を前記第1スピーカ群から出力する出力時刻および前記第2再生信号を前記第2スピーカ群から出力する出力時刻を調整する
     請求項1に記載の音声信号再生装置。
  3.  前記仮想音場生成部は、前記第1音が、前記第2音よりも前記所定の範囲の時間だけ先に前記受聴位置に到達するよう、前記第1再生信号および前記第2再生信号を生成する
     請求項1または請求項2に記載の音声信号再生装置。
  4.  前記仮想音場生成部は、前記第2音が、前記第1音よりも前記所定の範囲の時間だけ先に前記受聴位置に到達するよう、前記第1再生信号および前記第2再生信号を生成する
     請求項1または請求項2に記載の音声信号再生装置。
  5.  前記第1位置が、前記受聴者の後方である場合、
     前記仮想音場生成部は、前記第2音が、前記第1音よりも先に前記受聴位置に到達するよう前記第1再生信号および前記第2再生信号を生成する
     請求項1に記載の音声信号再生装置。
  6.  前記第1位置が、前記受聴者の前方である場合、
     前記仮想音場生成部は、前記第1音が、前記第2音よりも先に前記受聴位置に到達するよう前記第1再生信号および前記第2再生信号を生成する
     請求項1または請求項5に記載の音声信号再生装置。
  7.  前記所定の範囲は、0ミリ秒を超え、かつ、20ミリ秒未満である
     請求項1から請求項4のいずれか1項に記載の音声信号再生装置。
  8.  前記仮想音場生成部は、さらに、前記複数のオーディオチャンネルの各々に、対応するゲインを乗じることにより前記音圧値を調整する音圧値調整部を有する
     請求項1に記載の音声信号再生装置。
  9.  前記仮想音場生成部は、前記第1仮想音像位置に定位する音のうち、前記受聴者の前方に定位する音の音圧値が、前記受聴者の後方に定位する音の音圧値よりも大きくなるように、前記第1再生信号を生成する
     請求項1又は請求項8に記載の音声信号再生装置。
  10.  前記仮想音場生成部は、前記第2仮想音像位置に定位する音のうち、前記受聴者の後方に定位する音の音圧値が、前記受聴者の前方に定位する音の音圧値よりも大きくなるように、前記第2再生信号を生成する
     請求項1又は請求項8に記載の音声信号再生装置。
  11.  受聴者の周囲に配置される複数のスピーカである第1スピーカ群と、当該第1スピーカ群よりも前記受聴者に近い位置に配置される複数のスピーカである第2スピーカ群とのそれぞれに対して、複数のオーディオチャンネル毎に定位すべき仮想音像位置を示す位置情報が含まれる音声信号を出力する音声信号再生方法であって、
     前記音声信号を取得する取得ステップと、
     前記音声信号に対して信号処理を行い、第1仮想音像位置に音が定位する前記第1スピーカ群用の第1再生信号、及び前記第1仮想音像位置と略同一の第2仮想音像位置に音が定位する前記第2スピーカ群用の第2再生信号を生成する仮想音場生成ステップとを含み、
     前記仮想音場生成ステップにおいては、前記第1再生信号により示され、前記第1仮想音像位置のうち第1位置に定位する第1音と、前記第2再生信号により示され、前記第1位置と略同一位置に定位し、かつ、前記第1音と略同一の第2音とが、受聴位置において、位相及び音圧値の少なくとも一方が異なるように、前記第1再生信号および前記第2再生信号を生成する
     音声信号再生方法。
     
PCT/JP2012/002740 2011-04-22 2012-04-20 音声信号再生装置、音声信号再生方法 WO2012144227A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012528581A JP5118267B2 (ja) 2011-04-22 2012-04-20 音声信号再生装置、音声信号再生方法
US14/013,939 US9538307B2 (en) 2011-04-22 2013-08-29 Audio signal reproduction device and audio signal reproduction method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011096505 2011-04-22
JP2011-096505 2011-04-22
JP2011-109808 2011-05-16
JP2011109808 2011-05-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/013,939 Continuation US9538307B2 (en) 2011-04-22 2013-08-29 Audio signal reproduction device and audio signal reproduction method

Publications (1)

Publication Number Publication Date
WO2012144227A1 true WO2012144227A1 (ja) 2012-10-26

Family

ID=47041356

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/002740 WO2012144227A1 (ja) 2011-04-22 2012-04-20 音声信号再生装置、音声信号再生方法

Country Status (3)

Country Link
US (1) US9538307B2 (ja)
JP (1) JP5118267B2 (ja)
WO (1) WO2012144227A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203496A1 (ja) * 2013-06-20 2014-12-24 パナソニックIpマネジメント株式会社 音声信号処理装置、および音声信号処理方法
WO2016039168A1 (ja) * 2014-09-12 2016-03-17 ソニー株式会社 音声処理装置および方法
US11968516B2 (en) 2013-04-26 2024-04-23 Sony Group Corporation Sound processing apparatus and sound processing system

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3024253A1 (en) * 2014-11-21 2016-05-25 Harman Becker Automotive Systems GmbH Audio system and method
KR102601478B1 (ko) * 2016-02-01 2023-11-14 삼성전자주식회사 콘텐트를 제공하는 전자 장치 및 그 제어 방법
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
US10602292B2 (en) * 2018-06-14 2020-03-24 Magic Leap, Inc. Methods and systems for audio signal filtering
EP3955590A4 (en) * 2019-04-11 2022-06-08 Sony Group Corporation INFORMATION PROCESSING DEVICE AND METHOD, REPRODUCTION DEVICE AND METHOD, AND PROGRAM
CN114390402B (zh) * 2022-01-04 2024-04-26 杭州老板电器股份有限公司 一种吸油烟机的音频注入控制方法、装置及吸油烟机

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004187300A (ja) * 2002-12-03 2004-07-02 Bose Corp 指向性電気音響変換
JP2008270857A (ja) * 2007-04-16 2008-11-06 Sony Corp 音響再生システム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69319456T2 (de) 1992-01-30 1999-03-25 Matsushita Electric Ind Co Ltd Schallfeldsteuerungssystem
US6853732B2 (en) 1994-03-08 2005-02-08 Sonics Associates, Inc. Center channel enhancement of virtual sound images
US5870484A (en) * 1995-09-05 1999-02-09 Greenberger; Hal Loudspeaker array with signal dependent radiation pattern
KR100416757B1 (ko) * 1999-06-10 2004-01-31 삼성전자주식회사 위치 조절이 가능한 가상 음상을 이용한 스피커 재생용 다채널오디오 재생 장치 및 방법
WO2001006813A1 (fr) 1999-07-15 2001-01-25 Sony Corporation Amplificateur de son et procede d'amplification sonore
US7050596B2 (en) 2001-11-28 2006-05-23 C-Media Electronics, Inc. System and headphone-like rear channel speaker and the method of the same
US7676047B2 (en) 2002-12-03 2010-03-09 Bose Corporation Electroacoustical transducing with low frequency augmenting devices
US20040105550A1 (en) 2002-12-03 2004-06-03 Aylward J. Richard Directional electroacoustical transducing
US7764805B2 (en) 2003-06-02 2010-07-27 Fujitsu Ten Limited Apparatus for generating surround signal from two-channel stereo signal
US6937737B2 (en) 2003-10-27 2005-08-30 Britannia Investment Corporation Multi-channel audio surround sound from front located loudspeakers
JP4273343B2 (ja) * 2005-04-18 2009-06-03 ソニー株式会社 再生装置および再生方法
JP4239026B2 (ja) 2005-05-13 2009-03-18 ソニー株式会社 音響再生方法および音響再生システム
JP4935091B2 (ja) 2005-05-13 2012-05-23 ソニー株式会社 音響再生方法および音響再生システム
JP2006324898A (ja) * 2005-05-18 2006-11-30 Sony Corp オーディオ再生装置
JP4914124B2 (ja) 2006-06-14 2012-04-11 パナソニック株式会社 音像制御装置及び音像制御方法
US7995775B2 (en) * 2006-07-14 2011-08-09 Broadcom Corporation Automatic volume control for audio signals
KR100943215B1 (ko) * 2007-11-27 2010-02-18 한국전자통신연구원 음장 합성을 이용한 입체 음장 재생 장치 및 그 방법
KR101295848B1 (ko) * 2008-12-17 2013-08-12 삼성전자주식회사 어레이스피커 시스템에서 음향을 포커싱하는 장치 및 방법
KR101268779B1 (ko) * 2009-12-09 2013-05-29 한국전자통신연구원 라우드 스피커 어레이를 사용한 음장 재생 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004187300A (ja) * 2002-12-03 2004-07-02 Bose Corp 指向性電気音響変換
JP2008270857A (ja) * 2007-04-16 2008-11-06 Sony Corp 音響再生システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11968516B2 (en) 2013-04-26 2024-04-23 Sony Group Corporation Sound processing apparatus and sound processing system
WO2014203496A1 (ja) * 2013-06-20 2014-12-24 パナソニックIpマネジメント株式会社 音声信号処理装置、および音声信号処理方法
JP5651813B1 (ja) * 2013-06-20 2015-01-14 パナソニックIpマネジメント株式会社 音声信号処理装置、および音声信号処理方法
US9794717B2 (en) 2013-06-20 2017-10-17 Panasonic Intellectual Property Management Co., Ltd. Audio signal processing apparatus and audio signal processing method
WO2016039168A1 (ja) * 2014-09-12 2016-03-17 ソニー株式会社 音声処理装置および方法

Also Published As

Publication number Publication date
US20130343550A1 (en) 2013-12-26
JP5118267B2 (ja) 2013-01-16
JPWO2012144227A1 (ja) 2014-07-28
US9538307B2 (en) 2017-01-03

Similar Documents

Publication Publication Date Title
JP5118267B2 (ja) 音声信号再生装置、音声信号再生方法
KR101368859B1 (ko) 개인 청각 특성을 고려한 2채널 입체 음향 재생 방법 및장치
KR101567461B1 (ko) 다채널 사운드 신호 생성 장치
JP4505058B2 (ja) 記録およびプレイバックにおいて使用するマルチチャンネルオーディオエンファシスシステムおよび同じものを提供する方法
US8477951B2 (en) Front surround system and method of reproducing sound using psychoacoustic models
TWI489887B (zh) 用於喇叭或耳機播放之虛擬音訊處理技術
KR100626233B1 (ko) 스테레오 확장 네트워크에서의 출력의 등화
KR100608024B1 (ko) 다중 채널 오디오 입력 신호를 2채널 출력으로 재생하기위한 장치 및 방법과 이를 수행하기 위한 프로그램이기록된 기록매체
US9607622B2 (en) Audio-signal processing device, audio-signal processing method, program, and recording medium
WO2012042905A1 (ja) 音響再生装置および音響再生方法
US10104470B2 (en) Audio processing device, audio processing method, recording medium, and program
EP2530956A1 (en) Method for generating a surround audio signal from a mono/stereo audio signal
US11388539B2 (en) Method and device for audio signal processing for binaural virtualization
JP5038145B2 (ja) 定位制御装置、定位制御方法、定位制御プログラムおよびコンピュータに読み取り可能な記録媒体
JP4951985B2 (ja) 音声信号処理装置、音声信号処理システム、プログラム
JP2005157278A (ja) 全周囲音場創生装置、全周囲音場創生方法、及び全周囲音場創生プログラム
US9794717B2 (en) Audio signal processing apparatus and audio signal processing method
JP2007336080A (ja) 音響補正装置
JP2007006432A (ja) バイノーラル再生装置
JP6463955B2 (ja) 三次元音響再生装置及びプログラム
WO2020045109A1 (ja) 信号処理装置、信号処理方法、及び、プログラム
JP2016039568A (ja) 音響処理装置および方法、並びにプログラム
JP7332745B2 (ja) 音声処理方法及び音声処理装置
JP2012049652A (ja) マルチチャネルオーディオ再生装置およびマルチチャネルオーディオ再生方法
JP2006319803A (ja) デジタルバスブースト装置及びバーチャルサラウンドデコーダ装置

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2012528581

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12773743

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12773743

Country of ref document: EP

Kind code of ref document: A1