WO2017064840A1 - 音源分離装置および音源分離方法 - Google Patents

音源分離装置および音源分離方法 Download PDF

Info

Publication number
WO2017064840A1
WO2017064840A1 PCT/JP2016/004391 JP2016004391W WO2017064840A1 WO 2017064840 A1 WO2017064840 A1 WO 2017064840A1 JP 2016004391 W JP2016004391 W JP 2016004391W WO 2017064840 A1 WO2017064840 A1 WO 2017064840A1
Authority
WO
WIPO (PCT)
Prior art keywords
crosstalk
signal
microphone
sound
transfer function
Prior art date
Application number
PCT/JP2016/004391
Other languages
English (en)
French (fr)
Inventor
良二 鈴木
宏正 大橋
田中 直也
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to EP16855097.8A priority Critical patent/EP3333850A4/en
Priority to JP2017545086A priority patent/JP6318376B2/ja
Publication of WO2017064840A1 publication Critical patent/WO2017064840A1/ja
Priority to US15/889,279 priority patent/US10290312B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • H04R3/14Cross-over networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present disclosure relates to a sound source separation device that performs signal processing to reduce crosstalk (crosstalk) on a plurality of audio signals collected from a plurality of microphones.
  • Patent Document 1 discloses a sound source separation device that restores a source signal from a mixture of a plurality of signals in a space.
  • This sound source separation device includes means for performing a short-time Fourier transform on an observation signal, means for obtaining a separation matrix at each frequency subjected to short-time Fourier transform by independent component analysis, and a signal extracted by each row of the separation matrix at each frequency.
  • Permutation replacement of the sound source at each frequency
  • those frequencies at which it is determined that the estimation of the arrival direction of the signal is sufficiently reliable Permutation is determined by aligning directions, and means for determining permutation so as to increase the similarity of a separated signal with a nearby frequency at other frequencies. Thereby, the source signal can be restored while solving the permutation.
  • the present disclosure reduces crosstalk for a plurality of audio signals collected from a plurality of microphones by using smaller hardware without calculating a separation matrix that requires a large amount of computation.
  • a sound source separation device that can separate individual audio signals is provided.
  • the sound source separation device includes a first microphone for inputting the first sound, a second microphone for inputting the second sound, and the second sound from the sound signal of the first microphone to the first microphone.
  • a first crosstalk canceller that removes input first crosstalk; a second crosstalk canceller that removes second crosstalk in which the first audio is input to the second microphone from the audio signal of the second microphone; Is provided.
  • the first crosstalk canceller estimates and calculates the first interference signal indicating the degree of the first crosstalk using the audio signal obtained by removing the second crosstalk from the audio signal of the second microphone.
  • One jamming signal is removed from the audio signal of the first microphone.
  • the second crosstalk canceller estimates and calculates the second interference signal indicating the degree of the second crosstalk using the audio signal obtained by removing the first crosstalk from the audio signal of the first microphone, Two interference signals are removed from the audio signal of the second microphone.
  • the sound source separation method in the present disclosure is a sound source separation method performed in a sound source separation device that separates the first sound and the second sound from the sound signal including the first sound and the second sound.
  • the sound source separation device includes a first microphone for inputting the first sound and a second microphone for inputting the second sound, and the sound source separation method uses the second sound from the sound signal of the first microphone. From the first crosstalk canceling step for removing the first crosstalk input to the first microphone and the second crosstalk for the first speaker's voice being input to the second microphone from the audio signal of the second microphone. A second crosstalk canceling step to be removed.
  • the first interference signal indicating the degree of the first crosstalk is estimated using the audio signal obtained by removing the second crosstalk from the audio signal of the second microphone in the second crosstalk cancellation step.
  • the calculated first disturbance signal is removed from the sound signal of the first microphone.
  • the second interference signal indicating the degree of the second crosstalk is estimated using the audio signal obtained by removing the first crosstalk from the audio signal of the first microphone in the first crosstalk cancellation step.
  • the calculated second disturbance signal is removed from the audio signal of the second microphone.
  • a smaller scale is used to separate individual audio signals from audio signals collected from a plurality of microphones without calculating a separation matrix that requires a large amount of calculation.
  • Crosstalk can be reduced using simple hardware.
  • FIG. 1 The figure which shows the example of application of the sound source separation apparatus in Embodiment 1.
  • FIG. 2 Block diagram showing a configuration of a sound source separation apparatus according to Embodiment 2
  • FIG. 1 is a diagram illustrating an application example of the sound source separation device 20 according to the first embodiment.
  • a device a vehicle interior conversation assist device that amplifies and assists bidirectional conversation in the vehicle 10.
  • the sound source separation device 20 is a device that amplifies and assists two-way conversation between the first speaker 11 (here, the driver) and the second speaker 12 (here, the rear passenger).
  • a first microphone 21 for inputting the voice (first voice) of the first speaker 11 is provided on the ceiling of the driver seat, and a first microphone for outputting the voice is provided on the inner side surface of the rear seat.
  • a speaker 22 is provided.
  • a second microphone 23 for inputting the voice of the second speaker 12 (second voice) is provided on the ceiling of the rear seat, and the voice is output on the inner side surfaces of the two front doors.
  • the second speaker 24 is provided.
  • Both the first speaker 11 and the second speaker 12 can remove acoustic noise including crosstalk (crosstalk) even in one narrow space in the car by using the sound source separation device 20. You can enjoy conversation.
  • Crosstalk refers to a phenomenon in which the voice of a certain speaker is input to a microphone for inputting the voice of another person.
  • a phenomenon in which the voice of the second speaker 12 is input to the first microphone 21.
  • the phenomenon in which the voice of the first speaker 11 is input to the second microphone 23.
  • FIG. 2 is a block diagram showing a configuration of the sound source separation device 20 shown in FIG.
  • the sound source separation device 20 includes a first microphone 21, a first speaker 22, a second microphone 23, a second speaker 24, a first crosstalk canceller 50, and a second crosstalk canceller 70.
  • Each component of the sound source separation device 20 is connected by wire or wirelessly.
  • the first crosstalk canceller 50 and the second crosstalk canceller 70 are mounted as part of the head unit of the car 10, for example.
  • the first microphone 21 is a microphone for inputting the voice 36 of the first speaker, and is provided, for example, on the ceiling of the driver's seat of the car 10 as shown in FIG. Note that the audio signal output from the first microphone 21 is, for example, digital audio data generated by a built-in A / D converter.
  • the first speaker 22 is a speaker for outputting the voice 36 of the first speaker.
  • the first speaker 22 is provided on the inner side surfaces on both sides of the rear seat of the car 10.
  • the first speaker 22 converts input digital audio data, which is an audio signal from the first microphone 21, into an analog signal by a built-in D / A converter, and then outputs it as audio.
  • the second microphone 23 is a microphone for inputting the voice 37 of the second speaker, and is provided on the ceiling of the rear seat, for example, as shown in FIG. Note that the audio signal output from the second microphone 23 is, for example, digital audio data generated by a built-in A / D converter.
  • the second speaker 24 is a speaker for outputting the voice 37 of the second speaker, and is provided, for example, on the inner side surfaces of the two front doors of the car 10 as shown in FIG.
  • the first crosstalk canceller 50 uses the output signal of the second crosstalk canceller 70 and a first disturbance signal indicating the degree of the first crosstalk 32 in which the voice of the second speaker 12 is input to the first microphone 21. , And the calculated first disturbance signal is removed from the output signal of the first microphone 21, and the signal after the removal is output to the first speaker 22.
  • the first crosstalk canceller 50 is a digital signal processing circuit that processes digital audio data in the time axis region.
  • the first crosstalk canceller 50 includes a first transfer function storage circuit 54, a first storage circuit 52, a first convolution calculator 53, a first subtractor 51, and a first transfer function update circuit 55. .
  • the first transfer function storage circuit 54 stores the transfer function estimated as the transfer function of the first crosstalk 32.
  • the first storage circuit 52 stores the signal output from the second crosstalk canceller 70.
  • the first convolution calculator 53 generates a first disturbance signal by convolving the signal stored in the first storage circuit 52 and the transfer function stored in the first transfer function storage circuit 54.
  • the first convolution calculator 53 is an N-tap FIR (Finite Impulse Response) filter that performs the convolution calculation shown in the following Expression 1.
  • y1't is the first disturbance signal at time t.
  • N is the number of taps of the FIR filter.
  • H1 (i) t is the i-th transfer function among the N transfer functions stored in the first transfer function storage circuit 54 at time t.
  • x1 (ti) is the (ti) -th signal among the signals stored in the first memory circuit 52.
  • the first subtracter 51 removes the first interference signal output from the first convolution calculator 53 from the output signal of the first microphone 21 and outputs it as the output signal of the first crosstalk canceller 50.
  • the first subtracter 51 performs the subtraction shown in the following Expression 2.
  • e1t is an output signal of the first subtracter 51 at time t.
  • y1t is an output signal of the first microphone 21 at time t.
  • the first transfer function update circuit 55 updates the transfer function stored in the first transfer function storage circuit 54 based on the output signal of the first subtractor 51 and the signal stored in the first storage circuit 52.
  • the first transfer function update circuit 55 is based on the output signal of the first subtractor 51 and the signal stored in the first storage circuit 52 using independent component analysis as shown in the following Expression 3.
  • the transfer function stored in the first transfer function storage circuit 54 is updated so that the output signal of the first subtractor 51 and the signal stored in the first storage circuit 52 are independent of each other.
  • H1 (j) t + 1 is the j-th transfer function among the N transfer functions stored in the first transfer function storage circuit 54 at time t + 1 (that is, after the update).
  • H1 (j) t is the j-th transfer function among the N transfer functions stored in the first transfer function storage circuit 54 at time t (that is, before update).
  • ⁇ 1 is a step size parameter for controlling the learning speed in estimating the transfer function of the first crosstalk 32.
  • ⁇ 1 is a nonlinear function (for example, a sigmoid function (sigmoid function), a hyperbolic tangent function (tanh function), a normalized linear function, or a sign function (sign function)).
  • the first transfer function update circuit 55 performs nonlinear processing using the nonlinear function on the output signal of the first subtractor 51, and the obtained result is stored in the first storage circuit 52.
  • the first update coefficient is calculated by multiplying the signal by the first step size parameter for controlling the learning speed in estimating the transfer function of the first crosstalk 32. Then, the update is performed by adding the calculated first update coefficient to the transfer function stored in the first transfer function storage circuit 54.
  • the second crosstalk canceller 70 uses the output signal of the first crosstalk canceller 50 and a second interference signal indicating the degree of the second crosstalk 35 in which the voice of the first speaker 11 is input to the second microphone 23. , And the calculated second interference signal is removed from the output signal of the second microphone 23 and the signal after the removal is output to the second speaker 24.
  • the second crosstalk canceller 70 is a digital signal processing circuit that processes digital audio data in the time axis domain.
  • the second crosstalk canceller 70 includes a second transfer function storage circuit 74, a second storage circuit 72, a second convolution calculator 73, a second subtractor 71, and a second transfer function update circuit 75. .
  • the second transfer function storage circuit 74 stores the transfer function estimated as the transfer function of the second crosstalk 35.
  • the second storage circuit 72 stores the signal output from the first crosstalk canceller 50.
  • the second convolution calculator 73 generates a second interference signal by convolving the signal stored in the second storage circuit 72 and the transfer function stored in the second transfer function storage circuit 74.
  • the second convolution calculator 73 is an N-tap FIR filter that performs a convolution operation represented by the following Expression 4.
  • y2't is the second disturbing signal at time t.
  • N is the number of taps of the FIR filter.
  • H2 (i) t is the i-th transfer function among the N transfer functions stored in the second transfer function storage circuit 74 at time t.
  • x2 (ti) is the (ti) -th signal among the signals stored in the second memory circuit 72.
  • the second subtracter 71 removes the second interference signal output from the second convolution calculator 73 from the output signal of the second microphone 23 and outputs it as the output signal of the second crosstalk canceller 70.
  • the second subtracter 71 performs the subtraction shown in the following Expression 5.
  • e2t is an output signal of the second subtracter 71 at time t.
  • y2t is an output signal of the second microphone 23 at time t.
  • the second transfer function update circuit 75 updates the transfer function stored in the second transfer function storage circuit 74 based on the output signal of the second subtracter 71 and the signal stored in the second storage circuit 72.
  • the second transfer function update circuit 75 is based on the output signal of the second subtractor 71 and the signal stored in the second storage circuit 72 using independent component analysis as shown in the following Expression 6.
  • the transfer function stored in the second transfer function storage circuit 74 is updated so that the output signal of the second subtracter 71 and the signal stored in the second storage circuit 72 are independent of each other.
  • H2 (j) t + 1 is the j-th transfer function among the N transfer functions stored in the second transfer function storage circuit 74 at time t + 1 (that is, after the update).
  • H2 (j) t is the j-th transfer function among the N transfer functions stored in the second transfer function storage circuit 74 at time t (that is, before update).
  • ⁇ 2 is a step size parameter for controlling the learning speed in estimating the transfer function of the second crosstalk 35.
  • ⁇ 2 is a nonlinear function (for example, a sigmoid function (sigmoid function), a hyperbolic tangent function (tanh function), a normalized linear function, or a sign function (sign function)).
  • the second transfer function update circuit 75 performs nonlinear processing using the nonlinear function on the output signal of the second subtractor 71, and the obtained result is stored in the second storage circuit 72.
  • the second update coefficient is calculated by multiplying the signal by the second step size parameter for controlling the learning speed in estimating the transfer function of the second crosstalk 35. Then, the update is performed by adding the calculated second update coefficient to the transfer function stored in the second transfer function storage circuit 74.
  • the time when the output signal of the second crosstalk canceller 70 is input to the first crosstalk canceller 50 for the voice of the second speaker 12 at the same time is the second time. It is designed to be the same as or earlier than the time when the voice of the speaker 12 is input to the first microphone 21. That is, the causality is maintained so that the first crosstalk canceller 50 can cancel the first crosstalk 32.
  • the time when the output signal of the first crosstalk canceller 50 is input to the second crosstalk canceller 70 for the voice of the first speaker 11 at the same time is the first time. It is designed to be the same as or earlier than the time when the voice of one speaker 11 is input to the second microphone 23. That is, the causality is maintained so that the second crosstalk canceller 70 can cancel the second crosstalk 35.
  • the voice 36 of the first speaker and the voice 37 of the second speaker are processed as follows.
  • the voice 36 of the first speaker is input to the first microphone 21.
  • the first interference signal is removed from the output signal of the first microphone 21 by the first crosstalk canceller 50.
  • the first disturbing signal is a signal indicating (estimating) the degree of the first crosstalk 32. Therefore, the output signal of the first crosstalk canceller 50 is a signal indicating the sound in which the influence of the first crosstalk 32 is removed from the sound input to the first microphone 21.
  • This audio signal is output as audio from the first speaker 22. That is, the output signal of the first crosstalk canceller 50 is an audio signal of the first microphone 21 from which the first crosstalk 32 has been removed and an input signal of the first speaker 22 as shown in FIG.
  • the sound output from the first speaker 22 is the sound from which the influence of the first crosstalk 32 is removed from the sound input to the first microphone 21, that is, the sound 36 of the separated first speaker. It becomes only.
  • the second speaker's voice 37 is input to the second microphone 23.
  • the second interference signal is removed from the output signal of the second microphone 23 by the second crosstalk canceller 70.
  • the second interference signal is a signal indicating (estimated) the degree of the second crosstalk 35. Therefore, the output signal of the second crosstalk canceller 70 is a signal indicating the sound in which the influence of the second crosstalk 35 is removed from the sound input to the second microphone 23.
  • This audio signal is output as audio from the second speaker 24. That is, the output signal of the second crosstalk canceller 70 is an audio signal of the second microphone 23 from which the second crosstalk 35 has been removed and an input signal of the second speaker 24, as shown in FIG.
  • the sound output from the second speaker 24 is the sound from which the influence of the second crosstalk 35 is removed from the sound input to the second microphone 23, that is, the separated second speaker's sound 37. It becomes only.
  • the degree to which the voice 36 of the first speaker and the voice 37 of the second speaker are separated is the accuracy of the transfer function held in the first crosstalk canceller 50 and the second crosstalk canceller 70, and the above equation 3 Needless to say, it depends on parameters and the like in the transfer function update equation shown in equation (6).
  • the sound source separation device 20 includes the first microphone 21 and the first crosstalk canceller 50.
  • the voice of the second speaker 12 is input to the first microphone 21 at the time when the signal is input to the first crosstalk canceller 50 for the voice of the second speaker 12 at the same time. It is designed to be the same as or earlier than the starting time. Therefore, the first crosstalk canceller 50 estimates the first crosstalk 32 in which the voice of the second speaker 12 is input to the first microphone 21 and removes it from the output signal of the first microphone 21.
  • the first speaker's voice 36 and the second speaker's 12 voice input to the first microphone 21 using the first crosstalk canceller 50 that is an adaptive filter. Since only the first speaker's voice 36 is extracted by separation, it is possible to suppress the voice from the first crosstalk 32 from being amplified from the first speaker 22 by relatively small hardware.
  • the sound source separation device 20 in the present embodiment includes a second microphone 23 and a second crosstalk canceller 70.
  • the voice of the first speaker 11 is input to the second microphone 23 at the time when the signal is input to the second crosstalk canceller 70 for the voice of the first speaker 11 at the same time. It is designed to be the same as or earlier than the starting time. Accordingly, the second crosstalk canceller 70 estimates the second crosstalk 35 in which the voice of the first speaker 11 is input to the second microphone 23 and removes it from the output signal of the second microphone 23.
  • the second speaker's voice 37 and the first speaker's 11 voice (second crosstalk 35) input to the second microphone 23 are used using the second crosstalk canceller 70, which is an adaptive filter. Since only the second speaker's voice 37 is extracted in isolation, the voice from the second crosstalk 35 is prevented from being amplified from the second speaker 24 without increasing hardware.
  • the first transfer function update circuit 55 updates the transfer function according to the above equation 3, but updates the transfer function according to the normalized equation as shown in the following equation 7 or 8. May be.
  • N is the number of transfer functions stored in the first transfer function storage circuit 54.
  • is the absolute value of x1 (t ⁇ i).
  • the update of the estimated transfer function by the first transfer function update circuit 55 is stably performed without depending on the amplitude of the input signal x1 (tj).
  • the second transfer function update circuit 75 updates the transfer function according to the above equation 6, but may update the transfer function according to the normalized equation as shown in the following equation 9 or 10. .
  • N is the number of transfer functions stored in the second transfer function storage circuit 74.
  • the update of the estimated transfer function by the second transfer function update circuit 75 is stably performed without depending on the amplitude of the input signal x2 (tj).
  • the above embodiment is an application example of the sound source separation device to the vehicle interior conversation assist device, but the sound source separation device is not limited to the vehicle interior conversation assist device, and may be applied to a voice recognition device. More specifically, the speech signal of each speaker is separated by the above sound source separation device, and the speech signal of each separated speaker is processed by the speech recognition device, so that speech recognition with higher accuracy can be performed. It can be carried out.
  • a speaker when applying a sound source separation apparatus to a speech recognition apparatus, a speaker is not essential unlike the case where it applies to a vehicle interior conversation assistance apparatus.
  • the above embodiment may be realized as a sound source separation method as follows. That is, the sound source separation method separates the first speaker's voice 36 and the second speaker's voice 37 in the sound source separation device.
  • the sound source separation device includes a first microphone 21 for inputting the first speaker's voice 36 and a second microphone 23 for inputting the second speaker's voice 37.
  • the sound source separation method includes a first crosstalk cancellation step and a second crosstalk cancellation step.
  • the calculated first disturbance signal is removed from the output signal of the first microphone 21.
  • the output signal of the first crosstalk cancellation step may be output from the speaker as a voice signal from which only the voice 36 of the first speaker is separated, or may be processed by a voice recognition device.
  • the calculated second interference signal is removed from the output signal of the second microphone 23.
  • the output signal of the second crosstalk cancellation step may be output from the speaker as a voice signal from which only the second speaker's voice 37 is separated, or may be processed by a voice recognition device.
  • Such a sound source separation method is performed by, for example, a processor that executes a program. That is, the first crosstalk canceller 50 and the second crosstalk canceller 70 in the above embodiment may be realized by a processor that executes a program.
  • Such a sound source separation method may be realized by a program recorded on a computer-readable recording medium such as a CD-ROM.
  • the sound source separation apparatus according to the present embodiment is applied to an apparatus that amplifies and assists a bidirectional conversation between a first speaker and a second speaker, similarly to the sound source separation apparatus according to the first embodiment.
  • the indirect first cross in which the voice of the second speaker 12 output from the second speaker 24 is input to the first microphone 21 in addition to the first crosstalk 32 and the second crosstalk 35 in the first embodiment, the indirect first cross in which the voice of the second speaker 12 output from the second speaker 24 is input to the first microphone 21.
  • a device suitable for the case where the sound coupling of the talk 32a and the first speaker 11 output from the first speaker 22 is so large that the indirect second crosstalk 35a input to the second microphone 23 cannot be ignored. It is.
  • FIG. 3 is a block diagram illustrating a configuration of the sound source separation device 20a according to the second embodiment.
  • the configuration of the sound source separation device 20a is substantially the same as the configuration of the sound source separation device 20 in the first embodiment.
  • the same components as those in the first embodiment are denoted by the same reference numerals as those in the first embodiment, and description thereof is omitted.
  • the sound source separation device 20a includes a first microphone 21, a first speaker 22, a second microphone 23, a second speaker 24, a first crosstalk canceller 50, and a second crosstalk canceller 70. All the constituent elements are substantially equivalent to the corresponding constituent elements of the sound source separation apparatus 20 in the first embodiment. However, the sound source separation apparatus 20a has a first transfer function storage circuit as compared with the sound source separation apparatus 20. 54 and the transfer functions stored in the second transfer function storage circuit 74 are different.
  • the first transfer function storage circuit 54 stores a transfer function estimated as a transfer function in which the first crosstalk 32 and the indirect first crosstalk 32a are combined.
  • the first crosstalk canceller 50 estimates the first interference signal indicating the degree of the combination of the first crosstalk 32 and the indirect first crosstalk 32a using the output signal of the second crosstalk canceller 70.
  • the calculated first disturbance signal is removed from the output signal of the first microphone 21, and the signal after removal is output to the first speaker 22.
  • the second transfer function storage circuit 74 stores a transfer function estimated as a transfer function that combines the second crosstalk 35 and the indirect second crosstalk 35a.
  • the second crosstalk canceller 70 estimates the second interference signal indicating the degree to which the second crosstalk 35 and the indirect second crosstalk 35a are combined, using the output signal of the first crosstalk canceller 50.
  • the calculated second interference signal is removed from the output signal of the second microphone 23, and the signal after removal is output to the second speaker 24.
  • the first microphone 21 and the second speaker 24 are the first indirect first crosstalk in which the voice of the second speaker 12 output from the second speaker 24 is input to the first microphone 21. It is installed in an environment where acoustic coupling is so large that 32a cannot be ignored.
  • the second speaker 24 is provided at a position for outputting sound toward the direction in which the first microphone 21 is present (or has such directivity characteristics of sound output).
  • the second microphone 23 and the first speaker 22 are such that the indirect second crosstalk 35a in which the voice of the first speaker 11 output from the first speaker 22 is input to the second microphone 23 cannot be ignored.
  • the first speaker 22 is provided at a position for outputting sound toward the direction in which the second microphone 23 is present (or has such directivity characteristics of sound output).
  • the voice 36 of the first speaker and the voice 37 of the second speaker are processed as follows.
  • the voice 36 of the first speaker is input to the first microphone 21.
  • the first interference signal is removed from the output signal of the first microphone 21 by the first crosstalk canceller 50.
  • the first disturbing signal is a signal indicating (estimated) the degree to which the first crosstalk 32 and the indirect first crosstalk 32a are combined. Therefore, the output signal of the first crosstalk canceller 50 is a signal indicating the sound in which the influence of the first crosstalk 32 and the indirect first crosstalk 32a is removed from the sound input to the first microphone 21.
  • This audio signal is output as audio from the first speaker 22. That is, the output signal of the first crosstalk canceller 50 is an audio signal of the first microphone 21 from which the first crosstalk 32 and the indirect first crosstalk 32a are removed, as shown in FIG. Is an input signal.
  • the sound output from the first speaker 22 is the sound from which the influence of the first crosstalk 32 and the indirect first crosstalk 32a is removed from the sound input to the first microphone 21, that is, separated. Only the voice 36 of the first speaker is obtained.
  • the second speaker's voice 37 is input to the second microphone 23.
  • the second interference signal is removed from the output signal of the second microphone 23 by the second crosstalk canceller 70.
  • the second interference signal is a signal indicating (estimated) the degree to which the second crosstalk 35 and the indirect second crosstalk 35a are combined. Therefore, the output signal of the second crosstalk canceller 70 is a signal indicating the sound in which the influence of the second crosstalk 35 and the indirect second crosstalk 35a is removed from the sound input to the second microphone 23.
  • This audio signal is output as audio from the second speaker 24. That is, the output signal of the second crosstalk canceller 70 is an audio signal of the second microphone 23 from which the second crosstalk 35 and the indirect second crosstalk 35a are removed, as shown in FIG. Is an input signal.
  • the sound output from the second speaker 24 is the sound from which the influence of the second crosstalk 35 and the indirect second crosstalk 35a is removed from the sound input to the second microphone 23, that is, separated. Only the voice 37 of the second speaker is provided.
  • the sound source separation device 20a in the present embodiment is in addition to the first crosstalk 32 and the second crosstalk 35 removal function of the sound source separation device 20 in the first embodiment, and the indirect first crosstalk 32a and indirect second crosstalk 32a. 2 has a function of removing the crosstalk 35a. Therefore, as in the first embodiment, the indirect first crosstalk 32a and the indirect second crosstalk 35a can be removed with relatively small hardware that does not use the conventional separation matrix.
  • the function of removing the indirect first crosstalk 32a is necessary when the first microphone 21 and the second speaker 24 are installed in an environment where the acoustic coupling is large enough that the indirect first crosstalk 32a cannot be ignored.
  • the function of removing the two crosstalk 35a is necessary when the second microphone 23 and the first speaker 22 are installed in an environment where acoustic coupling is large enough that the indirect second crosstalk 35a cannot be ignored.
  • the above embodiment is a sound source separation device, it may be realized as the following sound source separation method. That is, the sound source separation method separates the voice of the first speaker 11 and the voice of the second speaker 12 in the sound source separation device.
  • the sound source separation device inputs a first microphone 21 for inputting the first speaker's voice 36, a first speaker 22 for outputting the first speaker's voice 36, and a second speaker's voice 37. And a second speaker 24 for outputting the voice 37 of the second speaker.
  • the sound source separation method includes a first crosstalk cancellation step and a second crosstalk cancellation step.
  • the output of the second crosstalk cancellation step is used to output the voice of the second speaker 12 from the first microphone 21 and the second speaker 24.
  • the first disturbing signal indicating the degree to which the voice of the second speaker 12 is combined with the indirect first crosstalk 32a input to the first microphone 21 is estimated and calculated. Then, the calculated first disturbance signal is removed from the output signal of the first microphone 21, and the signal after removal is output to the first speaker 22.
  • the output of the first crosstalk cancellation step is used to output the voice of the first speaker 11 from the first speaker 22 and the second crosstalk 35 input to the second microphone 23.
  • the second disturbing signal indicating the degree to which the voice of the first speaker 11 is combined with the indirect second crosstalk 35a input to the second microphone 23 is estimated and calculated. Then, the calculated second disturbance signal is removed from the output signal of the second microphone 23, and the signal after the removal is output to the second speaker 24.
  • Such a sound source separation method is performed by, for example, a processor that executes a program. That is, the first crosstalk canceller 50 and the second crosstalk canceller 70 in the above embodiment may be realized by a processor that executes a program.
  • Such a sound source separation method may be realized by a program recorded on a computer-readable recording medium such as a CD-ROM.
  • the sound source separation apparatus according to Embodiment 3 will be described.
  • the sound source separation device in the present embodiment is used when the conversation in which the third speaker participates in addition to the first speaker and the second speaker is assisted. This is a device suitable for separating the voices of individual speakers.
  • FIG. 4 is a block diagram illustrating a configuration of the sound source separation device 20b according to the third embodiment.
  • the sound source separation device 20b includes the third microphone 25, the third speaker 26, the third crosstalk canceller 80, the fourth crosstalk canceller 150, the fifth crosstalk canceller 170, and the sound source separation device 20 according to the first embodiment.
  • a sixth crosstalk canceller 180 is added.
  • the first microphone 21, the second microphone 23, the first speaker 22, the second speaker 24, the first crosstalk canceller 50, and the second crosstalk canceller 70 correspond to the corresponding components of the sound source separation device 20 according to the first embodiment. Is substantially equivalent.
  • the same components as those in the first embodiment are denoted by the same reference numerals as those in the first embodiment, and description thereof is omitted.
  • the third microphone 25 is a microphone for inputting the voice (third voice) of the third speaker 13, and is provided, for example, on the ceiling of the rear seat (not shown). Note that the audio signal output from the third microphone 25 is, for example, digital audio data generated by a built-in A / D converter.
  • the third speaker 26 is a speaker for outputting the voice 38 of the third speaker, and is provided, for example, on the inner side surfaces of the two front doors of the car 10 (not shown).
  • the third speaker 26 converts the input digital audio data into an analog signal by a built-in D / A converter, and then outputs it as audio.
  • the third crosstalk canceller 80 uses the output signal of the fifth crosstalk canceller 170 to provide a third interference signal indicating the degree of the third crosstalk 131 in which the voice of the second speaker 12 is input to the third microphone 25.
  • the third interference signal thus calculated is removed from the output signal of the third microphone 25, and the signal after the removal is output to the sixth crosstalk canceller 180.
  • the third crosstalk canceller 80 is a digital signal processing circuit that processes digital audio data in the time axis region.
  • the third crosstalk canceller 80 includes a third transfer function storage circuit 84, a third storage circuit 82, a third convolution calculator 83, a third subtractor 81, and a third transfer function update circuit 85. .
  • the third transfer function storage circuit 84 stores the transfer function estimated as the transfer function of the third crosstalk 131.
  • the third crosstalk canceller 80 is substantially the same in configuration and basic operation of signal processing as compared with the first crosstalk canceller 50, and uses the transfer function stored in the third transfer function storage circuit 84. Signal processing.
  • the fourth crosstalk canceller 150 uses the output signal of the sixth crosstalk canceller 180 and a fourth interference signal indicating the degree of the fourth crosstalk 132 in which the voice of the third speaker 13 is input to the first microphone 21. , And the calculated fourth interference signal is removed from the output signal of the first crosstalk canceller 50, and the signal after removal is output to the first speaker 22.
  • the fourth crosstalk canceller 150 is a digital signal processing circuit that processes digital audio data in the time axis domain.
  • the fourth crosstalk canceller 150 includes a fourth transfer function storage circuit 154, a fourth storage circuit 152, a fourth convolution calculator 153, a fourth subtractor 151, and a fourth transfer function update circuit 155. .
  • the fourth transfer function storage circuit 154 stores the transfer function estimated as the transfer function of the fourth crosstalk 132.
  • the fourth crosstalk canceller 150 is substantially the same in configuration and basic operation of signal processing as compared with the first crosstalk canceller 50, and uses the transfer function stored in the fourth transfer function storage circuit 154. Signal processing.
  • the fifth crosstalk canceller 170 uses the output signal of the sixth crosstalk canceller 180 and a fifth interference signal indicating the degree of the fifth crosstalk 133 in which the voice of the third speaker 13 is input to the second microphone 23. , And the calculated fifth interference signal is removed from the output signal of the second crosstalk canceller 70, and the signal after the removal is output to the second speaker 24.
  • the fifth crosstalk canceller 170 is a digital signal processing circuit that processes digital audio data in the time axis domain.
  • the fifth crosstalk canceller 170 includes a fifth transfer function storage circuit 174, a fifth storage circuit 172, a fifth convolution calculator 173, a fifth subtractor 171, and a fifth transfer function update circuit 175. .
  • the fifth transfer function storage circuit 174 stores the transfer function estimated as the transfer function of the fifth crosstalk 133.
  • the fifth crosstalk canceller 170 is substantially the same in configuration and basic operation of signal processing as compared with the first crosstalk canceller 50, and uses the transfer function stored in the fifth transfer function storage circuit 174. Signal processing.
  • the sixth crosstalk canceller 180 uses the output signal of the fourth crosstalk canceller 150 and uses the output signal of the fourth crosstalk canceller 150 to indicate a sixth interference signal indicating the degree of the sixth crosstalk 134 that is input to the third microphone 25. , And the calculated sixth interference signal is removed from the output signal of the third crosstalk canceller 80, and the signal after the removal is output to the third speaker 26.
  • the sixth crosstalk canceller 180 is a digital signal processing circuit that processes digital audio data in the time axis region.
  • the sixth crosstalk canceller 180 includes a sixth transfer function storage circuit 184, a sixth storage circuit 182, a sixth convolution calculator 183, a sixth subtractor 181, and a sixth transfer function update circuit 185. .
  • the sixth transfer function storage circuit 184 stores the transfer function estimated as the transfer function of the sixth crosstalk 134.
  • the sixth crosstalk canceller 180 is substantially the same in configuration and basic operation of signal processing as compared with the first crosstalk canceller 50, and uses the transfer function stored in the sixth transfer function storage circuit 184. Signal processing.
  • the first speaker's voice 36, the second speaker's voice 37, and the third speaker's voice 38 are processed as follows.
  • the voice 36 of the first speaker is input to the first microphone 21.
  • the first interference signal is removed from the output signal of the first microphone 21 by the first crosstalk canceller 50.
  • the first disturbing signal is a signal indicating (estimating) the degree of the first crosstalk 32. Therefore, the output signal of the first crosstalk canceller 50 is a signal indicating the sound in which the influence of the first crosstalk 32 is removed from the sound input to the first microphone 21.
  • This audio signal is input to the fourth crosstalk canceller 150. That is, the output signal of the first crosstalk canceller 50 is an audio signal of the first microphone 21 from which the first crosstalk 32 has been removed, and is an input signal of the fourth crosstalk canceller 150, as shown in FIG. .
  • the fourth interference signal is removed by the fourth crosstalk canceller 150.
  • the fourth interference signal is a signal indicating (estimated) the degree of the fourth crosstalk 132. Therefore, the output signal of the fourth crosstalk canceller 150 is a signal indicating the sound in which the influence of the fourth crosstalk 132 is removed from the output signal of the first crosstalk canceller 50. This signal is output as sound from the first speaker 22. That is, the output signal of the fourth crosstalk canceller 150 is an audio signal of the first microphone 21 from which the first crosstalk 32 and the fourth crosstalk 132 are removed, as shown in FIG. Input signal.
  • the sound output from the first speaker 22 is the sound from which the influence of the first crosstalk 32 and the fourth crosstalk 132 is removed from the sound input to the first microphone 21, that is, substantially separated. Only the first speaker's voice 36 is given.
  • the second speaker's voice 37 is input to the second microphone 23.
  • the second interference signal is removed from the output signal of the second microphone 23 by the second crosstalk canceller 70.
  • the second interference signal is a signal indicating (estimated) the degree of the second crosstalk 35. Therefore, the output signal of the second crosstalk canceller 70 is a signal indicating the sound in which the influence of the second crosstalk 35 is removed from the sound input to the second microphone 23.
  • This audio signal is input to the fifth crosstalk canceller 170. That is, the output signal of the second crosstalk canceller 70 is an audio signal of the second microphone 23 from which the second crosstalk 35 has been removed and an input signal of the fifth crosstalk canceller 170, as shown in FIG. .
  • the fifth interference signal is removed by the fifth crosstalk canceller 170.
  • the fifth interference signal is a signal indicating (estimated) the degree of the fifth crosstalk 133. Therefore, the output signal of the fifth crosstalk canceller 170 is a signal indicating the sound in which the influence of the fifth crosstalk 133 is removed from the output signal of the second crosstalk canceller 70. This signal is output as sound from the second speaker 24. That is, the output signal of the fifth crosstalk canceller 170 is an audio signal of the second microphone 23 from which the second crosstalk 35 and the fifth crosstalk 133 are removed, as shown in FIG. Input signal.
  • the sound output from the second speaker 24 is the sound from which the influence of the second crosstalk 35 and the fifth crosstalk 133 is removed from the sound input to the second microphone 23, that is, substantially separated. Only the second speaker's voice 37 is obtained.
  • the voice 38 of the third speaker is input to the third microphone 25.
  • the third interference signal is removed from the output signal of the third microphone 25 by the third crosstalk canceller 80.
  • the third interference signal is a signal indicating (estimated) the degree of the third crosstalk 131. Therefore, the output signal of the third crosstalk canceller 80 is a signal indicating the sound in which the influence of the third crosstalk 131 is removed from the sound input to the third microphone 25.
  • This audio signal is input to the sixth crosstalk canceller 180. That is, the output signal of the third crosstalk canceller 80 is an audio signal of the third microphone 25 from which the third crosstalk 131 has been removed and an input signal of the sixth crosstalk canceller 180, as shown in FIG. .
  • the sixth interference signal is removed from the output signal of the third crosstalk canceller 80 by the sixth crosstalk canceller 180.
  • the sixth disturbing signal is a signal indicating (estimated) the degree of the sixth crosstalk 134. Therefore, the output signal of the sixth crosstalk canceller 180 becomes a signal indicating the sound in which the influence of the sixth crosstalk 134 is removed from the output signal of the third crosstalk canceller 80. This signal is output as sound from the third speaker 26. That is, the output signal of the sixth crosstalk canceller 180 is an audio signal of the third microphone 25 from which the third crosstalk 131 and the sixth crosstalk 134 are removed, as shown in FIG. Input signal.
  • the sound output from the third speaker 26 is the sound from which the influence of the third crosstalk 131 and the sixth crosstalk 134 is removed from the sound input to the third microphone 25, that is, substantially separated. Only the voice 38 of the third speaker who has been made is obtained.
  • the sound source separation device 20b in the present embodiment is in addition to the first crosstalk 32 and second crosstalk 35 removal function of the sound source separation device 20 in the first embodiment, and the first speaker 11 and the second story.
  • the above embodiment is an application example of the sound source separation device to the vehicle interior conversation assist device, but the sound source separation device is not limited to the vehicle interior conversation assist device, and may be applied to a voice recognition device. More specifically, the speech signal of each speaker is separated by the above sound source separation device, and the speech signal of each separated speaker is processed by the speech recognition device, so that speech recognition with higher accuracy can be performed. It can be carried out.
  • a speaker when applying a sound source separation apparatus to a speech recognition apparatus, a speaker is not essential unlike the case where it applies to a vehicle interior conversation assistance apparatus.
  • the above embodiment is a sound source separation device, it may be realized as the following sound source separation method. That is, this is a sound source separation method for separating the sound of the first speaker 11, the sound of the second speaker 12, and the sound of the third speaker 13 in the sound source separation device.
  • the sound source separation device inputs the first microphone 21 for inputting the first speaker's voice 36, the second microphone 23 for inputting the second speaker's voice 37, and the third speaker's voice 38. And a third microphone 25.
  • the sound source separation method includes a first crosstalk cancel step, a second crosstalk cancel step, a third crosstalk cancel step, a fourth crosstalk cancel step, a fifth crosstalk cancel step, and a sixth crosstalk cancel. Steps.
  • the calculated first disturbance signal is removed from the output signal of the first microphone 21, and the signal after removal is output.
  • the calculated second interference signal is removed from the output signal of the second microphone 23, and the signal after removal is output.
  • the calculated third interference signal is removed from the output signal of the third microphone 25, and the signal after the removal is output.
  • the calculated fourth interference signal is removed from the output signal of the first crosstalk cancellation step, and the signal after removal is output.
  • the calculated fifth interference signal is removed from the output signal of the second crosstalk cancellation step, and the signal after removal is output.
  • the calculated sixth interference signal is removed from the output signal of the third crosstalk cancellation step, and the signal after removal is output.
  • Such a sound source separation method is performed by, for example, a processor that executes a program. That is, the first crosstalk canceller 50, the second crosstalk canceller 70, the third crosstalk canceller 80, the fourth crosstalk canceller 150, the fifth crosstalk canceller 170, and the sixth crosstalk canceller 180 in the above embodiment are It may be realized by a processor that executes a program.
  • Such a sound source separation method may be realized by a program recorded on a computer-readable recording medium such as a CD-ROM.
  • the order of the first crosstalk cancellation step executed in the first crosstalk canceller 50 and the fourth crosstalk cancellation step executed in the fourth crosstalk canceller 150 may be switched. . That is, the output signal of the first microphone 21 is input to the fourth crosstalk canceller 150, and the fourth interference signal is removed.
  • the output signal of the fourth crosstalk canceller 150 becomes an audio signal of the first microphone 21 from which the fourth interference signal has been removed, and is input to the first crosstalk canceller 50, where the first interference signal is removed.
  • the output signal of the first crosstalk canceller 50 is an audio signal of the first microphone 21 from which the fourth interference signal and the first interference signal have been removed, and is input to the first speaker 22.
  • the order of the second crosstalk cancellation step executed in the second crosstalk canceller 70 and the fifth crosstalk cancellation step executed in the fifth crosstalk canceller 170 may be interchanged. That is, the output signal of the second microphone 23 is input to the fifth crosstalk canceller 170, and the fifth interference signal is removed.
  • the output signal of the fifth crosstalk canceller 170 becomes an audio signal of the second microphone 23 from which the fifth interference signal has been removed, and is input to the second crosstalk canceller 70, where the second interference signal is removed.
  • the output signal of the second crosstalk canceller 70 is input to the second speaker 24 as an audio signal of the second microphone 23 from which the fifth jamming signal and the second jamming signal have been removed.
  • the order of the third crosstalk cancellation step executed in the third crosstalk canceller 80 and the sixth crosstalk cancellation step executed in the sixth crosstalk canceller 180 may be interchanged. That is, the output signal of the third microphone 25 is input to the sixth crosstalk canceller 180, and the sixth interference signal is removed.
  • the output signal of the sixth crosstalk canceller 180 becomes an audio signal of the third microphone 25 from which the sixth interference signal has been removed, and is input to the third crosstalk canceller 80, where the third interference signal is removed.
  • the output signal of the third crosstalk canceller 80 is an audio signal of the third microphone 25 from which the sixth disturbance signal and the third disturbance signal have been removed, and is input to the third speaker 26.
  • Embodiments 1 to 3 and modifications have been described as examples of the technology disclosed in the present application.
  • the technology in the present disclosure is not limited to these, and can also be applied to embodiments in which changes, replacements, additions, omissions, and the like are appropriately performed.
  • each of the convolution calculators included in the first crosstalk canceller 50 and the second crosstalk canceller 70 performs a convolution operation using an N-tap FIR filter as an example.
  • Each may be a different type of digital filter with a different number of taps.
  • what kind of digital filter is used may be appropriately designed independently depending on the transfer function of the acoustic noise to be canceled.
  • the transfer function update algorithms by the transfer function update circuits included in the first crosstalk canceller 50 and the second crosstalk canceller 70 are as shown in the above formulas 3 and 6.
  • the same algorithm may be used, or the same algorithm may be used, but the step size parameter may be different, or different algorithms may be used. That is, the transfer function update algorithm may be designed independently as appropriate depending on the magnitude of the acoustic noise to be canceled.
  • the type incorporated in the car, the type attached to the car, etc. were mentioned as an example of the microphone and the speaker with which the sound source separation device is provided, it is not limited to these, and a portable type such as a smartphone.
  • the microphone and / or speaker which an information terminal has may be sufficient.
  • the voice of a rear occupant in a car is picked up by a smartphone as the second microphone 23 (rear microphone), wirelessly transmitted to the head unit (sound source separation device), and crossed from the front speaker as the second speaker 24 Loudspeak while suppressing talk.
  • the driver's voice collected by the front microphone as the first microphone 21 is wirelessly transmitted to the rear passenger's smartphone, and crosstalk is suppressed from the speaker of the smartphone as the first speaker 22 (rear speaker). Amplify in state. As a result, the rear occupant can smoothly talk with the driver using the smartphone, and the rear microphone and the rear speaker in the vehicle are not necessary.
  • a sound source separation device using a microphone and / or a speaker included in such a portable information terminal such as a smartphone is also useful as a PA (Public Address) system used in a lecture or the like.
  • PA Public Address
  • the voice of the questioner in the lecture can be picked up by his / her smartphone and transferred to the PA system wirelessly, and can be amplified with crosstalk suppressed.
  • the time required for handing over the microphone to the questioner is reduced, and the question-and-answer session is carried out smoothly and the lecture can proceed smoothly.
  • the present disclosure can be applied to a sound source separation device that performs signal processing to reduce crosstalk (crosstalk) on audio signals collected from a plurality of microphones.
  • the present disclosure can be applied to a voice recognition device, a hands-free phone, a conversation assistance device, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

音源分離装置は、第1音声を入力するための第1マイクと、第2音声を入力するための第2マイクと、第1マイクの音声信号から、第2音声が第1マイクに入力される第1クロストークを除去する第1クロストークキャンセラと、第2マイクの音声信号から、第1音声が第2マイクに入力される第2クロストークを除去する第2クロストークキャンセラと、を備える。第1クロストークキャンセラは、第2マイクの音声信号から第2クロストークが除去された音声信号を用いて、第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を第1マイクの音声信号から除去する。第2クロストークキャンセラは、第1マイクの音声信号から第1クロストークが除去された音声信号を用いて、第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を第2マイクの音声信号から除去する。

Description

音源分離装置および音源分離方法
 本開示は、複数のマイクから収音された複数の音声信号に対してクロストーク(漏話)を減らす信号処理を施す音源分離装置に関する。
 特許文献1は、複数の信号が空間内で混合されたものから、源信号を復元する音源分離装置を開示する。この音源分離装置は、観測信号を短時間フーリエ変換する手段と、独立成分分析により短時間フーリエ変換した各周波数での分離行列を求める手段と、各周波数での分離行列の各行により取り出される信号の到来方向を推定する手段と、その推定値が十分に信頼できるかどうかを判定する手段と、短時間フーリエ変換した周波数間での分離信号の類似度を計算する手段と、を備える。そして、さらに、各周波数で分離行列を求めた後でパーミュテーション(各周波数における音源の置換)を解決する際に、信号の到来方向の推定が十分に信頼できると判定された周波数ではそれらの方向を揃えることでパーミュテーションを決定し、その他の周波数では近傍の周波数との分離信号の類似度を高めるようにパーミュテーションを決定していく手段を備える。これにより、パーミュテーションを解決しながら源信号を復元することができる。
特開2004-145172号公報
 本開示は、大きな演算量が必要となる分離行列の算出を行うことなく、より小規模なハードウェアを用いて、複数のマイクから収音された複数の音声信号に対してクロストークを減らすことにより個別の音声信号を分離できる音源分離装置を提供する。
 本開示における音源分離装置は、第1音声を入力するための第1マイクと、第2音声を入力するための第2マイクと、第1マイクの音声信号から、第2音声が第1マイクに入力される第1クロストークを除去する第1クロストークキャンセラと、第2マイクの音声信号から、第1音声が第2マイクに入力される第2クロストークを除去する第2クロストークキャンセラと、を備える。第1クロストークキャンセラは、第2マイクの音声信号から第2クロストークが除去された音声信号を用いて、第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイクの音声信号から除去する。第2クロストークキャンセラは、第1マイクの音声信号から第1クロストークが除去された音声信号を用いて、第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイクの音声信号から除去する。
 本開示における音源分離方法は、第1音声と第2音声とを含む音声信号から第1音声と第2音声とを分離する音源分離装置において行われる音源分離方法である。音源分離装置は、第1音声を入力するための第1マイクと、第2音声を入力するための第2マイクと、を備え、音源分離方法は、第1マイクの音声信号から、第2音声が第1マイクに入力される第1クロストークを除去する第1クロストークキャンセルステップと、第2マイクの音声信号から、第1話者の音声が第2マイクに入力される第2クロストークを除去する第2クロストークキャンセルステップと、を含む。第1クロストークキャンセルステップでは、第2クロストークキャンセルステップにおいて第2マイクの音声信号から第2クロストークが除去された音声信号を用いて、第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイクの音声信号から除去する。第2クロストークキャンセルステップでは、第1クロストークキャンセルステップにおいて第1マイクの音声信号から第1クロストークが除去された音声信号を用いて、第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイクの音声信号から除去する。
 本開示における音源分離装置によれば、大きな演算量が必要となる分離行列の算出を行うことなく、複数のマイクから収音された音声信号から個別の音声信号を分離するために、より小規模なハードウェアを用いてクロストークを軽減できる。
実施の形態1における音源分離装置の適用例を示す図 図1に示された音源分離装置の構成を示すブロック図 実施の形態2における音源分離装置の構成を示すブロック図 実施の形態3における音源分離装置の構成を示すブロック図
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、発明者らは、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
 (実施の形態1)
 以下、図1及び図2を用いて、実施の形態1を説明する。
 [1-1.適用例]
 図1は、実施の形態1における音源分離装置20の適用例を示す図である。ここでは、音源分離装置20を車10における双方向の会話を拡声して補助する装置(車室内会話補助装置)に適用した例が示されている。
 音源分離装置20は、第1話者11(ここでは、運転者)と第2話者12(ここでは、後部乗員)による双方向の会話を拡声して補助する装置である。運転席の天井には、第1話者11の音声(第1音声)を入力するための第1マイク21が設けられ、後部座席横の内側面には、その音声を出力するための第1スピーカ22が設けられている。また、後部座席の天井には、第2話者12の音声(第2音声)を入力するための第2マイク23が設けられ、2つの前扉の内側面には、その音声を出力するための第2スピーカ24が設けられている。
 第1話者11と第2話者12とは、この音源分離装置20を用いることで、車における一つの狭い空間であっても、クロストーク(漏話)を含む音響的雑音が除去された双方向会話を楽しむことができる。なお、クロストークとは、ある話者の音声が他人の音声を入力するためのマイクに入力される現象をいい、ここでは、第2話者12の音声が第1マイク21に入力される現象、及び、第1話者11の音声が第2マイク23に入力される現象である。
 [1-2.構成]
 図2は、図1に示された音源分離装置20の構成を示すブロック図である。この音源分離装置20は、第1マイク21、第1スピーカ22、第2マイク23、第2スピーカ24、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70を備える。なお、音源分離装置20の各構成要素は、有線又は無線で接続されている。また、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70は、例えば、車10のヘッドユニットの一部として実装される。
 第1マイク21は、第1話者の音声36を入力するためのマイクであり、例えば、図1に示されるように、車10の運転席の天井に設けられる。なお、第1マイク21から出力される音声信号は、例えば、内蔵のA/D変換器で生成されるデジタル音声データである。
 第1スピーカ22は、第1話者の音声36を出力するためのスピーカであり、例えば、図1に示されるように、車10の後部座席横の両側の内側面に設けられる。なお、第1スピーカ22は、例えば、第1マイク21からの音声信号である入力されたデジタル音声データを内蔵のD/A変換器でアナログ信号に変換した後に音声として出力する。
 第2マイク23は、第2話者の音声37を入力するためのマイクであり、例えば、図1に示されるように、後部座席の天井に設けられる。なお、第2マイク23から出力される音声信号は、例えば、内蔵のA/D変換器で生成されるデジタル音声データである。
 第2スピーカ24は、第2話者の音声37を出力するためのスピーカであり、例えば、図1に示されるように、車10の2つの前扉の内側面に設けられる。なお、第2スピーカ24は、例えば、第2マイク23からの音声信号である入力されたデジタル音声データを内蔵のD/A変換器でアナログ信号に変換した後に音声として出力する。
 [1-2-1.第1クロストークキャンセラ50]
 第1クロストークキャンセラ50は、第2クロストークキャンセラ70の出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32の程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。第1クロストークキャンセラ50は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
 より詳しくは、第1クロストークキャンセラ50は、第1伝達関数記憶回路54、第1記憶回路52、第1畳み込み演算器53、第1減算器51、及び、第1伝達関数更新回路55を有する。
 第1伝達関数記憶回路54は、第1クロストーク32の伝達関数として推定された伝達関数を記憶する。
 第1記憶回路52は、第2クロストークキャンセラ70から出力された信号を記憶する。
 第1畳み込み演算器53は、第1記憶回路52に記憶された信号と第1伝達関数記憶回路54に記憶された伝達関数とを畳み込むことで第1妨害信号を生成する。例えば、第1畳み込み演算器53は、以下の式1に示される畳み込み演算を行うNタップのFIR(Finite Impulse Response)フィルタである。
Figure JPOXMLDOC01-appb-M000001
 ここで、y1’tは、時刻tにおける第1妨害信号である。Nは、FIRフィルタのタップ数である。H1(i)tは、時刻tにおいて第1伝達関数記憶回路54に記憶されたN個の伝達関数のうちのi番目の伝達関数である。x1(t-i)は、第1記憶回路52に記憶された信号のうち、(t-i)番目の信号である。
 第1減算器51は、第1マイク21の出力信号から、第1畳み込み演算器53から出力された第1妨害信号を除去し、第1クロストークキャンセラ50の出力信号として出力する。例えば、第1減算器51は、以下の式2に示される減算を行う。
Figure JPOXMLDOC01-appb-M000002
 ここで、e1tは、時刻tにおける第1減算器51の出力信号である。y1tは、時刻tにおける第1マイク21の出力信号である。
 第1伝達関数更新回路55は、第1減算器51の出力信号と第1記憶回路52に記憶された信号とに基づいて第1伝達関数記憶回路54に記憶された伝達関数を更新する。例えば、第1伝達関数更新回路55は、以下の式3に示されるように、独立成分分析を用いて、第1減算器51の出力信号と第1記憶回路52に記憶された信号とに基づいて、第1減算器51の出力信号と第1記憶回路52に記憶された信号とが相互に独立となるように、第1伝達関数記憶回路54に記憶された伝達関数を更新する。
Figure JPOXMLDOC01-appb-M000003
 ここで、H1(j)t+1は、時刻t+1における(つまり、更新後の)第1伝達関数記憶回路54に記憶されるN個の伝達関数のうちのj番目の伝達関数である。H1(j)tは、時刻t(つまり、更新前の)第1伝達関数記憶回路54に記憶されたN個の伝達関数のうちのj番目の伝達関数である。α1は、第1クロストーク32の伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ1は、非線形関数(例えば、シグモイド関数(sigmoid関数)、双曲線正接関数(tanh関数)、正規化線形関数又は符号関数(sign関数))である。
 このように、第1伝達関数更新回路55は、第1減算器51の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第1記憶回路52に記憶された信号と、第1クロストーク32の伝達関数の推定における学習速度を制御するための第1ステップサイズパラメータとを乗じることで第1更新係数を算出する。そして、算出した第1更新係数を第1伝達関数記憶回路54に記憶された伝達関数に加算することで更新を行う。
 [1-2-2.第2クロストークキャンセラ70]
 第2クロストークキャンセラ70は、第1クロストークキャンセラ50の出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35の程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。第2クロストークキャンセラ70は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
 より詳しくは、第2クロストークキャンセラ70は、第2伝達関数記憶回路74、第2記憶回路72、第2畳み込み演算器73、第2減算器71、及び、第2伝達関数更新回路75を有する。
 第2伝達関数記憶回路74は、第2クロストーク35の伝達関数として推定された伝達関数を記憶する。
 第2記憶回路72は、第1クロストークキャンセラ50から出力された信号を記憶する。
 第2畳み込み演算器73は、第2記憶回路72に記憶された信号と第2伝達関数記憶回路74に記憶された伝達関数とを畳み込むことで第2妨害信号を生成する。例えば、第2畳み込み演算器73は、以下の式4に示される畳み込み演算を行うNタップのFIRフィルタである。
Figure JPOXMLDOC01-appb-M000004
 ここで、y2’tは、時刻tにおける第2妨害信号である。Nは、FIRフィルタのタップ数である。H2(i)tは、時刻tにおいて第2伝達関数記憶回路74に記憶されたN個の伝達関数のうちのi番目の伝達関数である。x2(t-i)は、第2記憶回路72に記憶された信号のうち、(t-i)番目の信号である。
 第2減算器71は、第2マイク23の出力信号から、第2畳み込み演算器73から出力された第2妨害信号を除去し、第2クロストークキャンセラ70の出力信号として出力する。例えば、第2減算器71は、以下の式5に示される減算を行う。
Figure JPOXMLDOC01-appb-M000005
 ここで、e2tは、時刻tにおける第2減算器71の出力信号である。y2tは、時刻tにおける第2マイク23の出力信号である。
 第2伝達関数更新回路75は、第2減算器71の出力信号と第2記憶回路72に記憶された信号とに基づいて第2伝達関数記憶回路74に記憶された伝達関数を更新する。例えば、第2伝達関数更新回路75は、以下の式6に示されるように、独立成分分析を用いて、第2減算器71の出力信号と第2記憶回路72に記憶された信号とに基づいて、第2減算器71の出力信号と第2記憶回路72に記憶された信号とが相互に独立となるように、第2伝達関数記憶回路74に記憶された伝達関数を更新する。
Figure JPOXMLDOC01-appb-M000006
 ここで、H2(j)t+1は、時刻t+1における(つまり、更新後の)第2伝達関数記憶回路74に記憶されるN個の伝達関数のうちのj番目の伝達関数である。H2(j)tは、時刻t(つまり、更新前の)第2伝達関数記憶回路74に記憶されたN個の伝達関数のうちのj番目の伝達関数である。α2は、第2クロストーク35の伝達関数の推定における学習速度を制御するためのステップサイズパラメータである。φ2は、非線形関数(例えば、シグモイド関数(sigmoid関数)、双曲線正接関数(tanh関数)、正規化線形関数又は符号関数(sign関数))である。
 このように、第2伝達関数更新回路75は、第2減算器71の出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して第2記憶回路72に記憶された信号と、第2クロストーク35の伝達関数の推定における学習速度を制御するための第2ステップサイズパラメータとを乗じることで第2更新係数を算出する。そして、算出した第2更新係数を第2伝達関数記憶回路74に記憶された伝達関数に加算することで更新を行う。
 なお、本実施の形態における音源分離装置20では、第2話者12の同一時刻における音声について、第2クロストークキャンセラ70の出力信号が第1クロストークキャンセラ50に入力される時刻は、第2話者12の音声が第1マイク21に入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第1クロストークキャンセラ50が第1クロストーク32をキャンセルできるように、因果律が保持されている。これは、第2クロストークキャンセラ70の出力信号が第1クロストークキャンセラ50に入力される時刻を決定づける要因(A/D変換の速度、第1クロストークキャンセラ50での処理速度、第2クロストークキャンセラ70での処理速度等)と、第2話者12の音声が第1マイク21に入力される時刻を決定づける要因(第2話者12と第1マイク21との位置関係等)とを考慮することで適宜、実現し得る。
 同様に、本実施の形態における音源分離装置20では、第1話者11の同一時刻における音声について、第1クロストークキャンセラ50の出力信号が第2クロストークキャンセラ70に入力される時刻は、第1話者11の音声が第2マイク23に入力される時刻と同一、又は、より早くなるように、設計されている。つまり、第2クロストークキャンセラ70が第2クロストーク35をキャンセルできるように、因果律が保持されている。これは、第1クロストークキャンセラ50の出力信号が第2クロストークキャンセラ70に入力される時刻を決定づける要因(A/D変換の速度、第1クロストークキャンセラ50での処理速度、第2クロストークキャンセラ70での処理速度等)と、第1話者11の音声が第2マイク23に入力される時刻を決定づける要因(第1話者11と第2マイク23との位置関係等)とを考慮することで適宜、実現し得る。
 [1-3.動作]
 以上のように構成された本実施の形態における音源分離装置20では、第1話者の音声36及び第2話者の音声37は、次のように処理される。
 第1話者の音声36は、第1マイク21に入力される。第1マイク21の出力信号は、第1クロストークキャンセラ50において、第1妨害信号が除去される。第1妨害信号は、第1クロストーク32の程度を示す(推定された)信号である。よって、第1クロストークキャンセラ50の出力信号は、第1マイク21に入力された音声から、第1クロストーク32の影響が除去された音声を示す信号となる。この音声信号が第1スピーカ22から音声となって出力される。即ち、第1クロストークキャンセラ50の出力信号は、図2に示すように、第1クロストーク32が除去された第1マイク21の音声信号であり、第1スピーカ22の入力信号である。
 よって、第1スピーカ22から出力される音声は、第1マイク21に入力された音声のうち、第1クロストーク32の影響が除去された音声、つまり、分離された第1話者の音声36だけとなる。
 同様に、第2話者の音声37は、第2マイク23に入力される。第2マイク23の出力信号は、第2クロストークキャンセラ70において、第2妨害信号が除去される。第2妨害信号は、第2クロストーク35の程度を示す(推定された)信号である。よって、第2クロストークキャンセラ70の出力信号は、第2マイク23に入力された音声から、第2クロストーク35の影響が除去された音声を示す信号となる。この音声信号が第2スピーカ24から音声となって出力される。即ち、第2クロストークキャンセラ70の出力信号は、図2に示すように、第2クロストーク35が除去された第2マイク23の音声信号であり、第2スピーカ24の入力信号である。
 よって、第2スピーカ24から出力される音声は、第2マイク23に入力された音声のうち、第2クロストーク35の影響が除去された音声、つまり、分離された第2話者の音声37だけとなる。
 なお、第1話者の音声36及び第2話者の音声37がそれぞれ分離される程度は、第1クロストークキャンセラ50及び第2クロストークキャンセラ70に保持された伝達関数の精度、上記式3及び式6に示される伝達関数の更新式におけるパラメータ等に依存するのは言うまでもない。
 [1-4.効果等]
 以上のように、本実施の形態における音源分離装置20は、第1マイク21及び第1クロストークキャンセラ50を備える。そして、音源分離装置20では、第2話者12の同一時刻における音声について、信号が第1クロストークキャンセラ50に入力される時刻は、第2話者12の音声が第1マイク21に入力される時刻と同一、又は、より早くなるように、設計されている。よって、第1クロストークキャンセラ50は、第2話者12の音声が第1マイク21に入力される第1クロストーク32を推定して、第1マイク21の出力信号から除去する。
 これにより、適応型フィルタである第1クロストークキャンセラ50を用いて、第1マイク21に入力される第1話者の音声36と第2話者12の音声(第1クロストーク32)とを分離して第1話者の音声36だけを抽出するので、比較的小規模なハードウェアにより、第1クロストーク32による音声が第1スピーカ22から拡声されてしまうことが抑制される。
 同様に、本実施の形態における音源分離装置20は、第2マイク23及び第2クロストークキャンセラ70を備える。そして、音源分離装置20では、第1話者11の同一時刻における音声について、信号が第2クロストークキャンセラ70に入力される時刻は、第1話者11の音声が第2マイク23に入力される時刻と同一、又は、より早くなるように、設計されている。よって、第2クロストークキャンセラ70は、第1話者11の音声が第2マイク23に入力される第2クロストーク35を推定して、第2マイク23の出力信号から除去する。
 これにより、適応型フィルタである第2クロストークキャンセラ70を用いて、第2マイク23に入力される第2話者の音声37と第1話者11の音声(第2クロストーク35)とを分離して第2話者の音声37だけを抽出するので、ハードウェアを増加することなく、第2クロストーク35による音声が第2スピーカ24から拡声されてしまうことが抑制される。
 [1-5.変形例]
 上記実施の形態では、第1伝達関数更新回路55は、上記式3に従って伝達関数を更新したが、以下の式7又は式8に示されるように、正規化された式に従って伝達関数を更新してもよい。
Figure JPOXMLDOC01-appb-M000007
 ここで、Nは、第1伝達関数記憶回路54に記憶される伝達関数の個数である。|x1(t-i)|は、x1(t-i)の絶対値である。
Figure JPOXMLDOC01-appb-M000008
 これにより、第1伝達関数更新回路55による推定伝達関数の更新が、入力信号x1(t-j)の振幅に依存せず、安定して実施される。
 同様に、第2伝達関数更新回路75は、上記式6に従って伝達関数を更新したが、以下の式9又は式10に示されるように、正規化された式に従って伝達関数を更新してもよい。
Figure JPOXMLDOC01-appb-M000009
 ここで、Nは、第2伝達関数記憶回路74に記憶される伝達関数の個数である。|x2(t-i)|は、x2(t-i)の絶対値である。
Figure JPOXMLDOC01-appb-M000010
 これにより、第2伝達関数更新回路75による推定伝達関数の更新が、入力信号x2(t-j)の振幅に依存せず、安定して実施される。
 また、上記実施の形態は、音源分離装置の車室内会話補助装置への適用例であったが、音源分離装置は、車室内会話補助装置に限らず、音声認識装置に適用してもよい。より詳しくは、上記の音源分離装置にて個々の話者の音声信号を分離し、分離された個々の話者の音声信号を音声認識装置で処理することにより、より高い精度での音声認識を行うことができる。なお、音源分離装置を音声認識装置に適用する場合、車室内会話補助装置に適用する場合とは異なり、スピーカは必須ではない。
 また、上記の実施の形態は、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置において第1話者の音声36と第2話者の音声37とを分離する音源分離方法である。音源分離装置は、第1話者の音声36を入力するための第1マイク21と、第2話者の音声37を入力するための第2マイク23とを備える。音源分離方法は、第1クロストークキャンセルステップと、第2クロストークキャンセルステップとを含む。
 第1クロストークキャンセルステップでは、第2クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32の程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイク21の出力信号から除去する。第1クロストークキャンセルステップの出力信号は、第1話者の音声36のみが分離された音声信号として、スピーカから出力されてもよく、また、音声認識装置にて処理されてもよい。
 第2クロストークキャンセルステップでは、第1クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35の程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイク23の出力信号から除去する。第2クロストークキャンセルステップの出力信号は、第2話者の音声37のみが分離された音声信号として、スピーカから出力されてもよく、また、音声認識装置にて処理されてもよい。
 このような音源分離方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第1クロストークキャンセラ50及び第2クロストークキャンセラ70は、プログラムを実行するプロセッサによって実現されてもよい。
 また、このような音源分離方法は、CD-ROM等のコンピュータ読み取り可能な記録媒体に記録されるプログラムで実現されてもよい。
 (実施の形態2)
 次に、実施の形態2における音源分離装置について説明する。本実施の形態における音源分離装置は、実施の形態1における音源分離装置と同様に、第1話者と第2話者による双方向の会話を拡声して補助する装置に適用される。ただし、実施の形態1における第1クロストーク32及び第2クロストーク35に加えて、第2スピーカ24から出力される第2話者12の音声が第1マイク21に入力される間接第1クロストーク32a、及び、第1スピーカ22から出力される第1話者11の音声が第2マイク23に入力される間接第2クロストーク35aが無視できない程度に音響結合が大きい場合に、好適な装置である。
 [2-1.構成]
 図3は、実施の形態2における音源分離装置20aの構成を示すブロック図である。この音源分離装置20aの構成は、実施の形態1における音源分離装置20の構成と実質的に同等である。以下、実施の形態1と同じ構成要素については、実施の形態1と同じ符号を付し、その説明を省略する。
 この音源分離装置20aは、第1マイク21、第1スピーカ22、第2マイク23、第2スピーカ24、第1クロストークキャンセラ50及び第2クロストークキャンセラ70を備える。いずれの構成要素も、実施の形態1における音源分離装置20の対応する構成要素と実質的に同等であるが、音源分離装置20aでは、音源分離装置20と比較して、第1伝達関数記憶回路54及び第2伝達関数記憶回路74に記憶される伝達関数が異なる。
 第1伝達関数記憶回路54は、第1クロストーク32と間接第1クロストーク32aとを合わせた伝達関数として推定された伝達関数を記憶する。
 これにより、第1クロストークキャンセラ50は、第2クロストークキャンセラ70の出力信号を用いて、第1クロストーク32と間接第1クロストーク32aとを合わせた程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。
 第2伝達関数記憶回路74は、第2クロストーク35と間接第2クロストーク35aとを合わせた伝達関数として推定された伝達関数を記憶する。
 これにより、第2クロストークキャンセラ70は、第1クロストークキャンセラ50の出力信号を用いて、第2クロストーク35と間接第2クロストーク35aとを合わせた程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。
 なお、この音源分離装置20aでは、第1マイク21と第2スピーカ24とは、第2スピーカ24から出力された第2話者12の音声が第1マイク21に入力される間接第1クロストーク32aが無視できない程度に音響結合が大きい環境に設置されている。例えば、第2スピーカ24は、第1マイク21が存在する方向に向けて音声を出力する位置に設けられている(あるいは、そのような音声出力の指向特性を有する)。
 同様に、第2マイク23と第1スピーカ22とは、第1スピーカ22から出力された第1話者11の音声が第2マイク23に入力される間接第2クロストーク35aが無視できない程度に音響結合が大きい環境に設置されている。例えば、第1スピーカ22は、第2マイク23が存在する方向に向けて音声を出力する位置に設けられている(あるいは、そのような音声出力の指向特性を有する)。
 [2-2.動作]
 以上のように構成された本実施の形態における音源分離装置20aでは、第1話者の音声36及び第2話者の音声37は、次のように処理される。
 第1話者の音声36は、第1マイク21に入力される。第1マイク21の出力信号は、第1クロストークキャンセラ50において、第1妨害信号が除去される。第1妨害信号は、第1クロストーク32と間接第1クロストーク32aとを合わせた程度を示す(推定された)信号である。よって、第1クロストークキャンセラ50の出力信号は、第1マイク21に入力された音声から、第1クロストーク32及び間接第1クロストーク32aの影響が除去された音声を示す信号となる。この音声信号が第1スピーカ22から音声となって出力される。即ち、第1クロストークキャンセラ50の出力信号は、図3に示すように、第1クロストーク32及び間接第1クロストーク32aが除去された第1マイク21の音声信号であり、第1スピーカ22への入力信号である。
 よって、第1スピーカ22から出力される音声は、第1マイク21に入力された音声のうち、第1クロストーク32及び間接第1クロストーク32aの影響が除去された音声、つまり、分離された第1話者の音声36だけとなる。
 同様に、第2話者の音声37は、第2マイク23に入力される。第2マイク23の出力信号は、第2クロストークキャンセラ70において、第2妨害信号が除去される。第2妨害信号は、第2クロストーク35と間接第2クロストーク35aとを合わせた程度を示す(推定された)信号である。よって、第2クロストークキャンセラ70の出力信号は、第2マイク23に入力された音声から、第2クロストーク35及び間接第2クロストーク35aの影響が除去された音声を示す信号となる。この音声信号が第2スピーカ24から音声となって出力される。即ち、第2クロストークキャンセラ70の出力信号は、図3に示すように、第2クロストーク35及び間接第2クロストーク35aが除去された第2マイク23の音声信号であり、第2スピーカ24への入力信号である。
 よって、第2スピーカ24から出力される音声は、第2マイク23に入力された音声のうち、第2クロストーク35及び間接第2クロストーク35aの影響が除去された音声、つまり、分離された第2話者の音声37だけとなる。
 [2-3.効果等]
 本実施の形態における音源分離装置20aは、実施の形態1における音源分離装置20が有する第1クロストーク32及び第2クロストーク35の除去機能に追加して、間接第1クロストーク32a及び間接第2クロストーク35aの除去機能を有する。そのため、実施の形態1と同様、従来の分離行列を用いない比較的小規模なハードウェアにより、間接第1クロストーク32a及び間接第2クロストーク35aをも除去することができる。間接第1クロストーク32aの除去機能は、第1マイク21と第2スピーカ24とが間接第1クロストーク32aが無視できない程度に音響結合が大きい環境に設置されている場合に必要となり、間接第2クロストーク35aの除去機能は、第2マイク23と第1スピーカ22とが間接第2クロストーク35aが無視できない程度に音響結合が大きい環境に設置されている場合に必要となる。
 また、上記実施の形態は、音源分離装置であったが、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置において第1話者11の音声と第2話者12の音声とを分離する音源分離方法である。音源分離装置は、第1話者の音声36を入力するための第1マイク21と、第1話者の音声36を出力するための第1スピーカ22と、第2話者の音声37を入力するための第2マイク23と、第2話者の音声37を出力するための第2スピーカ24とを備える。音源分離方法は、第1クロストークキャンセルステップと、第2クロストークキャンセルステップとを含む。
 第1クロストークキャンセルステップでは、第2クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32と、第2スピーカ24から出力された第2話者12の音声が第1マイク21に入力される間接第1クロストーク32aとを合わせた程度を示す第1妨害信号を推定して算出する。そして、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。
 第2クロストークキャンセルステップでは、第1クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35と、第1スピーカ22から出力された第1話者11の音声が第2マイク23に入力される間接第2クロストーク35aとを合わせた程度を示す第2妨害信号を推定して算出する。そして、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。
 このような音源分離方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第1クロストークキャンセラ50及び第2クロストークキャンセラ70は、プログラムを実行するプロセッサによって実現されてもよい。
 また、このような音源分離方法は、CD-ROM等のコンピュータ読み取り可能な記録媒体に記録されるプログラムで実現されてもよい。
 (実施の形態3)
 次に、実施の形態3における音源分離装置について説明する。本実施の形態における音源分離装置は、実施の形態1における音源分離装置と比べて、第1話者及び第2話者に加えて第3話者が参加する会話を拡声して補助する場合に、個々の話者の音声を分離するために好適な装置である。
 [3-1.構成]
 図4は、実施の形態3における音源分離装置20bの構成を示すブロック図である。この音源分離装置20bは、実施の形態1における音源分離装置20に、第3マイク25、第3スピーカ26、第3クロストークキャンセラ80、第4クロストークキャンセラ150、第5クロストークキャンセラ170、及び第6クロストークキャンセラ180を追加して構成される。第1マイク21、第2マイク23、第1スピーカ22、第2スピーカ24、第1クロストークキャンセラ50、及び第2クロストークキャンセラ70は、実施の形態1における音源分離装置20の対応する構成要素と実質的に同等である。以下、実施の形態1と同じ構成要素については、実施の形態1と同じ符号を付し、その説明を省略する。
 第3マイク25は、第3話者13の音声(第3音声)を入力するためのマイクであり、例えば、後部座席の天井に設けられる(図示せず)。なお、第3マイク25から出力される音声信号は、例えば、内蔵のA/D変換器で生成されるデジタル音声データである。
 第3スピーカ26は、第3話者の音声38を出力するためのスピーカであり、例えば、車10の2つの前扉の内側面に設けられる(図示せず)。なお、第3スピーカ26は、例えば、入力されたデジタル音声データを内蔵のD/A変換器でアナログ信号に変換した後に音声として出力する。
 第3クロストークキャンセラ80は、第5クロストークキャンセラ170の出力信号を用いて、第2話者12の音声が第3マイク25に入力される第3クロストーク131の程度を示す第3妨害信号を推定して算出し、算出した第3妨害信号を、第3マイク25の出力信号から除去し、除去後の信号を第6クロストークキャンセラ180に出力する。第3クロストークキャンセラ80は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
 より詳しくは、第3クロストークキャンセラ80は、第3伝達関数記憶回路84、第3記憶回路82、第3畳み込み演算器83、第3減算器81、及び、第3伝達関数更新回路85を有する。
 第3伝達関数記憶回路84は、第3クロストーク131の伝達関数として推定された伝達関数を記憶する。
 第3クロストークキャンセラ80は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第3伝達関数記憶回路84に記憶した伝達関数を用いて信号処理を行う。
 第4クロストークキャンセラ150は、第6クロストークキャンセラ180の出力信号を用いて、第3話者13の音声が第1マイク21に入力される第4クロストーク132の程度を示す第4妨害信号を推定して算出し、算出した第4妨害信号を、第1クロストークキャンセラ50の出力信号から除去し、除去後の信号を第1スピーカ22に出力する。第4クロストークキャンセラ150は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
 より詳しくは、第4クロストークキャンセラ150は、第4伝達関数記憶回路154、第4記憶回路152、第4畳み込み演算器153、第4減算器151、及び、第4伝達関数更新回路155を有する。
 第4伝達関数記憶回路154は、第4クロストーク132の伝達関数として推定された伝達関数を記憶する。
 第4クロストークキャンセラ150は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第4伝達関数記憶回路154に記憶した伝達関数を用いて信号処理を行う。
 第5クロストークキャンセラ170は、第6クロストークキャンセラ180の出力信号を用いて、第3話者13の音声が第2マイク23に入力される第5クロストーク133の程度を示す第5妨害信号を推定して算出し、算出した第5妨害信号を、第2クロストークキャンセラ70の出力信号から除去し、除去後の信号を第2スピーカ24に出力する。第5クロストークキャンセラ170は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
 より詳しくは、第5クロストークキャンセラ170は、第5伝達関数記憶回路174、第5記憶回路172、第5畳み込み演算器173、第5減算器171、及び、第5伝達関数更新回路175を有する。
 第5伝達関数記憶回路174は、第5クロストーク133の伝達関数として推定された伝達関数を記憶する。
 第5クロストークキャンセラ170は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第5伝達関数記憶回路174に記憶した伝達関数を用いて信号処理を行う。
 第6クロストークキャンセラ180は、第4クロストークキャンセラ150の出力信号を用いて、第1話者11の音声が第3マイク25に入力される第6クロストーク134の程度を示す第6妨害信号を推定して算出し、算出した第6妨害信号を、第3クロストークキャンセラ80の出力信号から除去し、除去後の信号を第3スピーカ26に出力する。第6クロストークキャンセラ180は、本実施の形態では、デジタル音声データを時間軸領域で処理するデジタル信号処理回路である。
 より詳しくは、第6クロストークキャンセラ180は、第6伝達関数記憶回路184、第6記憶回路182、第6畳み込み演算器183、第6減算器181、及び、第6伝達関数更新回路185を有する。
 第6伝達関数記憶回路184は、第6クロストーク134の伝達関数として推定された伝達関数を記憶する。
 第6クロストークキャンセラ180は、第1クロストークキャンセラ50と比較して、構成及び信号処理の基本的な動作において実質的に同一であり、第6伝達関数記憶回路184に記憶した伝達関数を用いて信号処理を行う。
 [3-2.動作]
 以上のように構成された本実施の形態における音源分離装置20bでは、第1話者の音声36、第2話者の音声37、及び第3話者の音声38は、次のように処理される。
 第1話者の音声36は、第1マイク21に入力される。第1マイク21の出力信号は、第1クロストークキャンセラ50において第1妨害信号が除去される。第1妨害信号は、第1クロストーク32の程度を示す(推定された)信号である。よって、第1クロストークキャンセラ50の出力信号は、第1マイク21に入力された音声から、第1クロストーク32の影響が除去された音声を示す信号となる。この音声信号が、第4クロストークキャンセラ150に入力される。即ち、第1クロストークキャンセラ50の出力信号は、図4に示すように、第1クロストーク32が除去された第1マイク21の音声信号であり、第4クロストークキャンセラ150の入力信号である。
 第1クロストークキャンセラ50の出力信号は、第4クロストークキャンセラ150において第4妨害信号が除去される。第4妨害信号は、第4クロストーク132の程度を示す(推定された)信号である。よって、第4クロストークキャンセラ150の出力信号は、第1クロストークキャンセラ50の出力信号から、第4クロストーク132の影響が除去された音声を示す信号となる。この信号が第1スピーカ22から音声となって出力される。即ち、第4クロストークキャンセラ150の出力信号は、図4に示すように、第1クロストーク32及び第4クロストーク132が除去された第1マイク21の音声信号であり、第1スピーカ22の入力信号である。
 よって、第1スピーカ22から出力される音声は、第1マイク21に入力された音声のうち、第1クロストーク32及び第4クロストーク132の影響が除去された音声、つまり、実質的に分離された第1話者の音声36だけとなる。
 同様に、第2話者の音声37は、第2マイク23に入力される。第2マイク23の出力信号は、第2クロストークキャンセラ70において第2妨害信号が除去される。第2妨害信号は、第2クロストーク35の程度を示す(推定された)信号である。よって、第2クロストークキャンセラ70の出力信号は、第2マイク23に入力された音声から、第2クロストーク35の影響が除去された音声を示す信号となる。この音声信号が第5クロストークキャンセラ170に入力される。即ち、第2クロストークキャンセラ70の出力信号は、図4に示すように、第2クロストーク35が除去された第2マイク23の音声信号であり、第5クロストークキャンセラ170の入力信号である。
 第2クロストークキャンセラ70の出力信号は、第5クロストークキャンセラ170において第5妨害信号が除去される。第5妨害信号は、第5クロストーク133の程度を示す(推定された)信号である。よって、第5クロストークキャンセラ170の出力信号は、第2クロストークキャンセラ70の出力信号から、第5クロストーク133の影響が除去された音声を示す信号となる。この信号が第2スピーカ24から音声となって出力される。即ち、第5クロストークキャンセラ170の出力信号は、図4に示すように、第2クロストーク35及び第5クロストーク133が除去された第2マイク23の音声信号であり、第2スピーカ24の入力信号である。
 よって、第2スピーカ24から出力される音声は、第2マイク23に入力された音声のうち、第2クロストーク35及び第5クロストーク133の影響が除去された音声、つまり、実質的に分離された第2話者の音声37だけとなる。
 同様に、第3話者の音声38は、第3マイク25に入力される。第3マイク25の出力信号は、第3クロストークキャンセラ80において、第3妨害信号が除去される。第3妨害信号は、第3クロストーク131の程度を示す(推定された)信号である。よって、第3クロストークキャンセラ80の出力信号は、第3マイク25に入力された音声から、第3クロストーク131の影響が除去された音声を示す信号となる。この音声信号が第6クロストークキャンセラ180に入力される。即ち、第3クロストークキャンセラ80の出力信号は、図4に示すように、第3クロストーク131が除去された第3マイク25の音声信号であり、第6クロストークキャンセラ180の入力信号である。
 第3クロストークキャンセラ80の出力信号は、第6クロストークキャンセラ180において第6妨害信号が除去される。第6妨害信号は、第6クロストーク134の程度を示す(推定された)信号である。よって、第6クロストークキャンセラ180の出力信号は、第3クロストークキャンセラ80の出力信号から、第6クロストーク134の影響が除去された音声を示す信号となる。この信号が第3スピーカ26から音声となって出力される。即ち、第6クロストークキャンセラ180の出力信号は、図4に示すように、第3クロストーク131及び第6クロストーク134が除去された第3マイク25の音声信号であり、第3スピーカ26の入力信号である。
 よって、第3スピーカ26から出力される音声は、第3マイク25に入力された音声のうち、第3クロストーク131及び第6クロストーク134の影響が除去された音声、つまり、実質的に分離された第3話者の音声38だけとなる。
 [3-3.効果等]
 本実施の形態における音源分離装置20bは、実施の形態1における音源分離装置20が有する第1クロストーク32及び第2クロストーク35の除去機能に追加して、第1話者11及び第2話者12に加えて第3話者13が会話に参加する場合に必要となる、第3クロストーク131、第4クロストーク132、第5クロストーク133、及び第6クロストーク134の除去機能を有する。そのため、実施の形態1と同様、比較的小規模なハードウェアにより、第1クロストーク32及び第2クロストーク35に加えて、第3クロストーク131、第4クロストーク132、第5クロストーク133、及び第6クロストーク134をも除去することができる。
 また、上記実施の形態は、音源分離装置の車室内会話補助装置への適用例であったが、音源分離装置は、車室内会話補助装置に限らず、音声認識装置に適用してもよい。より詳しくは、上記の音源分離装置にて個々の話者の音声信号を分離し、分離された個々の話者の音声信号を音声認識装置で処理することにより、より高い精度での音声認識を行うことができる。なお、音源分離装置を音声認識装置に適用する場合、車室内会話補助装置に適用する場合とは異なり、スピーカは必須ではない。
 また、上記実施の形態は、音源分離装置であったが、以下のような音源分離方法として実現されてもよい。つまり、音源分離装置おいて第1話者11の音声と第2話者12の音声と第3話者13の音声とを分離する音源分離方法である。音源分離装置は、第1話者の音声36を入力するための第1マイク21と、第2話者の音声37を入力するための第2マイク23と、第3話者の音声38を入力するための第3マイク25とを備える。音源分離方法は、第1クロストークキャンセルステップと、第2クロストークキャンセルステップと、第3クロストークキャンセルステップと、第4クロストークキャンセルステップと、第5クロストークキャンセルステップと、第6クロストークキャンセルステップとを含む。
 第1クロストークキャンセルステップでは、第5クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第1マイク21に入力される第1クロストーク32の程度を示す第1妨害信号を推定して算出し、算出した第1妨害信号を、第1マイク21の出力信号から除去し、除去後の信号を出力する。
 第2クロストークキャンセルステップでは、第4クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第2マイク23に入力される第2クロストーク35の程度を示す第2妨害信号を推定して算出し、算出した第2妨害信号を、第2マイク23の出力信号から除去し、除去後の信号を出力する。
 第3クロストークキャンセルステップでは、第5クロストークキャンセルステップの出力信号を用いて、第2話者12の音声が第3マイク25に入力される第3クロストーク131の程度を示す第3妨害信号を推定して算出し、算出した第3妨害信号を、第3マイク25の出力信号から除去し、除去後の信号を出力する。
 第4クロストークキャンセルステップでは、第6クロストークキャンセルステップの出力信号を用いて、第3話者13の音声が第1マイク21に入力される第4クロストーク132の程度を示す第4妨害信号を推定して算出し、算出した第4妨害信号を、第1クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。
 第5クロストークキャンセルステップでは、第6クロストークキャンセルステップの出力信号を用いて、第3話者13の音声が第2マイク23に入力される第5クロストーク133の程度を示す第5妨害信号を推定して算出し、算出した第5妨害信号を、第2クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。
 第6クロストークキャンセルステップでは、第4クロストークキャンセルステップの出力信号を用いて、第1話者11の音声が第3マイク25に入力される第6クロストーク134の程度を示す第6妨害信号を推定して算出し、算出した第6妨害信号を、第3クロストークキャンセルステップの出力信号から除去し、除去後の信号を出力する。
 このような音源分離方法は、例えば、プログラムを実行するプロセッサによって行われる。つまり、上記実施の形態における第1クロストークキャンセラ50、第2クロストークキャンセラ70、第3クロストークキャンセラ80、第4クロストークキャンセラ150、第5クロストークキャンセラ170、及び第6クロストークキャンセラ180は、プログラムを実行するプロセッサによって実現されてもよい。
 また、このような音源分離方法は、CD-ROM等のコンピュータ読み取り可能な記録媒体に記録されるプログラムで実現されてもよい。
 なお、本実施の形態において、第1クロストークキャンセラ50において実行される第1クロストークキャンセルステップと第4クロストークキャンセラ150において実行される第4クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第1マイク21の出力信号は、第4クロストークキャンセラ150に入力されて、第4妨害信号が除去される。第4クロストークキャンセラ150の出力信号は、第4妨害信号が除去された第1マイク21の音声信号となって、第1クロストークキャンセラ50に入力され、第1妨害信号が除去される。第1クロストークキャンセラ50の出力信号は、第4妨害信号及び第1妨害信号が除去された第1マイク21の音声信号となって、第1スピーカ22に入力される。
 同様に、第2クロストークキャンセラ70において実行される第2クロストークキャンセルステップと第5クロストークキャンセラ170において実行される第5クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第2マイク23の出力信号は、第5クロストークキャンセラ170に入力されて、第5妨害信号が除去される。第5クロストークキャンセラ170の出力信号は、第5妨害信号が除去された第2マイク23の音声信号となって、第2クロストークキャンセラ70に入力され、第2妨害信号が除去される。第2クロストークキャンセラ70の出力信号は、第5妨害信号及び第2妨害信号が除去された第2マイク23の音声信号となって、第2スピーカ24に入力される。
 さらに、同様に、第3クロストークキャンセラ80において実行される第3クロストークキャンセルステップと第6クロストークキャンセラ180において実行される第6クロストークキャンセルステップとの順序は入れ替えられてもよい。即ち、第3マイク25の出力信号は、第6クロストークキャンセラ180に入力されて、第6妨害信号が除去される。第6クロストークキャンセラ180の出力信号は、第6妨害信号が除去された第3マイク25の音声信号となって、第3クロストークキャンセラ80に入力され、第3妨害信号が除去される。第3クロストークキャンセラ80の出力信号は、第6妨害信号及び第3妨害信号が除去された第3マイク25の音声信号となって、第3スピーカ26に入力される。
 (他の実施の形態)
 以上のように、本出願において開示する技術の例示として、実施の形態1~3及び変形例を説明した。しかしながら、本開示における技術は、これらに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1~3及び変形例で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。
 例えば、実施の形態1~3では、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70が有する畳み込み演算器は、いずれも、NタップのFIRフィルタを例として、畳み込み演算を行ったが、それぞれが異なるタップ数の異なるタイプのデジタルフィルタであってもよい。つまり、いかなる種類のデジタルフィルタにするかは、キャンセルする音響的雑音の伝達関数等に依存して適宜、独立して設計してもよい。
 また、実施の形態1~3では、第1クロストークキャンセラ50、及び、第2クロストークキャンセラ70が有する伝達関数更新回路による伝達関数の更新アルゴリズムは、上記式3、式6に示されるように、同一のアルゴリズムであってもよいし、同一のアルゴリズムであるがステップサイズパラメータが異なってもよいし、異なるアルゴリズムであってもよい。つまり、伝達関数の更新アルゴリズムは、キャンセルする音響的雑音の大きさ等に依存して適宜、独立して設計してもよい。
 また、上記実施の形態では、音源分離装置が備えるマイク及びスピーカの例として、車に組み込まれたタイプ、車に取り付けられたタイプ等が挙げられたが、これらに限られず、スマートフォン等の携帯型情報端末が有するマイク及び/又はスピーカであってもよい。例えば、車における後部乗員の音声を第2マイク23(後部マイク)としてのスマートフォンで収音し、無線でヘッドユニット(音源分離装置)に送信し、第2スピーカ24としての前部スピーカから、クロストークを抑制した状態で拡声する。また、第1マイク21としての前部マイクで収音した運転者の音声を無線で後部乗員のスマートフォンに送信し、第1スピーカ22(後部スピーカ)としてのスマートフォンのスピーカから、クロストークを抑制した状態で拡声する。これにより、後部乗員がスマートフォンを用いて運転者と円滑に会話できるとともに、車における後部マイク及び後部スピーカが不要となる。
 また、このようなスマートフォン等の携帯型情報端末が有するマイク及び/又はスピーカを用いた音源分離装置は、講演会等で用いられるPA(Public Address)システムとしても有用である。講演会における質問者の声を自身のスマートフォンで収音して無線でPAシステムに転送し、クロストークを抑制した状態で拡声することができる。これにより、講演会において、質問者にマイクを手渡すのに要する時間が短縮され、質疑応答がスムーズに実施されて手際良い講演会の進行が可能になる。
 以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
 したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
 また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
 本開示は、複数のマイクから収音された音声信号に対してクロストーク(漏話)を減らす信号処理を施す音源分離装置に適用可能である。具体的には、音声認識装置、ハンズフリー電話、会話補助装置などに、本開示は適用可能である。
 10 車
 11 第1話者
 12 第2話者
 13 第3話者
 20,20a,20b 音源分離装置
 21 第1マイク
 22 第1スピーカ
 23 第2マイク
 24 第2スピーカ
 25 第3マイク
 26 第3スピーカ
 32 第1クロストーク
 32a 間接第1クロストーク
 35 第2クロストーク
 35a 間接第2クロストーク
 36 第1話者の音声
 37 第2話者の音声
 38 第3話者の音声
 50 第1クロストークキャンセラ
 51 第1減算器
 52 第1記憶回路
 53 第1畳み込み演算器
 54 第1伝達関数記憶回路
 55 第1伝達関数更新回路
 70 第2クロストークキャンセラ
 71 第2減算器
 72 第2記憶回路
 73 第2畳み込み演算器
 74 第2伝達関数記憶回路
 75 第2伝達関数更新回路
 80 第3クロストークキャンセラ
 81 第3減算器
 82 第3記憶回路
 83 第3畳み込み演算器
 84 第3伝達関数記憶回路
 85 第3伝達関数更新回路
 131 第3クロストーク
 132 第4クロストーク
 133 第5クロストーク
 134 第6クロストーク
 150 第4クロストークキャンセラ
 151 第4減算器
 152 第4記憶回路
 153 第4畳み込み演算器
 154 第4伝達関数記憶回路
 155 第4伝達関数更新回路
 170 第5クロストークキャンセラ
 171 第5減算器
 172 第5記憶回路
 173 第5畳み込み演算器
 174 第5伝達関数記憶回路
 175 第5伝達関数更新回路
 180 第6クロストークキャンセラ
 181 第6減算器
 182 第6記憶回路
 183 第6畳み込み演算器
 184 第6伝達関数記憶回路
 185 第6伝達関数更新回路

Claims (9)

  1.  第1音声を入力するための第1マイクと、
     第2音声を入力するための第2マイクと、
     前記第1マイクの音声信号から、前記第2音声が前記第1マイクに入力される第1クロストークを除去する第1クロストークキャンセラと、
     前記第2マイクの音声信号から、前記第1音声が前記第2マイクに入力される第2クロストークを除去する第2クロストークキャンセラと、を備え、
     前記第1クロストークキャンセラは、前記第2マイクの前記音声信号から前記第2クロストークが除去された音声信号を用いて、前記第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した前記第1妨害信号を、前記第1マイクの前記音声信号から除去し、
     前記第2クロストークキャンセラは、前記第1マイクの前記音声信号から前記第1クロストークが除去された音声信号を用いて、前記第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した前記第2妨害信号を、前記第2マイクの前記音声信号から除去する、
    音源分離装置。
  2.  同一時刻における前記第2音声について、前記第2マイクの前記音声信号が前記第1クロストークキャンセラに入力される時刻は、前記第2音声が前記第1マイクに入力される時刻と同一、又は、より早く、
     同一時刻における前記第1音声について、前記第1マイクの前記音声信号が前記第2クロストークキャンセラに入力される時刻は、前記第1音声が前記第2マイクに入力される時刻と同一、又は、より早い、
    請求項1記載の音源分離装置。
  3.  さらに、
     前記第1音声を出力するための第1スピーカと、
     前記第2音声を出力するための第2スピーカと、を備え、
     前記第1クロストークキャンセラは、さらに、前記第2スピーカから出力された前記第2音声が前記第1マイクに入力される間接第1クロストークを除去し、前記第1妨害信号は、前記第1クロストーク、及び、前記間接第1クロストークの程度を示し、
     前記第2クロストークキャンセラは、さらに、前記第1スピーカから出力された前記第1音声が前記第2マイクに入力される間接第2クロストークを除去し、前記第2妨害信号は、前記第2クロストーク、及び、前記間接第2クロストークの程度を示す、
    請求項2記載の音源分離装置。
  4.  前記第1クロストークキャンセラは、
     前記第1クロストークの伝達関数として推定された前記伝達関数を記憶する第1伝達関数記憶回路と、
     前記第2クロストークキャンセラの前記出力信号を記憶する第1記憶回路と、
     前記第1記憶回路に記憶された前記出力信号と前記第1伝達関数記憶回路に記憶された前記伝達関数とを畳み込むことで前記第1妨害信号を生成する第1畳み込み演算器と、
     前記第1マイクの前記出力信号から、前記第1畳み込み演算器から出力された前記第1妨害信号を除去し、当該第1クロストークキャンセラの前記出力信号として出力する第1減算器と、
     前記第1減算器の前記出力信号と前記第1記憶回路に記憶された前記出力信号とに基づいて前記第1伝達関数記憶回路に記憶された前記伝達関数を更新する第1伝達関数更新回路と、を有し、
     前記第2クロストークキャンセラは、
     前記第2クロストークの伝達関数として推定された前記伝達関数を記憶する第2伝達関数記憶回路と、
     前記第1クロストークキャンセラの前記出力信号を記憶する第2記憶回路と、
     前記第2記憶回路に記憶された前記出力信号と前記第2伝達関数記憶回路に記憶された前記伝達関数とを畳み込むことで前記第2妨害信号を生成する第2畳み込み演算器と、
     前記第2マイクの前記出力信号から、前記第2畳み込み演算器から出力された前記第2妨害信号を除去し、当該第2クロストークキャンセラの前記出力信号として出力する第2減算器と、
     前記第2減算器の前記出力信号と前記第2記憶回路に記憶された前記出力信号とに基づいて前記第2伝達関数記憶回路に記憶された前記伝達関数を更新する第2伝達関数更新回路と、を有する、
    請求項1記載の音源分離装置。
  5.  前記第1伝達関数更新回路は、独立成分分析を用いて、前記第1減算器の前記出力信号と前記第1記憶回路に記憶された前記出力信号とに基づいて、前記第1減算器の前記出力信号と前記第1記憶回路に記憶された前記出力信号とが相互に独立となるように、前記第1伝達関数記憶回路に記憶された前記伝達関数を更新し、
     前記第2伝達関数更新回路は、独立成分分析を用いて、前記第2減算器の前記出力信号と前記第2記憶回路に記憶された前記出力信号とに基づいて、前記第2減算器の前記出力信号と前記第2記憶回路に記憶された前記出力信号とが相互に独立となるように、前記第2伝達関数記憶回路に記憶された前記伝達関数を更新する、
    請求項4記載の音源分離装置。
  6.  前記第1伝達関数更新回路は、前記第1減算器の前記出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して前記第1記憶回路に記憶された前記出力信号と、前記第1クロストークの前記伝達関数の推定における学習速度を制御するための第1ステップサイズパラメータとを乗じることで第1更新係数を算出し、算出した前記第1更新係数を前記第1伝達関数記憶回路に記憶された前記伝達関数に加算することで更新を行い、
     前記第2伝達関数更新回路は、前記第2減算器の前記出力信号に対して非線形関数を用いた非線形処理を施し、得られた結果に対して前記第2記憶回路に記憶された前記出力信号と、前記第2クロストークの前記伝達関数の推定における学習速度を制御するための第2ステップサイズパラメータとを乗じることで第2更新係数を算出し、算出した前記第2更新係数を前記第2伝達関数記憶回路に記憶された前記伝達関数に加算することで更新を行う、
    請求項5記載の音源分離装置。
  7.  前記第1伝達関数更新回路、及び前記第2伝達関数更新回路が用いる前記非線形関数は、シグモイド関数、双曲線正接関数、正規化線形関数又は符号関数である、
    請求項6記載の音源分離装置。
  8.  さらに、
     第3音声を入力するための第3マイクと、
     前記第3マイクの音声信号から、前記第2音声が前記第3マイクに入力される第3クロストークを除去する第3クロストークキャンセラと、
     前記第1マイクの音声信号から、前記第3音声が前記第1マイクに入力される第4クロストークを除去する第4クロストークキャンセラと、
     前記第2マイクの音声信号から、前記第3音声が前記第2マイクに入力される第5クロストークを除去する第5クロストークキャンセラと、
     前記第3マイクの音声信号から、前記第1音声が前記第3マイクに入力される第6クロストークを除去する第6クロストークキャンセラと、を備え、
     前記第1クロストークキャンセラは、前記第1妨害信号を推定するにあたり、前記第2マイクの前記音声信号から前記第2クロストーク及び前記第5クロストークが除去された音声信号を用い、
     前記第2クロストークキャンセラは、前記第2妨害信号を推定するにあたり、前記第1マイクの前記音声信号から前記第1クロストーク及び前記第4クロストークが除去された音声信号を用い、
     前記第3クロストークキャンセラは、前記第2マイクの前記音声信号から前記第2クロストーク及び前記第5クロストークが除去された音声信号を用いて、前記第3クロストークの程度を示す第3妨害信号を推定して算出し、算出した前記第3妨害信号を、前記第3マイクの前記音声信号から除去し、
     前記第4クロストークキャンセラは、前記第3マイクの前記音声信号から前記第3クロストーク及び前記第6クロストークが除去された音声信号を用いて、前記第4クロストークの程度を示す第4妨害信号を推定して算出し、算出した前記第4妨害信号を、前記第1マイクの前記音声信号から除去し、
     前記第5クロストークキャンセラは、前記第3マイクの前記音声信号から前記第3クロストーク及び前記第6クロストークが除去された音声信号を用いて、前記第5クロストークの程度を示す第5妨害信号を推定して算出し、算出した前記第5妨害信号を、前記第2マイクの前記音声信号から除去し、
     前記第6クロストークキャンセラは、前記第1マイクの前記音声信号から前記第1クロストーク及び前記第4クロストークが除去された音声信号を用いて、前記第6クロストークの程度を示す第6妨害信号を推定して算出し、算出した前記第6妨害信号を、前記第3マイクの前記音声信号から除去する、
    請求項1記載の音源分離装置。
  9.  第1音声と第2音声とを含む音声信号から前記第1音声と前記第2音声とを分離する音源分離装置において行われる音源分離方法であって、
     前記音源分離装置は、
     前記第1音声を入力するための第1マイクと、
     前記第2音声を入力するための第2マイクと、を備え、
     前記音源分離方法は、
     前記第1マイクの音声信号から、前記第2音声が前記第1マイクに入力される第1クロストークを除去する第1クロストークキャンセルステップと、
     前記第2マイクの音声信号から、前記第1音声が前記第2マイクに入力される第2クロストークを除去する第2クロストークキャンセルステップと、を含み、
     前記第1クロストークキャンセルステップでは、前記第2クロストークキャンセルステップにおいて前記第2マイクの前記音声信号から前記第2クロストークが除去された音声信号を用いて、前記第1クロストークの程度を示す第1妨害信号を推定して算出し、算出した前記第1妨害信号を、前記第1マイクの前記音声信号から除去し、
     前記第2クロストークキャンセルステップでは、前記第1クロストークキャンセルステップにおいて前記第1マイクの前記音声信号から前記第1クロストークが除去された音声信号を用いて、前記第2クロストークの程度を示す第2妨害信号を推定して算出し、算出した前記第2妨害信号を、前記第2マイクの前記音声信号から除去する、
    音源分離方法。
PCT/JP2016/004391 2015-10-16 2016-09-29 音源分離装置および音源分離方法 WO2017064840A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP16855097.8A EP3333850A4 (en) 2015-10-16 2016-09-29 Sound source separating device and sound source separating method
JP2017545086A JP6318376B2 (ja) 2015-10-16 2016-09-29 音源分離装置および音源分離方法
US15/889,279 US10290312B2 (en) 2015-10-16 2018-02-06 Sound source separation device and sound source separation method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-205023 2015-10-16
JP2015205023 2015-10-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/889,279 Continuation US10290312B2 (en) 2015-10-16 2018-02-06 Sound source separation device and sound source separation method

Publications (1)

Publication Number Publication Date
WO2017064840A1 true WO2017064840A1 (ja) 2017-04-20

Family

ID=58517489

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/004391 WO2017064840A1 (ja) 2015-10-16 2016-09-29 音源分離装置および音源分離方法

Country Status (4)

Country Link
US (1) US10290312B2 (ja)
EP (1) EP3333850A4 (ja)
JP (1) JP6318376B2 (ja)
WO (1) WO2017064840A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3312839A4 (en) * 2015-10-16 2018-05-09 Panasonic Intellectual Property Management Co., Ltd. Device for assisting two-way conversation and method for assisting two-way conversation
WO2020011085A1 (zh) * 2018-07-12 2020-01-16 阿里巴巴集团控股有限公司 串音数据检测方法和电子设备
WO2021100670A1 (ja) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
WO2021100671A1 (ja) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
US11089404B2 (en) 2019-01-29 2021-08-10 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus and sound processing method

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6809936B2 (ja) * 2017-02-28 2021-01-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 雑音抽出装置およびマイクロホン装置
CN110675889A (zh) * 2018-07-03 2020-01-10 阿里巴巴集团控股有限公司 音频信号处理方法、客户端和电子设备
JP7163876B2 (ja) * 2019-07-02 2022-11-01 トヨタ車体株式会社 車内会話支援装置
US11270712B2 (en) 2019-08-28 2022-03-08 Insoundz Ltd. System and method for separation of audio sources that interfere with each other using a microphone array
US11546689B2 (en) * 2020-10-02 2023-01-03 Ford Global Technologies, Llc Systems and methods for audio processing
US20230319488A1 (en) * 2022-03-29 2023-10-05 The Board Of Trustees Of The University Of Illinois Crosstalk cancellation and adaptive binaural filtering for listening system using remote signal sources and on-ear microphones

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11508105A (ja) * 1995-09-18 1999-07-13 インターヴァル リサーチ コーポレイション 信号処理のための適応フィルタおよびその方法
JP2010163054A (ja) * 2009-01-15 2010-07-29 Fujitsu Ten Ltd 会話支援装置及び会話支援方法
JP2012195801A (ja) * 2011-03-17 2012-10-11 Panasonic Corp 会話支援装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10217778A1 (de) * 2002-04-18 2003-11-06 Volkswagen Ag Kommunikationseinrichtung zur Übertragung akustischer Signale in einem Kraftfahrzeug
US6496581B1 (en) * 1997-09-11 2002-12-17 Digisonix, Inc. Coupled acoustic echo cancellation system
US6505057B1 (en) * 1998-01-23 2003-01-07 Digisonix Llc Integrated vehicle voice enhancement system and hands-free cellular telephone system
US6549629B2 (en) * 2001-02-21 2003-04-15 Digisonix Llc DVE system with normalized selection
JP3975153B2 (ja) 2002-10-28 2007-09-12 日本電信電話株式会社 ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
CN102549660B (zh) 2009-10-01 2014-09-10 日本电气株式会社 信号处理方法和信号处理装置
WO2012046582A1 (ja) * 2010-10-08 2012-04-12 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
WO2012054750A1 (en) 2010-10-20 2012-04-26 Srs Labs, Inc. Stereo image widening system
US20120294446A1 (en) 2011-05-16 2012-11-22 Qualcomm Incorporated Blind source separation based spatial filtering
US9641934B2 (en) * 2012-01-10 2017-05-02 Nuance Communications, Inc. In-car communication system for multiple acoustic zones
US20160039356A1 (en) * 2014-08-08 2016-02-11 General Motors Llc Establishing microphone zones in a vehicle
US9947334B2 (en) * 2014-12-12 2018-04-17 Qualcomm Incorporated Enhanced conversational communications in shared acoustic space
US9672805B2 (en) * 2014-12-12 2017-06-06 Qualcomm Incorporated Feedback cancelation for enhanced conversational communications in shared acoustic space
US10542154B2 (en) * 2015-10-16 2020-01-21 Panasonic Intellectual Property Management Co., Ltd. Device for assisting two-way conversation and method for assisting two-way conversation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11508105A (ja) * 1995-09-18 1999-07-13 インターヴァル リサーチ コーポレイション 信号処理のための適応フィルタおよびその方法
JP2010163054A (ja) * 2009-01-15 2010-07-29 Fujitsu Ten Ltd 会話支援装置及び会話支援方法
JP2012195801A (ja) * 2011-03-17 2012-10-11 Panasonic Corp 会話支援装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3333850A4 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3312839A4 (en) * 2015-10-16 2018-05-09 Panasonic Intellectual Property Management Co., Ltd. Device for assisting two-way conversation and method for assisting two-way conversation
US10542154B2 (en) 2015-10-16 2020-01-21 Panasonic Intellectual Property Management Co., Ltd. Device for assisting two-way conversation and method for assisting two-way conversation
WO2020011085A1 (zh) * 2018-07-12 2020-01-16 阿里巴巴集团控股有限公司 串音数据检测方法和电子设备
US11551706B2 (en) 2018-07-12 2023-01-10 Alibaba Group Holding Limited Crosstalk data detection method and electronic device
US11089404B2 (en) 2019-01-29 2021-08-10 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus and sound processing method
WO2021100670A1 (ja) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
JP2021081654A (ja) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
WO2021100671A1 (ja) * 2019-11-21 2021-05-27 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
JP7437650B2 (ja) 2019-11-21 2024-02-26 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
JP7486145B2 (ja) 2019-11-21 2024-05-17 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法

Also Published As

Publication number Publication date
US20180158467A1 (en) 2018-06-07
JP6318376B2 (ja) 2018-05-09
EP3333850A4 (en) 2018-06-27
EP3333850A1 (en) 2018-06-13
US10290312B2 (en) 2019-05-14
JPWO2017064840A1 (ja) 2018-05-24

Similar Documents

Publication Publication Date Title
JP6318376B2 (ja) 音源分離装置および音源分離方法
JP6311136B2 (ja) 双方向会話補助装置及び双方向会話補助方法
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
EP1848243B1 (en) Multi-channel echo compensation system and method
JP4957810B2 (ja) 音処理装置、音処理方法及び音処理プログラム
EP1718103B1 (en) Compensation of reverberation and feedback
CN1719516B (zh) 自适应滤波装置以及自适应滤波方法
Djendi et al. Analysis of two-sensors forward BSS structure with post-filters in the presence of coherent and incoherent noise
WO2016103709A1 (ja) 音声処理装置
JP5738488B2 (ja) ビームフォーミング装置
JP2013546247A (ja) マルチビーム音響システム
KR20100003530A (ko) 전자기기에서 음성 신호의 잡음 제거 장치 및 방법
US20080152157A1 (en) Method and system for eliminating noises in voice signals
JP2007180896A (ja) 音声信号処理装置および音声信号処理方法
JP2012195801A (ja) 会話支援装置
JP2024026716A (ja) 信号処理装置及び信号処理方法
KR101587844B1 (ko) 마이크로폰의 신호 보상 장치 및 그 방법
CN1180602C (zh) 用于时空回声消除的方法和装置
JP7194900B2 (ja) 翻訳装置及び翻訳方法
JP2008033307A (ja) マルチチャンネルエコーキャンセラ
JP2012049715A (ja) 音源分離装置、音源分離方法、及び、プログラム
Saremi Spatial audio signal processing for speech telecommunication inside vehicles
CN113519169B (zh) 用于音频啸叫衰减的方法和装置
EP4057275B1 (en) Active noise control system
Park et al. DTD-free nonlinear acoustic echo cancellation based on independent component analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16855097

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017545086

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2016855097

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE