WO2007026827A1 - マイクロホンアレイ用ポストフィルタ - Google Patents

マイクロホンアレイ用ポストフィルタ Download PDF

Info

Publication number
WO2007026827A1
WO2007026827A1 PCT/JP2006/317229 JP2006317229W WO2007026827A1 WO 2007026827 A1 WO2007026827 A1 WO 2007026827A1 JP 2006317229 W JP2006317229 W JP 2006317229W WO 2007026827 A1 WO2007026827 A1 WO 2007026827A1
Authority
WO
WIPO (PCT)
Prior art keywords
filter
noise
post
microphone array
microphone
Prior art date
Application number
PCT/JP2006/317229
Other languages
English (en)
French (fr)
Inventor
Masato Akagi
Junfeng Li
Masaaki Uechi
Kazuya Sasaki
Original Assignee
Japan Advanced Institute Of Science And Technology
Toyota Jidosha Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Advanced Institute Of Science And Technology, Toyota Jidosha Kabushiki Kaisha filed Critical Japan Advanced Institute Of Science And Technology
Priority to JP2007533331A priority Critical patent/JP4671303B2/ja
Priority to EP06797189A priority patent/EP1931169A4/en
Priority to CN200680031886XA priority patent/CN101263734B/zh
Publication of WO2007026827A1 publication Critical patent/WO2007026827A1/ja
Priority to US12/074,085 priority patent/US20080159559A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Definitions

  • the present invention relates to a post filter for a microphone array.
  • a multi-channel' winner filter is Produces an output with a higher signal-to-noise ratio than when only the MVDR beamformer is used, so in a practical noise environment, additional post-filtering Needed to improve the performance of the microphone array.
  • the m-th observation signal X (t) also has two component forces.
  • the first signal is the desired source and the m th sensor
  • k is a frequency index and 1 is a frame index.
  • X T (k, l) [X (k, l), X (k, l), ..., X (k, l)]
  • a T (k, l) [A (k, l), A (k, l), ..., A (k, l)] ⁇ ⁇ ⁇ (4)
  • N T (k, l) [N (k, l), N (k, l), ⁇ , N (k, l)] ⁇ ⁇ ⁇ (5)
  • the purpose here is to estimate the desired signal as well as the signal strength including the observed noise
  • the estimated output signal T (k, l) is given by
  • T (k, l) W H (k, l) X (k, l) (6)
  • W (k, l) is a weighting factor
  • H is a complex conjugate transpose
  • the multi-channel Wiener filter can be further decomposed into an MVDR beamformer and a winner's post filter.
  • the first term is the term of the MVDR beam shaper
  • the second term is the term of the winner. It is a section of the filter.
  • the MVDR beamformer makes an undistorted MMSE estimate of the desired signal for a given direction. By further reducing the remaining noise with the Wiener post filter, the noise reduction capability can be improved to produce a high signal to noise ratio.
  • MVDR beamformer As the MVDR beamformer, a Frost's beamformer (Reference 8: 0. L. Frost, "Anagonthm ror linearly constrained adaptive array processing, in Proc. ⁇ , vol. 0 0, pp. 0. 926-935, see 1972.) and some adaptive algorithms such as the generalized sidelobe canceller (GSC) and hyper-directional beamformers under diffuse noise field assumptions! Several non-adaptive algorithms have been proposed.
  • GSC generalized sidelobe canceller
  • microphone arrays are prearranged in the direction of the desired signal, with loss of generality, to process the same desired audio signal on each microphone.
  • the multichannel input is scaled to.
  • the time lag compensation output is as follows.
  • Zelinski postfilters use the estimated autocorrelation and crosscorrelation spectral density to provide a solution for Wiener filters to noise fields where the noise is completely uncorrelated. If the desired signal and the noise signal are uncorrelated and the noise is uncorrelated between the different microphones with the same power density, then the self and cross-correlation spectral density of the multichannel input ⁇ xx (k, l) and ⁇ We can simplify xx (k, l)).
  • ⁇ XX (k, l) ⁇ ss (k, l) + ⁇ nn (k, l) (9)
  • the real number RO and the averaging contribute to improve the robustness of this postfilter against estimation errors.
  • the self and cross correlation spatial densities are estimated in the scaled microphone signal.
  • ⁇ (k, l), ⁇ ⁇ (1 ⁇ , 1), and ⁇ ⁇ (k, l) can be simplified as follows.
  • ⁇ ⁇ (k, l) ⁇ ss (k, l) + ⁇ nn (k, l) ... (12)
  • ⁇ (k, l) ss (k, l) + r nn (k, l) nn (k, l)
  • Mac Cowan 'post filter is
  • the MacCowan 'post filter is based on the use of multi-channel recordings in the office and has been proposed to achieve improved performance compared to the Zelinski' post filter in this environment, but it is assumed If there is a difference between the coherence function and the actual coherence function, the performance is expected to decline.
  • An object of the present invention is to provide a novel post filter having a hybrid structure in a diffuse noise field.
  • a diffuse noise field has been proposed as a reasonable model for many practical noise environments, such as reverberant rooms and cabin environments.
  • low frequency noise is highly correlated and high frequency noise is low correlated.
  • a multi-channel 'Winner post filter for high frequency (low correlation) noise and a single channel Wiener post filter for low frequency (high correlation) noise.
  • a modified Zerinski 'post-filter that takes full account of the correlation between noise with different microphone pairs.
  • a single-channel 'winner' post filter is used to further reduce “musical noise” by a decision-directed signal-to-noise ratio estimation mechanism.
  • the post filter according to the present invention follows the basic configuration of a multi-channel 'winner' filter, and can effectively reduce high correlation noise and low correlation noise in the diffusion noise field.
  • a post filter includes a microphone array having at least two microphones for inputting an audio signal, a beam shaper for forming the audio signal having the microphone array input, and the microphone A divider for dividing a target sound including noise input at an array frequency into at least two frequency bands at a predetermined frequency, and estimating a filter gain when noise is uncorrelated between the microphones Adding the outputs of the first filter and the second filter force, the second filter that estimates the filter gain of the first filter, the average signal of one microphone in the microphone array, or the microphone array, and the second filter An adder, V and noise reduction means based on the output of the adder and the beamformer.
  • FIG. 1 shows the MSC function of the complete spreading noise field against frequency.
  • FIG. 2 is a block diagram of a post filter according to the present invention.
  • FIG. 3 is a block diagram showing a schematic configuration of a modified Zerinski post filter.
  • Fig. 4 is a block diagram showing a schematic configuration of a single channel winner filter.
  • FIG. 5 is a diagram showing the relationship between the directivity coefficient and the frequency.
  • FIG. 6A shows experimental results of averaged SEGSNR calculated with two noise conditions at various SNR levels.
  • FIG. 6B shows experimental results of averaged SEGSNR calculated with two noise conditions at various SNR levels.
  • FIG. 7A shows experimental results of averaged NR calculated with two noise conditions at various SNR levels.
  • FIG. 7B shows experimental results of averaged NR calculated with two noise conditions at various SNR levels.
  • FIG. 8A shows experimental results of averaged LSD calculated with two noise conditions at various SNR levels.
  • FIG. 8B shows experimental results of averaged LSD calculated with two noise conditions at various SNR levels.
  • Fig. 9A shows a measurement example corresponding to a typical "must have” and a Japanese text of a sound spectrogram in a car environment under a speed of 100 km Zh.
  • FIG. 9B A diagram showing an example of measurement corresponding to a typical "please", speech of the speech spectrogram in the environment of a car under a speed of 100 km Zh.
  • FIG. 9C is a diagram showing an example of measurement corresponding to a typical “please be patient” and a Japanese text of the audio spectrogram in the environment of a car under a speed of 100 km Zh.
  • FIG. 9D A diagram showing an example of measurement corresponding to a typical "please", speech of the voice spectrogram in a car environment under a speed of 100 km Zh.
  • FIG. 9E Source of speech spectrogram in the car environment under the speed of 100 km Zh It is a figure which shows the example of a measurement corresponding to a typical "please your favor" t, a Japanese-Chinese text.
  • FIG. 9F A diagram showing an example of measurement corresponding to a typical "please” and voice of the audio spectrogram in a car environment under a speed of 100 km Zh.
  • FIG. 9G A diagram showing an example of measurement corresponding to a typical "please", speech of the speech spectrogram in a car environment under a speed of 100 km Zh.
  • FIG. 9H A diagram showing an example of measurement corresponding to a typical "please” and a Japanese text of a sound spectrogram in the environment of a car under a speed of 100 km Zh.
  • ⁇ ⁇ . ⁇ ⁇ , ⁇ is the cross-correlation spectral density between two signals xi (t) and xj (t), ⁇ ⁇ (k, 1) and ⁇ XX (k, l) Is the autocorrelation spectral density of xi (t) and xj (t), respectively.
  • MSC magnitude-squared correlation
  • the diffusion noise field which is one of the basic assumptions in the present specification, is shown as a rational model for many real noise environments.
  • the diffuse noise field is characterized by the following MSC function.
  • Figure 1 shows the MSC function of the complete diffuse noise field versus frequency. From Figure 1 we can easily determine some characteristics of the diffuse noise field as follows.
  • the MSC function is a frequency dependent and time independent function.
  • Noise at different microphones is highly correlated at low frequencies and is highly correlated at high frequencies.
  • f cZ (2d)
  • the transition frequency is determined solely by the distance d between the two microphones, since it is considered to be a constant.
  • assumption (1) is usually used in speech signal processing, and assumptions (2) and (3) have been shown to be implemented in many real noise environments.
  • FIG. 2 is a block diagram of a post filter according to the present invention.
  • FIG. 3 is a block diagram showing a schematic configuration of a modified Zerin-ski post filter
  • FIG. 4 is a block diagram showing a schematic configuration of a single channel 'punar post filter.
  • the post filter includes a microphone array 10 (hereinafter, also simply referred to as a “microphone”), a fast Fourier transform 11, a time matcher 12, and a beam shaper. 13, frequency band divider 14, modified Zerinski filter gain estimator 20 (modified Zerinski ⁇ ⁇ post filter), single channel 'filter gain estimator 30, carousel 40, filter 41, delay And an inverse fast Fourier transformation 50.
  • the modified Zerinski filter gain estimator 20 includes a cross correlation spectral density calculator 21, an averager 22, an autocorrelation spectral density calculator 23, and an averager. 24 and a divider 25 are provided. Also, as shown in FIG.
  • the single channel filter gain estimator 30 includes an averager 31, a noise displacement updater 32, a Boseliori SNR calculator 33, a delay unit 34, and a priori SNR calculator 35. , An SAP computing unit 36, and a single channel winner filter 37 gain estimator (single channel winner ⁇ ⁇ post filter).
  • a transition frequency is determined in advance according to the microphone arrangement of the microphone array.
  • M (M-1) Z2 microphone pairs are not arranged at equal intervals or on a straight line, it is possible to arrange all M (M-1) Z2 microphone pairs at different intervals, in this case. In this case, M (M – 1) Z 2 transition frequencies can be selected.
  • speech input from the microphone 10 is subjected to Fourier transform by the fast Fourier transformer 11.
  • the signal after the Fourier transform is corrected by the time matching unit 12 for the time shift of the input signal with respect to the same voice among the microphones 10.
  • the processing by the high speed Fourier transformer 11 and the time matching unit 12 may be reversed in order.
  • the time-matched speech signal is input to the frequency band divider 14, and the frequency band divider 14 has (M ⁇ 1) different transition frequencies f ⁇ f 2 . f M — 1 for all frequency bands B
  • the ( ⁇ 1) sub-bands of ⁇ are input to the modified Zerinski filter gain estimator 20. Further, the time-matched audio signal is also input to the beam shaper 13, is beam-formed, and is input to the filter 41.
  • the cross-correlation spectral density is calculated by the cross-correlation spectral density calculator 21 for the ( ⁇ 1) number of sub-bands input to the modified Zerinski filter gain estimator 20, and the average is calculated by the averaging unit 22. Find the average value.
  • the self-correlation (cross-correlation) spectral density is selected and averaged for microphone pairs whose noise is uncorrelated in that band not for all inputs.
  • the autocorrelation spectrum density is calculated by the autocorrelation spectrum density calculator 23 and the average value is obtained by the averager 24.
  • the spectral density of the noise signal in the cross correlation spectral density calculator 21 and the self spectral density calculator 23 can be obtained as follows.
  • the automatic and overlapping spectral density averaged by the averaging units 22 and 24 is divided by the dividing unit 25 to output the filter gain (gain function) in the high frequency band.
  • the filter gain gain function
  • the gain function of the modified Zeinski post filter is given as follows.
  • the determination of the transition frequency depends only on the arrangement of the microphone array and not on the input signal. It also contributes to the reduction of the computational cost of the selection of the microphone pair included in the estimation procedure of the self and cross correlation spectral density and the modified Zerinski 'post filter.
  • sub-band B from each microphone 10 is a single channel 'filter gain
  • the estimator 30 Input to the estimator 30. If the noise in all microphone pairs is highly correlated, estimate the autocorrelation spectral density of the desired speech signal from the self and cross correlation spectral densities of the multichannel input, even with the modified Zerinski post filter I can not Thus, at low frequencies, it is rewarded to adopt single-channel technology to estimate the winner's postfilter.
  • the sub-band B input to the single channel 'filter gain estimator 30 is
  • Equalizer 31 averages between channels.
  • the averaged subband B is noise
  • the data is input to the rank updater 32 and the Bosteriori SNR calculator 33.
  • the noise displacement updater 32 performs update processing based on the signals from the averaging unit 31 and the SAP calculator 36, and outputs the estimated noise spectrum to the Boseliori S NR calculator 33 and the delay unit 34.
  • From the Bose Terriori SNR operator 33 to the pre-Ori SNR operator 35 execute various operations, the details of which will be described later.
  • a single channel 'Winner filter' gain estimator 37 outputs a filter gain (gain function) in a low frequency band based on the signal from the pre-SNR calculator 35.
  • the gain function of the Wiener post filter can be rewritten as follows.
  • SNR p riori (k, l) E [
  • the estimation of the a priori SNR (SNR (k, l)) calculated by the a priori SNR calculator 35 is the lower prion
  • ⁇ (0 ⁇ ⁇ ⁇ 1) is a forgetting factor
  • SNR (k, l) is a posteriori S post
  • ⁇ (0 ⁇ j8 ⁇ 1) is a forgetting factor that controls the update rate of noise estimation.
  • Equation (25) q (k, l) is the speech absence probability, and
  • 2 is the average of the spectral density of each noise in each sensor. Note that
  • the reason for calculating the average of the spectral density of the individual noise in each sensor is that considering only one sensor may result in biased measurements due to estimation errors. Assuming a complex Gaussian statistical value model and applying Bayes's theorem and probability total sum theorem, the following equation gives the probability of speech absence.
  • q ′ (k, l) is an a priori speech absence probability, and an appropriate value is selected by experiment.
  • the filter gains (gain functions) in the high frequency band and the low frequency band obtained as described above are added by the adder 40, and the addition result is output to the filter 41, the filter 41
  • the output power of the beam shaper 13 and the adder 40 also outputs a signal in which noise in the high frequency band and the low frequency band is reduced to the delay unit 42 and the inverse fast Fourier transformation 50.
  • the inverse fast Fourier transformation 50 inverse Fourier transforms the input signal and outputs the result to, for example, a speech recognition device at a later stage.
  • the signal output to the delay unit 42 is used to calculate the gain function in the single channel filter gain estimator 30.
  • the post filter according to the present invention follows the framework of multi-channel * first / post filter, and can be said to be just a winner post filter.
  • the postfilter given by equation (22) is clearly a Wiener filter.
  • the cross-correlation spectral density force of the multi-channel input provides a more accurate speech self-spectral density estimate, as it is uncorrelated with the noise power used to be estimated with the modified Zelinski 'postfilter. Therefore, the modified Zerinski ⁇ ⁇ ⁇ post filter adopted in the high frequency domain can be regarded as the wina ⁇ ⁇ ⁇ post filter.
  • the post filter power according to the present invention configured as described above provides a more general representation as an optimum post filter for a microphone array.
  • the postfilter according to the invention becomes a Zelinski 'postfilter simply by setting the transition frequency to zero.
  • a noise field in which all noises are completely correlated it is possible to obtain a single-channel 'inner post-filter' simply by setting the transition frequency of the post filter according to the present invention to the highest frequency.
  • a Zerinski 'post-filter In order to verify the effectiveness of the inventive post-filter in diffuse noise fields, in various car noise environments, a Zerinski 'post-filter, a MacCo's' post-filter, and a single single channel. Wina ⁇ ⁇ ⁇ Compared with other traditional post filters, including post filters.
  • a beamformer is first applied to the multichannel noise signal. And, the beamformer output is further enhanced by the post filter according to the present invention. Performance is assessed by objective and subjective means.
  • the configuration of the experiment is as follows.
  • a linear array of three microphones of equal force with 10 cm mutual element spacing was mounted on the car's sun visor.
  • the array is about 50 cm away from the driver, the driver In front of the
  • Multi-channel noise recording was performed simultaneously on all channels while the car was traveling on the highway at speeds of 50 km Zh and 100 km Zh.
  • the noise is mainly due to engine noise, air conditioning noise and noise from friction between the tire and the road.
  • the ATR database was used to extract clear speech signals that also consist of 50 Japanese words. Both speech and noise signals were first re-extracted to 12 kHz with 16-bit accuracy.
  • a multichannel noise signal was generated by artificially mixing clear speech signals and actual multichannel in-vehicle noise at different global SNR levels (15, 20) dB. This generation procedure has the following advantages.
  • the beam shaping filter is realized with a hyper-directional beamformer which is a solution of the MVDR beamformer in diffuse noise fields.
  • the gain function of the superdirective beamformer which is a function of frequency k
  • the pointing factor (DI) which indicates the noise reduction capability of the array relative to the diffuse noise source, is
  • SEGSN R segment SNR
  • NR noise reduction ratio
  • LSD log spectral distance
  • SEGSNR Segmented SNR
  • s 0 and s — 0 are signals obtained by suppressing the reference speech signal and the noise signal processed by the tested algorithm.
  • L and K represent the number of frames of the signal and the number of samples per frame (equal to the length of STFT).
  • NR noise reduction ratio
  • represents the set of frames without speech
  • I I I is the concentration
  • X (k, l) and s_ (k, l) are noise signals and enhanced speech signals, respectively.
  • LSD Log spectral distance
  • indicates a set of frames in which speech is present, and
  • S (k, l) and S_ (k, l) are the spectra of the reference clear signal and the emphasized speech signal, respectively.
  • the symbols in the figure indicate that the square is the output of the beamformer, the rhombus is the output of the Zerinski 'post filter, the plus is the output of the McCowan' post filter, the triangle is the single channel ⁇ wina ⁇ ⁇ ⁇ the output of the post filter, circle
  • the output of the postfilter according to the invention is shown, the X in FIG. 8 being the average logarithmic spectral distance (LSD) of the as-recorded signal, with nothing added.
  • the beamformer alone and the Zerinski 'postfilter do not show sufficient performance in suppressing low frequency noise components and do not provide SEGSNR improvement and noise reduction results .
  • a MacCowan postfilter with the noise field's appropriate coherence function as a parameter significantly improves SEGSNR.
  • single-channel 'wina ⁇ ⁇ ⁇ post filters show higher SEGSNR and NR improvements compared to Zerinski and Mack-Won' post filters.
  • the post filter according to the present invention gives the highest SEGSNR and NR equivalent to the single channel post filter to all the test conditions, and shows the highest performance.
  • the beamformer alone and the Zerinski's post filter reduce the LSD over all signal-to-noise ratios as compared to the case without the filter.
  • Single channel winner The post filter reduces speech distortion at low SNR but increases the distortion at high SNR.
  • the proposed method and the Mac post-post filter are the lowest at most SNR levels, Show LSD!
  • FIGS 9A to 9H show typical measurement examples of the speech spectrum data corresponding to the Japanese text "Please Thank You" in a car environment under the speed of lOOkmZh.
  • the output of the beamformer is shown in Fig. 9D.
  • the output of the Zelinski 'postfilter, shown in Figure 9E is shown to provide very limited performance at low frequencies due to the high correlation characteristics of noise in the low frequency domain.
  • FIG. 9F shows that the Mac-Kowin 'postfilter suppresses noise even in the low frequency domain. However, residual noise exists due to the difference between the assumed coherence function and the actual coherence function.
  • the single channel 'winner post filter results in audio distortion as shown in FIG. 9G.
  • FIG. 9H shows a postfilter according to the present invention that can suppress diffusive noise without adding speech distortion. Informal listening tests proved the superiority of the postfilter according to the invention compared to the others.
  • the inventive postfilter is superior to the Zerinski's postfilter. Furthermore, the postfilter according to the present invention is successful in reducing low frequency high correlation noise components.
  • the MAC Cowan post filter is determined based on the coherence function of the noise field.
  • the performance is largely dependent on the accuracy of the hypothesized coherence function. Assumption The difference between the and the actual coherence function leads to performance degradation.
  • the hybrid postfilter according to the present invention utilizes only the transition frequency to distinguish between correlated and uncorrelated noise, and regardless of the actual instantaneous value of the coherence function, errors in the coherence function are not detected. Reduce the resulting effects! /.
  • the hybrid post filter according to the present invention is superior to single channel tuners and post filters used in all frequency bands.
  • Single-channel Wiener postfilters based on measurements of noise characteristics can hardly cope with nonstationary noise sources even if a soft decision mechanism is adopted.
  • multi-channel techniques provide theoretically desirable performance even for non-stationary noise.
  • the modified Zelinski 'post filter according to the invention completely provides this performance in each split frequency range of the high frequency range.
  • the present invention has proposed a boost filter for a microphone array, assuming a diffusion noise field.
  • the postfilter according to the present invention is configured by combining a modified Zerinski postfilter in the high frequency domain and a single-channel post-filter in the low frequency domain.
  • the post filter according to the present invention has the following advantages over other algorithms.
  • the post filter according to the present invention is a binary 'post filter, it follows the framework of multi channel' wina ⁇ post filter.
  • the postfilter according to the present invention reduces noise and is effective in estimating the desired speech in various vehicle noise environments compared to other algorithms.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

 音声信号を入力する少なくとも2つのマイクロホンからなるマイクロホンアレイ(10)と、前記マイクロホンアレイから入力された音声信号の成形を行うビーム成形器(13)と、前記マイクロホンアレイから入力された雑音を含む目的音を所定の周波数で少なくとも2つの周波数帯域に分割する分割器(14)と、前記マイクロホン間で雑音が無相関である場合のフィルタゲインを推定する第1のフィルタ(20)と、前記マイクロホンアレイ中の1本のマイクロホンあるいはマイクロホンアレイの平均信号のフィルタゲインを推定する第2のフィルタ(30)と、前記第1のフィルタと前記第2のフィルタからの出力を加算する加算器(40)と、前記加算器と前記ビーム成形器からの出力に基づいて雑音を低減する手段(41)とを備えた。

Description

明 細 書
マイクロホンアレイ用ポストフィルタ 技術分野
[0001] 本発明は、マイクロホンアレイ用ポストフィルタに関する。
背景技術
[0002] 利便性と柔軟性故に、携帯電話や自動音声認識システムのような多くのアプリケー シヨンに対してハンズフリー技術が望ましい。この技術おける重要な問題の 1つとして
、遠方のマイクロホンで受信された信号の信頼性が様々な種類の雑音で著しく低下 するという問題がある。この問題の解決法として、所定の方向以外の方向から届く雑 音信号を抑圧するためにマイクロホンアレイを用 V、た空間フィルタリングを使用するこ とが考えられる。マイクロホンアレイは、高品質な音声をもたらし、雑音の減少にかなり の優位性を持つ。
[0003] 最近、下記のような提案がなされている(文献 1: J. Bitzer, K.U. Simmer and K.-D.
Kammeyer, "Multi-Microphone Noise Reduction Techniques as Front-end Devices f or Speech Recognition, Speech Communication, vol. 34, pp. 3-12, 2001.参照)。こ の提案では、所望の音声信号と雑音信号の間の相関を無相関と仮定したとき、マル チチャンネル 'ウィナーフィルタは,広帯域の入力に対して出力の二乗誤差を最小と する最適解となることが示されている。そして、マルチチャンネル 'ウィナーフィルタは 、更に、最小変位無歪応答 (MVDR : Minimum Variance Distortionless Response)ビ ーム成形器とそれに続くウィナー 'ポストフィルタに分解することができることが示され ている。一般に、マルチチャンネル 'ウィナーフィルタは、 MVDRビーム成开器のみ を用いた場合よりも高い SN比で出力を生成する。したがって、実用的な雑音環境に おいては,付カ卩的なポストフィルタリング力 マイクロホンアレイの性能を向上させるの に必要となる。
[0004] 上記のポストフィルタリングに関して、さまざまなポストフィルタリング技術が提案され TV、o (文献 2: R. Zelinski, A micropnone array with adaptive post-filtering for nois e reduction in reverberant rooms, in Proc. IEEE Int. Conf. on Acoustic, Speech, Si gnal Processsing, vol. 5, pp. 25782581, 1988.、文献 3 : 1. A. McCowan and H. Bourla rd, Microphone Array Post-filter Based on Noise Field Coherence," IEEE Trans, o n Speech and Audio Processing, vol. 11, no. 6, pp. 709-716, 2003.、文献 4 : 1. Cohe n and B. Berdugo, "Microphone Array Post-filtering for Non-Stationary Noise Suppr ession, in Proc. IEEE Int. Conf. Acoustic Speech Signal Processing, pp. 901—904, May 2002.、及び文献 5 : 1. Cohen, "Multi-Channel Post-filtering in Non-Stationary Noise Environments, lEEE Trans. Signal Processing, Vol. 52, No. 5, pp. 1149—116 0, 2004.参照)。広く使用されている 1つのマルチチャンネル 'ポストフィルタ力 最初 に、ゼリンスキーによって提案されている。このポストフィルタ(以下、「ゼリンスキー'ポ ストフィルタ」と称する)は、異なるマイクロホン間における雑音が完全に無相関である ような雑音場を仮定している。しかし、この仮定は実際の環境では、特にマイクロホン が近接している場合や雑音間の相関が高い低周波数域では、めったに満たされるこ とがない。
[0005] 高 、相関を示す雑音を抑制するために、一般化されたサイドローブ除去器 (GSC) をゼリンスキー'ポストフィルタに結合することも提案されている(文献 6 : S. Fischer, K. D. Kammeyer, and K. U. Simmer, Adaptive Microphone Arrays for Speech Enhanc ement in Coherent and Incoherent Noise Fields, in Proc 3rd joint meeting of the A coustical Society of America and the Acoustical Society of Japan, Honolulu, Hawaii, 1996.参照)。しかしながら、 GSCとゼリンスキ一'ポストフィルタのいずれも低周波数 領域での振る舞いが良くないと指摘されている。このため、高周波での低相関雑音成 分を低減するためにゼリンスキー *ポストフィルタを適用し、低周波数での高相関雑音 成分を低減するのにスペクトル減算を行うことが提案されている(文献 7 : J. Meyer and K. U. bimmer, Multi-channel speech enhancement in a car environment using Wie ner filtering and spectral subtraction, in Proc. IEEE Int. Conf. on Acoustic, Speech , Signal Processsing, Munich, Germany, pp. 21-24, 1997.参照)。しかしながら、この 提案は、マルチチャンネル 'ゥイナ一'ポストフィルタの基本的な構成に矛盾すると共 に、スペクトル減算を実行するのに音声アクティビティ検出器 (VAD)が必要になる。
[0006] 以下、マルチチャンネル 'ウイナ一'ポストフィルタについて説明し、解決すべき課題 について説明する。その後、ゼリンスキー 'ポストフィルタとまた、その比較に使用する マックコゥワン.ポストフィルタについて説明する。
[0007] 雑音下の環境で M個のセンサを有するマイクロホンアレイの場合、 m番目の観測信 号 X (t)は 2つの成分力もなつている。 1番目の信号は、所望の音源と m番目のセンサ m
間のインパルス応答で変換された所望の信号である。 2番目の信号は、付加的な雑 音 n (t)である。これから、受信信号は、(1)式で与えられる。
m
X (t) = s(t) * a (t) + n (t)
m m m …(1)
ここで、 m= l、 2、 · · ·、 M、であり、 *は畳み込み演算子である。短時間フーリエ変 換 (STFT)を適用すると、以下のように、時間 周波数領域の観測された信号を表 すことができる。
X(k,l) = S(k,l)A(k) + N(k,l)…(2)
ここで、 kが周波数インデックスであり、 1がフレームインデックスである。
[0008] XT(k,l) = [X (k,l), X (k,l), · ··, X (k,l)]
1 2 M …(3)
AT(k,l) = [A (k,l), A (k,l), · ··, A (k,l)] · ·· (4)
1 2 M
NT(k,l) = [N (k,l), N (k,l), · ··, N (k,l)] · ·· (5)
1 2 M
ここでの目的は,観測された雑音を含む信号力も所望の信号を推定することである
。行列表現を使用すれば、推定出力信号 T(k,l)は、下記の式で与えられる。
[0009] T(k,l) = WH(k,l)X(k,l) ... (6)
ここで、 W(k,l)が重み係数であり、上付き文字 Hが複素共役転置である。
[0010] 所望の信号とその推定の間の平均自乗誤差を最小にすることを要請すると、最適 な重み係数が得られ、マルチチャンネル 'ウィナーフィルタが得られることになる。所 望の信号と雑音信号が互 、に無相関であると仮定すれば、さらにマルチチャンネル · ウィナーフィルタを MVDRビーム成形器とウイナ一'ポストフィルタとに分解することが できる。
[数 1]
Φ , ) ) ... (7)
AH {^n {k,l)A(k) Φ~ Κΐ)φ { ΐ)
[0011] (7)式において、第 1項が MVDRビーム成形器の項で、第 2項がウイナ一.ポストフ ィルタの項である。 MVDRビーム成形器は、所定の方向に対して所望の信号の無歪 MMSE推定を行う。ウィナー ·ポストフィルタでさらに残りの雑音を低減することにより 、雑音低減能力を改良して、高 SN比を生成することができる。
[0012] MVDRビーム成开器としては、フロストのビーム成开器(文献 8: 0. L. Frost, "An a igonthm ror linearly constrained adaptive array processing, in Proc. ΙΆΕΕ, vol.り 0, pp. 926-935, 1972.参照)や一般化されたサイドローブキャンセラ(GSC)などのいく つかの適応型アルゴリズム、および拡散雑音場の仮定のもとで超指向型ビーム成形 器などの!/ヽくつかの非適応型アルゴリズムが提案されて ヽる。
[0013] 以下の議論では、一般性を失わな ヽ範囲で、マイクロホンアレイが所望の信号方向 に向力つて事前に配置されており、各マイクロホンの上の同じ所望の音声信号を処 理するためにマルチチャンネル入力がスケーリングされていると仮定する。このとき、 時間遅れ補償出力は次のようになる。
X (k,l) =S(k,l) + N (k,l) (m = 1 , 2, · · · , M)
m m …(8)
以下、ゼリンスキ一'ポストフィルタとマックコゥワン'ポストフィルタと呼ばれる 2個の ポストフィルタに対して、簡単に説明する。
ゼリンスキー ·ポストフィルタは、推定された自己相関及び相互相関スペクトル密度 を用いて,雑音が完全に無相関である雑音場にぉ 、てウィナー ·フィルタの解決策を 提供している。所望の信号と雑音信号が無相関であり、雑音は同一のパワー密度を 持つが異なるマイクロホン間で無相関であれば、マルチチャンネル入力の自己及び 相互相関スペクトル密度 φ xx (k,l)と φ xx (k,l))を単純ィ匕することができる。
φ XX (k,l) = φ ss(k,l) + φ nn(k,l)…(9)
χχ (k,l) = ss(k,l)…(10)
自己及び相互相関スペクトル密度の簡易的な表現 (式 (9)および (10))に基づいて、 ゼリンスキー ·ポストフィルタを定式ィ匕することができる。
[数 2]
Figure imgf000006_0001
[0014] ここで、実数 ROと (すべてのセンサ対にわたっての)平均演算は、推定誤りに対して このポストフィルタの頑健性を向上させるのに寄与する。 自己及び相互相関スぺタト ル密度はスケーリングされたマイクロホン信号で推定される。
[0015] しかし、実際には、各マイクロホンにおける雑音が無相関であるというゼリンスキー' ポストフィルタの基本的な仮定は実用的な環境ではめったに満たされていない。この 事実を考慮して、マックコゥワンは、各マイクロホンにおける雑音が無相関であるとい う仮定を緩和し,各マイクロホンにおける雑音は同じパワースペクトル密度を持つとと もにお互い関係しており,相関の大きさはコヒーレンス関数で与えられるという仮定を 設けた.
そして、所望のスピーチ信号と雑音信号間は無相関であるという仮定と,緩和され た雑音間の相関の仮定の下で,マルチチャンネルの自己及び相互相関スペクトル密 度は後述する式によって与えられる。ここで、 rn n(k,i)は、複素コヒーレンス関数 (式 (
17)に後述)である。
χχ (k,l)、 φ χχ (1ί,1)、および φ χχ (k,l)は下記のように簡素化することができる。
1 1 J J i j
φ χχ (k,l) = φ ss(k,l) + φ nn(k,l)… (12)
φ χχ (k
j j ,l) = φ ss(k,l) + φ nn(k,l)… (13)
χχ (k,l) = ss(k,l) + rnn(k,l) nn(k,l)
i j i j … (14)
そして、これらの表現に基づいて、ゥイナ一'ポストフィルタの分子項であるスピーチ パワーのスペクトル密度 φ ss_(k,l)を表すことができる。
[数 3] ( ,/) - {Γ ( ,/) (AJ) + ii
_ x>xj 2 '」 ±Ι±ί Λ_ } 1 (15)
レ J)}
[0016] マックコゥワン 'ポストフィルタは、
[数 4]
Figure imgf000007_0001
[0017] で表すことができる。マックコゥワン'ポストフィルタはオフィスでのマルチチャンネル録 音を使用することを前提としており,この環境においてゼリンスキー'ポストフィルタと 比べて、改良された性能を達成するために提案されているが、予め想定されたコヒー レンス関数と実際のコヒーレンス関数との間に差が存在していると、性能は下がること が予想される。
発明の開示
[0018] 本発明は、拡散雑音場におけるハイブリッド構造を有する新規のポストフィルタを提 供することを目的とする。
反響している部屋や車室内環境などのように、拡散雑音場が多くの実用的な雑音 環境に対する合理的なモデルとして提案されている。拡散雑音場では、低周波雑音 は高相関であり、高周波雑音は低相関である。これらの特性を考慮して、本発明では 、高周波 (低相関である)雑音用のマルチチャンネル 'ウィナー ·ポストフィルタと低周 波数 (高相関である)雑音用のシングルチャンネル ·ウィナー ·ポストフィルタを適用す る。高周波では、異なるマイクロホン対で雑音の間の相関関係を十分に考慮'利用す る修正ゼリンスキー 'ポストフィルタを採用する。低周波数では、判定指向型 SN比推 定メカニズムによる、「ミュージカル雑音」をより低減させるシングルチャンネル'ゥイナ 一'ポストフィルタを採用する。本発明に係るポストフィルタは、理論上、マルチチャン ネル'ウィナー 'フィルタの基本的な構成に従っており、拡散雑音場における高相関 雑音及び低相関雑音を効果的に減少することができる。
[0019] 本発明の局面に係るポストフィルタは、音声信号を入力する少なくとも 2つのマイク 口ホン力 なるマイクロホンアレイと、前記マイクロホンアレイ力 入力された音声信号 の成形を行うビーム成形器と、前記マイクロホンアレイカゝら入力された雑音を含む目 的音を所定の周波数で少なくとも 2つの周波数帯域に分割する分割器と、前記マイク 口ホン間で雑音が無相関である場合のフィルタゲインを推定する第 1のフィルタと、前 記マイクロホンアレイ中の 1本のマイクロホンあるいはマイクロホンアレイの平均信号の フィルタゲインを推定する第 2のフィルタと、前記第 1のフィルタと前記第 2のフィルタ 力 の出力を加算する加算器と、前記加算器と前記ビーム成形器からの出力に基づ V、て雑音を低減する手段とを具備する。 図面の簡単な説明
[図 1]周波数に対する完全な拡散雑音場の MSC関数を示す図である。
[図 2]本発明に係るポストフィルタのブロック図である。
[図 3]修正ゼリンスキ一 ·ポストフィルタの概略構成を示すブロック図である。
[図 4]シングルチャンネル.ウイナ一.ポストフィルタの概略構成を示すブロック図であ る。
[図 5]指向係数と周波数との関係を示す図である。
[図 6A]様々な SNRレベルにおける 2つの雑音状態で計算された平均した SEGSNR の実験結果を示す図である。
[図 6B]様々な SNRレベルにおける 2つの雑音状態で計算された平均した SEGSNR の実験結果を示す図である。
[図 7A]様々な SNRレベルにおける 2つの雑音状態で計算された平均した NRの実験 結果を示す図である。
[図 7B]様々な SNRレベルにおける 2つの雑音状態で計算された平均した NRの実験 結果を示す図である。
[図 8A]様々な SNRレベルにおける 2つの雑音状態で計算された平均した LSDの実 験結果を示す図である。
[図 8B]様々な SNRレベルにおける 2つの雑音状態で計算された平均した LSDの実 験結果を示す図である。
[図 9A]100kmZhのスピード下における車の環境における音声スペクトログラムの典 型的な「どうぞよろしく」 、う日本文に対応する測定例を示す図である。
[図 9B]100kmZhのスピード下における車の環境における音声スペクトログラムの典 型的な「どうぞよろしく」 、う日本文に対応する測定例を示す図である。
[図 9C]100kmZhのスピード下における車の環境における音声スペクトログラムの典 型的な「どうぞよろしく」 、う日本文に対応する測定例を示す図である。
[図 9D]100kmZhのスピード下における車の環境における音声スペクトログラムの典 型的な「どうぞよろしく」 、う日本文に対応する測定例を示す図である。
[図 9E]100kmZhのスピード下における車の環境における音声スペクトログラムの典 型的な「どうぞよろしく」 t 、う日本文に対応する測定例を示す図である。
[図 9F]100kmZhのスピード下における車の環境における音声スペクトログラムの典 型的な「どうぞよろしく」 、う日本文に対応する測定例を示す図である。
[図 9G]100kmZhのスピード下における車の環境における音声スペクトログラムの典 型的な「どうぞよろしく」 、う日本文に対応する測定例を示す図である。
[図 9H]100kmZhのスピード下における車の環境における音声スペクトログラムの典 型的な「どうぞよろしく」 、う日本文に対応する測定例を示す図である。
発明を実施するための最良の形態
[0021] 図面を参照して本発明の実施の形態を説明する。下記の説明において、まず、モ デル雑音場におけるコヒーレンス関数とその適用について説明する。そして、拡散雑 音場におけるハイブリッドポストフィルタを説明し、最終的に、本発明に係るポストフィ ルタの利点を説明する。
[0022] 雑音場を特徴付けるために、以下の式で定義された複素コヒーレンス関数が広く使 用されている。
[数 5]
Τχ .χ .(k,l) = . Xl Xj ー(17)
Xl Xj0
[0023] ここで、 φ χ.^ Οί,Ι)が 2つの信号 xi(t)と xj(t)の間の相互相関スペクトル密度、 φ χχ (k ,1)と φ X X (k,l)は、それぞれ xi(t)と xj(t)の自己相関スペクトル密度である。別の重要な 手段である振幅自乗相関(MSC : magnitude-squared coherence)関数は、雑音場を 分析するのに本明細書で使用される MSC(k,l) = I Γχχ (k,l) I 2によって与えられる 複素コヒーレンス関数の振幅の自乗として定義される。
[0024] 本明細書の基本的な仮定の 1つである拡散雑音場は、多くの実際の雑音環境に対 する合理的なモデルとして示されて 、る。拡散雑音場は以下の MSC関数によって特 徴付けられる。
[数 6]
|2
sm(27ikd I c)
MSC(k) = (18)
Inkd ί c [0025] ここで、 dは隣接したマイクロホンの距離であり、 cは音速である。周波数に対する完 全な拡散雑音場の MSC関数を図 1に示す。図 1から、下記のような拡散雑音場のい くつかの特性を容易に求めることができる。
1. MSC関数は、周波数に依存し、時間に依存しない関数である。
2.異なるマイクロホンにおける雑音は低周波数で高相関であり、高周波数で低相 関である。
スペクトルを低相関部と高相関部に分割するために、 2つの領域を分ける遷移周波 数 fは f =cZ (2d)で与えられる第 1の最小値として選ばれている。明らかに、音速 c t t
が定数であるとみなされるので、遷移周波数は単に 2個のマイクロホンの間の距離 d によって決定される。
[0026] 本発明に係るポストフィルタを定式ィ匕するために、下記のような仮定を行うものとす る。
(1)所望の音声信号と雑音信号は各マイクロホンで無相関である。
(2)雑音のパワースペクトル密度は各マイクロホンで同じである。
(3)異なるマイクロホンにおける雑音は拡散雑音である。
実際は、仮定(1)は通常音声信号処理で使われ、そして、仮定 (2)と (3)は、多くの 実際の雑音環境で実現することが確かめられている。
[0027] 以下の説明では、ポストフィルタの雑音低減性能を高めるためのハイブリッドポスト フィルタについて説明する。ポストフィルタとして、高周波領域の修正ゼリンスキ一'ポ ストフィルタと低周波数領域のシングルチャンネル 'ゥイナ一'ポストフィルタを適用す る。図 2は、本発明に係るポストフィルタのブロック図である。また、図 3は、修正ゼリン スキ一'ポストフィルタの概略構成を示すブロック図であり、図 4は、シングルチャンネ ル'ゥイナ一 ·ポストフィルタの概略構成を示すブロック図である。
[0028] 図 2に示すように、本発明に係るポストフィルタは、マイクロホンアレイ 10 (以下、単 に「マイクロホン」とも称する)と、高速フーリエ変翻11と、時間整合器 12と、ビーム 成形器 13と、周波数帯分割器 14と、修正ゼリンスキーフィルタゲイン推定器 20 (修正 ゼリンスキ^ ~ ·ポストフィルタ)と、シングルチャンネル 'フィルタゲイン推定器 30と、カロ 算器 40と、フィルタ 41と、遅延器 42と、逆高速フーリエ変翻 50とを備えている。 [0029] 図 3に示すように、修正ゼリンスキーフィルタゲイン推定器 20は、相互相関スぺタト ル密度演算器 21と、平均化器 22と、自己相関スペクトル密度演算器 23と、平均化器 24と、除算器 25とを備えている。また、図 4に示すように、シングルチャンネル 'フィル タゲイン推定器 30は、平均化器 31と、雑音変位更新器 32と、ボステリオリ SNR演算 器 33と、遅延器 34と、プリオリ SNR演算器 35と、 SAP演算器 36と、シングルチャン ネル ·ウィナーフィルタ ·ゲイン推定器 37 (シングルチャンネル ·ウィナ^ ~ ·ポストフィル タ)とを備えている。
[0030] 上記のような構成において、各マイクロホン 10における雑音が互いに無相関である という仮定に基づき、無相関の雑音場での音声とその推定の間の平均自乗誤差を最 小にすることが必要である。上記のように、マルチチャンネル入力の自己及び相互相 関スペクトル密度には、相関雑音成分が含まれる。従って、マルチチャンネル入力の 自己及び相互相関スペクトル密度を推定するのに使用される雑音相関が小さければ 、性能低下が抑えられると考えられる。
[0031] 図 1に示すように、拡散雑音場において、異なるマイクロホンの互いに無相関雑音 成分は、遷移周波数 f以上の周波数にのみ存在する。マイクロホンの間の距離に応 じて遷移周波数が決定しているので、異なった相互素子間隔を有するマイクロホンは 異なった遷移周波数によって特徴付けられる。すなわち、異なった相互素子間隔を 有する異なるマイクロホンでは、無相関雑音は異なった周波数領域で見られる。更に 、ある周波数に対して、雑音は、限られたマイクロホンのみについて互いに無相関で あり、一般にすベてのマイクロホンではそうではない。これにより、当該マイクロホン対 上のマルチチャンネル入力の自己及び相互相関スペクトル密度を計算することによ つて修正ゼリンスキー'ポストフィルタを得ることができる。具体的には、以下の通りで ある。
[0032] マイクロホンアレイのマイクロホン配置に従って、予め遷移周波数を決定しておく。
具体的には、距離 dで離間されたセンサ iと j (i、 j≤M)との間に相互素子間隔を有す る Mセンサアレイを考慮すると、 M (M- l) Z2の遷移周波数を決定する M (M— 1) Z2のマイクロホン対を有している。このとき、遷移周波数は、それぞれ f = c/(2d ) で計算することができる。なお、この場合において、いくつかのマイクロホン対につい て相互素子間隔が同じであるので、遷移周波数も同じである。例えば、 M本のマイク 口ホンが直線上に等間隔で並んでいる場合には、 M (M—1)Z2個のマイクロホンの 中では、(M—1)の異なった相互素子間隔を持っているので、 f ^ f 2
t t、 · ' ·、ί Μ1によ
t つて示される(M—l)個の異なる遷移周波数が決定できる。なお、一般性を失うこと 力 ければ、遷移周波数間の関係が、 f 1く f 2く…く f M_1であるものとさらに仮定し
t t t
ても良い。なお、 M本のマイクロホンを等間隔に並べない、あるいは直線上に並べな いのならば、 M (M— 1)Z2個のマイクロホン対すべてを異なる間隔で並べることも可 能であり、この場合には、遷移周波数は M (M— 1)Z2個選べることになる。
[0033] マイクロホン 10から入力した例えば音声は、高速フーリエ変換器 11でフーリエ変換 される。フーリエ変換後の信号は、時間整合器 12で、各マイクロホン 10間の同一音 声に対する入力信号の時間のずれが補正される。なお、この場合において、高速フ 一リエ変換器 11と時間整合器 12による処理は順序が逆であっても良い。
[0034] 次に、時間的整合が施された音声信号は周波数帯分割器 14に入力し、周波数帯 分割器 14は、(M— 1)個の異なった遷移周波数 f ^ f 2 …、; f M1で全周波数帯を B
t t t o
、 B
1、 · · ·Β の M個のサブバンドに分割する。 M個のサブバンドのうち B M- l 1、 · · ·Β
Μ- の(Μ— 1)個のサブバンドは、修正ゼリンスキーフィルタゲイン推定器 20に入力する 。また、時間的整合が施された音声信号は、ビーム成形器 13にも入力し、ビーム成 形されてフィルタ 41に入力する。
[0035] 修正ゼリンスキーフィルタゲイン推定器 20に入力した(Μ— 1)個のサブバンドにつ いて、相互相関スペクトル密度を相互相関スペクトル密度演算器 21で演算して、平 均化器 22でその平均値を求める。なお、平均化器 22で平均化する場合、すべての 入力に対してではなぐその帯域で雑音が無相関であるマイクロホン対での自己相 関 (相互相関)スペクトル密度を選んで平均化する。また、自己相関スペクトル密度を 自己相関スペクトル密度演算器 23で演算して、平均化器 24でその平均値を求める 。なお、相互相関スペクトル密度演算器 21と自己スペクトル密度演算器 23における 雑音信号のスペクトル密度は次のように求められる。
サブバンド B (l≤m≤M—l)の各周波数に対して、組 Ω πιのマイクロホン対にお ける雑音が、非相関であると仮定する。この場合において、 χίχί (k,l)= ss(k,l)+ nn(k,l)… (19)
xixj (k,l)= ss(k,l)… (20)
により、マルチチャンネル入力の自己及び相互相関スペクトル密度が与えられ、これ らのスペクトル密度から、所望のスピーチと雑音信号のスペクトル密度が推定できる。
[0036] そして、平均化器 22と 24で平均化された自動及び重なりスペクトル密度が、除算 器 25で除算演算されて高周波数帯におけるフィルタゲイン (利得関数)が出力される 。ここにおいて、ゼリンスキ^ ~ ·ポストフィルタでは、すべてのマイクロホン対での自己 相関(相互相関)スペクトル密度を平均してフィルタのゲインを求めているため、雑音 の相関が高い (仮定からはずれている)ところのデータも含まれてしまう。このため,結 果としてフィルタゲインの推定が頑健ではなくなる。一方、修正ゼリンスキ一'ポストフ ィルタでは、雑音の相関が低 ヽ (仮定からはずれて ヽな 、)データのみを選んで組 Ω mとして,その中で平均を行っているので。頑健性が高くなつている。ここで、修正ゼリ ンスキ一 ·ポストフィルタの利得関数は下記のように与えられる。
[数 7]
(21)
Figure imgf000014_0001
[0037] なお、上記の説明において、遷移周波数の決定は、マイクロホンアレイの配置のみ に依存し、入力信号には依存しない。また、自己及び相互相関スペクトル密度の推 定手順に含まれるマイクロホン対の選択力 修正ゼリンスキー'ポストフィルタの計算 コストの減少に寄与する。
[0038] 一方、各マイクロホン 10からのサブバンド Bは、シングルチャンネル 'フィルタゲイン
0
推定器 30に入力する。すべてのマイクロホン対における雑音が高相関であれば、修 正ゼリンスキ一 ·ポストフィルタを用いたとしても,マルチチャンネル入力の自己および 相互相関スペクトル密度から所望の音声信号の自己相関スペクトル密度を推定する ことができない。従って、低周波数では、ウィナー 'ポストフィルタを推定するためにシ ングル ·チャンネルの技術を採用すること〖こなる。 [0039] まず、シングルチャンネル 'フィルタゲイン推定器 30に入力したサブバンド Bは、平
0 均化器 31で、チャンネル間で平均化される。平均化されたサブバンド Bは、雑音変
0
位更新器 32とボステリオリ SNR演算器 33とに入力する。雑音変位更新器 32は、平 均化器 31と SAP演算器 36からの信号に基づいて更新処理を行って、ボステリオリ S NR演算器 33と遅延器 34とに推定雑音スペクトルを出力する。ボステリオリ SNR演算 器 33からプリオリ SNR演算器 35は、詳細は後述する各種演算を実行する。シングル チャンネル 'ウィナーフィルタ 'ゲイン推定器 37は、プリオリ SNR演算器 35からの信号 に基づいて、低周波数帯におけるフィルタゲイン (利得関数)を出力する。
[0040] 上記のような構成にぉ 、て、ウィナー ·ポストフィルタの利得関数は以下のように書き 換えることができる。
[数 8] 、 _ E[| S(k,l) |2] SNRpriori (k,l) φ88 Ι) + φηη { Ι) E[| S(k,l) |2] + E[|N(k,l) |2] l + SNRpriori (k,l)
'•- (22) ここで、 E[]は、 期待演算子、 S N R priori(k,l)は、
S N R priori(k,l) = E[| S (k,l)|2] I E[[N(k,l)|2] で定義されるアプリオリ S N Rである。
[0041] アプリオリ SNR演算器 35で演算されるアプリオリ SNR (SNR (k,l))の推定は、下 prion
記のような、判定指向性推定メカニズで更新される。
[数 9]
SNR ost (k,l)- 1,0] … (23)
Figure imgf000015_0001
[0042] (23)式において、 α (0く αく 1)は忘却係数であり、 SNR (k,l)は、ポステリオリ S post
NR演算器 33で演算されるアポステリオリ SNRであり、 SNRpost(k,l) = |X(k,l)|2 1 E[| N(k,l)|2]で表される。これにより、上記のような判定指向性推定メカニズムは、「ミュー ジカル雑音」をかなり減少させる。 [0043] ここで、シングルチャンネル 'ゥイナ一'ポストフィルタの性能を向上させるために、き わめて重要な点は、雑音のパワーのスペクトル密度 E[|N(k,l)|2]を高精度で推定する ことである。この雑音のパワーのスペクトル密度は、下記のような柔決定ベースァプロ ーチで実行される。
E[|N(k,l)|2] = E[|N(k,l)|2] + (l- ^ )E[|N(k,l)|2|X(k,l)]… (24)
(24)式において、 β (0< j8 < 1)は、雑音推定の更新率を制御する忘却係数であ る。
[0044] 音声の存在が不確定である状況では、(24)式の右辺における第 2項は式 (25)を用 いて観測された信号のスペクトル密度として推定される.
E[|N(k,l)|2|X(k,l)] = q(k,l)|X_(k,l)|2 + (l-q(k,l))E[|N(k,l-l)|2]… (25)
(25)式において、 q(k,l)がスピーチ不存在確率、 |X_(k,l)|2は、各センサにおける個 々の雑音のスペクトル密度の平均である。なお、
[数 10]
| |X_(k,l)|2 = -^-∑iX^,/)!2
[0045] である。このように、各センサにおける個々の雑音のスペクトル密度の平均を計算す る理由は、 1個のセンサだけを考えると、推定誤りに起因する偏った測定を生じる可 能性があるからである。複素ガウス統計値モデルを仮定し、ベイズの定理と、確率総 和の定理を適用すると、下記の式によりスピーチ不存在確率が与えられる。
[数 11]
Figure imgf000016_0001
…(26)
[0046] (26)式において、 q'(k,l)は、アプリオリなスピーチ不存在確率であり,実験により適 当な値を選択する。
上記のようにして求められた高周波数帯及び低周波数帯におけるフィルタゲイン( 利得関数)を加算器 40で加算して、加算結果をフィルタ 41に出力する、フィルタ 41 は、ビーム成形器 13と加算器 40の出力力も高周波数帯及び低周波数帯における雑 音を低減した信号を遅延器 42と逆高速フーリエ変翻50に出力する。逆高速フーリ ェ変翻50は、入力信号を逆フーリエ変換して、後段の例えば、音声認識装置など に出力する。また、遅延器 42に出力された信号は、シングルチャンネル 'フィルタゲイ ン推定器 30における利得関数の算出に使用される。
[0047] 本発明に係るポストフィルタは、理論上、マルチチャンネル *ゥイナ一 ·ポストフィルタ の枠組みに従っており、まさにウィナー ·ポストフィルタといえる。低周波数領域におい て、(22)式で与えられたポストフィルタは、明らかにウィナーフィルタである。高周波 領域では、修正ゼリンスキー 'ポストフィルタで推定されるのに使用される雑音力 無 相関であるので、マルチチャンネル入力の相互相関スペクトル密度力 より正確なス ピーチの自己スペクトル密度推定を提供する。従って、高周波領域に採用された修 正ゼリンスキ^ ~ ·ポストフィルタはウィナ^ ~ ·ポストフィルタとみなせる。
[0048] 上記のように構成された本発明に係るポストフィルタ力 最適なマイクロホンアレイ用 ポストフィルタとして、より一般的な表現を提供していることは注目すべきである。完全 に無相関の雑音場では、本発明に係るポストフィルタが、遷移周波数をゼロに設定 するだけで、ゼリンスキー 'ポストフィルタになる。そして、完全に全雑音が相関を持つ 雑音場では、本発明に係るポストフィルタの遷移周波数を最も高 ヽ周波数に設定す るだけで、シングルチャンネル'ゥイナ一'ポストフィルタになる。
[0049] 拡散雑音場における本発明に係るポストフィルタの有効性を確認するために、様々 な車の雑音環境で、ゼリンスキ一'ポストフィルタ、マックコゥワン'ポストフィルタ、およ び単一のシングルチャンネル.ウィナ^ ~ ·ポストフィルタを含む他の従来のポストフィル タと比較した。ビーム成形器は、最初に、マルチチャンネル雑音信号に適用される。 そして、ビーム成形器出力は本発明に係るポストフィルタによってさらに機能アップさ れる。性能は客観的および主観的な手段で評価される。
[0050] 実験の構成は以下のとおりである。
本発明に係るポストフィルタの性能を実際の車の環境で推定するために、 10cmの 相互素子間隔を有する 3個のマイクロホン力 なる等しい間隔をおいたリニアアレイを 、車のサンバイザ上に取り付けた。アレイが約 50cmドライバ一力も離れ、ドライバー の正面になるようにした。
[0051] マルチチャンネル雑音録音は、車が 50kmZhと lOOkmZhの速度で高速道路を 走行中に全てのチャンネルで同時に行った。雑音は、主にエンジン雑音や、空調雑 音や、タイヤと道路の間の摩擦からの雑音力もなつている。 50個の日本文力も成るク リアな音声信号を ATRデータベース力 取り出した。音声と雑音信号の両方を、最 初に、 16ビットの精度で 12kHzに再抽出した。クリアな音声信号と実際のマルチチヤ ンネル車内雑音とを異なるグローバル SNRレベル(一 5、 20) dBで人工的に混合さ せることによりマルチチャンネル雑音信号を生成した。この生成手順には、以下の利 点がある。
(1)理想的な時間遅れ補償が行われたことと見なせる。
(2)混入条件が明確に測定されるので、容易に客観的な手段を使用する性能推定 を行うことができる。
[0052] 図 1に示された理論 sine関数と実際の雑音録音力 計算された測定 MSC関数とを 比較することによって、拡散雑音場の有効性を調査した。図 1から、瞬時的な変化は 存在するが、その一方で、測定 MSC関数が理論 sine関数の傾向に追随していること がわかる。この値は、本発明に係るポストフィルタで使用される拡散雑音場の仮定を 充たす。
[0053] ビーム成形フィルタは、拡散雑音場における MVDRビーム成形器の解決策である 超指向性ビーム成形器で実現される。周波数 kに関する関数である超指向性ビーム 成形器の利得関数は、
[数 12]
ΊΤ/ i ― _ ^ MVDR (k)A(k) ,つマ、
H ( k) (27)
[0054] であり、拡散雑音源に対してアレイの雑音低減能力を示す指向係数 (DI)は、
[数 13] 尋) (28)
Figure imgf000018_0001
[0055] で表され、この指向係数と周波数との関係を図 5に示す。図 5から明らかに、超指向 性ビーム成形器は低周波数雑音成分を抑制するのに効果がないことがわ力る。
[0056] 本発明に係るポストフィルタを客観的に推定するために、セグメント SNR(SEGSN R)、雑音低減比(NR)、およびログスペクトル距離 (LSD)の下記の 3つの客観的な 音声品質測定を使用した。
[0057] セグメント SNR(SEGSNR)は、雑音低減と音声強調アルゴリズムのために広く使 用されている客観的な推定手段である。 SEGSNRは、クリアな音声のパワーと,雑音 を含む音声に含まれる雑音信号または提案するアルゴリズムによって雑音を低減し た信号に含まれる雑音信号の比率として定義され、以下のように与えられる。
[数 14]
SEGSNR (29)
Figure imgf000019_0001
[0058] ここで、 s0、 s_0は、テストされたアルゴリズムで処理された参照音声信号と雑音信号 を抑圧した信号である。また、 Lと Kは信号のフレームの数とフレーム(STFTの長さと 等し 、)あたりのサンプルの数を表す。
[0059] 雑音低減比 (NR)は、提案したアルゴリズムの雑音低減性能を推定するのに使用さ れている。音声がないとき、 NRは雑音を含む入力のパワーと強調された信号のパヮ 一の比率と定義され、以下の式で表される。
[数 15]
Figure imgf000019_0002
[0060] ここで、 Φは、音声がないフレームのセットを表し、 I Φ Iは濃度である。 X(k,l)と s_( k,l)は、それぞれ雑音信号と強調されたた音声信号 (enhanced signal)である。
[0061] ログスペクトル距離 (LSD)は、所望の音声信号のひずみを推定するのにしばしば 使用される。 LSDは、クリアな音声の対数スペクトルと雑音信号のそれ又は提案した アルゴリズムによって強調された信号の対数スペクトルとの距離として定義され、以下 のように与えられる。
[数 16]
LSD =—-∑ 1 £ ∑[10.1og10S(A:,/)- 10.1og1 (31)
| Ψ | /ΕΨΙ¾
Figure imgf000020_0001
[0062] ここで、 Ψは音声が存在するフレームの組を示しており、 | Ψ |はその基数である。
S(k,l)と S_(k,l)はそれぞれ参照クリア信号と強調された音声信号のスペクトルである。
[0063] 2つの雑音状態(50 km/hと 100 km/h)にお!/、て様々な SNRレベルで計算された平 均 SEGSNRと NRの結果を、それぞれ図 6Aから図 7Bに示す。また、 LSDの結果を 図 8に示す。実験結果の値はそれぞれの雑音状態のすべてのセンテンスにわたって 平均された。性能はマイクロホン録音、ビーム成形器出力、および本発明に係るボス トフィルタの出力のときに推定された。なお、図 6A、図 7A、及び図 8Aが 50kmZhで の走行時、図 6B、図 7B、及び図 8Bが lOOkmZhでの走行時である。また、図中の 記号は、四角がビーム成形器の出力、ひし形がゼリンスキー'ポストフィルタの出力、 プラスがマックコゥワン'ポストフィルタの出力、三角がシングルチャンネル ·ウィナ^ ~ · ポストフィルタの出力、丸が本発明に係るポストフィルタの出力を示し、図 8における X印が何も処理を加えて 、な 、録音されたままの信号の平均対数スペクトル距離 (L SD)である。
[0064] 図 6Aから図 7Bに示すように、ビーム成形器単独かつゼリンスキ一'ポストフィルタは 、低周波雑音成分を抑制する際に十分な性能を示さず、 SEGSNR改良と雑音低減 結果を提供しない。これは前述した説明を確認する結果を示している。雑音場の適 切なコヒーレンス関数をパラメータとしたマックコゥワン ·ポストフィルタは SEGSNRを かなり改良する。しかし、すべての雑音状態において,ゼリンスキーおよびマックコゥ ワン'ポストフィルタと比べて、シングルチャンネル 'ウィナ^ ~ ·ポストフィルタはより高い SEGSNRと NRの改善を示している。そして、本発明に係るポストフィルタは、すべて のテスト条件にぉ 、て,シングルチャンネルポストフィルタと同等の SEGSNRと NRを 与え、最も高い性能を示している。 [0065] 図 8A及び図 8Bの LSDの結果に関して、ビーム成形器のみおよびゼリンスキ一'ポ ストフィルタは,フィルタを使わない場合に比べてすべての SN比にわたって LSDを 減少させている.シングルチャネルウィナーポストフィルタは,低 SNRにおいて音声の 歪みを低減しているが,高 SNRでは逆に歪みを増大させている.提案法とマックコゥヮ ン ·ポストフィルタは, SN比レベルの大部分で最も低!、LSDを示して!/、る。
[0066] 本発明に係るポストフィルタの主観的性能評価は、音声スペクトログラムを使用する こと,および,非公式の試聴テストによって有効に行われた。 lOOkmZhのスピード 下における車内環境での「どうぞよろしく」という日本文に対応する音声スぺクトロダラ ムの典型的な測定例を図 9Aから図 9Hに示す。図 9Aから図 9Cはそれぞれ第 1のマ イク口ホンでのオリジナル 'クリーン音声信号と、第 1のマイクロホンでの雑音信号と、 第 1のマイクロホンでの雑音信号(SNR= 10dB)を示している。図 9Dは、ビーム成形 器の出力である.図 5に示すように低周波数において雑音抑圧に弱点があるため, 大きな低周波雑音が存在する。また、図 9Eに示すゼリンスキー'ポストフィルタの出 力は,低周波数領域における雑音の高相関特性のために低周波数において非常に 限られた性能を提供することを示している。図 9Fは、マックコゥワン'ポストフィルタが 低周波数領域においても雑音を抑圧するのを示している。しかし、想定したコヒーレ ンス関数と実際のコヒーレンス関数間の違により残存雑音が存在する。シングルチヤ ンネル'ウィナー ·ポストフィルタは図 9Gに示されるように音声ひずみをもたらす。図 9 Hは、本発明に係るポストフィルタであって、音声ひずみを付加することなしに拡散性 雑音を抑圧することができることを示す。非公式の聴取テストでは,他のものと比べて 本発明に係るポストフィルタの優越を立証した。
[0067] 上記のように、実用的な環境における本発明に係るポストフィルタの基本仮定 (拡 散雑音場)がゼリンスキー *ポストフィルタ (無相関の雑音場)のものより合理的である ので、本発明に係るポストフィルタはゼリンスキ一'ポストフィルタより優れている。さら に、本発明に係るポストフィルタは低周波数の高相関雑音成分を減少させるのに成 功している。
[0068] マックコゥワン.ポストフィルタは雑音場のコヒーレンス関数に基づいて決定される。
したがって、性能は仮定されたコヒーレンス関数の精度に大いに依存している。仮定 と実際のコヒーレンス関数との違いは性能劣化をもたらす。しかしながら、本発明に係 るハイブリッドポストフィルタは、相関及び無相関雑音を区別するために遷移周波数 のみを利用しており,コヒーレンス関数の実際の瞬時値にかかわらず、コヒーレンス関 数の間の誤りに起因する効果を軽減して!/、る。
[0069] 本発明に係るハイブリッドポストフィルタは全周波数帯で使用されるシングルチャン ネル.ゥイナ一.ポストフィルタより優れている。雑音の特性の測定値に基づくシングル チャンネル ·ウィナー ·ポストフィルタは,柔決定機構が採用されても非定常雑音源に ほとんど対応できない。しかしながら、自己及び相互相関スペクトル密度の推定に基 づ 、たマルチチャンネルの技術は、非定常雑音に対しても理論的に望ま 、性能を 提供する。本発明に係る修正ゼリンスキー'ポストフィルタは、高周波領域のそれぞれ の分割周波数領域でこの性能を完全に提供する。
[0070] 上記のように、本発明では、拡散雑音場を仮定してマイクロホンアレイに対するボス トフィルタを提案した。本発明に係るポストフィルタは高周波領域の修正ゼリンスキー · ポストフィルタと低周波数領域のシングルチャンネル ·ゥイナ一'ポストフィルタを結合 して構成されている。
[0071] 本発明に係るポストフィルタには、他のアルゴリズムと比べて、以下の利点がある。
( 1)理論上、本発明に係るポストフィルタは、ゥイナ一'ポストフィルタであるので、マル チチャンネル 'ウィナ^ ~ ·ポストフィルタの枠組みに従う。
[0072] (2)実際に、本発明に係るポストフィルタは雑音を減少させて、様々な車の雑音環境 にお 、て他のアルゴリズムと比べて、所望のスピーチを推定する際に有効であった。
[0073] 本発明によれば、拡散雑音場における高相関雑音及び低相関雑音を効果的に減 少、することができる。
[0074] 本発明は、上記各実施の形態に限ることなぐその他、実施段階ではその要旨を逸 脱しない範囲で種々の変形を実施し得ることが可能である。さらに、上記各実施形態 には、種々の段階の発明が含まれており、開示される複数の構成要件における適宜 な対合せにより種々の発明が抽出され得る。
また、例えば各実施形態に示される全構成要件力も幾つ力の構成要件が削除され ても、発明が解決しょうとする課題の欄で述べた課題が解決でき、発明の効果で述 ベられている効果が得られる場合には、この構成要件が削除された構成が発明とし て抽出され得る。
本発明によれば、拡散雑音場における高相関雑音及び低相関雑音を効果的に減 少、することができる。

Claims

請求の範囲
[1] 音声信号を入力する少なくとも 2つのマイクロホン力 なるマイクロホンアレイと、
前記マイクロホンアレイ力 入力された音声信号の成形を行うビーム成形器と、 前記マイクロホンアレイ力 入力された雑音を含む目的音を所定の周波数で少なく とも 2つの周波数帯域に分割する分割器と、
前記マイクロホン間で雑音が無相関である場合のフィルタゲインを推定する第 1の フィルタと、
前記マイクロホンアレイ中の 1本のマイクロホンあるいはマイクロホンアレイの平均信 号のフィルタゲインを推定する第 2のフィルタと、
前記第 1のフィルタと前記第 2のフィルタ力 の出力を加算する加算器と、 前記加算器と前記ビーム成形器からの出力に基づ!、て雑音を低減する手段とを具 備するポストフィルタ。
[2] 請求項 1に記載のポストフィルタにおいて、前記第 1のフィルタは、修正ゼリンスキー' ポストフィルタであり、前記第 2のフィルタはシングルチャンネル 'ウィナ^ ~ ·ポストフィル タである。
[3] 請求項 1又は請求項 2に記載のポストフィルタにおいて、
前記第 1のフィルタは、相互相関スペクトル密度と自己相関スペクトル密度との比を 求めることによりフィルタゲインを推定し、
前記第 2のフィルタは、ポストフィルタの出力信号とアポステリオリ SNRとに基づいて アプリオリ SNRを演算し、アプリオリ SNRに基づ 、てフィルタゲインを推定する。
[4] 請求項 1から請求項 3のいずれか 1項に記載のポストフィルタにおいて、前記分割器 で分割する目的音の周波数は、前記マイクロホン間の距離に従って決定される。
[5] 請求項 4に記載のポストフィルタにおいて、前記第 1のフィルタは、分割された後の複 数の周波数帯域において各周波数帯域で雑音が無相関となるマイクロホンペアを選 択してフィルタゲインを推定する。
PCT/JP2006/317229 2005-09-02 2006-08-31 マイクロホンアレイ用ポストフィルタ WO2007026827A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007533331A JP4671303B2 (ja) 2005-09-02 2006-08-31 マイクロホンアレイ用ポストフィルタ
EP06797189A EP1931169A4 (en) 2005-09-02 2006-08-31 POST-FILTER FOR A MICROPHONE MATRIX
CN200680031886XA CN101263734B (zh) 2005-09-02 2006-08-31 麦克风阵列用后置滤波器
US12/074,085 US20080159559A1 (en) 2005-09-02 2008-02-29 Post-filter for microphone array

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005255103 2005-09-02
JP2005-255103 2005-09-02

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/074,085 Continuation US20080159559A1 (en) 2005-09-02 2008-02-29 Post-filter for microphone array

Publications (1)

Publication Number Publication Date
WO2007026827A1 true WO2007026827A1 (ja) 2007-03-08

Family

ID=37808910

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/317229 WO2007026827A1 (ja) 2005-09-02 2006-08-31 マイクロホンアレイ用ポストフィルタ

Country Status (5)

Country Link
US (1) US20080159559A1 (ja)
EP (1) EP1931169A4 (ja)
JP (1) JP4671303B2 (ja)
CN (1) CN101263734B (ja)
WO (1) WO2007026827A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009049998A (ja) * 2007-08-13 2009-03-05 Harman Becker Automotive Systems Gmbh ビームフォーミングおよびポストフィルタリングの組み合わせによる雑音低減
JP2011174925A (ja) * 2010-02-25 2011-09-08 IFP Energies Nouvelles 電池の電気インピーダンスを求める非介入的な方法
JP2014510452A (ja) * 2011-02-10 2014-04-24 ドルビー ラボラトリーズ ライセンシング コーポレイション ノイズ、エコーおよびロケーション外(out−of−location)信号の合成された抑制
US8818001B2 (en) 2009-11-20 2014-08-26 Sony Corporation Signal processing apparatus, signal processing method, and program therefor
JP2014535231A (ja) * 2011-11-11 2014-12-25 トムソン ライセンシングThomson Licensing 音場のアンビソニックス表現を生成するために使われる剛体球上の球状マイクロホン・アレイの信号を処理する方法および装置
JP2014535232A (ja) * 2011-11-11 2014-12-25 トムソン ライセンシングThomson Licensing 音場のアンビソニックス表現を生成するために使われる剛体球上の球状マイクロホン・アレイの信号を処理する方法および装置
JP2015082745A (ja) * 2013-10-23 2015-04-27 日本電信電話株式会社 マイクロホン配置決定装置、マイクロホン配置決定方法及びプログラム
WO2016132409A1 (ja) * 2015-02-16 2016-08-25 パナソニックIpマネジメント株式会社 車載用音響処理装置
CN112216298A (zh) * 2019-07-12 2021-01-12 大众问问(北京)信息科技有限公司 双麦克风阵列声源定向方法、装置及设备

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7876906B2 (en) 2006-05-30 2011-01-25 Sonitus Medical, Inc. Methods and apparatus for processing audio signals
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
ES2533626T3 (es) * 2007-03-02 2015-04-13 Telefonaktiebolaget L M Ericsson (Publ) Métodos y adaptaciones en una red de telecomunicaciones
DE102007020878B4 (de) * 2007-05-04 2020-06-18 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren zur Prüfung von Umströmungsgeräuschen
KR100905586B1 (ko) * 2007-05-28 2009-07-02 삼성전자주식회사 로봇에서의 원거리 음성 인식을 위한 마이크의 성능 평가시스템 및 방법
US8150054B2 (en) * 2007-12-11 2012-04-03 Andrea Electronics Corporation Adaptive filter in a sensor array system
US9392360B2 (en) 2007-12-11 2016-07-12 Andrea Electronics Corporation Steerable sensor array system with video input
WO2009076523A1 (en) * 2007-12-11 2009-06-18 Andrea Electronics Corporation Adaptive filtering in a sensor array system
US8295506B2 (en) * 2008-07-17 2012-10-23 Sonitus Medical, Inc. Systems and methods for intra-oral based communications
WO2010091339A1 (en) * 2009-02-06 2010-08-12 University Of Ottawa Method and system for noise reduction for speech enhancement in hearing aid
US8979771B2 (en) * 2009-04-13 2015-03-17 Articulate Labs, Inc. Acoustic myography system and methods
EP2249333B1 (en) * 2009-05-06 2014-08-27 Nuance Communications, Inc. Method and apparatus for estimating a fundamental frequency of a speech signal
US8208656B2 (en) * 2009-06-23 2012-06-26 Fortemedia, Inc. Array microphone system including omni-directional microphones to receive sound in cone-shaped beam
AU2010301027B2 (en) 2009-10-02 2014-11-06 Soundmed, Llc Intraoral appliance for sound transmission via bone conduction
KR101060183B1 (ko) * 2009-12-11 2011-08-30 한국과학기술연구원 임베디드 청각 시스템 및 음성 신호 처리 방법
CN101740036B (zh) * 2009-12-14 2012-07-04 华为终端有限公司 通话音量自动调节方法及装置
DK2395506T3 (da) * 2010-06-09 2012-09-10 Siemens Medical Instr Pte Ltd Fremgangsmåde og system til behandling af akustisk signal til undertrykkelse af interferens og støj i binaurale mikrofonkonfigurationer
US8768406B2 (en) * 2010-08-11 2014-07-01 Bone Tone Communications Ltd. Background sound removal for privacy and personalization use
KR101782050B1 (ko) * 2010-09-17 2017-09-28 삼성전자주식회사 비등간격으로 배치된 마이크로폰을 이용한 음질 향상 장치 및 방법
CN202534346U (zh) * 2010-11-25 2012-11-14 歌尔声学股份有限公司 语音增强装置及头戴式降噪通信耳机
US8929564B2 (en) 2011-03-03 2015-01-06 Microsoft Corporation Noise adaptive beamforming for microphone arrays
JP5817366B2 (ja) * 2011-09-12 2015-11-18 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
US10021508B2 (en) 2011-11-11 2018-07-10 Dolby Laboratories Licensing Corporation Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an ambisonics representation of the sound field
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9026451B1 (en) * 2012-05-09 2015-05-05 Google Inc. Pitch post-filter
EP2701145B1 (en) * 2012-08-24 2016-10-12 Retune DSP ApS Noise estimation for use with noise reduction and echo cancellation in personal communication
WO2014064689A1 (en) 2012-10-22 2014-05-01 Tomer Goshen A system and methods thereof for capturing a predetermined sound beam
JP2014085609A (ja) * 2012-10-26 2014-05-12 Sony Corp 信号処理装置および方法、並びに、プログラム
WO2014085978A1 (en) * 2012-12-04 2014-06-12 Northwestern Polytechnical University Low noise differential microphone arrays
CN103856866B (zh) * 2012-12-04 2019-11-05 西北工业大学 低噪微分麦克风阵列
US9516418B2 (en) 2013-01-29 2016-12-06 2236008 Ontario Inc. Sound field spatial stabilizer
US9106196B2 (en) * 2013-06-20 2015-08-11 2236008 Ontario Inc. Sound field spatial stabilizer with echo spectral coherence compensation
US9099973B2 (en) * 2013-06-20 2015-08-04 2236008 Ontario Inc. Sound field spatial stabilizer with structured noise compensation
US9271100B2 (en) 2013-06-20 2016-02-23 2236008 Ontario Inc. Sound field spatial stabilizer with spectral coherence compensation
CN104751853B (zh) * 2013-12-31 2019-01-04 辰芯科技有限公司 双麦克风噪声抑制方法及***
WO2015114674A1 (ja) * 2014-01-28 2015-08-06 三菱電機株式会社 集音装置、集音装置の入力信号補正方法および移動機器情報システム
JP6361156B2 (ja) * 2014-02-10 2018-07-25 沖電気工業株式会社 雑音推定装置、方法及びプログラム
US10475466B2 (en) * 2014-07-17 2019-11-12 Ford Global Technologies, Llc Adaptive vehicle state-based hands-free phone noise reduction with learning capability
EP3007170A1 (en) * 2014-10-08 2016-04-13 GN Netcom A/S Robust noise cancellation using uncalibrated microphones
US9601131B2 (en) 2015-06-25 2017-03-21 Htc Corporation Sound processing device and method
CN106328160B (zh) * 2015-06-25 2021-03-02 深圳市潮流网络技术有限公司 一种基于双麦克的降噪方法
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
CN105869651B (zh) * 2016-03-23 2019-05-31 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
PT3696813T (pt) * 2016-04-12 2022-12-23 Fraunhofer Ges Forschung Codificador de áudio para codificar um sinal de áudio, método para codificar um sinal de áudio e programa de computador sob consideração de uma região espectral de pico detetada numa banda de frequência superior
CN106024001A (zh) * 2016-05-03 2016-10-12 电子科技大学 一种提高麦克风阵列语音增强性能的方法
EP3249955B1 (en) * 2016-05-23 2019-08-28 Oticon A/s A configurable hearing aid comprising a beamformer filtering unit and a gain unit
WO2018068846A1 (en) * 2016-10-12 2018-04-19 Huawei Technologies Co., Ltd. Apparatus and method for generating noise estimates
JP6173649B1 (ja) * 2016-11-22 2017-08-02 三菱電機株式会社 劣化個所推定装置、劣化個所推定システム及び劣化個所推定方法
KR102359913B1 (ko) * 2016-12-13 2022-02-07 현대자동차 주식회사 마이크로폰
WO2018121972A1 (en) * 2016-12-30 2018-07-05 Harman Becker Automotive Systems Gmbh Acoustic echo canceling
CN108694956B (zh) * 2017-03-29 2023-08-22 大北欧听力公司 具有自适应子频带波束成形的听力设备及相关方法
JP6918602B2 (ja) * 2017-06-27 2021-08-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 集音装置
US10616682B2 (en) * 2018-01-12 2020-04-07 Sorama Calibration of microphone arrays with an uncalibrated source
CN108257607B (zh) * 2018-01-24 2021-05-18 成都创信特电子技术有限公司 一种多通道语音信号处理方法
US10418048B1 (en) * 2018-04-30 2019-09-17 Cirrus Logic, Inc. Noise reference estimation for noise reduction
CN110649912B (zh) * 2018-06-27 2024-05-28 深圳光启尖端技术有限责任公司 空间滤波器的建模方法
GB2591066A (en) 2018-08-24 2021-07-21 Nokia Technologies Oy Spatial audio processing
TWI731391B (zh) * 2019-08-15 2021-06-21 緯創資通股份有限公司 麥克風裝置、電子裝置及其音訊信號處理方法
JP7270140B2 (ja) * 2019-09-30 2023-05-10 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理装置
CN110739004B (zh) * 2019-10-25 2021-12-03 大连理工大学 一种用于wasn的分布式语音噪声消除***
TWI745845B (zh) * 2020-01-31 2021-11-11 美律實業股份有限公司 耳機及耳機組
CN115942108A (zh) * 2021-08-12 2023-04-07 北京荣耀终端有限公司 一种视频处理方法及电子设备
CN114157951B (zh) * 2021-11-26 2024-06-04 歌尔科技有限公司 有源降噪电路及装置
CN116013239B (zh) * 2022-12-07 2023-11-17 广州声博士声学技术有限公司 风道主动降噪算法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6717991B1 (en) * 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
CA2354858A1 (en) * 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank
WO2003015458A2 (en) * 2001-08-10 2003-02-20 Rasmussen Digital Aps Sound processing system including forward filter that exhibits arbitrary directivity and gradient response in multiple wave sound environment
EP1538867B1 (en) * 2003-06-30 2012-07-18 Nuance Communications, Inc. Handsfree system for use in a vehicle

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009049998A (ja) * 2007-08-13 2009-03-05 Harman Becker Automotive Systems Gmbh ビームフォーミングおよびポストフィルタリングの組み合わせによる雑音低減
US8818001B2 (en) 2009-11-20 2014-08-26 Sony Corporation Signal processing apparatus, signal processing method, and program therefor
JP2011174925A (ja) * 2010-02-25 2011-09-08 IFP Energies Nouvelles 電池の電気インピーダンスを求める非介入的な方法
JP2014510452A (ja) * 2011-02-10 2014-04-24 ドルビー ラボラトリーズ ライセンシング コーポレイション ノイズ、エコーおよびロケーション外(out−of−location)信号の合成された抑制
JP2014535231A (ja) * 2011-11-11 2014-12-25 トムソン ライセンシングThomson Licensing 音場のアンビソニックス表現を生成するために使われる剛体球上の球状マイクロホン・アレイの信号を処理する方法および装置
JP2014535232A (ja) * 2011-11-11 2014-12-25 トムソン ライセンシングThomson Licensing 音場のアンビソニックス表現を生成するために使われる剛体球上の球状マイクロホン・アレイの信号を処理する方法および装置
JP2015082745A (ja) * 2013-10-23 2015-04-27 日本電信電話株式会社 マイクロホン配置決定装置、マイクロホン配置決定方法及びプログラム
WO2016132409A1 (ja) * 2015-02-16 2016-08-25 パナソニックIpマネジメント株式会社 車載用音響処理装置
JPWO2016132409A1 (ja) * 2015-02-16 2017-08-10 パナソニックIpマネジメント株式会社 車載用音響処理装置
CN112216298A (zh) * 2019-07-12 2021-01-12 大众问问(北京)信息科技有限公司 双麦克风阵列声源定向方法、装置及设备
CN112216298B (zh) * 2019-07-12 2024-04-26 大众问问(北京)信息科技有限公司 双麦克风阵列声源定向方法、装置及设备

Also Published As

Publication number Publication date
JP4671303B2 (ja) 2011-04-13
CN101263734A (zh) 2008-09-10
US20080159559A1 (en) 2008-07-03
CN101263734B (zh) 2012-01-25
EP1931169A4 (en) 2009-12-16
JPWO2007026827A1 (ja) 2009-03-12
EP1931169A1 (en) 2008-06-11

Similar Documents

Publication Publication Date Title
WO2007026827A1 (ja) マイクロホンアレイ用ポストフィルタ
La Bouquin-Jeannes et al. Enhancement of speech degraded by coherent and incoherent noise using a cross-spectral estimator
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
EP2026597B1 (en) Noise reduction by combined beamforming and post-filtering
CN110085248B (zh) 个人通信中降噪和回波消除时的噪声估计
US8068619B2 (en) Method and apparatus for noise suppression in a small array microphone system
US20040230428A1 (en) Method and apparatus for blind source separation using two sensors
Cohen Analysis of two-channel generalized sidelobe canceller (GSC) with post-filtering
Lefkimmiatis et al. A generalized estimation approach for linear and nonlinear microphone array post-filters
CN101587712B (zh) 一种基于小型麦克风阵列的定向语音增强方法
Valin et al. Microphone array post-filter for separation of simultaneous non-stationary sources
Jin et al. Multi-channel noise reduction for hands-free voice communication on mobile phones
Li et al. A noise reduction system based on hybrid noise estimation technique and post-filtering in arbitrary noise environments
Li et al. A hybrid microphone array post-filter in a diffuse noise field
Priyanka et al. Generalized sidelobe canceller beamforming with combined postfilter and sparse NMF for speech enhancement
JP2005514668A (ja) スペクトル出力比依存のプロセッサを有する音声向上システム
Gonzalez-Rodriguez et al. Speech dereverberation and noise reduction with a combined microphone array approach
Lotter et al. Multichannel speech enhancement using bayesian spectral amplitude estimation
CN111863017B (zh) 一种基于双麦克风阵列的车内定向拾音方法及相关装置
Plucienkowski et al. Combined front-end signal processing for in-vehicle speech systems
Zhang et al. Speech enhancement using compact microphone array and applications in distant speech acquisition
Gonzalez-Rodriguez et al. Coherence-based subband decomposition for robust speech and speaker recognition in noisy and reverberant rooms.
Li et al. Noise reduction method based on generalized subtractive beamformer
Gouhar et al. Speech enhancement using new iterative minimum statistics approach
Li et al. Multi-channel noise reduction in noisy environments

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680031886.X

Country of ref document: CN

DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2007533331

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2006797189

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE