WO1999014738A1 - Procede de debruitage d'un signal de parole numerique - Google Patents

Procede de debruitage d'un signal de parole numerique Download PDF

Info

Publication number
WO1999014738A1
WO1999014738A1 PCT/FR1998/001980 FR9801980W WO9914738A1 WO 1999014738 A1 WO1999014738 A1 WO 1999014738A1 FR 9801980 W FR9801980 W FR 9801980W WO 9914738 A1 WO9914738 A1 WO 9914738A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
speech signal
frame
noise
spectral
Prior art date
Application number
PCT/FR1998/001980
Other languages
English (en)
Inventor
Philip Lockwood
Stéphane LUBIARZ
Original Assignee
Matra Nortel Communications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matra Nortel Communications filed Critical Matra Nortel Communications
Priority to EP98943999A priority Critical patent/EP1016072B1/fr
Priority to AU91689/98A priority patent/AU9168998A/en
Priority to US09/509,145 priority patent/US6477489B1/en
Priority to CA002304571A priority patent/CA2304571A1/fr
Priority to DE69803203T priority patent/DE69803203T2/de
Publication of WO1999014738A1 publication Critical patent/WO1999014738A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Definitions

  • the present invention relates to digital techniques for denoising speech signals. It relates more particularly to noise reduction by nonlinear spectral subtraction.
  • This technique makes it possible to obtain an acceptable denoising for strongly voiced signals, but totally distorts the speech signal. Faced with relatively coherent noise, such as that caused by the contact of car tires or the rattling of an engine, the noise can be more easily predictable than the unvoiced speech signal. There is then a tendency to project the speech signal into a part of the vector space of the noise. The method ignores the speech signal, especially the unvoiced speech areas where the predictability is reduced. In addition, predicting the speech signal from a reduced set of parameters does not take into account all the intrinsic richness of the speech. We understand here the limits of techniques based solely on mathematical considerations while forgetting the particular character of speech. Finally, other techniques are based on the consistency criteria.
  • the coherence function is particularly well developed by JA Cadzow and 0. M. Solomon ("Lmear modelmg and the coherence function", IEEE Trans. On Acoustics, Speech and Signal Processing, Vol. AS5P-35, n ° 1, January 1987 , pages 19-28), and its application to denoising was studied by R. Le Bouquin ("Enhancement of noisy speech signais: application to mobile ractio communications", Speech Communication, Vol. 18, pages 3-19). This method is based on the fact that the speech signal has a significantly greater coherence than noise provided that several independent channels are used. The results seem to be quite encouraging. But unfortunately, this technique requires having multiple sources of sound, which is not always achieved.
  • a main object of the present invention is to propose a new denoising technique which takes into account the characteristics of speech perception by the human ear, thus allowing effective denoising without deteriorating speech perception.
  • the invention thus proposes a method for denoising a digital speech signal processed by successive frames, in which: - spectral components of the speech signal are calculated on each frame;
  • spectral subtraction is carried out comprising at least a first subtraction step in which, respectively, from each spectral component of the speech signal on the frame, a first quantity depending on parameters is subtracted including the estimate increased by the corresponding spectral component of the noise for said frame, so as to obtain spectral components of a first denoised signal; and a transformation to the time domain is applied to the result of the spectral subtraction to construct a denoised speech signal.
  • the spectral subtraction also comprises the following steps:
  • a second subtraction step in which a second quantity depending on parameters, respectively subtracting from each spectral component of the speech signal on the frame, includes a difference between the estimate increased by the corresponding spectral component of the noise and the masking curve calculated.
  • the second subtracted quantity can in particular be limited to the fraction of the estimate increased by the corresponding spectral component of the noise which exceeds the masking curve. This procedure is based on the observation that it is sufficient to denoise the audible noise frequencies. Conversely, there is no point in eliminating noise which is masked by speech. Overestimating the noise spectral envelope is generally desirable so that the increased estimate thus obtained is robust to sudden variations in noise. However, this overestimation usually has the disadvantage of distorting the speech signal when it becomes too large. This has the effect of affecting the voiced character of the speech signal by suppressing part of its predictability. This drawback is very annoying in the conditions of telephony, because it is during the voicing areas that the speech signal is then most energetic. By limiting the amount subtracted when all or part of a frequency component of the overestimated noise turns out to be masked by speech, the invention makes it possible to greatly reduce this drawback.
  • FIG. 1 is a block diagram of a denoising system implementing the present invention
  • FIG. 2 and 3 are flowcharts of procedures used by a voice activity detector of the system of Figure 1;
  • FIG. 4 is a diagram representing the states of a voice activity detection automaton;
  • Figure 5 is a graph illustrating the variations of a degree of vocal activity;
  • FIG. 6 is a block diagram of a noise overestimation module of the system of Figure 1;
  • FIG. 7 is a graph illustrating the calculation of a masking curve;
  • FIG. 8 is a graph illustrating the use of the masking curves in the system of FIG. 1;
  • FIG. 9 is a block diagram of another denoising system implementing the present invention.
  • FIG. 10 is a graph illustrating a harmonic analysis method usable in a method according to the invention.
  • FIG. 11 partially shows a variant of the block diagram of FIG. 9.
  • the denoising system shown in FIG. 1 processes a digital speech signal s.
  • a windowing module 10 puts this signal s in the form of successive windows or frames, each consisting of a number N of digital signal samples. Conventionally, these frames can have mutual overlaps.
  • the signal frame is transformed in the frequentiei domain by a module 11 applying a conventional fast Fourier transform (TFR) algorithm to calculate the module of the signal spectrum.
  • TFR fast Fourier transform
  • the frequency resolution available at the output of the fast Fourier transform is not used, but a lower resolution, determined by a number I of frequency bands covering the band [0 , F / 2] of the signal.
  • a module 12 calculates the respective averages of the spectral components Si_l, f 1 of the speech signal in bands, for example by a uniform weighting such that:
  • the averaged spectral components S, i are addressed to a voice activity detection module 15 and to a noise estimation module 16. These two modules 15,
  • module 16 work jointly, in the sense that degrees of vocal activity ⁇ . measured for the different bands by module 15 are used by module 16 to estimate the long-term energy of noise in the different bands, while these long-term estimates B n ⁇ are used by module 15 to carry out a
  • modules 15 and 16 can correspond to the flowcharts represented in the figures
  • the module 15 proceeds a priori to denoising the speech signal in the different bands i for the signal frame n. This a priori denoising is carried out according to a process
  • step 17 the module 15 calculates, with the resolution of the bands î, the frequency response
  • ⁇ l and ⁇ 2 are delays expressed in number of frames ( ⁇ l ⁇ l, ⁇ 2> 0 ), and ⁇ 1_1 / 1, is a noise overestimation coefficient, the determination of which will be explained below.
  • Ep n / 1 max
  • ⁇ p is a floor coefficient close to 0, conventionally used to prevent the spectrum of the denoised signal from taking negative or too low values which would cause musical noise.
  • Steps 17 to 20 therefore essentially consist in subtracting from the spectrum of the signal an estimate, increased by the coefficient ⁇ ⁇ _-,,, of the noise spectrum estimated a priori.
  • the module 15 calculates, for each band î (0 ⁇ I), a quantity 1. representing the short-term variation of the energy of the noise-suppressed signal in the band Î, as well as a long-term value E n ⁇ of the energy of the noise-reduced signal in the band Î
  • the quantity ⁇ E can be calculated by a simplified formula of
  • step 25 the quantity ⁇ E is compared with a threshold ⁇ l. If the threshold ⁇ l is not reached, the counter b is incremented by one unit in step 26.
  • step 27 the long-term estimator ba is compared to the value of the smoothed energy E n -, _. If ba ⁇ E n -, _, the estimator ba is taken equal to the smoothed value E nx in step 28, and the counter b is reset to zero.
  • the quantity p which is taken equal to the ratio ba / E n / 1 (step 36), is then equal to 1.
  • step 27 shows that ba ⁇ n!
  • the counter b is compared with a limit value bmax in step 29. If b> bmax, the signal is considered to be too stationary to support vocal activity.
  • the long-term estimator ba is updated with the value of the internal estimator bi in step 35. Otherwise, the long-term estimator ba remains unchanged. This avoids that sudden variations due to a speech signal lead to an update of the noise estimator.
  • the module 15 After having obtained the quantities p, the module 15 proceeds to the voice activity decisions in step 37.
  • the module 15 first updates the state of the detection automaton according to the quantity P Q calculated for the entire signal band.
  • the new state ⁇ of the automaton depends on the previous state ⁇ -, and of p 0 , as shown in Figure 4.
  • the module 15 also calculates the degrees of vocal activity ⁇ advise11.1. in each band ⁇ > l.
  • This degree _ is preferably a non-binary parameter, that is to say that the function ⁇ Il is a function varying continuously between 0 and 1 according to the values taken by the quantity p. This function has for example the appearance shown in FIG. 5.
  • the module 16 calculates the noise estimates per band, which will be used in the denoising process, using the successive values of the components X. and degrees of vocal activity ⁇ i_l / X ⁇ .
  • step 42 the module 16 updates the noise estimates per band according to the formulas:
  • the long-term noise estimates B j _ are overestimated, by a module 45 (FIG. 1), before proceeding to denoising by nonlinear spectral subtraction.
  • Module 45 calculates the overestimation coefficient ⁇ I n l f J. • previously
  • this combination is essentially a simple sum made by an adder 46. It could also be a weighted sum.
  • the ⁇ B TM ax measurement of noise variability reflects the variance of the noise estimator. It is obtained as a function of the values of S I..l X. and of BI n lf-_ calculated for a certain number of previous frames on which the speech signal does not present any vocal activity in the
  • band î It is a function of the differences S nk, ⁇ B nk, j calculated for a number K of frames of silence (nk ⁇ n). In the example shown, this function is simply the maximum (block 50). For each frame n, the degree of vocal activity 1. is compared to a threshold (block 51)
  • the measure of variability ⁇ B I TM lf a J x can, as a variant, be obtained as a function of the values ⁇ x (and not S_n X) and n, 1v. We then proceed in the same way, except that the FIFO
  • a first phase of the spectral subtraction is carried out by the module 55 shown in FIG. 1. This phase provides, with the resolution of the bands i
  • the coefficient ⁇ ⁇ represents, like the coefficient ⁇ p - of formula (3), a floor conventionally used to avoid negative or too low values of the denoised signal.
  • the overestimation coefficient & nj _ could be replaced in formula (7) by another coefficient equal to a function r of n - and an estimate of the signal-ratio over-noise
  • this function decreasing based on the estimated signal-to-noise ratio.
  • This r function is then equal to a n 2 for the lowest values of the signal-to-noise ratio. Indeed, when the signal is very noisy, it is a priori not useful to reduce the overestimation factor.
  • this function decreases towards zero for the highest values of the signal / noise ratio. This makes it possible to protect the most energetic areas of the spectrum, where the speech signal is the most significant, the quantity subtracted ⁇ signal then tending towards zero.
  • a second denoising phase is carried out by a module 56 for protecting harmonics. This module calculates, with the resolution of the Fourier transform,
  • the module 57 can apply any known method of analysis of the speech signal of the frame to determine the period T, expressed as an integer or fractional number of samples, for example a linear prediction method.
  • the protection provided by the module 56 may consist in carrying out, for each frequency f belonging to a band i:
  • This protection strategy is preferably applied for each of the frequencies closest to the harmonics of f, that is to say for any integer ⁇ .
  • ⁇ f the frequency resolution with which the analysis module 57 produces the estimated tonal frequency f, that is to say that the real tonal frequency is between f - ⁇ f / 2 and fp + ⁇ fp / 2
  • the difference between the ⁇ -th harmonic of the real tonal frequency is its estimate ⁇ xf n (condition (9)) can go up to ⁇ ⁇ x ⁇ f / 2.
  • this difference can be greater than the spectral half-resolution ⁇ f / 2 of the Fourier transform.
  • the spectral components S n f of a denoised signal are calculated by a multiplier 58:
  • This signal S n ⁇ is supplied to a module 60 which calculates, for each frame n, a masking curve by applying a psychoacoustic model of auditory perception by the human ear.
  • the masking phenomenon is a known principle of the functioning of the human ear. When two frequencies are heard simultaneously, one of them may no longer be heard. We then say that it is masked.
  • M n, q C n, q R q ⁇ 12 > where R depends on the more or less voiced character of the signal.
  • denotes a degree of voicing of the speech signal, varying between zero (no voicing) and
  • the parameter ⁇ can be of the known form:
  • the denoising system also includes a module 62 which corrects the frequency response of the noise reduction, depending on the mas ⁇ uage curve calculated by module 60 and increased estimates BI n l f . calculated by the module 45.
  • the module 62 decides the level of noise reduction which must really be reached. By comparing the envelope of the estimate increased by the noise with the envelope formed by the mas ⁇ uage thresholds M ⁇ , q, it is decided to denoise the signal only
  • the new response H n ⁇ , for a frequency f belonging to the band i defined by the module 12 and to the bark band q, thus depends on the relative difference between the increased estimate B n of the corresponding spectral component of the noise and the masking curve q, as follows
  • H n f is substantially equal to the minimum between on the one hand the quantity subtracted from this spectral component in the process of spectral subtraction having the frequency response HA f f f , and on the other hand the fraction of
  • FIG. 8 illustrates the principle of the correction applied by the module 62. It schematically shows a example of masking curve M_il, g_. calculated on the basis
  • a module 65 reconstructs the denoised signal in the time domain, by operating the inverse fast Fourier transform (TFRI) inverse of the samples of frequency S n f delivered by the multiplier
  • FIG. 9 shows a preferred embodiment of a denoising system implementing the invention.
  • This system includes a certain number of elements similar to elements corresponding to the system of FIG. 1, for which the same reference numerals have been used.
  • modules 10, 11, 12, 15, 16, 45 and 55 provide in particular the quantities
  • Fast Fourier 11 is a limitation of the system of FIG. 1.
  • the frequency subject to protection by the module 56 is not necessarily the precise tone frequency f, but the frequency closest to it in the discrete spectrum. In some cases, it is then possible to protect harmonics relatively far from that of the tone frequency.
  • the system of FIG. 9 overcomes this drawback thanks to an appropriate conditioning of the speech signal.
  • the sampling frequency of the signal is modified so that the period 1 / f covers exactly an integer number of sample times of the conditioned signal.
  • harmonic analysis methods that can be implemented by the module 57 are capable of providing a fractional value of the delay T, expressed in number of samples at the initial sampling frequency F.
  • a new sampling frequency f is then chosen so that it is equal to an integer multiple of the estimated tone frequency, ie with p integer.
  • f should be greater than F.
  • F is between F and 2F (1 ⁇ K ⁇ 2), to facilitate the implementation of the packaging.
  • N is usually a power of 2 for the implementation of the TFR. It is 256 in the example considered.
  • This choice is made by a module 70 according to the value of the delay T supplied by the narmonic analysis module 57.
  • the module 70 provides the ratio K between the sampling frequencies to three frequency change modules 71, 72, 73.
  • the module 71 is used to transform the values S ⁇ n, i. , r l B n ⁇ > a n ⁇ ' B n ⁇ and H nf' relating to the bands i defined by the module 12, in the modified frequency scale (sampling frequency f). This transformation consists simply in dilating the bands i in the factor K. The values thus transformed are supplied to the module 56 for protecting harmonics.
  • the module 72 proceeds to the oversampling of the frame of N samples provided by the windowing module 10.
  • the oversampling in a rational factor K K1 / K2) consists in first of all performing an oversampling in the integer factor K1, then a subsampling in the integer factor K2.
  • K K1 / K2
  • the conditioned signal frame supplied by the module 72 includes KN samples at the frequency f. These samples are sent to a module 75 which calculates their Fourier transform.
  • the two blocks therefore have an overlap of (2-K) xl00%.
  • For each of the two blocks we obtain a set of Fourier components S f . These components S f are supplied to the multiplier 58, which multiplies them by the spectral response
  • the autocorrelations A (k) are calculated by a module 76, for example according to the formula:
  • a module 77 then calculates the normalized entropy
  • the normalized entropy H constitutes a measurement of voicing very robust to noise and to variations in the tonal frequency.
  • the correction module 62 operates in the same way as that of the system of FIG. 1, taking into account the overestimated noise B n ⁇ resized by the frequency change module 71. It provides the frequency response # ⁇ of the final denoising filter, which is multiplied by the spectral components S I_I ,, ⁇ 1 of the signal conditioned by the multiplier
  • TFRI 65 a module 80 combines, for each frame, the two signal blocks resulting from the processing of the two blocks overlays issued by TFR 75. This combination can consist of a weighted sum of Hamming of samples, to form a signal frame conditions noise-suppressed KN samples.
  • a module 82 manages the windows formed by the module 10 and saved by the module 66, so that a number M of samples is saved equal to an integer multiple of. This avoids the problems of phase discontinuity between the frames.
  • the management module 82 controls the windowing module 10 so that the overlap between the current frame and the next one corresponds to NM. This recovery of NM samples will be required in the recovery sum carried out by the module 66 during the processing of the next frame. From the value of T provided by the harmonic analysis module 57, the module 82 calculates the number of samples to be saved
  • the tonal frequency is estimated so average on the frame.
  • the tonal frequency may vary somewhat over this period. It is possible to take these variations into account in the context of the present invention, by conditioning the signal so as to artificially obtain a constant tone frequency in the frame. For this, it is necessary that the module 57 of harmonic analysis provides the time intervals between the consecutive breaks in the speech signal attributable to closings of the glottis of the intervening speaker during the duration of the frame. Methods usable for detecting such micro-ruptures are well known in the field of harmonic analysis of speech signals.
  • w.m is the cumulative sum of the posterior likelihood ratio of two distributions, corrected by the Kullback divergence. For a distribution of residuals having a Gaussian statistic, this value w.m is given by:
  • FIG. 10 thus shows a possible example of evolution of the value w, showing the breaks R of the speech signal.
  • FIG. 11 shows the means used to calculate the conditioning of the signal in the latter case.
  • the largest T of the time intervals t supplied by the module 57 for a frame is selected by the module 70 (block 91 in FIG. 11) to obtain a torque p, ⁇ as indicated in table I.
  • the tonal frequency harmonics protection module 56 operates in the same way as above, using for condition (9) the spectral resolution ⁇ f provided by block 91 and the tonal frequency defined according to the value of the integer delay p supplied by block 91.
  • This embodiment of the invention also involves an adaptation of the window management module 82.
  • the number M of samples of the denoised signal to be saved on the current frame here corresponds to an integer number of consecutive time intervals t between two glottal breaks (see FIG. 10). This arrangement avoids the problems of phase discontinuity between frames, while taking into account the possible variations of the time intervals t on a frame.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

On effectue une soustraction spectrale comportant: une première étape de soustraction dans laquelle on tient compte d'estimations majorées (B'n,i) des composantes spectrales du bruit, de manière à obtenir des composantes spectrales (S2n,f) d'un premier signal débruité; le calcul d'une courbe de masquage (Mn,q) en appliquant un modèle de perception auditive à partir des composantes spectrales du premier signal débruité; et une seconde étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale du signal de parole sur la trame, une quantité dépendant de paramètres incluant un écart entre l'estimation majorée de la composante spectrale correspondante du bruit et la courbe de masquage calculée. On applique au résultat de la soustraction spectrale une tranformation vers le domaine temporel pour construire un signal de parole débruité.

Description

PROCEDE DE DEBRUITAGE D'UN SIGNAL DE PAROLE NUMERIQUE
La présente invention concerne les techniques numériques de debruitage de signaux de parole. Elle concerne plus particulièrement le debruitage par soustraction spectrale non linéaire.
Du fait de la généralisation des nouvelles formes de communication, en particulier des téléphones mobiles, les communications se font de plus en plus dans des a oiances fortement bruitees. Le bruit, additionné a la parole, a alors tendance a perturber les communications en empêchant une compression optimale du signal ce parole et en créant un bruit αe fond non naturel. D'autre part, le bruit renc difficile et fatigante la comprenension du message parlé. De nombreux algorithmes ont été étudiés pour essayer de diminuer les effets au bruit dans une communication. S. F. Boll («Suppression of acoustic noise m speech usmg spectral subtraction », IEEE Trans . on Acoustics, Speech and Signal Processing », Vol. ASSP-27, n° 2, avril 1979) a proposé un algorithme basé sur la soustraction spectrale. Cette technique consiste a estimer le spectre du bruit pendant les phases de silence et à le soustraire du signal reçu. Elle permet une réduction du niveau de bruit reçu. Son principal défaut est de créer un bruit musical particulièrement gênant, car non naturel.
Ces travaux, repris et améliorés par D. B. Paul
(« The spectral enveloppe estimation vocoder », IEEE
Trans. on Acoustics, Speech and Signal Processing », Vol.
ASSP-29, n° 4, août 1981) et par P. Lockwood et J. Boudy (« Expeπments with a nonlinear spectral subtractor (NSS) , Hidden Markov Models and the projection, for robust speech récognition m cars », Speech Communication, Vol. 11, juin 1992, pages 215-228, et EP-A-0 534 837) ont permis de diminuer sensiblement le niveau de bruit tout en lui conservant un caractère naturel. De plus, cette contribution a eu le mérite d' incorporer pour la première fois le principe de masquage dans le calcul du filtre de débruitage. A partir de cette dée, une première tentative a ete faite par S. Nandkumar et J. H. L. Hansen (« Speech enhance ent on a new set of auditory constramed parameters », Proc. ICASSP 94, pages 1.1-1.4) pour utiliser dans la soustraction spectrale des courbes de masquage calculées explicitement. Malgré les résultats décevants de cette technique, cette contribution a eu le mente de mettre l'accent sur l'importance de ne pas dénaturer le signal de parole pendant le debruitage.
D'autres métnodes basées sur la décomposition du signal αe parole en valeurs singulières, et donc sur une projection du signal de parole dans un espace plus réduit, ont ete étudiées par Bart De Moore (« The singular value décomposition and long and short spaces of noisy matrices », IEEE Trans. on Signal Processing, Vol. 41, n° 9, septembre 1993, pages 2826-2838) et par S. H. Jensen et al (« Réduction of broad-band noise m speech by truncated QSVD », IEEE Trans. on Speech and Audio Processing, Vol. 3, n° 6, novembre 1995) . Le principe de cette technique est de considérer le signal de parole et le signal de bruit comme totalement décorrélés, et de considérer que le signal de parole a une prédictibilite suffisante pour être prédit a partir d'un jeu restreint de paramètres. Cette technique permet d'obtenir un débruitage acceptable pour des signaux fortement voisés, mais dénature totalement le signal de parole. Face à un bruit relativement cohérent, tel que celui provoqué par le contact de pneus de voitures ou le cliquetis d'un moteur, le bruit peut s'avérer plus facilement prédictible que le signal de parole non voisé. On a alors tendance à projeter le signal de parole dans une partie de l'espace vectoriel du bruit. La méthode ne tient pas compte du signal de parole, en particulier des zones de parole non voisée où la prédictibilité est réduite. De plus, prédire le signal de parole a partir d'un eu de paramètres réduit ne permet pas de prendre en compte toute la richesse intrinsèque de la parole. On comprend ici les limites de techniques basées uniquement sur des considérations mathématiques en oubliant le caractère particulier de la parole. D' autres techniques enfin sont basées sur αes critères de cohérence. La fonction de cohérence est particulièrement bien développée par J. A. Cadzow et 0. M. Solomon (« Lmear modelmg and the cohérence function », IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. AS5P-35, n° 1, janvier 1987, pages 19-28), et son application au débruitage a été étudiée par R. Le Bouquin (« Enhancement of noisy speech signais : application to mobile ractio communications », Speech Communication, Vol. 18, pages 3-19) . Cette méthode se base sur le fait que le signal de parole a une cohérence nettement plus importante que le bruit à condition d'utiliser plusieurs canaux indépendants. Les résultats obtenus semblent être assez encourageants. Mais malheureusement, cette technique impose d'avoir plusieurs sources de prise de son, ce qui n'est pas toujours réalisé.
Un but principal de la présente invention est de proposer une nouvelle technique de débruitage qui prenne en compte les caractéristiques de perception de la parole par l'oreille humaine, permettant ainsi un débruitage efficace sans détériorer la perception de la parole.
L'invention propose ainsi un procède de débruitage d'un signal de parole numérique traité par trames successives, dans lequel : - on calcule des composantes spectrales du signal de parole sur chaque trame ;
- on calcule pour chaque trame des estimations majorées de composantes spectrales du bruit compris dans le signal de parole ; - on effectue une soustraction spectrale comportant au moins une première étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale du signal de parole sur la trame, une première quantité dépendant de paramètres incluant l'estimation majorée de la composante spectrale correspondante du bruit pour ladite trame, de manière à obtenir des composantes spectrales d'un premier signal débruité ; et on applique au résultat de la soustraction spectrale une transformation vers le domaine temporel pour construire un signal de parole débruité.
Selon l'invention, la soustraction spectrale comporte en outre les étapes suivantes :
- le calcul d'une courbe de masquage en appliquant un modèle de perception auditive à partir des composantes spectrales du premier signal débruité ; la comparaison des estimations majorées des composantes spectrales αα bruit pour la trame a la courbe de masquage calculée ; et
- une seconde étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale du signal de parole sur la trame, une seconde quantité dépendant de paramètres incluant un écart entre l'estimation majorée de la composante spectrale correspondante du bruit et la courbe de masquage calculée.
La seconde quantité soustraite peut notamment être limitée à la fraction de l'estimation majorée de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage. Cette façon de procéder repose sur l'observation qu'il suffit de débruiter les fréquences de bruit audibles. A contrario, il ne sert à rien d'éliminer du bruit qui est masqué par de la parole. La surestimation de l'enveloppe spectrale du bruit est généralement souhaitable pour que l'estimation majorée ainsi obtenue so t robuste aux brusques variations du bruit. Néanmoins, cette surestimation a habituellement l'inconvénient de distordre le signal de parole lorsqu'elle devient trop importante. Ceci a pour effet d'affecter le caractère voisé du signal de parole en supprimant une partie de sa prédictibilité . Cet inconvénient est très gênant dans les conditions de la téléphonie, car c'est pendant les zones de voisement que le signal de parole est alors le plus énergétique. En limitant la quantité soustraite lorsque la totalité ou une partie d'une composante fréquentielle du bruit surestimé s'avère être masquée par la parole, l'invention permet d'atténuer fortement cet inconvénient.
D' autres particularités et avantages de la présente invention apparaîtront dans la description ci- après d'exemples de réalisation non limitatifs, en référence aux dessins annexés, dans lesquels :
- la figure 1 est un schéma synoptique d'un système de débruitage mettant en œuvre la présente invention ; - les figures 2 et 3 sont des organigrammes de procédures utilisées par un détecteur d'activité vocale du système de la figure 1 ;
- la figure 4 est un diagramme représentant les états d'un automate de détection d'activité vocale ; - la figure 5 est un graphique illustrant les variations d'un degré d'activité vocale ;
- la figure 6 est un schéma synoptique d'un module de surestimation du bruit du système de la figure 1 ; la figure 7 est un graphique illustrant le calcul d'une courbe de masquage ; la figure 8 est un graphique illustrant l'exploitation des courbes de masquage dans le système de la figure 1 ;
- la figure 9 est un schéma synoptique d'un autre système de débruitage mettant en œuvre la présente invention ;
- la figure 10 est un graphique illustrant une méthode d'analyse harmonique utilisable dans un procédé selon l'invention ; et - la figure 11 montre partiellement une variante du schéma synoptique de la figure 9.
Le système de débruitage représenté sur la figure 1 traite un signal numérique de parole s. Un module de fenêtrage 10 met ce signal s sous forme de fenêtres ou trames successives, constituées chacune d'un nombre N d'échantillons de signal numérique. De façon classique, ces trames peuvent présenter des recouvrements mutuels. Dans la suite de la présente description, on considérera, sans que ceci soit limitatif, que les trames sont constituées de N=256 échantillons a une fréquence d'échantillonnage F de 8 kHz, avec une pondération de
Hamming dans chaque fenêtre, et des recouvrements de 50° entre fenêtres consécutives.
La trame de signal est transformée dans le domaine frequentiei par un module 11 appliquant un algorithme classique de transformée de Fourier rapide (TFR) pour calculer le module du spectre du signal. Le module 11 délivre alors un ensemble de N=256 composantes frequent_elles au signal de parole, notées Snn, ^_., où n designe le numéro de la trame courante, et f une fréquence αα spectre discret. Du fa t des propriétés des signaux numériques dans le domaine frequentiei, seuls les N/2=128 premiers échantillons sont utilisés.
Pour calculer les estimations du bruit contenu dans le signal s, on n'utilise pas la resolution fréquentielle disponible en sortie de la transformée de Fourier rapide, mais une résolution plus faible, déterminée par un nombre I de bandes de fréquences couvrant la bande [0,F /2] du signal. Chaque bande î
(l≤i≤I) s'étend entre une fréquence inférieure f(ι-l) et une fréquence supérieure f(ι), avec f(0)=0, et f(I)=F /2.
Ce découpage en bandes de fréquences peut être uniforme ( f (î) -f (î-l) =F /2I) . Il peut également être non uniforme
(par exemple selon une échelle de barks) . Un module 12 calcule les moyennes respectives des composantes spectrales Si_l, f1 du signal de parole par bandes, par exemple par une pondération uniforme telle que :
Figure imgf000008_0001
,f[ι) 7[ ,f ( 1>
Ce moyennage diminue les fluctuations entre les bandes en moyennant les contributions du bruit dans ces bandes, ce qui diminuera la variance de l'estimateur de bruit. En outre, ce moyennage permet une forte diminution de la complexité du système. Les composantes spectrales moyennées S , i sont adressées à un module 15 de détection d'activité vocale et a un module 16 d'estimation du bruit. Ces deux modules 15,
16 fonctionnent conjointement, en ce sens que des degrés d'activité vocale γ . mesurés pour les différentes bandes par le module 15 sont utilisés par le module 16 pour estimer l'énergie a long terme du bruit dans les différentes bandes, tandis que ces estimations à long terme Bn χ sont utilisées par le module 15 pour procéder a
- n un débruitage a priori du signal de parole dans les différentes bandes pour déterminer les degrés d'activité vocale γ_ Il, , 1..
Le fonctionnement des modules 15 et 16 peut correspondre aux organigrammes représentés sur les figures
15 2 et 3.
Aux étapes 17 à 20, le module 15 procède au débruitage a priori du signal de parole dans les différentes bandes i pour la trame de signal n. Ce débruitage a priori est effectué selon un processus
20 classique de soustraction spectrale non linéaire à partir d'estimations du bruit obtenues lors d'une ou plusieurs trames précédentes. A l'étape 17, le module 15 calcule, avec la résolution des bandes î, la réponse en fréquence
Hp,n_, . du filtre de débruitage a priori, selon la formule :
sn,ι ~ αn-τl,i' Bn-xl,ι 25 Hp = (2) bn-τ2,ι où τl et τ2 sont des retards exprimés en nombre de trames (τl≥l, τ2>0), et α 1_1/1, est un coefficient de surestimation du bruit dont la détermination sera expliquée plus loin. Le retard τl peut être fixe (par exemple τl=l) ou variable. 30 II est d'autant plus faible qu'on est confiant dans la détection d'activité vocale.
Aux étapes 18 à 20, les composantes spectrales Epn,ι sont calculées selon :
Epn /1 = max|φn . SR/1 , β χ.
Figure imgf000010_0001
(3) ou βp est un coefficient de plancher proche de 0, servant classiquement a éviter que le spectre du signal débruité prenne des valeurs négatives ou trop faibles qui provoqueraient un bruit musical.
Les étapes 17 à 20 consistent donc essentiellement a soustraire du spectre du signal une estimation, majorée par le coefficient α^ _-, , , du spectre du bruit estine a priori .
A l'étape 21, le module 15 calcule l'énergie du signal débruité a priori dans les différentes banαes 1 r. pour la trame n : E^ - Epn χ . Il calcule aussi une moyenne globale E Q de l'énergie du signal débruité a priori, par une somme des énergies par bande E_n, î , pondérée par les largeurs de ces bandes. Dans les notations ci-dessous, l'indice ι=0 sera utilisé pour designer la bande globale du signal.
Aux étapes 22 et 23, le module 15 calcule, pour chaque bande î (0<ι≤I), une grandeur
Figure imgf000010_0002
1. représentant la variation à court terme de l'énergie du signal débruité dans la bande î, ainsi qu'une valeur à long terme En ± de l'énergie du signal débruité dans la bande î. La grandeur ΔE peut être calculée par une formule simplifiée de
En-4,ι + En-2,ι ~ En-l,ι ' ' En,ι dérivation : Δ£„ . = . Quant à
10 l'énergie a long terme En λ , elle peut être calculée à l'aide d'un facteur d'oubli Bl tel que 0<B1<1, à savoir En,ι = Bl . Ën-lfl + (1-B1) . E^ . Après avoir calculé les énergies En , i du signal débruité, ses variations à court terme ΔE 11/ 1 et ses valeurs a long terme En λ de la manière indiquée sur la figure 2, le module 15 calcule, pour chaque bande î (O≤i≤I), une valeur p représentative de l'évolution de l'énergie du signal débruité. Ce calcul est effectue aux étapes 25 a 36 de la figure 3, exécutées pour chaque bande i entre ι=0 et ι=I . Ce calcul fait appel a un estimateur a ong terme αe l'enveloppe du bruit ba , a un estimateur interne bi. et a un compteur de trames bruitées b .
A l'étape 25, la grandeur ΔE est comparée a un seuil εl. S le seuil εl n'est pas atteint, le compteur b est mcrémenté d'une unité à l'étape 26. A l'étape 27, l'estimateur à long terme ba est comparé à la valeur de l'énergie lissée En -,_ . Si ba ≥ En -,_ , l'estimateur ba est pris égal à la valeur lissée En x à l'étape 28, et le compteur b est remis à zéro. La grandeur p , qui est prise égale au rapport ba /En/1 (étape 36) , est alors égale à 1.
Si l'étape 27 montre que ba <Ën ! , le compteur b est comparé à une valeur limite bmax à l'étape 29. Si b >bmax, le signal est considéré comme trop stationnaire pour supporter de l'activité vocale. L'étape 28 précitée, qui revient à considérer que la trame ne comporte que du bruit, est alors exécutée. Si b ≤bmax à l'étape 29, l'estimateur interne bi est calculé à l'étape 33 selon : bι = Q.-Bm) . Ε ιl + Bm . ba ( 4 )
Dans cette formule, Bm représente un coefficient de mise à jour compris entre 0,90 et 1. Sa valeur diffère selon l'état d'un automate de détection d'activité vocale (étapes 30 a 32) . Cet état δ -^ est celui déterminé lors du traitement de la trame précédente. Si l'automate est dans un état de détection de parole (δn_ι =2 à l'étape 30), le coefficient Bm prend une valeur Bmp très proche de 1 pour que l'estimateur du bruit soit très faiblement mis à jour en présence de parole. Dans le cas contraire, le coefficient Bm prend une valeur Bms plus faible, pour permettre une mise a our plus significative de l'estimateur de bruit en phase de silence. A l'étape 34, l'écart baη-bι entre l'estimateur à long terme et l'estimateur interne du bruit est compare à un seuil ε2.
Si le seuil ε2 n'est pas atteint, l'estimateur à long terme ba est mis à jour avec la valeur de l'estimateur interne bi à l'étape 35. Sinon, l'estimateur à long terme ba reste inchangé. On évite ainsi que de brutales variations dues à un signal de parole conduisent a une mise à jour de l'estimateur de bruit.
Après avoir obtenu les grandeurs p , le module 15 procède aux décisions d'activité vocale à l'étape 37. Le module 15 met d'abord à jour l'état de l'automate de détection selon la grandeur PQ calculée pour l'ensemble de la bande du signal. Le nouvel état δ de l'automate dépend de l'état précédent δ -, et de p0, de la manière représentée sur la figure 4. Quatre états sont possibles : δ=0 détecte le silence, ou absence de parole ; δ=2 détecte la présence d'une activité vocale ; et les états δ=l et δ=3 sont des états intermédiaires de montée et de descente. Lorsque l'automate est dans l'état de silence (δn_ι~0) / il y reste si PQ ne dépasse pas un premier seuil SE1, et il passe dans l'état de montée dans le cas contraire. Dans l'état de montée ( n_ •]_=!) , il revient dans l'état de silence si PQ est plus petit que le seuil SEl, il passe dans l'état de parole si pQ est plus grand qu'un second seuil SE2 plus grand que le seuil SEl, et il reste dans l'état de montée si SEl≤ p0≤SE2. Lorsque l'automate est dans l'état de parole (δ -,=2) , il y reste si PQ dépasse un troisième seuil SE3 plus petit que le seuil SE2, et il passe dans l'état de descente dans le cas contraire. Dans l'état de descente (δ -,=3), l'automate revient dans l'état de parole si pQ est plus grand que le seuil SE2, il revient dans l'état de silence si PQ est en deçà d'un quatrième seuil SE4 plus petit que le seuil SE2, et il reste dans l'état de descente si SE4<pQ<SE2.
A l'étape 37, le module 15 calcule également les degrés d'activité vocale γ„ 11,1. dans chaque bande ι>l. Ce degré
Figure imgf000013_0001
_ est de préférence un paramètre non binaire, c'est-à-dire que la fonction γ Il
Figure imgf000013_0002
est une fonction variant continûment entre 0 et 1 en fonction des valeurs prises par la grandeur p . Cette fonction a par exemple l'allure représentée sur la figure 5. Le module 16 calcule les estimations du bruit par bande, qui seront utilisées dans le processus de débruitage, en utilisant les valeurs successives des composantes
Figure imgf000013_0003
X. et des degrés d'activité vocale γi_l / Xη.
Ceci correspond aux étapes 40 à 42 de la figure 3. A l'étape 40, on détermine si l'automate de détection d'activité vocale vient de passer de l'état de montée à l'état de parole. Dans l'affirmative, les deux dernières estimations n_-L _, et B n-2 ι précédemment calculées pour chaque bande ι≥l sont corrigées conformément à la valeur de l'estimation précédente Bn-3 i ' Cette correction est effectuée pour tenir compte du fait que, dans la phase de montée (δ=l), les estimations à long terme de l'énergie du bruit dans le processus de détection d'activité vocale (étapes 30 à 33) ont pu être calculées comme si le signal ne comportait que du bruit (Bm=Bms), de sorte qu'elles risquent d'être entachées d'erreur.
A l'étape 42, le module 16 met à jour les estimations du bruit par bande selon les formules :
Figure imgf000014_0001
Bn,ι = nA- Bn-1A + ^nA] • BnA (6) où λβ désigne un facteur d'oubli tel que 0<λβ<l . La formule (6) met en évidence la prise en compte du degré d'activité vocale non binaire γ,n_, î• .
Comme indiqué précédemment, les estimations à long terme du bruit B j_ font l'objet d'une surestimation, par un module 45 (figure 1), avant de procéder au débruitage par soustraction spectrale non linéaire. Le module 45 calcule le coefficient de surestimation α InlfJ.• précédemment
évoqué, ainsi qu'une estimation majorée Bn ^ qui correspond
essentiellement à α I„lfJ,-- . B I_lf-,L• . L'organisation du module de surestimation 45 est représentée sur la figure 6. L'estimation majorée
Figure imgf000014_0002
est obtenue en combinant l'estimation à long terme Bn ι- et une
mesure Δ I™lf a- de la variabilité de la composante du bruit dans la bande i autour de son estimation à long terme. Dans l'exemple considéré, cette combinaison est, pour l'essentiel, une simple somme réalisée par un additionneur 46. Ce pourrait également être une somme pondérée.
Le coefficient de surestimation αn ,• est égal au
rapport entre la somme B Inlf-L - + Δ IÎϋlf-fL délivrée par l'additionneur 46 et l'estimation a long terme retardée S Inl_τ Llf -.L (diviseur 47), plafonné a une valeur limite CL iLlc,LXV, par exemple OL. =4 (bloc 48) . Le retard τ3 sert a corriger le cas échéant, dans les phases de montée (δ=l), la valeur
T du coe ficient de surestimation α 1n1/.. , avant que les estimations à long terme aient ete corrigées par les étapes 40 et 41 de la figure 3 (par exemple τ3=3) .
L'estimation majorée Bn , est finalement prise
égale a α i^ if A,-. β In_τtlX7 (multiplieur 49) .
La mesure ΔB™ax de la variabilité du bruit reflète la vaπance de l'estimateur de bruit. Elle est obtenue en fonction des valeurs de S I..l X. et de B Inlf-_ calculées pour un certain nombre de trames précédentes sur lesquelles le signal de parole ne présente pas d'activité vocale dans la
bande î. C'est une fonction des écarts Sn-k,ι Bn-k,j calculés pour un nombre K de trames de silence (n-k≤n) . Dans l'exemple représenté, cette fonction est simplement le maximum (bloc 50) . Pour chaque trame n, le degré d'activité vocale
Figure imgf000015_0001
1. est comparé a un seuil (bloc 51)
pour décider si l'écart Jn,ι B n,ι , calculé en 52-53, doit ou non être chargé dans une file d'attente 54 de K emplacements organisée en mode premier entre-premier sorti
(FIFO) . Si yn 11, 1. ne dépasse pas le seuil (qui peut être égal à 0 si la fonction g() a la forme de la figure 5), la FIFO 54 n'est pas alimentée, tandis qu'elle l'est dans le cas contraire. La valeur maximale contenue dans la FIFO 54 est alors fournie comme mesure de variabilité ΔB I™lfaJ. .
La mesure de variabilité ΔB I™lfaJx. peut, en variante, être obtenue en fonction des valeurs Ψx (et non S_n X ) et
Figure imgf000015_0002
n,1v . On procède alors de la même manière, sauf que la FIFO
54 contient non pas sn-k,i ~ Bn- kA pour chacune des bandes
i, mais plutôt max S n-kff B n-kri f e[f(i-l) ,f(i)[
Grâce aux estimations indépendantes des fluctuations à long terme du bruit B InfJ• et de sa
variabilité à court terme ΔB I™lf aJ-x , l'estimateur majoré B InlfJ•. procure une excellente robustesse aux bruits musicaux du procédé de débruitage.
Une première phase de la soustraction spectrale est réalisée par le module 55 représenté sur la figure 1. Cette phase fournit, avec la résolution des bandes i
1
(l≤i≤I), la réponse en fréquence # I„lfJ,•. d'un premier filtre de débruitage, en fonction des composantes S I,.l/ l• et B_fJ• et
! des coefficients de surestimation Inlf • . Ce calcul peut être effectué pour chaque bande i selon la formule : max \ sn/i - anfi. Bn/i , β^. Bn/i
H
5n-τ4,i où τ4 est un retard entier déterminé tel que τ4>0 (par exemple τ4=0). Dans l'expression (7), le coefficient β^ représente, comme le coefficient βp - de la formule (3) , un plancher servant classiquement à éviter les valeurs négatives ou trop faibles du signal débruité.
De façon connue (EP-A-0 534 837) , le coefficient de surestimation &n j_ pourrait être remplacé dans la formule (7) par un autre coefficient égal à une fonction r de n - et d'une estimation du rapport signal-sur-bruit
(par exemple S_ Il f X•/.§ I„lfJ,-•), cette fonction étant décroissante selon la valeur estimée du rapport signal-sur-bruit . Cette r fonction est alors égale à an 2 pour les valeurs les plus faibles du rapport signal-sur-bruit . En effet, lorsque le signal est très bruité, il n'est a priori pas utile de diminuer le facteur de surestimation. Avantageusement, cette fonction décroît vers zéro pour les valeurs les plus élevées du rapport signal/bruit . Ceci permet de protéger les zones les plus énergétiques du spectre, où le signal de parole est le plus significatif, la quantité soustraite αα signal tendant alors vers zéro.
Cette stratégie peut être affinée en l'appliquant αe manière sélective aux harmoniques de la fréquence tonale (« pitch ») dα signal de parole lorsque celui-ci présente une activité vocale. Ainsi, dans la réalisation représentée sur la figure 1, une seconde phase de débruitage est réalisée par un module 56 de protection des harmoniques. Ce module calcule, avec la résolution de la transformée de Fourier,
2 la réponse en fréquence Hn f d'un second filtre de
débruitage en fonction des paramètres Hi '
Inl fJ,. , α I„lfJ,. , B Inlf J-. , δi„l,
S. I.l / x. et de la fréquence tonale calculée en dehors
Figure imgf000017_0001
des phases de silence par un module d'analyse harmonique 57. En phase de silence (δ =0) , le module 56 n'est pas en
service, c'est-à-dire que H n f ~ Hn i Pour chaque fréquence f d'une bande i. Le module 57 peut appliquer toute méthode connue d'analyse du signal de parole de la trame pour déterminer la période T , exprimée comme un nombre entier ou fractionnaire d'échantillons, par exemple une méthode de prédiction linéaire. La protection apportée par le module 56 peut consister à effectuer, pour chaque fréquence f appartenant à une bande i :
Figure imgf000018_0001
Hnff = H n,f sinon
Δf=F /N représente la résolution spectrale de la
transformée de Fourier. Lorsque H ^ =1 , la quantité soustraite de la composante
Figure imgf000018_0002
?1 sera nulle. Dans ce
calcul, les coefficients de plancher β7 (par exemple
9 1 βj = βα ) expriment le fait que certaines harmoniques de la fréquence tonale f peuvent être masquées par du bruit, de sorte qu'il n'est pas utile de les protéger.
Cette stratégie de protection est de préférence appliquée pour chacune des fréquences les plus proches des harmoniques de f , c'est-à-dire pour η entier quelconque.
Si on désigne par δf la résolution fréquentielle avec laquelle le module d'analyse 57 produit la fréquence tonale estimée f , c'est-à-dire que la fréquence tonale réelle est comprise entre f -δf /2 et fp+δfp/2, alors l'écart entre la η-ième harmonique de la fréquence tonale réelle est son estimation ηxfn (condition (9)) peut aller jusqu'à ±ηxδf /2. Pour les valeurs élevées de η, cet écart peut être supérieur à la demi-résolution spectrale Δf/2 de la transformée de Fourier. Pour tenir compte de cette incertitude et garantir la bonne protection des harmoniques de la fréquence tonale réelle, on peut protéger chacune des fréquences de l'intervalle ηxfp- ηxδip/2 , ηxfp+ ηxδ.fp/2 c'est-à-dire remplacer la condition (9) ci-dessus par :
3η entier / f - η. f < (η. δfp + Δf/2 I Cette façon de procéder (condition (9')) présente un intérêt particulier lorsque les valeurs de η peuvent être grandes, notamment dans le cas où le procédé est utilisé dans un système à bande élargie. Pour chaque fréquence protégée, la réponse en
2 fréquence corrigée Hn f peut être égaie à 1 comme indiqué ci-dessus, ce qui correspond à la soustraction d'une quantité nulle dans le cadre de la soustraction spectrale, c' est-à-dire à une protection complète de la fréquence en question. Plus généralement, cette réponse en fréquence corrigée
Figure imgf000019_0001
pourrait être prise égale a une valeur
comprise entre 1 et Hn f selon le degré de protection souhaité, ce qui correspond à la soustraction d'une quantité inférieure à celle qui serait soustraite si la fréquence en question n'était pas protégée.
2
Les composantes spectrales Sn f d'un signal débruité sont calculées par un multiplieur 58 :
SΩff = Hn,f - Sn,f (10)
Ce signal Sn ^ est fourni à un module 60 qui calcule, pour chaque trame n, une courbe de masquage en appliquant un modèle psychoacoustique de perception auditive par l'oreille humaine.
Le phénomène de masquage est un principe connu du fonctionnement de l'oreille humaine. Lorsque deux fréquences sont entendues simultanément, il est possible que l'une des deux ne soit plus audible. On dit alors qu'elle est masquée.
Il existe différentes méthodes pour calculer des courbes de masquage. On peut par exemple utiliser celle développée par J.D. Johnston («Transform Coding of Audio Signais Using Perceptual Noise Criteria », IEEE Journal on Selected Area in Communications, Vol. 6, No. 2, février 1988). Dans cette méthode, on travaille dans l'échelle fréquentielle des barks. La courbe de masquage est vue comme la convolution de la fonction d' étalement spectral de la membrane basilaire dans le domaine bark avec le signal excitateur, constitué dans la présente
2 application par le signal Sn f . La fonction d'étalement spectral peut être modelisee de la manière représentée sur la figure 7. Pour chaque bande de bark, on calcule la contribution des bandes inférieures et supérieures convoluées par la fonction d'étalement de la memorane basilaire :
Cn'q (11)
Figure imgf000020_0001
ou les indices q et q' désignent les bandes de bark (0<q,q'≤Q), et 5n _.! représente la moyenne des composantes llf
Sn du signal excitateur débruité pour les fréquences discrètes f appartenant à la bande de bark q' . Le seuil de masquage M_. „ est obtenu par le module
60 pour chaque bande de bark q, selon la formule :
Mn,q = Cn,q Rq <12> où R dépend du caractère plus ou moins voisé du signal.
De façon connue, une forme possible de R est : l 1O0..l1ooσg1m0d(R ) == ((AA++σq)) ..χχ ++ BB..((Il--Yχ)) (13) avec A=14,5 et B=5,5. χ désigne un degré de voisement du signal de parole, variant entre zéro (pas de voisement) et
1 (signal fortement voisé) . Le paramètre χ peut être de la forme connue :
Figure imgf000020_0002
où SFM représente, en décibels, le rapport entre la moyenne arithmétique et la moyenne géométrique de l'énergie des bandes de bark, et SFTL =-60 dB.
Le système de débruitage comporte encore un module 62 qui corrige la réponse en fréquence du filtre de debruitage, en fonction de la courbe de masαuage
Figure imgf000021_0001
calculée par le module 60 et des estimations majorées B Inlf. calculées par le module 45. Le module 62 décide du niveau de debruitage qui doit réellement être atteint. En comparant l'enveloppe de l'estimation majorée du bruit avec l'enveloppe formée par les seuils de masαuage Mπ, q, on décide de ne debruiter le signal que
dans la mesure ou l'estimation majorée B InfJ,. dépasse la courbe αe masquage. Ceci évite de supprimer inutilement du bruit masqué par de la parole.
3
La nouvelle réponse Hn ^ , pour une fréquence f appartenant à la bande i définie par le module 12 et a la bande de bark q, dépend ainsi de l'écart relatif entre l'estimation majorée Bn de la composante spectrale correspondante du bruit et la courbe de masquage
Figure imgf000021_0002
q, de la manière suivante
Figure imgf000021_0003
En d'autres termes, la quantité soustraite d'une composante spectrale S ψ, dans le processus de soustraction spectrale ayant la réponse fréquentielle
Hn f , est sensiblement égale au minimum entre d'une part la quantité soustraite de cette composante spectrale dans le processus de soustraction spectrale ayant la réponse fréquentielle H Aff f , et d'autre part la fraction de
l'estimation majorée B n ι de la composante spectrale correspondante du bruit qui, le cas échéant, dépasse la courbe de masquage „
Figure imgf000021_0004
q.
La figure 8 illustre le principe de la correction appliquée par le module 62. Elle montre schématiquement un exemple de courbe de masquage M_il, g_. calculée sur la base
2 des composantes spectrales Sn ^ du signal debruite, ainsi r.1 que l'estimation majorée Bn du spectre du bruit. La quantité finalement soustraite des composantes Sπ II, ^1 sera celle représentée par les zones hachurées, c'est-a-dire limitée à la fraction de l'estimation majorée B Inlf, des composantes spectrales du bruit qui dépasse la courbe de masquage .
Cette soustraction est effectuée en multipliant la
3 réponse fréquentielle Hnlf± du filtre de débruitage par les composantes spectrales S ^ du signal de parole
(multiplieur 64). Un module 65 reconstruit alors le signal débruité dans le domaine temporel, en opérant la transformée de Fourier rapide inverse (TFRI) inverse des échantillons de fréquence Sn f délivrés par le multiplieur
64. Pour chaque trame, seuls les N/2=128 premiers échantillons du signal produit par le module 65 sont délivres comme signal débruité final s , après reconstruction par addition-recouvrement avec les N/2=128 derniers échantillons de la trame précédente (module 66) .
La figure 9 montre une forme de réalisation préférée d'un système de débruitage mettant en œuvre l'invention. Ce système comporte un certain nombre d' éléments semblables à des éléments corresponαants du système de la figure 1, pour lesquels on a utilisé les mêmes références numériques. Ainsi, les modules 10, 11, 12, 15, 16, 45 et 55 fournissent notamment les quantités
Sn i' Bn ι ' n ι ' Bn i et Hn f Pour effectuer le débruitage sélectif . La résolution en fréquence de la transformée de
Fourier rapide 11 est une limitation du système de la figure 1. En effet, la fréquence faisant l'objet de la protection par le module 56 n'est pas nécessairement la fréquence tonale précise f , mais la fréquence la plus proche de celle-ci dans le spectre discret. Dans certains cas, on peut alors protéger des harmoniques relativement éloignées de celle de la fréquence tonale. Le système de la figure 9 pallie cet inconvénient grâce à un conditionnement approprié du signal de parole.
Dans ce conditionnement, on modifie la fréquence d'échantillonnage du signal de telle sorte que la période 1/f couvre exactement un nombre entier de temps d'échantillon du signal conditionné.
De nombreuses méthodes d' analyse harmonique pouvant être mises en œuvre par le module 57 sont capables de fournir une valeur fractionnaire du retard T , exprimé en nombre d'échantillons à la fréquence d'échantillonnage initiale F . On choisit alors une nouvelle fréquence d'échantillonnage f de telle sorte qu'elle soit égale à un multiple entier de la fréquence tonale estimée, soit avec p entier. Afin de ne pas perdre
Figure imgf000023_0001
d'échantillons de signal, il convient que f soit supérieure à F . On peut notamment imposer qu'elle soit comprise entre F et 2F (1<K<2), pour faciliter la mise en œuvre du conditionnement.
Bien entendu, si aucune activité vocale n'est détectée sur la trame courante (δ ≠O) , ou si le retard T estimé par le module 57 est entier, il n'est pas nécessaire de conditionner le signal.
Afin que chacune des harmoniques de la fréquence tonale corresponde également à un nombre entier d'échantillons du signal conditionné, l'entier p doit être un diviseur de la taille N de la fenêtre de signal produite par le module 10 : N=αp, avec α entier. Cette taille N est usuellement une puissance de 2 pour la mise en œuvre de la TFR. Elle est de 256 dans l'exemple considéré. La resolution spectrale Δf de la transformée de Fourier discrète du signal conditionné est donnée par Δf≈p.f /N=f /α. On a donc intérêt à choisir p petit de façon à maximiser α, mais suffisamment grand pour surechantillonner . Dans l'exemple considéré, où F =8 kHz et N=256, les valeurs choisies pour les paramètres p et α sont indiquées dans le tableau I.
500 Hz < f < 1000 Hz 8 < TD < 16 P P = 16 α = 16
250 Hz < f„ < 500 Hz 16 < T < 32 P P P = 32 α = 8
125 Hz < f < 250 Hz 32 < T < 64 P P = 64 α = 4
62, 5 Hz < f < 125 Hz 64 < T < 128 ir P = 128 α = 2
31,25 Hz < f < 62,5 Hz 128 < T < 256 P = 256 α = 1
Tableau I
Ce choix est effectué par un module 70 selon la valeur du retard T fournie par le module d'analyse narmonique 57. Le module 70 fournit le rapport K entre les fréquences d'échantillonnage à trois modules de changement de fréquence 71, 72, 73.
Le module 71 sert à transformer les valeurs Sπn, i. , rl B n ι > an ι ' Bn ι et Hn f ' relatives aux bandes i définies par le module 12, dans l'échelle des fréquences modifiées (fréquence d'échantillonnage f ) . Cette transformation consiste simplement à dilater les bandes i dans le facteur K. Les valeurs ainsi transformées sont fournies au module 56 de protection des harmoniques.
Celui-ci opère alors de la même manière que précédemment pour fournir la réponse en fréquence Hn f du
filtre de débruitage. Cette réponse H est obtenue de la même manière que dans le cas de la figure 1 (conditions (8) et (9)), à cette différence près que, dans la condition (9), la fréquence tonale fp=fc/p est définie selon la valeur du retard entier p fourni par le module 70, la résolution en fréquence Δf étant également fournie par ce module 70.
Le module 72 procède au suréchantillonnage de la trame de N échantillons fournie par le module de fenêtrage 10. Le suréchantillonnage dans un facteur K rationnel (K=K1/K2) consiste à effectuer d' aoord un suréchantillonnage dans le facteur entier Kl, puis un sous-écnantillonnage dans le facteur entier K2. Ces suréchantillonnage et sous-échantillonnage dans des facteurs entiers peuvent être effectués classiquement au moyen de bancs de filtres polyphasé. La trame de signal conditionné s' fournie par le module 72 comporte KN échantillons à la fréquence f . Ces échantillons sont adressés à un module 75 qui calcule leur transformée de Fourier. La transformation peut être effectuée à partir de deux blocs de N=256 échantillons : l'un constitué par les N premiers échantillons de la trame de longueur KN du signal conditionné s', et l'autre par les N derniers échantillons de cette trame. Les deux blocs présentent donc un recouvrement de (2-K)xl00%. Pour chacun des deux blocs, on obtient un jeu de composantes de Fourier S f. Ces composantes S f sont fournies au multiplieur 58, qui les multiplie par la réponse spectrale
Hn 2 f pour délivrer les composantes spectrales Sn2 ^ du premier signal débruité.
Ces composantes Sn ^ sont adressées au module 60 qui calcule les courbes de masquage de la manière précédemment indiquée.
De préférence, dans ce calcul des courbes de masquage, la grandeur χ désignant le degré de voisement du signal de parole (formule (13) ) est prise de la forme χ=l-H, où H est une entropie de l'autocorrélation des composantes spectrales Sn f du signal conditionne debruite. Les autocorrélations A(k) sont calculées par un module 76, par exemple selon la formule :
N/2-1 ∑ sn,f - snff+k A = N/2_1 ' N/2_1 (15)
Figure imgf000026_0001
Un module 77 calcule ensuite l'entropie normalisée
H, et la fournit au module 60 pour le calcul de la courbe de masquage (voir S.A. McClellan et al : « Spectral Entropy : an Alternative Indicator for Rate Allocation ? », Proc. ICASSP'94, pages 201-204) :
N/2-1 ∑ A(k) . log[A(λ)] λ=0 H = (16) log (N/2)
Grâce au conditionnement du signal, ainsi qu'à son
9 débruitage par le filtre Hn f , l'entropie normalisée H constitue une mesure de voisement très robuste au bruit et aux variations de la fréquence tonale. Le module de correction 62 opère de la même manière que celui du système de la figure 1, en tenant compte du bruit surestimé Bn χ remis à l'échelle par le module de changement de fréquence 71. Il fournit la réponse en fréquence # ^ du filtre de débruitage définitif, qui est multipliée par les composantes spectrales S I_I,, Ψ1 du signal conditionné par le multiplieur
3
64. Les composantes Sn ^ qui en résultent sont ramenées dans le domaine temporel par le module de TFRI 65. En sortie de cette TFRI 65, un module 80 combine, pour chaque trame, les deux blocs de signal issus du traitement des deux blocs recouvrants délivrés par la TFR 75. Cette combinaison peut consister en une somme avec pondération de Hamming des échantillons, pour former une trame de signal conditionne débruité de KN échantillons.
Le signal conditionné débruité fourni par le module 80 fait l'objet d'un changement de fréquence d'échantillonnage par le module 73. Sa fréquence d'échantillonnage est ramenée à F =f /K par les opérations inverses de celles effectuées par le module 75. Le module 73 délivre N=256 échantillons par trame. Après la reconstruction par addition-recouvrement avec les N/2=128 derniers échantillons de la trame précédente, seuls les N/2=128 premiers échantillons de la trame courante sont finalement conserves pour former le signal débruité final s (module 66) .
Dans une forme de réalisation préférée, un module 82 gère les fenêtres formées par le module 10 et sauvegardées par le module 66, de façon telle qu'on sauvegarde un nombre M d'échantillons égal à un multiple entier de . On évite ainsi les problèmes de
Figure imgf000027_0001
discontinuité de phase entre les trames. De façon correspondante, le module de gestion 82 commande le moαule de fenêtrage 10 pour que le recouvrement entre la trame courante et la prochaine corresponde à N-M. Il sera tenu de ce recouvrement de N-M échantillons dans la somme à recouvrement effectuée par le module 66 lors du traitement de la prochaine trame. A partir de la valeur de T fournie par le module d'analyse harmonique 57, le module 82 calcule le nombre d'échantillons à sauvegarder
M=T χE[N/ (2T ) ] , E[] désignant la partie entière, et commande de façon correspondante les modules 10 et 66. Dans le mode de réalisation qu'on vient de décrire, la fréquence tonale est estimée de façon moyenne sur la trame. Or la fréquence tonale peut varier quelque peu sur cette durée. Il est possible de tenir compte de ces variations dans le cadre de la présente invention, en conditionnant le signal de façon à obtenir artificiellement une fréquence tonale constante dans la trame . Pour cela, on a besoin que le module 57 d'analyse harmonique fournisse les intervalles de temps entre les ruptures consécutives du signal de parole attribuables à des fermetures de la glotte du locuteur intervenant pendant la durée de la trame. Des méthodes utilisables pour détecter de telles micro-ruptures sont bien connues dans le domaine de l'analyse harmonique des signaux de paroles. On pourra à cet égard consulter les articles suivants : M. BASSEVILLE et al., « Sequential détection of abrupt changes in spectral characteristics of digital signais », IEEE Trans. on Information Theory, 1983, Vol. IT-29, n°5, pages 708-723 ; R. ANDRE-OBRECHT, « A new statistical approach for the automatic segmentation of continuous speech signais », IEEE Trans. on Acous . , Speech and Sig. Proc, Vol. 36, N°l, janvier 1988 ; et C. MURGIA et al « An algorithm for the estimation of glottal closure instants using the sequential détection of abrupt changes in speech signais », Signal Processing VII, 1994, pages 1685-1688.
Le principe de ces méthodes est d'effectuer un test statistique entre deux modèles, l'un à court terme et l'autre à long terme. Les deux modèles sont des modèles adaptatifs de prédiction linéaire. La valeur de ce test statistique w.m est la somme cumulée du rapport de vraisemblance a posteriori de deux distributions, corrigée par la divergence de Kullback. Pour une distribution de résidus ayant une statistique gaussienne, cette valeur w.m est donnée par :
Figure imgf000028_0001
ou e m et σQ représentent le résidu calculé au moment de l'échantillon m de la trame et la variance du modèle à long terme, e 1m et
Figure imgf000028_0002
représentant de même le résidu et la variance du modèle à court terme. Plus les deux modèles sont proches, plus la valeur w du test statistique est procne de 0. Par contre, lorsque les deux modèles sont éloignes l'un de l'autre, cette valeur wm devient négative, ce qui dénote une rupture R du signal.
La figure 10 montre ainsi un exemple possible d' évolution de la valeur w , montrant les ruptures R du signal de parole. Les intervalles de temps t
(r = 1,2,...) entre deux ruptures consécutives R sont calculés, et exprimés en nombre d'échantillons du signal de parole. Chacun de ces intervalles t est inversement proportionnel à la fréquence tonale f , qui est ainsi estimée localement : f =F /t sur ^e r-ιème intervalle.
On peut alors corriger les variations temporelles de la fréquence tonale (c'est-à-dire le fait que les intervalles t ne sont pas tous égaux sur une trame donnée), afin d'avoir une fréquence tonale constante dans chacune des trames d'analyse. Cette correction est effectuée par une modification de la fréquence d'échantillonnage sur chaque intervalle t , de façon à obtenir, après suréchantillonnage, des intervalles constants entre deux ruptures glottiques. On modifie donc la durée entre deux ruptures en faisant un suréchantillonnage dans un rapport variable, de façon à se caler sur l'intervalle le plus grand. De plus, on fait en sorte de respecter la contrainte de conditionnement selon laquelle la fréquence de suréchantillonnage est multiple de la fréquence tonale estimée.
La figure 11 montre les moyens utilisés pour calculer le conditionnement du signal dans ce dernier cas.
Le module 57 d'analyse harmonique est réalisé de façon à mettre en œuvre la méthode d'analyse ci-dessus, et à fournir les intervalles t relatifs à la trame de signal produite par le module 10. Pour chacun de ces intervalles, le module 70 (bloc 90 sur la figure 11) calcule le rapport de suréchantillonnage Kr=pr/tr, où l'entier p est donné par la troisième colonne du tableau I lorsque t prend les valeurs indiquées dans la deuxième colonne. Ces rapports de suréchantillonnage K sont fournis aux modules de changement de fréquence 72 et 73, pour que les interpolations soient effectuées avec le rapport d'échantillonnage K sur l'intervalle de temps correspondant t .
Le plus grand T des intervalles de temps t fournis par le module 57 pour une trame est sélectionne par le module 70 (bloc 91 sur la figure 11) pour obtenir un couple p,α comme indiqué dans le tableau I. La fréquence d'échantillonnage modifiée est alors f e =P-F e/τ D comme précédemment, la resolution spectrale Δf de la transformée de Fourier discrète du signal conditionne étant toujours donnée par Δf=Fe/(α.Tp). Pour le module de changement de fréquence 71, le rapport de suréchantillonnage K est donné par K=p/T (bloc 92) . Le module 56 de protection des harmoniques de la fréquence tonale opère de la même manière que précédemment, en utilisant pour la condition (9) la résolution spectrale Δf fournie par le bloc 91 et la fréquence tonale
Figure imgf000030_0001
définie selon la valeur du retard entier p fournie par le bloc 91.
Cette forme de réalisation de l'invention implique également une adaptation du module 82 de gestion des fenêtres. Le nombre M d'échantillons du signal débruité à sauvegarder sur la trame courante correspond ici à un nombre entier d'intervalles de temps t consécutifs entre deux ruptures glottiques (voir figure 10) . Cette disposition évite les problèmes de discontinuité de phase entre trames, tout en tenant compte des variations possibles des intervalles de temps t sur une trame.

Claims

R E V E N D I C A T I O N S
1. Procédé de débruitage d'un signal de parole numérique (s) traité par trames successives, dans lequel :
- on calcule des composantes spectrales (S_n, r, Sn,.,, i ) du signal de parole sur chaque trame ;
- on calcule pour chaque trame des estimations majorées ( B I_/J, ) de composantes spectrales du bruit compris dans le signal de parole ;
- on effectue une soustraction spectrale comportant au moins une première étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale (S_ II, 1 du signal de parole sur la trame, une première quantité dépendant de paramètres incluant l'estimation majorée ( B I„lfJ, ) de la composante spectrale correspondante du bruit pour ladite trame, de
2 manière a obtenir des composantes spectrales ( Sn f ) d'un premier signal débruité ; et
- on applique au résultat de la soustraction spectrale une transformation vers le domaine temporel pour construire un signal de parole débruité (s ) , caractérisé en ce que la soustraction spectrale comporte en outre les étapes suivantes :
- le calcul d'une courbe de masquage (Mil, q) en appliquant un modèle de perception auditive à partir des
2 composantes spectrales ( Sn f ) du premier signal debruite ;
- la comparaison des estimations majorées (B Inlf7) des composantes spectrales du bruit pour la trame a la courbe de masquage calculée (Mn, q) ; et
- une seconde étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale (S_ II, 1) du signal de parole sur la trame, une seconde quantité dépendant de paramètres incluant un écart entre l'estimation majorée de la composante spectrale correspondante du bruit et la courbe de masquage calculée.
2. Procédé selon la revendication 1, dans lequel ladite seconde quantité relative à une composante spectrale (S_n, ) du signal de parole sur la trame est sensiblement égale au minimum entre la première quantité correspondante et la fraction de l'estimation majorée
Λl
( Bn ι ) de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage (M-n, q 7 •
3. Procédé selon la revendication 1 ou 2, dans lequel on effectue une analyse harmonique du signal de parole pour estimer une fréquence tonale (f ) du signal de parole
Ir sur chaque trame où il présente une activité vocale.
4. Procédé selon la revendication 3, dans lequel les paramètres dont dépendent les premières quantités soustraites incluent la fréquence tonale estimée (f ) .
5. Procédé selon la revendication 4, dans lequel la première quantité soustraite d'une composante spectrale donnée (S_I, 1 ) du signal de parole est plus faible si ladite composante spectrale correspond à la fréquence la plus proche d'un multiple entier de la fréquence tonale estimée (f ) que si ladite composante spectrale ne ir correspond pas à la fréquence la plus proche d'un multiple entier de la fréquence tonale estimée.
6. Procédé selon la revendication 4 ou 5, dans lequel les quantités respectivement soustraites des composantes spectrales (Sn_, f ) du signal de parole correspondant aux fréquences les plus proches des multiples entiers de la fréquence tonale estimée (f ) sont sensiblement nulles.
7. Procédé selon l'une quelconque des revendications 3 à 6, dans lequel, après avoir estimé la fréquence tonale (f ) du signal de parole sur une trame, on conditionne le signal de parole de la trame en le suréchantillonnant à une fréquence de suréchantillonnage (fe) multiple de la fréquence tonale estimée, et on calcule les composantes spectrales (Sn, fi) du signal de parole sur la trame sur la base du signal conditionné (s' ) pour leur soustraire lesdites quantités.
8. Procédé selon la revendication 7, dans lequel on calcule des composantes spectrales (S_n, fi) du signal de parole en distribuant le signal conditionné (s' ) par blocs de N échantillons soumis a une transformation dans le domaine frequentiei, et dans lequel le rapport (p) entre la fréquence de suréchantillonnage (f ) et la fréquence tonale estimée est un diviseur du nombre N.
9. Procédé selon la revendication 7 ou 8, dans lequel on estime un degré de voisement (χ) du signal de parole sur la trame à partir d'un calcul de l'entropie (H) de l'autocorrélation des composantes spectrales calculées sur la base du signal conditionné.
10. Procédé selon la revendication 9, dans lequel
2 lesdites composantes spectrales (S- 11.,*1) dont on calcule l'autocorrélation (H) sont celles calculées sur la base du signal conditionné (s' ) après soustraction desdites premières quantités.
11. Procédé selon la revendication 9 ou 10, dans lequel le degré de voisement (χ) est mesuré à partir une entropie normalisée H de la forme :
N/2-1 ∑ A(k) . log[A(k)] k=0 H = — log (N/2) où Ν est le nombre d'échantillons utilisés pour calculer les composantes spectrales (S_ II, .1=) sur la base du signal conditionné (s'), et A(k) est l'autocorrélation normalisée définie par :
N/2-1
Sn, ~ • sn,f+k f≈O
Λ{k) = N/2-1 N/2-1
Σ Σ sn,f- Sn,f+f f= f'=0
I^lfl f désignant la composante spectrale de rang f calculée sur la base du signal conditionné.
12. Procédé selon la revendication 11, dans lequel le calcul de la courbe de masquage (M_n, q fait intervenir le degré de voisement (χ) mesuré par l'entropie normalisée H.
13. Procédé selon l'une quelconque des revendications 3 à 12, dans lequel, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons (M) égal à un multiple entier de fois le rapport (T ) entre la fréquence d'échantillonnage (Fc ) et la fréquence tonale estimée (f ) .
14. Procédé selon l'une quelconque des revendications 3 à 12, dans lequel l'estimation de la fréquence tonale du signal de parole sur une trame comporte les étapes suivantes : - on estime des intervalles de temps (t ) entre deux ruptures consécutives (R) du signal attribuables à des fermetures de la glotte du locuteur intervenant pendant la durée de la trame, la fréquence tonale estimée étant inversement proportionnelle auxdits intervalles de temps ;
- on interpole le signal de parole dans lesdits intervalles de temps, afin que le signal conditionné (s' ) résultant de cette interpolation présente un intervalle de temps constant entre deux ruptures consécutives.
15. Procédé selon la revendication 14, dans lequel, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons (M) correspondant à un nombre entier d'intervalles de temps estimés (t ) .
16. Procédé selon l'une quelconque des revendications précédentes, dans lequel on estime dans le domaine spectral des valeurs d'un rapport signal-sur-bruit que présente le signal de parole (s) sur chaque trame, et dans lequel les paramètres dont dépendent les premières quantités soustraites incluent les valeurs estimées du rapport signal-sur-bruit, la première quantité soustraite de chaque composante spectrale (S_ 11., f1) du signal de parole sur la trame étant une fonction décroissante de la valeur estimée correspondante du rapport signal-sur-bruit.
17. Procédé selon la revendication 16, dans lequel ladite fonction décroît vers zéro pour les valeurs les plus élevées du rapport signal-sur-bruit .
PCT/FR1998/001980 1997-09-18 1998-09-16 Procede de debruitage d'un signal de parole numerique WO1999014738A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP98943999A EP1016072B1 (fr) 1997-09-18 1998-09-16 Procede et dispositif de debruitage d'un signal de parole numerique
AU91689/98A AU9168998A (en) 1997-09-18 1998-09-16 Method for suppressing noise in a digital speech signal
US09/509,145 US6477489B1 (en) 1997-09-18 1998-09-16 Method for suppressing noise in a digital speech signal
CA002304571A CA2304571A1 (fr) 1997-09-18 1998-09-16 Procede de debruitage d'un signal de parole numerique
DE69803203T DE69803203T2 (de) 1997-09-18 1998-09-16 Verfahren und vorrichtung zur rauschunterdrückung eines digitalen sprachsignals

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR97/11643 1997-09-18
FR9711643A FR2768547B1 (fr) 1997-09-18 1997-09-18 Procede de debruitage d'un signal de parole numerique

Publications (1)

Publication Number Publication Date
WO1999014738A1 true WO1999014738A1 (fr) 1999-03-25

Family

ID=9511230

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR1998/001980 WO1999014738A1 (fr) 1997-09-18 1998-09-16 Procede de debruitage d'un signal de parole numerique

Country Status (7)

Country Link
US (1) US6477489B1 (fr)
EP (1) EP1016072B1 (fr)
AU (1) AU9168998A (fr)
CA (1) CA2304571A1 (fr)
DE (1) DE69803203T2 (fr)
FR (1) FR2768547B1 (fr)
WO (1) WO1999014738A1 (fr)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
DE10150519B4 (de) * 2001-10-12 2014-01-09 Hewlett-Packard Development Co., L.P. Verfahren und Anordnung zur Sprachverarbeitung
CN105869652A (zh) * 2015-01-21 2016-08-17 北京大学深圳研究院 心理声学模型计算方法和装置

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999001942A2 (fr) * 1997-07-01 1999-01-14 Partran Aps Procede de reduction de bruit dans des signaux vocaux et appareil d'application du procede
US6549586B2 (en) * 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
US6717991B1 (en) * 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
JP2002221988A (ja) * 2001-01-25 2002-08-09 Toshiba Corp 音声信号の雑音抑圧方法と装置及び音声認識装置
AU4627801A (en) * 2001-04-11 2001-07-09 Phonak Ag Method for the elimination of noise signal components in an input signal for an auditory system, use of said method and hearing aid
US6985709B2 (en) * 2001-06-22 2006-01-10 Intel Corporation Noise dependent filter
US7103539B2 (en) * 2001-11-08 2006-09-05 Global Ip Sound Europe Ab Enhanced coded speech
US20040078199A1 (en) * 2002-08-20 2004-04-22 Hanoh Kremer Method for auditory based noise reduction and an apparatus for auditory based noise reduction
US7398204B2 (en) * 2002-08-27 2008-07-08 Her Majesty In Right Of Canada As Represented By The Minister Of Industry Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking
AU2003219428A1 (en) * 2002-10-14 2004-05-04 Koninklijke Philips Electronics N.V. Signal filtering
ES2305852T3 (es) * 2003-10-10 2008-11-01 Agency For Science, Technology And Research Procedimiento de codificacion de una señal digital en un flujo binario escalable, procedimiento para la descodificacion de un flujo binario escalable.
US7725314B2 (en) * 2004-02-16 2010-05-25 Microsoft Corporation Method and apparatus for constructing a speech filter using estimates of clean speech and noise
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
US20060206320A1 (en) * 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
CN101091209B (zh) * 2005-09-02 2010-06-09 日本电气株式会社 抑制噪声的方法及装置
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
JP4592623B2 (ja) * 2006-03-14 2010-12-01 富士通株式会社 通信システム
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
US20080162119A1 (en) * 2007-01-03 2008-07-03 Lenhardt Martin L Discourse Non-Speech Sound Identification and Elimination
ES2391228T3 (es) 2007-02-26 2012-11-22 Dolby Laboratories Licensing Corporation Realce de voz en audio de entretenimiento
US8560320B2 (en) * 2007-03-19 2013-10-15 Dolby Laboratories Licensing Corporation Speech enhancement employing a perceptual model
ATE501506T1 (de) * 2007-09-12 2011-03-15 Dolby Lab Licensing Corp Spracherweiterung mit anpassung von geräuschpegelschätzungen
CN101802910B (zh) * 2007-09-12 2012-11-07 杜比实验室特许公司 利用话音清晰性的语音增强
JP5483000B2 (ja) * 2007-09-19 2014-05-07 日本電気株式会社 雑音抑圧装置、その方法及びプログラム
JP5056654B2 (ja) * 2008-07-29 2012-10-24 株式会社Jvcケンウッド 雑音抑制装置、及び雑音抑制方法
US20110257978A1 (en) * 2009-10-23 2011-10-20 Brainlike, Inc. Time Series Filtering, Data Reduction and Voice Recognition in Communication Device
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8423357B2 (en) * 2010-06-18 2013-04-16 Alon Konchitsky System and method for biometric acoustic noise reduction
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) * 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN103824562B (zh) * 2014-02-10 2016-08-17 太原理工大学 基于心理声学模型的语音后置感知滤波器
DE102014009689A1 (de) * 2014-06-30 2015-12-31 Airbus Operations Gmbh Intelligentes Soundsystem/-modul zur Kabinenkommunikation
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的***和方法
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
EP3566229B1 (fr) * 2017-01-23 2020-11-25 Huawei Technologies Co., Ltd. Appareil et procédé permettant d'améliorer une composante souhaitée dans un signal
US11017798B2 (en) * 2017-12-29 2021-05-25 Harman Becker Automotive Systems Gmbh Dynamic noise suppression and operations for noisy speech signals

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995002930A1 (fr) * 1993-07-16 1995-01-26 Dolby Laboratories Licensing Coproration Procede et appareil d'attribution de bits adaptative informatiquement efficace pour le codage
EP0661821A1 (fr) * 1993-11-25 1995-07-05 SHARP Corporation Appareil pour coder et décoder qui ne détériore par la qualité du son même si on décode un signal sinusoidal

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03117919A (ja) * 1989-09-30 1991-05-20 Sony Corp ディジタル信号符号化装置
AU633673B2 (en) 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
EP0459362B1 (fr) 1990-05-28 1997-01-08 Matsushita Electric Industrial Co., Ltd. Processeur de signal de parole
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5469087A (en) 1992-06-25 1995-11-21 Noise Cancellation Technologies, Inc. Control system using harmonic filters
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
JPH08506427A (ja) * 1993-02-12 1996-07-09 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 雑音減少
US5555190A (en) 1995-07-12 1996-09-10 Micro Motion, Inc. Method and apparatus for adaptive line enhancement in Coriolis mass flow meter measurement
FR2739736B1 (fr) * 1995-10-05 1997-12-05 Jean Laroche Procede de reduction des pre-echos ou post-echos affectant des enregistrements audio
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US6144937A (en) * 1997-07-23 2000-11-07 Texas Instruments Incorporated Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995002930A1 (fr) * 1993-07-16 1995-01-26 Dolby Laboratories Licensing Coproration Procede et appareil d'attribution de bits adaptative informatiquement efficace pour le codage
EP0661821A1 (fr) * 1993-11-25 1995-07-05 SHARP Corporation Appareil pour coder et décoder qui ne détériore par la qualité du son même si on décode un signal sinusoidal

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LOCKWOOD ET AL.: "Experiments with a nonlinear spectral subtractor (NSS), Hidden Markov Models and the projection, for robust speech recognition in cars", SPEECH COMMUNICATION, vol. 11, no. 2/3, 1 June 1992 (1992-06-01), AMSTERDAM, NL, pages 215 - 228, XP000279184 *
NANDKUMAR ET AL.: "Speech enhancement based on a new set of auditory constrained parameters", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, SIGNAL PROCESSING (ICASSP 1994), vol. 1, 19 April 1994 (1994-04-19) - 22 April 1994 (1994-04-22), ADELAIDE, AU, pages 1 - 4, XP000529345 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
DE10150519B4 (de) * 2001-10-12 2014-01-09 Hewlett-Packard Development Co., L.P. Verfahren und Anordnung zur Sprachverarbeitung
CN105869652A (zh) * 2015-01-21 2016-08-17 北京大学深圳研究院 心理声学模型计算方法和装置
CN105869652B (zh) * 2015-01-21 2020-02-18 北京大学深圳研究院 心理声学模型计算方法和装置

Also Published As

Publication number Publication date
EP1016072B1 (fr) 2002-01-16
FR2768547B1 (fr) 1999-11-19
DE69803203D1 (de) 2002-02-21
AU9168998A (en) 1999-04-05
FR2768547A1 (fr) 1999-03-19
US6477489B1 (en) 2002-11-05
EP1016072A1 (fr) 2000-07-05
CA2304571A1 (fr) 1999-03-25
DE69803203T2 (de) 2002-08-29

Similar Documents

Publication Publication Date Title
EP1016072B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
EP1789956B1 (fr) Procede de traitement d&#39;un signal sonore bruite et dispositif pour la mise en oeuvre du procede
EP2002428B1 (fr) Procede de discrimination et d&#39;attenuation fiabilisees des echos d&#39;un signal numerique dans un decodeur et dispositif correspondant
EP1830349B1 (fr) Procédé de débruitage d&#39;un signal audio
CA2436318C (fr) Procede et dispositif de reduction de bruit
EP1016071B1 (fr) Procede et dispositif de detection d&#39;activite vocale
FR2907586A1 (fr) Synthese de blocs perdus d&#39;un signal audionumerique,avec correction de periode de pitch.
JP3960834B2 (ja) 音声強調装置及び音声強調方法
EP1016073B1 (fr) Procede et dispositif de debruitage d&#39;un signal de parole numerique
EP0490740A1 (fr) Procédé et dispositif pour l&#39;évaluation de la périodicité et du voisement du signal de parole dans les vocodeurs à très bas débit.
EP1021805B1 (fr) Procede et disposition de conditionnement d&#39;un signal de parole numerique
EP3192073B1 (fr) Discrimination et atténuation de pré-échos dans un signal audionumérique
EP2515300B1 (fr) Procédé et système de réduction du bruit
FR2888704A1 (fr)
EP4287648A1 (fr) Dispositif électronique et procédé de traitement, appareil acoustique et programme d&#39;ordinateur associés
WO2006117453A1 (fr) Procede d’attenuation des pre- et post-echos d’un signal numerique audio et dispositif correspondant
FR2799601A1 (fr) Dispositif et procede d&#39;annulation de bruit

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AL AM AT AU AZ BA BB BG BR BY CA CH CN CU CZ DE DK EE ES FI GB GE GH GM HR HU ID IL IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MD MG MK MN MW MX NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT UA UG US UZ VN YU ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW SD SZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2304571

Country of ref document: CA

Ref country code: CA

Ref document number: 2304571

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 1998943999

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: KR

WWE Wipo information: entry into national phase

Ref document number: 09509145

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1998943999

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWG Wipo information: grant in national office

Ref document number: 1998943999

Country of ref document: EP