EP1429316B1 - Procédé et système de correction multi-références des déformations spectrales de la voix introduites par un réseau de communication - Google Patents

Procédé et système de correction multi-références des déformations spectrales de la voix introduites par un réseau de communication Download PDF

Info

Publication number
EP1429316B1
EP1429316B1 EP03027552A EP03027552A EP1429316B1 EP 1429316 B1 EP1429316 B1 EP 1429316B1 EP 03027552 A EP03027552 A EP 03027552A EP 03027552 A EP03027552 A EP 03027552A EP 1429316 B1 EP1429316 B1 EP 1429316B1
Authority
EP
European Patent Office
Prior art keywords
speaker
voice
class
spectrum
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP03027552A
Other languages
German (de)
English (en)
Other versions
EP1429316A1 (fr
Inventor
Gael Mahe
André Gilloire
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1429316A1 publication Critical patent/EP1429316A1/fr
Application granted granted Critical
Publication of EP1429316B1 publication Critical patent/EP1429316B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Definitions

  • the invention relates to a method of multi-correction references of the spectral deformations of the voice introduced by a communication network. She also concerns a system for the implementation of the process.
  • the present invention aims to improve the quality of the speech transmitted on the networks of communication, offering ways to correct spectral deformations of the speech signal, deformations caused by different links in the transmission chain of the network.
  • Figure 1 shows a diagram of a PSTN link.
  • the speech uttered by a speaker is transmitted by a transmitting terminal 10, carried by the subscriber line 20, undergoes an analog-digital conversion (law A), is transmitted by the digital network 40, undergoes a digital conversion (A-law) - analog 50, is transmitted by the subscriber line 60, passes through the receiving terminal 70 to finally be received by the recipient.
  • law A analog-digital conversion
  • A-law digital conversion
  • A-law digital conversion
  • Each speaker is connected by an analog line (twisted pair) to the most close. This is an analog transmission in reference band 1 and 3 in Figure 1.
  • the link between exchanges borrows a network fully digital 40.
  • the spectrum of the voice is affected by two types of distortions when analog signal transmission in baseband.
  • the first type of distortion is filtering bandpass terminals and access points to the digital part of the network. Characteristics typical of this filtering are described by ITU-T under the name of "intermediate reference system” (SRI) [ITU-T, Recommendation P.48, 1988]. These frequency characteristics, from measurements achieved in the 1970s, however, tend to become obsolete. This is why ITU-T advocates since 1996 to use a "modified” SRI [ITU-T, Recommendation P.830, 1996], whose characteristic nominal is shown in Figure 2 for the part emission, and in Figure 3 for the reception part.
  • SRI intermediate reference system
  • the tolerance is ⁇ 2.5 dB; in below 200 Hz, the decay of the characteristic of the overall system must be at least 15 dB per octave.
  • the second distortion affecting the spectrum of the voice is the attenuation of the subscriber lines.
  • a simple model of the local analog line [given in a CNET Technical Note NT / LAA / ELR / 289 by Cadoret, 1983], it is considered that this introduces a weakening of the signal whose dB value depends on its length and is proportional to the square root of the frequency.
  • the attenuation is 3 dB at 800 Hz for a medium line (about 2 km), from 9.5 dB at 800 Hz for the longest lines (up to 10 km).
  • the anti-aliasing filtering the MIC encoder (ref. 30). It is typically a 200-3400 Hz bandpass filter with a almost flat response on the bandwidth and a high attenuation outside the band, according to the Figure 5 template for example [National Semiconductor, August 1994: Technical Documentation "TP3054, TP3057].
  • the voice undergoes spectral distortion as shown in Figure 6 for different combinations of three types of line analogue transmission and reception (ie 6 distortions), under the assumption of equipment respecting the nominal characteristic of the modified SRI.
  • the voice appear so smothered if one of the analog lines is long and suffers in all cases from a lack of "presence" due to the weakening of the low components frequency.
  • ITU-T In the ISDN and the GSM network, the signal is scanned from the terminal.
  • the only parts analogic are the transducers in emission and in reception associated with their amplification channels and respective packaging.
  • ITU-T has defined emission efficiency masks shown in Figure 7, and at the reception represented in Figure 8, valid both for the wired digital telephones [ITU-T, Recommendation P.310, May 2000] and mobile digital terminals or Wireless [ITU-T, Recommendation P.313, September 1999].
  • the effect of these filtering on the stamp is mainly a weakening of the low components frequency, less marked however than in the case of the RTC.
  • the invention relates to the correction of these spectral distortions by centralized processing, that is to say a device installed in the part digital network, as shown in Figure 10 for the RTC.
  • the goal of a correction of the tone of the voice is that the tone of the voice in reception is the most possible close to that of the voice emitted by the speaker, which will be called original voice.
  • equalization-based devices Compensation for spectral distortions introduced into the speech signal by the various elements of the telephone link is permitted at this day by equalization-based devices. This one can be fixed or adapt according to the conditions of transmission.
  • the device described in US Patent 5915235 aims to correct the answer non-ideal frequency of a telephone transducer mobile.
  • the equalizer is described as being placed between the analog-to-digital converter and the encoder CELP, but can be as well in the terminal as in the network.
  • the principle of equalization is bring the spectrum of the received signal closer to a spectrum ideal. Two methods are proposed.
  • the signal is filtered by a fixed filter which prints the ideal long-term spectral characteristics, ie those which it would have at the output of a transducer having the ideal frequency response.
  • These two filters are supplemented by a multiplicative gain equal to the ratio between the long-term energies of the bleacher input and the output of the second filter.
  • the second method illustrated by Figure 5 of aforementioned patent of De Jaco, consists in dividing the signal in sub-bands, and for each sub-band apply a multiplicative gain so as to achieve a target energy, this gain being defined as the ratio between the target energy of the subband and the energy to long term (obtained by smoothing the energy instantaneous) of the signal in this subband.
  • the device of US Patent 5905969 is intended to compensate for system filtering program and the subscriber line to improve centralized recognition of speech and / or quality of speech transmitted.
  • the spectrum of the signal is divided into 24 subbands, and each subband energy is multiplied by an adaptive gain.
  • the adaptation of the gain is performed according to the gradient algorithm stochastic, by minimizing the quadratic error, the error being defined as the difference between subband energy and reference energy defined for each sub-band.
  • Reference energy is modulated at each frame by the energy of the frame current, in order to respect the variations natural short-term level of the speech signal.
  • the convergence of the algorithm makes it possible to obtain in output the 24 equalized subband signals.
  • the equalized speech signal is obtained by Fourier transform inverse energies of subband equalized.
  • Mokbel's patent does not mention results in terms of improving speech quality, and recognizes that the method is suboptimal, in that that she performs a circular convolution. By Moreover, it is doubtful whether a speech signal be rebuilt correctly by transform of Fourier inverse distributed band energies according to the MEL scale. Finally, the device described does not correct not the reception system filtering and the line receiving analogue.
  • the compensation of the line effect is achieved in the "Mokbel” method, cepstral subtraction, in order to improve the robustness of the speech recognition. It is shown that the cepstrum of the transmission channel can be estimated by the average cepstrum of the received signal, the latter being previously bleached by a pre-emphasis filter. This method allows a clear improvement in performance of the recognition systems but is as an off-line method, with 2 to 4 s being necessary to estimate the mean cepstrum.
  • a fixed filter compensates for distortions of an average telephone link, defined as consisting of two medium subscriber lines and transmission and reception systems respecting nominal frequency responses defined in [ITU-T, Recommendation P.48, App.I, 1988]. His answer frequency, on the band [Fc-3150 Hz], is the opposite of the overall response of the analog part of this average link, Fc being the low limit frequency EQ.
  • This pre-equalization is completed by a suitable equalizer, which adapts the correction more precisely to the actual transmission conditions.
  • the long-term spectrum is defined as the time average of the short-term spectra of the successive signal frames; ⁇ ref (f) , called the reference spectrum, is the average spectrum of speech defined by the ITU [ITU-T / P.50 / App. I, 1998], taken as an approximation of the original long-term spectrum of the speaker. Because of this approximation, the frequency response of the adapted equalizer is very irregular and only its general form is relevant. This is why it must be smoothed.
  • the adapted equalizer being realized in the form of a temporal filter RIF, this smoothing in the frequency domain is obtained by a narrow (symmetrical) windowing of the impulse response.
  • the aim of the invention is to remedy disadvantages of the state of the art. It has for object a process and a system to improve the patch correction by reducing the error approximation of the original long-term spectrum of speakers.
  • the spectrum of reference on the equalization frequency band [F1-F2], associated with each class is calculated by Fourier transform of the center of the defined class by his partial fear.
  • the method further comprises a step of pre-equalizing the digital signal by a fixed filter having a frequency response in the frequency band [F1-F2], corresponding to the inverse of a reference spectral deformation introduced by the telephone connection.
  • the module [EQ] restricted to the band F1-F2 is then calculated by discrete Fourier Transform of C p EQ .
  • the first processing block comprises a subset for calculating the coefficients of the partial cepstrum of a communicating speaker and a second subset for operating the ranking of this speaker, this second subset comprising a block for calculating the pitch F 0 , a block for estimating the average pitch from the calculated pitch F 0 , and a classification block applying a discriminant function on the vector x having for its components the mean pitch and the coefficients of the partial cepstrum for classifying said speaker.
  • the system further comprises a pre-equalizer, the signal equalized from spectra differentiated according to speaker class being the x output signal of the pre-equalizer.
  • a series of treatments makes it possible to treat speech signal (upon detection of an activity voice by the system) of each speaker for a to classify the speakers, ie to assign them to a class according to predetermined criteria and for on the other hand correct the voice using the reference of the class of the speaker.
  • the reference spectrum is an approximation of the original long-term spectrum of speakers, the definition of classes of speakers and their respective reference spectra requires to have of a body of speakers registered in undegraded conditions.
  • the spectrum to long-term speaker measured on this record must be considered as its original spectrum, i.e that of his voice at the transmitting end of a telephone link.
  • the proposed treatment makes it possible each class, a reference spectrum closest possible long-term spectrum of each member of the classroom. However, only the part of the spectrum included in the equalization band F1-F2 is taken into account in the appropriate equalization process.
  • the classes are therefore constituted according to the long-term spectrum restricted to this band.
  • the comparison between two spectra is performed at a low level of resolution spectral, so as to reflect only the envelope spectral. That's why we prefer, in the space of the first cepstral coefficients of order greater than 0 (the order coefficient 0 representing energy), the choice of the number of coefficients depending on the spectral resolution desired.
  • the "long-term partial cepstrum”, which is noted as Cp, is thus determined in the treatment as the cepstral representation of the long-term spectrum restricted to a frequency band. If we denote by k1 and k2 the frequency indices respectively corresponding to the frequencies F1 and F2, and ⁇ the long-term spectrum of speech, the partial cepstrum is defined by the relation: where ° denotes the concatenation operation.
  • the (DFT) Inverted Discrete Fourier Transform is calculated for example by IFFT after interpolation samples of the truncated spectrum so as to reach a number of power samples of 2.
  • the interpolation is done simply by inserting a frequency line (interpolated linearly) all three lines in the spectrum restricted to 187-3187 Hz.
  • Classes are constituted for example so unsupervised, according to a hierarchical classification upward.
  • This consists of creating, from N individuals disjointed, a hierarchy of partitions according to the following process: at each step, the two closest elements, one element being either a non-aggregated individual, an aggregate of individuals constituted during a previous step. Proximity between two elements is determined by a measure of dissimilarity which is called distance. The process continues until the aggregation of the whole population.
  • the partition hierarchy thus created can be represented in the form of a tree like that of Figure 12, containing N-1 partitions nested. Each cut of the tree provides a partition, all the more thin that we cut low.
  • the intra-class variation of inertia resulting from their aggregation.
  • a partition is indeed all the better that the created classes are homogeneous, that is to say that the intra-class inertia is low.
  • the intra-class inertia is defined by:
  • Intra-class inertia zero at the initial stage of the calculation algorithm, inevitably increases each aggregation.
  • the score thus obtained is improved by a aggregation procedure around mobile centers, which reduces intra-class variance.
  • the reference spectrum, on the F1-F2 band, associated with each class is calculated by transforming Fourier from the center of the class.
  • the treatment described above is applied to a corpus of 63 speakers.
  • the classification tree of the corpus is shown in Figure 12.
  • the height of a horizontal segment aggregating two elements is chosen proportional to their distance, which allows to visualize the proximity elements grouped in the same class.
  • This representation makes it easy to choose the cutoff level of the tree, and thus classes retained. The cut must be done over level aggregations low, which bring together close individuals, and below high level aggregations, which associate groups of distinct individuals.
  • the treatment involves the use of parameters and criteria for assigning a speaker to one or the other classes.
  • the previously defined classes are homogeneous point of view of sex.
  • the average pitch being both discriminating enough for a male / female ranking and insensitive to the spectral distortions induced by telephone link, so it's used as ranking parameter, together with the cepstrum part.
  • each answer frequency is a path from left to right in the lattice.
  • the amplitude of their variations on this band does not exceed 20 dB, as extremal characteristics of emission systems and lines.
  • (a k ) 1 ⁇ k ⁇ K-1 be the family of discriminating linear functions defined from the training corpus.
  • a speaker represented by the vector x [ F 0 ; C p (1); ...; C p ( L )] is assigned to the class q if the conditional probability of q knowing a (x), denoted by P (q
  • at ( x )) P ( at ( x )
  • a (x)) is proportional to P (a (x)
  • Sq is the covariances matrix of a within the class q, with a qeneric element ⁇ q jk that can be estimated by:
  • the individual x will be assigned to the class q which maximizes fq (x) P (q), which amounts to minimizing on q the function sq (x) called discriminant score:
  • the proposed correction method is implemented by the correction system (equalizer) implemented in the digital network 40 as illustrated in FIG.
  • Figure 16 illustrates the suitable correction system to implement the method.
  • Figure 17 illustrates this system according to an alternative embodiment as it goes to be detailed in the following. These variants concern how to calculate the frequency response module of the adapted equalizer restricted to the F1-F2 band.
  • the pre-equalizer 200 is a fixed filter, whose Frequency response, on the F1-F2 band, is the inverse of the overall response of the analog part an average link as defined previously [ITU-T / P.830, 1996].
  • the stiffness of the frequency response of this filter involves a long impulse response; it is why, so as to limit the delay introduced by treatment, the pre-equalizer is typically performed in the form of an RII filter, order 20 for example.
  • Figure 15 shows the frequency responses Typical pre-equalizer for three values of F1.
  • the dispersion of group delays is less than 2 ms, so that the resulting phase distortion is not noticeable.
  • Block 400A allows calculate the module of the frequency response of the equalizer filter restricted to the equalizer band: EQ dB [F1-F2].
  • the second block 400B makes it possible to calculate the answer impulse of the equalizer filter in order to get the differentiated filter coefficients eq (n) according to the class of the speaker.
  • a 401 voice activity frame detector allows to trigger the different treatments.
  • Processing block 410 allows classification of the speaker.
  • the processing block 420 makes it possible to calculate the long-term spectrum followed by cepstrum calculation partial of this speaker.
  • the output of these two blocks is applied on the operator 428a or 428b.
  • the exit of this operator provides the module of the frequency response of the equalizer adapted in dB restricted to the band equalization F1-F2 via block 429 for 428a, via the block 440 for 428b.
  • Processing blocks 430 to 435 make it possible to calculate the coefficients eq (n) of the filter.
  • the output x (n) of the pre-equalizer is analyzed by successive frames of a typical duration of 32 ms, with an inter-frame overlap of typically 50%. We opens for this an analysis window represented by blocks 402 and 403.
  • the adapted equalization operation is implemented by a RIF 300 filter whose coefficients are calculated at each voice activity frame by the string treatment shown in Figures 16 and 17.
  • each speech activity frame there is a new vector x components of the average pitch and the coefficients 1 to L of the partial cepstrum, in which the discriminant function is applied is defined from the training corpus. This processing is implemented by block 413.
  • the speaker is then assigned to the minimum discriminant score class q.
  • dB [F1-F2], is calculated in one of two ways:
  • the first method ( Figure 16) is to calculate
  • the second method ( Figure 17) is to transcribe the equation (0.3) in the field of the partial cepstre, since we have the partial cepstre of the output x of the pre-equalizer, necessary for the classification of the speaker.
  • the partial cepstres are calculated as indicated previously, by selecting the frequency band F1-F2. This calculation is carried out only for the coefficients 1 to 20, the following coefficients being useless because representative of a spectral fin
  • the 20 coefficients of the partial cepstre of the adapted equalizer are obtained by the operators 414b and 428b according to the relationship (0.13).
  • the processing block 441 supplements these coefficients by zeros, symmetrizes them and calculates, from the vector thus formed, the modulus in dB of the frequency response of the adapted equalizer restricted to the band F1-F2 by implementing the following relation: EQ dB
  • F 1 - F 2 TFD -1 ( VS p eq ).
  • out of the F1-F2 band are calculated by linear extrapolation of the value in dB of
  • the coefficients a1 and a2 are chosen so as to minimize the quadratic error of the approximation over the interval F1-F2 defined by
  • the frequency characteristic thus obtained must to be smoothed. Filtering being done in the field temporal, the means allowing this smoothing is multiply by a narrow window the answer corresponding impulse.
  • the impulse response is obtained by a IFFT operation applied to
  • the answer resulting impulse is multiplied, operator 435, by a time window 434.
  • the window used is typically a Hamming window of length 31 centered on the peak of the answer impulse and is applied on the answer impulse by means of the operator 435.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

L'invention concerne un procédé de correction multi références des déformations spectrales de la voix introduites par un réseau de communication. Elle concerne également un système pour la mise en oeuvre du procédé.
La présente invention a pour but l'amélioration de la qualité de la parole transmise sur les réseaux de communication, en offrant des moyens pour corriger les déformations spectrales du signal de parole, déformations provoquées par différents maillons de la chaíne de transmission du réseau.
La description qui en est donnée dans la suite fait explicitement référence à la transmission de la parole sur lignes téléphoniques "classiques" (c'est-à-dire filaires), mais elle s'applique également à tout type de réseau de communication (fixe, mobile ou autre) introduisant des déformations spectrales dans le signal, les paramètres pris comme référence pour qualifier le réseau devant être modifiés en fonction du réseau.
On va rappeler dans ce qui suit les différentes déformations rencontrées dans le cas du Réseau Téléphonique Commuté (RTC).
1.1. Les dégradations du timbre de la voix sur le Réseau RTC :
La figure 1 représente un schéma d'une liaison RTC. La parole émise par un locuteur est transmise par un terminal émetteur 10, transportée par la ligne d'abonné 20, subit une conversion 30 analogique-numérique (loi A), est transmise par le réseau numérique 40, subit une conversion numérique (loi A)- analogique 50, est transmise par la liaison d'abonné 60, passe par le terminal récepteur 70 pour être enfin reçue par le destinataire.
Chaque locuteur est relié par une ligne analogique (paire torsadée) au central téléphonique le plus proche. Il s'agit d'une transmission analogique en bande de base référence 1 et 3 sur la figure 1. La liaison entre les centraux, emprunte un réseau entièrement numérique 40. Le spectre de la voix est affecté par deux types de distorsions lors de la transmission analogique du signal en bande de base.
Le premier type de distorsion est le filtrage passe-bande des terminaux et des points d'accès à la partie numérique du réseau. Les caractéristiques typiques de ce filtrage sont décrites par l'UIT-T sous le nom de "système de référence intermédiaire" (SRI) [UIT-T, Recommandation P.48, 1988]. Ces caractéristiques fréquentielles, issues de mesures réalisées dans les années 70, tendent cependant à devenir obsolètes. C'est pourquoi l'UIT-T préconise depuis 1996 d'utiliser un SRI "modifié" [UIT-T, Recommandation P.830, 1996], dont la caractéristique nominale est représentée sur la figure 2 pour la partie émission, et sur la figure 3 pour la partie réception. Entre 200 et 3400 Hz, la tolérance est de ± 2,5 dB ; en dessous de 200 Hz, la décroissance de la caractéristique du système global doit être d'au moins 15 dB par octave. On appelle respectivement, selon la terminologie de l'UIT-T, "système émetteur" et "système récepteur" les parties émission et réception du SRI.
La seconde distorsion affectant le spectre de la voix est l'atténuation des lignes d'abonné. Dans un modèle simple de la ligne analogique locale [donné dans une Note Technique CNET NT/LAA/ELR/289 par Cadoret, 1983], on considère que celle-ci introduit un affaiblissement du signal dont la valeur en dB dépend de sa longueur et est proportionnelle à la racine carrée de la fréquence. L'affaiblissement est de 3 dB à 800 Hz pour une ligne moyenne (environ 2 km), de 9,5 dB à 800 Hz pour les lignes les plus longues (jusqu'à 10 km). Selon ce modèle, l'affaiblissement d'une ligne, représenté sur la figure 4, a pour expression : AdB (f) = AdB (800Hz). f 800
A ces distorsions s'ajoute le filtrage anti-repliement du codeur MIC (réf 30). Celui-ci est typiquement un filtre passe-bande 200-3400 Hz avec une réponse presque plate sur la bande passante et une forte atténuation en dehors de la bande, selon le gabarit de la figure 5 par exemple [National Semiconductor, août 1994 : Documentation technique « TP3054 ,TP3057 ].
Au final, la voix subit une distorsion spectrale telle que représentée sur la figure 6 pour les différentes combinaisons de trois types de ligne analogique en émission et en réception (soit 6 distorsions), sous l'hypothèse d'équipements respectant la caractéristique nominale du SRI modifié. La voix apparaít ainsi étouffée si une des lignes analogiques est longue et souffre dans tous les cas d'un manque de "présence" dû à l'affaiblissement des composantes basse fréquence.
1.2. Les dégradations du timbre de la voix sur le Réseau Numérique à Intégration de Services (RNIS) et le réseau mobile GSM.
Dans le RNIS et le réseau GSM, le signal est numérisé dès le terminal. Les seules parties analogiques sont les transducteurs en émission et en réception associés à leurs chaínes d'amplification et de conditionnement respectives. L'UIT-T a défini des gabarits d'efficacité en fréquence à l'émission représentés sur la figure 7, et à la réception représenté sur la figure 8, valables à la fois pour les téléphones numériques filaires [UIT-T, Recommandation P.310, mai 2000] et les terminaux numériques mobiles ou sans fil [UIT-T, Recommandation P.313, septembre 1999].
Par ailleurs, pour les réseaux GSM, il est reconnu que le codage et le décodage modifient légèrement l'enveloppe spectrale du signal. Cette altération est représentée sur la figure 9 pour un bruit rose codé puis décodé en mode EFR (Enhanced Full Rate).
L'effet de ces filtrages sur le timbre est principalement un affaiblissement des composantes basse fréquence, moins marqué cependant que dans le cas du RTC.
L'invention concerne la correction de ces distorsions spectrales par un traitement centralisé, c'est-à-dire un dispositif installé dans la partie numérique du réseau, comme indiqué sur la figure 10 pour le RTC.
L'objectif d'une correction du timbre de la voix est que le timbre de la voix en réception soit le plus proche possible de celui de la voix émise par le locuteur, que l'on appellera voix originale.
2. État de la technique
Une compensation des distorsions spectrales introduites dans le signal de parole par les divers éléments de la liaison téléphonique est permise à ce jour par des dispositifs à base d'égalisation. Celle-ci peut être fixe ou s'adapter en fonction des conditions de transmission.
2.1 L'égalisation fixe
Des dispositifs d'égalisation centralisée ont été proposés dans les brevets US 5333195 [Duane O. Bowker] et US 5471527 [Helena S. Ho]. Ces égaliseurs sont des filtres fixes qui restaurent le niveau des basses fréquences atténuées par l'émetteur. Bowker propose par exemple un gain de 10 à 15 dB sur la bande 100-300 Hz. Ces méthodes présentent deux inconvénients :
  • L'égaliseur ne compense que le filtrage de l'émetteur, de sorte qu'à la réception, les composantes basse-fréquence restent fortement affaiblies par le filtrage SRI de réception.
  • Cette égalisation fixe compense des conditions de transmission (ligne et système d'émission) moyennes. Si les conditions réelles sont trop différentes (par exemple si les lignes analogiques sont longues) le dispositif ne corrige pas suffisamment le timbre, voire l'altère plus que la liaison sans égalisation.
2.2 L'égalisation adaptative.
Le dispositif décrit dans le brevet US 5915235 [Andrew P De Jaco] vise à corriger la réponse fréquentielle non idéale d'un transducteur de téléphone mobile. L'égaliseur est décrit comme étant placé entre le convertisseur analogique-numérique et le codeur CELP, mais peut être aussi bien dans le terminal que dans le réseau. Le principe de l'égalisation est de rapprocher le spectre du signal reçu d'un spectre idéal. Deux méthodes sont proposées.
La première méthode (illustrée par la figure 4 du brevet précité de De Jaco), consiste à calculer des coefficients d'autocorrélation à long terme RLT : RLT(n,i) = α RLT(n-1,i) + (1-α)R(n,i), avec RLT(n,i) iième coefficient d'autocorrélation à long terme à la nième trame, R(n,i) iième coefficient d'autocorrélation spécifique à la nième trame, et α constante de lissage fixée par exemple à 0,995. De ces coefficients sont dérivés les coefficients LPC à long terme, qui sont les coefficients d'un filtre blanchisseur. À la sortie de ce filtre, le signal est filtré par un filtre fixe qui lui imprime les caractéristiques spectrales à long terme idéales, ie celles qu'il aurait à la sortie d'un transducteur ayant la réponse fréquentielle idéale. Ces deux filtres sont complétés par un gain multiplicatif égal au rapport entre les énergies à long terme de l'entrée du blanchisseur et de la sortie du deuxième filtre.
La deuxième méthode, illustrée par la figure 5 du brevet précité de De Jaco, consiste à diviser le signal en sous-bandes, et, pour chaque sous-bande, appliquer un gain multiplicatif de manière à atteindre une énergie cible, ce gain étant défini comme le rapport entre l'énergie cible de la sous-bande et l'énergie à long terme (obtenue par un lissage de l'énergie instantanée) du signal dans cette sous-bande.
Ces deux méthodes présentent l'inconvénient de ne corriger que la réponse non idéale du système d'émission, et pas celle du système de réception.
Le dispositif du brevet US 5905969 [Chafik Mokbel] a pour objet de compenser le filtrage du système d'émission et de la ligne d'abonné pour améliorer la reconnaissance centralisée de la parole et/ou la qualité de la parole transmise. Comme le présente la figure 3a de Mokbel, le spectre du signal est divisé en 24 sous-bandes, et chaque énergie de sous-bande est multipliée par un gain adaptatif. L'adaptation du gain est réalisée selon l'algorithme du gradient stochastique, par minimisation de l'erreur quadratique, l'erreur étant définie comme la différence entre l'énergie de sous-bande et une énergie de référence définie pour chaque sous-bande. L'énergie de référence est modulée à chaque trame par l'énergie de la trame courante, de manière à respecter les variations naturelles de niveau à court terme du signal de parole. La convergence de l'algorithme permet d'obtenir en sortie les 24 signaux de sous-bande égalisés.
Si l'application visée est l'amélioration de la qualité vocale, le signal de parole égalisé est obtenu par transformée de Fourier inverse des énergies de sous-bande égalisées.
Le brevet de Mokbel, ne mentionne pas de résultats en termes d'amélioration de la qualité vocale, et reconnaít que la méthode est sous-optimale, en ce qu'elle réalise une convolution circulaire. Par ailleurs, il est douteux qu'un signal de parole puisse être reconstruit correctement par transformée de Fourier inverse d'énergies de bandes distribuées selon l'échelle MEL. Enfin, le dispositif décrit ne corrige pas le filtrage du système de réception et de la ligne analogique de réception.
La compensation de l'effet de ligne est réalisée dans la méthode « Mokbel », de soustraction cepstrale, dans le but d'améliorer la robustesse de la reconnaissance de la parole. On montre que le cepstre du canal de transmission peut être estimé par le cepstre moyen du signal reçu, celui-ci étant préalablement blanchi par un filtre de préaccentuation. Cette méthode permet une nette amélioration des performances des systèmes de reconnaissance, mais est considérée comme une méthode "off-line", 2 à 4 s étant nécessaires pour estimer le cepstre moyen.
2.3 Un autre état de la technique combine une pré-égalisation fixe et une égalisation adaptée et a fait l'objet du dépôt d'une demande de brevet FR 2822999 par le Déposant. Le dispositif décrit vise à corriger le timbre de la parole en combinant deux filtres.
Un filtre fixe, appelé pré-égaliseur, compense les distorsions d'une liaison téléphonique moyenne, définie comme étant constituée de deux lignes d'abonné moyennes et de systèmes d'émission et de réception respectant les réponses fréquentielles nominales définies dans [UIT-T, Recommandation P.48,App.I,1988]. Sa réponse fréquentielle, sur la bande [Fc-3150 Hz], est l'inverse de la réponse globale .de la partie analogique de cette liaison moyenne, Fc étant la fréquence basse limite d'égalisation.
Cette pré-égalisation est complétée par un égaliseur adapté, qui adapte la correction de manière plus précise aux conditions réelles de transmission. La réponse fréquentielle de l'égaliseur adapté est donnée par : EQ(f) = 1 S_RX(f).L_RX(f) γref(f)γ x (f) ,    avec L_RX la réponse fréquentielle de la ligne de réception, S_RX la réponse fréquentielle du système de réception et γx(f) le spectre à long terme de la sortie x du pré-égaliseur.
Le spectre à long terme est défini comme la moyenne temporelle des spectres à court terme des trames successives de signal ; γref(f), appelé spectre de référence, est le spectre moyen de la parole défini par l'UIT [UIT-T/P.50/App. I, 1998], pris comme approximation du spectre à long terme original du locuteur. Du fait de cette approximation, la réponse fréquentielle de l'égaliseur adapté est très irrégulière et seule sa forme générale est pertinente. C'est pourquoi elle doit être lissée. L'égaliseur adapté étant réalisé sous la forme d'un filtre temporel RIF, ce lissage dans le domaine fréquentiel est obtenu par un étroit fenêtrage (symétrique) de la réponse impulsionnelle.
Cette méthode permet de restaurer un timbre proche de celui du signal original sur la bande d'égalisation [Fc-3150 Hz], mais :
  • pour certains locuteurs, l'approximation de leur spectre à long terme original par le spectre de référence est très grossière, de sorte que l'égaliseur introduit une distorsion perceptible ;
  • le fort lissage de la réponse fréquentielle de l'égaliseur, rendu nécessaire par l'erreur d'approximation, interdit de corriger des distorsions spectrales fines.
L'invention a pour but de remédier aux inconvénients de l'état de la technique. Elle a pour objet un procédé et un système pour améliorer la correction du timbre en réduisant l'erreur d'approximation du spectre à long terme original des locuteurs.
A cet effet, il est proposé de classer les locuteurs selon leur spectre à long terme et d'approcher celui-ci non plus par un spectre de référence unique mais par un spectre de référence par classe. Le procédé proposé permet de réaliser un traitement d'égalisation apte à déterminer la classe du locuteur et à égaliser suivant le spectre de référence de la classe. Cette réduction de l'erreur d'approximation permet de lisser moins fortement la réponse fréquentielle de l'égaliseur adapté, le rendant apte à corriger des distorsions spectrales plus fines.
La présente invention a plus particulièrement pour objet un procédé de correction des déformations spectrales de la voix, introduites par un réseau de communication, comprenant une opération d'égalisation sur une bande de fréquence [F1-F2], adaptée à la distorsion réelle de la chaíne de transmission, cette opération étant réalisée au moyen d'un filtre numérique ayant une réponse fréquentielle fonction du rapport entre un spectre de référence et un spectre correspondant au spectre à long terme du signal voix des locuteurs, principalement caractérisé en ce qu'il comprend :
  • Préalablement à l'opération d'égalisation du signal voix d'un locuteur en communication :
    • La constitution de classes de locuteurs avec une référence de voix par classe,
  • Puis, pour un locuteur donné en communication :
    • Le classement de ce locuteur c'est-à-dire son affectation à une classe à partir de critères de classement prédéfinis pour lui faire correspondre une référence de voix qui est la plus proche de la sienne,
    • L'égalisation du signal numérisé de la voix du locuteur opérée avec comme spectre de référence, la référence de voix de la classe à laquelle ledit locuteur a été affecté.
Selon une autre caractéristique, la constitution de classes de locuteurs comprend :
  • Le choix d'un corpus de N locuteurs enregistrés dans des conditions non dégradées et la détermination de leur spectre de fréquence à long terme,
  • La classification des locuteurs du corpus selon leur cepstre partiel c'est à dire le cepstre calculé à partir du spectre à long terme restreint à la bande d'égalisation [F1-F2] et en appliquant un critère de classification prédéfini sur ces cepstres pour obtenir K classes,
  • Le calcul du spectre de référence associé à classe de manière à obtenir une référence de voix correspondant à chacune des classes.
Selon une autre caractéristique, le spectre de référence sur la bande de fréquences d'égalisation [F1-F2], associé à chaque classe, est calculé par transformée de Fourier du centre de la classe défini par son cesptre partiel.
Selon une autre caractéristique, la classification d'un locuteur comprend :
  • L'utilisation du pitch moyen du signal voix et du cepstre partiel de ce signal comme paramètres de classement,
  • L'application d'une fonction discriminante à ces paramètres pour classer ledit locuteur.
Selon l'invention le procédé comprend en outre une étape de pré-égalisation du signal numérique par un filtre fixe ayant une réponse fréquentielle dans la bande de fréquence [F1-F2], correspondant à l'inverse d'une déformation spectrale de référence introduite par la liaison téléphonique.
Selon une autre caractéristique, l'égalisation du signal numérisé de la voix d'un locuteur comprend :
  • la détection d'une activité vocale sur la ligne pour déclencher un enchaínement de traitements comprenant le calcul du spectre à long terme, la classification du locuteur, le calcul du module de la réponse fréquentielle du filtre égaliseur restreinte à la bande d'égalisation [F1-F2] et le calcul des coefficients du filtre numérique différenciés selon la classe du locuteur, à partir de ce module,
  • la commande du filtre avec les coefficients obtenus,
  • le filtrage du signal sortant du pré-égaliseur par ledit filtre.
Selon une autre caractéristique, le calcul du module [EQ] de la réponse fréquentielle du filtre égaliseur restreinte à la bande d'égalisation [F1-F2] est réalisé par la mise en oeuvre de la relation suivante : EQ(f)= 1 S_RX(f).L_RX(f) γref(f)γ x (f) ,    dans laquelle γref(f) est le spectre de référence de la classe à laquelle appartient ledit locuteur,
   et dans laquelle L_RX est la réponse fréquentielle de la ligne de réception, S_RX la réponse fréquentielle du système de réception et γx(f) le spectre à long terme du signal x d'entrée du filtre.
Selon une variante, le calcul du module de la réponse fréquentielle du filtre égaliseur restreinte à la bande d'égalisation [F1-F2] est réalisé par la mise en oeuvre de la relation suivante : C p eq = C p ref - C p x - C p s_rx - C p l_rx ,    dans laquelle C p eq , C p x , C p s_rx et C p l_rx sont les cepstres partiels respectifs de l'égaliseur adapté, du signal d'entrée x du filtre égaliseur, du système de réception et de la ligne de réception, Cp ref étant le cepstre partiel de référence, centre de la classe du locuteur. Le module [EQ] restreint à la bande F1-F2 est alors calculé par Transformée de Fourier discrète de Cp EQ.
L'invention a également pour objet un système de correction des déformations spectrales de la voix, introduites par un réseau de communication, comprenant des moyens d'égalisation adaptée dans une bande de fréquence [F1-F2] qui comportent un filtre numérique dont la réponse fréquentielle est fonction du rapport entre un spectre de référence et un spectre correspondant au spectre à long terme d'un signal voix, principalement caractérisé en ce que ces moyens comprennent en outre :
  • des moyens de traitements du signal pour le calcul des coefficients du filtre numérique munis :
    • d'un bloc de traitement du signal pour calculer le module de la réponse fréquentielle du filtre égaliseur restreinte à la bande d'égalisation [F1-F2] selon la relation suivante : EQ(f) = 1 S_RX(f).L_RX(f) γref(f)γ x (f) , dans laquelle γref(f) est le spectre de référence, qui peut être différent d'un locuteur à un autre et qui correspond à une référence de classe prédéterminée à laquelle appartient ledit locuteur, et dans laquelle L_RX est la réponse fréquentielle de la ligne de réception, S_RX la réponse fréquentielle du système de réception et γx(f) le spectre à long terme du signal x d'entrée du filtre;
    • d'un deuxième bloc de traitements pour le calcul de la réponse impulsionnelle à partir du module de réponse fréquentielle ainsi calculé, afin de déterminer les coefficients du filtre différenciés selon la classe du locuteur.
Selon une autre caractéristique, le premier bloc de traitement comprend des moyens de calcul du cepstre partiel du filtre égaliseur selon la relation : C p eq = C p ref - C p x - C p s_rx - C p l_rx ,    dans laquelle C p eq , C p x , C p s_rx et C p l_rx sont les cepstres partiels respectifs de l'égaliseur adapté, du signal d'entrée x du filtre égaliseur, du système de réception et de la ligne de réception, CP ref étant le cepstre partiel de référence, centre de la classe du locuteur, le module de [EQ] restreint à la bande F1-F2 est alors calculé par Transformée de Fourier Discrète de CP eq.
Selon une autre caractéristique, le premier bloc de traitements comprend un sous-ensemble pour calculer les coefficients du cepstre partiel d'un locuteur en communication et un deuxième sous-ensemble pour opérer le classement de ce locuteur, ce deuxième sous-ensemble comprenant un bloc de calcul du pitch F0, un bloc d'estimation du pitch moyen à partir du pitch calculé F0, et un bloc de classement appliquant une fonction discriminante sur le vecteur x ayant pour composantes le pitch moyen et les coefficients du cepstre partiel pour classer ledit locuteur.
Selon l'invention, le système comprend en outre un pré-égaliseur, le signal égalisé à partir de spectres de référence différenciés selon la classe du locuteur étant le signal x de sortie du pré-égaliseur.
D'autres particularités et avantages de l'invention apparaítront clairement dans la description suivante, qui est donnée à titre d'exemple illustratif et non limitatif et qui est faite en regard des figures annexées qui représentent :
  • La figure 1, une liaison téléphonique schématisée pour un réseau téléphonique commuté (RTC),
  • La figure 2, la courbe de réponse fréquentielle en émission du système de référence intermédiaire SRI modifié,
  • La figure 3, la courbe de réponse fréquentielle en réception du système de référence intermédiaire SRI modifié,
  • La figure 4, la réponse en fréquence des lignes d'abonnés selon leur longueur,
  • La figure 5,le gabarit du filtre anti-repliement du codeur MIC,
  • La figure 6, les distorsions spectrales subies par la parole sur le réseau téléphonique commuté avec SRI moyen et différentes combinaisons de lignes analogiques,
  • La figure 7, le gabarit à l'émission pour les terminaux numériques,
  • La figure 8, le gabarit à la réception pour les terminaux numériques,
  • La figure 9, la distorsion spectrale introduite par le codage-décodage GSM en mode EFR (Enhanced Full Rate)
  • La figure 10, le schéma d'un réseau de communication avec un système de correction des distorsions de la parole,
  • La figure 11, les étapes de calcul du cepstre partiel,
  • La figure 12, la classification des cepstres partiels selon le critère de la variance,
  • Les figures 13a et 13b, les spectres à long terme correspondant aux centres des classes de locuteurs respectivement pour hommes et femmes,
  • La figure 14, les caractéristiques fréquentielles des filtrages appliqués au corpus pour définir le corpus d'apprentissage,
  • La figure 15, la réponse fréquentielle du pré-égaliseur pour différentes fréquences Fc,
  • La figure 16, le schéma de réalisation du système de correction par égalisation différenciée par classe de locuteurs,
  • La figure 17, une variante d'exécution du système selon la figure 16.
Dans toute la suite les mêmes références portées sur les dessins correspondent aux mêmes éléments.
La description qui va suivre va d'abord présenter l'étape préalable de classification d'un corpus de locuteurs selon leur spectre à long terme. Cette étape permet de définir K classes et une référence par classe.
Un enchaínement de traitements permet de traiter le signal de parole (dès la détection d'une activité vocale par le système) de chaque locuteur pour d'une part classer les locuteurs c'est à dire les affecter à une classe selon des critères prédéterminés et pour d'autre part corriger la voix en utilisant la référence de la classe du locuteur.
Etape préalable de classification des locuteurs.
* Choix du corpus de définition des classes.
Le spectre de référence étant une approximation du spectre à long terme original des locuteurs, la définition des classes de locuteurs et de leurs spectres de référence respectifs nécessite de disposer d'un corpus de locuteurs enregistrés dans des conditions non dégradées. En particulier, le spectre à long terme d'un locuteur mesuré sur cet enregistrement doit pouvoir être considéré comme son spectre original, i.e. celui de sa voix à l'extrémité d'émission d'une liaison téléphonique.
Définition de l'individu : le cepstre partiel.
Le traitement proposé permet de disposer, dans chaque classe, d'un spectre de référence le plus proche possible du spectre à long terme de chaque membre de la classe. Cependant, seule la partie du spectre comprise dans la bande d'égalisation F1-F2 est prise en compte dans le traitement d'égalisation adaptée. Les classes sont donc constituées selon le spectre à long terme restreint à cette bande.
D'autre part, la comparaison entre deux spectres est effectuée à un faible niveau de résolution spectrale, de manière à ne refléter que l'enveloppe spectrale. C'est pourquoi, on se place de préférence, dans l'espace des premiers coefficients cepstraux d'ordre supérieur à 0 (le coefficient d'ordre 0 représentant l'énergie), le choix du nombre de coefficients dépendant de la résolution spectrale souhaitée.
On détermine donc dans le traitement, le "cepstre partiel à long terme", que l'on note Cp, comme la représentation cepstrale du spectre à long terme restreint à une bande de fréquence. Si l'on note k1 et k2 les indices de fréquence correspondant respectivement aux fréquences F1 et F2, et γ le spectre à long terme de la parole, le cepstre partiel est défini par la relation :
Figure 00180001
   où ° désigne l'opération de concaténation.
La (TFD) Transformée de Fourier Discrète Inverse est calculée par exemple par IFFT après interpolation des échantillons du spectre tronqué de manière à atteindre un nombre d'échantillons puissance de 2. Par exemple, en choisissant la bande d'égalisation 187-3187 Hz, correspondant aux indices fréquentiels 5 à 101 pour une représentation du spectre (symétrisé) sur 256 points (de 0 à 255), l'interpolation se fait simplement en intercalant une raie fréquentielle (interpolée linéairement) toutes les trois raies dans le spectre restreint à 187-3187 Hz.
Les étapes du calcul du cepstre partiel sont représentées sur la figure 11.
Pour que les coefficients cepstraux reflètent l'enveloppe spectrale mais pas l'influence de la structure harmonique du spectre de la parole sur les spectres à long terme, on ne conserve pas les coefficients d'ordre élevé. Les locuteurs à classer sont donc représentés par les coefficients d'ordres 1 à L de leur cepstre partiel à long terme, L valant typiquement 20.
* La Classification.
Les classes sont constituées par exemple de manière non-supervisée, selon une classification hiérarchique ascendante.
Celle-ci consiste à créer, à partir de N individus disjoints, une hiérarchie de partitions selon le processus suivant : à chaque étape, on agrège les deux éléments les plus proches, un élément étant soit un individu non agrégé, soit un agrégat d'individus constitué lors d'une précédente étape. La proximité entre deux éléments est déterminée par une mesure de dissimilarité que l'on appelle distance. Le processus se poursuit jusqu'à l'agrégation de toute la population. La hiérarchie de partitions ainsi créée peut se représenter sous la forme d'un arbre comme celui de la figure 12, contenant N-1 partitions imbriquées. Chaque coupure de l'arbre fournit une partition, d'autant plus fine que l'on coupe bas.
Dans ce type de classification, on choisit comme mesure de distance entre deux éléments, la variation d'inertie intra-classes résultant de leur agrégation. Une partition est en effet d'autant meilleure que les classes créées sont homogènes, c'est-à-dire que l'inertie intra-classes est faible. Dans le cas d'un nuage de points xi de masses respectives mi, répartis en classes q de centres de gravité respectifs gq, l'inertie intra-classes est définie par :
Figure 00190001
L'inertie intra-classes, nulle à l'étape initiale de l'algorithme de calcul, s'accroít inévitablement à chaque agrégation.
On utilise de préférence le principe connu de l'agrégation selon la variance. Selon ce principe on recherche, à chaque étape de l'algorithme mis en oeuvre, les deux éléments dont l'agrégation produit l'augmentation d'inertie intra-classes la plus faible.
La partition ainsi obtenue est améliorée par une procédure d'agrégation autour des centres mobiles, qui permet de réduire la variance intra-classes.
Le spectre de référence, sur la bande F1-F2, associé à chaque classe est calculé par transformée de Fourier du centre de la classe.
* Exemple de classification
Le traitement décrit ci-dessus est appliqué à un corpus de 63 locuteurs. L'arbre de classification du corpus est représenté sur la figure 12. Dans cette représentation, la hauteur d'un segment horizontal agrégeant deux éléments est choisie proportionnelle à leur distance, ce qui permet de visualiser la proximité des éléments regroupés dans une même classe. Cette représentation facilite le choix du niveau de coupure de l'arbre, et donc des classes retenues. La coupure doit être faite au-dessus des agrégations de niveau faible, qui regroupent des individus proches, et en dessous des agrégations de niveau élevé, qui associent des groupes d'individus bien distincts.
De cette manière, on obtient de façon nette quatre classes (K= 4). Ces classes sont assez homogènes du point de vue du sexe des locuteurs, et une coupure de l'arbre en deux classes fait apparaítre à peu près une classe hommes et une classe femmes.
La consolidation de cette partition par une procédure d'agrégation autour des centres mobiles aboutit à quatre classes de cardinaux 11, 18, 18 et 16, plus homogènes que précédemment du point de vue du sexe : seuls un homme et deux femmes sont affectés à des classes ne correspondant par à leur sexe.
Les spectres restreints à la bande 187-3187 Hz correspondant aux centres de ces classes sont représentés sur les figures 13a et 13b pour les classes hommes et femmes ainsi que pour leurs sous-classes respectives. Ces spectres, résultats de la classification, sont utilisés comme référence multiple par l'égaliseur adapté.
* Utilisation de critères de classement des locuteurs.
Les classes de locuteurs étant définies, le traitement prévoit l'utilisation de paramètres et des critères pour affecter un locuteur à l'une ou l'autre des classes.
Cette affectation n'est pas réalisée simplement selon la proximité du cepstre partiel avec un des centres de classes, puisque ce cepstre est dévié par la partie de la liaison téléphonique en amont de l'égaliseur.
Il est proposé avantageusement d'utiliser des critères de classement robustes à cette déviation. Cette robustesse est assurée à la fois par le choix des paramètres de classement et par celui du corpus d'apprentissage des critères de classement.
* De préférence on utilise les paramètres de classement : pitch moyen et cepstre partiel.
Les classes précédemment définies sont homogènes du point de vue du sexe. Le pitch moyen étant à la fois assez discriminant pour un classement homme / femme et insensible aux distorsions spectrales induites par une liaison téléphonique, il est donc utilisé comme paramètre de classement, conjointement avec le cepstre partiel.
* Choix du corpus d'apprentissage des critères de classement.
On applique à ces paramètres une technique de discrimination par exemple la technique usuelle de l'analyse linéaire discriminante.
D'autres techniques connues peuvent être utilisées telles qu'une technique non linéaire utilisant un réseau de neurones.
Si l'on dispose de N individus décrits par des vecteurs de dimension p et répartis a priori en K classes, l'analyse linéaire discriminante consiste :
  • dans un premier temps, à chercher les K-1 fonctions linéaires indépendantes qui séparent au mieux les K classes. Il s'agit de déterminer quelles sont les combinaisons linéaires des p composantes des vecteurs qui minimisent la variance intra-classes et maximisent la variance interclasses.
  • dans un deuxième temps, à déterminer la classe d'un nouvel individu par application des fonctions linéaires discriminantes au vecteur le représentant.
Dans le cas présent, les vecteurs représentatifs des individus ont pour composantes le pitch et les coefficients 1 à L (typiquement, L = 20) du cepstre partiel. La robustesse des fonctions discriminantes à la déviation des coefficients cepstraux est assurée à la fois par la présence du pitch dans les paramètres et par le choix du corpus d'apprentissage. Celui-ci est composé d'individus dont la voix originale a subi une grande diversité de filtrages représentatifs des distorsions occasionnées par les liaisons téléphoniques.
Plus précisément, à partir d'un corpus de voix originales (non dégradées) de N locuteurs, on définit un corpus de N vecteurs de composantes [ F 0 ; C p(1); ...; Cp (L)], avec F 0 le pitch moyen et C p le cepstre partiel. La construction du corpus d'apprentissage desdites fonctions consiste à définir un ensemble de M biais cepstraux qui s'ajouteront chacun à chaque cepstre partiel représentatif d'un locuteur du corpus original, ce qui permet d'obtenir un nouveau corpus de NM individus.
Ces biais dans le domaine du cepstre partiel correspondent à une large gamme de distorsions spectrales sur la bande F1-F2, proches de celles pouvant résulter de la liaison téléphonique.
A titre d'exemple, on propose l'ensemble de réponses fréquentielles représentées sur la figure 14 pour la bande 187-3187 Hz : chaque réponse fréquentielle correspond à un chemin de gauche à droite dans le treillis. L'amplitude de leurs variations sur cette bande n'excède pas 20 dB, à l'instar des caractéristiques extrémales des systèmes d'émission et lignes.
A partir de ces 81 caractéristiques fréquentielles sont calculés les 81 biais correspondants dans le domaine du cepstre partiel, selon le traitement décrit pour la mise en oeuvre de la relation (0.4). Par addition de ces biais au corpus de 63 locuteurs précédemment utilisé, on obtient un corpus d'apprentissage comptant 5103 individus représentatifs de diverses conditions (locuteur, filtrage de la liaison).
Dans le cas de classement par analyse linéaire discriminante :
* Application des critères de classement.
Soit (ak) 1≤k≤K-1 la famille de fonctions linéaires discriminantes définies à partir du corpus d'apprentissage. Un locuteur représenté par le vecteur x = [ F 0 ; C p(1) ; ... ; C p(L)] est affecté à la classe q si la probabilité conditionnelle de q sachant a(x), notée P(q|a(x)), est maximale, a(x) désignant le vecteur de composantes (ak(x))1≤k≤K-1. Selon le théorème de Bayes, P(q|a(x)) = P(a(x)|q)P(q) P(a(x)) .
Par conséquent, P(q|a(x)) est proportionnelle à P (a (x) | q) P (q). Dans le sous-espace engendré par les K-1 fonctions discriminantes, sous l'hypothèse d'une distribution multi-gaussienne des individus dans chaque classe, la densité de probabilité de a(x) à l'intérieur de la classe q a pour expression :
Figure 00240001
   où x q est le centre de la classe q, |Sq| désigne le déterminant de la matrice Sq, et Sq est la matrice des covariances de a à l'intérieur de la classe q, d'élément qénérique σqjk que l'on peut estimer par :
Figure 00240002
L'individu x sera affecté à la classe q qui maximise fq(x)P(q), ce qui revient à minimiser sur q la fonction sq(x) appelée score discriminant :
Figure 00240003
Le procédé de correction proposé est mis en oeuvre par le système de correction (égaliseur) implanté dans le réseau numérique 40 comme l'illustre la figure 10.
La figure 16 illustre le système de correction apte à mettre en oeuvre le procédé. La figure 17 illustre ce système selon une variante de réalisation comme cela va être détaillé dans la suite. Ces variantes portent sur le mode de calcul du module de la réponse fréquentielle de l'égaliseur adapté restreinte à la bande F1-F2.
Le pré-égaliseur 200 est un filtre fixe, dont la réponse fréquentielle, sur la bande F1-F2, est l'inverse de la réponse globale de la partie analogique d'une liaison moyenne telle que définie précédemment [UIT-T/P.830, 1996].
La raideur de la réponse fréquentielle de ce filtre implique une réponse impulsionnelle longue ; c'est pourquoi, de manière à limiter le retard introduit par le traitement, le pré-égaliseur est réalisé typiquement sous forme d'un filtre RII, d'ordre 20 par exemple.
La figure 15 représente les réponses fréquentielles typiques du pré-égaliseur pour trois valeurs de F1. La dispersion des retards de groupe est inférieure à 2 ms, de sorte que la distorsion de phase résultante n'est pas perceptible.
La chaíne de traitement 400 qui suit permet le classement du locuteur et l'égalisation adaptée différenciée. Cette chaíne comprend deux blocs de traitements 400A et 400B. Le bloc 400A permet de calculer le module de la réponse fréquentielle du filtre égaliseur restreinte à la bande d'égalisation : EQ dB [F1-F2].
Le deuxième bloc 400B permet de calculer la réponse impulsionnelle du filtre égaliseur afin d'obtenir les coefficients eq(n) du filtre différenciés selon la classe du locuteur.
Un détecteur de trames d'activité vocale 401 permet de déclencher les différents traitements.
Le bloc de traitement 410 permet le classement du locuteur.
Le bloc de traitement 420 permet de calculer le spectre à long terme suivi du calcul du cepstre partiel de ce locuteur.
La sortie de ces deux blocs est appliquée sur l'opérateur 428a ou 428b. La sortie de cet opérateur fournit le module de la réponse fréquentielle de l'égaliseur adapté en dB restreinte à la bande d'égalisation F1-F2 via le bloc 429 pour 428a, via le bloc 440 pour 428b.
Les blocs de traitement 430 à 435 permettent de calculer les coefficients eq(n) du filtre.
La sortie x(n) du pré-égaliseur est analysée par trames successives d'une durée typique de 32 ms, avec un recouvrement inter-trames de 50 % typiquement. On ouvre pour cela une fenêtre d'analyse représentée par les blocs 402 et 403.
L'opération d'égalisation adaptée est mise en oeuvre par un filtre RIF 300 dont les coefficients sont calculés à chaque trame d'activité vocale par la chaíne de traitement illustrée sur les figures 16 et 17.
Le calcul de ces coefficients correspond au calcul de la réponse impulsionnelle du filtre à partir du module de la réponse fréquentielle.
Le spectre à long terme de x(n), γx, est d'abord calculé (à partir de l'instant initial de fonctionnement) sur une fenêtre temporelle croissant de 0 à une durée T d'activité vocale (typiquement 4 s), puis ajusté récursivement à chaque trame d'activité vocale, ce qui se traduit par la formule générique suivante : γ x (f,n) = α(n) X(f, n) 2 + (1-α(n))γ x (f,n-1),    où γx (f,n) est le spectre à long terme de x à la nième trame d'activité vocale, X(f,n) la transformée de Fourier de la nième trame d'activité vocale, et α(n) est défini par la relation (0.11). En notant N le nombre de trames dans la durée T, α(n) = 1min(n,N) . Ce calcul est opéré par les blocs 421, 422, 423.
On calcule ensuite, à partir de ce spectre à long terme le cepstre partiel Cp, selon la relation (0.4) mise en oeuvre par les blocs de traitement 424, 425, 426.
Le pitch moyen F 0 est estimé par le bloc de traitement 412 à chaque trame voisée selon la formule : F 0 (m) = α(m)F 0(m) + (1-α(m)) F 0 (m - 1),    où F0(m) est le pitch de la mième trame voisée et est calculé par le bloc 411 selon une méthode appropriée de l'état de l'art (par exemple méthode de l'autocorrélation, avec détermination du voisement par comparaison de l'autocorrélation normalisée à un seuil [UIT-T/G.729, 1996]).
Ainsi, à chaque trame d'activité vocale, on dispose d'un nouveau vecteur x de composantes le pitch moyen et les coefficients 1 à L du cepstre partiel, auquel on applique la fonction discriminante a définie à partir du corpus d'apprentissage. Ce traitement est mis en oeuvre par le bloc 413. Le locuteur est alors affecté à la classe q de score discriminant minimal.
Le module en dB de la réponse fréquentielle de l'égaliseur adapté restreinte à la bande F1-F2, noté |EQ|dB[F1-F2], est calculé selon l'une des deux méthodes suivantes
:La première méthode (figure 16) consiste à calculer |EQ|F1-F2 selon l'équation (0.3), où γref(f) est le spectre de référence de la classe du locuteur (transformée de Fourier du centre de la classe). Cette méthode de calcul est mise en oeuvre dans cette variante représentée sur la figure 16 avec les opérateurs 414a, 428a, 427 et 429.
La deuxième méthode (figure 17) consiste à transcrire l'équation (0.3) dans le domaine du cepstre partiel, puisque l'on dispose du cepstre partiel de la sortie x du pré-égaliseur, nécessaire au classement du locuteur. Ainsi, l'équation (0.3) devient : C p eq = C p ref - C p x - C p s_rx - C p l_rx ,C p eq , C p x , C p s_rx et C p l_rx sont les cepstres partiels respectifs de l'égaliseur adapté, de la sortie x du pré-égaliseur, du système de réception et de la ligne de réception, Cp ref étant le cepstre partiel de référence, centre de la classe du locuteur. Les cepstres partiels sont calculés comme indiqué précédemment, en sélectionnant la bande de fréquences F1-F2. Ce calcul est effectué uniquement pour les coefficients 1 à 20, les coefficients suivants étant inutiles car représentatifs d'une finesse spectrale qui sera éliminée par la suite.
Les 20 coefficients du cepstre partiel de l'égaliseur adapté sont obtenus par les opérateurs 414b et 428b selon la relation (0.13).
Le bloc de traitement 441 complète ces 20 coefficients par des zéros, les symétrise et calcule, à partir du vecteur ainsi formé, le module en dB de la réponse fréquentielle de l'égaliseur adapté restreinte à la bande F1-F2 en mettant en oeuvre la relation suivante : EQdB|F 1-F 2 = TFD-1(C p eq ) .
Cette réponse est décimée d'un facteur ¾ par l'opérateur 442.
Pour les deux variantes qui viennent d'être décrites, les valeurs de |EQ| hors de la bande F1-F2 sont calculées par extrapolation linéaire de la valeur en dB de |EQ| F1-F2, notée EQdB par la suite, par le bloc 430 et de la manière suivante :
Pour chaque indice de fréquence k, l'approximation linéaire de EQdB s'exprime par
Figure 00290001
Les coefficients a1 et a2 sont choisis de manière à minimiser l'erreur quadratique de l'approximation sur l'intervalle F1-F2, définie par
Figure 00290002
Les coefficients a1 et a2 sont donc définis par :
Figure 00290003
Les valeurs de |EQ|, en dB, hors de la bande F1-F2, sont alors calculées à partir de la formule (0.15).
La caractéristique en fréquence ainsi obtenue doit être lissée. Le filtrage étant réalisé dans le domaine temporel, le moyen permettant ce lissage est de multiplier par une fenêtre étroite la réponse impulsionnelle correspondante.
La réponse impulsionnelle est obtenue par une opération IFFT appliquée sur |EQ| réalisée par les blocs 431 et 432 suivie d'une symétrisation réalisée par le bloc de traitement 433, de manière à obtenir un filtre causal à phase linéaire. La réponse impulsionnelle résultante est multipliée, opérateur 435, par une fenêtre temporelle 434. La fenêtre utilisée est typiquement une fenêtre de Hamming de longueur 31 centrée sur le pic de la réponse impulsionnelle et est appliquée sur la réponse impulsionnelle au moyen de l'opérateur 435.

Claims (12)

  1. Procédé de correction des déformations spectrales de la voix, introduites par un réseau de communication, comprenant une opération d'égalisation sur une bande de fréquence [F1-F2], adaptée à la distorsion réelle de la chaíne de transmission, cette opération étant réalisée au moyen d'un filtre numérique ayant une réponse fréquentielle fonction du rapport entre un spectre de référence et un spectre correspondant au spectre à long terme du signal voix des locuteurs, caractérisé en ce qu'il comprend :
    Préalablement à l'opération d'égalisation du signal voix d'un locuteur en communication:
    La constitution de classes de locuteurs avec une référence de voix par classe,
    Puis, pour un locuteur en communication donné :
    Le classement de ce locuteur c'est-à-dire son affectation à une classe à partir de critères de classement prédéfinis pour lui faire correspondre une référence de voix qui est la plus proche de la sienne,
    L'égalisation du signal numérisé de la voix du locuteur opérée avec comme spectre de référence, la référence de voix de la classe à laquelle ledit locuteur a été affecté.
  2. Procédé de correction des déformations spectrales de la voix selon la revendication 1, caractérisé en ce que :
    La constitution de classes de locuteurs comprend :
    Le choix d'un corpus de N locuteurs enregistrés dans des conditions non dégradées et la détermination de leur spectre de fréquence à long terme,
    La classification des locuteurs du corpus selon leur cepstre partiel c'est à dire le cepstre calculé à partir du spectre à long terme restreint à la bande d'égalisation [F1-F2] et en appliquant un critère de classification prédéfini sur ces cepstres pour obtenir K classes,
    Le calcul du spectre de référence associé à chaque classe de manière à obtenir une référence de voix correspondant à chacune des classes.
  3. Procédé de correction des déformations spectrales de la voix selon la revendication 2, caractérisé en ce que le spectre de référence sur la bande de fréquences d'égalisation [F1-F2], associé à chaque classe, est calculé par transformée de Fourier du centre de la classe défini par son cesptre partiel.
  4. Procédé de correction des déformations spectrales de la voix selon la revendication 1, caractérisé en ce que :
    La classification d'un locuteur comprend :
    L'utilisation du pitch moyen du signal voix et du cepstre partiel de ce signal comme paramètres de classement,
    L'application d'une fonction discriminante à ces paramètres pour classer ledit locuteur.
  5. Procédé de correction des déformations spectrales de la voix selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comprend en outre une étape de pré-égalisation du signal numérique par un filtre fixe ayant une réponse fréquentielle dans la bande de fréquence [F1-F2], correspondant à l'inverse d'une déformation spectrale de référence introduite par la liaison téléphonique.
  6. Procédé de correction des déformations spectrales de la voix selon l'une quelconque des revendications précédentes, caractérisé en ce que l'égalisation du signal numérisé de la voix d'un locuteur comprend :
    la détection d'une activité vocale sur la ligne pour déclencher un enchaínement de traitements comprenant le calcul du spectre à long terme, la classification du locuteur, le calcul du module de la réponse fréquentielle du filtre égaliseur restreinte à la bande d'égalisation [F1-F2] et le calcul des coefficients du filtre numérique différenciés selon la classe du locuteur, à partir de ce module,
    la commande du filtre avec les coefficients obtenus,
    le filtrage du signal sortant du pré-égaliseur par ledit filtre.
  7. Procédé de correction des déformations spectrales de la voix selon la revendication 6, caractérisé en ce que le calcul du module de la réponse fréquentielle du filtre égaliseur restreinte à la bande d'égalisation [F1-F2] est réalisé par la mise en oeuvre de la relation suivante : EQ(f) = 1 S_RX(f).L_RX(f) γref(f)γ x (f) ,    dans laquelle γref (f) est le spectre de référence de la classe à laquelle appartient ledit locuteur,
       et dans laquelle L_RX est la réponse fréquentielle de la ligne de réception, S_RX la réponse fréquentielle du système de réception et γx(f) le spectre à long terme du signal x d'entrée du filtre.
  8. Procédé de correction des déformations spectrales de la voix selon la revendication 6, caractérisé en ce que le calcul du module [EQ] de la réponse fréquentielle du filtre égaliseur restreinte à la bande d' égalisation [F1-F2] est réalisé par la mise en oeuvre de la relation suivante : C p eq = C p ref - C p x - C p s_rx - C p l_rx ,    dans laquelle C p eq , C p x , C p s_rx et C p l_rx sont les cepstres partiels respectifs de l'égaliseur adapté, du signal d'entrée x du filtre égaliseur, du système de réception et de la ligne de réception, Cp ref étant le cepstre partiel de référence, centre de la classe du locuteur ; le module [EQ] restreint à la bande F1-F2 étant calculé par Transformée de Fourier Discrète de Cp eq.
  9. Système de correction des déformations spectrales de la voix, introduites par un réseau de communication, comprenant des moyens d'égalisation adaptée dans une bande de fréquence [F1-F2] qui comportent un filtre numérique (300) dont la réponse fréquentielle est fonction du rapport entre un spectre de référence et un spectre correspondant au spectre à long terme d'un signal voix, caractérisé en ce que ces moyens comprennent en outre :
    des moyens de traitement du signal (400) pour le calcul des coefficients du filtre numérique munis :
    d'un premier bloc de traitements (400A) du signal pour calculer le module de la réponse fréquentielle du filtre égaliseur restreinte à la bande d'égalisation [F1-F2] selon la relation suivante EQ(f)= 1 S_RX(f).L_RX(f) γref(f)γ x (f) , dans laquelle γref(f) est le spectre de référence, qui peut être différent d'un locuteur à un autre et qui correspond à une référence de classe prédéterminée à laquelle appartient ledit locuteur, et dans laquelle L_RX est la réponse fréauentielle de la ligne de réception, S_RX la réponse fréquentielle du système de réception et γx(f) le spectre à long terme du signal x d'entrée du filtre;
    d'un deuxième bloc de traitements (400B) pour le calcul de la réponse impulsionnelle à partir du module de réponse fréquentielle ainsi calculé, afin de déterminer les coefficients du filtre différenciés selon la classe du locuteur
  10. Système de correction des déformations spectrales de la voix selon la revendication 9, caractérisé en ce que le premier bloc de traitements (400A) comprend des moyens (414b, 428b) de calcul du cepstre partiel du filtre égaliseur selon la relation : C p eq = C p ref - C p x - C p s_rx - C p l_rx ,    dans laquelle C p eq , C p x , C p s_rx et C p l_rx sont les cepstres partiels respectifs de l'égaliseur adapté, du signal d'entrée x du filtre égaliseur, du système de réception et de la ligne de réception, Cp ref étant le cepstre partiel de référence, centre de la classe du locuteur ; le module [EQ] restreint à la bande F1-F2 étant calculé par Transformée de Fourier Discrète de Cp eq..
  11. Système de correction des déformations spectrales de la voix selon la revendication 9 ou 10, caractérisé en ce que le premier bloc de traitements comprend un sous-ensemble (420) pour calculer les coefficients du cepstre partiel d'un locuteur en communication et un deuxième sous-ensemble (410) pour opérer le classement de ce locuteur, ce deuxième sous ensemble comprenant un bloc (411) de calcul du pitch F0, un bloc (412) d'estimation du pitch moyen à partir du pitch calculé F0, et un bloc (413) de classement appliquant une fonction discriminante sur le vecteur x ayant pour composantes le pitch moyen et les coefficients du cepstre partiel pour classer ledit locuteur.
  12. Système de correction des déformations spectrales de la voix selon l'une quelconque des revendications 9 à 11, caractérisé en ce qu'il comprend un pré-égaliseur (200) et en ce que le signal égalisé à partir de spectres de référence différenciés selon la classe du locuteur est le signal x de sortie du pré-égaliseur.
EP03027552A 2002-12-11 2003-12-01 Procédé et système de correction multi-références des déformations spectrales de la voix introduites par un réseau de communication Expired - Lifetime EP1429316B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0215618 2002-12-11
FR0215618A FR2848715B1 (fr) 2002-12-11 2002-12-11 Procede et systeme de correction multi-references des deformations spectrales de la voix introduites par un reseau de communication

Publications (2)

Publication Number Publication Date
EP1429316A1 EP1429316A1 (fr) 2004-06-16
EP1429316B1 true EP1429316B1 (fr) 2005-01-12

Family

ID=32320172

Family Applications (1)

Application Number Title Priority Date Filing Date
EP03027552A Expired - Lifetime EP1429316B1 (fr) 2002-12-11 2003-12-01 Procédé et système de correction multi-références des déformations spectrales de la voix introduites par un réseau de communication

Country Status (5)

Country Link
US (1) US7359857B2 (fr)
EP (1) EP1429316B1 (fr)
DE (1) DE60300267T2 (fr)
ES (1) ES2236661T3 (fr)
FR (1) FR2848715B1 (fr)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7574010B2 (en) * 2004-05-28 2009-08-11 Research In Motion Limited System and method for adjusting an audio signal
FR2882171A1 (fr) * 2005-02-14 2006-08-18 France Telecom Procede et dispositif de generation d'un arbre de classification permettant d'unifier les approches supervisees et non supervisees, produit programme d'ordinateur et moyen de stockage correspondants
BRPI0612579A2 (pt) * 2005-06-17 2012-01-03 Matsushita Electric Ind Co Ltd pàs-filtro, decodificador e mÉtodo de pàs-filtraÇço
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US20070073751A1 (en) * 2005-09-29 2007-03-29 Morris Robert P User interfaces and related methods, systems, and computer program products for automatically associating data with a resource as metadata
US7797337B2 (en) * 2005-09-29 2010-09-14 Scenera Technologies, Llc Methods, systems, and computer program products for automatically associating data with a resource as metadata based on a characteristic of the resource
US20070073770A1 (en) * 2005-09-29 2007-03-29 Morris Robert P Methods, systems, and computer program products for resource-to-resource metadata association
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US20070198542A1 (en) * 2006-02-09 2007-08-23 Morris Robert P Methods, systems, and computer program products for associating a persistent information element with a resource-executable pair
US20090287489A1 (en) * 2008-05-15 2009-11-19 Palm, Inc. Speech processing for plurality of users
GB2476043B (en) * 2009-12-08 2016-10-26 Skype Decoding speech signals
CN106297813A (zh) 2015-05-28 2017-01-04 杜比实验室特许公司 分离的音频分析和处理
CN106128466B (zh) * 2016-07-15 2019-07-05 腾讯科技(深圳)有限公司 身份向量处理方法和装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4310721A (en) * 1980-01-23 1982-01-12 The United States Of America As Represented By The Secretary Of The Army Half duplex integral vocoder modem system
JP2791036B2 (ja) * 1988-04-23 1998-08-27 キヤノン株式会社 音声処理装置
CA2083304C (fr) * 1991-12-31 1999-01-26 Stephen R. Huszar Egalisation et decodage pour canal de communication numerique
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
FR2722631B1 (fr) * 1994-07-13 1996-09-20 France Telecom Etablissement P Procede et systeme de filtrage adaptatif par egalisation aveugle d'un signal telephonique numerique et leurs applications
US5915235A (en) * 1995-04-28 1999-06-22 Dejaco; Andrew P. Adaptive equalizer preprocessor for mobile telephone speech coder to modify nonideal frequency response of acoustic transducer
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
US5806029A (en) 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
FR2766604B1 (fr) * 1997-07-22 1999-10-01 France Telecom Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique
US6216107B1 (en) * 1998-10-16 2001-04-10 Ericsson Inc. High-performance half-rate encoding apparatus and method for a TDM system
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
FR2822999B1 (fr) * 2001-03-28 2003-07-04 France Telecom Procede et dispositif de correction centralisee du timbre de la parole sur un reseau de communications telephoniques

Also Published As

Publication number Publication date
US20040172241A1 (en) 2004-09-02
FR2848715A1 (fr) 2004-06-18
DE60300267T2 (de) 2006-03-23
FR2848715B1 (fr) 2005-02-18
ES2236661T3 (es) 2005-07-16
DE60300267D1 (de) 2005-02-17
US7359857B2 (en) 2008-04-15
EP1429316A1 (fr) 2004-06-16

Similar Documents

Publication Publication Date Title
EP1016072B1 (fr) Procede et dispositif de debruitage d'un signal de parole numerique
EP1429316B1 (fr) Procédé et système de correction multi-références des déformations spectrales de la voix introduites par un réseau de communication
EP2002428B1 (fr) Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
CN1985304B (zh) 用于增强型人工带宽扩展的***和方法
EP2122607B1 (fr) Procede de reduction active d'une nuisance sonore
CA2266654C (fr) Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique
EP1899961A1 (fr) Procede et systeme d'evaluation de la qualite vocale
EP0752181B1 (fr) Annuleur d'echo acoustique a filtre adaptatif et passage dans le domaine frequentiel
FR2596936A1 (fr) Systeme de transmission d'un signal vocal
EP0608174A1 (fr) Systeme de codage-décodage prédictif d'un signal numérique de parole par transformée adaptative à codes imbriqués
US8694311B2 (en) Method for processing noisy speech signal, apparatus for same and computer-readable recording medium
US8744846B2 (en) Procedure for processing noisy speech signals, and apparatus and computer program therefor
EP0998166A1 (fr) Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant
EP0692883B1 (fr) Procédé d'égalisation aveugle et son application à la reconnaissance de la parole
US20110029305A1 (en) Method for processing noisy speech signal, apparatus for same and computer-readable recording medium
EP2347411B1 (fr) Attenuation de pre-echos dans un signal audionumerique
EP3192073B1 (fr) Discrimination et atténuation de pré-échos dans un signal audionumérique
EP1039736B1 (fr) Procédé et disposiif d'identification adaptive, et annuleur d'écho adaptive mettant en oeuvre un tel procédé
FR2894707A1 (fr) Procede de mesure de la qualite percue d'un signal audio degrade par la presence de bruit
FR2739481A1 (fr) Appareil et procede d'elimination du bruit
EP1016073B1 (fr) Procede et dispositif de debruitage d'un signal de parole numerique
EP1021805B1 (fr) Procede et disposition de conditionnement d'un signal de parole numerique
EP2515300B1 (fr) Procédé et système de réduction du bruit
EP0989544A1 (fr) Dispositif et procédé de filtrage d'un signal de parole, récepteur et système de communications téléphonique
WO2002077977A1 (fr) Procede et dispositif de correction centralisee du timbre de la parole sur un reseau de communications telephoniques

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL LT LV MK

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

17P Request for examination filed

Effective date: 20040429

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE ES GB IT

AX Request for extension of the european patent

Extension state: AL LT LV MK

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REF Corresponds to:

Ref document number: 60300267

Country of ref document: DE

Date of ref document: 20050217

Kind code of ref document: P

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: FRENCH

AKX Designation fees paid

Designated state(s): DE ES GB IT

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20050419

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2236661

Country of ref document: ES

Kind code of ref document: T3

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20051013

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20151125

Year of fee payment: 13

Ref country code: IT

Payment date: 20151120

Year of fee payment: 13

Ref country code: DE

Payment date: 20151119

Year of fee payment: 13

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20151202

Year of fee payment: 13

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 60300267

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20161201

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20161201

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170701

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20161201

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20161202

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20181119