EP0596785A1 - Method for the discrimination of speech in presence of ambient noise and low bit-rate vocoder to implement the method - Google Patents

Method for the discrimination of speech in presence of ambient noise and low bit-rate vocoder to implement the method Download PDF

Info

Publication number
EP0596785A1
EP0596785A1 EP93402670A EP93402670A EP0596785A1 EP 0596785 A1 EP0596785 A1 EP 0596785A1 EP 93402670 A EP93402670 A EP 93402670A EP 93402670 A EP93402670 A EP 93402670A EP 0596785 A1 EP0596785 A1 EP 0596785A1
Authority
EP
European Patent Office
Prior art keywords
autocorrelation
counter
excitation
excitations
periodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP93402670A
Other languages
German (de)
French (fr)
Inventor
Pierre André Thomson-CSF SCPI Laurent
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thomson CSF SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson CSF SA filed Critical Thomson CSF SA
Publication of EP0596785A1 publication Critical patent/EP0596785A1/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Definitions

  • the present invention relates to a method for discriminating speech in the presence of ambient noise and to a low bit rate vocoder for implementing the method.
  • LPC10 type vocoders order 10 linear prediction
  • the quality of LPC10 type vocoders is often considered insufficient, particularly in terms of listening pleasure, loyalty to the speaker, and resistance to ambient noise, in particular to structured ambient noise of periodic or quasi-periodic.
  • the signal to be coded does not meet this definition, for example a semi-periodic signal, or a mixture of several signals, the reproduction quality is poor.
  • various known methods consist in using, for example, a high speed vocoder of 4800 bits / second and in reducing this bit rate to 2400 bits / second. No assumption is made on the nature of the signal to be coded, the aim of these methods consisting solely in reproducing as faithfully as possible the waveform of the input signal.
  • wavelet method which is a representation of the signal by a combination of waveforms well localized in time and frequency
  • harmonic analysis which is a representation of the signal by a combination of harmonic sinusoids each other
  • CELP abbreviation for Code Excited Linear Prediction or the waveforms used to the input of the synthesis filter are pre-defined, and stored in a "dictionary".
  • the object of the invention is to overcome the aforementioned drawbacks.
  • the subject of the invention is a method of discriminating speech in the presence of ambient noise for a low bit rate vocoder of the type comprising a periodic excitation, an aperiodic excitation and a P-order analysis filter, characterized in what it consists in analyzing a signal S n composed of the sum of a determined number K of periodic excitations and an aperiodic excitation, in calculating the global autocorrelation r m of the signal S n , in calculating the partial sums t m of the short-term autocorrelation s m correlated with the global autocorrelation r m , to initialize a counter k and as long as the counter k does not reach the maximum value K corresponding to the maximum number of periodic excitations, for each incrementation of the counter k, after correcting the calculation of the partial sums t m , in calculating the values of the pitch M k , of the gain ⁇ k and of the slope of the gain ⁇ k of each
  • the main advantage of the method according to the invention is that it makes it possible to reproduce better quality speech than with a standard vocoder at 2400 bits / second and to better resist ambient noise and in particular structured ambient noise. It also has the advantage of using an algorithm of reasonable complexity thus limiting the computational load.
  • the method according to the invention is based on the principle that it is not useful to reproduce the waveform of the input signal and that it is rather necessary to reproduce as best as possible the auditory impression that the signal would have produced.
  • original which is not necessarily the same thing: a standard vocoder at 2400 bits / second which can reproduce a speech signal of excellent quality with certain speakers and in good conditions of sound, although the form of wave produced at synthesis has little to do with the original waveform.
  • the bit rate allocated to the prediction filter is not sufficient to represent the signal with sufficient fidelity, it must be modeled.
  • synthetic speech is considered to give an acoustic impression close to that provided by the original speech signal.
  • Synthetic speech thus considered consists of the superposition of particularly simple waveforms which can be defined with a low bit rate.
  • the standard vocoder at 2400 bits / second is assumed to give satisfactory quality in simple cases, for example, in cases where the signal to be coded can be represented as the superposition of background noise. continuous, and one or more periodic or quasi-periodic signals ; the same assumption is made in harmonic vocoders.
  • bit rate granted to the prediction filter of a standard vocoder can be reduced according to known techniques, used in vocoders at 800 bits / second, thus making it possible to free up bits allocated to the too richly described prediction filter.
  • the bits thus recovered are used to define the K periodic excitations each having a determined period or "pitch" and a gain that can be modulated over time.
  • a first embodiment of the method according to the invention consists in determining the excitation signal representative of the speech extracted from the ambient noises, by giving the period of the "pitch" and the level of the signal from the sum of the K periodic signals. and an aperiodic signal.
  • a standard 2400 bit / second vocoder it is mandatory to determine a single pitch without error and a voicing indicator also without error.
  • the first periodic generator materializing the excitation, does not have the "true" pitch, that is to say the pitch of the speech signal to be extracted, there are still K-1 generators to find it.
  • there is no voicing decision but rather a distribution of the gains between a noise source and K periodic sources there is no risk of voicing error.
  • the method according to the invention is not concerned with the true waveform, or with a residual, but with its composition in terms of periods or "pitch", relative levels, and proportion of noise.
  • the determination of the excitation is therefore made from a signal where the phase information does not appear.
  • the method is based on an autocorrelation calculation, the result of which gives a quantity representative of this signal with certain precautions to detect the periodic components and the gain variations.
  • FIG. 1 represents the flow diagram of the steps of the method according to the invention.
  • the first step 1 calculates the global autocorrelation r m of the signal consisting of the sum of the K + 1 signals.
  • S n and S nm are amplitudes of signal samples and N (m) denotes a number of samples multiple of m, the largest of which is less than or equal to a value N max . This arrangement improves the subsequent detection of the periodicities.
  • the global autocorrelation r m is then recomposed from the sum of the periodic excitations M1, M2, ..., M k and the values of the short-term autocorrelation r -p .. ., r p duplicated at positions 0, M1, 2 M1 , ..., 0, M2, 2 M2 , ..., 0, M k , 2M k , ..., the aftershocks according to the evolution of the level of signal components.
  • the first diagram represents the short-term autocorrelation, the following two diagrams, the contribution of the periodic signals M1 to M K , and the last diagram the global autocorrelation r m obtained from the values of the short-term autocorrelation r - p , ..., r p , convoluted with K pulse trains.
  • the train of pulses relating to the kth periodic excitation is defined by the following formula:
  • the coefficient ⁇ k represents a gain
  • the coefficient ⁇ k a variation of gain, or slope of gain which must be linear to be able to continue the calculations
  • INT (M max / M k ) is a function which retains only the whole part of the ratio M max / M k is the ratio between the value of the maximum pitch and the value of the pitch of the kth periodic excitation.
  • step 2 in FIG. 1 consists in calculating the partial sums t m which in fact correspond calculating the autocorrelation of the global autocorrelation r m limited to its short-term value.
  • the calculation is given by the following formula: and s -p ..., s p are the autocorrelation values r -p , ..., r p limited to its short-term value.
  • an iterative sub-optimal search algorithm to find the K values of M k , ⁇ k and ⁇ k corresponding respectively to the period of the pitch, the slope of the gain and the gain of the kth excitation is implemented in step 5. It consists in calculating the values of M k , ⁇ k and ⁇ k which minimize the following quantity d, for example, by a least squares method: Steps 3 and 4 correspond respectively to the initialization of a counter k and to the incrementation of this counter k as long as the value of counter k has not reached the value K. This test is carried out by step 6 of the method according to the invention.
  • d min
  • the search for a given excitation consists in finding the value M k which minimizes this quantity, knowing that R does not vary during the search and that the quantities S0, S1 and S2 are easily calculable for a given value of M k .
  • equation (10) gives the value of ⁇ k
  • equation (10) gives the value of ⁇ k
  • ⁇ k S2T0-S1T1 t0 (S0S2-S12)
  • the vector R of the autocorrelations r m is only partially modeled by the vector Sl k multiplied by the gain ⁇ k .
  • the autocorrelations r m should therefore be replaced by their modified values r ' m by subtraction of the quantities ⁇ k if k, m according to the following equation:
  • step 7 consists in subtracting from the partial sums t m the values of the autocorrelation c m from the samples s m from the short-term autocorrelation and replacing the partial sums t m by their modified values t m ' . This is done according to the following relationship: with
  • the coefficients c m are calculated only once, since s m does not change during iterations.
  • the level of aperiodic excitation to be used is deduced from the autocorrelation r m .
  • the value of the autocorrelation r m or of the sums t m would be zero after the last correction according to equations (13) and (14).
  • FIG. 3 A new flow diagram of the steps of a second embodiment of the method according to the invention is shown in FIG. 3. In this figure, the steps homologous to those of FIG. 1 are designated by the same references.
  • Step 8 of the method consists of a preprocessing of the input signal.
  • This preprocessing transforms, for example, the raw input signal S m into a signal whose autocorrelation approximates a dirac pulse, therefore a signal whose spectrum is flattened, for example, by an auto predictor filter -adaptive. This pretreatment thus achieves a whitening of the spectrum before analysis.
  • preprocesses such as for example, elimination of the DC component and very low frequencies from the input signal, automatic gain control, and pre-emphasis, are also possible.
  • step 9 consists in weight the autocorrelation which has just been calculated by a simple weighting window which can be represented for example by a non-increasing envelope as a function of time and the width of which is chosen to be wider than the maximum analysis interval.
  • the purpose of this weighting window is more to stabilize the signal rather than to format it by avoiding discontinuities in the continuation of the calculations due to the variable number of replicas of the short-term autocorrelation which the vectors Sl k may include. .
  • Steps 2, 3 and 4 are identical to Figure 1, and step 5 is practically identical with a limitation on the values of ⁇ k and ⁇ k :
  • the method according to the invention is capable of determining the K pitch sought.
  • the only difference with a partially or totally voiced sound lies in the value of the coefficients ⁇ and ⁇ .
  • the calculation according to step 5 retains only the periodic excitations for which the coefficients ⁇ and ⁇ are included in restricted ranges of values: for example, positive values less than 1 for ⁇ ⁇ 0.3 and ⁇ ⁇ 1, and values close to 1 for ⁇ ,
  • 0.2.
  • Limiting the values of ⁇ also makes it possible to avoid pulses of negative diracs representative of the autocorrelation.
  • the coefficient ⁇ can respond for example to the following relationship: (16)
  • Step 10 of the method consists of an additional test on the value of the counter k after the calculation of the coefficients M k , ⁇ k and ⁇ k carried out by step 5 of the method.
  • step 10 is looped back to the incrementation of the counter k represented by step 4.
  • step 11 of the method recalculates the coefficients calculated by step 5: the algorithm used by the method according to the invention is sub-optimal, that is to say that 'he searches for the K periodic excitations one after the other, whereas in all rigor he should seek them all at once.
  • the vectors Sl k are not orthogonal, they share all the autocorrelations r -p to r p creating interference between the various autocorrelations.
  • step 11 recalculates the coefficients ⁇ 1, ⁇ 2, ..., ⁇ k-1 and ⁇ 1, ⁇ 2, ..., ⁇ k-1 in addition to ⁇ k and ⁇ k at the kth iteration, keeping the pitch values M k previously calculated; which amounts to a resolution of a system of K linear equations.
  • a final correction is made to the first embodiment of the method according to the invention by a step 12 which, taking into account the sub-optimality of the algorithm, consists in correcting the pitch values M k :
  • step 12 optimizes the calculation beyond the effective number K of excitations sought and chooses and / or groups among the K '(K' ⁇ K) excitations those which give the best acoustic result. For example, two excitations whose values of M are too close to be discerned are grouped into a single excitation.
  • the determination of the aperiodic excitation level remains identical in the two embodiments of the method according to the invention.
  • FIG. 4 An embodiment of a vocoder allowing the implementation of the method according to the invention is shown in FIG. 4.
  • This device comprises a noise generator 13 delivering a random wave form, or aperiodic excitation, K generators 141 to 14 k each delivering a train of periodic waves where each period of the fundamental, "pitch", is denoted respectively M1 to M k .
  • the aperiodic excitation corresponds to unvoiced sounds like most consonants and the K periodic wave trains correspond to voiced sounds like vowels.
  • the aperiodic excitation and the K aperiodic excitations thus defined are affected respectively by a gain G0 to G k which can be modulated over time represented respectively by the circles 150 to 15 k .
  • the K + 1 excitations are then injected simultaneously at the input of a summator 16.
  • a summator 16 At the output of the summator 16, we obtain the k + 1 superimposed excitations which are injected on a first operand input of a multiplication operator 17
  • the second operand entry allows you to adjust the overall level of the k + 1 excitations.
  • the output signal of the operator 17 is injected at the input of a analysis filter 18, for example, a P-order prediction filter which, using the analysis method according to the invention, outputs a synthetic speech signal free of ambient noise.
  • a quantification method usable with such a vocoder is given by way of example:
  • the overall level of the energy of the frame is quantified semi-logarithmically on 5 bits.
  • the bit rate obtained is 2400 bits / second at the most for frames of 25 ms at least.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

The method of discrimination of speech in the presence of ambient noise consists, for analysing a signal Sn consisting of the sum of a defined number K of periodic excitations and of an aperiodic excitation, in calculating (1) the overall autocorrelation rm of the signal Sn, in calculating (2) the partial sums tm of the short-term aperiodic autocorrelation, in calculating (1) the overall autocorrelation rm of the signal Sn, in calculating (2) the partial sums tm of the short-term autocorrelation sm correlated with the overall autocorrelation rm, in initialising (3) a counter k and, as long as the counter k has not reached the maximum value K corresponding to the maximum number of periodic excitations (6), for each incrementation (4) of the counter k, after having corrected (7) the calculation of the partial sums tm, in calculating (5) the values of the pitch (Mk) of the gain beta k, and of the slope of the gain alpha k of each periodic excitation, and in determining the level of the aperiodic excitation beta o as a function of the overall autocorrelation rm at the start of analysis and of the overall autocorrelation rm at the end of analysis. Application: low bit-rate vocoders. <IMAGE>

Description

La présente invention concerne un procédé de discrimination de la parole en présence de bruits ambiants et un vocodeur à faible débit pour la mise en oeuvre du procédé.The present invention relates to a method for discriminating speech in the presence of ambient noise and to a low bit rate vocoder for implementing the method.

La qualité des vocodeurs de type LPC10 (prédiction linéaire d'ordre 10) est souvent jugée insuffisante, notamment en termes d'agrément d'écoute, de fidélité au locuteur, et de résistance aux bruits ambiants notamment aux bruits ambiants structurés de nature périodique ou quasi-périodique.The quality of LPC10 type vocoders (order 10 linear prediction) is often considered insufficient, particularly in terms of listening pleasure, loyalty to the speaker, and resistance to ambient noise, in particular to structured ambient noise of periodic or quasi-periodic.

Le principe même de ce type de vocodeur conduit à une fidélité limitée car il part de l'hypothèse que le signal à coder est exclusivement de la parole et, qui plus est, que cette parole peut être représentée sous une forme simple telle que du bruit filtré, ou une excitation périodique elle aussi filtrée.The very principle of this type of vocoder leads to limited fidelity because it starts from the assumption that the signal to be coded is exclusively speech and, moreover, that this speech can be represented in a simple form such as noise. filtered, or periodic excitation also filtered.

Si le signal à coder ne répond pas à cette définition, par exemple un signal semi-périodique, ou un mélange de plusieurs signaux, la qualité de reproduction est médiocre.If the signal to be coded does not meet this definition, for example a semi-periodic signal, or a mixture of several signals, the reproduction quality is poor.

Pour améliorer la qualité de reproduction de la parole, différentes méthodes connues, consistent à utiliser, par exemple, un vocodeur haut débit de 4800 bits/seconde et à réduire ce débit à 2400 bits/seconde. Aucune hypothèse n'est faite sur la nature du signal à coder, le but de ces méthodes consistant uniquement à reproduire le plus fidèlement possible la forme d'onde du signal d'entrée.To improve the quality of speech reproduction, various known methods consist in using, for example, a high speed vocoder of 4800 bits / second and in reducing this bit rate to 2400 bits / second. No assumption is made on the nature of the signal to be coded, the aim of these methods consisting solely in reproducing as faithfully as possible the waveform of the input signal.

Parmi ces méthodes, on peut citer la méthode dite des ondelettes qui est une représentation du signal par une combinaison de formes d'onde bien localisées en temps et en fréquence, l'analyse harmonique qui est une représentation du signal par une combinaison de sinusoïdes harmoniques les unes des autres et, le CELP abréviation anglo-saxonne pour Code Excited Linear Prediction ou les formes d'ondes utilisées à l'entrée du filtre de synthèse sont pré-définies, et stockées dans un "dictionnaire".Among these methods, we can cite the so-called wavelet method which is a representation of the signal by a combination of waveforms well localized in time and frequency, harmonic analysis which is a representation of the signal by a combination of harmonic sinusoids each other and, the CELP abbreviation for Code Excited Linear Prediction or the waveforms used to the input of the synthesis filter are pre-defined, and stored in a "dictionary".

L'expérience montre que, si l'on cherche à réduire par trop le débit des vocodeurs qui traitent la forme d'onde du signal, la qualité de reproduction s'en ressent beaucoup. Les dégradations de la qualité se traduisent, par exemple, par une certaine raucité de la parole synthétique, et/ou un bruit de fond de coloration variable au cours du temps, et /ou une grande difficulté à reproduire les sons bruités ou au contraire périodiques.Experience shows that if you try to reduce the bit rate of vocoders that process the signal waveform too much, the quality of reproduction is greatly affected. The degradations of the quality are reflected, for example, by a certain raucity of the synthetic speech, and / or a background noise of coloring varying over time, and / or a great difficulty in reproducing the noisy sounds or on the contrary periodic .

Le but de l'invention est de pallier les inconvénients précités.The object of the invention is to overcome the aforementioned drawbacks.

A cet effet, l'invention a pour objet un procédé de discrimination de la parole en présence de bruits ambiants pour vocodeur à faible débit du type comportant une excitation périodique, une excitation apériodique et un filtre d'analyse d'ordre P, caractérisé en ce qu'il consiste pour analyser un signal Sn composé de la somme d'un nombre K déterminé d'excitations périodiques et d'une excitation apériodique, à calculer l'autocorrélation globale rm du signal Sn, à calculer les sommes partielles tm de l'autocorrélation à court terme sm corrélée avec l'autocorrélation globale rm, à initialiser un compteur k et tant que le compteur k n'atteint pas la valeur maximale K correspondant au nombre maximal d'excitations périodiques, pour chaque incrémentation du compteur k, après avoir corrigé le calcul des sommes partielles tm, à calculer les valeurs du pitch Mk, du gain βk et de la pente du gain αk de chaque excitation périodique, et à déterminer le niveau de l'excitation apériodique β₀ en fonction de l'autocorrélation globale rm en début d'analyse et de l'autocorrélation rm en fin d'analyse.To this end, the subject of the invention is a method of discriminating speech in the presence of ambient noise for a low bit rate vocoder of the type comprising a periodic excitation, an aperiodic excitation and a P-order analysis filter, characterized in what it consists in analyzing a signal S n composed of the sum of a determined number K of periodic excitations and an aperiodic excitation, in calculating the global autocorrelation r m of the signal S n , in calculating the partial sums t m of the short-term autocorrelation s m correlated with the global autocorrelation r m , to initialize a counter k and as long as the counter k does not reach the maximum value K corresponding to the maximum number of periodic excitations, for each incrementation of the counter k, after correcting the calculation of the partial sums t m , in calculating the values of the pitch M k , of the gain β k and of the slope of the gain α k of each periodic excitation, and in determining the level of aperiodic excitation β₀ as a function of the global autocorrelation r m at the start of analysis and the autocorrelation r m at the end of analysis.

Le procédé selon l'invention a pour principal avantage qu'il permet de reproduire une parole de meilleure qualité qu'avec un vocodeur standard à 2400 bits/seconde et de mieux résister aux bruits ambiants et notamment aux bruits ambiants structurés. Il a également pour avantage d'utiliser un algorithme de complexité raisonnable limitant ainsi la charge de calcul.The main advantage of the method according to the invention is that it makes it possible to reproduce better quality speech than with a standard vocoder at 2400 bits / second and to better resist ambient noise and in particular structured ambient noise. It also has the advantage of using an algorithm of reasonable complexity thus limiting the computational load.

D'autres caractéristiques et avantages de l'invention apparaîtront dans la description qui suit faite en regard des dessins annexés qui représentent :

  • la figure 1, les différentes étapes d'un premier mode de réalisation du procédé selon l'invention mises sous la forme d'un organigramme ;
  • la figure 2, les diagrammes représentant l'évolution de l'autocorrélation ;
  • la figure 3, les différentes étapes d'un second mode de réalisation du procédé mises sous la forme d'un organigramme ;
  • la figure 4, un mode de réalisation d'un vocodeur pour la mise en oeuvre du procédé selon l'invention.
Other characteristics and advantages of the invention will appear in the description which follows given with reference to the appended drawings which represent:
  • Figure 1, the different steps of a first embodiment of the method according to the invention put in the form of a flowchart;
  • FIG. 2, the diagrams representing the evolution of the autocorrelation;
  • Figure 3, the different steps of a second embodiment of the method put in the form of a flowchart;
  • Figure 4, an embodiment of a vocoder for implementing the method according to the invention.

Le procédé selon l'invention repose sur le principe qu'il n'est pas utile de reproduire la forme d'onde du signal d'entrée et qu'il faut plutôt reproduire du mieux possible l'impression auditive qu'aurait produit le signal original, ce qui n'est pas obligatoirement la même chose: un vocodeur standard à 2400 bits/seconde pouvant restituer un signal de parole d'excellente qualité avec certains locuteurs et dans de bonnes conditions de prise de son, bien que la forme d'onde produite à la synthèse n'a que peu de choses à voir avec la forme d'onde originale.The method according to the invention is based on the principle that it is not useful to reproduce the waveform of the input signal and that it is rather necessary to reproduce as best as possible the auditory impression that the signal would have produced. original, which is not necessarily the same thing: a standard vocoder at 2400 bits / second which can reproduce a speech signal of excellent quality with certain speakers and in good conditions of sound, although the form of wave produced at synthesis has little to do with the original waveform.

Le débit alloué au filtre de prédiction n'étant pas suffisant pour représenter le signal avec une fidélité suffisante, il faut le modéliser. Pour cela, la parole synthétique est considérée donner une impression acoustique voisine de celle procurée par le signal de parole original. La parole synthétique ainsi considérée est constituée de la superposition de formes d'ondes particulièrement simples qui peuvent être définies avec un faible débit binaire. Pour définir ces formes d'ondes, le vocodeur standard à 2400 bits/seconde est supposé donner une qualité satisfaisante dans des cas simples, par exemple, dans des cas où le signal à coder peut être représenté comme la superposition d'un bruit de fond continu, et d'un ou plusieurs signaux périodiques ou quasi-périodiques ; la même hypothèse est faite dans les vocodeurs harmoniques.Since the bit rate allocated to the prediction filter is not sufficient to represent the signal with sufficient fidelity, it must be modeled. For this, synthetic speech is considered to give an acoustic impression close to that provided by the original speech signal. Synthetic speech thus considered consists of the superposition of particularly simple waveforms which can be defined with a low bit rate. To define these waveforms, the standard vocoder at 2400 bits / second is assumed to give satisfactory quality in simple cases, for example, in cases where the signal to be coded can be represented as the superposition of background noise. continuous, and one or more periodic or quasi-periodic signals ; the same assumption is made in harmonic vocoders.

D'autre part, dans le cas où apparaît un transitoire brutal tel qu'un bruit extérieur, la fidélité de reproduction du signal d'entrée n'est vraisemblablement pas indispensable. Le transitoire est alors considéré comme un son parasite et il est éliminé par des systèmes d'antiparasitage connus améliorant ainsi la qualité de restitution du signal d'entrée.On the other hand, in the case where a sudden transient such as an external noise appears, the fidelity of reproduction of the input signal is probably not essential. The transient is then considered as a spurious sound and it is eliminated by known interference suppression systems thus improving the quality of reproduction of the input signal.

De plus, le débit accordé au filtre de prédiction d'un vocodeur standard peut être réduit suivant des techniques connues, utilisées dans les vocodeurs à 800 bits/seconde, permettant ainsi de libérer des bits alloués au filtre de prédiction trop richement décrit.In addition, the bit rate granted to the prediction filter of a standard vocoder can be reduced according to known techniques, used in vocoders at 800 bits / second, thus making it possible to free up bits allocated to the too richly described prediction filter.

Les bits ainsi récupérés sont utilisés pour définir les K excitations périodiques ayant chacune une période ou "pitch" déterminée et un gain modulable dans le temps.The bits thus recovered are used to define the K periodic excitations each having a determined period or "pitch" and a gain that can be modulated over time.

Un premier mode de réalisation du procédé selon l'invention consiste à déterminer le signal d'excitation représentatif de la parole extraite des bruits ambiants, en donnant la période du "pitch" et le niveau du signal à partir de la somme des K signaux périodiques et d'un signal apériodique.A first embodiment of the method according to the invention consists in determining the excitation signal representative of the speech extracted from the ambient noises, by giving the period of the "pitch" and the level of the signal from the sum of the K periodic signals. and an aperiodic signal.

Dans un vocodeur standard de 2400 bits/seconde, il est obligatoire de déterminer un seul pitch sans erreur et un indicateur de voisement également sans erreur. Avantageusement, selon l'invention, si le premier générateur périodique, matérialisant l'excitation, ne dispose pas du "vrai" pitch, c'est-à-dire du pitch du signal de parole à extraire, il reste encore K-1 générateurs pour le trouver. De même, comme il n'y a pas de décision de voisement mais plutôt une répartition des gains entre une source de bruit et K sources périodiques, il n'y a pas de risque d'erreur de voisement.In a standard 2400 bit / second vocoder, it is mandatory to determine a single pitch without error and a voicing indicator also without error. Advantageously, according to the invention, if the first periodic generator, materializing the excitation, does not have the "true" pitch, that is to say the pitch of the speech signal to be extracted, there are still K-1 generators to find it. Similarly, since there is no voicing decision but rather a distribution of the gains between a noise source and K periodic sources, there is no risk of voicing error.

Le procédé selon l'invention ne s'intéresse pas à la forme d'onde vraie, ou à un résiduel, mais à sa composition en termes de périodes ou "pitch", niveaux relatifs, et proportion de bruit. La détermination de l'excitation se fait donc à partir d'un signal où les informations de phase n'apparaissent pas. Le procédé est basé sur un calcul d'autocorrélation dont le résultat donne une grandeur représentative de ce signal moyennant certaines précautions pour détecter les composantes périodiques et les variations de gain.The method according to the invention is not concerned with the true waveform, or with a residual, but with its composition in terms of periods or "pitch", relative levels, and proportion of noise. The determination of the excitation is therefore made from a signal where the phase information does not appear. The method is based on an autocorrelation calculation, the result of which gives a quantity representative of this signal with certain precautions to detect the periodic components and the gain variations.

La figure 1 représente l'organigramme des étapes du procédé selon l'invention.FIG. 1 represents the flow diagram of the steps of the method according to the invention.

La première étape 1 calcule l'autocorrélation globale rm du signal constitué de la somme des K + 1 signaux.The first step 1 calculates the global autocorrelation r m of the signal consisting of the sum of the K + 1 signals.

Si P représente l'ordre du filtre de prédiction à court terme, et Mmax la valeur maximale de pitch considérée en nombre d'échantillons, l'autocorrélation globale rm est calculée pour m = -P à m = Mmax+P, suivant la formule :

Figure imgb0001
If P represents the order of the short-term prediction filter, and M max the maximum value of pitch considered in number of samples, the global autocorrelation r m is calculated for m = -P to m = M max + P, according to the formula:
Figure imgb0001

Dans l'expression (1) Sn et Sn-m sont des amplitudes d'échantillons de signal et N(m) désigne un nombre d'échantillons multiple de m, le plus grand qui soit inférieur ou égal à une valeur Nmax. Cette disposition permet d'améliorer la détection ultérieure des périodicités.In expression (1) S n and S nm are amplitudes of signal samples and N (m) denotes a number of samples multiple of m, the largest of which is less than or equal to a value N max . This arrangement improves the subsequent detection of the periodicities.

La valeur choisie pour le dénominateur permet de détecter la variation du niveau de signal, donc d'améliorer la fidélité. Par exemple, pour un niveau de signal multiplié par g sur une durée de m échantillons, le signal ayant une période m, on obtient rm = g.r₀, r2m = g².r₀, etc...The value chosen for the denominator makes it possible to detect the variation in the signal level, thus improving the fidelity. For example, for a signal level multiplied by g over a duration of m samples, the signal having a period m, we obtain r m = g.r₀, r 2m = g².r₀, etc ...

Les valeurs de l'autocorrélation globale rm sont ensuite analysées en faisant comme première hypothèse simplificatrice que l'autocorrélation à court terme du signal est nulle pour un écart m supérieur à P en valeur absolue : ceci devient presque vrai si l'on utilise non pas le signal original mais plutôt le résiduel à la sortie d'un prédicteur auto-adaptatif d'ordre suffisant et ayant une constante de temps d'adaptation bien choisie.The values of the global autocorrelation r m are then analyzed by making as the first simplifying hypothesis that the short-term autocorrelation of the signal is zero for a deviation m greater than P in absolute value: this becomes almost true if we use not the original signal but rather the residual at the output of a self-adaptive predictor of sufficient order and having a well-chosen adaptation time constant.

Par exemple, il peut être avantageux de remplacer Sn par un résiduel Sn' donné par les équations suivantes :

Figure imgb0002

avec A n+1 i  
Figure imgb0003
=A n i
Figure imgb0004
+ ε signe (S'nSn-i), i=1...Q
Dans une deuxième hypothèse, la valeur minimale Mmin du pitch est choisie supérieure à 2P.For example, it may be advantageous to replace S n by a residual S n 'given by the following equations:
Figure imgb0002

with a n + 1 i
Figure imgb0003
= A not i
Figure imgb0004
+ ε sign (S ' n S ni ), i = 1 ... Q
In a second hypothesis, the minimum value M min of the pitch is chosen to be greater than 2P.

En tenant compte des deux hypothèses précédentes, l'autocorrélation globale rm est ensuite recomposée à partir de la somme des excitations périodiques M₁, M₂,...,Mk et des valeurs de l'autocorrélation à court terme r-p...,rp dupliquées aux positions 0, M₁, 2M1,...,0, M₂, 2M2,...,0, Mk, 2Mk, ..., les répliques suivant l'évolution du niveau des composantes du signal.Taking into account the two preceding hypotheses, the global autocorrelation r m is then recomposed from the sum of the periodic excitations M₁, M₂, ..., M k and the values of the short-term autocorrelation r -p .. ., r p duplicated at positions 0, M₁, 2 M1 , ..., 0, M₂, 2 M2 , ..., 0, M k , 2M k , ..., the aftershocks according to the evolution of the level of signal components.

La figure 2 représente, de haut en bas, l'évolution de l'autocorrélation rm en fonction de m, pour m = -P à m = Mmax+P. Sur cette figure, la contribution du bruit n'est pas représentée. Le premier diagramme représente l'autocorrélation à court terme, les deux diagrammes suivants, la contribution des signaux périodiques M₁ à MK, et le dernier diagramme l'autocorrélation globale rm obtenue à partir des valeurs de l'autocorrélation à court terme r-p,...,rp, convoluées avec K trains d'impulsions.FIG. 2 represents, from top to bottom, the evolution of the autocorrelation r m as a function of m, for m = -P to m = M max + P. In this figure, the contribution of noise is not shown. The first diagram represents the short-term autocorrelation, the following two diagrams, the contribution of the periodic signals M₁ to M K , and the last diagram the global autocorrelation r m obtained from the values of the short-term autocorrelation r - p , ..., r p , convoluted with K pulse trains.

Afin de tenir compte de l'évolution du niveau du signal, le train d'impulsions relatif à la kème excitation périodique est défini par la formule suivante:

Figure imgb0005
In order to take account of the evolution of the signal level, the train of pulses relating to the kth periodic excitation is defined by the following formula:
Figure imgb0005

Le coefficient βk représente un gain, le coefficient αk une variation de gain, ou pente de gain qui doit être linéaire pour pouvoir poursuivre les calculs et INT(Mmax/Mk) est une fonction qui ne retient que la partie entière du rapport Mmax/Mk soit le rapport entre la valeur du pitch maximum et la valeur du pitch de la kème excitation périodique.The coefficient β k represents a gain, the coefficient α k a variation of gain, or slope of gain which must be linear to be able to continue the calculations and INT (M max / M k ) is a function which retains only the whole part of the ratio M max / M k is the ratio between the value of the maximum pitch and the value of the pitch of the kth periodic excitation.

Compte tenu des deux hypothèses précédentes concernant les valeurs respectives de P, ordre de prédiction, et Mmin, valeur minimale recherchée pour le pitch Mk, l'étape 2 sur la figure 1 consiste à calculer les sommes partielles tm qui correspondent en fait au calcul de l'autocorrélation de l'autocorrélation globale rm limitée à sa valeur à court terme. Le calcul est donné par la formule suivant :

Figure imgb0006

et
Figure imgb0007

s-p...,sp sont les valeurs de l'autocorrélation r-p,..., rp limitée à sa valeur à court terme.Taking into account the two preceding hypotheses concerning the respective values of P, order of prediction, and M min , minimum value sought for the pitch M k , step 2 in FIG. 1 consists in calculating the partial sums t m which in fact correspond calculating the autocorrelation of the global autocorrelation r m limited to its short-term value. The calculation is given by the following formula:
Figure imgb0006

and
Figure imgb0007

s -p ..., s p are the autocorrelation values r -p , ..., r p limited to its short-term value.

Pour des raisons de complexité de calcul, un algorithme itératif de recherche sub-optimal pour trouver les K valeurs de Mk, αk et βk correspondant respectivement à la période du pitch, la pente du gain et le gain de la kème excitation est mis en oeuvre à l'étape 5. Il consiste à calculer les valeurs de Mk, αk et βk qui minimisent la quantité d suivante, par exemple, par une méthode des moindre carrés :

Figure imgb0008

Les étapes 3 et 4 correspondent respectivement à l'initialisation d'un compteur k et à l'incrémentation de ce compteur k tant que la valeur du compteur k n'a pas atteinte la valeur K. Ce test est effectué par l'étape 6 du procédé selon l'invention.For reasons of computational complexity, an iterative sub-optimal search algorithm to find the K values of M k , α k and β k corresponding respectively to the period of the pitch, the slope of the gain and the gain of the kth excitation is implemented in step 5. It consists in calculating the values of M k , α k and β k which minimize the following quantity d, for example, by a least squares method:
Figure imgb0008

Steps 3 and 4 correspond respectively to the initialization of a counter k and to the incrementation of this counter k as long as the value of counter k has not reached the value K. This test is carried out by step 6 of the method according to the invention.

En notant R le vecteur des autocorrélations rm et Slk celui des autocorrélations à court terme sm convoluées avec le kème train d'impulsions, avec un gain égal à 1, la quantité d, représentant la distance entre le vecteur R et le vecteur Slk affecté d'un gain βk, est obtenue par la formule suivante : (6)   d=|R-β k Sl k

Figure imgb0009
R={r -P , ... , R M max + P }
Figure imgb0010

avec Sl k ={si k,-P,...,Si k,M MAX+P }
Figure imgb0011
Figure imgb0012

et
La valeur de βk qui minimise cette expression (6) est obtenue par la formule suivante : (7)   β k = R.Sl k |Sl k
Figure imgb0013
By denoting R the vector of autocorrelations r m and Sl k that of the short-term autocorrelations s m convoluted with the kth train of pulses, with a gain equal to 1, the quantity d, representing the distance between the vector R and the vector Sl k affected by a gain β k , is obtained by the following formula: (6) d = | R-β k Sl k | ²
Figure imgb0009
R = {r -P , ..., R M max + P }
Figure imgb0010

with Sl k = {if k, -P, ..., If k, M MAX + P }
Figure imgb0011
Figure imgb0012

and
The value of β k which minimizes this expression (6) is obtained by the following formula: (7) β k = R.Sl k | Sl k | ²
Figure imgb0013

Dans ces conditions, la quantité d devient dmin telle que: d=d min =|R|²- (R.Sl k |Sl k

Figure imgb0014
Under these conditions, the quantity d becomes d min such that: d = d min = | R | ²- (R.Sl k ) ² | Sl k | ²
Figure imgb0014

En reprenant le calcul des sommes partielles donné par la relation (4), l'expression dmin donnée par la relation (8) devient alors :

Figure imgb0015
By taking again the calculation of the partial sums given by the relation (4), the expression d min given by the relation (8) then becomes:
Figure imgb0015

Il ne reste plus qu'à minimiser cette expression en fonction de αk, ce qui donne, tous calculs effectués, la valeur suivante pour αk : (10)   α k = S₀ T₁ - S₁ T₀ S₂ T₀ - S₁ T₁

Figure imgb0016

   avec
Figure imgb0017

   et
Figure imgb0018
It only remains to minimize this expression as a function of α k , which gives, after all calculations, the following value for α k : (10) α k = S₀ T₁ - S₁ T₀ S₂ T₀ - S₁ T₁
Figure imgb0016

with
Figure imgb0017

and
Figure imgb0018

La valeur de dmin ainsi obtenue est alors la suivante : (11)   d min = |R|²- S₂T₀²-2S₁T₀T₁+S₀T₁² t₀(S₀S₂-S₁²)

Figure imgb0019
The value of d min thus obtained is then the following: (11) d min = | R | ²- S₂T₀²-2S₁T₀T₁ + S₀T₁² t₀ (S₀S₂-S₁²)
Figure imgb0019

La recherche d'une excitation donnée consiste à trouver la valeur Mk qui minimise cette quantité, sachant que R ne varie pas durant la recherche et que les quantités S₀, S₁ et S₂ sont facilement calculables pour une valeur de Mk donnée.The search for a given excitation consists in finding the value M k which minimizes this quantity, knowing that R does not vary during the search and that the quantities S₀, S₁ and S₂ are easily calculable for a given value of M k .

Une fois que la valeur de Mk a été déterminée, l'équation (10) donne la valeur de αk, et la valeur de βk est donnée par modification de l'équation (7): (12)   β k = S₂T₀-S₁T₁ t₀(S₀S₂-S₁²)

Figure imgb0020
Once the value of M k has been determined, equation (10) gives the value of α k , and the value of β k is given by modification of equation (7): (12) β k = S₂T₀-S₁T₁ t₀ (S₀S₂-S₁²)
Figure imgb0020

Lors de l'itération suivante, c'est-à-dire au passage de la valeur k à la valeur k + 1 du compteur k correspondant à l'étape 4 sur la figure 1, le vecteur R des autocorrélations rm n'est que partiellement modélisé par le vecteur Slk multiplié par le gain βk. Il convient donc de remplacer les autocorrélations rm par leurs valeurs modifiées r'm par soustraction des quantités βk sik,m suivant l'équation suivante :

Figure imgb0021
During the next iteration, that is to say when passing from the value k to the value k + 1 of the counter k corresponding to step 4 in FIG. 1, the vector R of the autocorrelations r m is only partially modeled by the vector Sl k multiplied by the gain β k . The autocorrelations r m should therefore be replaced by their modified values r ' m by subtraction of the quantities β k if k, m according to the following equation:
Figure imgb0021

Cependant, comme les valeurs de l'autocorrélation globale rm n'interviennent pas directement dans le calcul de αk et βk, le procédé ne modifie que les sommes partielles tm qui sont seules utilisées. Cette correction correspondant à l'étape 7 consiste à soustraire des sommes partielles tm les valeurs de l'autocorrélation cm des échantillons sm de l'autocorrélation à court terme et à remplacer les sommes partielles tm par leurs valeurs modifiées tm' . Ceci est réalisé suivant la relation suivante :

Figure imgb0022

avec
Figure imgb0023
However, since the values of the global autocorrelation r m do not intervene directly in the calculation of α k and β k , the method only modifies the partial sums t m which are the only ones used. This correction corresponding to step 7 consists in subtracting from the partial sums t m the values of the autocorrelation c m from the samples s m from the short-term autocorrelation and replacing the partial sums t m by their modified values t m ' . This is done according to the following relationship:
Figure imgb0022

with
Figure imgb0023

Les coefficients cm ne sont calculés qu'une fois, puisque sm ne change pas au cours des itérations.The coefficients c m are calculated only once, since s m does not change during iterations.

Une fois les K excitations périodiques définies, le niveau de l'excitation apériodique à utiliser, se déduit de l'autocorrélation rm. En effet, si le signal répondait exactement à un modèle à K excitations périodiques, la valeur de l'autocorrélation rm ou des sommes tm serait nulle après la dernière correction suivant les équations (13) et (14). En pratique, le niveau β₀ de bruit à générer peut être représenté, compte tenu des approximations faites, par une fonction non décroissante du rapport entre les valeurs des coefficients rm après définition de la Kème excitation, et leurs valeurs initiales. Cette fonction peut être par exemple une relation empirique du type :

Figure imgb0024

avec γ = 1 ou 2Once the K periodic excitations have been defined, the level of aperiodic excitation to be used is deduced from the autocorrelation r m . In indeed, if the signal corresponded exactly to a model with K periodic excitations, the value of the autocorrelation r m or of the sums t m would be zero after the last correction according to equations (13) and (14). In practice, the level β₀ of noise to be generated can be represented, taking account of the approximations made, by a non-decreasing function of the ratio between the values of the coefficients r m after definition of the Kth excitation, and their initial values. This function can be for example an empirical relation of the type:
Figure imgb0024

with γ = 1 or 2

Bien entendu, le procédé décrit ci-dessus peut être amélioré sur divers points qui sont abordés brièvement ci-après. Un nouvel organigramme des étapes d'un deuxième mode de réalisation du procédé selon l'invention est représenté sur la figure 3. Sur cette figure les étapes homologues à celles de la figure 1 sont désignées par les mêmes repères.Of course, the method described above can be improved on various points which are briefly discussed below. A new flow diagram of the steps of a second embodiment of the method according to the invention is shown in FIG. 3. In this figure, the steps homologous to those of FIG. 1 are designated by the same references.

L'étape 8 du procédé consiste en un prétraitement du signal d'entrée. Ce prétraitement transforme, par exemple, le signal d'entrée Sm brut en un signal dont l'autocorrélation se rapproche d'une impulsion de dirac, donc d'un signal dont le spectre est aplati, par exemple, par un filtre prédicteur auto-adaptatif. Ce prétraitement réalise ainsi un blanchissement du spectre avant analyse.Step 8 of the method consists of a preprocessing of the input signal. This preprocessing transforms, for example, the raw input signal S m into a signal whose autocorrelation approximates a dirac pulse, therefore a signal whose spectrum is flattened, for example, by an auto predictor filter -adaptive. This pretreatment thus achieves a whitening of the spectrum before analysis.

D'autres prétraitements, tels que par exemple, l'élimination de la composante continue et des très basses fréquences du signal d'entrée, un contrôle automatique de gain, et une pré-accentuation, sont également possibles.Other preprocesses, such as for example, elimination of the DC component and very low frequencies from the input signal, automatic gain control, and pre-emphasis, are also possible.

A partir du signal ainsi traité par l'étape 8, le calcul de l'autocorrélation globale rm est effectué selon l'étape 1 décrite précédemment. Une deuxième étape 9 supplémentaire consiste à pondérer l'autocorrélation venant d'être calculée par une fenêtre de pondération simple pouvant être représenté par exemple par une enveloppe non croissante en fonction du temps et dont la largeur est choisie plus large que l'intervalle maximal d'analyse. Le but de cette fenêtre de pondération vise plus à stabiliser le signal plutôt qu'à le mettre en forme en évitant des discontinuités dans la suite des calculs dues au nombre variable de répliques de l'autocorrélation à court terme que peuvent comporter les vecteurs Slk. Par exemple, si Mmax = 160, il y aura trois répliques pour un pitch de 80 et seulement deux répliques pour un pitch de 81. Cette étape fait donc apparaître progressivement les répliques de l'autocorrélation dont les amplitudes suivent une fonction décroissante.From the signal thus processed by step 8, the calculation of the global autocorrelation r m is carried out according to step 1 described above. A second additional step 9 consists in weight the autocorrelation which has just been calculated by a simple weighting window which can be represented for example by a non-increasing envelope as a function of time and the width of which is chosen to be wider than the maximum analysis interval. The purpose of this weighting window is more to stabilize the signal rather than to format it by avoiding discontinuities in the continuation of the calculations due to the variable number of replicas of the short-term autocorrelation which the vectors Sl k may include. . For example, if M max = 160, there will be three aftershocks for a pitch of 80 and only two aftershocks for a pitch of 81. This step therefore gradually reveals the replicas of autocorrelation whose amplitudes follow a decreasing function.

Les étapes 2, 3 et 4 se retrouvent à l'identique de la figure 1, et l'étape 5 est pratiquement identique moyennant une limitation sur les valeurs de βk et αk :Steps 2, 3 and 4 are identical to Figure 1, and step 5 is practically identical with a limitation on the values of β k and α k :

En effet, dans le cas d'un signal complètement non voisé, par exemple un signal de parole sans voyelle, le procédé selon l'invention est capable de déterminer les K pitchs recherchés. La seule différence avec un son partiellement ou totalement voisé réside dans la valeur des coefficients β et α . Pour éviter cette situation, le calcul selon l'étape 5 ne retient que les excitations périodiques pour lesquelles les coefficients β et α sont compris dans des plages de valeurs restreintes : par exemple, des valeurs positives inférieures à 1 pour β ≧ 0,3 et β ≦ 1, et des valeurs proches de 1 pour α,|α| = 0,2. La limitation des valeurs de α permet également d'éviter des impulsions de diracs négatives représentatives de l'autocorrélation. Le coefficient α peut répondre par exemple à la relation suivante : (16)   |α| ≦ 1 INT (M max /M k )

Figure imgb0025
Indeed, in the case of a completely unvoiced signal, for example a speech signal without a vowel, the method according to the invention is capable of determining the K pitch sought. The only difference with a partially or totally voiced sound lies in the value of the coefficients β and α. To avoid this situation, the calculation according to step 5 retains only the periodic excitations for which the coefficients β and α are included in restricted ranges of values: for example, positive values less than 1 for β ≧ 0.3 and β ≦ 1, and values close to 1 for α, | α | = 0.2. Limiting the values of α also makes it possible to avoid pulses of negative diracs representative of the autocorrelation. The coefficient α can respond for example to the following relationship: (16) | α | ≦ 1 INT (M max / M k )
Figure imgb0025

L'étape 10 du procédé, consiste en un test supplémentaire sur la valeur du compteur k à l'issue du calcul des coefficients Mk, αk et βk effectué par l'étape 5 du procédé.Step 10 of the method consists of an additional test on the value of the counter k after the calculation of the coefficients M k , α k and β k carried out by step 5 of the method.

Ce test prend en compte l'éventualité que la première excitation analysée, k<2, par le procédé soit le signal de parole recherché. Dans ce cas, l'étape 10 est rebouclée sur l'incrémentation du compteur k représentée par l'étape 4.This test takes into account the possibility that the first excitation analyzed, k <2, by the method is the desired speech signal. In this case, step 10 is looped back to the incrementation of the counter k represented by step 4.

Dans l'autre cas, k≧2, l'étape 11 du procédé recalcule les coefficients calculés par l'étape 5: l'algorithme utilisé par le procédé selon l'invention est sub-optimal, c'est-à-dire qu'il recherche les K excitations périodiques les unes après les autres, alors qu'en toute rigueur il devrait les rechercher toutes à la fois. De plus, les vecteurs Slk ne sont pas orthogonaux, ils partagent tous les autocorrélations r-p à rp créant des interférences entre les diverses autocorrélations. Afin d'optimiser l'algorithme, l'étape 11 recalcule les coefficients α₁, α₂,..., αk-1 et β₁, β₂,...,βk-1 en plus de αk et βk à la kème itération, en conservant les valeurs de pitchs Mk précédemment calculés; ce qui revient à une résolution d'un système de K équations linéaires.In the other case, k ≧ 2, step 11 of the method recalculates the coefficients calculated by step 5: the algorithm used by the method according to the invention is sub-optimal, that is to say that 'he searches for the K periodic excitations one after the other, whereas in all rigor he should seek them all at once. In addition, the vectors Sl k are not orthogonal, they share all the autocorrelations r -p to r p creating interference between the various autocorrelations. In order to optimize the algorithm, step 11 recalculates the coefficients α₁, α₂, ..., α k-1 and β₁, β₂, ..., β k-1 in addition to α k and β k at the kth iteration, keeping the pitch values M k previously calculated; which amounts to a resolution of a system of K linear equations.

Les étapes 6 et 7 suivantes correspondent respectivement à celles du procédé de la figure 1.The following steps 6 and 7 correspond respectively to those of the method of FIG. 1.

Une dernière correction est apportée au premier mode de réalisation du procédé selon l'invention par une étape 12 qui, compte tenu de la sub-optimalité de l'algorithme, consiste à corriger les valeurs de pitch Mk :A final correction is made to the first embodiment of the method according to the invention by a step 12 which, taking into account the sub-optimality of the algorithm, consists in correcting the pitch values M k :

En effet, il est possible de trouver à la kème itération un pitch Mk de valeur identique à celle de l'un des pitchs déjà calculé. Pour améliorer l'algorithme, l'étape 12 optimise le calcul au-delà du nombre K effectif d'excitations recherché et choisit et/ou regroupe parmi les K'(K'< K) excitations celles qui donnent le meilleur résultat acoustique. Par exemple, deux excitations dont les valeurs de M sont trop voisines pour être discernées sont regroupées en une seule excitation. La détermination du niveau de l'excitation apériodique reste quant à elle identique dans les deux modes de réalisation du procédé selon l'invention. Une fois les différentes excitations déterminées par le procédé selon l'invention, l'analyse se poursuit par une quantification selon des procédés connus.Indeed, it is possible to find at the kth iteration a pitch M k of value identical to that of one of the pitchs already calculated. To improve the algorithm, step 12 optimizes the calculation beyond the effective number K of excitations sought and chooses and / or groups among the K '(K'<K) excitations those which give the best acoustic result. For example, two excitations whose values of M are too close to be discerned are grouped into a single excitation. The determination of the aperiodic excitation level remains identical in the two embodiments of the method according to the invention. Once the various excitations have been determined by the method according to the invention, the analysis continues with a quantification according to known methods.

Un mode de réalisation d'un vocodeur permettant la mise en oeuvre du procédé selon l'invention est représenté à la figure 4. Ce dispositif comporte un générateur de bruit 13 délivrant une forme d'onde aléatoire, ou excitation apériodique, K générateurs 14₁ à 14k délivrant chacun un train d'ondes périodiques où chaque période du fondamental, "pitch", est notée respectivement M₁ à Mk. L'excitation apériodique correspond aux sons non voisés comme la plupart des consonnes et les K trains d'ondes périodiques correspondent à des sons voisés comme les voyelles. L'excitation apériodique et les K excitations apériodiques ainsi définies sont affectées respectivement d'un gain G₀ à Gk modulable dans le temps représenté respectivement par les cercles 15₀ à 15k. Les K + 1 excitations sont ensuite injectées simultanément à l'entrée d'un sommateur 16. En sortie du sommateur 16, on obtient les k + 1 excitations superposées qui sont injectées sur une première entrée d'opérande d'un opérateur de multiplication 17. La deuxième entrée d'opérande permet d'ajuster le niveau global des k + 1 excitations. Après avoir défini le niveau global et la répartition des gains des diverses excitations, tout en respectant la relation suivante G₀ + G₁ + ... + Gk = 1, le signal de sortie de l'opérateur 17 est injecté en entrée d'un filtre d'analyse 18, par exemple, un filtre de prédiction d'ordre P qui en utilisant le procédé d'analyse selon l'invention délivre en sortie un signal de parole synthétique débarrassé des bruits ambiants .An embodiment of a vocoder allowing the implementation of the method according to the invention is shown in FIG. 4. This device comprises a noise generator 13 delivering a random wave form, or aperiodic excitation, K generators 14₁ to 14 k each delivering a train of periodic waves where each period of the fundamental, "pitch", is denoted respectively M₁ to M k . The aperiodic excitation corresponds to unvoiced sounds like most consonants and the K periodic wave trains correspond to voiced sounds like vowels. The aperiodic excitation and the K aperiodic excitations thus defined are affected respectively by a gain G₀ to G k which can be modulated over time represented respectively by the circles 15₀ to 15 k . The K + 1 excitations are then injected simultaneously at the input of a summator 16. At the output of the summator 16, we obtain the k + 1 superimposed excitations which are injected on a first operand input of a multiplication operator 17 The second operand entry allows you to adjust the overall level of the k + 1 excitations. After defining the overall level and the distribution of the gains of the various excitations, while respecting the following relation G₀ + G₁ + ... + G k = 1, the output signal of the operator 17 is injected at the input of a analysis filter 18, for example, a P-order prediction filter which, using the analysis method according to the invention, outputs a synthetic speech signal free of ambient noise.

Un procédé de quantification utilisable avec un tel vocodeur est donné à titre d'exemple :A quantification method usable with such a vocoder is given by way of example:

De façon usuelle, le niveau global de l'énergie de la trame est quantifié semi-logarithmiquement sur 5 bits.Usually, the overall level of the energy of the frame is quantified semi-logarithmically on 5 bits.

En supposant l'existence de K = 3 générateurs d'excitation périodique, et en admettant une quantification non linéaire du pitch sur 6 bits, avec Mmin = 20 et Mmax = 160, il faut 18 bits pour définir les trois pitchs, M₁, M₂ et M₃.Assuming the existence of K = 3 generators of periodic excitation, and admitting a non-linear quantization of the pitch over 6 bits, with M min = 20 and M max = 160, 18 bits are needed to define the three pitches, M₁ , M₂ and M₃.

Enfin, pour s'affranchir des erreurs de transmission affectant le pitch, et ne pas avoir à transmettre le gain β₀ du générateur de bruit, on propose plutôt de transmettre les valeurs des niveaux initiaux βi,init(i = 1...K) des générateurs périodiques de leurs niveaux finaux βi,fin(i = 1...K) ces niveaux finaux étant atteints sur la durée N d'une trame, et étant définis par l'expression suivante :

Figure imgb0026
Finally, to get rid of transmission errors affecting the pitch, and not have to transmit the gain β₀ of the noise generator, we rather suggest transmitting the values of the initial levels β i, init (i = 1 ... K ) periodic generators of their final levels β i, end (i = 1 ... K) these final levels being reached over the duration N of a frame, and being defined by the following expression:
Figure imgb0026

A raison de 2 bits par coefficient, ceci représente un total de 3(2+2) = 12 bits, sachant par ailleurs que β₀ est le complément à 1 de la somme des βi.At the rate of 2 bits per coefficient, this represents a total of 3 (2 + 2) = 12 bits, knowing also that β₀ is the complement to 1 of the sum of β i .

Le nombre de bits alloués à l'excitation est donc de 5 + 18 + 12 = 35.The number of bits allocated to the excitation is therefore 5 + 18 + 12 = 35.

En utilisant pour la quantification du filtre de prédiction un procédé similaire à celui mis en oeuvre pour un vocodeur à 1200 bits/seconde, où le débit est d'environ 25 bits par filtre pour une qualité équivalente à celle du 2400 bits/seconde, le débit obtenu est de 2400 bits/seconde au plus pour des trames de 25 ms au moins.By using for the quantification of the prediction filter a method similar to that implemented for a vocoder at 1200 bits / second, where the bit rate is about 25 bits per filter for a quality equivalent to that of 2400 bits / second, the bit rate obtained is 2400 bits / second at the most for frames of 25 ms at least.

Claims (9)

Procédé de discrimination de la parole en présence de bruits ambiants pour vocodeur à faible débit du type comportant une excitation périodique, une excitation apériodique et un filtre d'analyse d'ordre P, caractérisé en ce qu'il consiste pour analyser un signal Sn composé de la somme d'un nombre K déterminé d'excitations périodiques et d'une excitation apériodique, à calculer (1) l'autocorrélation globale rm du signal Sn, à calculer (2) les sommes partielles tm de l'autocorrélation à court terme sm corrélée avec l'autocorrélation globale rm, à initialiser (3) un compteur k et tant que le compteur k n'atteint pas la valeur maximale K correspondant au nombre maximal d'excitations périodiques (6), pour chaque incrémentation (4) du compteur k, après avoir corrigé (7) le calcul des sommes partielles tm, à calculer (5) les valeurs du pitch Mk, du gain βk et de la pente du gain αk de chaque excitation périodique, et à déterminer le niveau de l'excitation apériodique β₀ en fonction de l'autocorrélation globale rm en début d'analyse et de l'autocorrélation rm en fin d'analyse.Speech discrimination method in the presence of ambient noise for a low bit rate vocoder of the type comprising a periodic excitation, an aperiodic excitation and a P-order analysis filter, characterized in that it consists in analyzing a signal S n composed of the sum of a determined number K of periodic excitations and an aperiodic excitation, to calculate (1) the global autocorrelation r m of the signal S n , to calculate (2) the partial sums t m of the short-term autocorrelation s m correlated with global autocorrelation r m , to initialize (3) a counter k and as long as the counter k does not reach the maximum value K corresponding to the maximum number of periodic excitations (6), for each incrementation (4) of the counter k, after having corrected (7) the calculation of the partial sums t m , to calculate (5) the values of the pitch M k , of the gain β k and of the slope of the gain α k of each excitation periodic, and to determine the level of e aperiodic xcitation β₀ as a function of the global autocorrelation r m at the start of analysis and the autocorrelation r m at the end of analysis. Procédé selon la revendication 1, caractérisé en ce que l'autocorrélation globale rm est bornée entre une valeur minimale m = - P, où P correspond à l'ordre de prédiction à court terme du filtre d'analyse, et une valeur maximale m = Mmax + P, où Mmax correspond à la valeur maximale du pitch Mk considéré.Method according to claim 1, characterized in that the global autocorrelation rm is bounded between a minimum value m = - P, where P corresponds to the short-term prediction order of the analysis filter, and a maximum value m = M max + P, where M max corresponds to the maximum value of the pitch M k considered. Procédé selon l'une quelconque des revendications 1 et 2, caractérisé en ce que les valeurs Mk, βk et αk sont déterminées en minimisant par une méthode des moindre carré la distance d définie comme étant la distance entre le vecteur R de l'autocorrélation globale rm et le vecteur Slk de l'autocorrélation à court terme sm convolué avec la kème excitation périodique, multiplié par le gain βk.Method according to either of Claims 1 and 2, characterized in that the values M k , β k and α k are determined by minimizing by a least square method the distance d defined as being the distance between the vector R of l global autocorrelation r m and the vector Sl k of the short-term autocorrelation s m convoluted with the kth periodic excitation, multiplied by the gain β k . Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que les sommes partielles tm sont modifiées en soustrayant des sommes partielles tm, les valeurs de l'autocorrélation d'échantillons sm de l'autocorrélation à court terme et en remplaçant les anciennes sommes partielles tm par les nouvelles sommes tm' résultant de la soustraction.Method according to any one of Claims 1 to 3, characterized in that the partial sums t m are modified by subtracting partial sums t m , the values of the autocorrelation of samples s m from the short-term autocorrelation and replacing the old partial sums t m by the new sums t m 'resulting from the subtraction. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce qu'il consiste en outre à prétraiter (8) le signal d'entrée Sn pour affiner le calcul (1) de l'autocorrélation globale rm, à pondérer (9) l'autocorrélation globale rm par une fenêtre de pondération limitant le nombre de répliques de l'autocorrélation, à tester (10) après le calcul (5) des valeurs de Mk, βk et αk, si la valeur du compteur k est strictement inférieure à deux, alors à incrémenter (4) le compteur k, sinon à recalculer (10) les valeurs αi et βi respectivement à αk et βk en conservant les valeurs de Mk précédemment calculées, de i égal à un, à i égal à la valeur du compteur k, et tant que la valeur du compteur k n'a pas atteint la valeur maximale K, à incrémenter (4) le compteur k, et quand la valeur maximale K est atteinte, à regrouper en une seule excitation, deux excitations dont les valeurs Mk sont trop voisines pour être discernables.Method according to any one of Claims 1 to 4, characterized in that it also consists in preprocessing (8) the input signal S n in order to refine the calculation (1) of the global autocorrelation r m , to be weighted (9) the global autocorrelation r m by a weighting window limiting the number of replicas of the autocorrelation, to be tested (10) after the calculation (5) of the values of M k , β k and α k , if the value of the counter k is strictly less than two, then increment (4) the counter k, otherwise recalculate (10) the values α i and β i respectively to α k and β k while retaining the values of M k previously calculated, of i equal to one, i equal to the value of counter k, and as long as the value of counter k has not reached the maximum value K, to increment (4) the counter k, and when the maximum value K is reached , to combine in a single excitation, two excitations whose values M k are too close to be discernible. Procédé selon la revendication 5, caractérisé en ce que le prétraitement (8) du signal d'entrée Sn est une prédiction auto-adaptative permettant un blanchissement du spectre du signal d'entrée Sn.Method according to claim 5, characterized in that the preprocessing (8) of the input signal S n is a self-adaptive prediction allowing a whitening of the spectrum of the input signal S n . Procédé selon la revendication 6, caractérisé en ce que la fenêtre de pondération de l'autocorrélation globale rm est une fonction non croissante du temps dont la largeur est choisi supérieure à l'intervalle maximal d'analyse.Method according to Claim 6, characterized in that the weighting window for the global autocorrelation r m is a non-increasing function of the time, the width of which is chosen to be greater than the maximum analysis interval. Vocodeur pour la mise en oeuvre du procédé selon l'une quelconque des revendications 1 à 7, caractérisé en ce qu'il comporte un générateur de bruit (13) délivrant une excitation apériodique, K générateurs (14₁ à 14k) délivrant K excitations périodiques, les K + 1 excitations étant affectées respectivement d'un gain (G₀ à Gk) modulable dans le temps et tel que la somme des gains (G₀ à Gk) est égale à un, un circuit sommateur (16) recevant les K + 1 excitations dont la sortie est couplée à une première entrée d'opérande d'un opérateur de multiplication (17), la deuxième entrée d'opérande permettant d'ajuster le niveau global des K + 1 excitations, et un filtre d'analyse (18) assurant l'analyse des k + 1 excitations pour en déduire le signal synthétique représentatif de la parole en présence de bruits ambiants.Vocoder for implementing the method according to any one of claims 1 to 7, characterized in that it comprises a noise generator (13) delivering an aperiodic excitation, K generators (14₁ to 14 k ) delivering K periodic excitations , the K + 1 excitations being affected respectively by a gain (G₀ to G k ) adjustable over time and such that the sum of the gains (G₀ to G k ) is equal to one, a summing circuit (16) receiving the K + 1 excitations whose output is coupled to a first operand input of a multiplication operator (17), the second operand input allowing the overall level of the K + 1 excitations to be adjusted, and an analysis filter (18) ensuring the analysis of the k + 1 excitations in order to deduce therefrom the synthetic signal representative of speech in the presence of ambient noise. Vocodeur selon la revendication 8, caractérisé en ce que le filtre d'analyse (18) est un filtre de prédiction linéaire d'ordre P = 10.Vocoder according to claim 8, characterized in that the analysis filter (18) is a linear prediction filter of order P = 10.
EP93402670A 1992-11-06 1993-10-29 Method for the discrimination of speech in presence of ambient noise and low bit-rate vocoder to implement the method Withdrawn EP0596785A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9213397 1992-11-06
FR9213397A FR2697937A1 (en) 1992-11-06 1992-11-06 A method of discriminating speech in the presence of ambient noise and a low rate vocoder for the implementation of the method.

Publications (1)

Publication Number Publication Date
EP0596785A1 true EP0596785A1 (en) 1994-05-11

Family

ID=9435311

Family Applications (1)

Application Number Title Priority Date Filing Date
EP93402670A Withdrawn EP0596785A1 (en) 1992-11-06 1993-10-29 Method for the discrimination of speech in presence of ambient noise and low bit-rate vocoder to implement the method

Country Status (2)

Country Link
EP (1) EP0596785A1 (en)
FR (1) FR2697937A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005015953A1 (en) * 2003-08-12 2005-02-17 Sony Ericsson Mobile Communications Ab Method and electronic device for detecting noise in a signal based on autocorrelation coefficient gradients
US7130429B1 (en) 1998-04-08 2006-10-31 Bang & Olufsen Technology A/S Method and an apparatus for processing auscultation signals

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ISHIKAWA IKEDA: "Narrow to medium bands speech codec family based on LPC technique", NEC RESEARCH AND DEVELOPMENT, no. 85, April 1987 (1987-04-01), TOKYO JP, pages 112 - 121, XP000796772 *
JAIN, XU: "Autocorrelation distortion function for improved AR modeling", INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING, vol. 1, 6 April 1987 (1987-04-06), DALLAS TEXAS, pages 356 - 359 *
LIENARD: "Speech analysis and reconstruction using short time, elementary waveforms", INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING, vol. 2, 6 April 1987 (1987-04-06), DALLAS TEXAS, pages 948 - 951 *
SAGAYAMA, ITAKURA: "Duality theory of composite sinusoidal modeling and linear prediction", INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING, vol. 2, 7 April 1986 (1986-04-07), TOKYO JAPAN, pages 1261 - 1264 *
SUKKAR ET AL: "LPC excitation based on zinc function decomposition", IEEE GLOBAL TELECOMMUNICATION CONFERENCE, vol. 1, 28 November 1988 (1988-11-28), FLORIDA USA, pages 285 - 289, XP010071574 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7130429B1 (en) 1998-04-08 2006-10-31 Bang & Olufsen Technology A/S Method and an apparatus for processing auscultation signals
WO2005015953A1 (en) * 2003-08-12 2005-02-17 Sony Ericsson Mobile Communications Ab Method and electronic device for detecting noise in a signal based on autocorrelation coefficient gradients
US7305099B2 (en) 2003-08-12 2007-12-04 Sony Ericsson Mobile Communications Ab Electronic devices, methods, and computer program products for detecting noise in a signal based on autocorrelation coefficient gradients
US7499554B2 (en) 2003-08-12 2009-03-03 Sony Ericsson Mobile Communications Ab Electronic devices, methods, and computer program products for detecting noise in a signal based on autocorrelation coefficient gradients
CN1868236B (en) * 2003-08-12 2012-07-11 索尼爱立信移动通讯股份有限公司 Method and electronic device for detecting noise in a signal based on autocorrelation coefficient gradients

Also Published As

Publication number Publication date
FR2697937A1 (en) 1994-05-13

Similar Documents

Publication Publication Date Title
EP0666557B1 (en) Decomposition in noise and periodic signal waveforms in waveform interpolation
RU2257556C2 (en) Method for quantizing amplification coefficients for linear prognosis speech encoder with code excitation
US4852169A (en) Method for enhancing the quality of coded speech
EP0745971A2 (en) Pitch lag estimation system using linear predictive coding residual
EP0865028A1 (en) Waveform interpolation speech coding using splines functions
FR2706064A1 (en) Method and device for vectorial quantification
JPH08328591A (en) Method for adaptation of noise masking level to synthetic analytical voice coder using short-term perception weightingfilter
EP0865029B1 (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
CA2029768C (en) Method and device for coding very low flow rate vocoder predictive filters
EP0490740A1 (en) Method and apparatus for pitch period determination of the speech signal in very low bitrate vocoders
US4720865A (en) Multi-pulse type vocoder
US5696873A (en) Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
JPH0926800A (en) Voice coding system
EP0596785A1 (en) Method for the discrimination of speech in presence of ambient noise and low bit-rate vocoder to implement the method
US5937374A (en) System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame
EP0573358B1 (en) Variable speed voice synthesizer method and apparatus
Schafer Homomorphic systems and cepstrum analysis of speech
JPH0782360B2 (en) Speech analysis and synthesis method
FR2510288A1 (en) Underwater noise generator for sonar simulation - uses auto-correlator, to generate filter coefficients in series with white noise generator and predictive analysers
Rowe Techniques for harmonic sinusoidal coding
EP0713208B1 (en) Pitch lag estimation system
Paliwal Speech enhancement using multi-pulse excited linear prediction system
JP3552201B2 (en) Voice encoding method and apparatus
EP1192619B1 (en) Audio coding and decoding by interpolation
EP0469997B1 (en) Coding method and speech coder using linear prediction analysis

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): DE GB NL

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 19941112