FR2969360A1 - Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique - Google Patents

Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique Download PDF

Info

Publication number
FR2969360A1
FR2969360A1 FR1060631A FR1060631A FR2969360A1 FR 2969360 A1 FR2969360 A1 FR 2969360A1 FR 1060631 A FR1060631 A FR 1060631A FR 1060631 A FR1060631 A FR 1060631A FR 2969360 A1 FR2969360 A1 FR 2969360A1
Authority
FR
France
Prior art keywords
stage
coding
quantization
signal
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR1060631A
Other languages
English (en)
Inventor
Balazs Kovesi
Stephane Ragot
Guyader Alain Le
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR1060631A priority Critical patent/FR2969360A1/fr
Priority to EP11811097.2A priority patent/EP2652735B1/fr
Priority to CN201180067643.2A priority patent/CN103370740B/zh
Priority to KR20137018623A priority patent/KR20140005201A/ko
Priority to US13/995,014 priority patent/US20130268268A1/en
Priority to JP2013543859A priority patent/JP5923517B2/ja
Priority to PCT/FR2011/052959 priority patent/WO2012080649A1/fr
Publication of FR2969360A1 publication Critical patent/FR2969360A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

L'invention se rapporte à un procédé de codage d'un signal audio numérique d'entrée (x(n)) dans un codeur hiérarchique comprenant un étage de codage cœur à B bits et au moins un étage de codage d'amélioration courant k, délivrant des indices de quantification qui sont concaténés pour former les indices du codeur imbriqué précédent (I ). Le procédé est tel qu'il comporte les étapes d'obtention (303) de valeurs possibles de quantification ( d (n) ) pour l'étage d'amélioration courant k par la détermination de niveaux de reconstruction absolus du seul étage courant k à partir des indices du codeur imbriqué précédent (I ), de quantification (306) du signal d'entrée du codeur hiérarchique ayant subi ou non un traitement de pondération perceptuelle (x(n) ou x'(n)), à partir des dites valeurs possibles de quantification ( d (n) ) pour former un indice de quantification scalaire de l'étage k (I (n)) et un signal quantifié correspondant à une des valeurs possibles de quantification. L'invention se rapporte également à un codeur hiérarchique mettant en œuvre le procédé de codage tel que décrit.

Description

Codage perfectionné d'un étage d'amélioration dans un codeur hiérarchique La présente invention concerne le domaine du codage des signaux numériques. Le codage selon l'invention est adapté notamment pour la transmission et/ou le stockage de signaux numériques tels que des signaux audiofréquences (parole, musique ou autres).
La présente invention se rapporte plus particulièrement au codage de formes d'onde tel que le codage MIC (pour "Modulation par Impulsions Codées") dit PCM (pour "Pulse Code Modulation") en anglais, ou au codage adaptatif de forme d'onde de type codage MICDA (pour "Modulation par Impulsion et Codage Différentiel Adaptatif') dit "ADPCM" (pour "Adaptive Differential Pulse Code Modulation") en anglais. L'invention se rapporte notamment au codage à codes imbriqués permettant de délivrer des indices de quantification à train binaire scalable. Le principe général du codage/décodage MICDA à codes imbriqués spécifié par la recommandation UIT-T G.722 ou UIT-T G.727 est tel que décrit en référence aux figures 1 et 2.
La figure 1 représente ainsi un codeur à codes imbriqués de type MICDA (ex : G.722 bande basse, G.727) fonctionnant entre B et B+K bits par échantillon ; à noter que le cas d'un codage MICDA non scalable (ex : G.726, G.722 bande haute) correspond à K=O, où B est une valeur fixe qui peut être choisie parmi différents débits possibles. Il comporte: - un module de prédiction 110 permettant de donner la prédiction du signal x. (n) à partir des échantillons précédents du signal d'erreur quantifié e(n') = ya (n')v(n') n' = n -1,..., n - Nz , où v(n') est le facteur d'échelle de quantification, et du signal reconstitué r3(n' ) n' = n -1,...,n - NP où n est l'instant courant. - un module de soustraction 120 qui retranche du signal d'entrée x(n) sa prédiction x (n) pour obtenir un signal d'erreur de prédiction noté e(n) . - un module de quantification 130 QB+K du signal d'erreur qui reçoit en entrée le signal d'erreur e(n) pour donner des indices de quantification I B+K (n) constitués de B+K bits. Le module de quantification Qs+K est à codes imbriqués c'est-à-dire qu'il comporte un quantificateur de « coeur » à B bits et des quantificateurs à B + k k =1,...,K bits qui sont imbriqués sur le quantificateur de « coeur ». Dans le cas du codage de la bande basse de la norme UIT-T G.722 , les niveaux de décision et les niveaux de reconstruction des quantificateurs QB QB+i QB+2 pour B = 4 et K = 0, l ou 2 sont définis par les tableaux IV et VI de l'article de synthèse décrivant la norme G.722 de X. Maitre "7 kHz audio coding within 64 kbit/s." IEEE Journal on Selected Areas in Communication, Vol.6, no. 2, February 1988. L'indice de quantification 18+K(n) de B+ K bits en sortie du module de quantification QB+K est transmis via le canal de transmission 140 au décodeur tel que décrit 10 en référence à la figure 2. Le codeur comporte également: - un module 150 de suppression des K bits de poids faible de l'indice I B+K (n) pour donner un indice bas débit IB(n) sur B bits; - un module de quantification inverse 121 (QB) pour donner en sortie un signal 15 d'erreur quantifié eQ (n) = ya (n) v(n) sur B bits; - un module d'adaptation 170 Q4dap, des quantificateurs et des quantificateurs inverses pour donner un paramètre de contrôle de niveau v(n) encore appelé facteur d'échelle, pour l'instant suivant; - un module d'addition 180 de la prédiction 4(n) au signal d'erreur quantifié pour 20 donner le signal reconstruit à bas débit rB (n) ; - un module d'adaptation 190 1" 4dap, du module de prédiction à partir du signal d'erreur quantifié sur B bits eQ (n) et du signal eQ (n) filtré par 1+P (z) . On peut remarquer que sur la figure 1 la partie en pointillés référencée 155 représente le décodeur local à bas débit qui contient les prédicteurs 165 et 175 et le 25 quantificateur inverse 121. Ce décodeur local permet ainsi d'adapter le quantificateur inverse en 170 à partir de l'indice bas débit IB(n) et d'adapter les prédicteurs 165 et 175 à partir des données bas débit reconstruites. Cette partie se retrouve à l'identique sur le décodeur MICDA à codes imbriqués tel que décrit en référence à la figure 2. 30 Le décodeur MICDA à codes imbriqués de la figure 2 reçoit en entrée les indices IB+K issu du canal de transmission 140, version de 18+,' éventuellement perturbée par des erreurs binaires, et réalise une quantification inverse par le module de quantification inverse -3 210 (Q`~) de débit B bits par échantillon pour obtenir le signal eQ (n) = y Q (n) v'(n) . Le symbole " ' " indique une valeur décodée à partir des bits reçus, éventuellement différente de celle utilisée par le codeur du fait d'erreurs de transmission. Le signal de sortie rie (n) pour B bits sera égal à la somme de la prédiction du signal et de la sortie du quantificateur inverse à B bits. Cette partie 255 du décodeur est identique au décodeur local bas débit 155 de la figure 1. Moyennant l'indicateur de débit mode et le sélecteur 220, le décodeur peut améliorer le signal restitué. En effet si mode indique que B+l bits ont été reçus, la sortie sera égale à la somme de la prédiction xB (n) et de la sortie du quantificateur inverse 230 à B+1 bits y /B , (n)v'(n) . Si mode indique que B+2 bits ont été reçus alors la sortie sera égale à la somme de la prédiction xB (n) et de la sortie du quantificateur inverse 240 à B+2 bits y ~i, z2(n)v'(n) . En utilisant les notations de la transformée en z, on peut écrire que dans cette structure bouclée : RB+k (z) = X (Z) + QB+k (z) en définissant le bruit de quantification à B+k bits QB+k (z) par : B+k (z) = EQ+k (z) - E(z) Le codage MICDA à codes imbriqués de la norme UIT-T G.722 (ci-après nommé G.722) réalise un codage des signaux en bande élargie qui sont définis avec une largeur de bande minimale de [50-7000 Hz] et échantillonnés à 16 kHz. Le codage G.722 est un codage MICDA de chacune des deux sous-bandes du signal [0-4000 Hz] et [4000-8000 Hz] obtenues par décomposition du signal par des filtres miroirs en quadrature. La bande basse est codée par un codage MICDA à codes imbriqués sur 6, 5 et 4 bits tandis que la bande haute est codée par un codeur MICDA de 2 bits par échantillon. Le débit total sera de 64, 56 ou 48 bit/s suivant le nombre de bits utilisé pour le décodage de la bande basse. Ce codage a d'abord été développé pour utilisation dans le RNIS (Réseau Numérique à Intégration de Services). Il a été récemment déployé dans les applications de téléphonie de qualité améliorée dite "voix Haute Définition (HD)" sur réseau IP. Pour un quantificateur à grand nombre de niveaux, le spectre du bruit de quantification sera relativement plat. Cependant, dans les zones fréquentielles où le signal a une faible énergie, le bruit peut avoir un niveau comparable voir supérieur au signal et n'est donc plus forcément masqué. II peut alors devenir audible dans ces régions. -4
Une mise en forme du bruit de codage est donc nécessaire. Dans un codeur comme G.722, une mise en forme du bruit de codage adaptée à un codage à codes imbriqués est de plus souhaitable. De façon générale, le but de la mise en forme du bruit de codage est d'obtenir un bruit de quantification dont l'enveloppe spectrale suit le seuil de masquage court-terme; ce principe est souvent simplifié de sorte que le spectre du bruit suive approximativement le spectre du signal, assurant un rapport signal à bruit plus homogène pour que le bruit reste inaudible même dans les zones de plus faible énergie du signal.
Une technique de mise en forme du bruit pour un codage de type MIC (pour "Modulation par Impulsions Codées") à codes imbriqués est décrite dans la recommandation UIT-T G.711.1 « Wideband embedded extension for G.711 pulse code modulation » ou « G.711.1: A wideband extension to ITU-T G.711 ». Y. Hiwasaki, S. Sasaki, H. Ohmuro, T. Mori, J. Seong, M. S. Lee, B. K&vesi, S. Ragot, J.-L. Garcia, C. Marro ,L. M., J. Xu, V.
Malenovsky, J. Lapierre, R. Lefebvre. EUSIPCO, Lausanne, 2008. Cette recommandation décrit ainsi un codage avec mise en forme du bruit de codage pour un codage de débit coeur. Un filtre perceptuel de mise en forme du bruit de codage est calculé sur la base des signaux décodés passés, issus d'un quantificateur coeur inverse. Un décodeur local de débit coeur permet donc de calculer le filtre de mise en forme du bruit.
Ainsi, au décodeur, il est possible de calculer ce filtre de mise en forme du bruit à partir des signaux décodés de débit coeur. Un quantificateur délivrant des bits d'amélioration est utilisé au codeur. Le décodeur recevant le flux binaire coeur et les bits d'amélioration, calcule le filtre de mise en forme du bruit de codage de la même façon qu'au codeur à partir du signal décodé de débit coeur et applique ce filtre au signal de sortie du quantificateur inverse des bits d'amélioration, le signal haut débit mis en forme étant obtenu en ajoutant le signal filtré au signal décodé de coeur. La mise en forme du bruit améliore ainsi la qualité perceptuelle du signal de débit coeur. Elle offre une amélioration limitée de la qualité pour les bits d'amélioration. En effet, la 30 mise en forme du bruit de codage n'est pas effectuée pour le codage des bits d'amélioration, l'entrée du quantificateur étant la même pour la quantification de coeur que pour la quantification améliorée. Le décodeur doit alors supprimer une composante parasite résultante par un filtrage adapté, lorsque les bits d'amélioration sont décodés en plus des bits coeur. 35 Le calcul supplémentaire d'un filtre au décodeur augmente la complexité du décodeur. -5
Cette technique n'est pas utilisée dans les décodeurs scalables standards déjà existants de type décodeur G.722 ou G.727. Il existe donc un besoin d'amélioration de la qualité des signaux quelque soit le débit tout en restant compatible avec les décodeurs scalables standards existants.
Une solution ne nécessitant pas d'effectuer au décodeur, de traitement de signal complémentaire est décrite dans la demande de brevet WO 2010/058117. Dans cette demande, le signal reçu au décodeur peut être décodé par un décodeur standard apte à décoder le signal de débit coeur et de débits imbriqués sans nécessiter de calcul de mise en forme du bruit ni de terme correctif.
Ce document décrit que pour un étage d'amélioration d'un codeur hiérarchique, la quantification s'effectue en minimisant un critère d'erreur quadratique dans un domaine perceptuellement filtré. Pour cela, un filtre de mise en forme du bruit de codage est défini et appliqué à un signal d'erreur déterminé à partir au moins d'un signal reconstruit d'un étage de codage précédent. La méthode nécessite également le calcul du signal reconstruit de l'étage d'amélioration courant en prévision d'un étage de codage suivant. De plus, des termes d'amélioration sont calculés et stockés pour l'étage courant d'amélioration. Ceci apporte donc une complexité importante et un stockage important de termes d'amélioration ou d'échantillons de signal reconstruits des étages précédents.
Cette solution n'est donc pas optimale d'un point de vue complexité. Il existe donc un besoin d'améliorer les méthodes de l'état de l'art pour le codage et la mise en forme du bruit de codage d'amélioration, tout en restant compatible avec les décodeurs hiérarchiques existants.
La présente invention vient améliorer la situation. Elle propose à cet effet, un procédé de codage d'un signal audio numérique d'entrée (x(n)) dans un codeur hiérarchique comprenant un étage de codage coeur à B bits et au moins un étage de codage d'amélioration courant k, le codage coeur et le codage des étages d'amélioration précédant l'étage courant k délivrant des indices de quantification qui sont concaténés pour former les indices du codeur imbriqué précédent (Ia+k-». Le procédé est tel qu'il comporte les étapes suivantes: - obtention de valeurs possibles de quantification pour l'étage d'amélioration courant k à partir des niveaux de reconstruction absolus du seul étage courant k et des indices du codeur imbriqué précédent; - quantification du signal d'entrée du codeur hiérarchique ayant subi ou non un traitement de pondération perceptuelle, à partir des dites valeurs possibles de quantification -6
pour former un indice de quantification de l'étage k et un signal quantifié correspondant à une des valeurs possibles de quantification. Ainsi, la quantification de l'étage d'amélioration détermine le ou les bits d'indice de quantification qui sont directement concaténés aux indices des étages précédents. Il n'y a pas, contrairement aux méthodes de l'état de l'art, de calcul d'un signal d'amélioration ou de termes d'amélioration. De plus, le signal en entrée de la quantification est soit directement le signal d'entrée du codeur hiérarchique, soit ce même signal d'entrée ayant directement subi un traitement de pondération perceptuelle. Il ne s'agit pas ici d'un signal différence entre le signal d'entrée et un signal reconstruit des étages de codage précédent comme dans les techniques de l'état de l'art. La complexité en termes de charge de calcul en est donc réduite. De plus, contrairement aux méthodes de l'état de l'art, les valeurs de quantification stockées ne sont pas des valeurs différentielles. Ainsi, il n'est pas utile de mémoriser les valeurs de quantification servant de reconstruction dans les étages précédents pour constituer un dictionnaire de quantification de l'étage d'amélioration. D'autre part, contrairement aux méthodes de l'état de l'art, il n'est pas nécessaire de construire et de mémoriser un dictionnaire différentiel, car l'étage amélioration utilise directement des niveaux absolus stockés par l'encodeur et décodeur hiérarchique existant (y s+k(n) ). Ainsi l'invention évite la duplication des dictionnaires que l'on peut rencontrer dans les méthodes de l'état de l'art où un dictionnaire différentiel est utilisé au codeur et un dictionnaire absolu au décodeur. La mémoire requise pour le stockage des dictionnaires et les opérations de quantification au codeur et quantification inverse au décodeur est donc réduite. Enfin, le fait d'obtenir directement les valeurs de quantification de l'étage d'amélioration sans effectuer de différence, apporte une précision supplémentaire entre les valeurs obtenues au codeur et celles obtenues au décodeur lorsque l'on travaille par exemple en précision finie. Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du 30 procédé défini ci-dessus. Dans un mode de réalisation particulier, le signal d'entrée a subi un traitement de pondération perceptuelle utilisant un filtre de pondération prédéterminé pour donner un signal d'entrée modifié, avant l'étape de quantification et le procédé comporte en outre une étape d'adaptation des mémoires du filtre de pondération à partir du signal quantifié de l'étage 35 de codage d'amélioration courant.
Ce traitement de pondération perceptuelle appliquée directement sur le signal d'entrée du codeur hiérarchique pour le codage d'amélioration de l'étage k réduit également la complexité en terme de charge de calculs par rapport aux techniques de l'état de l'art qui effectuaient ce traitement de pondération perceptuelle sur un signal différence entre le signal d'entrée et un signal reconstruit des étages de codage précédent. Ainsi, le procédé de codage décrit permet aussi aux décodeurs existants de décoder le signal sans avoir de modifications à apporter ou de traitement supplémentaires à prévoir tout en bénéficiant de l'amélioration du signal par une mise en forme du bruit de codage efficace.
Dans un mode particulier de réalisation, les valeurs possibles de quantification pour l'étage d'amélioration k contiennent en outre un facteur d'échelle et une valeur de prédiction provenant du codage coeur de type adaptatif. Ceci permet d'adapter les valeurs de quantification par rapport aux valeurs définies au codage coeur.
Dans une alternative de réalisation, le signal d'entrée modifié à quantifier à l'étage d'amélioration k est le signal d'entrée pondéré perceptuellement auquel est soustrait une valeur de prédiction provenant du codage coeur de type adaptatif. Ceci permet également d'adapter les valeurs de quantification par rapport aux valeurs définies au codage coeur mais en effectuant cette adaptation en entrée du quantificateur plutôt que sur chaque valeur de quantification. Ceci est avantageux dans le cas où l'amélioration s'effectue sur plusieurs bits. De façon particulière, le traitement de pondération perceptuelle, s'effectue par des filtres de prédictions formant un filtre de type ARMA. La mise en forme du bruit de codage d'amélioration est alors de bonne qualité.
La présente invention se rapporte également à un codeur hiérarchique d'un signal audio numérique d'entrée, comprenant un étage de codage coeur à B bits et au moins un étage de codage d'amélioration courant k, le codage coeur et le codage des étages d'amélioration précédant l'étage courant k délivrant des indices de quantification qui sont concaténés pour former les indices du codeur imbriqué précédent. Le codeur est tel qu'il comporte: - un module d'obtention de valeurs possibles de quantification pour l'étage d'amélioration courant k par la détermination de niveaux de reconstruction absolus du seul étage courant k à partir des indices du codeur imbriqué précédent; - un module de quantification du signal d'entrée du codeur hiérarchique ayant subi ou non un traitement de pondération perceptuelle, à partir des dites valeurs possibles de 35 quantification pour former un indice de quantification de l'étage k et un signal quantifié correspondant à une des valeurs possibles de quantification. - 8
Le codeur hiérarchique comporte en outre un module de prétraitement de pondération perceptuelle utilisant un filtre de pondération prédéterminé pour donner un signal d'entrée modifié en entrée du module de quantification et un module d'adaptation des mémoires du filtre de pondération à partir du signal quantifié de l'étage de codage d'amélioration courant. Le codeur hiérarchique apporte les mêmes avantages que ceux du procédé qu'il met en oeuvre. Elle se rapporte aussi à un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de codage selon l'invention, lorsque ces instructions sont exécutées par un processeur. L'invention se rapporte enfin à un moyen de stockage lisible par un processeur mémorisant un programme informatique tel que décrit. D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels: - la figure 1 illustre un codeur de type MICDA à codes imbriqués selon l'état de l'art et tel que décrit précédemment; - la figure 2 illustre un décodeur de type MICDA à codes imbriqués selon l'état de l'art et tel que décrit précédemment; - la figure 3 illustre un mode de réalisation général du procédé de codage selon l'invention et d'un codeur selon l'invention; - la figure 4 illustre un premier mode de réalisation particulier du procédé de codage et d'un codeur selon l'invention; - la figure 5 illustre un deuxième mode de réalisation particulier du procédé de codage et d'un codeur selon l'invention; - la figure 6 illustre un troisième mode de réalisation particulier du procédé de codage et d'un codeur selon l'invention; - la figure 7 illustre une alternative de réalisation générale du procédé de codage et d'un codeur selon l'invention; - la figure 7b illustre une autre alternative de réalisation générale du procédé de codage et d'un codeur selon l'invention; - la figure 8 illustre un exemple de réalisation du codage coeur d'un codeur selon l'invention; - la figure 9 illustre un exemple de niveaux de reconstruction de quantification utilisés dans l'état de l'art; et - la figure 10 illustre un mode de réalisation matérielle d'un codeur selon l'invention.
En référence à la figure 3, un codeur ainsi qu'un procédé de codage selon un mode de réalisation de l'invention est décrit. On rappelle qu'on considère ici le cas d'un codeur à codes imbriqués ou codeur hiérarchique dans lequel un codage coeur à B bits et au moins un étage d'amélioration de rang k est prévu. Le codage coeur et les étages d'amélioration précédant le codage de l'étage d'amélioration k tel que représenté en 306, délivrent des indices de quantification scalaires multiplexés dans l'indice IB+k-1(n) de B+k-1 bits par échantillon. Dans les exemples de réalisation décrits ci-après, par soucis de simplification de présentation, l'étage d'amélioration (de rang k) est présenté comme produisant un bit supplémentaire par échantillon. Dans ce cas, le codage dans chaque étage d'amélioration implique de sélectionner une valeur parmi deux possibles. Comme il apparaîtra par la suite, le "dictionnaire absolu" - en termes de niveaux absolus (au sens de « non-différentiels »)-correspondant à toutes les valeurs de quantification que peut produire l'étage d'amélioration de rang k, est de taille 2B+k, ou parfois légèrement inférieure à 2B+k comme par exemple dans le codeur G.722 qui n'a que 60 niveaux possibles au lieu de 64 dans le quantificateur de 6 bits de bande basse. Le codage hiérarchique implique une structure en arbre binaire du "dictionnaire absolu", ce qui explique qu'il suffit d'un bit d'amélioration pour effectuer le codage étant donnés les B+k-1 bits des étages précédents. La figure 9 est un extrait du tableau VI de l'article précité X. Maitre et représente les 4 premiers niveaux du quantificateur de coeur à B bits pour B=4 bits et les niveaux des quantificateurs à B+1 et B+2 bits du codage de la bande basse d'un codeur G.722 ainsi que les valeurs de sortie du quantificateur d'amélioration de l'état de l'art pour B+2 bits. Comme illustré sur cette figure, le quantificateur imbriqué à B+1=5 bits est obtenu en "dédoublant" les niveaux du quantificateur à B=4 bits. Le quantificateur imbriqué à B+2=6 bits est obtenu en "dédoublant" les niveaux du quantificateur à B+1=5 bits. Le dédoublement des niveaux de reconstruction est en fait une conséquence de la contrainte de codage hiérarchique de la bande basse qui est mis en oeuvre dans G.722 sous la forme d'un dictionnaire de quantification scalaire (à 4, 5 ou 6 bits par échantillon) structuré en arbre. Dans l'état d'art, les valeurs enh8 âkx_,+ _ désignant des niveaux de reconstructions de quantification pour un étage d'amélioration k sont définis par la différence entre o les valeurs désignant les niveaux de reconstruction de la quantification d'un quantificateur imbriqué à B+k bits (B désignant le nombre de bits du codage coeur) et oles valeurs désignant les niveaux de reconstruction de quantification d'un 35 quantificateur imbriqué à B+k-1 bits, les niveaux de reconstruction du -10-
quantificateur imbriqué à B+k bits étant définis par dédoublement des niveaux de reconstruction du quantificateur imbriqué à B+k-1 bits. Avec l'invention les niveaux de reconstruction différentiels enhB Bkh_,+ listés à droite et encadrés en pointillés n'ont pas à être calculés ni stockés. Selon l'invention seuls les niveaux de reconstruction absolus y8+k de l'étage k sont calculés et stockés. Ces niveaux de reconstruction absolus ya+k de l'étage k sont utilisés au codeur de la même façon qu'au décodeur, dans le sens où le signal reconstruit peut être obtenu dans le cas général du codage MICDA à partir de ces niveaux de reconstruction absolus ya+k par multiplication par le facteur d'échelle v(n) et ajout du signal de prédiction 4(n) , comme déjà présenté en référence à la description de la Figure 2 qui représente le décodeur MICDA standard à codes imbriqués. Ces niveaux étant déjà définis et stockés dans le décodeur, le codeur ne rajoute donc aucune table de quantification supplémentaire dans le codec (codeur + décodeur). Le codage de l'étage d'amélioration selon l'invention est très facilement généralisable pour les cas où l'étage d'amélioration ajoute plusieurs bits par échantillon. Dans ce cas la taille du dictionnaire Dk(n) utilisé à l'étage d'amélioration, tel que défini ultérieurement, est simplement 2u où U>l est le nombre de bits par échantillon de l'étage d'amélioration. Le codeur tel que représenté en figure 3 montre un codeur à codes imbriqués ou codeur hiérarchique dans lequel un codage coeur à B bits et au moins un étage d'amélioration de rang k est prévu. Le codage coeur et les étages d'amélioration précédant le codage de l'étage d'amélioration k tel que représenté en 306, délivrent des indices de quantification scalaires qui sont concaténés pour former les indices du codeur imbriqué précédent IB+k-l(n) La figure 3 illustre simplement un module de codage MIC/MICDA 302 représentant le codage imbriqué précédant le codage d'amélioration en 306. Le codage coeur du codage imbriqué précédent peut éventuellement s'effectuer en utilisant le filtre de masquage déterminé en 301 pour mettre en forme du bruit de codage « coeur ». Un exemple de ce type de codage coeur est décrit ultérieurement en référence à la figure 8.
Ce module 302 délivre ainsi les indices IB+"«n) du codeur imbriqué ainsi que le signal de prédiction 4 (n) et le facteur d'échelle v(n) dans le cas où il s'agit bien d'un codage prédictif MICDA similaire à celui décrit en référence à la figure 1. -11- Dans le cas d'un codage MIC, le module 302 délivre simplement les indices de quantification imbriqués la+k'l(n). Par ailleurs on peut remarquer que le codage MIC est un cas particulier du codage MICDA en prenant xp (n) = 0 et v(n) =1 . La connaissance des indices de quantification imbriqués IB+k"1(n) et des niveaux de 5 reconstruction absolus yB+k , ainsi que le cas échéant, le signal de prédiction xp (n) et le facteur d'échelle v(n) permettent de déterminer les valeurs de quantification Dk(n) _ } dB+k (n) , d 7+k (n) } pour l'étage d'amélioration courant k dans le module de construction du dictionnaire des valeurs de quantification 303. Ce dictionnaire Dk(n) est utilisé par le quantificateur qualifié ici de "quantificateur d'amélioration" pour l'étage d'amélioration de 10 rang k. Ainsi, selon le mode de réalisation privilégié, les valeurs de quantification du dictionnaire sont définies de la façon suivante, dans le cas du codage MICDA: dB+k(n)=xp B (n)+y~8,,_,v(n) et dB+k(n)=xp(n)+y21kk_i+~v(n), B+k où y21~r~_,+_ , avec j= 0 ou 1, représentent deux valeurs possibles de quantification d'un 15 quantificateur imbriqués de B+k bits, prédéfinies et stockées au codeur et au décodeur. On peut voir les valeurs yB+k comme issues d'un «dédoublement» du dictionnaire y,a+k ' de l'étage précédent k-l. On remarque que les deux éléments du dictionnaire Dk(n) dépendent de I B+k-' . En fait, ce dictionnaire est un sous-ensemble du "dictionnaire absolu" défini comme: 20 U D (n) = {xp (n)+yer kh-'v(n),xp (n)+yB lkk ,+~v(n)} IB+k-I k kB+k-I Le "dictionnaire absolu" est un dictionnaire structuré en arbre. L'indice I B+'-' conditionne les différentes branches de l'arbre à prendre en compte pour déterminer les valeurs de quantification possibles de l'étage k (Dk(n)). 25 Le facteur d'échelle v(n) est déterminé par l'étage coeur du codage MICDA comme illustré en figure 1, l'étage d'amélioration utilise donc ce même facteur d'échelle pour mettre à l'échelle les mots de code du dictionnaire de quantification. Dans un mode de réalisation de l'invention, le codeur de la figure 3 ne comporte pas les modules 301 et 310, c'est-à-dire qu'il n'est pas prévu de traitement de mise en forme de 30 bruit de codage. Ainsi, c'est le signal d'entrée x(n) lui-même qui est quantifié par le module de quantification 306. Dans un mode particulier de réalisation, le codeur comporte en outre un module 301 de calcul d'un filtre de masquage et de détermination du filtre de pondération W(z) ou d'une 2969360 - 12 -
version prédictive WPRED (z) décrite ultérieurement. Le filtre de masquage ou de pondération est déterminé ici à partir du signal d'entrée x(n) mais pourrait très bien être déterminé à partir d'un signal décodé, par exemple du signal décodé du codeur imbriqué précédent XB+k (n) . Le filtre de masquage peut être déterminé ou adapté échantillon par échantillon ou par bloc d'échantillons. En effet, le codeur selon l'invention effectue une mise en forme du bruit de codage de l'étage d'amélioration en utilisant une quantification dans le domaine pondéré par le filtre W(z), c'est-à-dire en minimisant l'énergie du bruit de quantification filtré par W(z). Ce filtre de pondération est utilisé en 311 par le module de filtrage et plus globalement par le module 310 de prétraitement de pondération perceptuelle du signal d'entrée x(n). Ce prétraitement est appliqué directement sur le signal d'entrée x(n) et non pas sur un signal d'erreur comme ceci pouvait être le cas dans les techniques de l'état de l'art. Ce module 310 de prétraitement délivre un signal modifié x'(n) en entrée du quantificateur d'amélioration 307.
Le module de quantification 307 de l'étage d'amélioration k délivre un indice de quantification IenhB+k(n) qui sera concaténé aux indices du codage imbriqué précédent (IB+k"') pour former les indices du codage imbriqué courant (IB+k), par un module non représenté ici. Le module de quantification 307 de l'étage d'amélioration k choisit entre les deux valeurs d,e+k (n) et d2 ++k (n) du dictionnaire adaptatif Dk(n).
II reçoit en entrée le signal x'(n) et donne comme sortie, en passant par le module de décodage local 308, la valeur quantifiée XB+k (n) (où XB+k (n) est soit égale à d e+k (n) soit à d ,B" (n) ), en minimisant l'erreur quadratique entre x'(n) et .xB+k (n) . Le dictionnaire adaptatif Dk(n) contient donc directement la valeur quantifiée de sortie de l'étage k. Le module 308 donne la valeur quantifiée du signal d'entrée par quantification inverse de l'indice I',hk (n) . Au décodeur la même valeur est obtenue simplement en utilisant directement le quantificateur inverse de l'étage k et l'indice concaténé : XB+k (n) - xp (n)+ y8+hv(n). Ce signal quantifié est utilisé pour mettre à jour les mémoires du filtre de pondération W(z) de l'étage d'amélioration pour obtenir des mémoires qui correspond à une entrée x(n)_'(n). Typiquement on soustrait de la mémoire (ou des mémoires dans le cas du filtre type ARMA) plus récente(s) la valeur actuelle du signal décodé XB+k ). Ainsi, la quantification du signal x(n) se fait dans le domaine pondéré, ce qui veut dire qu'on minimise l'erreur quadratique entre x(n) et . e+k(n) après filtrage par le filtre - 13 -
W(z) . Le bruit de quantification de l'étage d'amélioration est donc mis en forme par un filtre I/W(z) pour rendre ce bruit moins audible. L'énergie du bruit de quantification pondéré est ainsi minimisé. Le mode de réalisation général du bloc 310 donné sur la figure 3 montre le cas 5 général où W(z) est un filtre de réponse impulsionnelle infinie (IIR, infinite impulse response) ou un filtre de réponse impulsionnelle finie (FIR, finite impulse response). On obtient le signal x'(n) en filtrant x(n) par W(z) puis quand la valeur quantifiée xB+k (n) est connue, les mémoires du filtre W(z) sont mises à jour comme si le filtrage avait été effectué sur le signal x(n)_'<(n). 10 La flèche en pointillés représente la mise à jour des mémoires du filtre. Ainsi, les étapes mises en oeuvre dans le codeur tel que illustré en figure 3 sont également représentées. On y retrouve en effet, les étapes suivantes: - obtention en 303 de valeurs possibles de quantification (d,.B+k (n)) pour l'étage d'amélioration courant k par la détermination de niveaux de reconstruction absolus du seul 15 étage courant k à partir des indices du codeur imbriqué précédent (k~,A ); - quantification en 306 du signal d'entrée du codeur hiérarchique ayant subi ou non un traitement de pondération perceptuelle (x(n) ou x'(n)), à partir des dites valeurs possibles de quantification (d,B+k (n)) pour former un indice de quantification de l'étage k (IensB+k(n)) et un signal quantifié (x B+k (n)) correspondant à une des valeurs possibles de quantification; 20 Dans le cas représenté en figure 3, le signal d'entrée a subi un traitement de pondération perceptuelle en 310 utilisant un filtre de pondération prédéterminé en 301 pour donner un signal d'entrée modifié x'(n), avant l'étape de quantification en 306. La figure 3 représente également l'étape d'adaptation en 311 des mémoires du filtre de pondération à partir du signal quantifié (x B+k (n)) de l'étage de codage d'amélioration 25 courant. Les figures 4, 5 et 6 décrivent à présent des modes de réalisation particuliers du bloc 310 de prétraitement. Les blocs 301, 302, 303, 306, 307 et 308 restent alors identiques à ceux décrits en référence à la figure 3. 30 La figure 4 représente un premier mode de réalisation du bloc 310 de prétraitement avec un filtre W(z) = A'(z) à réponse impulsionnelle finie (FIR pour Finite impulse response en anglais). 2969360 - 14 - Dans ce mode de réalisation, la mémoire du filtre contient uniquement les échantillons d'entrée passés du signal x(n)_.(n), notés: b a+k '), n'=n-1,...,n ND étant l'ordre du filtre perceptuel W(z).
En 302, le signal d'entrée x(n) est codé par le module de codage MIC/MICDA 302, avec ou sans mise en forme du bruit de codage du codeur imbriqué B+k-1,
En 303, un dictionnaire adaptatif Dk est construit en fonction des valeurs de prédiction x(n), du facteur d'échelle v(n)de l'étage coeur dans le cas d'un codage de type adaptatif MICDA et des indices de codage IB+k-1 (n) comme expliqué en référence à la figure 3. Le dictionnaire adaptatif Dk comporte dans le mode de réalisation particulier ou un seul bit d'amélioration est prévu dans l'étage d'amélioration k, les deux termes suivants:
d8~k (n) = x, (n)+ 8+8_,v(n) et de+k (n) = xp (n)+ yBi+A v(n) Dans ce mode de réalisation, on retrouve les étapes de calcul en 301 du filtre de masquage et de détermination du filtre de pondération W(z), ainsi que sa version prédictive 15 W,,RFV(z) basée sur des prédictions, c'est-à-dire des calculs utilisant uniquement des
échantillons passés. Rappelons ici la définition d'un filtre prédictif: Prenons comme exemple le cas d'un filtrage d'un signal x(n) par le filtre non récursif de fonction de transfert tout-zéro (aussi dit FIR pour Finite Impulse Response en 4 20 anglais (Filtre à réponse impulsionnelle finie)) A(z) d'ordre 4, A(z) = 1+1 a,z donnant pour résultat un signal y(n). Dans le domaine de la transformée en z, l'équation Y(z) = A(z) X (z) correspond à l'équation aux différences
y(n)=aox(n)+a,x(n-1)+a,x(n-2)+a x(n-3)+a4x(n-4) 25 Cette expression de y(n) peut être divisée en deux parties :
- la première ne dépend que de l'entrée présente x(n) : aox(n) . Le plus souvent et dans les cas qui nous intéressent dans ce document, a0 = 1
- la seconde qui ne dépend que l'entrée passée > 0:
u x(n-1)+azx(n-2)+a3x(n-3)+a4x(n-4) qui sera donc considérée comme la partie 30 prédictive du filtrage par analogie à la prédiction linéaire où elle représente la prédiction de x(n) à partir des échantillons précédents. 2969360 -15- Cette seconde partie correspond pour l'instant d'échantillonnage n à la «réponse à l'entrée nulle », ou en anglais «zero input reponse» (ZIR) ou encore «ringing» qui est en fait une prédiction généralisée. La transformée en z de cette composante est : YPRED (z) (A(z)-1)X (z) = HA,PRED (z)X (z) avec H,1.PRED (z) A(z)-1 5 De façon similaire, pour le filtrage d'un signal x(n) par un filtre récursif tout-pôle
1 4 B ( ) d'ordre 4 avec B (z) = 1 + résultant en un signal y(n), la fonction de transfert donne : Y(z) = B(z) X (z) avec comme équation aux différences :
10 y(n)=x(n)-b,y(n-1)-b,y(n-2)-b,y(n-3)-b4y(n-4) La partie innovation est x(n), la partie prédictive est
-b1y(n-1)-b,y (n-2)-b3y(n-3)-b4y(n-4) , de transformée en z YPRED (z) = -(B(z)-1)Y(z) = (1- B(z))Y(z). Il en est de même pour le cas où le filtre contient à la fois des zéros et des pôles (filtre ARMA pour AutoRegressive Moving Average) : Y(z) = A(z)x(z) B(z)
avec comme équation aux différences (dans cet exemple A(z) et B(z) sont d'ordre 4) : 4 4 Ia,x(n-i)-Ib,y(n-i) (n) y(n) = 4 4 La partie innovation est x(n), la partie prédictive est 1 a,x (n - i) - b; y (n - i) , de transformée en z YPRED(z)=(A(z)-l)X(z)-(B(z)-1)Y(z) , ou 1 ( ) ABz) X Z = HA6,PRED O Dans la suite, de façon générale HPRED (z) dénote un filtre dont le coefficient pour son entrée actuel x(n) est zéro. Les filtres récursifs tout-pôle 1 ou ARMA A(z) sont les filtres dit IIR pour B(z) B(z) Infinite Impulse Response en anglais (Filtre à réponse impulsionnelle infinie). YPRED (z)X(z) avec H48 ,PRED (z) B(z) A(z)-1 5 10 2969360 - 16-
Dans le cas présent, en figure 4, en utilisant le découpage d'un filtrage en parties innovation et prédictive, le terme dont l'énergie est à minimiser est alors: / x(n)+xPRED (n))-(xB+k (n)+xPRED (n)) Le signal à quantifier par le quantificateur d'amélioration de l'étage k est donc x'(n) = x(n)+xPRED (n)-xPRED (n) ou xPRED (n) et xPRED (n) sont obtenus en filtrant x(n) et xB+k(n) par le filtre de prédiction WPRED(z). Ces deux filtrages peuvent être combinés en un seul, l'entrée du filtre commun WPRFD (z) sera alors bB+k (n) = x(n) - , B+k (n) (par exemple par la mise à jour des mémoire du filtre). En sortie du filtrage, on obtient alors: b~~, PRED (n) -xPRED (n) - xPRED(n ) Le module de prétraitement 310 met en oeuvre les étapes de calcul d'une prédiction n) en filtrant par WPRED (z) en 404, des échantillons passés du signal B+k bw. PRED v (n) - ,x B+k (n)=b B+k) n=-1, -2, ...-ND obtenus en 409. Cette prédiction b,B,PRED (n) est ajoutée au signal d'entrée x(n) en 405 pour obtenir 15 le signal d'entrée modifié x'(n) du quantificateur de l'étage d'amélioration k. La quantification de x'(n) s'effectue en 306 par le module de quantification de l'étage d'amélioration k, pour donner l'indice de quantification I B1,k (n) de l'étage d'amélioration k et le signal décodé xB+k(n) de l'étage k. Le module 307 donne l'indice du mot de code I,,;,k(n) (1 bit dans l'exemple d'illustration) du dictionnaire adaptatif Di( qui 20 minimise l'erreur quadratique entre x' (n) et les valeurs de quantification d113(n) et d B" (n) . Cet indice est à concaténer à l'indice du codeur imbriqué précédent IB+k-' pour obtenir au décodeur l'indice du mot code de l'étage k IB+k. Le module 308 donne la valeur quantifiée du signal d'entrée par quantification inverse de l'indice B+k (n) = dB+k x ,, (n). 25 Au décodeur la même valeur est obtenue simplement en utilisant directement la quantification inverse de l'étage k et l'indice concaténée pour obtenir : v~3+k(n) =xp B (n)+Y 8+,v(n)- I(n) cnh -17- En 409, une étape de calcul du bruit de codage be+k (n) du codeur incluant l'étage k est effectuée par soustraction du signal d'entrée x(n) au signal synthétisé de l'étage k rs+k (n) pour les échantillons présents (n=0). Les opérations de prétraitement du bloc 310 permettent ainsi de mettre en forme le bruit de codage d'amélioration de l'étage k en effectuant une pondération perceptuelle du signal d'entrée x(n). C'est le signal d'entrée lui-même qui est pondéré perceptuellement et non pas un signal d'erreur comme c'est le cas dans les méthodes de l'état de l'art. La figure 5 illustre un autre exemple de réalisation du module de prétraitement en utilisant dans ce mode de réalisation un filtrage de type ARMA (pour Auto Regressif à Moyenne Ajustée) de fonction de transfert : 1-PD(z) 1-PN(z) L'enchainement des opérations selon la figure 5 est le suivant - Calcul en 301 du filtre de masquage et détermination du filtre de pondération 1-PD(z) -PN(z)' - Codage en 302 du signal d'entrée x(n) par un codeur imbriqué de type MIC/MICDA de B+k-1 bits, éventuellement avec mise en forme du bruit de codage en utilisant le filtre de masquage déterminé en 301 pour mettre en forme le bruit de codage; - Détermination en 303 du dictionnaire adaptatif Dk en fonction des valeurs de prédiction 4(n) et de facteur d'échelle v(n) (dans le cas d'un codage MICDA) de l'étage coeur, et des indices de quantification IB+k-i (n) ( die" (n)--- xP (n) + yz7+k,,-,B v(n) et i d8+k (n) (n)+ y2L,,,_,+1v(n) ); P Ces étapes sont équivalentes à celle décrites en référence à la figure 3. Le module de prétraitement 310 comporte une étape de calcul en 512 d'un signal de prédiction ban ed (n) du bruit de quantification filtré ba+k (n) , en ajoutant la prédiction N, calculée en 510 à partir des échantillons du bruit reconstitué filtré 1 pN (m)bek n-n2- e en retranchant la prédiction calculée en 511 à partir du bruit reconstitué (m)b8 +k (n - in) . W(z W( -18-
En 505, une étape d'addition du signal de prédiction bB , d (n) au signal x(n) est effectuée pour donner le signal modifié x'(n) . L'étape de quantification du signal modifié x'(n) est effectuée par le module de quantification 306, de la même manière que celle expliqué en référence aux figures 3 et 4.
Ainsi, la quantification du bloc 306 donne en sortie l'indice I e~,k (n) et le signal décodé à l'étage k za+k ( n ) En 509, une étape de soustraction du signal reconstruit xa+k (n) au signal x(n) est effectué, pour donner le bruit reconstruit ba+k (n) . En 513, une étape d'addition du signal de prédiction b,B p,.ea (n) au signal ba+k (n) 10 est effectué pour donner le bruit reconstruit filtré b,B+k (n) . Toutes les étapes effectuées en 505, 509, 510, 511, 512 et 513 par les modules du bloc de prétraitement 310, permettent de mettre en forme le bruit de codage pour l'étage de codage d'amélioration k. Cette mise en forme du bruit est alors effectué par deux filtres de prédiction constituant ainsi un filtre ARMA qui apporte une meilleure précision de mise en 15 forme du bruit. La figure 6 illustre encore un autre mode de réalisation du bloc de prétraitement 310 où ici la différence réside dans la façon dont le signal reconstruit filtré ba+k (n) est calculé. Le bruit reconstruit filtré bB+k (n) est obtenu ici en soustrayant le signal reconstruit .Xa+k (n) du signal x'(n) en 614. 20 Dans les figures 5 et 6 décrites ci-dessus, on peut parler également de mise à jour des mémoires des filtres de pondération à partir du signal de bruit reconstruit filtré ba+k (n) pour les échantillons passés. La figure 7 illustre une alternative de réalisation pour l'étape de quantification 306 du signal x' (n) en traitant différemment le signal prédit 4(n) provenant du codage coeur. 25 Ce mode de réalisation est présenté avec l'exemple de bloc de prétraitement 310 présenté à la figure 3, mais peut bien évidement s'intégrer avec des blocs de prétraitement décrits aux figures 4, 5 et 6. L'enchainement des operations selon la figure 7 est le suivant : Calcul en 301 du filtre de masquage et détermination du filtre de pondération W (z) ou de sa version prédictive WpRED Z). 2969360 - 19- - Codage en 302 du signal d'entrée x(n) , par un codeur imbriqué de type MIC/MICDA de B+k-1 bits, éventuellement avec mise en forme du bruit de codage en utilisant le filtre de masquage déterminé en 301 pour mettre en forme du bruit de codage; - Détermination en 701 du dictionnaire adaptatif Dk ' en fonction du facteur
5 d'échelle v(n) de l'étage coeur (dans le cas d'un codage MICDA) et des indices de quantification I B+k-i (n) du codage imbriqué précédent l'étage k (die+k' (n) = yen k,_, v (n) et
~B+k 21''"_'+Iv(" ;
- Filtrage du signal x(n) par W (z) en 311 pour obtenir le signal d'entrée modifié x'(n) du quantificateur d'amélioration avec pour mémoires du filtre W (z) des 10 valeurs correspondant àun signal d'entrée x(n)-zB+k (n);
Quantification de x' (n) en 706 pour donner l'indice I p+k (n) et le signal décodé à l'étage k xs+k (n) .
Dans ce mode de réalisation, le signal prédit 4(n) de l'étage coeur est soustrait du signal x' (n) (module 702) pour obtenir le signal modifié x" (n) = x' (n) - 4 (n). 15 Le module 707 donne l'indice du mot de code IB+,,k(n) (1 bit dans l'exemple
d'illustration) du dictionnaire adaptatif Dk ' qui minimise l'erreur quadratique entre 1) et les mots de code dB+k' (n) et d a+kf (n) . Cet indice est à concaténer à l'indice du codage imbriqué précédent IB+k-i pour obtenir au décodeur l'indice du codage imbriqué courant IB+k comprenant l'étage k. 20 Le module 708 donne la valeur quantifiée du signal x"(n) par quantification dB"' inverse de l'indice I B+' (n), enh )d$k'(n). Le module 703 calcule le signal quantifié de l'étage k en additionnant le signal prédit au signal de sortie du quantificateur B+k (n) = xe (n)+x"(n) . Enfin, une étape de mise à jour des mémoires du filtre W (z) est effectuée en 311, 25 pour obtenir des mémoires qui correspondent à une entrée x(n) -xB+k (n) . Typiquement on soustrait de la mémoire (ou des mémoires dans le cas du filtre type ARMA) plus récente(s) la valeur actuelle du signal décodé xBzk (n) . 2969360 - 20 - La solution sur la figure 7 est équivalente en termes de qualité et de stockage à celle de la figure 3, mais nécessite moins de calculs dans le cas où l'étage d'amélioration utilise plus qu'un bit. En effet, à la place d'additionner la valeur prédite xp (n) à tous les mots de code (>2) on ne fait qu'une soustraction avant la quantification et qu'une addition pour
5 retrouver la valeur quantifiée xe+k (n) . La complexité est donc réduite.
Une autre alternative de réalisation est illustrée en figure 7b. Ici, le dictionnaire adaptatif Dk "est construit en soustrayant les niveaux de reconstruction de l'étage k pondérés le cas échéant par le facteur d'échelle v(n), au signal d'entrée modifié (dB+k" (n) = x' (n)-y28k,,,v(n) et dB+k"(n)= x' (n)-yBJ!*,_,+iv(n)). Dans ce cas de figure, c'est le signal de prédiction xp (n) qui est quantifié en minimisant l'erreur quadratique. Puis le signal décodé xB+k (n) pour la mise à jour des mémoires est obtenu de la façon suivante: zB+k (n) = x' (n) + xp (n) - d B±k "(n) . ,h. La figure 8 détaille une réalisation possible d'une mise en forme du bruit au codage coeur. Le module 801 calcule les coefficients du filtre de mise en forme de bruit P (z) = 1 ou P2 (z) = A(z yi) . Le module 802 calcule l'erreur de codage A(z/y) A(z/y2) q,,,(n)=x(n)-x(n) des instants d'échantillonnage précédents, n-1,n-2,.... Cette erreur est filtrée par un filtre prédicteur HPRED (z) pour obtenir le signal de prédiction qw, p,.,<<(n) . Le filtre H (z) correspondant à HPRED (z) peut être égal par exemple soit à H(z)= 1 A(z/y),soit à H(z) = 1 = A(zly2) P, (z) P2 (z) A(z / y, ) A l'instant n, cette valeur prédite sera soustraite du signal à coder pour obtenir le signal à coder modifié x' (n) = x(n) - q,, Pred (n) . La différence entre l'entrée et la sortie de la chaîne codeur MIC/MICDA - décodeur MIC/MICDA, q(n) = .i(n) -x'(n), peut être considérée à court terme comme un bruit blanc quand ces codeurs utilisent un quantificateur à grand nombre de niveaux et en supposant le signal d'entrée stationnaire. Prenons l'exemple où H (z) = P ~z) = A(z / y) . Le signal d'entrée de la chaîne de codage standard MIC/MICDA est modifié par la soustraction de la contribution (H (z) -1) (X (z) - X (z)) . Il en résulte que le bruit de codage de la chaîne complète 2969360 -21 - î) = r(n)-x(n) sera mis en forme par le filtre Q (z) Q(z) = A z 1 Q (z) , voici la démonstration en équations : H ( y) X(z)=X'(z)+Q(z)=X(z)-(H(z)-1)(:t( z)-X(z))+Q(z)= =X(z)-H(z)X(z)+H(z)X(z)+Q(z) d'où H(z) En fait, le filtre HPReo (z) = H (z) -1 a un coefficient nul en z° (pour l'instant n), il s'agit donc d'un prédicteur agissant sur q,,,(n)=x(n)-x(n) qui, lui, n'est connu qu'en fin de traitement MIC/MICDA quand la valeur décodée x(n) est connue. La séquence d'opérations de la figure 8 est la suivante : 10 - Calcul en 801 du filtre de masquage et détermination du filtre H (z) . A noter que le filtre H (z) peut également être déterminé à partir du signal décodé .z(n) ; - Calcul en 803 de la prédiction qW pred (n), ([H(z)-1]Qw(z) ), à partir des valeurs q,,, (n) _ .x(n) - x(n) des instants d'échantillonnage précédents, n -1,n - 2,... ; - Soustraction en 804 de la prédiction gw,pred (n) à x(n) pour obtenir le signal 15 x' (n) modifié; - Codage/Décodage en 805-806 du signal modifié x'(n) par un codeur/décodeur MIC/MICDA standard. Le décodeur local peut être un décodeur local standard du type MIC/MICDA des normes G.711, G.721, G.726, G.722 ou encore G.727. - Calcul en 802 du bruit de codage filtré q,, (n) par soustraction du signal 20 d'entrée x(n) du signal de sortie z(n) La partie entourée 807 peut être vue et implémentée comme un prétraitement de mise en forme de bruit qui modifie l'entrée de la chaine codeur/décodeur standard. Un exemple de réalisation d'un codeur selon l'invention est maintenant décrit en référence à la figure 10. 25 Matériellement, un codeur 900 tel que décrit selon les différents modes de réalisation ci-dessus, au sens de l'invention, comporte typiquement, un processeur µP coopérant avec un bloc mémoire BM incluant une mémoire de stockage et/ou de travail, ainsi qu'une mémoire 1 H(z 5 HzXz O--HzXz+Qz et donc Xz- O-Xz+ Q(z) - 22 -
tampon MEM précitée en tant que moyen pour mémoriser par exemple un dictionnaire de niveaux de reconstructions de quantification ou toutes autres données nécessaire à la mise en oeuvre du procédé de codage tel que décrit en référence aux figures 3, 4, 5, 6 et 7. Ce codeur reçoit en entrée des trames successives du signal numérique x(n) et délivre des indices de quantification concaténés IB+K Le bloc mémoire BM peut comporter un programme informatique comportant les instructions de code pour la mise en oeuvre des étapes du procédé selon l'invention lorsque ces instructions sont exécutées par un processeur µP du codeur et notamment les étapes d'obtention de valeurs possibles de quantification pour l'étage d'amélioration courant k par la détermination de niveaux de reconstruction absolus du seul étage courant k à partir des indices du codeur imbriqué précédent, de quantification du signal d'entrée du codeur hiérarchique ayant subi ou non un traitement de pondération perceptuelle (x(n) ou x'(n)), à partir des dites valeurs possibles de quantification pour former un indice de quantification de l'étage k et un signal quantifié correspondant à une des valeurs possibles de quantification.
De manière plus générale, un moyen de stockage, lisible par un ordinateur ou un processeur, intégré ou non au codeur, éventuellement amovible, mémorise un programme informatique mettant en oeuvre un procédé de codage selon l'invention. Les figures 3 à 7 peuvent par exemple illustrer l'algorithme d'un tel programme informatique.20

Claims (8)

  1. REVENDICATIONS1. Procédé de codage d'un signal audio numérique d'entrée (x(n)) dans un codeur hiérarchique comprenant un étage de codage coeur à B bits et au moins un étage de codage d'amélioration courant k, le codage coeur et le codage des étages d'amélioration précédant l'étage courant k délivrant des indices de quantification qui sont concaténés pour former les indices du codeur imbriqué précédent (I'», le procédé étant caractérisé en ce qu'il comporte les étapes suivantes: - obtention (303) de valeurs possibles de quantification (d,B+k (n)) pour l'étage d'amélioration courant k à partir des niveaux de reconstruction absolus (yB+k) du seul étage courant k et des indices du codeur imbriqué précédent (ie+F-1); - quantification (306) du signal d'entrée du codeur hiérarchique ayant subi ou non un traitement de pondération perceptuelle (x(n) ou x'(n)), à partir des dites valeurs possibles de quantification (d,B+k (n)) pour former un indice de quantification de l'étage k (Iene-k(n)) et un signal quantifié (:x B+k (n)) correspondant à une des valeurs possibles de quantification.
  2. 2. Procédé selon la revendication 1, caractérisé en ce que le signal d'entrée a subi un traitement de pondération perceptuelle utilisant un filtre de pondération prédéterminé pour donner un signal d'entrée modifié x'(n), avant l'étape de quantification (306) et en ce qu'il comporte en outre une étape d'adaptation (311) des mémoires du filtre de pondération à partir du signal quantifié (z B+k (n)) de l'étage de codage d'amélioration courant.
  3. 3. Procédé selon la revendication 1, caractérisé en ce que les valeurs possibles de quantification pour l'étage d'amélioration k contiennent en outre un facteur d'échelle et une valeur de prédiction provenant du codage coeur de type adaptatif.
  4. 4. Procédé selon la revendication 2, caractérisé en ce que le signal d'entrée modifié (x"(n)) à quantifier à l'étage d'amélioration k est le signal d'entrée pondéré perceptuellement auquel est soustrait une valeur de prédiction provenant du codage coeur de type adaptatif.
  5. 5. Procédé selon la revendication 1 à 4, caractérisé en ce que le traitement de pondération perceptuelle, s'effectue par des filtres de prédictions formant un filtre de type ARMA.35-24-
  6. 6. Codeur hiérarchique d'un signal audio numérique d'entrée (x(n)), comprenant un étage de codage coeur à B bits et au moins un étage de codage d'amélioration courant k, le codage coeur et le codage des étages d'amélioration précédant l'étage courant k délivrant des indices de quantification qui sont concaténés pour former les indices du codeur imbriqué précédent (IB+k-», le codeur étant caractérisé en ce qu'il comporte: - un module d'obtention (303) de valeurs possibles de quantification (d,"+k (n) ) pour l'étage d'amélioration courant k par la détermination de niveaux de reconstruction absolus du seul étage courant k à partir des indices du codeur imbriqué précédent (i+' »; - un module de quantification (306) du signal d'entrée du codeur hiérarchique ayant subi ou non un traitement de pondération perceptuelle (x(n) ou x'(n)), à partir des dites valeurs possibles de quantification (dB" (n)) pour former un indice de quantification de l'étage k (Ie hB+k(n)) et un signal quantifié (x e+k (n)) correspondant à une des valeurs possibles de quantification;
  7. 7.Codeur hiérarchique selon la revendication 6, caractérisé en ce qu'il comporte en outre un module de prétraitement (310) de pondération perceptuelle utilisant un filtre de pondération prédéterminé pour donner un signal d'entrée modifié (x'(n)) en entrée du module de quantification (306) et un module d'adaptation (311) des mémoires du filtre de pondération à partir du signal quantifié ( B+k (n)) de l'étage de codage d'amélioration courant.
  8. 8. Programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de codage selon l'une des revendications 1 à 5, lorsque ces instructions sont exécutées par un processeur. 30
FR1060631A 2010-12-16 2010-12-16 Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique Withdrawn FR2969360A1 (fr)

Priority Applications (7)

Application Number Priority Date Filing Date Title
FR1060631A FR2969360A1 (fr) 2010-12-16 2010-12-16 Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique
EP11811097.2A EP2652735B1 (fr) 2010-12-16 2011-12-13 Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique
CN201180067643.2A CN103370740B (zh) 2010-12-16 2011-12-13 分级编码器中的改善阶段的改善编码
KR20137018623A KR20140005201A (ko) 2010-12-16 2011-12-13 계층적 인코더에서 개선 스테이지의 개선된 인코딩
US13/995,014 US20130268268A1 (en) 2010-12-16 2011-12-13 Encoding of an improvement stage in a hierarchical encoder
JP2013543859A JP5923517B2 (ja) 2010-12-16 2011-12-13 階層型符号器における改良ステージの改良符号化
PCT/FR2011/052959 WO2012080649A1 (fr) 2010-12-16 2011-12-13 Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1060631A FR2969360A1 (fr) 2010-12-16 2010-12-16 Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique

Publications (1)

Publication Number Publication Date
FR2969360A1 true FR2969360A1 (fr) 2012-06-22

Family

ID=44356295

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1060631A Withdrawn FR2969360A1 (fr) 2010-12-16 2010-12-16 Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique

Country Status (7)

Country Link
US (1) US20130268268A1 (fr)
EP (1) EP2652735B1 (fr)
JP (1) JP5923517B2 (fr)
KR (1) KR20140005201A (fr)
CN (1) CN103370740B (fr)
FR (1) FR2969360A1 (fr)
WO (1) WO2012080649A1 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
EP2980793A1 (fr) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codeur, décodeur, système et procédés de codage et de décodage
CN105679312B (zh) * 2016-03-04 2019-09-10 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法
WO2020086067A1 (fr) * 2018-10-23 2020-04-30 Nine Energy Service Plate-forme mobile multi-service pour l'entretien de puits

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
EP1483759B1 (fr) * 2002-03-12 2006-09-06 Nokia Corporation Codage audio à echelle variable
ATE531037T1 (de) * 2006-02-14 2011-11-15 France Telecom Vorrichtung für wahrnehmungsgewichtung bei der tonkodierung/-dekodierung
WO2008151408A1 (fr) * 2007-06-14 2008-12-18 Voiceage Corporation Dispositif et procédé de masquage d'effacement de trame dans un codec mic, interopérables avec la recommandation uit-t g.711
EP2171713B1 (fr) * 2007-06-15 2011-03-16 France Telecom Codage de signaux audionumériques
ES2416056T3 (es) * 2007-07-06 2013-07-30 France Telecom Codificación jerárquica de señales digitales de audio
WO2010031003A1 (fr) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Addition d'une seconde couche d'amélioration à une couche centrale basée sur une prédiction linéaire à excitation par code
CA2777601C (fr) * 2009-10-15 2016-06-21 Widex A/S Prothese auditive a codec audio et procede connexe
FR2960335A1 (fr) * 2010-05-18 2011-11-25 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
FR2981781A1 (fr) * 2011-10-19 2013-04-26 France Telecom Codage hierarchique perfectionne

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique

Also Published As

Publication number Publication date
EP2652735B1 (fr) 2015-08-19
US20130268268A1 (en) 2013-10-10
JP2014501395A (ja) 2014-01-20
EP2652735A1 (fr) 2013-10-23
WO2012080649A1 (fr) 2012-06-21
CN103370740A (zh) 2013-10-23
KR20140005201A (ko) 2014-01-14
JP5923517B2 (ja) 2016-05-24
CN103370740B (zh) 2015-09-30

Similar Documents

Publication Publication Date Title
EP2366177B1 (fr) Codage de signal audionumerique avec mise en forme du bruit dans un codeur hierarchique
EP2586133B1 (fr) Contrôle d&#39;une boucle de rétroaction de mise en forme de bruit dans un codeur de signal audionumérique
EP1907812B1 (fr) Procede de commutation de debit en decodage audio scalable en debit et largeur de bande
CA2874965C (fr) Attenuation efficace de pre-echos dans un signal audionumerique
EP2277172A1 (fr) Dissimulation d&#39;erreur de transmission dans un signal audionumerique dans une structure de decodage hierarchique
EP1692689A1 (fr) Procede de codage multiple optimise
EP2727107A1 (fr) Fenêtres de pondération en codage/décodage par transformée avec recouvrement, optimisées en retard
EP2936488B1 (fr) Atténuation efficace de pré-échos dans un signal audionumérique
EP2176861A1 (fr) Codage hierarchique de signaux audionumeriques
EP2652735B1 (fr) Codage perfectionne d&#39;un etage d&#39;amelioration dans un codeur hierarchique
WO2013057453A2 (fr) Codage hierarchique perfectionne
EP2005424A2 (fr) Procede de post-traitement d&#39;un signal dans un decodeur audio
EP2171713B1 (fr) Codage de signaux audionumériques
WO2011144863A1 (fr) Codage avec mise en forme du bruit dans un codeur hierarchique
EP2232833A2 (fr) Traitement d&#39;erreurs binaires dans une trame binaire audionumerique
FR3018942A1 (fr) Estimation d&#39;un bruit de codage introduit par un codage en compression de type micda
FR3007184A1 (fr) Controle du traitement d&#39;attenuation d&#39;un bruit de quantification introduit par un codage en compresssion
FR2987931A1 (fr) Modification des caracteristiques spectrales d&#39;un filtre de prediction lineaire d&#39;un signal audionumerique represente par ses coefficients lsf ou isf.

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20120831