FR2973551A1

FR2973551A1 - Allocation par sous-bandes de bits de quantification de parametres d'information spatiale pour un codage parametrique

Info

Publication number: FR2973551A1
Application number: FR1152602A
Authority: FR
Inventors: Adrien Daniel; Rozenn Nicol
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2011-03-29
Filing date: 2011-03-29
Publication date: 2012-10-05
Also published as: US9263050B2; US20140219459A1; WO2012131253A1; EP2691952B1; EP2691952A1

Abstract

La présente invention se rapporte à un procédé d'allocation de bits de quantification de paramètres d'information spatiale par sous-bande de fréquence, pour un codage/décodage paramétrique d'un flux audio multicanal représentant une scène sonore constituée d'une pluralité de sources sonores et comportant une étape de quantification/quantification inverse par sous-bande de fréquence de paramètres d'information spatiale des sources sonores de la scène sonore. Le procédé est remarquable en ce qu'il comporte les étapes suivantes : - estimation (E203) d'une résolution spatiale de la sous-bande courante à partir de propriétés spectrales de la sous-bande ; - détermination (E204) d'un nombre de bits à allouer à la sous-bande courante, le nombre de bits à allouer étant inversement proportionnel à la résolution spatiale estimée. L'invention se rapporte également à un dispositif d'allocation de bits de quantification mettant en œuvre le procédé décrit.

Description

Allocation par sous-bandes de bits de quantification de paramètres d'information spatiale pour un codage paramétrique

La présente invention se rapporte au codage de flux audio multicanaux représentant des scènes sonores spatialisées dans un objectif de stockage ou de transmission. Elle se rapporte plus particulièrement au codage/décodage paramétrique de flux audio multicanaux. Ce type de codage se base sur le codage d'un signal issu d'un traitement de réduction de canaux (« downmix » en anglais) du flux audio multicanal et du codage associé de paramètres d'information spatiale des sources sonores. Ainsi, au décodage, les paramètres d'information spatiale sont utilisés pour retrouver la spatialisation des sources sonores à partir du signal « downmix » que l'on appellera par la suite, signal somme. L'invention se rapporte plus particulièrement au codage et au décodage de ces paramètres d'information spatiale.

Pour coder ces paramètres d'information spatiale, le budget de bits disponible selon les codeurs n'est pas toujours suffisant. Dans le cas d'un codage par sous-bande de fréquence, ce budget est divisé par sous-bandes. Il existe des techniques qui permettent de réduire le nombre de bits à allouer par sous-bandes. Une de ces techniques consiste à ne coder que les paramètres d'une bande de fréquence sur deux pour chaque trame temporelle. Ainsi les sous-bandes non codées dans la trame courante se voient attribuées les valeurs correspondantes de la trame précédente. Une autre technique est d'effectuer un codage différentiel intra ou inter-trame. La plupart du temps, ces techniques d'allocation ne sont pas basées sur des critères de perception auditive qu'un auditeur peut avoir du signal sonore. De ce fait, ces paramètres sont quantifiés de manière uniforme. Une quantification basée sur des critères psycho-acoustiques est proposée par Breebaart dans le document de Breebaart,J ; Van de Par,S ; Kohlrausch,A & Schuijers,E, « Parametric Coding of stereo Audio » dans EURASIP Journal on Applied Signal Processing, 2005,9, pp 1305-1322. La méthode décrite dans ce document est basée sur la perception qu'un auditeur peut avoir sur certaines bandes de fréquence pour des paramètres particuliers de type différences inter-canal, ou sur la sensibilité à une variation de ces paramètres en fonction de la plage de valeurs concernée. Il est par exemple décrit que certains paramètres ne sont codés que sur les bandes de fréquences inférieures à 1kHz. Au-delà de cette fréquence, les paramètres ne sont en effet plus utiles au système auditif pour localiser une source. Ainsi, le critère psycho-acoustique utilisé ici est relatif à une sensibilité aux paramètres codés et non pas à une sensibilité de déplacements spatiaux des sources sonores.

Or, la perception auditive ou la sensibilité par rapport à une résolution spatiale dans les sous-bandes, peut varier à chaque instant d'une sous-bande à une autre, indépendamment du paramètre à coder.

La présente invention vient améliorer la situation. Elle propose à cet effet, un procédé d'allocation de bits de quantification de paramètres d'information spatiale par sous-bande de fréquence, pour un codage/décodage paramétrique d'un flux audio multicanal représentant une scène sonore constituée d'une pluralité de sources sonores et comportant une étape de quantification/quantification inverse par sous- bande de fréquence de paramètres d'information spatiale des sources sonores de la scène sonore. Le procédé est tel qu'il comporte les étapes suivantes : estimation d'une résolution spatiale de la sous-bande courante à partir de propriétés spectrales de la sous-bande ; détermination d'un nombre de bits à allouer à la sous-bande courante, le nombre de bits à allouer étant inversement proportionnel à la résolution spatiale estimée. Ainsi, le procédé selon l'invention utilise un critère psycho-acoustique pour optimiser la stratégie d'allocation des bits de quantification des paramètres d'information spatiale en fonction de la sous-bande, de façon à privilégier à chaque instant les sous-bandes qui sont les plus utiles au système auditif, et ce quels que soient les paramètres d'information spatiale à coder ou à décoder. Les propriétés de résolution spatiale du système auditif sont ainsi exploitées. La résolution spatiale dans une sous-bande peut être définie comme le plus petit angle entre deux sources, que le système auditif est capable de discriminer.

Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajouté indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé d'allocation défini ci-dessus. Dans un mode de réalisation particulier, les propriétés spectrales d'une sous-bande sont représentées par la fréquence centrale de la sous-bande.

A une fréquence centrale d'une sous-bande correspond alors une résolution spatiale pour la sous-bande. Cette méthode d'estimation de la résolution spatiale est alors très simple et ne nécessite pas d'analyse dans les sous-bandes. L'allocation est alors déterminée par la découpe en sous-bandes et ne dépend pas du contenu. Dans un autre mode de réalisation, les propriétés spectrales d'une sous-bande sont des propriétés d'énergie dans la sous-bande. Dans ce cas, la résolution spatiale associée à une sous-bande est inversement proportionnelle à l'énergie dans cette sous-bande. Ainsi dans ce mode de réalisation, plus une sous-bande contient de l'énergie, plus sa résolution est estimée petite et plus le nombre de bits alloués pour cette sous-bande est important. De plus, si l'énergie dans une sous-bande est forte, cela donne déjà une indication du peu d'influence que peuvent avoir les autres sous-bandes par rapport à celle-ci et donne ainsi une première approche d'allocation dynamique (prenant en compte les autres sous-bandes). Les propriétés d'énergie peuvent correspondre à l'énergie mesurée dans la sous-bande ou de façon plus précise à une mesure de la distance énergétique de cette sous-bande à son seuil de masquage/audibilité. De façon à affiner l'estimation de la résolution spatiale dans les sous-bandes, les propriétés spectrales d'une sous-bande sont à la fois des propriétés d'énergie dans la sous-bande et la fréquence centrale de la sous-bande. Dans un mode de réalisation particulier, la résolution spatiale d'une sous-bande est estimée en outre à partir des propriétés spectrales des autres sous-bandes d'un ensemble de sous-bandes définissant les sources sonores.

Pour une sous-bande donnée, les autres sous-bandes peuvent être considérées comme des sources concurrentes distractives qui sont susceptibles de dégrader la sensibilité spatiale associée à cette sous-bande. La prise en compte des propriétés spectrales des autres sous-bandes de fréquence permet d'estimer cette dégradation et de prédire la résolution spatiale associée à la sous-bande. Cette prise en compte permet de définir dynamiquement avec quelle précision doivent être codées les informations de spatialisation associées à chaque sous-bande, sur la base d'une diminution ou d'un accroissement de la résolution spatiale. Ainsi, on adapte l'erreur de quantification résultante en fonction de la sensibilité spatiale afin de minimiser l'erreur quand la sensibilité est maximale, et inversement de la maximiser lorsque la sensibilité est minimale. L'erreur de quantification est ainsi, d'un point de vue perceptif, minimisée de façon homogène. Dans un mode avantageux de réalisation, les propriétés spectrales d'une sous-bande sont obtenues à partir d'un signal somme décodé issu d'un traitement de réduction des canaux du flux audio multicanal. L'estimation de la résolution spatiale par sous-bande ne nécessite pas d'informations de type position des sources sonores mais seulement des informations sur les propriétés spectrales des sous-bandes. Ces informations peuvent donc être obtenues à partir du signal somme décodé soit localement dans un codeur à l'étape du codage soit décodé par le décodeur lui-même à l'étape du décodage. Il n'est donc pas nécessaire d'envoyer d'informations supplémentaires au décodeur pour retrouver la stratégie d'allocation de bits de quantification. Cela réduit ainsi fortement le nombre d'informations à transmettre entre le codeur et le décodeur. Dans une variante de réalisation, les propriétés d'énergie dans une sous-bande comprennent les propriétés d'énergie primaire et d'énergie ambiante dans la sous-bande.

La part d'énergie corrélée (énergie primaire) entre les différents canaux du signal multicanal est différenciée de celle non corrélée (ambiante) dans le modèle psycho-acoustique permettant d'estimer la résolution spatiale. Ainsi, l'estimation de la résolution spatiale est plus précise et plus proche de la réalité.

Dans un mode particulier de réalisation, le nombre de bits à allouer pour une sous-bande, fait partie d'un nombre de bits prédéterminé à répartir entre les sous-bandes, s'additionnant à un nombre de bits déjà alloué par sous-bandes. L'allocation définie ici, s'applique sur un nombre de bits restant à allouer dans un budget de bits de quantification, une partie des bits de quantification du budget global ayant été déjà distribuée entre les sous-bandes. Ainsi, au décodeur, il est possible de décoder approximativement les paramètres d'information spatiale à partir des bits de quantification déjà alloués, le budget de bits supplémentaire permettant d'affiner le décodage et de l'adapter à la perception auditive. Dans un autre mode de réalisation particulier, la détermination du nombre de bits à allouer pour une sous-bande est ajustée en fonction de la différence entre la résolution dans cette sous-bande et une résolution de référence prédéterminée, à laquelle correspond une allocation de bits de référence prédéterminée. On se place ici dans le cadre d'un contexte de transmission à débit non-contraint où une qualité de codage spatial cible est choisie et imposée. Une résolution de référence est alors prédéterminée et un nombre de bits à allouer pour cette résolution est prédéfini. Si la résolution estimée est différente de cette résolution de référence, le processus d'allocation tel que défini ici s'applique alors. Dans un mode de réalisation particulier, le procédé est mis en oeuvre pour un ensemble de sous-bandes non masquées déterminé par une étape d'analyse de masquage énergétique entre sous-bandes. Ainsi, lorsque certaines sous-bandes de fréquence sont masquées par d'autres sous-bandes, par exemple lorsqu'elles présentent un niveau énergétique trop faible, il n'est donc pas nécessaire de conserver l'information spatiale des ces sous-bandes masquées. Ainsi, le procédé d'allocation n'est mis en oeuvre que pour les sous-bandes audibles, c'est-à-dire non- masquées, ce qui permet de concentrer le budget de bits à allouer sur ces sous-bandes. Ceci apporte un gain de calcul puisque le procédé n'est pas mis en oeuvre dans toutes les sous-bandes et un gain de transmission puisque les paramètres d'information spatiale associés aux sous-bandes masquées ne seront pas transmis (0 bits alloués). De plus, ces propriétés de masquage énergétique peuvent être déterminées à partir du signal somme décodé. Il n'est donc pas nécessaire de transmettre ces informations au décodeur. La présente invention vise également un dispositif d'allocation de bits de quantification de paramètres d'information spatiale par sous-bande de fréquence, pour un codeur/décodeur paramétrique d'un flux audio multicanal représentant une scène sonore constituée d'une pluralité de sources sonores et comportant un module de quantification/quantification inverse par sous-bande de fréquence de paramètres d'information spatiale des sources sonores de la scène sonore. Le dispositif est tel qu'il comporte: un module d'estimation d'une résolution spatiale de la sous-bande courante à partir de propriétés spectrales de la sous-bande ; un module de détermination d'un nombre de bits à allouer à la sous-bande courante, le nombre de bits à allouer étant inversement proportionnel à la résolution spatiale estimée. Ce dispositif présente les mêmes avantages que le procédé décrit précédemment, qu'il met en oeuvre. L'invention vise un codeur ou un décodeur comprenant un tel dispositif d'allocation. Elle vise un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé d'allocation tel que décrit, lorsque ces instructions sont exécutées par un processeur. Enfin l'invention se rapporte à un support de stockage, lisible par un processeur, intégré ou non au dispositif d'allocation, éventuellement amovible, mémorisant un programme informatique mettant en oeuvre un procédé d'allocation tel que décrit précédemment. D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels : la figure 1 illustre un système de codage et de décodage paramétrique d'un flux audio multicanal dans lequel le dispositif d'allocation selon un mode de réalisation de l'invention est prévu ; la figure 2 illustre sous forme d'organigramme, les étapes d'un procédé d'allocation selon un mode de réalisation de l'invention ; et la figure 3 illustre une configuration matérielle particulière d'un dispositif d'allocation selon l'invention.

La figure 1 décrit ainsi un système de codage/décodage paramétrique d'un flux audio multicanal. Cette figure illustre le codeur 100, le décodeur 110 ainsi que le dispositif d'allocation 120 selon un mode de réalisation de l'invention.

Les canaux x1(n),x,(n),,..,xn(n) du flux audio multicanal sont d'abord transformés par un module de transformation temps/fréquence 106, avant d'être appliqués en entrée à la fois d'un module de traitement de réduction de canaux 101 ou encore module de « Downmix » et d'un module d'extraction de paramètres d'information spatiale 102.

La transformation opérée par le module 106 peut être de différents types. Elle peut utiliser par exemple une technique de banc de filtres, ou encore une technique de Transformée de Fourier à Court-Terme (TFCT) en utilisant un algorithme de type FFT (« Fast Fourier Transform » en anglais). Dans le cas d'une technique de banc de filtres, les filtres peuvent être définis de façon à ce que les sous-bandes de fréquence résultantes décrivent des échelles fréquentielles perceptives, par exemple en choisissant des largeurs de bande constantes dans les échelles ERB (pour « Equivalent Rectangular Bandwidth » en anglais). Le même processus peut être appliqué dans le cas d'une technique par TFCT en groupant les bins fréquentiels de chaque trame temporelle suivant les échelles ERB.

Un signal « downmix » ou signal somme, issu du module de traitement de réduction de canaux 101 (signal mono ou stéréo) est obtenu par sommation éventuellement pondérée, des différents canaux dans chaque sous-bande. Ce signal somme est ensuite codé par un module de codage coeur 103 qui peut être de différent type, par exemple de type codage audio normalisé MPEG-4 AAC. Ce signal codé est ensuite transmis sur le réseau pour être ultérieurement décodé par le décodeur coeur correspondant 113. Le module 102 extrait les paramètres d'information spatiale des canaux audio. Ces paramètres sont ceux qui décrivent la position spatiale des canaux. Ces paramètres peuvent être par exemple le couple de paramètres ILD (pour « Interaural Level Difference » en anglais) et IPD (pour « Interaural Phase difference » en anglais) comme défini pour la méthode de codage paramétrique stéréo décrite dans le document de Breebaart,J ; Van de Par,S ; Kohlrausch,A & Schuijers,E, « Parametric Coding of stereo Audio » dans EURASIP Journal on Applied Signal Processing, 2005,9, pp 1305-1322. Ces paramètres peuvent, dans un autre exemple, être de type vecteurs de position primaire et ambiant comme pour la représentation décrite dans le document « Spatial audio scene coding » de Goodwin, M. & Jot, J., 125th AES Convention, 2008 October 2-5, San Francisco, USA, 2008. Les techniques d'extraction de ces paramètres sont bien connues et ne seront donc pas décrites ici. Les paramètres d'information spatiale ainsi extraits sont ensuite quantifiés par le module de quantification 104 selon une allocation de bits de quantification définie par le dispositif d'allocation 120. Le dispositif d'allocation 120 met en oeuvre un procédé d'allocation qui sera décrit en référence à la figure 2. Ce dispositif d'allocation 120 reçoit en entrée le signal somme décodé Ssd par un décodeur local 105 du codeur ou dans le cas du décodeur, décodé par le module de décodage 113.

A partir de ce signal somme décodé Ssd un module 121 d'estimation d'une résolution spatiale par sous-bande de fréquence, détermine les propriétés spectrales des sous-bandes de fréquence. Dans un premier mode de réalisation, une propriété spectrale d'une sous-bande de fréquence est la fréquence centrale de cette sous-bande. Dans un autre mode de réalisation, les propriétés spectrales déterminées sont des propriétés d'énergie dans la sous-bande. Dans encore un autre mode de réalisation, les propriétés spectrales sont à la fois les propriétés d'énergie et la fréquence centrale dans la sous-bande.

Ces propriétés spectrales vont permettre de déterminer une résolution spatiale par sous-bande de fréquence. Cette résolution spatiale correspond au plus petit angle entre deux sources que le système auditif humain peut discriminer. Cette résolution spatiale peut encore être dénommé MM (pour « Minimum Audible Angle » en anglais) comme défini par le document de Mills A.W « On the Minimum Audible Angle » dans The Journal of the Acoustical Society of America, 83(S1) :S122, May 1988. La détermination de cette résolution spatiale sera explicitée plus en détails en référence avec la figure 2. La résolution spatiale par sous-bande de fréquence, ainsi déterminée permet de déterminer un nombre de bits à allouer à la sous-bande pour la quantification des paramètres d'information spatiale. Cette étape est mise en oeuvre par le module 122 de détermination du nombre de bits. Cette étape sera explicitée plus en détails en référence à la figure 2. Cette allocation du nombre de bits par sous-bande de fréquence est alors basée sur des considérations psycho-acoustiques et non purement mathématiques comme cela était fait auparavant dans l'état de l'art. Ainsi, cette allocation prend en compte la perception du système auditif dans les bandes de fréquence. En effet, les erreurs de quantification des paramètres spatiaux se traduisent par des changements de position des sources sonores au moment du décodage. Ces changements de position induisent une distorsion spatiale de la scène sonore qui, évoluant dans le temps, se traduit par une instabilité spatiale. La résolution spatiale peut être interprétée comme une sensibilité à cette distorsion spatiale. Cette sensibilité peut être exprimée pour chaque sous-bande par le module 121. Le dispositif d'allocation 120 va alors modeler l'erreur de quantification en fonction de cette sensibilité afin de minimiser l'erreur quand la sensibilité est maximale, et inversement de la maximiser lorsque la sensibilité est minimale. L'allocation ainsi déterminée permet de quantifier (Q) au codeur, les paramètres d'information spatiale par le module de quantification 104 ou d'effectuer une quantification inverse (Q-» au décodeur par le module de quantification inverse 114 pour obtenir ces paramètres.

Ainsi, au décodeur 110, le module 112 de synthèse pourra, à partir des informations spatiales ainsi dé-quantifiées et du signal somme décodé Ssd, obtenir le flux audio multicanal dans le domaine fréquentiel puis après transformation temps/fréquence inverse du module 116, le flux audio dans le domaine temporel La figure 2 illustre à présent les étapes du procédé d'allocation de bits dans un mode de réalisation de l'invention. A partir du signal somme décodé Ssd , une étape d'analyse E201 de masquage énergétique entre les sous-bandes de fréquence peut optionnellement être effectuée. Cette étape permet de sélectionner un ensemble de sous-bandes de fréquence audibles par le système auditif. En effet, au sein d'une même trame, une sous-bande présentant un niveau énergétique élevé peut potentiellement masquer (i.e. rendre inaudible) les sous-bandes voisines présentant un niveau énergétique trop faible. Ainsi, lors d'une étape préalable E201, on peut effectuer une analyse comparée des énergies des différentes sous-bandes afin de déterminer si certaines sous-bandes ne sont pas masquées par d'autres sous-bandes. Il est alors inutile de conserver l'information spatiale des sous-bandes masquées, ce qui libère des bits de quantification pour les autres sous-bandes pour le processus d'allocation de bits de quantification donné par les étapes suivantes du procédé. Un ensemble de sous-bandes {bk} est ainsi défini pour mettre en oeuvre les étapes du procédé d'allocation. A tour de rôle, chaque sous-bande est considérée comme une source cible, les autres sous-bandes pouvant être considérées comme des sources distractives. A l'étape E202, des propriétés spectrales des sous-bandes de l'ensemble {bk} sont extraites.

Selon plusieurs modes de réalisation, ces propriétés spectrales sont soit uniquement la fréquence centrale fc de la sous-bande courante, soit uniquement ses propriétés d'énergie (I), soit les deux. Cependant, l'énergie contenue dans chaque sous-bande ne reflète pas tout à fait la réalité en termes de perception au moment de la restitution, et cela parce qu'une partie seulement de cette énergie sera restituée de façon corrélée entre les différents canaux. Le reste le sera de façon décorrélée. Il est donc intéressant d'estimer et de préciser au modèle psycho-acoustique quelle sera la part d'énergie corrélée (énergie primaire) et non-corrélée (énergie ambiante). Les propriétés d'énergie peuvent alors être discriminées en énergie primaire (Ip) qui représente l'énergie corrélée entre les sous-bandes et l'énergie ambiante (Ia) représentant l'énergie décorrélée dans la sous-bande courante.

A partir de la connaissance d'un ou de plusieurs de ces paramètres, l'étape E203 effectue une estimation de la résolution spatiale dans la sous-bande courante. Chaque sous-bande étant considérée tour à tour comme cible. Pour cela, un modèle psycho-acoustique LP est déterminé et permet d'obtenir la résolution spatiale ou encore le MM, associée à chaque sous-bande. Comme mentionné précédemment, la résolution spatiale du système auditif peut être définie comme le plus petit angle entre deux sources sonores que celui-ci est capable de discriminer. L'étude de référence par Mills mentionné ci-dessus a été confortée par des études plus récentes décrites par exemple dans le document de Perrott D.R et Saberi K., « Minimum audible angle thresholds for sources varying in both elevation and azimuth » dans The journal of the acoustical Society of America, 87(4) :1728-1731, April 1990. Ces études concluent sur un MM entre 1° et 3° en azimut pour une source frontale, en fonction de son contenu fréquentiel. Dans un contexte de représentation de l'information spatiale d'une scène sonore, le MM définit la précision minimale avec laquelle on doit décrire la position d'une source sonore pour ne pas introduire d'artefacts audibles. Une erreur de position inférieure au MM ne sera pas perçue par le système auditif. Ainsi le MM représente le « flou spatial » de perception d'une source sonore. Un modèle psycho-acoustique simplifié selon l'invention ne prend en compte que la fréquence centrale de la sous-bande courante. Dans ce cas, la fréquence centrale de la sous- bande considérée définit son MM associé selon une table de correspondance prédéfinie par exemple par des tests subjectifs. Une telle correspondance est par exemple décrite dans le document de Mills cité ci-dessus. Un autre modèle psycho-acoustique simplifié ne prend en compte que les propriétés d'énergie de la sous-bande courante.

De façon simple, les propriétés d'énergie correspondent à l'énergie mesurée dans la sous-bande. Dans ce cas, le MM associé est considéré comme étant inversement proportionnel à l'énergie dans cette sous-bande. De façon plus précise, les propriétés d'énergie correspondent à une mesure de la distance énergétique de cette sous-bande à son seuil de masquage/audibilité. On parle alors d'énergie audible dans la sous-bande. Le MM associé à cette sous-bande est également inversement proportionnel à l'énergie audible dans cette sous-bande. En d'autres termes, plus une sous-bande contient de l'énergie audible, plus son MM sera supposé petit. Enfin, il est possible de combiner cette dernière possibilité avec la première pour l'affiner, en pondérant le MM estimé via la distance énergétique au seuil de masquage/audibilité par le MM estimé avec la fréquence centrale. Dans un mode de réalisation particulier, le modèle psycho-acoustique ne prend pas seulement en compte les caractéristiques de la sous-bande courante mais également celles des autres sous-bandes qui sont alors considérées comme des sous-bandes distractives.

En effet, des mesures expérimentales ont permis de montrer que le MM (ou résolution spatiale) change en présence de sources distractives, et que plus spécifiquement, il tend à augmenter. Ainsi, l'action, sur une source donnée, des sources concurrentes, peut-être vue comme un « floutage spatial » de cette source. L'effet de « floutage » dépend du contenu fréquentiel de la source et de son énergie, de même qu'il dépend du contenu fréquentiel et de l'énergie de chacune des sources concurrentes. En revanche l'effet de la position des sources distractives sur le « floutage » est négligeable, en ce sens que le MM peut être estimé sans l'information de position des sources distractives. Néanmoins, le MM associé à une source dépend de la position de cette source par rapport à la tête de l'auditeur. La meilleure performance (MM le plus faible) est observée lorsque l'auditeur fait face à la source considérée. Ainsi, dans le modèle psycho-acoustique selon l'invention, on fait l'hypothèse que l'auditeur est libre d'orienter sa tête au sein du dispositif d'écoute. Par suite il est supposé, lors de l'estimation du MM associé à une source donnée, que l'auditeur fait toujours face à la source considérée. En conséquence de ces résultats, pour estimer le MM associé à une source donnée, l'information de position de cette source n'est pas nécessaire. À partir de ces résultats, un modèle psycho-acoustique qui décrit le MAA associé à une source donnée peut être construit en fonction de la présence et des propriétés (énergie, contenu fréquentiel) d'autres sources. L'information d'énergie seule suffit à déterminer le « floutage spatial » correctement.

L'information de position est donc inutile. Il en résulte que les MM associés aux différentes sous-bandes peuvent être calculés à partir de la composante « downmix » ou signal somme comme décrit en référence à la figure 1. La conséquence est que, pour le décodage, il n'est pas nécessaire de transmettre la stratégie de quantification, mais qu'elle peut être déduite du signal somme selon la même procédure qu'à l'encodage.

Au final, le modèle psycho-acoustique est décrit par une fonction 4J(c,di,d2,...,dN), où c représente la source cible, et les d; sont les sources distractives. Dans ce mode de réalisation, chaque sous-bande constitue une source caractérisée par sa fréquence centrale et son énergie (primaire et ambiante). Pour chacune de ces sources, considérées alors comme cible, la fonction tli produit le MM qui lui est associé en présence des autres sources considérées comme distractives, c'est-à-dire l'erreur de position maximale non-perceptible applicable à cette source en présence des autres. Ainsi, chaque source (cible ou distractive) est caractérisée à l'étape E202 par trois paramètres {fc,Ip,Ia}, où ff est la fréquence centrale de la sous-bande considérée, et Ip et la sont respectivement l'énergie primaire et ambiante dans cette sous-bande. A partir de la connaissance de ces paramètres {fc,Ip,Ia} pour toutes les sous-bandes, le modèle psycho-acoustique 4J(c,di,d2,...,dN) produit un couple de valeurs de MAA {ap,aa}, correspondant respectivement aux composants d'énergie primaire et ambiante, associé à l'étape E203 à chaque sous-bande considérée tour à tour comme cible.

Selon si le paramètre à coder représente une composante primaire ou ambiante, la valeur de MM considérée sera respectivement op ou aa, et par conséquent cette distinction ne sera plus faite dans la suite du document. Si la répartition Ip/Ia est inconnue (paramètre non-transmis), le décodeur supposera que toute l'énergie est corrélée (énergie primaire), ainsi que le modèle psycho-acoustique, de façon à obtenir une correspondance lors de la restitution. Ainsi, pour chaque sous-bande bk parmi K sous-bandes, la fonction 1P(bk,bl,...,bk_ 1,bk+I,...,bK) est appelée pour estimer le « floutage » spatial exercé sur cette sous-bande par les autres sous-bandes, qui sont donc considérées comme distractives, et IU produit le MAA associé à cette sous-bande. L'estimation de la résolution spatiale se fait alors de façon dynamique puisque l'influence des autres sous-bandes est prise en compte. Les différentes résolutions spatiales ainsi estimées dans les sous-bandes de fréquences permettent de déterminer le nombre de bits à allouer pour la quantification des paramètres d'information spatiale dans chacune des sous-bandes.

Ainsi, à l'étape E204, une détermination du nombre de bits à allouer à la sous-bande courante en fonction de la résolution spatiale estimée, est effectuée. La stratégie d'allocation des bits de quantification des paramètres de spatialisation va alors consister à maximiser le nombre de bits pour les sous-bandes présentant le MM minimal, au détriment des sous-bandes pour lesquelles le MM est maximal.

Ainsi, le nombre de bits à allouer pour une sous-bande est inversement proportionnel à la résolution spatiale estimée pour cette sous-bande. Le procédé d'allocation peut donc adapter l'allocation de bits d'une sous-bande à une autre selon la sensibilité du système auditif à une distorsion spatiale. Cette sensibilité est donnée par le modèle psycho-acoustique.

Ce procédé peut être mis en oeuvre aussi bien en contexte de transmission à débit contraint qu'en contexte de transmission à débit non-contraint. Dans les deux cas, une part du budget de bits est laissée disponible pour une allocation variable d'une sous-bande à une autre en fonction du MM associé à celle-ci. Un certain budget de bits « flottants » est donc à répartir entre un même paramètre de chacune des sous-bandes de manière à minimiser perceptivement la distorsion spatiale résultant du processus de quantification, de façon homogène dans chacune des sous-bandes. Le reste du budget de bits est réparti équitablement entre toutes les sous-bandes. La qualité de codage spatial est donc définie par le nombre moyen, sur toutes les sous-bandes, de bits alloués à un même paramètre, ou, de manière équivalente, par le nombre total de bits alloués à un même paramètre pour toutes les sous-bandes. En contexte de transmission à débit non-contraint, une qualité de codage spatial cible est choisie et imposée par l'utilisateur. Cette qualité cible est définie par le nombre moyen, sur toutes les trames temporelles et sur toutes les sous-bandes, de bits affectés à un même paramètre. Ainsi, le MM moyen, considérée alors comme une valeur de résolution de référence, est supposé estimable ou prédictible, toutes sous-bandes confondues, sur toutes ou partie des trames temporelles. Les sous-bandes dont le MM estimé vaut le MM moyen se verront allouer le nombre moyen de bits par paramètre défini par l'utilisateur. L'allocation de bits pour les autres sous-bandes est faite, comme en contexte de débit contraint, de façon à minimiser perceptivement la distorsion spatiale résultant du processus de quantification, de façon homogène dans chacune des sous-bandes, mais étant donné le nombre de bits à allouer aux sous-bandes de MM moyen. Ainsi, dans ce mode de réalisation, la détermination du nombre de bits à allouer pour une sous-bande est effectuée si la résolution dans la sous-bande est différente d'une valeur de référence prédéterminée, ici le MM moyen. Dans chacun des contextes, un certain nombre minimum de bits est déjà alloué par sous-bande pour coder chaque paramètre, ce qui d'une part assure une qualité minimum de reproduction spatiale pour toutes les sous-bandes audibles, et d'autre part procure une valeur approximative du paramètre concerné qui est accessible au décodage. Pour simplifier, nous allons illustrer la stratégie d'allocation pour un des paramètres à coder par sous-bande. Mais le procédé est exactement le même pour les autres paramètres de chaque sous-bande. On considère que l'on traite une trame temporelle quelconque.

K : nombre de sous-bandes à coder (sous-bandes audibles) N : nombre total de bits à allouer nfixe : nombre de bits minimum affectés au paramètre de chaque sous-bande Nflott : nombre de bits flottants à répartir entre les sous-bandes (suivant modèle psycho-acoustique) bk : sous-bande k, k 1 - .,K} argmaxk(Nk) = m : indice de la sous-bande à laquelle est alloué le plus de bits 4J(bk,bl,...,bkI.,bk+I,---,bK) = ak: MM associé à la sous-bande k (donné par le modèle psycho-acoustique) Nk : nombre de bits flottants alloués au paramètre de bk N'k : nombre de bits alloués au paramètre de bk au total (N'k= nfIXe + Nk)

Le budget total de bits est défini par : N= K x n r Quelle que soit la répartition des valeurs de quantification (uniforme ou non), on suppose qu'ajouter un bit de codage double le nombre de valeurs de quantification et double donc la précision de la représentation de la valeur à coder. Si cette supposition n'est pas vérifiée, les formules (1) et (1') énoncées après doivent être ajustées en conséquence. À débit contraint, pour que l'erreur de quantification des paramètres de spatialisation soit modelée suivant le seuil de sensibilité à un déplacement angulaire, la sous-bande codée sur le plus de bits (bm) doit être la sous-bande ayant la plus petit MM (am), et le rapport de précision de codage entre la sous-bande courante bk et bm doit être inversement proportionnel au rapport des MM de ces deux sous-bandes : avec N k yN13'L , et ak, (1) D'où : -- iogz-= (2) De plus, la somme des bits flottants de chaque sous-bande ne doit pas dépasser le nombre total de bits flottants disponibles Nflott : flots. D'où, en injectant dans cette relation l'expression précédente de Nk : N t t7ott- f3'' 20 ; ~ e~ (3) A m Les formules (2) et (3) donnent respectivement une première approximation du nombre de bits à allouer au paramètre des sous-bandes Nk et Nm. S'il reste des bits à allouer, ou si trop de bits ont été alloués, l'heuristique suivante (algorithme dit « glouton ») permet 25 de finaliser le processus d'allocation des bits flottants. Soit Ak l'écart entre la précision optimale de codage et la précision courante pour la sous-bande k, dérivé de la formule (1) : 15 K (4) L'index de la sous-bande à laquelle le prochain bit est à allouer ou à reprendre sera respectivement déterminée par ar maxk (4) ou arg;ntnk (Ak) . Ak est recalculé après 30 chaque opération (allocation ou retrait) sur un bit. L'allocation est finalisée lorsque le nombre total de bits flottants alloués vaut exactement Nflott.

Cas particulier : lorsque'1k= ° et que le nombre de bits alloués ne vaut pas Nflott, la sous-bande qui doit recevoir (respectivement à qui l'on doit enlever) le prochain bit est la sous-bande dont le MM est le plus petit (respectivement le plus élevé).

Note : il est aussi possible de faire l'allocation complète avec cet algorithme. Finalement, le nombre N'k de bits alloués au total au codage du paramètre de la sous-bande bk vaut : 14,',- -gin (5) À débit non-contraint, il est nécessaire d'introduire trois nouvelles variables : : MM moyen (estimé ou prédit) ou résolution spatiale de référence, toutes sous-bandes confondues, sur tout ou partie des trames temporelles ria : sous-bande fictive de référence, de MAA ' : nombre de bits flottants affectés au paramètre de h Le rapport de précision de codage entre la sous-bande courante ''k et la sous-bande de référence 1),t doit être inversement proportionnel au rapport des MM de ces deux sous-bandes : = , avec Nk, 1'! et ak Le nombre de bits flottants à allouer à chaque paramètre est donc donné par : + lo £k (2» La formule (5) donne le nombre de bits à allouer au total au codage du paramètre de la sous-25 bande bk. Enfin, à débit contraint comme non-contraint, chaque paramètre est alors quantifié (Q) au codeur pour former le train binaire ou dé-quantifié (Q') au décodeur en fonction du nombre de bits qui lui est alloué. 30 S'ils sont présents, les paramètres de répartition d'énergie primaire et ambiante, qui eux sont codés sur un nombre fixe de bits, doivent être transmis en premiers, car ils seront alors nécessaires au décodage des paramètres codés sur un nombre de bits variable.

Au décodeur, la quantification inverse du train de bits des paramètres spatiaux nécessite de connaître le nombre de bits allouées à chaque paramètre. L'invention permet d'éviter une transmission d'informations supplémentaires sur la stratégie d'allocation de bits. Puisque le « floutage » spatial effectif peut être calculé à partir du « downmix » seul, il est possible de recalculer l'allocation de bits des paramètres spatiaux en utilisant le même modèle psycho-acoustique et la même procédure d'allocation de bits qu'à l'encodage. Ainsi, on économise la transmission de la stratégie de quantification. En contrepartie, cela impose de fixer le modèle psycho-acoustique et la procédure d'allocation de bits entre l'encodage et le décodage.

S'ils sont présents, les paramètres de répartition d'énergie primaire et ambiante, qui eux sont codés sur un nombre fixe de bits, ont été au-préalable transmis. Ils sont donc décodés préalablement au décodage des autres paramètres. De plus, si nfixe est non-nul, il est possible de récupérer une première valeur approximative de chacun des paramètres sans avoir à connaître le nombre de bits alloués à chacun des paramètres. En effet, il suffit d'organiser le train de bit de manière à envoyer d'abord nfXe bits de poids fort pour chacun des paramètres, suivi des Nk bits restants pour chaque paramètre. Cela peut être utile si d'autres études expérimentales venaient à montrer que certaines informations de positions sont en fait nécessaires pour estimer plus précisément le MM. Dans ce cas, le signal somme ou « downmix » ne suffirait plus, et ces valeurs approximatives des paramètres pourraient servir à estimer le MM à l'encodage (respectivement au décodage) pour connaître le nombre de bits à allouer (respectivement alloués) à chaque paramètre. Ainsi, plus nfXe est élevé, plus on a une bonne approximation des paramètres disponible pour l'estimation du MM. Les codeurs et décodeurs tels que décrits en référence à la figure 1 ainsi que le dispositif d'allocation objet de l'invention peuvent être intégrés dans des équipements multimédia de type décodeur de salon, "set top box" ou lecteur de contenu audio ou vidéo. Ils peuvent également être intégré dans des équipements de communication de type téléphone mobile. La figure 3 représente un exemple de réalisation d'un tel équipement dans lequel le dispositif d'allocation selon l'invention est intégré. Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM. Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé d'allocation au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes d'estimation d'une résolution spatiale de la sous-bande courante à partir de propriétés spectrales de la sous-bande et de détermination d'un nombre de bits à allouer à la sous-bande courante en fonction de la résolution spatiale estimée.

Typiquement, la description de la figure 2 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de celui-ci.

Un tel équipement comporte un module d'entrée apte à recevoir un signal somme décodé soit d'un codeur par l'intermédiaire d'un décodeur local, soit d'un décodeur. Le dispositif comporte un module de sortie apte à transmettre le nombre de bits à allouer par sous-bande de fréquence aux modules de quantification d'un codeur ou au module de quantification inverse d'un décodeur.

Dans un mode possible de réalisation, le dispositif ainsi décrit peut également comporter les fonctions de codage et/ou de décodage en plus des fonctions d'allocation selon l'invention.

Claims

REVENDICATIONS1. Procédé selon la revendication 1, caractérisé en ce REVENDICATIONS1. Procédé selon la revendication 1, caractérisé en ce que les propriétés spectrales d'une sous-bande sont représentées par la fréquence centrale de la sous-bande.
2. Procédé selon la revendication 1, caractérisé en ce que les propriétés spectrales d'une sous-bande sont des propriétés d'énergie dans la sous-bande.
3. Procédé selon la revendication 1, caractérisé en ce que les propriétés spectrales d'une sous-bande sont à la fois des propriétés d'énergie dans la sous-bande et la fréquence centrale de la sous-bande.
4. Procédé selon la revendication 4, caractérisé en ce que la résolution spatiale d'une sous-bande est estimée en outre à partir des propriétés spectrales des autres sous-bandes d'un ensemble de sous-bandes définissant les sources sonores.
5. Procédé selon la revendication 1, caractérisé en ce que les propriétés spectrales d'une sous-bande sont obtenus à partir d'un signal somme décodé issu d'un traitement de réduction des canaux du flux audio multicanal.
6. Procédé selon l'une des revendications 3 ou 4, caractérisé en ce que les propriétés d'énergie dans une sous-bande comprennent les propriétés d'énergie primaire et d'énergie ambiante dans la sous-bande. 1. Procédé d'allocation de bits de quantification de paramètres d'information spatiale par sous-bande de fréquence, pour un codage/décodage paramétrique d'un flux audio multicanal représentant une scène sonore constituée d'une pluralité de sources sonores et comportant une étape de quantification/quantification inverse par sous-bande de fréquence de paramètres d'information spatiale des sources sonores de la scène sonore, caractérisé en ce que qu'il comporte les étapes suivantes : estimation (E203) d'une résolution spatiale de la sous-bande courante à partir de propriétés spectrales de la sous-bande ; détermination (E204) d'un nombre de bits à allouer à la sous-bande courante, le nombre de bits à allouer étant inversement proportionnel à la résolution spatiale estimée. 10 15 2. 3. 20 4. 25 5. 30 6. 357. 8. Procédé selon la revendication 1, caractérisé en ce que le nombre de bits à allouer pour une sous-bande, fait partie d'un nombre de bits prédéterminé s'additionnant à un nombre de bits déjà alloué par sous-bandes. 9. Procédé selon la revendication 8, caractérisé en ce que la détermination du nombre de bits à allouer pour une sous-bande est ajustée en fonction de la différence entre la résolution dans cette sous-bande et une résolution de référence prédéterminée, à laquelle correspond une allocation de bits de référence prédéterminée. 10. Procédé selon la revendication 1, caractérisé en ce qu'il est mis en oeuvre pour un ensemble de sous-bandes non masquées déterminé par une étape d'analyse de masquage énergétique entre sous-bandes. 11. Dispositif d'allocation de bits de quantification de paramètres d'information spatiale par sous-bande de fréquence, pour un codeur/décodeur paramétrique d'un flux audio multicanal représentant une scène sonore constituée d'une pluralité de sources sonores et comportant un module de quantification/quantification inverse par sous-bande de fréquence de paramètres d'information spatiale des sources sonores de la scène sonore, caractérisé en ce que qu'il comporte: un module d'estimation (121) d'une résolution spatiale de la sous-bande courante à partir de propriétés spectrales de la sous-bande ; un module de détermination (122) d'un nombre de bits à allouer à la sous- bande courante, le nombre de bits à allouer étant inversement proportionnel à la résolution spatiale estimée. 12. Codeur paramétrique d'un flux audio multicanal caractérisé en ce qu'il comprend un dispositif d'allocation de bits de quantification conforme à la revendication 11. 13. Décodeur paramétrique d'un flux audio multicanal caractérisé en ce qu'il comprend un dispositif d'allocation de bits de quantification conforme à la revendication 11. 35 14. Programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé d'allocation selon l'une des revendications 1 à 10, lorsque ces instructions sont exécutées par un processeur. 40