WO2010070225A1

WO2010070225A1 - Codage perfectionne de signaux audionumeriques multicanaux

Info

Publication number: WO2010070225A1
Application number: PCT/FR2009/052491
Authority: WO
Inventors: Florent Jaillet; David Virette
Original assignee: France Telecom
Priority date: 2008-12-15
Filing date: 2009-12-11
Publication date: 2010-06-24
Also published as: US20110249821A1; ES2733878T3; EP2374123B1; US8964994B2; EP2374123A1

Abstract

La présente invention se rapporte à un procédé de codage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores Ce procédé est remarquable en ce qu'il comporte une étape de décomposition (T) du signal multicanal en bande de fréquence et les étapes suivantes par bande de fréquence, d'obtention (OBT) d'informations de directivité par source sonore de la scène sonore, les informations étant représentatives de la répartition spatiale de la source sonore dans la scène sonore, de sélection (Select) d'un ensemble de sources sonores de la scène sonore constituant des sources principales, de matriçage (M) des sources principales sélectionnées pour obtenir un signal somme avec un nombre réduit de canaux, de codage (Cod.Di) des informations de directivité et de formation (Con.Fb) d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme. La présente invention se rapporte également à un procédé de décodage apte à décoder le signal somme et les informations de directivités pour obtenir un signal multicanal, à un codeur et décodeur adaptés.

Description

Codage perfectionné de signaux audionumériques muiticanaux

La présente invention se rapporte au domaine du codage/décodage de signaux audionumériques muiticanaux. Plus particulièrement, la présente invention se rapporte au codage/décodage paramétrique de signaux audio muiticanaux.

Ce type de codage/décodage se base sur l'extraction de paramètres de spatialisation pour qu'au décodage, la perception spatiale de l'auditeur puisse être reconstituée. Une telle technique de codage est connu sous le nom de "Binaural Cue

Coding" en anglais (BCC) qui vise d'une part à extraire puis à coder les indices de spatialisation auditive et d'autre part à coder un signal monophonique ou stéréophonique issu d'un matriçage du signal multicanal original.

Cette approche paramétrique est un codage à bas débit. Le principal intérêt de cette approche de codage est de permettre un taux de compression meilleur que les méthodes classiques de compression de signaux audionumériques muiticanaux tout en assurant la rétrocompatibilité du format compressé obtenu avec les formats de codage et les systèmes de diffusions déjà existants.

La norme MPEG Surround décrite dans le document de la norme MPEG ISO/IEC 23003-1:2007 et dans le document de "Breebaart, J. and Hotho, G. and

Koppens, J. and Schuijers, E. and Oomen, W. and van de Par, S.," intitulé

"Background, concept, and architecture for the récent MPEG surround standard on multichannel audio compression" dans Journal of the Audio Engineering Society 55-

5 (2007) 331-351, décrit une structure de codage paramétrique tel que représentée en figure 1.

Ainsi, la figure 1 décrit un tel système de codage/décodage dans lequel le codeur 100 construit un signal somme ("downmix" en anglais) S_s par matriçage en

110 des canaux du signal multicanal original S et fournit via un module d'extraction de paramètres 120, un ensemble réduit de paramètres P qui caractérisent le contenu spatial du signal multicanal original. Au décodeur 150, le signal multicanal est reconstruit (S') par un module de synthèse 160 qui prend en compte à la fois le signal somme et les paramètres P transmis.

Le signal somme comporte un nombre réduit de canaux. Ces canaux peuvent être codés par un codeur audio classique avant transmission ou stockage.

Typiquement, le signal somme comporte deux canaux et est compatible avec une diffusion stéréo classique. Avant transmission ou stockage, ce signal somme peut ainsi être codé par n'importe quel codeur stéréo classique. Le signal ainsi codé est alors compatible avec les dispositifs comportant le décodeur correspondant qui reconstruisent le signal somme en ignorant les données spatiales.

Ce schéma de codage repose sur une structure arborescente qui ne permet le traitement que d'un nombre limité de canaux simultanément. Ainsi, cette technique est satisfaisante pour le codage et le décodage de signaux de complexité réduite utilisés dans le domaine de l'audiovisuel comme par exemple pour les signaux 5.1. Elle ne permet cependant pas d'obtenir une qualité satisfaisante pour des signaux multicanaux plus complexes comme par exemple pour les signaux issus de prises de son multicanales directes ou encore les signaux ambiophoniques.

En effet, une telle structure limite l'exploitation de la redondance intercanale qui peut exister pour les signaux complexes. De plus, les signaux multicanaux présentant des oppositions de phase, comme par exemple les signaux ambiophoniques, ne sont pas bien reconstruits par ces techniques de l'état de l'art.

Il existe donc un besoin d'une technique de codage/décodage paramétrique de signaux audio multicanaux de grande complexité qui permette de gérer à la fois les signaux présentant des oppositions de phase et de prendre en compte des redondances intercanales entre les signaux tout en étant compatible avec un codage bas débit.

La présente invention vient améliorer la situation.

A cet effet, elle propose un procédé de codage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores. Le procédé est tel qu'il comporte une étape de décomposition du signal multicanal en bandes de fréquence et les étapes suivantes par bande de fréquence:

- obtention d'informations de directivité par source sonore de la scène sonore, les informations étant représentatives de la répartition spatiale de la source sonore dans la scène sonore;

- sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales;

- matriçage des sources principales sélectionnées pour obtenir un signal somme avec un nombre réduit de canaux; - codage des informations de directivité et formation d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme.

Ainsi, les informations de directivité associées à une source donnent non seulement la direction de la source mais également la forme, ou la répartition spatiale, de la source, c'est-à-dire l'interaction que peut avoir cette source avec les autres sources de la scène sonore.

La connaissance de ces informations de directivités associée au signal somme va permettre au décodeur d'obtenir un signal de meilleur qualité qui prend en compte les redondances intercanales de manière globale et les probables oppositions de phase entre canaux.

En codant séparément les informations de directivités et les sources sonores par bande de fréquence, on exploite le fait que le nombre de sources actives dans une bande de fréquence est généralement faible, ce qui augmente les performances de codage. De plus, le signal somme issu du codage selon l'invention peut être décodé par un décodeur standard tel que connu dans l'état de l'art, apportant ainsi une interopérabilité avec les décodeurs existants.

Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de codage défini ci-dessus. Dans un mode de réalisation particulier de l'invention, le procédé comporte en outre une étape de codage de sources secondaires parmi les sources non sélectionnées de la scène sonore et d'insertion d'informations de codage des sources secondaires dans le flux binaire. Le codage des sources secondaires va ainsi permettre d'apporter une précision supplémentaire sur le signal décodé, notamment pour les signaux complexes de type par exemple ambiophoniques.

Les informations de codage des sources secondaires peuvent être par exemple des enveloppes spectrales codées ou des enveloppes temporelles codées qui peuvent constituer des représentations paramétriques des sources secondaires.

Dans une variante de réalisation, le codage de sources secondaires comporte les étapes suivantes:

- construction de pseudo-sources représentant au moins une partie des sources secondaires, par décorrélation avec au moins une source principale et/ou au moins une source secondaire codée;

- codage des pseudo-sources construites; et

- insertion dans le flux binaire d'un indice de source utilisée et d'un indice de décorrélateur utilisé pour l'étape de construction.

Ceci s'applique plus particulièrement dans le cas où le signal multicanal est de grande complexité, une partie des sources secondaires ou des sources diffuses pouvant être alors représentées par des pseudo- sources. Dans ce cas de figure, il est alors possible de coder cette représentation sans pour autant augmenter le débit de codage.

Dans un mode de réalisation, le codage des informations de directivités s'effectue par une méthode de représentation paramétrique.

Cette méthode est de faible complexité et s'adapte particulièrement au cas de scène sonore de synthèse représentant une situation de codage idéal.

Ces représentations paramétriques peuvent comporter par exemple des informations de direction d'arrivée, pour la reconstruction d'une directivité simulant une onde plane ou des indices de sélection de forme de directivité dans un dictionnaire de formes de directivités.

Dans un autre mode de réalisation, le codage des informations de directivité s'effectue par une méthode d'analyse en composante principale délivrant des vecteurs de directivité de base associés à des gains permettant la reconstruction des directivités initiales.

Ceci permet ainsi de coder les directivités de scènes sonores complexes dont le codage ne peut pas être représenté facilement par un modèle.

Dans encore un autre mode de réalisation le codage des informations de directivité s'effectue par une combinaison d'une méthode d'analyse en composante principale et d'une méthode de représentation paramétrique.

Ainsi, il est par exemple possible d'effectuer en parallèle le codage par les deux méthodes et de choisir celle qui répond à un critère d'optimisation du débit de codage par exemple. II est également possible d'effectuer ces deux méthodes en cascade de façon à coder simplement une partie des directivités par la méthode de codage paramétrique et pour celle qui ne sont pas modélisées, d'effectuer un codage par la méthode d'analyse en composante principale, de façon à représenter au mieux, toutes les directivités. La répartition du débit entre les deux modèles d'encodage des directivités pouvant être choisie selon un critère de minimisation de l'erreur de reconstruction des directivités.

La présente invention se rapporte également à un procédé de décodage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, à partir d'un flux binaire et d'un signal somme. Le procédé est tel qu'il comporte les étapes suivantes:

- extraction dans le flux binaire et décodage d'informations de directivités représentatives de la répartition spatiale des sources dans la scène sonore;

- dématriçage du signal somme pour obtenir un ensemble de sources principales; - reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les informations de directivités décodées.

La méthode de décodage permet ainsi de reconstruire le signal multicanal de grande qualité pour une restitution fidèle du son spatialisé prenant en compte les redondances intercanales de manière globale et les probables oppositions de phase entre canaux.

Dans un mode particulier de réalisation du procédé de décodage, celui-ci comporte en outre les étapes suivantes:

- extraction du flux binaire, d'informations de codage de sources secondaires codées;

- décodage des sources secondaires à partir des informations de codage extraites;

- regroupement des sources secondaires aux sources principales pour la spatialisation. Le décodage de sources secondaires apporte alors plus de précision sur la scène sonore.

Dans une variante de réalisation, le procédé comporte en outre l'étape suivante:

- décodage des sources secondaires par utilisation d'une source effectivement transmise et d'un décorrélateur prédéfini pour reconstruire des pseudosources représentatives d'au moins une partie des sources secondaires.

Dans une autre variante de réalisation, le procédé comporte en outre les étapes suivantes:

- extraction du flux binaire, d'un indice de source principale et/ou d'au moins une source secondaire codée et d'un indice d'un décorrélateur à appliquer à cette source;

- décodage des sources secondaires par utilisation de la source et de l'indice de décorrélateur pour reconstruire des pseudo- sources représentatives d'au moins une partie des sources secondaires. Ceci permet de retrouver des pseudos-sources représentant une partie des sources secondaires originales sans pour autant dégrader le rendu sonore de la scène sonore décodée.

La présente invention se rapporte également à un codeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores. Le codeur est tel qu'il comporte:

- un module de décomposition du signal multicanal en bande de fréquence;

- un module d'obtention d'informations de directivité apte à obtenir ces informations par source sonore de la scène sonore et par bande de fréquence, les informations étant représentatives de la répartition spatiale de la source sonore dans la scène sonore;

- un module de sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales;

- un module de matriçage des sources principales issues du module de sélection pour obtenir un signal somme avec un nombre réduit de canaux;

- un module de codage des informations de directivité et un module de formation d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme.

Elle se rapporte aussi à un décodeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, recevant en entrée un flux binaire et un signal somme. Ce décodeur est tel qu'il comporte:

- un module d'extraction et de décodage d'informations de directivités représentatives de la répartition spatiale des sources dans la scène sonore;

- un module de dématriçage du signal somme pour obtenir un ensemble de sources principales;

- un module de reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les informations de directivités décodées.

Elle se rapporte enfin à un programme informatique comportant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage tel que décrit et/ou d'un procédé de décodage tel que décrit, lorsque ces instructions sont exécutées par un processeur.

De manière plus générale, un moyen de stockage, lisible par un ordinateur ou un processeur, intégré ou non au codeur, éventuellement amovible, mémorise un programme informatique mettant en œuvre un procédé de codage et/ou un procédé de décodage selon l'invention.

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels:

- la figure 1 illustre un système de codage/décodage de l'état de l'art de type système normalisé MPEG Surround;

- la figure 2 illustre un codeur et un procédé de codage selon un mode de réalisation de l'invention; - la figure 3a illustre un premier mode de réalisation du codage des directivités selon l'invention;

- la figure 3b illustre un second mode de réalisation du codage des directivités selon l'invention;

- la figure 4 représente des exemples de directivités utilisées par l'invention; - la figure 5 illustre un décodeur et un procédé de décodage selon un mode de réalisation de l'invention;

- la figure 6 représente une variante de réalisation d'un codeur et d'un procédé de codage selon l'invention;

- la figure 7 représente une variante de réalisation d'un décodeur et d'un procédé de décodage selon l'invention; et

- les figures 8a et 8b représentent respectivement un exemple de dispositif comprenant un codeur et un exemple de dispositif comprenant un décodeur selon l'invention. La Figure 2 illustre sous forme de bloc diagramme, un codeur selon un mode de réalisation de l'invention ainsi que les étapes d'un procédé de codage selon un mode de réalisation de l'invention.

L'ensemble des traitements dans ce codeur est effectué par trame temporelle. Par soucis de simplification, la représentation et la description du codeur tel que représenté en figure 2 est faite en considérant le traitement effectué sur une trame temporelle fixée, sans faire apparaître la dépendance temporelle dans les notations.

Un même traitement est cependant successivement appliqué à l'ensemble des trames temporelles du signal. Le codeur ainsi illustré comporte un module de transformée temps- fréquence 210 qui reçoit en entrée un signal multicanal original représentant une scène sonore comportant une pluralité de sources sonores.

Ce module effectue donc une étape T de calcul de la transformée temps- fréquence du signal multicanal original. Cette transformée est réalisée par exemple par une transformée de Fourier à court terme.

Pour cela, chacun des n_x canaux du signal original est fenêtre sur la trame temporelle courante, puis la transformée de Fourier F du signal fenêtre est calculée à l'aide d'un algorithme de calcul rapide sur Π_FFT points. On obtient ainsi une matrice X complexe de taille Π_FFT X n_x contenant les coefficients du signal multicanal original dans l'espace fréquentiel.

Les traitements effectués ensuite par le codeur sont effectués par bande de fréquence. Pour cela, on découpe la matrice des coefficients X en un ensemble de sous-matrices X_j contenant chacune les coefficients fréquentiels dans la j^eme bande.

Différents choix pour le découpage fréquentiel des bandes sont possibles. Afin d'assurer que le traitement s'applique sur des signaux réels, on choisit des bandes symétriques par rapport à la fréquence nulle dans la transformée de Fourier à court terme. De plus, afin d'optimiser l'efficacité de codage, on privilégie le choix de bandes de fréquences approchant des échelles fréquentielles perceptives, par exemple en choisissant des largeurs de bande constantes dans les échelles ERB (pour "Equivalent Rectangular Bandwidth" en Anglais) ou Bark. Par soucis de simplification, la description des étapes de codage effectuée par le codeur sera faite pour une bande de fréquence donnée. Les étapes sont bien entendu effectuées pour chacune des bandes de fréquence à traiter.

En sortie du module 210, on obtient donc le signal pour une bande de fréquence donné Sg.

Un module d'obtention d'informations de directivités 220, permet de déterminer par une étape OBT, d'une part, les directivités associées à chacune des sources de la scène sonore et d'autre part de déterminer les sources de la scène sonore pour la bande de fréquence donnée. Les directivités sont des vecteurs de même dimension que le nombre n_s de canaux du signal multicanal S_m.

Chaque source est associée à un vecteur de directivité. Pour un signal multicanal, le vecteur de directivité associé à une source correspond à la fonction de pondération à appliquer à cette source avant de la jouer sur un haut-parleur, de manière à reproduire au mieux une direction d'arrivée et une largeur de source. On comprend aisément que pour un nombre très important de haut- parleurs régulièrement espacés, le vecteur de directivité permettra de représenter fidèlement le rayonnement d'une source sonore.

En présence d'un signal ambiophonique, le vecteur de directivité sera obtenu par l'application d'une transformée de Fourier sphérique inverse sur les composantes des ordres ambiophoniques. En effet, les signaux ambiophoniques correspondent à une décomposition en harmoniques sphériques, d'où la correspondance directe avec la directivité des sources.

L'ensemble des vecteurs de directivité constitue donc une importante quantité de données qu'il serait trop coûteux de transmettre directement pour des applications à faible débit de codage. Pour réduire la quantité d'information à transmettre, deux méthodes de représentation des directivités peuvent par exemple être utilisées. Le module 230 de codage Cod.Di des informations de directivités peut ainsi mettre en œuvre une des deux méthodes décrites ci-après ou encore une combinaison des deux méthodes.

Une première méthode est une méthode de modélisation paramétrique qui permet d'exploiter les connaissances a priori sur le format de signal utilisé. Elle consiste à ne transmettre qu'un nombre très réduit de paramètres et à reconstruire les directivités en fonction de modèles de codage connus.

Par exemple, il s'agit d'exploiter les connaissances sur le codage des ondes planes pour des signaux de type ambiophonique pour ne transmettre que la valeur de la direction (azimut et élévation) de la source. Avec ces informations, il est alors possible de reconstruire la directivité correspondant à une onde plane provenant de cette direction.

Par exemple, pour un ordre ambiophonique défini, on connaît la directivité associée en fonction de la direction d'arrivée de la source sonore. Il existe plusieurs méthodes d'estimation des paramètres du modèle. Ainsi une recherche de pics dans le diagramme de directivité (par analogie avec l'analyse sinusoïdale, comme expliqué par exemple dans le document "Modélisation informatique du son musical (analyse, transformation, synthèse)" de Sylvain Marchand, PhD thesis, Université Bordeaux 1, permet de détecter relativement fidèlement la direction d'arrivée. D'autres méthodes comme le "matching pursuit", comme présenté dans S.

Mallat, Z. Zhang, Matching pursuit with time-frequency dictionaries, IEEE Transactions on Signal Processing 41 (1993) 3397-3415, ou l'analyse spectrale paramétrique peuvent aussi être utilisées dans ce contexte.

Une représentation paramétrique peut également utiliser un dictionnaire de forme simple pour représenter les directivités. A titre d'exemple, la figure 4 donne quelques formes simples de directivités (en azimut) pouvant être utilisées. Lors du codage des directivités, on associe à un élément du dictionnaire, l'azimut correspondant et un gain permettant de jouer sur l'amplitude de ce vecteur de directivité du dictionnaire. On peut ainsi, à partir d'un dictionnaire de forme de directivité, en déduire la meilleure forme ou la combinaison de formes qui permettra de reconstruire au mieux la directivité initiale.

Pour la mise en œuvre de cette première méthode, le module 230 de codage des directivités comporte un module de modélisation paramétrique qui donne en sortie des paramètres de directivités P. Ces paramètres sont ensuite quantifiés par le module de quantification 240.

Cette première méthode permet d'obtenir un très bon niveau de compression lorsque la scène correspond bien à un codage idéal. Ceci sera particulièrement le cas sur les scènes sonores de synthèse. Cependant pour des scènes complexes ou issues de prises de son microphoniques, il est nécessaire d'utiliser des modèles de codage plus génériques, impliquant la transmission d'une plus grande quantité d'informations.

La deuxième méthode décrite ci-dessous permet de s'affranchir de cet inconvénient. Dans cette deuxième méthode, la représentation des informations de directivité s'effectue sous forme de combinaison linéaire d'un nombre limité de directivités de base. Cette méthode s'appuie sur le fait que l'ensemble des directivités à un instant donné a généralement une dimension réduite. En effet, seul un nombre réduit de sources est active à un instant donné et la directivité pour chaque source varie peu avec la fréquence. On peut ainsi représenter l'ensemble des directivités dans un groupe de bandes de fréquences à partir d'un nombre très réduit de directivités de base bien choisies. Les paramètres transmis sont alors les vecteurs de directivité de base pour le groupe de bandes considérées, et pour chaque directivité à coder, les coefficients à appliquer aux directivités de base pour reconstruire la directivité considérée. Cette méthode est basée sur une méthode d'analyse en composante principale (ACP ou PCA en anglais pour "Principal Component Analysis"). Cet outil est largement développé par LT. Jolliffe dans "Principal Component Analysis", Springer, 2002. L'application de l'analyse en composante principale au codage des directivités s'effectue de la manière suivante: tout d'abord, on forme une matrice des directivités initiales Di, dont le nombre de lignes correspond au nombre total de sources de la scène sonore, et le nombre de colonne correspond au nombre de canaux du signal multicanal original. Ensuite, on effectue à proprement dit l'analyse en composante principale qui correspond à la diagonalisation de la matrice de covariance, et qui donne la matrice des vecteurs propres. Enfin, on sélectionne les vecteurs propres porteurs de la part d'information la plus importante et qui correspondent aux valeurs propres de plus forte valeur. Le nombre de vecteurs propres à conserver peut être fixe ou variable dans le temps en fonction du débit disponible. Cette nouvelle base donne donc la matrice D_B ^T. Les coefficients de gain associés à cette base sont facilement calculés à partir de G_D = Di.Dβ^T. Dans ce mode de réalisation, la représentation des directivités s'effectue donc à partir de directivité de base. La matrice des directivités Di s'écrit comme la combinaison linaire de ces directivités de base. Ainsi on peut écrire Di = G_DD_B, OÙ D_B est la matrice des directivités de base pour l'ensemble des bandes et G_D la matrice des gains associés. Le nombre de lignes de cette matrice représente le nombre total de sources de la scène sonore et le nombre de colonnes représente le nombre de vecteurs de directivité de base.

Dans une variante de ce mode de réalisation, des directivités de base sont envoyées par groupe de bandes considérées, afin de représenter plus fidèlement les directivités. Il est possible par exemple de fournir deux groupes de directivité de base: une pour les basses fréquences et une pour les hautes fréquences. La limite entre ces deux groupes peut par exemple être choisie entre 5 et 7 kHz.

Pour chaque bande de fréquence, on transmet ainsi, le vecteur de gain associé aux directivités de base.

Pour ce mode de réalisation, le module de codage 230 comprend un module d'analyse en composante principale délivrant des vecteurs de directivités de base D_B et des coefficients ou vecteurs de gain associés G_D-

Ainsi, après ACP, un nombre limité de vecteurs de directivité sera codé et transmis. Pour cela, on utilise une quantification scalaire effectué par le module de quantification 240, des coefficients et des vecteurs de directivités de base. Le nombre de vecteurs de base à transmettre pourra être fixé, ou bien sélectionné au codeur en utilisant par exemple un seuil sur l'erreur quadratique moyenne entre la directivité originale et la directivité reconstruite. Ainsi, si l'erreur est inférieure au seuil, le ou les vecteur(s) de base jusqu'alors sélectionné(s) sont suffisant, il n'est alors pas nécessaire de coder un vecteur de base supplémentaire. Dans des variantes de réalisation, le codage des directivités est réalisé par une combinaison des deux représentations listées ci-dessus. La figure 3a illustre de façon détaillée, le bloc de codage de directivités 230, dans une première variante de réalisation.

Ce mode de codage utilise les deux schémas de représentation des directivités. Ainsi, un module 310 effectue une modélisation paramétrique comme expliqué précédemment pour fournir des paramètres de directivités (P).

Un module 320 effectue une analyse en composante principale pour fournir à la fois des vecteurs de directivités de base (D_B) et des coefficients associés (G_D).

Dans cette variante un module de sélection 330 choisit bande de fréquence par bande de fréquence, le meilleur mode de codage pour la directivité en choisissant le meilleur compromis reconstruction des directivités/débit.

Pour chaque directivité, le choix de la représentation retenue (représentation paramétrique ou par combinaison linéaire de directivités de base) se fait de manière à optimiser l'efficacité de la compression. Un critère de sélection est par exemple la minimisation de l'erreur quadratique moyenne. Une pondération perceptuelle peut éventuellement être utilisée pour le choix du mode de codage de la directivité. Cette pondération a pour but par exemple de favoriser la reconstruction des directivités dans la zone frontale, pour laquelle l'oreille est plus sensible. Dans ce cas, la fonction d'erreur à minimiser dans le cas du modèle de codage par ACP peut se mettre sous la forme suivante:

E = (W(Di - G_DD_B))²

Avec Di, les directivités originales et W, la fonction de pondération perceptuelle.

Les paramètres de directivités issus du module de sélection sont ensuite quantifiés par une étape Q par le module de quantification 240 de la figure 2. Dans une seconde variante du bloc de codage 230, les deux modes de codage sont cascades. La figure 3b illustre en détails ce bloc de codage. Ainsi, dans cette variante de réalisation, un module 340 de modélisation paramétrique effectue une modélisation pour un certain nombre de directivités et fournit en sortie à la fois des paramètres de directivités (P) pour les directivités modélisés et des directivités non modélisés ou directivités résiduelles DiR.

Ces directivités résiduelles (DiR) sont codées par un module d'analyse en composante principale 350 qui fournit en sortie des vecteurs de directivités de base (D_B) et des coefficients associés (G_D). Les paramètres de directivités, les vecteurs de directivités de base ainsi que les coefficients sont fournis en entrée du module de quantification 240 de la figure 2.

La quantification Q est effectuée en réduisant la précision en fonction de données sur la perception, puis en appliquant un codage entropique. Aussi, des possibilités d'exploitation de la redondance entre bandes fréquentielles ou entre trames successives peuvent permettre de réduire le débit. Des prédictions intra- trames ou inter-trames sur les paramètres peuvent donc être utilisées. De manière générale, les méthodes classiques de quantification pourront être utilisées. D'autre part, les vecteurs à quantifier étant orthonormés, cette propriété pourra être exploitée lors de la quantification scalaire des composantes du vecteur. En effet, pour un vecteur de dimension N, seul N-I composantes devront être quantifiées, la dernière composante pouvant être recalculée.

En revenant à la description de la figure 2, en sortie du quantificateur 240, un module de construction d'un flux binaire 250 insère ces informations de directivités codées dans un flux binaire Fb selon l'étape Con.Fb. Le codeur tel que décrit ici comprend en outre un module de sélection 260 apte à sélectionner à l'étape Select des sources principales (S_pπn_c) parmi les sources de la scène sonore à coder (S_tot).

Pour cela, un mode de réalisation particulier utilise une méthode d'analyse en composante principale, ACP, dans chaque bande de fréquence dans le bloc 220 pour extraire toutes les sources de la scène sonore (S_tot). Cette analyse permet de classer les sources en sous-bandes par ordre d'importance selon le niveau d'énergie par exemple.

Les sources de plus grande importance (donc de plus grande énergie) sont alors sélectionnées par le module 260 pour constituer les sources principales (S_pπnc), qui sont ensuite matricées à l'étape M par le module 270 pour construire un signal somme (S_Sf,) (ou "downmix" en anglais).

Le nombre de sources principales (S_prj_nc) est choisi en fonction du nombre de canaux du signal somme. Ce nombre est choisi inférieur ou égal au nombre de canaux. De préférence, on choisit un nombre de sources principales égal au nombre de canaux du signal somme. La matrice M est alors une matrice carrée prédéfinie.

Ce signal somme par bande de fréquence subit une transformée temps- fréquence inverse T¹ par le module de transformée inverse 290 afin de fournir un signal somme temporel (S_s). Ce signal somme est ensuite encodé par un codeur de parole ou un codeur audio de l'état de l'art (par exemple: G.729.1 ou MPEG-4 AAC). Les sources secondaires (S_sec) peuvent être codées par un module de codage

280 et ajoutées au flux binaire dans le module de construction de flux binaire 250.

Pour ces sources secondaires, c'est-à-dire les sources qui ne sont pas transmises directement dans le signal somme, il existe différentes alternatives de traitements. Ces sources étant considérées comme non essentielles à la scène sonore, elles peuvent ne pas être transmises.

Il est cependant possible de coder une partie ou la totalité de ces sources secondaires par le module de codage 280 qui peut dans un mode de réalisation être un module de codage par transformée de Fourier à court terme. Ces sources peuvent ensuite être codées séparément en utilisant les codeurs audio ou de parole précités.

Dans une variante de ce codage, on peut ne coder directement les coefficients de la transformée de ces sources secondaires que dans les bandes dont on estime qu'elles sont importantes. Les sources secondaires peuvent être codées par des représentations paramétriques; ces représentations peuvent être sous la forme d'enveloppe spectrale ou d'enveloppe temporelle.

Ces représentations sont codées à l'étape Cod.S_sec du module 280 et insérées à l'étape Con.Fb dans le flux binaire. Ces représentations paramétriques constituent alors des informations de codage des sources secondaires.

Ce procédé de codage d'un signal multicanal tel que décrit est particulièrement intéressant par le fait que l'analyse est faite sur des fenêtres pouvant être de faible longueur. Ainsi, ce modèle de codage entraîne un faible retard algorithmique permettant son utilisation dans des applications où la maitrise du retard est importante.

Dans le cas de certains signaux multicanaux notamment de type ambiophonique, le codeur tel que décrit met en œuvre une étape supplémentaire de pré-traitement P par un module de pré-traitement 215. Ce module effectue une étape de changement de base afin d'exprimer la scène sonore en utilisant la décomposition en onde planes du champ acoustique.

Le signal ambiophonique original est vue comme la transformée de Fourier angulaire d'un champ sonore. Ainsi les différentes composantes représentent les valeurs pour les différentes fréquences angulaires. La première opération de décomposition en ondes planes correspond donc à prendre la composante omnidirectionnelle du signal ambiophonique comme représentant la fréquence angulaire nulle (cette composante est donc bien une composante réelle). Ensuite, les composantes ambiophonique suivantes (ordre 1, 2, 3, etc ..) sont combinées pour obtenir les coefficients complexes de la transformée de Fourier angulaire. Pour une description plus précise du format ambiophonique, on pourra se référer à la thèse de Jérôme Daniel, intitulé "Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia" 2001 , Paris 6.

Ainsi, pour chaque ordre ambiophonique supérieur à 1 (en 2-dimensions), la première composante représente la partie réelle, et la deuxième composante représente la partie imaginaire. Pour une représentation bidimensionnelle, pour un ordre O, on obtient O+l composantes complexes. Une Transformée de Fourier à Court Terme (sur la dimension temporelle) est ensuite appliquée pour obtenir les transformées de Fourier (dans le domaine fréquentiel) de chaque harmonique angulaire cette étape intègre alors l'étape de transformation T du module 210. Ensuite, on construit la transformée angulaire complète en recréant les harmoniques de fréquences négatives par symétrie hermitienne. Enfin, on effectue une transformée de Fourier inverse sur la dimension des fréquences angulaires pour passer dans le domaine des directivités. Cette étape de pré-traitement permet au codeur de travailler dans un espace de signaux dont l'interprétation physique et perceptive est simplifiée, ce qui permet d'exploiter plus efficacement les connaissances sur la perception auditive spatiale et ainsi améliorer les performances de codage. Le codage des signaux ambiophoniques reste cependant possible sans cette étape de pré-traitement. Pour les signaux non-issus des techniques ambiophoniques, cette étape n'est pas nécessaire. Pour ces signaux, la connaissance du système de captation ou de restitution associé au signal permet d'interpréter directement les signaux comme une décomposition en ondes planes du champ acoustique.

La figure 5 décrit à présent un décodeur et un procédé de décodage dans un mode de réalisation de l'invention.

Ce décodeur reçoit en entrée le flux binaire F_b tel que construit par le codeur décrit précédemment ainsi que le signal somme S₅.

De la même façon que pour le codeur, l'ensemble des traitements est effectué par trame temporelle. Pour simplifier les notations, la description du décodeur qui suit décrit uniquement le traitement effectué sur une trame temporelle fixée et ne fait pas apparaître la dépendance temporelle dans les notations. Dans le décodeur, ce même traitement est cependant successivement appliqué à l'ensemble des trames temporelles du signal. Pour retrouver les sources sonores, la première étape de décodage consiste à réaliser la transformée temps-fréquence T du signal somme S_s par le module de transformée 510 pour obtenir un signal somme par bande de fréquence, S_sf,.

Cette transformée est réalisée en utilisant par exemple la transformée de Fourier à court terme. Il faut noter que d'autres transformée ou bancs de filtres peuvent être également utilisés, et notamment des bancs de filtres non uniformes suivant une échelle de perception (e.g. Bark). On peut noter que de manière à éviter des discontinuités lors de la reconstruction du signal à partir de cette transformée, on utilise une méthode d'addition recouvrement. Pour la trame temporelle considérée, l'étape de calcul de la transformée de

Fourier à court terme consiste à fenêtrer chacun des n_f canaux du signal somme S_s à l'aide d'une fenêtre w de longueur supérieure à la trame temporelle, puis à calculer la transformée de Fourier du signal fenêtre à l'aide d'un algorithme de calcul rapide sur npFT points. On obtient ainsi une matrice F complexe de taille npF_T x n_f contenant les coefficients du signal somme dans l'espace fréquentiel.

Dans la suite, l'ensemble du traitement s'effectue par bandes de fréquence. Pour cela, on découpe la matrice des coefficients F en un ensemble de sous-matrices F_j contenant chacune les coefficients fréquentiels dans la j^eme bande. Différents choix pour le découpage fréquentiel des bandes sont possibles. Afin d'assurer que le traitement s'applique sur des signaux réels, on choisit des bandes symétriques par rapport à la fréquence nulle dans la transformée de Fourier à court terme. De plus, afin d'optimiser l'efficacité de décodage, on privilégie le choix de bandes de fréquences approchant des échelles fréquentielles perceptives, par exemple en choisissant des largeurs de bande constante dans les échelles ERB ou Bark. Par soucis de simplification, la description des étapes de décodage effectuée par le décodeur sera faite pour une bande de fréquence donnée. Les étapes sont bien entendu effectuées pour chacune des bandes de fréquence à traiter.

Le module 520 effectue un dématriçage N des coefficients fréquentiels de la transformée du signal somme de la bande de fréquence considérée de façon à retrouver les sources principales de la scène sonore. Plus précisément, la matrice S_pππ_c des coefficients fréquentiels pour la bande de fréquence courante des n_pπnc sources principales est obtenue selon la relation :

S_Pπnc=BN, où N est de dimension n_f x n_pπnc et B est une matrice de dimension n_bmx n_f où n_bm est le nombre de composantes (ou bins) fréquentielles retenues dans la bande de fréquence considérée.

N est calculé pour permettre l'inversion de la matrice de mixage M utilisée au codeur. On a donc la relation suivante: MN=I.

Le nombre de lignes de la matrice N correspond au nombre de canaux du signal somme, et le nombre de colonnes correspond au nombre de sources principales transmises. Pour la matrice M, les dimensions sont inversées, I étant une matrice identité de dimensions n_pπnc x n_pπnc.

Les lignes de B sont les composantes fréquentielles dans la bande de fréquence courante, les colonnes correspondent aux canaux du signal somme. Les lignes de S_pπnc sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à une source principale.

Il faut noter que le nombre de sources principales n_pπnc est de préférence inférieur ou égale au nombre n_f de canaux du signal somme pour assurer que l'opération soit inversible, et peut éventuellement être différent pour chaque bande de fréquence. Lorsque la scène est complexe, il peut arriver que le nombre de sources à reconstruire dans la bande de fréquence courante pour obtenir une reconstruction satisfaisante de la scène soit supérieur au nombre de canaux du signal somme.

Dans ce cas, des sources supplémentaires ou secondaires sont codées puis décodées à partir du flux binaire pour la bande courante par le module 550 de décodage du flux binaire.

Ce module de décodage décode les informations contenues dans le flux binaire et notamment, les informations de directivités et le cas échéant les sources secondaires.

Le décodage des sources secondaires s'effectue par les opérations inverses que celles qui ont été effectuées au codage. Quelque soit la méthode de codage qui a été retenue pour les sources secondaires, si des données de reconstruction ou informations de codage des sources secondaires ont été transmises dans le flux binaire pour la bande courante, les données correspondantes sont décodées pour reconstruire la matrice S_sec des coefficients fréquentiels dans la bande courante des n_sec sources secondaires. La forme de la matrice S_sec est similaire à la matrice S_pnnc, c'est à dire que les lignes sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à une source secondaire.

On peut ainsi construire la matrice complète S des coefficients fréquentiels de l'ensemble des n_tot=n_princ+n_Sec sources nécessaires à la reconstruction du signal multicanal dans la bande considérée, obtenue en regroupant les deux matrices S_pπnc et

Ssupp suivant la relation S = (S_pntlL S_mpp j . S est donc une matrice de dimension n_b,_n x n_tot- Aussi, la forme est identique aux matrices S_pπn_c et S_supp : les lignes sont les composantes fréquentielles dans la bande de fréquence courante, chaque colonne est une source, avec n_tot sources au totale.

En parallèle de la reconstruction des sources qui vient d'être décrite, on réalise la reconstruction des directivités.

Les informations de directivités sont extraites du flux binaire à l'étape Decod. Fb par le module 550. Les sorties possibles de ce module de décodage du flux binaire dépendent des méthodes de codage des directivités utilisées au codage. Elles peuvent être sous forme de vecteurs de directivités de base D_B et de coefficients associés G_D et/ou des paramètres de modélisation P.

Ces données sont alors transmises à un module de reconstructions des informations de directivités 560 qui effectue le décodage des informations de directivités par des opérations inverses de celles effectuées au codage.

Le nombre de directivités à reconstruire est égal au nombre n_tot de sources dans la bande de fréquence considérée, chaque source étant associée à un vecteur de directivité. Dans le cas de la représentation des directivités à partir de directivité de base, la matrice des directivités Di s'écrit comme la combinaison linaire de ces directivités de base. Ainsi on peut écrire Di = G_DD_B, OÙ D_B est la matrice des directivités de base pour l'ensemble des bandes et G_D la matrice des gains associés. Cette matrice de gain a un nombre de lignes égal au nombre total de sources n_tot, et un nombre de colonnes égal au nombre de vecteurs de directivité de base.

Dans une variante de ce mode de réalisation, des directivités de base sont décodés par groupe de bandes de fréquence considérées, afin de représenter plus fidèlement les directivités. Comme expliqué pour le codage, on peut par exemple fournir deux groupes de directivités de base: un pour les basses fréquences et un pour les hautes fréquences. Un vecteur de gains associés aux directivités de base est ensuite décodé pour chaque bande.

Au final on reconstruit autant de directivités que de sources. Ces directivités sont regroupées dans une matrice Di où les lignes correspondent aux valeurs d'angle (autant de valeur d'angle que de canaux dans le signal multicanal à reconstruire), et chaque colonne correspond à la directivité de la source correspondante, c'est à dire que la colonne r de Di donne la directivité de la source qui est dans la colonne r de S. A partir de la matrice S des coefficients des sources et de la matrice D des directivités associées les coefficients fréquentiels du signal multicanal reconstruit dans la bande sont calculés dans le module de spatialisation 530 à l'étape SPAT., selon la relation:

Y=SD^T, où Y est le signal reconstruit dans la bande. Les lignes de la matrice Y sont les composantes fréquentielles dans la bande de fréquence courante, et chaque colonne correspond à un canal du signal multicanal à reconstruire. En reproduisant le même traitement dans chacune des bandes fréquentielles, on reconstruit les transformées de Fourier complètes des canaux du signal à reconstruire pour la trame temporelle courante. Les signaux temporels correspondants sont alors obtenues par transformée de Fourier inverse T ', à l'aide d'un algorithme rapide mis en œuvre par le module de transformée inverse 540. On obtient ainsi le signal multicanal S_m sur la trame temporelle courante. Les différentes trames temporelles sont ensuite combinées par méthode classique d'addition avec recouvrement (ou "overlap-add" en anglais) pour reconstruire le signal multicanal complet. De manière générale, des lissages temporels ou fréquentiels des paramètres pourront être utilisés aussi bien à l'analyse qu'à la synthèse pour assurer des transitions douces dans la scène sonore. Une signalisation de changement brutal de la scène sonore pourra être réservée dans le flux binaire pour éviter les lissages du décodeur dans le cas d'une détection d'un changement rapide de la composition de la scène sonore. D'autre part, des méthodes classiques d'adaptation de la résolution de l'analyse temps-fréquence peuvent être utilisées (changement de taille des fenêtres d'analyse et de synthèse au cours du temps).

De la même manière qu'au codeur, un module de changement de base peut effectuer un pré-traitement P^"1 pour obtenir une décomposition en ondes planes des signaux, un module de changement de base 570 effectue l'opération inverse à partir des signaux en ondes planes pour retrouver le signal multicanal original.

Le codage du mode de réalisation décrit en référence à la figure 2 permet d'obtenir une compression efficace lorsque la complexité de la scène reste limitée. Lorsque la complexité de la scène est plus grande, c'est à dire lorsque la scène contient un nombre élevé de sources actives dans une bande de fréquence, ou d'importantes composantes diffuses, un nombre important de sources et de directivité associées devient nécessaire pour obtenir une bonne qualité de restitution de la scène. L'efficacité de la compression est alors amoindrie.

Une variante de réalisation du procédé de codage et d'un codeur mettant en œuvre ce procédé est décrite en référence à la figure 6. Cette variante de réalisation permet d'améliorer l'efficacité de codage pour les scènes complexes.

Pour cela, le codeur tel que représenté en figure 6 comporte les modules 215, 210, 220, 230, 240 tels que décrits en référence à la figure 2.

Il comporte également les modules 260, 270 et 290 tel que décrit en référence à la figure 2. Ce codeur comporte cependant un module de codage des sources secondaires 620, qui diffère du module 280 de la figure 2 dans le cas où le nombre de sources secondaires est important.

Dans ce cas de figure, une méthode de codage paramétrique des sources secondaires est mis en œuvre par ce module de codage 620.

Pour cela, on prend en compte les limites de la perception auditive spatiale.

Dans les bandes de fréquence où le nombre de sources secondaires est important, le champ est perceptivement assimilable à un champ diffus, et la représentation du champ par une ou plusieurs caractéristiques statistiques du champ est suffisante pour reconstruire un champ perceptivement équivalent.

Ce principe est assimilable au principe plus classiquement utilisé en codage audio pour la représentation des composantes bruitée. Ces composantes sont en effet couramment codées sous la forme de bruit blanc filtré avec des caractéristiques de filtrage variant dans le temps. Pour reconstruire de manière perceptivement satisfaisante ces composantes, seule la connaissance des caractéristiques du filtrage (l'enveloppe spectrale) est nécessaire, n'importe quel bruit blanc pouvant être utilisé lors de la reconstruction.

Dans le cadre de la présente invention, on utilise le fait que les composantes spatialement diffuses de la scène sonore peuvent être perceptivement reconstruites à partir de la simple connaissance de la directivité correspondante, et en contrôlant la cohérence du champ créé. Ceci peut être fait en utilisant des pseudo-sources construites par décorrélation, à partir d'un nombre limité de sources transmises et en utilisant les directivités des composantes diffuses estimées sur le signal multicanal original. L'objectif est alors de reconstruire un champ sonore statistiquement et perceptivement équivalent à l'original, même s'il est constitué de signaux dont les formes d'ondes sont différentes.

Ainsi, pour mettre en œuvre cette méthode, un certain nombre de sources secondaires ne sont pas transmises et sont remplacées par des pseudo-sources obtenues par décorrélation des sources transmises, ou par toute autre source artificielle décorrélée des sources transmises. On évite ainsi la transmission des données correspondant à ces sources et on améliore de manière significative l'efficacité du codage.

Dans un premier mode de réalisation, on choisit une source à transmettre au décodeur et un décorrélateur prédéfini connu à la fois du codeur et du décodeur, à appliquer à la source transmise pour construire, au décodeur des pseudo- sources.

Dans ce mode de réalisation, il n'est donc pas nécessaire de transmettre des données de décorrélation mais au moins une source servant de base à cette décorrélation doit être transmise (de façon effective et non paramétrique).

Dans un deuxième mode de réalisation, une représentation paramétrique des sources secondaires est obtenue par le module de codage des sources secondaires 620 et est également transmise au module de construction du flux binaire.

Cette représentation paramétrique des sources secondaires ou de sources diffuses s'effectue par exemple par une enveloppe spectrale. Une enveloppe temporelle peut également être utilisée. Dans une variante de ce mode de réalisation, les pseudo-sources sont calculées par un module 630 de décorrélation qui calcule les sources décorrélées à partir d'au moins une source principale ou avec au moins une source secondaire codée à transmettre.

Plusieurs décorrélateurs et plusieurs sources initiales peuvent être utilisés, et on peut sélectionner la source initiale associée à un type de décorrélateur donnant le meilleur résultat de reconstruction. Ces données de décorrélation comme par exemple l'indice du corrélateur utilisé et les données de choix de la source initiale comme l'indice de la source, sont ensuite transmis au module de construction du flux binaire pour y être insérée. Le nombre de sources à transmettre est donc réduit tout en gardant une bonne qualité perceptive du signal reconstruit.

La figure 7 représente un décodeur et un procédé de décodage adapté au codage selon la variante de réalisation décrite en figure 6.

Ce décodeur comporte les modules 510, 520, 530, 540, 570, 560 tels que décrit en référence à la figure 5. Ce décodeur diffère de celui décrit en figure 5 par les informations décodées par le module de décodage du flux binaire 720 et par le bloc de calcul de décorrélation 710.

En effet, le module 720 obtient outre des informations de directivités des sources de la scène sonore et le cas échéant des sources secondaires décodées, des données de représentation paramétriques de certaines sources secondaires ou sources diffuses et éventuellement des informations sur le décorrélateur et les sources transmises à utiliser pour reconstruire les pseudo-sources.

Ces dernières informations sont alors utilisées par le module de décorrélation 710 qui permet de reconstruire les pseudo-sources secondaires qui seront combinées aux sources principales et aux autres sources secondaires potentielles dans le module de spatialisation comme décrit en référence à la figure 5.

Les codeurs et décodeurs tels que décrit en référence aux figures 2, 6 et 5, 7 peuvent être intégrés à un équipement multimédia de type décodeur de salon, ordinateur ou encore équipement de communication tel qu'un téléphone mobile ou agenda électronique personnel.

La figure 8a représente un exemple d'un tel équipement multimédia ou dispositif de codage comportant un codeur selon l'invention. Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM. Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de codage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de

- décomposition du signal multicanal en bandes de fréquence et les étapes suivantes par bande de fréquence:

- sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales; - matriçage des sources principales sélectionnées pour obtenir un signal somme avec un nombre réduit de canaux;

- codage des informations de directivité et formation d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme.

Typiquement, la description de la figure 2 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement. Le dispositif comporte un module d'entrée apte à recevoir un signal multicanal représentant une scène sonore, soit par un réseau de communication, soit par lecture d'un contenu stocké sur un support de stockage. Cet équipement multimédia peut également comporter des moyens de capture d'un tel signal multicanal. Le dispositif comporte un module de sortie apte à transmettre un flux binaire

Fb et un signal somme Ss issus du codage du signal multicanal.

De la même façon, la figure 8b illustre un exemple d'équipement multimédia ou dispositif de décodage comportant un décodeur selon l'invention.

Ce dispositif comporte un processeur PROC coopérant avec un bloc mémoire BM comportant une mémoire de stockage et/ou de travail MEM.

Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de décodage au sens de l'invention, lorsque ces instructions sont exécutées par le processeur PROC, et notamment les étapes de: - extraction dans le flux binaire et décodage d'informations de directivités représentatives de la répartition spatiale des sources dans la scène sonore;

- dématriçage du signal somme pour obtenir un ensemble de sources principales;

- reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les informations de directivités décodées. Typiquement, la description de la figure 5 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de l'équipement. Le dispositif comporte un module d'entrée apte à recevoir un flux binaire Fb et un signal somme S_s provenant par exemple d'un réseau de communication. Ces signaux d'entrée peuvent provenir d'une lecture sur un support de stockage.

Le dispositif comporte un module de sortie apte à transmettre un signal multicanal décodé par le procédé de décodage mis en œuvre par l'équipement. Cet équipement multimédia peut également comporter des moyens de restitution de type haut-parleur ou des moyens de communication apte à transmettre ce signal multi-canal.

Bien évidemment, un tel équipement multimédia peut comporter à la fois le codeur et le décodeur selon l'invention. Le signal d'entrée étant alors le signal multicanal original et le signal de sortie, le signal multicanal décodé.

Claims

REVENDICATIQNS

1. Procédé de codage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, caractérisé en ce qu'il comporte une étape de décomposition (T) du signal multicanal en bandes de fréquence et les étapes suivantes par bande de fréquence:

- obtention (OBT) d'informations de directivité par source sonore de la scène sonore, les informations étant représentatives de la répartition spatiale de la source sonore dans la scène sonore; - sélection (Select) d'un ensemble de sources sonores de la scène sonore constituant des sources principales;

- matriçage (M) des sources principales sélectionnées pour obtenir un signal somme avec un nombre réduit de canaux;

- codage (Cod.Di) des informations de directivité et formation (Con.Fb) d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme.

2. Procédé de codage selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape de codage (Cod S_sec) de sources secondaires parmi les sources non sélectionnées de la scène sonore et d'insertion d'informations de codage des sources secondaires dans le flux binaire.

3. Procédé selon la revendication 2, caractérisé en ce que les informations de codage des sources secondaires sont des enveloppes spectrales codées des sources secondaires.

4. Procédé selon la revendication 2, caractérisé en ce que le codage de sources secondaires comporte les étapes suivantes: - construction de pseudo-sources représentant au moins une partie des sources secondaires, par décorrélation avec au moins une source principale et/ou au moins une source secondaires codée;

- codage des pseudo-sources construites; et - insertion dans le flux binaire d'un indice de source utilisée et d'un indice de décorrélateur utilisé pour l'étape de construction.

5. Procédé selon la revendication 1, caractérisé en ce que le codage des informations de directivités s'effectue par une méthode de représentation paramétrique.

6. Procédé selon la revendication 5, caractérisé en ce que la représentation paramétrique comporte des informations de direction d'arrivée, pour la reconstruction d'une directivité simulant une onde plane.

7. Procédé selon la revendication 5, caractérisé en ce que la représentation paramétrique comporte des indices de sélection de forme de directivité dans un dictionnaire de formes de directivités.

8. Procédé selon la revendication 1, caractérisé en ce que le codage des informations de directivité s'effectue par une méthode d'analyse en composante principale délivrant des vecteurs de directivité de base associés à des gains permettant la reconstruction des directivités initiales.

9. Procédé selon la revendication 1, caractérisé en ce que le codage des informations de directivité s'effectue par une combinaison d'une méthode d'analyse en composante principale et d'une méthode de représentation paramétrique.

10. Procédé de décodage d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, à partir d'un flux binaire et d'un signal somme, caractérisé en ce qu'il comporte les étapes suivantes:

- extraction (decod.Fb) dans le flux binaire et décodage d'informations de directivités représentatives de la répartition spatiale des sources dans la scène sonore;

- dématriçage (N) du signal somme pour obtenir un ensemble de sources principales;

- reconstruction (SPAT) du signal audio multicanal par spatialisation au moins des sources principales avec les informations de directivités décodées.

11. Procédé de décodage selon la revendication 10, caractérisé en ce qu'il comporte en outre les étapes suivantes:

- extraction du flux binaire, d'informations de codage de sources secondaires codées; - décodage des sources secondaires à partir des informations de codage extraites;

- regroupement des sources secondaires aux sources principales pour la spatialisation.

12. Procédé de décodage selon la revendication 11, caractérisé en ce qu'il comporte en outre l'étape suivante:

13. Procédé de décodage selon la revendication 11, caractérisé en ce qu'il comporte en outre les étapes suivantes:

- extraction du flux binaire, d'un indice de source principale et/ou d'au moins une source secondaire codée et d'un indice d'un décorrélateur à appliquer à cette source; - décodage des sources secondaires par utilisation de la source et de l'indice de décorrélateur pour reconstruire des pseudo-sources représentatives d'au moins une partie des sources secondaires.

14. Codeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, caractérisé en ce qu'il comporte:

- un module (210) de décomposition du signal multicanal en bande de fréquence;

- un module (220) d'obtention d'informations de directivité apte à obtenir ces informations par source sonore de la scène sonore et par bande de fréquence, les informations étant représentatives de la répartition spatiale de la source sonore dans la scène sonore;

- un module (260) de sélection d'un ensemble de sources sonores de la scène sonore constituant des sources principales; - un module (270) de matriçage des sources principales issues du module de sélection pour obtenir un signal somme avec un nombre réduit de canaux;

- un module (230) de codage des informations de directivité et un module de formation d'un flux binaire comportant les informations de directivités codées, le flux binaire étant apte à être transmis parallèlement au signal somme.

15. Décodeur d'un signal audio multicanal représentant une scène sonore comportant une pluralité de sources sonores, recevant en entrée un flux binaire et un signal somme, caractérisé en ce qu'il comporte:

- un module (550) d'extraction et de décodage d'informations de directivités représentatives de la répartition spatiale des sources dans la scène sonore;

- un module (520) de dématriçage du signal somme pour obtenir un ensemble de sources principales;

- un module (530) de reconstruction du signal audio multicanal par spatialisation au moins des sources principales avec les informations de directivités décodées.

16. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes d'un procédé de codage selon l'une des revendications 1 à 9 et/ou d'un procédé de décodage selon l'une des revendications 10 à 13, lorsque ces instructions sont exécutées par un processeur.