ES2271847T3

ES2271847T3 - Procedimiento de tratamiento de datos sonoros comprimidos, por espacializacion.

Info

Publication number: ES2271847T3
Application number: ES04712070T
Authority: ES
Inventors: Abdellatif Benjelloun Touimi; Marc Emerit; Jean-Marie Pernaux
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2003-02-27
Filing date: 2004-02-18
Publication date: 2007-04-16
Anticipated expiration: 2024-02-18
Also published as: DE602004001868D1; EP1600042B1; FR2851879A1; WO2004080124A1; EP1600042A1; ATE336151T1; DE602004001868T2; US20060198542A1

Abstract

Procedimiento de tratamiento de datos sonoros, mediante una restitución espacializada de señales acústicas, en el cual: a) se obtiene, para cada señal acústica (Si), al menos un primer juego (Cni) y un segundo juego (Dni) de términos ponderativos, representativos de una dirección de percepción de dicha señal acústica por un oyente; y b) se aplica a al menos dos juegos de unidades de filtrado, dispuestas en paralelo, dichas señales acústicas, para emitir al menos una primera señal de salida (L) y una segunda señal de salida (R) que corresponda cada una a una combinación lineal de las señales acústicas ponderadas por el conjunto de los términos ponderativos respectivamente del primer juego (Cni) y del segundo juego (Dni) y filtrados por dichas unidades de filtrado, caracterizado porque cada señal acústica en la etapa a) es al menos parcialmente codificada en compresión y se expresan bajo la forma de un vector de sub-señales asociados a sub-bandas de frecuencias respectivas, y porque cada unidad de filtrado es dispuesta para efectuar un filtrado matricial aplicado a cada vector, en el espacio de las sub-bandas frecuenciales.

Description

Procedimiento de tratamiento de datos sonoros comprimidos, por espacialización.

La invención concierne a un tratamiento de datos sonoros mediante una restitución espacializada de señales acústicas.

La aparición de nuevos formatos de codificación de datos en las redes de telecomunicaciones permite la transmisión de escenas sonoras complejas y estructuradas que comprenden fuentes sonoras múltiples. En general, esas fuentes sonoras son espacializadas, es decir que las mismas son tratadas de manera de aportar un rendimiento final realista en términos de posición de las fuentes y de efecto de sala (reverberación). Es el caso por ejemplo de la codificación según la norma MPEG-4 que permite transmitir escenas sonoras complejas que comprenden sonidos comprimidos o no, y sonidos de síntesis, a los cuales están asociados parámetros de espacialización (posición, efecto de la sala circundante). Esta transmisión se hace en redes con exigencias, y el rendimiento sonoro depende del tipo de terminal utilizada. En una terminal móvil de tipo PDA por ejemplo (por "Personal Digital Assistant"), se utilizará de manera preferencial un casco de auriculares. Las exigencias de este tipo de terminales (potencia de cálculo, tamaño de memoria) hacen difícil la implementación de técnicas de espacialización del sonido.

La espacialización sonora recubre dos tipos de tratamientos diferentes. A partir de una señal de audio monofónica, se busca dar la ilusión a un oyente que la o las fuentes sonoras están en posiciones bien precisas del espacio (que se desea poder modificar en tiempo real), e inmersas en un espacio que tiene propiedades acústicas particulares (reverberación, u otros fenómenos acústicos tales como la oclusión). A modo de ejemplo, en terminales de telecomunicación de tipo móvil, es natural considerar un rendimiento sonoro con un casco de auriculares estereofónico. La técnica de posicionamiento de las fuentes sonoras más eficaz es entonces la síntesis binaural.

La misma consiste, para cada fuente sonora, en filtrar la señal monofónica por funciones de transferencia acústicas, llamadas HRTFs (del inglés "Head Related Transfer Functions"), que modelan las transformaciones engendradas por el torso, la cabeza y el pabellón de la oreja del oyente en una señal proveniente de una fuente sonora. Para cada posición del espacio, se puede medir un par de esas funciones (una para la oreja derecha, una para la oreja izquierda). Las HRTFs son por lo tanto funciones de una posición espacial, más particularmente de un ángulo de azimut \theta y de un ángulo de elevación \varphi, y de la frecuencia sonora f. Se obtiene entonces, para un sujeto dado, una base de datos de funciones de transferencia acústicas de N posiciones del espacio para cada oreja, en las cuales un sonido puede ser "colocado" (o "espacializado" según la terminología utilizada en lo adelante.

Se indica que un tratamiento de espacialización similar consiste en una síntesis llamada "transaural", en la cual se prevé simplemente más de dos alto-parlantes en un dispositivo de restitución (que se presenta entonces bajo una forma diferente a un casco con dos auriculares izquierdo y derecho).

De manera clásica, la puesta en práctica de esta técnica se hace bajo la forma llamada "bicanal" (tratamiento representado esquemáticamente en la figura 1 relativo al arte anterior). Para cada fuente sonora a posicionar según el par de ángulos azimutal y de elevación [\theta, \varphi], se filtra la señal de la fuente por la función HRTF de la oreja izquierda y por la función HRTF de la oreja derecha. Los dos canales izquierdo y derecho emiten señales acústicas que son entonces difundidas a las orejas del oyente con un casco de auriculares estereofónico. Esta síntesis binaural bicanal es de tipo llamado a continuación "estático", ya que en ese caso, las posiciones de las fuentes sonoras no evolucionan en el tiempo.

Si se desea, por el contrario, hacer variar las posiciones de las fuentes sonoras en el espacio en el curso del tiempo (síntesis "dinámica"), los filtros utilizados para modelar las HRTFs (oreja izquierda y oreja derecha) deben ser modificados. Sin embargo, esos filtros como son en su mayoría del tipo de respuesta a un impulso finito (FIR) o de respuesta a un impulso infinito (IIR), aparecen problemas de discontinuidades de las señales de salida izquierda y derecha, provocando "clicks" audibles. La solución técnica clásicamente empleada para paliar este problema es hacer girar dos juegos de filtros binaurales en paralelo. El primer juego simula una posición [\theta1, \varphi1] en el instante t1, el segundo una posición [\theta2, \varphi2] en el instante t2. La señal que da la ilusión de un desplazamiento entre las posiciones en los instantes t1 y t2 es entonces obtenida por una fusión encadenada de las señales izquierda y derecha que resultan de los procesos de filtración para la posición [\theta1, \varphi1] y para la posición [\theta2, \varphi2]. Así, la complejidad del sistema de posicionamiento de las fuentes sonoras es entonces multiplicado por dos (dos posiciones en dos instantes) con relación en el caso estático.

A fin de paliar este problema, han sido propuestas técnicas de descomposición lineal de las HRTFs (tratamiento representado esquemáticamente en la figura 2 relativo la arte anterior). Una de las ventajas de estas técnicas es que las mismas permiten una puesta en práctica donde la complejidad depende mucho menos del número total de fuentes a posicionar en el espacio. En efecto, esas técnicas permiten descomponer las HRTFs en una base de funciones comunes a todas las posiciones del espacio, y no dependen por lo tanto de la frecuencia, lo que permite reducir el número de filtros necesarios. Así, ese número de filtros es fijo, independientemente del número de fuentes y/o del número de posiciones de fuentes a prever. La adición de una fuente sonora suplementaria sólo adiciona entonces operaciones de multiplicación por un juego de coeficientes de ponderación y por un retardo \tau_{i}, esos coeficientes y ese retardo sólo dependen de la posición [\theta,\varphi]. Por lo tanto ningún filtro suplementario es necesario.

Esas técnicas de descomposición lineal tienen también un interés en el caso de la síntesis binaural dinámica (es decir cuando la posición de las fuentes sonoras varía en el curso del tiempo). En efecto, en esta configuración, no se hacen variar los coeficientes de los filtros, sino los valores de los coeficientes de ponderación y de retardos en función únicamente de la posición. El principio descrito anteriormente de descomposición lineal de los filtros de rendimiento sonoro se generaliza a otras aproximaciones, como se verá a continuación.

Además, en los diferentes servicios de comunicación de grupo (tele-conferencia, audioconferencia, videoconferencia, u otro) o de comunicación "en flujo continuo" (del inglés "STREAMING"), para adaptar un flujo binario a la amplitud del ancho de banda proporcionada por una red, los flujos de audio y/o de palabra son transmitidos bajo un formato codificado comprimido. Se considera a continuación que flujos inicialmente comprimidos por codificadores de tipo frecuenciales (o por transformada en frecuencia) tales como aquellos que operan según la norma MPEG-1 (Layer I-II-III), la norma MPEG-2/4 AAC, la norma MPEG-4 TwinVQ, la norma Dolby AC-2, la norma Dolby AC-3, o también una norma UIT-T G.722.1 en codificación de palabra, o también el procedimiento de codificación TDAC de la Solicitante. La utilización de tales codificadores equivale a efectuar primero una transformación tiempo/frecuencia en bloques de la señal temporal. Los parámetros obtenidos son seguidamente cuantificados y codificados para ser transmitidos en una trama con otras informaciones complementarias necesarias para la codificación. Esta transformación tiempo/frecuencia puede tomar la forma de un banco de filtros en sub-bandas de frecuencias o también una transformada de tipo MDCT (por "Modified Discrete Cosinus Transform"). A continuación, se designará por los mismos términos "campo de sub-bandas" un campo definido en un espacio de sub-bandas frecuenciales, un campo de un espacio temporal transformado en frecuencia o un campo frecuencial.

Para efectuar la espacialización sonora de tales flujos, el método clásico consiste en hacer primero una descodificación, realizar el tratamiento de espacialización sonoro en las señales temporales, y luego re-codificar las señales que resulten, para una transmisión hacia una terminal de restitución. Esta sucesión de etapas, fastidiosas, es a menudo muy costosa en términos de potencia de cálculo, de la memoria necesaria para el tratamiento y de la demora algorítmica introducida. La misma por lo tanto no se adapta a las exigencias impuestas por las máquinas donde se efectúa el tratamiento y a las exigencias de comunicación.

Por ejemplo, el documento US-6,470,087 describe un dispositivo para la restitución de una señal acústica multicanal comprimida en dos alto-parlantes. Todos los cálculos son hechos en toda la banda de frecuencia de la señal de entrada, que debido a esto debe estar completamente descodificada.

La presente invención mejora la situación.

Uno de los objetivos de la presente invención es proponer un procedimiento de tratamiento de datos sonoros que reagrupa las operaciones de codificación/descodificación en compresión de los flujos de audio y de espacialización de dichos flujos.

Otro objetivo de la presente invención es proponer un procedimiento de tratamiento de datos sonoros, por espacialización, que se adapta a un número variable (dinámicamente) de fuentes sonoras a posicionar.

Un objetivo general de la presente invención es proponer un procedimiento de tratamiento de datos sonoros, por espacialización, que permita una gran difusión de datos sonoros espacializados, en particular una difusión para el gran público, los dispositivos de restitución estando simplemente equipados con un descodificador de las señales recibidas y de alto-parlantes de restitución.

La misma propone para esto un procedimiento de tratamiento de datos sonoros, para una restitución espacializada de señales acústicas, en el que:

a) se obtiene, para cada señal acústica, al menos un primer juego y un segundo juego de términos ponderativos, representativos de una dirección de percepción de dicha señal acústica por un oyente;

b) y se aplica a al menos dos juegos de unidades de filtrado, dispuestas en paralelo, dichas señales acústicas, para emitir al menos una primera señal de salida y una segunda señal de salida que corresponda cada una a una combinación lineal de las señales acústicas ponderadas por el conjunto de los términos ponderativos respectivamente del primer juego y del segundo juego y filtrados por dichas unidades de filtrado.

Cada señal acústica en la etapa a) del procedimiento en el sentido de la invención es al menos parcialmente codificada en compresión y se expresan bajo la forma de un vector de sub-señal asociados a sub-bandas de frecuencias respectivas, y cada unidad de filtrado es dispuesta para efectuar un filtrado matricial aplicado a cada vector, en el espacio de las sub-bandas frecuenciales.

Ventajosamente, cada filtrado matricial es obtenido por conversión, en el espacio de las sub-bandas frecuenciales, de un filtrado de respuesta a un impulso (finito o infinito) definido en el espacio temporal. Tal filtro de respuesta a un impulso es preferentemente obtenido por determinación de una función de transferencia acústica que depende de una dirección de percepción de un sonido y de la frecuencia de ese sonido.

\newpage

Según una característica ventajosa de la invención, esas funciones de transferencia se expresan por una combinación lineal de términos que dependen de la frecuencia y ponderados por términos que dependen de la dirección, lo que permite, como se indicó anteriormente, por una parte tratar un número variable de señales acústicas en la etapa a) y, por otra parte, hacer variar dinámicamente la posición de cada fuente en el tiempo. Además, tal expresión de las funciones de transferencia "integra" el retardo interaural que es clásicamente aplicado a una de las señales de salida, con relación a la otra, antes de la restitución, en los tratamientos binaurales. A este efecto, se prevén matrices de filtros de ganancias asociadas a cada señal.

Así, dichas primera y segunda señales de salida están preferentemente destinadas a ser descodificadas en primera y segunda señales de restitución, la combinación lineal precitada teniendo ya en cuenta un defasaje temporal entre esas primera y segunda señales de restitución, de forma ventajosa.

Finalmente, entre la etapa de recepción/descodificación de las señales recibidas por un dispositivo de restitución y la etapa de restitución por sí misma, se puede no prever ninguna etapa suplementaria de espacialización sonora, ese tratamiento de espacialización siendo completamente efectuado río arriba y directamente sobre señales codificadas.

Según una de las ventajas que proporciona la presente invención, la asociación de técnicas de descomposición lineal de las HRTFs a las técnicas de filtrado en el campo de las sub-bandas permite aprovechar ventajas de las dos técnicas para llegar a sistemas de espacialización sonora de poca complejidad y de memoria reducida para señales de audio codificadas múltiples.

En efecto, en una arquitectura "bicanal" clásica, el número de filtros a utilizar es función del número de fuentes a posicionar. Como se indicó anteriormente, ese problema no se encuentra en una arquitectura basada en la descomposición lineal de las HRTFs. Esta técnica es por lo tanto preferible en términos de potencia de cálculo, pero también de espacio de memoria necesario para el almacenamiento de los filtros binaurales. En fin, esta arquitectura permite administrar de manera óptima la síntesis binaural dinámica, ya que la misma permite efectuar el "fading" entre dos instantes t1 y t2 en coeficientes que solo dependen de la posición, y no necesitan por lo tanto dos juegos de filtros en paralelo.

Según otra ventaja que proporciona la presente invención, el filtrado directo de las señales en el campo codificado permite la economía de una descodificación completa por flujo de audio antes de proceder a la espacialización de las fuentes, lo que implica una ganancia considerable en complejidad.

Según otra ventaja que proporciona la presente invención, la espacialización sonora del flujo de audio puede intervenir en diferentes puntos de una cadena de transmisión (servidores, nodos de red o terminales). La naturaleza de la aplicación y la arquitectura de la comunicación utilizados pueden favorecer un caso u otro. Así, en un contexto de tele-conferencia, el tratamiento de espacialización es preferiblemente efectuado al nivel de las terminales en una arquitectura descentralizada y, por el contrario, al nivel del punto de audio (o MCU por "Multipoint Control Unit") en una arquitectura centralizada. Para aplicaciones de "streaming" audio, específicamente en terminales móviles, la espacialización puede ser realizada en el servidor, como en la terminal, o también durante la creación del contenido. En esos diferentes casos, una disminución de la complejidad del tratamiento y también de la memoria necesaria para el almacenamiento de los filtros HRTF es siempre apreciada. Por ejemplo, para terminales móviles (teléfonos portátiles de segunda y tercera generaciones, PDA, o micro-ordenadores de bolsillo) que tienen exigencias fuertes en término de capacidad de cálculo y de tamaño de memoria, se prevé preferentemente un tratamiento de espacialización directamente al nivel de un servidor de contenidos.

La presente invención puede encontrar así aplicaciones en el campo de la transmisión de flujo de audio múltiples incluidos en escenas sonoras estructuradas, como lo prevé la norma MPEG-4.

Otras características, ventajas y aplicaciones de la invención aparecerán con el examen de la descripción detallada a continuación, y de los dibujos anexos en los que:

- la figura 1 ilustra esquemáticamente un tratamiento que corresponde a una síntesis binaural "bicanal" estática para señales audionuméricas temporales S_{i}, del arte anterior;

- la figura 2 representa esquemáticamente una puesta en práctica de la síntesis binaural basada en la descomposición lineal de las HRTFs para señales audionuméricas temporales no codificadas del arte anterior;

- la figura 3 representa esquemáticamente un sistema, en el sentido del arte anterior, de espacialización binaural de N fuentes de audio inicialmente codificadas, y luego completamente descodificadas para el tratamiento de espacialización en el campo temporal y seguidamente re-codificadas para una transmisión a uno o varios dispositivos de restitución, aquí a partir de un servidor;

- la figura 4 representa esquemáticamente un sistema, en el sentido de la presente invención, de espacialización binaural de N fuentes de audio parcialmente descodificadas para el tratamiento de espacialización en el campo de las sub-bandas y seguidamente re-codificadas completamente para la transmisión a uno o varios dispositivos de restitución, aquí a partir de un servidor;

- la figura 5 representa esquemáticamente un tratamiento de espacialización sonora en el campo de las sub-bandas, en el sentido de la invención, basado en la descomposición lineal de los HRTFs en el contexto binaural;

- la figura 6 representa esquemáticamente un tratamiento de codificación/descodificación para espacialización, conducido en el campo de las sub-bandas y basado en una descomposición lineal de funciones de transferencia en el contexto ambisónico, en una variante de realización de la invención;

- la figura 7 representa esquemáticamente un tratamiento de espacialización binaural de N fuentes de audio codificadas, en el sentido de la presente invención, efectuado ante una terminal de comunicación, según una variante del sistema de la figura 4;

- la figura 8 representa esquemáticamente una arquitectura de un sistema de tele-conferencia centralizado, con un punto de audio entre una pluralidad de terminales; y

- la figura 9 representa esquemáticamente un tratamiento, en el sentido de la presente invención, de espacialización de (N-1) fuentes de audio codificadas entre N fuentes a la entrada de un punto de audio de un sistema según la figura 8, efectuado ante ese punto de audio, según una variante del sistema de la figura 4.

Se hace referencia primeramente a la figura 1 para describir un tratamiento clásico de síntesis binaural "bicanal". Ese tratamiento consiste en filtrar la señal de las fuentes (S_{i}) que se desea posicionar en una posición seleccionada en el espacio por las funciones de transferencia acústicas izquierda (HRTF_1) y derecha (HRTF_r) correspondiente a la dirección (\thetai,\varphii) apropiadas. Se obtienen dos señales que son entonces adicionadas a las señales izquierdas y derechas que resultan de la espacialización de las otras fuentes, para dar las señales globales L y R difundidas en las orejas izquierda y derecha de un oyente. El número de filtros necesarios es entonces de 2.N para una síntesis binaural estática y de 4.N para una síntesis binaural dinámica, N siendo el número de flujo de audio a espacializar.

Se hace referencia ahora a la figura 2 para describir un tratamiento clásico de síntesis binaural basada en la descomposición lineal de las HRTFs. Aquí, cada filtro HRTF es primero descompensado en un filtro de fase mínima, caracterizado por su módulo, y en un retardo puro \taui. Las dependencias espaciales y frecuenciales de los módulos de las HRTFs son separadas gracias a una descomposición lineal. Esos módulos de las funciones de transferencia HRTFs se escriben entonces como una suma de funciones espaciales C_{n}(\theta,\varphi) y de filtros de reconstrucción L_{n}(f), como se expresa a continuación:

\vskip1.000000\baselineskip

Ec[1]|HRTF(\theta,\varphi,f)| = \sum^{p}_{n=1}C_{n}(\theta,\varphi).L_{n}(f)

Cada señal de una fuente S_{i} a espacializar (i=1,..,N) es ponderada por coeficientes C_{ni}(\theta,\varphi) (n=1,...,P) sacados de la descomposición lineal de las HRTFs. Esos coeficientes tienen por particularidad de depender solamente de la posición [\theta,\varphi] donde se desea colocar la fuente, y no de la frecuencia f. El número de esos coeficientes depende del número P de vectores de base que se han conservado para la reconstrucción. Las N señales de todas las fuentes ponderadas por el coeficiente "direccional" C_{ni} son entonces adicionadas (para el canal derecho y el canal izquierdo, separadamente), y luego filtradas por el filtro correspondiente al enésimo vector de base. Así, contrariamente a la síntesis binaural "bicanal", la adición de una fuente suplementaria no necesita la adición de dos filtros adicionales (a menudo de tipo FIR o IIR). Los P filtros de base son en efecto compartidos para todas las fuentes presentes. Esta puesta en práctica es llamada "multicanal". Además, en el caso de la síntesis binaural dinámica, es posible hacer variar los coeficientes C_{ni}(\theta,\varphi) sin aparición de clicks a la salida del dispositivo. En ese caso, solamente 2.P filtros son necesarios, mientras que 4.N filtros serían necesarios para la síntesis bicanal.

En la figura 2, los coeficientes C_{ni} corresponden a los coeficientes direccionales para la fuente i en la posición (\theta_{i},\varphi_{i}) y para el filtro de reconstrucción n. Se denota C para la vía izquierda (L) y D para la vía derecha (R). Se indica que el principio de tratamiento de la vía derecha R es el mismo que aquel de la vía izquierda L. Sin embargo, las flechas en trazos de puntos para el tratamiento de la vía derecha no han sido representadas por cuestiones de claridad del dibujo. Entre las dos líneas verticales en trazo discontinuo de la figura 2, se define entonces un sistema denotado I, del tipo representado en la figura 3.

Sin embargo, antes de referirse a la figura 3, se indica que diferentes métodos han sido propuestos para determinar las funciones espaciales y los filtros de reconstrucción. Un primer método está basado en una descomposición llamada de Karhunen-Loeve y es descrito específicamente en el documento WO94/10816. Otro método reposa en el análisis en componentes principales de los HRTFs y es descrito en WO96/13962. El documento FR-2782228 más reciente describe también tal puesta en práctica.

En el caso en el que una tratamiento de espacialización de ese tipo se hace al nivel de la terminal de comunicación, una etapa de descodificación de las N señales es necesario antes del tratamiento de espacialización propiamente dicho. Esta etapa requiere recursos de cálculo considerables (lo que es problemático en las terminales de comunicación actuales específicamente de tipo portátil). Además, esta etapa implica un plazo en las señales tratadas, lo que entorpece la interactividad de la comunicación. Si la escena sonora transmitida comprende un gran número de fuentes (N), la etapa de descodificación puede de hecho devenir más costosa en recursos de cálculo que la etapa de espacialización sonora propiamente dicha. En efecto, como se indicó anteriormente, el costo de cálculo de la síntesis binaural "multicanal" depende solamente muy poco de fuentes sonoras a espacializar.

El costo de cálculo de la operación de espacialización de los N flujos de audio codificados (en la síntesis multicanal de la figura 2) puede por lo tanto deducirse de las etapas siguientes (para la síntesis de uno de los dos canales de rendu izquierdo o derecho):

-: descodificación (para N señales),

-: aplicación del retardo interaural \tau_{i},

-: multiplicación por las ganancias posicionales C_{ni} (PxN ganancias para el conjunto de las N señales),

-: sumatoria de las N señales para cada filtro de base de índice n,

-: filtrado de las P señales por los filtros de base,

-: y sumatoria de las P señales de salida de los filtros de base.

En el caso en el que la espacialización no se hace al nivel de una terminal sino al nivel de un servidor (caso de la figura 3), o también en un nodo de una red de comunicación (caso de un punto de audio en tele-conferencia), es necesario además adicionar una operación de codificación completa de la señal de salida.

Con referencia a la figura 3, la espacialización de N fuentes sonoras (que forman por ejemplo parte de una escena sonora compleja de tipo MPEG4) necesita por lo tanto:

-: una descodificación completa de las N fuentes de audio S_{1}, ..., S_{i},..., S_{N} codificadas a la entrada del sistema representado (denotado "Sistema I") para obtener N flujos de audio decodificados, correspondientes por ejemplo a señales PCM (por "Pulse Code Modulation"),

-: un tratamiento de espacialización en el campo temporal ("Sistema I") para obtener dos señales espacializadas L y R,

-: y seguidamente una remodificación completa bajo la forma de canales izquierdo y derecho L y R, encaminados en la red de comunicación para ser recibidos por uno o varios dispositivos de restitución.

De esta forma, la descodificación de N flujos codificados es necesaria antes de la etapa de espacialización de las fuentes sonoras, lo que implica un aumento del costo de cálculo y la adición de un plazo debido al tratamiento del descodificador. Se indica que las fuentes de audio iniciales son generalmente almacenadas directamente bajo formato codificado, en los servidores de contenido actuales.

Se indica además que para una restitución en más de dos alto-parlantes (síntesis transaural o también en el contexto "ambisónico" que se describe a continuación), el número de señales que resultan del tratamiento de espacialización es generalmente superior a dos, lo que aumenta también el costo de cálculo para re-codificar completamente esas señales antes de su transmisión por la red de comunicación.

Se hace referencia ahora a la figura 4 para describir una puesta en práctica del procedimiento en el sentido de la presente invención.

La misma consiste en asociar la implementación "multicanal" de la síntesis binaural (figura 2) con las técnicas de filtrado en el campo transformado (campo llamado "sub-bandas") a fin de no tener que realizar N operaciones de descodificación completas antes de la etapa de espacialización. Se reduce así el costo de cálculo global de la operación. Esta "integración" de las operaciones de codificación y de espacialización puede ser efectuada en el caso de un tratamiento al nivel de una terminal de comunicación o de un tratamiento al nivel de un servidor como es representado en la figura 4.

Las diferentes etapas de tratamiento de los datos así como la arquitectura del sistema son descritas en detalles a continuación.

En el caso de una espacialización de señales de audio codificadas múltiples, al nivel del servidor como en el ejemplo representado en la figura 4, una operación de descodificación parcial es también necesaria. Sin embargo, esta operación es mucho menos costosa que la operación de descodificación en un sistema convencional tal como el representado en la figura 3. Aquí, esta operación consiste principalmente en recuperar los parámetros de las sub-bandas a partir del flujo de audio binario, codificado. Esta operación depende del codificador inicial utilizado. La misma puede consistir por ejemplo en una descodificación entrópica seguida de una cuantificación inversa como en un codificador MPEG-1 Layer III. Una vez que esos parámetros de las sub-bandas son encontrados, el tratamiento es efectuado en el campo de las sub-bandas, como se verá a continuación.

El costo de cálculo global de la operación de espacialización de los flujos de audio codificados es entonces considerablemente reducido. En efecto, la operación inicial de descodificación en un sistema convencional es reemplazada por una operación de descodificación parcial de complejidad mínima. La carga de cálculo en un sistema en el sentido de la invención deviene sensiblemente constante en función del número de flujo de audio que se desea espacializar. Con relación a los sistemas convencionales, se obtiene una ganancia en términos de costo de cálculo que deviene entonces proporcional al número de flujo de audio que se desea espacializar. Además, la operación de descodificación parcial implica un plazo de tratamiento inferior a la operación de descodificación completa, lo que es particularmente interesante en un contexto de comunicación interactivo.

El sistema para la puesta en práctica del procedimiento según la invención, que efectúa la espacialización en el campo de las sub-bandas, es denotado "Sistema II" en la figura 4.

Se describe a continuación la obtención de los parámetros en el campo de las sub-bandas a partir de respuestas a impulso binaurales.

De manera clásica, las funciones de transferencia binaurales o HRTFs son accesibles bajo la forma de respuesta a impulsos temporales. Esas funciones están constituidas en general por 256 muestras temporales, a una frecuencia de muestreo de 44,1 kHz (típico en el campo del audio). Esas respuestas a impulsos pueden ser sacadas de medidas o de simulaciones acústicas.

Las etapas de pre-tratamiento para la obtención de los parámetros en el campo de las sub-bandas son preferentemente las siguientes:

-: extracción del retardo interaural a partir de respuestas a impulsos binaurales h_{1}(n) y h_{r}(n) (si se dispone de D direcciones del espacio medidas, se obtiene un vector de D valores de retardo interaural ITD (expresado en segundos));

-: modelación de las respuestas a impulsos binaurales bajo la forma de filtros en fase mínima;

-: seleccionar el número de vectores de base (P) que se desean conservar para la descomposición lineal de las HRTFs;

-: descomposición lineal de las respuestas en fase mínima según la relación Ec[1] anterior (se obtienen así los D coeficientes direccionales C_{ni} y D_{ni} que sólo dependen de la posición de la fuente sonora a espacializar y los P vectores de base que sólo dependen de la frecuencia);

-: modelación de los filtros de base L_{n} y R_{n} bajo la forma de filtros IIR o FIR;

-: cálculo de matrices de filtros de ganancias G_{i} en el campo de las sub-bandas a partir de los D valores de ITD (esos retardos ITD son entonces considerados como filtros FIR destinados a ser transportados en el campo de las sub-bandas, como se verá a continuación. En el caso general, G_{i} es una matriz de filtros. Los D coeficientes direccionales C_{ni} y D_{ni} a aplicar en el campo de las sub-bandas son escalares de iguales valores que los C_{ni} y D_{ni} respectivamente en el campo temporal);

-: transposición de los filtros de base L_{n} y R_{n}, inicialmente bajo la forma de IIR o FIR, en el campo de las sub-bandas (esta operación da matrices de filtros, denotados a continuación L_{n} y R_{n}, a aplicar en el campo de las sub-bandas. El método para efectuar esta transposición es indicado a continuación).

Se remarcará que las matrices de filtros G_{i} aplicadas de manera independiente a cada fuente "integran" una operación clásica de cálculo de retardo para la adición del retardo interaural entre una señal L_{i} y una señal R_{i} a restituir. En efecto, en el campo temporal, se prevén clásicamente líneas de retardo \tau_{i} (figura 2) a aplicar a una señal "oreja izquierda" con relación a la señal "oreja derecha". En el campo de las sub-bandas, se prevé más bien tal matriz de filtros G_{i}, los cuales permiten además adicionar ganancias (por ejemplo en energía) de ciertas fuentes con relación a las otras.

En el caso de una transmisión a partir de un servidor hacia terminales de restitución, todas esas etapas son efectuadas ventajosamente fuera de la línea. Las matrices de filtros anteriores son por lo tanto calculadas una vez y después almacenadas definitivamente en la memoria del servidor. Se notará en particular que el juego de coeficientes de ponderación C_{ni}, D_{ni} se mantiene ventajosamente invariable del campo temporal al campo de las sub-bandas.

Para técnicas de espacialización basadas en el filtrado por filtros HRTFs y la adición del retardo ITD (por "Interaural Time Delay") tal como la síntesis binaural y transaural, o también filtros de funciones de transferencia en el contexto ambisónico, se presentó una dificultad para encontrar filtros equivalentes a aplicar en las muestras en el campo de las sub-bandas. En efecto, esos filtros sacados del banco de filtros de análisis deben preferiblemente ser construidos de manera que las señales temporales izquierda y derecha restituidas por el banco de filtros de síntesis presenten el mismo rendimiento sonoro, y sin ningún artefacto, que aquel obtenido por una espacialización directa sobre una señal temporal. La concepción de filtros que permiten llegar a tal resultado no es inmediata. En efecto, la modificación del espectro de la señal aportada por un filtrado en el campo temporal no puede ser realizado directamente sobre las señales de las sub-bandas sin tener en cuenta el fenómeno de recubrimiento de espectro ("aliasing") introducido por el banco de filtros de análisis. La relación de dependencia entre los componentes de aliasing de las diferentes sub-bandas es preferentemente conservada durante la operación del filtrado para que su supresión sea asegurada por el banco de filtros de síntesis.

Se describe a continuación un procedimiento para transportar un filtro S(z), de tipo FIR o IIR, racional (su transformada en z siendo un cociente de dos polinomios) en el caso de una descomposición lineal de HRTFs o de funciones de transferencia de ese tipo, en el campo de las sub-bandas, para un banco de filtros de M sub-bandas y de muestreo crítico, definido respectivamente por sus filtros de análisis y de síntesis H_{k}(z) y F_{k}(z), donde 0\leqk\leqM-1. Se entiende por "muestreo crítico" el hecho de que el número del conjunto de muestras de salidas de las sub-bandas corresponda con el número de muestras a las entradas. Se supone que ese banco de filtros también satisface la condición de reconstrucción perfecta.

Se considera primeramente una matriz de transferencia S(z) correspondiente al filtro escalar S(z), que se expresa como sigue:

\vskip1.000000\baselineskip

1

donde S_{k}(z) (0\leqk\leqM-1) son los componentes polifasados del filtro S(z).

Esos componentes son obtenidos de manera directa para un filtro FIR. Para los filtros IIR, un método de cálculo es indicado en:

[1]: A. Benjelloun Touimi, "Traitement du signal audio dans le domaine codé: techniques et applications" ("Tratamiento de la señal audio en el campo codificado: técnicas y aplicaciones") tesis de doctorado de la Escuela Nacional Superior de Telecomunicaciones de París, (Anexo A, p.141), Mayo 2001.

Se determinan seguidamente matrices polifasadas, E(z) y R(z), que corresponden respectivamente a los bancos de filtros de análisis y de síntesis. Esas matrices son determinadas definitivamente para el banco de filtros considerado.

Se calcula entonces la matriz de filtrado en sub-bandas por la fórmula siguiente:

S_{sb}(z)=z^{k} E(z)S(z)R(z),

donde z^{k} corresponde a un avance con K=(L/M)-1 (caracterizando el banco de filtros utilizado), L siendo la longitud de los filtros de análisis y de síntesis de los bancos de filtros utilizados.

Se construye a continuación la matriz \tilde{S}_{sb}(z) cuyas líneas son obtenidas a partir de aquellas de S_{sb}(z) como sigue:

[0 ... S^{sb}_{i1}(z) ... S^{sb}_{ii}(z) ... S^{sb}_{in}(z) ... 0] ~\hskip0,1cm (0\leqn\leqM-1),

donde:

- i es el índice de la (i+1)ésima línea y está comprendido entre 0 y M-1,

- 1 = i-\delta mod[M], donde \delta corresponde a un número seleccionado de sub-diagonales adyacentes, la notación mod[M] correspondiendo a una operación de sustracción módulo M,

- n = i+\delta mod[M], la notación mod[M] correspondiendo a una operación de adición módulo M.

Se indica que el número seleccionado \delta corresponde al número de bandas que se superponen suficientemente por un lado con el ancho de banda de un filtro del banco de filtros. El mismo depende por lo tanto del tipo de bancos de filtros utilizados en la codificación seleccionada. A título de ejemplo, para el banco de filtros MDCT, \delta puede ser tomado igual a 2 o 3. Para el banco de filtros Pseudo-QMF de la codificación MPEG-1, \delta es tomada igual a 1.

Se notará que el resultado de esta transposición de un filtro de respuesta a un impulso finito o infinito en el campo de las sub-bandas es una matriz de filtros de tamaño MxM. Sin embargo, todos los filtros de esa matriz no son considerados durante el filtrado en sub-bandas. Ventajosamente, solamente los filtros de la diagonal principal y de algunas sub-diagonales adyacentes pueden ser utilizados para obtener un resultado similar a aquel obtenido por un filtrado en el campo temporal (sin alterar por lo mismo la calidad de la restitución).

La matriz \tilde{S}_{sb}(z) resultante de esta transposición, luego reducida, es aquella utilizada para el filtrado en sub-bandas.

A modo de ejemplo, se indican a continuación las expresiones de las matrices polifasadas E(z) y R(z) para un banco de filtros MDCT, ampliamente utilizadas en codificadores por transformada actuales tales como aquellas que operan según los estándares MPEG-2/4 AAC, o Dolby AC-2 & AC-3, o TDAC de la Solicitante. El tratamiento a continuación puede también adaptarse bien a un banco de filtros de tipo Pseudo-QMF del codificador MPEG-1/2 Layer I-II.

Un banco de filtros MDCT es generalmente definido por una matriz T=[t_{k, \ l}]; de tamaño Mx2M, donde los elementos se expresan como sigue:

2

donde h[l] corresponde a la ventana de ponderación donde una selección posible es la ventana sinusoidal que se expresa bajo la forma siguiente:

3

Las matrices polifasadas de análisis y de síntesis son entonces dadas respectivamente por las fórmulas siguientes:

E(z) = T_{1}J_{M} + T_{0}J_{M}z^{-1},

R(z) = J_{M}T_{0}^{T} + J_{M}T_{1}^{T} z^{-1},

donde 4 corresponde a la matriz anti-identidad de tamaño M x M y T_{0} y T_{1} son matrices de tamaño M x M que resultan de la partición siguiente:

T = [T_{0} T_{1}]

Se indica que para ese banco de filtros L = 2M y K = 1.

Para bancos de filtros de tipo Pseudo-QMF de MPEG-1/2 Layer I-II, se define una ventana de ponderación h[i],
i = 0...L-1, y una matriz de modulación en coseno \hat{C} = [c_{kl}], de tamaño M x 2M, donde los coeficientes son dados por:

5

con las relaciones siguientes: L = 2mM y K = 2m -1 donde m es un número entero. Más particularmente en el caso del codificador MPEG-1/2 Layer I-II, esos parámetros toman los valores siguientes: M = 32, L = 512, m = 8 y K = 15.

La matriz polifasada de análisis se expresa entonces como sigue:

6

donde g_{0}(z) y g_{1}(z) son matrices diagonales definidas por:

7

\vskip1.000000\baselineskip

con

8

En la norma MPEG-1 Audio Layer I-II, se proporcionan típicamente los valores de la ventana (-1)^{l}h(2lM + k), con 0 \leq k \leq 2M-1, 0 \leq l \leq m-1.

La matriz polifasada de síntesis puede entonces deducirse simplemente por la fórmula siguiente:

R(z) = z^{-(2m-1)}E^{T}(z^{-1})

Así, con referencia ahora a la figura 4 en el seno de la presente invención, se procede a una descodificación parcial de N fuentes de audio S_{1}..., S_{i},..., S_{N} codificadas en compresión, para obtener señales S_{1}..., S_{i},..., S_{N} que corresponden preferentemente con vectores señales donde los coeficientes son valores afectados cada uno a una sub-banda. Se entiende por "descodificación parcial" un tratamiento que permite obtener a partir de las señales codificadas en compresión tales vectores señales en el campo de las sub-bandas. Se pueden obtener además informaciones de posición de las cuales son deducidos valores respectivos de ganancias G_{1}..., G_{i},..., G_{N} (para la síntesis binaural) y coeficientes C_{ni} (para la oreja izquierda) y D_{ni} (para la oreja derecha) para el tratamiento de espacialización de conformidad a la ecuación Ec[1] dada anteriormente, como lo muestra la figura 5. Sin embargo, el tratamiento de espacialización es llevado a cabo directamente en el campo de las sub-bandas y se aplica las 2P matrices L_{n} y R_{n} de filtros de base, obtenidos como se indicó anteriormente, a los vectores señales S_{i} ponderados por los coeficientes escalares C_{ni} y D_{ni}, respectivamente.

Con referencia a la figura 5, los vectores señales L y R, que resultan del tratamiento de espacialización en el campo de las sub-bandas (por ejemplo en un sistema de tratamiento denotado "Sistema II" en la figura 4) se expresan entonces por las relaciones siguientes, en una representación por su transformada en z:

9

\vskip1.000000\baselineskip

10

En el ejemplo representado en la figura 4, el tratamiento de espacialización es efectuado en un servidor unido a una red de comunicación. Así, esos vectores señales L y R pueden ser re-codificados completamente en compresión para difundir las señales comprimidas L y R (canal izquierdo y derecho) en la red de comunicación y con destino a las terminales de restitución.

Así, una etapa inicial de descodificación parcial de las señales codificadas S_{i} es prevista, antes del tratamiento de espacialización. Sin embargo, esta etapa es mucho menos costosa y más rápida que la operación de descodificación completa que sería necesaria en el arte anterior (figura 3). Además, los vectores señales L y R están ya expresados en el campo de las sub-bandas y la re-codificación parcial de la figura 4 para obtener las señales codificadas en compresión L y R es más rápida y menos costosa que una codificación completa tal como la representada en la
figura 3.

Se indica que los dos trazos discontinuos verticales de la figura 5 delimitan el tratamiento de espacialización efectuado en el "Sistema II" de la figura 4. Respecto a esto, la presente invención apunta también a tal sistema que comprende medios de tratamiento de señales parcialmente codificadas S_{i}, para la puesta en práctica del procedimiento según la invención.

Se indica que el documento:

[2]: "A Generic Framework for Filtering in Subband Domain" A. Benjelloun Touimi, IEEE 9^{th} Workshop on Digital Signal Processing, Hunt, Texas, USA, Octubre 2000,

así como el documento [1] citado anteriormente, conciernen a un método general de cálculo de una transposición en el campo de la sub-bandas de un filtro de respuesta a un impulso finito o infinito.

Se indica además que técnicas de espacialización sonora en el campo de las sub-bandas han sido propuestas recientemente, específicamente en otro documento:

[3]: "Subband-Domain Filtering of MPEG Audio Signals", C.A. Lanciani and R. W. Schafer, IEEE Int. Conf. on Acoust., Speech, Signal Proc., 1999.

Este último documento presenta un método permanente de transponer un filtro de respuesta a un impulso finito (FIR) en el campo de las sub-bandas de los bancos de filtros pseudo-QMF del codificador MPEG-1 Layer I-II y MDCT del codificador MPEG-2/4 AAC. La operación de filtrado equivalente en el campo de las sub-bandas es representado por una matriz de filtros FIR. En particular, esta proposición se inscribe en el contexto de una transposición de filtros HRTFs, directamente bajo su forma clásica y no bajo la forma de una descomposición lineal tal como la expresada por la ecuación Ec[1] anterior y sobre una base de filtros en el sentido de la invención. Así, un inconveniente del método en el sentido de este último documento consiste en que el tratamiento de espacialización no puede adaptarse a un número cualquiera de fuentes o de flujo de audio codificados a espacializar.

Se indica que, para una posición dada, cada filtro HRTF (de orden 200 para un FIR y de orden 12 para un IIR) da lugar a una matriz de filtros (cuadrada) de dimensión igual al número de sub-bandas del banco de filtro utilizado. En el documento [3] citado anteriormente, se debe prever un número de HRTFs suficiente para representar las diferentes posiciones en el espacio, lo que plantea un problema de tamaño de memoria si se desea espacializar una fuente a una posición cualquiera en el espacio.

Por el contrario, una adaptación de una descomposición lineal de las HRTFs en el campo de las sub-bandas, en el sentido de la presente invención, no presenta ese problema porque el número (P) de matrices de filtros de base L_{n} y R_{n} es mucho más reducido. Esas matrices son entonces almacenadas definitivamente en una memoria (del servidor de contenido o de la terminal de restitución) y permiten un tratamiento simultaneado de espacialización de un número cualquiera de fuentes, como es representado en la figura 5.

Se describe a continuación una generalización del tratamiento de espacialización en el sentido de la figura 5 a otros tratamientos de rendimiento sonoro, tal como un tratamiento llamado de "codificación ambisónica". En efecto, un sistema de rendimiento sonoro puede presentarse de manera general bajo la forma de un sistema de toma de sonido real o virtual (para una simulación) que consiste en una codificación del campo sonoro. Esta fase consiste en registrar p señales sonoras de manera real o en simular tales señales (codificación virtual) que corresponde al conjunto de una escena sonora que comprende todos los sonidos, así como un efecto de sala.

El sistema precitado puede también presentarse bajo la forma de un sistema de rendimiento sonoro que consiste en descodificar las señales sacadas de la toma de sonido para adaptarlas a los dispositivos de traductores de rendimiento sonoro (tales como una pluralidad de alto-parlantes o un casco de tipo estereofónico). Se transforman las p señales en n señales que alimentan los n alto-parlantes.

A modo de ejemplo, la síntesis binaural consiste en realizar una toma de sonido real, con la ayuda de un par de micrófonos introducidos en las orejas de una cabeza humana (artificial o real). Se puede también simular el registro realizando la convolución de un sonido monofónico con el par de HRTFs correspondiente a una dirección deseada de a fuente sonora virtual. A partir de una o varias señales monofónicas que provienen de fuentes predeterminadas, se obtienen dos señales (oreja izquierda y oreja derecha) correspondientes a una fase llamada "de codificación binaural", esas dos señales siendo simplemente aplicadas seguidamente a un casco de dos auriculares (tal como un casco estereofónico).

Sin embargo, otras codificaciones y descodificaciones son posibles a partir de la descomposición de filtro correspondiente a funciones de transferencia sobre una base de filtros. Como se indicó anteriormente, las dependencias espaciales y frecuenciales de las funciones de transferencia, de tipo HRTFs, son separadas gracias a una descomposición lineal y se escriben como una suma de funciones espaciales C_{i}(\theta,\varphi) y de filtros de reconstitución L_{i}(f) que dependen de la frecuencia:

HRTF (\theta,\varphi,f) = \sum\limits^{p}_{i=1} C_{i}(\theta,\varphi). L_{i}(f)

Sin embargo, se indica que esta expresión puede ser generalizada a cualquier tipo de codificación, para n fuentes sonoras S_{j}(f) y un formato de codificación que comprende p señales a la salida, a:

Ec [2]E_{i}(f) = \sum\limits^{n}_{j=1} X_{ij}(\theta,\varphi). S_{j}(f), \hskip0,1cm l\leq i\leq p

donde, por ejemplo en el caso de una síntesis binaural, X_{ij} puede expresarse bajo la forma de un producto de los filtros de ganancias G_{j} y de los coeficientes C_{ij}, D_{ij}.

Se hace referencia a la figura 6 en la cual N flujos de audio S_{j} representados en el campo de las sub-bandas después de la codificación parcial, sufren un tratamiento de espacialización, por ejemplo una codificación ambisónica, para expedir p señales E_{i} codificadas en el campo de las sub-bandas. Tal tratamiento de espacialización respeta por lo tanto el caso general regido por la ecuación Ec[2] anterior. Se remarcará además en la figura 6 que la aplicación a las señales S_{j} de la matriz de los filtros G_{j} (para definir el retardo interaural ITD) no es necesario aquí, en el contexto ambisónico.

Igualmente, una relación general, para un formato de descodificación que comprende p señales E_{i}(f) y un formato de rendimiento sonoro que comprende m señales, es dado por:

Ec[3]D_{j}(f) = \sum\limits^{p}_{i=1} K_{ji}(f)E_{i}(f), \hskip0,1cm l\leq j \leq m

Para un sistema de rendimiento sonoro dado, los filtros K_{ji}(f) son fijos y dependen, a frecuencia constante, solamente del sistema de rendimiento sonoro y de su disposición con relación a un oyente. Esta situación es representada en la figura 6 (a la derecha del trazo vertical en puntos), en el ejemplo del contexto ambisónico. Por ejemplo, las señales E_{i} codificadas espacialmente en el campo de las sub-bandas son re-codificadas completamente en compresión, transmitidas en una red de comunicación, recuperadas en una terminal de restitución, descodificadas parcialmente en compresión para obtener una representación en el campo de las sub-bandas. Finalmente, se encuentran, después de esas etapas, sensiblemente las mismas señales E_{i} descritas anteriormente, en la terminal. Un tratamiento en el campo de las sub-bandas del tipo expresado por la ecuación Ec[3] permite entonces recuperar m señales D_{j}, espacialmente descodificadas y listas pata ser restituidas después de la descodificación en compresión.

Claro está, varios sistemas de descodificación pueden ser dispuestos en serie, según la aplicación prevista.

Por ejemplo, en el contexto ambisónico bidimensional de orden 1, un formato de codificación con tres señales W, X, Y para p fuentes sonoras se expresa, para la codificación, por:

\quad: E_{1} = W = \sum^{n}_{j=1}S_{j}

\vskip1.000000\baselineskip

\quad: E_{2} = X = \sum^{n}_{j=1}cos(\theta_{j})S_{j}

\vskip1.000000\baselineskip

\quad: E_{3} = Y = \sum^{n}_{j=1}sin(\theta_{j})S_{j}

\vskip1.000000\baselineskip

Para la descodificación "ambisónica" ante un dispositivo de restitución de cinco alto-parlantes sobre dos bandas de frecuencias [0, f_{1}] y [f_{1,} f_{2}] con f_{1} = 400 Hz y f_{2} correspondiendo a un ancho de banda de las señales consideradas, los filtros K_{ji}(f) tomando los valores numéricos constantes en esas dos bandas de frecuencia, dados en las tablas I y II a continuación.

TABLA I Valores de los coeficientes que definen los filtros K_{ji}(f) para 0 < f \leq f_{1}

W	X	Y
0.342	0.233	0.000
0.268	0.382	0.505
0.268	0.382	-0.505
0.561	-0.499	0.457
0.561	-0.499	-0.457

TABLA II Valores de los coeficientes que definen los filtros K_{ji}(f) para f_{1} < f \leq f_{2}

W	X	Y
0.383	0.372	0.000
0.440	0.234	0.541
0.440	0.234	-0.541
0.782	-0.553	0.424
0.782	-0.553	-0.424

Claro está, procedimientos de espacialización diferentes (contexto ambisónico y síntesis binaural y/o transaural) pueden ser combinados ante un servidor y/o ante una terminal de restitución, tales procedimientos de espacialización respetando la expresión general de una descomposición lineal de funciones de transferencia en el espacio de las frecuencias, como se indicó anteriormente.

Se describe a continuación una puesta en práctica del procedimiento en el sentido de la invención en una aplicación vinculada a una tele-conferencia entre terminales distantes.

Refiriéndose de nuevo a la figura 4, señales codificadas (S_{i}) emanan de N terminales distantes. Las mismas son espacializadas al nivel del servidor de tele-conferencia (por ejemplo al nivel de un punto de audio para una arquitectura estrella tal como es representado en la figura 8), para cada participante. Esta etapa, efectuada en el campo de las sub-bandas después de una fase de descodificación parcial, es seguida por una re-codificación parcial. Las señales así codificadas en compresión son seguidamente transmitidas por medio de la red y, desde la recepción por una terminal de restitución, son descodificadas completamente en compresión y aplicadas a las dos vías izquierda y derecha l y r, respectivamente, de la terminal de restitución, en el caso de una espacialización binaural. Al nivel de las terminales, el sitratamiento de descodificación en compresión permite así expedir dos señales temporales izquierda y derecha que contienen la información de posiciones de N locutores distantes y que alimentan dos alto-parlantes respectivos (casco de dos auriculares). Claro está, para una espacialización general, por ejemplo en el contexto ambisónico, m vías pueden ser recuperadas a la salida del servidor de comunicación, si la codificación/descodificación en espacialización es efectuada por el servidor. Sin embargo, es ventajoso, en una variante, prever la codificación en espacialización ante el servidor y la descodificación en espacialización ante la terminal a partir de las p señales codificadas en compresión, por una parte, para limitar el número de señales a encaminar por medio de la red (en general pm) y, por otra parte, para adaptar la descodificación espacial a las características de rendimiento sonoro de cada terminal (por ejemplo el número de alto-parlantes que comprende, u otros).

Esta espacialización puede ser estática o dinámica y, además, interactiva. Así, la posición de los locutores es fija o puede variar en el curso del tiempo. Si la espacialización no es interactiva, la posición de los diferentes locutores es fija: el oyente no puede modificarla. Por el contrario, si la espacialización es interactiva, cada oyente puede configurar su terminal para posicionar la voz de los N otros locutores donde lo desee, sensiblemente en tiempo real.

Con referencia ahora a la figura 7, la terminal de restitución recibe N flujos de audio (S_{i}) codificados en compresión (MPEG, AAC, u otros) de una red de comunicación. Después de una descodificación parcial para obtener los vectores señales (S_{i}), la terminal ("Sistema II") trata esos vectores señales para espacializar las fuentes de audio, aquí en síntesis binaural, en dos vectores señales L y R que son seguidamente aplicados a bancos de filtros de síntesis en vista de una descodificación en compresión. Las señales PCM izquierda y derecha, respectivamente 1 y r, que resultan de esa descodificación son seguidamente destinadas a alimentar directamente alto-parlantes. Ese tipo de tratamiento se adapta
ventajosamente a un sistema de tele-conferencia descentralizada (varias terminales conectadas en modo punto a punto).

Se describe a continuación el caso de un "streaming" o de una telecarga de una escena sonora, específicamente en el contexto de codificación en compresión según la norma MPEG-4.

Esta escena puede ser simple, o también compleja como es común en el marco de transmisiones MPEG-4 donde la escena sonora es transmitida bajo un formato estructurado. En el contexto MPEG-4, la terminal cliente recibe, a partir de un servidor multimedia, un flujo binario multiplexado correspondiente a cada uno de los objetos audio primitivos codificados, así como instrucciones en cuanto a su composición para reconstruir la escena sonora. Se entiende por "objeto audio" un flujo binario elemental obtenido por un codificador MPEG-4 Audio. La norma MPEG-4 Sistema proporciona un formato especial, llamado "AudioBIFS" (por "BInary Format for Scene description"), a fin de transmitir esas instrucciones. El papel de ese formato es describir la composición espacio-temporal de los objetos audio. Para construir la escena sonora y asegurar un cierto rendimiento, esos diferentes flujos descodificados pueden sufrir un tratamiento posterior. Particularmente, una etapa de tratamiento de espacialización sonoro puede ser efectuada.

En el formato "AudioBIFS", las manipulaciones a efectuar son representadas por un gráfico. Se prevén las señales audio descodificadas a la entrada del gráfico. Cada nodo del gráfico representa un tipo de tratamiento a realizar sobre una señal audio. Se prevé a la salida del gráfico las diferentes señales sonoras a restituir o a asociar a otros objetos media (imágenes u otro).

Los algoritmos utilizados son actualizados dinámicamente y son transmitidos con el gráfico de la escena. Los mismos son descritos bajo la forma de rutinas escritas en un lenguaje específico tal como "SAOL" (por "Structured Audio Store Language"). Ese lenguaje posee funciones predefinidas que incluyen específicamente y de forma particularmente ventajosa filtros FIR y IIR (que pueden entonces corresponder a las HRTFs, como se indicó anteriormente).

Además, en las herramientas de compresión audio proporcionadas por la norma MPEG-4, se encuentran codificadores por transformada utilizados sobre todo para la transmisión de audio de alta calidad (monofónico y multivías). Es el caso de los codificadores AAC y TwinVQ basados en la transformada MDCT.

Así, en el contexto MPEG-4, las herramientas que permiten llevar a cabo el procedimiento en el sentido de la invención están ya presentes.

En una terminal MPEG-4 receptora, es suficiente entonces integrar la capa baja de descodificación a los nodos de la capa superior que asegura tratamientos particulares, tal como la espacialización binaural por filtros HRTFs. Así, después de la descodificación parcial flujos binarios audio elementales desmultiplexados y sacados de un mismo tipo de codificador (MPEG-4 AAC por ejemplo), los nodos del gráfico "AudioBIFS" que hacen intervenir una espacialización binaural pueden ser tratados directamente en el campo de las sub-bandas (MDCT por ejemplo). La operación de síntesis por banco de filtros es efectuada solamente después de esta etapa.

En una arquitectura de tele-conferencia multipunto centralizada tal como la representada en la figura 8, entre cuatro terminales en el ejemplo representado, el tratamiento de las señales para la espacialización solamente puede efectuarse al nivel del punto audio. En efecto, las terminales TER1, TER2, TER3 y TER4 reciben flujos ya mezclados y por lo tanto ningún tratamiento puede ser realizado a su nivel para la espacialización.

Se comprende que una reducción de la complejidad de tratamiento es particularmente deseada en ese caso. En efecto, para una conferencia de N terminales (N \geq 3), el punto audio debe realizar una espacialización de los locutores sacados de terminales para cada uno de los N sub-conjuntos constituidos por (N - 1) locutores entre los N participantes en la conferencia. Un tratamiento en el campo codificado aporta claro está beneficio.

La figura 9 representa esquemáticamente el sistema de tratamiento previsto en el punto audio. Ese tratamiento es así efectuado sobre un sub-conjunto de (N - 1) señales audio codificadas entre las N a la entrada del puente. Las tramas audio codificadas izquierda y derecha en el caso de una espacialización binaural, o las m tramas audio codificadas en el caso de una espacialización general (por ejemplo en codificación ambisónica) tal como es representado en la figura 9, que resultan de ese tratamiento son así transmitidas a la terminal restante que participa en la tele-conferencia pero que no figura entre ese sub-conjunto (correspondiente a una "terminal oyente"). En total, N tratamientos del tipo descrito anteriormente son realizados en el punto audio (N sub-conjuntos de (N - 1) señales codificadas). Se indica que la codificación parcial de la figura 9 designa la operación de construcción de la trama audio codificada después del tratamiento de espacialización y a transmitir sobre una vía (izquierda o derecha). A modo de ejemplo, se puede tratar de una cuantificación de los vectores señales L y R que resultan del tratamiento de espacialización, basándose en un número de bits otorgados y calculados según un criterio psico-acústico seleccionado, los tratamientos clásicos de codificación en compresión después de la aplicación del banco de filtros de análisis pueden por lo tanto ser mantenidos y efectuados con la espacialización en el campo de las sub-bandas.

Además, como se indicó anteriormente, la posición de la fuente sonora a espacializar puede variar en el curso del tiempo, lo que equivale a hacer variar en el curso del tiempo los coeficientes direccionales del campo de las sub-bandas C_{ni} y D_{ni}. La variación del valor de esos coeficientes se hace preferentemente de manera discreta.

Claro está, la presente invención no se limita a las formas de realización descritas anteriormente a modo de ejemplos sino que la misma se extiende a otras variantes definidas en el marco de las reivindicaciones a continuación.

Claims

1. Procedimiento de tratamiento de datos sonoros, mediante una restitución espacializada de señales acústicas, en el cual:

a) se obtiene, para cada señal acústica (S_{i}), al menos un primer juego (C_{ni}) y un segundo juego (D_{ni}) de términos ponderativos, representativos de una dirección de percepción de dicha señal acústica por un oyente; y

b) se aplica a al menos dos juegos de unidades de filtrado, dispuestas en paralelo, dichas señales acústicas, para emitir al menos una primera señal de salida (L) y una segunda señal de salida (R) que corresponda cada una a una combinación lineal de las señales acústicas ponderadas por el conjunto de los términos ponderativos respectivamente del primer juego (C_{ni}) y del segundo juego (D_{ni}) y filtrados por dichas unidades de filtrado,

caracterizado porque cada señal acústica en la etapa a) es al menos parcialmente codificada en compresión y se expresan bajo la forma de un vector de sub-señales asociados a sub-bandas de frecuencias respectivas,

y porque cada unidad de filtrado es dispuesta para efectuar un filtrado matricial aplicado a cada vector, en el espacio de las sub-bandas frecuenciales.

2. Procedimiento según la reivindicación 1, caracterizado porque cada filtrado matricial es obtenido por conversión, en el espacio de las sub-bandas frecuenciales, de un filtro representado por una respuesta a un impulso en el espacio temporal.

3. Procedimiento según la reivindicación 2, caracterizado porque cada filtro de respuesta a un impulso es obtenido por determinación de una función de transferencia acústica que depende de una dirección de percepción de un sonido y de la frecuencia de ese sonido.

4. Procedimiento según la reivindicación 3, caracterizado porque dichas funciones de transferencia se expresan por una combinación lineal de términos que dependen de la frecuencia y ponderados por términos que dependen de la dirección (Ec[1]).

5. Procedimiento según una de las reivindicaciones precedentes, caracterizado porque dichos términos ponderativos del primer y del segundo juego dependen de la dirección del sonido.

6. Procedimiento según la reivindicación 5, caracterizado porque la dirección es definida por un ángulo azimutal (\theta) y un ángulo de elevación (\varphi).

7. Procedimiento según una de las reivindicaciones 2 y 3, caracterizado porque el filtrado matricial se expresa a partir de un producto matricial que hace intervenir matrices polifasadas (E(z), R(z)) que corresponden a bancos de filtros de análisis y de síntesis y de una matriz de transferencia (S(z)) cuyos elementos son función del filtro de respuesta a un impulso.

8. Procedimiento según una de las reivindicaciones precedentes, caracterizado porque la matriz del filtrado matricial es de forma reducida y comprende una diagonal y un número predeterminado (\delta) de sub-diagonales adyacentes, inferiores y superiores cuyos elementos no son todos nulos.

9. Procedimiento según la reivindicación 8, tomada en combinación con la reivindicación 7, caracterizado porque las líneas de la matriz del filtrado matricial se expresan por:

[0 ... S^{sb}{}_{i1}(z) ... S^{sb}{}_{ii}(z) ... S^{sb}{}_{in}(z) ... 0],

donde:

- i es el índice de la (i+1)ésima línea y está comprendido entre 0 y M-1, M corresponde a un número total de sub-bandas,

- n = i+\delta mod[M], la notación mod[M] correspondiendo a una operación de adición módulo M,

- y S^{sb}_{ij}(z) son los coeficientes de dicha matriz producidos haciendo intervenir las matrices polifasadas de los bancos de filtros de análisis y de síntesis y de dicha matriz de transferencia.

10. Procedimiento según una de las reivindicaciones 7 a 9, caracterizado porque dicha matriz producida se expresa por

S^{sb}(z)=z^{k} E(z)S(z)R(z),

donde

- z^{k} es un avance definido por el término K = (L/M)-1 donde L es la longitud de la respuesta a un impulso de los filtros de análisis y de la síntesis de los bancos de filtros y M el número total de sub-bandas,

- E(z) es la matriz polifasada que corresponde al banco de filtros de análisis,

- R(z) es la matriz polifasada que corresponde al banco de filtros de síntesis, y

- S(z) corresponde a dicha matriz de transferencia.

11. Procedimiento según una de las reivindicaciones 7 a 10, caracterizado porque dicha matriz de transferencia se expresa por:

11

donde S_{k}(z) son los componentes polifasados del filtro de respuesta a un impulso S(z), con k comprendida entre 0 y M-1 y M correspondiendo a un número total de sub-bandas.

12. Procedimiento según una de las reivindicaciones 7 a 11, caracterizado porque dichos bancos de filtros operan en muestreo crítico.

13. Procedimiento según una de las reivindicaciones 7 a 12, caracterizado porque dichos bancos de filtros satisfacen una propiedad de reconstrucción perfecta.

14. Procedimiento según una de las reivindicaciones 2 a 13, caracterizado porque el filtro de respuesta a un impulso es un filtro racional, que se expresa bajo la forma de una fracción de dos polinomios.

15. Procedimiento según la reivindicación 14, caracterizado porque dicha respuesta a un impulso es infinita.

16. Procedimiento según una de las reivindicaciones 8 a 15, caracterizado porque dicho número predeterminado (\delta) de sub-diagonales adyacentes es función de un tipo de banco de filtros utilizado en la codificación en compresión seleccionado.

17. Procedimiento según la reivindicación 16, caracterizado porque dicho número predeterminado (\delta) está comprendido entre 1 y 5.

18. Procedimiento según una de las reivindicaciones 7 a 17, caracterizado porque los elementos de matriz (L_{n},R_{n}) que resultan de dicho producto matricial son almacenados en una memoria y reutilizados por todas las señales acústicas parcialmente codificadas y a espacializar.

19. Procedimiento según una de las reivindicaciones precedentes, caracterizado porque el mismo comprende además una etapa d) que consiste en aplicar un banco de filtros de síntesis a dichas primera (L) y segunda señales de salida (R), antes de su restitución.

20. Procedimiento según la reivindicación 19, caracterizado porque el mismo comprende además una etapa c) previa a la etapa d) que consiste en encaminar las primera y segunda señales en una red de comunicación, a partir de un servidor distante y hacia un dispositivo de restitución, bajo forma codificada y espacializada, y porque la etapa b) es efectuada ante dicho servidor distante.

21. Procedimiento según la reivindicación 19, caracterizado porque el mismo comprende además una etapa c) previa a la etapa d) que consiste en encaminar las primera y segunda señales en una red de comunicación, a partir de un punto de audio de un sistema de tele-conferencia multipuntos, de arquitectura centralizada, y hacia un dispositivo de restitución de dicho sistema de tele-conferencia, bajo forma codificada y espacializada, y porque la etapa b) es efectuada ante dicho punto audio.

22. Procedimiento según la reivindicación 19, caracterizado porque el mismo comprende además una etapa posterior a la etapa a) que consiste en encaminar dichas señales acústicas bajo forma codificada en compresión en una red de comunicación, a partir de un servidor distante y hacia una terminal de restitución, y porque las etapas b) y d) son efectuadas ante dicha terminal de restitución.

23. Procedimiento según una de las reivindicaciones precedentes, caracterizado porque se aplica en la etapa b) una espacialización sonora por síntesis binaural basada en una descomposición lineal de funciones de transferencia acústicas.

24. Procedimiento según la reivindicación 23, caracterizado porque se aplica además, en la etapa b), una matriz de filtros de ganancias (G_{i}) a cada señal acústica parcialmente codificada (S_{i}),

porque dichas primera y segunda señales de salida están destinadas a ser descodificadas en primera y segunda señales de restitución (l, r),

y porque la aplicación de dicha matriz de filtros de ganancias equivale a aplicar un decalado temporal seleccionado(ITD) entre dichas primera y segunda señales de restitución.

25. Procedimiento según una de las reivindicaciones 1 a 22, caracterizado porque se obtiene, en la etapa a), más de dos juegos de términos ponderativos, y porque se aplica a las señales acústicas, en la etapa b), más de dos juegos de unidades de filtrado, para emitir más de dos señales de salida que comprenden señales ambisónicas codificadas.

26. Sistema de tratamiento de datos sonoros, caracterizado porque el mismo comprende medios para la puesta en práctica del procedimiento según una de las reivindicaciones precedentes.