ES2268340T3

ES2268340T3 - Representacion de audio parametrico de multiples canales.

Info

Publication number: ES2268340T3
Application number: ES03712597T
Authority: ES
Inventors: Arnoldus W. J. Oomen; Erik G. P. Schuijers; Dirk J. Breebaart; Steven L. J. D. E. Van De Par
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-04-22
Filing date: 2003-04-22
Publication date: 2007-03-16
Anticipated expiration: 2023-04-22
Also published as: EP1500083A1; KR20040102163A; US8498422B2; KR101021079B1; AU2003216686A1; WO2003090207A1; US20050226426A1; ATE332003T1; EP1500083B1; JP2005523479A; CN1647156A; DE60306512T2; CN1647156B; JP4714415B2; DE60306512D1; BRPI0304542B1; BR0304542A

Abstract

Un método para codificar una señal de audio de múltiples canales, que comprende al menos dos canales de audio (RI, LI), de tal forma que el método comprende generar (1) una señal de audio (SC ¿"single channel") de un único canal, que comprende una combinación particular de los al menos dos canales de audio (RI, LI), y codificar la señal de audio de canal único (SC) en una corriente de bits (EBS), como una señal de audio de canal único codificada (ESC), generar (2) información (INF) a partir de los al menos dos canales de audio (RI, LI), que permite recuperar, con un nivel de calidad requerido, la señal de audio de múltiples canales a partir de la señal de audio de canal único (SC) y de la información (INF), de tal modo que la generación (2) de la información comprende: - determinar (2) una primera porción de la información (P1), que consiste en un único conjunto de parámetros (S1), determinados para una primera zona de frecuencias (FR1) de la señal de audio de múltiples canales, y codificarla primera porción de la información (P1) en la corriente bits (EBS), como una primera porción codificada de la información (EIN ¿"encoded information"), y - determinar (2) una segunda porción de la información (P2) para una segunda zona de frecuencias (FR2) de la señal de audio de múltiples canales, de tal modo que la segunda zona de frecuencias (FR2) es una porción de la primera zona de frecuencias (FR1), y codificar la segunda porción de la información (P2) dentro de la corriente de bits (EBS), como una segunda porción codificada de la información (EIN).

Description

Representación de audio paramétrico de múltiples canales.

La invención se refiere a un método para codificar una señal de audio de múltiples canales, a un codificador para codificar una señal de audio de múltiples canales, a un aparato para suministrar una señal de audio, a una señal de audio codificada, a un medio de almacenamiento en el que se almacena la señal de audio codificada, a un método para descodificar una señal de audio codificada, a un descodificador para descodificar una señal de audio codificada, y a un aparato para suministrar una señal de audio descodificada.

El documento EP-A-1107232 describe un esquema de codificación paramétrica destinado a generar una representación de una señal de audio estéreo que está compuesta por una señal de canal izquierdo y una señal de canal derecho. Con el fin de utilizar eficazmente la anchura de banda de transmisión, dicha representación contiene información concerniente únicamente a una señal mono-auditiva, o para un único oído, que es, bien la señal del canal izquierdo o bien la señal del canal derecho, e información paramétrica. La otra señal estéreo puede ser recuperada basándose en la señal mono-auditiva, conjuntamente con la información paramétrica. La información paramétrica comprende indicaciones de localización de la señal de audio estéreo, que incluyen características de intensidad y de fase del canal izquierdo y del canal derecho.

La publicación "Codificación en sub-banda de señales de audio digitales estereofónicas" ("Subband Coding of Stereophonic Digital Audio Signals"), de R. van der Waal, R. Veldhuis, Philips Reserch Laboratories, en el IEEE (Instituto de Ingeniería Eléctrica y Electrónica), 1991, vol. 2, páginas 3.601-3.604 (ISBN: 0-7803-0003-3), describe un algoritmo de codificación en sub-banda. En tales algoritmos de codificación en sub-banda, el espectro de frecuencias que se ha de codificar se divide en sub-bandas que no se superponen. La codificación se realiza por cada sub-banda. La codificación por sub-banda incluye una transformación rotacional.

Las soluciones previas que se han sugerido en los codificadores de audio para reducir la velocidad de bits del material de programa estéreo incluyen estéreo de intensidad y estéreo de M/S.

En el algoritmo de estéreo de intensidad, las altas frecuencias (típicamente por encima de 5 kHz) se representan por una única señal de audio (es decir, mono), combinada con factores de escala o factores de intensidad que varían con el tiempo y dependientes de la frecuencia, lo que permite recuperar una señal de audio descodificada que se parece a la señal estéreo original para estas zonas de frecuencia. En el algoritmo de M/S, la señal se descompone en una señal de suma (o media, o común) y una señal de diferencia (o lateral, o no común). Esta descomposición se combina, en ocasiones, con análisis de componentes de principio o con factores de escala que varían con el tiempo. Estas señales se codifican entonces de manera independiente, ya sea por un codificador de transformación o por un codificador de sub-banda [los cuales son, ambos, codificadores de forma o perfil de onda]. La cantidad o magnitud de la reducción de información que se consigue por este algoritmo depende fuertemente de las propiedades espaciales de la señal de fuente. Por ejemplo, si la señal de fuente es mono-auditiva, la señal de diferencia es cero y puede ser desechada. Sin embargo, si la correlación entre las señales de audio izquierda y derecha es baja (lo cual es a menudo el caso para las zonas de frecuencias más bajas), este esquema ofrece tan solo una pequeña reducción de la velocidad de bits. Para las zonas de frecuencias bajas, la codificación de M/S proporciona generalmente un mérito significativo.

Las descripciones paramétricas de las señales de audio han venido ganando interés durante los últimos años, especialmente en el campo de la codificación de audio. Se ha demostrado que la transmisión de parámetros (cuantificada) que describen señales de audio requiere tan solo una pequeña capacidad de transmisión para volver a sintetizar una señal perceptivamente igual en el extremo o terminal receptor. Sin embargo, los codificadores de audio paramétricos actuales se concentran en la codificación de señales mono-auditivas, y las señales estéreo se procesan o tratan como señales mono dobles.

Es un propósito de la invención proporcionar un sistema de audio paramétrico de múltiples canales que sea capaz de regular en escala la calidad de la señal de audio codificada con la velocidad de bits disponible, o de regular en escala la calidad de la señal de audio descodificada, con la complejidad del descodificador o la anchura de banda de trasmisión disponible.

Un primer aspecto de la invención proporciona un método para codificar una señal de audio de múltiples canales, según se reivindica en la reivindicación 1. Un segundo aspecto de la invención proporciona un codificador destinado a codificar una señal de audio de múltiples canales, según se reivindica en la reivindicación 13. Un tercer aspecto de la invención proporciona una señal de audio codificada según se reivindica en la reivindicación 16. Un cuarto aspecto de la invención proporciona un medio de almacenamiento en el que se almacena la señal codificada, y se reivindica en la reivindicación 17. Un quinto aspecto de la invención proporciona un método de descodificación, según se reivindica en la reivindicación 18. Un sexto aspecto de la invención proporciona un descodificador para descodificar una señal de audio codificada, según se reivindica en la reivindicación 19. Realizaciones ventajosas se definen en las reivindicaciones dependientes.

En el método de codificación de una señal de audio de múltiples canales, de acuerdo con el primer aspecto de la invención, se genera una señal de audio de un único canal. Por otra parte, se genera información a partir de la señal de la señal de audio de múltiples canales, que permite la recuperación, con un nivel de calidad requerido, de la señal de audio de múltiples canales a partir de la señal de audio de canal único y de la información. Preferiblemente, la información comprende conjuntos de parámetros, por ejemplo, según se conoce por el documento EP-A-1107232.

De acuerdo con el primer aspecto de la invención, la información se genera determinando una primera porción de la información para una primera zona de frecuencias de la señal de audio de múltiples canales, y determinando una segunda porción de la información para una segunda zona de frecuencias de la señal de audio de múltiples canales. La segunda zona de frecuencias es una porción de la primera zona de frecuencias y, por tanto, constituye un sub-intervalo o intervalo incluido en la primera zona de frecuencias. Ahora, son posibles dos niveles de calidad en la descodificación. Para un nivel de calidad baja de la señal de audio de múltiples canales descodificada, el descodificador se sirve de la señal de audio de canal único codificada, y de la primera porción de la información. Para un nivel de calidad superior, el descodificador utiliza la señal de audio de canal único codificada y tanto la primera como la segunda porciones de la información. Por supuesto, es posible seleccionar la calidad de la descodificación de entre una multiplicidad de niveles, si está presente una multiplicidad de porciones de información de tal manera que cada una de ellas está asociada con una zona de frecuencias diferente. Por ejemplo, la primera porción puede comprender un único conjunto de parámetros determinado, con una zona de frecuencias que cubre la totalidad de la anchura de banda de la señal de audio de múltiples canales. Y la segunda porción puede comprender diversos conjuntos de parámetros, de tal modo que cada conjunto de parámetros está determinado por un sub-intervalo o porción de toda la anchura de banda. Conjuntamente, las porciones cubren, de preferencia, toda la anchura de banda.

Esta representación de la señal de audio codificada permite que la calidad de la señal de audio descodificada dependa de la complejidad del descodificador. Por ejemplo, en un sencillo descodificador portátil puede utilizarse un descodificador de baja complejidad que tenga un consumo de potencia bajo y que, en consecuencia, sea capaz de utilizar tan solo una parte de la información. En una aplicación de tope de gama se utiliza un descodificador complejo que se sirve de toda la información disponible en la señal codificada.

La calidad del audio descodificado puede depender también de la anchura de banda de transmisión disponible. Si la anchura de banda de transmisión es alta, entonces el descodificador puede descodificar todas las capas disponibles, ya que son, todas ellas, transmitidas. Si la anchura de banda de transmisión es baja, entonces el transmisor puede decidir transmitir únicamente un número de capas limitado.

En una realización según se define en la reivindicación 2, el codificador recibe una velocidad de bits máxima permisible de la señal de audio de múltiples canales codificada. Esta velocidad de bits máxima permisible puede estar definida por la velocidad de bits disponible de un canal de transmisión tal como la Internet, o de un medio de almacenamiento. En aplicaciones en las que la anchura de banda de transmisión es variable y, por tanto, la máxima velocidad de bits permisible cambia con el tiempo, es importante ser capaz de adaptarse a estas fluctuaciones de la anchura de banda de transmisión con el fin de evitar una calidad muy baja de la señal de audio descodificada. Normalmente, el codificador codifica todas las capas disponibles. Se decide en el terminal transmisor qué capas de han de transmitir, dependiendo de la capacidad de los canales disponibles. Es posible hacer esto con el codificador en el bucle, pero ello es más complicado que separando o desprendiendo algunas capas antes de la transmisión.

El codificador añade tan solo la segunda porción de la información para la segunda zona de frecuencias de la señal de audio de múltiples canales, a la señal de audio codificada, en el caso de que una velocidad de bits de la señal de audio de múltiples canales codificada, que comprende la señal de audio de canal único, y las primera y segunda porciones de la información no sean superiores a la máxima velocidad de bits permisible. De esta forma, la segunda porción no está presente en la señal de audio codificada si la anchura de banda de transmisión no es lo suficientemente grande como para dar soporte a la transmisión de la segunda porción.

En una realización según se define en la reivindicación 3, la información comprende conjuntos de parámetros, de tal modo que cada una de las porciones de la información está representada por uno o más conjuntos de parámetros. El número de conjuntos de parámetros depende del número de zonas de frecuencias presentes en las porciones de la información.

En una realización según se define en la reivindicación 4, los conjuntos de parámetros comprenden al menos una de las indicaciones de localización.

En una realización según se define en la reivindicación 6, la primera zona de frecuencias cubre sustancialmente toda la anchura de banda de la señal de audio de múltiples canales. De esta forma, basta un conjunto de parámetros para proporcionar la información básica que se requiere para descodificar la señal de audio de único canal en la señal de audio de múltiples canales. Se garantiza de esta forma un nivel básico de calidad de la señal de audio. El segundo intervalo de frecuencias cubre parte de la anchura de banda completa. De este modo, la segunda porción, cuando está presente en la señal de audio codificada, mejora la calidad de la señal de audio descodificada en este intervalo de frecuencias.

En una realización según se define en la reivindicación 7, la segunda porción de la información comprende al menos dos intervalos de frecuencias que, conjuntamente, cubren de manera sustancial toda la anchura de banda de la señal de audio de múltiples canales. De esta forma, la mejora en la calidad proporcionada por la segunda porción está presente a lo largo de la anchura de banda completa.

En una realización según se define en la reivindicación 8, la capa de base que comprende la señal de audio de canal único y la primera porción de la información, está siempre presente en la señal de audio codificada. La capa de mejora que comprende la segunda porción de la información, es codificada únicamente si la velocidad de bits de la segunda señal de audio no excede la velocidad de bits máxima permisible. De esta forma, la calidad de la señal de audio descodificada dependerá de la velocidad de bits máxima permisible. Si la velocidad de bits máxima permisible es demasiado baja como para proporcionar acomodo a la capa de mejora, la señal de audio descodificada se obtendrá a partir de la capa de base, lo que producirá una mejor calidad del audio descodificado que la que se dará en el caso de que partes impredecibles del audio codificado no lleguen al descodificador.

En las realizaciones según se define en una cualquiera de las reivindicaciones 9-11, las porciones de la información (que contienen habitualmente conjuntos de parámetros, un conjunto para cada banda de frecuencias representada) contenidas en una trama siguiente son codificadas basándose en los parámetros de la trama previa. Normalmente, esto reduce la velocidad de bits de las porciones codificadas de la información, debido a que, como consecuencia de la correlación, la información contenida en dos tramas sucesivas no diferirá sustancialmente.

En las realizaciones según se define en la reivindicación 12, la diferencia entre los parámetros de dos tramas sucesivas es codificada en lugar de los parámetros en sí.

Estos y otros aspectos de la invención se pondrán de manifiesto a partir de las realizaciones que se describen en lo que sigue, y se aclararán con referencia a las mismas.

En los dibujos:

la Figura 1 muestra un diagrama de bloques de un codificador de múltiples canales para audio estéreo,

la Figura 2 muestra un diagrama de bloques de un descodificador de múltiples canales para audio estéreo,

la Figura 3 muestra una representación de la corriente de datos codificada,

la Figura 4 ilustra una realización de los intervalos de frecuencias de acuerdo con la invención,

la Figura 5 muestra otra realización de los intervalos de frecuencias de acuerdo con la invención,

la Figura 6 ilustra la determinación de los conjuntos de parámetros basándose en parámetros de una trama previa, de acuerdo con una realización de la invención,

la Figura 7 muestra un conjunto de parámetros,

la Figura 8 muestra la determinación diferencial de los parámetros de la capa de base, y

la Figura 9 ilustra la determinación diferencial de los parámetros correspondientes a una zona de frecuencias de una capa de mejora.

La Figura 1 muestra un diagrama de bloques de un codificador de múltiples canales. El codificador recibe una señal de audio de múltiples canales que se muestra como una señal estéreo RI, LI, el codificador suministra la señal de audio de múltiples canales codificada EBS.

El mezclador de sentido descendente 1 combina la señal estéreo o los canales estéreo RI, LI en una señal de audio de un único canal (a la que se hace también referencia como señal mono-auditiva) SC. Por ejemplo, el mezclador de sentido descendente 1 puede determinar el promedio de las señales de audio de entrada RI, LI.

El codificador 2 codifica la señal mono-auditiva SC para obtener una señal mono-auditiva codificada ESC. El codificador 3 puede ser de un tipo conocido, por ejemplo, un codificador de MPEG (MPEG-LII, MPEG-LIII (mp3), o MPEG2-AAC).

El circuito 2 de determinación de parámetros determina los conjuntos de parámetros S1, S2, ... que caracterizan la información INF, basándose en las señales de audio de entrada RI, LI. Opcionalmente, el circuito 2 de determinación de parámetros recibe la máxima velocidad de bits permisible MBR ("maximum bit rate") con el fin de determinar únicamente los conjuntos de parámetros S1, S2, ..., los cuales, una vez codificados por el codificador 4 de parámetros, conjuntamente con la señal mono-auditiva codificada ESC, no exceden la velocidad de bits máxima permisible MBR. Los parámetros codificados se denotan por EIN.

El dispositivo de formateado 5 combina la señal mono-auditiva codificada SC ("single channel") y los parámetros codificados EIN en una corriente de datos de un formato deseado, a fin de obtener la señal de audio de múltiples canales codificada EBS.

El funcionamiento del codificador se aclara con mayor detalle en lo que sigue a continuación, a modo de ejemplo, con respecto a una realización. La señal de audio de múltiples canales LI, RI se codifica en una única señal mono-auditiva SC (a la que se hace referencia también adicionalmente como señal de audio de canal único). La parametrización o cuantificación en parámetros de atributos espaciales de las señales de audio de múltiples canales LI, RI se lleva a cabo por parte del circuito 2 de determinación de parámetros. Los parámetros contienen información acerca del modo como restaurar o restituir la señal de audio de múltiples canales LI, RI a partir de la señal mono-auditiva SC. Los parámetros son habitualmente codificados por el codificador de parámetros 4, antes de combinarlos con la señal mono-auditiva individual codificada ESC ("encoded single channel"). De esta forma, para las aplicaciones generales de codificación de audio, se transmiten o almacenan estos parámetros, combinados con una única señal de audio mono-auditiva. La señal codificada y combinada es la señal de audio de múltiples canales codificada EBS. La capacidad de transmisión o almacenamiento necesaria para transmitir o almacenar la señal de audio de múltiples canales codificada EBS, se ve fuertemente reducida en comparación con codificadores de audio que procesan o tratan independientemente los múltiples canales. Sin embargo, la impresión espacial original se mantiene por medio de la información INF, que contiene los (conjuntos de) parámetros.

En particular, la descripción paramétrica del audio de múltiples canales RI, LI está relacionada con un modelo de procesamiento bi-auditivo (o de los dos oídos) que se encamina a la descripción del procesamiento de señal efectivo del sistema auditivo de dos oídos.

El modelo divide el audio entrante LI, RI en varias señales limitadas en banda, las cuales, preferiblemente, están separadas linealmente en una escala de velocidades ERB. La anchura de banda de estas señales depende de la frecuencia central, siguiendo a la velocidad ERB. De manera subsiguiente, se analizan, preferiblemente, para cada banda de frecuencias, las siguientes propiedades de las señales entrantes:

- la diferencia de niveles inter-auditivos o entre oídos, o ILD ("interaural level difference"), definida por los niveles relativos de la señal limitada en banda que se origina en los oídos izquierdo y derecho,

- la diferencia de tiempos (o fases) inter-auditivos o entre oídos, ITD ("interaural time difference") (o IPD -"interaural phase difference"), definida por el retardo entre oídos (o desplazamiento de fase) correspondiente al pico de la función de correlación transversal entre oídos, y

- la similitud (disimilitud) de las formas de onda que no es achacable a las ITDs o las ILDs, la cual puede ser cuantificada como parámetro por medio de la máxima correlación transversal entre oídos, IC (por ejemplo, el valor de la correlación transversal en la posición del pico máximo).

Los conjuntos S1, S2, ... de los tres parámetros, una vez establecidos para cada banda de frecuencias FR1, FR2, ..., varían a lo largo del tiempo. Sin embargo, puesto que el sistema auditivo de dos oídos es muy lento en su procesamiento, la velocidad de actualización de estas propiedades es bastante baja (típicamente, de decenas de milisegundos).

Puede suponerse que los parámetros que varían (lentamente) con el tiempo son las únicas propiedades de señal espaciales de las que dispone el sistema auditivo de dos oídos, y que, a partir de estos parámetros dependientes del tiempo y de la frecuencia, el mundo auditivo percibido se reconstruye por los niveles superiores del sistema auditivo.

La Figura 2 muestra un diagrama de bloques de un descodificador de múltiples canales. El descodificador recibe la señal de audio de múltiples canales codificada EBS y suministra la señal de audio de múltiples canales descodificada que ha recuperado, la cual se muestra como una señal estéreo RO, LO.

El dispositivo 6 de supresión de formateado recupera la señal mono-auditiva codificada ESC' y los parámetros codificados EIN' de la corriente de datos EBS. El descodificador 7 descodifica la señal mono-auditiva codificada ESC' para obtener la señal mono-auditiva de salida SCO. El descodificador 7 puede ser de cualquier tipo conocido (por supuesto, en correspondencia con el codificador que se ha utilizado); por ejemplo, el descodificador 7 es un descodificador de MPEG. El descodificador 8 descodifica los parámetros codificados EIN' para obtener parámetros de salida INO.

El desmultiplexador 9 recupera las señales de audio estéreo de salida LO y RO mediante la aplicación de los conjuntos de parámetros S1, S2, ... de los parámetros de salida INO en la señal mono-auditiva de salida SCO.

La Figura 3 muestra una representación de la corriente de datos codificados. Por ejemplo, en cada trama F1, F2, ..., el paquete de datos comienza con un encabezamiento H, seguido de la señal mono-auditiva codificada ECS, ahora indicada por A, una primera porción P1 de la información codificada EIN, una segunda porción P2 de la información codificada EIN, y una tercera porción P3 de la información codificada EIN.

Si la trama F1, F2, ... comprende únicamente el encabezamiento H y la señal mono-auditiva codificada ECS, tan solo se transmite la señal mono-auditiva SC.

Como se ha descrito en el documento EP-A-1107232, la banda de frecuencias completa en la que tiene lugar la señal de audio de entrada, se divide en una pluralidad de sub-bandas de frecuencias, las cuales cubren, conjuntamente, la banda de frecuencias completa. En la terminología de acuerdo con la invención, la información INF de múltiples canales se codifica en una pluralidad de conjuntos de parámetros S1, S2, ..., un conjunto para cada sub-banda de frecuencias FR1, FR2, ... Esta pluralidad de conjuntos de parámetros S1, S2, ... se codifica en la primera porción P1 de la información codificada EIN. De esta forma, con el fin de transmitir una señal de audio de múltiples canales de calidad de nivel básico, la corriente de bits comprende el encabezamiento H, la porción A, que es la señal mono-auditiva codificada, y la primera porción P1.

En la corriente de bits de acuerdo con una realización de la invención, la primera porción P1 consiste, tan solo, en un único conjunto S1 de parámetros. El conjunto único es determinado para la anchura de banda completa FR1. Esta corriente de datos, que comprende el encabezamiento H y las porciones A y P1, proporciona una capa básica de calidad, indicada por BL en la Figura 3.

Con el fin de dar soporte a una calidad mejorada, están presentes en la corriente de datos porciones adicionales de P2, P3 de la información codificada EIN. Estas porciones adicionales forman una capa de mejora EL ("enhancement layer"). La corriente de bits puede comprender una única porción adicional P2 o más de 1 porción adicional. La porción adicional P2 comprende, preferiblemente, una pluralidad de conjuntos de parámetros S2, S3, ..., un conjunto para cada sub-banda de frecuencias FR2, FR3, ..., de tal modo que las sub-bandas de frecuencia FR2, FR3 cubren, preferiblemente, toda la banda de frecuencias FR1. La calidad mejorada puede también estar presente de un modo paso a paso, de manera que un primer nivel de mejora se proporciona por la capa de mejora EL1, que comprende la primera porción. Y una segunda capa de mejora EL comprende la primera capa de mejora EL1 y la segunda capa de mejora EL2, que comprende la porción P3.

La porción adicional P2 puede también comprender un único conjunto S2 de parámetros correspondientes a una única banda de frecuencias FR2, que es una sub-banda de la banda de frecuencias completa FR1. La porción adicional P2 puede comprender también un cierto número de conjuntos de parámetros S2, S3, ... que corresponden a las bandas de frecuencia FR2, FR3, ... que no cubren, conjuntamente, toda la banda de frecuencias FR1 completa.

La porción adicional P3 contiene, preferiblemente, conjuntos de parámetros para bandas de frecuencia que sub-dividen al menos una de las sub-bandas de la porción adicional P2.

Este formato de la corriente de bits de acuerdo con la invención permite regular en escala, en el canal de transmisión o en el descodificador, la calidad de la señal de audio descodificada, con la velocidad de bits del canal de transmisión, o con la complejidad de descodificación del descodificador. Por ejemplo, si el descodificador de audio ha de tener un consumo de potencia bajo, como es importante en las aplicaciones portátiles, el descodificador puede tener una complejidad baja y utiliza únicamente las porciones H, A y P1. Sería posible incluso que el descodificador fuera capaz de llevar a cabo operaciones más complejas con un consumo de potencia más alto, en el caso de que el usuario indicase que desea una calidad más alta del audio descodificado.

Es también posible que el descodificador esté al tanto de la velocidad de bits máxima permisible, MBR, que puede ser transmitida a través del canal de transmisión o que puede ser almacenada en un medio de almacenamiento. Ahora, el codificador es capaz de decidir acerca de cuántas porciones adicionales P1, P2, ..., si es que hay alguna, caben dentro de la máxima velocidad de bits permisible MBR. El codificador codifica únicamente estas porciones permisibles P1, P2, ... de la corriente de bits.

La Figura 4 muestra una realización de los intervalos de frecuencias de acuerdo con la invención. En esta realización, la banda de frecuencias FR1 es igual a la banda de frecuencias completa FBW ("full bandwidth") de la señal de audio de múltiples canales LI, RI, y la banda de frecuencias FR2 es una sub-banda de frecuencias de la anchura de banda completa FBW.

Si éstos son los únicos intervalos de frecuencias para los que se determinan los conjuntos de parámetros S1, S2, ..., se determina un único conjunto de parámetros S1 para la banda de frecuencias FR1 y está presente en la porción P1, y se determina un único conjunto de parámetros S2 para la banda de frecuencias FR2, y está presente en la porción P2. La regulación en escala de la calidad es posible, bien utilizando la porción P2 ó bien no utilizándola.

La Figura 5 muestra otra realización de los intervalos de frecuencias de acuerdo con la invención. En esta realización, la banda de frecuencias FR1 es de nuevo igual a la anchura de banda completa FBW, y las sub-bandas de frecuencias FR2 y FR3 cubren, conjuntamente, la anchura de banda completa FBW. O, dicho en otras palabras, la banda de frecuencias FR1 se subdivide en las sub-bandas de frecuencias FR2 y FR3.

En el caso de que éstos sean los únicos intervalos de frecuencias para los que se determinan los conjuntos de parámetros S1, S2, ..., la porción P1 comprende un único conjunto de parámetros S1, determinado por la banda de frecuencias FR1, y la porción P2 comprende dos conjuntos de parámetros S2 y S3, determinados, respectivamente, por las bandas de frecuencias FR2 y FR3. La regulación en escala de la calidad es posible tanto utilizando la porción P2 como no utilizándola.

La Figura 6 muestra la determinación de los conjuntos de parámetros basándose en parámetros contenidos en una trama previa, de acuerdo con una realización de la invención.

La Figura 6 muestra una corriente de datos que comprende, en cada trama F1, F2, ..., la información codificada EIN, que comprende la porción P1, que es una parte de la capa de base BL, y la porción P2, que forma la capa de mejora EL.

En la trama F1, la porción P1 comprende un único conjunto de parámetros S1 que son determinados para la anchura de banda completa FR1. La porción P2, a modo de ejemplo, comprende cuatro conjuntos de parámetros S2, S3, S4, S5 que se determinan, respectivamente, para las sub-bandas de frecuencias FR2, FR3, FR4, FR5. Las cuatro sub-bandas de frecuencias FR2, FR3, FR4, FR5 sub-dividen la banda de frecuencias FR1.

En la trama F2, que sucede a la trama F1, la porción P1 comprende un único conjunto de parámetros S1' que se determinan para la anchura de banda completa FR1 y forman parte de la capa de base BL'. La porción P2 comprende cuatro conjuntos de parámetros S2', S3', S4', S5' que son de nuevo determinados, respectivamente, para las sub-bandas de frecuencia FR2, FR3, FR4, FR5 y que forman la capa de mejora EL'.

Es posible codificar cada uno de estos conjuntos de parámetros S1, S2, ... para cada una de las tramas F1, F2, ... por separado. Es también posible codificar los conjuntos de parámetros de la porción P2 con respecto a los parámetros de la porción P1. Esto se indica por las flechas que comienzan en S1 y terminan en S2 a S5, en la trama F1. Por supuesto, esto es también posible en otras tramas F2, ... (no mostradas). De la misma manera, es posible codificar el conjunto de parámetros S1' con respecto a S1. Y finalmente, los conjuntos de parámetros S2', S3', S4', S5' pueden ser codificados con respecto a los conjuntos de parámetros S2, S3, S4, S5.

De esta forma, la velocidad de bits de la información codificada EIN puede ser reducida en la medida en que se utiliza la redundancia o correlación entre conjuntos de parámetros Si.

Preferiblemente, los nuevos parámetros de los nuevos conjuntos de parámetros S1', S2', S3', S4', S5' se codifican como la diferencia entre su valor y el valor de los parámetros de los conjuntos de parámetros previos S1, S2, S3, S4, S5.

A intervalos de tiempo uniformes, se ha de codificar al menos el conjunto de parámetros S1 de forma absoluta y no diferencial, a fin de evitar que los errores se propaguen demasiado lejos.

La Figura 7 muestra un conjunto de parámetros. Cada conjunto de parámetros Si puede comprender uno o más parámetros. Habitualmente, los parámetros son indicaciones de localización que proporcionan información acerca de la localización de objetos sonoros en la información de audio. Por lo común, las indicaciones de localización consisten en la diferencia de niveles inter-auditivos, o entre oídos, ILD, en la diferencia de tiempos inter-auditivos o de fases inter-auditivas, ITD o IPD, y en la correlación transversal inter-auditiva, o entre oídos, IC ("interaural cross-correlation"). Una información más detallada acerca de estos parámetros se proporciona en la Publicación de la Convención de la Sociedad de Ingería de Audio ("Audio Engineering Society Convention Paper") 5574, "Codificación de indicaciones bi-auditivas, o de los dos oídos, aplicada a la compresión de audio estéreo y de múltiples canales" ("Binaural Cue Coding Applied to Stereo and Multi-channel Audio Compression"), presentada en la 112ª Convención, del 10 al 13 de mayo de 2002 en Munich, Alemania, por Christof Faller et al.

La Figura 8 muestra la determinación diferencial de un parámetro de la capa de base. El eje horizontal indica tramas sucesivas F1 a F5. El eje vertical muestra el valor PVG de un parámetro del conjunto de parámetros S1 de la capa de base BL ("base layer"). Este parámetro tiene los valores A1 a A5 para las tramas F1 a F5, respectivamente. La contribución de este parámetro a la velocidad de bits de la información codificada EIN disminuirá si no se codifican los valores reales A1 a A5 del parámetro, sino las diferencias, más pequeñas, D1, D2, ...

La Figura 9 muestra la determinación diferencial de los parámetros correspondientes a una zona de frecuencias de una capa de mejora. El eje horizontal indica dos tramas sucesivas F1 y F2. El eje vertical indica los valores de un parámetro particular de la capa de base BL y de la capa de mejora EL. En este ejemplo, la capa de base BL comprende la porción P1 de información INF con un único conjunto de parámetros, determinado para el intervalo de frecuencias completo FBW, de tal manera que el parámetro particular de la porción P1 tiene el valor A1 para la trama F1 y A2 para la trama F2. La capa de mejora EL comprende la porción P2 de información INF con tres conjuntos de parámetros determinados para tres intervalos de frecuencias respectivos FR2, FR3, FR4 que, conjuntamente, llenan el intervalo de frecuencias completo FBW. Los tres parámetros particulares (por ejemplo, el parámetro que representa la ILD) tienen un valor B11, B12, B13 en la trama F1 y un valor B21, B22, B23 en la trama F2.

La contribución de estos parámetros a la velocidad de bits de la información codificada EIN se reducirá si no se codifican los verdaderos valores B11 a B23 del parámetro particular, sino las diferencias D11, D12, ..., debido a que estas diferencias pueden ser codificadas más eficazmente que los verdaderos valores.

En resumen, en una realización preferida de acuerdo con la invención, se propone organizar la información de parámetros estéreo INF de tal manera que una capa de base BL contiene uno de los conjuntos de parámetros (preferiblemente, la diferencia de tiempos/niveles y la correlación) S1, que se determina para la anchura de banda completa FBW de la señal de audio de múltiples canales LI, RI. La capa de mejora EL contiene múltiples conjuntos de parámetros S2, S3, ... que corresponden a intervalos de frecuencia subsiguientes FR2, FR3 dentro de la anchura de banda completa FBW. En aras a la eficacia en cuanto a la velocidad de bits, los conjuntos de parámetros S2, S3, ... de la capa de mejora EL pueden ser codificados de forma diferencial con respecto al conjunto de parámetros S1 situado en la capa de base BL.

\newpage

La información INF se codifica de una manera estructurada en múltiples capas, a fin de permitir una regulación en escala de la calidad de la descodificación frente a la velocidad de bits.

Para concluir, en lo que sigue a continuación, se elucida una realización preferida de acuerdo con la invención, con respecto a un código de programa y a su explicación o aclaración.

En primer lugar se determinan, para todas las tramas subordinadas o sub-tramas (las porciones P1, P2, ...) contenidas en las tramas F1, F2, ..., los datos ESC para la representación mono-auditiva, o de un solo oído, SC, los datos EIN para el conjunto de parámetros estéreo S1 para la anchura de banda completa FBW, y los parámetros estéreo S2, S3, ... para los contenedores (o regiones) de frecuencias FR2, FR3, ...

El código de programa se muestra en el lado izquierdo, y se proporciona, en el lado derecho, una aclaración del código de programa que se describe.

1

En segundo lugar, dependiendo del valor del bit refrescar_estéreo, se codifican de manera absoluta los parámetros estéreo para la anchura de banda completa (se codifica el valor real o verdadero), o bien se codifica la diferencia con los valores previos. El siguiente código es válido para la diferencia de niveles inter-auditivos, o entre ambos oídos, ILD.

2

3

En tercer lugar, dependiendo del valor del bit refrescar_estéreo, se codifican de forma absoluta los parámetros estéreo para todos los contenedores de frecuencias (se codifica el valor real o verdadero), o bien se codifica la diferencia con los parámetros correspondientes para la anchura de banda completa. El siguiente código es válido para la diferencia de niveles inter-auditivos, o entre los dos oídos, ILD.

4

Donde:

La expresión "refrescar_estéreo" es un indicador que denota si se han de refrescar o no los parámetros estéreo (0 = FALSO, 1 = VERDADERO).

\newpage

La expresión "ild_global[sf]" representa el nivel de representación absoluto codificado de Huffman de la ILD para toda el área de frecuencias para la trama f.

La expresión "ild_global_dif[f]" representa el nivel de representación relativo codificado de Huffman de la ILD para toda el área de frecuencias para la trama f.

La expresión "ild_contenedor[f, b]" representa el nivel de representación absoluto codificado de Huffman de la ILD para la trama f y el contenedor b.

La expresión "ild_contenedor_dif[f, b]" representa el nivel de representación relativo codificado de Huffman de la ILD para la trama f y el contenedor b.

Ha de apreciarse que las realizaciones anteriormente mencionadas ilustran la invención en lugar de limitarla, y que los expertos de la técnica serán capaces de diseñar muchas realizaciones alternativas sin apartarse del ámbito de las reivindicaciones que se acompañan.

Si bien la invención se ha elucidado en las figuras en relación con una señal estéreo, la extensión a una señal de audio de más de dos canales puede llevarse a cabo fácilmente por parte de la persona experta.

En las reivindicaciones, cualesquiera símbolos de referencia situados entre paréntesis no se han de interpretar como limitativos de la reivindicación. La expresión "que comprende" no excluye la presencia de elementos o etapas diferentes de los que se listan en una reivindicación. La invención puede llevarse a la práctica por medio de dispositivos físicos o hardware que comprende diversos elementos diferentes, y por medio de una computadora adecuadamente programada. En la reivindicación de dispositivo que enumera diversos medios, varios de estos medios pueden materializarse por medio de un mismo elemento de hardware. El mero hecho de que se mencionan ciertas medidas en reivindicaciones dependientes distancias unas de otras no indica que no se pueda utilizar de forma ventajosa una combinación de estas medidas.

En suma, las señales de audio de múltiples canales se codifican en una señal de audio mono-auditiva, o para un solo oído, y en información, lo que permite recuperar la señal de audio de múltiples canales a partir de la señal de audio mono-auditiva y de la información. La información se genera determinando una primera porción de la información para una primera zona de frecuencias de la señal de audio de múltiples canales, y determinando una segunda porción de la información para una segunda zona de frecuencias de la señal de audio de múltiples canales. La segunda zona de frecuencias es una porción de la primera zona de frecuencias y, por tanto, constituye un sub-intervalo de la primera zona de frecuencias. La información está estructurada en múltiples capas, lo que permite una regulación en escala de la calidad de la descodificación frente a la velocidad de bits.

Claims

1. Un método para codificar una señal de audio de múltiples canales, que comprende al menos dos canales de audio (RI, LI), de tal forma que el método comprende

generar (1) una señal de audio (SC -"single channel") de un único canal, que comprende una combinación particular de los al menos dos canales de audio (RI, LI), y codificar la señal de audio de canal único (SC) en una corriente de bits (EBS), como una señal de audio de canal único codificada (ESC),

generar (2) información (INF) a partir de los al menos dos canales de audio (RI, LI), que permite recuperar, con un nivel de calidad requerido, la señal de audio de múltiples canales a partir de la señal de audio de canal único (SC) y de la información (INF), de tal modo que la generación (2) de la información comprende:

-: determinar (2) una primera porción de la información (P1), que consiste en un único conjunto de parámetros (S1), determinados para una primera zona de frecuencias (FR1) de la señal de audio de múltiples canales, y codificar la primera porción de la información (P1) en la corriente bits (EBS), como una primera porción codificada de la información (EIN -"encoded information"), y

-: determinar (2) una segunda porción de la información (P2) para una segunda zona de frecuencias (FR2) de la señal de audio de múltiples canales, de tal modo que la segunda zona de frecuencias (FR2) es una porción de la primera zona de frecuencias (FR1), y codificar la segunda porción de la información (P2) dentro de la corriente de bits (EBS), como una segunda porción codificada de la información (EIN).

2. Un método para codificar una señal de audio de múltiples canales, de acuerdo con la reivindicación 1, que comprende adicionalmente:

determinar únicamente (2) la segunda porción de la información (P2) para la segunda zona de frecuencias (FR2) de la señal de audio de múltiples canales en el caso de que una velocidad de bits de la señal de audio de múltiples canales codificada, que comprende la señal de audio de canal único (SC), la primera porción de la información (P1) y la segunda porción de la información (P2), no sea superior a una velocidad de bits máxima permisible (MBR).

3. Un método de codificación de acuerdo con la reivindicación 1, caracterizado porque la información (INF) comprende conjuntos de parámetros (S1, S2, ...), la primera porción (P1) comprende al menos un primero (S1) de los conjuntos de parámetros (S1, S2, ...), y la segunda porción (P2) comprende al menos un segundo (S2) de los conjuntos de parámetros (S1, S2, ...), de tal manera que cada conjunto de parámetros está asociado con una zona de frecuencias correspondiente (FR1, FR2, ...).

4. Un método de codificación de acuerdo con la reivindicación 3, caracterizado porque los conjuntos de parámetros comprenden al menos una indicación de localización (ILD, ITD, IPD, IC).

5. Un método de codificación de acuerdo con la reivindicación 4, caracterizado porque la al menos una indicación de localización (ILD, ITD, IPD, IC) se selecciona de entre: una diferencia de niveles inter-auditivos o entre los dos oídos (ILD -"interaural level difference"), una diferencia de tiempos o de fases inter-auditivas, o entre los dos oídos (ITD -"interaural time difference"-, IPD -"interaural phase difference"), o una correlación transversal inter-auditiva, o entre los dos oídos (IC -"interaural cross-correlation").

6. Un método de codificación de acuerdo con la reivindicación 1 ó la reivindicación 2, caracterizado porque la primera zona de frecuencias (FR1) cubre una anchura banda completa (FBW -"full bandwidth") de la señal de audio de múltiples canales.

7. Un método de codificación de acuerdo con la reivindicación 1, caracterizado porque la primera zona de frecuencias (FR1) cubre sustancialmente una anchura de banda completa (FBW) de la señal de audio de múltiples canales, la segunda zona de frecuencias (FR2) cubre una porción de la anchura de banda completa (FBW), y por que determinar (2) la segunda porción de la información (P2) está destinada a determinar conjuntos de parámetros (S2, S3, ...) tanto para la segunda zona de frecuencias (FR2) como para el conjunto de zonas de frecuencias adicionales (FR3, FR4, FR5), de tal manera que la segunda zona de frecuencias (FR2) y el conjunto de zonas de frecuencias adicionales (FR3, FR4, FR5) cubren sustancialmente la anchura de banda completa (FBW), donde el conjunto de zonas de frecuencias adicionales (FR3, FR4, FR5) comprende al menos una zona de frecuencias adicional (FR3).

8. Un método de codificación de acuerdo con la reivindicación 7, caracterizado porque la señal de audio de canal único (SC) y la primera porción (P1) de la información (INF) forman una capa de base de información (BL -"base layer") que está siempre presente en la señal de audio de múltiples canales codificada (EBS), y porque el método comprende recibir (2) una velocidad de bits máxima permisible (MBR -"maximum bit rate") de la señal de audio de múltiples canales codificada (EBS), de tal modo que la segunda porción de la información (P2) forma una capa de mejora de información (EL -"enhancement layer") que es codificada únicamente si la velocidad de bits de la capa de base codificada (DL) y de la capa de mejora (EL) no es más alta que la velocidad de bits máxima permisible (MBR).

9. Un método de codificación de acuerdo con la reivindicación 3, caracterizado porque determinar (2) la primera porción de información (P1) en una trama particular (F2) de información codificada (EIN) comprende determinar (2) el primero de los conjuntos de parámetros (S1') contenido en la trama particular (F2), y codificar el primero de los conjuntos de parámetros (S1') basándose en el primero de los conjuntos de parámetros (S1) de una trama (F1) que precede a la trama particular (F2).

10. Un método de codificación de acuerdo con la reivindicación 7, caracterizado porque determinar (2) la segunda porción de información (P2) contenida en una trama particular (F2) de la información codificada (EIN) comprende determinar (2) los conjuntos de parámetros (S2', S3', ...) de la segunda porción (P2) contenida en la trama particular (F2), y codificar los conjuntos de parámetros (S2', S3', ...) de la segunda porción (P2) contenida en la trama particular (F2) basándose en los conjuntos de parámetros (S2, S3, ...) de una trama (F1) que precede a la trama particular (F2).

11. Un método de codificación de acuerdo con la reivindicación 7, caracterizado porque determinar (2) la segunda porción de información (P2) contenida en una trama particular (F2) de la información codificada (EIN) comprende determinar (2) los conjuntos de parámetros (S2', S3', ...) de la segunda porción (P2) contenida en la trama particular (F2), y codificar los conjuntos de parámetros (S2', S3', ...) de la segunda porción (P2) contenida en la trama particular (F2) basándose en el primero de los conjuntos de parámetros (S1) de una trama (F1) que precede a la trama particular (F2).

12. El método de codificación de acuerdo con una cualquiera de las reivindicaciones 9 a 11, caracterizado porque determinar (2) comprende calcular una diferencia entre los parámetros correspondientes de la trama particular (F2) y de la trama (F1) que precede a la trama particular (F2).

13. Un codificador para codificar una señal de audio de múltiples canales que comprende al menos canales de audio (RI, LI), de tal modo que el codificador comprende:

medios para generar (1) una señal de audio (SC -"single channel") de un único canal, que comprende una combinación particular de los al menos dos canales de audio (RI, LI),

medios para generar (2) información (INF) a partir de los al menos dos canales de audio (RI, LI), que permite recuperar, con un nivel de calidad requerido, la señal de audio de múltiples canales a partir de la señal de audio de canal único (SC) y de la información (INF), de tal modo que los medios para generar (2) la información comprenden:

-: medios para determinar (2) una primera porción de la información (P1), que consiste en un único conjunto de parámetros (S1), determinados para una primera zona de frecuencias (FR1) de la señal de audio de múltiples canales, y

-: medios para determinar (2) una segunda porción de la información (P2) para una segunda zona de frecuencias (FR2) de la señal de audio de múltiples canales, de tal modo que la segunda zona de frecuencias (FR2) es una porción de la primera zona de frecuencias (FR1).

14. Un codificador para codificar una señal de audio de múltiples canales, de acuerdo con la reivindicación 13, que comprende adicionalmente medios para determinar (2) únicamente la segunda porción de la información (P2) para la segunda zona de frecuencias (FR2) de la señal de audio de múltiples canales, en el caso de que una velocidad de bits de la señal de audio de múltiples canales codificada, que comprende la señal de audio de canal único (SC), la primera porción de la información (P1) y la segunda porción de la información (P2), no sea superior a una velocidad de bits máxima permisible (MBR -"maximum bit rate").

15. Un aparato para suministrar una señal de audio, de tal modo que el aparato comprende:

una entrada para recibir una señal de audio de múltiples canales,

un codificador de acuerdo con la reivindicación 13 ó la reivindicación 14, destinado a codificar la señal de audio de múltiples canales con el fin de obtener una señal de audio de múltiples canales codificada, y

una salida para suministrar la señal de audio de múltiples canales codificada.

16. Una señal de audio de múltiples canales codificada, que comprende:

una señal de audio (SC -"single channel") de un único canal, que comprende una combinación particular de al menos dos canales de audio (RI, LI), e información (INF) procedente de los al menos dos canales de audio (RI, LI), lo que permite recuperar, con un nivel de calidad requerido, la señal de audio de múltiples canales a partir de la señal de audio de canal único (SC), y de la información (INF), de tal modo que la información comprende:

-: una primera porción de la información (P1), que consiste en un único conjunto de parámetros (S1) determinados para una primera zona de frecuencias (FR1) de la señal de audio de múltiples canales, y

\newpage

-: una segunda porción de la información (P2) para una segunda zona de frecuencias (FR2) de la señal de audio de múltiples canales, de tal modo que la segunda zona de frecuencias (FR2) es una porción de la primera zona de frecuencias (FR1).

17. Un medio de almacenamiento en el que se ha almacenado la señal de audio codificada de acuerdo con la reivindicación 16.

18. Un método de descodificación de una señal de audio de múltiples canales codificada que se ha codificado de acuerdo con la reivindicación 16, de tal modo que el método de descodificación comprende:

obtener (6, 7) una señal de audio de un único canal descodificada (SCO), que comprende una combinación particular de los al menos dos canales de audio (RI, LI),

obtener (6, 8) información descodificada (INO) a partir de la información (INF), lo que permite recuperar la señal de audio de múltiples canales a partir de la señal de audio de canal único descodificada (SCO) y de la información descodificada (INO), de tal modo que la información descodificada (INO) comprende la primera porción de la información (P1) y la segunda porción de la información (P2), y

aplicar (9), bien la primera porción de la información (P1) o bien la primera porción (P1) y la segunda porción de la información (P2) en la señal de audio de canal único (SCO) con el fin de generar una señal de audio de múltiples canales descodificada (LO, RO).

19. Un descodificador para descodificar una señal de audio de múltiples canales codificada, la cual ha sido codificada de acuerdo con la reivindicación 16, de tal modo que el descodificador comprende:

medios para obtener (6, 7) una señal de audio de un único canal descodificada (SCO), que comprende una combinación particular de los al menos dos canales de audio (RI, LI),

medios para obtener (6, 8) información descodificada (INO) a partir de la información (INF), lo que permite recuperar la señal de audio de múltiples canales a partir de la señal de audio de canal único descodificada (SCO) y de la información descodificada (INO), de tal modo que la información descodificada (INO) comprende la primera porción de la información (P1) y la segunda porción de la información (P2), y

medios para aplicar (9) la primera porción de la información (P1) y la segunda porción de la información (P2) en la señal de audio de canal único (SCO) con el fin de generar una señal de audio de múltiples canales descodificada (LO, RO).

20. Un aparato para suministrar una señal de audio descodificada, de tal modo que el aparato comprende:

una entrada para recibir una señal de audio de múltiples canales codificada,

un descodificador de acuerdo con la reivindicación 19, destinado a descodificar la señal de audio de múltiples canales codificada, con el fin de obtener una señal de salida de múltiples canales, y

una salida para suministrar o reproducir la señal de salida de múltiples canales.