ES2317297T3

ES2317297T3 - Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares.

Info

Publication number: ES2317297T3
Application number: ES05785586T
Authority: ES
Inventors: Eric Allamanche; Sascha Disch; Christof Faller; Jurgen Herre
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Agere Systems LLC
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Agere Systems LLC
Priority date: 2004-10-20
Filing date: 2005-09-12
Publication date: 2009-04-16
Anticipated expiration: 2025-09-12
Also published as: RU2384014C2; ATE413792T1; JP2008517334A; BRPI0516392B1; HK1104412A1; IL182235A0; PL1803325T3; KR100922419B1; US8204261B2; DE602005010894D1; NO20071492L; MX2007004725A; BRPI0516392A; CN101044794A; IL182235A; RU2007118674A; AU2005299070A1; CN101853660B; US8238562B2; NO339587B1

Abstract

Método para convertir una señal de audio de entrada que tiene una envolvente temporal de entrada en una señal de audio de salida que tiene una envolvente temporal de salida, comprendiendo el método: caracterizar la envolvente temporal de entrada de la señal de audio de entrada; procesar la señal de audio de entrada para generar una señal de audio procesada, en el que el procesamiento descorrelaciona la señal de audio de entrada; y ajustar la señal de audio procesada basándose en la envolvente temporal de entrada caracterizada para generar la señal de audio de salida, en el que la envolvente temporal de salida coincide sustancialmente con la envolvente temporal de entrada.

Description

\global\parskip0.960000\baselineskip

Conformación de envolvente de sonido difuso para esquemas de codificación de indicación binaural y similares.

Antecedentes de la invención Referencia cruzada con solicitudes relacionadas

El contenido de esta solicitud está relacionado con el contenido de las siguientes solicitudes estadounidenses:

\circ: Solicitud estadounidense 2003/0026441 A1, presentada el 04/05/01

\circ: Solicitud estadounidense 2003/0035553 A1, presentada el 07/11/01;

\circ: US 2003/0219130 A1, presentada el 24/05/02;

\circ: US 2003/0236583 A1, presentada el 18/09/02;

\circ: US 2005/0180579 A1, presentada el 01/04/04;

\circ: US 2005/0058304 A1, presentada el 08/09/04;

\circ: US 205/0157883 A1, presentada el 20/01/04; y

\circ: US presentada en la misma fecha que esta solicitud.

El contenido de esta solicitud también está relacionado con el contenido descrito en los siguientes documentos:

\circ: F. Baumgarte y C. Faller, "Binaural Cue Coding - Part I: Psychoacoustic fundamentals and design principles", IEEE Trans. on Speech and Audio Proc., vol. 11, nº 6, noviembre de 2003;

\circ: C. Faller y F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans. on Speech and Audio Proc., vol. 11, nº 6, noviembre de 2003; y

\circ: C. Faller, "Coding of spatial audio compatible with different playback formats", Preprint 117th Conv. Aud Eng. Soc., octubre de 2004.

Campo de la invención

La presente invención se refiere a la codificación de señales de audio y a la síntesis posterior de escenas auditivas a partir de los datos de audio codificados.

Descripción de la técnica relacionada

Cuando una persona oye una señal de audio (es decir, sonidos) generados por una fuente de audio particular, la señal de audio llegará normalmente a los oídos izquierdo y derecho de la persona en dos tiempos diferentes y con dos niveles de audio (por ejemplo, decibelios) diferentes, en el que estos diferentes tiempos y niveles son en función de las diferencias en las trayectorias a través de las que viaja la señal de audio para llegar a los oídos izquierdo y derecho, respectivamente. El cerebro de la persona interpreta estas diferencias de tiempo y nivel para dar a la persona la percepción de que la señal de audio recibida se está generando por una fuente de audio situada en una posición particular (por ejemplo, dirección y distancia) con respecto a la persona. Una escena auditiva es el efecto neto de una persona que escucha simultáneamente señales de audio generadas por una o más fuentes de audio diferentes situadas en una o más posiciones diferentes con respecto a la persona.

La existencia de este procesamiento por el cerebro puede usarse para sintetizar escenas auditivas, en el que señales de audio de una o más fuentes de audio diferentes se modifican intencionadamente para generar señales de audio izquierda y derecha que dan la percepción de que las diferentes fuentes de audio están ubicadas en diferentes posiciones con respecto al oyente.

La figura 1 muestra un diagrama de bloques de alto nivel de un sintetizador 100 de señales binaural convencional, que convierte una única señal de fuente de audio (por ejemplo, una señal mono) en las señales de audio izquierda y derecha de una señal binaural, definiéndose una señal binaural como las dos señales recibidas en los tímpanos de un oyente. Además de la señal de fuente de audio, el sintetizador 100 recibe un conjunto de indicaciones espaciales correspondientes a la posición deseada de la fuente de audio con respecto al oyente. En implementaciones típicas, el conjunto de indicaciones espaciales comprende un valor de diferencia de nivel intercanal (ICLD) (que identifica la diferencia de nivel de audio entre las señales de audio izquierda y derecha tal como se reciben en los oídos izquierdo y derecho, respectivamente) y un valor de diferencia de tiempo intercanal (ICTD) (que identifica la diferencia de tiempo de llegada entre las señales de audio izquierda y derecha tal como se reciben en los oídos izquierdo y derecho, respectivamente). Además o como alternativa, algunas técnicas de síntesis implican el modelado de una función de transferencia dependiente de la dirección para el sonido desde la fuente de señal hacia los tímpanos, también denominada como la función de transferencia relacionada con la cabeza (HRTF). Véase, por ejemplo, J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983.

Utilizando el sintetizador 100 de señales binaural de la figura 1, la señal de audio mono generada por una única fuente de sonido puede procesarse de tal manera que, cuando se escucha mediante auriculares, la fuente de sonido está colocada espacialmente aplicando un conjunto apropiado de indicaciones espaciales (por ejemplo, ICLD, ICTD y/o HRTF) para generar la señal de audio para cada oído. Véase, por ejemplo, D. R. Begault, 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA, 1994.

El sintetizador 100 de señales binaural de la figura 1 genera el tipo más simple de escenas auditivas: aquellas que tienen una única fuente de audio colocada con respecto al oyente. Pueden generarse escenas auditivas más complejas que comprenden dos o más fuentes de audio ubicadas en diferentes posiciones con respecto al oyente utilizando un sintetizador de escena auditiva que se implementa esencialmente utilizando múltiples instancias del sintetizador de señales binaural, generando cada instancia de sintetizador de señales binaural la señal binaural correspondiente a una fuente de audio diferente. Puesto que cada fuente de audio diferente tiene una ubicación diferente con respecto al oyente, se usa un conjunto diferente de indicaciones espaciales para generar la señal de audio binaural para cada fuente de audio diferente.

El documento WO 2004/008806 A1 da a conocer un esquema de codificación de audio. Para la codificación estéreo binaural sólo se codifica un canal monoaural. Una capa adicional conserva los parámetros para recuperar la señal izquierda y la señal derecha. Un codificador enlaza información de transitorios extraída de la señal codificada mono con capas multicanal paramétricas para proporcionar un mayor rendimiento. Las posiciones de los transitorios pueden o bien obtenerse directamente del flujo de bits o bien estimarse a partir de otros parámetros codificados tales como la etiqueta de conmutación de ventana en mp3. Los parámetros incluyen la diferencia de nivel de señales de subbanda correspondientes, la diferencia de tiempo o la diferencia de fase de señales de subbanda correspondientes y un valor de correlación.

Un objeto de la presente invención es proporcionar un concepto mejorado de codificación y descodificación de audio. Este objeto se consigue mediante un método para convertir una señal de audio de entrada según la reivindicación 1, un aparato para convertir una señal de audio de entrada según la reivindicación 23, un método para codificar C canales de audio de entrada según la reivindicación 26, un aparato para codificar C canales de audio de entrada según la reivindicación 28, un flujo de bits de audio codificado según la reivindicación 31 o un código de programa informático según la reivindicación 32.

Sumario de la invención

Según una realización, la presente invención consiste en un método y aparato para convertir una señal de audio de entrada que tiene una envolvente temporal de entrada en una señal de audio de salida que tiene una envolvente temporal de salida. La envolvente temporal de entrada de la señal de audio de entrada se caracteriza. La señal de audio de entrada se procesa para generar una señal de audio procesada, en el que el procesamiento descorrelaciona la señal de audio de entrada. La señal de audio procesada se ajusta basándose en la envolvente temporal de entrada caracterizada para generar la señal de audio de salida, en el que la envolvente temporal de salida coincide sustancialmente con la envolvente temporal de entrada.

Según otra realización, la presente invención es un método y aparato para codificar C canales de audio de entrada para generar E canal(es) de audio transmitido(s). Se generan uno o más códigos de indicación para dos o más de los C canales de entrada. Los C canales de entrada se mezclan descendentemente (downmix) para generar el (los) E canal(es) transmitido(s), siendo C>E\geq1. Uno o más de los C canales de entrada y los E canal(es)
transmitido(s) se analiza para generar una etiqueta que indica si un descodificador del (de los) E canal(es) transmitido debe efectuar o no la conformación de la envolvente durante la descodificación del (de los) E canal(es) transmitido(s).

Según otra realización, la presente invención es un flujo de bits de audio codificado, generado mediante el método del párrafo anterior.

Según otra realización, la presente invención es un flujo de bits de audio codificado que comprende E canal(es) transmitido(s), uno o más códigos de indicación y una etiqueta. Los uno o más códigos de indicación se generan generando uno o más códigos de indicación para dos o más de los C canales de entrada. El (los) E canal(es) transmitido(s) se genera(n) mezclando descendentemente los C canales de entrada, siendo C>E\geq1. La etiqueta se genera analizando uno o más de los C canales de entrada y el (los) E canal(es) transmitido(s), en el que la etiqueta indica si un descodificador del (de los) E canal(es) transmitido(s) debe efectuar o no la conformación de envolvente durante la descodificación del (de los) E canal(es) transmitido(s).

Breve descripción de los dibujos

Otros aspectos, características y ventajas de la presente invención resultarán más plenamente evidentes a partir de la siguiente descripción detallada, las reivindicaciones adjuntas y los dibujos adjuntos en los que los mismos números de referencia identifican elementos similares o idénticos.

\global\parskip1.000000\baselineskip

La figura 1 muestra un diagrama de bloques de alto nivel de un sintetizador de señales binaural convencional;

la figura 2 es un diagrama de bloques de un sistema de procesamiento de audio de codificación de indicación binaural (BCC) genérico;

la figura 3 muestra un diagrama de bloques de un mezclador descendente que puede usarse para el mezclador descendente de la figura 2;

la figura 4 muestra un diagrama de bloques de un sintetizador BCC que puede usarse para el descodificador de la figura 2;

la figura 5 muestra un diagrama de bloques del estimador BCC de la figura 2 según una realización de la presente invención;

la figura 6 ilustra la generación de datos de ICTD e ICLD para audio de cinco canales;

la figura 7 ilustra la generación de datos ICC para audio de cinco canales;

la figura 8 muestra un diagrama de bloques de una implementación del sintetizador BCC de la figura 4 que puede usarse en un descodificador BCC para generar una señal de audio estereofónica o multicanal dada una señal s(n) de suma transmitida individual más las indicaciones espaciales;

la figura 9 ilustra cómo ICTD e ICLD se modifican dentro de una subbanda en función de la frecuencia;

la figura 10 muestra un diagrama de bloques que representa al menos una parte de un descodificador BCC, según una realización de la presente invención;

la figura 11 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 10 en el contexto del sintetizador BCC de la figura 4;

la figura 12 ilustra una aplicación a modo de ejemplo alternativa del esquema de conformación de envolvente de la figura 10 en el contexto del sintetizador BCC de la figura 4, en el que la conformación de envolvente se aplica en el dominio de tiempo;

las figuras 13(a) y (b) muestran posibles implementaciones del TPA de la figura 12, en el que la conformación de envolvente se aplica solamente a frecuencias superiores a la frecuencia f_{TP} de corte;

la figura 14 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 10 en el contexto del esquema de síntesis ICC basado en reverberación tardía descrito en US 2005/0180579 A1, presentada el 01/04/04;

la figura 15 muestra un diagrama de bloques que representa al menos una parte de un descodificador BCC, según una realización de la presente invención que es una alternativa al esquema mostrado en la figura 10;

la figura 16 muestra un diagrama de bloques que representa al menos una parte de un descodificador BCC, según una realización de la presente invención que es una alternativa a los esquemas mostrados en las figuras 10 y 15;

la figura 17 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 15 en el contexto del sintetizador BCC de la figura 4; y

las figuras 18(a)-(c) muestran diagramas de bloques de las implementaciones posibles del TPA, ITP y TP de la figura 17.

Descripción detallada

En la codificación de indicación binaural (BCC), un codificador codifica C canales de audio de entrada para generar E canales de audio transmitidos, siendo C>E\geq1. En particular, dos o más de los C canales de entrada se proporcionan en un dominio de frecuencia y se generan uno o más códigos de indicación para cada una de una o más bandas de frecuencia diferentes en los dos o más canales de entrada en el dominio de frecuencia. Además, los C canales de entrada se mezclan descendentemente para generar los E canales transmitidos. En algunas implementaciones de mezclado descendente, al menos uno de los E canales transmitidos está basado en dos o más de los C canales de entrada y al menos uno de los E canales transmitidos está basado en solamente uno solo de los C canales de entrada.

En una realización, un codificador BCC tiene dos o más bancos de filtros, un estimador de código y un mezclador descendente. Los dos o más bancos de filtros convierten dos o más de los C canales de entrada de un dominio de tiempo a un dominio de frecuencia. El estimador de código genera uno o más códigos de indicación para cada una de una o más bandas de frecuencia diferentes en los dos o más canales de entrada convertidos. El mezclador descendente mezcla descendentemente los C canales de entrada para generar los E canales transmitidos, siendo C>E\geq1.

En la descodificación BCC, se descodifican E canales de audio transmitidos para generar C canales de audio de reproducción. En particular, para cada una de una o más bandas de frecuencia diferentes, uno o más de los E canales transmitidos se mezclan ascendentemente (upmix) en un dominio de frecuencia para generar dos o más de los C canales de reproducción en el dominio de frecuencia, siendo C>E\geq1. Uno o más códigos de indicación se aplican a cada una de las una o más bandas de frecuencia diferentes en los dos o más canales de reproducción en el dominio de frecuencia para generar dos o más canales modificados, y los dos o más canales modificados se convierten del dominio de frecuencia a un dominio de tiempo. En algunas implementaciones de mezcla ascendente, al menos uno de los C canales de reproducción está basado en al menos uno de los E canales transmitidos y al menos un código de indicación, y al menos uno de los C canales de reproducción está basado en solamente uno solo de los E canales transmitidos e independiente de cualquier código de indicación.

En una realización, un descodificador BCC tiene un mezclador ascendente, un sintetizador y uno o más bancos de filtros inversos. Para cada una de una o más bandas de frecuencia diferentes, el mezclador ascendente mezcla ascendentemente uno o más de los E canales transmitidos en un dominio de frecuencia para generar dos o más de los C canales de reproducción en el dominio de frecuencia, siendo C>E\geq1. El sintetizador aplica uno o más códigos de indicación a cada una de las una o más bandas de frecuencia diferentes en los dos o más canales de reproducción en el dominio de frecuencia para generar dos o más canales modificados. El uno o más bancos de filtros inversos convierten los dos o más canales modificados del dominio de frecuencia a un dominio de tiempo.

Dependiendo de la implementación particular, un canal de reproducción dado puede basarse en un único canal transmitido, en lugar de una combinación de dos o más canales transmitidos. Por ejemplo, cuando hay solamente un canal transmitido, cada uno de los C canales de reproducción está basado en ese canal transmitido. En estas situaciones, la mezcla ascendente corresponde a copiar el canal transmitido correspondiente. Como tal, para aplicaciones en las que hay solamente un canal transmitido, el mezclador ascendente puede implementarse utilizando un replicador que copia el canal transmitido para cada canal de reproducción.

Pueden incorporarse codificadores y/o descodificadores BCC a diversos sistemas o aplicaciones entre los que se incluyen, por ejemplo, grabadores/reproductores de vídeo digital, grabadores/reproductores de audio digital, ordenadores, transmisores/receptores de satélite, transmisores/receptores de cable, transmisores/receptores de emisión terrestre, sistemas de entretenimiento en casa y sistemas de cine.

Procesamiento BCC genérico

La figura 2 es un diagrama de bloques de un sistema 200 de procesamiento de audio de codificación de indicación binaural (BCC) genérico que comprende un codificador 202 y un descodificador 204. El codificador 202 incluye el mezclador 206 descendente y el estimador 208 BCC.

El mezclador 206 descendente convierte C canales de audio de entrada x_{i}(n) en E canales de audio transmitidos y_{i}(n), siendo C>E\geq1. En esta memoria descriptiva, las señales expresadas utilizando la variable n son señales en el dominio de tiempo, mientras que las señales expresadas utilizando la variable k son señales en el dominio de frecuencia. Dependiendo de la implementación particular, se puede implementar el mezclado descendente o bien en el dominio de tiempo o bien en el dominio de frecuencia. El estimador 208 BCC genera códigos BCC a partir de los C canales de audio de entrada y transmite estos códigos BCC como información lateral o bien en banda o bien fuera de banda con respecto a los E canales de audio transmitidos. Códigos BCC típicos incluyen uno o más de datos de diferencia de tiempo intercanal (ICTD), de diferencia de nivel intercanal (ICLD) y de correlación intercanal (ICC) estimados entre ciertos pares de canales de entrada en función de la frecuencia y el tiempo. La implementación particular determinará entre qué pares particulares de canales de entrada se estiman los códigos
BCC.

Los datos ICC corresponden a la coherencia de una señal binaural, que está relacionada con el ancho percibido de la fuente de audio. Cuanto más ancha es la fuente de audio, más baja es la coherencia entre los canales izquierdo y derecho de la señal binaural resultante. Por ejemplo, la coherencia de la señal binaural correspondiente a una orquesta dispersada por el escenario de un auditorio es normalmente más baja que la coherencia de la señal binaural correspondiente a un único violín que toca un solo. En general, una señal de audio con coherencia más baja se percibe habitualmente como más esparcida por el espacio auditivo. Como tal, los datos ICC se refieren normalmente al ancho de fuente aparente y en qué grado queda envuelto el oyente. Véase, por ejemplo, J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983.

Dependiendo de la aplicación particular, los E canales de audio transmitidos y los correspondientes códigos BCC pueden transmitirse directamente al descodificador 204 o almacenarse en algún tipo apropiado de dispositivo de almacenamiento para su posterior acceso por el descodificador 204. Dependiendo de la situación, el término "transmisión" se puede referir o bien a la transmisión directa a un descodificador o al almacenamiento para su posterior facilitación a un descodificador. Ya sea en un caso u otro, el descodificador 204 recibe los canales de audio transmitidos y la información lateral y efectúa una mezcla ascendente y una síntesis BCC utilizando los códigos BCC para convertir los E canales de audio transmitidos en más de E (normalmente, aunque no necesariamente C) canales de audio de reproducción \hat{x}_{i}(n) para la reproducción de audio. Dependiendo de la implementación particular, la mezcla ascendente puede efectuarse o bien en el dominio de tiempo o bien en el dominio de frecuencia.

Además del procesamiento BCC mostrado en la figura 2, un sistema de procesamiento de audio BCC genérico puede incluir fases de codificación y descodificación adicionales, para comprimir adicionalmente las señales de audio en el codificador y luego descomprimir las señales de audio en el descodificador, respectivamente. Estos códecs de audio pueden basarse en técnicas de compresión/descompresión de audio convencionales, tales como las basadas en modulación por código de impulso (PCM), PCM diferencial (DPCM) o DPCM adaptativa (ADPCM).

Cuando el mezclador 206 descendente genera una única señal de suma (es decir, E = 1), la codificación BCC puede representar señales de audio multicanal a una tasa de transmisión de bits sólo ligeramente superior a la que se requiere para representar una señal de audio mono. Esto es así debido a que los datos ICTD, ICLD e ICC estimados entre un par de canales contienen aproximadamente dos órdenes de magnitud menos de información que una forma de onda de audio.

No sólo es interesante la baja tasa de transmisión de bits de la codificad BCC, sino también su aspecto de compatibilidad hacia atrás. Una única señal de suma transmitida corresponde a una mezcla descendente mono de la señal estéreo o multicanal original. Para receptores que no soportan reproducción de sonido estéreo o multicanal, escuchar la señal de suma transmitida es un método válido para presentar el material de audio en equipos de reproducción mono de bajo perfil. Por consiguiente, la codificación BCC puede usarse también para mejorar los servicios existentes que implican la entrega de material de audio mono hacia audio multicanal. Por ejemplo, los sistemas de emisión de radio de audio mono pueden mejorarse para la reproducción estéreo o multicanal si la información lateral BCC puede incrustarse en el canal de transmisión existente. Existen capacidades análogas cuando se mezcla descendentemente audio multicanal en dos señales de suma que corresponden a audio estéreo.

BCC procesa señales de audio con una cierta resolución de tiempo y frecuencia. La resolución de frecuencia usada está motivada en gran medida por la resolución de frecuencia del sistema auditivo humano. La psicoacústica sugiere que la percepción espacial se basa con la mayor probabilidad en una representación de banda crítica de la señal de banda acústica. Esta resolución de frecuencia se considera utilizando un banco de filtros invertible (por ejemplo, basado en una transformada de Fourier rápida (FFT) o un filtro de espejo en cuadratura (QMF)) con subbandas con anchos de banda iguales o proporcionales al ancho de banda crítico del sistema auditivo humano.

Mezcla descendente genérica

En implementaciones preferidas, la(s) señal(es) de suma transmitida(s) contiene(n) todas las componentes de señal de la señal de audio de entrada. El objetivo es que cada componente de señal se mantenga plenamente. La simple suma de los canales de audio de entrada da como resultado frecuentemente amplificación o atenuación de las componentes de señal. En otras palabras, la potencia de las componentes de señal en una "simple" suma es frecuentemente más grande o más pequeña que la suma de la potencia de la componente de señal correspondiente de cada canal. Se puede usar una técnica de mezcla descendente que ecualiza la señal de suma, de tal manera que la potencia de las componentes de señal en la señal de suma es aproximadamente la misma que la potencia correspondiente en todos los canales de entrada.

La figura 3 muestra un diagrama de bloques de un mezclador 300 descendente que puede usarse para el mezclador 206 descendente de la figura 2 según ciertas implementaciones del sistema 200 BCC. El mezclador 300 descendente tiene un banco 302 de filtros (FB) para cada canal de entrada x_{i}(n), un bloque 304 de mezcla descendente, un bloque 306 de ajuste a escala/retardo opcional y un FB 308 inverso (IFB) para cada canal codificado y_{i}(n).

Cada banco 302 de filtros convierte cada trama (por ejemplo 20 ms) de un canal de entrada digital x_{i}(n) correspondiente en el dominio de tiempo en un conjunto de coeficientes de entrada \tilde{x}_{i}(k) en el dominio de frecuencia. El bloque 304 de mezcla descendente mezcla descendentemente cada subbanda de C coeficientes de entrada correspondientes en una subbanda correspondiente de E coeficientes en el dominio de frecuencia mezclados descendentemente. La ecuación (1) representa la mezcla descendente de la k-ésima subbanda de coeficientes de entrada (\tilde{x}_{1}(k),\tilde{x}_{2}(k),...,\tilde{x}_{C}(k)) para generar la k-ésima subbanda de coeficiente mezclados descendentemente (\hat{y}_{1}(k),\hat{y}_{2}(k),...,\hat{y}_{E}(k)) como sigue:

1

donde D_{CE} es un matriz de mezcla descendente de C por E de valor real.

El bloque 306 de ajuste a escala/retardo opcional comprende un conjunto de multiplicadores 310, cada uno de los cuales multiplica un coeficiente mezclado descendentemente \hat{y}_{i}(k) correspondiente por un factor de ajuste a escala e_{i}(k) para generar un coeficiente ajustado a escala \tilde{y}_{i}(k) correspondiente. La motivación para la operación de ajuste a escala es equivalente a la ecualización generalizada para la mezcla descendente con factores de ponderación arbitrarios para cada canal. Si los canales de entrada son independientes, entonces la potencia p_{\tilde{y}_{i}(k)} de la señal mezclada descendentemente en cada subbanda viene dada por la ecuación (2) como sigue:

2

donde \bar{D}_{CE} se obtiene elevando al cuadrado cada elemento de matriz en la matriz D_{CE} de mezcla descendente de C por E y p_{\tilde{x}_{i}(k)} es la potencia de la subbanda k del canal de entrada i.

Si las subbandas no son independientes, entonces los valores de potencia p_{\tilde{y}_{i}(k)} de la señal mezclada descendentemente serán más grandes o más pequeños que el calculado utilizando la ecuación (2), debido a aplicaciones o cancelaciones de señal cuando las componentes de señal están en fase o fuera de fase, respectivamente. Para impedir esto, la operación de mezcla descendente de la ecuación (1) se aplica en subbandas seguida por la operación de ajuste a escala de los multiplicadores 310. Los factores de ajuste a escala e_{i}(k) (1\leqi\leqE) pueden obtenerse utilizando la ecuación (3) como sigue:

3

donde p_{\tilde{y}_{i}(k)} es la potencia de subbanda calculada por la ecuación (2) y p_{\hat{y}_{i}(k)} es la potencia de la señal de subbanda mezclada descendentemente \hat{y}_{i}(k) correspondiente.

Además de o en lugar de proporcionar el ajuste a escala opcional, el bloque 306 de ajuste a escala/retardo puede aplicar opcionalmente retardos a las señales.

Cada banco 308 de filtros inversos convierte un conjunto de coeficientes ajustados a escala \tilde{y}_{i}(k) correspondientes en el dominio de frecuencia en una trama de un canal transmitido digital y_{i}(n) correspondiente.

Aunque la figura 3 muestra todos los C canales de entrada convertidos al dominio de frecuencia para la posterior mezcla descendente, en implementaciones alternativas, uno o más (pero menos que C-1) de los C canales de entrada podrían saltarse parte de o todo el procesamiento mostrado en la figura 3 y transmitirse como un número equivalente de canales de audio sin modificar. Dependiendo de la implementación particular, estos canales de audio sin modificar podrían o no usarse por el estimador 208 BCC de la figura 2 en la generación de los códigos BCC transmitidos.

En una implementación del mezclador 300 descendente que genera una única señal de suma y(n), E=1 y las señales \tilde{x}_{c}(k) de cada subbanda de cada canal de entrada C se suman y luego se multiplican por un factor e(k), según la ecuación (4) como sigue:

4

el factor e(k) viene dado por la ecuación (5) como sigue:

5

donde p_{\tilde{x}_{c}}(k) es un valor estimativo temporal de la potencia de \tilde{x}_{c}(k) en el índice de tiempo k, y p_{\tilde{x}}(k) es un valor estimativo temporal de la potencia de \sum^{C}_{c=1} \tilde{x}_{c}(k). Las subbandas ecualizadas se transforman de regreso al dominio de tiempo dando como resultado la señal de suma y(n) que se transmite al descodificador BCC.

Síntesis BCC genérica

La figura 4 muestra un día de bloques de un sintetizador 400 BCC que puede usarse por el descodificador 204 de la figura 2 según ciertas implementaciones del sistema 200 BCC. El sintetizador 400 BCC tiene un banco 402 de filtros para cada canal transmitido y_{i}(n), un bloque 404 de mezcla ascendente, retardos 406, multiplicadores 408, bloque 410 de correlación y un banco 412 de filtros inversos para cada canal de reproducción \hat{x}_{i}(n).

Cada banco 402 de filtros convierte cada trama de un canal transmitido digital y_{i}(n) correspondiente en el dominio de tiempo en un conjunto de coeficientes de entrada \tilde{y}_{i}(k) en el dominio de frecuencia. El bloque 404 de mezcla ascendente mezcla ascendentemente cada subbanda de E coeficientes de canal transmitido correspondientes en una subbanda correspondiente de C coeficientes en el dominio de frecuencia mezclados ascendentemente. La ecuación (4) representa la mezcla ascendente de la k-ésima subbanda de coeficientes de canal transmitidos (\tilde{y}_{1}(k),\tilde{y}_{2}(k),...,\tilde{y}_{E}(k)) para generar la k-ésima subbanda de coeficientes mezclados ascendentemente (\tilde{s}_{1}(k),\tilde{s}_{2}(k),...,\tilde{s}_{C}(k)) como sigue:

6

donde U_{EC} es una matriz de mezcla ascendente de E por C de valor real. Efectuar la mezcla ascendente en el dominio de frecuencia permite que aplicar la mezcla ascendente individualmente en cada subbanda diferente.

Cada retardo 406 aplica un valor de retardo d_{i}(k) basándose en un código BCC correspondiente para datos ICTD para garantizar que los valores ICTD deseados aparecen entre ciertos pares de canales de reproducción. Cada multiplicador 408 aplica un factor de ajuste a escala a_{i}(k) basándose en un código BCC correspondiente para datos ICLD para garantizar que los valores ICLD deseados aparecen entre ciertos pares de canales de reproducción. El bloque 410 de correlación efectúa una operación de descorrelación A basándose en códigos BCC correspondientes para datos ICC para garantizar que los valores ICC deseados aparecen entre ciertos pares de canales de reproducción. Una descripción adicional de las operaciones del bloque 410 de correlación puede encontrarse en la solicitud de patente estadounidense Nº 10/155.437, presentada el 24/05/02 como Baumgarte 2-10.

La síntesis de valores ICLD puede ser menos problemática que la síntesis de valores ICTD e ICC, puesto que la síntesis ICLD implica meramente el ajuste a escala de señales de subbanda. Puesto que las indicaciones ICL son las indicaciones direccionales usadas más habitualmente, usualmente es más importante que los valores ICLD se aproximen a los de la señal de audio original. Como tal, los datos ICLD podrían estimarse entre todos los pares de canales. Los factores de ajuste a escala a_{i}(k) (1\leqi\leqC) para cada subbanda se escogen preferiblemente de tal manera que la potencia de subbanda de cada canal de reproducción se aproxime a la potencia correspondiente del canal de audio de entrada original.

Un objetivo puede ser aplicar relativamente pocas modificaciones de señal para sintetizar valores ICTD e ICC. Como tal, los datos BCC podrían no incluir valores ICTD e ICC para todos los pares de canales. En ese caso, el sintetizador 400 BCC sintetizaría valores ICTD e ICC solamente entre ciertos pares de canales.

Cada banco 412 de filtros inversos convierte un conjunto de coeficientes sintetizados \tilde{\hat{x}}_{i}(k) correspondientes en el dominio de frecuencia en una trama de un canal de reproducción digital \hat{x}_{i}(n) correspondiente.

Aunque la figura 4 muestra todos los E canales transmitidos convertidos al dominio de frecuencia para la posterior mezcla ascendente y procesamiento BCC, en implementaciones alternativas, uno o más (pero no todos) los E canales transmitidos podrían saltarse parte de o todo el procesamiento mostrado en la figura 4. Por ejemplo, uno o más de los canales transmitidos pueden ser canales sin modificar que no se someten a mezcla ascendente. Además de ser uno o más de los C canales de reproducción, estos canales sin modificar podrían, a su vez, aunque no tienen que, usarse como canales de referencia a los que se aplica procesamiento BCC para sintetizar uno o más de los otros canales de reproducción. Ya sea en un caso u otro, tales canales sin modificar pueden someterse a retardos para compensar el tiempo de procesamiento que conlleva la mezcla ascendente y/o procesamiento BCC usado para generar el resto de los canales de reproducción.

Obsérvese que, aunque la figura 4 muestra C canales de reproducción sintetizados a partir de E canales transmitidos, en el que C era también el número de canales de entrada originales, la síntesis BCC no está limitada a ese número de canales de reproducción. En general, el número de canales de reproducción puede ser cualquier número de canales, incluyendo números mayores o menores que C y posiblemente incluso situaciones en las que el número de canales de reproducción es igual o menor que el número de canales transmitidos.

"Diferencias perceptivamente relevantes" entre canales de audio

Suponiendo una única señal de suma, BCC sintetiza una señal de audio estéreo o multicanal de tal manera que ICTD, ICLD, e ICC se aproximan a las indicaciones correspondientes de la señal de audio original. A continuación se comenta el papel de ICTD, ICLD, e ICC con respecto a los atributos de imagen espacial auditivos.

El conocimiento acerca de la audición espacial implica que para un evento auditivo, ICTD e ICC están relacionados con la dirección percibida. Cuando se consideran respuestas impulsivas binaurales en salas (BRIR) de una fuente, hay una relación entre el ancho del evento auditivo y cómo queda envuelto el oyente y los datos ICC estimados para partes tempranas y tardías de las BRIR. Sin embargo, la relación entre ICC y estas propiedades para señales generales (y no solo las BRIR) no es directa.

Las señales de audio estéreo y multicanal contienen usualmente una mezcla compleja de señales de fuente simultáneamente activas superpuestas por las componentes de señal reflejada resultantes de la grabación en espacios cerrados o agregadas por el técnico de grabación para crear artificialmente una impresión espacial. Señales de diferentes fuentes y sus reflejos ocupan diferentes regiones en el plano de tiempo-frecuencia. Esto se refleja por ICTd, ICLD e ICC, que varían en función del tiempo y la frecuencia. En este caso, la relación entre ICTD, ICLD e ICC instantáneos y direcciones de eventos auditivos e impresión espacial no es obvia. La estrategia de ciertas realizaciones BCC es sintetizar ciegamente estas indicaciones, de tal manera que se aproximen a las indicaciones correspondientes de la señal de audio original.

Se utilizan bancos de filtros con subbandas de anchos de banda iguales a dos veces el ancho de banda rectangular equivalente (ERB). La escucha informal revela que la calidad de audio BCC no mejora notablemente cuando se escoge una resolución de frecuencia más alta. Una resolución de frecuencia más baja puede ser deseable, puesto que da como resultado menos valores ICTD, ICLD e ICC que necesitan transmitirse al descodificador y así una tasa de transmisión de bits más baja.

Con respecto a la resolución de tiempo, ICTD, ICLD e ICC se consideran normalmente a intervalos de tiempo regulares. Se obtiene un rendimiento alto cuando ICTD, ICLD e ICC se consideran aproximadamente cada 4 a 16 ms. Obsérvese que, a menos que las indicaciones se consideren a intervalos de tiempo muy cortos, el efecto de precedencia no se considera directamente. Suponiendo un par clásico adelanto-retraso de estímulos de sonido, si el adelanto y el retraso caen en un intervalo de tiempo en el que solamente está sintetizado un conjunto de indicaciones, entonces la dominancia de localización del adelanto no se considera. A pesar de esto, BCC obtiene calidad de audio reflejada en una puntuación MUSHRA promedio de aproximadamente 87 es decir, calidad de audio "excelente") en promedio y hasta casi 100 para ciertas señales de audio.

La diferencia perceptivamente pequeña frecuentemente obtenida entre la señal de referencia y la señal sintetizada implica que las indicaciones relacionadas con un amplio intervalo de atributos de imagen espacial auditivos se consideran implícitamente al sintetizar ICTD, ICLD e ICC a intervalos de tiempo regulares. A continuación se dan algunos argumentos de cómo ICTD, ICLD e ICC pueden relacionarse con un intervalo de atributos de imagen espacial auditivos.

Estimación de indicaciones espaciales

A continuación se describe cómo se estiman ICTD, ICLD e ICC. La tasa de transmisión de bits para la transmisión de estas indicaciones espaciales (cuantificadas y codificadas) puede ser de sólo unos pocos kb/s y, por tanto, con BCC, es posible transmitir señales de audio estéreo y multicanal a tasas de transmisión de bits próximas a la que se requiere para un único canal de audio.

La figura 5 muestra un diagrama de bloques del estimador 208 BCC de la figura 2, según una realización de la presente invención. El estimador 208 BCC comprende bancos 502 de filtros (FB), que pueden ser los mismos que los bancos 302 de filtros de la figura 3 y el bloque 504 de estimación, que genera indicaciones espaciales ICTD, ICLD e ICC para cada subbanda de frecuencia diferente generada por los bancos 502 de filtros.

Estimación de ICTD, ICLD e ICC para señales estéreo

Se usan las siguientes medidas para ICTD, ICLD e ICC para señales de subbanda \tilde{x}_{1}(k) y \tilde{x}_{2}(k) correspondientes de dos canales de audio (por ejemplo estéreo):

o ICTD [muestras]:

\vskip1.000000\baselineskip

7

\newpage

con un valor estimativo temporal de la función de correlación cruzada normalizada dada por la ecuación (8) como sigue:

8

donde

9

y p_{\tilde{x}_{1}\tilde{x}_{2}} (d,k) es un valor estimativo temporal de la media de \tilde{x}_{1}(k – d_{1})\tilde{x}_{2}(k -d_{2}).

o ICLD [dB]:

10

o ICC:

11

Obsérvese que se considera el valor absoluto de la correlación cruzada normalizada y c_{12}(k) tiene un intervalo de [0,1].

Estimación de ICTD, ICLD e ICC para señales de audio multicanal

Cuando hay más de dos canales de entrada, es normalmente suficiente definir ICTD e ICLD entre un canal de referencia (por ejemplo, canal número 1) y los otros canales, tal como se ilustra en la figura 6 para el caso de C = 5 canales, en el que \tau_{1c}(k) y \DeltaL_{12}(k) denotan ICTD e ICLD, respectivamente, entre el canal de referencia 1 y el canal c.

En contraposición con ICTD e ICLD, ICC tiene normalmente más grados de libertad. La ICC tal como se define puede tener diferentes valores entre todos los pares de canales de entrada posibles. Para C canales, hay C(C-1)/2 pares de canales posibles; por ejemplo para 5 canales hay 10 pares de canales como se ilustra en la figura 7(a). Sin embargo, tal esquema requiere que, para cada subbanda en cada índice de tiempo, se estimen y transmitan los valores ICC de C(C-1)/2, dando como resultado una gran complejidad computacional y alta tasa de transmisión de bits.

Alternativamente, para cada subbanda, ICTD e ICLD determinan la dirección en la que se proporciona el evento auditivo de la componente de señal correspondiente en la subbanda. Un único parámetro ICC por subbanda puede por tanto usarse para describir la coherencia global entre todos los canales de audio. Pueden obtenerse buenos resultados estimando y transmitiendo indicaciones ICC solamente entre los dos canales con la mayor energía en cada subbanda en cada índice de tiempo. Esto está ilustrado en la figura 7(b), en la que para los instantes de tiempo k-1 y k, los pares de canales (3,4) y (1,2) son los más fuertes, respectivamente. Una regla heurística puede usarse para determinar ICC entre los otros pares de canales.

Síntesis de indicaciones espaciales

La figura 8 muestra un diagrama de bloques de una implementación del sintetizador 400 BCC de la figura 4 que puede usarse en un descodificador BCC para generar una señal de audio estéreo o multicanal dada una señal de suma s(n) transmitida individual más las indicaciones espaciales. La señal de suma s(n) se descompone en subbandas, donde \tilde{s}(k) denota una de tales subbandas. Para generar las subbandas correspondientes de cada uno de los canales de salida, se aplican retardos d_{c}, factores de ajuste a escala a_{c}, y filtros h_{c} a la subbanda correspondiente de la señal de suma. (Por simplicidad de notación, el índice de tiempo k se ignora en los retardos, factores de ajuste a escala y filtros). Las ICTD se sintetizan imponiendo retardos, ICLD mediante ajuste a escala e ICC aplicando filtros de descorrelación. El procesamiento mostrado en la figura 8 se aplica independientemente a cada subbanda.

Síntesis de ICTD

Los retardos d_{c} se determinan a partir de las ICTD \tau_{1c}(k) según la ecuación (12) como sigue:

12

El retardo para el canal de referencia d_{1} se calcula de tal manera que la magnitud máxima de los retardos d_{c} se minimiza. Cuanto menos se modifiquen las señales de subbanda, menos peligro hay de que se presenten artefactos. Si la tasa de toma de muestras de subbanda no proporciona resolución de tiempo suficientemente alta para la síntesis de ICTD, pueden imponerse retardos con mayor precisión utilizando filtros de todo paso apropiados.

Síntesis de ICLD

Con el fin de que las señales de subbanda de salida tengan ICLD deseados \DeltaL_{12}(k) entre el canal c y el canal de referencia 1, los factores de ganancia a_{c} deben satisfacer la ecuación (13) como sigue:

13

Adicionalmente, las subbandas de salida preferiblemente se normalizan, de tal manera que la suma de la potencia de todos los canales de salida es igual a la potencia de la señal de suma de entrada. Puesto que la potencia de señal original total en cada subbanda se conserva en la señal de suma, esta normalización da como resultado que la potencia de subbanda absoluta para cada canal de salida se aproxima a la potencia correspondiente de la señal de audio de entrada del codificador original. Dadas estas restricciones, los factores de ajuste a escala a_{c} vienen dados por la ecuación (14) como sigue:

\vskip1.000000\baselineskip

14

\vskip1.000000\baselineskip

Síntesis ICC

En ciertas realizaciones, el objetivo de la síntesis ICC es reducir la correlación entre las subbandas después que se hayan aplicado retardos y ajustes a escala, sin afectar a ICTD e ICLD. Esto puede lograrse diseñando los filtros h_{c} en la figura 8 de tal manera que ICTD e ICLD se modifican eficazmente en función de la frecuencia de tal manera que la variación promedio es cero en cada subbanda (banda crítica auditiva).

La figura 9 ilustra cómo se modifican ICTD e ICLD dentro de una subbanda en función de la frecuencia. La amplitud de la modificación de ICTD e ICLD determina el grado de descorrelación y se controla en función de ICC. Obsérvese que ICTD se modifican suavemente (tal como en la figura 9(a)), mientras que ICLD se modifican aleatoriamente (tal como en la figura 9(b)). Se podrían modificar ICLD tan suavemente como ICTD, pero esto daría como resultado más coloración de las señales de audio resultantes.

Otro método para sintetizar ICC, particularmente apropiado para síntesis ICC multicanal, se describe en más detalle en C. Faller, "Parametric multi-channel audio coding: Synthesis of coherence cues," IEEE Trans. on Speech and Audio Proc., 2003. En función del tiempo y la frecuencia, se añaden cantidades específicas de reverberación tardía artificial a cada uno de los canales de salida para obtener una ICC deseada. Adicionalmente, se puede aplicar modificación espectral de tal manera que la envolvente espectral de la señal resultante se aproxima a la envolvente espectral de la señalada de audio original.

Otras técnicas de síntesis ICC relacionadas y no relacionadas para señales estéreo (o pares de canales de audio) se han presentado en E. Schuijers, W. Oomen, B. den Brinker, y J. Breebaart, "Advances in parametric coding for high-quality audio," en Preprint 114^{th} Conv. Aud. Eng. Soc., marzo de 2003 y J. Engdegard, H. Purnhagen, J. Roden, y L. Liljeryd, "Synthetic ambience in parametric stereo coding," en Preprint 117^{th} Conv. Aud. Eng. Soc., mayo de 2004.

BCC de C a E

Como se ha descrito anteriormente, puede implementarse BCC con más de un canal de transmisión. Se ha descrito una variación de BCC que representa C canales de audio no como un único canal (transmitido), sino como E canales, denotado BCC de C a E. Hay (al menos) dos motivaciones para BCC de C a E:

\circ: BCC con un canal de transmisión proporciona una trayectoria compatible hacia atrás para actualizar sistemas mono existentes para reproducción de audio estéreo o multicanal. Los sistemas actualizados transmiten la señal de suma mezclada descendentemente BCC a través de la infraestructura mono existente, mientras que adicionalmente transmite la información lateral BCC. BCC de C a E es aplicable a codificación compatible hacia atrás de canal E de audio de canal C.

\circ: BCC de C a E introduce escalabilidad en cuanto a diferentes grados de reducción del número de canales trasmitidos. Se espera que cuantos más canales de audio se transmitan, mejor será la calidad de audio.

Detalles de procesamiento de señales para BCC de C a E, tal como cómo definir las indicaciones de ICTD, ICLD e ICC, se describen en US 2005/0157883, presentada el 20/01/04.

Formación de sonido difuso

En ciertas implementaciones, la codificación BCC implica algoritmos para la síntesis de ICTD, ICLD e ICC. Las indicaciones ICC pueden sintetizarse por medio de descorrelación de las componentes de señal en las subbandas correspondientes. Esto puede hacerse mediante modificación dependiente de la frecuencia de ICLD, modificación dependiente de la frecuencia de ICTD e ICLD, filtrado de todo paso o con ideas relacionadas con algoritmos de reverberación.

Cuando estas técnicas se aplican a señales de audio, las características de envolvente temporal de las señales no se conservan. Específicamente, cuando se aplican a transitorios, es probable que la energía de señal instantánea se disperse durante un cierto período de tiempo. Esto da como resultado artefactos tales como "pre-ecos" o "transitorios difuminados".

Un principio genérico de ciertas realizaciones de la presente invención se refiere a la observación de que el sonido sintetizado por un descodificador BCC no sólo debe tener características espectrales que son similares a las del sonido original, sino también asemejarse bastante a la envolvente temporal del sonido original con el fin de tener características perceptivas similares. En general, esto se logra en esquemas semejantes a BCC incluyendo una síntesis ICLD dinámica que aplica una operación de ajuste a escala variable en el tiempo para aproximarse a cada envolvente temporal del canal de señal. Para el caso de señales transitorias (ataques, instrumentos de percusión, etc.), la resolución temporal de este proceso puede sin embargo no ser suficiente para producir señales sintetizadas que se aproximen lo suficiente a la envolvente temporal original. Esta sección describe un número de enfoques para hacer esto con una resolución de tiempo suficientemente fina.

Además, para codificadores BCC que no tienen acceso a la envolvente temporal de la señales originales, la idea es tomar en su lugar la envolvente temporal de la(s) "señal(es) de suma" transmitida como una aproximación. Como tal, no hay información lateral que sea necesario transmitir del codificador BCC al descodificador BCC con el fin de transportar tal información de envolvente. En resumen, la invención se basa en el siguiente principio:

\circ: Los canales de audio transmitidos (es decir, "canal(es) de suma") - o combinaciones lineales de estos canales en las que puede basarse la síntesis BCC - se analizan por un extractor de envolvente temporal para obtener su envolvente temporal con una alta resolución de tiempo (por ejemplo, significativamente más fina que el tamaño de bloque BCC).

\circ: El posterior sonido sintetizado para cada canal de salida se conforma de tal manera que - incluso después de la síntesis ICC - coincide lo más posible con la envolvente temporal determinada por el extractor.

Esto garantiza que, incluso en el caso de señales transitorias, el sonido de salida sintetizado no está degradado significativamente por el proceso de síntesis ICC/descorrelación de señal.

La figura 10 muestra un diagrama de bloques que representa al menos una parte de un descodificador 1000 BCC, según una realización de la presente invención. En la figura 10, el bloque 1002 representa el procesamiento de síntesis BCC que incluye, al menos, síntesis ICC. El bloque 1002 de síntesis BCC recibe canales 1001 base y genera canales 1003 sintetizados. En ciertas implementaciones, el bloque 1002 representa el procesamiento de los bloques 406, 408 y 410 de la figura 4, en el que los canales 1001 base son las señales generadas por el bloque 404 de mezcla ascendente y los canales 1003 sintetizados son las señales generadas por el bloque 410 de correlación. La figura 10 representa el procesamiento implementado para un canal 1001' base y su canal sintetizado correspondiente. También se aplica un procesamiento similar a cada uno de los demás canales base y su canal sintetizado correspondiente.

El extractor 1004 de envolvente determina la envolvente a temporal fina del canal 1001' base y el extractor 1006 de envolvente determina la envolvente b temporal fina del canal 1003' sintetizado. El ajustador 1008 de envolvente inverso utiliza la envolvente b temporal del extractor 1006 de envolvente para normalizar la envolvente (es decir, "aplanar" la estructura fina temporal) del canal 1003' sintetizado para producir una señal 1005' aplanada que tiene una envolvente de tiempo plana (por ejemplo, uniforme). Dependiendo de la implementación particular, el aplanamiento puede aplicarse o bien antes o bien después de la mezcla ascendente. El ajustador 1010 de envolvente utiliza la envolvente a temporal del extractor 1004 de envolvente para reimponer la envolvente de señal original sobre la señal 1005' aplanada para generar la señal 1007' de salida que tiene una envolvente temporal sustancialmente igual a la envolvente temporal del canal 1001 base.

Dependiendo de la implementación, este procesamiento de envolvente temporal (también denominado en la presente memoria como "conformación de envolvente") puede aplicarse a todo el canal sintetizado (como se muestra) o solamente a la parte ortogonalizada (por ejemplo, parte de reverberación tardía, parte descorrelacionada) del canal sintetizado (como se describe más adelante). Además, dependiendo de la implementación, la conformación de envolvente puede aplicarse o bien a señales en el dominio de tiempo o bien de una forma dependiente de la frecuencia (por ejemplo, en el que la envolvente temporal se estima y se impone individualmente en diferencias frecuencias).

El ajustador 1008 de envolvente inverso y el ajustador 1010 de envolvente pueden implementarse de diferentes maneras. En un tipo de implementación, una envolvente de señal se manipula mediante la multiplicación de las muestras en el dominio de tiempo de la señal (o muestras espectrales/de subbanda) con una función de modulación de amplitud variable en el tiempo (por ejemplo, 1/b para el ajustador 1008 de envolvente inverso y a para el ajustador 1010 de envolvente). Alternativamente, una convolución/filtrado de la representación espectral de señal sobre la frecuencia puede usarse de manera análoga a la usada en la técnica anterior con el fin de conformar el ruido de cuantificación de un codificador de audio de baja tasa de transmisión de bits. De manera similar, la envolvente temporal de las señales puede extraerse o bien directamente mediante análisis de la estructura de tiempo de la señal o bien examinando la autocorrelación del espectro de señal sobre la frecuencia.

La figura 11 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 10 en el contexto del sintetizador 400 BCC de la figura 4. En esta realización, hay una única señal de suma s(n) transmitida, las C señales base se generan replicando esa señal de suma y la conformación de envolvente se aplica individualmente a subbandas diferentes. En realizaciones alternativas, el orden de retardos, ajuste a escala y otro procesamiento puede ser diferente. Además, en realizaciones alternativas, la conformación de envolvente no está restringida al procesamiento de cada subbanda independientemente. Esto es así especialmente para implementaciones basadas en convolución/filtrado, que aprovechan la covarianza sobre bandas de frecuencia para obtener información en cuanto a la estructura fina temporal de la señal.

En la figura 11(a), el analizador 1104 de proceso temporal (TPA) es análogo al extractor 1004 de envolvente de la figura 10 y cada procesador 1106 temporal (TP) es análogo a la combinación de extractor 1006 de envolvente, ajustador 1008 de envolvente inverso y ajustador 1010 de envolvente de la figura 10.

La figura 11(b) muestra un diagrama de bloques de una posible implementación basada en el dominio de tipo de TPA 1104 en la que las muestras de señal base se elevan al cuadrado (1110) y luego se filtran paso bajo (1112) para caracterizar la envolvente a temporal de la señal base.

La figura 11(c) muestra un diagrama de bloques de una posible implementación basada en el dominio de tiempo de TP 1106 en la que las muestras de señal sintetizadas se elevan al cuadrado (1114) y luego se filtran paso bajo (1116) para caracterizar la envolvente b temporal de la señal sintetizada. Se genera un factor de ajuste a escala (por ejemplo, sqrt(a/b)) (1118) y luego se aplica (1120) a la señal sintetizada para generar una señal de salida que tiene una envolvente temporal sustancialmente igual a la del canal base original.

En implementaciones alternativas de TPA 1104 y TP 1106, las envolventes temporales se caracterizan utilizando operaciones de magnitud en lugar de elevando al cuadrado las muestras de señal. En tales implementaciones, la proporción a/b puede usarse como el factor de ajuste a escala sin tener que aplicar la operación de raíz cuadrada.

Aunque la operación de ajuste a escala de la figura 11(c) corresponde a una implementación basada en el dominio de tiempo del procesamiento de TP, el procesamiento de TP (así como el procesamiento de TPA y TP inverso (ITP)) puede implementarse también utilizando señales en el dominio de frecuencia, como en la realización de las figuras 17-18 (descrita posteriormente). Como tal, a los efectos de esta memoria descriptiva, el término "función de ajuste a escala" debe interpretarse como que abarca ya sea operaciones en el dominio de tiempo o en el dominio de frecuencia, tal como las operaciones de filtrado de las figuras 18(b) y (c).

En general, TPA 1104 y TP 1106 están diseñados preferiblemente de tal manera que no modifican la potencia de la señal (es decir, la energía). Dependiendo de la implementación particular, esta potencia de señal puede ser una potencia de señal promedio de poca duración en cada canal, por ejemplo, basada en la potencia de señal total por canal en el período de tiempo definido por la ventana de síntesis o alguna otra medida apropiada de potencia. Como tal, el ajuste a escala para síntesis de ICLD (por ejemplo, utilizando multiplicadores 408) puede aplicarse antes o después de la conformación de envolvente.

Obsérvese que en la figura 11(a), para cada canal, hay dos salidas, aplicándose el procesamiento de TP a solamente una de ellas. Esto refleja un esquema de síntesis ICC que mezcla dos componentes de señal: señales sin modificar y señales ortogonalizadas, en el que la proporción de componentes de señal sin modificar y ortogonalizadas determina la ICC. En la realización mostrada en la figura 11(a), se aplica TP a solamente la componente de señal ortogonalizada, en el que los nodos 1108 de suma recombinan las componentes de señal sin modificar con las correspondientes componentes de señal ortogonalizadas, conformadas temporalmente.

La figura 12 ilustra una aplicación a modo de ejemplo alternativa del esquema de conformación de envolvente de la figura 10 en el contexto del sintetizador 400 BCC de la figura 4, en el que se aplica conformación de envolvente en el dominio de tiempo. Tal realización puede garantizarse cuando la resolución de tiempo de la representación espectral en la que se lleva a cabo la síntesis ICTD, ICLD e ICC no es suficientemente alta para impedir eficazmente "pre-ecos" imponiendo la envolvente temporal deseada. Por ejemplo, éste puede ser el caso cuando se implementa BCC con una transformada de Fourier de tiempo corto (STFT).

Como se muestra en la figura 12(a), TPA 1204 y cada TP 1206 se implementan en el dominio de tiempo, en el que la señal de banda completa se ajusta a escala de tal manera que tiene la envolvente temporal deseada (por ejemplo, la envolvente tal como se estima a partir de la señal de suma transmitida). Las figuras 12(b) y (c) muestran implementaciones posibles de TPA 1204 y TP 1026 que son análogas a las mostradas en las figuras 11(b) y (c).

En esta realización, se aplica procesamiento de TP a la señal de salida, no solamente a las componentes de señal ortogonalizadas. En realizaciones alternativas, puede aplicarse procesamiento de TP basado en el dominio de tiempo solo a las componentes de señal ortogonalizadas, si así se desea, en cuyo caso las subbandas sin modificar y ortogonalizadas se convertirían al dominio de tiempo con bancos de filtro inversos separados.

Puesto que el ajuste a escala de banda completa de las señales de salida BCC puede dar como resultado artefactos, la conformación de envolvente podría aplicarse solamente a frecuencias especificadas, por ejemplo, frecuencias superiores a una cierta frecuencia de corte f_{TP} por ejemplo 500 Hz. Obsérvese que el intervalo de frecuencia para el análisis (TPA) puede diferir del intervalo de frecuencias para la síntesis (TP).

Las figuras 13(a) y (b) muestran implementaciones posibles de TPA 1204 y TP 1206, en el que se aplica conformación de envolvente solamente a frecuencias superiores a la frecuencia de corte f_{TP}. En particular, la figura 13(a) muestra la adición del filtro 1302 paso alto, que elimina mediante filtrado frecuencias inferiores a f_{TP} antes de la caracterización de envolvente temporal. La figura 13(b) muestra la adición del banco 1304 de filtros de dos bandas que tiene una frecuencia de corte f_{TP} entre las dos subbandas, en el que solamente la parte de alta frecuencia se conforma temporalmente. Luego el banco 1306 de filtros inversos de dos bandas recombina la parte de baja frecuencia con la parte de alta frecuencia conformada temporalmente para generar la señal de salida.

La figura 14 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 10 en el contexto del esquema de síntesis ICC basado en reverberación tardía descrito en US 2005/0180579, presentada el 01/04/04. En esta realización, TPA 1404 y cada TP 1046 se aplican en el dominio de tiempo, como en la figura 12 o la figura 13, pero en el que cada TP 1406 se aplica a la salida de un bloque 1402 de reverberación tardía (LR) diferente.

La figura 15 muestra un diagrama de bloques que representa al menos una parte de un descodificador 1500 BCC, según una realización de la presente invención, que es una alternativa al esquema mostrado en la figura 10. En la figura 15, el bloque 1502 de síntesis BCC, el extractor 1504 de envolvente y el ajustador 1510 de envolvente son análogos al bloque 1002 de síntesis BCC, al extractor 1004 de envolvente y al ajustador 1010 de envolvente de la figura 10. En la figura 15, sin embargo, el ajustador 1508 de envolvente inverso se aplica antes de la síntesis BCC, en lugar de después de la síntesis BCC, como en la figura 10. De Esta manera, el ajustador 1508 de envolvente inverso aplana el canal base antes de que se aplique la síntesis BCC.

La figura 16 muestra un diagrama de bloques que representa al menos una parte de un descodificador 1600 BCC, según una realización de la presente invención que es una alternativa a los esquemas mostrados en las figuras 10 y 15. En la figura 16, el extractor 1604 de envolvente y el ajustador 1610 de envolvente son análogos al extractor 1504 de envolvente y al ajustador 1510 de envolvente de la figura 15. En la realización de la figura 15 sin embargo, el bloque 1602 de síntesis representa síntesis ICC basada en reverberación tardía similar a la mostrada en la figura 16. En este caso, se aplica conformación de envolvente solamente a la señal de reverberación tardía sin correlacionar y el nodo 1612 de suma agrega la señal de reverberación tardía, conformada temporalmente, al canal base original (que ya tiene la envolvente temporal deseada). Obsérvese que, en este caso, no necesita aplicarse un ajustador de envolvente inverso, debido a que la señal de reverberación tardía tiene una envolvente temporal aproximadamente plana debido a su proceso de generación en el bloque 1602.

La figura 17 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 15 en el contexto del sintetizador 400 BCC de la figura 4. En la figura 17, TPA 1704, TP 1708 inverso (ITP) y TP 1710 son análogos al extractor 1504 de envolvente, al ajustador 1508 de envolvente inverso y al ajustador 1510 de envolvente de la figura 15.

En esta realización basada en la frecuencia, la conformación de envolvente de sonido difuso se implementa aplicando una convolución a las divisiones de frecuencia del banco 402 de filtros (por ejemplo, STET) a lo largo del eje de frecuencia. Se hace referencia a la patente estadounidense 5.781.888 (Herre) y a la patente estadounidense 5.812.971 (Herre).

La figura 18(a) muestra un diagrama de bloques de una posible implementación del TPA 1704 de la figura 17. En esta realización, TPA 1704 se implementa como una operación de análisis de codificación predictiva lineal (LPC) que determina los coeficientes de predicción óptimos para la serie de coeficientes espectrales sobre la frecuencia. Tales técnicas de análisis LPC se conocen bien, por ejemplo por la codificación de habla, y se conocen muchos algoritmos para el cálculo eficaz de coeficientes LPC, tales como el método de autocorrelación (que implica el cálculo de la función de autocorrelación de la señal y una recursión de Levinson-Durbin posterior). Como resultado de este cálculo, están disponibles en la salida un conjunto de coeficientes LPC que representan la envolvente temporal de la
señal.

Las figuras 18(b) y (c) muestran diagramas de bloque de posibles implementaciones de ITP 1708 y TP 1710 de la figura 17. En ambas implementaciones, los coeficientes espectrales de la señal que va a procesarse se procesan en orden de frecuencia (en aumento o en disminución), que está simbolizada en la presente memoria mediante circuitos de conmutación giratorios, convirtiendo estos coeficientes en un orden en serie para el procesamiento mediante un proceso de filtrado predictivo (y de vuelta otra vez después de este procesamiento). En el caso de ITP 1708, el filtrado predictivo calcula la predicción residual y de esta manera "aplana" la envolvente de señal temporal. En el caso de TP 1710, el filtro inverso reintroduce la envolvente temporal representada por los coeficientes LPC a partir de TPA 1704.

Para el cálculo de la envolvente temporal de la señal mediante TPA 1704, es importante eliminar la influencia de la ventana de análisis del banco 402 de filtros, en caso de usarse tal ventana. Esto puede lograrse o bien normalizando la envolvente resultante por la forma de ventana de análisis (conocida) o utilizando un banco de filtros de análisis separado que no emplea una ventana de análisis.

La técnica basada en convolución/filtrado de la figura 17 también puede aplicarse en el contexto del esquema de conformación de envolvente de la figura 16, en el que el extractor 1604 de envolvente y el ajustador 1610 de envolvente están basados en la TPA de la figura 18(a) y la TP de la figura 18(c), respectivamente.

Realizaciones alternativas adicionales

Los descodificadores BCC pueden diseñarse para habilitar/deshabilitar selectivamente la conformación de envolvente. Por ejemplo, un descodificador BCC podría aplicar un esquema de síntesis BCC convencional y habilitar la conformación de envolvente cuando la envolvente temporal de la señal sintetizada fluctúa suficientemente, de tal manera que los beneficios de conformación de envolvente dominan con respecto a cualesquier artefactos que la conformación de envolvente pueda generar. Este control de habilitación/deshabilitación puede lograrse mediante:

(1) Detección de transitorios: Si se detecta un transitorio, entonces se habilita el procesamiento de TP. La detección de transitorios puede implementarse de manera anticipada para conformar eficazmente no solamente el transitorio sino también la señal poco antes y después del transitorio. Maneras posibles de detectar transitorios incluyen:

\circ: observar la envolvente temporal de la(s) señal(es) de suma BCC transmitida(s) para determinar cuándo hay un incremento repentino de potencia que indica la presencia de un transitorio, y

\circ: examinar la ganancia del filtro (LPC) predictivo. Si la ganancia de predicción LPC excede un umbral especificado, puede suponerse que la señal es transitoria o altamente fluctuante. El análisis LPC se calcula en la autocorrelación del espectro.

(2) Detección de aleatoriedad: Hay escenarios en los que la envolvente temporal fluctúa pseudoaleatoriamente. En tal escenario, ningún transitorio podría detectarse, pero el procesamiento de TP podría todavía aplicarse (por ejemplo, una señal de aplausos densa corresponde a tal escenario).

Adicionalmente, en ciertas implementaciones, con el fin de impedir artefactos posibles en señales tonales, el procesamiento de TP no se aplica cuando la tonalidad de la (s) señal(s) de suma transmitida(s) es alta.

Además, pueden usarse medidas similares en el codificador BCC para detectar cuándo debe estar activo el procesamiento de TP. Puesto que el codificador tiene acceso a todas las señales de entrada originales, puede emplear algoritmos más sofisticados (por ejemplo una parte del bloque 208 de estimación) para tomar una decisión sobre cuándo debe habilitarse el procesamiento de TP. El resultado de esta decisión (una etiqueta que señala cuándo debe estar activo TP) puede transmitirse al descodificador BCC (por ejemplo, como parte de la información lateral de la figura 2).

Aunque la presente invención se ha descrito en el contexto de esquemas de codificación BCC en los que hay una única señal de suma, la presente invención también puede implementarse en el contexto de esquemas de codificación BCC que tienen dos o más señales de suma. En este caso, la envolvente temporal para cada señal de suma "base" diferente puede estimarse antes de la aplicación de la síntesis BCC, y pueden generarse diferentes canales de salida BCC basándose en diferentes envolventes temporales, dependiendo de qué señales de suma se usaron para sintetizar los diferentes canales de salida. Un canal de salida que se sintetiza a partir de dos o más canales de suma diferentes podría generarse basándose en una envolvente temporal eficaz que tiene en cuenta (por ejemplo, mediante promediación ponderada) los efectos relativos de los canales de suma constituyentes.

Aunque la presente invención se ha descrito en el contexto de esquemas de codificación BCC que implican códigos de ICTD, ICLD e ICC, la presente invención también puede implementarse en el contexto de otros esquemas de codificación BCC que implican solamente uno o dos de estos tres tipos de códigos (por ejemplo, ICLD e ICC, pero no ICTD) y/o uno o más tipos de códigos adicionales. Además, la secuencia de procesamiento de síntesis BCC y conformación de envolvente puede variar en diferentes implementaciones. Por ejemplo, cuando la conformación de envolvente se aplica a señales en el dominio de frecuencia, como en las figuras 14 y 16, la conformación de envolvente podría implementarse alternativamente después de la síntesis ICTD (en aquellas realizaciones que emplean síntesis ICTD), pero antes de la síntesis ICLD. En otras realizaciones, la conformación de envolvente podría aplicarse a señales mezcladas ascendentemente antes de que se aplique cualquier otra síntesis BCC.

Aunque la presente invención se ha descrito en el contexto de esquemas de codificación BCC, la presente invención también puede implementarse en el contexto de otros sistemas de procesamiento de audio en los que se descorrelacionan señales de audio u otro procesamiento de audio que necesite descorrelacionar señales.

Aunque la presente invención se ha descrito en el contexto de implementaciones en las que el codificador recibe la señal de audio de entrada en el dominio de tiempo y genera señales de audio transmitidas en el dominio de tiempo y el descodificador recibe las señales de audio transmitidas en el dominio de tiempo y genera señales de audio de reproducción en el dominio de tiempo, la presente invención no está limitada de esta manera. Por ejemplo, en otras implementaciones, cualquiera de una o más de la señales de audio de entrada, transmitidas y de reproducción podrían representarse en un dominio de frecuencia.

Pueden usarse codificadores y/o descodificadores BCC junto con o incorporarse a una variedad de diferentes aplicaciones o sistemas, entre los que se incluyen sistemas para televisión o distribución de música electrónica, cines, emisión, flujo continuo (streaming) y/o recepción. Estos incluyen sistemas para codificar/descodificar transmisiones a través de, por ejemplo, medios terrestres, por satélite, por cable, internet, intranet o medios físicos (por ejemplo, discos compactos, discos versátiles digitales, chips semiconductores, discos duros, tarjetas de memoria y similares). También pueden usarse codificadores y/o descodificadores BCC en juegos y sistemas de juego, entre los que se incluyen, por ejemplo productos de software interactivos diseñados para interactuar con un usuario para entretenimiento (acción, juegos de rol, estrategia, aventura, simulaciones, carreras, deportes, juegos recreativos, de cartas y juegos de mesa) y/o educativos que pueden publicarse para múltiples máquinas, plataformas o medios. Además, pueden incorporarse codificadores y/o descodificadores BCC a grabadores/reproductores de audio o sistemas de CD-ROM/DVD. También pueden incorporarse codificadores y/o descodificadores BCC en aplicaciones de software para PC que incorporan descodificación digital (por ejemplo, reproductor, descodificador) y aplicaciones de software que incorporan capacidades de codificación digital (por ejemplo, codificador, ripper ("ripeador"), recodificador y gestores de música).

La presente invención puede implementarse como procesos basados en circuitos, entre los que se incluyen implementaciones posibles como un único circuito integrado (tal como un ASIC o un FPGA), un módulo de múltiples chips, una única tarjeta o un paquete de circuitos de múltiples tarjetas. Como resultará evidente para el experto en la técnica, varias funciones de los elementos de circuito también pueden implementarse como etapas de procesamiento en un programa de software. Tal software puede emplearse por ejemplo en un procesador de señales digital, microcontrolador u ordenador de propósito general.

La presente invención puede ser realizarse en forma de métodos y aparatos para poner en práctica estos métodos. La presente invención también puede realizarse en forma de código de programa implementado en medios tangibles, tales como discos flexibles, CD-ROM, discos duros o cualquier otro medio de almacenamiento legible por la máquina, en el que, cuando el código de programa se carga en y se ejecuta por una máquina, tal como un ordenador, la máquina se convierte en un aparato para poner en práctica la invención. La presente invención también puede realizarse en forma de un código de programa, por ejemplo, o bien almacenado en un medio de almacenamiento, cargado en y/o ejecutado por una máquina, o bien transmitido por algún medio o portadora de transmisión, tal como líneas o cableado eléctrico, por medio de fibras ópticas o a través de radiación electromagnética, en el que, cuando el código de programa se carga en y se ejecuta por una máquina, tal como un ordenador, la máquina se convierte en un aparato para poner en práctica la invención. Cuando se implementa en un procesador de propósito general o multiuso, los segmentos de código de programa se combinan con el procesador para proporcionar un dispositivo único que opera de manera análoga a circuitos lógicos específicos.

Se comprenderá además que los expertos en la técnica pueden realizar diversos cambios en los detalles, materiales y disposiciones de las partes que se han descrito e ilustrado con el fin de explicar la naturaleza de esta invención, sin desviarse del alcance de la invención tal como se expresa en las siguientes reivindicaciones.

Aunque las etapas en las siguientes reivindicaciones de método, si las hay, se citan en una secuencia particular con un etiquetado correspondiente, a menos que las menciones en las reivindicaciones impliquen de otra manera una secuencia particular para implementar algunas o todas estas etapas, no está previsto necesariamente que esas etapas se limiten a implementarse en esa secuencia particular.

Claims

1. Método para convertir una señal de audio de entrada que tiene una envolvente temporal de entrada en una señal de audio de salida que tiene una envolvente temporal de salida, comprendiendo el método:

caracterizar la envolvente temporal de entrada de la señal de audio de entrada;

procesar la señal de audio de entrada para generar una señal de audio procesada, en el que el procesamiento descorrelaciona la señal de audio de entrada; y

ajustar la señal de audio procesada basándose en la envolvente temporal de entrada caracterizada para generar la señal de audio de salida, en el que la envolvente temporal de salida coincide sustancialmente con la envolvente temporal de entrada.

2. Invención según la reivindicación 1, en la que el procesamiento comprende síntesis de correlación intercanal (ICC).

3. Invención según la reivindicación 2, en la que la síntesis ICC es parte de la síntesis de codificación de indicación binaural (BCC).

4. Invención según la reivindicación 3, en la que la síntesis BCC comprende además al menos una síntesis de diferencia de nivel intercanal (ICLD) y síntesis de diferencia de tiempo intercanal (ICTD).

5. Invención según la reivindicación 2, en la que la síntesis ICC comprende síntesis ICC de reverberación tardía.

6. Invención según la reivindicación 1, en la que el ajuste comprende:

caracterizar una envolvente temporal procesada de la señal de audio procesada y

ajustar la señal de audio procesada basándose tanto en la envolvente temporal procesada como en la de entrada caracterizadas para generar la señal de audio de salida.

7. Invención según la reivindicación 6, caracterizado porque el ajuste comprende:

generar una función de ajuste a escala basándose en las envolventes temporales de entrada y procesada caracterizadas; y aplicar la función de ajuste a escala a la señal

\hbox{de audio procesada para generar la señal de audio
de salida.}

8. Invención según la reivindicación 1, que comprende además ajustar la señal de audio de entrada basándose en la envolvente temporal de entrada caracterizada para generar una señal de audio aplanada, en la que el procesamiento se aplica a la señal de audio aplanada para generar la señal d audio procesada.

9. Invención según la reivindicación 1, en la que:

el procesamiento genera una señal procesada no correlacionada y una señal procesada correlacionada; y

el ajuste se aplica a la señal procesada no correlacionada para generar una señal procesada ajustada, en la que

la señal de salida se genera sumando la señal procesada ajustada y la señal procesada correlacionada.

10. Invención según la reivindicación 1, en la que:

la caracterización se aplica solamente a frecuencias especificadas de la señal de audio de entrada; y el ajuste se aplica solamente a las frecuencias especificadas de la señal de audio procesada.

11. Invención según la reivindicación 10, en la que:

la caracterización se aplica solamente a frecuencias de la señal de audio de entrada por encima de una frecuencia de corte especificada; y

el ajuste se aplica solamente a frecuencias de la señal de audio procesada por encima de la frecuencia de corte especificada.

12. Invención según la reivindicación 1, en la que cada uno de la caracterización, el procesamiento y el ajuste se aplica a una señal en el dominio de frecuencia.

13. Invención según la reivindicación 12, en la que cada uno de la caracterización, el procesamiento y el ajuste se aplica individualmente a diferentes subbandas de señal.

14. Invención según la reivindicación 12, en la que el dominio de frecuencia corresponde a una transformada de Fourier rápida (FFT).

15. Invención según la reivindicación 12, en la que el dominio de frecuencia corresponde a un filtro de espejo en cuadratura (QMF).

16. Invención según la reivindicación 1, en la que cada uno de la caracterización y el ajuste se aplica a una señal en el dominio de tiempo.

17. Invención según la reivindicación 16, en la que el procesamiento se aplica a una señal en el dominio de frecuencia.

18. Invención según la reivindicación 17, en la que el dominio de frecuencia corresponde a una transformada de Fourier rápida (FFT).

19. Invención según la reivindicación 17, en la que el dominio de frecuencia corresponde a un filtro de espejo en cuadratura (QMF).

20. Invención según la reivindicación 1, que comprende además determinar si se habilita o deshabilita la caracterización y el ajuste.

21. Invención según la reivindicación 20, en el que la determinación se basa en una etiqueta de habilitación/deshabi-
litación generada por un codificador de audio que generó la señal de audio de entrada.

22. Invención según la reivindicación 20, en el que la determinación se basa en analizar la señal de audio de entrada para detectar transitorios en la señal de audio de entrada, de tal manera que la caracterización y el ajuste se habilitan si se detecta la presencia de un transitorio.

23. Aparato para convertir una señal de audio de entrada que tiene una envolvente temporal de entrada en una señal de audio de salida que tiene una envolvente temporal de salida, comprendiendo el aparato:

medios para la caracterización de la envolvente temporal de entrada de la señal de audio de entrada;

medios para el procesamiento de la señal de audio de entrada para generar una señal de audio procesada, en el que los medios para el procesamiento están adaptados para descorrelacionar la señal de audio de entrada; y

medios para el ajuste de la señal de audio procesada, basándose en la envolvente temporal de entrada caracterizada para generar la señal de audio de salida, en el que la envolvente temporal de salida coincide sustancialmente con la envolvente temporal de entrada.

24. Aparato según la reivindicación 23,

en el que los medios para la caracterización incluyen un extractor de envolvente,

en el que los medios para el procesamiento incluyen un sintetizador adaptado para procesar la señal de audio de entrada; y

en el que los medios para el ajuste incluyen un ajustador de envolvente adaptado para ajustar la señal de audio procesada.

25. Invención según la reivindicación 24, en la que

el aparato es un sistema seleccionado del grupo que consiste en un reproductor de vídeo digital, un reproductor de audio digital, un ordenador, un receptor de satélite, un receptor de cable, un receptor de emisión terrestre, un sistema de entretenimiento en casa y un sistema de cine; y

el sistema comprende el extractor de envolvente, el sintetizador y el ajustador de envolvente.

26. Método para codificar C canales de audio de entrada para generar E canal(es) de audio transmitido(s), comprendiendo el método:

generar uno o más códigos de indicación para dos o más de los C canales de entrada;

mezclar descendentemente los C canales de entrada para generar el (los) E canal(es) transmitido(s), siendo C > E \geq 1; y

analizar uno o más de los C canales de entrada y el (los) E canal(es) transmitido(s) para generar una etiqueta que indica si un descodificador del (de los) E canal(es) transmitido(s) debe efectuar o no conformación de envolvente durante la descodificación del (de los) E canal(es) transmitido(s), incluyendo la etapa de análisis la detección de transitorios de manera anticipada para la conformación, en el descodificador, no solamente de un transitorio sino también de una señal antes y después del transitorio, ajustándose la etiqueta cuando se detecta un transitorio, o incluyendo una detección de aleatoriedad para detectar si una envolvente temporal está fluctuando de manera pseudoaleatoria, ajustándose la etiqueta cuando una envolvente temporal está fluctuando de manera pseudoaleatoria, o incluyendo una detección de tonalidad para no ajustar la etiqueta cuando el (los) E canal(es) transmitido(s) es(son) tonal(es).

27. Invención según la reivindicación 26, en la que la conformación de envolvente ajusta una envolvente temporal de un canal descodificado generado por el descodificador para que coincida sustancialmente con una envolvente temporal de un canal transmitido correspondiente.

28. Aparato para la codificación de C canales de audio de entrada para generar E canal(es) de audio transmitido(s), comprendiendo el aparato:

medios para la generación de uno o más códigos de indicación para dos o más de los C canales de entrada;

medios para mezclar descendentemente los C canales de entrada para generar el (los) E canal(es) transmitido(s), siendo C > E \geq 1; y

medios para el análisis de uno o más de los C canales de entrada y el (los) E canal(es) transmitido(s) para generar una etiqueta que indica si un descodificador del (de los) E canal(es) transmitido(s) debe efectuar conformación de envolvente durante la descodificación del (de los) E canal(es) transmitido(s), incluyendo los medios para el análisis la detección de transitorios de manera anticipada para la conformación, en el descodificador, no solamente de un transitorio sino también de una señal antes y después del transitorio, ajustándose la etiqueta cuando se detecta un transitorio, o incluyendo una detección de aleatoriedad para detectar si una envolvente temporal está fluctuando de manera pseudoaleatoria, ajustándose la etiqueta cuando una envolvente temporal está fluctuando de manera pseudoaleatoria, o incluyendo una detección de tonalidad para no ajustar la etiqueta cuando el (los) E canal(es) transmitido(s) es(son) tonal(es).

29. Aparato según la reivindicación 28,

en el que los medios para la generación incluyen un estimador de código; y

en el que los medos para la mezcla descendente incluyen un mezclador descendente.

30. Invención según la reivindicación 29, en la que: el aparato es un sistema seleccionado del grupo que consiste en un reproductor de vídeo digital, un reproductor de audio digital, un ordenador, un receptor de satélite, un receptor de cable, un receptor de emisión terrestre, un sistema de entretenimiento en casa y un sistema de cine; y

el sistema comprende el estimador de código y el mezclador descendente.

31. Flujo de bits de audio codificado generado codificando C canales de audio de entrada para generar E canal(es) de audio transmitido(s), en el que:

se generan uno o más códigos de indicación para dos o más de los C canales de entrada;

los C canales de entrada se mezclan descendentemente para generar E canal(es) transmitido(s), siendo C > E \geq 1;

se genera una etiqueta analizando uno o más de los C canales de entrada y los E canal(es) transmitido(s), en el que la etiqueta indica si un descodificador del (de los) E canal(es) transmitido(s) debe efectuar o no conformación de envolvente durante la descodificación del (de los) E canal(es) transmitido(s), determinándose la etiqueta mediante la detección de transitorios de manera anticipada para la conformación, en el descodificador, no solamente de un transitorio, sino también de una señal antes y después del transitorio, ajustándose la etiqueta cuando se detecta un transitorio mediante una detección de aleatoriedad para detectar si una envolvente temporal está fluctuando de manera pseudoaleatoria, ajustándose la etiqueta cuando una envolvente temporal está fluctuando de manera pseudoaleatoria, o mediante una detección de tonalidad para no ajustar la etiqueta cuando el (los) E canal(es) transmitido(s) es(son)
tonal(es); y

el (los) E canal(es) transmitido(s), el uno o más códigos de indicación y la etiqueta se codifican para dar el flujo de bits de audio codificado.

32. Código de programa informático que tiene instrucciones legibles por máquina para efectuar, cuando el código de programa se ejecuta por una máquina, un método para convertir una señal de audio de entrada según la reivindicación 1 o un método para codificar C canales de audio de entrada según la reivindicación 26.