ES2673637T3

ES2673637T3 - Cancelación prospectiva de solapamiento en dominio de tiempo con aplicación en dominio de señal ponderada u original

Info

Publication number: ES2673637T3
Application number: ES10791124.0T
Authority: ES
Inventors: Bruno Bessette
Original assignee: VoiceAge Corp
Current assignee: VoiceAge Corp
Priority date: 2009-06-23
Filing date: 2010-06-23
Publication date: 2018-06-25
Anticipated expiration: 2030-06-23
Also published as: US8725503B2; RU2557455C2; WO2010148516A1; JP2012530946A; HK1258874A1; JP5699141B2; ES2825032T3; EP3764356A1; EP2446539B1; US20110153333A1; EP3352168A1; EP3352168B1; PL3352168T3; RU2012102049A; EP2446539A4; CA2763793A1; CA2763793C; EP2446539A1

Abstract

Un método para cancelación prospectiva de solapamiento en dominio de tiempo en una señal codificada transmitida en una cadena de bits (1601, 1757) desde un codificador (1700) a un descodificador (1600), que comprende: en el codificador, calcular (1713) información adicional relacionada con la corrección del solapamiento en dominio de tiempo en la señal codificada, en donde calcular la información adicional comprende producir una señal (504, 604, 706, 902, 1002, 1004, 1112, 1118) de corrección para cancelación prospectiva de solapamiento (FAC) y cuantificar (1116) la señal de corrección FAC con respecto a factores de escala utilizados en cuantificar trama utilizando ventana no rectangular, con superposición; enviar (1756) en la cadena de bits (1757) al descodificador la información adicional relacionada con la corrección del solapamiento en dominio de tiempo en la señal codificada; y en el descodificador, cancelar (1615) el solapamiento en dominio de tiempo en la señal codificada en respuesta a dicha información adicional.

Description

5

10

15

20

25

30

35

40

45

50

55

DESCRIPCION

Cancelación prospectiva de solapamiento en dominio de tiempo con aplicación en dominio de señal ponderada u original

Campo técnico

La presente invención se refiere al campo de la codificación y descodificación de señales de audio. Más específicamente, la presente invención se refiere a un dispositivo y método para cancelación de solapamiento en dominio de tiempo que utiliza transmisión de información adicional.

Antecedentes

La codificación de audio del estado de la técnica utiliza descomposición de tiempo-frecuencia para representar la señal de una manera comprensible para la reducción de datos. Específicamente, los codificadores de audio utilizan transformadas para establecer una correspondencia de las muestras en dominio de tiempo a coeficientes en dominio de frecuencia. Las transformadas en tiempo discreto utilizadas para esta correspondencia entre tiempo y frecuencia se basan típicamente en núcleos de funciones sinusoidales, tales como la transformada discreta de Fourier o DFT (del inglés "discrete Fourier transform") y la transformada discreta de coseno o DCT (del inglés "discrete cosine transform"). Se puede demostrar que estas transformaciones consiguen una "compactación de energía" de la señal de audio. Esto significa que, en el dominio de transformada (o de frecuencia), la distribución de energía se localiza en menos coeficientes significativos que en las muestras en dominio de tiempo. Se pueden lograr así ganancias de codificación aplicando asignación de bits adaptativa y cuantificación adecuada a los coeficientes en dominio de frecuencia. En el receptor, se utilizan los bits que representan los parámetros cuantificados y codificados (por ejemplo, los coeficientes en dominio de frecuencia) para recuperar los coeficientes en dominio de frecuencia cuantificados (u otros datos cuantificados, por ejemplo ganancias), y la transformada inversa genera la señal de audio en dominio de tiempo. Estos esquemas de codificación se denominan en general codificación por transformada.

Por definición, la codificación por transformada trabaja sobre bloques consecutivos de muestras de la señal de audio de entrada. Dado que la cuantificación introduce cierta distorsión en cada bloque sintetizado de señal de audio, el uso de bloques sin superposición puede introducir discontinuidades en las fronteras de bloque, lo que puede degradar la calidad de la señal de audio. Por lo tanto, para evitar discontinuidades, en la codificación por transformada se superponen los bloques codificados de señal de audio antes de aplicar la transformada discreta, y se "enventanan" adecuadamente en el segmento superpuesto, para permitir una transición suave desde un bloque descodificado al siguiente. Desafortunadamente, el uso de una transformada "estándar" tal como la DFT (o su equivalente rápido, la FFT) o la DCT y su aplicación a bloques con superposición da como resultado lo que se denomina "muestreo no crítico". Por ejemplo, si se toma un estado típico de superposición de 50%, la codificación de un bloque de N muestras consecutivas en dominio de tiempo requiere en realidad tomar una transformada sobre 2N muestras consecutivas (N muestras del bloque actual y N muestras de la parte superpuesta del bloque siguiente). Por lo tanto, para cada bloque de N muestras en dominio de tiempo, se codifican 2N coeficientes en dominio de frecuencia. El muestreo crítico en el dominio de frecuencia implica que N muestras de entrada en dominio de tiempo produzcan solamente N coeficientes en dominio de frecuencia que deban ser cuantificados y codificados.

Se han diseñado transformadas especializadas para permitir el uso de ventanas con superposición y que se siga manteniendo el muestreo crítico en el dominio de transformada (2N muestras en dominio de tiempo a la entrada de la transformada dan lugar a N coeficientes en dominio de frecuencia a la salida de la transformada). Para conseguirlo, primeramente se reduce el bloque de 2N muestras en dominio de tiempo a un bloque de N muestras en dominio de tiempo a través de una inversión especial en el tiempo y la suma de partes específicas de la señal puesta en ventanas de una longitud de 2N muestras. Estas inversión en el tiempo y suma especiales introducen lo que se denomina "solapamiento en dominio de tiempo" o TDA (del inglés "time-domain aliasing"). Una vez introducido tal solapamiento en el bloque de señal, no se puede eliminar utilizando únicamente ese bloque. Esta señal solapada en dominio de tiempo constituye la entrada de una transformada de tamaño N (y no 2N), que produce los N coeficientes en dominio de frecuencia de la transformada. Para recuperar N muestras en dominio de tiempo, la transformada inversa tiene que utilizar realmente, para cancelar y eliminar el TDA, los coeficientes de transformada de dos tramas consecutivas y que se superpongan, en un proceso denominado cancelación de solapamiento en dominio de tiempo o TDAC (del inglés "time-domain aliasing cancellation").

La transformada discreta de coseno modificada o MDCT (del inglés "modified discrete cosine transform") constituye un ejemplo de transformada de este tipo que aplica TDAC, ampliamente utilizada en la codificación de audio. En realidad, la MDCT efectúa el TDA antes mencionado sin realizar un plegado explícito en el dominio de tiempo. Antes bien, se introduce solapamiento en dominio de tiempo cuando se consideran tanto la MDCT directa como la inversa (IMDCT) de un solo bloque. Esto se debe a la construcción matemática de la MDCT, y es bien conocido por los expertos ordinarios en la materia. No obstante, también se sabe que este solapamiento implícito en dominio de tiempo puede considerarse equivalente a invertir primeramente partes de las muestras en dominio de tiempo y sumar (o restar) estas partes invertidas a otras partes de la señal. Esto se conoce como "plegado".

5

10

15

20

25

30

35

40

45

50

Surge un problema cuando un codificador de audio conmuta entre dos modelos de codificación, uno que utiliza TDAC y otro que no lo hace. Supóngase, por ejemplo, que un códec cambia de un modelo de codificación con TDAC a un modelo de codificación sin TDAC. El lado del bloque de muestras que se ha codificado utilizando el modelo de codificación con TDAC, y que es común al bloque codificado sin usar TDAc, contiene solapamiento que no se puede cancelar utilizando el bloque de muestras que se ha codificado utilizando el modelo de codificación sin TDAC.

Una primera solución consiste en descartar las muestras que contengan solapamiento que no se puede cancelar.

Esta solución da lugar a un uso ineficaz del ancho de banda de transmisión, ya que el bloque de muestras para el cual no se puede cancelar el TDA se codifica dos veces, una vez mediante el códec basado en TDAC y una segunda vez mediante el códec no basado en TDAC.

Una segunda solución consiste en utilizar ventanas especialmente diseñadas que no introduzcan TDA en al menos una parte de la ventana cuando se aplica el proceso de inversión en el tiempo y suma. La Figura 1 es un diagrama de una ventana ilustrativa que introduce TDA en su lado izquierdo, pero no en su lado derecho. Más específicamente, en la Figura 1 una ventana 100 de 2N muestras introduce TDA 110 en su lado izquierdo. La ventana 100 de la Figura 1 es útil para transiciones desde un códec basado en TDAC a un códec no basado en TDAC. La primera mitad de esta ventana está configurada de modo que introduce TDA 110, que puede cancelarse si la ventana precedente también utiliza TDA con superposición. Sin embargo, el lado derecho de la ventana de la Figura 1 tiene una muestra 120 de valor cero después del punto de plegado en la posición 3N/2. Por lo tanto, esta parte de la ventana 100 no introduce ningún TDA cuando se realiza el proceso de inversión en el tiempo y suma (o plegado) en torno al punto de plegado en la posición 3N/2.

Además, el lado izquierdo de la ventana 100 contiene una región plana 130 precedida por una región en rampa 140. El propósito de la región en rampa 140 es proporcionar una buena resolución espectral cuando se calcula la transformada y suavizar la transición durante operaciones de superposición y suma entre bloques adyacentes. Si se aumenta la duración de la región plana 130 de la ventana se reduce el ancho de banda de información y disminuye el rendimiento espectral de la ventana, puesto que una parte de la ventana se envía sin ninguna información.

En el códec multimodo de audio USAC (del inglés "Unified Speech and Audio Codec") o códec unificado de voz y audio, del MPEG (del inglés "Moving Pictures Expert Group") o Grupo de expertos en imágenes en movimiento, se utilizan varias ventanas especiales como la descrita en la Figura 1 para gestionar las distintas transiciones desde tramas que utilizan ventanas rectangulares, sin superposición, a tramas que utilizan ventanas no rectangulares, con superposición. Estas ventanas especiales fueron diseñadas para conseguir distintos compromisos entre resolución espectral, reducción de datos generales y suavidad en la transición entre estos distintos tipos de tramas. En "Universal Speech/Audio Coding Using Hybrid ACELP/TCX Techniques" por Bessette B et al., 2005 IEEE International Conference on Acoustics, Speech, and Signal Processing -18-23 de marzo de 2005 - Philadelphia, PA, EUA, IEEE, Piscataway, NJ, vol. 3, 18 de marzo de 2005, se puede encontrar información adicional acerca de los tipos de ventanas que se utilizan en USAC.

Compendio

Por lo tanto, existe la necesidad de una técnica de cancelación de solapamiento para apoyar la conmutación entre modos de codificación, en donde la técnica compense los efectos de solapamiento en un punto de conmutación entre estos modos.

Así pues, conforme a la presente invención, se proporciona un método para cancelación prospectiva de solapamiento o FAC (del inglés "forward aliasing cancellation") en dominio de tiempo, según la reivindicación independiente 1.

Las características anteriores y otras resultarán más evidentes tras la lectura de la siguiente descripción no restrictiva de realizaciones ilustrativas de la misma, ofrecidas solo a modo de ejemplo y con referencia a los dibujos adjuntos.

Breve descripción de los dibujos

Se describirán realizaciones de la invención, solo a modo de ejemplo y con referencia a los dibujos adjuntos, en los cuales:

la Figura 1 es un diagrama de un ejemplo de ventana que introduce TDA en su lado izquierdo, pero no en su lado derecho;

la Figura 2 es un diagrama de un ejemplo de transición desde un bloque que utiliza una ventana rectangular, sin superposición, a un bloque que utiliza una ventana con superposición;

la Figura 3 es un diagrama que muestra plegado y TDA aplicados al diagrama de la Figura 2;

la Figura 4 es un diagrama que muestra corrección prospectiva de solapamiento aplicada al diagrama de la Figura 2;

10

15

20

25

30

35

40

45

la Figura 5 es un diagrama que muestra una corrección FAC no plegada (izquierda) y una corrección FAC plegada (derecha);

la Figura 6 es una ilustración de una primera aplicación de un método de corrección FAC que utiliza MDCT;

la Figura 7 es un diagrama de una corrección FAC que utiliza información del modo ACELP;

la Figura 8 es un diagrama de una corrección FAC aplicada en la transición desde un bloque que utiliza una ventana con superposición a un bloque que utiliza una ventana rectangular, sin superposición;

la Figura 9 es un diagrama de una corrección FAC no plegada (izquierda) y una corrección FAC plegada (derecha);

la Figura 10 es una ilustración de una segunda aplicación del método de corrección FAC que utiliza MDCT;

la Figura 11 es un diagrama de bloques de cuantificación FAC que incluye corrección de error TCX;

la Figura 12 es un diagrama de varios casos de empleo de la corrección FAC en un sistema multimodo de codificación;

la Figura 13 es un diagrama de otro caso de empleo de la corrección FAC en un sistema multimodo de codificación;

la Figura 14 es un diagrama de un primer caso de empleo de la corrección FAC en la conmutación entre tramas cortas basadas en transformada y tramas ACELP;

la Figura 15 es un diagrama de un segundo caso de empleo de la corrección FAC en la conmutación entre tramas cortas basadas en transformada y tramas ACELP;

la Figura 16 es un diagrama de bloques de un dispositivo ilustrativo para cancelación prospectiva de solapamiento en dominio de tiempo en una señal codificada recibida en una cadena de bits; y

la Figura 17 es un diagrama de bloques de un dispositivo ilustrativo para cancelación prospectiva de solapamiento en dominio de tiempo en una señal codificada para transmisión a un descodificador.

Descripción detallada

La descripción que sigue aborda el problema de cancelar los efectos de solapamiento en dominio de tiempo y enventanado no rectangular cuando se codifica una señal de audio utilizando en tramas contiguas tanto ventanas con superposición como ventanas sin superposición. Con el empleo de la tecnología descrita en la presente memoria se puede evitar el uso de ventanas especiales no óptimas mientras se sigue permitiendo una gestión adecuada de transiciones de trama en un modelo que utiliza tanto ventanas rectangulares, sin superposición, como ventanas no rectangulares, con superposición.

Un ejemplo de una trama que utiliza enventanado rectangular, sin superposición, es la codificación predictiva lineal o LP (del inglés, "linear predictive") y, en particular, la codificación ACELP. Como alternativa, constituye un ejemplo de enventanado no rectangular, con superposición, la codificación de excitación codificada por transformada o TCX (del inglés, "transform coded eXcitation") tal como se aplica en el códec unificado de voz y audio (USAC) del MPEG, donde las tramas TCX utilizan ventanas con superposición y también transformada discreta de coseno modificada (MDCT), que introduce solapamiento en dominio de tiempo (TDA). El USAC también constituye un ejemplo típico en el cual se pueden codificar tramas contiguas utilizando, ya sea ventanas rectangulares, sin superposición, como ocurre en tramas ACELP, o ventanas rectangulares, con superposición, como ocurre en tramas tCx y en tramas de codificación de audio avanzada o AAC (del inglés "advanced audio coding"). Sin pérdida de generalidad, la presente descripción considera, por lo tanto, el ejemplo específico de USAC para ilustrar las ventajas del sistema y método propuestos.

Se abordan dos casos distintos. El primer caso ocurre cuando la transición tiene lugar desde una trama que utiliza una ventana rectangular, sin superposición, a una trama que utiliza una ventana no rectangular, con superposición. El segundo caso ocurre cuando la transición tiene lugar desde una trama que utiliza una ventana no rectangular, con superposición, a una trama que utiliza una ventana rectangular, sin superposición. Con fines ilustrativos y sin sugerir ninguna limitación, las tramas que utilizan una ventana rectangular, sin superposición, se pueden codificar utilizando el modelo ACELP, y las tramas que utilizan una ventana no rectangular, con superposición, se pueden codificar utilizando el modelo TCX. Además, se emplean duraciones específicas para algunas tramas, por ejemplo 20 milisegundos para una trama TCX, que se designa como TCX20. Sin embargo, debe tenerse en cuenta que estos ejemplos específicos tienen solo finalidad ilustrativa, y que se pueden contemplar otras longitudes de trama y tipos de codificación distintos de ACELP y TCX.

Se tratará ahora el caso de una transición desde una trama con ventana rectangular, sin superposición, a una trama con ventana no rectangular, con superposición, en relación con la descripción que sigue, tomada juntamente con la

5

10

15

20

25

30

35

40

45

50

55

60

Figura 2, que es un diagrama de una transición ilustrativa desde un bloque que utiliza una ventana rectangular, sin superposición, a un bloque que utiliza una ventana con superposición.

Haciendo referencia a la Figura 2, una ventana ilustrativa rectangular, sin superposición, comprende una trama ACELP 202 y una ventana ilustrativa 204 no rectangular, con superposición, comprende una trama TCX20 206. La denominación TCX20 se refiere a las tramas TCX cortas en USAC, que nominalmente tienen 20 ms de duración, al igual que las tramas ACELP en muchas aplicaciones. La Figura 2 indica cuáles son las muestras se utilizan en cada trama y cómo se enventanan en un codificador. Se aplica la misma ventana 204 en un descodificador, de modo que el efecto combinado visto en el descodificador es el cuadrado de la forma de ventana mostrada en la Figura 2. Por supuesto, este doble enventanado, una vez en el codificador y una segunda vez en el descodificador, es típico en la codificación por transformada. Cuando no se dibuja ninguna ventana, como ocurre en la trama ACELP 202, ello significa realmente que para esa trama se utiliza una ventana rectangular. La ventana 204 no rectangular para la trama TCX20 206 mostrada en la Figura 2 se elige de manera que, si las tramas precedente y siguiente también utilizan ventanas con superposición y no rectangulares, entonces las partes superpuestas 204a y 204b de las ventanas son, después del segundo enventanado en el descodificador, complementarias y permiten recuperar la señal "no enventanada" de la región superpuesta de las ventanas.

Para codificar la trama TCX20 206 de la Figura 2 de una manera eficiente, típicamente se aplica solapamiento en dominio de tiempo (TDA) a las muestras enventanadas para esa trama TCX20 206. Específicamente, se pliegan y se combinan las partes izquierda 204a y derecha 204d de la ventana 204. La Figura 3 es un diagrama que muestra plegado y TDA aplicados al diagrama de la Figura 2. La ventana no rectangular 204 introducida en la descripción de la Figura 2 se representa en cuatro cuartos. El 1.er y el 4.° cuartos, 204a y 204d, de la ventana 204 se indican con línea de puntos, ya que se combinan con el 2^ y el 3.er cuartos, 204b, 204c, que se indican con línea continua. La combinación del 1.er y el 4^ cuartos, 204a y 204d, con el 2^ y el 3.er cuartos, 204b, 204c, se realiza, en un proceso similar al utilizado en la codificación MDCT, de la manera siguiente. Se invierte en el tiempo el 1.er cuarto, 204a, y después se alinea, muestra por muestra, con el 2^ cuarto, 204b, de la ventana, y finalmente se resta el 1.er cuarto, invertido en tiempo y desplazado, 204e, del 2^ cuarto, 204b, de la ventana. Análogamente, se invierte en el tiempo el 4^ cuarto, 204d, de la ventana y se desplaza (204f) para alinearlo con el 3.er cuarto, 204c, de la ventana, y finalmente se suma al 3.er cuarto, 204c, de la ventana. Si la ventana TCX20 204 mostrada en la Figura 2 tiene 2N muestras, entonces, al final de este proceso, se obtienen N muestras que se extienden exactamente desde el principio hasta el final de la trama TCX20 206 de la Figura 3. Entonces, estas N muestras forman la entrada de una transformada adecuada para una codificación eficiente en el dominio de transformada. Si se utiliza el solapamiento específico en dominio de tiempo descrito en la Figura 3, la transformada utilizada para este propósito puede ser la MDCT.

Después de la combinación de partes invertidas en el tiempo y desplazadas, de la ventana que se describe en la Figura 3, ya no es posible recuperar en la trama TCX20 las muestras originales en dominio de tiempo porque están mezcladas con versiones invertidas en el tiempo de muestras de fuera de la trama TCX20. En un codificador de audio basado en MDCT tal como MPEG AAC, donde se codifican todas las tramas utilizando la misma transformada y ventanas con superposición, se puede cancelar este solapamiento en dominio de tiempo, y se pueden recuperar las muestras de audio utilizando dos tramas con superposición consecutivas. Sin embargo, cuando tramas contiguas no utilizan el mismo procedimiento de enventanado y superposición, como ocurre en la Figura 2, donde la trama TCX20 está precedida por una trama ACELP, no se puede eliminar el efecto de la ventana no rectangular y el solapamiento en dominio de tiempo utilizando solamente la información de la trama ACELP precedente y la trama TCX20 siguiente.

Las técnicas para gestionar este tipo de transición se han presentado más arriba en la presente memoria. La presente descripción propone un enfoque alternativo para gestionar estas transiciones. Este enfoque no utiliza ventanas no óptimas y asimétricas en las tramas en las que se utiliza codificación en dominio de transformada basada en MDCT. En lugar de ello, los métodos y dispositivos introducidos en la presente memoria permiten el uso de ventanas simétricas, centradas en el centro de la trama codificada, por ejemplo la trama TCX20 de la Figura 3, y con una superposición de 50% con tramas codificadas por MDCT que también utilizan ventanas no rectangulares. Así pues, los métodos y dispositivos introducidos en la presente memoria proponen enviar desde el codificador al descodificador, como información adicional en la cadena de bits, la corrección para cancelar el efecto de enventanado y el solapamiento en dominio de tiempo cuando se cambia de tramas codificadas con una ventana rectangular, sin superposición, a tramas codificadas con una ventana no rectangular, con superposición, y viceversa. En estas transiciones son posibles varios casos.

En la Figura 2 se muestra una ventana rectangular, sin superposición, para la trama ACELP, y se muestra una ventana no rectangular, con superposición, para la trama TCX20. Si se utiliza el TDA introducido en la Figura 3, un descodificador que recibe al principio los bits de la trama ACELP tiene información suficiente para descodificar por completo esta trama ACELP hasta su última muestra. Pero después, al recibir los bits de la trama TCX20, la descodificación correcta de todas las muestras de la trama TCX20 se ve afectada por el efecto de solapamiento causado por la presencia de la trama ACELP precedente. Si una trama siguiente también utiliza una ventana con superposición, entonces se pueden cancelar el enventanado no rectangular y el TDA introducido en el codificador en la segunda mitad de la trama TCX20 mostrada, y se pueden descodificar correctamente estas muestras. Por lo tanto, es en la primera mitad de la trama TCX20, en donde se resta el 1.er cuarto 204e, invertido y desplazado, del

5

10

15

20

25

30

35

40

45

50

55

60

204b de la Figura 3, donde no se puede cancelar el efecto de la ventana no rectangular y el TDA introducido en el codificador, ya que la trama ACELP precedente utiliza una ventana sin superposición. Por consiguiente, los métodos y dispositivos introducidos en la presente memoria proponen transmitir la información, cancelación prospectiva de solapamiento (FAC) en dominio de tiempo, para cancelar estos efectos y recuperar adecuadamente la primera mitad de la trama TCX20.

La Figura 4 es un diagrama que muestra corrección prospectiva de solapamiento (FAC) aplicada al diagrama de la Figura 2. La Figura 4 ilustra la situación en el descodificador, donde ya se ha aplicado una segunda vez el enventanado, por ejemplo una ventana de coseno aplicada mediante MDCT, después de la transformada inversa. Solamente se considera la transición desde ACELP a TCX20, con independencia de la trama que sigue a la trama TCX20. En la Figura 4, por lo tanto, las muestras en donde se aplica la corrección FAC corresponden a la primera mitad de la trama TCX20. Esto es lo que se denomina zona FAC, 402. En este ejemplo hay dos efectos que son compensados por el FAC. El primer efecto es el efecto de enventanado, que se indica con x_w 404 en la Figura 4. Corresponde al producto de las muestras de la primera mitad de la trama TCX20 206 por el 2.° cuarto 204b de la ventana no rectangular de la Figura 3. Así, la primera parte de la corrección FAC comprende sumar el complemento de estas muestras enventanadas, que corresponde a la corrección para el segmento x_w 406 de la Figura 4. Por ejemplo, si en el codificador se ha multiplicado una muestra de entrada dada x[n] por la muestra de ventana w[n], entonces el complemento de esta muestra enventanada es simplemente ((1-w[n]) veces x[n]). La suma de x_w 404 y la corrección para x_w 406 es 1 para todas las muestras de este segmento. La segunda parte de la corrección FAC corresponde al componente de solapamiento en dominio de tiempo que fue sumado en el codificador a la trama TCX20. Para eliminar este componente de solapamiento, denominado parte x_a 408 de solapamiento en la Figura 4, se invierte en el tiempo la corrección para x_a 406 de la Figura 4, se alinea con la primera mitad de la trama TCX20 y se suma a esta primera mitad del segmento, que se indica como parte x_a 408 de solapamiento. La razón por la que se suma, y no se resta, es que, en la Figura 3, la parte izquierda del plegado que lleva al solapamiento en dominio de tiempo ha implicado restar este componente, por lo que ahora se vuelve a sumar para eliminarlo. La suma de estas dos partes, la compensación x_w 404 de ventana y la compensación x_a 408 de solapamiento, forma la corrección FAC completa en la zona FAC 402.

Existen varias opciones para codificar la corrección FAC. La Figura 5 es un diagrama que muestra una corrección FAC no plegada (izquierda) y una corrección FAC plegada (derecha). Una opción puede consistir en codificar directamente la señal FAC enventanada, como se muestra en el lado izquierdo de la Figura 5. Esta señal, denominada ventana FAC 502 en la Figura 5, cubre el doble de la longitud de la zona FAC. Después, en el descodificador se puede plegar (invirtiendo en el tiempo la mitad izquierda y sumándola a la mitad derecha) la señal FAC enventanada, descodificada, y luego se puede sumar esta señal plegada, en forma de una corrección 504, a la zona FAC 402, como se muestra en el lado derecho de la Figura 5. En este enfoque se codifican el doble de muestras en dominio de tiempo, si se compara con la longitud de la corrección.

Otro enfoque para codificar la señal de corrección FAC que se muestra a la izquierda de la Figura 5 consiste en realizar el plegado en el codificador antes de codificar esta señal. Esto da como resultado la señal plegada de la derecha de la Figura 5, en donde se invierte en el tiempo la mitad izquierda de la señal FAC enventanada y se suma a la mitad derecha de la señal FAC enventanada. A continuación, se puede aplicar a esta señal plegada la codificación por transformada, empleando DCT, por ejemplo. En el descodificador, se puede simplemente sumar la señal plegada, descodificada, a la zona FAC, puesto que el plegado ya ha sido aplicado en el codificador. Este enfoque permite codificar el mismo número de muestras en dominio de tiempo que la longitud de la zona FAC, lo que da como resultado una codificación por transformada muestreada de manera crítica.

Otro enfoque más para codificar la señal de corrección FAC que se muestra a la izquierda de la Figura 5 consiste en utilizar el plegado implícito de la MDCT. La Figura 6 es una ilustración de una primera aplicación de un método de corrección FAC que utiliza MDCT. En el cuadrante superior izquierdo se muestra un contenido de la ventana FAC 502, con una ligera modificación. En concreto, el último cuarto de la ventana FAC 502a ha sido desplazado hacia la izquierda de la ventana FAC 502 e invertido de signo (502b). En otras palabras, la ventana FAC de la Figura 5 ha sido rotada cíclicamente hacia la derecha en 1/4 de su longitud total, y luego se ha invertido el signo del primer cuarto de las muestras. A continuación, se aplica una MDCT a esta señal enventanada. La MDCT aplica, implícitamente por su construcción matemática, una operación de plegado, que da como resultado la señal plegada 602 que se muestra en el cuadrante superior derecho de la Figura 6. Este plegado en la MDCT aplica una inversión de signo en la parte izquierda 502b, pero no en la parte derecha 502c, donde se suma el segmento plegado. Comparando la señal plegada resultante 602 con la corrección FAC completa 504 de la Figura 5, se puede ver que es equivalente a la corrección FAC 504 salvo por la inversión en tiempo. Así, en el descodificador, después de una MDCT inversa (IMDCT), se invierte en el tiempo (o se voltea) esta señal 602, que es una señal de corrección FAC invertida, y se convierte en una señal de corrección FAC 604 como se muestra en el cuadrante inferior derecho de la Figura 6. Al igual que antes, se puede sumar esta corrección FAC 604 a la señal de la zona FAC de la Figura 4.

En el caso específico de una transición desde una trama ACELP a una trama TCX, se puede lograr mayor eficiencia aprovechando información ya disponible en el descodificador. La Figura 7 es un diagrama de una corrección FAC que utiliza información del modo ACELP. En el descodificador se conoce una señal 702 de síntesis ACELP hasta el final de la trama ACELP 202. Además, una respuesta de entrada cero (ZIR, por sus siglas en inglés) 704 de un filtro de síntesis tiene buena correlación con la señal al principio de la trama TCX20 206. Ya se utiliza esta particularidad

5

10

15

20

25

30

35

40

45

50

55

60

en el estándar 3GPP AMR-WB+ para gestionar transiciones desde tramas ACELP a tramas TCX. En este caso, dicha información se utiliza para dos fines: 1) reducir la amplitud de la señal a codificar como corrección FAC y 2) asegurar la continuidad en la señal de error al objeto de mejorar la eficiencia de la codificación MDCT de esta señal de error. Observando la Figura 7, se calcula de la siguiente manera una señal 706 de corrección que se ha de codificar para transmitir la corrección FAC. La primera mitad de esta señal 706 de corrección, es decir, hasta el final de la trama 202 de ACELP, se toma como la diferencia 708 entre la señal ponderada 710 en el dominio original, no codificado, y la señal de síntesis ponderada 702 de la trama ACELP 202. Dado que el módulo de codificación ACELP tiene un rendimiento suficiente, esta primera mitad de la señal 706 de corrección tiene energía y amplitud reducidas en comparación con la señal original. A continuación, para una segunda mitad de dicha señal 706 de corrección, se toma la diferencia 708 entre la señal ponderada 712 en el dominio original, no codificado, al comienzo de la trama TCX20 206 y la respuesta de entrada cero 704 del filtro de síntesis ponderada ACELP. Dado que la respuesta de entrada cero 704 está correlacionada con la señal ponderada 712, al menos en cierta medida, especialmente al comienzo de la trama TCX20, esta diferencia tiene una amplitud y energía menores en comparación con la señal ponderada 712 al comienzo de la trama TCX20. Esta eficiencia de la respuesta 704 de entrada cero en el modelado de la señal original es típicamente mayor al comienzo de la trama. Añadiendo el efecto de la ventana FAC 502, que tiene una amplitud decreciente para esta segunda mitad de la ventana FAC, la forma de la segunda mitad de la señal 706 de corrección de la Figura 7 debería tender hacia cero al principio y al final, estando concentrada posiblemente más energía en el centro de la segunda mitad de la ventana FAC 502, dependiendo de la precisión de ajuste de la ZIR con respecto a la señal ponderada. Después de realizar estas operaciones de enventanado y de diferencia como se ha descrito en relación con la Figura 7, se puede codificar la señal de corrección resultante 706 como se ha descrito en las Figuras 5 o 6, o mediante cualquier método seleccionado para codificar la señal FAC. En el descodificador se recalcula la señal de corrección FAC real descodificando en primer lugar la señal de corrección transmitida 706 descrita más arriba, y volviendo a sumar después la señal 702 de síntesis ACELP a la señal 706, en la primera mitad de la ventana FAC 502, y sumando la ZIR 704 a la misma señal 706, en la segunda mitad de la ventana FAC 502.

Hasta este momento, la presente descripción ha descrito transiciones desde una trama que utiliza una ventana rectangular, sin superposición, a una trama que utiliza una ventana no rectangular, con superposición, tomando como ejemplo el caso de una transición desde una trama ACELP a una trama TCX. Se entiende que se puede presentar la situación opuesta, es decir, una transición desde una trama TCX a una trama ACELP. La Figura 8 es un diagrama de una corrección FAC aplicada durante la transición desde una trama que utiliza una ventana no rectangular, con superposición, a una trama que utiliza una ventana rectangular, sin superposición. La Figura 8 muestra una trama TCX20 802 seguida por una trama ACELP 804, con una ventana TCX20 806 plegada, como se ve en el descodificador, en la trama TCX. La Figura 8 muestra también una zona FAC 810 en donde se aplica una corrección FAC para cancelar el efecto de enventanado y el solapamiento en dominio de tiempo al final de la trama TCX20 802. Cabe señalar que la trama ACELP 804 no porta la información para cancelar estos efectos. La ventana FAC 812 es simétrica respecto a la ventana FAC 502 de la Figura 5.

Se representa así el plegado de las dos partes (812 izquierda y 812 derecha) de la ventana FAC 812 en el caso de una transición desde una trama TCX a una trama ACELP. Si se compara con la Figura 5, las diferencias son las siguientes: la ventana FAC 812 está ahora invertida en el tiempo, y el plegado de la parte de solapamiento aplica una operación de resta, en lugar de una suma como se ilustra en la Figura 5, para ser coherente con el signo de plegado de la MDCT en esa parte de la ventana.

La Figura 9 es un diagrama de una corrección FAC no plegada (izquierda) y una corrección FAC plegada (derecha). La ventana FAC 812 está reproducida en el lado izquierdo de la Figura 9. Se puede codificar la señal 902 de corrección FAC plegada utilizando una DCT o cualquier otro método aplicable. Suponiendo una ventana de Hanning en la transformada, como se usa en la MDCT, por ejemplo, las ecuaciones 904 y 906 de la Figura 9 describen la ventana FAC 812 en el caso de la Figura 9. Por supuesto, cuando se emplean otras formas de ventana, se utilizan para describir la ventana FAC otras ecuaciones coherentes con las formas de ventana. Además, el empleo de una ventana de tipo Hanning en la MDCT significa que se utiliza una ventana de coseno en el codificador, antes de la MDCT y, de nuevo, se utiliza una ventana de coseno en el descodificador, después de la IMDCT. Es la combinación muestra por muestra de estas dos ventanas de coseno lo que origina la forma de ventana de Hanning deseada, que tiene la forma complementaria adecuada para la superposición y suma en la porción de 50% de superposición de la ventana.

De nuevo, también se puede emplear un enfoque MDCT para codificar la ventana FAC, como se ha descrito en la Figura 6. La Figura 10 es una ilustración de una segunda aplicación del método de corrección FAC que utiliza MDCT. En el cuadrante superior izquierdo de la Figura 10 se muestra la ventana FAC 812 de la Figura 8. El primer cuarto 812a de la ventana FAC 812 ha sido desplazado hacia la derecha de la ventana FAC e invertido de signo (812b). En otras palabras, la ventana FAC 812 ha sido rotada cíclicamente hacia la izquierda en 1/4 de su longitud total, y luego se ha invertido el signo del último cuarto de las muestras. En el cuadrante superior derecho de la Figura 10 se aplica después una MDCT a esta señal enventanada. La MDCT aplica, internamente, una operación de plegado que da como resultado la señal plegada 1002 que se muestra en el cuadrante superior derecho de la Figura 10. Este plegado en la MDCT aplica una inversión de signo en la parte izquierda 812c, pero no en la parte derecha 812b, donde se suma el segmento plegado. Si se compara la señal plegada resultante 1002 con la señal de corrección FAC 902 en el lado derecho de la Figura 9, se puede ver que es equivalente, salvo por la inversión en

5

10

15

20

25

30

35

40

45

50

55

60

tiempo (volteo) y la inversión de signo. Por lo tanto, en el descodificador, tras la IMDCT, se invierte en el tiempo (o se voltea) esta señal 1002, que es una corrección FAC invertida, y se invierte de signo, con lo que se convierte en una corrección FAC 1004 como se muestra en el cuadrante inferior derecho de la Figura 10. Al igual que antes, se puede sumar esta corrección FAC 1004 a la señal de la zona FAC de la Figura 8.

La cuantificación de la señal correspondiente a la corrección FAC requiere un debido cuidado. De hecho, la corrección FAC es una parte de la señal codificada en dominio de transformada, que incluye, por ejemplo, las tramas TCX20 utilizadas en los ejemplos de las Figuras 2 a 10, ya que se suma a la trama para compensar los efectos de enventanado y solapamiento. Dado que la cuantificación de esta corrección FAC introduce distorsión, se controla esta distorsión de manera que se mezcle adecuadamente en la trama codificada en dominio de transformada o coincida con la distorsión de la misma, y no introduzca artefactos audibles en esta transición correspondiente a la zona FAC. Si el nivel de ruido debido a la cuantificación, así como la forma del ruido de cuantificación en el dominio de tiempo y frecuencia, se mantienen aproximadamente iguales en la señal de corrección FAC y en la trama codificada basada en transformada donde se aplica la corrección FAC, entonces la corrección FAC no introduce distorsión adicional.

Existen varios enfoques posibles para cuantificar la señal de corrección FAC, entre ellos, pero sin limitación, la cuantificación escalar, cuantificación vectorial, libros de códigos estocásticos, libros de códigos algebraicos y similares. En todos los casos se puede entender que existe una fuerte correlación entre los atributos de los coeficientes de la corrección FAC y los coeficientes de la trama codificada en dominio de transformada correspondiente, como ocurre en la trama TCX20 ilustrativa. De hecho, las muestras en dominio de tiempo utilizadas en la zona FAC deben ser las mismas muestras en dominio de tiempo del principio de la trama codificada en dominio de transformada. Por lo tanto, los factores de escala utilizados en el dispositivo de cuantificación aplicado a la trama codificada en dominio de transformada son aproximadamente los mismos que los factores de escala utilizados en el dispositivo de cuantificación aplicado a la corrección FAC. Por supuesto, el número de muestras, o de coeficientes en dominio de frecuencia, de la corrección FAC no es el mismo que en la trama codificada en dominio de transformada: la trama codificada en dominio de transformada tiene más muestras que la corrección FAC, que cubre solamente una parte de la trama codificada en dominio de transformada. Lo que es importante es mantener el mismo nivel de ruido de cuantificación, por coeficiente en dominio de frecuencia, en la señal de corrección FAC que en la trama codificada en dominio de transformada correspondiente (por ejemplo, una trama TCX20).

Tomando el ejemplo específico de la cuantificación vectorial algebraica (AVQ) utilizada en el estándar de codificación de audio 3GPP AMR-WB+ para cuantificar los coeficientes espectrales, y aplicándolo a la cuantificación de la corrección FAC, se puede extraer la siguiente observación. La ganancia global de la AVQ, calculada en la cuantificación de la trama codificada en dominio de transformada, por ejemplo una trama TCX20, ganancia global que se utiliza para escalar las amplitudes de los coeficientes en dominio de frecuencia con el fin de mantener el consumo de bits por debajo de un presupuesto de bit específico, puede ser una ganancia de referencia para la utilizada en la cuantificación de la trama FAC. Esto se aplica también a cualesquiera otros factores de escala, por ejemplo, los factores de escala utilizados en un potenciador de baja frecuencia adaptativo o ALFE (del inglés "adaptive low-frequency enhancer"), como el utilizado en el estándar AMR-WB+. Otros ejemplos adicionales incluyen los factores de escala en la codificación AAC. También se consideran en esta categoría cualesquiera otros factores de escala que controlen el nivel de ruido y la forma en el espectro.

Dependiendo de la longitud de la trama codificada en dominio de transformada, se aplica una correspondencia m a 1 de estos parámetros de factor de escala entre la trama codificada en dominio de transformada y la corrección FAC. Por ejemplo, en caso de que se utilicen tres longitudes de trama TCX de 20 ms, 40 ms u 80 ms, como en el códec de audio MPEG USAC, los factores de escala, por ejemplo los factores de escala utilizados en ALFE, utilizados para m coeficientes en dominio espectral consecutivos en la trama codificada en dominio de transformada, se pueden utilizar para 1 coeficiente en dominio espectral en la corrección FAC.

Para emparejar el nivel de error de cuantificación de la corrección FAC con el nivel de error de cuantificación de la trama codificada basada en transformada, resulta adecuado tener en cuenta, en el codificador, el error de codificación de la trama codificada basada en transformada, enventanada. La Figura 11 es un diagrama de bloques de cuantificación FAC que incluye corrección de error TCX. En primer lugar, se calcula una diferencia 1102 entre la señal enventanada y plegada en la trama TCX 1104 y la síntesis TCX enventanada y plegada de esa trama 1106. En este contexto, la síntesis TCX 1106 es simplemente la transformada inversa (que incluye el enventanado aplicado en el descodificador) de los coeficientes cuantificados en dominio de transformada de esa trama TCX. Después, en 1110, se suma esta señal 1108 de diferencia, o error de codificación TCX, a la señal 1112 de corrección FAC, sincronizada con la zona FAC. Luego se cuantifica esta señal compuesta 1114, que comprende la señal 1112 de corrección FAC más el error de codificación 1108 de la trama TCX, mediante un cuantificador 1116 para su transmisión al descodificador. En sí, esta señal de corrección FAC cuantificada 1118, según la Figura 11, corrige, en el descodificador, el efecto de enventanado y el efecto de solapamiento, así como el error de codificación TCX en la zona FAC. El uso de los factores de escala TCX 1120, como se muestra en la Figura 11, permite emparejar la distorsión de la corrección FAC con la distorsión en la trama TCX.

La Figura 12 es un diagrama de un caso de empleo de la corrección FAC en un sistema multimodo de codificación. Se proporcionan ejemplos que muestran conmutación entre ventanas de forma regular, con 50% o más de

5

10

15

20

25

30

35

40

45

50

55

60

superposición, y ventanas con formas variables, entre ellas las ventanas FAC. En la Figura 12, la parte inferior se puede ver como una continuación de la parte superior en el eje de tiempo. En la Figura 12 se supone que todas las tramas se codifican después de preprocesar la señal de audio de entrada mediante un proceso de filtrado variable en el tiempo, que puede ser, por ejemplo, un filtro de ponderación derivado de un análisis LPC sobre la señal de entrada o algún otro procesamiento con el fin de ponderar la señal de entrada. En este ejemplo, la señal de entrada se codifica, hasta el "punto de conmutación A", utilizando un enfoque perteneciente a la familia de las codificaciones de audio del estado de la técnica, por ejemplo AAC, en donde las ventanas de análisis están optimizadas para codificar en dominio de frecuencia. Típicamente, esto significa utilizar ventanas con 50% de superposición y forma regular, como ocurre en la ventana de coseno utilizada en la codificación MDCT, aunque se pueden emplear para este fin otras formas de ventana. A continuación, entre el "punto de conmutación A" y el "punto de conmutación B", se codifica la señal de entrada utilizando ventanas de longitud y forma variables, no necesariamente optimizadas para codificación en dominio de transformada, sino más bien diseñadas para lograr cierto compromiso entre la resolución en tiempo y en frecuencia para los modos de codificación utilizados en este segmento. La Figura 12 muestra el ejemplo específico de los modos de codificación ACELP y TCX utilizados en este segmento. Se puede apreciar que las formas de las ventanas, para estos modos de codificación, son significativamente heterogéneas y varían en forma y longitud. La ventana ACELP es rectangular y no tiene superposición, mientras que la ventana para TCX es no rectangular y tiene superposición. Aquí es donde se utiliza la ventana FAC para cancelar el solapamiento en dominio de tiempo, como se ha descrito más arriba en la presente memoria. La propia ventana FAC, que se muestra en negrita en la Figura 12, con su forma y longitud específicas, es una de las ventanas de forma variable encerradas en el segmento entre el "punto de conmutación A" y el "punto de conmutación B".

La Figura 13 es un diagrama de otro caso de empleo de la corrección FAC en un sistema multimodo de codificación. La Figura 13 muestra cómo se puede utilizar la ventana FAC en un contexto en el que un codificador cambia localmente desde ventanas con forma regular a ventanas con forma variable, para codificar una señal transitoria. Esto es similar al contexto de codificación AAC, donde se utilizan una ventana de inicio y una de parada para utilizar localmente ventanas con soporte de tiempo menor para codificar transitorios. Aquí, en cambio, en la Figura 13 la señal entre el "punto de conmutación A" y el "punto de conmutación B", que se supone que es un transitorio, se codifica utilizando codificación multimodo, que implica ACELP y TCX en el ejemplo ilustrado, lo cual requiere el uso de la ventana FAC para gestionar adecuadamente la transición con el modo de codificación ACELP.

Las Figuras 14 y 15 son diagramas de primer y segundo casos de empleo de la corrección FAC al conmutar entre tramas cortas basadas en transformada y tramas ACELP. Estos son casos en donde la conmutación se realiza entre tramas cortas basadas en transformada en el dominio LPC, por ejemplo, tramas TCX cortas, y tramas ACELP. El ejemplo de las Figuras 14 y 15 puede verse como una situación local en una señal más larga que también puede utilizar otros modos de codificación en otras tramas (no mostradas). Cabe señalar que la ventana para las tramas TCX cortas de las Figuras 14 y 15 puede tener una superposición de más de 50%. Por ejemplo, esto puede ser así en el códec AAC de bajo retardo, que utiliza una ventana asimétrica larga. En ese caso, algunas ventanas de inicio y de parada específicas están diseñadas para permitir una conmutación adecuada entre estas ventanas asimétricas largas y las ventanas TCX cortas de las Figuras 14 y 15.

La Figura 16 es un diagrama de bloques de un ejemplo no limitante del dispositivo 1600 para la cancelación prospectiva de solapamiento en dominio de tiempo en una señal codificada recibida en una cadena de bits 1601. El dispositivo 1600 se presenta, con fines de ilustración, haciendo referencia a la corrección FAC de la Figura 7 que utiliza información del modo ACELP. Los expertos ordinarios en la materia apreciarán que se puede implementar un dispositivo 1600 correspondiente en relación con cualquier otro ejemplo de corrección FAC ofrecido en la presente descripción.

El dispositivo 1600 comprende un receptor 1610 para recibir la cadena de bits 1601 representativa de una señal de audio codificada que incluye la corrección FAC.

Las tramas ACELP de la cadena de bits 1601 se envían a un descodificador ACELP 1611 que incluye un filtro de síntesis ACELP. El descodificador ACELP 1611 produce una respuesta de entrada cero (ZIR) 704 del filtro de síntesis ACELP. Además, el descodificador de síntesis ACELP 1611 produce una señal de síntesis ACELP 702. La señal de síntesis ACELP 702 y la ZIR 704 se concatenan para formar una señal de síntesis ACELP seguida por la ZIR. Se aplica entonces la ventana FAC no plegada 502 a las señales concatenadas 702 y 704, y después se pliega y se suma en el procesador 1605, y luego se aplica a una entrada positiva de un sumador 1620 para proporcionar una primera parte (opcional) de la señal de audio en tramas TCX.

Los parámetros (prm) para tramas TCX20 de la cadena de bits 1601 se envían a un descodificador TCX 1606, seguido de una transformada IMDCT y una ventana 1613 para la IMDCT, con el fin de producir una señal de síntesis TCX20 1602 aplicada a una entrada positiva del sumador 1616 al objeto de proporcionar una segunda parte de la señal de audio en tramas TCX20.

Sin embargo, en una transición entre modos de codificación (por ejemplo, desde una trama ACELP a una trama TCX20), una parte de la señal de audio no sería correctamente descodificada sin el uso de un cancelador FAC 1615. En el ejemplo de la Figura 16, el cancelador FAC 1615 comprende un descodificador FAC 1617 para descodificar desde la cadena de bits recibida 1601 la señal 504 de corrección (Figura 5) que corresponde a la señal 706 de

5

10

15

20

25

30

35

40

45

50

55

corrección (Figura 7) tras el plegado como en la Figura 5 y una DCT inversa (IDCT). La salida de la IDCT 1618 es enviada a una entrada positiva del sumador 1620. La salida del sumador 1620 es enviada a una entrada positiva del sumador 1616.

La salida global del sumador 1616 representa la señal de síntesis FAC cancelada para una trama TCX que sigue a una trama ACELP.

La Figura 17 es un diagrama de bloques de un ejemplo no limitante de dispositivo 1700 para cancelación prospectiva de solapamiento en dominio de tiempo en una señal codificada para transmisión a un descodificador. Se presenta el dispositivo 1700, con fines de ilustración, haciendo referencia a la corrección FAC de la Figura 7 que utiliza información del modo ACELP. Los expertos ordinarios en la materia apreciarán que se puede implementar un dispositivo 1700 correspondiente en relación con cualquier otro ejemplo de corrección FAC ofrecido en la presente descripción.

Se aplica al dispositivo 1700 una señal 1701 de audio a codificar. Una lógica (no mostrada) aplica tramas ACELP de la señal 1701 de audio a un codificador ACELP 1710. Una salida del codificador ACELP 1710, los parámetros 1702 codificados con ACELP, es aplicada a una primera entrada de un multiplexor (MUX) 1711. Otra salida del codificador ACELP es una señal de síntesis ACELP 1760 seguida de la respuesta de entrada cero (ZIR) 1761 de un filtro de síntesis ACELP del codificador 1710. Se aplica una ventana FAC 502 a la concatenación de señales 1760 y 1761. La salida del procesador de ventana FAC 502 se aplica a una entrada negativa de un sumador 1751.

La lógica (no mostrada) también aplica tramas TCX20 de la señal de audio 1701 a un módulo 1712 de codificación MDCT para producir los parámetros codificados TCX20 1703 aplicados a una segunda entrada del multiplexor 1711. El módulo 1712 de codificación MDCT comprende una ventana MDCT 1731, una transformada MDcT 1732 y un cuantificador 1733. La entrada enventanada al módulo 1732 de MDCT es enviada a una entrada positiva de un sumador 1750. Los coeficientes MDCT cuantificados 1704 se aplican a una MDCT inversa (IMDCT) 1733, y la salida de la IMDCT 1733 es enviada a una entrada negativa del sumador 1750. La salida del sumador 1750 forma un error de cuantificación TCX, que se enventana en el procesador 1736. La salida del procesador 1736 es enviada a una entrada positiva de un sumador 1751. Como se indica en la Figura 17, se puede utilizar opcionalmente en el dispositivo la salida del procesador 1736.

En caso de una transición entre modos de codificación (por ejemplo, desde una trama ACELP a una trama TCX20), algunas de las tramas de audio codificadas por el módulo MDCT 1712 pueden no descodificarse adecuadamente sin información adicional. Un calculador 1713 proporciona esta información adicional, más específicamente la señal 706 de corrección (Figura 7). Todos los componentes del calculador 1713 pueden verse como productores de una señal de corrección FAC. Producir una señal de corrección FAC comprende aplicar una ventana FAC 502 a la señal 1701 de audio, proporcionar la salida de la ventana FAC 502 a una entrada positiva del sumador 1751, proporcionar la salida del sumador 1751 a la MDCT 1734 y cuantificar la salida de MDCT 1734 en el cuantificador 1737 para producir los parámetros FAC 706 que se aplican a una entrada del multiplexor 1711.

La señal a la salida del multiplexor 1711 representa la señal de audio codificada 1755 para ser transmitida a un descodificador (no mostrado) a través de un transmisor 1756 en una cadena de bits codificada 1757.

Los expertos ordinarios en la materia apreciarán que la descripción de los dispositivos y métodos para la cancelación prospectiva de solapamiento en dominio de tiempo en una señal codificada son únicamente ilustrativos y no se pretende en modo alguno que sean limitantes. A los expertos ordinarios en la materia se les ocurrirán fácilmente, con el beneficio de la presente descripción, otras realizaciones. Además, los sistemas descritos se pueden personalizar para ofrecer soluciones valiosas a necesidades existentes y problemas para cancelar solapamiento en dominio de tiempo en una señal codificada.

Los expertos ordinarios en la técnica apreciarán también que numerosos tipos de terminales u otros aparatos pueden incorporar tanto aspectos de codificación para la transmisión de audio codificado, como aspectos de descodificación tras la recepción de audio codificado, en un mismo dispositivo.

En aras de la claridad, no se muestran ni se describen todas las características rutinarias de las implementaciones de cancelación prospectiva de solapamiento en dominio de tiempo en una señal codificada. Por supuesto, se apreciará que, en el desarrollo de cualquier implementación real de la codificación de audio, se deben tomar numerosas decisiones específicas de implementación para alcanzar los objetivos específicos del desarrollador, por ejemplo el cumplimiento con restricciones relacionadas con la aplicación, el sistema o la red, y de tipo económico, y que estos objetivos específicos variarán de una implementación a otra y de un desarrollador a otro. Además, se apreciará que un esfuerzo de desarrollo puede ser complejo y requerir mucho tiempo, pero, no obstante, constituiría una tarea rutinaria de ingeniería para los expertos ordinarios en el campo de los sistemas de codificación de audio que tienen el beneficio de esta divulgación.

De acuerdo con la presente descripción, los componentes, pasos de proceso y/o estructuras de datos descritos en la presente memoria se pueden implementar mediante el uso de diversos tipos de sistemas operativos, plataformas informáticas, dispositivos de red, programas informáticos y/o máquinas de propósito general. Además, los expertos ordinarios en la técnica reconocerán que también se pueden emplear dispositivos cuya naturaleza sea de uso

menos general, tales como dispositivos cableados físicamente, arreglos de puertas programabas en campo (FPGA), circuitos integrados específicos de la aplicación (ASIC), o similares. Cuando un ordenador o una máquina implementan un método que comprende una serie de pasos de proceso y esos pasos de proceso pueden ser almacenados como una serie de instrucciones legibles por la máquina, pueden almacenarse en un medio tangible.

5 Los sistemas y módulos descritos en la presente memoria pueden comprender software, firmware, hardware o cualquier combinación de software, firmware o hardware adecuados para los fines descritos en la presente memoria. El software y otros módulos pueden residir en servidores, estaciones de trabajo, ordenadores personales, tabletas computarizadas, asistentes PDA y otros dispositivos adecuados para los fines descritos en la presente memoria. El software y otros módulos pueden ser accesibles a través de la memoria local, a través de una red, a través de un

10 navegador u otra aplicación en un contexto ASP o por otros medios adecuados para los fines descritos en la presente memoria. Las estructuras de datos descritas en la presente memoria pueden comprender archivos informáticos, variables, matrices de programación, estructuras de programación o cualquier esquema o método de almacenamiento de información electrónica, o cualquier combinación de los mismos, adecuada para los fines descritos en la presente memoria.

15 Aunque la presente invención se ha descrito en lo que precede dentro de la presente memoria por medio de realizaciones ilustrativas no restrictivas de la misma, estas realizaciones se pueden modificar a voluntad dentro del alcance de la reivindicación adjunta.

REIVINDICACIÓN

1. Un método para cancelación prospectiva de solapamiento en dominio de tiempo en una señal codificada transmitida en una cadena de bits (1601, 1757) desde un codificador (1700) a un descodificador (1600), que comprende:

5 en el codificador, calcular (1713) información adicional relacionada con la corrección del solapamiento en dominio de tiempo en la señal codificada, en donde calcular la información adicional comprende producir una señal (504, 604, 706, 902, 1002, 1004, 1112, 1118) de corrección para cancelación prospectiva de solapamiento (FAC) y cuantificar (1116) la señal de corrección FAC con respecto a factores de escala utilizados en cuantificar trama utilizando ventana no rectangular, con superposición;

10 enviar (1756) en la cadena de bits (1757) al descodificador la información adicional relacionada con la corrección del solapamiento en dominio de tiempo en la señal codificada; y

en el descodificador, cancelar (1615) el solapamiento en dominio de tiempo en la señal codificada en respuesta a dicha información adicional.

Claims

imagen1

REIVINDICACIONES

1. Un método para cancelación prospectiva de solapamiento en dominio de tiempo en una señal codificada transmitida en una cadena de bits (1601, 1757) desde un codificador (1700) a un descodificador (1600), que comprende:

5 en el codificador, calcular (1713) información adicional relacionada con la corrección del solapamiento en dominio de tiempo en la señal codificada, en donde calcular la información adicional comprende producir una señal (504, 604, 706, 902, 1002, 1004, 1112, 1118) de corrección para cancelación prospectiva de solapamiento (FAC) y cuantificar (1116) la señal de corrección FAC con respecto a factores de escala utilizados en cuantificar trama utilizando ventana no rectangular, con superposición;

10 enviar (1756) en la cadena de bits (1757) al descodificador la información adicional relacionada con la corrección del solapamiento en dominio de tiempo en la señal codificada; y

en el descodificador, cancelar (1615) el solapamiento en dominio de tiempo en la señal codificada en respuesta a dicha información adicional.

12