MX2011000369A

MX2011000369A - Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.

Info

Publication number: MX2011000369A
Application number: MX2011000369A
Authority: MX
Inventors: Philippe Gournay; Markus Multrus; Stefan Bayer; Nikolaus Rettelbach; Jeremie Lecomte
Original assignee: Ten Forschung Ev Fraunhofer
Priority date: 2008-07-11
Filing date: 2009-07-08
Publication date: 2011-07-29
Also published as: JP2011527459A; AR072556A1; TWI441168B; KR101227729B1; US8751246B2; CN102105930A; AU2009267394A1; RU2011104004A; BR122021009252B1; WO2010003663A1; PL2311034T3; ZA201100090B; MY156654A; BRPI0910784A2; RU2498419C2; EP2311034A1; BR122021009256B1; BRPI0910784B1; US20110173008A1; JP5369180B2

Abstract

Un codificador de audio (100) adaptado para codificar marcos de una señal de audio muestreada para obtener marcos codificados, donde un marco comprende un número de muestras de audio del dominio del tiempo, que comprende una etapa de análisis de codificación predictiva (110) para determinar información sobre los coeficientes de un filtro de síntesis e información sobre el marco de dominio de predicción con base en un marco de muestras de audio. El codificador de audio (100) además comprende un transformador del dominio de la frecuencia (120) para transformar un marco de muestras de audio al dominio de la frecuencia para obtener un espectro de marcos y un tomador de decisiones del dominio de codificación (130) para decidir si los datos codificados para un marco se basan en la información sobre los coeficientes y en la información sobre el marco de dominio de predicción, o si se basan en el espectro de marcos. Más aún, el codificador de audio (100) comprende un controlador (140) para determinar una información de un coeficiente de conmutación cuando el tomador de decisiones del dominio de codificación decida que los datos codificados de un marco en curso se basan en la información de los coeficientes y la información sobre el marco de dominio de predicción cuando los datos codificados de un marco previo han sido codificados con base en un espectro de marcos previo, y un codificador reductor de la redundancia (150) para codificar la información sobre el marco de dominio de predicción, la información sobre los coeficientes, la información sobre el coeficiente de conmutación y/o el espectro de marcos.

Description

CODIFICADOR Y DECODIFICADOR DE AUDIO PARA CODIFICAR MARCOS DE SEÑALES DE AUDIO MUESTREADAS DESCRIPCIÓN La presente invención se ubica en el campo de la codificación/decodificación de audio, en especial en los conceptos de codificación de audio en los que se utilizan múltiples dominios de decodificación.

En la técnica, los esquemas de codificación de dominio de la frecuencia tales como MP3 o AAC son conocidos. Estos codificadores del dominio de la frecuencia se basan en una conversión del dominio de' la frecuencia/dominio del tiempo; una etapa de cuántización posterior, donde el error de cuantización es controlado por el uso de información de un módulo psicoacústico, y una etapa de codificación, donde los coeficientes espectrales cuantizados y la información lateral correspondiente están codificados por entropía por el uso de tablas de códigos.

Por el contrario, existen codificadores que son muy adecuados para procesamientos de diálogos tales como AMR-WB+, descripto en 3GPP TS 26.290. Tales esquemas codificadores de diálogos desempeñan un filtrado LP (LP = Predictiva Lineal) de una señal del dominio del tiempo. Un filtrado LP tal, deriva de un análisis de predicción lineal de la señal de entrada , del dominio del tiempo. Luego, los coeficientes resultantes del filtro LP se cuantizan/codifican y se transmiten como información lateral. El proceso es conocido como LPC (LPC = Codificación de Predicción Lineal). En la salida del filtro, la señal residual de predicción o la señal de error de predicción, también denominada señal de excitación, es codificada por el uso de las etapas de "análisis por síntesis" del codificador ACELP o, alternativamente, es codificada por el uso de un codificador de transformación, que utiliza una transformada de Fourier en superposición. La decisión entre la codificación por ACELP y la codificación por Excitación Codificada por Transformada, también denominada TCX, se toma por el uso de un algoritmo de loop cerrado o un algoritmo de loop abierto.

También pueden combinarse esquemas de codificación de audio por dominio de la frecuencia, tales como el esquema de codificación ACC de alta eficiencia, que combina un esquema de codificación AAC y una técnica de replicación de banda espectral, con un estéreo conjunto o una herramienta codificadora con canales múltiples conocida por el término "MPEG surround".

Por el contrario, los codificadores de diálogos tales como el AMR-WB+ también tienen una etapa de potenciación de alta frecuencia y una funcionalidad estéreo.

Los esquemas de codificación de dominio de la frecuencia son ventajosos dado que muestran una alta calidad en velocidades de bits bajas para señales de música. Sin embargo, es problemática la calidad de las señales de diálogo en velocidades de bits bajas. Los esquemas de codificación de diálogos muestran una alta calidad para señales de diálogo, incluso en velocidades de bits bajas, pero muestran una calidad pobre para señales de música en velocidades de bits bajas.

A menudo, los esquemas de codificación de dominio de la frecuencia hacen uso de la denominada MDCT (MDCT= Transformada de Coseno Discreta Modificada). La MDCT ha sido inicialmente descripta en J. Princen, A. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation", IEEE Trans. ASSP, ASSP-34(5):1153-1161 , 1986. La MDCT o banco de filtros MDCT es ampliamente utilizada en los codificadores de audio modernos y eficientes. Esta clase de procesamiento de. señales provee las siguientes ventajas: Fundido cruzado suave entre bloques de procesamiento: incluso si la señal de cada bloque de procesamiento se altera en forma diferente (por ej., debido a la cuantización de coeficientes espectrales), no ocurren artefactos de bloqueo (distorsión en la conversión) causados por transiciones abruptas de bloque a bloque dada la operación de superposición/adición "ventaneada" (windowed), es decir, formada por ventanas.

Muestreo crítico: el número de valores espectrales a la salida del banco de filtrros es igual al número de valores de entrada del dominio del tiempo en sus valores de entrada y de espacio libre inutilizado adicional a ser transmitidos.

El banco de filtros MDCT provee una selectividad de alta frecuencia y una ganancia de codificación.

Estas propiedades destacables se logran por el uso de lá técnica de cancelación de la generación de señales ajenas (aliasing) del dominio del tiempo. La cancelación de aliasing del dominio del tiempo se lleva a cabo en la síntesis por la superposición-adición de dos señales ventaneadas contiguas. Si no se aplica cuantización entre las etapas de análisis y de síntesis de la MDCT, se obtiene una reconstrucción perfecta de la señal original. Sin embargo, la MDCT se utiliza para esquemas de codificación, que se adaptan específicamente para señales de música. Tales esquemas de codificación del dominio del tiempo, de acuerdo con lo indicado con anterioridad, redujeron la calidad en velocidades de bits bajas para señales de diálogo, mientras que los codificadores de diálogo específicamente adaptados tienen una calidad superior en velocidades de bits comparables o incluso tienen velocidades de bits significativamente inferiores para la misma calidad, en comparación con esquemas de codificación del dominio de la frecuencia.

Las técnicas de codificación de diálogo tales como los codificadores AMR-WB+ (AMR-WB+ = Banda Ancha de Multivelocidad Adaptativa extendida), según lo definido en "Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codee", 3GPP TS 26.290 V6.3.0, 2005-06, Technical Specificátion, no utilizan la MDCT y, por lo tanto, no pueden aprovechar ninguna ventaja de las excelentes propiedades de la MDCT que, específicamente, dependen, por un lado, de un procesamiento críticamente muestreado, y, por el otro, de un cruce de un bloque a otro. Por lo tanto, el cruce de un bloque a otro obtenido por la MDCT sin penalidad alguna con respecto a la velocidad de bits y, por lo tanto, la propiedad de muestreo crítico de MDCT aún no ha sido obtenida en los codificadores de diálogo.

Cuando pretenden combinarse codificadores de diálogo y codificadores de audio dentro de un esquema de codificación híbrida simple, aún existe el problema referente a cómo obtener una conmutación de un modo de codificación al otro modo de codificación a una velocidad de bits baja y a una alta calidad.

Los conceptos convencionales de codificación de audio están normalmente diseñados para ser iniciados al comienzo de un archivo de audio o de una comunicación. Por el uso de estos conceptos convencionales, las estructuras de los filtros, como por ejemplo filtros de predicción, alcanzan un estado fijo en un cierto tiempo al comienzo del procedimiento de codificación o decodificación. Sin embargo, para un sistema conmutado de codificación de audio que utiliza por un lado, por ejemplo, codificación basada en transformadas y, por el otro, codificación de diálogo de acuerdo con un análisis previo de la entrada, las estructuras de filtros respectivas no se actualizan en forma activa y continua. Por ejemplo, puede solicitarse que los codificadores de diálogo sean reiniciados con frecuencia en un breve período de tiempo. Una vez reiniciados, un período de inicio es nuevamente iniciado, y los estados internos vuelven a cero. La duración requerida por, por ejemplo, un codificador de diálogo para alcanzar un estado fijo puede ser crítica, en especial, para la calidad de las transiciones.

Los conceptos convencionales como por ejemplo el AMR-WB+, consúltese "Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codee", 3GPP TS 26.290 V6.3.0, 2005-06, Technical specification, utilizan un feinicio total del codificador de diálogo al transitar o conmutar entre el codificador basado en la transformada y el codificador de diálogo. > El AMR-WB+ se optimiza bajo la condición de que comience únicamente cuando la señal esté fundida, suponiendo que no haya interrupciones o reinicios intermedios. Así, todas las memorias del codificador pueden actualizarse en un marco por base de marcos. En el caso de que el AMR-WB+ se utilice en el medio de una señal, debe realizarse un reinicio, y todas las memorias utilizadas en el lado de codificación o decodificación vuelven a cero. Por lo tanto, los conceptos convencionales tienen el problema de que se aplican duraciones demasiado extensas antes de alcanzar un estado fijo del codificador de diálogo, junto con la introducción de distorsiones intensas en las fases no fijas.

Otra desventaja de los conceptos convencionales radica en que utilizan largos segmentos en superposición cuando conmutan dominios de codificación que introducen espacios libres inutilizados, que afectan perjudicialmente. la eficiencia de la codificación.

Es el objetivo de la presente invención proveer un concepto mejorado para la codificación de audio por el uso de la conmutación del dominio de la codificación.

El objetivo se logra con un codificador de audio de acuerdo con la reivindicación 1 , un método para la decodificación de audio de acuerdo con la reivindicación 7, un decodificador de audio de acuerdo con la reivindicación 8, un método para la decoficacion de audio de acuerdo con la reivindicación 14, y un programa de computadora de'acuerdo con la reivindicación 15.

La presente invención se basa en el hallazgo de que los problemas mencionados con anterioridad pueden resolverse en un decodificador, considerando la información de estado de un filtro acorde tras el reinicio. Por ejemplo, tras el reinicio, cuando los estados de Un cierto filtro han sido reajustados en cero, puede acortarse el procedimiento de inicio o preparación, si el filtro no es iniciado desde cero, es decir, con todos, los estados o memorias ajustados en cero, pero alimentado con una información de un cierto estado, a partir de lo que puede lograrse un período de inicio o preparación más breve.

Es otro hallazgo de la de la presente invención el hecho de que dicha información referente a un estado de conmutación puede generarse en el lado del codificador o en el lado del decodificador. Por ejemplo, cuando se conmute entre un concepto de codificación basado en una predicción y un concepto de codificación basado en una transformada, puede proveerse información adicional antes de la conmutación, con el fin de permitir que el decodificador lleve los filtros de síntesis de predicción a un estado fijo antes de efectivamente utilizar sus salidas.

En otras palabras, el hallazgo de la presente invención de que, en especial, cuando se conmute, entre el dominio de la transformada al dominio de predicción en un codificador de audio conmutado, información adicional de los estados de los filtros justo antes de una conmutación propiamente dicha al dominio de predicción, puede resolver el problema de la generación de los artefactos de conmutación.

Es otro hallazgo de la presente invención el hecho de que tal información de la conmutación puede generarse únicamente en el decodificador, considerando sus salidas justo antes de que ocurra la conmutación propiamente dicha, y que básicamente el procesamiento del codificador se desarrolla en dicha salida, para determinar una información del filtro de los estados de memoria justo antes de la conmutación. Por lo dicho, algunas realizaciones pueden utilizar codificadores convencionales y reducir el problema de los artefactos de conmutación únicamente por el procesamiento del decodificador. Considerando dicha información, por ejemplo, los filtros de predicción ya pueden ir preparándose antes de la conmutación propiamente dicha, por ej., por el análisis de la salida de un decodificador del dominio de la transformada correspondiente.

A continuación, se detallan realizaciones de la presente invención mediante el uso de las figuras adjuntas, donde: La Fig. 1 muestra una realización de un codificador de audio; La Fig. 2 muestra una realización de un decodificador de audio; La Fig. 3 muestra una forma de ventana utilizada por una realización; Las Figs. 4a y 4b ilustran la MDCT y el aliasing del dominio del tiempo; La Fig. 5 ilustra un diagrama esquemático de una realización para la cancelación del aliasing del dominio del tiempo; Las Figs. 6a-6g ilustran señales que están procesadas para la cancelación del aliasing del dominio del tiempo en una realización; Las Figs. 7a-7g ilustran una cadena de procesamiento de señales para una cancelación del aliasing del dominio del tiempo en una realización en que se utiliza un decodificador de la predicción lineal; Las Figs. 8a-8g ilustran una cadena de procesamiento de señales en una realización con cancelación del aliasing del dominio del tiempo; y Las Figs. 9a y 9b ilustran un procesamiento de señales en los lados del codificador y decodificador en realizaciones.

La Fig. 1 muestra una realización de un codificador de audio 100. El codificador de audio 100 se adapta para codificar marcos de una señal de audio muestreada para obtener marcos codificados, donde un marco comprende un número de muestras de audio del dominio del tiempo. La realización del codificador de audio comprende una etapa de análisis de codificación predictiva 1 10 para determinar una información de los coeficientes de un filtro de síntesis y una información sobre un marco de predicción con base en un marco de muestras de audio. En realizaciones, el marco de dominio de predicción puede corresponder a un marco de excitación o a una versión filtrada de un marco de excitación. De aquí en más, puede referirse a la codificación del dominio de predicción cuando se codifique una información sobre los coeficientes de un filtro de síntesis y una información de un marco del dominio de predicción con base en un marco de muestras de audio.

Más aún, la realización del codificador de audio 100 comprende un transformador del dominio de la frecuencia 120 para transformar un marco de muestras de audio al dominio de la frecuencia para obtener un espectro de marcos. De aquí en más, puede referirse a la codificación del dominio de la transformada cuando se codifique un espectro de marcos. Además, la realización del codificador de audio 100 comprende un tomador de decisiones del dominio de codificación 130 para decidir, si los datos codificados para un marco se basan en la información sobre los coeficientes y en la información del marco del dominio de predicción, o si se basan en el espectro de marcos. La realización del codificador , de audio 100 comprende un controlador 140 para determinar una información de un coeficiente de conmutación, cuando el tomador de decisiones del dominio de codificación decida que los datos codificados de un marco en curso se basan en la información sobre los coeficientes y en la información sobre el marco de dominio de predicción cuando los datos codificados de un marco previo han sido codificados con base en un espectro de marcos previo. La realización del codificador de audio 100 además comprende un codificador reductor de la redundancia 150 para codificar la información sobre el marco de dominio de predicción, la información de los coeficientes, la información sobre el coeficiente del dominio de conmutación y/o el espectro de marcos. En otras palabras, el tomador de decisiones del dominio de codificación 130 decide el dominio de codificación, mientras que el controlador 140 provee la información sobre el coeficiente de conmutación cuando se conmuta del dominio de la transformada al dominio de predicción.

En la Fig. 1 existen algunas conexiones mostradas por líneas punteadas. Estas indican las diferentes opciones en las realizaciones. Por ejemplo, la información sobre los coeficientes de conmutación puede obtenerse simplemente llevando a cabo en forma permanente la etpa de análisis de codificación predictiva 1 10 de modo que la información sobre los coeficientes y la información de los marcos del dominio de predicción estén siempre disponibles en su salida. Luego, el controlador 140 puede indicar al codificador reductor de la redundancia 150 cuándo codificar la salida a partir de la etapa de análisis de codificación predictiva 1 10 y cuándo codificar la salida del espectro de marcos en un transformador del dominio de la frecuencia 120 luego de que la decisión de conmutación haya sido tomada por el tomador de decisiones del dominio de codificación 130. Por lo tanto, el controlador 140 puede controlar el codificador reductor de la redundancia 150 para codificar la información sobre el coeficiente de conmutación cuando se conmute del dominio de la transformada al dominio de predicción.

Si ocurre la conmutación, el controlador 140 puede indicar al codificador reductor de la redundancia 150 la codificación de un marco en superposición, durante un marco anterior, el codificador reductor de la redundancia 150 puede ser controlado por el controlador 140 en un modo tal que una corriente de bits contenga para el marco previo, información sobre los coeficientes e información sobre el marco de dominio de predicción, así como el espectro de marcos. En otras palabras, en ciertas realizaciones, el controlador puede controlar el codificador reductor de la redundancia 150 en un modo tal que los marcos codificados incluyan la información descripta con anterioridad. En otras realizaciones, el tomador de decisiones del dominio de codificación 130 puede decidir cambiar el dominio de codificación y conmutar entre la etapa de análisis de codificación predictiva 100 y el transformador del dominio de la frecuencia 120.

En estas realizaciones, el controlador 140 puede llevar a cabo algunos análisis internamente para proveer los coeficientes de conmutación. En realizaciones, la información sobre un coeficiente de conmutación puede corresponder a una información de los estados de los filtros, del contenido del libro de códigos adaptivos, de los estados de memoria, de la información de una señal de excitación, de los coeficientes de LPC, etc. La información sobre el. coeficiente de conmutación puede comprender cualquier información que permita la preparación o iniciación de una etapa de síntesis predictiva 220.

El tomador de decisiones del dominio de codificación 130 puede determinar su decisión referente a cuándo conmutar el dominio de codificación con base en los marcos ó muestras de señales de audio, que también es indicada por las líneas punteadas en la Fig. 1. En otras realizaciones, dicha decisión puede tomarse con base en los coeficientes de información, en la información del marco del dominio de predicción y/o en el espectro de marcos.

En general, las realizaciones no se limitan al modo en que el tomador de decisiones del dominio de codificación 130 decide cuándo cambiar el dominio de codificación, es más importante que los cambios del dominio de codificación sean decididos por él tomador de decisiones del dominio de codificación 130, durante lo que los problemas descriptos con" anterioridad ocurren, y donde en algunas realizaciones el codificador de audio 100 es coordinado en un modo tal que los efectos que implican las desventajas descriptas con anterioridad están, al menos parcialmente, compensados.

En realizaciones, el tomador de decisiones del dominio dé codificación 130 puede adaptarse para decidir con base en una propiedad .de señales o en las propiedades de los marcos de audio. Como ya es sabido, las propiedades de audio de una señal de audio pueden determinar la eficiencia de la codificación, es decir, para ciertas características de una señal de audio, puede ser más eficiente utilizar codificación con base en las transformadas, mientras que para otras características puede ser más beneficioso utilizár codificación del dominio de predicción. En algunas realizaciones, el tomador de decisiones del dominio de codificación 130 puede adaptarse para decidir el uso de codificación con base en transformadas cuando la señal es muy tonal o muda. Si la señal es una señal transiente o una señal similar a una voz, el tomador de decisiones del dominio de codificación 130 puede adaptarse para decidir el uso de un marco del dominio de predicción indicado para la codificación.

De acuerdo con las otras líneas punteadas y flechas de la Fig. 1 , el controlador 140 puede estar provisto con la información de los coeficientes, la información del marco del dominio de predicción y el espectro de marcos, y el controlador 140 puede adaptarse para determinar la información sobre el coeficiente de conmutación con base en dicha información. En otras realizaciones, el controlador 140 puede proveer una información a la etapa de análisis de codificación predictiva 110 para determinar los coeficientes de conmutación. En realizaciones, los coeficientes de conmutación pueden corresponder a la información de los coeficientes y en otras realizaciones, pueden estar determinados en un modo diferente.

La Fig. 2 ¡lustra una realización de un decodificador de audio 200. La realización del decodificador de audio 200 se adapta para decodificar marcos codificados para obtener marcos de una señal de audio muestreada, donde un marco comprende un número de muestras de audio del dominio del tiempo. La realización del decodificador de audio 200" comprende un decodificador recuperador de la redundancia 210 para decodificar los marcos codificados para obtener una información del marco del dominio de predicción, una información de los coeficientes para un filtro de síntesis y/o un espectro de marcos. Más aún, la realización del decodificador de audio 200 comprende una etapa de síntesis predictiva 220 para determinar un marco predicho de muestras de audio con base en la información sobre los coeficientes para el filtro de síntesis y la información sobre el marco del dominio de predicción, y un transformador del dominio del tiempo 230 para transformar el espectro de marcos al dominio del tiempo para obtener un marco transformado a partir del espectro de marcos. La realización del decodificador de audio 200 además comprende un combinador 240 para combinar los marcos transformados y los marcos predichos para obtener los marcos de la señal de audio muestreada.

Además, la realización del decodificador de audio 200 comprende un controlador 250 para controlar un proceso de conmutación, llevándose a cabo dicho proceso cuando un marco previo se base en un marco transformado y un marco en curso se base en un marco predicho, el controlador (250) estando configurado para proveer un coeficiente de conmutación a la etapa de síntesis predictiva (220) para entrenar, iniciar o preparar a la etapa de síntesis predictiva (220) de modo que dicha etapa (220) se inicie cuando se lleve a cabo el proceso de conmutación.

De acuerdo con las flechas punteadas mostradas en la Fig. 2, el controlador 250 puede adaptarse para controlar parte de o todos los componentes del decodificador de audio 200. Por ejemplo, el controlador 250 puede adaptarse para coordinar el decodificador recuperador de la redundancia 210, para recuperar información extra de los coeficientes de conmutación o información del marco del dominio de predicción previo, etc. En otras realizaciones, el controlador 250 puede adaptarse para derivar dicha información de los coeficientes de conmutación propiamente dichos, por ejemplo siendo provista con los marcos decodificados por el combinador 240, llevando a cabo un análisis de LP con base en la salida del combinador 240. Luego, el controlador 250 puede adaptarse para coordinar o controlan la etapa de síntesis predictiva 220 y un transformador del dominio del tiempo 230 para establecer los marcos en superposición descriptos con anterioridad, los tiempos, el análisis del dominio del tiempo y la cancelación del análisis del dominio del tiempo, etc.

A continuación, se considera un codificador del dominio con base en LPC, que incluye predictores y filtros internos que, durante un comienzo requieren un cierto tiempo para alcanzar un estado que asegure una síntesis de filtro adecuado. En otras palabras, en realizaciones del codificador de audio 100, la etapa de análisis de codificación predictiva 110 puede adaptarse para determinar la información de los coeficientes del filtro de síntesis y la información del marco de dominio de predicción con base en un análisis de LPC. En realizaciones del decodificador de audio 200, la etapa de análisis predictiva 220 puede adaptarse para determinar los marcos predichos con base en un filtro de síntesis LPC.

Es evidente que el uso de una ventana rectangular al comienzo del primer marco LPD (LPD = Dominio de Predicción Lineal) y el reajuste del codificador con base en LPC a un estado de cero, no provee una opción ideal para estas transiciones, dado que el codificador LPD no cuenta con tiempo suficiente para generar una buena señal, lo que introduciría artefactos de bloqueo.

En realizaciones, para manejar la transición de un modo no LPD a un modo LPD, pueden utilizarse ventanas superpuestas. En otras palabras, en realizaciones del codificador de audio 100, el transformador del dominio de la frecuencia 120 puede adaptarse para transformar el marco de muestras de audio, con base en una Transformada Rápida de Fourier (FFT = Transformada Rápida dé Fourier), o una MDCT (MDCT = Transformada de Coseno Discreta Modificada). En realizaciones del decodificador de audio 200, el transformador del dominio del tiempo 230 puede adaptarse para transformar los espectros de marcos al dominio de tiempo, con base en una FTT inversa (IFFT = FTT inversa), o una MDCT inversa (IMDCT = MDCT inversa).

Así, las realizaciones pueden llevarse a cabo en un modo no LPD, que también puede denominarse modo basado en transformadas, o en un modo LPD, que también se denomina síntesis y análisis predictivo. En general, las realizaciones pueden utilizar ventanas eh superposición, en especial cuando se utiliza MDCT e IMDCT. En otras palabras, en el modo no LPD, puede utilizarse generación de ventanas en superposición con aliasing del dominio del tiempo (TDA = Aliasing del Dominio del Tiempo). Así, cuando se conmute del modo no LPD al modo LPD, puede compensarse el aliasing del dominio del tiempo del último marco no LPD. Ciertas realizaciones pueden introducir un aliasing del dominio del tiempo en la señal original antes de llevar a cabo la codificación LPD, sin embargo, el aliasing del dominio del tiempo puede no ser compatible con la codificación del dominio del tiempo basada en la predicción, tal como ACELP (ACELP = Predicción Lineal de Excitación del Libro de Códigos Algebráicos).

Ciertas realizaciones pueden introducir un aliasing artificial al comienzo del segmento LPD y aplicar cancelación del dominio del tiempo al igual que para ACELP a transiciones no LPD. En otras palabras, el análisis y la síntesis predictiva pueden basarse en un ACELP en ciertas realizaciones.

En algunas realizaciones, el aliasing artificial se produce a partir de la señal de síntesis en lugar de la señal original. Dado que la señal de síntesis es imprecisa, en especial al comienzo del LPD, estas realizaciones pueden compensar un tanto los artefactos de bloqueo por la introducción de un TDA artificial, sin embargo, la introducción del TDA artificial puede introducir un error de imprecisión junto con la reducción de los artefactos.

La Fig. 3 ilustra un proceso de conmutación dentro de una realización. En la realización mostrada en la Fig. 3, se asume que el proceso de conmutación se produce del modo no LPD, por ejemplo, el modo MDCT, al modo LPD. De acuedo con lo indicado en la Fig. 3, se considera una longitud de ventana total de 2048 muestras. En el costado izquierdo de la Fig. 3, se ilustra el borde creciente de la ventana MDCT que se extiende a través de 512 muestras. Durante el proceso de MDCT e IMDCT, estas 512 muestras del borde creciente de la ventana MDCT se plegarán con las próximas 512 muestras, que se asignan en la Fig. 3 al kernel MDCT, que comprende las 1024 muestras centradas dentro de la ventana completa de 2048 muestras. De acuerdo con lo explicado en mayor detalle a continuación, el aliasing del dominio del tiempo introducido por el proceso de MDCT e IMDCT no es crítico cuando el marco precedente también haya sido codificado en el modo no LPD, dado que una de las propiedades ventajosas de la MDCT es que el aliasing del dominio del tiempo pueda ser intrísecamente compensado por las ventanas MDCT en superposición, consecutivas y respectivas.

Sin embargo, cuando se conmuta al modo LPD, es decir, cuando se considera el sector derecho de la ventana MDCT mostrada en la Fig. 3, tal cancelación del aliasing del dominio del tiempo no se lleva a cabo en forma automática, dado que el primer marco decodificado en el modo LPD no cuenta en forma automática con el aliasing del dominio del tiempo para compensarlo con el marco MDCT precedente. Por lo tanto, en una región en superposición, ciertas realizaciones pueden introducir un aliasing artificial del dominio del tiempo, de acuerdo con lo indicado en la Fig. 3 en el área de las 128 muestras centradas al final de la ventana kemel MDCT, es decir, centradas luego de 1536 muestras. En otras palabras, en la Fig. 3 se asume que el aliasing artificial del dominio del tiempo se introduce al comienzo, es decir, en esta realización, las primeras 128 muestras, del marco del modo LPD, para compensarlo con el aliasing del dominio de tiempo introducido al final del último marco MDCT.

En la realización preferida, la MDCT se aplica con el fin de obtener la conmutación críticamente muestreada de una operación de codificación en un dominio a una operación de codificación en otro dominio diferente, es decir, llevándose a cabo en realizaciones del transformador del dominio de la frecuencia 120 y/o del transformador del dominio del tiempo 230. Sin embargo, también pueden aplicarse todas las otras transformadas. No obstante, dado que la MDCT es la realización preferida, ésta se discutirá en mayor detalle con respecto a la Fig. 4a y Fig. 4b.

La Fig.4a ilustra una ventana 470, que tiene una porción en aumento a la izquierda y una porción decreciente a la dere.cha, dicha ventana puede dividirse en cuatro porciones: a, b, c, y d. La ventana 470 tiene, como puede observarse en la figura, sólo porciones en la situación 50% superposición/adición ilustrada. Específicamente, la primer porción que tiene muestras de cero a N corresponde a las segundas porciones de una ventana precedente 469, y la segunda mitad que se extiende entre la muestra N y la muestra 2N de la ventana 470 se superpone con la primera porción de la ventana 471 , que es en la realización ilustrada, la ventana i+1 , mientras que la ventana 470 es la ventana i.

La operación de DCT puede considerarse como la puesta en cascada de la generación de ventanas y la operación de plegado y una operación de transformada posterior y, específicamente, como una operación de DCT (DCT = Transformada de Coseno Discreta) posterior, donde se aplica la DCT del tipo IV (DCT-IV). Específicamente, la operación de plegado se obtiene por el cálculo de la primera porción N/2 del bloque de plegado como -CR-d, y el cálculo de la segunda porción de muestras N/2 de la salida de plegado como a-b , donde R es el operador inverso. Así, la operación de plegado da lugar a los valores de salida de N mientras que se reciben los valores de entrada de 2N.

Se ilustra en la Fig. 4a, en forma de ecuación, una operación de desplegado correspondiente del lado del decodificador.

En general, una operación de MDCT sobre (a, b, c, d) da lugar a exactamente los mismos valores de salida que la DCT-IV de (-C -d, a-bR), de acuerdó con lo indicado en la Fig. 4a.

En forma similar, y utilizando la operación de desplegado, una operación de IMDCT da lugar a la salida de la operación de desplegado aplicada a la salida de una transformada inversa por DCT-IV.

Por lo tanto, el aliasing del tiempo se introduce llevando a cabo una operación de plegado del lado del codificador. Luego, el resultado de la operación , de generación de ventanas y plegado se transforma en el dominio de la frecuencia por el uso de una transformada de bloque DCT-IV que requiere valores de entrada N.

Del lado del decodificador, los valores de entrada N se transforman nuevamente en el dominio del tiempo por el uso de una operación DCT-IV, y la salida de esta operación de transformada inversa es cambiada en una operación de desplegado para obtener valores de salida 2N que, sin embargo, son valores de salida aliased.

Con el objetivo de retirar el aliasing que ha sido introducido por la operación de plegado y que aún permanece con posterioridad a la operación de desplegado, la operación de superposición/adición puede llevar a cabo la cancelación del aliasing del dominio del tiempo.

Por lo tanto, cuando el resultado de la operación de desplegado se agrega con el resultado del IMDCT previo en la mitad en superposición, los términos invertidos se cancelan en la ecuación de la parte inferior de la Fig. 4a y se obtiene simplemente, por ejemplo, b y d, recuperando así los datos originales.

Con el objetivo de obtener una TDAC para la MDCT ventaneada (windowed) existe un requiremiento denominado condición "Princen-Bradley", que significa que los coeficientes de la ventana se elevaron a 2 para las muestras correspondientes que se combinan en el cancelador del. aliasing del dominio del tiempo, para dar lugar a una unidad (1 ) para cada muestra.

Mientras que la Fig. 4a ilustra la secuencia de ventana como, por ejemplo, aplicada en la AAC-MDCT (AAC = Codificación Avanzada de Audio) para extensas extensas o breves, la Fig. 4b ilustra una función de ventana diferente que también tiene, en adición a las porciones aliasing, una porción no aliasing.

La Fig. 4b ilustra una función de ventana de análisis 472 que tiene una porción cero a1 y d2, que tiene una porción aliasing 472a, 472b, y que tiene una porción no aliasing 472c.

La porción aliasing 472b que se extiende sobre c2, d1 tiene una porción aliasing correspondiente de una ventana posterior 473, que se indica en 473b. En forma similar, la ventana 473 además comprende una porción no aliasing 473a. La Fig. 4b, cuando se compara con la Fig. 4a expone con claridad que, dado que existen porciones cero a1 , d1 , para la ventana 472 o c1 para la ventana 473, ambas ventanas reciben una porción no aliasing, y que la función de ventana en la porción aliasing está más inclinada que en la Fig. 4a. En vista de lo dicho, la porción aliasing 472a corresponde a Lk, la porción no aliasing 472c corresponde a la porción Mk, y la porción aliasing 472b corresponde a Rk en la Fig. 4b.

Cuando la operación de plegado se aplica a un bloque de muestras ventaneadas por la ventana 472, se obtiene una situación como la ilustrada en la Fig. 4b. La porción izquierda que se obtiene sobre las primeras muestras N/4 tiene aliasing. La segunda porción que se extiende sobre las muestras Ñ/2 está libre de aliasing, dado que la operación de plegado se aplica sobre las porciones de ventana que tienen valores cero, y las últimas muestras N/4 están, nuevamente, afectadas por aliasing. Debido a la operación de plegado, el número de valores de salida de la operación de plegado era igual a N, mientras que la entrada era 2N, aunque, de hecho, los valores N/2 de esta realización se ajustaron a cero a causa de la operación de generación de ventanas que utiliza la ventana 472.

Ahora, la DCT-IV se aplica al resultado de la operación de plegado, pero, en gran medida, la porción aliasing 472, que está en la transición de un modo de de codificación a otro modo de codificación, está procesada en una forma diferente a la de la porción no aliasing, aunque ambas porciones pertenecen al mismo bloque de muestras de audio y, en gran medida, se introducen en la misma operación de bloque de transformadas.

La Fig. 4b además ilustra una secuencia de ventana de las ventanas 472, 473, 474, donde la ventana 473 es una ventana de transición de una situación donde no existen porciones no aliasing a una situación donde únicamente existen porciones aliasing. Esto se obtiene por el moldeo asimétrico de la función de ventana. La porción derecha 473 es similar a la porción derecha de las ventanas en la secuencia de ventana de la Fig. 4a, mientras que la porción izquierda tiene una porción no aliasing y la porción cero correspondiente (en c1 ). Por lo tanto, la Fig. 4b ilustra una transición de MDCT-TCX a AAC, cuando la AAC va a llevarse a cabo utilizando ventanas completamente en superposición o, alternativamente, se • ilustra una transición de AAC a MDCT-TCX, cuando la ventana 474 ventanea un bloque de datos TCX en una forma completamente en superposición, que es, por un lado, la operación regular para MDCT-TCX y, por el otro lado, MDCT-AAC cuando no existe razón para conmutar de un modo al otro.

Por lo tanto, la ventana 473 puede clasificarse como una "ventana de interrupción", que tiene, en adición, la característica preferida de que la longitud de esta ventana sea idéntica a la longitud de al menos una ventana adyacente, de modo que el patrón de bloques general o la trama de enmarcado se mantienen, cuando se dispone que un bloque tenga la misma cantidad de números que de coeficientes de ventana, es decir muestras 2N en el ejemplo de la Fig. 4a o Fig. 4b.

A continuación, se describirán en detalle el método del aliasing artificial del dominio del tiempo y la cancelación del aliasing del dominio del tiempo. La Fig. 5 muestra un diagrama esquemático, que puede utilizarse en una realización, que muestra una cadena de procesamiento de señales. Las Figs. 6a a 6g y 7a a 7g ilustran señales de muestra, donde las Figs. 6a a 6g ilustran un proceso principal de la cancelación del aliasing del dominio del tiempo en el que se asume que se utiliza la señal original, donde se ilustran las muestras de señales de las Figs. 7a a 7g que se determinan con base en la suposición de que el primer marco LPD resulta luego de un reajuste total y sin ninguna adaptación.

En otras palabras, la Fig. 5 ilustra una realización de un proceso para introducir un aliasing artificial del dominio del tiempo y una cancelación del aliasing del dominio del tiempo para el primer marco en modo LPD, en caso de transición de un modo no LPD a un modo LPD. La Fig. 5 muestra que, en primer luegar, se aplica una generación de ventanas al marco LPD en curso en el bloque 510. De acuerdo con lo ilustrado en las Figs. 6a, 6b, y Figs. 7a, 7b, la generación de ventanas corresponde a un fundido de las señales respectivas. De acuerdo con lo ilustrado en el pequeño gráfico arriba del bloque de generación de ventanas 510 en la Fig. 5, se supone que la generación de ventanas se aplica a muestras Lk. La generación de ventanas 510 es seguida por una operación de plegado 520, que da lugar a muestras Lk/2. El resultado de la operación de plegado se ilustra en las Figs. 6c y 7c. Puede observarse que a causa de la reducción de los números de muestras, existe un período de cero que se extiende a través de las muestras Lk/2 al comienzo de las señales respectivas.

Las operaciones de generación de ventanas en el bloque 510 y de plegado en el bloque 520 pueden resumirse como el aliasing del dominio del tiempo que se introduce a través de MDCT. Sin embargo, surgen, efectos de aliasing adicionales durante transformaciones inversas a través de IMDCT. Los efectos evocados por la IMDCT se resumen en la Fig. 5 en los bloques 530 y 540, que pueden nuevamente resumirse como el aliasing invertido del dominio del tiempo De acuerdo con lo mostrado en la Fig. 5, luego se lleva a cabo un desplegado en el bloque 530, que da lugar a la duplicación del número de muestras, es decir, a un resultado de muestras Lk. Las señales respectivas se muestran en las Figs. 6d y 7d. Puede observarse a partir de las Figs. 6d y 7d que los números de muestras han sido duplicados, y que se ha introducido un aliasing del tiempo. La operación de desplegado 530 es seguida por otra operación de generación de ventanas 540, para fundir las señales. Los resultados de la segunda generación de ventanas 540 se muestran en las Figs. 6e y 7e. Por último, las señales aliased artificialmente en el tiempo mostradas en las Figs. 6e y 7e están superpuestas y se agregan al marco previo codificado en el modo no LPD, indicado en el bloque 550 en la Fig. 5, y las señales respectivas se muestran en las Figs. 6f y 7f.

En otras palabras, en realizaciones del decodificador de audio 200, el combinador 240 puede adaptarse para llevar a cabo las funciones del bloque 550 en la Fig. 5.

Las señales resultantes se muestran en las Figs. 6g y 7g. Resumiendo, en ambos casos la parte izquierda del marco respectivo está ventaneada, lo que se indica en las Figs. 6a, 6b, 7a, y 7b. Luego, la parte izquierda de la ventana es plegada, lo que se indica en las Figs. 6c y 7c. Luego del desplegado, consúltese 6d y 7d, se aplica otra generación de ventanas, consúltése Figs. 6e y 7e. Las Figs. 6f y 7f muestran el marco en proceso en curso con la forma del marco no LPD previo y las Figs. 6g y 7g muestran los resultados luego de una operación de superposición y adición. A partir de las Figs. 6a a 6g, puede observarse que, en ciertas realizaciones, puede lograrse una reconstrucción perfecta luego de la aplicación de una TDA artificial sobre el marco LPD y la aplicación de la superposición y adición con el marco previo. Sin embargo, en el segundo caso, es decir, el caso ilustrado en las Figs. 7a a 7g, la reconstrucción no es perfecta. De acuerdo con lo ya mencionado, se supuso que en el segundo caso, el modo LPD ha sido completamente reajustado, es decir que los estados y memorias de la síntesis de LPC han sido reajustados a cero. Esto da lugar a una señal de síntesis no exacta durante las primeras muestras. En este caso, la TDA artificial más la adición en superposición da lugar a distorciones y artefactos, en vez de a una reconstrucción perfecta, consúltese Figs. 6g y 7g.

Las Figs. 6a a 6g y 8a a 8g ilustran otra comparación entre el uso de la señal original para el aliasing artificial del dominio del tiempo y la cancelación del aliasing del dominio del tiempo, y otro caso del uso de la señal de inicio LPD, sin embargo, en las Figs. 8a a 8g, se asumió que el período de inicio LPD demora más tiempo que el transcurrido en las Figs. 7a a 7g. Las Figs. 6a a 6g y 8a a 8g ilustran gráficos de señales de muestra a las que se han aplicado las mismas operaciones ya explicadas con respecto a la Fig. 5. A través de la comparación de las Figs. 6g y 8g, puede observarse que las distorciones y artefactos introducidos a la señal mostrada en la Fig. 8g son incluso más significativa que aquellos de la Fig. 7g. La señal mostrada en la Fig. 8g contiene una gran cantidad de distorciones durante un período de tiempo relativamente extensor. Sólo con fines de comparación, la Fig. 6g muestra la reconstrucción perfecta cuando se considera la señal original para la cancelación del aliasing del dominio del tiempo.

Ciertas realizaciones de la presente invención pueden acelerar el período de inicio, por ejemplo, de un decodificador de núcleo LPD, como una realización de la etapa de análisis de codificación predictiva 110, la etapa de análisis predictiva 220, respectivamente. Ciertas realizaciones pueden actualizar todas las memorias y estados involucrados para permitir la reducción de una señal sintetizada lo más cercana posible a la señal original, y reducir las distorciones de acuerdo con lo mostrado en las Figs. 7g y 8g. Más aún, en realizaciones más extensas pueden permitirse períodos de superposición y adición, que son posibles dada la introducción mejorada del aliasing del dominio del tiempo y de la cancelación del aliasing del dominio del tiempo.

De acuerdo con lo ya descripto con anterioridad, el uso de una ventana rectangular al comienzo del primer marco LPD o marco en curso y el reajuste del codificador basado en LPD a un estado de cero puede no ser la opción ideal para transiciones. Pueden ocurrir distorciones y artefactos, dado que puede que no quede tiempo suficiente para que el decodificador LPD genere una buena señal. Consideraciones similares se aplican al ajuste de las variables del estado interno del codificador a cualquier valor inicial definido, dado que un estado fijo de un codificador tal depende de propiedades de señales múltiples, y que los tiempos de inicio de cualquier estado inicial predefinido, pero fijo, pueden ser largos.

En realizaciones del codificador de audio 100, el controlador 140 puede adaptarse para determinar información de los coeficientes para un filtro de síntesis y una información de un marco de dominio de predicción de conmutación basado en un análisis de LPC. En otras palabras, ciertas realizaciones pueden utilizar una ventana rectangular y reajustar el estado interno del decodificador LPD. En algunas realizaciones, el codificador puede incluir información de las memorias de filtro y/o un libro de códigos adaptivos utilizado por ACELP, sobre muestras de síntesis del marco no LPD previo en los marcos codificados y proveerlos al decodificador. En otras palabras, ciertas realizaciones del codificador de audio 100 pueden decodificar el marco no LPD previo, llevar a cabo un análisis de LPC, y aplicar el filtro de análisis de LPC a la señal de síntesis no LPD para proveer información de los mismos al decodificador.

De acuerdo con lo ya mencionado con anterioridad, el controlador 140 puede adaptarse para determinar la información sobre el coeficiente de conmutación en un modo tal que dicha información puede representar un marco de señales de audio que se superpone al marco previo.

En realizaciones, el codificador de audio 100 puede adaptarse para codificar tal información de coeficientes de conmutación por el uso del codificador reductor de la redundancia 150. Como parte de una realización, el procedimiento de reinicio puede mejorarse por la transmisión o inclusión de información de parámetros adicionales computada por LPC sobre el marco previo en la corriente de bits. A continuación, el grupo adicional de coeficientes LPC puede denominarse LPCO.

En una realización, el decodificador puede operar en su modo de codificación de núcleo LPD, utilizando cuatro filtros LPC, a saber LPC1 a LPC4, que se estiman o determinan para cada marco. En una realización, en transiciones de codificación no LPD a codificación LPD, puede también determinarse o estimarse un filtro LPC adicional LPCO, que puede corresponder a un análisis de LPC centrado al final del marco previo. En otras palabras, en una realización, el marco de muestras de audio que se superpone al marco previo puede estar centrado al final del marco previo.

En realizaciones del decodificador de audio 200, el decodificador recuperador de la redundancia 210 puede adaptarse para decodificar una información sobre el coeficiente de conmutación de los marcos codificados. Por consiguiente, la etapa de análisis predictiva 220 puede adaptarse para determinar un período de conmutación que se superpone al marco previo. En otra realización, el marco predicho de conmutación puede estar centrado al final del marco previo.

En realizaciones, el filtro LPC correspondiente al final del segmento o marco no LPD, es decir, LPCO, puede utilizarse para la interpolación de los coeficientes LPC o para la computación de la respuesta a la entrada cero en caso de una ACELP.

De acuerdo con lo mencionado con anterioridad, este filtro LPC puede estimarse "hacia adelante", es decir, estimarse con base en la señal de entrada, cuantizarse por el codificador y transmitirse al decodificador. En otras realizaciones, el filtro LPC puede estimarse "hacia atrás", es decir, por el decodificador con base en la señal sintetizada pasada. La estimación "hacia adelante" puede utilizar velocidades de bits adicionales pero también puede permitir un período de inicio más eficiente y confiable.

En otras palabras, en otras realizaciones el controlador 250 dentro de una realización del decodificador de audio 200 puede adaptarse para analizar el marco previo para obtener información del marco previo sobre los coeficientes para un filtro de síntesis y/o una información del marco previo sobre un marco del dominio de la predicción. El controlador 250 puede además adaptarse para proveer la información del marco previo sobre los coeficientes a la etapa de análisis predictiva 220 como coeficientes de conmutación. El controlador 250 puede además proveer la información del marco previo sobre el marco del dominio de predicción a la etapa de análisis predictiva 220, para entrenamiento.

En realizaciones donde el codificador de audio 100 provee información sobre los coeficientes de conmutación, la cantidad de bits en la corriente de bits puede aumentar ligeramente. El hecho de llevar a cabo análisis ' en el decodificador puede no aumentar la cantidad de bits en la corriente de bits. Sin embargo, el llevar a cabo análisis en el decodificador puede introducir complejidades extras. Por lo tanto, en realizaciones, la resolución del análisis de LPC puede mejorarse por la reducción del dinámico espectral, es decir, los marcos de la señal pueden primero pre-procesarse a través de un filtro pre-énfasis. El énfasis de frecuencia baja inversa puede aplicarse a la realización del 'decodificador 200, así como en el codificador de audio 100 para permitir la obtención de una señal de excitación o marco de dominio de predicción necesario para la codificación de los próximos marcos. Todos estos filtros pueden dar una respuesta de estado de cero, es decir, la salida de un filtro causada por la entrada actual, dado que no se han aplicado entradas anteriores, es decir, dado que la información de estado en el filtro se ajusta a cero luego de un reajuste total. En general, cuando se opera con normalidad el modo de codificación LPD , la información de estado en el filtro es actualizada por el estado final tras el filtrado del marco previo. En realizaciones, con el objetivo de ajustar el primer estado de filtro interno del codificado por LPD en un modo que, ya para el primer marco LPD, todos los filtros y predictores se inicien para ejecutarse en el modo óptimo o mejorado para el primer marco, cualquier información sobre el coeficiente/coeficientes de conmutación puede ser provista por el codificador de audio 100, o puede llevarse a cabo un procesamiento adicional en un decodificador 200.

En general, los filtros y predictores para el análisis, de acuerdo con lo llevado a cabo en el codificador de audio 100 por la etapa de análisis de codificación predictiva 1 10, se distinguen de los filtros y predictores utilizados en el lado del decodificador de audio 200 para la síntesis.

Para el análisis, como por ejemplo la etapa de análisis de codificación predictiva 110, todos o al menos uno de estos filtros pueden alimentarse con las muestras originales adecuadas del marco previo para actualizar las memorias. La Fig. 9a ilustra una realización de una estructura de filtro utilizada para el análisis. El primer filtro es un filtro pre-énfasis 1002, que puede utilizarse para mejorar la resolución del filtro de análisis de LPC 1006, es decir, la etapa de análisis de codificación predictiva 1 10. En realizaciones, el filtro de análisis de LPC 1006 puede computar o evaluar los coeficientes del filtro a corto plazo por el uso, por ejemplo, de muestras de diálogo filtradas dejando pasar altas frecuencias dentro de la ventana de análisis. En otras palabras, en realizaciones, el controlador 140 puede adaptarse para determinar la información sobre el coeficiente de conmutación con base en una versión filtrada dejando pasar altas frecuencias de un espectro de marco decodificado del marco previo. En forma similar, suponiendo que el análisis se lleve a cabo en la realización del decodificador de audio 200, el controlador 250 puede adaptarse para analizar una versión filtrada dejando pasar altas frecuencias del marco previo.

De acuerdo con lo ilustrado en la Fig. 9a, el filtro de análisis LP 1006 es precedido por un filtro de ponderación perceptual 1004. En realizaciones, el filtro de ponderación perceptual 1004 puede emplearse en la búsqueda "análisis por síntesis" de libros de códigos. El filtro puede explotar las propiedades de enmascarado del ruido de los formantes, como por ejemplo las resonancias del tracto vocal, por una menor ponderación del error en regiones cercanas a las frecuencias de las formantes y una mayor ponderación en regiones distantes a ellas. En realizaciones, el codificador reductor de la redundancia 150 puede adaptarse para codificación con base en un libro de códigos siendo adaptativos a los marcos de dominio de predicción respectivos. En forma similar, el decodificador introductor de la redundancia 210 puede adaptarse para decodificación con base en un libro de códigos que esté adaptado a las muestras de los marcos.

La Fig. 9b ilustra un diagrama esquemático del procesamiento de señales en el caso de síntesis. En el caso de síntesis, en realizaciones, todos o al menos uno de los filtros pueden alimentarse con las muestras sintetizadas adecuadas del marco previo para actualizar las memorias. En realizaciones del decodificador de audio 200, éste puede ser directo dado que la síntesis del marco no LPD previo se encuentra direcamente disponible. Sin embargo, en una realización del codificador de audio 100, la síntesis puede no llevarse a cabo por falta y, por analogía, las muestras sintetizadas pueden no estar disponibles. Por lo tanto, en realizaciones del codificador de audio 100, el controlador 140 puede adaptarse para decodificar el marco no LPD previo. Una vez decodificado el marco no LPD, en ambas realizaciones, es decir, el codificador de audio 100 y el codificador de audio 200, puede llevarse a cabo la síntesis del marco previo de acuerdo con la Fig. 9b bloque 1012. Más aún, la salida del. filtro de síntesis LP 1012 puede introducirse en un filtro de ponderación perceptual inverso 1014, luego de lo que se aplica un filtro de de-énfasis 1016. En realizaciones, puede utilizarse un libro de códigos adaptado y trasladarse con las muestras sintetizadas del marco previo. En realizaciones adicionales, el libro de cogidos adaptátivo puede contener vectores de excitación que se adaptan para cada submarco. El libro de cogidos adaptátivo puede derivar del estado de filtro a largo plazo. Puede utilizarse un valor de intervalo como un índice en el libro de cogidos adaptátivo. En realizaciones, para trasladar el libro de cogidos adaptátivo, puede finalmente computarse la señal de excitación o señal residual por el filtrado de la señal ponderada cuantizada al filtro de ponderación inverso con una memoria en cero. En particular, la excitación puede requerirse en el codificador 100 para actualizar la memoria adaptativa a largo plazo.

Las realizaciones de la presente invención pueden proveer la ventaja de que un proceso de reinicio de filtros puede ser estimulado o acelerado por la provisión de parámetros adicionales y/o la alimentación de las memorias internas de un codificador o decodificador con muestras del marco previo codificado por el codificador basado en transformadas.

Las realizaciones pueden proveer la ventaja de una aceleración del proceso de inicio de un codificador de núcleo LPD por la actualización de todas o parte de las memorias involucradas, lo que da lugar a una señal sintetizada, que puede estar más cerca de la señal original que cuando se utilizan conceptos convencionales, en especial cuando se utiliza un reajuste completo. Además, las realizaciones pueden permitir una ventana de superposición y adición más extensa y así permitir el uso mejorado de la cancelación del aliasing del dominio del tiempo. Las realizaciones pueden proveer la ventaja de que una fase no fija de un codificador de diálogo pueda acortarse, y que los artefactos producidos durante la transición de un codificador basado en transformadas a un codificador de diálogo puedan reducirse.

Dependiendo de ciertos requerimientos de implementación de los métodos inventivos, estos pueden implementarse en hardware o en software. La implementación puede llevarse a cabo utilizando un medio de almacenamiento digital, en particular un disco, un DVD, un CD, que tenga señales de control electrónicamente leíbles almacenadas, que coopere (o sea capaz de cooperar) con un sistema de computadoras programable de modo de llevar a cabo los métodos respectivos.

En general, la presente invención es, por lo tanto, un producto de un programa de computadoras con un código de programación almacenado en un transportador para lectura en una máquina, siendo el código de programación operativo para llevar a cabo uno de los métodos cuando el producto de un programa de computadoras se ejecute en una computadora.

En otras palabras, los métodos inventivos son, por lo tanto, un programa de computadoras que tiene un código de programación para llevar a cabo al menos uno de los métodos inventivos cuando el programa de computadoras se ejecute en una computadora.

Aunque lo precedente haya sido particularmente mostrado y descripto con referencia a realizaciones particulares, debe ser comprendido por aquellos con experiencia en la técnica que pueden efectuarse numerosos cambios en la forma y detalles, sin desviarse del espíritu y alcance de la invención. Debe comprenderse que pueden efectuarse numerosos cambios durante la adaptación de las diferentes realizaciones sin desviarse de los conceptos más abarcativos descriptos en la presente y comprendidos por las siguientes reivindicaciones.

Claims

REIVINDICACIONES Habiendo así especialmente descripto y determinado la naturaleza de la presente invención y la forma como la misma ha de ser llevada a la práctica, se declara reivindicar como de propiedad y derecho exclusivo.

1. Un codificador de audio (100) adaptado para codificar marcos de una señal de audio muestreada para obtener marcos codificados, donde un marco comprende un número de muestras de audio del dominio del tiempo, que comprende: una etapa de análisis de codificación predictiva (1 10) para determinar información sobre los coeficientes de un filtro de síntesis e información sobre el marco de dominio de predicción con base en un marco de muestras de audio; un transformador del dominio de la frecuencia (120) para transformar un marco de muestras de audio al dominio de la frecuencia para obtener un espectro de marcos; un tomador de decisiones del dominio de codificación (130) para decidir si los datos codificados para un marco se basan en la información sobre los coeficientes y en la información sobre el marco de dominio de predicción, o si se basan en el espectro de marcos; un controlador (140) para determinar la información sobre un coeficiente de conmutación cuando el tomador de decisiones del dominio de codificación decida que los datos codificados de un marco en curso se basan en la información sobre los coeficientes y la información sobre el marco de dominio de predicción cuando los datos codificados de un marco previo han sido codificados con base en un espectro de marcos previo; y un codificador reductor de la redundancia (150) para codificar la información sobre el marco de dominio de predicción, la información sobre los coeficientes, la información sobre el coeficiente de conmutación y/o el espectro de marcos.

2. El codificador de audio (100) de la reivindicación 1 , donde la etapa de análisis de codificación predictiva (110) se adapta para determinar la información sobre los coeficientes del filtro de síntesis y la información sobre el marco de dominio de predicción con base en un análisis de LPC (LPC = Codificación de Predicción Lineal) y/o donde el transformador del dominio de la frecuencia (120) se adapta para transformar el marco de muestras de audio con base en una Transformada Rápida de Fourier (FFT) o en una transformada de coseno discreta modificada (MDCT).

3. El codificador de audio (100) de una de las reivindicaciones 1 o 2, donde el controlador (140) se adapta para determinar como información sobre la información de coeficiente de cambio sobre coeficientes para un filtro de síntesis e información sobre un marco de dominio de predicción de cambio con base en un análisis de LPC (sic).

4. El codificador de audio (100) de una de las reivindicaciones 1 a 3, donde el controlador (140) se adapta para determinar la información sobre el coeficiente de conmutación de modo que el coeficiente de conmutación représente un marco de muestras de audio que superpone a el marco previo.

5. El codificador de audio (100) de la reivindicación 4, donde el marco de muestras de audio que superpone al marco previo está centrado al final del marco previo.

6. El codificador de audio (100) de una de las reivindicaciones 1 a 4, donde el controlador (140) se adapta para determinar la información sobre el coeficiente de conmutación con base en una versión filtrada dejando pasar altas frecuencias de un espectro de marco decodificado del marco previo.

7. Un método para codificar marcos de una señal de audio muestreada para obtener marcos codificados, donde un marco comprende un número de muestras de audio del dominio del tiempo, que comprende los pasos de: determinar información sobre los coeficientes de un filtro de síntesis e información sobre un marco de dominio de predicción con base en un marco de muestras de audio; transformar un marco de muestras de audio al dominio de frecuencia para obtener un espectro de marcos; decidir si los datos codificados para un marco se basan en la información sobre los coeficientes y en la información sobre el marco de dominio de predicción, o si se basan en el espectro de marcos; determinar la información sobre un coeficiente de conmutación cuando se decida que los datos codificados de un marco en curso se basan en la información de los coeficientes y la información sobre el marco de dominio de predicción cuando los datos codificados de un marco previo han sido codificados con base en un espectro de marcos previo; y codificar la información sobre el marco de dominio de predicción, la información de los coeficientes, la información sobre el coeficiente de conmutación y/o los espectros de marcos.

8. Un decodificador de audio (200) para decodificar marcos codificados para obtener marcos de una señal de audio muestreada, donde un marco comprende un número de muestras de audio del dominio del tiempo, que comprende: un decodificador recuperador de la redundancia (210) para decodificar los marcos codificados para obtener información sobre un marco de dominio de predicción, información sobre los coeficientes para un filtro de síntesis y/o un espectro de marcos; una etapa de síntesis predictlva (220) para determinar un marco predicho de muestras de audio con base en la información sobre los coeficientes para el filtro de síntesis y la información sobre el marco de dominio de predicción; un transformador del dominio del tiempo (230) para transformar el espectro de marcos al dominio del tiempo para obtener un marco transformado a partir del espectro de marcos; un combinador (240) para combinar el marco transformado y el marco predicho para obtener los marcos de la señal de audio muestreada; y un controlador (250) para controlar un proceso de conmutación, llevándose a cabo dicho proceso cuando un marco previo se base en un marco transformado y un marco en curso se bas.e en un marco predicho, el controlador (250) estando configurado para proveer un coeficiente de conmutación a la etapa de síntesis predictiva (220) para entrenar a la etapa de síntesis predictíva (220) de modo que dicha etapa (220) se inicie cuando se lleve a cabo el proceso de conmutación.

9. El decodificador de audio (200) dé la reivindicación 8, donde el decodificador reductor de la redundancia (210) se adapta para decodificar una información sobre el coeficiente de conmutación de los marcos codificados.

10. El decodificador de audio (200) de una de las reivindicaciones 8 o 9, donde la etapa de síntesis predictiva (220) se adapta para determinar el marco predictivo con base en una síntesis de LPC y/o donde el transformador del dominio del tiempo (230) se adapta para transformar el espectro de marco al dominio de tiempo con base en una FFT inversa o una MDCT inversa.

11. El decodificador de audio (200) de una de las reivindicaciones 8 a 10, donde el controlador (250) se adapta para analizar el marco previo para obtener una información del marco previo sobre los coeficientes para un filtro de síntesis y una información de un marco previo sobre un marco de dominio de predicción y donde el controlador (250) se adapta para proveer la información del marco previo sobre los coeficientes a la etapa de síntesis predictiva (220) como el coeficiente de conmutación y/o donde el controlador (250) se adapta para proveer además la información del marco previo sobre el marco de dominio de predicción a la etapa de síntesis predictiva (220) para entrenamiento.

12. El decodificador de audio (200) de una de las reivindicaciones 8-11 , donde la etapa de síntesis predictiva (220) se adapta para determinar un marco de predicción de conmutación que está centrado al final del marco previo.

13. El decodificador de audio (200) de una de las reivindicaciones 8-12, donde el controlador (250) se adapta para analizar una versión filtrada dejando pasar altas frecuencias del marco previo.

14. Un método para decodificar marcos codificados para obtener marcos de una señal de audio muestreada, donde un marco comprende un número de muestras de audio del dominio del tiempo, que comprende los pasos de: decodificar los marcos codificados para obtener información sobre un marco de dominio de predicción, e información sobre los coeficientes para un filtro de síntesis y/o un espectro de marcos; determinar un marco predicho de muestras de audio con base en la información sobre los coeficientes para el filtro de síntesis y la información sobre el marco de dominio de predicción; transformar el espectro de marcos al dominio del tiempo para obtener un marco transformado a partir del espectro de marcos; combinar el marco transformado y el marco predicho para obtener los marcos de la señal de audio muestreada; y controlar un proceso de conmutación, llevándose a cabo dicho proceso cuando un marco previo se basa en el marco transformado y un marco en curso se basa en el marco predicho; proveer un coeficiente de conmutación para entrenamiento de modo que una etapa de síntesis predictiva se inicie cuando se lleve a cabo el proceso de conmutación.

15. Un programa de computadoras que tiene un código de programación para llevar a cabo uno de los métodos de las reivindicaciones 7 o 14, cuando un programa de computadoras se ejecute en una computadora o procesador.