ES2232842T3

ES2232842T3 - Codificador predictivo de sub-banda multicanal con atribucion fisico-acustica adaptativa de bitios.

Info

Publication number: ES2232842T3
Application number: ES96941446T
Authority: ES
Inventors: Stephen M. Smyth; Michael H. Smyth; William Paul Smith
Original assignee: Digital Theater Systems Inc
Current assignee: DTS Inc
Priority date: 1995-12-01
Filing date: 1996-11-21
Publication date: 2005-06-01
Anticipated expiration: 2016-11-21
Also published as: CN1303583C; PL183498B1; KR100277819B1; HK1092270A1; HK1015510A1; CA2238026C; PT864146E; KR19990071708A; CA2331611C; US5956674A; PL182240B1; WO1997021211A1; US5974380A; ATE279770T1; HK1092271A1; PL327082A1; AU1058997A; DE69633633D1; EA001087B1; HK1149979A1

Abstract

LA INVENCION SE REFIERE A UN CODIFICADOR DE AUDIO DE SUB-BANDAS (12) QUE EMPLEA UNOS FILTROS DE RECONSTRUCCION PERFECTA/NO PERFECTA (34), UNA CODIFICACION DE SUB-BANDA PREDECIBLE/NO PREDECIBLE (72), UN ANALISIS DE LOS TRANSITORIOS (106), Y UNA DISTRIBUCION DE BITS PSICOACUSTICA/MINIMA MEDIA-CUADRADA-ERROR (MMSE) (30) A TRAVES DEL TIEMPO Y DE LAS FRECUENCIAS, Y MULTIPLES CANALES DE AUDIO PARA CODIFICAR/DECODIFICAR UN TREN DE DATOS Y PARA GENERAR UNA SEÑAL DE AUDIO RECONSTRUIDA DE ALTA FIDELIDAD. EL CODIFICADOR DE AUDIO DELIMITA (64) LA SEÑAL DE AUDIO MULTICANAL, DE FORMA TAL QUE EL TAMAÑO DE PAGINA, ES DECIR, EL NUMERO DE OCTETOS, SE FUERZA A DESCANSAR EN UN RANGO DESEADO, Y FORMATEA LOS DATOS CODIFICADOS, DE FORMA TAL QUE LAS SUBPAGINAS INDIVIDUALES SE PUEDAN REPRODUCIR TAL COMO SE RECIBIERON REDUCIENDO, POR TANTO, LA LATENCIA. ADEMAS, EL CODIFICADOR DE AUDIO PROCESA LA PORCION DE LA BANDA BASE (0-24 KHZ) DEL ANCHO DE BANDA DE AUDIO PARA FRECUENCIAS DE MUESTREO DE 48 KHZ Y MAS ALTAS CON ELMISMO ALGORITMO DE CODIFICACION/DECODIFICACION, DE FORMA QUE LA ARQUITECTURA DEL CODIFICADOR DE AUDIO SEA COMPATIBLE EN EL FUTURO.

Description

Codificador predictivo de sub-banda multicanal con atribución físico-acústica adaptativa de bitios.

Antecedentes de la invención Campo de la invención

Esta invención se refiere a codificación y decodificación de alta calidad de señales audio multicanal y más específicamente a un codificador de sub-banda que emplea filtros de reconstrucción perfecta/no perfecta, codificación de sub-banda predictiva/no predictiva, análisis de transitorios, y asignación de bits psicoacústica/de error cuadrático medio mínimo (mmse) en el tiempo, frecuencia y los múltiples canales audio para generar un flujo de datos con una carga computacional de decodificación limitada.

Descripción de la técnica relacionada

Los codificadores conocidos de audio y música de alta calidad se pueden dividir en dos clases de tipos generales. Primero: los codificadores de sub-banda/transformación de resolución de frecuencia media a alta que cuantifican adaptativamente las muestras de sub-banda o coeficiente dentro de la ventana de análisis según un cálculo de máscara psicoacústica. Segundo: codificadores de sub-banda de resolución baja que compensan su pobre resolución de frecuencia procesando las muestras de sub-banda usando ADPCM.

La primera clase de codificadores explota las grandes variaciones espectrales a corto plazo de señales de música generales dejando que las asignaciones de bits se adapten según la energía espectral de la señal. La alta resolución de estos codificadores permite aplicar directamente la señal de frecuencia transformada al modelo psicoacústico, que se basa en una teoría de audición de banda crítica. El codificador audio AC-3 de Dolby, Todd y colaboradores,
"AC-3: Flexible Perceptual Coding for Audio Transmission and Storage" Convention of the Audio Engineering
Society, Febrero, 1994, calcula típicamente 1024 ffts en las respectivas señales PCM y aplica un modelo psicoacústico a los 1024 coeficientes de frecuencia en cada canal para determinar la tasa de bits para cada coeficiente. El sistema Dolby usa un análisis transitorio que reduce el tamaño de ventana a 256 muestras para aislar los transitorios. El codificador AC-3 usa un algoritmo de retroadaptación de propiedad para decodificar la asignación de bits. Esto reduce la cantidad de información de asignación de bits que se envía junto con los datos audio codificados. Como resultado, la anchura de banda disponible para audio se incrementa en comparación con los esquemas adaptativos directos, lo que da lugar a una mejora de la calidad del sonido.

En la segunda clase de codificadores, la cuantificación de las señales de sub-banda diferencial es fijada o está adaptada para minimizar la potencia de ruido de cuantificación a través de todas o algunas sub-bandas, sin ninguna referencia explícita a la teoría del enmascarado psicoacústico. Se acepta comúnmente que un umbral de distorsión psicoacústica directa no se puede aplicar a señales de sub-banda predictiva/diferencial a causa de la dificultad de estimar el rendimiento del predictor con anterioridad al proceso de asignación de bits. Los problemas se complican más por la interacción del ruido de cuantificación en el proceso de predicción.

Estos codificadores funcionan porque las señales audio de percepción crítica son generalmente periódicas durante largos períodos de tiempo. Esta periodicidad es explotada por la cuantificación diferencial predictiva. Dividir la señal en un pequeño número de sub-bandas reduce los efectos audibles de la modulación de ruido y permite la explotación de varianzas espectrales a largo plazo en las señales audio. Si se incrementa el número de sub-bandas, se reduce la ganancia de predicción dentro de cada sub-banda y en algún punto la ganancia de predicción tenderá a cero.

Digital Theater Systems, L.P. (DTS) utiliza un codificador audio en el que cada canal audio PCM se filtra a cuatro sub-bandas y cada sub-banda se codifica usando un codificador ADPCM inverso que adapta los coeficientes del predictor a los datos de sub-banda. La asignación de bits es fija y la misma para cada canal, asignándose a las sub-bandas de frecuencia inferior más bits que a las sub-bandas de frecuencia más alta. La asignación de bits proporciona una relación fija de compresión, por ejemplo, 4:1. Mike Smyth y Stephen Smyth, "APT-X100: A LOW-DELAY, LOW BIT-RATE, SUB-BAND ADPCM AUDIO CODER FOR BROADCASTING", Proceedings of the 10th International AES Conference 1991, pág. 41-56, describe el codificador DTS.

Ambos tipos de codificadores audio tienen otras limitaciones comunes. Primera: los codificadores audio conocidos codifican/decodifican con un tamaño de trama fijo, es decir, el número de muestras o período de tiempo representado por una trama es fijo. Como resultado, cuando aumenta la velocidad de transmisión codificada con relación a la frecuencia de muestreo, también aumenta la cantidad de datos (bytes) en la trama. Así, el tamaño de la memoria intermedia del decodificador se debe diseñar para acomodar el escenario del peor caso para evitar rebose de datos. Esto incrementa la cantidad de RAM, que es un componente de costo primario del decodificador. En segundo lugar: los codificadores audio conocidos no son fácilmente expansibles a frecuencias de muestreo superiores a 48 kHz. Hacerlo haría los decodificadores existentes incompatibles con el formato requerido para los nuevos codificadores. Esta falta de compatibilidad futura es una limitación seria. Además, los formatos conocidos usados para codificar los datos PCM requieren que toda la trama sea leída por el decodificador antes de que se pueda iniciar la reproducción. Esto requiere que el tamaño de la memoria intermedia se limite a aproximadamente bloques de datos de 100 ms de tal manera que el retardo o latencia no moleste al oyente.

Además, aunque estos codificadores tienen capacidad de codificación hasta 24 kHz, a menudo las sub-bandas más altas caen. Esto reduce la fidelidad de alta frecuencia o ambianza de la señal reconstruida. Los codificadores conocidos emplean típicamente uno de dos tipos de esquemas de detección de errores. El más común es la codificación Reed Solomon, en la que el codificador añade bits de detección de errores a la información complementaria en el flujo de datos. Esto facilita la detección y corrección de errores en la información complementaria. Sin embargo, los errores en los datos audio pasan sin detectar. Otro acercamiento es verificar en las cabeceras de trama y audio estaos de código no válidos. Por ejemplo, un parámetro de 3 bits particular puede tener solamente 3 estados válidos. Si se identifica uno de los otros 5 estados, se debe haber producido un error. Esto solamente proporciona capacidad de detección y no detecta errores en los datos audio.

Resumen de la invención

En vista de los problemas anteriores, la presente invención proporciona un codificador audio multicanal con la flexibilidad para acomodar un amplio rango de niveles de compresión con calidad superior a CD a altas tasas de bits y mejor calidad perceptual a bajas tasas de bits, con reducida latencia de reproducción, detección simplificada de errores, mejor distorsión pre-eco, y futura expansibilidad a frecuencias de muestreo más altas.

Esto se lleva a cabo con un codificador de sub-banda que divide en ventanas cada canal audio en una secuencia de tramas audio, filtra las tramas en rangos de frecuencias de banda base y altas, y descompone cada señal de banda base en una pluralidad de sub-bandas. El codificador de sub-banda selecciona normalmente un filtro no perfecto para descomponer la señal de banda base cuando la tasa de bits es baja, pero selecciona un filtro perfecto cuando la tasa de bits es suficientemente alta. Una etapa de codificación de alta frecuencia codifica la señal de frecuencia alta independientemente de la señal de banda base. Una etapa de codificación de banda base incluye una VQ y un codificador ADPCM que codifican las sub-bandas de frecuencia superiores e inferiores, respectivamente. Cada trama de sub-banda incluye al menos una subtrama, cada una de las cuales se subdivide además en una pluralidad de sub-subtramas. Cada subtrama es analizada para estimar la ganancia de predicción del codificador ADPCM, donde la capacidad de predicción se inhabilita cuando la ganancia de predicción es baja, y para detectar transitorios para regular los SFs pre- y post-transitorio.

Un sistema de administración global de bits (GBM) asigna bits a cada subtrama aprovechando las diferencias entre los múltiples canales audio, las múltiples sub-bandas, y las subtramas dentro de la trama corriente. El sistema GBM asigna inicialmente bits a cada subtrama calculando su SMR modificado por la ganancia de predicción para cumplir un modelo psicoacústico. El sistema GBM asigna después los bits restantes según un acercamiento MMSE para conmutar inmediatamente a una asignación MMSE, disminuir el nivel general de ruido, o morfar gradualmente a una asignación MMSE.

Un multiplexor genera tramas de salida que incluyen una palabra de sincronización, una cabecera de trama, una cabecera audio y al menos una subtrama, y que son multiplexadas a un flujo de datos a una velocidad de transmisión. La cabecera de trama incluye el tamaño de ventana y el tamaño de la trama de salida corriente. La cabecera audio indica una disposición de compresión y un formato de codificación para la trama audio. Cada subtrama audio incluye información complementaria para decodificar la subtrama audio sin referencia a ninguna otra subtrama, códigos VQ de alta frecuencia, una pluralidad de sub-subtramas audio de banda base, en las que los datos audio para cada sub-bandas de frecuencia inferior de canal son comprimidos y multiplexados con los otros canales, una trama audio de alta frecuencia, en la que los datos audio en el rango de frecuencia alta para cada canal son comprimidos y multiplexados con los otros canales de manera que la señal audio multicanal sea decodificable a una pluralidad de frecuencias de muestreo de decodificación, y un sincro descomprimido para verificar el final de la subtrama.

El tamaño de ventana se selecciona en función de la relación de la velocidad de transmisión a la frecuencia de muestreo de codificador de manera que el tamaño de la trama de salida tenga que situarse en una banda deseada. Cuando la cantidad de compresión es relativamente baja, el tamaño de ventana se reduce de manera que el tamaño de trama no exceda de un máximo superior. Como resultado, un decodificador puede utilizar una memoria intermedia de entrada con una cantidad fija y relativamente pequeña de RAM. Cuando la cantidad de compresión es relativamente alta, se incrementa el tamaño de ventana. Como resultado, el sistema GBM puede distribuir bits sobre un intervalo de tiempo más grande mejorando por ello el rendimiento del codificador.

Estas y otras características y ventajas de la invención serán evidentes a los expertos en la materia por la siguiente descripción detallada de realizaciones preferidas, tomadas juntas con los dibujos anexos y las tablas, en los que:

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques de un codificador audio de 5 canales según la presente invención.

La figura 2 es un diagrama de bloques de un codificador multicanal.

La figura 3 es un diagrama de bloques del codificador y decodificador de banda base.

Las figuras 4a y 4b son diagramas de tramas de un codificador y decodificador de alta frecuencia de muestreo, respectivamente.

La figura 5 es un diagrama de bloques de un codificador de canal único.

La figura 6 es un gráfico de los bytes por trama frente al tamaño de trama para velocidades de transmisión variables.

La figura 7 es un gráfico de la respuesta de amplitud para los filtros de reconstrucción NPR y PR.

La figura 8 es un gráfico del escalonamiento de sub-banda para un filtro de reconstrucción.

La figura 9 es un gráfico de las curvas de distorsión para los filtros NPR y PR.

La figura 10 es un diagrama esquemático de un solo codificador de sub-banda.

Las figuras 11a y 11b ilustran la detección de transitorios y el cálculo del factor de escala, respectivamente, para una subtrama.

La figura 12 ilustra el proceso de codificación por entropía para los TMODEs cuantificados.

La figura 13 ilustra el proceso de cuantificación de factor de escala.

La figura 14 ilustra la convolución de una máscara de señal con la respuesta de frecuencia de señal para generar las SMRs.

La figura 15 es un gráfico de la respuesta de audición humana.

La figura 16 es un gráfico de las SMRs para las sub-bandas.

La figura 17 es un gráfico de las señales de error para las asignaciones de bits psicoacústica y mmse.

Las figuras 18a y 18b son un gráfico de los niveles de energía de sub-banda y el gráfico invertido, respectivamente, que ilustran el proceso de asignación de bits por "llenado con agua" por mmse.

La figura 19 es un diagrama de bloques de una sola trama en el flujo de datos.

La figura 20 es un diagrama esquemático del decodificador.

La figura 21 es un diagrama de bloques de una implementación por hardware del codificador.

Y la figura 22 es un diagrama de bloques de una implementación por hardware del decodificador.

Breve descripción de las tablas

La Tabla 1 tabula el tamaño máximo de trama frente a la frecuencia de muestreo y velocidad de transmisión.

La Tabla 2 tabula el tamaño de trama máximo permitido (bytes) frente a la frecuencia de muestreo y la velocidad de transmisión.

Y la Tabla 3 ilustra la relación entre el valor de índice ABIT, el número de niveles de cuantificación y la sub-banda SNR resultante.

Descripción detallada de la invención Sistema de codificación audio multicanal

Como se representa en la figura 1, la presente invención combina las características de los esquemas de codificación conocidos más las características adicionales en un solo codificador audio multicanal 10. El algoritmo de codificación está diseñado para realizar en estudio niveles de calidad, es decir, calidad "superior a CD" y proporcionar una amplia gama de aplicaciones para variar los niveles de compresión, las frecuencias de muestreo, las longitudes de palabra, el número de canales y la calidad perceptual.

El codificador 12 codifica múltiples canales de datos audio PCM 14, muestreados típicamente a 48 kHz con longitudes de palabra entre 16 y 24 bits, a un flujo de datos 16 a una velocidad de transmisión conocida, adecuadamente en el rango de 32-4096 kbps. A diferencia de los codificadores audio conocidos, la arquitectura presente se puede expandir a frecuencias de muestreo más altas (48-192 kHz) sin hacer incompatibles los decodificadores existentes, que estaban destinados a la frecuencia de muestreo de banda base o cualquier frecuencia de muestreo intermedia. Además, los datos PCM 14 son divididos en ventanas y codificados una trama cada vez donde cada trama se divide preferiblemente en 1-4 subtramas. El tamaño de la ventana audio, es decir, el número de muestras PCM, se basa en los valores relativos de la frecuencia de muestreo y velocidad de transmisión de tal manera que el tamaño de una trama de salida, es decir, el número de bytes, leído por el decodificador 18 por trama es limitado, adecuadamente entre 5,3 y 8 kbytes.

Como resultado, la cantidad de RAM requerida en el decodificador para poner en memoria intermedia el flujo de datos entrante se mantiene relativamente baja, lo que reduce el costo del decodificador. A velocidades bajas se puede usar tamaños de ventana más grandes para encuadrar los datos PCM, lo que mejora el rendimiento de la codificación. A tasas de bits más altas, se debe usar tamaños de ventana más pequeños para cumplir la limitación de los datos. Esto reduce necesariamente el rendimiento de la codificación, pero a las velocidades más altas es insignificante. Además, la manera en que son encuadrados los datos PCM permite al decodificador 18 iniciar la reproducción antes de que toda la trama de salida sea leída a la memoria intermedia. Esto reduce el retardo o latencia del codificador
audio.

El codificador 12 usa un banco de filtros de alta resolución, que conmuta preferiblemente entre filtros de reconstrucción no perfecta (NPR) y perfecta (PR) en base a la tasa de bits, para descomponer cada canal audio 14 en un número de señales de sub-banda. Los codificadores predictivos y de cuantificación vectorial (VD) se utilizan para codificar las sub-bandas de frecuencia inferiores y superiores, respectivamente. La sub-banda VQ de inicio puede ser fija o se puede determinar dinámicamente en función de las propiedades de señal corrientes. Se puede emplear codificación de frecuencia conjunta a bajas tasas de bits para codificar simultáneamente canales múltiples en las sub-bandas de frecuencia más alta.

El codificador predictivo conmuta preferiblemente entre modos APCM y ADPCM en base a la ganancia de predicción de sub-banda. Un analizador de transitorios segmenta cada subtrama de sub-banda en señales pre- y post-eco (sub-subtramas) y calcula respectivos factores de escala para las sub-subtramas pre y post-eco reduciendo por ello la distorsión pre-eco. El codificador asigna adaptativamente la tasa de bits disponible a través de todos los canales y sub-bandas PCM para la trama corriente según sus necesidades respectivas (psicoacústica o mse) para optimizar la eficiencia de codificación. Combinando la codificación predictiva y el modelado psicoacústico, la eficiencia de codificación a una tasa de bits baja se mejora disminuyendo por ello la tasa de bits a la que se logra transparencia subjetiva. Un controlador programable 19, tal como un ordenador o un teclado, está en interface con el codificador 12 para enviar información de modo audio incluyendo parámetros como la tasa de bits deseada, el número de canales, reconstrucción PR o NPR, frecuencia de muestreo y velocidad de transmisión.

Las señales codificadas y la información de banda lateral son comprimidas y multiplexadas al flujo de datos 16 de tal manera que la carga computacional de decodificación esté limitada de manera que se sitúe en el rango deseado. El flujo de datos 16 se codifica o transmite por un medio de transmisión 20 tal como un CD, un disco vídeo digital (DVD), o un satélite de radiodifusión directa. El decodificador 18 decodifica las señales de sub-banda individuales y realiza la operación de filtración inversa para generar una señal audio multicanal 22 que es subjetivamente equivalente a la señal audio multicanal original 14. Un sistema audio 24 tal como un sistema de teatro en casa o un ordenador multimedia reproducen la señal audio para el usuario.

Codificador multicanal

Como se representa en la figura 2, el codificador 12 incluye una pluralidad de codificadores de canal individuales 26, adecuadamente cinco (delantero izquierdo, central, delantero derecho, trasero izquierdo y trasero derecho), que producen grupos respectivos de señales de sub-banda codificadas 28, adecuadamente 32 señales de sub-banda por canal. El codificador 12 emplea un sistema de administración global de bits (GBM) 30 que asigna dinámicamente los bits de una agrupación de bits común entre los canales, entre las sub-bandas dentro de un canal, y dentro de una trama individual en una sub-banda dada. El codificador 12 también puede usar técnicas de codificación de frecuencia conjunta para aprovechar correlaciones entre canales en las sub-bandas de frecuencia más alta. Además, el codificador 12 puede utilizar VQ en las sub-bandas de frecuencia más alta que no son específicamente perceptibles para proporcionar una fidelidad básica de alta frecuencia o ambianza a una tasa de bits muy baja. De esta forma, el codificador aprovecha las demandas de señal dispares, por ejemplo los valores RMS de las sub-bandas y los niveles de enmascarado psicoacústicos, de los canales múltiples y la distribución no uniforme de energía de señal sobre la frecuencia en cada canal y en el tiempo en una trama dada.

Visión general de la asignación de bits

El sistema GBM 30 decide primero qué sub-bandas de canales serán codificadas en frecuencia conjunta y promedia dichos datos, y determina después qué sub-bandas serán codificadas usando VQ y resta dichos bits de la tasa de bits disponibles. La decisión de qué sub-bandas VQ se puede realizar a priori porque todas las sub-bandas por encima de una frecuencia umbral son VQ o se puede hacer en base a los efectos de enmascarado psicoacústico de las sub-bandas individuales en cada trama. Después, el sistema GBM 30 asigna bits (ABIT) usando enmascarado psicoacústico en las sub-bandas restantes para optimizar la calidad subjetiva de la señal audio decodificada. Si hay disponibles bits adicionales, el codificador puede conmutar a un esquema mmse puro, es decir "llenado con agua", y reasignar todos los bits en base a los valores eficaces relativos de las sub-bandas para minimizar el valor eficaz de la señal de error. Esto se puede aplicar a tasas de bits muy altas. El acercamiento preferido es retener la asignación de bits psicoacústicos y asignar solamente los bits adicionales según el esquema mmse. Esto mantiene la forma de la señal de ruido creada por el enmascarado psicoacústico, pero desplaza uniformemente el suelo de ruido hacia abajo.

Alternativamente, el acercamiento preferido se puede modificar de tal manera que los bits adicionales sean asignados según la diferencia entre los niveles rms y psicoacústicos. Como resultado, la asignación psicoacústica morfa a una asignación mmse cuando la tasa de bits aumenta, proporcionando por ello una transición suave entre las dos técnicas. Las técnicas anteriores son aplicables específicamente a sistemas de tasas de bits fijas. Alternativamente, el codificador 12 puede poner un nivel de distorsión, subjetiva o mse, y permitir variar la tasa general de bits para mantener el nivel de distorsión. Un multiplexor 32 multiplexa las señales de sub-banda e información complementaria al flujo de datos 16 según un formato de datos especificado. Los detalles del formato de datos se explican en la figura 20 a continuación.

Codificación de banda base

Para frecuencias de muestreo en el rango 8-48 kHz, el codificador de canal 26, como se representa en la figura 3, emplea un banco de filtros de análisis uniforme de 512 tomas y 32 bandas 34 que opera a una frecuencia de muestreo de 48 kHz para dividir el espectro audio, 0-24 kHz, de cada canal en 32 sub-bandas que tienen una anchura de banda de 750 Hz por sub-banda. La etapa de codificación 36 codifica cada señal de sub-banda y las multiplexa 38 al flujo de datos comprimidos 16. El decodificador 18 recibe el flujo de datos comprimidos, separa los datos codificados para cada sub-banda usando un descompresor 40, decodifica cada señal de sub-banda 42 y reconstruye las señales audio digitales PCM (Fsamp = 48kHz) usando un bando de filtros de interpolación uniforme de 512 tomas y 32 bandas 44 para cada canal.

En la arquitectura presente, todas las estrategias de codificación, por ejemplo, las frecuencias de muestreo de 48, 96 o 192 kHz, usan el proceso de codificación/decodificación de 32 bandas en las frecuencias audio (de banda base) inferiores, por ejemplo entre 0-24 kHz. Así, los decodificadores diseñados y construidos hoy día en base a una frecuencia de muestreo de 48 kHz serán compatibles con futuros codificadores que estén diseñados para aprovechar componentes de frecuencias más altas. El decodificador actual leería la señal de banda base (0-24kHz) e ignoraría los datos codificados para las frecuencias más altas.

Codificación a alta tasa de muestreo

Para frecuencias de muestreo en el rango de 48-96 kHz, el codificador de canal 26 divide preferiblemente el espectro audio en dos y emplea un banco de filtros de análisis uniforme de 32 bandas para la mitad inferior y un banco de filtros de análisis de 8 bandas para la mitad superior. Como se representa en las figuras 4a y 4b, el espectro audio, 0-48 kHz, se divide inicialmente usando un banco de prefiltros de decimación de 256 tomas y 2 bandas 46 dando una anchura de banda audio de 24 kHz por banda. La banda inferior (0-24kHz) está dividida y codificada en 32 bandas uniformes de la manera descrita anteriormente en la figura 3. Sin embargo, la banda superior (24-48kHz) está dividida y codificada en 8 bandas uniformes. Si el retardo del banco de filtros de decimación/interpolación de 8 bandas 48 no es igual al del de los filtros de 32 bandas, se debe emplear una etapa de compensación de retardo 50 en algún punto en el recorrido de señal de 24-48 kHz para asegurar que ambas formas de onda temporales se alineen antes del banco de filtros de recombinación de 2 bandas en el decodificador. En el sistema de codificación de muestreo de 96 kHz, la banda audio de 24-48 kHz se retarda 384 muestras y después se divide en las 8 bandas uniformes usando un banco de filtros de interpolación de 128 tomas. Cada una de las sub-bandas de 3 kHz se codifica 52 y comprime 54 con los datos codificados de la banda de 0-24 kHz para formar el flujo de datos comprimidos 16.

A la llegada al decodificador 18, el flujo de datos comprimidos 16 es descomprimido 56, y los códigos para el decodificador de 32 bandas (región de 0-24 kHz) y el decodificador de 8 bandas (24-48 kHz) se separan y alimentan a sus respectivas etapas decodificadoras 42 y 58, respectivamente. Las sub-bandas 8 y 32 decodificadas se reconstruyen usando bancos de filtros de interpolación uniforme de 128 tomas y 512 tomas 60 y 44, respectivamente. Las sub-bandas decodificadas son recombinadas después usando un banco de filtros de interpolación uniforme de 256 tomas y 2 bandas 62 para producir una sola señal audio digital PCM con una frecuencia de muestreo de 96 kHz. En el caso en que sea deseable que el decodificador opere a la mitad de la frecuencia de muestreo del flujo de datos comprimidos, esto se puede realizar convenientemente desechando los datos de banda superior codificados (24-48 kHz) y decodificando solamente las 32 sub-bandas en la región audio de 0-24 kHz.

Codificador de canal

En todas las estrategias de codificación descritas, el proceso de codificación/decodificación de 32 bandas se realiza para la porción de banda base de la anchura de banda audio entre 0-24 kHz. Como se representa en la figura 5, un captador de tramas 64 divide en ventanas el canal audio PCM 14 para segmentarlo en tramas sucesivas de datos 66. La ventana audio PCM define el número de muestras de entrada contiguas para que el proceso de decodificación genere una trama de salida en el flujo de datos. El tamaño de ventana se establece en base a la cantidad de compresión, es decir, la relación de la velocidad de transmisión a la frecuencia de muestreo, de tal manera que la cantidad de datos codificados en cada trama esté limitada. Cada trama sucesiva de datos 66 se divide en 32 bandas de frecuencia uniforme 68 por un banco de filtros de decimación FIT de 32 bandas y 512 tomas 34. Las muestras salidas de cada sub-banda se ponen en memoria intermedia y aplican a la etapa de codificación de 32 bandas 36.

Una etapa de análisis 70 (descrita con detalle en las figuras 10-19) genera coeficientes del predictor óptimos, asignaciones de bits de cuantificador diferencial y factores de escala de cuantificador óptimo para las muestras de sub-banda puestas en memoria intermedia. La etapa de análisis 70 también puede decidir qué sub-bandas serán VQ y cuáles serán codificadas en frecuencia conjunta si estas decisiones no están fijadas. Estos datos, o información complementaria, se envía a la etapa ADPCM seleccionada 72, la etapa VQ 73 o etapa de Codificación de Frecuencia Conjunta (JFC) 74, y al multiplexor de datos 32 (compresor). Las muestras de sub-banda son codificadas después por el proceso ADPCM o VQ y los códigos de cuantificación son introducidos en el multiplexor. La etapa JFC 74 no codifica realmente muestras de sub-banda, sino que genera códigos que indican qué sub-bandas de canales se unen y dónde se ponen en el flujo de datos. Los códigos de cuantificación y la información complementaria de cada sub-banda se comprimen en el flujo de datos 16 y transmiten al decodificador.

A la llegada al decodificador 18, el flujo de datos es demultiplexado 40, o descomprimido, de nuevo a las sub-bandas individuales. Los factores de escala y asignaciones de bits se instalan primero en los cuantificadores inversos 75 junto con los coeficientes del predictor para cada sub-banda. Los códigos diferenciales son reconstruidos después usando el proceso ADPCM 76 o el proceso VQ inverso 77 directamente o el proceso JFC inverso 78 para las sub-bandas designadas. Las sub-bandas son amalgamadas de nuevo finalmente a una sola señal audio PCM 22 usando el banco de filtros de interpolación de 32 bandas 44.

Encuadre de señales PCM

Como se representa en la figura 6, el captador de tramas 64 representado en la figura 5 varía el tamaño de la ventana 79 cuando la velocidad de transmisión cambia para una frecuencia de muestreo dada de manera que el número de bytes por trama de salida 80 esté limitado a estar, por ejemplo, entre 5,3 kbytes y 8 kbytes. Las Tablas 1 y 2 son tablas de diseño que permiten al diseñador seleccionar el tamaño óptimo de ventana y el tamaño de la memoria intermedia del decodificador (tamaño de trama), respectivamente, para una frecuencia de muestreo y una velocidad de transmisión dadas. A bajas velocidades de transmisión el tamaño de trama puede ser relativamente grande. Esto permite al codificador explotar la distribución de varianza no plana de la señal audio en el tiempo y mejorar el rendimiento del codificador audio. A altas tasas, el tamaño de trama se reduce de manera que el número total de bytes no rebose la memoria intermedia del decodificador. Como resultado, el diseñador puede proporcionar al decodificador 8 kbytes de RAM para satisfacer todas las velocidades de transmisión. Esto reduce el costo del decodificador. En general, el tamaño de la ventana audio viene dado por:

Ventana \ audio = (Tamaño \ de \ ventana)\text{*} F_{samp} \text{*} \left(\frac{8}{T_{rate}}\right)

donde Tamaño de trama es el tamaño de la memoria intermedia del decodificador, F_{samp} es la frecuencia de muestreo, y T_{rate} es la velocidad de transmisión. El tamaño de la ventana audio es independiente del número de canales audio. Sin embargo, a medida que se incrementa el número de canales, también debe aumentar la cantidad de compresión para mantener la velocidad de transmisión deseada.

TABLA 1 F_{samp} (kHz)

1

TABLA 2 F_{samp} (kHz)

2

Filtración de sub-banda

El banco de filtros de decimación uniforme de 32 bandas y 512 tomas 34 selecciona de dos bancos de filtros polifase para dividir las tramas de datos 66 en las 32 sub-bandas uniformes 68 representadas en la figura 5. Los dos bancos de filtros tienen diferentes propiedades de reconstrucción que compensan la ganancia de codificación de sub-banda con la precisión de reconstrucción. Una clase de filtros se denomina filtros de reconstrucción perfecta (PR). Cuando el filtro de decimación PR (codificación) y su filtro de interpolación (decodificación) se colocan espalda con espalda, la señal reconstruida es "perfecta", donde perfecto se define como que está dentro de 0,5 lsb a 24 bits de resolución. La otra clase de filtros se denomina filtros de reconstrucción no perfecta (NPR) porque la señal reconstruida tiene un suelo de ruido no cero que está asociado con las propiedades de cancelación de escalonamiento no perfectas del proceso de filtración.

Las funciones de transferencia 82 y 84 de los filtros NPR y PR, respectivamente, para una sola sub-banda se muestran en la figura 7. Dado que los filtros NPR no están limitados para proporcionar reconstrucción perfecta, exhiben relaciones mucho más grandes de rechazo de banda de casi parada (NSBR), es decir, la relación de la banda de paso al primer lóbulo lateral, que los filtros PR (110 dB frente a 85 dB). Como se representa en la figura 8, los lóbulos laterales del filtro producen una señal 86 que está naturalmente en la tercera sub-banda para escalonamiento a las sub-bandas contiguas. La ganancia de sub-banda mide el rechazo de la señal en las sub-bandas contiguas, y por lo tanto indica la capacidad del filtro de descorrelacionar la señal audio. Dado que los filtros NPR tienen una relación NSBR mucho más grande que los filtros PR, también tendrán una ganancia de sub-banda mucho más grande. Como resultado, los filtros NPR proporcionan mejor eficiencia de codificación.

Como se representa en la figura 9, la distorsión total en el flujo de datos comprimidos se reduce a medida que la tasa general de bits aumenta para ambos filtros PR y NPR. Sin embargo, a velocidades bajas la diferencia del rendimiento de ganancia de sub-banda entre los dos tipos de filtro es mayor que el suelo de ruido asociado con el filtro NPR. Así, la curva de distorsión 90 asociada con el filtro NPR está por debajo de la curva de distorsión 92 asociada del filtro PR. Por lo tanto, a bajas velocidades, el codificador audio selecciona el banco de filtros NPR. En algún punto 94, el error de cuantificación del codificador cae por debajo del suelo de ruido del filtro NPR de tal manera que sumar bits adicionales al codificador ADPCM no proporciona beneficios adicionales. En este punto, el codificador audio conmuta al banco de filtros PR.

Codificación ADPCM

El codificador ADPCM 72 genera una muestra prevista p(n) a partir de una combinación lineal de H muestras reconstruidas previas. Esta muestra de predicción se resta después de la entrada x(n) dando una muestra de diferencia
d(n). Las muestras de diferencia se escalan dividiéndolas por el factor de escala RMS (o PEAK) para hacer concordar las amplitudes RMS de las muestras de diferencia con la de la característica del cuantificador Q. La muestra de diferencia escalada ud(n) se aplica a una característica del cuantificador con L niveles de tamaño de paso SZ, determinados por el número de bits ABIT asignados para la muestra corriente. El cuantificador produce un código de nivel QL(n) para cada muestra de diferencia escalada ud(n). Estos códigos de nivel son transmitidos en último término a la etapa ADPCM del decodificador. Para actualizar la historia del predictor, los códigos de nivel del cuantificador QL(n) son decodificados localmente usando un cuantificador inverso 1/Q con idénticas características a las de Q para producir una muestra de diferencia escalada cuantificada u\hat{d}(n). La muestra u\hat{d}(n) es reescalada multiplicándola con el factor de escala RMS (o PEAK), para producir \hat{d}(n). Una versión cuantificada \hat{x}(n) de la muestra de entrada original x(n) se reconstruye añadiendo la muestra de predicción inicial p(n) a la muestra de diferencia cuantificada \hat{d}(n). Esta muestra se utiliza posteriormente para actualizar la historia del predictor.

Cuantificación vectorial

Los coeficientes del predictor y las muestras de sub-banda de alta frecuencia se codifican usando cuantificación vectorial (VQ). La VQ del predictor tiene una dimensión vectorial de 4 muestras y una tasa de bits de 3 bits por muestra. Por lo tanto, el libro de códigos final consta de 4096 vectores de código de dimensión 4. La búsqueda de vectores coincidentes está estructurada como un árbol de dos niveles, teniendo cada nodo del árbol 64 bifurcaciones. El nivel superior guarda 64 vectores de código de nodo que solamente son necesarios en el codificador como ayuda en el proceso de búsqueda. El nivel inferior contacta 4096 vectores de código finales, que se requieren en el codificador y el decodificador. Por cada búsqueda, se requieren 128 cálculos MSE de dimensión 4. El libro de códigos y los vectores de nodo en el nivel superior se entrenan usando el método LBG, con más de 5 millones de vectores de entrenamiento de coeficiente de predicción. Los vectores de entrenamiento se acumulan para todas las sub-bandas que exhiben una ganancia de predicción positiva, codificando al mismo tiempo un rango amplio de material audio. Para vectores de prueba en un conjunto de aprendizaje, se obtienen SNRs medias de aproximadamente 30dB.

La VQ de alta frecuencia tiene una dimensión vectorial de 32 muestras (la longitud de una subtrama) y una tasa de bits de 0,3125 bits por muestra. Por lo tanto, el libro de códigos final consta de 1024 vectores de código de dimensión 32. La búsqueda de vectores coincidentes está estructurada como un árbol de dos niveles, teniendo cada nodo en el árbol 32 bifurcaciones. El nivel superior guarda 32 vectores de código de nodo, que solamente son necesarios en el codificador. El nivel inferior contiene 1024 vectores de código finales que se requieren en el codificador y el decodificador. Por cada búsqueda, se requieren 64 cálculos MSE de dimensión 32. El libro de códigos y los vectores de nodo en el nivel superior se entrenan usando el método LBG con más de 7 millones de vectores de entrenamiento de muestra de sub-banda de alta frecuencia. Las muestras que forman los vectores se acumulan a partir de las salidas de sub-bandas 16 a 32 para una frecuencia de muestreo de 48 kHz para un rango amplio de material audio. A una frecuencia de muestreo de 48 kHz, las muestras de entrenamiento representan frecuencias audio en el rango 12 a 24 kHz. Para vectores de prueba en el conjunto de entrenamiento, se espera una SNR media de aproximadamente 3 dB. Aunque 3 dB es una SNR pequeña, es suficiente para proporcionar fidelidad de alta frecuencia o ambianza a estas frecuencias altas. Es perceptualmente mucho mejor que las técnicas conocidas que simplemente bajan las sub-bandas de alta frecuencia.

Codificación de frecuencia conjunta

En aplicaciones a tasas de bits muy bajas la fidelidad de reconstrucción general se puede mejorar codificando solamente una suma de las señales de sub-banda de alta frecuencia de dos o más canales audio en lugar de codificarlas independientemente. La codificación de frecuencia conjunta es posible porque las sub-bandas de alta frecuencia tienen a menudo similares distribuciones de energía y porque el sistema auditorio humano es sensible primariamente a la "intensidad" de los componentes de frecuencia alta, en vez de su estructura fina. Así, la señal media reconstruida proporciona buena fidelidad general puesto que, a cualquier tasa de bits, más bits están disponibles para codificar las frecuencias bajas perceptualmente importantes.

Los índices de codificación de frecuencia conjunta (JOINX) son transmitidos directamente al decodificador para indicar qué canales y sub-bandas se han unido y dónde está colocada la señal codificada en el flujo de datos. El decodificador reconstruye la señal en el canal designado y después la copia a cada uno de los otros canales. Cada canal es escalado después según su factor de escala RMS particular. Dado que la codificación de frecuencia conjunta promedia las señales de tiempo en base a la semejanza de sus distribuciones de energía, se reduce la fidelidad de reconstrucción. Por lo tanto, su aplicación está limitada típicamente a aplicaciones de baja tasa de bits y principalmente a las señales de 10-20 kHz. En las aplicaciones de tasas de bits media a alta la codificación de frecuencia conjunta está típicamente inhabilitada.

Codificador de sub-banda

En la figura 10 se ilustra con detalle el proceso de codificación para una banda lateral única que se codifica usando los procesos ADPCM/APCM, y específicamente la interacción de la etapa de análisis 70 y el codificador ADPCM 72 representado en la figura 5 y el sistema de administración global de bits 30 representado en la figura 2. Las figuras 11-19 detallan los procesos componentes representados en la figura 13. El banco de filtros 34 divide la señal audio PCM 14 en 32 señales de sub-banda x(n) que se escriben en respectivas memorias intermedias de muestras de sub-banda 96. Suponiendo un tamaño de ventana audio de 4096 muestras, cada memoria intermedia de muestras de sub-banda 96 guarda una trama completa de 128 muestras, que se dividen en 4 subtramas de 32 muestras. Un tamaño de ventana de 1024 muestras produciría una sola subtrama de 32 muestras. Las muestras x(n) se dirigen a la etapa de análisis 70 para determinar los coeficientes de predicción, el modo del predictor (PMODE), el modo transitorio (TMODE) y los factores de escala (SF) para cada subtrama. Las muestras x(n) también se suministran al sistema GBM 30, que determina la asignación de bits (ABIT) para cada subtrama por sub-banda por canal audio. Después, las muestras x(n) se pasan al codificador ADPCM 72, una subtrama cada vez.

Estimación de coeficientes de predicción óptimos

Los H coeficientes de predicción, adecuadamente de cuarto orden, se generan por separado para cada subtrama usando el método de autocorrelación estándar 98 optimizado sobre un bloque de muestras de sub-banda x(n), es decir las ecuaciones de Weiner-Hopf o Yule-Walker.

Cuantificación de coeficientes de predicción óptimos

Cada conjunto de cuatro coeficientes del predictor se cuantifica preferiblemente usando un libro de códigos vectoriales de 12 bits de búsqueda en árbol de 4 elementos (3 bits por coeficiente) descrito anteriormente. El libro de códigos vectoriales de 12 bits contiene 4096 vectores de coeficiente que se optimizan para una distribución de probabilidad deseada usando un algoritmo de agrupamiento estándar. Una búsqueda de cuantificación vectorial (VQ) 100 selecciona el vector de coeficiente que exhibe el error cuadrático medio ponderado más bajo entre él mismo y los coeficientes óptimos. Los coeficientes óptimos para cada subtrama son sustituidos después por estos vectores "cuantificados". Se utiliza un VQ LUT inverso 101 para suministrar los coeficientes cuantificados del predictor al codificador ADPCM 72.

Estimación de la señal de diferencia de predicción d(n)

Un cuandario significativo con ADPCM es que la secuencia de muestras de diferencia d(n) no se puede predecir fácilmente con anterioridad al proceso recursivo real 72. Un requisito fundamental de ADPCM de sub-banda adaptativa directa es que la energía de señal de diferencia sea conocida antes de la codificación ADPCM para calcular una asignación de bits apropiada para el cuantificador que produzca un error de cuantificación conocido, o nivel de ruido en las muestras reconstruidas. El conocimiento de la energía de señal de diferencia también se requiere para que un factor de escala de diferencia óptima se pueda determinar antes de la codificación.

Por desgracia, la energía de señal de diferencia no sólo depende de las características de la señal de entrada, sino también del rendimiento del predictor. Aparte de las limitaciones conocidas, tal como el orden del predictor y la optimalidad de los coeficientes del predictor, el rendimiento del predictor también queda afectado por el nivel del error de cuantificación, o ruido, inducido en las muestras reconstruidas. Puesto que el ruido de cuantificación viene dictado por la asignación final de bits ABIT y los valores RMS (o PEAK) del factor de escala de diferencia propiamente dichos, la estimación de energía de la señal de diferencia se debe alcanzar iterativamente en 102.

Paso 1

Asumir un error de cuantificación cero

La primera estimación de señal de diferencia se hace pasando las muestras de sub-banda puestas en memoria intermedia x(n) por un proceso ADPCM que no cuantifica la señal de diferencia. Esto se lleva a cabo inhabilitando la cuantificación y la puesta en escala RMS en el bucle de codificación ADPCM. Estimando la señal de diferencia d(n) de esta forma, se quitan del cálculo los efectos del factor de escala y los valores de asignación de bits. Sin embargo, el efecto del error de cuantificación en los coeficientes del predictor es tomado en cuenta por el proceso utilizando los coeficientes de predicción vectoriales cuantificados. Se utiliza un VQ LUT inverso 104 para proporcionar los coeficientes de predicción cuantificados. Para mejorar más la exactitud del predictor de estimación, las muestras de historia del predictor ADPCM real que se acumularon al final de la trama anterior se copian al predictor antes del cálculo. Esto garantiza que el predictor comience en donde quedó el predictor ADPCM real al final de la memoria intermedia de entrada anterior.

La principal discrepancia entre esta estimación ed(n) y el proceso real d(n) es que se ignora el efecto del ruido de cuantificación en las muestras reconstruidas x(n) y en la exactitud de predicción reducida. Para cuantificadores con gran número de niveles, el nivel de ruido será en general pequeño (suponiendo puesta en escala apropiada) y por lo tanto la energía real de la señal de diferencia coincidirá estrechamente con la calculada en la estimación. Sin embargo, cuando el número de niveles del cuantificador es pequeño, como es el caso de los codificadores audio típicos de baja tasa de bits, la señal prevista real, y por lo tanto la energía de la señal de diferencia, pueden diferir considerablemente de la estimada. Esto produce suelos de ruido de codificación que son diferentes de los previstos anteriormente en el proceso adaptativo de asignación de bits.

A pesar de esto, la variación del rendimiento de predicción no puede ser significativa para la aplicación o tasa de bits. Así, la estimación se puede usar directamente para calcular las asignaciones de bits y los factores de escala sin iterar. Un refinamiento adicional sería compensar la pérdida de rendimiento sobreestimando deliberadamente la energía de señal de diferencia si es probable que se vaya a asignar a dicha sub-banda un cuantificador con un pequeño número de niveles. La sobrestimación también puede ser clasificada según el número cambiante de niveles del cuantificador para mayor exactitud.

Paso 2

Recalcular usando asignaciones de bits y factores de escala estimados

Una vez que se han generado las asignaciones de bits (ABIT) y los factores de escala (SF) usando la primera señal de diferencia de estimación, su optimalidad se puede comprobar ejecutando otro proceso de estimación ADPCM usando la ABIT estimada y valores RMS (o PEAK) en el bucle ADPCM 72. Como con la primera estimación, la historia del predictor de estimación se copia del predictor ADPCM real antes de iniciar el cálculo para asegurar que ambos predictores arranquen desde el mismo punto. Una vez que todas las muestras de entrada puestas en memoria intermedia han pasado por este segundo bucle de estimación, el suelo de ruido resultante en cada sub-banda se compara con el suelo de ruido asumido en el proceso adaptativo de asignación de bits. Las discrepancias significativas se pueden compensar modificando la asignación de bits y/o los factores de escala.

El paso 2 se puede repetir para refinar adecuadamente el suelo de ruido distribuido a través de las sub-bandas, usando cada vez la estimación de señal de diferencia más corriente para calcular el conjunto siguiente de asignaciones de bits y factores de escala. En general, si los factores de escala cambiasen más de aproximadamente 2-3 dB, se recalcularían. De otro modo, la asignación de bits correría el riesgo de violar las relaciones de señal a máscara generadas por el proceso de enmascarado psicoacústico, o alternativamente el proceso mmse. Típicamente, una sola iteración es suficiente.

Cálculo de los modos de predicción de sub-banda (PMODE)

Para mejorar la eficiencia de codificación, un controlador 106 puede desactivar de forma arbitraria el proceso de predicción cuando la ganancia de predicción en la subtrama corriente cae por debajo de un umbral poniendo un señalizador PMODE. El señalizador PMODE se pone a uno cuando la ganancia de predicción (relación de la energía de la señal de entrada y la energía de la señal de diferencia estimada), medida durante la etapa de estimación para un bloque de muestras de entrada, excede de cierto umbral positivo. A la inversa, si la ganancia de predicción medida es inferior al umbral positivo, los coeficientes del predictor ADPCM se ponen a cero en el codificador y decodificador, para dicha sub-banda, y se pone a cero el PMODE respectivo. El umbral de ganancia de predicción se establece de tal manera que sea igual a la tasa de distorsión de la carga vectorial de coeficientes de predictor transmitida. Esto se realiza en un intento por asegurar que cuando PMODE=1, la ganancia de codificación para el proceso ADPCM siempre es mayor o igual que la de un proceso de codificación PCM adaptativa (APCM) directa. Poniendo de otro modo PMODE a cero y reposicionando los coeficientes del predictor, el proceso ADPCM revierte simplemente a APCM.

Los PMODEs se pueden poner altos en alguna o todas las sub-bandas si las variaciones de la ganancia de codificación ADPCM no son importantes para la aplicación. A la inversa, los PMODES se pueden poner bajos si, por ejemplo, algunas sub-bandas no se han de codificar, la tasa de bits de la aplicación es suficientemente alta para que las ganancias de predicción no tengan que mantener la calidad subjetiva del audio, el contenido de transitorios de la señal es alto, o la característica de empalme de Audio codificado ADPCM simplemente no es deseable, como podría ser el caso de aplicaciones de edición audio.

Se transmiten modos de predicción separados (PMODEs) para cada sub-banda a una velocidad igual a la velocidad de actualización de los predictores lineales en los procesos ADPCM del codificador y decodificador. La finalidad del parámetro PMODE es indicar al decodificador si la sub-banda particular tendrá alguna dirección de vector de coeficientes de predicción asociada con su bloque de datos audio codificados. Cuando PMODE=1 en alguna sub-banda, siempre se incluirá una dirección de vector de coeficientes de predicción en el flujo de datos. Cuando PMODE=0 en alguna sub-banda, nunca se incluirá una dirección de vector de coeficientes de predicción en el flujo de datos y los coeficientes del predictor se ponen a cero en las etapas ADPCM del codificador y decodificador.

El cálculo de los PMODEs comienza por analizar las energías de señal de entrada de sub-banda puestas en memoria intermedia con respecto a las energías correspondientes de señal de diferencia estimada puestas en memoria intermedia obtenidas en la estimación de primera etapa, es decir, no suponiendo error de cuantificación. Tanto las muestras de entrada x(n) como las muestras de diferencia estimadas ed(n) se ponen en memoria intermedia para cada sub-banda por separado. El tamaño de la memoria intermedia es igual al número de muestras contenidas en cada período de actualización del predictor, por ejemplo, el tamaño de una subtrama. La ganancia de predicción se calcula entonces como:

P_{gain} (dB) = 20,0 \text{*} Log_{10}(RMS_{x(n)}/RMS_{ed(n)})

donde RMS_{x(n)} = valor cuadrático medio de las muestras de entrada puestas en memoria intermedia x(n) y RMS_{ed(n)} = valor cuadrático medio de las muestras de diferencia estimadas puestas en memoria intermedia ed(n).

Para ganancias de predicción positivas, la señal de diferencia es, como media, menor que la señal de entrada, y por lo tanto se puede alcanzar un suelo de ruido de reconstrucción reducido usando el proceso ADPCM sobre APCM para la misma tasa de bits. Para ganancias negativas, el codificador ADPCM hace la señal de diferencia, como media, mayor que la señal de entrada, lo que da lugar a suelos de ruido más altos que APCM para la misma tasa de bits. Normalmente, el umbral de ganancia de predicción, que activa PMODE, será positivo y tendrá un valor que tiene en cuenta la capacidad extra de canal consumida transmitiendo la dirección del vector de coeficientes del predictor.

Cálculo de los modos transitorios de sub-banda (TMODE)

El controlador 106 calcula los modos transitorios (TMODE) para cada subtrama en cada sub-banda. Los TMODEs indican el número de factores de escala y las muestras en la memoria intermedia de señales de sub-banda de entrada ed(n) cuando PMODE=1 o en la memoria intermedia de señales de sub-banda de entrada x(n) cuando PMODE=0, para los que son válidos. Los TMODEs son actualizados a la misma tasa que las direcciones de vector de coeficientes de predicción y se transmiten al decodificador. La finalidad de los modos transitorios es reducir los artefactos audibles de "pre-eco" de codificación en presencia de transitorios de señal.

Un transitorio se define como una transición rápida entre una señal de amplitud baja y una señal de amplitud alta. Dado que los factores de escala se promedian en un bloque de muestras de diferencia de sub-banda, si tiene lugar un cambio rápido en la amplitud de señal en un bloque, es decir, se produce un transitorio, el factor de escala calculado tiende a ser mucho más grande de lo que sería óptimo para las muestras de amplitud baja que preceden al transitorio. Por lo tanto, el error de cuantificación en las muestras que preceden a transitorios puede ser muy alto. Este ruido es percibido como pre-eco de distorsión.

En la práctica, el modo transitorio se utiliza para modificar la longitud de bloque de promediado de factores de escala de sub-banda con el fin de limitar la influencia de un transitorio en la puesta en escala de las muestras diferenciales que lo preceden inmediatamente. La motivación para hacerlo son los fenómenos de pre-enmascaramiento inherentes al sistema auditorio humano, que sugiere que, en presencia de transitorios, el ruido puede ser enmascarado antes de un transitorio, a condición de que su duración se mantenga corta.

Dependiendo del valor de PMODE, el contenido, es decir la subtrama, de la memoria intermedia de muestras de sub-banda x(n) o el de la memoria intermedia de diferencias estimadas ed(n) se copia a una memoria intermedia de análisis de transitorios. Aquí el contenido de la memoria intermedia se divide uniformemente en 2, 3 o 4 sub-subtramas dependiendo del tamaño de muestra de la memoria intermedia de análisis. Por ejemplo, si la memoria intermedia de análisis contiene 32 muestras de sub-banda (21,3 ms @1500 Hz), la memoria intermedia se divide en 4 sub-subtramas de 8 muestras cada una, dando una resolución temporal de 5,3 ms para una frecuencia de muestreo de sub-banda de 1500 Hz. Alternativamente, si la ventana de análisis se configurase en muestras de 16 sub-bandas, la memoria intermedia solamente tendría que dividirse en dos sub-subtramas para dar la misma resolución temporal.

Se analiza la señal en cada sub-subtrama y se determina el estado transitorio de cada una, distinta de la primera. Si alguna sub-subtrama se declara transitoria, se generan dos factores de escala separados para la memoria intermedia de análisis, es decir, la subtrama corriente. El primer factor de escala se calcula a partir de muestras en las sub-subtramas que preceden a la sub-subtrama transitoria. El segundo factor de escala se calcula a partir de muestras en la sub-subtrama transitoria junto con todas las sub-subtramas precedentes.

El estado de transitorio de la primera sub-subtrama no se calcula puesto que el ruido de cuantificación está limitado automáticamente por el comienzo de la ventana de análisis propiamente dicho. Si más de una sub-subtrama se declara transitoria, solamente se considera la que se produce primero. Si no se detectan sub-memorias intermedias de transitorios, solamente se calcula un solo factor de escala usando todas las muestras en la memoria intermedia de análisis. De esta forma, no se usan valores de factor de escala que incluyen muestras transitorias para escalar muestras anteriores más de un período de sub-subtrama atrás en el tiempo. Por lo tanto, el ruido de cuantificación de pre-transitorio se limita a un período de sub-subtrama.

Declaración de transitorios

Una sub-subtrama se declara transitoria si la relación de su energía en la sub-memoria intermedia precedente excede de un umbral transitorio (TT), y la energía en la sub-subtrama precedente es inferior a un umbral pretransitorio (PTT). Los valores de TT y PTT dependerán de la tasa de bits y el grado de supresión de pre-eco requerido. Normalmente se varían hasta que la distorsión pre-eco percibida coincide con el nivel de otros artefactos de codificación, si existen. Aumentar TT y/o disminuir los valores PTT reducirá la probabilidad de que las sub-subtramas sean declaradas transitorias, y por lo tanto reducirá la tasa de bits asociada con la transmisión de los factores de escala. A la inversa, reducir TT y/o aumentar los valores PTT incrementará la probabilidad de que las sub-subtramas sean declaradas transitorias, y por lo tanto incrementará la tasa de bits asociada con la transmisión de los factores de escala.

Puesto que TT y PTT se ponen individualmente para cada sub-banda, la sensibilidad de la detección de transitorios en el codificador se puede poner de forma arbitraria para cualquier sub-banda. Por ejemplo, si se halla que el pre-eco en sub-bandas de alta frecuencia es menos perceptible que en las sub-bandas de frecuencia inferior, los umbrales se pueden poner para reducir la probabilidad de que se declaren transitorios en las sub-bandas más altas. Además, puesto que los TMODEs están embebidos en el flujo de datos comprimidos, el decodificador nunca necesita conocer el algoritmo de detección de transitorios utilizado en el codificador para decodificar apropiadamente la información de TMODE.

Configuración de cuatro sub-memorias intermedias

Como se representa en la figura 11a, si la primera sub-subtrama 108 en la memoria intermedia de análisis de sub-bandas 109 es transitoria, o si no se detectan sub-subtramas transitorias, TMODE=0. Si la segunda sub-subtrama es transitoria pero no la primera, TMODE=1. Si la tercera sub-subtrama es transitoria, pero no la primera o la segunda, TMODE=2. Si solamente la cuarta sub-subtrama es transitoria, TMODE=3.

Cálculo de factores de escala

Como se representa en la figura 11b, cuando TMODE=0, los factores de escala 110 se calculan en todas las sub-subtramas. Cuando TMODE=1, el primer factor de escala se calcula en la primera sub-subtrama y el segundo factor de escala en todas las sub-subtramas procedentes. Cuando TMODE=2, el primer factor de escala se calcula en las sub-subtramas primera y segunda y el segundo factor de escala sobre todas las sub-subtramas procedentes. Cuando TMODE=3, el primer factor de escala se calcula sobre las sub-subtramas primera, segunda y tercera y el segundo factor de escala se calcula en la cuarta sub-subtrama.

Codificación y decodificación ADPCM usando TMODE

Cuando TMODE=0, el único factor de escala se utiliza para escalar las muestras de diferencia de sub-banda durante la duración de toda la memoria intermedia de análisis, es decir, una subtrama, y se transmite al decodificador para facilitar la puesta en escala inversa. Cuando TMODE>0, se utilizan dos factores de escala para escalar las muestras de diferencia de sub-banda y ambos se transmiten al decodificador. Para cualquier TMODE, cada factor de escala se utiliza para escalar las muestras diferenciales usadas para generarlo en primer lugar.

Cálculo de factores de escala de sub-banda (RMS o PEAK)

Dependiendo del valor de PMODE para dicha sub-banda, las muestras de diferencia estimadas ed(n) o las muestras de sub-banda de entrada x(n) se utilizan para calcular el (los) factores de escala apropiados. Los TMODEs se utilizan en este cálculo para determinar el número de factores de escala y para identificar las sub-subtramas correspondientes en la memoria intermedia.

Cálculo del factor de escala RMS

Para la sub-banda j-ésima, los factores de escala rms se calculan de la siguiente manera:

Cuando TMODE=0, el único valor eficaz es:

RMS_{j} = \left(\sum\limits^{L}_{n=1} ed (n)^{2} / L\right)^{0.5}

donde L es el número de muestras en la subtrama. Cuando TMODE >0, los dos valores RMS son:

RMS1_{j} = \left(\sum\limits^{L}_{n=1} ed (n)^{2} / L\right)^{0.5}

RMS2_{j} = \left(\sum\limits^{k + 1}_{n=1} ed (n)^{2} / L\right)^{0.5}

donde k = (TMODE*L/NSB) y NSB es el número de sub-subtramas uniformes.

Si PMODE=0, las ed_{j}(n) muestras son sustituidas por las muestras de entrada x_{j}(n).

Cálculo del factor de escala PEAK

Para la sub-banda j-ésima, los factores de escala de pico se calculan de la siguiente manera:

Cuando TMODE=0, el único valor máximo es:

PEAK_{j} = MAX(ABS(ed_{j}(n))) \ para \ n=1, L

Cuando TMODE>0, los dos valores máximos son:

PEAK1_{j} = MAX(ABS(ed_{j}(n))) \ para \ n=1, (TMODE \text{*} L/NSB)

PEAK2_{j} = MAX(ABS(ed_{j}(n))) \ para \ n=(1+TMODE\text{*} L/NSB), L

Cuantificación de PMODE, TMODE y factores de escala Cuantificación de PMODEs

Los señalizadores de modo de predicción solamente tienen dos valores, activado o desactivado, y se transmiten al decodificador directamente como códigos de 1 bit.

Cuantificación de TMODEs

Los señalizadores de modo transitorio tienen un máximo de 4 valores; 0, 1, 2 y 3, y son transmitidos al decodificador usando directamente palabras código de entero sin signo de 2 bits u opcionalmente mediante una tabla de entropía de 4 niveles en un intento de reducir la longitud de palabra media de los TMODEs por debajo de 2 bits. Típicamente la codificación por entropía opcional se utiliza para aplicaciones de baja tasa de bits para ahorrar bits.

El proceso de codificación por entropía 112 ilustrado con detalle en la figura 12 es el siguiente: los códigos de modo transitorio TMODE(j) para las j sub-bandas se mapean a un número (p) de libro de códigos de longitud variable mid-riser de 4 niveles, donde cada libro de códigos se optimiza para una característica estadística de entrada diferente. Los valores TMODE se mapean a las tablas de 4 niveles 114 y se calcula 116 el uso total de bits asociado con cada tabla (NB_{p}). La tabla que proporciona el uso de bits más bajo en el proceso de mapeado se selecciona 118 usando el índice THUFF. Los códigos mapeados, VTMODE(j), se extraen de esta tabla, comprimen y transmiten al decodificador junto con la palabra índice THUFF. El decodificador, que contiene el mismo conjunto de tablas inversas de 4 niveles, usa el índice THUFF para dirigir los códigos de longitud variable entrantes, VTMODE(j), a la tabla apropiada para volver a decodificar a los índices TMODE.

Cuantificación de factores de escala de sub-banda

Para transmitir los factores de escala al decodificador, deben ser cuantificados a un formato de código conocido. En este sistema se cuantifican usando una característica logarítmica de 64 niveles uniformes, una característica logarítmica de 128 niveles uniformes, o una característica logarítmica de 64 niveles uniformes codificada de tasa variable 120. El cuantificador de 64 niveles exhibe un tamaño de paso de 2,25 dB en ambos casos, y los 128 niveles un tamaño de paso de 1,25 dB. La cuantificación de 64 niveles se utiliza para tasas de bits bajas a medias, la codificación detasa variable adicional se utiliza para aplicaciones de baja tasa de bits, y los 128 niveles se usan generalmente para altas tasas de bits.

El proceso de cuantificación 120 se ilustra en la figura 13. Los factores de escala, RMS o PEAK, se leen de una memoria intermedia 121, convierten al dominio log 122, y después se aplican a unos cuantificadores uniformes de 64 niveles o 128 niveles 124, 126 determinados por el control de modo de codificador 128. Los factores de escala log cuantificados se escriben después en una memoria intermedia 130. El rango de los cuantificadores de 128 y 64 niveles son suficientes para cubrir factores de escala con un rango dinámico de aproximadamente 160 dB y 144 dB, respectivamente. El límite superior de 128 niveles se establece para cubrir el rango dinámico de señales audio digitales PCM de entrada de 24 bits. El límite superior de 64 niveles se establece para cubrir el rango dinámico de señales audio digitales PCM de 20 bits.

Los factores de escala log se mapean al cuantificador y el factor de escala es sustituido por el código de nivel de cuantificador más próximo RMS_{QL} (o PEAK_{QL}). En el caso del cuantificador de 64 niveles estos códigos son 6 bits de largo y oscilan entre 0-63. En el caso del cuantificador de 128 niveles, los códigos son 7 bits de largo y oscilan entre 0-127.

La cuantificación inversa 131 se logra simplemente volviendo a mapear los códigos de nivel a la respectiva característica de cuantificación inversa para dar los valores RMS_{q} (o PEAK_{q}). Los factores de escala cuantificados se utilizan en el codificador y el decodificador para la puesta en escala de muestras diferenciales ADPCM (o APCM si PMODE=0), garantizando así que ambos procesos de puesta en escala y puesta en escala inversa sean idénticos.

Si se tiene que reducir la tasa de bits de los códigos del cuantificador de 64 niveles, se lleva a cabo entropía adicional, o codificación de longitud variable. Los códigos de 64 niveles se someten a codificación diferencial de primer orden 132 a través de las j sub-bandas, comenzando en la segunda sub-banda (j=2) a la sub-banda activa más alta. El proceso también se puede utilizar para codificar factores de escala PEAK. Los códigos diferenciales con signo DRMS_{QL}(j), (o DPEAK_{QL}(j)) tienen una banda máxima de +/-63 y se almacenan en una memoria intermedia 134. Para reducir su tasa de bits sobre los códigos de 6 bits originales, los códigos diferenciales se mapean a un número (p) de libros de código de longitud variable mid-riser de 127 niveles. Cada libro de códigos se optimiza para una característica estadística de entrada diferente.

El proceso para someter a codificación por entropía los códigos diferenciales con signo es el mismo que el proceso de codificación por entropía para los modos transitorios ilustrados en la figura 12 a excepción de que se utilizan p tablas de código de longitud variable de 127 niveles. La tabla que proporciona el uso de bits más bajo sobre el proceso de mapeado se selecciona usando el índice SHUFF. Los códigos mapeados VDRMS_{QL}(j) se extraen de esta tabla, comprimen y transmiten al decodificador junto con la palabra índice SHUFF. El decodificador, que contiene el mismo conjunto de (p) tablas inversas de 127 niveles, usa el índice SHUFF para dirigir los códigos de longitud variable entrantes a la tabla apropiada para redecodificación a los niveles de código de cuantificador diferencial. Los niveles de código diferencial son convertidos a valores absolutos usando las rutinas siguientes:

RMS_{QL}(1) = DRMS_{QL}(1)

RMS_{QL}(j) = DRMS_{QL}(j) + RMS_{QL}(j-1) \ para \ j = 2,... K

y niveles de código diferencial PEAK son convertidos a valores absolutos usando las rutinas siguientes;

PEAK_{QL}(1) = DPEAK_{QL}(1)

PEAK_{QL}(j) = DPEAK_{QL}(j) + PEAK_{QL}(j-1) \ para \ j = 2,..K

donde en ambos casos K = número de sub-bandas activas.

Asignación global de bits

El sistema de administración global de bits 30 representado en la figura 10 gestiona la asignación de bits (ABIT), determina el número de sub-bandas activas (SUBS) y la estrategia de frecuencia conjunta (JOINX) y la estrategia VQ para el codificador audio multicanal para proporcionar subjetivamente codificación transparente a una tasa reducida de bits. Esto incrementa el número de canales audio y/o el tiempo de reproducción que se puede codificar y almacenar en un medio fijo a la vez que se mantiene o mejora la fidelidad audio. En general, el sistema GBM 30 asigna primero bits a cada sub-banda según un análisis psicoacústico modificado por la ganancia de predicción del codificador. Los bits restantes son asignados después según un esquema mmse para disminuir el suelo general de ruido. Para optimizar la eficiencia de codificación, el sistema GBM asigna simultáneamente bits en todos los canales audio, todas las sub-bandas, y a través de toda la trama. Además, se puede emplear una estrategia de codificación de frecuencia conjunta. De esta manera, el sistema aprovecha la distribución no uniforme de energía de señal entre los canales audio, a través de frecuencia, y en el tiempo.

Análisis psicoacústico

Se utilizan mediciones psicoacústicas para determinar información perceptualmente irrelevante en la señal audio. La información perceptualmente irrelevante se define como las partes de la señal audio que no pueden ser oídas por oyentes humanos, y se pueden medir en el dominio de tiempo, el dominio de frecuencia, o en alguna otra base. J.D. Johnston: "Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE Journal on Selected Areas in Communications, vol. JSAC-6, nº 2, pág. 314-323, Feb. 1988 describió los principios generales de la codificación psicoacústica.

Dos factores principales influyen en la medición psicoacústica. Uno es el umbral absoluto dependiente de frecuencia de la audición aplicable a humanos. El otro es el efecto de enmascaramiento que un sonido tiene en la capacidad humana de oír un segundo sonido reproducido simultáneamente o incluso después del primer sonido. En otros términos el primer sonido evita que oigamos el segundo sonido, y se dice que lo enmascara.

En un codificador de sub-banda, el resultado final de un cálculo psicoacústico es un conjunto de números que especifican el nivel de ruido inaudible para cada sub-banda en dicho instante. Este cálculo es conocido y se incorpora en la norma de compresión MPEG 1 ISO/IEC DIS 11172 "Information technology - Coding of moving pictures and associated audio for digital storage media up to about 1.5 Mbits/s", 1992. Estos números varían dinámicamente con la señal audio. El codificador intenta ajustar el suelo de ruido de cuantificación en las sub-bandas por medio del proceso de asignación de bits de manera que el ruido de cuantificación en estas sub-bandas sea inferior al nivel audible.

Un cálculo psicoacústico exacto requiere normalmente una resolución de frecuencia alta en la transformada de tiempo a frecuencia. Esto implica una gran ventana de análisis para la transformada de tiempo a frecuencia. El tamaño de ventana de análisis estándar son 1024 muestras que corresponden a una subtrama de datos audio comprimidos. La resolución de frecuencia de una longitud de 1024 fft coincide aproximadamente con la resolución temporal del oído humano.

La salida del modelo psicoacústico es una relación de señal a máscara (SMR) para cada una de las 32 sub-bandas. La SMR es indicativa de la cantidad de ruido de cuantificación que una sub-banda particular puede soportar, y por lo tanto también es indicativa del número de bits necesarios para cuantificar las muestras en la sub-banda. Específicamente, una SMR grande (>>1) indica que se requiere gran número de bits y una SMR pequeña (>0) indica que se requieren menos bits. Si la SMR <0, la señal audio está por debajo el umbral de máscara de ruido, y no se requieren bits para cuantificación.

Como se representa en la figura 14, las SMRs para cada trama sucesiva se generan, en general, 1) calculando una fft, preferiblemente de longitud 1024, sobre las muestras audio PCM para producir una secuencia de coeficientes de frecuencia 142, 2) convolucionando los coeficientes de frecuencia con máscaras psicoacústicas de ruido y tono dependientes de frecuencia 144 para cada sub-banda, 3) promediando los coeficientes resultantes sobre cada sub-banda para producir los niveles de SMR, y 4) normalizando opcionalmente las SMRs según la respuesta de audición humana 146 representada en la figura 15.

La sensibilidad del oído humano es máxima a frecuencias próximas a 4 kHz y disminuye cuando la frecuencia se incrementa o disminuye. Así, para ser percibida al mismo nivel, una señal de 20 kHz debe ser mucho más fuerte que una señal de 4 kHz. Por lo tanto, en general, las SMRs a frecuencias próximas a 4 kHz son relativamente más importantes que las frecuencias alejadas. Sin embargo, la forma precisa de la curva depende de la potencia media de la señal suministrada al oyente. A medida que el volumen aumenta, la respuesta auditora 146 se comprime. Así, un sistema optimizado para un volumen particular será subóptimo a otros volúmenes. Como resultado, se selecciona un nivel de potencia nominal para normalizar los niveles de SMR o se inhabilita la normalización. Las SMRs resultantes 148 para las 32 sub-bandas se muestran en la figura 16.

Rutina de asignación de bits

El sistema GBM 30 selecciona primero la estrategia de codificación apropiada, qué sub-bandas serán codificadas con la VQ y algoritmos ADPCM y si JFC estará habilitada. Después, el sistema GBM selecciona un acercamiento de asignación de bits psicoacústico o MMSE. Por ejemplo, a altas tasas de bits, el sistema puede inhabilitar el modelado psicoacústico y uso un esquema verdadero de asignación mmse. Esto reduce la complejidad computacional sin ningún cambio perceptual en la señal audio reconstruida. A la inversa, a velocidades bajas, el sistema puede activar el esquema de codificación de frecuencia conjunta explicado anteriormente para mejorar la fidelidad de reconstrucción a frecuencias más bajas. El sistema GBM puede conmutar entre la asignación psicoacústica normal y la asignación mmse en base al contenido de transitorios de la señal en base de trama a trama. Cuando el contenido de transitorios es alto, el supuesto de estacionaridad que se utiliza para calcular las SMRs ya no es verdadero, y así el esquema mmse proporciona mejor rendimiento.

Para una asignación psicoacústica, el sistema GBM asigna primero los bits disponibles para cumplir los efectos psicoacústicos y asigna después los bits restantes para disminuir el suelo general de ruido. El primer paso es determinar las SMRs para cada sub-banda para la trama corriente como se ha descrito anteriormente. El paso siguiente es regular las SMRs para la ganancia de predicción (P_{gain}) en las respectivas sub-bandas para generar relaciones de máscara a ruido (MNRs). El principio es que el codificador ADPCM proporcionará una porción de la SMR requerida. Como resultado, se puede lograr niveles de ruido psicoacústicos inaudibles con menos bits.

La MNR para la sub-banda j-ésima, suponiendo PMODE=1, viene dada por:

MNR(j) = SMR(j)Pgain(j) \text{*} PEF(ABIT)

donde PEF(ABIT) es el factor de eficiencia de predicción del cuantificador. Para calcular MNR(j), el diseñador debe tener una estimación de la asignación de bits (ABIT), que se puede generar asignando bits solamente en base a la SMR(j) o suponiendo que PEF(ABIT)=1. A tasas de bits medias a altas, la ganancia de predicción efectiva es aproximadamente igual a la ganancia de predicción calculada. Sin embargo, la ganancia de predicción efectiva se reduce a bajas tasas de bits. La ganancia de predicción efectiva que se logra usando, por ejemplo, un cuantificador de 5 niveles es aproximadamente 0,7 de la ganancia de predicción estimada, mientras que un cuantificador de 65 niveles permite que la ganancia de predicción efectiva sea aproximadamente igual a la ganancia de predicción estimada, PEF = 1,0. En el límite, cuando la tasa de bits es cero, la codificación predictiva está esencialmente inhabilitada y la ganancia de predicción efectiva es cero.

En el paso siguiente, el sistema GBM 30 genera un esquema de asignación de bits que cumple la MNR para cada sub-banda. Esto se realiza usando la aproximación de que 1 bit es igual a 6 dB de distorsión de señal. Para asegurar que la distorsión de codificación sea inferior al umbral psicoacústicamente audible, la tasa de bits asignada es el entero mayor de la MNR dividido por 6 dB, que viene dada por:

ABIT(j) = \left[\frac{MNR(j)}{6dB}\right]

Asignando bits de esta manera, el nivel de ruido 156 en la señal reconstruida tenderá a seguir a la señal propiamente dicha 157 representada en la figura 17. Así, a frecuencias donde la señal es muy fuerte, el nivel de ruido será relativamente alto, pero permanecerá inaudible. A frecuencias donde la señal es relativamente débil, el suelo de ruido será muy pequeño e inaudible. El error medio asociado con este tipo de modelado psicoacústico siempre será mayor que un nivel de ruido mmse 158, pero el rendimiento audible puede ser mejor, en particular a bajas tasas de bits.

En caso de que la suma de los bits asignados para cada sub-banda en todos los canales audio sea mayor o inferior a la tasa de bits deseada, la rutina GBM reducirá o aumentará iterativamente la asignación de bits para sub-bandas individuales. Alternativamente, la tasa de bits deseada se puede calcular para cada canal audio. Esto es subóptimo, pero más simple, especialmente en una implementación por hardware. Por ejemplo, los bits disponibles se pueden distribuir uniformemente entre los canales audio o se pueden distribuir en proporción a la SMR media o RMS de cada canal.

En caso de que la tasa de bits deseada sea superada por la suma de las asignaciones de bits locales, incluyendo los bits de código VQ e información complementaria, la rutina de administración global de bits reducirá progresivamente las asignaciones de bits de sub-bandas locales. Varias técnicas específicas están disponibles para reducir la tasa de bits media. En primer lugar, las tasas de bits que se redondearon hacia arriba por la función del entero mayor pueden ser redondeadas hacia abajo. A continuación, un bit puede alejarse de las sub-bandas que tienen las MNRs más pequeñas. Además, las sub-bandas de frecuencia más alta se pueden desactivar o se puede habilitar la codificación de frecuencia conjunta. Todas las estrategias de reducción de la tasa de bits siguen el principio general de reducir gradualmente la resolución de codificación de forma suave, introduciéndose primero la estrategia perceptualmente menos ofensiva y usándose en último término la estrategia más ofensiva.

En caso de que la tasa de bits deseada sea mayor que la suma de las asignaciones de bits locales, incluyendo los bits de código VQ e información complementaria, la rutina de administración global de bits aumentará progresiva e iterativamente las asignaciones de bits de sub-bandas locales para reducir el suelo de ruido general de la señal reconstruida. Esto puede hacer que se codifiquen sub-bandas a las que antes se les asignó bits cero. La carga de bits al "conmutar" sub-bandas de esta forma puede ser necesaria para reflejar el costo al transmitir coeficientes del predictor si PMODE está habilitado.

La rutina GBM puede seleccionar uno de tres esquemas diferentes para asignar los bits restantes. Una opción es utilizar un método mmse que reasigna todos los bits de tal manera que el suelo de ruido resultante sea aproximadamente plano. Esto es equivalente a inhabilitar el modelado psicoacústico inicialmente. Para lograr un suelo de ruido mmse, el gráfico 160 de los valores RMS de las sub-bandas mostrados en la figura 18a se gira boca abajo como se representa en la figura 18b y "se llena de agua" hasta que todos los bits son expulsados. Esta técnica conocida se denomina llenado con agua porque el nivel de distorsión cae uniformemente a medida que aumenta el número de bits asignados. En el ejemplo representado, el primer bit es asignado a la sub-banda 1, los bits segundo y tercero son asignados a las sub-bandas 1 y 2, los bits cuarto a séptimo son asignados a las sub-bandas 1, 2, 4 y 7, y así sucesivamente. Alternativamente, se puede asignar un bit a cada sub-banda para garantizar que cada sub-banda sea codificada, y después se llenan de agua los bits restantes.

Una segunda opción, y preferida, es asignar los bits restantes según el acercamiento mmse y gráfico RMS descrito anteriormente. El efecto de este método es bajar uniformemente el suelo de ruido 157 representado en la figura 17 a la vez que se mantiene la forma asociada con el enmascarado psicoacústico. Esto proporciona un buen compromiso entre la distorsión psicoacústica y mse.

El tercer acercamiento es asignar los bits restantes usando el acercamiento mmse aplicado a un gráfico de la diferencia entre los valores RMS y MNR para las sub-bandas. El efecto de este acercamiento es morfar suavemente la forma del suelo de ruido de la forma psicoacústica óptima 157 a la forma mmse óptima (plana) 158 cuando aumenta la tasa de bits. En cualquiera de estos esquemas, si el error de codificación en cualquier sub-banda cae por debajo de 0,5 LSB, con respecto al PCM fuente, no se asignan más bits a dicha sub-banda. Se puede usar opcionalmente valores máximos fijos de asignaciones de bits de sub-banda para limitar el número máximo de bits asignados a sub-bandas particulares.

En el sistema de codificación explicado anteriormente, hemos asumido que la tasa de bits media por muestra es fija y hemos generado la asignación de bits para maximizar la fidelidad de la señal audio reconstruida. Alternativamente, el nivel de distorsión, mse o perceptual, puede ser fijo y la tasa de bits se puede variar para cumplir el nivel de distorsión. En el acercamiento mmse, el gráfico RMS se llena simplemente de agua hasta que se cumple el nivel de distorsión. La tasa de bits requerida variará en base a los niveles RMS de las sub-bandas. En el acercamiento psicoacústico, los bits son asignados para cumplir las MNRs individuales. Como resultado, la tasa de bits variará en base a las SMRs individuales y las ganancias de predicción. Este tipo de asignación no es actualmente útil porque los decodificadores contemporáneos operan a una tasa fija. Sin embargo, sistemas de administración alternativos, tales como ATM o medios de almacenamiento de acceso aleatorio, pueden hacer práctica la codificación de tasa variable en un futuro próximo.

Cuantificación de índices de asignación de bits (ABIT)

Los índices de asignación de bits (ABIT) se generan para cada sub-banda y cada canal audio por una rutina de asignación adaptativa de bits en el proceso de administración global de bits. La finalidad de los índices en el codificador es indicar el número de niveles 162 representado en la figura 10 que son necesarios para cuantificar la señal de diferencia para obtener un suelo de ruido de reconstrucción subjetivamente óptimo en el decodificador audio. En el decodificador indican el número de niveles necesarios para cuantificación inversa. Se generan índices para cada memoria intermedia de análisis y sus valores pueden ser del rango de 0 a 27. La relación entre valor de índice, el número de niveles de cuantificador y la SN_{Q}R de sub-banda diferencial resultante aproximada se representa en la Tabla 3. Dado que la señal de diferencia está normalizada, el tamaño de paso 164 se iguala a uno.

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

(Tabla pasa a página siguiente)

TABLA 3

3

Los índices de asignación de bits (ABIT) son transmitidos al decodificador directamente usando palabras código de entero sin signo de 4 bits, palabras código de entero sin de 5 bits, o usando una tabla de entropía de 12 niveles. Típicamente, la codificación por entropía se emplearía para aplicaciones de baja tasa de bits para ahorrar bits. El método de codificar ABIT se establece por el control de modo en el codificador y se transmite al decodificador. El codificador por entropía mapea 166 los índices ABIT a un libro de códigos particular identificado por un índice BHUFF y un código específico VABIT en el libro de códigos usando el proceso representado en la figura 12 con tablas ABIT de 12 niveles.

Control de tasa de bits global

Dado que la información complementaria y las muestras de sub-banda diferencial se pueden codificar opcionalmente usando libros de códigos de longitud variable de entropía, se debe emplear algún mecanismo para regular la tasa de bits resultante del codificador cuando el flujo de bits comprimido se ha de transmitir a una tasa fija. Dado que normalmente no es deseable modificar la información complementaria una vez calculada, los ajustes de tasa de bits se logran mejor alterando iterativamente el proceso de cuantificación de muestras de sub-bandas diferenciales dentro del codificador ADPCM hasta que se cumple la limitación de tasa.

En el sistema descrito, un sistema de control de tasa global (GRC) 178 en la figura 10 ajusta la tasa de bits, que resulta del proceso de mapear los códigos de nivel de cuantificador a la tabla de entropía, alterando la distribución estadística de los valores de código de nivel. Se asume que todas las tablas de entropía exhiben una tendencia similar de longitudes de código más altas para valores de código de nivel más alto. En este caso, la tasa de bits media se reduce a medida que aumenta la probabilidad de los niveles de código de valor bajo y viceversa. En el proceso de cuantificación ADPCM (o APCM), el tamaño del factor de escala determina la distribución, o uso, de los valores de código de nivel. Por ejemplo, a medida que aumente el tamaño del factor de escala, las muestras diferenciales tenderán a ser cuantificadas por los niveles más bajos, y por lo tanto los valores de código serán progresivamente menores. A su vez, esto dará lugar a longitudes de palabra de código por entropía más pequeñas y una tasa de bits más baja.

La desventaja de este método es que, incrementando el tamaño del factor de escala, también se eleva el mismo grado el ruido de reconstrucción en las muestras de sub-banda. Sin embargo, en la práctica, el ajuste de los factores de escala normalmente no es superior a 1 dB a 3 dB. Si se requiere un ajuste mayor, sería mejor volver a la asignación de bits y reducir la asignación general de bits en vez de arriesgar la posibilidad de ruido de cuantificación audible que se produce en sub-bandas que usarían el factor de escala inflado.

Para regular la asignación de bits ADPCM codificada por entropía, las muestras de la historia del predictor para cada sub-banda se almacenan en una memoria intermedia temporal en caso de que se repita el ciclo de codificación ADPCM. A continuación, todas las memorias intermedias de muestras de sub-banda son codificadas por el proceso ADPCM completo usando coeficientes de predicción A_{H} derivados del análisis LPC de sub-banda junto con factores de escala RMS (o PEAK), asignaciones de bits del cuantificador ABIT, modos transitorios TMODE, y modos de predicción PMODE derivados de la señal de diferencia estimada. Los códigos de nivel de cuantificador resultantes se ponen en memoria intermedia y mapean al libro de códigos de longitud variable de entropía, que exhibe de nuevo el uso de bits más bajo usando el índice de asignación de bits para determinar los tamaños de los libros de códigos.

El sistema GRC analiza después el número de bits usados para cada sub-banda usando el mismo índice de asignación de bits en todos los índices. Por ejemplo, cuando ABIT=1, el cálculo de asignación de bits en la administración global de bits podría haber asumido una tasa media de 1,4 por muestra de sub-banda (es decir, la tasa media para el libro de códigos de entropía suponiendo una distribución óptima de la amplitud de los códigos de nivel). Si el uso total de bits de todas las sub-bandas para las que ABIT=1 es mayor que 1,4/(número total de muestras de sub-banda), los factores de escala se podrían incrementar en todas estas sub-bandas afectando a una reducción de la tasa de bits. La decisión para regular los factores de escala de sub-banda se deja preferiblemente hasta que se ha accedido a todas las tasas de índice ABIT. Como resultado, los índices con tasas de bits menores que las asumidas en el proceso de asignación de bits pueden compensar los que tienen tasas de bits superiores a dicho nivel. Esta evaluación también se puede ampliar para cubrir todos los canales audio donde sea apropiado.

El procedimiento recomendado para reducir la tasa general de bits es empezar con la tasa de bits de índice ABIT más baja que excede del umbral y aumentar los factores de escala en cada una de las sub-bandas que tienen esta asignación de bits. El uso de bits real se reduce por el número de bits que estas sub-bandas estaban originalmente por encima de la tasa nominal para dicha asignación. Si el uso de bits modificado todavía es superior al máximo permitido, se incrementan los factores de escala de sub-banda para el índice ABIT más alto siguiente, para el que el uso de bits excede del nominal. Este proceso se continúa hasta que el uso de bits modificado es inferior al máximo.

Una vez logrado esto, se cargan los datos históricos antiguos en los predictores y el proceso de codificación ADPCM 72 se repite para las sub-bandas cuyos factores de escala han sido modificados. Después de esto, los códigos de nivel son mapeados de nuevo a los libros de códigos de entropía más óptimos y se recalcula el uso de bits. Si alguno de los usos de bits todavía excede de las tasas nominales, los factores de escala se incrementan más y se repite el ciclo.

La modificación de los factores de escala se puede hacer de dos formas. La primera es transmitir al decodificador un factor de ajuste para cada índice ABIT. Por ejemplo una palabra de 2 bits podría indicar una banda de ajuste de, por ejemplo, 0, 1, 2 y 3 dB. Puesto que se utiliza el mismo factor de ajuste para todas las sub-bandas que usan el índice ABIT, y solamente los índices 1-10 pueden utilizar codificación por entropía, el número máximo de factores de ajuste que tiene que ser transmitido para todas las sub-bandas es 10. Alternativamente, el factor de escala se puede cambiar en cada sub-banda seleccionando un nivel de cuantificador alto. Sin embargo, puesto que los cuantificadores de factor de escala tienen tamaños de paso de 1,25 y 2,5 dB, respectivamente, el ajuste de factor de escala se limita a estos pasos. Además, al utilizar esta técnica, puede ser necesario recalcular la codificación diferencial de los factores de escala y el uso de bits resultante si se habilita la codificación por entropía.

Hablando en términos generales, también se puede utilizar el mismo procedimiento para incrementar la tasa de bits, es decir, cuando la tasa de bits es menor que la tasa de bits deseada. En este caso, los factores de escala se disminuirán para forzar las muestras diferenciales para hacer mayor uso de los niveles de cuantificador exteriores, y por lo tanto usar palabras código más largas en la tabla de entropía.

Si el uso de bits para índices de asignación de bits no se puede reducir dentro de un número razonable de iteraciones, o en el caso en que se transmiten los factores de ajuste de factor de escala, el número de pasos de ajuste ha llegado al límite, son posibles dos remedios. Primero: se puede incrementar los factores de escala de sub-bandas que están dentro de la tasa nominal, disminuyendo por ello la tasa general de bits. Alternativamente, todo el proceso de codificación ADPCM puede ser suspendido y se recalculan las asignaciones adaptativas de bits a través de las sub-bandas, esta vez usando menos bits.

Formato del flujo de datos

El multiplexor 32 representado en la figura 10 comprime los datos para cada canal y después multiplexa los datos comprimidos para cada canal a una trama de salida para formar el flujo de datos 16. El método de comprimir y multiplexar los datos, es decir, el formato de trama 186 representado en la figura 19, se diseñó de manera que el codificador audio se pueda usar en una amplia gama de aplicaciones y se pueda expandir a frecuencias de muestreo más altas, la cantidad de datos en cada trama es limitada, la reproducción se puede iniciar en cada sub-subtrama independientemente para reducir la latencia, y se reducen los errores de decodificación.

Como se representa, una sola trama 186 (4096 muestras PCM/c) define los límites de flujo de bits en los que reside información suficiente para decodificar apropiadamente una trama de audio y consta de 4 subtramas 188 (1024 muestras PCM/c), que a su vez están formadas por 4 sub-subtramas 190 (256 muestras PCM/c). La palabra de sincronización de trama 192 se coloca al comienzo de cada trama audio. La información de cabecera de trama 194 da primariamente información relativa a la construcción de la trama 186, la configuración del codificador que generó el flujo y varias características operativas opcionales tales como el control de rango dinámico embebido y el código de tiempo. La información de cabecera opcional 196 indica al decodificador si se requiere mezcla hacia abajo, si se hizo compensación de rango dinámico y si se incluyen bytes de datos auxiliares en el flujo de datos. Las cabeceras de codificación audio 198 indican la disposición de compresión y formatos de codificación usados en el codificador para montar la 'información complementaria' de codificación, es decir, asignaciones de bits, factores de escala, PMODES, TMODES, libros de códigos, etc. El resto de la trama está formado por subtramas audio consecutivas SUBFS 188.

Cada subtrama comienza con la información complementaria de codificación audio 200 que envía información relativa a un número de sistemas de codificación por clave usados para comprimir el audio en el decodificador. Estos incluyen detección de transitorios, codificación predictiva, asignación adaptativa de bits, cuantificación vectorial de alta frecuencia, codificación de intensidad y puesta en escala adaptativa. Muchos de estos datos son descomprimidos del flujo de datos usando la información de cabecera de codificación audio anterior. La matriz de códigos VQ de alta frecuencia 202 consta de índices de 10 bits por sub-banda de alta frecuencia indicados por índices VQSUB. La matriz de efectos de baja frecuencia 204 es opcional y representa los datos de frecuencia muy baja que se pueden usar para activar, por ejemplo, un subwoofer.

La matriz audio 206 es decodificada usando cuantificadores inversos Huffman/fijos y es dividida en un número de sub-subtramas (SSC), decodificando cada una hasta 256 muestras PCM por canal audio. La matriz audio sobremuestreada 208 solamente está presente si la frecuencia de muestreo es superior a 48 kHz. Para seguir siendo compatibles, los decodificadores que no pueden operar a frecuencias de muestreo por encima de 48 kHz deberán saltar esta matriz de datos audio. Se utiliza DSYNC 210 para verificar el final de la posición de subtrama en la trama audio. Si no se verifica la posición, el audio decodificado en la subtrama se declara no fiable. Como resultado, se silencia dicha trama o se repite la trama anterior.

Decodificador de sub-banda

La figura 20 es un diagrama de bloques del decodificador de muestras de sub-banda 18, respectivamente. El decodificador es bastante simple en comparación con el codificador y no implica cálculos que sean de importancia fundamental para la calidad del audio reconstruido, tal como asignaciones de bits. Después de la sincronización, el descompresor 40 descomprime el flujo de datos audio comprimido 16, detecta y, si es necesario, corrige los errores inducidos por transmisión, y demultiplexa los datos a canales audio individuales. Las señales diferenciales de sub-banda son recuantificadas a señales PCM y cada canal audio es filtrado inversamente para convertir de nuevo la señal al dominio de tiempo.

Recibir trama audio y descomprimir cabeceras

El flujo de datos codificado es comprimido (o encuadrado) en el codificador e incluye en cada trama datos adicionales para sincronización de decodificador, detección y corrección de errores, señalizadores de estado de codificación audio e información complementaria de codificación, aparte de los códigos audio reales propiamente dichos. El descompresor 40 detecta la palabra SYNC y extrae el tamaño de trama FSIZE. El flujo de bits codificado consta de tramas audio consecutivas, comenzando cada una con una palabra de sincronización (SYNC) de 32 bits (Ox7ffe8001). El tamaño físico de la trama audio, FSIZE, se extrae de los bytes después de la palabra de sincronización. Esto permite al programador establecer un temporizador de 'fin de trama' para reducir los recursos de software. A continuación, se extrae NBlks que permite al decodificador calcular el Tamaño de Ventana Audio (32 (Nblks+1)). Esto indica al decodificador qué información complementaria extraer y cuántas muestras reconstruidas generar.

Tan pronto como los bytes de cabecera de trama (sync, ftype, sur p, nblks, fsize, amode, sfreq, velocidad, mixt, dynf, dynct, tiempo, auxcnt, Iff, hflag) han sido recibidos, la validez de los primeros 12 bytes puede ser verificada usando los bytes de comprobación Reed Solomon, HCRC. Estos corregirán 1 byte erróneo de los 14 bytes o indicarán 2 bytes erróneos. Una vez terminada la comprobación de errores, la información de cabecera se utiliza para actualizar los señalizadores de decodificador.

Las cabeceras (filts, vernum, chist, pcmr, unspec) que siguen a HCRC y hasta la información opcional, se pueden extraer y usar para actualizar los señalizadores de decodificador. Puesto que esta información no cambiará de una trama a otra, se puede usar un esquema de voto mayoritario para compensar errores de bit. Los datos de cabecera opcionales (times, mcoeff, dcoeff, auxd, ocrc) se extraen según las cabeceras mixct, dynf, tiempo y auxcnt. Los datos opcionales pueden ser verificados usando los bytes de comprobación Reed Solomon opcionales OCRC.

Las cabeceras de trama de codificación audio (subfs, subs, chs, vqsu b, joinx, thuff, shuff, bhuff, se15, sel7, se19, sell3, sell7, se125, se133, sel 65, seI129, ahcrc) son transmitidas una vez en cada trama. Pueden ser verificadas usando los bytes de comprobación audio Reed Solomon AHCRC. La mayoría de las cabeceras se repiten para cada canal audio como define CHS.

Descomprimir información complementaria de codificación de subtrama

La trama de codificación audio se divide en un número de subtramas (SUBFS). Toda la información complementaria necesaria (pmode, pvq, tmode, escalas, abits, hfreq) se incluye para decodificar apropiadamente cada subtrama de audio sin referencia a ninguna otra subtrama. Cada subtrama sucesiva es decodificada descomprimiendo primero su información complementaria.

Se transmite un señalizador de modo de predicción de 1 bit (PMODE) para cada sub-banda activa y a través de todo el canal audio. Los señalizadores PMODE son válidos para la subtrama corriente. PMODE=0 implica que los coeficientes del predictor no se incluyen en la trama audio para dicha sub-banda. En este caso, los coeficientes del predictor en esta banda se reposicionan a cero durante la duración de la subtrama. PMODE=1 implica que la información complementaria contiene coeficientes del predictor para esta sub-banda. En este caso, los coeficientes del predictor se extraen e instalan en su predictor durante la duración de la subtrama.

Para cada PMODE=1 en la matriz pmode, un índice de dirección VQ de coeficientes de predicción correspondientes está situado en la matriz PVQ. Los índices son palabras de entero de 12 bits sin signo fijas y los 4 coeficientes de predicción se extraen de la tabla de consulta mapeando el entero de 12 bits a la tabla de vectores 266.

Los índices de asignación de bits (ABIT) indican el número de niveles en el cuantificador inverso que convertirá de nuevo los códigos audio de sub-banda a valores absolutos. El formato de descompresión difiere para los ABITs en cada canal audio, dependiendo del índice BHUFF y un código VABIT específico 256.

La información complementaria de modo de transitorios (TMODE) 238 se utiliza para indicar la posición de transitorios en cada sub-banda con respecto a la subtrama. Cada subtrama está dividida en 1 a 4 sub-subtramas. En términos de muestras de sub-banda, cada sub-subtrama consta de 8 muestras. El tamaño máximo de subtrama son 32 muestras de sub-banda. Si se produce un transitorio en la primera sub-subtrama, tmode=0. Un transitorio en la segunda sub-subtrama se indica cuando tmode=1, y así sucesivamente. Para controlar la distorsión transitoria, tal como el pre-eco, dos factores de escala son transmitidos para sub-bandas de subtrama donde TMODE es mayor que 0. Los índices THUFF extraídos de las cabeceras audio determinan el método necesario para decodificar los TMODEs. Cuando THUFF=3, los TMODEs son descomprimidos como enteros de 12 bits sin signo.

Los índices de factor de escala se transmiten para permitir la puesta en escala apropiada de los códigos audio de sub-banda dentro de cada subtrama. Si TMODE es igual a cero, se transmite un factor de escala. Si TMODE es mayor que cero para cualquier sub-banda, se transmiten dos factores de escala conjuntamente. Los índices SHUFF 240 extraídos de las cabeceras audio determinan el método necesario para decodificar los SCALES para cada canal audio separado. Los índices VDRMSQL determinan el valor del factor de escala RMS.

En algunos modos los índices SCALES son descomprimidos usando una opción de cinco cuantificadores inversos Huffman con signo de 129 niveles. Sin embargo, los índices cuantificados inversos resultantes son codificados diferencialmente y convertidos a absolutos de la siguiente manera:

ABS_SCALE(n+1)=SCALES(n)-SCALES(n+1) donde n es el enésimo factor de escala diferencial en el canal audio comenzando en la primera sub-banda.

En los modos de codificación audio de baja tasa de bits, el codificador audio usa cuantificación vectorial para codificar eficientemente muestras de sub-banda de alta frecuencia audio directamente. No se utiliza codificación diferencial en estas sub-bandas y todas las matrices referentes a los procesos ADPCM normales deben mantenerse en reposición. La primera sub-banda que se codifica usando VQ se indica por VQSUB y todas las sub-bandas hasta SUBS también son codificadas de esta forma.

Los índices de alta frecuencia (HFREQ) son descomprimidos 248 como enteros sin signo de 10 bits fijos. Las 32 muestras requeridas para cada subtrama de sub-banda se extraen del binario fraccional Q4 LUT aplicando los índices apropiados. Esto se repite para cada canal en el que el modo VQ de alta frecuencia es activo.

El factor de decimación para el canal de efectos siempre es X128. El número de muestras de efectos de 8 bits presentes en LFE viene dado por SSC*2 cuando PSC=0 o (SSC+1)*2 cuando PSC no es cero. También se incluye un factor de escala adicional de 7 bits (entero sin signo) al final de la matriz LFE y se convierte en rms usando un LUT de 7 bits.

Descomprimir la matriz de códigos audio de sub-subtrama

El proceso de extracción para los códigos audio de sub-banda es activado por los índices ABIT y, en el caso en que ABIT<11, también los índices SEL. Los códigos audio son formateados usando códigos Huffman de longitud variable o códigos lineales fijos. En general, los índices ABIT de 10 o menos implicarán códigos Huffman de longitud variable, que se seleccionan por códigos VQL(n) 258, mientras que ABIT superiores a 10 siempre significan códigos fijos. Todos los cuantificadores tienen una característica de semi-hilo uniforme. Para los cuantificadores de código fijo (y^{2}), se deja caer el nivel más negativo. Los códigos audio se comprimen a sub-subtramas, representando cada una un máximo de 8 muestras de sub-banda, y estas sub-subtramas se repiten hasta cuatro veces en la subtrama corriente.

Si el señalizador de frecuencia de muestreo (SFREQ) indica una velocidad más alta que 48 kHz, la matriz de datos over_audio existirá en la trama audio. Los dos primeros bytes de esta matriz indicarán el tamaño de byte de over_audio. Además, la frecuencia de muestreo del hardware del decodificador deberá establecerse para operar a SFREQ/2 o SFREQ/4 dependiendo de la frecuencia de muestreo de alta frecuencia.

Descomprimir la comprobación de sincronización

Una palabra de comprobación de sincronización de descompresión de datos DSYN C=Oxffff es detectada al final de cada subtrama para poder verificar la integridad de la descompresión. El uso de palabras código variables en la información complementaria y códigos audio, como es el caso con bajas tasas de bits audio, puede conducir a desalineación de descompresión si las cabeceras, información complementaria o matrices audio han sido corrompidas con errores de bit. Si el puntero de descompresión no apunta al comienzo de DSYNC, se puede suponer que la subtrama audio anterior no es fiable.

Una vez descomprimida toda la información complementaria y los datos audio, el decodificador reconstruye la señal audio multicanal, una subtrama cada vez. La figura 20 ilustra la porción de banda base decodificadora para una sola sub-banda en un único canal.

Reconstruir factores de escala RMS

El decodificador reconstruye los factores de escala RMS (SCALES) para los algoritmos ADPCM, VQ y JFC. En particular, los índices VTMODE y THUFF son mapeados inversamente para identificar el modo transitorio (TMODE) para la subtrama corriente. Después, el índice SHUFF, los códigos VDRMS_{QL} y TMODE son mapeados inversamente para reconstruir el código RMS diferencial. El código RMS diferencial es sometido a codificación diferencial inversa 242 para seleccionar el código RMS, que después es cuantificado a la inversa 244 para producir el factor de escala RMS.

Cuantificación inversa de vectores de alta frecuencia

El decodificador inverso cuantifica los vectores de alta frecuencia para reconstruir las señales de sub-banda audio. En particular, las muestras de alta frecuencia extraídas (HFREQ), que son un número binario (Q4) fracciones de 8 bits con signo, identificado por la sub-banda VQ de inicio (VQSUBS), son mapeadas a un VQ LUT inverso 248. El valor de tabla seleccionado es sometido a cuantificación inversa 250, y escalado 252 por el factor de escala RMS.

Cuantificación inversa de códigos audio

Antes de entrar en el bucle ADPCM, los códigos audio son sometidos a cuantificación inversa y escalados para producir muestras de diferencia de sub-banda reconstruidas. La cuantificación inversa se logra sometiendo primero a mapeado inverso el índice VABIT y BHUFF para especificar el índice ABIT que determina el tamaño de paso y el número de niveles de cuantificación y a mapeado inverso el índice SEL y los códigos audio VQL(n) que produce los códigos de nivel de cuantificador QL(n). Después, las palabras código QL(n) son mapeadas a la tabla de consulta de cuantificador inverso 260 especificada por los índices ABIT y SEL. Aunque los códigos son ordenados por ABIT, cada canal audio separado tendrá un especificador SEL separado. El proceso de consulta da lugar a un número de nivel de cuantificador con signo que se puede convertir a rms unitario multiplicando con el tamaño de paso del cuantificador. Los valores RMS unitarios se convierten después a las muestras de diferencia completas multiplicando con el factor de escala RMS designado (SCALES) 262.

1. QL[n] = 1/Q[Code[n]], donde 1/Q es la tabla de consulta de cuantificador inverso

2. Y[n] = QL[n] * StepSize[abits]

3. Rd[n] = Y[n] * scale_factor, donde Rd= muestras de diferencia reconstruidas.

ADPCM inversa

El proceso de decodificación ADPCM se ejecuta para cada muestra de diferencia de sub-banda de la siguiente manera:

1. Cargar los coeficientes de predicción del VQ lut inverso 268.

2. Generar la muestra de predicción convolucionando los coeficientes corrientes del predictor con las cuatro muestras de sub-banda reconstruidas previas mantenidas en la matriz de historia de predictores 268.

P[n] = suma (Coeff[i]*R[n-i]) para i=1, 4, donde n= período de muestra corriente.

3. Añadir la muestra de predicción a la muestra de diferencia reconstruida para producir una muestra de sub-banda reconstruida 270.

R[n]=Rd[n]+P[n] 4.

4. Actualizar la historia del predictor, es decir, copiar la muestra de sub-banda reconstruida corriente a la parte superior de la historia lista.

R[n-i]=R[n-i+1] para I = 4, 1

En el caso en que PMODE=0, los coeficientes del predictor serán cero, la muestra de predicción cero, y la muestra de sub-banda reconstruida es igual a la muestra de sub-banda diferencial. Aunque en este caso el cálculo de la predicción es innecesario, es esencial que la historia del predictor se mantenga actualizada por si PMODE debiera estar activo en subtramas futuras. Además, si el HFLAG está activo en la trama audio corriente, la historia del predictor deberá ser borrada antes de decodificar la primera subsubtrama en la trama. La historia deberá ser actualizada como es usual a partir de dicho punto.

En el caso de sub-bandas VQ de alta frecuencia o donde las sub-bandas están deseleccionadas (es decir, por encima del límite SUBS) la historia del predictor deberá permanecer borrada hasta que el predictor de sub-banda esté activo.

Control de selección de decodificación ADPCM, VO y JFC

Un primer "interruptor" controla la selección de la salida ADPCM o VQ. El índice VQSUBS identifica la sub-banda de inicio para codificación VQ. Por lo tanto, si la sub-banda corriente es menor que VQSUBS, el interruptor selecciona la salida ADPCM. De otro modo selecciona la salida VQ. Un segundo "interruptor" 278 controla la selección de la salida de canal directo o la salida de codificación JFC. El índice JOINX identifica qué canales están unidos y en qué canal se genera la señal reconstruida. La señal JFC reconstruida forma la fuente de intensidad para las entradas JFC en los otros canales. Por lo tanto, si la sub-banda corriente es parte de un JFC y no es el canal designado, el interruptor selecciona la salida JFC. Normalmente, el interruptor selecciona la salida de canal.

Matriz descendente

El modo de codificación audio para el flujo de datos se indica por AMODE. Los canales audio decodificados se pueden redirigir después de manera que concuerden con la disposición de canales de salida físicos en el hardware decodificador 280.

Datos de control de rango dinámico

Los coeficientes de rango dinámico DCOEFF pueden ser embebidos opcionalmente en la trama audio en la etapa codificadora 282. La finalidad de esta característica es permitir la compresión conveniente del rango dinámico audio en la salida del decodificador. La compresión de rango dinámico es especialmente importante en entornos de audición donde los altos niveles de ruido ambiente hacen imposible discriminar las señales de bajo nivel sin riesgo de dañar los altavoces durante pasos altos. Este problema se complica más por el uso creciente de grabaciones audio PCM de 20 bits que exhiben rangos dinámicos de hasta 110 dB.

Dependiendo del tamaño de ventana de la trama (NBLKS), se transmite uno, dos o cuatro coeficientes por canal audio para cualquier modo de codificación (DYNF). Si se transmite un solo coeficiente, éste se utiliza para toda la trama. Con dos coeficientes, el primero se utiliza para la primera mitad de la trama y el segundo para la segunda mitad de la trama. Se distribuyen cuatro coeficientes sobre cada cuadrante de trama. La mayor resolución temporal es posible interpolando entre los valores transmitidos localmente.

Cada coeficiente es binario Q2 fracciones son signo de 8 bits, y representa un valor de ganancia logarítmico como se representa en la tabla (53) dando un rango de +131,75 dB en pasos de 0,25 dB. Los coeficientes se ordenan por número de canal. La compresión de rango dinámico queda afectada multiplicando las muestras audio decodificadas por el coeficiente lineal.

El grado de compresión se puede alterar con el ajuste apropiado a los valores de coeficiente en el decodificador o desactivar completamente ignorando los coeficientes.

Banco de filtros de interpolación de 32 bandas

El banco de filtros de interpolación de 32 bandas 44 convierte las 32 sub-bandas por cada canal audio en una sola señal de dominio de tiempo PCM. Los coeficientes de reconstrucción no perfecta (filtros FIR de 512 tomas) se utilizan cuando FILTS=0. Los coeficientes de reconstrucción perfecta se utilizan cuando FILTS=1. Normalmente los coeficientes de modulación coseno se precalcularán y almacenarán en ROM. El procedimiento de interpolación se puede expandir para reconstruir bloques de datos más grandes para reducir los recursos de bucle. Sin embargo, en el caso de tramas de terminación, la resolución mínima que se puede recamar son 32 muestras PCM. El algoritmo de interpolación es el siguiente: crear coeficientes de modulación coseno, leer 32 nuevas muestras de sub-banda a la matriz XIN, multiplicar por coeficientes de modulación coseno y crear matrices temporales SUM y DIFF, almacenar historia, multiplicar por coeficientes de filtro, crear 32 muestras de salida PCM, actualizar matrices de trabajo, y enviar 32 nuevas muestras PCM.

Dependiendo de la tasa de bits y el esquema de codificación en la operación, el flujo de bits puede especificar coeficientes del banco de filtros de interpolación y reconstrucción no perfecta o perfecta (FILTS). Puesto que los bancos de filtros de decimación del codificador se calculan con una precisión flotante de 40 bits, la capacidad del decodificador para lograr la máxima precisión de reconstrucción teórica dependerá de la longitud de palabra de la fuente PCM y la precisión del núcleo DSP usado para calcular las convoluciones y la forma en que se escalan las operaciones.

Interpolación PCM de efectos de baja frecuencia

Los datos audio asociados con el canal de efectos de baja frecuencia es independiente de los canales audio principales. Este canal se codifica usando un proceso APCM de 8 bits que opera en una entrada PCM de 20 bits decimada X128 (anchura de banda de 120 Hz). Los efectos audio decimados son alineados en el tiempo con la subtrama audio corriente en los canales audio principales. Por lo tanto, puesto que el retardo a través del banco de filtros de interpolación de 32 bandas es 256 muestras (512 tomas), se debe procurar asegurar que el canal de efectos de baja frecuencia interpolados también esté alineado con el resto de los canales audio antes de la salida. No se requiere compensación si los FIR de interpolación de efectos también son de 512 tomas.

El algoritmo LFT usa un FIR de interpolación de 512 tomas 128X de la siguiente manera: mapear el factor de escala de 7 bits a rms, multiplicar por tamaño de paso del cuantificador de 7 bits, generar valores submuestra a partir de los valores normalizados, e interpolar por 128 usando un filtro de paso bajo tal como el dado para cada submuestra.

Implementación en hardware

Las figuras 21 y 22 describen la estructura funcional básica de la implementación por hardware de una versión de seis canales del codificador y decodificador para operación a frecuencias de muestreo de 32, 44,1 y 48 kHz. Con referencia a la figura 22, se utilizan ocho chips de procesador de señal digital (DSP) de punto flotante y 40 bits de Analog Devices ADSP21020 296 para implementar un codificador audio digital de seis canales 298. Seis DSPs para codificar cada uno de los canales mientras que el séptimo y octavo se utilizan para implementar las funciones de "Asignación y administración globales de bits" y "Formateador de flujo de datos y codificación de errores", respectivamente. Cada ADSP21020 es sincronizado a 33 MHz y utiliza RAM de programa externa de 48 bits X 32 k (PRAM) 300, RAM de datos de 40 bits X 32 k (SRAM) 302 para ejecutar los algoritmos. En el caso de los codificadores, también se utiliza una EPROM de 8 bits X 512 k 304 para el almacenamiento de constantes fijas tales como los libros de códigos de entropía de longitud variable. El DSP de formateo de flujo de datos usa un chip Reed Solomon CRC 306 para facilitar la detección de errores y para protección del decodificador. Las comunicaciones entre los DSPs de codificador y la asignación y administración globales de bits se implementan usando RAM estática de dos puestos 308.

El flujo del proceso de codificación es el siguiente. Se extrae un flujo de datos PCM audio digital de 2 canales 310 en la salida de cada uno de los tres receptores audio digitales AES/EBU. El primer canal de cada par se dirige a CH1, DSPs de codificador 3 y 5 respectivamente, mientras que el segundo canal de cada uno se dirige a CH2, 4 y 6, respectivamente. Las muestras PCM se leen a los DSPs convirtiendo las palabras PCM serie a paralelo (s/p). Cada codificador acumula una trama de muestras PCM y prosigue a codificar los datos de trama como se ha descrito anteriormente. La información relativa a la señal de diferencia estimada (ed(n) y las muestras de sub-banda (x(n)) para cada canal se transmiten al DSP de asignación y administración globales de bits mediante la RAM de doble puerto. Las estrategias de asignación de bits para cada codificador son leídas después de nuevo de la misma manera. Una vez que ha terminado el proceso de codificación, los datos codificados y la información complementaria para los seis canales se transmiten al DSP formateador de flujo de datos mediante el DSP de asignación y administración globales de bits. En esta etapa se generan selectivamente bytes de comprobación CRC y añaden a los datos codificados a los efectos de proporcionar en el decodificador protección contra errores. Finalmente, todo el paquete de datos 16 se monta y envía.

Una implementación del decodificador de hardware de seis canales se describe en la figura 22. Se utiliza un solo chip de procesador de señal digital (DSP) de punto flotante y 40 bits de Analog Devices ADSP21020 para implementar el decodificador audio digital de seis canales. El ADSP21020 se sincroniza a 33 MHz y utiliza RAM de programa externa de 48 bits X 32 k (PRAM) 326, RAM de datos de 40 bits X 32 k (SRAM) 328 para ejecutar el algoritmo decodificador. También se utiliza una EPROM adicional de 8 bits X 512 k 330 para el almacenamiento de constantes fijas tales como los libros de códigos de vector de coeficientes de predicción y entropía de longitud variable.

El flujo del proceso de decodificación es el siguiente. El flujo de datos comprimidos 16 se introduce en el DSP mediante un convertidor serie a paralelo (s/p) 332. Los datos son descomprimidos y decodificados como se ha ilustrado previamente. Las muestras de sub-banda se reconstruyen a un solo flujo de datos PCM 22 para cada canal y envían a tres chips transmisores audio digital AES/EBU 334 mediante tres convertidores paralelo a serie (p/s) 335.

Aunque se han mostrado y descrito varias realizaciones ilustrativas de la invención, los expertos en la materia pensarán en numerosas variaciones y realizaciones alternativas. Por ejemplo, a medida que aumentan las velocidades del procesador y se reduce el costo de la memoria, es probable que aumente las frecuencias de muestreo, las velocidades de transmisión y el tamaño de la memoria intermedia aumentarán. Se contemplan tales variaciones y realizaciones alternativas.

Claims

1. Un codificador audio multicanal, incluyendo:

un captador de tramas (64) dispuesto para aplicar una ventana audio a cada canal de una señal audio multicanal muestreada a una frecuencia de muestreo para producir secuencias respectivas de tramas audio;

una pluralidad de filtros (34) dispuestos para dividir las tramas audio de los canales en respectivas pluralidades de sub-bandas de frecuencia en un rango de frecuencias de banda base, incluyendo cada una de dichas sub-bandas de frecuencia una secuencia de tramas de sub-banda que tienen al menos una subtrama de datos audio por trama de sub-banda;

una pluralidad de codificadores de sub-banda (26) dispuestos para codificar los datos audio de las respectivas sub-bandas de frecuencia, una subtrama cada vez, a señales de sub-banda codificadas;

un multiplexor (32) dispuesto para comprimir y multiplexar las señales de sub-banda codificadas en una trama de salida para cada trama sucesiva de datos formando por ello un flujo de datos a una velocidad de transmisión; y

un controlador (19) para establecer el tamaño de la ventana audio, caracterizado porque el tamaño de la ventana audio es establecido por el controlador (19) en respuesta a la frecuencia de muestreo y la velocidad de transmisión de manera que el tamaño de dichas tramas de salida esté limitado a estar en una banda deseada.

2. El codificador audio multicanal de la reivindicación 1, donde el controlador establece el tamaño de ventana audio como el múltiplo más grande de dos que es inferior a

(Tamaño \ de \ trama) \text{*} F_{samp} \text{*} \left(\frac{8}{T_{rate}} \right)

donde tamaño de trama es el tamaño máximo de la trama de salida, F_{samp} es la frecuencia de muestreo, y T_{rate} es la velocidad de transmisión.

3. El codificador audio multicanal de la reivindicación 1, donde la señal audio multicanal se codifica a una tasa de bits deseada y los codificadores de sub-banda incluyen codificadores predictivos, incluyendo además:

un administrador global de bits (GBM) (30) que calcula una relación de señal a máscara psicoacústica (SMR) y una ganancia de predicción estimada (P_{gain}) para cada subtrama, calcula relaciones de máscara a ruido (MNRs) reduciendo las SMRs por respectivas fracciones de sus ganancias de predicciones asociadas, asigna bits para cumplir cada MNR, calcula la tasa de bits asignada sobre todas las sub-bandas, y ajusta las asignaciones individuales de tal manera que la tasa real de bits se aproxime a la tasa de bits deseada.

4. El codificador audio multicanal de las reivindicaciones 1 o 3, donde el codificador de sub-banda divide cada subtrama en una pluralidad de sub-subtramas, incluyendo cada codificador de sub-banda un codificador predictivo (72) que genera y cuantifica una señal de error para cada subtrama, incluyendo además:

un analizador (98, 100, 102, 104, 106) que genera una señal de error estimado antes de codificar para cada subtrama, detecta transitorios en cada sub-subtrama de la señal de error estimado, genera un código de transitorio que indica si hay un transitorio en alguna sub-subtrama distinta de la primera y en qué sub-subtrama se produce el transitorio, y cuando se detecta un transitorio genera un factor de escala pretransitorio para las subtramas antes del transitorio y un factor de escala post-transitorio para las sub-subtramas que incluyen y siguen al transitorio y en otro caso genera un factor de escala uniforme para la subtrama,

usando dicho codificador predictivo dichos factores de escala pretransitorio, post-transitorio y uniforme para escalar la señal de error antes de codificar para reducir el error de codificación en las sub-subtramas correspondientes a los factores de escala pretransitorios.

5. El codificador audio multicanal de la reivindicación 1, donde dichas tramas audio tienen una anchura de banda audio que se extiende desde CC a aproximadamente la mitad de la frecuencia de muestreo; e incluyendo además el codificador:

un prefiltro (46) que divide cada una de dichas tramas audio en tramas de banda base que representan una porción de banda base de la anchura de banda audio y tramas de alta frecuencia de muestreo que representan la porción restante de la anchura de banda audio; y

un codificador de alta frecuencia de muestreo (48, 50, 52) que codifica las tramas de alta frecuencia de muestreo de canales audio a respectivas señales codificadas de alta frecuencia de muestreo; donde

\newpage

dicha pluralidad de filtros (34) dividen las tramas de banda base de los canales en respectivas pluralidades de sub-bandas de frecuencia, y

dicho multiplexor (32) comprime y multiplexa las señales de sub-banda codificadas y las señales de alta frecuencia de muestreo en una trama de salida para cada trama sucesiva de datos formando por ello un flujo de datos a una velocidad de transmisión de manera que las porciones de banda base y alta frecuencia de muestreo de la señal audio multicanal sean decodificables independientemente.

6. El codificador audio multicanal de la reivindicación 1, incluyendo además:

un administrador global de bits (GBM) (30) que calcula una relación de señal a máscara psicoacústica (SMR) y una ganancia de predicción estimada (P_{gain}) para cada subtrama, calcula relaciones de máscara a ruido (MNRs) reduciendo las SMRs por respectivas fracciones de sus ganancias de predicción asociadas, asigna bits para cumplir cada MNR, calcula una tasa de bits asignada sobre las sub-bandas, y ajusta las asignaciones individuales de tal manera que la tasa de bits asignada se aproxime a una tasa de bits deseada; donde

dicha pluralidad de codificadores de sub-banda (26) codifican los datos audio en las respectivas sub-bandas de frecuencia, una subtrama cada vez, según la asignación de bits para producir señales de sub-banda codificadas; y

dicho multiplexor (32) comprime y multiplexa las señales de sub-banda codificadas y la asignación de bits a una trama de salida para cada trama sucesiva de datos, formando por ello un flujo de datos a una velocidad de transmi-
sión.

7. El codificador audio multicanal de la reivindicación 6, donde el GBM (30) asigna los bits restantes según un esquema de error cuadrático medio mínimo (mmse) cuando la tasa de bits asignada es inferior a la tasa de bits deseada.

8. El codificador audio multicanal de la reivindicación 6, donde el GBM (30) calcula un valor cuadrático medio (RMS) para cada subtrama y cuando la tasa de bits asignada es inferior a la tasa de bits deseada, el GBM reasigna todos los bits disponibles según el esquema mmse aplicado a los valores RMS hasta que la tasa de bits asignada se aproxima a la tasa de bits deseada.

9. El codificador audio multicanal de la reivindicación 6, donde el GBM (30) calcula un valor cuadrático medio (RMS) para cada subtrama y asigna todos los bits restantes según el esquema mmse aplicado a los valores RMS hasta que la tasa de bits asignada se aproxima a la tasa de bits deseada.

10. El codificador audio multicanal de la reivindicación 6, donde el GBM (30) calcula un valor cuadrático medio (RMS) para cada subtrama y asigna todos los bits restantes según el esquema mmse aplicado a las diferencias entre los valores RMS y MNR de subtrama hasta que la tasa de bits asignada se aproxima a la tasa de bits deseada.

11. El codificador audio multicanal de la reivindicación 6, donde el GBM (30) establece la SMR a un valor uniforme de manera que los bits se asignen según un esquema de error cuadrático medio mínimo (mmse).

12. El codificador audio multicanal de la reivindicación 1, siendo del tipo de distorsión fija y tasa variable donde:

dicha señal audio multicanal tiene una resolución de N bits;

dichos filtros son filtros de reconstrucción perfecta; y

dichos codificadores de sub-banda son codificadores de sub-banda predictivos (26); incluyendo además el codificador:

un administrador global de bits (GBM) (30) que calcula un valor cuadrático medio (RMS) para cada subtrama y asigna bits a subtramas en base a los valores RMS de manera que un nivel de distorsión codificado sea inferior a la mitad del bit menos significativo de la resolución de N bits de la señal audio; donde

dichos codificadores predictivos codifican los datos audio en las respectivas bandas de frecuencia, una subtrama cada vez, según la asignación de bits para producir señales de sub-banda codificadas; y

dicho multiplexor (32) comprime y multiplexa las señales de sub-banda codificadas y la asignación de bits en una trama de salida para cada trama sucesiva de datos formando por ello un flujo de datos a una velocidad de transmisión, siendo capaz dicho flujo de datos de decodificarse a una señal audio multicanal decodificada que es igual a dicha señal audio multicanal a la resolución de N bits.

13. El codificador audio multicanal de la reivindicación 12, donde dicho rango de frecuencias de banda base tiene una frecuencia máxima, incluyendo además:

un prefiltro (46) que divide cada una de dichas tramas audio en una señal de banda base y una señal de alta frecuencia de muestreo a frecuencias en el rango de frecuencias de banda base y encima de la frecuencia máxima, respectivamente, asignando dicho GBM bits a la señal de alta frecuencia de muestreo para cumplir la distorsión fija seleccionada; y

un codificador de alta frecuencia de muestreo (48, 50, 52) que codifica las señales de alta frecuencia de muestreo de los canales audio a respectivas señales codificadas de alta frecuencia de muestreo,

comprimiendo dicho multiplexor las señales de alta frecuencia de muestreo codificadas de los canales en las respectivas tramas de salida de manera que las porciones de banda base y alta frecuencia de muestreo de la señal audio multicanal sean decodificables independientemente.

14. El codificador audio multicanal de la reivindicación 1 siendo un codificador audio de distorsión fija y tasa variable, incluyendo además:

un controlador programable (19) para seleccionar una de una distorsión perceptual fija y una distorsión de error cuadrático medio mínimo (mmse) fija; y

un administrador global de bits (GBM) (30) que responde a la selección de distorsión seleccionando a partir de un esquema mmse asociado que calcula un valor cuadrático medio (RMS) para cada subtrama y asigna bits a subtramas en base a los valores RMS hasta que se cumple la distorsión mmse fija y de un esquema psicoacústico que calcula una relación de señal a máscara (SMR) y una ganancia de predicción estimada (P_{gain}) para cada subtrama, calcula relaciones de máscara a ruido (MNRs) reduciendo las SMRs por respectivas fracciones de sus ganancias de predicción asociadas, y asigna bits para cumplir cada MNR; donde

dicha pluralidad de codificadores de sub-banda (26) codifican los datos audio en las respectivas bandas de frecuencia, una subtrama cada vez, según la asignación de bits para producir señales de sub-banda codificadas; y

dicho multiplexor (32) comprime y multiplexa las señales de sub-banda codificadas y la asignación de bits a una trama de salida para cada trama sucesiva de datos formando por ello un flujo de datos a una velocidad de transmisión.

15. Un decodificador multicanal audio para reconstruir múltiples canales audio hasta una frecuencia de muestreo del decodificador de un flujo de datos recibidos;

representando el flujo de datos dichos canales audio, muestreado cada uno a una frecuencia de muestreo del codificador al menos tan alta como dicha frecuencia de muestreo del decodificador, y subdividido en una pluralidad de sub-bandas de frecuencia, comprimido y multiplexado al flujo de datos a una velocidad de transmisión;

incluyendo el flujo de datos tramas incluyendo una palabra de sincronización, una cabecera de trama, una cabecera audio, y al menos una subtrama, incluyendo cada una de dichas subtramas información complementaria audio, teniendo una pluralidad de sub-subtramas códigos audio de banda base en un rango de frecuencias de banda base, un bloque de códigos audio de alta frecuencia de muestreo sobre un rango de frecuencias de alta frecuencia de muestreo, y un sincro descomprimido;

incluyendo la cabecera de trama información de tamaño de ventana que indica el número de muestras audio en la trama e información de tamaño de trama que indica el número de bytes en la trama, estableciéndose dicho tamaño de ventana en función de la relación de la velocidad de transmisión a la frecuencia de muestreo del codificador de manera que el tamaño de trama esté limitado de manera que sea inferior al tamaño de la memoria intermedia de entrada;
y

incluyendo la cabecera audio información relativa al número de subtramas en una trama y el número de canales audio codificados;

incluyendo el decodificador:

una memoria intermedia de entrada (324) dispuesto para leer y almacenar el flujo de datos una trama cada vez;

un demultiplexor (40) dispuesto para a) detectar la palabra de sincronización, b) descomprimir la cabecera de trama para extraer el tamaño de ventana y el tamaño de trama, c) descomprimir la cabecera audio para extraer el número de subtramas en la trama y el número de canales audio codificados, y d) descomprimir secuencialmente cada subtrama para extraer la información complementaria audio, demultiplexar los códigos audio de banda base en cada sub-subtrama a los múltiples canales audio y descomprimir cada canal audio a sus códigos audio de sub-banda, demultiplexar los códigos audio de alta frecuencia de muestreo a los múltiples canales audio hasta la frecuencia de muestreo del decodificador y saltar los códigos audio de alta frecuencia de muestreo restantes hasta la frecuencia de muestreo del codificador, y detectar el sincro descomprimido para verificar el final de la subtrama;

un decodificador de banda base (42, 44) dispuesto para utilizar la información complementaria para decodificar los códigos audio de sub-banda a señales de sub-banda reconstruidas, una subtrama cada vez, sin referencia a otras subtramas;

un filtro de reconstrucción de banda base (44) dispuesto para combinar las señales de sub-banda reconstruidas de cada canal en una señal de banda base reconstruida, una subtrama cada vez;

un codificador de alta frecuencia de muestreo (58, 60) dispuesto para utilizar la información complementaria para decodificar los códigos audio de alta frecuencia de muestreo a una señal de alta frecuencia de muestreo reconstruida para cada canal audio, una subtrama cada vez; y

un filtro de reconstrucción de canal (62) dispuesto para combinar las señales de banda base reconstruidas y de alta frecuencia de muestreo en una señal audio multicanal reconstruida, una subtrama cada vez.

16. El decodificador multicanal audio de la reivindicación 15, donde el filtro de reconstrucción de banda base (44) incluye un banco de filtros de reconstrucción no perfecta (NRP) y un banco de filtros de reconstrucción perfecta (PR), y dicha cabecera de trama incluye un código de filtro que selecciona uno de dichos bancos de filtro NPR y PR.

17. El decodificador multicanal audio de la reivindicación 15, donde el decodificador de banda base incluye una pluralidad de codificadores de modulación por impulsos codificados diferencial adaptativa inversa (ADPCM) (268, 270) dispuestos para decodificar los respectivos códigos audio de sub-banda, incluyendo dicha información complementaria coeficientes de predicción para los respectivos codificadores ADPCM y un modo de predicción (PMODE) para controlar la aplicación de los coeficientes de predicción a los respectivos codificadores ADPCM para habilitar e inhabilitar selectivamente sus capacidades de predicción.

18. El decodificador multicanal audio de la reivindicación 15, donde dicha información complementaria incluye:

una tabla de asignación de bits para sub-bandas de cada canal, en la que cada tasa de bits de sub-banda es fija sobre la subtrama;

al menos un factor de escala para cada sub-banda en cada canal; y

un modo transitorio (TMODE) para cada sub-banda en cada canal que identifica el número de factores de escala y sus sub-subtramas asociadas, escalando dicho decodificador de banda base los códigos audio de las sub-bandas por los respectivos factores de escala según sus TMODEs para facilitar la decodificación.