ES2232842T3 - Codificador predictivo de sub-banda multicanal con atribucion fisico-acustica adaptativa de bitios. - Google Patents

Codificador predictivo de sub-banda multicanal con atribucion fisico-acustica adaptativa de bitios.

Info

Publication number
ES2232842T3
ES2232842T3 ES96941446T ES96941446T ES2232842T3 ES 2232842 T3 ES2232842 T3 ES 2232842T3 ES 96941446 T ES96941446 T ES 96941446T ES 96941446 T ES96941446 T ES 96941446T ES 2232842 T3 ES2232842 T3 ES 2232842T3
Authority
ES
Spain
Prior art keywords
audio
sub
band
subframe
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES96941446T
Other languages
English (en)
Inventor
Stephen M. Smyth
Michael H. Smyth
William Paul Smith
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
Digital Theater Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Theater Systems Inc filed Critical Digital Theater Systems Inc
Application granted granted Critical
Publication of ES2232842T3 publication Critical patent/ES2232842T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Color Television Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

LA INVENCION SE REFIERE A UN CODIFICADOR DE AUDIO DE SUB-BANDAS (12) QUE EMPLEA UNOS FILTROS DE RECONSTRUCCION PERFECTA/NO PERFECTA (34), UNA CODIFICACION DE SUB-BANDA PREDECIBLE/NO PREDECIBLE (72), UN ANALISIS DE LOS TRANSITORIOS (106), Y UNA DISTRIBUCION DE BITS PSICOACUSTICA/MINIMA MEDIA-CUADRADA-ERROR (MMSE) (30) A TRAVES DEL TIEMPO Y DE LAS FRECUENCIAS, Y MULTIPLES CANALES DE AUDIO PARA CODIFICAR/DECODIFICAR UN TREN DE DATOS Y PARA GENERAR UNA SEÑAL DE AUDIO RECONSTRUIDA DE ALTA FIDELIDAD. EL CODIFICADOR DE AUDIO DELIMITA (64) LA SEÑAL DE AUDIO MULTICANAL, DE FORMA TAL QUE EL TAMAÑO DE PAGINA, ES DECIR, EL NUMERO DE OCTETOS, SE FUERZA A DESCANSAR EN UN RANGO DESEADO, Y FORMATEA LOS DATOS CODIFICADOS, DE FORMA TAL QUE LAS SUBPAGINAS INDIVIDUALES SE PUEDAN REPRODUCIR TAL COMO SE RECIBIERON REDUCIENDO, POR TANTO, LA LATENCIA. ADEMAS, EL CODIFICADOR DE AUDIO PROCESA LA PORCION DE LA BANDA BASE (0-24 KHZ) DEL ANCHO DE BANDA DE AUDIO PARA FRECUENCIAS DE MUESTREO DE 48 KHZ Y MAS ALTAS CON ELMISMO ALGORITMO DE CODIFICACION/DECODIFICACION, DE FORMA QUE LA ARQUITECTURA DEL CODIFICADOR DE AUDIO SEA COMPATIBLE EN EL FUTURO.

Description

Codificador predictivo de sub-banda multicanal con atribución físico-acústica adaptativa de bitios.
Antecedentes de la invención Campo de la invención
Esta invención se refiere a codificación y decodificación de alta calidad de señales audio multicanal y más específicamente a un codificador de sub-banda que emplea filtros de reconstrucción perfecta/no perfecta, codificación de sub-banda predictiva/no predictiva, análisis de transitorios, y asignación de bits psicoacústica/de error cuadrático medio mínimo (mmse) en el tiempo, frecuencia y los múltiples canales audio para generar un flujo de datos con una carga computacional de decodificación limitada.
Descripción de la técnica relacionada
Los codificadores conocidos de audio y música de alta calidad se pueden dividir en dos clases de tipos generales. Primero: los codificadores de sub-banda/transformación de resolución de frecuencia media a alta que cuantifican adaptativamente las muestras de sub-banda o coeficiente dentro de la ventana de análisis según un cálculo de máscara psicoacústica. Segundo: codificadores de sub-banda de resolución baja que compensan su pobre resolución de frecuencia procesando las muestras de sub-banda usando ADPCM.
La primera clase de codificadores explota las grandes variaciones espectrales a corto plazo de señales de música generales dejando que las asignaciones de bits se adapten según la energía espectral de la señal. La alta resolución de estos codificadores permite aplicar directamente la señal de frecuencia transformada al modelo psicoacústico, que se basa en una teoría de audición de banda crítica. El codificador audio AC-3 de Dolby, Todd y colaboradores,
"AC-3: Flexible Perceptual Coding for Audio Transmission and Storage" Convention of the Audio Engineering
Society, Febrero, 1994, calcula típicamente 1024 ffts en las respectivas señales PCM y aplica un modelo psicoacústico a los 1024 coeficientes de frecuencia en cada canal para determinar la tasa de bits para cada coeficiente. El sistema Dolby usa un análisis transitorio que reduce el tamaño de ventana a 256 muestras para aislar los transitorios. El codificador AC-3 usa un algoritmo de retroadaptación de propiedad para decodificar la asignación de bits. Esto reduce la cantidad de información de asignación de bits que se envía junto con los datos audio codificados. Como resultado, la anchura de banda disponible para audio se incrementa en comparación con los esquemas adaptativos directos, lo que da lugar a una mejora de la calidad del sonido.
En la segunda clase de codificadores, la cuantificación de las señales de sub-banda diferencial es fijada o está adaptada para minimizar la potencia de ruido de cuantificación a través de todas o algunas sub-bandas, sin ninguna referencia explícita a la teoría del enmascarado psicoacústico. Se acepta comúnmente que un umbral de distorsión psicoacústica directa no se puede aplicar a señales de sub-banda predictiva/diferencial a causa de la dificultad de estimar el rendimiento del predictor con anterioridad al proceso de asignación de bits. Los problemas se complican más por la interacción del ruido de cuantificación en el proceso de predicción.
Estos codificadores funcionan porque las señales audio de percepción crítica son generalmente periódicas durante largos períodos de tiempo. Esta periodicidad es explotada por la cuantificación diferencial predictiva. Dividir la señal en un pequeño número de sub-bandas reduce los efectos audibles de la modulación de ruido y permite la explotación de varianzas espectrales a largo plazo en las señales audio. Si se incrementa el número de sub-bandas, se reduce la ganancia de predicción dentro de cada sub-banda y en algún punto la ganancia de predicción tenderá a cero.
Digital Theater Systems, L.P. (DTS) utiliza un codificador audio en el que cada canal audio PCM se filtra a cuatro sub-bandas y cada sub-banda se codifica usando un codificador ADPCM inverso que adapta los coeficientes del predictor a los datos de sub-banda. La asignación de bits es fija y la misma para cada canal, asignándose a las sub-bandas de frecuencia inferior más bits que a las sub-bandas de frecuencia más alta. La asignación de bits proporciona una relación fija de compresión, por ejemplo, 4:1. Mike Smyth y Stephen Smyth, "APT-X100: A LOW-DELAY, LOW BIT-RATE, SUB-BAND ADPCM AUDIO CODER FOR BROADCASTING", Proceedings of the 10th International AES Conference 1991, pág. 41-56, describe el codificador DTS.
Ambos tipos de codificadores audio tienen otras limitaciones comunes. Primera: los codificadores audio conocidos codifican/decodifican con un tamaño de trama fijo, es decir, el número de muestras o período de tiempo representado por una trama es fijo. Como resultado, cuando aumenta la velocidad de transmisión codificada con relación a la frecuencia de muestreo, también aumenta la cantidad de datos (bytes) en la trama. Así, el tamaño de la memoria intermedia del decodificador se debe diseñar para acomodar el escenario del peor caso para evitar rebose de datos. Esto incrementa la cantidad de RAM, que es un componente de costo primario del decodificador. En segundo lugar: los codificadores audio conocidos no son fácilmente expansibles a frecuencias de muestreo superiores a 48 kHz. Hacerlo haría los decodificadores existentes incompatibles con el formato requerido para los nuevos codificadores. Esta falta de compatibilidad futura es una limitación seria. Además, los formatos conocidos usados para codificar los datos PCM requieren que toda la trama sea leída por el decodificador antes de que se pueda iniciar la reproducción. Esto requiere que el tamaño de la memoria intermedia se limite a aproximadamente bloques de datos de 100 ms de tal manera que el retardo o latencia no moleste al oyente.
Además, aunque estos codificadores tienen capacidad de codificación hasta 24 kHz, a menudo las sub-bandas más altas caen. Esto reduce la fidelidad de alta frecuencia o ambianza de la señal reconstruida. Los codificadores conocidos emplean típicamente uno de dos tipos de esquemas de detección de errores. El más común es la codificación Reed Solomon, en la que el codificador añade bits de detección de errores a la información complementaria en el flujo de datos. Esto facilita la detección y corrección de errores en la información complementaria. Sin embargo, los errores en los datos audio pasan sin detectar. Otro acercamiento es verificar en las cabeceras de trama y audio estaos de código no válidos. Por ejemplo, un parámetro de 3 bits particular puede tener solamente 3 estados válidos. Si se identifica uno de los otros 5 estados, se debe haber producido un error. Esto solamente proporciona capacidad de detección y no detecta errores en los datos audio.
Resumen de la invención
En vista de los problemas anteriores, la presente invención proporciona un codificador audio multicanal con la flexibilidad para acomodar un amplio rango de niveles de compresión con calidad superior a CD a altas tasas de bits y mejor calidad perceptual a bajas tasas de bits, con reducida latencia de reproducción, detección simplificada de errores, mejor distorsión pre-eco, y futura expansibilidad a frecuencias de muestreo más altas.
Esto se lleva a cabo con un codificador de sub-banda que divide en ventanas cada canal audio en una secuencia de tramas audio, filtra las tramas en rangos de frecuencias de banda base y altas, y descompone cada señal de banda base en una pluralidad de sub-bandas. El codificador de sub-banda selecciona normalmente un filtro no perfecto para descomponer la señal de banda base cuando la tasa de bits es baja, pero selecciona un filtro perfecto cuando la tasa de bits es suficientemente alta. Una etapa de codificación de alta frecuencia codifica la señal de frecuencia alta independientemente de la señal de banda base. Una etapa de codificación de banda base incluye una VQ y un codificador ADPCM que codifican las sub-bandas de frecuencia superiores e inferiores, respectivamente. Cada trama de sub-banda incluye al menos una subtrama, cada una de las cuales se subdivide además en una pluralidad de sub-subtramas. Cada subtrama es analizada para estimar la ganancia de predicción del codificador ADPCM, donde la capacidad de predicción se inhabilita cuando la ganancia de predicción es baja, y para detectar transitorios para regular los SFs pre- y post-transitorio.
Un sistema de administración global de bits (GBM) asigna bits a cada subtrama aprovechando las diferencias entre los múltiples canales audio, las múltiples sub-bandas, y las subtramas dentro de la trama corriente. El sistema GBM asigna inicialmente bits a cada subtrama calculando su SMR modificado por la ganancia de predicción para cumplir un modelo psicoacústico. El sistema GBM asigna después los bits restantes según un acercamiento MMSE para conmutar inmediatamente a una asignación MMSE, disminuir el nivel general de ruido, o morfar gradualmente a una asignación MMSE.
Un multiplexor genera tramas de salida que incluyen una palabra de sincronización, una cabecera de trama, una cabecera audio y al menos una subtrama, y que son multiplexadas a un flujo de datos a una velocidad de transmisión. La cabecera de trama incluye el tamaño de ventana y el tamaño de la trama de salida corriente. La cabecera audio indica una disposición de compresión y un formato de codificación para la trama audio. Cada subtrama audio incluye información complementaria para decodificar la subtrama audio sin referencia a ninguna otra subtrama, códigos VQ de alta frecuencia, una pluralidad de sub-subtramas audio de banda base, en las que los datos audio para cada sub-bandas de frecuencia inferior de canal son comprimidos y multiplexados con los otros canales, una trama audio de alta frecuencia, en la que los datos audio en el rango de frecuencia alta para cada canal son comprimidos y multiplexados con los otros canales de manera que la señal audio multicanal sea decodificable a una pluralidad de frecuencias de muestreo de decodificación, y un sincro descomprimido para verificar el final de la subtrama.
El tamaño de ventana se selecciona en función de la relación de la velocidad de transmisión a la frecuencia de muestreo de codificador de manera que el tamaño de la trama de salida tenga que situarse en una banda deseada. Cuando la cantidad de compresión es relativamente baja, el tamaño de ventana se reduce de manera que el tamaño de trama no exceda de un máximo superior. Como resultado, un decodificador puede utilizar una memoria intermedia de entrada con una cantidad fija y relativamente pequeña de RAM. Cuando la cantidad de compresión es relativamente alta, se incrementa el tamaño de ventana. Como resultado, el sistema GBM puede distribuir bits sobre un intervalo de tiempo más grande mejorando por ello el rendimiento del codificador.
Estas y otras características y ventajas de la invención serán evidentes a los expertos en la materia por la siguiente descripción detallada de realizaciones preferidas, tomadas juntas con los dibujos anexos y las tablas, en los que:
Breve descripción de los dibujos
La figura 1 es un diagrama de bloques de un codificador audio de 5 canales según la presente invención.
La figura 2 es un diagrama de bloques de un codificador multicanal.
La figura 3 es un diagrama de bloques del codificador y decodificador de banda base.
Las figuras 4a y 4b son diagramas de tramas de un codificador y decodificador de alta frecuencia de muestreo, respectivamente.
La figura 5 es un diagrama de bloques de un codificador de canal único.
La figura 6 es un gráfico de los bytes por trama frente al tamaño de trama para velocidades de transmisión variables.
La figura 7 es un gráfico de la respuesta de amplitud para los filtros de reconstrucción NPR y PR.
La figura 8 es un gráfico del escalonamiento de sub-banda para un filtro de reconstrucción.
La figura 9 es un gráfico de las curvas de distorsión para los filtros NPR y PR.
La figura 10 es un diagrama esquemático de un solo codificador de sub-banda.
Las figuras 11a y 11b ilustran la detección de transitorios y el cálculo del factor de escala, respectivamente, para una subtrama.
La figura 12 ilustra el proceso de codificación por entropía para los TMODEs cuantificados.
La figura 13 ilustra el proceso de cuantificación de factor de escala.
La figura 14 ilustra la convolución de una máscara de señal con la respuesta de frecuencia de señal para generar las SMRs.
La figura 15 es un gráfico de la respuesta de audición humana.
La figura 16 es un gráfico de las SMRs para las sub-bandas.
La figura 17 es un gráfico de las señales de error para las asignaciones de bits psicoacústica y mmse.
Las figuras 18a y 18b son un gráfico de los niveles de energía de sub-banda y el gráfico invertido, respectivamente, que ilustran el proceso de asignación de bits por "llenado con agua" por mmse.
La figura 19 es un diagrama de bloques de una sola trama en el flujo de datos.
La figura 20 es un diagrama esquemático del decodificador.
La figura 21 es un diagrama de bloques de una implementación por hardware del codificador.
Y la figura 22 es un diagrama de bloques de una implementación por hardware del decodificador.
Breve descripción de las tablas
La Tabla 1 tabula el tamaño máximo de trama frente a la frecuencia de muestreo y velocidad de transmisión.
La Tabla 2 tabula el tamaño de trama máximo permitido (bytes) frente a la frecuencia de muestreo y la velocidad de transmisión.
Y la Tabla 3 ilustra la relación entre el valor de índice ABIT, el número de niveles de cuantificación y la sub-banda SNR resultante.
Descripción detallada de la invención Sistema de codificación audio multicanal
Como se representa en la figura 1, la presente invención combina las características de los esquemas de codificación conocidos más las características adicionales en un solo codificador audio multicanal 10. El algoritmo de codificación está diseñado para realizar en estudio niveles de calidad, es decir, calidad "superior a CD" y proporcionar una amplia gama de aplicaciones para variar los niveles de compresión, las frecuencias de muestreo, las longitudes de palabra, el número de canales y la calidad perceptual.
El codificador 12 codifica múltiples canales de datos audio PCM 14, muestreados típicamente a 48 kHz con longitudes de palabra entre 16 y 24 bits, a un flujo de datos 16 a una velocidad de transmisión conocida, adecuadamente en el rango de 32-4096 kbps. A diferencia de los codificadores audio conocidos, la arquitectura presente se puede expandir a frecuencias de muestreo más altas (48-192 kHz) sin hacer incompatibles los decodificadores existentes, que estaban destinados a la frecuencia de muestreo de banda base o cualquier frecuencia de muestreo intermedia. Además, los datos PCM 14 son divididos en ventanas y codificados una trama cada vez donde cada trama se divide preferiblemente en 1-4 subtramas. El tamaño de la ventana audio, es decir, el número de muestras PCM, se basa en los valores relativos de la frecuencia de muestreo y velocidad de transmisión de tal manera que el tamaño de una trama de salida, es decir, el número de bytes, leído por el decodificador 18 por trama es limitado, adecuadamente entre 5,3 y 8 kbytes.
Como resultado, la cantidad de RAM requerida en el decodificador para poner en memoria intermedia el flujo de datos entrante se mantiene relativamente baja, lo que reduce el costo del decodificador. A velocidades bajas se puede usar tamaños de ventana más grandes para encuadrar los datos PCM, lo que mejora el rendimiento de la codificación. A tasas de bits más altas, se debe usar tamaños de ventana más pequeños para cumplir la limitación de los datos. Esto reduce necesariamente el rendimiento de la codificación, pero a las velocidades más altas es insignificante. Además, la manera en que son encuadrados los datos PCM permite al decodificador 18 iniciar la reproducción antes de que toda la trama de salida sea leída a la memoria intermedia. Esto reduce el retardo o latencia del codificador
audio.
El codificador 12 usa un banco de filtros de alta resolución, que conmuta preferiblemente entre filtros de reconstrucción no perfecta (NPR) y perfecta (PR) en base a la tasa de bits, para descomponer cada canal audio 14 en un número de señales de sub-banda. Los codificadores predictivos y de cuantificación vectorial (VD) se utilizan para codificar las sub-bandas de frecuencia inferiores y superiores, respectivamente. La sub-banda VQ de inicio puede ser fija o se puede determinar dinámicamente en función de las propiedades de señal corrientes. Se puede emplear codificación de frecuencia conjunta a bajas tasas de bits para codificar simultáneamente canales múltiples en las sub-bandas de frecuencia más alta.
El codificador predictivo conmuta preferiblemente entre modos APCM y ADPCM en base a la ganancia de predicción de sub-banda. Un analizador de transitorios segmenta cada subtrama de sub-banda en señales pre- y post-eco (sub-subtramas) y calcula respectivos factores de escala para las sub-subtramas pre y post-eco reduciendo por ello la distorsión pre-eco. El codificador asigna adaptativamente la tasa de bits disponible a través de todos los canales y sub-bandas PCM para la trama corriente según sus necesidades respectivas (psicoacústica o mse) para optimizar la eficiencia de codificación. Combinando la codificación predictiva y el modelado psicoacústico, la eficiencia de codificación a una tasa de bits baja se mejora disminuyendo por ello la tasa de bits a la que se logra transparencia subjetiva. Un controlador programable 19, tal como un ordenador o un teclado, está en interface con el codificador 12 para enviar información de modo audio incluyendo parámetros como la tasa de bits deseada, el número de canales, reconstrucción PR o NPR, frecuencia de muestreo y velocidad de transmisión.
Las señales codificadas y la información de banda lateral son comprimidas y multiplexadas al flujo de datos 16 de tal manera que la carga computacional de decodificación esté limitada de manera que se sitúe en el rango deseado. El flujo de datos 16 se codifica o transmite por un medio de transmisión 20 tal como un CD, un disco vídeo digital (DVD), o un satélite de radiodifusión directa. El decodificador 18 decodifica las señales de sub-banda individuales y realiza la operación de filtración inversa para generar una señal audio multicanal 22 que es subjetivamente equivalente a la señal audio multicanal original 14. Un sistema audio 24 tal como un sistema de teatro en casa o un ordenador multimedia reproducen la señal audio para el usuario.
Codificador multicanal
Como se representa en la figura 2, el codificador 12 incluye una pluralidad de codificadores de canal individuales 26, adecuadamente cinco (delantero izquierdo, central, delantero derecho, trasero izquierdo y trasero derecho), que producen grupos respectivos de señales de sub-banda codificadas 28, adecuadamente 32 señales de sub-banda por canal. El codificador 12 emplea un sistema de administración global de bits (GBM) 30 que asigna dinámicamente los bits de una agrupación de bits común entre los canales, entre las sub-bandas dentro de un canal, y dentro de una trama individual en una sub-banda dada. El codificador 12 también puede usar técnicas de codificación de frecuencia conjunta para aprovechar correlaciones entre canales en las sub-bandas de frecuencia más alta. Además, el codificador 12 puede utilizar VQ en las sub-bandas de frecuencia más alta que no son específicamente perceptibles para proporcionar una fidelidad básica de alta frecuencia o ambianza a una tasa de bits muy baja. De esta forma, el codificador aprovecha las demandas de señal dispares, por ejemplo los valores RMS de las sub-bandas y los niveles de enmascarado psicoacústicos, de los canales múltiples y la distribución no uniforme de energía de señal sobre la frecuencia en cada canal y en el tiempo en una trama dada.
Visión general de la asignación de bits
El sistema GBM 30 decide primero qué sub-bandas de canales serán codificadas en frecuencia conjunta y promedia dichos datos, y determina después qué sub-bandas serán codificadas usando VQ y resta dichos bits de la tasa de bits disponibles. La decisión de qué sub-bandas VQ se puede realizar a priori porque todas las sub-bandas por encima de una frecuencia umbral son VQ o se puede hacer en base a los efectos de enmascarado psicoacústico de las sub-bandas individuales en cada trama. Después, el sistema GBM 30 asigna bits (ABIT) usando enmascarado psicoacústico en las sub-bandas restantes para optimizar la calidad subjetiva de la señal audio decodificada. Si hay disponibles bits adicionales, el codificador puede conmutar a un esquema mmse puro, es decir "llenado con agua", y reasignar todos los bits en base a los valores eficaces relativos de las sub-bandas para minimizar el valor eficaz de la señal de error. Esto se puede aplicar a tasas de bits muy altas. El acercamiento preferido es retener la asignación de bits psicoacústicos y asignar solamente los bits adicionales según el esquema mmse. Esto mantiene la forma de la señal de ruido creada por el enmascarado psicoacústico, pero desplaza uniformemente el suelo de ruido hacia abajo.
Alternativamente, el acercamiento preferido se puede modificar de tal manera que los bits adicionales sean asignados según la diferencia entre los niveles rms y psicoacústicos. Como resultado, la asignación psicoacústica morfa a una asignación mmse cuando la tasa de bits aumenta, proporcionando por ello una transición suave entre las dos técnicas. Las técnicas anteriores son aplicables específicamente a sistemas de tasas de bits fijas. Alternativamente, el codificador 12 puede poner un nivel de distorsión, subjetiva o mse, y permitir variar la tasa general de bits para mantener el nivel de distorsión. Un multiplexor 32 multiplexa las señales de sub-banda e información complementaria al flujo de datos 16 según un formato de datos especificado. Los detalles del formato de datos se explican en la figura 20 a continuación.
Codificación de banda base
Para frecuencias de muestreo en el rango 8-48 kHz, el codificador de canal 26, como se representa en la figura 3, emplea un banco de filtros de análisis uniforme de 512 tomas y 32 bandas 34 que opera a una frecuencia de muestreo de 48 kHz para dividir el espectro audio, 0-24 kHz, de cada canal en 32 sub-bandas que tienen una anchura de banda de 750 Hz por sub-banda. La etapa de codificación 36 codifica cada señal de sub-banda y las multiplexa 38 al flujo de datos comprimidos 16. El decodificador 18 recibe el flujo de datos comprimidos, separa los datos codificados para cada sub-banda usando un descompresor 40, decodifica cada señal de sub-banda 42 y reconstruye las señales audio digitales PCM (Fsamp = 48kHz) usando un bando de filtros de interpolación uniforme de 512 tomas y 32 bandas 44 para cada canal.
En la arquitectura presente, todas las estrategias de codificación, por ejemplo, las frecuencias de muestreo de 48, 96 o 192 kHz, usan el proceso de codificación/decodificación de 32 bandas en las frecuencias audio (de banda base) inferiores, por ejemplo entre 0-24 kHz. Así, los decodificadores diseñados y construidos hoy día en base a una frecuencia de muestreo de 48 kHz serán compatibles con futuros codificadores que estén diseñados para aprovechar componentes de frecuencias más altas. El decodificador actual leería la señal de banda base (0-24kHz) e ignoraría los datos codificados para las frecuencias más altas.
Codificación a alta tasa de muestreo
Para frecuencias de muestreo en el rango de 48-96 kHz, el codificador de canal 26 divide preferiblemente el espectro audio en dos y emplea un banco de filtros de análisis uniforme de 32 bandas para la mitad inferior y un banco de filtros de análisis de 8 bandas para la mitad superior. Como se representa en las figuras 4a y 4b, el espectro audio, 0-48 kHz, se divide inicialmente usando un banco de prefiltros de decimación de 256 tomas y 2 bandas 46 dando una anchura de banda audio de 24 kHz por banda. La banda inferior (0-24kHz) está dividida y codificada en 32 bandas uniformes de la manera descrita anteriormente en la figura 3. Sin embargo, la banda superior (24-48kHz) está dividida y codificada en 8 bandas uniformes. Si el retardo del banco de filtros de decimación/interpolación de 8 bandas 48 no es igual al del de los filtros de 32 bandas, se debe emplear una etapa de compensación de retardo 50 en algún punto en el recorrido de señal de 24-48 kHz para asegurar que ambas formas de onda temporales se alineen antes del banco de filtros de recombinación de 2 bandas en el decodificador. En el sistema de codificación de muestreo de 96 kHz, la banda audio de 24-48 kHz se retarda 384 muestras y después se divide en las 8 bandas uniformes usando un banco de filtros de interpolación de 128 tomas. Cada una de las sub-bandas de 3 kHz se codifica 52 y comprime 54 con los datos codificados de la banda de 0-24 kHz para formar el flujo de datos comprimidos 16.
A la llegada al decodificador 18, el flujo de datos comprimidos 16 es descomprimido 56, y los códigos para el decodificador de 32 bandas (región de 0-24 kHz) y el decodificador de 8 bandas (24-48 kHz) se separan y alimentan a sus respectivas etapas decodificadoras 42 y 58, respectivamente. Las sub-bandas 8 y 32 decodificadas se reconstruyen usando bancos de filtros de interpolación uniforme de 128 tomas y 512 tomas 60 y 44, respectivamente. Las sub-bandas decodificadas son recombinadas después usando un banco de filtros de interpolación uniforme de 256 tomas y 2 bandas 62 para producir una sola señal audio digital PCM con una frecuencia de muestreo de 96 kHz. En el caso en que sea deseable que el decodificador opere a la mitad de la frecuencia de muestreo del flujo de datos comprimidos, esto se puede realizar convenientemente desechando los datos de banda superior codificados (24-48 kHz) y decodificando solamente las 32 sub-bandas en la región audio de 0-24 kHz.
Codificador de canal
En todas las estrategias de codificación descritas, el proceso de codificación/decodificación de 32 bandas se realiza para la porción de banda base de la anchura de banda audio entre 0-24 kHz. Como se representa en la figura 5, un captador de tramas 64 divide en ventanas el canal audio PCM 14 para segmentarlo en tramas sucesivas de datos 66. La ventana audio PCM define el número de muestras de entrada contiguas para que el proceso de decodificación genere una trama de salida en el flujo de datos. El tamaño de ventana se establece en base a la cantidad de compresión, es decir, la relación de la velocidad de transmisión a la frecuencia de muestreo, de tal manera que la cantidad de datos codificados en cada trama esté limitada. Cada trama sucesiva de datos 66 se divide en 32 bandas de frecuencia uniforme 68 por un banco de filtros de decimación FIT de 32 bandas y 512 tomas 34. Las muestras salidas de cada sub-banda se ponen en memoria intermedia y aplican a la etapa de codificación de 32 bandas 36.
Una etapa de análisis 70 (descrita con detalle en las figuras 10-19) genera coeficientes del predictor óptimos, asignaciones de bits de cuantificador diferencial y factores de escala de cuantificador óptimo para las muestras de sub-banda puestas en memoria intermedia. La etapa de análisis 70 también puede decidir qué sub-bandas serán VQ y cuáles serán codificadas en frecuencia conjunta si estas decisiones no están fijadas. Estos datos, o información complementaria, se envía a la etapa ADPCM seleccionada 72, la etapa VQ 73 o etapa de Codificación de Frecuencia Conjunta (JFC) 74, y al multiplexor de datos 32 (compresor). Las muestras de sub-banda son codificadas después por el proceso ADPCM o VQ y los códigos de cuantificación son introducidos en el multiplexor. La etapa JFC 74 no codifica realmente muestras de sub-banda, sino que genera códigos que indican qué sub-bandas de canales se unen y dónde se ponen en el flujo de datos. Los códigos de cuantificación y la información complementaria de cada sub-banda se comprimen en el flujo de datos 16 y transmiten al decodificador.
A la llegada al decodificador 18, el flujo de datos es demultiplexado 40, o descomprimido, de nuevo a las sub-bandas individuales. Los factores de escala y asignaciones de bits se instalan primero en los cuantificadores inversos 75 junto con los coeficientes del predictor para cada sub-banda. Los códigos diferenciales son reconstruidos después usando el proceso ADPCM 76 o el proceso VQ inverso 77 directamente o el proceso JFC inverso 78 para las sub-bandas designadas. Las sub-bandas son amalgamadas de nuevo finalmente a una sola señal audio PCM 22 usando el banco de filtros de interpolación de 32 bandas 44.
Encuadre de señales PCM
Como se representa en la figura 6, el captador de tramas 64 representado en la figura 5 varía el tamaño de la ventana 79 cuando la velocidad de transmisión cambia para una frecuencia de muestreo dada de manera que el número de bytes por trama de salida 80 esté limitado a estar, por ejemplo, entre 5,3 kbytes y 8 kbytes. Las Tablas 1 y 2 son tablas de diseño que permiten al diseñador seleccionar el tamaño óptimo de ventana y el tamaño de la memoria intermedia del decodificador (tamaño de trama), respectivamente, para una frecuencia de muestreo y una velocidad de transmisión dadas. A bajas velocidades de transmisión el tamaño de trama puede ser relativamente grande. Esto permite al codificador explotar la distribución de varianza no plana de la señal audio en el tiempo y mejorar el rendimiento del codificador audio. A altas tasas, el tamaño de trama se reduce de manera que el número total de bytes no rebose la memoria intermedia del decodificador. Como resultado, el diseñador puede proporcionar al decodificador 8 kbytes de RAM para satisfacer todas las velocidades de transmisión. Esto reduce el costo del decodificador. En general, el tamaño de la ventana audio viene dado por:
Ventana \ audio = (Tamaño \ de \ ventana)\text{*} F_{samp} \text{*} \left(\frac{8}{T_{rate}}\right)
donde Tamaño de trama es el tamaño de la memoria intermedia del decodificador, F_{samp} es la frecuencia de muestreo, y T_{rate} es la velocidad de transmisión. El tamaño de la ventana audio es independiente del número de canales audio. Sin embargo, a medida que se incrementa el número de canales, también debe aumentar la cantidad de compresión para mantener la velocidad de transmisión deseada.
TABLA 1 F_{samp} (kHz)
1
TABLA 2 F_{samp} (kHz)
2
Filtración de sub-banda
El banco de filtros de decimación uniforme de 32 bandas y 512 tomas 34 selecciona de dos bancos de filtros polifase para dividir las tramas de datos 66 en las 32 sub-bandas uniformes 68 representadas en la figura 5. Los dos bancos de filtros tienen diferentes propiedades de reconstrucción que compensan la ganancia de codificación de sub-banda con la precisión de reconstrucción. Una clase de filtros se denomina filtros de reconstrucción perfecta (PR). Cuando el filtro de decimación PR (codificación) y su filtro de interpolación (decodificación) se colocan espalda con espalda, la señal reconstruida es "perfecta", donde perfecto se define como que está dentro de 0,5 lsb a 24 bits de resolución. La otra clase de filtros se denomina filtros de reconstrucción no perfecta (NPR) porque la señal reconstruida tiene un suelo de ruido no cero que está asociado con las propiedades de cancelación de escalonamiento no perfectas del proceso de filtración.
Las funciones de transferencia 82 y 84 de los filtros NPR y PR, respectivamente, para una sola sub-banda se muestran en la figura 7. Dado que los filtros NPR no están limitados para proporcionar reconstrucción perfecta, exhiben relaciones mucho más grandes de rechazo de banda de casi parada (NSBR), es decir, la relación de la banda de paso al primer lóbulo lateral, que los filtros PR (110 dB frente a 85 dB). Como se representa en la figura 8, los lóbulos laterales del filtro producen una señal 86 que está naturalmente en la tercera sub-banda para escalonamiento a las sub-bandas contiguas. La ganancia de sub-banda mide el rechazo de la señal en las sub-bandas contiguas, y por lo tanto indica la capacidad del filtro de descorrelacionar la señal audio. Dado que los filtros NPR tienen una relación NSBR mucho más grande que los filtros PR, también tendrán una ganancia de sub-banda mucho más grande. Como resultado, los filtros NPR proporcionan mejor eficiencia de codificación.
Como se representa en la figura 9, la distorsión total en el flujo de datos comprimidos se reduce a medida que la tasa general de bits aumenta para ambos filtros PR y NPR. Sin embargo, a velocidades bajas la diferencia del rendimiento de ganancia de sub-banda entre los dos tipos de filtro es mayor que el suelo de ruido asociado con el filtro NPR. Así, la curva de distorsión 90 asociada con el filtro NPR está por debajo de la curva de distorsión 92 asociada del filtro PR. Por lo tanto, a bajas velocidades, el codificador audio selecciona el banco de filtros NPR. En algún punto 94, el error de cuantificación del codificador cae por debajo del suelo de ruido del filtro NPR de tal manera que sumar bits adicionales al codificador ADPCM no proporciona beneficios adicionales. En este punto, el codificador audio conmuta al banco de filtros PR.
Codificación ADPCM
El codificador ADPCM 72 genera una muestra prevista p(n) a partir de una combinación lineal de H muestras reconstruidas previas. Esta muestra de predicción se resta después de la entrada x(n) dando una muestra de diferencia
d(n). Las muestras de diferencia se escalan dividiéndolas por el factor de escala RMS (o PEAK) para hacer concordar las amplitudes RMS de las muestras de diferencia con la de la característica del cuantificador Q. La muestra de diferencia escalada ud(n) se aplica a una característica del cuantificador con L niveles de tamaño de paso SZ, determinados por el número de bits ABIT asignados para la muestra corriente. El cuantificador produce un código de nivel QL(n) para cada muestra de diferencia escalada ud(n). Estos códigos de nivel son transmitidos en último término a la etapa ADPCM del decodificador. Para actualizar la historia del predictor, los códigos de nivel del cuantificador QL(n) son decodificados localmente usando un cuantificador inverso 1/Q con idénticas características a las de Q para producir una muestra de diferencia escalada cuantificada u\hat{d}(n). La muestra u\hat{d}(n) es reescalada multiplicándola con el factor de escala RMS (o PEAK), para producir \hat{d}(n). Una versión cuantificada \hat{x}(n) de la muestra de entrada original x(n) se reconstruye añadiendo la muestra de predicción inicial p(n) a la muestra de diferencia cuantificada \hat{d}(n). Esta muestra se utiliza posteriormente para actualizar la historia del predictor.
Cuantificación vectorial
Los coeficientes del predictor y las muestras de sub-banda de alta frecuencia se codifican usando cuantificación vectorial (VQ). La VQ del predictor tiene una dimensión vectorial de 4 muestras y una tasa de bits de 3 bits por muestra. Por lo tanto, el libro de códigos final consta de 4096 vectores de código de dimensión 4. La búsqueda de vectores coincidentes está estructurada como un árbol de dos niveles, teniendo cada nodo del árbol 64 bifurcaciones. El nivel superior guarda 64 vectores de código de nodo que solamente son necesarios en el codificador como ayuda en el proceso de búsqueda. El nivel inferior contacta 4096 vectores de código finales, que se requieren en el codificador y el decodificador. Por cada búsqueda, se requieren 128 cálculos MSE de dimensión 4. El libro de códigos y los vectores de nodo en el nivel superior se entrenan usando el método LBG, con más de 5 millones de vectores de entrenamiento de coeficiente de predicción. Los vectores de entrenamiento se acumulan para todas las sub-bandas que exhiben una ganancia de predicción positiva, codificando al mismo tiempo un rango amplio de material audio. Para vectores de prueba en un conjunto de aprendizaje, se obtienen SNRs medias de aproximadamente 30dB.
La VQ de alta frecuencia tiene una dimensión vectorial de 32 muestras (la longitud de una subtrama) y una tasa de bits de 0,3125 bits por muestra. Por lo tanto, el libro de códigos final consta de 1024 vectores de código de dimensión 32. La búsqueda de vectores coincidentes está estructurada como un árbol de dos niveles, teniendo cada nodo en el árbol 32 bifurcaciones. El nivel superior guarda 32 vectores de código de nodo, que solamente son necesarios en el codificador. El nivel inferior contiene 1024 vectores de código finales que se requieren en el codificador y el decodificador. Por cada búsqueda, se requieren 64 cálculos MSE de dimensión 32. El libro de códigos y los vectores de nodo en el nivel superior se entrenan usando el método LBG con más de 7 millones de vectores de entrenamiento de muestra de sub-banda de alta frecuencia. Las muestras que forman los vectores se acumulan a partir de las salidas de sub-bandas 16 a 32 para una frecuencia de muestreo de 48 kHz para un rango amplio de material audio. A una frecuencia de muestreo de 48 kHz, las muestras de entrenamiento representan frecuencias audio en el rango 12 a 24 kHz. Para vectores de prueba en el conjunto de entrenamiento, se espera una SNR media de aproximadamente 3 dB. Aunque 3 dB es una SNR pequeña, es suficiente para proporcionar fidelidad de alta frecuencia o ambianza a estas frecuencias altas. Es perceptualmente mucho mejor que las técnicas conocidas que simplemente bajan las sub-bandas de alta frecuencia.
Codificación de frecuencia conjunta
En aplicaciones a tasas de bits muy bajas la fidelidad de reconstrucción general se puede mejorar codificando solamente una suma de las señales de sub-banda de alta frecuencia de dos o más canales audio en lugar de codificarlas independientemente. La codificación de frecuencia conjunta es posible porque las sub-bandas de alta frecuencia tienen a menudo similares distribuciones de energía y porque el sistema auditorio humano es sensible primariamente a la "intensidad" de los componentes de frecuencia alta, en vez de su estructura fina. Así, la señal media reconstruida proporciona buena fidelidad general puesto que, a cualquier tasa de bits, más bits están disponibles para codificar las frecuencias bajas perceptualmente importantes.
Los índices de codificación de frecuencia conjunta (JOINX) son transmitidos directamente al decodificador para indicar qué canales y sub-bandas se han unido y dónde está colocada la señal codificada en el flujo de datos. El decodificador reconstruye la señal en el canal designado y después la copia a cada uno de los otros canales. Cada canal es escalado después según su factor de escala RMS particular. Dado que la codificación de frecuencia conjunta promedia las señales de tiempo en base a la semejanza de sus distribuciones de energía, se reduce la fidelidad de reconstrucción. Por lo tanto, su aplicación está limitada típicamente a aplicaciones de baja tasa de bits y principalmente a las señales de 10-20 kHz. En las aplicaciones de tasas de bits media a alta la codificación de frecuencia conjunta está típicamente inhabilitada.
Codificador de sub-banda
En la figura 10 se ilustra con detalle el proceso de codificación para una banda lateral única que se codifica usando los procesos ADPCM/APCM, y específicamente la interacción de la etapa de análisis 70 y el codificador ADPCM 72 representado en la figura 5 y el sistema de administración global de bits 30 representado en la figura 2. Las figuras 11-19 detallan los procesos componentes representados en la figura 13. El banco de filtros 34 divide la señal audio PCM 14 en 32 señales de sub-banda x(n) que se escriben en respectivas memorias intermedias de muestras de sub-banda 96. Suponiendo un tamaño de ventana audio de 4096 muestras, cada memoria intermedia de muestras de sub-banda 96 guarda una trama completa de 128 muestras, que se dividen en 4 subtramas de 32 muestras. Un tamaño de ventana de 1024 muestras produciría una sola subtrama de 32 muestras. Las muestras x(n) se dirigen a la etapa de análisis 70 para determinar los coeficientes de predicción, el modo del predictor (PMODE), el modo transitorio (TMODE) y los factores de escala (SF) para cada subtrama. Las muestras x(n) también se suministran al sistema GBM 30, que determina la asignación de bits (ABIT) para cada subtrama por sub-banda por canal audio. Después, las muestras x(n) se pasan al codificador ADPCM 72, una subtrama cada vez.
Estimación de coeficientes de predicción óptimos
Los H coeficientes de predicción, adecuadamente de cuarto orden, se generan por separado para cada subtrama usando el método de autocorrelación estándar 98 optimizado sobre un bloque de muestras de sub-banda x(n), es decir las ecuaciones de Weiner-Hopf o Yule-Walker.
Cuantificación de coeficientes de predicción óptimos
Cada conjunto de cuatro coeficientes del predictor se cuantifica preferiblemente usando un libro de códigos vectoriales de 12 bits de búsqueda en árbol de 4 elementos (3 bits por coeficiente) descrito anteriormente. El libro de códigos vectoriales de 12 bits contiene 4096 vectores de coeficiente que se optimizan para una distribución de probabilidad deseada usando un algoritmo de agrupamiento estándar. Una búsqueda de cuantificación vectorial (VQ) 100 selecciona el vector de coeficiente que exhibe el error cuadrático medio ponderado más bajo entre él mismo y los coeficientes óptimos. Los coeficientes óptimos para cada subtrama son sustituidos después por estos vectores "cuantificados". Se utiliza un VQ LUT inverso 101 para suministrar los coeficientes cuantificados del predictor al codificador ADPCM 72.
Estimación de la señal de diferencia de predicción d(n)
Un cuandario significativo con ADPCM es que la secuencia de muestras de diferencia d(n) no se puede predecir fácilmente con anterioridad al proceso recursivo real 72. Un requisito fundamental de ADPCM de sub-banda adaptativa directa es que la energía de señal de diferencia sea conocida antes de la codificación ADPCM para calcular una asignación de bits apropiada para el cuantificador que produzca un error de cuantificación conocido, o nivel de ruido en las muestras reconstruidas. El conocimiento de la energía de señal de diferencia también se requiere para que un factor de escala de diferencia óptima se pueda determinar antes de la codificación.
Por desgracia, la energía de señal de diferencia no sólo depende de las características de la señal de entrada, sino también del rendimiento del predictor. Aparte de las limitaciones conocidas, tal como el orden del predictor y la optimalidad de los coeficientes del predictor, el rendimiento del predictor también queda afectado por el nivel del error de cuantificación, o ruido, inducido en las muestras reconstruidas. Puesto que el ruido de cuantificación viene dictado por la asignación final de bits ABIT y los valores RMS (o PEAK) del factor de escala de diferencia propiamente dichos, la estimación de energía de la señal de diferencia se debe alcanzar iterativamente en 102.
Paso 1
Asumir un error de cuantificación cero
La primera estimación de señal de diferencia se hace pasando las muestras de sub-banda puestas en memoria intermedia x(n) por un proceso ADPCM que no cuantifica la señal de diferencia. Esto se lleva a cabo inhabilitando la cuantificación y la puesta en escala RMS en el bucle de codificación ADPCM. Estimando la señal de diferencia d(n) de esta forma, se quitan del cálculo los efectos del factor de escala y los valores de asignación de bits. Sin embargo, el efecto del error de cuantificación en los coeficientes del predictor es tomado en cuenta por el proceso utilizando los coeficientes de predicción vectoriales cuantificados. Se utiliza un VQ LUT inverso 104 para proporcionar los coeficientes de predicción cuantificados. Para mejorar más la exactitud del predictor de estimación, las muestras de historia del predictor ADPCM real que se acumularon al final de la trama anterior se copian al predictor antes del cálculo. Esto garantiza que el predictor comience en donde quedó el predictor ADPCM real al final de la memoria intermedia de entrada anterior.
La principal discrepancia entre esta estimación ed(n) y el proceso real d(n) es que se ignora el efecto del ruido de cuantificación en las muestras reconstruidas x(n) y en la exactitud de predicción reducida. Para cuantificadores con gran número de niveles, el nivel de ruido será en general pequeño (suponiendo puesta en escala apropiada) y por lo tanto la energía real de la señal de diferencia coincidirá estrechamente con la calculada en la estimación. Sin embargo, cuando el número de niveles del cuantificador es pequeño, como es el caso de los codificadores audio típicos de baja tasa de bits, la señal prevista real, y por lo tanto la energía de la señal de diferencia, pueden diferir considerablemente de la estimada. Esto produce suelos de ruido de codificación que son diferentes de los previstos anteriormente en el proceso adaptativo de asignación de bits.
A pesar de esto, la variación del rendimiento de predicción no puede ser significativa para la aplicación o tasa de bits. Así, la estimación se puede usar directamente para calcular las asignaciones de bits y los factores de escala sin iterar. Un refinamiento adicional sería compensar la pérdida de rendimiento sobreestimando deliberadamente la energía de señal de diferencia si es probable que se vaya a asignar a dicha sub-banda un cuantificador con un pequeño número de niveles. La sobrestimación también puede ser clasificada según el número cambiante de niveles del cuantificador para mayor exactitud.
Paso 2
Recalcular usando asignaciones de bits y factores de escala estimados
Una vez que se han generado las asignaciones de bits (ABIT) y los factores de escala (SF) usando la primera señal de diferencia de estimación, su optimalidad se puede comprobar ejecutando otro proceso de estimación ADPCM usando la ABIT estimada y valores RMS (o PEAK) en el bucle ADPCM 72. Como con la primera estimación, la historia del predictor de estimación se copia del predictor ADPCM real antes de iniciar el cálculo para asegurar que ambos predictores arranquen desde el mismo punto. Una vez que todas las muestras de entrada puestas en memoria intermedia han pasado por este segundo bucle de estimación, el suelo de ruido resultante en cada sub-banda se compara con el suelo de ruido asumido en el proceso adaptativo de asignación de bits. Las discrepancias significativas se pueden compensar modificando la asignación de bits y/o los factores de escala.
El paso 2 se puede repetir para refinar adecuadamente el suelo de ruido distribuido a través de las sub-bandas, usando cada vez la estimación de señal de diferencia más corriente para calcular el conjunto siguiente de asignaciones de bits y factores de escala. En general, si los factores de escala cambiasen más de aproximadamente 2-3 dB, se recalcularían. De otro modo, la asignación de bits correría el riesgo de violar las relaciones de señal a máscara generadas por el proceso de enmascarado psicoacústico, o alternativamente el proceso mmse. Típicamente, una sola iteración es suficiente.
Cálculo de los modos de predicción de sub-banda (PMODE)
Para mejorar la eficiencia de codificación, un controlador 106 puede desactivar de forma arbitraria el proceso de predicción cuando la ganancia de predicción en la subtrama corriente cae por debajo de un umbral poniendo un señalizador PMODE. El señalizador PMODE se pone a uno cuando la ganancia de predicción (relación de la energía de la señal de entrada y la energía de la señal de diferencia estimada), medida durante la etapa de estimación para un bloque de muestras de entrada, excede de cierto umbral positivo. A la inversa, si la ganancia de predicción medida es inferior al umbral positivo, los coeficientes del predictor ADPCM se ponen a cero en el codificador y decodificador, para dicha sub-banda, y se pone a cero el PMODE respectivo. El umbral de ganancia de predicción se establece de tal manera que sea igual a la tasa de distorsión de la carga vectorial de coeficientes de predictor transmitida. Esto se realiza en un intento por asegurar que cuando PMODE=1, la ganancia de codificación para el proceso ADPCM siempre es mayor o igual que la de un proceso de codificación PCM adaptativa (APCM) directa. Poniendo de otro modo PMODE a cero y reposicionando los coeficientes del predictor, el proceso ADPCM revierte simplemente a APCM.
Los PMODEs se pueden poner altos en alguna o todas las sub-bandas si las variaciones de la ganancia de codificación ADPCM no son importantes para la aplicación. A la inversa, los PMODES se pueden poner bajos si, por ejemplo, algunas sub-bandas no se han de codificar, la tasa de bits de la aplicación es suficientemente alta para que las ganancias de predicción no tengan que mantener la calidad subjetiva del audio, el contenido de transitorios de la señal es alto, o la característica de empalme de Audio codificado ADPCM simplemente no es deseable, como podría ser el caso de aplicaciones de edición audio.
Se transmiten modos de predicción separados (PMODEs) para cada sub-banda a una velocidad igual a la velocidad de actualización de los predictores lineales en los procesos ADPCM del codificador y decodificador. La finalidad del parámetro PMODE es indicar al decodificador si la sub-banda particular tendrá alguna dirección de vector de coeficientes de predicción asociada con su bloque de datos audio codificados. Cuando PMODE=1 en alguna sub-banda, siempre se incluirá una dirección de vector de coeficientes de predicción en el flujo de datos. Cuando PMODE=0 en alguna sub-banda, nunca se incluirá una dirección de vector de coeficientes de predicción en el flujo de datos y los coeficientes del predictor se ponen a cero en las etapas ADPCM del codificador y decodificador.
El cálculo de los PMODEs comienza por analizar las energías de señal de entrada de sub-banda puestas en memoria intermedia con respecto a las energías correspondientes de señal de diferencia estimada puestas en memoria intermedia obtenidas en la estimación de primera etapa, es decir, no suponiendo error de cuantificación. Tanto las muestras de entrada x(n) como las muestras de diferencia estimadas ed(n) se ponen en memoria intermedia para cada sub-banda por separado. El tamaño de la memoria intermedia es igual al número de muestras contenidas en cada período de actualización del predictor, por ejemplo, el tamaño de una subtrama. La ganancia de predicción se calcula entonces como:
P_{gain} (dB) = 20,0 \text{*} Log_{10}(RMS_{x(n)}/RMS_{ed(n)})
donde RMS_{x(n)} = valor cuadrático medio de las muestras de entrada puestas en memoria intermedia x(n) y RMS_{ed(n)} = valor cuadrático medio de las muestras de diferencia estimadas puestas en memoria intermedia ed(n).
Para ganancias de predicción positivas, la señal de diferencia es, como media, menor que la señal de entrada, y por lo tanto se puede alcanzar un suelo de ruido de reconstrucción reducido usando el proceso ADPCM sobre APCM para la misma tasa de bits. Para ganancias negativas, el codificador ADPCM hace la señal de diferencia, como media, mayor que la señal de entrada, lo que da lugar a suelos de ruido más altos que APCM para la misma tasa de bits. Normalmente, el umbral de ganancia de predicción, que activa PMODE, será positivo y tendrá un valor que tiene en cuenta la capacidad extra de canal consumida transmitiendo la dirección del vector de coeficientes del predictor.
Cálculo de los modos transitorios de sub-banda (TMODE)
El controlador 106 calcula los modos transitorios (TMODE) para cada subtrama en cada sub-banda. Los TMODEs indican el número de factores de escala y las muestras en la memoria intermedia de señales de sub-banda de entrada ed(n) cuando PMODE=1 o en la memoria intermedia de señales de sub-banda de entrada x(n) cuando PMODE=0, para los que son válidos. Los TMODEs son actualizados a la misma tasa que las direcciones de vector de coeficientes de predicción y se transmiten al decodificador. La finalidad de los modos transitorios es reducir los artefactos audibles de "pre-eco" de codificación en presencia de transitorios de señal.
Un transitorio se define como una transición rápida entre una señal de amplitud baja y una señal de amplitud alta. Dado que los factores de escala se promedian en un bloque de muestras de diferencia de sub-banda, si tiene lugar un cambio rápido en la amplitud de señal en un bloque, es decir, se produce un transitorio, el factor de escala calculado tiende a ser mucho más grande de lo que sería óptimo para las muestras de amplitud baja que preceden al transitorio. Por lo tanto, el error de cuantificación en las muestras que preceden a transitorios puede ser muy alto. Este ruido es percibido como pre-eco de distorsión.
En la práctica, el modo transitorio se utiliza para modificar la longitud de bloque de promediado de factores de escala de sub-banda con el fin de limitar la influencia de un transitorio en la puesta en escala de las muestras diferenciales que lo preceden inmediatamente. La motivación para hacerlo son los fenómenos de pre-enmascaramiento inherentes al sistema auditorio humano, que sugiere que, en presencia de transitorios, el ruido puede ser enmascarado antes de un transitorio, a condición de que su duración se mantenga corta.
Dependiendo del valor de PMODE, el contenido, es decir la subtrama, de la memoria intermedia de muestras de sub-banda x(n) o el de la memoria intermedia de diferencias estimadas ed(n) se copia a una memoria intermedia de análisis de transitorios. Aquí el contenido de la memoria intermedia se divide uniformemente en 2, 3 o 4 sub-subtramas dependiendo del tamaño de muestra de la memoria intermedia de análisis. Por ejemplo, si la memoria intermedia de análisis contiene 32 muestras de sub-banda (21,3 ms @1500 Hz), la memoria intermedia se divide en 4 sub-subtramas de 8 muestras cada una, dando una resolución temporal de 5,3 ms para una frecuencia de muestreo de sub-banda de 1500 Hz. Alternativamente, si la ventana de análisis se configurase en muestras de 16 sub-bandas, la memoria intermedia solamente tendría que dividirse en dos sub-subtramas para dar la misma resolución temporal.
Se analiza la señal en cada sub-subtrama y se determina el estado transitorio de cada una, distinta de la primera. Si alguna sub-subtrama se declara transitoria, se generan dos factores de escala separados para la memoria intermedia de análisis, es decir, la subtrama corriente. El primer factor de escala se calcula a partir de muestras en las sub-subtramas que preceden a la sub-subtrama transitoria. El segundo factor de escala se calcula a partir de muestras en la sub-subtrama transitoria junto con todas las sub-subtramas precedentes.
El estado de transitorio de la primera sub-subtrama no se calcula puesto que el ruido de cuantificación está limitado automáticamente por el comienzo de la ventana de análisis propiamente dicho. Si más de una sub-subtrama se declara transitoria, solamente se considera la que se produce primero. Si no se detectan sub-memorias intermedias de transitorios, solamente se calcula un solo factor de escala usando todas las muestras en la memoria intermedia de análisis. De esta forma, no se usan valores de factor de escala que incluyen muestras transitorias para escalar muestras anteriores más de un período de sub-subtrama atrás en el tiempo. Por lo tanto, el ruido de cuantificación de pre-transitorio se limita a un período de sub-subtrama.
Declaración de transitorios
Una sub-subtrama se declara transitoria si la relación de su energía en la sub-memoria intermedia precedente excede de un umbral transitorio (TT), y la energía en la sub-subtrama precedente es inferior a un umbral pretransitorio (PTT). Los valores de TT y PTT dependerán de la tasa de bits y el grado de supresión de pre-eco requerido. Normalmente se varían hasta que la distorsión pre-eco percibida coincide con el nivel de otros artefactos de codificación, si existen. Aumentar TT y/o disminuir los valores PTT reducirá la probabilidad de que las sub-subtramas sean declaradas transitorias, y por lo tanto reducirá la tasa de bits asociada con la transmisión de los factores de escala. A la inversa, reducir TT y/o aumentar los valores PTT incrementará la probabilidad de que las sub-subtramas sean declaradas transitorias, y por lo tanto incrementará la tasa de bits asociada con la transmisión de los factores de escala.
Puesto que TT y PTT se ponen individualmente para cada sub-banda, la sensibilidad de la detección de transitorios en el codificador se puede poner de forma arbitraria para cualquier sub-banda. Por ejemplo, si se halla que el pre-eco en sub-bandas de alta frecuencia es menos perceptible que en las sub-bandas de frecuencia inferior, los umbrales se pueden poner para reducir la probabilidad de que se declaren transitorios en las sub-bandas más altas. Además, puesto que los TMODEs están embebidos en el flujo de datos comprimidos, el decodificador nunca necesita conocer el algoritmo de detección de transitorios utilizado en el codificador para decodificar apropiadamente la información de TMODE.
Configuración de cuatro sub-memorias intermedias
Como se representa en la figura 11a, si la primera sub-subtrama 108 en la memoria intermedia de análisis de sub-bandas 109 es transitoria, o si no se detectan sub-subtramas transitorias, TMODE=0. Si la segunda sub-subtrama es transitoria pero no la primera, TMODE=1. Si la tercera sub-subtrama es transitoria, pero no la primera o la segunda, TMODE=2. Si solamente la cuarta sub-subtrama es transitoria, TMODE=3.
Cálculo de factores de escala
Como se representa en la figura 11b, cuando TMODE=0, los factores de escala 110 se calculan en todas las sub-subtramas. Cuando TMODE=1, el primer factor de escala se calcula en la primera sub-subtrama y el segundo factor de escala en todas las sub-subtramas procedentes. Cuando TMODE=2, el primer factor de escala se calcula en las sub-subtramas primera y segunda y el segundo factor de escala sobre todas las sub-subtramas procedentes. Cuando TMODE=3, el primer factor de escala se calcula sobre las sub-subtramas primera, segunda y tercera y el segundo factor de escala se calcula en la cuarta sub-subtrama.
Codificación y decodificación ADPCM usando TMODE
Cuando TMODE=0, el único factor de escala se utiliza para escalar las muestras de diferencia de sub-banda durante la duración de toda la memoria intermedia de análisis, es decir, una subtrama, y se transmite al decodificador para facilitar la puesta en escala inversa. Cuando TMODE>0, se utilizan dos factores de escala para escalar las muestras de diferencia de sub-banda y ambos se transmiten al decodificador. Para cualquier TMODE, cada factor de escala se utiliza para escalar las muestras diferenciales usadas para generarlo en primer lugar.
Cálculo de factores de escala de sub-banda (RMS o PEAK)
Dependiendo del valor de PMODE para dicha sub-banda, las muestras de diferencia estimadas ed(n) o las muestras de sub-banda de entrada x(n) se utilizan para calcular el (los) factores de escala apropiados. Los TMODEs se utilizan en este cálculo para determinar el número de factores de escala y para identificar las sub-subtramas correspondientes en la memoria intermedia.
Cálculo del factor de escala RMS
Para la sub-banda j-ésima, los factores de escala rms se calculan de la siguiente manera:
Cuando TMODE=0, el único valor eficaz es:
RMS_{j} = \left(\sum\limits^{L}_{n=1} ed (n)^{2} / L\right)^{0.5}
donde L es el número de muestras en la subtrama. Cuando TMODE >0, los dos valores RMS son:
RMS1_{j} = \left(\sum\limits^{L}_{n=1} ed (n)^{2} / L\right)^{0.5}
RMS2_{j} = \left(\sum\limits^{k + 1}_{n=1} ed (n)^{2} / L\right)^{0.5}
donde k = (TMODE*L/NSB) y NSB es el número de sub-subtramas uniformes.
Si PMODE=0, las ed_{j}(n) muestras son sustituidas por las muestras de entrada x_{j}(n).
Cálculo del factor de escala PEAK
Para la sub-banda j-ésima, los factores de escala de pico se calculan de la siguiente manera:
Cuando TMODE=0, el único valor máximo es:
PEAK_{j} = MAX(ABS(ed_{j}(n))) \ para \ n=1, L
Cuando TMODE>0, los dos valores máximos son:
PEAK1_{j} = MAX(ABS(ed_{j}(n))) \ para \ n=1, (TMODE \text{*} L/NSB)
PEAK2_{j} = MAX(ABS(ed_{j}(n))) \ para \ n=(1+TMODE\text{*} L/NSB), L
Si PMODE=0, las ed_{j}(n) muestras son sustituidas por las muestras de entrada x_{j}(n).
Cuantificación de PMODE, TMODE y factores de escala Cuantificación de PMODEs
Los señalizadores de modo de predicción solamente tienen dos valores, activado o desactivado, y se transmiten al decodificador directamente como códigos de 1 bit.
Cuantificación de TMODEs
Los señalizadores de modo transitorio tienen un máximo de 4 valores; 0, 1, 2 y 3, y son transmitidos al decodificador usando directamente palabras código de entero sin signo de 2 bits u opcionalmente mediante una tabla de entropía de 4 niveles en un intento de reducir la longitud de palabra media de los TMODEs por debajo de 2 bits. Típicamente la codificación por entropía opcional se utiliza para aplicaciones de baja tasa de bits para ahorrar bits.
El proceso de codificación por entropía 112 ilustrado con detalle en la figura 12 es el siguiente: los códigos de modo transitorio TMODE(j) para las j sub-bandas se mapean a un número (p) de libro de códigos de longitud variable mid-riser de 4 niveles, donde cada libro de códigos se optimiza para una característica estadística de entrada diferente. Los valores TMODE se mapean a las tablas de 4 niveles 114 y se calcula 116 el uso total de bits asociado con cada tabla (NB_{p}). La tabla que proporciona el uso de bits más bajo en el proceso de mapeado se selecciona 118 usando el índice THUFF. Los códigos mapeados, VTMODE(j), se extraen de esta tabla, comprimen y transmiten al decodificador junto con la palabra índice THUFF. El decodificador, que contiene el mismo conjunto de tablas inversas de 4 niveles, usa el índice THUFF para dirigir los códigos de longitud variable entrantes, VTMODE(j), a la tabla apropiada para volver a decodificar a los índices TMODE.
Cuantificación de factores de escala de sub-banda
Para transmitir los factores de escala al decodificador, deben ser cuantificados a un formato de código conocido. En este sistema se cuantifican usando una característica logarítmica de 64 niveles uniformes, una característica logarítmica de 128 niveles uniformes, o una característica logarítmica de 64 niveles uniformes codificada de tasa variable 120. El cuantificador de 64 niveles exhibe un tamaño de paso de 2,25 dB en ambos casos, y los 128 niveles un tamaño de paso de 1,25 dB. La cuantificación de 64 niveles se utiliza para tasas de bits bajas a medias, la codificación detasa variable adicional se utiliza para aplicaciones de baja tasa de bits, y los 128 niveles se usan generalmente para altas tasas de bits.
El proceso de cuantificación 120 se ilustra en la figura 13. Los factores de escala, RMS o PEAK, se leen de una memoria intermedia 121, convierten al dominio log 122, y después se aplican a unos cuantificadores uniformes de 64 niveles o 128 niveles 124, 126 determinados por el control de modo de codificador 128. Los factores de escala log cuantificados se escriben después en una memoria intermedia 130. El rango de los cuantificadores de 128 y 64 niveles son suficientes para cubrir factores de escala con un rango dinámico de aproximadamente 160 dB y 144 dB, respectivamente. El límite superior de 128 niveles se establece para cubrir el rango dinámico de señales audio digitales PCM de entrada de 24 bits. El límite superior de 64 niveles se establece para cubrir el rango dinámico de señales audio digitales PCM de 20 bits.
Los factores de escala log se mapean al cuantificador y el factor de escala es sustituido por el código de nivel de cuantificador más próximo RMS_{QL} (o PEAK_{QL}). En el caso del cuantificador de 64 niveles estos códigos son 6 bits de largo y oscilan entre 0-63. En el caso del cuantificador de 128 niveles, los códigos son 7 bits de largo y oscilan entre 0-127.
La cuantificación inversa 131 se logra simplemente volviendo a mapear los códigos de nivel a la respectiva característica de cuantificación inversa para dar los valores RMS_{q} (o PEAK_{q}). Los factores de escala cuantificados se utilizan en el codificador y el decodificador para la puesta en escala de muestras diferenciales ADPCM (o APCM si PMODE=0), garantizando así que ambos procesos de puesta en escala y puesta en escala inversa sean idénticos.
Si se tiene que reducir la tasa de bits de los códigos del cuantificador de 64 niveles, se lleva a cabo entropía adicional, o codificación de longitud variable. Los códigos de 64 niveles se someten a codificación diferencial de primer orden 132 a través de las j sub-bandas, comenzando en la segunda sub-banda (j=2) a la sub-banda activa más alta. El proceso también se puede utilizar para codificar factores de escala PEAK. Los códigos diferenciales con signo DRMS_{QL}(j), (o DPEAK_{QL}(j)) tienen una banda máxima de +/-63 y se almacenan en una memoria intermedia 134. Para reducir su tasa de bits sobre los códigos de 6 bits originales, los códigos diferenciales se mapean a un número (p) de libros de código de longitud variable mid-riser de 127 niveles. Cada libro de códigos se optimiza para una característica estadística de entrada diferente.
El proceso para someter a codificación por entropía los códigos diferenciales con signo es el mismo que el proceso de codificación por entropía para los modos transitorios ilustrados en la figura 12 a excepción de que se utilizan p tablas de código de longitud variable de 127 niveles. La tabla que proporciona el uso de bits más bajo sobre el proceso de mapeado se selecciona usando el índice SHUFF. Los códigos mapeados VDRMS_{QL}(j) se extraen de esta tabla, comprimen y transmiten al decodificador junto con la palabra índice SHUFF. El decodificador, que contiene el mismo conjunto de (p) tablas inversas de 127 niveles, usa el índice SHUFF para dirigir los códigos de longitud variable entrantes a la tabla apropiada para redecodificación a los niveles de código de cuantificador diferencial. Los niveles de código diferencial son convertidos a valores absolutos usando las rutinas siguientes:
RMS_{QL}(1) = DRMS_{QL}(1)
RMS_{QL}(j) = DRMS_{QL}(j) + RMS_{QL}(j-1) \ para \ j = 2,... K
y niveles de código diferencial PEAK son convertidos a valores absolutos usando las rutinas siguientes;
PEAK_{QL}(1) = DPEAK_{QL}(1)
PEAK_{QL}(j) = DPEAK_{QL}(j) + PEAK_{QL}(j-1) \ para \ j = 2,..K
donde en ambos casos K = número de sub-bandas activas.
Asignación global de bits
El sistema de administración global de bits 30 representado en la figura 10 gestiona la asignación de bits (ABIT), determina el número de sub-bandas activas (SUBS) y la estrategia de frecuencia conjunta (JOINX) y la estrategia VQ para el codificador audio multicanal para proporcionar subjetivamente codificación transparente a una tasa reducida de bits. Esto incrementa el número de canales audio y/o el tiempo de reproducción que se puede codificar y almacenar en un medio fijo a la vez que se mantiene o mejora la fidelidad audio. En general, el sistema GBM 30 asigna primero bits a cada sub-banda según un análisis psicoacústico modificado por la ganancia de predicción del codificador. Los bits restantes son asignados después según un esquema mmse para disminuir el suelo general de ruido. Para optimizar la eficiencia de codificación, el sistema GBM asigna simultáneamente bits en todos los canales audio, todas las sub-bandas, y a través de toda la trama. Además, se puede emplear una estrategia de codificación de frecuencia conjunta. De esta manera, el sistema aprovecha la distribución no uniforme de energía de señal entre los canales audio, a través de frecuencia, y en el tiempo.
Análisis psicoacústico
Se utilizan mediciones psicoacústicas para determinar información perceptualmente irrelevante en la señal audio. La información perceptualmente irrelevante se define como las partes de la señal audio que no pueden ser oídas por oyentes humanos, y se pueden medir en el dominio de tiempo, el dominio de frecuencia, o en alguna otra base. J.D. Johnston: "Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE Journal on Selected Areas in Communications, vol. JSAC-6, nº 2, pág. 314-323, Feb. 1988 describió los principios generales de la codificación psicoacústica.
Dos factores principales influyen en la medición psicoacústica. Uno es el umbral absoluto dependiente de frecuencia de la audición aplicable a humanos. El otro es el efecto de enmascaramiento que un sonido tiene en la capacidad humana de oír un segundo sonido reproducido simultáneamente o incluso después del primer sonido. En otros términos el primer sonido evita que oigamos el segundo sonido, y se dice que lo enmascara.
En un codificador de sub-banda, el resultado final de un cálculo psicoacústico es un conjunto de números que especifican el nivel de ruido inaudible para cada sub-banda en dicho instante. Este cálculo es conocido y se incorpora en la norma de compresión MPEG 1 ISO/IEC DIS 11172 "Information technology - Coding of moving pictures and associated audio for digital storage media up to about 1.5 Mbits/s", 1992. Estos números varían dinámicamente con la señal audio. El codificador intenta ajustar el suelo de ruido de cuantificación en las sub-bandas por medio del proceso de asignación de bits de manera que el ruido de cuantificación en estas sub-bandas sea inferior al nivel audible.
Un cálculo psicoacústico exacto requiere normalmente una resolución de frecuencia alta en la transformada de tiempo a frecuencia. Esto implica una gran ventana de análisis para la transformada de tiempo a frecuencia. El tamaño de ventana de análisis estándar son 1024 muestras que corresponden a una subtrama de datos audio comprimidos. La resolución de frecuencia de una longitud de 1024 fft coincide aproximadamente con la resolución temporal del oído humano.
La salida del modelo psicoacústico es una relación de señal a máscara (SMR) para cada una de las 32 sub-bandas. La SMR es indicativa de la cantidad de ruido de cuantificación que una sub-banda particular puede soportar, y por lo tanto también es indicativa del número de bits necesarios para cuantificar las muestras en la sub-banda. Específicamente, una SMR grande (>>1) indica que se requiere gran número de bits y una SMR pequeña (>0) indica que se requieren menos bits. Si la SMR <0, la señal audio está por debajo el umbral de máscara de ruido, y no se requieren bits para cuantificación.
Como se representa en la figura 14, las SMRs para cada trama sucesiva se generan, en general, 1) calculando una fft, preferiblemente de longitud 1024, sobre las muestras audio PCM para producir una secuencia de coeficientes de frecuencia 142, 2) convolucionando los coeficientes de frecuencia con máscaras psicoacústicas de ruido y tono dependientes de frecuencia 144 para cada sub-banda, 3) promediando los coeficientes resultantes sobre cada sub-banda para producir los niveles de SMR, y 4) normalizando opcionalmente las SMRs según la respuesta de audición humana 146 representada en la figura 15.
La sensibilidad del oído humano es máxima a frecuencias próximas a 4 kHz y disminuye cuando la frecuencia se incrementa o disminuye. Así, para ser percibida al mismo nivel, una señal de 20 kHz debe ser mucho más fuerte que una señal de 4 kHz. Por lo tanto, en general, las SMRs a frecuencias próximas a 4 kHz son relativamente más importantes que las frecuencias alejadas. Sin embargo, la forma precisa de la curva depende de la potencia media de la señal suministrada al oyente. A medida que el volumen aumenta, la respuesta auditora 146 se comprime. Así, un sistema optimizado para un volumen particular será subóptimo a otros volúmenes. Como resultado, se selecciona un nivel de potencia nominal para normalizar los niveles de SMR o se inhabilita la normalización. Las SMRs resultantes 148 para las 32 sub-bandas se muestran en la figura 16.
Rutina de asignación de bits
El sistema GBM 30 selecciona primero la estrategia de codificación apropiada, qué sub-bandas serán codificadas con la VQ y algoritmos ADPCM y si JFC estará habilitada. Después, el sistema GBM selecciona un acercamiento de asignación de bits psicoacústico o MMSE. Por ejemplo, a altas tasas de bits, el sistema puede inhabilitar el modelado psicoacústico y uso un esquema verdadero de asignación mmse. Esto reduce la complejidad computacional sin ningún cambio perceptual en la señal audio reconstruida. A la inversa, a velocidades bajas, el sistema puede activar el esquema de codificación de frecuencia conjunta explicado anteriormente para mejorar la fidelidad de reconstrucción a frecuencias más bajas. El sistema GBM puede conmutar entre la asignación psicoacústica normal y la asignación mmse en base al contenido de transitorios de la señal en base de trama a trama. Cuando el contenido de transitorios es alto, el supuesto de estacionaridad que se utiliza para calcular las SMRs ya no es verdadero, y así el esquema mmse proporciona mejor rendimiento.
Para una asignación psicoacústica, el sistema GBM asigna primero los bits disponibles para cumplir los efectos psicoacústicos y asigna después los bits restantes para disminuir el suelo general de ruido. El primer paso es determinar las SMRs para cada sub-banda para la trama corriente como se ha descrito anteriormente. El paso siguiente es regular las SMRs para la ganancia de predicción (P_{gain}) en las respectivas sub-bandas para generar relaciones de máscara a ruido (MNRs). El principio es que el codificador ADPCM proporcionará una porción de la SMR requerida. Como resultado, se puede lograr niveles de ruido psicoacústicos inaudibles con menos bits.
La MNR para la sub-banda j-ésima, suponiendo PMODE=1, viene dada por:
MNR(j) = SMR(j)Pgain(j) \text{*} PEF(ABIT)
donde PEF(ABIT) es el factor de eficiencia de predicción del cuantificador. Para calcular MNR(j), el diseñador debe tener una estimación de la asignación de bits (ABIT), que se puede generar asignando bits solamente en base a la SMR(j) o suponiendo que PEF(ABIT)=1. A tasas de bits medias a altas, la ganancia de predicción efectiva es aproximadamente igual a la ganancia de predicción calculada. Sin embargo, la ganancia de predicción efectiva se reduce a bajas tasas de bits. La ganancia de predicción efectiva que se logra usando, por ejemplo, un cuantificador de 5 niveles es aproximadamente 0,7 de la ganancia de predicción estimada, mientras que un cuantificador de 65 niveles permite que la ganancia de predicción efectiva sea aproximadamente igual a la ganancia de predicción estimada, PEF = 1,0. En el límite, cuando la tasa de bits es cero, la codificación predictiva está esencialmente inhabilitada y la ganancia de predicción efectiva es cero.
En el paso siguiente, el sistema GBM 30 genera un esquema de asignación de bits que cumple la MNR para cada sub-banda. Esto se realiza usando la aproximación de que 1 bit es igual a 6 dB de distorsión de señal. Para asegurar que la distorsión de codificación sea inferior al umbral psicoacústicamente audible, la tasa de bits asignada es el entero mayor de la MNR dividido por 6 dB, que viene dada por:
ABIT(j) = \left[\frac{MNR(j)}{6dB}\right]
Asignando bits de esta manera, el nivel de ruido 156 en la señal reconstruida tenderá a seguir a la señal propiamente dicha 157 representada en la figura 17. Así, a frecuencias donde la señal es muy fuerte, el nivel de ruido será relativamente alto, pero permanecerá inaudible. A frecuencias donde la señal es relativamente débil, el suelo de ruido será muy pequeño e inaudible. El error medio asociado con este tipo de modelado psicoacústico siempre será mayor que un nivel de ruido mmse 158, pero el rendimiento audible puede ser mejor, en particular a bajas tasas de bits.
En caso de que la suma de los bits asignados para cada sub-banda en todos los canales audio sea mayor o inferior a la tasa de bits deseada, la rutina GBM reducirá o aumentará iterativamente la asignación de bits para sub-bandas individuales. Alternativamente, la tasa de bits deseada se puede calcular para cada canal audio. Esto es subóptimo, pero más simple, especialmente en una implementación por hardware. Por ejemplo, los bits disponibles se pueden distribuir uniformemente entre los canales audio o se pueden distribuir en proporción a la SMR media o RMS de cada canal.
En caso de que la tasa de bits deseada sea superada por la suma de las asignaciones de bits locales, incluyendo los bits de código VQ e información complementaria, la rutina de administración global de bits reducirá progresivamente las asignaciones de bits de sub-bandas locales. Varias técnicas específicas están disponibles para reducir la tasa de bits media. En primer lugar, las tasas de bits que se redondearon hacia arriba por la función del entero mayor pueden ser redondeadas hacia abajo. A continuación, un bit puede alejarse de las sub-bandas que tienen las MNRs más pequeñas. Además, las sub-bandas de frecuencia más alta se pueden desactivar o se puede habilitar la codificación de frecuencia conjunta. Todas las estrategias de reducción de la tasa de bits siguen el principio general de reducir gradualmente la resolución de codificación de forma suave, introduciéndose primero la estrategia perceptualmente menos ofensiva y usándose en último término la estrategia más ofensiva.
En caso de que la tasa de bits deseada sea mayor que la suma de las asignaciones de bits locales, incluyendo los bits de código VQ e información complementaria, la rutina de administración global de bits aumentará progresiva e iterativamente las asignaciones de bits de sub-bandas locales para reducir el suelo de ruido general de la señal reconstruida. Esto puede hacer que se codifiquen sub-bandas a las que antes se les asignó bits cero. La carga de bits al "conmutar" sub-bandas de esta forma puede ser necesaria para reflejar el costo al transmitir coeficientes del predictor si PMODE está habilitado.
La rutina GBM puede seleccionar uno de tres esquemas diferentes para asignar los bits restantes. Una opción es utilizar un método mmse que reasigna todos los bits de tal manera que el suelo de ruido resultante sea aproximadamente plano. Esto es equivalente a inhabilitar el modelado psicoacústico inicialmente. Para lograr un suelo de ruido mmse, el gráfico 160 de los valores RMS de las sub-bandas mostrados en la figura 18a se gira boca abajo como se representa en la figura 18b y "se llena de agua" hasta que todos los bits son expulsados. Esta técnica conocida se denomina llenado con agua porque el nivel de distorsión cae uniformemente a medida que aumenta el número de bits asignados. En el ejemplo representado, el primer bit es asignado a la sub-banda 1, los bits segundo y tercero son asignados a las sub-bandas 1 y 2, los bits cuarto a séptimo son asignados a las sub-bandas 1, 2, 4 y 7, y así sucesivamente. Alternativamente, se puede asignar un bit a cada sub-banda para garantizar que cada sub-banda sea codificada, y después se llenan de agua los bits restantes.
Una segunda opción, y preferida, es asignar los bits restantes según el acercamiento mmse y gráfico RMS descrito anteriormente. El efecto de este método es bajar uniformemente el suelo de ruido 157 representado en la figura 17 a la vez que se mantiene la forma asociada con el enmascarado psicoacústico. Esto proporciona un buen compromiso entre la distorsión psicoacústica y mse.
El tercer acercamiento es asignar los bits restantes usando el acercamiento mmse aplicado a un gráfico de la diferencia entre los valores RMS y MNR para las sub-bandas. El efecto de este acercamiento es morfar suavemente la forma del suelo de ruido de la forma psicoacústica óptima 157 a la forma mmse óptima (plana) 158 cuando aumenta la tasa de bits. En cualquiera de estos esquemas, si el error de codificación en cualquier sub-banda cae por debajo de 0,5 LSB, con respecto al PCM fuente, no se asignan más bits a dicha sub-banda. Se puede usar opcionalmente valores máximos fijos de asignaciones de bits de sub-banda para limitar el número máximo de bits asignados a sub-bandas particulares.
En el sistema de codificación explicado anteriormente, hemos asumido que la tasa de bits media por muestra es fija y hemos generado la asignación de bits para maximizar la fidelidad de la señal audio reconstruida. Alternativamente, el nivel de distorsión, mse o perceptual, puede ser fijo y la tasa de bits se puede variar para cumplir el nivel de distorsión. En el acercamiento mmse, el gráfico RMS se llena simplemente de agua hasta que se cumple el nivel de distorsión. La tasa de bits requerida variará en base a los niveles RMS de las sub-bandas. En el acercamiento psicoacústico, los bits son asignados para cumplir las MNRs individuales. Como resultado, la tasa de bits variará en base a las SMRs individuales y las ganancias de predicción. Este tipo de asignación no es actualmente útil porque los decodificadores contemporáneos operan a una tasa fija. Sin embargo, sistemas de administración alternativos, tales como ATM o medios de almacenamiento de acceso aleatorio, pueden hacer práctica la codificación de tasa variable en un futuro próximo.
Cuantificación de índices de asignación de bits (ABIT)
Los índices de asignación de bits (ABIT) se generan para cada sub-banda y cada canal audio por una rutina de asignación adaptativa de bits en el proceso de administración global de bits. La finalidad de los índices en el codificador es indicar el número de niveles 162 representado en la figura 10 que son necesarios para cuantificar la señal de diferencia para obtener un suelo de ruido de reconstrucción subjetivamente óptimo en el decodificador audio. En el decodificador indican el número de niveles necesarios para cuantificación inversa. Se generan índices para cada memoria intermedia de análisis y sus valores pueden ser del rango de 0 a 27. La relación entre valor de índice, el número de niveles de cuantificador y la SN_{Q}R de sub-banda diferencial resultante aproximada se representa en la Tabla 3. Dado que la señal de diferencia está normalizada, el tamaño de paso 164 se iguala a uno.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
(Tabla pasa a página siguiente)
TABLA 3
3
Los índices de asignación de bits (ABIT) son transmitidos al decodificador directamente usando palabras código de entero sin signo de 4 bits, palabras código de entero sin de 5 bits, o usando una tabla de entropía de 12 niveles. Típicamente, la codificación por entropía se emplearía para aplicaciones de baja tasa de bits para ahorrar bits. El método de codificar ABIT se establece por el control de modo en el codificador y se transmite al decodificador. El codificador por entropía mapea 166 los índices ABIT a un libro de códigos particular identificado por un índice BHUFF y un código específico VABIT en el libro de códigos usando el proceso representado en la figura 12 con tablas ABIT de 12 niveles.
Control de tasa de bits global
Dado que la información complementaria y las muestras de sub-banda diferencial se pueden codificar opcionalmente usando libros de códigos de longitud variable de entropía, se debe emplear algún mecanismo para regular la tasa de bits resultante del codificador cuando el flujo de bits comprimido se ha de transmitir a una tasa fija. Dado que normalmente no es deseable modificar la información complementaria una vez calculada, los ajustes de tasa de bits se logran mejor alterando iterativamente el proceso de cuantificación de muestras de sub-bandas diferenciales dentro del codificador ADPCM hasta que se cumple la limitación de tasa.
En el sistema descrito, un sistema de control de tasa global (GRC) 178 en la figura 10 ajusta la tasa de bits, que resulta del proceso de mapear los códigos de nivel de cuantificador a la tabla de entropía, alterando la distribución estadística de los valores de código de nivel. Se asume que todas las tablas de entropía exhiben una tendencia similar de longitudes de código más altas para valores de código de nivel más alto. En este caso, la tasa de bits media se reduce a medida que aumenta la probabilidad de los niveles de código de valor bajo y viceversa. En el proceso de cuantificación ADPCM (o APCM), el tamaño del factor de escala determina la distribución, o uso, de los valores de código de nivel. Por ejemplo, a medida que aumente el tamaño del factor de escala, las muestras diferenciales tenderán a ser cuantificadas por los niveles más bajos, y por lo tanto los valores de código serán progresivamente menores. A su vez, esto dará lugar a longitudes de palabra de código por entropía más pequeñas y una tasa de bits más baja.
La desventaja de este método es que, incrementando el tamaño del factor de escala, también se eleva el mismo grado el ruido de reconstrucción en las muestras de sub-banda. Sin embargo, en la práctica, el ajuste de los factores de escala normalmente no es superior a 1 dB a 3 dB. Si se requiere un ajuste mayor, sería mejor volver a la asignación de bits y reducir la asignación general de bits en vez de arriesgar la posibilidad de ruido de cuantificación audible que se produce en sub-bandas que usarían el factor de escala inflado.
Para regular la asignación de bits ADPCM codificada por entropía, las muestras de la historia del predictor para cada sub-banda se almacenan en una memoria intermedia temporal en caso de que se repita el ciclo de codificación ADPCM. A continuación, todas las memorias intermedias de muestras de sub-banda son codificadas por el proceso ADPCM completo usando coeficientes de predicción A_{H} derivados del análisis LPC de sub-banda junto con factores de escala RMS (o PEAK), asignaciones de bits del cuantificador ABIT, modos transitorios TMODE, y modos de predicción PMODE derivados de la señal de diferencia estimada. Los códigos de nivel de cuantificador resultantes se ponen en memoria intermedia y mapean al libro de códigos de longitud variable de entropía, que exhibe de nuevo el uso de bits más bajo usando el índice de asignación de bits para determinar los tamaños de los libros de códigos.
El sistema GRC analiza después el número de bits usados para cada sub-banda usando el mismo índice de asignación de bits en todos los índices. Por ejemplo, cuando ABIT=1, el cálculo de asignación de bits en la administración global de bits podría haber asumido una tasa media de 1,4 por muestra de sub-banda (es decir, la tasa media para el libro de códigos de entropía suponiendo una distribución óptima de la amplitud de los códigos de nivel). Si el uso total de bits de todas las sub-bandas para las que ABIT=1 es mayor que 1,4/(número total de muestras de sub-banda), los factores de escala se podrían incrementar en todas estas sub-bandas afectando a una reducción de la tasa de bits. La decisión para regular los factores de escala de sub-banda se deja preferiblemente hasta que se ha accedido a todas las tasas de índice ABIT. Como resultado, los índices con tasas de bits menores que las asumidas en el proceso de asignación de bits pueden compensar los que tienen tasas de bits superiores a dicho nivel. Esta evaluación también se puede ampliar para cubrir todos los canales audio donde sea apropiado.
El procedimiento recomendado para reducir la tasa general de bits es empezar con la tasa de bits de índice ABIT más baja que excede del umbral y aumentar los factores de escala en cada una de las sub-bandas que tienen esta asignación de bits. El uso de bits real se reduce por el número de bits que estas sub-bandas estaban originalmente por encima de la tasa nominal para dicha asignación. Si el uso de bits modificado todavía es superior al máximo permitido, se incrementan los factores de escala de sub-banda para el índice ABIT más alto siguiente, para el que el uso de bits excede del nominal. Este proceso se continúa hasta que el uso de bits modificado es inferior al máximo.
Una vez logrado esto, se cargan los datos históricos antiguos en los predictores y el proceso de codificación ADPCM 72 se repite para las sub-bandas cuyos factores de escala han sido modificados. Después de esto, los códigos de nivel son mapeados de nuevo a los libros de códigos de entropía más óptimos y se recalcula el uso de bits. Si alguno de los usos de bits todavía excede de las tasas nominales, los factores de escala se incrementan más y se repite el ciclo.
La modificación de los factores de escala se puede hacer de dos formas. La primera es transmitir al decodificador un factor de ajuste para cada índice ABIT. Por ejemplo una palabra de 2 bits podría indicar una banda de ajuste de, por ejemplo, 0, 1, 2 y 3 dB. Puesto que se utiliza el mismo factor de ajuste para todas las sub-bandas que usan el índice ABIT, y solamente los índices 1-10 pueden utilizar codificación por entropía, el número máximo de factores de ajuste que tiene que ser transmitido para todas las sub-bandas es 10. Alternativamente, el factor de escala se puede cambiar en cada sub-banda seleccionando un nivel de cuantificador alto. Sin embargo, puesto que los cuantificadores de factor de escala tienen tamaños de paso de 1,25 y 2,5 dB, respectivamente, el ajuste de factor de escala se limita a estos pasos. Además, al utilizar esta técnica, puede ser necesario recalcular la codificación diferencial de los factores de escala y el uso de bits resultante si se habilita la codificación por entropía.
Hablando en términos generales, también se puede utilizar el mismo procedimiento para incrementar la tasa de bits, es decir, cuando la tasa de bits es menor que la tasa de bits deseada. En este caso, los factores de escala se disminuirán para forzar las muestras diferenciales para hacer mayor uso de los niveles de cuantificador exteriores, y por lo tanto usar palabras código más largas en la tabla de entropía.
Si el uso de bits para índices de asignación de bits no se puede reducir dentro de un número razonable de iteraciones, o en el caso en que se transmiten los factores de ajuste de factor de escala, el número de pasos de ajuste ha llegado al límite, son posibles dos remedios. Primero: se puede incrementar los factores de escala de sub-bandas que están dentro de la tasa nominal, disminuyendo por ello la tasa general de bits. Alternativamente, todo el proceso de codificación ADPCM puede ser suspendido y se recalculan las asignaciones adaptativas de bits a través de las sub-bandas, esta vez usando menos bits.
Formato del flujo de datos
El multiplexor 32 representado en la figura 10 comprime los datos para cada canal y después multiplexa los datos comprimidos para cada canal a una trama de salida para formar el flujo de datos 16. El método de comprimir y multiplexar los datos, es decir, el formato de trama 186 representado en la figura 19, se diseñó de manera que el codificador audio se pueda usar en una amplia gama de aplicaciones y se pueda expandir a frecuencias de muestreo más altas, la cantidad de datos en cada trama es limitada, la reproducción se puede iniciar en cada sub-subtrama independientemente para reducir la latencia, y se reducen los errores de decodificación.
Como se representa, una sola trama 186 (4096 muestras PCM/c) define los límites de flujo de bits en los que reside información suficiente para decodificar apropiadamente una trama de audio y consta de 4 subtramas 188 (1024 muestras PCM/c), que a su vez están formadas por 4 sub-subtramas 190 (256 muestras PCM/c). La palabra de sincronización de trama 192 se coloca al comienzo de cada trama audio. La información de cabecera de trama 194 da primariamente información relativa a la construcción de la trama 186, la configuración del codificador que generó el flujo y varias características operativas opcionales tales como el control de rango dinámico embebido y el código de tiempo. La información de cabecera opcional 196 indica al decodificador si se requiere mezcla hacia abajo, si se hizo compensación de rango dinámico y si se incluyen bytes de datos auxiliares en el flujo de datos. Las cabeceras de codificación audio 198 indican la disposición de compresión y formatos de codificación usados en el codificador para montar la 'información complementaria' de codificación, es decir, asignaciones de bits, factores de escala, PMODES, TMODES, libros de códigos, etc. El resto de la trama está formado por subtramas audio consecutivas SUBFS 188.
Cada subtrama comienza con la información complementaria de codificación audio 200 que envía información relativa a un número de sistemas de codificación por clave usados para comprimir el audio en el decodificador. Estos incluyen detección de transitorios, codificación predictiva, asignación adaptativa de bits, cuantificación vectorial de alta frecuencia, codificación de intensidad y puesta en escala adaptativa. Muchos de estos datos son descomprimidos del flujo de datos usando la información de cabecera de codificación audio anterior. La matriz de códigos VQ de alta frecuencia 202 consta de índices de 10 bits por sub-banda de alta frecuencia indicados por índices VQSUB. La matriz de efectos de baja frecuencia 204 es opcional y representa los datos de frecuencia muy baja que se pueden usar para activar, por ejemplo, un subwoofer.
La matriz audio 206 es decodificada usando cuantificadores inversos Huffman/fijos y es dividida en un número de sub-subtramas (SSC), decodificando cada una hasta 256 muestras PCM por canal audio. La matriz audio sobremuestreada 208 solamente está presente si la frecuencia de muestreo es superior a 48 kHz. Para seguir siendo compatibles, los decodificadores que no pueden operar a frecuencias de muestreo por encima de 48 kHz deberán saltar esta matriz de datos audio. Se utiliza DSYNC 210 para verificar el final de la posición de subtrama en la trama audio. Si no se verifica la posición, el audio decodificado en la subtrama se declara no fiable. Como resultado, se silencia dicha trama o se repite la trama anterior.
Decodificador de sub-banda
La figura 20 es un diagrama de bloques del decodificador de muestras de sub-banda 18, respectivamente. El decodificador es bastante simple en comparación con el codificador y no implica cálculos que sean de importancia fundamental para la calidad del audio reconstruido, tal como asignaciones de bits. Después de la sincronización, el descompresor 40 descomprime el flujo de datos audio comprimido 16, detecta y, si es necesario, corrige los errores inducidos por transmisión, y demultiplexa los datos a canales audio individuales. Las señales diferenciales de sub-banda son recuantificadas a señales PCM y cada canal audio es filtrado inversamente para convertir de nuevo la señal al dominio de tiempo.
Recibir trama audio y descomprimir cabeceras
El flujo de datos codificado es comprimido (o encuadrado) en el codificador e incluye en cada trama datos adicionales para sincronización de decodificador, detección y corrección de errores, señalizadores de estado de codificación audio e información complementaria de codificación, aparte de los códigos audio reales propiamente dichos. El descompresor 40 detecta la palabra SYNC y extrae el tamaño de trama FSIZE. El flujo de bits codificado consta de tramas audio consecutivas, comenzando cada una con una palabra de sincronización (SYNC) de 32 bits (Ox7ffe8001). El tamaño físico de la trama audio, FSIZE, se extrae de los bytes después de la palabra de sincronización. Esto permite al programador establecer un temporizador de 'fin de trama' para reducir los recursos de software. A continuación, se extrae NBlks que permite al decodificador calcular el Tamaño de Ventana Audio (32 (Nblks+1)). Esto indica al decodificador qué información complementaria extraer y cuántas muestras reconstruidas generar.
Tan pronto como los bytes de cabecera de trama (sync, ftype, sur p, nblks, fsize, amode, sfreq, velocidad, mixt, dynf, dynct, tiempo, auxcnt, Iff, hflag) han sido recibidos, la validez de los primeros 12 bytes puede ser verificada usando los bytes de comprobación Reed Solomon, HCRC. Estos corregirán 1 byte erróneo de los 14 bytes o indicarán 2 bytes erróneos. Una vez terminada la comprobación de errores, la información de cabecera se utiliza para actualizar los señalizadores de decodificador.
Las cabeceras (filts, vernum, chist, pcmr, unspec) que siguen a HCRC y hasta la información opcional, se pueden extraer y usar para actualizar los señalizadores de decodificador. Puesto que esta información no cambiará de una trama a otra, se puede usar un esquema de voto mayoritario para compensar errores de bit. Los datos de cabecera opcionales (times, mcoeff, dcoeff, auxd, ocrc) se extraen según las cabeceras mixct, dynf, tiempo y auxcnt. Los datos opcionales pueden ser verificados usando los bytes de comprobación Reed Solomon opcionales OCRC.
Las cabeceras de trama de codificación audio (subfs, subs, chs, vqsu b, joinx, thuff, shuff, bhuff, se15, sel7, se19, sell3, sell7, se125, se133, sel 65, seI129, ahcrc) son transmitidas una vez en cada trama. Pueden ser verificadas usando los bytes de comprobación audio Reed Solomon AHCRC. La mayoría de las cabeceras se repiten para cada canal audio como define CHS.
Descomprimir información complementaria de codificación de subtrama
La trama de codificación audio se divide en un número de subtramas (SUBFS). Toda la información complementaria necesaria (pmode, pvq, tmode, escalas, abits, hfreq) se incluye para decodificar apropiadamente cada subtrama de audio sin referencia a ninguna otra subtrama. Cada subtrama sucesiva es decodificada descomprimiendo primero su información complementaria.
Se transmite un señalizador de modo de predicción de 1 bit (PMODE) para cada sub-banda activa y a través de todo el canal audio. Los señalizadores PMODE son válidos para la subtrama corriente. PMODE=0 implica que los coeficientes del predictor no se incluyen en la trama audio para dicha sub-banda. En este caso, los coeficientes del predictor en esta banda se reposicionan a cero durante la duración de la subtrama. PMODE=1 implica que la información complementaria contiene coeficientes del predictor para esta sub-banda. En este caso, los coeficientes del predictor se extraen e instalan en su predictor durante la duración de la subtrama.
Para cada PMODE=1 en la matriz pmode, un índice de dirección VQ de coeficientes de predicción correspondientes está situado en la matriz PVQ. Los índices son palabras de entero de 12 bits sin signo fijas y los 4 coeficientes de predicción se extraen de la tabla de consulta mapeando el entero de 12 bits a la tabla de vectores 266.
Los índices de asignación de bits (ABIT) indican el número de niveles en el cuantificador inverso que convertirá de nuevo los códigos audio de sub-banda a valores absolutos. El formato de descompresión difiere para los ABITs en cada canal audio, dependiendo del índice BHUFF y un código VABIT específico 256.
La información complementaria de modo de transitorios (TMODE) 238 se utiliza para indicar la posición de transitorios en cada sub-banda con respecto a la subtrama. Cada subtrama está dividida en 1 a 4 sub-subtramas. En términos de muestras de sub-banda, cada sub-subtrama consta de 8 muestras. El tamaño máximo de subtrama son 32 muestras de sub-banda. Si se produce un transitorio en la primera sub-subtrama, tmode=0. Un transitorio en la segunda sub-subtrama se indica cuando tmode=1, y así sucesivamente. Para controlar la distorsión transitoria, tal como el pre-eco, dos factores de escala son transmitidos para sub-bandas de subtrama donde TMODE es mayor que 0. Los índices THUFF extraídos de las cabeceras audio determinan el método necesario para decodificar los TMODEs. Cuando THUFF=3, los TMODEs son descomprimidos como enteros de 12 bits sin signo.
Los índices de factor de escala se transmiten para permitir la puesta en escala apropiada de los códigos audio de sub-banda dentro de cada subtrama. Si TMODE es igual a cero, se transmite un factor de escala. Si TMODE es mayor que cero para cualquier sub-banda, se transmiten dos factores de escala conjuntamente. Los índices SHUFF 240 extraídos de las cabeceras audio determinan el método necesario para decodificar los SCALES para cada canal audio separado. Los índices VDRMSQL determinan el valor del factor de escala RMS.
En algunos modos los índices SCALES son descomprimidos usando una opción de cinco cuantificadores inversos Huffman con signo de 129 niveles. Sin embargo, los índices cuantificados inversos resultantes son codificados diferencialmente y convertidos a absolutos de la siguiente manera:
ABS_SCALE(n+1)=SCALES(n)-SCALES(n+1) donde n es el enésimo factor de escala diferencial en el canal audio comenzando en la primera sub-banda.
En los modos de codificación audio de baja tasa de bits, el codificador audio usa cuantificación vectorial para codificar eficientemente muestras de sub-banda de alta frecuencia audio directamente. No se utiliza codificación diferencial en estas sub-bandas y todas las matrices referentes a los procesos ADPCM normales deben mantenerse en reposición. La primera sub-banda que se codifica usando VQ se indica por VQSUB y todas las sub-bandas hasta SUBS también son codificadas de esta forma.
Los índices de alta frecuencia (HFREQ) son descomprimidos 248 como enteros sin signo de 10 bits fijos. Las 32 muestras requeridas para cada subtrama de sub-banda se extraen del binario fraccional Q4 LUT aplicando los índices apropiados. Esto se repite para cada canal en el que el modo VQ de alta frecuencia es activo.
El factor de decimación para el canal de efectos siempre es X128. El número de muestras de efectos de 8 bits presentes en LFE viene dado por SSC*2 cuando PSC=0 o (SSC+1)*2 cuando PSC no es cero. También se incluye un factor de escala adicional de 7 bits (entero sin signo) al final de la matriz LFE y se convierte en rms usando un LUT de 7 bits.
Descomprimir la matriz de códigos audio de sub-subtrama
El proceso de extracción para los códigos audio de sub-banda es activado por los índices ABIT y, en el caso en que ABIT<11, también los índices SEL. Los códigos audio son formateados usando códigos Huffman de longitud variable o códigos lineales fijos. En general, los índices ABIT de 10 o menos implicarán códigos Huffman de longitud variable, que se seleccionan por códigos VQL(n) 258, mientras que ABIT superiores a 10 siempre significan códigos fijos. Todos los cuantificadores tienen una característica de semi-hilo uniforme. Para los cuantificadores de código fijo (y^{2}), se deja caer el nivel más negativo. Los códigos audio se comprimen a sub-subtramas, representando cada una un máximo de 8 muestras de sub-banda, y estas sub-subtramas se repiten hasta cuatro veces en la subtrama corriente.
Si el señalizador de frecuencia de muestreo (SFREQ) indica una velocidad más alta que 48 kHz, la matriz de datos over_audio existirá en la trama audio. Los dos primeros bytes de esta matriz indicarán el tamaño de byte de over_audio. Además, la frecuencia de muestreo del hardware del decodificador deberá establecerse para operar a SFREQ/2 o SFREQ/4 dependiendo de la frecuencia de muestreo de alta frecuencia.
Descomprimir la comprobación de sincronización
Una palabra de comprobación de sincronización de descompresión de datos DSYN C=Oxffff es detectada al final de cada subtrama para poder verificar la integridad de la descompresión. El uso de palabras código variables en la información complementaria y códigos audio, como es el caso con bajas tasas de bits audio, puede conducir a desalineación de descompresión si las cabeceras, información complementaria o matrices audio han sido corrompidas con errores de bit. Si el puntero de descompresión no apunta al comienzo de DSYNC, se puede suponer que la subtrama audio anterior no es fiable.
Una vez descomprimida toda la información complementaria y los datos audio, el decodificador reconstruye la señal audio multicanal, una subtrama cada vez. La figura 20 ilustra la porción de banda base decodificadora para una sola sub-banda en un único canal.
Reconstruir factores de escala RMS
El decodificador reconstruye los factores de escala RMS (SCALES) para los algoritmos ADPCM, VQ y JFC. En particular, los índices VTMODE y THUFF son mapeados inversamente para identificar el modo transitorio (TMODE) para la subtrama corriente. Después, el índice SHUFF, los códigos VDRMS_{QL} y TMODE son mapeados inversamente para reconstruir el código RMS diferencial. El código RMS diferencial es sometido a codificación diferencial inversa 242 para seleccionar el código RMS, que después es cuantificado a la inversa 244 para producir el factor de escala RMS.
Cuantificación inversa de vectores de alta frecuencia
El decodificador inverso cuantifica los vectores de alta frecuencia para reconstruir las señales de sub-banda audio. En particular, las muestras de alta frecuencia extraídas (HFREQ), que son un número binario (Q4) fracciones de 8 bits con signo, identificado por la sub-banda VQ de inicio (VQSUBS), son mapeadas a un VQ LUT inverso 248. El valor de tabla seleccionado es sometido a cuantificación inversa 250, y escalado 252 por el factor de escala RMS.
Cuantificación inversa de códigos audio
Antes de entrar en el bucle ADPCM, los códigos audio son sometidos a cuantificación inversa y escalados para producir muestras de diferencia de sub-banda reconstruidas. La cuantificación inversa se logra sometiendo primero a mapeado inverso el índice VABIT y BHUFF para especificar el índice ABIT que determina el tamaño de paso y el número de niveles de cuantificación y a mapeado inverso el índice SEL y los códigos audio VQL(n) que produce los códigos de nivel de cuantificador QL(n). Después, las palabras código QL(n) son mapeadas a la tabla de consulta de cuantificador inverso 260 especificada por los índices ABIT y SEL. Aunque los códigos son ordenados por ABIT, cada canal audio separado tendrá un especificador SEL separado. El proceso de consulta da lugar a un número de nivel de cuantificador con signo que se puede convertir a rms unitario multiplicando con el tamaño de paso del cuantificador. Los valores RMS unitarios se convierten después a las muestras de diferencia completas multiplicando con el factor de escala RMS designado (SCALES) 262.
1. QL[n] = 1/Q[Code[n]], donde 1/Q es la tabla de consulta de cuantificador inverso
2. Y[n] = QL[n] * StepSize[abits]
3. Rd[n] = Y[n] * scale_factor, donde Rd= muestras de diferencia reconstruidas.
ADPCM inversa
El proceso de decodificación ADPCM se ejecuta para cada muestra de diferencia de sub-banda de la siguiente manera:
1. Cargar los coeficientes de predicción del VQ lut inverso 268.
2. Generar la muestra de predicción convolucionando los coeficientes corrientes del predictor con las cuatro muestras de sub-banda reconstruidas previas mantenidas en la matriz de historia de predictores 268.
P[n] = suma (Coeff[i]*R[n-i]) para i=1, 4, donde n= período de muestra corriente.
3. Añadir la muestra de predicción a la muestra de diferencia reconstruida para producir una muestra de sub-banda reconstruida 270.
R[n]=Rd[n]+P[n] 4.
4. Actualizar la historia del predictor, es decir, copiar la muestra de sub-banda reconstruida corriente a la parte superior de la historia lista.
R[n-i]=R[n-i+1] para I = 4, 1
En el caso en que PMODE=0, los coeficientes del predictor serán cero, la muestra de predicción cero, y la muestra de sub-banda reconstruida es igual a la muestra de sub-banda diferencial. Aunque en este caso el cálculo de la predicción es innecesario, es esencial que la historia del predictor se mantenga actualizada por si PMODE debiera estar activo en subtramas futuras. Además, si el HFLAG está activo en la trama audio corriente, la historia del predictor deberá ser borrada antes de decodificar la primera subsubtrama en la trama. La historia deberá ser actualizada como es usual a partir de dicho punto.
En el caso de sub-bandas VQ de alta frecuencia o donde las sub-bandas están deseleccionadas (es decir, por encima del límite SUBS) la historia del predictor deberá permanecer borrada hasta que el predictor de sub-banda esté activo.
Control de selección de decodificación ADPCM, VO y JFC
Un primer "interruptor" controla la selección de la salida ADPCM o VQ. El índice VQSUBS identifica la sub-banda de inicio para codificación VQ. Por lo tanto, si la sub-banda corriente es menor que VQSUBS, el interruptor selecciona la salida ADPCM. De otro modo selecciona la salida VQ. Un segundo "interruptor" 278 controla la selección de la salida de canal directo o la salida de codificación JFC. El índice JOINX identifica qué canales están unidos y en qué canal se genera la señal reconstruida. La señal JFC reconstruida forma la fuente de intensidad para las entradas JFC en los otros canales. Por lo tanto, si la sub-banda corriente es parte de un JFC y no es el canal designado, el interruptor selecciona la salida JFC. Normalmente, el interruptor selecciona la salida de canal.
Matriz descendente
El modo de codificación audio para el flujo de datos se indica por AMODE. Los canales audio decodificados se pueden redirigir después de manera que concuerden con la disposición de canales de salida físicos en el hardware decodificador 280.
Datos de control de rango dinámico
Los coeficientes de rango dinámico DCOEFF pueden ser embebidos opcionalmente en la trama audio en la etapa codificadora 282. La finalidad de esta característica es permitir la compresión conveniente del rango dinámico audio en la salida del decodificador. La compresión de rango dinámico es especialmente importante en entornos de audición donde los altos niveles de ruido ambiente hacen imposible discriminar las señales de bajo nivel sin riesgo de dañar los altavoces durante pasos altos. Este problema se complica más por el uso creciente de grabaciones audio PCM de 20 bits que exhiben rangos dinámicos de hasta 110 dB.
Dependiendo del tamaño de ventana de la trama (NBLKS), se transmite uno, dos o cuatro coeficientes por canal audio para cualquier modo de codificación (DYNF). Si se transmite un solo coeficiente, éste se utiliza para toda la trama. Con dos coeficientes, el primero se utiliza para la primera mitad de la trama y el segundo para la segunda mitad de la trama. Se distribuyen cuatro coeficientes sobre cada cuadrante de trama. La mayor resolución temporal es posible interpolando entre los valores transmitidos localmente.
Cada coeficiente es binario Q2 fracciones son signo de 8 bits, y representa un valor de ganancia logarítmico como se representa en la tabla (53) dando un rango de +131,75 dB en pasos de 0,25 dB. Los coeficientes se ordenan por número de canal. La compresión de rango dinámico queda afectada multiplicando las muestras audio decodificadas por el coeficiente lineal.
El grado de compresión se puede alterar con el ajuste apropiado a los valores de coeficiente en el decodificador o desactivar completamente ignorando los coeficientes.
Banco de filtros de interpolación de 32 bandas
El banco de filtros de interpolación de 32 bandas 44 convierte las 32 sub-bandas por cada canal audio en una sola señal de dominio de tiempo PCM. Los coeficientes de reconstrucción no perfecta (filtros FIR de 512 tomas) se utilizan cuando FILTS=0. Los coeficientes de reconstrucción perfecta se utilizan cuando FILTS=1. Normalmente los coeficientes de modulación coseno se precalcularán y almacenarán en ROM. El procedimiento de interpolación se puede expandir para reconstruir bloques de datos más grandes para reducir los recursos de bucle. Sin embargo, en el caso de tramas de terminación, la resolución mínima que se puede recamar son 32 muestras PCM. El algoritmo de interpolación es el siguiente: crear coeficientes de modulación coseno, leer 32 nuevas muestras de sub-banda a la matriz XIN, multiplicar por coeficientes de modulación coseno y crear matrices temporales SUM y DIFF, almacenar historia, multiplicar por coeficientes de filtro, crear 32 muestras de salida PCM, actualizar matrices de trabajo, y enviar 32 nuevas muestras PCM.
Dependiendo de la tasa de bits y el esquema de codificación en la operación, el flujo de bits puede especificar coeficientes del banco de filtros de interpolación y reconstrucción no perfecta o perfecta (FILTS). Puesto que los bancos de filtros de decimación del codificador se calculan con una precisión flotante de 40 bits, la capacidad del decodificador para lograr la máxima precisión de reconstrucción teórica dependerá de la longitud de palabra de la fuente PCM y la precisión del núcleo DSP usado para calcular las convoluciones y la forma en que se escalan las operaciones.
Interpolación PCM de efectos de baja frecuencia
Los datos audio asociados con el canal de efectos de baja frecuencia es independiente de los canales audio principales. Este canal se codifica usando un proceso APCM de 8 bits que opera en una entrada PCM de 20 bits decimada X128 (anchura de banda de 120 Hz). Los efectos audio decimados son alineados en el tiempo con la subtrama audio corriente en los canales audio principales. Por lo tanto, puesto que el retardo a través del banco de filtros de interpolación de 32 bandas es 256 muestras (512 tomas), se debe procurar asegurar que el canal de efectos de baja frecuencia interpolados también esté alineado con el resto de los canales audio antes de la salida. No se requiere compensación si los FIR de interpolación de efectos también son de 512 tomas.
El algoritmo LFT usa un FIR de interpolación de 512 tomas 128X de la siguiente manera: mapear el factor de escala de 7 bits a rms, multiplicar por tamaño de paso del cuantificador de 7 bits, generar valores submuestra a partir de los valores normalizados, e interpolar por 128 usando un filtro de paso bajo tal como el dado para cada submuestra.
Implementación en hardware
Las figuras 21 y 22 describen la estructura funcional básica de la implementación por hardware de una versión de seis canales del codificador y decodificador para operación a frecuencias de muestreo de 32, 44,1 y 48 kHz. Con referencia a la figura 22, se utilizan ocho chips de procesador de señal digital (DSP) de punto flotante y 40 bits de Analog Devices ADSP21020 296 para implementar un codificador audio digital de seis canales 298. Seis DSPs para codificar cada uno de los canales mientras que el séptimo y octavo se utilizan para implementar las funciones de "Asignación y administración globales de bits" y "Formateador de flujo de datos y codificación de errores", respectivamente. Cada ADSP21020 es sincronizado a 33 MHz y utiliza RAM de programa externa de 48 bits X 32 k (PRAM) 300, RAM de datos de 40 bits X 32 k (SRAM) 302 para ejecutar los algoritmos. En el caso de los codificadores, también se utiliza una EPROM de 8 bits X 512 k 304 para el almacenamiento de constantes fijas tales como los libros de códigos de entropía de longitud variable. El DSP de formateo de flujo de datos usa un chip Reed Solomon CRC 306 para facilitar la detección de errores y para protección del decodificador. Las comunicaciones entre los DSPs de codificador y la asignación y administración globales de bits se implementan usando RAM estática de dos puestos 308.
El flujo del proceso de codificación es el siguiente. Se extrae un flujo de datos PCM audio digital de 2 canales 310 en la salida de cada uno de los tres receptores audio digitales AES/EBU. El primer canal de cada par se dirige a CH1, DSPs de codificador 3 y 5 respectivamente, mientras que el segundo canal de cada uno se dirige a CH2, 4 y 6, respectivamente. Las muestras PCM se leen a los DSPs convirtiendo las palabras PCM serie a paralelo (s/p). Cada codificador acumula una trama de muestras PCM y prosigue a codificar los datos de trama como se ha descrito anteriormente. La información relativa a la señal de diferencia estimada (ed(n) y las muestras de sub-banda (x(n)) para cada canal se transmiten al DSP de asignación y administración globales de bits mediante la RAM de doble puerto. Las estrategias de asignación de bits para cada codificador son leídas después de nuevo de la misma manera. Una vez que ha terminado el proceso de codificación, los datos codificados y la información complementaria para los seis canales se transmiten al DSP formateador de flujo de datos mediante el DSP de asignación y administración globales de bits. En esta etapa se generan selectivamente bytes de comprobación CRC y añaden a los datos codificados a los efectos de proporcionar en el decodificador protección contra errores. Finalmente, todo el paquete de datos 16 se monta y envía.
Una implementación del decodificador de hardware de seis canales se describe en la figura 22. Se utiliza un solo chip de procesador de señal digital (DSP) de punto flotante y 40 bits de Analog Devices ADSP21020 para implementar el decodificador audio digital de seis canales. El ADSP21020 se sincroniza a 33 MHz y utiliza RAM de programa externa de 48 bits X 32 k (PRAM) 326, RAM de datos de 40 bits X 32 k (SRAM) 328 para ejecutar el algoritmo decodificador. También se utiliza una EPROM adicional de 8 bits X 512 k 330 para el almacenamiento de constantes fijas tales como los libros de códigos de vector de coeficientes de predicción y entropía de longitud variable.
El flujo del proceso de decodificación es el siguiente. El flujo de datos comprimidos 16 se introduce en el DSP mediante un convertidor serie a paralelo (s/p) 332. Los datos son descomprimidos y decodificados como se ha ilustrado previamente. Las muestras de sub-banda se reconstruyen a un solo flujo de datos PCM 22 para cada canal y envían a tres chips transmisores audio digital AES/EBU 334 mediante tres convertidores paralelo a serie (p/s) 335.
Aunque se han mostrado y descrito varias realizaciones ilustrativas de la invención, los expertos en la materia pensarán en numerosas variaciones y realizaciones alternativas. Por ejemplo, a medida que aumentan las velocidades del procesador y se reduce el costo de la memoria, es probable que aumente las frecuencias de muestreo, las velocidades de transmisión y el tamaño de la memoria intermedia aumentarán. Se contemplan tales variaciones y realizaciones alternativas.

Claims (18)

1. Un codificador audio multicanal, incluyendo:
un captador de tramas (64) dispuesto para aplicar una ventana audio a cada canal de una señal audio multicanal muestreada a una frecuencia de muestreo para producir secuencias respectivas de tramas audio;
una pluralidad de filtros (34) dispuestos para dividir las tramas audio de los canales en respectivas pluralidades de sub-bandas de frecuencia en un rango de frecuencias de banda base, incluyendo cada una de dichas sub-bandas de frecuencia una secuencia de tramas de sub-banda que tienen al menos una subtrama de datos audio por trama de sub-banda;
una pluralidad de codificadores de sub-banda (26) dispuestos para codificar los datos audio de las respectivas sub-bandas de frecuencia, una subtrama cada vez, a señales de sub-banda codificadas;
un multiplexor (32) dispuesto para comprimir y multiplexar las señales de sub-banda codificadas en una trama de salida para cada trama sucesiva de datos formando por ello un flujo de datos a una velocidad de transmisión; y
un controlador (19) para establecer el tamaño de la ventana audio, caracterizado porque el tamaño de la ventana audio es establecido por el controlador (19) en respuesta a la frecuencia de muestreo y la velocidad de transmisión de manera que el tamaño de dichas tramas de salida esté limitado a estar en una banda deseada.
2. El codificador audio multicanal de la reivindicación 1, donde el controlador establece el tamaño de ventana audio como el múltiplo más grande de dos que es inferior a
(Tamaño \ de \ trama) \text{*} F_{samp} \text{*} \left(\frac{8}{T_{rate}} \right)
donde tamaño de trama es el tamaño máximo de la trama de salida, F_{samp} es la frecuencia de muestreo, y T_{rate} es la velocidad de transmisión.
3. El codificador audio multicanal de la reivindicación 1, donde la señal audio multicanal se codifica a una tasa de bits deseada y los codificadores de sub-banda incluyen codificadores predictivos, incluyendo además:
un administrador global de bits (GBM) (30) que calcula una relación de señal a máscara psicoacústica (SMR) y una ganancia de predicción estimada (P_{gain}) para cada subtrama, calcula relaciones de máscara a ruido (MNRs) reduciendo las SMRs por respectivas fracciones de sus ganancias de predicciones asociadas, asigna bits para cumplir cada MNR, calcula la tasa de bits asignada sobre todas las sub-bandas, y ajusta las asignaciones individuales de tal manera que la tasa real de bits se aproxime a la tasa de bits deseada.
4. El codificador audio multicanal de las reivindicaciones 1 o 3, donde el codificador de sub-banda divide cada subtrama en una pluralidad de sub-subtramas, incluyendo cada codificador de sub-banda un codificador predictivo (72) que genera y cuantifica una señal de error para cada subtrama, incluyendo además:
un analizador (98, 100, 102, 104, 106) que genera una señal de error estimado antes de codificar para cada subtrama, detecta transitorios en cada sub-subtrama de la señal de error estimado, genera un código de transitorio que indica si hay un transitorio en alguna sub-subtrama distinta de la primera y en qué sub-subtrama se produce el transitorio, y cuando se detecta un transitorio genera un factor de escala pretransitorio para las subtramas antes del transitorio y un factor de escala post-transitorio para las sub-subtramas que incluyen y siguen al transitorio y en otro caso genera un factor de escala uniforme para la subtrama,
usando dicho codificador predictivo dichos factores de escala pretransitorio, post-transitorio y uniforme para escalar la señal de error antes de codificar para reducir el error de codificación en las sub-subtramas correspondientes a los factores de escala pretransitorios.
5. El codificador audio multicanal de la reivindicación 1, donde dichas tramas audio tienen una anchura de banda audio que se extiende desde CC a aproximadamente la mitad de la frecuencia de muestreo; e incluyendo además el codificador:
un prefiltro (46) que divide cada una de dichas tramas audio en tramas de banda base que representan una porción de banda base de la anchura de banda audio y tramas de alta frecuencia de muestreo que representan la porción restante de la anchura de banda audio; y
un codificador de alta frecuencia de muestreo (48, 50, 52) que codifica las tramas de alta frecuencia de muestreo de canales audio a respectivas señales codificadas de alta frecuencia de muestreo; donde
\newpage
dicha pluralidad de filtros (34) dividen las tramas de banda base de los canales en respectivas pluralidades de sub-bandas de frecuencia, y
dicho multiplexor (32) comprime y multiplexa las señales de sub-banda codificadas y las señales de alta frecuencia de muestreo en una trama de salida para cada trama sucesiva de datos formando por ello un flujo de datos a una velocidad de transmisión de manera que las porciones de banda base y alta frecuencia de muestreo de la señal audio multicanal sean decodificables independientemente.
6. El codificador audio multicanal de la reivindicación 1, incluyendo además:
un administrador global de bits (GBM) (30) que calcula una relación de señal a máscara psicoacústica (SMR) y una ganancia de predicción estimada (P_{gain}) para cada subtrama, calcula relaciones de máscara a ruido (MNRs) reduciendo las SMRs por respectivas fracciones de sus ganancias de predicción asociadas, asigna bits para cumplir cada MNR, calcula una tasa de bits asignada sobre las sub-bandas, y ajusta las asignaciones individuales de tal manera que la tasa de bits asignada se aproxime a una tasa de bits deseada; donde
dicha pluralidad de codificadores de sub-banda (26) codifican los datos audio en las respectivas sub-bandas de frecuencia, una subtrama cada vez, según la asignación de bits para producir señales de sub-banda codificadas; y
dicho multiplexor (32) comprime y multiplexa las señales de sub-banda codificadas y la asignación de bits a una trama de salida para cada trama sucesiva de datos, formando por ello un flujo de datos a una velocidad de transmi-
sión.
7. El codificador audio multicanal de la reivindicación 6, donde el GBM (30) asigna los bits restantes según un esquema de error cuadrático medio mínimo (mmse) cuando la tasa de bits asignada es inferior a la tasa de bits deseada.
8. El codificador audio multicanal de la reivindicación 6, donde el GBM (30) calcula un valor cuadrático medio (RMS) para cada subtrama y cuando la tasa de bits asignada es inferior a la tasa de bits deseada, el GBM reasigna todos los bits disponibles según el esquema mmse aplicado a los valores RMS hasta que la tasa de bits asignada se aproxima a la tasa de bits deseada.
9. El codificador audio multicanal de la reivindicación 6, donde el GBM (30) calcula un valor cuadrático medio (RMS) para cada subtrama y asigna todos los bits restantes según el esquema mmse aplicado a los valores RMS hasta que la tasa de bits asignada se aproxima a la tasa de bits deseada.
10. El codificador audio multicanal de la reivindicación 6, donde el GBM (30) calcula un valor cuadrático medio (RMS) para cada subtrama y asigna todos los bits restantes según el esquema mmse aplicado a las diferencias entre los valores RMS y MNR de subtrama hasta que la tasa de bits asignada se aproxima a la tasa de bits deseada.
11. El codificador audio multicanal de la reivindicación 6, donde el GBM (30) establece la SMR a un valor uniforme de manera que los bits se asignen según un esquema de error cuadrático medio mínimo (mmse).
12. El codificador audio multicanal de la reivindicación 1, siendo del tipo de distorsión fija y tasa variable donde:
dicha señal audio multicanal tiene una resolución de N bits;
dichos filtros son filtros de reconstrucción perfecta; y
dichos codificadores de sub-banda son codificadores de sub-banda predictivos (26); incluyendo además el codificador:
un administrador global de bits (GBM) (30) que calcula un valor cuadrático medio (RMS) para cada subtrama y asigna bits a subtramas en base a los valores RMS de manera que un nivel de distorsión codificado sea inferior a la mitad del bit menos significativo de la resolución de N bits de la señal audio; donde
dichos codificadores predictivos codifican los datos audio en las respectivas bandas de frecuencia, una subtrama cada vez, según la asignación de bits para producir señales de sub-banda codificadas; y
dicho multiplexor (32) comprime y multiplexa las señales de sub-banda codificadas y la asignación de bits en una trama de salida para cada trama sucesiva de datos formando por ello un flujo de datos a una velocidad de transmisión, siendo capaz dicho flujo de datos de decodificarse a una señal audio multicanal decodificada que es igual a dicha señal audio multicanal a la resolución de N bits.
13. El codificador audio multicanal de la reivindicación 12, donde dicho rango de frecuencias de banda base tiene una frecuencia máxima, incluyendo además:
un prefiltro (46) que divide cada una de dichas tramas audio en una señal de banda base y una señal de alta frecuencia de muestreo a frecuencias en el rango de frecuencias de banda base y encima de la frecuencia máxima, respectivamente, asignando dicho GBM bits a la señal de alta frecuencia de muestreo para cumplir la distorsión fija seleccionada; y
un codificador de alta frecuencia de muestreo (48, 50, 52) que codifica las señales de alta frecuencia de muestreo de los canales audio a respectivas señales codificadas de alta frecuencia de muestreo,
comprimiendo dicho multiplexor las señales de alta frecuencia de muestreo codificadas de los canales en las respectivas tramas de salida de manera que las porciones de banda base y alta frecuencia de muestreo de la señal audio multicanal sean decodificables independientemente.
14. El codificador audio multicanal de la reivindicación 1 siendo un codificador audio de distorsión fija y tasa variable, incluyendo además:
un controlador programable (19) para seleccionar una de una distorsión perceptual fija y una distorsión de error cuadrático medio mínimo (mmse) fija; y
un administrador global de bits (GBM) (30) que responde a la selección de distorsión seleccionando a partir de un esquema mmse asociado que calcula un valor cuadrático medio (RMS) para cada subtrama y asigna bits a subtramas en base a los valores RMS hasta que se cumple la distorsión mmse fija y de un esquema psicoacústico que calcula una relación de señal a máscara (SMR) y una ganancia de predicción estimada (P_{gain}) para cada subtrama, calcula relaciones de máscara a ruido (MNRs) reduciendo las SMRs por respectivas fracciones de sus ganancias de predicción asociadas, y asigna bits para cumplir cada MNR; donde
dicha pluralidad de codificadores de sub-banda (26) codifican los datos audio en las respectivas bandas de frecuencia, una subtrama cada vez, según la asignación de bits para producir señales de sub-banda codificadas; y
dicho multiplexor (32) comprime y multiplexa las señales de sub-banda codificadas y la asignación de bits a una trama de salida para cada trama sucesiva de datos formando por ello un flujo de datos a una velocidad de transmisión.
15. Un decodificador multicanal audio para reconstruir múltiples canales audio hasta una frecuencia de muestreo del decodificador de un flujo de datos recibidos;
representando el flujo de datos dichos canales audio, muestreado cada uno a una frecuencia de muestreo del codificador al menos tan alta como dicha frecuencia de muestreo del decodificador, y subdividido en una pluralidad de sub-bandas de frecuencia, comprimido y multiplexado al flujo de datos a una velocidad de transmisión;
incluyendo el flujo de datos tramas incluyendo una palabra de sincronización, una cabecera de trama, una cabecera audio, y al menos una subtrama, incluyendo cada una de dichas subtramas información complementaria audio, teniendo una pluralidad de sub-subtramas códigos audio de banda base en un rango de frecuencias de banda base, un bloque de códigos audio de alta frecuencia de muestreo sobre un rango de frecuencias de alta frecuencia de muestreo, y un sincro descomprimido;
incluyendo la cabecera de trama información de tamaño de ventana que indica el número de muestras audio en la trama e información de tamaño de trama que indica el número de bytes en la trama, estableciéndose dicho tamaño de ventana en función de la relación de la velocidad de transmisión a la frecuencia de muestreo del codificador de manera que el tamaño de trama esté limitado de manera que sea inferior al tamaño de la memoria intermedia de entrada;
y
incluyendo la cabecera audio información relativa al número de subtramas en una trama y el número de canales audio codificados;
incluyendo el decodificador:
una memoria intermedia de entrada (324) dispuesto para leer y almacenar el flujo de datos una trama cada vez;
un demultiplexor (40) dispuesto para a) detectar la palabra de sincronización, b) descomprimir la cabecera de trama para extraer el tamaño de ventana y el tamaño de trama, c) descomprimir la cabecera audio para extraer el número de subtramas en la trama y el número de canales audio codificados, y d) descomprimir secuencialmente cada subtrama para extraer la información complementaria audio, demultiplexar los códigos audio de banda base en cada sub-subtrama a los múltiples canales audio y descomprimir cada canal audio a sus códigos audio de sub-banda, demultiplexar los códigos audio de alta frecuencia de muestreo a los múltiples canales audio hasta la frecuencia de muestreo del decodificador y saltar los códigos audio de alta frecuencia de muestreo restantes hasta la frecuencia de muestreo del codificador, y detectar el sincro descomprimido para verificar el final de la subtrama;
un decodificador de banda base (42, 44) dispuesto para utilizar la información complementaria para decodificar los códigos audio de sub-banda a señales de sub-banda reconstruidas, una subtrama cada vez, sin referencia a otras subtramas;
un filtro de reconstrucción de banda base (44) dispuesto para combinar las señales de sub-banda reconstruidas de cada canal en una señal de banda base reconstruida, una subtrama cada vez;
un codificador de alta frecuencia de muestreo (58, 60) dispuesto para utilizar la información complementaria para decodificar los códigos audio de alta frecuencia de muestreo a una señal de alta frecuencia de muestreo reconstruida para cada canal audio, una subtrama cada vez; y
un filtro de reconstrucción de canal (62) dispuesto para combinar las señales de banda base reconstruidas y de alta frecuencia de muestreo en una señal audio multicanal reconstruida, una subtrama cada vez.
16. El decodificador multicanal audio de la reivindicación 15, donde el filtro de reconstrucción de banda base (44) incluye un banco de filtros de reconstrucción no perfecta (NRP) y un banco de filtros de reconstrucción perfecta (PR), y dicha cabecera de trama incluye un código de filtro que selecciona uno de dichos bancos de filtro NPR y PR.
17. El decodificador multicanal audio de la reivindicación 15, donde el decodificador de banda base incluye una pluralidad de codificadores de modulación por impulsos codificados diferencial adaptativa inversa (ADPCM) (268, 270) dispuestos para decodificar los respectivos códigos audio de sub-banda, incluyendo dicha información complementaria coeficientes de predicción para los respectivos codificadores ADPCM y un modo de predicción (PMODE) para controlar la aplicación de los coeficientes de predicción a los respectivos codificadores ADPCM para habilitar e inhabilitar selectivamente sus capacidades de predicción.
18. El decodificador multicanal audio de la reivindicación 15, donde dicha información complementaria incluye:
una tabla de asignación de bits para sub-bandas de cada canal, en la que cada tasa de bits de sub-banda es fija sobre la subtrama;
al menos un factor de escala para cada sub-banda en cada canal; y
un modo transitorio (TMODE) para cada sub-banda en cada canal que identifica el número de factores de escala y sus sub-subtramas asociadas, escalando dicho decodificador de banda base los códigos audio de las sub-bandas por los respectivos factores de escala según sus TMODEs para facilitar la decodificación.
ES96941446T 1995-12-01 1996-11-21 Codificador predictivo de sub-banda multicanal con atribucion fisico-acustica adaptativa de bitios. Expired - Lifetime ES2232842T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US789695P 1995-12-01 1995-12-01
US7896P 1995-12-01
US08/642,254 US5956674A (en) 1995-12-01 1996-05-02 Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US642254 1996-05-02

Publications (1)

Publication Number Publication Date
ES2232842T3 true ES2232842T3 (es) 2005-06-01

Family

ID=26677495

Family Applications (1)

Application Number Title Priority Date Filing Date
ES96941446T Expired - Lifetime ES2232842T3 (es) 1995-12-01 1996-11-21 Codificador predictivo de sub-banda multicanal con atribucion fisico-acustica adaptativa de bitios.

Country Status (18)

Country Link
US (4) US5956674A (es)
EP (1) EP0864146B1 (es)
JP (1) JP4174072B2 (es)
KR (1) KR100277819B1 (es)
CN (5) CN1303583C (es)
AT (1) ATE279770T1 (es)
AU (1) AU705194B2 (es)
BR (1) BR9611852A (es)
CA (2) CA2331611C (es)
DE (1) DE69633633T2 (es)
DK (1) DK0864146T3 (es)
EA (1) EA001087B1 (es)
ES (1) ES2232842T3 (es)
HK (4) HK1015510A1 (es)
MX (1) MX9804320A (es)
PL (3) PL183498B1 (es)
PT (1) PT864146E (es)
WO (1) WO1997021211A1 (es)

Families Citing this family (545)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1126264C (zh) * 1996-02-08 2003-10-29 松下电器产业株式会社 宽频带声音信号编码装置和宽频带声音信号编码解码装置
US8306811B2 (en) * 1996-08-30 2012-11-06 Digimarc Corporation Embedding data in audio and detecting embedded data in audio
JP3622365B2 (ja) * 1996-09-26 2005-02-23 ヤマハ株式会社 音声符号化伝送方式
JPH10271082A (ja) * 1997-03-21 1998-10-09 Mitsubishi Electric Corp 音声データ復号装置
US6449227B1 (en) 1997-03-25 2002-09-10 Samsung Electronics Co., Ltd. DVD-audio disk, and apparatus and method for playing the same
US7110662B1 (en) 1997-03-25 2006-09-19 Samsung Electronics Co., Ltd. Apparatus and method for recording data on a DVD-audio disk
US6741796B1 (en) * 1997-03-25 2004-05-25 Samsung Electronics, Co., Ltd. DVD-Audio disk, and apparatus and method for playing the same
WO1998044637A1 (en) * 1997-03-28 1998-10-08 Sony Corporation Data coding method and device, data decoding method and device, and recording medium
US6298025B1 (en) * 1997-05-05 2001-10-02 Warner Music Group Inc. Recording and playback of multi-channel digital audio having different resolutions for different channels
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6636474B1 (en) * 1997-07-16 2003-10-21 Victor Company Of Japan, Ltd. Recording medium and audio-signal processing apparatus
US5903872A (en) * 1997-10-17 1999-05-11 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
WO1999033194A1 (en) * 1997-12-19 1999-07-01 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. Method and apparatus for phase estimation in a transform coder for high quality audio
WO1999034527A1 (en) * 1997-12-27 1999-07-08 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. Method and apparatus for estimation of coupling parameters in a transform coder for high quality audio
JP3802219B2 (ja) * 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
CA2262197A1 (en) * 1998-02-18 1999-08-18 Henrietta L. Galiana Automatic segmentation of nystagmus or other complex curves
JPH11234136A (ja) * 1998-02-19 1999-08-27 Sanyo Electric Co Ltd デジタルデータの符号化方法及び符号化装置
US6253185B1 (en) * 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
KR100304092B1 (ko) 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
US6400727B1 (en) * 1998-03-27 2002-06-04 Cirrus Logic, Inc. Methods and system to transmit data acquired at a variable rate over a fixed rate channel
US6396956B1 (en) * 1998-03-31 2002-05-28 Sharp Laboratories Of America, Inc. Method and apparatus for selecting image data to skip when encoding digital video
JPH11331248A (ja) * 1998-05-08 1999-11-30 Sony Corp 送信装置および送信方法、受信装置および受信方法、並びに提供媒体
US6141645A (en) * 1998-05-29 2000-10-31 Acer Laboratories Inc. Method and device for down mixing compressed audio bit stream having multiple audio channels
US6141639A (en) * 1998-06-05 2000-10-31 Conexant Systems, Inc. Method and apparatus for coding of signals containing speech and background noise
DE69924922T2 (de) * 1998-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd., Kadoma Audiokodierungsmethode und Audiokodierungsvorrichtung
US6061655A (en) * 1998-06-26 2000-05-09 Lsi Logic Corporation Method and apparatus for dual output interface control of audio decoder
US6301265B1 (en) * 1998-08-14 2001-10-09 Motorola, Inc. Adaptive rate system and method for network communications
US7457415B2 (en) 1998-08-20 2008-11-25 Akikaze Technologies, Llc Secure information distribution system utilizing information segment scrambling
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
CA2246532A1 (en) * 1998-09-04 2000-03-04 Northern Telecom Limited Perceptual audio coding
GB9820655D0 (en) * 1998-09-22 1998-11-18 British Telecomm Packet transmission
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
JP4193243B2 (ja) * 1998-10-07 2008-12-10 ソニー株式会社 音響信号符号化方法及び装置、音響信号復号化方法及び装置並びに記録媒体
US6463410B1 (en) * 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
US6219634B1 (en) * 1998-10-14 2001-04-17 Liquid Audio, Inc. Efficient watermark method and apparatus for digital signals
US6345100B1 (en) 1998-10-14 2002-02-05 Liquid Audio, Inc. Robust watermark method and apparatus for digital signals
US6330673B1 (en) 1998-10-14 2001-12-11 Liquid Audio, Inc. Determination of a best offset to detect an embedded pattern
US6320965B1 (en) 1998-10-14 2001-11-20 Liquid Audio, Inc. Secure watermark method and apparatus for digital signals
US6754241B1 (en) * 1999-01-06 2004-06-22 Sarnoff Corporation Computer system for statistical multiplexing of bitstreams
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6931372B1 (en) * 1999-01-27 2005-08-16 Agere Systems Inc. Joint multiple program coding for digital audio broadcasting and other applications
US6378101B1 (en) * 1999-01-27 2002-04-23 Agere Systems Guardian Corp. Multiple program decoding for digital audio broadcasting and other applications
US6357029B1 (en) * 1999-01-27 2002-03-12 Agere Systems Guardian Corp. Joint multiple program error concealment for digital audio broadcasting and other applications
TW477119B (en) * 1999-01-28 2002-02-21 Winbond Electronics Corp Byte allocation method and device for speech synthesis
FR2791167B1 (fr) * 1999-03-17 2003-01-10 Matra Nortel Communications Procedes de codage, de decodage et de transcodage audio
JP3739959B2 (ja) * 1999-03-23 2006-01-25 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
DE19914742A1 (de) * 1999-03-31 2000-10-12 Siemens Ag Verfahren zum Übertragen von Daten
JP2001006291A (ja) * 1999-06-21 2001-01-12 Fuji Film Microdevices Co Ltd オーディオ信号の符号化方式判定装置、及びオーディオ信号の符号化方式判定方法
US7283965B1 (en) * 1999-06-30 2007-10-16 The Directv Group, Inc. Delivery and transmission of dolby digital AC-3 over television broadcast
US6553210B1 (en) * 1999-08-03 2003-04-22 Alliedsignal Inc. Single antenna for receipt of signals from multiple communications systems
US6581032B1 (en) * 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
US7181297B1 (en) 1999-09-28 2007-02-20 Sound Id System and method for delivering customized audio data
US6496798B1 (en) * 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
US6732061B1 (en) * 1999-11-30 2004-05-04 Agilent Technologies, Inc. Monitoring system and method implementing a channel plan
US6741947B1 (en) * 1999-11-30 2004-05-25 Agilent Technologies, Inc. Monitoring system and method implementing a total node power test
US6842735B1 (en) * 1999-12-17 2005-01-11 Interval Research Corporation Time-scale modification of data-compressed audio information
US7792681B2 (en) * 1999-12-17 2010-09-07 Interval Licensing Llc Time-scale modification of data-compressed audio information
DE60042335D1 (de) * 1999-12-24 2009-07-16 Koninkl Philips Electronics Nv Mehrkanal-audiosignalverarbeitungsgerät
EP1226578A4 (en) * 1999-12-31 2005-09-21 Octiv Inc TECHNIQUES TO IMPROVE THE CLARITY AND UNDERSTANDING OF AUDIO-REDUCED AUDIO SIGNALS IN A DIGITAL NETWORK
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
TW499672B (en) * 2000-02-18 2002-08-21 Intervideo Inc Fast convergence method for bit allocation stage of MPEG audio layer 3 encoders
US7679678B2 (en) * 2000-02-29 2010-03-16 Sony Corporation Data processing device and method, and recording medium and program
EP1287617B1 (de) * 2000-04-14 2003-12-03 Siemens Aktiengesellschaft Verfahren zum kanaldecodieren eines datenstroms mit nutzdaten und redundanzdaten, vorrichtung zum kanaldecodieren, computerlesbares speichermedium und computerprogramm-element
US6782366B1 (en) * 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
US6725110B2 (en) * 2000-05-26 2004-04-20 Yamaha Corporation Digital audio decoder
WO2001093266A1 (en) * 2000-05-30 2001-12-06 Koninklijke Philips Electronics N.V. Coded information on cd audio
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
US6678647B1 (en) * 2000-06-02 2004-01-13 Agere Systems Inc. Perceptual coding of audio signals using cascaded filterbanks for performing irrelevancy reduction and redundancy reduction with different spectral/temporal resolution
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
US6754618B1 (en) * 2000-06-07 2004-06-22 Cirrus Logic, Inc. Fast implementation of MPEG audio coding
US6601032B1 (en) * 2000-06-14 2003-07-29 Intervideo, Inc. Fast code length search method for MPEG audio encoding
US6542863B1 (en) 2000-06-14 2003-04-01 Intervideo, Inc. Fast codebook search method for MPEG audio encoding
US6748363B1 (en) * 2000-06-28 2004-06-08 Texas Instruments Incorporated TI window compression/expansion method
US6678648B1 (en) 2000-06-14 2004-01-13 Intervideo, Inc. Fast loop iteration and bitstream formatting method for MPEG audio encoding
US6745162B1 (en) * 2000-06-22 2004-06-01 Sony Corporation System and method for bit allocation in an audio encoder
JP2002014697A (ja) * 2000-06-30 2002-01-18 Hitachi Ltd ディジタルオーディオ装置
FI109393B (fi) * 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
US6931371B2 (en) * 2000-08-25 2005-08-16 Matsushita Electric Industrial Co., Ltd. Digital interface device
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US20020075965A1 (en) * 2000-12-20 2002-06-20 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
RU2284671C2 (ru) * 2000-10-11 2006-09-27 Конинклейке Филипс Электроникс Н.В. Масштабируемое кодирование объектов мультимедиа
US20030023429A1 (en) * 2000-12-20 2003-01-30 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
US7526348B1 (en) * 2000-12-27 2009-04-28 John C. Gaddy Computer based automatic audio mixer
CN1205540C (zh) * 2000-12-29 2005-06-08 深圳赛意法微电子有限公司 含有解码器的电路、时分寻址的方法和一个微控制器
EP1223696A3 (en) * 2001-01-12 2003-12-17 Matsushita Electric Industrial Co., Ltd. System for transmitting digital audio data according to the MOST method
GB0103242D0 (en) * 2001-02-09 2001-03-28 Radioscape Ltd Method of analysing a compressed signal for the presence or absence of information content
GB0108080D0 (en) * 2001-03-30 2001-05-23 Univ Bath Audio compression
DE60210597T2 (de) * 2001-04-09 2007-01-25 Koninklijke Philips Electronics N.V. Vorrichtung zur adpcdm sprachkodierung mit spezifischer anpassung der schrittwerte
CN1221941C (zh) * 2001-04-09 2005-10-05 皇家菲利浦电子有限公司 具有相位模糊和相位解抹滤波器的自适应差分脉码调制语音编码***
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
KR20030011912A (ko) * 2001-04-18 2003-02-11 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
US7047201B2 (en) * 2001-05-04 2006-05-16 Ssi Corporation Real-time control of playback rates in presentations
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7451006B2 (en) 2001-05-07 2008-11-11 Harman International Industries, Incorporated Sound processing system using distortion limiting techniques
US7447321B2 (en) 2001-05-07 2008-11-04 Harman International Industries, Incorporated Sound processing system for configuration of audio signals in a vehicle
US6804565B2 (en) 2001-05-07 2004-10-12 Harman International Industries, Incorporated Data-driven software architecture for digital sound processing and equalization
JP4591939B2 (ja) * 2001-05-15 2010-12-01 Kddi株式会社 適応的符号化伝送装置および受信装置
EP1430706A4 (en) * 2001-06-11 2011-05-18 Broadcom Corp SYSTEM AND METHOD FOR MULTI-CHANNEL VIDEO AND AUDIO CODING ON A SINGLE CHIP
US6661880B1 (en) 2001-06-12 2003-12-09 3Com Corporation System and method for embedding digital information in a dial tone signal
EP1271470A1 (en) * 2001-06-25 2003-01-02 Alcatel Method and device for determining the voice quality degradation of a signal
US7460629B2 (en) 2001-06-29 2008-12-02 Agere Systems Inc. Method and apparatus for frame-based buffer control in a communication system
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
JP3463752B2 (ja) * 2001-07-25 2003-11-05 三菱電機株式会社 音響符号化装置、音響復号化装置、音響符号化方法および音響復号化方法
JP3469567B2 (ja) * 2001-09-03 2003-11-25 三菱電機株式会社 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法
US7062429B2 (en) * 2001-09-07 2006-06-13 Agere Systems Inc. Distortion-based method and apparatus for buffer control in a communication system
US7333929B1 (en) 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
US6944474B2 (en) * 2001-09-20 2005-09-13 Sound Id Sound enhancement for mobile phones and other products producing personalized audio for users
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
JP4245288B2 (ja) * 2001-11-13 2009-03-25 パナソニック株式会社 音声符号化装置および音声復号化装置
ES2268112T3 (es) * 2001-11-14 2007-03-16 Matsushita Electric Industrial Co., Ltd. Codificacion y descodificacion de audio.
EP1449212B1 (en) * 2001-11-16 2021-09-29 Nagravision S.A. Embedding supplementary data in an information signal
WO2003046891A1 (en) 2001-11-29 2003-06-05 Coding Technologies Ab Methods for improving high frequency reconstruction
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US6573846B1 (en) 2001-12-31 2003-06-03 Apple Computer, Inc. Method and apparatus for variable length decoding and encoding of video streams
US7305540B1 (en) 2001-12-31 2007-12-04 Apple Inc. Method and apparatus for data processing
US6931511B1 (en) 2001-12-31 2005-08-16 Apple Computer, Inc. Parallel vector table look-up with replicated index element vector
US7467287B1 (en) 2001-12-31 2008-12-16 Apple Inc. Method and apparatus for vector table look-up
US7558947B1 (en) 2001-12-31 2009-07-07 Apple Inc. Method and apparatus for computing vector absolute differences
US6877020B1 (en) 2001-12-31 2005-04-05 Apple Computer, Inc. Method and apparatus for matrix transposition
US6697076B1 (en) 2001-12-31 2004-02-24 Apple Computer, Inc. Method and apparatus for address re-mapping
US6693643B1 (en) 2001-12-31 2004-02-17 Apple Computer, Inc. Method and apparatus for color space conversion
US7114058B1 (en) 2001-12-31 2006-09-26 Apple Computer, Inc. Method and apparatus for forming and dispatching instruction groups based on priority comparisons
US7681013B1 (en) 2001-12-31 2010-03-16 Apple Inc. Method for variable length decoding using multiple configurable look-up tables
US6822654B1 (en) 2001-12-31 2004-11-23 Apple Computer, Inc. Memory controller chipset
US7015921B1 (en) 2001-12-31 2006-03-21 Apple Computer, Inc. Method and apparatus for memory access
US7055018B1 (en) 2001-12-31 2006-05-30 Apple Computer, Inc. Apparatus for parallel vector table look-up
US7034849B1 (en) 2001-12-31 2006-04-25 Apple Computer, Inc. Method and apparatus for image blending
US7848531B1 (en) * 2002-01-09 2010-12-07 Creative Technology Ltd. Method and apparatus for audio loudness and dynamics matching
US6618128B2 (en) * 2002-01-23 2003-09-09 Csi Technology, Inc. Optical speed sensing system
KR20040080003A (ko) * 2002-02-18 2004-09-16 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 오디오 코딩
US20030161469A1 (en) * 2002-02-25 2003-08-28 Szeming Cheng Method and apparatus for embedding data in compressed audio data stream
US20100042406A1 (en) * 2002-03-04 2010-02-18 James David Johnston Audio signal processing using improved perceptual model
US7313520B2 (en) * 2002-03-20 2007-12-25 The Directv Group, Inc. Adaptive variable bit rate audio compression encoding
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US20040125707A1 (en) * 2002-04-05 2004-07-01 Rodolfo Vargas Retrieving content of various types with a conversion device attachable to audio outputs of an audio CD player
US7225135B2 (en) * 2002-04-05 2007-05-29 Lectrosonics, Inc. Signal-predictive audio transmission system
US7428440B2 (en) * 2002-04-23 2008-09-23 Realnetworks, Inc. Method and apparatus for preserving matrix surround information in encoded audio/video
EP1498008A1 (en) 2002-04-25 2005-01-19 Nokia Corporation Method and device for reducing high frequency error components of a multi-channel modulator
JP4016709B2 (ja) * 2002-04-26 2007-12-05 日本電気株式会社 オーディオデータの符号変換伝送方法と符号変換受信方法及び装置とシステムならびにプログラム
US7492908B2 (en) * 2002-05-03 2009-02-17 Harman International Industries, Incorporated Sound localization system based on analysis of the sound field
US7096180B2 (en) * 2002-05-15 2006-08-22 Intel Corporation Method and apparatuses for improving quality of digitally encoded speech in the presence of interference
US7050965B2 (en) * 2002-06-03 2006-05-23 Intel Corporation Perceptual normalization of digital audio signals
US7747447B2 (en) * 2002-06-21 2010-06-29 Thomson Licensing Broadcast router having a serial digital audio data stream decoder
US7325048B1 (en) * 2002-07-03 2008-01-29 3Com Corporation Method for automatically creating a modem interface for use with a wireless device
KR100462615B1 (ko) * 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
US8228849B2 (en) * 2002-07-15 2012-07-24 Broadcom Corporation Communication gateway supporting WLAN communications in multiple communication protocols and in multiple frequency bands
WO2004008806A1 (en) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
CN1783726B (zh) * 2002-08-21 2010-05-12 广州广晟数码技术有限公司 用于从音频数据码流中解码重建多声道音频信号的解码器
CN100452657C (zh) * 2002-08-21 2009-01-14 广州广晟数码技术有限公司 对多声道数字音频信号进行压缩编码的编码方法
EP1394772A1 (en) * 2002-08-28 2004-03-03 Deutsche Thomson-Brandt Gmbh Signaling of window switchings in a MPEG layer 3 audio data stream
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
EP2282310B1 (en) 2002-09-04 2012-01-25 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
TW573293B (en) * 2002-09-13 2004-01-21 Univ Nat Central Nonlinear operation method suitable for audio encoding/decoding and an applied hardware thereof
SE0202770D0 (sv) * 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
FR2846179B1 (fr) * 2002-10-21 2005-02-04 Medialive Embrouillage adaptatif et progressif de flux audio
US6781529B1 (en) 2002-10-24 2004-08-24 Apple Computer, Inc. Methods and apparatuses for variable length encoding
US6781528B1 (en) 2002-10-24 2004-08-24 Apple Computer, Inc. Vector handling capable processor and run length encoding
US6707397B1 (en) 2002-10-24 2004-03-16 Apple Computer, Inc. Methods and apparatus for variable length codeword concatenation
US6707398B1 (en) 2002-10-24 2004-03-16 Apple Computer, Inc. Methods and apparatuses for packing bitstreams
US7650625B2 (en) * 2002-12-16 2010-01-19 Lsi Corporation System and method for controlling audio and video content via an advanced settop box
US7555017B2 (en) * 2002-12-17 2009-06-30 Tls Corporation Low latency digital audio over packet switched networks
US7272566B2 (en) * 2003-01-02 2007-09-18 Dolby Laboratories Licensing Corporation Reducing scale factor transmission cost for MPEG-2 advanced audio coding (AAC) using a lattice based post processing technique
KR100547113B1 (ko) * 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
TW594674B (en) * 2003-03-14 2004-06-21 Mediatek Inc Encoder and a encoding method capable of detecting audio signal transient
CN100339886C (zh) * 2003-04-10 2007-09-26 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
FR2853786B1 (fr) * 2003-04-11 2005-08-05 Medialive Procede et equipement de distribution de produits videos numeriques avec une restriction de certains au moins des droits de representation et de reproduction
US8311809B2 (en) * 2003-04-17 2012-11-13 Koninklijke Philips Electronics N.V. Converting decoded sub-band signal into a stereo signal
RU2005135648A (ru) * 2003-04-17 2006-03-20 Конинклейке Филипс Электроникс Н.В. (Nl) Генерация аудиосигналов
US8073684B2 (en) * 2003-04-25 2011-12-06 Texas Instruments Incorporated Apparatus and method for automatic classification/identification of similar compressed audio files
SE0301273D0 (sv) * 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
CN100546233C (zh) * 2003-04-30 2009-09-30 诺基亚公司 用于支持多声道音频扩展的方法和设备
US7739105B2 (en) * 2003-06-13 2010-06-15 Vixs Systems, Inc. System and method for processing audio frames
JP4382090B2 (ja) * 2003-06-16 2009-12-09 パナソニック株式会社 符号化装置、符号化方法およびコードブック
KR100556365B1 (ko) * 2003-07-07 2006-03-03 엘지전자 주식회사 음성 인식장치 및 방법
CA2475189C (en) * 2003-07-17 2009-10-06 At&T Corp. Method and apparatus for window matching in delta compressors
US7289680B1 (en) * 2003-07-23 2007-10-30 Cisco Technology, Inc. Methods and apparatus for minimizing requantization error
TWI220336B (en) * 2003-07-28 2004-08-11 Design Technology Inc G Compression rate promotion method of adaptive differential PCM technique
WO2005020210A2 (en) * 2003-08-26 2005-03-03 Sarnoff Corporation Method and apparatus for adaptive variable bit rate audio encoding
US7724827B2 (en) * 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
SG120118A1 (en) * 2003-09-15 2006-03-28 St Microelectronics Asia A device and process for encoding audio data
WO2005027096A1 (en) * 2003-09-15 2005-03-24 Zakrytoe Aktsionernoe Obschestvo Intel Method and apparatus for encoding audio
US20050083808A1 (en) * 2003-09-18 2005-04-21 Anderson Hans C. Audio player with CD mechanism
US7325023B2 (en) * 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7283968B2 (en) 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
US7426462B2 (en) * 2003-09-29 2008-09-16 Sony Corporation Fast codebook selection method in audio encoding
DE602004030594D1 (de) * 2003-10-07 2011-01-27 Panasonic Corp Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung
TWI226035B (en) * 2003-10-16 2005-01-01 Elan Microelectronics Corp Method and system improving step adaptation of ADPCM voice coding
KR101106026B1 (ko) * 2003-10-30 2012-01-17 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
KR20050050322A (ko) * 2003-11-25 2005-05-31 삼성전자주식회사 직교주파수다중화방식의 이동통신시스템에서 적응변조 방법
KR100571824B1 (ko) * 2003-11-26 2006-04-17 삼성전자주식회사 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
JPWO2005057550A1 (ja) * 2003-12-15 2007-12-13 松下電器産業株式会社 音声圧縮伸張装置
SE527670C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
US7725324B2 (en) * 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
JP2005217486A (ja) * 2004-01-27 2005-08-11 Matsushita Electric Ind Co Ltd ストリーム復号装置
DE102004009949B4 (de) * 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
TWI231656B (en) * 2004-04-08 2005-04-21 Univ Nat Chiao Tung Fast bit allocation algorithm for audio coding
US8032360B2 (en) * 2004-05-13 2011-10-04 Broadcom Corporation System and method for high-quality variable speed playback of audio-visual media
US7512536B2 (en) * 2004-05-14 2009-03-31 Texas Instruments Incorporated Efficient filter bank computation for audio coding
ATE387750T1 (de) * 2004-05-28 2008-03-15 Tc Electronic As Impulsbreitenmodulatorsystem
EP1617338B1 (en) * 2004-06-10 2009-12-23 Panasonic Corporation System and method for run-time reconfiguration
WO2005124722A2 (en) * 2004-06-12 2005-12-29 Spl Development, Inc. Aural rehabilitation system and method
KR100634506B1 (ko) * 2004-06-25 2006-10-16 삼성전자주식회사 저비트율 부호화/복호화 방법 및 장치
CN102833539B (zh) * 2004-06-27 2015-03-25 苹果公司 多通路视频编码
US20050285935A1 (en) * 2004-06-29 2005-12-29 Octiv, Inc. Personal conferencing node
US20050286443A1 (en) * 2004-06-29 2005-12-29 Octiv, Inc. Conferencing system
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
US20060015329A1 (en) * 2004-07-19 2006-01-19 Chu Wai C Apparatus and method for audio coding
US7391434B2 (en) * 2004-07-27 2008-06-24 The Directv Group, Inc. Video bit stream test
US7706415B2 (en) 2004-07-29 2010-04-27 Microsoft Corporation Packet multiplexing multi-channel audio
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US7930184B2 (en) * 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
WO2006022190A1 (ja) * 2004-08-27 2006-03-02 Matsushita Electric Industrial Co., Ltd. オーディオエンコーダ
US20070250308A1 (en) * 2004-08-31 2007-10-25 Koninklijke Philips Electronics, N.V. Method and device for transcoding
US7725313B2 (en) * 2004-09-13 2010-05-25 Ittiam Systems (P) Ltd. Method, system and apparatus for allocating bits in perceptual audio coders
WO2006030754A1 (ja) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、復号化装置、方法、及びプログラム
US7895034B2 (en) * 2004-09-17 2011-02-22 Digital Rise Technology Co., Ltd. Audio encoding system
US7937271B2 (en) 2004-09-17 2011-05-03 Digital Rise Technology Co., Ltd. Audio decoding using variable-length codebook application ranges
CN101055721B (zh) * 2004-09-17 2011-06-01 广州广晟数码技术有限公司 多声道数字音频编码设备及其方法
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
WO2006035705A1 (ja) * 2004-09-28 2006-04-06 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
JP4892184B2 (ja) * 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
US7061405B2 (en) * 2004-10-15 2006-06-13 Yazaki North America, Inc. Device and method for interfacing video devices over a fiber optic link
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
JP4815780B2 (ja) * 2004-10-20 2011-11-16 ヤマハ株式会社 オーバーサンプリングシステム、デコードlsi、およびオーバーサンプリング方法
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
JP5017121B2 (ja) 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
WO2006060279A1 (en) * 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
CN1938759A (zh) * 2004-12-22 2007-03-28 松下电器产业株式会社 Mpeg音频解码方法
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
WO2006075079A1 (fr) * 2005-01-14 2006-07-20 France Telecom Procede d’encodage de pistes audio d’un contenu multimedia destine a une diffusion sur terminaux mobiles
KR100707177B1 (ko) * 2005-01-19 2007-04-13 삼성전자주식회사 디지털 신호 부호화/복호화 방법 및 장치
US7208372B2 (en) * 2005-01-19 2007-04-24 Sharp Laboratories Of America, Inc. Non-volatile memory resistor cell with nanotip electrode
KR100765747B1 (ko) * 2005-01-22 2007-10-15 삼성전자주식회사 트리 구조 벡터 양자화를 이용한 스케일러블 음성 부호화장치
BRPI0607251A2 (pt) * 2005-01-31 2017-06-13 Sonorit Aps método para concatenar um primeiro quadro de amostras e um segundo quadro subseqüente de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
US7672742B2 (en) * 2005-02-16 2010-03-02 Adaptec, Inc. Method and system for reducing audio latency
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
ATE521143T1 (de) * 2005-02-23 2011-09-15 Ericsson Telefon Ab L M Adaptive bitzuweisung für die mehrkanal- audiokodierung
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
CN101185117B (zh) * 2005-05-26 2012-09-26 Lg电子株式会社 解码音频信号的方法和装置
EP1905002B1 (en) 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
JP2008542816A (ja) * 2005-05-26 2008-11-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号の符号化及び復号化方法
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
KR100718132B1 (ko) * 2005-06-24 2007-05-14 삼성전자주식회사 오디오 신호의 비트스트림 생성 방법 및 장치, 그를 이용한부호화/복호화 방법 및 장치
JP2009500656A (ja) * 2005-06-30 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
AU2006266655B2 (en) * 2005-06-30 2009-08-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
AU2006266579B2 (en) * 2005-06-30 2009-10-22 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
US8050915B2 (en) 2005-07-11 2011-11-01 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block switching and linear prediction coding
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US8225392B2 (en) * 2005-07-15 2012-07-17 Microsoft Corporation Immunizing HTML browsers and extensions from known vulnerabilities
US7693709B2 (en) * 2005-07-15 2010-04-06 Microsoft Corporation Reordering coefficients for waveform coding or decoding
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7599840B2 (en) 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US7684981B2 (en) * 2005-07-15 2010-03-23 Microsoft Corporation Prediction of spectral coefficients in waveform coding and decoding
CN1909066B (zh) * 2005-08-03 2011-02-09 昆山杰得微电子有限公司 音频编码码量控制和调整的方法
US20070030986A1 (en) * 2005-08-04 2007-02-08 Mcarthur Kelly M System and methods for aligning capture and playback clocks in a wireless digital audio distribution system
US7565018B2 (en) 2005-08-12 2009-07-21 Microsoft Corporation Adaptive coding and decoding of wide-range coefficients
US7933337B2 (en) 2005-08-12 2011-04-26 Microsoft Corporation Prediction of transform coefficients for image compression
KR20070025905A (ko) * 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
JP4859925B2 (ja) * 2005-08-30 2012-01-25 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
KR101169280B1 (ko) * 2005-08-30 2012-08-02 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 장치
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
US7761303B2 (en) * 2005-08-30 2010-07-20 Lg Electronics Inc. Slot position coding of TTT syntax of spatial audio coding application
WO2007039957A1 (ja) * 2005-10-03 2007-04-12 Sharp Kabushiki Kaisha 表示装置
US7696907B2 (en) * 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7646319B2 (en) * 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7672379B2 (en) * 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
KR100857121B1 (ko) * 2005-10-05 2008-09-05 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US8068569B2 (en) * 2005-10-05 2011-11-29 Lg Electronics, Inc. Method and apparatus for signal processing and encoding and decoding
US7751485B2 (en) * 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
EP1946062A4 (en) * 2005-10-05 2009-09-09 Lg Electronics Inc METHOD AND DEVICE FOR SIGNAL PROCESSING AND CODING AND DECODING METHOD AND DEVICE THEREFOR
DE102005048581B4 (de) * 2005-10-06 2022-06-09 Robert Bosch Gmbh Teilnehmerschnittstelle zwischen einem FlexRay-Kommunikationsbaustein und einem FlexRay-Teilnehmer und Verfahren zur Übertragung von Botschaften über eine solche Schnittstelle
EP2555187B1 (en) * 2005-10-12 2016-12-07 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding audio data and extension data
WO2007043648A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. 変換符号化装置および変換符号化方法
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
US20070092086A1 (en) * 2005-10-24 2007-04-26 Pang Hee S Removing time delays in signal paths
TWI307037B (en) * 2005-10-31 2009-03-01 Holtek Semiconductor Inc Audio calculation method
US20080162862A1 (en) * 2005-12-02 2008-07-03 Yoshiki Matsumoto Signal Processing Apparatus and Signal Processing Method
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
EP1974347B1 (en) 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
WO2007091850A1 (en) 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
JP2007249075A (ja) * 2006-03-17 2007-09-27 Toshiba Corp 音声再生装置および高域補間処理方法
JP4193865B2 (ja) * 2006-04-27 2008-12-10 ソニー株式会社 デジタル信号切換え装置及びその切換え方法
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8150065B2 (en) * 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
EP2036204B1 (en) * 2006-06-29 2012-08-15 LG Electronics Inc. Method and apparatus for an audio signal processing
US8682652B2 (en) 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
EP2040252A4 (en) * 2006-07-07 2013-01-09 Nec Corp AUDIO CODING DEVICE, AUDIO CODING METHOD, AND PROGRAM THEREOF
US7797155B2 (en) * 2006-07-26 2010-09-14 Ittiam Systems (P) Ltd. System and method for measurement of perceivable quantization noise in perceptual audio coders
US7907579B2 (en) * 2006-08-15 2011-03-15 Cisco Technology, Inc. WiFi geolocation from carrier-managed system geolocation of a dual mode device
CN100531398C (zh) * 2006-08-23 2009-08-19 中兴通讯股份有限公司 一种移动多媒体广播***的多音轨实现方法
US7882462B2 (en) * 2006-09-11 2011-02-01 The Mathworks, Inc. Hardware definition language generation for frame-based processing
US8745557B1 (en) 2006-09-11 2014-06-03 The Mathworks, Inc. Hardware definition language generation for data serialization from executable graphical models
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
CN101529898B (zh) 2006-10-12 2014-09-17 Lg电子株式会社 用于处理混合信号的装置及其方法
JP5325108B2 (ja) * 2006-10-13 2013-10-23 ギャラクシー ステューディオス エヌヴェー デジタルデータ集合を結合するための方法及び符号器、結合デジタルデータ集合の復号方法及び復号器、並びに結合デジタルデータ集合を記憶するための記録媒体
DE602006015328D1 (de) * 2006-11-03 2010-08-19 Psytechnics Ltd Abtastfehlerkompensation
US7616568B2 (en) * 2006-11-06 2009-11-10 Ixia Generic packet generation
JP4838361B2 (ja) * 2006-11-15 2011-12-14 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及びその装置
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
WO2008069584A2 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
CA2670864C (en) 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US7508326B2 (en) * 2006-12-21 2009-03-24 Sigmatel, Inc. Automatically disabling input/output signal processing based on the required multimedia format
US8255226B2 (en) * 2006-12-22 2012-08-28 Broadcom Corporation Efficient background audio encoding in a real time system
FR2911031B1 (fr) * 2006-12-28 2009-04-10 Actimagine Soc Par Actions Sim Procede et dispositif de codage audio
FR2911020B1 (fr) * 2006-12-28 2009-05-01 Actimagine Soc Par Actions Sim Procede et dispositif de codage audio
EP2109861B1 (en) * 2007-01-10 2019-03-13 Koninklijke Philips N.V. Audio decoder
US8275611B2 (en) * 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
EP2111618A4 (en) * 2007-02-13 2010-04-21 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
US20100121470A1 (en) * 2007-02-13 2010-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
AU2008215231B2 (en) * 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8184710B2 (en) 2007-02-21 2012-05-22 Microsoft Corporation Adaptive truncation of transform coefficient data in a transform-based digital media codec
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
KR101149449B1 (ko) * 2007-03-20 2012-05-25 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치
CN101272209B (zh) * 2007-03-21 2012-04-25 大唐移动通信设备有限公司 一种对多通道复用数据进行滤波的方法及设备
US9466307B1 (en) 2007-05-22 2016-10-11 Digimarc Corporation Robust spectral encoding and decoding methods
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
EP2171713B1 (fr) * 2007-06-15 2011-03-16 France Telecom Codage de signaux audionumériques
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7944847B2 (en) * 2007-06-25 2011-05-17 Efj, Inc. Voting comparator method, apparatus, and system using a limited number of digital signal processor modules to process a larger number of analog audio streams without affecting the quality of the voted audio stream
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8285554B2 (en) * 2007-07-27 2012-10-09 Dsp Group Limited Method and system for dynamic aliasing suppression
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
US8521540B2 (en) * 2007-08-17 2013-08-27 Qualcomm Incorporated Encoding and/or decoding digital signals using a permutation value
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US8249883B2 (en) 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
US8199927B1 (en) 2007-10-31 2012-06-12 ClearOnce Communications, Inc. Conferencing system implementing echo cancellation and push-to-talk microphone detection using two-stage frequency filter
GB2454208A (en) * 2007-10-31 2009-05-06 Cambridge Silicon Radio Ltd Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data
WO2009072685A1 (en) * 2007-12-06 2009-06-11 Lg Electronics Inc. A method and an apparatus for processing an audio signal
AU2008339211B2 (en) * 2007-12-18 2011-06-23 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8239210B2 (en) * 2007-12-19 2012-08-07 Dts, Inc. Lossless multi-channel audio codec
US20090164223A1 (en) * 2007-12-19 2009-06-25 Dts, Inc. Lossless multi-channel audio codec
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
WO2009084226A1 (ja) * 2007-12-28 2009-07-09 Panasonic Corporation ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
ES2401817T3 (es) * 2008-01-31 2013-04-24 Agency For Science, Technology And Research Procedimiento y dispositivo de distribución/truncado de la velocidad de transmisión de bits para codificación de audio escalable
KR101441898B1 (ko) * 2008-02-01 2014-09-23 삼성전자주식회사 주파수 부호화 방법 및 장치와 주파수 복호화 방법 및 장치
US20090210222A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Multi-Channel Hole-Filling For Audio Compression
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
KR101599875B1 (ko) * 2008-04-17 2016-03-14 삼성전자주식회사 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
SG189747A1 (en) * 2008-04-18 2013-05-31 Dolby Lab Licensing Corp Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8179974B2 (en) 2008-05-02 2012-05-15 Microsoft Corporation Multi-level representation of reordered transform coefficients
US8630848B2 (en) 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
CN101605017A (zh) * 2008-06-12 2009-12-16 华为技术有限公司 编码比特的分配方法和装置
US8909361B2 (en) * 2008-06-19 2014-12-09 Broadcom Corporation Method and system for processing high quality audio in a hardware audio codec for audio transmission
EP2304721B1 (fr) * 2008-06-26 2012-05-09 France Telecom Synthese spatiale de signaux audio multicanaux
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8380523B2 (en) * 2008-07-07 2013-02-19 Lg Electronics Inc. Method and an apparatus for processing an audio signal
ES2650492T3 (es) * 2008-07-10 2018-01-18 Voiceage Corporation Dispositivo y método de cuantificación de filtro LPC de múltiples referencias
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
TWI427619B (zh) * 2008-07-21 2014-02-21 Realtek Semiconductor Corp 音效混波裝置與方法
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
TWI419148B (zh) * 2008-10-08 2013-12-11 Fraunhofer Ges Forschung 多解析度切換音訊編碼/解碼方案
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8121830B2 (en) * 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
AT509439B1 (de) * 2008-12-19 2013-05-15 Siemens Entpr Communications Verfahren und mittel zur skalierbaren verbesserung der qualität eines signalcodierverfahrens
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
CN102625982B (zh) 2009-05-01 2015-03-18 尼尔森(美国)有限公司 提供与主要广播媒体内容关联的辅助内容的方法、装置和制品
JP5539992B2 (ja) * 2009-08-20 2014-07-02 トムソン ライセンシング レート制御装置、レート制御方法及びレート制御プログラム
GB0915766D0 (en) * 2009-09-09 2009-10-07 Apt Licensing Ltd Apparatus and method for multidimensional adaptive audio coding
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
EP2367169A3 (en) * 2010-01-26 2014-11-26 Yamaha Corporation Masker sound generation apparatus and program
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
DE102010006573B4 (de) * 2010-02-02 2012-03-15 Rohde & Schwarz Gmbh & Co. Kg IQ-Datenkompression für Breitbandanwendungen
EP2365630B1 (en) * 2010-03-02 2016-06-08 Harman Becker Automotive Systems GmbH Efficient sub-band adaptive fir-filtering
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8374858B2 (en) * 2010-03-09 2013-02-12 Dts, Inc. Scalable lossless audio codec and authoring tool
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法***及瞬态信号可分层编解码方法
JP5850216B2 (ja) * 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
CA3220202A1 (en) * 2010-09-16 2012-03-22 Dolby International Ab Cross product enhanced subband block based harmonic transposition
WO2012040898A1 (en) 2010-09-28 2012-04-05 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
JP5609591B2 (ja) * 2010-11-30 2014-10-22 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US9436441B1 (en) 2010-12-08 2016-09-06 The Mathworks, Inc. Systems and methods for hardware resource sharing
US9009030B2 (en) * 2011-01-05 2015-04-14 Google Inc. Method and system for facilitating text input
JP5969513B2 (ja) 2011-02-14 2016-08-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 不活性相の間のノイズ合成を用いるオーディオコーデック
PL2676268T3 (pl) * 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
PL3154057T3 (pl) 2011-04-05 2019-04-30 Nippon Telegraph & Telephone Dekodowanie sygnału akustycznego
KR101995694B1 (ko) * 2011-04-20 2019-07-02 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 허프만 부호화를 실행하기 위한 장치 및 방법
GB2490879B (en) 2011-05-12 2018-12-26 Qualcomm Technologies Int Ltd Hybrid coded audio data streaming apparatus and method
AU2012256550B2 (en) * 2011-05-13 2016-08-25 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
US8731949B2 (en) * 2011-06-30 2014-05-20 Zte Corporation Method and system for audio encoding and decoding and method for estimating noise level
US9355000B1 (en) 2011-08-23 2016-05-31 The Mathworks, Inc. Model level power consumption optimization in hardware description generation
US8781023B2 (en) * 2011-11-01 2014-07-15 At&T Intellectual Property I, L.P. Method and apparatus for improving transmission of data on a bandwidth expanded channel
US8774308B2 (en) * 2011-11-01 2014-07-08 At&T Intellectual Property I, L.P. Method and apparatus for improving transmission of data on a bandwidth mismatched channel
FR2984579B1 (fr) * 2011-12-14 2013-12-13 Inst Polytechnique Grenoble Procede de traitement numerique sur un ensemble de pistes audio avant mixage
JP2015517121A (ja) * 2012-04-05 2015-06-18 ホアウェイ・テクノロジーズ・カンパニー・リミテッド インターチャネル差分推定方法及び空間オーディオ符号化装置
JP5998603B2 (ja) * 2012-04-18 2016-09-28 ソニー株式会社 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
TWI505262B (zh) 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼
GB201210373D0 (en) * 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
CN102752058B (zh) * 2012-06-16 2013-10-16 天地融科技股份有限公司 音频数据传输***、音频数据传输装置及电子签名工具
AR091515A1 (es) * 2012-06-29 2015-02-11 Sony Corp Dispositivo y metodo para el procesamiento de imagenes
JP6065452B2 (ja) 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
JP5447628B1 (ja) * 2012-09-28 2014-03-19 パナソニック株式会社 無線通信装置及び通信端末
PL2933799T3 (pl) 2012-12-13 2017-12-29 Panasonic Intellectual Property Corporation Of America Urządzenie kodujące głos, urządzenie dekodujące głos, sposób kodowania głosu i sposób dekodowania głosu
ES2613747T3 (es) 2013-01-08 2017-05-25 Dolby International Ab Predicción basada en modelo en un banco de filtros críticamente muestreado
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US9093064B2 (en) 2013-03-11 2015-07-28 The Nielsen Company (Us), Llc Down-mixing compensation for audio watermarking
WO2014164361A1 (en) 2013-03-13 2014-10-09 Dts Llc System and methods for processing stereo audio content
JP6146069B2 (ja) * 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
EP2981961B1 (en) 2013-04-05 2017-05-10 Dolby International AB Advanced quantizer
EP2800401A1 (en) * 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP4134951A1 (en) * 2013-09-13 2023-02-15 Samsung Electronics Co., Ltd. Energy lossless coding method and apparatus, signal coding method and apparatus, energy lossless decoding method and apparatus, and signal decoding method and apparatus
MX354832B (es) * 2013-10-21 2018-03-21 Dolby Int Ab Estructura de decorrelador para la reconstruccion parametrica de señales de audio.
US10204630B2 (en) * 2013-10-22 2019-02-12 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
US10261760B1 (en) 2013-12-05 2019-04-16 The Mathworks, Inc. Systems and methods for tracing performance information from hardware realizations to models
US10078717B1 (en) 2013-12-05 2018-09-18 The Mathworks, Inc. Systems and methods for estimating performance characteristics of hardware implementations of executable models
CA3162763A1 (en) 2013-12-27 2015-07-02 Sony Corporation Decoding apparatus and method, and program
US10986454B2 (en) 2014-01-06 2021-04-20 Alpine Electronics of Silicon Valley, Inc. Sound normalization and frequency remapping using haptic feedback
US8767996B1 (en) 2014-01-06 2014-07-01 Alpine Electronics of Silicon Valley, Inc. Methods and devices for reproducing audio signals with a haptic apparatus on acoustic headphones
US8977376B1 (en) 2014-01-06 2015-03-10 Alpine Electronics of Silicon Valley, Inc. Reproducing audio signals with a haptic apparatus on acoustic headphones and their calibration and measurement
KR102280943B1 (ko) * 2014-02-27 2021-07-22 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오/비디오 샘플 벡터의 피라미드 벡터 양자화 인덱싱 및 디인덱싱을 위한 방법 및 장치
US9564136B2 (en) * 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
CA3155815A1 (en) * 2014-03-24 2015-10-01 Dolby International Ab METHOD AND DEVICE FOR APPLYING DYNAMIC RANGE COMPRESSION TO A HIGHER ORDER SURROUND SIGNAL
US9685164B2 (en) * 2014-03-31 2017-06-20 Qualcomm Incorporated Systems and methods of switching coding technologies at a device
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
US9997171B2 (en) * 2014-05-01 2018-06-12 Gn Hearing A/S Multi-band signal processor for digital audio signals
WO2015189533A1 (en) * 2014-06-10 2015-12-17 Meridian Audio Limited Digital encapsulation of audio signals
JP6432180B2 (ja) * 2014-06-26 2018-12-05 ソニー株式会社 復号装置および方法、並びにプログラム
WO2015197516A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2988300A1 (en) * 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
EP3799044B1 (en) * 2014-09-04 2023-12-20 Sony Group Corporation Transmission device, transmission method, reception device and reception method
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的***和方法
CN113257274A (zh) * 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
CN105632503B (zh) * 2014-10-28 2019-09-03 南宁富桂精密工业有限公司 信息隐藏方法及***
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
JP6798999B2 (ja) * 2015-02-27 2020-12-09 アウロ テクノロジーズ エンフェー. デジタルデータセットの符号化及び復号
EP3067885A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN106161313A (zh) * 2015-03-30 2016-11-23 索尼公司 无线通信***中的电子设备、无线通信***和方法
US10043527B1 (en) * 2015-07-17 2018-08-07 Digimarc Corporation Human auditory system modeling with masking energy adaptation
JP6797187B2 (ja) * 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法
CN109074813B (zh) * 2015-09-25 2020-04-03 杜比实验室特许公司 处理高清晰度音频数据
US10423733B1 (en) 2015-12-03 2019-09-24 The Mathworks, Inc. Systems and methods for sharing resources having different data types
US10395664B2 (en) 2016-01-26 2019-08-27 Dolby Laboratories Licensing Corporation Adaptive Quantization
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10756755B2 (en) * 2016-05-10 2020-08-25 Immersion Networks, Inc. Adaptive audio codec system, method and article
JP6763194B2 (ja) * 2016-05-10 2020-09-30 株式会社Jvcケンウッド 符号化装置、復号装置、通信システム
US10770088B2 (en) * 2016-05-10 2020-09-08 Immersion Networks, Inc. Adaptive audio decoder system, method and article
US20170330575A1 (en) * 2016-05-10 2017-11-16 Immersion Services LLC Adaptive audio codec system, method and article
US10699725B2 (en) * 2016-05-10 2020-06-30 Immersion Networks, Inc. Adaptive audio encoder system, method and article
EP3455854B1 (en) * 2016-05-10 2020-09-16 Immersion Services LLC Adaptive audio codec method and apparatus
CN105869648B (zh) * 2016-05-19 2019-11-22 日立楼宇技术(广州)有限公司 混音方法及装置
US10231073B2 (en) 2016-06-17 2019-03-12 Dts, Inc. Ambisonic audio rendering with depth decoding
US10375498B2 (en) 2016-11-16 2019-08-06 Dts, Inc. Graphical user interface for calibrating a surround sound system
ES2808096T3 (es) * 2016-11-23 2021-02-25 Ericsson Telefon Ab L M Método y aparato para el control adaptativo de los filtros de decorrelación
JP2018092012A (ja) * 2016-12-05 2018-06-14 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10362269B2 (en) * 2017-01-11 2019-07-23 Ringcentral, Inc. Systems and methods for determining one or more active speakers during an audio or video conference session
US10354667B2 (en) * 2017-03-22 2019-07-16 Immersion Networks, Inc. System and method for processing audio data
US10699721B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using difference data
CN109427338B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号的编码方法和编码装置
WO2019049543A1 (ja) * 2017-09-08 2019-03-14 ソニー株式会社 音声処理装置、音声処理方法及びプログラム
EP3777244A4 (en) 2018-04-08 2021-12-08 DTS, Inc. EXTRACTION OF AMBISONIC DEPTHS
CN112105902B (zh) * 2018-04-11 2022-07-22 杜比实验室特许公司 基于机器学习的用于音频编码和解码的基于感知的损失函数
CN109243471B (zh) * 2018-09-26 2022-09-23 杭州联汇科技股份有限公司 一种快速编码广播用数字音频的方法
US10763885B2 (en) * 2018-11-06 2020-09-01 Stmicroelectronics S.R.L. Method of error concealment, and associated device
CN111341303B (zh) * 2018-12-19 2023-10-31 北京猎户星空科技有限公司 一种声学模型的训练方法及装置、语音识别方法及装置
CN109831280A (zh) * 2019-02-28 2019-05-31 深圳市友杰智新科技有限公司 一种声波通讯方法、装置及可读存储介质
KR20200123531A (ko) * 2019-04-22 2020-10-30 주식회사 쏠리드 통신 신호를 처리하는 방법 및 이를 이용하는 통신 노드
US11361772B2 (en) 2019-05-14 2022-06-14 Microsoft Technology Licensing, Llc Adaptive and fixed mapping for compression and decompression of audio data
US10681463B1 (en) * 2019-05-17 2020-06-09 Sonos, Inc. Wireless transmission to satellites for multichannel audio system
CN110366752B (zh) * 2019-05-21 2023-10-10 深圳市汇顶科技股份有限公司 一种语音分频传输方法、源端、播放端、源端电路和播放端电路
JP7285967B2 (ja) 2019-05-31 2023-06-02 ディーティーエス・インコーポレイテッド フォービエイテッドオーディオレンダリング
CN110365342B (zh) * 2019-06-06 2023-05-12 中车青岛四方机车车辆股份有限公司 波形解码方法及装置
EP3751567B1 (en) * 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
GB2587196A (en) * 2019-09-13 2021-03-24 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CN112530444B (zh) * 2019-09-18 2023-10-03 华为技术有限公司 音频编码方法和装置
US20210224024A1 (en) * 2020-01-21 2021-07-22 Audiowise Technology Inc. Bluetooth audio system with low latency, and audio source and audio sink thereof
WO2021183916A1 (en) * 2020-03-13 2021-09-16 Immersion Networks, Inc. Loudness equalization system
CN111261194A (zh) * 2020-04-29 2020-06-09 浙江百应科技有限公司 一种基于pcm技术的音量分析方法
CN112037802B (zh) * 2020-05-08 2022-04-01 珠海市杰理科技股份有限公司 基于语音端点检测的音频编码方法及装置、设备、介质
CN111583942B (zh) * 2020-05-26 2023-06-13 腾讯科技(深圳)有限公司 语音会话的编码码率控制方法、装置和计算机设备
CN112187397B (zh) * 2020-09-11 2022-04-29 烽火通信科技股份有限公司 一种通用的多通道数据同步方法和装置
CN112885364B (zh) * 2021-01-21 2023-10-13 维沃移动通信有限公司 音频编码方法和解码方法、音频编码装置和解码装置
CN113485190B (zh) * 2021-07-13 2022-11-11 西安电子科技大学 一种多通道数据采集***及采集方法
US20230154474A1 (en) * 2021-11-17 2023-05-18 Agora Lab, Inc. System and method for providing high quality audio communication over low bit rate connection
WO2024012666A1 (en) * 2022-07-12 2024-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding ar/vr metadata with generic codebooks
CN115171709B (zh) * 2022-09-05 2022-11-18 腾讯科技(深圳)有限公司 语音编码、解码方法、装置、计算机设备和存储介质
US11935550B1 (en) * 2023-03-31 2024-03-19 The Adt Security Corporation Audio compression for low overhead decompression

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3171990D1 (en) * 1981-04-30 1985-10-03 Ibm Speech coding methods and apparatus for carrying out the method
JPS5921039B2 (ja) * 1981-11-04 1984-05-17 日本電信電話株式会社 適応予測符号化方式
US4455649A (en) * 1982-01-15 1984-06-19 International Business Machines Corporation Method and apparatus for efficient statistical multiplexing of voice and data signals
US4547816A (en) 1982-05-03 1985-10-15 Robert Bosch Gmbh Method of recording digital audio and video signals in the same track
US4535472A (en) * 1982-11-05 1985-08-13 At&T Bell Laboratories Adaptive bit allocator
US4757536A (en) * 1984-10-17 1988-07-12 General Electric Company Method and apparatus for transceiving cryptographically encoded digital data
US5051991A (en) * 1984-10-17 1991-09-24 Ericsson Ge Mobile Communications Inc. Method and apparatus for efficient digital time delay compensation in compressed bandwidth signal processing
US4622680A (en) * 1984-10-17 1986-11-11 General Electric Company Hybrid subband coder/decoder method and apparatus
US4817146A (en) * 1984-10-17 1989-03-28 General Electric Company Cryptographic digital signal transceiver method and apparatus
US4675863A (en) * 1985-03-20 1987-06-23 International Mobile Machines Corp. Subscriber RF telephone system for providing multiple speech and/or data signals simultaneously over either a single or a plurality of RF channels
JPS62154368A (ja) 1985-12-27 1987-07-09 Canon Inc 記録装置
US4815074A (en) * 1986-08-01 1989-03-21 General Datacomm, Inc. High speed bit interleaved time division multiplexer for multinode communication systems
US4899384A (en) * 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
JPH0783315B2 (ja) * 1988-09-26 1995-09-06 富士通株式会社 可変レート音声信号符号化方式
US4881224A (en) 1988-10-19 1989-11-14 General Datacomm, Inc. Framing algorithm for bit interleaved time division multiplexer
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
DE69017977T2 (de) 1989-07-29 1995-08-03 Sony Corp 4-Kanal-PCM-Signalverarbeitungsgerät.
US5115240A (en) * 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
US5235623A (en) * 1989-11-14 1993-08-10 Nec Corporation Adaptive transform coding by selecting optimum block lengths according to variatons between successive blocks
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
JP2841765B2 (ja) * 1990-07-13 1998-12-24 日本電気株式会社 適応ビット割当て方法及び装置
JPH04127747A (ja) * 1990-09-19 1992-04-28 Toshiba Corp 可変レート符号化方式
US5365553A (en) * 1990-11-30 1994-11-15 U.S. Philips Corporation Transmitter, encoding system and method employing use of a bit need determiner for subband coding a digital signal
US5136377A (en) * 1990-12-11 1992-08-04 At&T Bell Laboratories Adaptive non-linear quantizer
US5123015A (en) * 1990-12-20 1992-06-16 Hughes Aircraft Company Daisy chain multiplexer
US5583962A (en) * 1991-01-08 1996-12-10 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
NL9100285A (nl) * 1991-02-19 1992-09-16 Koninkl Philips Electronics Nv Transmissiesysteem, en ontvanger te gebruiken in het transmissiesysteem.
ZA921988B (en) * 1991-03-29 1993-02-24 Sony Corp High efficiency digital data encoding and decoding apparatus
EP0506394A2 (en) * 1991-03-29 1992-09-30 Sony Corporation Coding apparatus for digital signals
JP3134338B2 (ja) * 1991-03-30 2001-02-13 ソニー株式会社 ディジタル音声信号符号化方法
DE69233502T2 (de) * 1991-06-11 2006-02-23 Qualcomm, Inc., San Diego Vocoder mit veränderlicher Bitrate
JP3508138B2 (ja) 1991-06-25 2004-03-22 ソニー株式会社 信号処理装置
KR100268623B1 (ko) * 1991-06-28 2000-10-16 이데이 노부유끼 압축 데이타 기록 재생 장치 및 신호 처리 방법
ES2164640T3 (es) * 1991-08-02 2002-03-01 Sony Corp Codificador digital con asignacion dinamica de bits de cuantificacion.
KR100263599B1 (ko) * 1991-09-02 2000-08-01 요트.게.아. 롤페즈 인코딩 시스템
JP3226945B2 (ja) * 1991-10-02 2001-11-12 キヤノン株式会社 マルチメディア通信装置
FR2685593B1 (fr) * 1991-12-20 1994-02-11 France Telecom Dispositif de demultiplexage en frequence a filtres numeriques.
US5642437A (en) * 1992-02-22 1997-06-24 Texas Instruments Incorporated System decoder circuit with temporary bit storage and method of operation
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
CA2090052C (en) * 1992-03-02 1998-11-24 Anibal Joao De Sousa Ferreira Method and apparatus for the perceptual coding of audio signals
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
JP2693893B2 (ja) * 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
TW235392B (es) * 1992-06-02 1994-12-01 Philips Electronics Nv
US5436940A (en) * 1992-06-11 1995-07-25 Massachusetts Institute Of Technology Quadrature mirror filter banks and method
JP2976701B2 (ja) * 1992-06-24 1999-11-10 日本電気株式会社 量子化ビット数割当方法
US5408580A (en) * 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
US5396489A (en) * 1992-10-26 1995-03-07 Motorola Inc. Method and means for transmultiplexing signals between signal terminals and radio frequency channels
US5381145A (en) * 1993-02-10 1995-01-10 Ricoh Corporation Method and apparatus for parallel decoding and encoding of data
US5657423A (en) * 1993-02-22 1997-08-12 Texas Instruments Incorporated Hardware filter circuit and address circuitry for MPEG encoded data
TW272341B (es) * 1993-07-16 1996-03-11 Sony Co Ltd
US5451954A (en) * 1993-08-04 1995-09-19 Dolby Laboratories Licensing Corporation Quantization noise suppression for encoder/decoder system
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
JPH07202820A (ja) * 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd ビットレート制御システム
US5608713A (en) * 1994-02-09 1997-03-04 Sony Corporation Bit allocation of digital audio signal blocks by non-linear processing
JP2778482B2 (ja) * 1994-09-26 1998-07-23 日本電気株式会社 帯域分割符号化装置
US5748903A (en) * 1995-07-21 1998-05-05 Intel Corporation Encoding images using decode rate control
ES2201929B1 (es) * 2002-09-12 2005-05-16 Araclon Biotech, S.L. Anticuerpos policlonales, metodo de preparacion y uso de los mismos.

Also Published As

Publication number Publication date
CN1303583C (zh) 2007-03-07
PL183498B1 (pl) 2002-06-28
KR100277819B1 (ko) 2001-01-15
HK1092270A1 (en) 2007-02-02
HK1015510A1 (en) 1999-10-15
CA2238026C (en) 2002-07-09
PT864146E (pt) 2005-02-28
KR19990071708A (ko) 1999-09-27
CA2331611C (en) 2001-09-11
US5956674A (en) 1999-09-21
PL182240B1 (pl) 2001-11-30
WO1997021211A1 (en) 1997-06-12
US5974380A (en) 1999-10-26
ATE279770T1 (de) 2004-10-15
HK1092271A1 (en) 2007-02-02
PL327082A1 (en) 1998-11-23
AU1058997A (en) 1997-06-27
DE69633633D1 (de) 2004-11-18
EA001087B1 (ru) 2000-10-30
HK1149979A1 (en) 2011-10-21
MX9804320A (es) 1998-11-30
US6487535B1 (en) 2002-11-26
CN1495705A (zh) 2004-05-12
CN1848242B (zh) 2012-04-18
EP0864146B1 (en) 2004-10-13
CN101872618B (zh) 2012-08-22
CN1132151C (zh) 2003-12-24
CN1848242A (zh) 2006-10-18
PL183092B1 (pl) 2002-05-31
EP0864146A1 (en) 1998-09-16
CN1208489A (zh) 1999-02-17
DK0864146T3 (da) 2005-02-14
CN1848241A (zh) 2006-10-18
CA2331611A1 (en) 1997-06-12
BR9611852A (pt) 2000-05-16
DE69633633T2 (de) 2005-10-27
US5978762A (en) 1999-11-02
CN101872618A (zh) 2010-10-27
CN1848241B (zh) 2010-12-15
JP2000501846A (ja) 2000-02-15
JP4174072B2 (ja) 2008-10-29
EP0864146A4 (en) 2001-09-19
EA199800505A1 (ru) 1998-12-24
CA2238026A1 (en) 1997-06-12
AU705194B2 (en) 1999-05-20

Similar Documents

Publication Publication Date Title
ES2232842T3 (es) Codificador predictivo de sub-banda multicanal con atribucion fisico-acustica adaptativa de bitios.
US11315579B2 (en) Metadata driven dynamic range control
US10403297B2 (en) Methods and apparatus for adjusting a level of an audio signal
US7848931B2 (en) Audio encoder
ES2792116T3 (es) Códec de audio multicanal sin pérdida que usa segmentación adaptativa con capacidad de conjunto de parámetros de predicción múltiple (MPPS)
ES2316678T3 (es) Codificacion y descodificacion audio multicanal.
ES2300567T3 (es) Representacion parametrica de audio espacial.
JP4731774B2 (ja) 高品質オーディオ用縮尺自在符号化方法
US5581654A (en) Method and apparatus for information encoding and decoding
JP2012118562A (ja) 多チャンネルデジタル音声符号化装置および方法
KR20070001139A (ko) 오디오 분배 시스템, 오디오 인코더, 오디오 디코더 및이들의 동작 방법들
US20040181395A1 (en) Scalable stereo audio coding/decoding method and apparatus
Davidson Digital audio coding: Dolby AC-3
KR100528327B1 (ko) 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
TW315561B (en) A multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
Noll et al. ISO/MPEG audio coding
ES2439693T3 (es) Codificación de señales de múltiples canales
Bosi et al. MPEG-1 Audio
Bosi MPEG audio compression basics
JPH0758707A (ja) 量子化ビット割当方式
Hoerning Music & Engineering: Digital Encoding and Compression
JPH0591062A (ja) オーデイオ信号処理方法