ES2739544T3 - Aparato y método de emisión de un valor estimado - Google Patents

Aparato y método de emisión de un valor estimado Download PDF

Info

Publication number
ES2739544T3
ES2739544T3 ES08021083T ES08021083T ES2739544T3 ES 2739544 T3 ES2739544 T3 ES 2739544T3 ES 08021083 T ES08021083 T ES 08021083T ES 08021083 T ES08021083 T ES 08021083T ES 2739544 T3 ES2739544 T3 ES 2739544T3
Authority
ES
Spain
Prior art keywords
energy
frequency band
measure
signal
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES08021083T
Other languages
English (en)
Inventor
Michael Schug
Johannes Hilpert
Stefan Geyersberger
Max Neuendorf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2739544T3 publication Critical patent/ES2739544T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
  • Control Of Ac Motors In General (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Measurement Of Resistance Or Impedance (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of Current Or Voltage (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Branch Pipes, Bends, And The Like (AREA)
  • Manufacture Or Reproduction Of Printing Formes (AREA)

Abstract

Aparato para determinar un valor estimado (pe) de una necesidad de unidades de información para codificar una señal que presenta información de audio o de vídeo, presentando la señal varias bandas de frecuencia, que comprende: medios (102) para proporcionar una medida (nb(b)) de una interferencia permitida para una banda de frecuencia (b) de la señal, incluyendo la banda de frecuencia (b) al menos dos valores espectrales de una representación espectral de la señal, y para proporcionar una medida de una energía (e(b)) de la señal en la banda de frecuencia (b); caracterizado por medios (106) para calcular una medida (nl(b)) de una distribución de la energía (e(b)) en la banda de frecuencia (b), desviando la distribución de la energía (e(b)) en la banda de frecuencia (b) de una distribución completamente uniforme, donde los medios (106) para calcular la medida (nl(b)) para la distribución de la energía (e(b)) se forma para calcular la medida (nl(b)) de la distribución de la energía (e(b)) según las siguientes ecuaciones:**Fórmula** donde X(k) es un valor espectral a un índice de frecuencia k, donde kOffset es un primer valor espectral en la frecuencia b, donde ffac(b) es un factor de forma, donde nl(b) representa la medida de la distribución de la energía (e(b)) en la banda de frecuencia b, donde e(b) es la energía en la banda de frecuencia b, y donde width(b) es un ancho de la banda de frecuencia; y medios (104) para calcular el valor estimado (pe) mientras se usa la medida (nb(b)) para la interferencia permitida, la medida para la energía (e(b)), y la medida (nl(b)) para la distribución de la energía (e(b)).

Description

DESCRIPCIÓN
Aparato y método de emisión de un valor estimado
La presente invención se refiere a codificadores para codificar una señal incluyendo información de audio y/o de vídeo, y en particular a la estimación de una necesidad de unidades de información para codificar esta señal.
A continuación se presentará el codificador de la técnica anterior. En una entrada 1000 se alimenta una señal de audio que debe codificarse. Esta señal de audio se alimenta en primer lugar a una etapa 1002 de ajuste a escala, en la que se realiza un denominado control de amplificación AAC, para establecer el nivel de la señal de audio. La información secundaria del ajuste a escala se suministra a un formateador 1004 de flujo de bits, tal como se representa mediante la flecha ubicada entre el bloque 1002 y el bloque 1004. La señal de audio ajustada a escala se suministra después de esto a un banco 1006 de filtros MDCT. Con el codificador AAC, el banco de filtros implementa una transformación de coseno discreta modificada con un 50% de ventanas solapadas, determinándose la longitud de ventana mediante un bloque 1008.
Hablando en general, el bloque 1008 existe para que se aplique la función ventana a señales transitorias con ventanas relativamente cortas, y que se aplique la función ventana a señales más bien estacionarias con ventanas relativamente largas. Esto sirve para alcanzar un nivel mayor de resolución temporal (a costa de la resolución de frecuencia), para las señales transitorias debido a las ventanas relativamente cortas mientras que para señales más bien estacionarias se consiga una mayor resolución de frecuencia (a costa de la resolución temporal) por ventanas más largas, prefiriéndose según la tendencia ventanas más largas, dado que prometen una mayor ganancia de codificación. En la salida del banco 1006 de filtros se encuentran bloques sucesivos, considerado desde el punto de vista temporal, de valores espectrales, que según la realización del banco de filtros pueden ser coeficientes MDCT, coeficientes de Fourier o también señales de subbanda, teniendo cada señal de subbanda un determino ancho de banda limitado, que se establece mediante el canal de subbandas correspondiente en el banco 1006 de filtros, y presentando cada señal de subbanda un determinado número de valores de muestreo de subbandas.
A continuación se explica a modo de ejemplo el caso, en el que el banco de filtros emite bloques sucesivos, considerado desde el punto de vista temporal, de coeficientes espectrales MDCT, que hablando en general, representan espectros de corta duración sucesivos de la señal de audio que debe codificarse en la entrada 1000. Un bloque de valores espectrales MDCT se alimenta entonces a un bloque 1010 de procesamiento TNS, en el que tiene lugar una conformación de ruido temporal (TNS = temporal noise shaping). La técnica TNS se usa para conformar la forma temporal del ruido de cuantificación dentro de cada ventana de la transformación. Esto se consigue aplicando un proceso de filtrado a partes de los datos espectrales de cada canal. La codificación se realiza en una base de ventana. En particular se realizan las siguientes etapas, para aplicar la herramienta de TNS a una ventana de datos espectrales, es decir a un bloque de valores espectrales.
En primer lugar se selecciona un intervalo de frecuencia para la herramienta de TNS. Una selección adecuada comprende cubrir un intervalo de frecuencia de desde 1,5 kHz hasta la máxima banda de factor de escala posible con un filtro. Se indica que este intervalo de frecuencia depende de la tasa de muestreo, tal como se especifica en la norma AAC (ISO/IEC 14496-3: 2001 (E)).
A continuación se realiza un cálculo LPC (LPC = linear predictive coding = codificación predictiva lineal), y concretamente con los coeficientes MDCT espectrales, que se encuentran en el intervalo de frecuencia objetivo seleccionado. Para una estabilidad aumentada se excluyen de este proceso los coeficientes que corresponden a frecuencias inferiores a 2,5 kHz. Los procedimientos LPC habituales, tal como se conocen del procesamiento de voz, pueden usarse para el cálculo LPC, por ejemplo, el algoritmo de Levinson-Durbin conocido. El cálculo se realiza para el orden máximo admisible del filtro de conformación de ruido.
Como resultado del cálculo LPC se obtiene la ganancia de predicción PG esperada. Además se obtienen los coeficientes de reflexión o coeficientes Parcor.
Si la ganancia de predicción no supera un determinado umbral, no se aplica la herramienta de TNS. En este caso se escribe una información de control en el flujo de bits, para que un decodificador sepa que no se ha realizado ningún procesamiento TNS.
Sin embargo, si la ganancia de predicción supera un umbral, se aplica el procesamiento TNS.
En una etapa siguiente se cuantifican los coeficientes de reflexión. El orden del filtro de conformación de ruido usado se determina mediante la eliminación de todos los coeficientes de reflexión que tienen un valor absoluto inferior a un umbral de la “cola” de la serie de coeficientes de reflexión. El número de los coeficientes de reflexión restantes se encuentra en el orden de magnitud del filtro de conformación de ruido. Un umbral adecuado es de 0,1.
Los coeficientes de reflexión restantes se convierten normalmente en coeficientes de predicción lineales, conociéndose esta técnica también como procedimiento “Step-Up”.
Los coeficientes LPC calculados se usan entonces como coeficientes de filtro de conformación de ruido del codificador, es decir como coeficientes de filtro de predicción. Este filtro FIR se usa para filtrar en el intervalo de frecuencia objetivo especificado. En la decodificación se usa un filtro autorregresivo, mientras que durante la codificación se usa un denominado filtro promedio móvil. Finalmente se suministra la información secundaria para la herramienta de TNS al formateador de flujo de bits, tal como se representa mediante la flecha mostrada entre el bloque 1010 de procesamiento TNS y el formateador 1004 de flujo de bits en la figura 3.
Después de esto se hacen pasar a su través varias herramientas opcionales no mostradas en la figura 3, tales como, por ejemplo, una herramienta de predicción a largo plazo, una herramienta de intensidad/acoplamiento, una herramienta de predicción, una herramienta de sustitución de ruido, hasta que finalmente se llega a un codificador 1012 central/lateral. El codificador 1012 central/lateral está activo cuando la señal de audio que debe codificarse es una señal multicanal, es decir una señal estéreo con un canal izquierdo y un canal derecho. Hasta ahora, es decir en el sentido de procesamiento antes del bloque 1012 en la figura 3 se procesaron el canal estéreo izquierdo y el derecho independientemente entre sí, es decir se ajustaron a escala, se transformaron mediante el banco de filtros, se sometieron al procesamiento TNS o no, etc.
En el codificador central/lateral se comprueba entonces en primer lugar, si tiene sentido una codificación central/lateral, es decir si en realidad proporciona una ganancia de codificación. Una codificación central/lateral proporcionará entonces una ganancia de codificación, cuando el canal izquierdo y el derecho son más bien similares, dado que entonces el canal central, es decir la suma de los canales izquierdo y derecho es casi igual al canal izquierdo o al canal derecho, independientemente del ajuste a escala mediante un factor de 1/2, mientras que el canal lateral sólo tiene valores muy pequeños, dado que es igual a la diferencia entre los canales izquierdo y el derecho. Como consecuencia puede observarse que cuando los canales izquierdo y el derecho son prácticamente iguales, la diferencia es aproximadamente cero o incluye sólo valores muy pequeños, que se espera que se cuantifiquen como cero en un cuantificador 1014 posterior y por consiguiente puedan transmitirse de manera muy eficaz, dado que al cuantificador 1014 le sigue un codificador 1016 de entropía.
Al cuantificador 1014 se le suministra desde un modelo 1020 psicoacústico una interferencia permitida por banda de factor de escala. El cuantificador funciona de manera iterativa, es decir se llama en primer lugar a un bucle iterativo externo, que entonces llama a un bucle iterativo interno. Hablando en general, se realiza en primer lugar, partiendo de valores iniciales de anchos de etapa de cuantificación, una cuantificación de un bloque de valores en la entrada del cuantificador 1014. En particular, el bucle interno cuantifica los coeficientes MDCT, utilizándose un determinado número de bits en el proceso. El bucle externo calcula la distorsión y la energía modificada de los coeficientes usando el factor de escala, para llamar de nuevo a un bucle interno. Este proceso se itera, hasta que se cumple un determinado conjunto de condiciones. Para cada iteración en el bucle iterativo externo se reconstruye a este respecto la señal, para calcular la interferencia introducida por la cuantificación y compararla con la interferencia permitida proporcionada por el modelo 1020 psicoacústico. Además se aumentan los factores de escala de las bandas de frecuencia que tras esta comparación aún se consideran interferidas se amplían en una o más etapas desde interacción hasta interacción, y concretamente para cada iteración del bucle iterativo externo.
Entonces, cuando se alcanza una situación en la que la interferencia de cuantificación introducida por la cuantificación está por debajo de la interferencia permitida determinada mediante el modelo psicoacústico, y cuando al mismo tiempo se cumplen los requisitos de bits, concretamente, que no se supera una tasa de bits máxima, se finaliza la iteración, es decir el procedimiento de análisis por síntesis, y se codifican los factores de escala obtenidos, tal como se expone en el bloque 1014 y se suministra en forma codificada al formateador 1004 de flujo de bits, tal como se señala mediante la flecha, que está dibujada entre el bloque 1014 y el bloque 1004. Los valores cuantificados se suministran entonces al codificador 1016 de entropía, que realiza normalmente una codificación de entropía usando varias tablas de códigos Huffman para diferentes bandas de factor de escala, para transformar los valores cuantificados a un formato binario. Tal como se conoce, durante la codificación de entropía en forma de codificación de Huffman se recurre a tablas de códigos que se crean debido a una estadística de señales esperada, y en las que los valores que aparecen con mayor frecuencia reciben palabras de código más cortas que los valores que aparecen con menor frecuencia. Los valores codificados por entropía se suministran entonces también como información principal verdadera al formateador 1004 de flujo de bits, que emite entonces según una determinada sintaxis de flujo de bits en el lado de salida la señal de audio codificada.
La reducción de datos de señales de audio es entretanto una técnica conocida, que es el objetivo de una serie de normas internacionales (por ejemplo las normas ISO/MPEG-1, MPEG-2 AAC, MPEG-4).
Es común para los procedimientos mencionados anteriormente, que la señal de entrada se incorpore por medio de un denominado codificador aprovechando efectos relacionados con la percepción (psicoacústica, psicoóptica) en una reproducción compacta, con datos reducidos. Para ello se realiza habitualmente un análisis espectral de la señal y las componentes de señal correspondientes se cuantifican teniendo en cuenta un modelo de percepción y a continuación se codifica de una manera lo más compacta posible como un denominado flujo de bits.
Para estimar antes de la verdadera cuantificación cuántos bits necesitará una determinada sección que debe codificarse de la señal, puede recurrirse a la denominada Perceptual Entropy (PE, entropía perceptual). La PE proporciona también una medida de cómo de difícil es para el codificador codificar una determinada señal o partes de la misma.
Para la calidad de la estimación es decisiva la desviación de la PE con respecto al número de bits necesarios en realidad.
Además puede recurrirse a la entropía perceptual o a cada valor estimado de una necesidad de unidades de información para codificar una señal para estimar si la señal es transitoria o estacionaria, dado que las señales transitorias también requieren más bits para la codificación que las señales más bien estacionarias. La estimación de una propiedad transitoria de una señal se usa, por ejemplo, para realizar una decisión de longitud de ventana, tal como se indica en el bloque 1008 en la figura 3.
En la figura 6 se ilustra la entropía perceptual calculada según la norma ISO/IEC IS 13818-7 (MPEG-2 advanced audio coding (AAC)). Para calcular esta entropía perceptual, es decir una entropía perceptual por bandas, se usa la ecuación representada en la figura 6. En esta ecuación el parámetro pe representa la entropía perceptual. Además width(b) representa el número de coeficientes espectrales en la respectiva banda b. Además e(b) es la energía de la señal en esta banda. Finalmente nb(b) es el umbral de enmascaramiento adecuado para ello o expresado de manera general, la interferencia permitida que puede introducirse en la señal, por ejemplo, mediante una cuantificación, para que aun así un oyente humano no oiga ninguna o sólo una interferencia reducida que se desvanece.
Las bandas pueden proceder de la clasificación de bandas del modelo psicoacústico (bloque 1020 en la figura 3), o pueden ser las denominadas bandas de factor de escala (scfb) usadas durante la cuantificación. El umbral de enmascaramiento psicoacústico es el valor de energía que no debe superar el error de cuantificación.
La ilustración mostrada en la figura 6 muestra por tanto cómo de bien funciona una entropía perceptual así determinada como estimación para el número de bits necesarios para la codificación. Para ese fin, en el ejemplo de un codificador AAC, se aplicó a diferentes tasas de bits para cada bloque individual la respectiva entropía perceptual en función de los bits utilizados. La pieza de prueba usada contiene una mezcla típica de música, voz e instrumentos individuales.
De manera ideal los puntos se acumularían a lo largo de una línea recta a través del punto cero. La extensión de la sucesión de puntos con las desviaciones con respecto a la línea ideal ilustra la estimación poco precisa.
Por tanto, en el concepto mostrado en la figura 6 es desventajosa la desviación que se manifiesta en el sentido de que, por ejemplo, resulte un valor demasiado elevado para la entropía perceptual, lo que significa a su vez que se señaliza al cuantificador, que se necesitan más bits que los requeridos en principio. Esto conduce al hecho de que el cuantificador realice una cuantificación demasiado fina, a que no aproveche por tanto la medida de interferencia permitida, lo que da como resultado una ganancia de codificación reducida. Por otro lado, cuando el valor para la entropía perceptual se determina como demasiado pequeño, entonces se señaliza al cuantificador, que se necesitan menos bits que los requeridos en principio, para la codificación de la señal. Esto tiene a su vez como consecuencia que el cuantificador realice una cuantificación demasiado aproximada, lo que conduciría directamente a una interferencia audible en la señal, siempre que no se tomen contramedidas. Las contramedidas pueden consistir en que el cuantificador necesite además uno o varios bucles iterativos, lo que hace aumentar el tiempo de cálculo del codificador.
Para mejorar el cálculo de la entropía perceptual podría introducirse, tal como se muestra en la figura 7, un término constante, tal como, por ejemplo, 1,5, en la expresión logarítmica. Entonces resulta ya un resultado mejorado, es decir una menor desviación hacia arriba o hacia abajo, aunque aún así puede observarse que teniendo en cuenta un término constante en la expresión logarítmica se reduce concretamente el caso de que la entropía perceptual señalice una necesidad demasiado optimista de bits. Sin embargo, por otro lado, a partir de la figura 7 puede reconocerse claramente que de manera significativa se señaliza un número demasiado elevado de bits, lo que conduce a que el cuantificador siempre cuantifique de manera demasiado fina, que por tanto se asuma la necesidad de bits mayor que lo que es en verdad, lo que a su vez da como resultado una ganancia de codificación reducida. La constante en la expresión logarítmica es una estimación aproximada de los bits necesarios para la información secundaria.
Así la inserción de un término en la expresión logarítmica proporciona una mejora de la entropía perceptual por bandas, tal como se ilustra en la figura 6, dado que las bandas con una separación muy reducida entre la energía y el umbral de enmascaramiento se tienen en cuenta antes, dado que también para la transmisión de coeficientes espectrales que deben cuantificarse como cero es necesario un cierto número de bits.
En la figura 8 se ilustra un cálculo adicional, que no obstante requiere mucho tiempo de cálculo, de la entropía perceptual. En la figura 8 se muestra el caso en el que la entropía perceptual se calcula por líneas. Sin embargo, la desventaja radica en el mayor esfuerzo de cálculo del cálculo por líneas. En este caso en lugar de la energía se utilizan coeficientes espectrales X (k), designando kOffset (b) al primer índice de la banda b. Cuando la figura 8 se compara con la figura 7, puede observarse claramente en el intervalo entre 2000 y 3000 bits una reducción de las “desviaciones” hacia arriba. La estimación de PE será por tanto más precisa, es decir no se realizará una estimación demasiado pesimista, sino que se encontraría más bien en el óptimo, de modo que la ganancia de codificación puede aumentar en comparación con el procedimiento de cálculo mostrado en las figuras 6 y 7, o se reduce el número de iteraciones en el cuantificador.
Sin embargo, en el cálculo por líneas de la entropía perceptual es desventajoso el tiempo de cálculo necesario para obtener el valor de la ecuación mostrada en la figura 8.
Tales desventajas de tiempo de cálculo no desempeñan obligatoriamente ningún papel cuando el codificador se ejecuta en un PC potente o en una estación de trabajo potente. Por el contrario, resulta muy distinto cuando el codificador está ubicado en un dispositivo portátil, tal como, por ejemplo, un teléfono móvil UMTs , que por un lado tiene que ser pequeño y barato, que por otro lado debe tener un bajo consumo de energía, y que además tiene que trabajar rápidamente para permitir la codificación de una señal de vídeo o señal de audio transmitida a través de la conexión UMTS.
El documento US 2002/103637 A1 da a conocer un concepto para mejorar la capacidad de sistemas de codificación para utilizar los procedimientos de reconstrucción de alta frecuencia. Para ese fin se calcula por parte del codificador una dificultad de codificación o una medida para la carga de trabajo de un codificador, para controlar en función de esto la frecuencia de cruce, que determina hasta qué frecuencia se codifica una señal con un codificador de origen, codificándose la porción de la señal que se encuentra por encima de la frecuencia de cruce mediante un procedimiento de reconstrucción de alta frecuencia. Como medida de la dificultad para codificar una señal se calcula la entropía perceptual, que se basa en que se eleva al cuadrado un valor espectral y entonces se pondera con un número que es igual al número de líneas en la banda actual dividido entre el umbral psicoacústi
para formar entonces a partir de dicho resultado un logaritmo. La suma de todos los logaritmos de este tipo en una banda da entonces como resultado la entropía perceptual en esa banda. Alternativamente a esto puede calcularse también una energía de distorsión al final del procedimiento de codificación de origen, sumándose la energía de distorsión en cada banda y ponderándose con una curva de intensidad del sonido.
El objetivo de la presente invención es proporcionar un concepto eficaz y aún así preciso para determinar un valor estimado de una necesidad de unidades de información para codificar una señal.
Este objetivo se logra mediante un aparato según la reivindicación 1, un procedimiento según la reivindicación 5 o un programa informático según la reivindicación 6.
La presente invención se basa en el hallazgo de que en un cálculo por bandas de frecuencia del valor estimado de una necesidad de unidades de información debe establecerse por motivos del tiempo de cálculo, que sin embargo, para obtener una determinación precisa del valor estimado, debe considerarse la distribución de la energía en la banda de frecuencia, que debe calcularse por bandas.
Con ello se “ implica” en cierto modo de manera implícita al codificador de entropía que sigue al cuantificador en la determinación del valor estimado para la necesidad de unidades de información. La codificación de entropía permite concretamente, que para la transmisión de valores espectrales menores se necesita un menor número de bits que para la transmisión de valores espectrales mayores. El codificador de entropía es especialmente eficaz cuando pueden transmitirse valores espectrales cuantificados como cero. Dado que éstos aparecen normalmente con la mayor frecuencia, la palabra de código para transmitir una línea espectral cuantificada como cero es la palabra de código más corta, y la palabra de código para transmitir una línea espectral cuantificada cada vez mayor es cada vez más larga. Además para un concepto especialmente eficaz para transmitir una secuencia de valores espectrales cuantificados como cero puede recurrirse incluso a una codificación de longitud de recorrido, lo que tiene como consecuencia que en el caso de un recorrido de ceros por valor espectral cuantificado como cero no se necesita en promedio ni siquiera un solo bit.
Se ha encontrado que el cálculo de entropía perceptual por bandas usado en el estado de la técnica para determinar el valor estimado de la necesidad de unidades de información ignora completamente el modo de actuación del codificador de entropía dispuesto aguas abajo, cuando la distribución de la energía en la banda de frecuencia desvía de una distribución completamente uniforme.
Según la invención se tienen en cuenta por consiguiente para reducir las imprecisiones del cálculo por bandas cómo está distribuida la energía dentro de una banda.
Dependiendo la implementación puede determinarse la medida de la distribución de la energía en la banda de frecuencia basándose en amplitudes verdaderas, o mediante una estimación de las líneas de frecuencia, que no se cuantifican como cero mediante el cuantificador. Esta medida, que también se designa como “nl”, representando nl “number of active lines”, es decir el número de líneas activas, se prefiere por motivos de eficacia del tiempo de cálculo. Sin embargo, también puede tenerse en cuenta el número de líneas espectrales que deben cuantificase como cero o una subdivisión más fina, siendo esta estimación más precisa cuanta más información del codificador de entropía dispuesto aguas abajo se tenga en cuenta. Si el codificador de entropía se basa en tablas de códigos de Huffman, entonces pueden integrarse de manera especialmente buena las propiedades de estas tablas de códigos, dado que las tablas de códigos no se calculan en cierto sentido en línea debido a la estadística de señales, sino dado que las tablas de códigos están fijadas de todas maneras independientemente de la verdadera señal.
Sin embargo, dependiendo de las limitaciones del tiempo de cálculo, en el caso de un cálculo especialmente eficaz se realiza la medida de la distribución de la energía en la banda de frecuencia mediante la determinación de las líneas aún restantes tras la cuantificación, es decir el número de líneas activas.
La presente invención es ventajosa en el sentido de que se determina un valor estimado de una necesidad de contenido de información, que por un lado es más preciso y por otro lado es más eficaz que el del estado de la técnica.
Además, la presente invención puede ajustarse a escala para diversas aplicaciones, dado que según la precisión deseada del valor estimado pueden incorporarse cada vez más propiedades del codificador de entropía, aunque a costa de un tiempo de cálculo aumentado, en la estimación de la necesidad de bits.
A continuación se explican detalladamente realizaciones preferidas de la presente invención haciendo referencia a los tiempos adjuntos, donde:
la figura 1 es un diagrama de circuito de bloques del aparato de la invención para determinar un valor estimado;
la figura 2 muestra una realización preferida de los medios para calcular una medida de la distribución de la energía en la banda de frecuencia;
la figura 2b muestra una realización preferida de los medios para calcular el valor estimado de la necesidad de bits;
la figura 3 es un diagrama de circuito de bloques de un codificador de audio conocido;
la figura 4 es una representación esquemática para explicar la influencia de la distribución de energía dentro de una banda sobre la determinación del valor estimado;
la figura 5 es un diagrama para el cálculo del valor estimado según la presente invención;
la figura 6 es un diagrama para el cálculo del valor estimado según la norma ISO/IEC IS 13818-7(AAC);
la figura 7 es un diagrama para el cálculo del valor estimado con término constante;
la figura 8 es un diagrama para el cálculo lineal del valor estimado con término constante.
A continuación con referencia a la figura 1 se ilustrará el aparato de la invención para determinar un valor estimado de una necesidad de unidades de información para codificar una señal. La señal, que puede ser una señal de audio y/o de vídeo, se alimenta a través de una entrada 100. Preferiblemente la señal ya se encuentra como representación espectral con valores espectrales. Sin embargo, esto no es obligatoriamente necesario, dado que mediante un filtrado correspondiente, por ejemplo paso banda, también pueden realizarse algunos cálculos con una señal de tiempo.
La señal se suministra a medios 102 para proporcionar una medida de una interferencia permitida para una banda de frecuencia de la señal. La interferencia permitida puede determinarse, por ejemplo, por medio de un modelo psicoacústico, tal como se ha explicado mediante la figura 3 (bloque 1020). Los medios 102 son además eficaces para proporcionar también una medida de la energía de la señal en la banda de frecuencia. La condición previa para un cálculo por bandas es que una banda de frecuencia, para la que se indica una interferencia permitida o una energía de señal, contenga al menos dos o más líneas espectrales de la representación espectral de la señal. En el caso de codificadores de audio normalizados típicos, la banda de frecuencia será preferiblemente una banda de factor de escala, dado que es necesaria la estimación de necesidad de bits directamente del cuantificador, para establecer si una cuantificación realizada cumple o no un criterio de bits.
Los medios 102 están formados para suministrar tanto la interferencia permitida nb(b), como la energía de señal e(b) de la señal en la banda a medios 104 para calcular el valor estimado de la necesidad de bits.
Según la invención los medios 104 para calcular el valor estimado de la necesidad de bits están formados para, además de la interferencia permitida y de la energía de señal, tener en cuenta una medida nl(b) de una distribución de la energía en la banda de frecuencia, desviando la distribución de la energía en la banda de frecuencia de una distribución completamente uniforme. La medida de la distribución de la energía se calcula en medios 106, necesitando los medios 106 al menos una banda, concretamente la banda de frecuencia considerada de la señal de audio o de vídeo o bien como señal paso banda o bien directamente como consecuencia de líneas espectrales, para poder realizar, por ejemplo, un análisis espectral de la banda, para obtener la medida de la distribución de las energías en la banda de frecuencia.
Naturalmente la señal de audio o de vídeo puede suministrarse a los medios 106 como señal de tiempo, realizando entonces los medios 106 un filtrado de banda así como un análisis en la banda. Como una alternativa la señal de audio o de vídeo suministrada a los medios 106, puede encontrarse ya en el intervalo de frecuencia, tal como, por ejemplo, como coeficiente MDCT, o si no también como señal paso banda en el banco de filtros con un número de filtros paso banda menor en comparación con un banco de filtros MDCT.
En una realización preferida los medios 106 para calcular están formados para tener en cuenta para calcular el valor estimado magnitudes actuales de valores espectrales en la banda de frecuencia.
Además los medios para calcular la medida de la distribución de la energía pueden estar formados para determinar como medida de la distribución de la energía varios valores espectrales, cuya magnitud es mayor o igual que un umbral de magnitud predeterminado, o cuya magnitud es menor o igual que el umbral de magnitud, siendo el umbral de magnitud preferiblemente una etapa de cuantificación estimada, que en un cuantificador hace que los valores menores o iguales a la etapa de cuantificación se cuantifiquen como cero. En este caso la medida de la energía es el número de líneas activas, es decir el número de líneas, que perduran tras la cuantificación o que no son iguales a cero.
La figura 2a muestra una realización preferida de los medios 106 para calcular la medida de la distribución de la energía en la banda de frecuencia. La medida de la distribución de la energía en la banda de frecuencia se designa en la figura 2a con nl(b). El factor de forma ffac(b) es ya una medida de la distribución de la energía en la banda de frecuencia. Tal como puede observarse a partir del bloque 106, la medida de la distribución espectral nl se determina a partir del factor de forma ffac(b) mediante la ponderación con la raíz a la cuarta de la energía de señal e(b) dividido entre el ancho de banda width(b) o el número de líneas en la banda de factor de escala b. En este contexto debe especificarse que el factor de forma también es un ejemplo de una magnitud que indica una medida de la distribución de las energías, mientras que nl(b) es, a diferencia de esto, un ejemplo de una magnitud que representa un valor estimado del número de líneas relevantes para la cuantificación.
El factor de forma ffac(b) se calcula mediante la formación de magnitudes de una línea espectral y la formación de raíz siguiente de esta línea espectral y la suma siguiente de las magnitudes “a las que se ha aplicado la raíz” de las líneas espectrales en la banda.
La figura 2b muestra una realización preferida de los medios 104 para calcular el valor estimado pe, habiéndose introducido en la figura 2b además una diferenciación de caso, concretamente cuando el logaritmo de base 2 de la relación de la energía con respecto a la interferencia permitida es mayor que un factor constante c1 o igual al factor constante. En este caso se toma la alternativa que se encuentra en la parte superior en el bloque 104, es decir la medida de la distribución espectral nl se multiplica por la expresión logarítmica.
Por otro lado se determina que el logaritmo de base 2 de la relación de las energías de señal con respecto a la interferencia permitida es menor que el valor c1, entonces se usa la alternativa inferior en el bloque 104 de la figura 2b, que presenta adicionalmente además una constante aditiva c2 así como una constante multiplicativa c3, que se calculan a partir de las constantes c2 y c1.
A continuación se explica mediante la figura 4a y la figura 4b el concepto de la invención. Así, la figura 4a muestra una banda, en la que hay cuatro líneas espectrales, que tienen todas el mismo tamaño. La energía en esta banda está distribuida por consiguiente de manera uniforme por la banda. Por el contrario, la figura 4b muestra una situación en la que la energía en la banda reside en una línea espectral, mientras que las otras tres líneas espectrales son iguales a cero. La banda mostrada en la figura 4b podría, por ejemplo, existir antes de la cuantificación, o podría obtenerse tras la cuantificación, cuando las líneas espectrales ajustadas a cero en la figura 4b antes de la cuantificación son menores que la primera etapa de cuantificación y por consiguiente se ajustan a cero por el cuantificador, es decir no “perduran”.
El número de líneas activas en la figura 4b es por consiguiente igual a 1, calculándose el parámetro nl en la figura 4b como la raíz cuadrada de 2. Por el contrario, el valor nl, es decir la medida para la distribución espectral de la energía en la figura 4a se calcula como 4. Esto significa que la distribución espectral de la energía es más uniforme cuando la medida de la distribución de la energía espectral es mayor.
Debe indicarse que el cálculo por bandas de la entropía perceptual según el estado de la técnica no establece ninguna diferencia entre ambos casos. En particular no se establece ninguna diferencia cuando en ambas bandas, que se muestran en las figuras 4a y 4b, hay la misma energía.
Sin embargo, evidentemente el caso mostrado en la figura 4b puede codificarse con sólo una línea relevante con menos bits, dado que las tres líneas espectrales ajustadas a cero pueden transmitirse de manera muy eficaz. Hablando en general la capacidad de cuantificación más sencilla del caso mostrado en la figura 4b se basa en el hecho de que tras la cuantificación y la codificación sin pérdida los valores más pequeños y en particular los valores cuantificados como cero necesitan menos bits para su transmisión.
Según la invención se tiene por consiguiente en cuenta cómo la energía está distribuida dentro de la banda. Esto tiene lugar, tal como se ha expuesto, mediante la sustitución del número de líneas por banda en la ecuación conocida (figura 6) por una estimación del número de líneas que son distintas de cero tras la cuantificación. Esta estimación se muestra en la figura 2a.
Además debe indicarse que el factor de forma mostrado en la figura 2a también se necesita en otro punto en el codificador, por ejemplo, dentro del bloque 1014 de cuantificación para determinar el ancho de etapa de cuantificación. Entonces, cuando el factor de forma ya se calcula en otro punto, no tiene que volver a calcularse para la estimación de bits, de modo que el concepto según la invención para una estimación mejorada de la medida de los bits necesarios tiene suficiente con un mínimo de esfuerzo de cálculo adicional.
Tal como ya se ha expuesto, en el caso de X(k) se trata de los coeficientes espectrales que deben cuantificarse posteriormente, mientras que la variable kOffset(b) designa el primer índice en la banda b.
Tal como puede observarse a partir de las figuras 4a y 4b, el espectro en la figura 4a da como resultado un valor nl=4, mientras que el espectro en la figura 4b da como resultado un valor de 1,41. Por tanto con la ayuda del factor de forma se dispone una medida para la cuantificar la estructura de campo espectral dentro de la banda.
La nueva fórmula para calcular una entropía perceptual por bandas mejorada se basa por consiguiente en la multiplicación de la medida de la distribución espectral de la energía y de la expresión logarítmica, al aparecer la energía de señal e(b) en el numerador y la interferencia permitida en el denominador, pudiendo utilizarse según sea necesario un término dentro del logaritmo, tal como se ilustra ya en la figura 7. Este término puede ser, por ejemplo, también 1,5, sin embargo también puede ser igual a cero, tal como en el caso mostrado en la figura 2b, pudiendo determinarse éste por ejemplo empíricamente.
En este punto debe remitirse de nuevo a la figura 5, a partir de la que resulta evidente la entropía perceptual calculada según la invención, y concretamente indicada a través de los bits necesarios. Puede reconocerse claramente una mayor precisión de la estimación con respecto a los ejemplos comparativos en las figuras 6, 7 y 8. También con respecto al cálculo por líneas, el cálculo por bandas modificado según la invención tiene al menos un resultado equivalente.
Dependiendo de las circunstancias, el procedimiento según la invención puede implementarse en hardware o en software. La implementación puede tener lugar en un medio de almacenamiento digital, en particular en un disquete o CD con señales de control legibles electrónicamente, que pueden actuar conjuntamente con un sistema informático programable de manera que se realice el procedimiento. La invención consiste por tanto en general también en un producto de programa informático con un código de programa almacenado en un soporte legible por máquina para la realización del procedimiento según la invención, cuando el producto de programa informático se ejecuta en un ordenador. Dicho de otro modo, la invención puede realizarse por tanto como un programa informático con un código de programa para la realización del procedimiento, cuando el programa informático se ejecuta en un ordenador.

Claims (5)

REIVINDICACIONES
1. Aparato para determinar un valor estimado (pe) de una necesidad de unidades de información para codificar una señal que presenta información de audio o de vídeo, presentando la señal varias bandas de frecuencia, que comprende:
medios (102) para proporcionar una medida (nb(b)) de una interferencia permitida para una banda de frecuencia (b) de la señal, incluyendo la banda de frecuencia (b) al menos dos valores espectrales de una representación espectral de la señal, y para proporcionar una medida de una energía (e(b)) de la señal en la banda de frecuencia (b);
caracterizado por
medios (106) para calcular una medida (nl(b)) de una distribución de la energía (e(b)) en la banda de frecuencia (b), desviando la distribución de la energía (e(b)) en la banda de frecuencia (b) de una distribución completamente uniforme,
donde los medios (106) para calcular la medida (nl(b)) para la distribución de la energía (e(b)) se forma para calcular la medida (nl(b)) de la distribución de la energía (e(b)) según las siguientes ecuaciones:
nl(b) = f f a m
( «(*) \0.25
v width(b)S
kOffset(b+l ) - l
ffac(b)= £
Figure imgf000009_0002
k°kOffsd(b)
donde X(k) es un valor espectral a un índice de frecuencia k, donde kOffset es un primer valor espectral en la frecuencia b, donde ffac(b) es un factor de forma, donde nl(b) representa la medida de la distribución de la energía (e(b)) en la banda de frecuencia b, donde e(b) es la energía en la banda de frecuencia b, y donde width(b) es un ancho de la banda de frecuencia; y
medios (104) para calcular el valor estimado (pe) mientras se usa la medida (nb(b)) para la interferencia permitida, la medida para la energía (e(b)), y la medida (nl(b)) para la distribución de la energía (e(b)).
2. Aparato según una de las reivindicaciones anteriores,
en el que los medios (104) para calcular el valor estimado se forma para usar un cociente de la energía (e(b)) en la banda de frecuencia (b) y la interferencia permitida en la banda de frecuencia (b).
3. Aparato según una de las reivindicaciones anteriores,
en el que los medios (104) para calcular el valor estimado se forma para calcular el valor estimado usando la siguiente expresión:
Figure imgf000009_0001
donde pe es el valor estimado, donde nl(b) representa la medida de la distribución de la energía (e(b)) en la banda de frecuencia b, donde e(b) es la energía de la señal en la banda de frecuencia b, donde nb(b) es la interferencia permitida en la banda de frecuencia b, y donde s es un término aditivo, preferiblemente igual a 1,5.
4. Aparato según una de las reivindicaciones anteriores,
en el que la señal se facilita como representación espectral con valores espectrales.
5. Procedimiento para determinar un valor estimado de una necesidad de unidades de información para codificar una señal, que presenta información de audio o de vídeo, presentando la señal varias bandas de frecuencia, comprendiendo las etapas de:
proporcionar (102) una medida (nb(b)) de una interferencia permitida para una banda de frecuencia (b) de la señal, incluyendo la banda de frecuencia (b) al menos dos valores espectrales de una representación espectral de la señal, y
proporcionar una medida de una energía (e(b)) de la señal en la banda de frecuencia (b);
caracterizado por
calcular (106) una medida (nl(b)) de una distribución de la energía (e(b)) en la banda de frecuencia (b), desviando la distribución de la energía (e(b)) en la banda de frecuencia (b) de una distribución completamente uniforme,
donde la medida (nl(b)) de la distribución de la energía (e(b)) se calcula según las siguientes ecuaciones:
Figure imgf000010_0001
kOffset(b+i)-í
ffac(b)= £
Figure imgf000010_0002
k°kOffsd(b)
donde X(k) es un valor espectral a un índice de frecuencia k, donde kOffset es un primer valor espectral en la banda de frecuencia b, donde ffac(b) es un factor de forma, donde nl(b) representa la medida de la distribución de la energía (e(b)) en la banda de frecuencia b, donde e(b) es la energía en la banda de frecuencia b, y donde width(b) es un ancho de la banda de frecuencia; y
calcular el valor estimado (pe) mientras se usa la medida (nb(b)) para la interferencia permitida, la medida (e(b)) para la energía (e(b)), y la medida (nl(b)) para la distribución de la energía (e(b)).
Programa informático con un código de programa para realizar el procedimiento para determinar un valor estimado de una necesidad de unidades de información para codificar una señal según la reivindicación 5, cuando el programa se ejecuta en un ordenador.
ES08021083T 2004-03-01 2005-02-17 Aparato y método de emisión de un valor estimado Active ES2739544T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004009949A DE102004009949B4 (de) 2004-03-01 2004-03-01 Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes

Publications (1)

Publication Number Publication Date
ES2739544T3 true ES2739544T3 (es) 2020-01-31

Family

ID=34894902

Family Applications (3)

Application Number Title Priority Date Filing Date
ES08021083T Active ES2739544T3 (es) 2004-03-01 2005-02-17 Aparato y método de emisión de un valor estimado
ES19167397T Active ES2847237T3 (es) 2004-03-01 2005-02-17 Aparato y método de emisión de un valor estimado
ES05707481T Active ES2376887T3 (es) 2004-03-01 2005-02-17 Dispositivo y procedimiento para determinar un valor estimado

Family Applications After (2)

Application Number Title Priority Date Filing Date
ES19167397T Active ES2847237T3 (es) 2004-03-01 2005-02-17 Aparato y método de emisión de un valor estimado
ES05707481T Active ES2376887T3 (es) 2004-03-01 2005-02-17 Dispositivo y procedimiento para determinar un valor estimado

Country Status (19)

Country Link
US (1) US7318028B2 (es)
EP (3) EP1697931B1 (es)
JP (1) JP4673882B2 (es)
KR (1) KR100852482B1 (es)
CN (1) CN1938758B (es)
AT (1) ATE532173T1 (es)
AU (1) AU2005217507B2 (es)
BR (1) BRPI0507815B1 (es)
CA (1) CA2559354C (es)
DE (1) DE102004009949B4 (es)
DK (1) DK1697931T3 (es)
ES (3) ES2739544T3 (es)
HK (1) HK1093813A1 (es)
IL (1) IL176978A (es)
NO (1) NO338917B1 (es)
PL (2) PL3544003T3 (es)
PT (2) PT3544003T (es)
RU (1) RU2337414C2 (es)
WO (1) WO2005083680A1 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8891775B2 (en) 2011-05-09 2014-11-18 Dolby International Ab Method and encoder for processing a digital stereo audio signal
FR2977439A1 (fr) * 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
US11232804B2 (en) * 2017-07-03 2022-01-25 Dolby International Ab Low complexity dense transient events detection and coding
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
CN111405419B (zh) * 2020-03-26 2022-02-15 海信视像科技股份有限公司 音频信号处理方法、装置及可读存储介质
CN116707557B (zh) * 2022-12-20 2024-05-03 荣耀终端有限公司 信道选择方法、接收机及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69127842T2 (de) * 1990-03-09 1998-01-29 At & T Corp Hybride wahrnehmungsgebundene Kodierung von Audiosignalen
CA2090052C (en) * 1992-03-02 1998-11-24 Anibal Joao De Sousa Ferreira Method and apparatus for the perceptual coding of audio signals
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JP3964456B2 (ja) * 1992-06-24 2007-08-22 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 電気通信装置の客観的音声品質測定の方法および装置
JP2927660B2 (ja) * 1993-01-25 1999-07-28 シャープ株式会社 樹脂封止型半導体装置の製造方法
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
DE19736669C1 (de) * 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
AU4190200A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation A frequency domain interpolative speech codec system
JP3762579B2 (ja) * 1999-08-05 2006-04-05 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2001166797A (ja) * 1999-12-07 2001-06-22 Nippon Hoso Kyokai <Nhk> オーディオ信号の符号化装置
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
EP1199711A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US6636830B1 (en) * 2000-11-22 2003-10-21 Vialta Inc. System and method for noise reduction using bi-orthogonal modified discrete cosine transform
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
US6912495B2 (en) * 2001-11-20 2005-06-28 Digital Voice Systems, Inc. Speech model and analysis, synthesis, and quantization methods

Also Published As

Publication number Publication date
BRPI0507815A (pt) 2007-07-10
RU2006134638A (ru) 2008-04-10
PL2034473T3 (pl) 2019-11-29
PT2034473T (pt) 2019-08-05
NO20064432L (no) 2006-09-29
EP1697931A1 (de) 2006-09-06
DE102004009949A1 (de) 2005-09-29
EP2034473A3 (de) 2015-09-16
EP3544003B1 (de) 2020-12-23
ES2376887T3 (es) 2012-03-20
RU2337414C2 (ru) 2008-10-27
JP2007525715A (ja) 2007-09-06
US7318028B2 (en) 2008-01-08
EP1697931B1 (de) 2011-11-02
CN1938758A (zh) 2007-03-28
US20070129940A1 (en) 2007-06-07
PL3544003T3 (pl) 2021-07-12
PT3544003T (pt) 2021-02-04
IL176978A0 (en) 2006-12-10
IL176978A (en) 2012-08-30
EP2034473B1 (de) 2019-05-15
AU2005217507B2 (en) 2008-08-14
EP2034473A2 (de) 2009-03-11
DK1697931T3 (da) 2012-02-27
WO2005083680A1 (de) 2005-09-09
CA2559354C (en) 2011-08-02
HK1093813A1 (en) 2007-03-09
AU2005217507A1 (en) 2005-09-09
CA2559354A1 (en) 2005-09-09
KR100852482B1 (ko) 2008-08-18
JP4673882B2 (ja) 2011-04-20
EP3544003A1 (de) 2019-09-25
ATE532173T1 (de) 2011-11-15
BRPI0507815B1 (pt) 2018-09-11
CN1938758B (zh) 2010-11-10
ES2847237T3 (es) 2021-08-02
DE102004009949B4 (de) 2006-03-09
KR20060121978A (ko) 2006-11-29
NO338917B1 (no) 2016-10-31

Similar Documents

Publication Publication Date Title
ES2739544T3 (es) Aparato y método de emisión de un valor estimado
ES2286798T3 (es) Dispositivo y procedimiento para procesar una señal multicanal.
RU2608878C1 (ru) Регулировка уровня во временной области для декодирования или кодирования аудиосигналов
JP2019080347A (ja) パラメトリック・マルチチャネル・エンコードのための方法
EP4070309A1 (en) A psychoacoustic model for audio processing
EP3175457B1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
JP3639216B2 (ja) 音響信号符号化装置
US6922667B2 (en) Encoding apparatus and decoding apparatus
CN110556117B (zh) 立体声信号的编码方法和装置
US20200265852A1 (en) Controlling bandwidth in encoders and/or decoders
JP4116628B2 (ja) オーディオ符号化方法およびオーディオ符号化装置
JP4625709B2 (ja) ステレオオーディオ信号符号化装置
JP2002182695A (ja) 高能率符号化方法及び装置
MXPA06009934A (es) Metodo y aparato para determinar un estimado
Bosi MPEG audio compression basics
JP2005165056A (ja) オーディオ信号符号化装置及び方法
Netirojjanakul et al. A Hi-Fi Audio Coding Technique for Wireless Communication based on Wavelet Packet Transformation♠