ES2376887T3

ES2376887T3 - Dispositivo y procedimiento para determinar un valor estimado

Info

Publication number: ES2376887T3
Application number: ES05707481T
Authority: ES
Inventors: Michael Schug; Johannes Hilpert; Stefan Geyersberger; Max Neuendorf
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2004-03-01
Filing date: 2005-02-17
Publication date: 2012-03-20
Anticipated expiration: 2025-02-17
Also published as: BRPI0507815A; RU2006134638A; PL2034473T3; PT2034473T; NO20064432L; EP1697931A1; DE102004009949A1; EP2034473A3; EP3544003B1; RU2337414C2; JP2007525715A; US7318028B2; EP1697931B1; CN1938758A; US20070129940A1; PL3544003T3; PT3544003T; IL176978A0; ES2739544T3; IL176978A

Abstract

Dispositivo para determinar un valor estimado (pe) de una necesidad de unidades de información para codificar una señal, que presenta información de audio o de vídeo, presentando la señal varias bandas de frecuencia, con las siguientes características: un medio (102) para proporcionar una medida (nb(b)) de una interferencia permitida para una banda de frecuencia (b) de la señal, comprendiendo la banda de frecuencia (b) al menos dos valores espectrales de una representación espectral de la señal, y una medida (e(b)) de una energía de la señal en la banda de frecuencia; un medio (106) para calcular una medida (nl(b)) de una distribución de la energía (e(b)) en la banda de frecuencia (b), difiriendo la distribución de la energía en la banda de frecuencia de una distribución completamente uniforme, estando configurado el medio (106) para calcular la medida (nl(b)) de la distribución de la energía (e(b)), para determinar como medida de la distribución de la energía un valor estimado de un número de valores espectrales, cuyas magnitudes son mayores o iguales que un umbral de magnitud predeterminado, o cuyas magnitudes son menores o iguales que el umbral de magnitud, siendo el umbral de magnitud una etapa de cuantificación exacta o estimada, que en un cuantificador (1014) conduce a que los valores menores o iguales a la etapa de cuantificación se cuantifiquen como cero; y un medio (104) para calcular el valor estimado (pe) usando la medida (nb(b)) de la interferencia permitida, la medida (e(b)) de la energía y la medida (nl(b)) de la distribución de la energía, estando configurado el medio (104) para calcular el valor estimado, para calcular el valor estimado usando la siguiente expresión: donde pe es el valor estimado, donde nl(b) representa la medida de la distribución de la energía en la banda b, donde e(b) es una energía de la señal en la banda b, donde nb(b) es la interferencia permitida en la banda b, y donde s es un término aditivo.

Description

Dispositivo y procedimiento para determinar un valor estimado

La presente invención se refiere a codificadores para codificar una señal, que comprende información de audio y/o de vídeo, y en particular a la estimación de una necesidad de unidades de información para codificar esta señal.

A continuación se explica el codificador conocido. En una entrada 1000 se alimenta una señal de audio que debecodificarse. Ésta se suministra en primer lugar a una etapa de ajuste a escala 1002, en la que se realiza un denominado control de amplificación AAC, para establecer el nivel de la señal de audio. La información secundaria del ajuste a escala se suministra a un formateador 1004 de flujo de bits, tal como se representa mediante la flecha entre el bloque 1002 y el bloque 1004. La señal de audio ajustada a escala se suministra después de esto a un banco 1006 de filtros MDCT. En el codificador AAC, el banco de filtros implementa una transformación de coseno discreta modificada con un 50% de ventanas solapadas, determinándose la longitud de ventana mediante un bloque 1008.

Hablando en general, el bloque 1008 existe para que se aplique la función ventana a señales transitorias con ventanas más cortas, y que se aplique la función ventana a señales más bien estacionarias con ventanas más largas. Esto sirve para que, debido a las ventanas más cortas, se consiga para las señales transitorias una mayor resolución temporal (a costa de la resolución de frecuencia), mientras que para señales más bien estacionarias se consiga una mayor resolución de frecuencia (a costa de la resolución temporal) por ventanas más largas, prefiriéndose según la tendencia ventanas más largas, dado que prometen una mayor ganancia de codificación. En la salida del banco 1006 de filtros se encuentran bloques sucesivos, considerado desde el punto de vista temporal, de valores espectrales, que según la forma de realización del banco de filtros pueden ser coeficientes MDCT, coeficientes de Fourier o también señales de subbanda, teniendo cada señal de subbanda un determino ancho de banda limitado, que se establece mediante el canal de subbandas correspondiente en el banco 1006 de filtros, y presentando cada señal de subbanda un determinado número de valores de muestreo de subbandas.

A continuación se explica a modo de ejemplo el caso, en el que el banco de filtros emite bloques sucesivos, considerado desde el punto de vista temporal, de coeficientes espectrales MDCT, que hablando en general, representan espectros de corta duración sucesivos de la señal de audio que debe codificarse en la entrada 1000. Un bloque de valores espectrales MDCT se alimenta entonces a un bloque 1010 de procesamiento TNS, en el que tiene lugar una conformación de ruido temporal (TNS = temporal noise shaping). La técnica TNS se usa para conformar la forma temporal del ruido de cuantificación dentro de cada ventana de la transformación. Esto se consigue aplicando un proceso de filtrado a partes de los datos espectrales de cada canal. La codificación se realiza por ventanas. En particular se ejecutan las siguientes etapas, para aplicar la herramienta de TNS a una ventana de datos espectrales, es decir a un bloque de valores espectrales.

En primer lugar se selecciona un intervalo de frecuencia para la herramienta de TNS. Una selección adecuada consiste en cubrir un intervalo de frecuencia de desde 1,5 kHz hasta la máxima banda de factor de escala posible con un filtro. Se indica que este intervalo de frecuencia depende de la tasa de muestreo, tal como se especifica en la norma MPEG4 (norma ISO/IEC 19496-3: 2001 (E)) sección 4. 6. 9.

A continuación se realiza un cálculo LPC (LPC = linear predictive coding = codificación predictiva lineal), y concretamente con los coeficientes MDCT espectrales, que se encuentran en el intervalo de frecuencia objetivo seleccionado. Para una estabilidad aumentada se excluyen de este proceso los coeficientes que corresponden a frecuencias inferiores a 2,5 kHz. Los procedimientos LPC habituales, tal como se conocen del procesamiento de voz, pueden usarse para el cálculo LPC, por ejemplo, el algoritmo de Levinson-Durbin conocido. El cálculo se realiza para el orden máximo admisible del filtro de conformación de ruido.

Como resultado del cálculo LPC se obtiene la ganancia de predicción PG esperada. Además se obtienen los coeficientes de reflexión o coeficientes Parcor.

Cuando la ganancia de predicción no supera un determinado umbral, no se aplica la herramienta de TNS. En este caso se escribe una información de control en el flujo de bits, para que un decodificador sepa que no se ha realizado ningún procesamiento TNS.

Sin embargo, cuando la ganancia de predicción supera un umbral, se aplica el procesamiento TNS.

En una etapa siguiente se cuantifican los coeficientes de reflexión. El orden del filtro de conformación de ruido usado se determina mediante la eliminación de todos los coeficientes de reflexión con un valor absoluto inferior a un umbral de la “cola” de la serie de coeficientes de reflexión. El número de los coeficientes de reflexión restantes se encuentra en el orden de magnitud del filtro de conformación de ruido. Un umbral adecuado se encuentra a 0,1.

Los coeficientes de reflexión restantes se transforman normalmente en coeficientes de predicción lineales, conociéndose esta técnica también como procedimiento “Step-Up”.

Los coeficientes LPC calculados se usan entonces como coeficientes de filtro de conformación de ruido del codificador, es decir como coeficientes de filtro de predicción. Este filtro FIR se hace pasar por el intervalo de frecuencia objetivo especificado. Durante la decodificación se usa un filtro autorregresivo, mientras que durante la codificación se usa un denominado filtro de media móvil. Finalmente se suministra además la información secundaria para la herramienta de TNS al formateador de flujo de bits, tal como se representa mediante la flecha, que se muestra entre el bloque 1010 de procesamiento TNS y el formateador 1004 de flujo de bits en la figura 3.

Después de esto se ejecutan varias herramientas opcionales no mostradas en la figura 3, tales como, por ejemplo, una herramienta de predicción a largo plazo, una herramienta de intensidad/acoplamiento, una herramienta de predicción, una herramienta de sustitución de ruido, hasta que finalmente se llega a un codificador 1012 central/lateral. El codificador 1012 central/lateral está activo cuando la señal de audio que debe codificarse es una señal multicanal, es decir una señal estéreo con un canal izquierdo y un canal derecho. Hasta ahora, es decir en el sentido de procesamiento antes del bloque 1012 en la figura 3 se procesaron el canal estéreo izquierdo y el derecho independientemente entre sí, es decir se ajustaron a escala, se transformaron mediante el banco de filtros, se sometieron al procesamiento TNS o no, etc.

En el codificador central/lateral se comprueba entonces en primer lugar, si tiene sentido una codificación central/lateral, es decir si en realidad proporciona una ganancia de codificación. Una codificación central/lateral proporcionará entonces una ganancia de codificación, cuando el canal izquierdo y el derecho son más bien similares, dado que entonces el canal central, es decir la suma del canal izquierdo y del derecho es prácticamente igual al canal izquierdo o al derecho, independientemente del ajuste a escala mediante el factor 1/2, mientras que el canal lateral sólo tiene valores muy pequeños, dado que es igual a la diferencia entre el canal izquierdo y el derecho. Con esto puede verse que entonces, cuando el canal izquierdo y el derecho son prácticamente iguales, la diferencia es prácticamente cero o comprende sólo valores muy pequeños, que se espera que se cuantifiquen como cero en un cuantificador 1014 posterior y por consiguiente puedan transmitirse de manera muy eficaz, dado que al cuantificador 1014 le sigue un codificador 1016 de entropía.

Al cuantificador 1014 se le suministra desde un modelo 1020 psicoacústico una interferencia permitida por banda de factor de escala. El cuantificador funciona de manera iterativa, es decir se llama en primer lugar a un bucle iterativo externo, que entonces llama a un bucle iterativo interno. Hablando en general, se realiza en primer lugar, partiendo de valores iniciales de anchos de etapa de cuantificación, una cuantificación de un bloque de valores en la entrada del cuantificador 1014. En particular, el bucle interno cuantifica los coeficientes MDCT, utilizándose un determinado número de bits. El bucle externo calcula la distorsión y la energía modificada de los coeficientes usando el factor de escala, para llamar de nuevo a un bucle interno. Este proceso se itera, hasta que se cumple un determinado conjunto de condiciones. Para cada iteración en el bucle iterativo externo se reconstruye a este respecto la señal, para calcular la interferencia introducida por la cuantificación y compararla con la interferencia permitida proporcionada por el modelo 1020 psicoacústico. Además se aumentan los factores de escala de una iteración a otra un grado, y concretamente para cada iteración del bucle iterativo externo.

Entonces, cuando se alcanza una situación en la que la interferencia de cuantificación introducida por la cuantificación está por debajo de la interferencia permitida determinada mediante el modelo psicoacústico, y cuando al mismo tiempo se cumplen los requisitos de bits, concretamente, que no se supera una tasa de bits máxima, se finaliza la iteración, es decir el procedimiento de análisis por síntesis, y se codifican los factores de escala obtenidos, tal como se expone en el bloque 1014 y se suministra en forma codificada al formateador 1004 de flujo de bits, tal como se señala mediante la flecha, que está dibujada entre el bloque 1014 y el bloque 1004. Los valores cuantificados se suministran entonces al codificador 1016 de entropía, que realiza normalmente una codificación de entropía usando varias tablas de códigos Huffman para diferentes bandas de factor de escala, para transformar los valores cuantificados a un formato binario. Tal como se conoce, durante la codificación de entropía en forma de codificación de Huffman se recurre a tablas de códigos que se crean debido a una estadística de señales esperada, y en las que los valores que aparecen con mayor frecuencia reciben palabras de código más cortas que los valores que aparecen con menor frecuencia. Los valores codificados por entropía se suministran entonces también como información principal verdadera al formateador 1004 de flujo de bits, que emite entonces según una determinada sintaxis de flujo de bits en el lado de salida la señal de audio codificada.

La reducción de datos de señales de audio es entretanto una técnica conocida, que es objetivo de una serie de normas internacionales (por ejemplo las normas ISO/MPEG-1, MPEG-2 AAC, MPEG-4).

Es común para los procedimientos mencionados anteriormente, que la señal de entrada se incorpore por medio de un denominado codificador aprovechando efectos relacionados con la percepción (psicoacústica, psicoóptica) en una reproducción compacta, con datos reducidos. Para ello se realiza habitualmente un análisis espectral de la señal y las componentes de señal correspondientes se cuantifican teniendo en cuenta un modelo de percepción y a continuación se codifica de una manera lo más compacta posible como un denominado flujo de bits.

Para estimar antes de la verdadera cuantificación cuántos bits necesitará una determinada sección que debe codificarse de la señal, puede recurrirse a la denominada Perceptual Entropy (PE, entropía perceptual). La PE proporciona también una medida de cómo de difícil es para el codificador codificar una determinada señal o partes de la misma.

Para la calidad de la estimación es decisiva la desviación de la PE con respecto al número de bits necesarios en realidad.

Además puede recurrirse a la entropía perceptual o a cada valor estimado de una necesidad de unidades de información para codificar una señal para estimar si la señal es transitoria o estacionaria, dado que las señales transitorias también requieren más bits para la codificación que las señales más bien estacionarias. La estimación de una propiedad transitoria de una señal se usa, por ejemplo, para realizar una decisión de longitud de ventana, tal como se indica en el bloque 1008 en la figura 3.

En la figura 6 se representa la entropía perceptual calculada según la norma ISO/IEC 13818-7, sección C.7 (MPEG-2 advanced audio coding (AAC)). Para calcular esta entropía perceptual, es decir una entropía perceptual por bandas, se usa la ecuación representada en la figura 6. En esta ecuación el parámetro pe representa la entropía perceptual. Además width(b) representa el número de coeficientes espectrales en la respectiva banda b. Además e(b) es la energía de la señal en esta banda. Finalmente nb(b) es el umbral de enmascaramiento adecuado para ello o expresado de manera general, la interferencia permitida que puede introducirse en la señal, por ejemplo, mediante una cuantificación, para que aún así un oyente humano no oiga ninguna o sólo una interferencia reducida que se desvanece.

Las bandas pueden proceder de la clasificación de bandas del modelo psicoacústico (bloque 1020 en la figura 3), o se trata de las denominadas bandas de factor de escala usadas durante la cuantificación (scfb). El umbral de enmascaramiento psicoacústico es el valor de energía que no debe superar el error de cuantificación.

La imagen mostrada en la figura 6 muestra por consiguiente cómo de bien funciona una entropía perceptual así determinada como estimación para el número de bits necesarios para la codificación. Para ello, en el ejemplo de un codificador AAC, se aplicó a diferentes tasas de bits para cada bloque individual la respectiva entropía perceptual en función de los bits utilizados. La pieza de prueba usada contiene una mezcla típica de música, voz e instrumentos individuales.

De manera ideal los puntos se acumularían a lo largo de una recta a través del punto cero. La extensión de la sucesión de puntos con las desviaciones con respecto a la línea ideal ilustra la estimación poco precisa.

Por tanto, en el concepto mostrado en la figura 6 es desventajosa la desviación que se manifiesta en el sentido de que, por ejemplo, resulte un valor demasiado elevado para la entropía perceptual, lo que significa a su vez que se señaliza al cuantificador, que se necesitan más bits que los requeridos en principio. Esto conduce a que el cuantificador realice una cuantificación demasiado fina, a que no aproveche por tanto la medida de interferencia permitida, lo que da como resultado una ganancia de codificación reducida. Por otro lado, cuando el valor para la entropía perceptual se determina como demasiado pequeño, entonces se señaliza al cuantificador, que se necesitan menos bits que los requeridos en principio, para la codificación de la señal. Esto tiene a su vez como consecuencia que el cuantificador realice una cuantificación demasiado aproximada, lo que conduciría directamente a una interferencia audible en la señal, siempre que no se tomen contramedidas. Las contramedidas pueden consistir en que el cuantificador necesite además uno o varios bucles iterativos, lo que hace aumentar el tiempo de cálculo del codificador.

Para mejorar el cálculo de la entropía perceptual podría introducirse, tal como se muestra en la figura 7, un término constante, tal como, por ejemplo, 1,5, en la expresión logarítmica. Entonces resulta ya un resultado mejorado, es decir una menor desviación hacia arriba o hacia abajo, aunque aún así puede observarse que teniendo en cuenta un término constante en la expresión logarítmica se reduce concretamente el caso de que la entropía perceptual señalice una necesidad demasiado optimista de bits. Sin embargo, por otro lado, a partir de la figura 7 puede reconocerse claramente que de manera significativa se señaliza un número demasiado elevado de bits, lo que conduce a que el cuantificador siempre cuantifique de manera demasiado fina, que por tanto se asuma la necesidad de bits mayor que lo que es en verdad, lo que a su vez da como resultado una ganancia de codificación reducida. La constante en la expresión logarítmica es una estimación aproximada de los bits necesarios para la información secundaria.

Así la inserción de un término en la expresión logarítmica proporciona una mejora de la entropía perceptual por bandas, tal como se representa en la figura 6, dado que las bandas con una separación muy reducida entre la energía y el umbral de enmascaramiento se tienen en cuenta antes, dado que también para la transmisión de coeficientes espectrales que deben cuantificarse como cero es necesario un cierto número de bits.

En la figura 8 se representa un cálculo adicional, que no obstante requiere mucho tiempo de cálculo, de la entropía perceptual. En la figura 8 se muestra el caso en el que la entropía perceptual se calcula por líneas. Sin embargo, la desventaja radica en el mayor esfuerzo de cálculo del cálculo por líneas. En este caso en lugar de la energía se utilizan coeficientes espectrales X (k), designando kOffset (b) al primer índice de la banda b. Cuando la figura 8 se compara con la figura 7, entonces puede reconocerse claramente en el intervalo entre 2000 y 3000 bits una reducción de las “desviaciones” hacia arriba. La estimación de PE será por tanto más precisa, es decir no se realizará una estimación demasiado pesimista, sino que se encontraría más bien en el óptimo, de modo que la ganancia de codificación puede aumentar en comparación con el procedimiento de cálculo mostrado en las figuras 6 y 7, o se reduce el número de iteraciones en el cuantificador.

Sin embargo, en el cálculo por líneas de la entropía perceptual es desventajoso el tiempo de cálculo necesario para obtener el valor de la ecuación mostrada en la figura 8.

Así, es cierto que tales desventajas de tiempo de cálculo no desempeñan obligatoriamente un papel cuando el codificador se ejecuta en un PC potente o en una estación de trabajo potente. Por el contrario, resulta muy distinto cuando el codificador está ubicado en un aparato portátil, tal como, por ejemplo, un teléfono móvil UMTS, que por un lado tiene que ser pequeño y barato, que por otro lado debe tener un bajo consumo de energía, y que además tiene que trabajar rápidamente para permitir la codificación de una señal de vídeo o señal de audio transmitida a través de la conexión UMTS.

El documento US 2002/103637 A1 da a conocer un concepto para mejorar la capacidad de sistemas de codificación para utilizar los procedimientos de reconstrucción de alta frecuencia. Para ello se calcula por parte del codificador una dificultad de codificación o una medida para la carga de trabajo de un codificador, para controlar en función de esto la frecuencia de cruce, que determina hasta qué frecuencia se codifica una señal con un codificador de origen, codificándose el porcentaje de la señal que se encuentra por encima de la frecuencia de cruce mediante un procedimiento de reconstrucción de alta frecuencia. Como medida de la dificultad para codificar una señal se calcula la entropía perceptual, que se basa en que se eleva al cuadrado un valor espectral y entonces se pondera con un número que es igual al número de líneas en la banda actual dividido entre el umbral psicoacústico para esta banda, para formar entonces a partir del resultado un logaritmo. La suma de todos los logaritmos de este tipo en una banda da entonces como resultado la entropía perceptual en esa banda. Alternativamente a esto puede calcularse también una energía de distorsión al final del procedimiento de codificación de origen, sumándose la energía de distorsión en cada banda y ponderándose con una curva de intensidad del sonido.

El objetivo de la presente invención consiste en proporcionar un concepto eficaz y aún así preciso para determinar un valor estimado de una necesidad de unidades de información para codificar una señal.

Este objetivo se soluciona mediante un dispositivo según la reivindicación 1, un procedimiento según la reivindicación 10

o un programa informático según la reivindicación 11.

La presente invención se basa en el conocimiento de que en un cálculo por bandas de frecuencia del valor estimado de una necesidad de unidades de información debe establecerse por motivos del tiempo de cálculo, que sin embargo, para obtener una determinación precisa del valor estimado, debe considerarse la distribución de la energía en la banda de frecuencia, que debe calcularse por bandas.

Con ello se “implica” en cierto modo de manera implícita al codificador de entropía que sigue al cuantificador en la determinación del valor estimado para la necesidad de unidades de información. La codificación de entropía permite concretamente, que para la transmisión de valores espectrales menores se necesita un menor número de bits que para la transmisión de valores espectrales mayores. El codificador de entropía es especialmente eficaz cuando pueden transmitirse valores espectrales cuantificados como cero. Dado que éstos aparecen normalmente con la mayor frecuencia, la palabra de código para transmitir una línea espectral cuantificada como cero es la palabra de código más corta, y la palabra de código para transmitir una línea espectral cuantificada cada vez mayor es cada vez más larga. Además para un concepto especialmente eficaz para transmitir una secuencia de valores espectrales cuantificados como cero puede recurrirse incluso a una codificación de longitud de recorrido, lo que tiene como consecuencia que en el caso de un recorrido de ceros por valor espectral cuantificado como cero no se necesita en promedio ni siquiera un solo bit.

Se encontró que el cálculo de entropía perceptual por bandas usado en el estado de la técnica para determinar el valor estimado de la necesidad de unidades de información ignora completamente el modo de actuación del codificador de entropía dispuesto aguas abajo, cuando la distribución de la energía en la banda de frecuencia difiere de una distribución completamente uniforme.

Según la invención se tienen en cuenta por consiguiente para reducir las imprecisiones del cálculo por bandas cómo está distribuida la energía dentro de una banda.

Según la implementación puede determinarse la medida de la distribución de la energía en la banda de frecuencia basándose en amplitudes verdaderas, o mediante una estimación de las líneas de frecuencia, que no se cuantifican como cero mediante el cuantificador. Esta medida, que también se designa como “nl”, representando nl “number of active lines”, es decir el número de líneas activas, se prefiere por motivos de eficacia del tiempo de cálculo. Sin embargo, también puede tenerse en cuenta el número de líneas espectrales que deben cuantificase como cero o una subdivisión más fina, siendo esta estimación más precisa cuanta más información del codificador de entropía dispuesto aguas abajo se tenga en cuenta. Si el codificador de entropía se basa en tablas de códigos de Huffman, entonces pueden integrarse de manera especialmente buena las propiedades de estas tablas de códigos, dado que las tablas de códigos no se calculan en cierto sentido en línea debido a la estadística de señales, sino dado que las tablas de códigos están fijadas de todas maneras independientemente de la verdadera señal.

Sin embargo, según las limitaciones del tiempo de cálculo, en el caso de un cálculo especialmente eficaz se realiza la medida de la distribución de la energía en la banda de frecuencia mediante la determinación de las líneas aún restantes tras la cuantificación, es decir el número de líneas activas.

La presente invención es ventajosa en el sentido de que se determina un valor estimado de una necesidad de contenido de información, que por un lado es más preciso y por otro lado es más eficaz que el del estado de la técnica.

Además, la presente invención puede ajustarse a escala para diferentes aplicaciones, dado que según la precisión deseada del valor estimado pueden incorporarse cada vez más propiedades del codificador de entropía, aunque a costa de un tiempo de cálculo aumentado, en la estimación de la necesidad de bits.

A continuación se explican detalladamente ejemplos de realización preferidos de la presente invención haciendo referencia a los tiempos adjuntos. Muestran:

la figura 1 un diagrama de bloques del dispositivo según la invención para determinar un valor estimado;

la figura 2a una forma de realización preferida del medio para calcular una medida de la distribución de la energía en la banda de frecuencia;

la figura 2b: una forma de realización preferida del medio para calcular el valor estimado de la necesidad de bits;

la figura 3: un diagrama de bloques de un codificador de audio conocido;

la figura 4: una representación esquemática para explicar la influencia de la distribución de energía dentro de una

banda sobre la determinación del valor estimado;

la figura 5 un diagrama para el cálculo del valor estimado según la presente invención;

la figura 6 un diagrama para el cálculo del valor estimado según la norma ISO/IEC IS 13818-7(AAC);

la figura 7 un diagrama para el cálculo del valor estimado con término constante;

la figura 8 un diagrama para el cálculo lineal del valor estimado con término constante.

A continuación se explica haciendo referencia a la figura 1 el dispositivo según la invención para determinar un valor estimado de una necesidad de unidades de información para codificar una señal. La señal, que puede ser una señal de audio y/o de vídeo, se alimenta a través de una entrada 100. Preferiblemente la señal ya se encuentra como representación espectral con valores espectrales. Sin embargo, esto no es obligatoriamente necesario, dado que mediante un filtrado correspondiente, por ejemplo paso banda, también pueden realizarse algunos cálculos con una señal de tiempo.

La señal se suministra a un medio 102 para proporcionar una medida de una interferencia permitida para una banda de frecuencia de la señal. La interferencia permitida puede determinarse, por ejemplo, por medio de un modelo psicoacústico, tal como se ha explicado mediante la figura 3 (bloque 1020). El medio 102 es además eficaz para proporcionar también una medida de la energía de la señal en la banda de frecuencia. La condición previa para un cálculo por bandas es que una banda de frecuencia, para la que se indica una interferencia permitida o una energía de señal, contenga al menos dos o más líneas espectrales de la representación espectral de la señal. En el caso de codificadores de audio normalizados típicos, la banda de frecuencia será preferiblemente una banda de factor de escala, dado que es necesaria la estimación de necesidad de bits directamente del cuantificador, para establecer si una cuantificación realizada cumple o no un criterio de bits.

El medio 102 está configurado para suministrar tanto la interferencia permitida nb(b), como la energía de señal e(b) de la señal en la banda de un medio 104 para calcular el valor estimado de la necesidad de bits.

Según la invención el medio 104 para calcular el valor estimado de la necesidad de bits está configurado para, además de la interferencia permitida y de la energía de señal, tener en cuenta una medida nl(b) de una distribución de la energía en la banda de frecuencia, difiriendo la distribución de la energía en la banda de frecuencia de una distribución completamente uniforme. La medida de la distribución de la energía se calcula en un medio 106, necesitando el medio 106 al menos una banda, concretamente la banda de frecuencia considerada de la señal de audio o de vídeo o bien como señal paso banda o bien directamente como consecuencia de líneas espectrales, para poder realizar, por ejemplo, un análisis espectral de la banda, para obtener la medida de la distribución de las energías en la banda de frecuencia.

Naturalmente la señal de audio o de vídeo puede suministrarse al medio 106 como señal de tiempo, realizando entonces el medio 106 un filtrado de banda así como un análisis en la banda. Alternativamente la señal de audio o de vídeo, que se suministra al medio 106, puede encontrarse ya en el intervalo de frecuencia, tal como, por ejemplo, como coeficiente MDCT, o si no también como señal paso banda en el banco de filtros con un número de filtros paso banda menor en comparación con un banco de filtros MDCT.

En un ejemplo de realización preferido el medio 106 de cálculo está configurado para tener en cuenta para calcular el valor estimado magnitudes actuales de valores espectrales en la banda de frecuencia.

Además el medio para calcular la medida de la distribución de la energía puede estar configurado para determinar como medida de la distribución de la energía un número de valores espectrales, cuya magnitud es mayor o igual que un umbral de magnitud predeterminado, o cuya magnitud es menor o igual que el umbral de magnitud, siendo el umbral de magnitud preferiblemente una etapa de cuantificación estimada, que en un cuantificador hace que los valores menores o iguales a la etapa de cuantificación se cuantifiquen como cero. En este caso la medida de la energía es el número de líneas activas, es decir el número de líneas, que perduran tras la cuantificación o que no son iguales a cero.

La figura 2a muestra un ejemplo de realización preferido del medio 106 para calcular la medida de la distribución de la energía en la banda de frecuencia. La medida de la distribución de la energía en la banda de frecuencia se designa en la figura 2a con nl(b). El factor de forma ffac(b) es ya una medida de la distribución de la energía e(b) o eb o en en la banda de frecuencia b. Tal como puede observarse a partir del bloque 106, la medida de la distribución espectral nl se determina a partir del factor de forma ffac(b) mediante la ponderación con la raíz a la cuarta de la energía de señal e(b) dividido entre el ancho de banda width(b) o el número de líneas en la banda de factor de escala b. En este contexto debe especificarse que el factor de forma también es un ejemplo de una magnitud que indica una medida de la distribución de las energías, mientras que nl(b) es, a diferencia de esto, un ejemplo de una magnitud que representa un valor estimado del número de líneas relevantes para la cuantificación.

El factor de forma ffac(b) se calcula mediante la formación de magnitudes de una línea espectral y la formación de raíz siguiente de esta línea espectral y la suma siguiente de las magnitudes “a las que se ha aplicado la raíz” de las líneas espectrales en la banda.

La figura 2b muestra una forma de realización preferida del medio 104 para calcular el valor estimado pe, habiéndose introducido en la figura 2b además una diferenciación de caso, concretamente cuando el logaritmo de base 2 de la relación de la energía con respecto a la interferencia permitida es mayor que un factor constante c1 o igual al factor constante. En este caso se toma la alternativa que se encuentra en la parte superior en el bloque 104, es decir la medida de la distribución espectral nl se multiplica por la expresión logarítmica.

Si por el contrario se establece que el logaritmo de base 2 de la relación de las energías de señal o eb con respecto a la interferencia permitida es menor que el valor c1, entonces se usa la alternativa inferior en el bloque 104 de la figura 2b, que presenta adicionalmente además una constante aditiva c2 así como una constante multiplicativa c3, que se calculan a partir de las constantes c2 y c1.

A continuación se explica mediante la figura 4a y la figura 4b el concepto según la invención. Así, la figura 4a muestra una banda, en la que hay cuatro líneas espectrales, que tienen todas el mismo tamaño. La energía en esta banda está distribuida por consiguiente de manera uniforme por la banda. Por el contrario, la figura 4b muestra una situación en la que la energía en la banda reside en una línea espectral, mientras que las otras tres líneas espectrales son iguales a cero. La banda mostrada en la figura 4b podría, por ejemplo, existir antes de la cuantificación, o podría obtenerse tras la cuantificación, cuando las líneas espectrales igualadas a cero en la figura 4b antes de la cuantificación son menores que la primera etapa de cuantificación y por consiguiente se igualan a cero por el cuantificador, es decir no “perduran”.

El número de líneas activas en la figura 4b es por consiguiente igual a 1, calculándose el parámetro nl en la figura 4b como la raíz cuadrada de 2. Por el contrario, el valor nl, es decir la medida para la distribución espectral de la energía en la figura 4a se calcula como 4. Esto significa que la distribución espectral de la energía es más uniforme cuando la medida de la distribución de la energía espectral es mayor.

Debe indicarse que el cálculo por bandas de la entropía perceptual según el estado de la técnica (norma ISO/IEC 13818-7, sección C.7) no establece ninguna diferencia entre ambos casos. En particular no se establece ninguna diferencia cuando en las dos bandas, que se muestran en las figuras 4a y 4b, hay la misma energía.

Sin embargo, evidentemente el caso mostrado en la figura 4b puede codificarse con sólo una línea relevante con menos bits, dado que las tres líneas espectrales igualadas a cero pueden transmitirse de manera muy eficaz. Hablando en general la capacidad de cuantificación más sencilla del caso mostrado en la figura 4b se basa en el hecho de que tras la cuantificación y la codificación sin pérdida los valores más pequeños y en particular los valores cuantificados como cero necesitan menos bits para su transmisión.

Según la invención se tiene por consiguiente en cuenta cómo la energía está distribuida dentro de la banda. Esto tiene lugar, tal como se ha expuesto, mediante la sustitución del número de líneas por banda en la ecuación conocida (figura 6) por una estimación del número de líneas que son distintas de cero tras la cuantificación. Esta estimación se muestra en la figura 2a.

Además debe indicarse que el factor de forma mostrado en la figura 2a también se necesita en otro punto en el codificador, por ejemplo, dentro del bloque 1014 de cuantificación para determinar el ancho de etapa de cuantificación. Entonces, cuando el factor de forma ya se calcula en otro punto, no tiene que volver a calcularse para la estimación de bits, de modo que el concepto según la invención para una estimación mejorada de la medida de los bits necesarios tiene suficiente con un mínimo de esfuerzo de cálculo adicional.

Tal como ya se ha expuesto, en el caso de X(k) se trata de los coeficientes espectrales que deben cuantificarse posteriormente, mientras que la variable kOffset(b) designa el primer índice en la banda b.

Tal como puede observarse a partir de las figuras 4a y 4b, el espectro en la figura 4a da como resultado un valor nl=4, mientras que el espectro en la figura 4b da como resultado un valor de 1,41. Con ayuda del factor de forma se dispone por consiguiente de una medida para la caracterización de la estructura de campo espectral dentro de la banda.

La nueva fórmula para calcular una entropía perceptual por bandas mejorada se basa por consiguiente en la multiplicación de la medida de la distribución espectral de la energía y de la expresión logarítmica, al aparecer la energía de señal e(b) en el numerador y la interferencia permitida en el denominador, pudiendo utilizarse según sea necesario un término dentro del logaritmo, tal como se representa ya en la figura 7. Este término puede ser, por ejemplo, también

5 1,5, sin embargo también puede ser igual a cero, tal como en el caso mostrado en la figura 2b, pudiendo determinarse éste por ejemplo empíricamente.

En este punto se remite de nuevo a la figura 5, a partir de la que resulta evidente la entropía perceptual calculada según la invención, y concretamente indicada a través de los bits necesarios. Puede reconocerse claramente una mayor precisión de la estimación con respecto a los ejemplos comparativos en las figuras 6, 7 y 8. También con respecto al

10 cálculo por líneas, el cálculo por bandas modificado según la invención tiene al menos un resultado equivalente.

En función de las circunstancias, el procedimiento según la invención puede implementarse en hardware o en software. La implementación puede tener lugar en un medio de almacenamiento digital, en particular en un disquete o CD con señales de control legibles electrónicamente, que pueden actuar conjuntamente con un sistema informático programable de manera que se realice el procedimiento. La invención consiste por tanto en general también en un producto de

15 programa informático con un código de programa almacenado en un soporte legible por máquina para la realización del procedimiento según la invención, cuando el producto de programa informático se ejecuta en un ordenador. Dicho de otro modo, la invención puede realizarse por tanto como un programa informático con un código de programa para la realización del procedimiento, cuando el programa informático se ejecuta en un ordenador.

Claims

REIVINDICACIONES

1. Dispositivo para determinar un valor estimado (pe) de una necesidad de unidades de información para codificar una señal, que presenta información de audio o de vídeo, presentando la señal varias bandas de frecuencia, con las siguientes características:

un medio (102) para proporcionar una medida (nb(b)) de una interferencia permitida para una banda de frecuencia (b) de la señal, comprendiendo la banda de frecuencia (b) al menos dos valores espectrales de una representación espectral de la señal, y una medida (e(b)) de una energía de la señal en la banda de frecuencia;

un medio (106) para calcular una medida (nl(b)) de una distribución de la energía (e(b)) en la banda de frecuencia (b), difiriendo la distribución de la energía en la banda de frecuencia de una distribución completamente uniforme,

estando configurado el medio (106) para calcular la medida (nl(b)) de la distribución de la energía (e(b)), para determinar como medida de la distribución de la energía un valor estimado de un número de valores espectrales, cuyas magnitudes son mayores o iguales que un umbral de magnitud predeterminado, o cuyas magnitudes son menores o iguales que el umbral de magnitud, siendo el umbral de magnitud una etapa de cuantificación exacta o estimada, que en un cuantificador (1014) conduce a que los valores menores o iguales a la etapa de cuantificación se cuantifiquen como cero; y

un medio (104) para calcular el valor estimado (pe) usando la medida (nb(b)) de la interferencia permitida, la medida (e(b)) de la energía y la medida (nl(b)) de la distribución de la energía, estando configurado el medio (104) para calcular el valor estimado, para calcular el valor estimado usando la siguiente expresión:

donde pe es el valor estimado, donde nl(b) representa la medida de la distribución de la energía en la banda b, donde e(b) es una energía de la señal en la banda b, donde nb(b) es la interferencia permitida en la banda b, y donde s es un término aditivo.
2.

Dispositivo según la reivindicación 1, en el que el medio (106) de cálculo está configurado para tener en cuenta para el cálculo de la medida de la distribución de la energía magnitudes de valores espectrales en la banda de frecuencia.
3.

Dispositivo según una de las reivindicaciones anteriores, en el que el medio (106) de cálculo está configurado para calcular un factor de forma según la siguiente ecuación:

donde X(k) es un valor espectral a un índice de frecuencia k, donde kOffset es un primer valor espectral en una banda b, y donde ffac(b) es el factor de forma.
4.

Dispositivo según una de las reivindicaciones anteriores, en el que el medio (106) de cálculo está configurado para tener en cuenta una raíz a la cuarta de una relación entre la energía en la banda de frecuencia y un ancho de la banda de frecuencia o el número de valores espectrales dentro de la banda de frecuencia.
5.

Dispositivo según una de las reivindicaciones anteriores, en el que el medio (106) de cálculo está configurado para calcular la medida de la distribución de la energía según las siguientes ecuaciones:

donde X(k) es un valor espectral a un índice de frecuencia k, donde kOffset es un primer valor espectral en una banda b, donde ffac(b) es un factor de forma, donde nl(b) representa la medida de la distribución de la energía en la banda b, donde e(b) es una energía de señal en la banda b, y donde width(b) es un ancho de la banda.
6.

Dispositivo según una de las reivindicaciones anteriores, en el que el medio (104) para calcular el valor estimado está configurado para utilizar un cociente de la energía en la banda de frecuencia y la interferencia en la banda de frecuencia.
7.

Dispositivo según una de las reivindicaciones anteriores, en el que s es igual a 1,5.
8.

Dispositivo según una de las reivindicaciones anteriores, en el que el medio (104) para calcular el valor estimado está configurado para calcular el valor estimado según la siguiente ecuación:

donde se cumple que:

y donde se cumple que:

donde pe es el valor estimado, donde nl(b) representa la medida de la distribución de la energía en la banda b, donde e(b) es una energía de la señal en la banda b, donde nb(b) es la interferencia permitida en la banda b, donde s es un término aditivo, que es preferiblemente igual a 1,5, donde X(k) es un valor espectral a un índice de frecuencia k, donde kOffset es un primer valor espectral en una banda b, donde ffac(b) es un factor de forma, y donde width(b) es un ancho de la banda.
9.

Dispositivo según una de las reivindicaciones anteriores, en el que la señal se facilita como representación espectral con valores espectrales.
10.

Procedimiento para determinar un valor estimado de una necesidad de unidades de información para codificar una señal, que presenta información de audio o de vídeo, presentando la señal varias bandas de frecuencia, con las siguientes etapas:

proporcionar (102) una medida (nb(b)) de una interferencia permitida para una banda de frecuencia (b) de la señal, comprendiendo la banda de frecuencia al menos dos valores espectrales de una representación espectral de la señal, y una medida (e(b)) de una energía de la señal en la banda de frecuencia (b);

calcular (106) una medida (nl(b)) de una distribución de la energía en la banda de frecuencia (b), difiriendo la distribución de la energía en la banda de frecuencia de una distribución completamente uniforme, determinándose como medida (nl(b)) de la distribución de la energía un valor estimado de un número de valores espectrales, cuyas magnitudes son mayores o iguales que un umbral de magnitud predeterminado, o cuyas magnitudes son menores o iguales que el umbral de magnitud, siendo el umbral de magnitud una etapa de cuantificación exacta o estimada, que en un cuantificador (1014) conduce a que los valores menores o iguales a la etapa de cuantificación se cuantifiquen como cero; y

calcular (104) el valor estimado (pe) usando la medida (nb(b)) de la interferencia permitida, la medida (e(b)) de la energía y la medida (nl(b)) de la distribución de la energía usando la siguiente expresión:

donde pe es el valor estimado, donde nl(b) representa la medida de la distribución de la energía en la banda b, donde e(b) es una energía de la señal en la banda b, donde nb(b) es la interferencia permitida en la banda b, y donde s es un término aditivo.
11. Programa informático con un código de programa para realizar el procedimiento para determinar un valor estimado de una necesidad de unidades de información para codificar una señal según la reivindicación 10, cuando el programa se ejecuta en un ordenador.