ES2290764T3

ES2290764T3 - Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio.

Info

Publication number: ES2290764T3
Application number: ES04776174T
Authority: ES
Inventors: Alan Jeffrey Seefeldt; Michael J. Smithers; Brett Graham Crockett
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2003-05-28
Filing date: 2004-05-27
Publication date: 2008-02-16
Anticipated expiration: 2024-05-27
Also published as: EP1629463A2; EP1629463B1; JP2007503796A; AU2004248544A1; IL172108A; WO2004111994A2; KR20060013400A; CN1795490A; MXPA05012785A; SG185134A1; DK1629463T3; IN2010KN02913A; HK1083918A1; DE602004008455D1; WO2004111994A3; US8437482B2; US20070092089A1; JP4486646B2; CA2525942A1; AU2004248544B2

Abstract

Un método para tratar una señal de audio, que comprende producir, en respuesta a la señal de audio, una señal de excitación, y calcular la sonoridad porcentual de la señal de audio en respuesta a la señal de excitación y una medida de características de la señal de audio, en el que dicho cálculo selecciona, de un grupo de dos o más funciones específicas de modelo de sonoridad, una o una combinación de dos o más de las funciones específicas de modelo de sonoridad, cuya selección es controlada por la medición de características de la señal de audio de entrada.

Description

Método, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio.

Campo técnico

La presente invención está relacionada con mediciones de sonoridad o de altura de sonido de señales de audio y con aparatos, métodos y programas de ordenador para controlar la sonoridad de señales de audio en respuesta de tales mediciones.

Técnica antecedente

La sonoridad es un atributo percibido subjetivamente de sensación auditiva por el cual el sonido puede ser ordenado en una escala que se extiende desde silencio a ruido. Debido a que la sonoridad es una sensación percibida por un oyente, no es apropiada para mediciones directas, por lo que resulta difícil de cuantificar. Además, debido al componente porcentual de sonoridad, distintos oyentes con percepción auditiva "normal" pueden tener percepciones diferentes del mismo sonido. El único modo de reducir las variaciones introducidas por la percepción individual y de llegar a una medida general de la sonoridad de material de audio es reunir un grupo de oyentes y deducir una cifra de sonoridad, o graduación (ranking), estadísticamente. Este es claramente un enfoque no práctico para mediciones estándar de sonoridad, día a día.

Ha habido muchos intentos de desarrollar un método objetivo satisfactorio de medir la sonoridad. Fletcher y Munson determinaron en 1933 que la audición humana es menos sensitiva a frecuencias bajas y altas que a frecuencias medias (o de voz). También encontraron que el cambio relativo de sensibilidad disminuía al aumentar el nivel de sonido. Un medidor primitivo de sonoridad consistía en un micrófono, un amplificador, un medidor y una combinación de filtros diseñados para imitar aproximadamente la respuesta de frecuencia de niveles de sonido bajos, medios y altos.

Incluso aunque tales dispositivos proporcionaban una medida de la sonoridad de un tono único aislado, de nivel constante, mediciones de sonidos más complejos no se adaptaban muy bien a las impresiones subjetivas de sonoridad. Los medidores de nivel de sonido de este tipo han sido normalizados, pero sólo usados para tareas concretas, tales como la vigilancia y el control de ruido industrial.

A principios de 1950, Zwicker y Stevens, entre otros, extendieron el trabajo de Fletcher y Munson en el desarrollo de un modelo más realista del proceso de percepción de sonoridad. Stevens publicó un método para el "Calculo de la sonoridad de ruido complejo" en la Revista de la Acoustical Society of America, en 1956, y Zwicker publicó su artículo "Base psicológica y metódica de sonoridad" en Acoustica en 1958. En 1959, Zwicker publicó un procedimiento gráfico para cálculo de sonoridad, así como varios artículos similares poco después. Los métodos de Stevens y Zwicker fueron normalizados como ISO 532, partes A y B (respectivamente).Ambos métodos incorporan fenómenos psicoacústicos estándar tales como formación de bandas críticas, enmascaramiento de frecuencia y sonoridad específica. Los métodos están basados en la división de sonidos complejos en componentes que caen en "bandas críticas" de frecuencias, permitiendo la posibilidad de que algunos componentes enmascaren a otros, y la adición de la sonoridad específica en cada banda crítica para llegar a la sonoridad total del sonido.

La investigación reciente, según se ha puesto en evidencia por "Investigación en sonoridad de anuncios" (julio de 2002), de Australian Broadcasting Authority (ABA), ha mostrado que muchos anuncios (y algunos programas) fueron percibidos como demasiado ruidosos en relación con los otros programas, y que por lo tanto eran muy enojosos para los oyentes. La investigación de ABA es sólo el intento más reciente de enfrentarse al problema que ha existido durante años virtualmente a través de todo el material de difusión y países. Estos resultados muestran que la molestia de la audiencia debido a sonoridad indebida a través de material de programas podría ser reducida, o eliminada, si se pudieran efectuar mediciones fiables, compatibles, de sonoridad de programas y se usaran para reducir las molestas variaciones de sonoridad.

La escala de Bark es una unidad de medición usada en el concepto de bandas críticas. La escala de bandas críticas está basada en el hecho de que la audición humana analiza un amplio espectro en partes que corresponden a sub-bandas críticas menores. El añadir una banda crítica a la siguiente de tal modo que el límite superior de la banda crítica inferior sea el límite inferior de la siguiente banda crítica más alta, conduce a la escala de régimen de banda-crítica. Si las bandas críticas se añaden de este modo, entonces a cada punto de cruce corresponde una cierta frecuencia. La primera banda crítica salva el intervalo de 0 a 100 Hz, la segunda de 100 Hz a 200 Hz, la tercera de 200 Hz a 300 Hz, y así sucesivamente hasta 500 Hz, donde aumenta el intervalo de frecuencias de cada banda crítica. El intervalo de frecuencias audibles de 0 a 16 kHz puede ser subdividido en 24 bandas críticas en contacto, lo que aumenta en anchura de banda con la frecuencia creciente. Las bandas críticas se numeran de 0 a 24 y tienen la unidad "Bark", definiendo la escala de Bark. La relación entre régimen de banda-crítica y frecuencia es importante para el entendimiento de muchas características del oído humano. Véase, por ejemplo, Psychoacoustics-Facts and Models, de E. Zwicker y H.Fastl, Springer-Verlag, Berlín, 1990.

La escala de Anchura de Banda Rectangular Equivalente (ERB: Equivalent Rectangular Bandwidth) es un modo de medir la frecuencia para la audición humana que es similar a la escala de Bark. Desarrollada por Moore, Glasberg y Baer, es un perfeccionamiento del trabajo de sonoridad de Zwicker. Véase Moore, Glasberg y Baer (B.C.J. Moore, B. Glasberg, T. Baer, "Un modelo para la predicción de umbrales, sonoridad y sonoridad parcial", Revista de la Audio Engineering Society, Vol. 45, número 4, abril de 1997, páginas 224-240). La medición de las bandas críticas por debajo de 500 Hz es difícil debido a que a tales bajas frecuencias la eficacia y sensibilidad del sistema de audición humano disminuye rápidamente. Mediciones mejoradas de la anchura de banda de filtro de audición han conducido a la escala de régimen de ERB. Tales mediciones usaban enmascaradores de ruido cortado para medir la anchura de banda de filtros de audición. En general, para la escala de ERB la anchura de banda de filtro de audición (expresada en unidades de ERB) es menor que en la escala de Bark. La diferencia resulta mayor para frecuencias más bajas.

La selectividad de frecuencias del sistema de audición humano puede ser aproximada subdividiendo la intensidad de sonido en partes que caigan dentro de bandas críticas. Una tal aproximación conduce a la noción de intensidades de bandas críticas. Si en lugar de una pendiente infinitamente inclinada de los filtros de banda crítica hipotética, se considera la pendiente real producida en el sistema auditivo humano, entonces tal procedimiento conduce a un valor intermedio de intensidad denominada excitación. En la mayoría de los casos, tales valores no son usados como valores lineales, sino como valores logarítmicos similares al nivel de presión del sonido. La banda crítica y los niveles de excitación son los valores correspondientes que juegan un importante papel en muchos modelos como valores intermedios. (Véase Psychoacoustics - Facts and Models, supra).

El nivel de sonoridad puede ser medido en unidades de "fon". Un fon se define como la sonoridad percibida de una onda pura de 1 kHz reproducida a un nivel de presión de sonido (SPL: sound pressure level) de 1dB, que corresponde a una presión de raíz cuadrática media de 2x10^{-5} Pascales. N Fon es la sonoridad percibida de un tono de 1 kHz reproducido a un SPL de N dB. Usando esta definición en la comparación de la sonoridad de tonos a frecuencias diferentes de 1 kHz con un tono a 1 kHz, se puede determinar un perfil de sonoridad igual para un nivel dado de fon. La figura 7 muestra perfiles de nivel de sonoridad iguales para frecuencias entre 20 Hz y 12,5 kHz, y para niveles de fon entre 4,2 fon (considerado como el umbral de audición) y 120 fon (ISO226: 1987 (E), "Acoustics-Normal Equal Loudness Level Contours").

El nivel de sonoridad puede ser medido también en unidades de "sone". Hay una correspondencia de uno a uno entre unidades de fon y unidades de sone, como se indica en la figura 7. Un sone se define como la sonoridad de una onda sinusoidal pura de 1 kHz de (SPL) de 40 dB y es equivalente a 40 fon. Las unidades de sone son tales que un aumento doble en sone corresponde al doble de la sonoridad percibida. Por ejemplo, 4 sone se percibe como dos veces tal alta como 2 sone. De este modo, el expresar la sonoridad en sone es más informativo.

Debido a que sone es una medida de sonoridad de una señal de audio, la sonoridad específica es simplemente sonoridad por unidad de frecuencia. Así, cuando se usa la escala de frecuencias de Bark, la sonoridad específica tiene unidades de sone por Bark y, análogamente, cuando se usa la escala de frecuencias de ERB, las unidades son sone por ERB.

A lo largo de todo el resto de este documento, términos como "filtro" o "grupo de filtros" se usan aquí para incluir esencialmente cualquier forma de filtrado recursivo y no recursivo tal como filtros o transformadores de IIR, e información "filtrada"es el resultado de aplicar tales filtros. Realizaciones descritas a continuación emplean grupos de filtros realizados por filtros de IIR y por transformaciones.

Descripción de la invención

Es un objeto de la invención proporcionar una técnica de medición objetiva de sonoridad que pueda ser adaptado más estrechamente a resultados de sonoridad subjetivos producidos midiendo estadísticamente la sonoridad usando múltiples oyentes humanos.

De acuerdo con un aspecto de la presente invención, un método para tratar una señal de audio incluye producir, en respuesta a la señal de audio, una señal de excitación, y calcular la sonoridad porcentual de la señal de audio en respuesta a la señal de excitación y una medición de características de la señal de audio, en el que el cálculo selecciona, a partir de un grupo de dos o más funciones de sonoridad específica, una o una combinación de dos o más de las funciones de modelo de sonoridad especifica, cuya selección es controlada por la medición de características de la señal de audio de entrada. De acuerdo con otros aspectos de la invención, se proporcionan un aparato y un programa de ordenador como se exponen en las reivindicaciones 20 y 21, respectivamente.

En una realización que emplea aspectos de la invención, un método o dispositivo para tratamiento de señal recibe una señal de audio de entrada. La señal es filtrada linealmente por un filtro o función de filtro que simula las características del oído exterior y medio humano y un grupo de filtros o función de grupo de filtros que divide la señal filtrada en bandas de frecuencias que simulan la pauta de excitación generada a lo largo de la membrana basilar del oído interno. Para cada banda de frecuencias, la sonoridad específica se calcula usando una o más funciones o modelos de sonoridad específica, la selección de los cuales es controlada por propiedades o características extraídas de la señal de audio de entrada. La sonoridad específica para cada banda de frecuencias se combina en una medida de sonoridad, representativa de la señal de audio de entrada de banda ancha. Se puede calcular un valor único de la medida de sonoridad para un intervalo de tiempo finito de la señal de entrada, o la medida de sonoridad puede ser calculada repetidamente a intervalos de tiempo o bloques de la señal de audio de entrada.

\newpage

En otra realización que utiliza aspectos de la invención, un método o dispositivo para tratamiento de señales recibe una señal de audio de entrada. La señal es linealmente filtrada por un filtro o función de filtro que simula las características del oído exterior y medio humano y un grupo de filtros o función de grupo de filtros que divide la señal filtrada en bandas de frecuencias que simulan la pauta de excitación generada a lo largo de la membrana basilar del oído interno. Para cada banda de frecuencias, la sonoridad específica se calcula usando una o más funciones o modelos de sonoridad específica; la selección de los cuales es controlada por propiedades o características extraídas de la señal de audio de entrada. La sonoridad específica para cada banda de frecuencias se combina en una medida de sonoridad representativa de la señal de audio de entrada de banda ancha. La medida de sonoridad se compara con un valor de sonoridad de referencia y la diferencia se usa para ajuste de escala o ganancia de las señales en banda de frecuencias previamente introducidas para el cálculo de la sonoridad específica. El cálculo de la sonoridad específica, el cálculo de la sonoridad y la comparación de referencia se repiten hasta que la sonoridad y el valor de sonoridad de referencia son esencialmente equivalentes. De ese modo, la ganancia aplicada a las señales en banda de frecuencias representa la ganancia que, cuando se aplica a la señal de audio de entrada, da lugar a la sonoridad percibida de la señal de audio de entrada que es esencialmente equivalente a la sonoridad de referencia. Se puede calcular un valor único de la medida de sonoridad para algún intervalo finito de la señal de entrada, o la medición de sonoridad puede ser calculada repetidamente a intervalos o bloques de tiempo de la señal de audio de entrada. Se prefiere una aplicación recurrente debido a la naturaleza no lineal de sonoridad percibida, así como a la estructura del proceso de medición de sonoridad.

Los diversos aspectos de la presente invención y sus realizaciones preferidas se pueden comprender mejor en referencia a la siguiente descripción y a los dibujos que se acompañan, en los cuales los mismos números de referencia se dirigen a elementos similares en las diversas figuras. Los dibujos, que ilustran varios dispositivos o procedimientos, muestran elementos principales que son de ayuda para el entendimiento de la presente invención. Por razones de claridad, los dibujos omiten muchas otras características que pueden ser importantes en las realizaciones prácticas y que son bien conocidas por los expertos ordinarios en la técnica, pero que no son importantes para entender los conceptos de la presente invención. El tratamiento de señal para practicar la presente invención puede ser realizado de una amplia variedad de modos, incluyendo programas ejecutados por microprocesadores, procesadores de señal digital, series lógicas y otras formas de circuitos de cálculo.

Descripción de los dibujos

La figura 1 es un diagrama de bloques funcional esquemático de una realización de un aspecto de la presente invención.

La figura 2 es un diagrama de bloques funcional esquemático de una realización de un aspecto más de la presente invención.

La figura 3 es un diagrama de bloques funcional esquemático de una realización de todavía un aspecto más de la presente invención.

La figura 4 es una respuesta de característica idealizada de un filtro lineal P(z) apropiado como un filtro de transmisión en una realización de la presente invención en la que el eje vertical es la atenuación en decibelios (dB) y el eje horizontal es una frecuencia logarítmica de base 10 en Hertz (Hz).

La figura 5 muestra la relación entre la escala de frecuencias de ERB (eje vertical) y la frecuencia en Hertz (eje horizontal).

La figura 6 muestra un conjunto de respuestas de características de filtro de audición idealizadas que se aproxima a la formación de bandas críticas aproximadas en la escala de ERB. La escala horizontal es la frecuencia en Hertz y la escala vertical es el nivel en decibelios.

La figura 7 muestra los perfiles o curvas de sonoridad de ISO266. La escala horizontal es la frecuencia en Hertz (escala logarítmica de base 10) y la escala vertical es el nivel de presión de sonido en decibelios.

La figura 8 muestra las curvas de sonoridad igual de ISO226 normalizadas por el filtro de transmisión P(z). La escala horizontal es la frecuencia en Hertz (escala logarítmica de base 10) y la escala vertical es el nivel de presión del sonido en decibelios.

La figura 9 (líneas llenas) muestra representaciones de sonoridad tanto para ruido de excitación uniforme como para un tono de 1 kHz, en las que las líneas llenas están de acuerdo con una realización de la presente invención en la que se eligen parámetros para adaptarse a datos experimentales de acuerdo con Zwicker (cuadrados y círculos). La escala vertical es la sonoridad en sone (logarítmica de base 10) y la escala horizontal es el nivel de presión del sonido en decibelios.

La figura 10 es u diagrama de bloques funcional esquemático de una realización de un aspecto más de la presente invención.

La figura 11 es un diagrama de bloques funcional esquemático de una realización de todavía un aspecto más de la presente invención.

La figura 12 es un diagrama de bloques funcional esquemático de una realización de otro aspecto de la presente invención.

La figura 13 es un diagrama de bloques funcional esquemático de una realización de otro aspecto de la presente invención.

Mejores modos de realizar la invención

Como se describe con más detalle a continuación, una realización de un primer aspecto de la presente invención, mostrada en la figura 1, incluye un controlador o función de controlador de sonoridad específica ("Control de Sonoridad Específica") 124 que analiza y deduce características de una señal de audio de entrada. Las características de audio se utilizan para controlar parámetros en un convertidor o función de convertidor de sonoridad específica ("Sonoridad Específica") 120. Ajustando los parámetros de sonoridad específica usando características de señal, la técnica de medición de sonoridad objetiva de la presente invención puede ser adaptada más estrechamente a resultados de sonoridad subjetivos producidos midiendo estadísticamente la sonoridad usando múltiples oyentes humanos. El uso de características de señal para controlar parámetros de sonoridad reduce también la ocurrencia de mediciones incorrectas que dan lugar a sonoridad de señal considerada molesta para los oyentes.

Como se describe con más detalle en lo que sigue, una realización de un segundo aspecto de la presente invención, mostrado en la figura 2, añade un dispositivo o función de ganancia ("Actualización de Ganancia Iterativa") 233, cuya finalidad es ajustar iterativamente la ganancia de la señal de excitación promediada asociada, deducida de la señal de audio de entrada hasta que la sonoridad asociada en 223 de la figura 2 se iguala a una sonoridad de referencia deseada en 230 de la figura 2. Debido a que la medición objetiva de sonoridad percibida implica un proceso inherentemente no lineal, un bucle iterativo puede ser ventajosamente empleado para determinar una ganancia apropiada para igualar la sonoridad de la señal de audio de entrada a un nivel de sonoridad deseado. Sin embargo, un bucle de ganancia iterativa que circunde un sistema de medición de sonoridad completo, de tal manera que el ajuste de ganancia se aplique a la señal de audio de entrada original para cada iteración de sonoridad, sería caro de ejecutar debido a la integración temporal requerida para generar una medida exacta de sonoridad a la larga. En general, en una tal disposición, la integración temporal requiere nuevo cálculo para cada cambio de ganancia en la iteración. Sin embargo, como se explica con más detalle en lo que sigue, en los aspectos de la invención mostrados en las realizaciones de la figura 2 y también las figuras 3 y 10-12, la integración temporal puede ser realizada en trayectorias de tratamiento lineales que precedan y/o sigan el proceso no lineal que forma parte del bucle de ganancia iterativo. Las trayectorias de tratamiento lineales no forman parte del bucle de iteración. De ese modo, por ejemplo en la realización de la figura 2, la trayectoria de medición de sonoridad desde la entrada 201 a un convertidor o función de convertidor de sonoridad específica ("Sonoridad Específica") 220, puede incluir la integración temporal en función de promediado de tiempo ("Time Averaging") 206, y es lineal. En consecuencia, las iteraciones de ganancia sólo necesitan ser aplicadas a un conjunto reducido de dispositivos o funciones de medición de sonoridad y no precisa incluir integración temporal alguna. En la realización de la figura 2, el filtro de transmisión o función de filtro de transmisión ("Transmission Filter") 202, el grupo de filtros o función de grupo de filtros ("Grupo de Filtros") 204, el promediador de tiempo o función de promediado de tiempo ("Promediado de Tiempo") 206 y el controlador de sonoridad específica o función de control de sonoridad específica ("Control de Sonoridad Específica") 224 no forman parte del bucle iterativo, que permite ejecutar control de ganancia iterativo en sistemas en tiempo real eficaces y exactos.

En referencia ahora a la figura 1, se muestra en ella un diagrama de bloques funcional de una realización de un medidor de sonoridad o proceso de medición de sonoridad 100 de acuerdo con un primer aspecto de la presente invención. Una señal de audio para la cual se va a determinar una medición de sonoridad se aplica a una entrada 101 del medidor de sonoridad o proceso de medición de sonoridad 100. La entrada se aplica a dos trayectorias - una primera (principal) trayectoria que calcula la sonoridad específica en cada una de una pluralidad de bandas de frecuencias que simula las de una pauta de excitación generada a lo largo de la membrana basilar del oído interno y una segunda (secundaria) trayectoria que tiene un controlador de sonoridad específica que selecciona las funciones o modelos de sonoridad específica empleados en la trayectoria principal.

En una realización preferida, el tratamiento de audio se realiza en el dominio digital. Por lo tanto, la señal de entrada de audio está indicada por la secuencia de tiempo discreta x[n] que ha sido muestreada desde una fuente de audio a alguna frecuencia de muestreo f_{s} Se supone que la secuencia x[n] ha sido escalada apropiadamente de manera que la potencia de rms de x[n] en decibelios, dada por

100

es igual al nivel de presión de sonido en dB al que el audio está siendo oído por un oyente humano. Además, se supone que la señal de audio es monofónica, por simplificar la exposición. Sin embargo, la realización puede estar adaptada para audio de canales múltiples de la manera que se describe posteriormente.

Filtro de Transmisión 102

En la trayectoria principal, la señal de entrada de audio se aplica a un filtro de transmisión o función de transmisión ("Filtro de Transmisión") 102, cuya salida es una versión filtrada de la señal de audio. El Filtro de Transmisión 102 simula el efecto de la transmisión de audio a través del oído externo y medio con la aplicación de un filtro lineal P(z). Como se muestra en la figura 4, una respuesta de frecuencia de P(z) de magnitud apropiada es la unidad por debajo de 1 kHz, y, por encima de 1 kHz, la respuesta sigue la inversa del umbral de audición como se especifica en la norma ISO226, con el umbral normalizado a unidad igual a 1 kHz. Mediante la aplicación de un filtro de transmisión, el audio que es tratado por el proceso de medición de sonoridad se asemeja más estrechamente al audio que es percibido por el oído humano, mejorando con ello la medición objetivo de sonoridad. Así, la salida del Filtro de Transmisión 102 es una versión a escala dependiente de la frecuencia de las muestras de audio de entrada x[n] en dominio de
tiempo.

Grupo de Filtros 104

La señal de audio filtrada es aplicada a un grupo de filtros o función de grupo de filtros ("Grupo de Filtros"). El grupo de filtros 104 está diseñado para simular la pauta de excitación generada a lo largo de la membrana basilar del oído interno. El grupo de filtros 104 puede incluir un conjunto de filtros lineales cuyas anchura de banda y separación son constantes en la escala de frecuencias de Ancho de Banda Rectangular Equivalente (ERB), según es definida por Moore, Glasberg y Baer (B. C. J. Moore, B. Glasberg, T. Baer, "Un modelo para predicción de umbrales, sonoridades y sonoridades parciales" supra).

Aunque la escala de frecuencias de ERB se adapta más estrechamente a la percepción humana y muestra comportamiento mejorado en la producción de mediciones de sonoridad objetiva que igualan a los resultados de sonoridad subjetiva, la escala de frecuencias de Bark puede ser empleada con rendimiento reducido.

Para una frecuencia central f en hertz, la anchura de una banda de ERB en hertz puede ser aproximada como:

101

A partir de esta relación, una escala de frecuencias deformada se define de tal manera que en cualquier punto a lo largo de la escala deformada, la ERB correspondiente en unidades de la escala deformada es igual a uno. La función para convertir desde frecuencia lineal en hertz a esta escala de frecuencias de ERB se obtiene integrando la inversa de la Ecuación 1:

102

Es también útil expresar la transformación desde la escala de ERB de nuevo a la escala de frecuencias lineal resolviendo la ecuación 2a para f:

103

donde e está en unidades de la escala de ERB. La figura 5 muestra la relación entre la escala de ERB y la frecuencia en hertz.

La respuesta de los filtros de audición para el grupo de filtros 104 puede ser caracterizada y ejecutada usando filtros estándar de IIR. Más concretamente, los filtros de audición individuales a la frecuencia central f_{c} en hertz que se ejecuta en el grupo de filtros 104 pueden ser definidos por la función de transferencia de IIR de orden doce:

104

\newpage

donde

105

f_{s} es la frecuencia de muestreo en hertz, y G es un factor de normalización para asegurar que cada filtro tenga ganancia unidad en el pico en su respuesta de frecuencia; elegido de tal manera que

106

El Grupo de Filtro 104 puede incluir M de tales filtros de audición, a los que se hace referencia como bandas, a frecuencias centrales f_{c}[1]... f_{c}[M] separadas uniformemente a lo largo de la escala de ERB. Más concretamente,

107

donde \Delta es la separación deseada de ERB del grupo de filtros 104, y donde f_{min} y f_{máx} son las frecuencias centrales mínima y máxima deseadas, respectivamente. Se puede elegir \Delta = 1, y, teniendo en cuenta el intervalo de frecuencias en el cual es sensible el oído humano, se puede establecer f_{min} = 50 Hz y f_{máx} = 20.000 Hz. Con tales parámetros, por ejemplo, la aplicación de las Ecuaciones a-c da M = 40 filtros de audición. Las magnitudes de tales M filtros de audición, con formación de bandas críticas aproximadas en la escala de ERB, se muestran en la figura 6.

Alternativamente, las operaciones de filtración pueden ser adecuadamente aproximadas usando una Transformada de Fourier Discreta de longitud finita, a la que se hace referencia comúnmente como Transformada de Fourier Discreta de Tiempo- Corto (STDFT), debido a que se cree que una ejecución que hace funcionar los filtros al régimen de muestreo de la señal de audio, a la que se hace referencia como una ejecución a pleno régimen, proporciona más resolución temporal que la que es necesaria para mediciones de sonoridad exactas. Usando la STDFT en lugar de una ejecución a pleno régimen, se puede conseguir una mejora de eficacia y reducción de complejidad de cálculo.

La STDFT de la señal de audio de entrada x[n] está definida como:

108

donde k es el índice de frecuencia, t es el índice de bloque de tiempo, N es el tamaño de DRT, T es el tamaño de reflejo o retorno, y w[n] es la ventana normalizada de longitud N de manera que

109

Obsérvese que la variable t en la Ecuación 6 es un índice discreto que representa el bloque de tiempo de la STDFT como opuesto a una medida de tiempo en segundos. Cada incremento de t representa un reflejo de T muestras a lo largo de la señal x[n]. Subsiguientes referencias al índice t suponen esta definición. Aunque se pueden usar diferentes establecimientos de parámetros y formas de ventanas, dependiendo de los detalles de ejecución, para f_{s} = 44100 Hz, la elección de N = 4096, T = 2048, y, el hecho de tener w[n] una ventana de Hanning, produce excelentes resultados. La STDFT descrita anteriormente puede ser más eficaz usando la Transformada de Fourier Rápida (FFT: Fast Fourier Transform).

Con el fin de calcular la sonoridad de la señal de audio de entrada, es necesaria una medición de la energía de la señal de audio en cada filtro del grupo de filtros 104. La salida de energía en corto tiempo de cada filtro del grupo de filtros 104 puede ser aproximada mediante multiplicación de respuestas de filtro en el dominio de frecuencias con el espectro de potencia de la señal de entrada:

110

donde m es el número de banda, t es número de bloque y P es el filtro de transmisión. Se ha de observar que se pueden usar en la Ecuación 8 formas para la respuesta de magnitud de los filtros de audición distintas de la especificada en la Ecuación 3, para conseguir resultados similares. Por ejemplo, Moore y Glasberg proponen una forma de filtro descrita por una función exponencial que actúa de forma similar a la Ecuación 3. Además, con una ligera reducción de prestación, se puede aproximar cada filtro como un paso de banda de "pared de ladrillo" con una anchura de banda de un ERB, y, como una aproximación más, el filtro de transmisión P puede ser extraído de la suma. En este caso, la Ecuación 8 se simplifica a

111

De ese modo, la salida de excitación del grupo de filtros 104 es una representación de dominio de frecuencias de energía E en respectivas bandas m de ERB por cada periodo de tiempo t.

Canal Múltiple

Para el caso en que la señal de audio de entrada es un formato de canal múltiple que se ha de añadir sobre múltiples altavoces, uno por cada canal, la excitación para cada canal individual puede ser primero calculada como se ha descrito anteriormente. Con el fin de calcular a continuación la sonoridad percibida de todos los canales combinados, las excitaciones individuales pueden ser sumadas conjuntamente en una excitación única para aproximarse a la excitación que alcanzan los oídos de un oyente. La totalidad del tratamiento subsiguiente es entonces realizado en esta excitación única, sumada.

Promediado de Tiempo 106

La investigación en psicoacústica y los ensayos de sonoridad subjetiva sugieren que cuando se compara la sonoridad entre varias señales de señales de audio, los oyentes realizan algún tipo de integración temporal de corto plazo o sonoridad de señal "instantánea" para llegar a un valor de sonoridad percibida a largo plazo para usar en la comparación. Cuando se construye un modelo de percepción de sonoridad, otros han sugerido que esta integración temporal sea realizada después de que la excitación haya sido transformada de manera no lineal en sonoridad específica. Sin embargo, los presentes inventores han determinado que esta integración temporal puede ser adecuadamente modelada usando filtrado lineal en la excitación antes de que sea transformada en sonoridad específica. Realizando el filtrado antes del cálculo de la sonoridad específica, de acuerdo con un aspecto de la presente invención, se obtiene una ventaja significativa cuando se calcula la ganancia que se precisa aplicar a una señal con el fin de ajustar su sonoridad medida de una manera prescrita. Como se explica con más detalle en lo que sigue, la ganancia puede ser calculada usando un bucle iterativo que no sólo excluye el cálculo de excitación, sino que excluye preferiblemente tal integración temporal. De esta manea, el bucle de iteración puede generar la ganancia a través de cálculos que dependan sólo del marco de tiempo actual para el que está siendo calculada la ganancia, como opuesto al cálculo que depende del intervalo de tiempo total de integración temporal. El resultado es un ahorro tanto en tiempo de tratamiento como en memoria. Las realizaciones que calculan la ganancia usando un bucle iterativo incluyen las descritas en lo que sigue en relación con las figuras 2, 3 y 10-12.

Volviendo a la descripción de la figura 1, el filtrado lineal de la excitación puede ser ejecutado de varias maneras. Por ejemplo, el filtrado puede ser realizado de modo recursivo usando un dispositivo o función de promediado de tiempo ("Promediado de Tiempo") 106 utilizando las siguientes ecuaciones:

\vskip1.000000\baselineskip

112

donde las condiciones iniciales son \tilde{\mathit{E}}[m,-1] = 0 y \tilde{\sigma}[m,-1] = 0. Una característica única del filtro de filtración es que variando el parámetro de filtración \lambda_{m}, la energía filtrada \tilde{\mathit{E}}[m,t] puede variar desde el promedio de tiempo verdadero de E[m,t] a un promedio de memoria de desvanecimiento de \tilde{\mathit{E}}[m,t]. Si \lambda_{m} = 1, entonces de (10b) se puede ver que \tilde{\sigma}[m,t, = t] y \tilde{\mathit{E}}[m,t] es entonces igual al promedio de tiempo verdadero para bloques de tiempo 0 a t. Si 0 \leq \lambda_{m} <1, entonces \tilde{\sigma}[m,t] \rightarrow 1/(1 - \lambda_{m}) cuando t \rightarrow \infty y \tilde{\mathit{E}}[m,t] es simplemente el resultado de aplicar un filtrador de un polo a E[m,t]. Para la aplicación en la que se desea un número único que describa la sonoridad a largo plazo de un segmento de audio de longitud finita, se puede establecer \lambda_{m} = 1 para todas las m. Para una aplicación en tiempo real, en la que se deseara seguir la sonoridad variable en el tiempo de una corriente de audio continua en tiempo real, se puede establecer 0 \leq \lambda_{m} < 1 y establecer \lambda_{m} en el mismo valor para todas las m.

En el cálculo del promedio de tiempo de puede ser deseable omitir segmentos de tiempo corto que se consideran "demasiado silencioso" y no contribuyen a la sonoridad percibida. Para conseguir esto, un segundo filtrador de umbral puede ser hecho discurrir en paralelo con el filtrador de la Ecuación 10. Este segundo filtrador mantiene su valor de corriente si E[m,t] es relativamente pequeño con relación a \tilde{\mathit{E}}[m,t]:

113

\vskip1.000000\baselineskip

114

donde tdB es el umbral relativo expresado en decibelios. Aunque no es crítico para la invención, se ha visto que un valor de tdB = -24 produce buenos resultados. Si no existe un segundo filtrador que discurra en paralelo, entonces
\overline{E}[m,t] = \tilde{\mathit{E}}[m,t].

\newpage

Sonoridad Específica 120

Falta que la energía de excitación promediada en tiempo, de formación en bandas \overline{E}[m,t] sea convertida en una medida única de sonoridad en unidades porcentuales, sone en este caso. En el convertidor o función de conversión de sonoridad específica ("Sonoridad Específica") 120, cada banda de la excitación es convertida en un valor de sonoridad específica, que es medida en sone por ERB. En el combinador de sonoridad o función de combinación de sonoridad ("Sonoridad") 122, los valores de sonoridad específica pueden ser integrados o sumados a través de bandas para producir la sonoridad porcentual total.

Control de Sonoridad Específica 124/Sonoridad Específica 120 Modelos Múltiples

En un aspecto, la presente invención utiliza una pluralidad de modelos en bloque 120 para convertir la excitación en bandas en sonoridad específica en bandas. La información de control deducida de la señal de audio de entrada a través del Control de Sonoridad Específica 124 en la trayectoria secundaria selecciona un modelo o controla el grado al cual contribuye un modelo a la sonoridad específica. En el bloque 124, ciertos rasgos o características que son útiles para seleccionar uno o más modelos de sonoridad específica de los disponibles son extraídos del audio. Las señales de control que indican qué modelo, o combinación de modelos, se ha de usar, son generadas de los rasgos o características extraídos.

Por ejemplo, la sonoridad específica N'[m,t] por banda puede ser expresada como una combinación lineal de la sonoridad específica por banda para cada modelo N'_{q}[m,t] como:

1140

donde Q indica el número total de modelos y la información de control \alpha_{q}[m,t] representa la ponderación o contribución de cada modelo. La suma de las ponderaciones puede o pueden no ser iguales a uno, dependiendo de los modelos que estén siendo usados.

Aunque la invención no está limitada a ellos, se ha visto que dos modelos proporcionan resultados exactos. Un modelo se comporta mejor cuando la señal de audio está caracterizada como banda estrecha, y el otro se comporta mejor cuando la señal de audio está caracterizada como banda ancha.

Inicialmente, en el cálculo de la sonoridad específica, el nivel de excitación de cada banda de \overline{E}[m,t] puede ser transformado en un nivel de excitación equivalente a 1 kHz según se especifica por los perfiles o curvas de sonoridad iguales de ISO266 (figura 7) normalizados por el filtro de transmisión P(z)(figura 8).

115

\vskip1.000000\baselineskip

donde L_{1kHz}(E,f) es una función que genera el nivel a 1kHz, que es igualmente sonoro a nivel E a la frecuencia f. En la práctica, L_{1kHz}(E,f) se ejecuta como una interpolación de una tabla de observación o consulta de los perfiles de sonoridad igual, normalizados por el filtro de transmisión. La transformación a niveles equivalentes a 1 kHz simplifica el siguiente cálculo de sonoridad específica.

A continuación, la sonoridad específica en cada banda se puede calcular como:

\vskip1.000000\baselineskip

116

\vskip1.000000\baselineskip

donde N'_{NB}[m,t] y N'_{WB}[m,t] son valores de sonoridad específica basados en una banda estrecha y modelo de señal de banda ancha, respectivamente. El valor \alpha[m,t] es un factor de interpolación que se sitúa entre 0 y 1, que es calculado a partir de la señal de audio, los detalles del cual se describen en lo que sigue.

\newpage

Los valores de sonoridad específica de banda estrecha y de banda ancha N'_{NB}[m,t] y N'_{WB}[m,t] pueden ser estimados a partir de la excitación en banda usando las funciones exponenciales:

117

\vskip1.000000\baselineskip

118

donde TQ_{1kHz} es el nivel de excitación en umbral en silencio o reposo para un tono de 1 kHz. Desde los perfiles de sonoridad iguales (figuras 7 y 8) TQ_{1kHz} iguala a 4,2 dB. Se observa que ambas de estas funciones de sonoridad específica son iguales a cero cuando la excitación es igual al umbral en silencio. Para excitaciones mayores que el umbral en silencio, ambas funciones crecen monotónicamente con una ley de potencia de acuerdo con la ley de Stevens de sensación de intensidad. El exponente para la función de banda estrecha es elegido de manera que sea mayor que el de la función de banda ancha, haciendo que la función de banda estrecha aumente más rápidamente que la función de banda ancha. La selección específica de exponentes \beta y ganancias G para los casos de banda estrecha y banda ancha se explican a continuación.

Sonoridad 122

La sonoridad 122 usa la sonoridad específica en banda de Sonoridad Específica 120 para crear una medida de sonoridad única para la señal de audio, a saber, una salida en el terminal 123 que es un valor de sonoridad en unidades porcentuales. La medida de sonoridad puede tener unidades arbitrarias, siempre que la comparación de valores de sonoridad para diferentes señales de audio indique que es más sonora y que es más suave.

La sonoridad total expresada en unidades de sone puede ser calculada como la suma de la sonoridad específica para todas las bandas de frecuencias:

119

donde \Delta es la separación de ERB especificada en la Ecuación 5. Los parámetros G_{NB} y \beta_{NB} en la Ecuación 15a se eligen de manera que cuando \alpha[m,t] = 1, una representación de S en sone en función de SPL para 1kHz es esencialmente igual a los correspondientes datos experimentales presentados por Zwicker (los círculos de la figura 9) (Zwicker, H. Fastl, "Psychoacoustics-Facts and Models", supra). Los parámetros G_{WM} y \beta_{WB} en la Ecuación 15b se eligen de manera que cuando \alpha[m,t] = 0, una representación de N en sone, en función de SPL para ruido de excitación uniforme (ruido con potencia igual en cada ERB) es esencialmente igual a los correspondientes resultados de Zwicker (los cuadrados de la figura 9). Un mínimo cuadrado que concuerda con los datos de Zwicker da:

120

La figura 9 (líneas llenas) muestra representaciones de sonoridad tanto para ruido de excitación uniforme como para un tono de 1 kHz.

Control de Sonoridad Específica 124

Como se ha mencionado anteriormente, se usan dos modelos de sonoridad específica en una realización práctica (Ecuaciones 15a y 15b), uno para señales de banda estrecha y uno para señales de banda ancha. El Control de Sonoridad Específica 124 de la trayectoria secundaria calcula una medida, \alpha[m,t], del grado al que la señal de entrada es o bien de banda estrecha o de banda ancha en cada banda. En un sentido general, \alpha[m,t] ha de ser igual a uno cuando la señal es de banda estrecha próxima a la frecuencia central f_{\alpha}[m] de una banda. El control ha de variar continuamente entre los dos extremos para mezclas variables de tales características. Como una simplificación, el control \alpha[m,t] puede ser elegido como constante a través de las bandas, en cuyo caso \alpha[m,t] es referido subsiguientemente como \alpha[t], omitiendo el índice m de banda. El control \alpha[t] representa entonces una medida de cómo de banda estrecha es la señal a través de todas las bandas. Aunque un método adecuado para generar un tal control se describe a continuación, el método particular no es crítico y se pueden emplear otros métodos apropiados.

El control \alpha[t] puede ser calculado a partir de la excitación E[m,t] en la salida del Grupo de Filtros 104 en lugar de a través de algún otro tratamiento de la señal x[n]. E[m,t] puede proporcionar una referencia adecuada a partir de la cual se mida el "carácter de banda estrecha" y el "carácter de banda ancha" de x[n], y, como resultado, \alpha[t] puede ser generada con poco cálculo añadido.

"Planitud espectral" es la característica de E[m,t] a partir de la cual se puede calcular. Planitud espectral, según se define por Jayant y Noll (N. S. Jayant, P. Noll, Codificación digital de formas de onda, Prentice Hall, New Jersey, 1984), es la relación de la media geométrica a la media aritmética, en que la media es tomada a través de la frecuencia (índice m en el caso de E[m,t]). Cuando E[m,t] es constante a través de m, la media geométrica es igual a la media aritmética, y la planitud espectral es igual a uno. Esto corresponde al caso de banda ancha. Si E[m,t] varía significativamente a través de m, entonces la media geométrica es significativamente menor que la media aritmética, y la planitud espectral se aproxima a cero. Esto corresponde al caso de banda estrecha. Calculando un menos la planitud espectral, se puede generar una medida de "carácter de banda estrecha", en que cero corresponde a banda ancha y uno a banda estrecha. Concretamente, se puede calcular un menos una planitud espectral modificada de E[m,t]:

121

donde P[m] es igual a la respuesta a la frecuencia del filtro de transmisión P(z) muestreada a la frecuencia \omega = 2\pif_{c}[m]/f_{z}. La normalización de E[m,t] mediante el filtro de transmisión puede proporcionar mejores resultados debido a que la aplicación del filtro de transmisión introduce un "bump" en E[m,t] que tiende a inflar la medida de "carácter de banda estrecha". Adicionalmente, calculando la planitud espectral en un subconjunto de bandas de E[m,t] se pueden obtener mejores resultados. Los límites inferior y superior de suma en la Ecuación 18, M_{1}[t] y M_{u}[t], definen una región que puede ser menor que el intervalo de todas las M bandas. Se desea que M_{1}[t] y M_{u}[t] incluyan una porción de E[m,t] que contiene la mayoría de su energía, y que el intervalo definido por M_{1}[t] y M_{u}[t] no sea mas que 24 unidades de anchura en la escala de ERB. Más concretamente (y recordando que f_{c}[m] es la frecuencia central de la banda m en Hz), se desea:

122

y se requiere:

1220

donde CT[t] es el centroide espectral de E[m,t] medido en la escala de ERB:

123

Idealmente, los límites de la suma, M_{1}[t] y M_{u}[t], están centrados alrededor de CT[t] cuando se mide en la escala de ERB, pero esto no siempre es posible cuando CT[t] está próxima a los límites inferior y superior de su intervalo.

A continuación, NB[t] puede ser filtrado en el tiempo de una manera análoga a la Ecuación 11a:

124

donde \overline{\sigma [t]} es igual al máximo de \overline{\sigma [m,t]}, definido en la Ecuación 11b, en todas las m.

Finalmente, \alpha[t] se calcula a partir de \overline{\mathit{NE}}[t] como sigue:

125

donde

126

Aunque la forma exacta de \Phi{x} no es crítica, el polinomio de la Ecuación 21b se puede encontrar haciendo óptimo \alpha[t] frente a la sonoridad subjetivamente medida de una gran variedad de material de audio.

La figura 2 muestra un diagrama de bloques funcional de una realización de un medidor de sonoridad o proceso de medición de sonoridad 200 de acuerdo con un segundo aspecto de la presente invención. Los dispositivos o funciones 202, 204, 206, 220, 222, 223 y 224 de la figura 2 corresponden a los respectivos dispositivos o funciones 102, 104, 106, 120, 122, 123 y 124 de la figura 1.

De acuerdo con un primer aspecto de la invención, de la cual muestra una realización la figura 2, el medidor de sonoridad o cálculo genera un valor de sonoridad en unidades porcentuales. Con el fin de ajustar la sonoridad de la señal de entrada, una medida útil es una ganancia G[t], la cual, cuando se multiplica por la señal de entrada x[n] (como, por ejemplo, en la realización de la figura 3, descrita más adelante), hace su sonoridad igual a un nivel de sonoridad de referencia S_{ref}, La sonoridad de referencia, S_{ref}, puede ser especificada arbitrariamente o medida por otro dispositivo o proceso que opere de acuerdo con el primer aspecto de la invención a partir de alguna señal de audio de referencia "conocida". Considerando que \Psi{x[n],t} representa la totalidad del cálculo realizado en la señal x[n] para generar la sonoridad S[t], se desea encontrar G[t] de tal manera que

127

Debido a que una porción del tratamiento incorporado en \Psi{\cdot} es no lineal, no existe solución de forma cerrada para G[t], de manera que, en su lugar, se puede utilizar una técnica iterativa para encontrar una solución aproximada. En cada iteración i del proceso, supongamos que G_{i} representa la estimación actual de G[t]. Para cada iteración, G_{i} es actualizada de manera que disminuye el error absoluto de la sonoridad de referencia.

128

Existen muchas técnicas apropiadas para actualizar G_{i} con el fin de conseguir la anterior disminución de error. Un tal método es el descenso de gradiente (véase Programación no lineal de Dimitri P. Bertseakas, Athena Scientific, Belmont, MA, 1995), en el que G_{i} es actualizada en una cantidad proporcional al error en las iteraciones previas:

129

donde \mu es el tamaño de paso de la iteración. La anterior iteración continúa hasta que el error absoluto está por debajo de cierto umbral, hasta que el número de iteraciones ha alcanzado cierto límite máximo predefinido, o hasta que ha transcurrido un tiempo especificado. En ese punto G[t] se fija igual a G_{i}.

Haciendo referencia de nuevo a las Ecuaciones 6-8, se observa que la excitación de la señal x[n] se obtiene a través de operaciones lineales en el cuadrado de la magnitud de STDFT de la señal, | X[k,t] |^{2}. Se deduce que la excitación resultante de una señal modificada en ganancia Gx[n] es igual a la excitación de x[n] multiplicada por G^{2}. Además, la integración temporal requerida para estimar la sonoridad percibida a largo plazo puede ser realizada a través de promediado lineal en tiempo de la excitación, y por tanto la excitación promediada en tiempo correspondiente a Gx[n] es igual a la excitación promediada en tiempo de x[n] multiplicada por G^{2}. Como resultado, el promediado en tiempo no necesita ser nuevamente calculado en toda la historia de la señal de entrada para cada nueva evaluación de \Psi{G_{i}x[n],t} en el proceso iterativo descrito anteriormente. En su lugar, la excitación promediada en tiempo \overline{\mathit{E}}[m,t] puede ser calculada sólo una vez a partir de x[n], y en la iteración pueden ser calculados valores actualizados de sonoridad aplicando el cuadrado de la ganancia actualizada directamente a \overline{\mathit{E}}[m,t]. Concretamente, suponiendo que \Psi_{E}{\overline{\mathit{E}}[m,t]} representa todo el tratamiento realizado en la excitación promediada en tiempo \overline{\mathit{E}}[m,t] para generar S[t], se cumple la siguiente relación para una ganancia multiplicativa general G:

130

Usando esta relación, el proceso iterativo puede ser simplificado sustituyendo \Psi{G_{i}x[n],t} por \Psi_{E}{G^{2}_{i}\overline{\mathit{E}}[m,t]}. Esta simplificación no sería posible si la integración temporal requerida para estimar la sonoridad percibida a largo plazo hubiera sido realizada después de la transformación no lineal a sonoridad específica.

El proceso iterativo para calcular G[t] está representado en la figura 2. La sonoridad de salida S[t] en el terminal 223 puede ser restada en un combinador substractivo o función de combinación 231 a partir de la sonoridad de referencia S_{ref} en el terminal 230. La señal de error resultante 232 es alimentada a un actualizador o función de actualización de ganancia iterativo ("Actualizador de Ganancia Iterativo") 233 que genera la siguiente ganancia G_{i} en la iteración. El cuadrado de esta ganancia, G^{2}_{i}, es entonces alimentado de nuevo a la salida 234 al combinador multiplicativo 208, G^{2}_{i} donde es multiplicada por la señal de excitación promediada en tiempo desde el bloque 206. El siguiente valor de S[t] en la iteración es entonces calculado a partir de esta versión modificada en ganancia de la excitación promediada en tiempo a través de los bloques 220 y 222. El bucle descrito itera hasta que se cumplen las condiciones de terminación, en cuyo momento la ganancia G[t] en el terminal 235 se establece igual al valor actual de G_{i}. El valor final de G[t] puede ser calculado a través del proceso iterativo descrito, por ejemplo, para cada marco t de FFT o justamente una vez al final de un segmento de audio después de que la excitación haya sido promediada en toda la longitud de este segmento.

Si se desea calcular la sonoridad de la señal no modificada en ganancia en combinación con este proceso iterativo, la ganancia G_{i} puede ser inicializada a uno al comienzo de cada proceso iterativo durante cada periodo de tiempo t. De este modo el primer valor de S[t] calculado en el bucle representa la sonoridad de la señal original y puede ser registrado como tal. Si no se desea, sin embargo, registrar este valor, G_{i} puede ser inicializada con cualquier valor. En el caso en que G[t] sea calculada en marcos de tiempo consecutivos y no se desee registrar la sonoridad de señal original, puede ser deseable inicializar G_{i} igual al valor de G[t] a partir del periodo de tiempo anterior. De este modo, si la señal no ha cambiado significativamente desde el periodo de tiempo anterior, es probable que el valor G[t] haya permanecido esencialmente el mismo. Por lo tanto, serán requeridas sólo unas pocas iteraciones para converger hacia el valor apropiado.

\newpage

Una vez que se han completado las iteraciones, G[t] representa la ganancia que se ha de aplicar a la señal de audio de entrada den 201 por algún dispositivo externo, de tal manera que la sonoridad de la señal modificada iguale la sonoridad de referencia. La figura 3 muestra una disposición adecuada en la que la ganancia G[t] desde la Actualización de Ganancia Iterativa 233 se aplica a una entrada de control de un dispositivo o función de control de nivel de señal, tal como un amplificador de voltaje controlado (VCA: voltaje controlled amplifier) 236 con el fin de proporcionar una señal de salida de ganancia ajustada. El VCA 234 de la figura 3 puede ser sustituido por un operador humano que controle un ajustador de ganancia en respuesta a una indicación sensorial de la ganancia G[t] en la línea 235.Una indicación sensorial puede ser proporcionada por un medidor, por ejemplo. La ganancia G[t] puede ser sometida a filtración de tiempo (no mostrado).

Para algunas señales, una alternativa a la filtración descrita en las Ecuaciones 10 y 11 puede ser deseable para calcular la sonoridad percibida a largo plazo. Los oyentes tienden a asociar la sonoridad a largo plazo de una señal con las porciones más sonoras de esa señal. Como consecuencia, la filtración presentada en las Ecuaciones 10 y 11 puede subestimar la sonoridad percibida de una señal que contenga largos periodos de silencio relativo interrumpido por segmentos más cortos de material más sonoro. Tales señales son con frecuencia encontradas en pistas de sonido de películas con cortos segmentos de diálogo rodeados de periodos más largos de ruido de escena ambiente. Incluso con el umbral presentado en la Ecuación 11, las porciones silenciosas de tales señales pueden contribuir demasiado fuertemente a la excitación promediada en tiempo \overline{\mathit{E}}[m,t].

Para tratar este problema, puede ser empleada una técnica estadística para calcular la sonoridad a largo plazo en un aspecto más de la presente invención. En primer lugar, la constante de tiempo de filtración en las Ecuaciones 10 y 11 se hace muy pequeña y tdB se fija en menos infinito de manera que \overline{\mathit{E}}[m,t] representa la excitación "instantánea". En este caso, el parámetro de filtración \lambda_{m} puede ser elegido para que varíe a través de las bandas m para modelar más exactamente la manera en que varía a través de la frecuencia la sonoridad instantánea. Sin embargo, en la práctica, la elección de \lambda_{m} para que sea constante a través de m todavía produce resultados aceptables. El resto del algoritmo anteriormente descrito opera sin cambio, dando lugar a una señal de sonoridad instantánea S[t], como se ha especificado en la Ecuación 16. En cierto intervalo, t_{1} \leq t \leq t_{2}, la sonoridad a largo plazo S_{p}[t_{1}, t_{2}] es entonces definida como un valor que es mayor que S[t] para p por ciento de los valores de tiempo en el intervalo y menor que S[t] para 100-p por ciento de los valores de tiempo en el intervalo. Los experimentos han mostrado que estableciendo p igual a aproximadamente 90% se hace subjetivamente igual a la sonoridad percibida a largo plazo. Con este establecimiento, solo 10% de los valores de S[t] necesitan ser significativos para afectar la sonoridad a largo plazo. El otro 90% de los valores puede ser relativamente silencioso sin disminuir la medida de sonoridad a largo plazo.

El valor S_{p}[t_{1}, t_{2}] puede ser calculado clasificando en orden ascendente los valores S[t], t_{1} \leq t \leq t_{2}, en una lista, S_{sort}{i}, 0 \leq i \leq t_{2} - t_{1}, donde i representa el elemento de orden i de la lista clasificada. La sonoridad a largo plazo está dada entonces por el elemento que es p por ciento del modo en la lista.

131

En sí mismo, el anterior cálculo es relativamente directo. Sin embargo, si se desea calcular una ganancia G_{2}[t_{1},t_{2}], la cual, cuando se multiplica por x[n] da lugar a que S_{p}[t_{1}, t_{2}] sea igual a cierta sonoridad de referencia S_{ref}, el cálculo resulta significativamente más complejo. Como antes, se requiere una solución iterativa, pero ahora la medida de sonoridad a largo plazo S_{p}[t_{1}, t_{2}] es dependiente en todo el intervalo de valores S[t], t_{1} \leq t \leq t_{2}, cada uno de los cuales debe ser actualizado con cada actualización de G_{i} en la iteración. Con el fin de calcular estas actualizaciones, la señal \overline{\mathit{E}}[m,t] debe ser almacenada en todo el intervalo t_{1} \leq t \leq t_{2}. Además, puesto que la dependencia de S[t] de Gi es no lineal, la ordenación relativa de S[t], t_{1} \leq t \leq t_{2}, puede cambiar con cada iteración, y por lo tanto debe ser también nuevamente calculada S_{sort}{i}. La necesidad de reclasificación es relativamente evidente cuando se consideran segmentos de señal a corto plazo cuyo espectro está justamente por debajo del umbral de audición para una ganancia particular en la iteración. Cuando se aumenta la ganancia, puede ser audible una porción significativa del espectro del segmento, lo que puede hacer que la sonoridad total del segmento sea mayor que la de otros segmentos de banda estrecha de la señal que fueran previamente audibles. Cuando el intervalo t_{1} \leq t \leq t_{2} resulta grande o si se desea calcular la ganancia G_{p}[t_{1}, t_{2}] continuamente como una función de una ventana de tiempo de deslizamiento, los costes de cálculo y de memoria de este proceso iterativo pueden resultar prohibitivos.

Un ahorro significativo en cálculo y memoria se consigue haciendo que S[t] sea una función monotónicamente creciente de G_{i}. En otras palabras, aumentando G_{i} aumenta siempre la sonoridad a corto plazo en cada instante de tiempo. Con este conocimiento, la ganancia de concordancia deseada G_{p}[t_{1}, t_{2}] puede ser eficazmente calculada como sigue. En primer lugar, se calcula la ganancia de concordancia previamente definida G[t] a partir de \overline{\mathit{E}}[m,t] usando la iteración descrita para todos los valores de t en el intervalo t_{1} \leq t \leq t_{2}. Obsérvese que para cada valor t, G[t] se calcula iterando sobre el valor único \overline{\mathit{E}}[m,t]. A continuación, se calcula de ganancia de concordancia a largo plazo G_{p}[t_{1}, t_{2}] clasificando en orden ascendente los valores G[t], t_{1} \leq t \leq t_{2} en una lista, G_{sort}{i} 0 \leq i \leq t_{2} - t_{1} y estableciendo después

132

Se arguye ahora que G_{p}[t_{1}, t_{2}] es igual a la ganancia que cuando se multiplica por x[n] da lugar a que S_{p}[t_{1}, t_{2}] sea igual a la sonoridad de referencia deseada S_{ref}. Obsérvese en la Ecuación 28 que G[t] < G_{p}[t_{1}, t_{2}] para 100-p por ciento de los valores de tiempo en el intervalo t_{1} \leq t \leq t_{2} y que G[t] > G_{p}[t_{1}, t_{2}] para el otro p por ciento. Para aquellos valores de G[t] tales que G[t] < G_{p}[t_{1}, t_{2}], se observa que si G_{p}[t_{1}, t_{2}] se fuera a aplicar a los correspondientes valores de \overline{\mathit{E}}[m,t] en vez de G[t], entonces los valores resultantes de S[t] serían mayores que la sonoridad de referencia deseada. Esto es cierto debido a que S[t] es una función monotónicamente creciente de la ganancia. Análogamente, si G_{p}[t_{1},t_{2}] se fuera a aplicar a los valores de \overline{\mathit{E}}[m,t] correspondientes a G[t] de tal manera que G[t] > G_{p}[t_{1},t_{2}], entonces los valores resultantes de S[t] serían menores que la sonoridad de referencia deseada. Por lo tanto, la aplicación de G_{p}[t_{1}, t_{2}] a todos los valores de \overline{\mathit{E}}[m,t] en el intervalo t_{1} \leq t \leq t_{2} da lugar a que S[t] sea mayor que el 100-p por ciento de referencia deseado del tiempo y menor que el p por ciento de referencia del tiempo. En otras palabras, S_{p}[t_{1}, t_{2}] es igual a la referencia deseada.

Este método alternativo de calcular la ganancia de concordancia evita la necesidad de almacenar \overline{\mathit{E}}[m,t] y S[t] en el intervalo t_{1} \leq t \leq t_{2}. Sólo se necesita almacenar G[t]. Además, para cada valor de G_{p}[t_{1}, t_{2}] que es calculado, el almacenamiento de G[t] en el intervalo t_{1} \leq t \leq t_{2} sólo necesita ser realizado una vez, en contraposición a la solución anterior, en la que S[t] necesita ser almacenada nuevamente en cada iteración. En el caso en que G_{p}[t_{1}, t_{2}] se haya de calcular continuamente en cierta longitud T de ventana de deslizamiento (es decir, t_{1} = t - T, t_{2} = t), la lista G_{sort}{i} se puede mantener eficientemente retirando y añadiendo simplemente un valor único de la lista clasificada para cada nuevo instante de tiempo. Cuando el intervalo t_{1} \leq t \leq t_{2} resulta extremadamente grande (la longitud de la totalidad de la canción o película, por ejemplo), la memoria requerida para almacenar G[t] puede ser todavía prohibitiva. En este caso, G_{p}[t_{1}, t_{2}] puede ser aproximadamente de un histograma hecho discreto de G[t]. En la práctica, este histograma es creado a partir de G[t] en unidades de decibelios. El histograma puede ser calculado como

H[i] = número de muestras en el intervalo t_{1} \leq t \leq t_{2} de al manera que

133

donde \Delta_{dB} es la resolución del histograma y dB_{min} es el mínimo del histograma. La ganancia de concordancia es entonces aproximadamente como

\vskip1.000000\baselineskip

134

donde

135

\vskip1.000000\baselineskip

e I es el índice máximo de histograma. Usando el histograma hecho discreto, sólo necesitan ser almacenados valores de I, y G_{p}[t_{1}, t_{2}] es fácilmente actualizado con cada nuevo valor de G[t].

Se pueden concebir otros métodos para aproximarse a G_{p}[t_{1}, t_{2}] desde G[t], y esta invención está destinada a incluir tales técnicas. El aspecto clave de esta porción de la invención es realizar algún tipo de filtración en la ganancia de concordancia o adaptación G[t] para generar la ganancia de concordancia a largo plazo Gp[t_{1}, t_{2}] en lugar de tratar la sonoridad instantánea S[t] para generar la sonoridad a largo plazo S_{p}[t_{1}, t_{2}], de la cual se estima entonces G_{p}[t_{1}, t_{2}] a través de un proceso iterativo.

Las figuras 10 y 11 representan sistemas similares a los de las figuras 2 y 3, respectivamente, pero en los que la filtración (dispositivo o función 237) de la ganancia de concordancia G[t] se usa para generar una señal de ganancia filtrada G_{p}[t_{1},t_{2}] (señal 238).

La sonoridad de referencia en la entrada 230 (figuras 2, 3, 10, 11) puede ser "fija" o "variable" y la fuente de la sonoridad de referencia puede ser interna o externa a una disposición que incorpore aspectos de la invención. Por ejemplo, la sonoridad de referencia puede ser fijada por un usuario, en cuyo caso su fuente es externa y puede permanecer "fija" durante un periodo de tiempo hasta que sea nuevamente fijada por el usuario. Alternativamente, la sonoridad de referencia puede ser una medida de sonoridad de otra fuente de audio derivada de un proceso o dispositivo de medición de sonoridad de acuerdo con la presente invención, tal como la disposición mostrada en el ejemplo de la figura 1.

El control de volumen normal de un dispositivo de producción de audio puede ser sustituido por un proceso o dispositivo de acuerdo con aspectos de la invención, tales como los ejemplo de la figura 3 o la figura 11. En ese caso, el botón, corredera, etc. de volumen, operado por el usuario, controlaría la sonoridad de referencia en 230 de la figura 3 o la figura 11 y, en consecuencia, el dispositivo de producción de audio tendría una sonoridad mesurada con el ajuste del usuario del control de volumen.

Un ejemplo de una referencia variable se muestra en la figura 12, en la que la sonoridad de referencia S_{ref} es sustituida por un referencia variable S_{ref}[t] que es calculada, por ejemplo, a partir de la señal de sonoridad S[t] a través de un dispositivo o función de sonoridad de referencia variable ("Sonoridad de Referencia Variable") 239. En esta disposición, al comienzo de cada iteración para cada periodo de tiempo t, la referencia variable S_{ref}[t] puede ser calculada a partir de la sonoridad no modificada S[t] antes de que haya sido aplicada cualquiera ganancia a la excitación en 208. La dependencia de S_{ref}[t] y S[t] a través de la función de referencia de sonoridad variable 239 puede adoptar varias formas para conseguir varios efectos. Por ejemplo, la función puede escalar simplemente S[t] para generar una referencia que sea cierta relación fija de la sonoridad original. Alternativamente, la función podría producir una referencia mayor que S[t] cuando S[t] estuviera por debajo de cierto umbral y menor que S[t] cuando S[t] está por encima de cierto umbral, reduciendo así el intervalo dinámico de la sonoridad percibida del audio. Cualquiera que sea la forma de esa función, la iteración anteriormente descrita se realiza para calcular G[t] de tal manera que

136

La ganancia de concordancia G[t] puede ser entonces filtrada como se ha descrito anteriormente o a través de alguna otra técnica apropiada para conseguir el efecto porcentual deseado. Finalmente, puede ser introducido un retardo 240 entre la señal de audio 201 y el bloque de VCA 236 para compensar cualquier estado latente en el cálculo de la ganancia filtrada. Un tal retardo puede ser también proporcionado en las disposiciones de las figuras 3 y 11.

La señal de control de ganancia G[t] de la figura 3 y la señal de control de ganancia filtrada G_{p}[t_{1}, t_{2}] de la disposición de la figura 11 puede ser útil en una diversidad de aplicaciones, incluyendo, por ejemplo, emisión televisiva o de radio por satélite, en las que varía la sonoridad percibida a través de diferentes canales. En tales entornos, el aparato o método de la presente invención puede comparar la señal de audio da cada canal con un nivel de sonoridad de referencia (o la sonoridad de una señal de referencia). Un operador o dispositivo automatizado puede usar la ganancia para ajustar la sonoridad de cada canal. Todos los canales tendrían así esencialmente la misma sonoridad percibida. La figura 13 muestra un ejemplo de una tal disposición, en la que el audio de una pluralidad de canales de televisión o de audio, 1 a N , se aplica a las respectivas entradas 201 de los procesos o dispositivos 250, 252, comenzando cada uno de acuerdo con aspectos de la invención como se muestran en las figuras 3 u 11. El mismo nivel de sonoridad de referencia se aplica a cada uno de los procesos o dispositivos 250, 252 que dan lugar al audio del primer canal al canal de orden N de sonoridad ajustada en cada salida 236.

La técnica de medición y de ajuste de ganancia puede ser aplicada también a un dispositivo de medición en tiempo real que vigile material de audio de entrada, realice el tratamiento que identifica contenido de audio que contiene principalmente señales de habla humana, y calcule una ganancia tal que las señales de habla concuerden esencialmente con un nivel de referencia previamente definido. Técnicas apropiadas para identificar habla en material de audio se exponen en la Solicitud de Patente de Estados Unidos S. N. 10/233.073, presentada el 30 de agosto de 2002 y publicada como Publicación de Solicitud de Estados Unidos US 2004/0044525 A1, publicada el 4 de marzo de 2004. Debido a la molestia de la audiencia con contenido de audio sonoro tiende a ser enfocado sobre las porciones de habla de material de programa, un método de medición y de ajuste de ganancia puede reducir en gran medida la diferencia de nivel de molestia en audio comúnmente usado en material de televisión, de películas y de música.

Ejecución

La invención puede ser ejecutada en equipo físico (hardware) o programación lógica (software) o en una combinación de ambos (por ejemplo, series lógicas programables). A menos que se especifique de otro modo, los algoritmos incluidos como parte de la invención no están inherentemente relacionados con ningún ordenador u otro aparato particular. En particular, se pueden usar varias máquinas de finalidad general con programas escritos de acuerdo con las enseñanzas de esta memoria, o puede ser más conveniente construir aparatos más especializados (por ejemplo, circuitos integrados) para realizar los pasos requeridos del método. Así, la invención puede ser ejecutada en uno o más programas de ordenador que se ejecuten en uno o más sistemas de ordenador programables, cada uno de los cuales comprenda al menos un ordenador, al menos un sistema de almacenamiento de datos (incluyendo memoria volátil o no volátil y/o elementos de almacenamiento), al menos un dispositivo o puerto de entrada, y al menos un dispositivo o puerto de salida. El código de programa se aplica a datos de entrada para realizar las funciones descritas aquí y generar información de salida. La información de salida se aplica a uno o más dispositivos de salida, de forma conocida.

\newpage

Cada uno de tales programas puede ser ejecutado en cualquier lenguaje de ordenador deseado (incluyendo lenguajes de máquina, de ensamble, procedimental de alto nivel o de programación orientado a objetos) para comunicar con un sistema de ordenador. En cualquier caso, el lenguaje puede ser lenguaje compilado o interpretado.

Cada uno de tales programas de ordenador es preferiblemente almacenado o descargado en un medio o dispositivo de almacenamiento (por ejemplo, memoria o medio de estado sólido, o medio magnético u óptico) legible por un ordenador general o especial de finalidad especial, para configurar y operar el ordenador cuando el medio o dispositivo de almacenamiento es leído por el sistema de ordenador para realizar los procedimientos descritos aquí. El sistema del invento se puede considerar también ejecutado como un medio de almacenamiento legible por ordenador, configurado con un programa de ordenador, en el que el medio de almacenamiento así configurado hace que un sistema de ordenador opere de una manera concreta y predefinida para realizar las funciones descritas en esta memoria.

Se han descrito varias realizaciones de la invención. Sin embargo, se entenderá que se pueden hacer varias modificaciones sin apartarse del ámbito de la invención. Por ejemplo, algunos de los pasos descritos anteriormente pueden ser independientes del orden, y de ese modo se pueden realizar en un orden diferente al descrito. Por lo tanto, otras realizaciones están dentro del ámbito de las siguientes reivindicaciones. Por lo tanto, el alcance de la invención está limitado solamente por las reivindicaciones adjuntas.

Claims

1. Un método para tratar una señal de audio, que comprende producir, en respuesta a la señal de audio, una señal de excitación, y calcular la sonoridad porcentual de la señal de audio en respuesta a la señal de excitación y una medida de características de la señal de audio, en el que dicho cálculo selecciona, de un grupo de dos o más funciones específicas de modelo de sonoridad, una o una combinación de dos o más de las funciones específicas de modelo de sonoridad, cuya selección es controlada por la medición de características de la señal de audio de entrada.

2. Un método de acuerdo con la reivindicación 1, en el que la medición de características de la señal de audio es una medición del grado al cual la señal de entrada es espectralmente plana.

3. Un método de acuerdo con la reivindicación 1, en el que dicho cálculo selecciona o combina dos funciones específicas de modelo de sonoridad, siendo una primera función de modelo de sonoridad seleccionada por una medición de características resultantes de una señal de entrada que no es espectralmente plana, siendo seleccionada una segunda función de modelo de sonoridad por una medición de características que resultan de una señal de entrada espectralmente plana, y siendo seleccionada una combinación de las funciones primera y segunda de modelo de sonoridad por una medición de características resultante de una señal de entrada parcialmente no plana espectralmente, parcialmente plana espectralmente.

4. Un método de acuerdo con la reivindicación 3, en el que tanto la primera como la segunda funciones de modelo de sonoridad aumentan monotónicamente por encima de un umbral en silencio o inactividad con excitación creciente de acuerdo con una ley de potencia, aumentando la primera función de modelo de sonoridad más rápidamente que la segunda función de modelo de sonoridad.

5. Un método de acuerdo con la reivindicación 1, en el que dicho cálculo se selecciona de un grupo de dos o más modelos de sonoridad específicos, uno o una combinación de dos o más de dichos modelos de sonoridad específicos en cada una de las respectivas bandas de frecuencias de la señal de excitación.

6. Un método de acuerdo con la reivindicación 1, en el que dicho cálculo se selecciona de un grupo de dos o más modelos específicos de sonoridad, uno o una combinación de dos o más de dichos modelos de sonoridad de un grupo de respectivas bandas de frecuencias de excitación.

7. Un método de acuerdo con la reivindicación 6, en el que el grupo de respectivas bandas de frecuencias son todas de las bandas de frecuencia de la señal de excitación.

8. Un método de acuerdo con la reivindicación 1, en el que la medición de características de la señal de audio se deduce de la señal de excitación.

9. Un método de acuerdo con la reivindicación 1, en el que el cálculo incluye calcular una sonoridad específica en cada una de las bandas de frecuencias respectivas de la señal de excitación.

10. Un método de acuerdo con la reivindicación 9, en el que el cálculo comprende además seleccionar la sonoridad específica de una banda de frecuencias para proporcionar la sonoridad porcentual o combinar la sonoridad específica de un grupo de bandas de frecuencias para proporcionar la sonoridad porcentual.

11. Un método de acuerdo con la reivindicación 1, en el que el paso de producir, en respuesta a la señal de audio, una señal de excitación, comprende:

filtrar linealmente la señal de audio mediante una o más funciones que simulan las características del oído exterior y medio humano para producir una señal de audio filtrada linealmente, y

dividir la señal de audio linealmente filtrada en bandas de frecuencias que simulan la pauta de excitación generada a lo largo de la membrana basilar del oído interno para producir la señal de excitación.

12. Un método de acuerdo con cualquiera de las reivindicaciones precedentes, que comprende además

calcular, en respuesta a la señal de excitación, un valor de ganancia G[t], incluyendo el cálculo un bucle de tratamiento iterativo que incluye

ajustar la magnitud de la señal de excitación en respuesta a una función de un valor de ganancia de iteración G_{i} de tal manera que la magnitud ajustada de la señal de excitación aumenta con valores crecientes de G_{i} y disminuye con valores decrecientes de G_{i},

comparar la sonoridad porcentual calculada de la señal de audio con una sonoridad porcentual de referencia para generar una diferencia, y

\newpage

ajustar el valor de ganancia G_{i} en respuesta a la diferencia de manera que se reduzca la diferencia entre la sonoridad porcentual calculada y la sonoridad porcentual de referencia.

13. El método de la reivindicación 12, en el que la señal de excitación es filtrada en tiempo y/o el método comprende además filtrar en tiempo el valor de ganancia G_{i}[t].

14. El método de la reivindicación 13, en el que la señal de excitación es filtrada linealmente en tiempo.

15. El método de la reivindicación 13, en el que el método comprende además filtrar el valor de ganancia G[t], empleando dicha filtración una técnica de histograma.

16. Un método de acuerdo con la reivindicación 12, en el que el bucle de tratamiento iterativo, de acuerdo con un algoritmo de minimización, ajusta repetitivamente la magnitud de la señal de excitación, calcula una sonoridad porcentual, compara la sonoridad porcentual calculada con una sonoridad porcentual de referencia, y ajusta el valor de ganancia G_{i} a un valor final G[_{i}].

17. Un método de cuerdo con la reivindicación 16, en el que el algoritmo de minimización está de acuerdo con el método de minimización de gradiente descendente.

18. Un método de acuerdo con cualquiera de las reivindicaciones 12 a 17, que comprende además controlar la amplitud de la señal de audio de entrada con la ganancia G[t] de manera que la sonoridad resultante percibida de la señal de audio de entrada sea esencialmente la misma que la sonoridad de referencia.

19. Un método de acuerdo con cualquiera de las reivindicaciones 12 a 18, en el que la sonoridad de referencia es establecida por el usuario.

20. Aparato que comprende medios destinados a realizar cada uno de los pasos del método de cualquiera de las reivindicaciones 1 a 19.

21. Un programa de ordenador, almacenado en un medio legible por ordenador para hacer que un ordenador realice cada uno de los pasos del método de cualquiera de las reivindicaciones 1 a 19, cuando el programa de ordenador se está ejecutando en el ordenador.