ES2290764T3 - Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio. - Google Patents

Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio. Download PDF

Info

Publication number
ES2290764T3
ES2290764T3 ES04776174T ES04776174T ES2290764T3 ES 2290764 T3 ES2290764 T3 ES 2290764T3 ES 04776174 T ES04776174 T ES 04776174T ES 04776174 T ES04776174 T ES 04776174T ES 2290764 T3 ES2290764 T3 ES 2290764T3
Authority
ES
Spain
Prior art keywords
loudness
signal
audio signal
excitation
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04776174T
Other languages
English (en)
Inventor
Alan Jeffrey Seefeldt
Michael J. Smithers
Brett Graham Crockett
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2290764T3 publication Critical patent/ES2290764T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Television Receiver Circuits (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

Un método para tratar una señal de audio, que comprende producir, en respuesta a la señal de audio, una señal de excitación, y calcular la sonoridad porcentual de la señal de audio en respuesta a la señal de excitación y una medida de características de la señal de audio, en el que dicho cálculo selecciona, de un grupo de dos o más funciones específicas de modelo de sonoridad, una o una combinación de dos o más de las funciones específicas de modelo de sonoridad, cuya selección es controlada por la medición de características de la señal de audio de entrada.

Description

Método, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio.
Campo técnico
La presente invención está relacionada con mediciones de sonoridad o de altura de sonido de señales de audio y con aparatos, métodos y programas de ordenador para controlar la sonoridad de señales de audio en respuesta de tales mediciones.
Técnica antecedente
La sonoridad es un atributo percibido subjetivamente de sensación auditiva por el cual el sonido puede ser ordenado en una escala que se extiende desde silencio a ruido. Debido a que la sonoridad es una sensación percibida por un oyente, no es apropiada para mediciones directas, por lo que resulta difícil de cuantificar. Además, debido al componente porcentual de sonoridad, distintos oyentes con percepción auditiva "normal" pueden tener percepciones diferentes del mismo sonido. El único modo de reducir las variaciones introducidas por la percepción individual y de llegar a una medida general de la sonoridad de material de audio es reunir un grupo de oyentes y deducir una cifra de sonoridad, o graduación (ranking), estadísticamente. Este es claramente un enfoque no práctico para mediciones estándar de sonoridad, día a día.
Ha habido muchos intentos de desarrollar un método objetivo satisfactorio de medir la sonoridad. Fletcher y Munson determinaron en 1933 que la audición humana es menos sensitiva a frecuencias bajas y altas que a frecuencias medias (o de voz). También encontraron que el cambio relativo de sensibilidad disminuía al aumentar el nivel de sonido. Un medidor primitivo de sonoridad consistía en un micrófono, un amplificador, un medidor y una combinación de filtros diseñados para imitar aproximadamente la respuesta de frecuencia de niveles de sonido bajos, medios y altos.
Incluso aunque tales dispositivos proporcionaban una medida de la sonoridad de un tono único aislado, de nivel constante, mediciones de sonidos más complejos no se adaptaban muy bien a las impresiones subjetivas de sonoridad. Los medidores de nivel de sonido de este tipo han sido normalizados, pero sólo usados para tareas concretas, tales como la vigilancia y el control de ruido industrial.
A principios de 1950, Zwicker y Stevens, entre otros, extendieron el trabajo de Fletcher y Munson en el desarrollo de un modelo más realista del proceso de percepción de sonoridad. Stevens publicó un método para el "Calculo de la sonoridad de ruido complejo" en la Revista de la Acoustical Society of America, en 1956, y Zwicker publicó su artículo "Base psicológica y metódica de sonoridad" en Acoustica en 1958. En 1959, Zwicker publicó un procedimiento gráfico para cálculo de sonoridad, así como varios artículos similares poco después. Los métodos de Stevens y Zwicker fueron normalizados como ISO 532, partes A y B (respectivamente).Ambos métodos incorporan fenómenos psicoacústicos estándar tales como formación de bandas críticas, enmascaramiento de frecuencia y sonoridad específica. Los métodos están basados en la división de sonidos complejos en componentes que caen en "bandas críticas" de frecuencias, permitiendo la posibilidad de que algunos componentes enmascaren a otros, y la adición de la sonoridad específica en cada banda crítica para llegar a la sonoridad total del sonido.
La investigación reciente, según se ha puesto en evidencia por "Investigación en sonoridad de anuncios" (julio de 2002), de Australian Broadcasting Authority (ABA), ha mostrado que muchos anuncios (y algunos programas) fueron percibidos como demasiado ruidosos en relación con los otros programas, y que por lo tanto eran muy enojosos para los oyentes. La investigación de ABA es sólo el intento más reciente de enfrentarse al problema que ha existido durante años virtualmente a través de todo el material de difusión y países. Estos resultados muestran que la molestia de la audiencia debido a sonoridad indebida a través de material de programas podría ser reducida, o eliminada, si se pudieran efectuar mediciones fiables, compatibles, de sonoridad de programas y se usaran para reducir las molestas variaciones de sonoridad.
La escala de Bark es una unidad de medición usada en el concepto de bandas críticas. La escala de bandas críticas está basada en el hecho de que la audición humana analiza un amplio espectro en partes que corresponden a sub-bandas críticas menores. El añadir una banda crítica a la siguiente de tal modo que el límite superior de la banda crítica inferior sea el límite inferior de la siguiente banda crítica más alta, conduce a la escala de régimen de banda-crítica. Si las bandas críticas se añaden de este modo, entonces a cada punto de cruce corresponde una cierta frecuencia. La primera banda crítica salva el intervalo de 0 a 100 Hz, la segunda de 100 Hz a 200 Hz, la tercera de 200 Hz a 300 Hz, y así sucesivamente hasta 500 Hz, donde aumenta el intervalo de frecuencias de cada banda crítica. El intervalo de frecuencias audibles de 0 a 16 kHz puede ser subdividido en 24 bandas críticas en contacto, lo que aumenta en anchura de banda con la frecuencia creciente. Las bandas críticas se numeran de 0 a 24 y tienen la unidad "Bark", definiendo la escala de Bark. La relación entre régimen de banda-crítica y frecuencia es importante para el entendimiento de muchas características del oído humano. Véase, por ejemplo, Psychoacoustics-Facts and Models, de E. Zwicker y H.Fastl, Springer-Verlag, Berlín, 1990.
La escala de Anchura de Banda Rectangular Equivalente (ERB: Equivalent Rectangular Bandwidth) es un modo de medir la frecuencia para la audición humana que es similar a la escala de Bark. Desarrollada por Moore, Glasberg y Baer, es un perfeccionamiento del trabajo de sonoridad de Zwicker. Véase Moore, Glasberg y Baer (B.C.J. Moore, B. Glasberg, T. Baer, "Un modelo para la predicción de umbrales, sonoridad y sonoridad parcial", Revista de la Audio Engineering Society, Vol. 45, número 4, abril de 1997, páginas 224-240). La medición de las bandas críticas por debajo de 500 Hz es difícil debido a que a tales bajas frecuencias la eficacia y sensibilidad del sistema de audición humano disminuye rápidamente. Mediciones mejoradas de la anchura de banda de filtro de audición han conducido a la escala de régimen de ERB. Tales mediciones usaban enmascaradores de ruido cortado para medir la anchura de banda de filtros de audición. En general, para la escala de ERB la anchura de banda de filtro de audición (expresada en unidades de ERB) es menor que en la escala de Bark. La diferencia resulta mayor para frecuencias más bajas.
La selectividad de frecuencias del sistema de audición humano puede ser aproximada subdividiendo la intensidad de sonido en partes que caigan dentro de bandas críticas. Una tal aproximación conduce a la noción de intensidades de bandas críticas. Si en lugar de una pendiente infinitamente inclinada de los filtros de banda crítica hipotética, se considera la pendiente real producida en el sistema auditivo humano, entonces tal procedimiento conduce a un valor intermedio de intensidad denominada excitación. En la mayoría de los casos, tales valores no son usados como valores lineales, sino como valores logarítmicos similares al nivel de presión del sonido. La banda crítica y los niveles de excitación son los valores correspondientes que juegan un importante papel en muchos modelos como valores intermedios. (Véase Psychoacoustics - Facts and Models, supra).
El nivel de sonoridad puede ser medido en unidades de "fon". Un fon se define como la sonoridad percibida de una onda pura de 1 kHz reproducida a un nivel de presión de sonido (SPL: sound pressure level) de 1dB, que corresponde a una presión de raíz cuadrática media de 2x10^{-5} Pascales. N Fon es la sonoridad percibida de un tono de 1 kHz reproducido a un SPL de N dB. Usando esta definición en la comparación de la sonoridad de tonos a frecuencias diferentes de 1 kHz con un tono a 1 kHz, se puede determinar un perfil de sonoridad igual para un nivel dado de fon. La figura 7 muestra perfiles de nivel de sonoridad iguales para frecuencias entre 20 Hz y 12,5 kHz, y para niveles de fon entre 4,2 fon (considerado como el umbral de audición) y 120 fon (ISO226: 1987 (E), "Acoustics-Normal Equal Loudness Level Contours").
El nivel de sonoridad puede ser medido también en unidades de "sone". Hay una correspondencia de uno a uno entre unidades de fon y unidades de sone, como se indica en la figura 7. Un sone se define como la sonoridad de una onda sinusoidal pura de 1 kHz de (SPL) de 40 dB y es equivalente a 40 fon. Las unidades de sone son tales que un aumento doble en sone corresponde al doble de la sonoridad percibida. Por ejemplo, 4 sone se percibe como dos veces tal alta como 2 sone. De este modo, el expresar la sonoridad en sone es más informativo.
Debido a que sone es una medida de sonoridad de una señal de audio, la sonoridad específica es simplemente sonoridad por unidad de frecuencia. Así, cuando se usa la escala de frecuencias de Bark, la sonoridad específica tiene unidades de sone por Bark y, análogamente, cuando se usa la escala de frecuencias de ERB, las unidades son sone por ERB.
A lo largo de todo el resto de este documento, términos como "filtro" o "grupo de filtros" se usan aquí para incluir esencialmente cualquier forma de filtrado recursivo y no recursivo tal como filtros o transformadores de IIR, e información "filtrada"es el resultado de aplicar tales filtros. Realizaciones descritas a continuación emplean grupos de filtros realizados por filtros de IIR y por transformaciones.
Descripción de la invención
Es un objeto de la invención proporcionar una técnica de medición objetiva de sonoridad que pueda ser adaptado más estrechamente a resultados de sonoridad subjetivos producidos midiendo estadísticamente la sonoridad usando múltiples oyentes humanos.
De acuerdo con un aspecto de la presente invención, un método para tratar una señal de audio incluye producir, en respuesta a la señal de audio, una señal de excitación, y calcular la sonoridad porcentual de la señal de audio en respuesta a la señal de excitación y una medición de características de la señal de audio, en el que el cálculo selecciona, a partir de un grupo de dos o más funciones de sonoridad específica, una o una combinación de dos o más de las funciones de modelo de sonoridad especifica, cuya selección es controlada por la medición de características de la señal de audio de entrada. De acuerdo con otros aspectos de la invención, se proporcionan un aparato y un programa de ordenador como se exponen en las reivindicaciones 20 y 21, respectivamente.
En una realización que emplea aspectos de la invención, un método o dispositivo para tratamiento de señal recibe una señal de audio de entrada. La señal es filtrada linealmente por un filtro o función de filtro que simula las características del oído exterior y medio humano y un grupo de filtros o función de grupo de filtros que divide la señal filtrada en bandas de frecuencias que simulan la pauta de excitación generada a lo largo de la membrana basilar del oído interno. Para cada banda de frecuencias, la sonoridad específica se calcula usando una o más funciones o modelos de sonoridad específica, la selección de los cuales es controlada por propiedades o características extraídas de la señal de audio de entrada. La sonoridad específica para cada banda de frecuencias se combina en una medida de sonoridad, representativa de la señal de audio de entrada de banda ancha. Se puede calcular un valor único de la medida de sonoridad para un intervalo de tiempo finito de la señal de entrada, o la medida de sonoridad puede ser calculada repetidamente a intervalos de tiempo o bloques de la señal de audio de entrada.
\newpage
En otra realización que utiliza aspectos de la invención, un método o dispositivo para tratamiento de señales recibe una señal de audio de entrada. La señal es linealmente filtrada por un filtro o función de filtro que simula las características del oído exterior y medio humano y un grupo de filtros o función de grupo de filtros que divide la señal filtrada en bandas de frecuencias que simulan la pauta de excitación generada a lo largo de la membrana basilar del oído interno. Para cada banda de frecuencias, la sonoridad específica se calcula usando una o más funciones o modelos de sonoridad específica; la selección de los cuales es controlada por propiedades o características extraídas de la señal de audio de entrada. La sonoridad específica para cada banda de frecuencias se combina en una medida de sonoridad representativa de la señal de audio de entrada de banda ancha. La medida de sonoridad se compara con un valor de sonoridad de referencia y la diferencia se usa para ajuste de escala o ganancia de las señales en banda de frecuencias previamente introducidas para el cálculo de la sonoridad específica. El cálculo de la sonoridad específica, el cálculo de la sonoridad y la comparación de referencia se repiten hasta que la sonoridad y el valor de sonoridad de referencia son esencialmente equivalentes. De ese modo, la ganancia aplicada a las señales en banda de frecuencias representa la ganancia que, cuando se aplica a la señal de audio de entrada, da lugar a la sonoridad percibida de la señal de audio de entrada que es esencialmente equivalente a la sonoridad de referencia. Se puede calcular un valor único de la medida de sonoridad para algún intervalo finito de la señal de entrada, o la medición de sonoridad puede ser calculada repetidamente a intervalos o bloques de tiempo de la señal de audio de entrada. Se prefiere una aplicación recurrente debido a la naturaleza no lineal de sonoridad percibida, así como a la estructura del proceso de medición de sonoridad.
Los diversos aspectos de la presente invención y sus realizaciones preferidas se pueden comprender mejor en referencia a la siguiente descripción y a los dibujos que se acompañan, en los cuales los mismos números de referencia se dirigen a elementos similares en las diversas figuras. Los dibujos, que ilustran varios dispositivos o procedimientos, muestran elementos principales que son de ayuda para el entendimiento de la presente invención. Por razones de claridad, los dibujos omiten muchas otras características que pueden ser importantes en las realizaciones prácticas y que son bien conocidas por los expertos ordinarios en la técnica, pero que no son importantes para entender los conceptos de la presente invención. El tratamiento de señal para practicar la presente invención puede ser realizado de una amplia variedad de modos, incluyendo programas ejecutados por microprocesadores, procesadores de señal digital, series lógicas y otras formas de circuitos de cálculo.
Descripción de los dibujos
La figura 1 es un diagrama de bloques funcional esquemático de una realización de un aspecto de la presente invención.
La figura 2 es un diagrama de bloques funcional esquemático de una realización de un aspecto más de la presente invención.
La figura 3 es un diagrama de bloques funcional esquemático de una realización de todavía un aspecto más de la presente invención.
La figura 4 es una respuesta de característica idealizada de un filtro lineal P(z) apropiado como un filtro de transmisión en una realización de la presente invención en la que el eje vertical es la atenuación en decibelios (dB) y el eje horizontal es una frecuencia logarítmica de base 10 en Hertz (Hz).
La figura 5 muestra la relación entre la escala de frecuencias de ERB (eje vertical) y la frecuencia en Hertz (eje horizontal).
La figura 6 muestra un conjunto de respuestas de características de filtro de audición idealizadas que se aproxima a la formación de bandas críticas aproximadas en la escala de ERB. La escala horizontal es la frecuencia en Hertz y la escala vertical es el nivel en decibelios.
La figura 7 muestra los perfiles o curvas de sonoridad de ISO266. La escala horizontal es la frecuencia en Hertz (escala logarítmica de base 10) y la escala vertical es el nivel de presión de sonido en decibelios.
La figura 8 muestra las curvas de sonoridad igual de ISO226 normalizadas por el filtro de transmisión P(z). La escala horizontal es la frecuencia en Hertz (escala logarítmica de base 10) y la escala vertical es el nivel de presión del sonido en decibelios.
La figura 9 (líneas llenas) muestra representaciones de sonoridad tanto para ruido de excitación uniforme como para un tono de 1 kHz, en las que las líneas llenas están de acuerdo con una realización de la presente invención en la que se eligen parámetros para adaptarse a datos experimentales de acuerdo con Zwicker (cuadrados y círculos). La escala vertical es la sonoridad en sone (logarítmica de base 10) y la escala horizontal es el nivel de presión del sonido en decibelios.
La figura 10 es u diagrama de bloques funcional esquemático de una realización de un aspecto más de la presente invención.
La figura 11 es un diagrama de bloques funcional esquemático de una realización de todavía un aspecto más de la presente invención.
La figura 12 es un diagrama de bloques funcional esquemático de una realización de otro aspecto de la presente invención.
La figura 13 es un diagrama de bloques funcional esquemático de una realización de otro aspecto de la presente invención.
Mejores modos de realizar la invención
Como se describe con más detalle a continuación, una realización de un primer aspecto de la presente invención, mostrada en la figura 1, incluye un controlador o función de controlador de sonoridad específica ("Control de Sonoridad Específica") 124 que analiza y deduce características de una señal de audio de entrada. Las características de audio se utilizan para controlar parámetros en un convertidor o función de convertidor de sonoridad específica ("Sonoridad Específica") 120. Ajustando los parámetros de sonoridad específica usando características de señal, la técnica de medición de sonoridad objetiva de la presente invención puede ser adaptada más estrechamente a resultados de sonoridad subjetivos producidos midiendo estadísticamente la sonoridad usando múltiples oyentes humanos. El uso de características de señal para controlar parámetros de sonoridad reduce también la ocurrencia de mediciones incorrectas que dan lugar a sonoridad de señal considerada molesta para los oyentes.
Como se describe con más detalle en lo que sigue, una realización de un segundo aspecto de la presente invención, mostrado en la figura 2, añade un dispositivo o función de ganancia ("Actualización de Ganancia Iterativa") 233, cuya finalidad es ajustar iterativamente la ganancia de la señal de excitación promediada asociada, deducida de la señal de audio de entrada hasta que la sonoridad asociada en 223 de la figura 2 se iguala a una sonoridad de referencia deseada en 230 de la figura 2. Debido a que la medición objetiva de sonoridad percibida implica un proceso inherentemente no lineal, un bucle iterativo puede ser ventajosamente empleado para determinar una ganancia apropiada para igualar la sonoridad de la señal de audio de entrada a un nivel de sonoridad deseado. Sin embargo, un bucle de ganancia iterativa que circunde un sistema de medición de sonoridad completo, de tal manera que el ajuste de ganancia se aplique a la señal de audio de entrada original para cada iteración de sonoridad, sería caro de ejecutar debido a la integración temporal requerida para generar una medida exacta de sonoridad a la larga. En general, en una tal disposición, la integración temporal requiere nuevo cálculo para cada cambio de ganancia en la iteración. Sin embargo, como se explica con más detalle en lo que sigue, en los aspectos de la invención mostrados en las realizaciones de la figura 2 y también las figuras 3 y 10-12, la integración temporal puede ser realizada en trayectorias de tratamiento lineales que precedan y/o sigan el proceso no lineal que forma parte del bucle de ganancia iterativo. Las trayectorias de tratamiento lineales no forman parte del bucle de iteración. De ese modo, por ejemplo en la realización de la figura 2, la trayectoria de medición de sonoridad desde la entrada 201 a un convertidor o función de convertidor de sonoridad específica ("Sonoridad Específica") 220, puede incluir la integración temporal en función de promediado de tiempo ("Time Averaging") 206, y es lineal. En consecuencia, las iteraciones de ganancia sólo necesitan ser aplicadas a un conjunto reducido de dispositivos o funciones de medición de sonoridad y no precisa incluir integración temporal alguna. En la realización de la figura 2, el filtro de transmisión o función de filtro de transmisión ("Transmission Filter") 202, el grupo de filtros o función de grupo de filtros ("Grupo de Filtros") 204, el promediador de tiempo o función de promediado de tiempo ("Promediado de Tiempo") 206 y el controlador de sonoridad específica o función de control de sonoridad específica ("Control de Sonoridad Específica") 224 no forman parte del bucle iterativo, que permite ejecutar control de ganancia iterativo en sistemas en tiempo real eficaces y exactos.
En referencia ahora a la figura 1, se muestra en ella un diagrama de bloques funcional de una realización de un medidor de sonoridad o proceso de medición de sonoridad 100 de acuerdo con un primer aspecto de la presente invención. Una señal de audio para la cual se va a determinar una medición de sonoridad se aplica a una entrada 101 del medidor de sonoridad o proceso de medición de sonoridad 100. La entrada se aplica a dos trayectorias - una primera (principal) trayectoria que calcula la sonoridad específica en cada una de una pluralidad de bandas de frecuencias que simula las de una pauta de excitación generada a lo largo de la membrana basilar del oído interno y una segunda (secundaria) trayectoria que tiene un controlador de sonoridad específica que selecciona las funciones o modelos de sonoridad específica empleados en la trayectoria principal.
En una realización preferida, el tratamiento de audio se realiza en el dominio digital. Por lo tanto, la señal de entrada de audio está indicada por la secuencia de tiempo discreta x[n] que ha sido muestreada desde una fuente de audio a alguna frecuencia de muestreo f_{s} Se supone que la secuencia x[n] ha sido escalada apropiadamente de manera que la potencia de rms de x[n] en decibelios, dada por
100
es igual al nivel de presión de sonido en dB al que el audio está siendo oído por un oyente humano. Además, se supone que la señal de audio es monofónica, por simplificar la exposición. Sin embargo, la realización puede estar adaptada para audio de canales múltiples de la manera que se describe posteriormente.
Filtro de Transmisión 102
En la trayectoria principal, la señal de entrada de audio se aplica a un filtro de transmisión o función de transmisión ("Filtro de Transmisión") 102, cuya salida es una versión filtrada de la señal de audio. El Filtro de Transmisión 102 simula el efecto de la transmisión de audio a través del oído externo y medio con la aplicación de un filtro lineal P(z). Como se muestra en la figura 4, una respuesta de frecuencia de P(z) de magnitud apropiada es la unidad por debajo de 1 kHz, y, por encima de 1 kHz, la respuesta sigue la inversa del umbral de audición como se especifica en la norma ISO226, con el umbral normalizado a unidad igual a 1 kHz. Mediante la aplicación de un filtro de transmisión, el audio que es tratado por el proceso de medición de sonoridad se asemeja más estrechamente al audio que es percibido por el oído humano, mejorando con ello la medición objetivo de sonoridad. Así, la salida del Filtro de Transmisión 102 es una versión a escala dependiente de la frecuencia de las muestras de audio de entrada x[n] en dominio de
tiempo.
Grupo de Filtros 104
La señal de audio filtrada es aplicada a un grupo de filtros o función de grupo de filtros ("Grupo de Filtros"). El grupo de filtros 104 está diseñado para simular la pauta de excitación generada a lo largo de la membrana basilar del oído interno. El grupo de filtros 104 puede incluir un conjunto de filtros lineales cuyas anchura de banda y separación son constantes en la escala de frecuencias de Ancho de Banda Rectangular Equivalente (ERB), según es definida por Moore, Glasberg y Baer (B. C. J. Moore, B. Glasberg, T. Baer, "Un modelo para predicción de umbrales, sonoridades y sonoridades parciales" supra).
Aunque la escala de frecuencias de ERB se adapta más estrechamente a la percepción humana y muestra comportamiento mejorado en la producción de mediciones de sonoridad objetiva que igualan a los resultados de sonoridad subjetiva, la escala de frecuencias de Bark puede ser empleada con rendimiento reducido.
Para una frecuencia central f en hertz, la anchura de una banda de ERB en hertz puede ser aproximada como:
101
A partir de esta relación, una escala de frecuencias deformada se define de tal manera que en cualquier punto a lo largo de la escala deformada, la ERB correspondiente en unidades de la escala deformada es igual a uno. La función para convertir desde frecuencia lineal en hertz a esta escala de frecuencias de ERB se obtiene integrando la inversa de la Ecuación 1:
102
Es también útil expresar la transformación desde la escala de ERB de nuevo a la escala de frecuencias lineal resolviendo la ecuación 2a para f:
103
donde e está en unidades de la escala de ERB. La figura 5 muestra la relación entre la escala de ERB y la frecuencia en hertz.
La respuesta de los filtros de audición para el grupo de filtros 104 puede ser caracterizada y ejecutada usando filtros estándar de IIR. Más concretamente, los filtros de audición individuales a la frecuencia central f_{c} en hertz que se ejecuta en el grupo de filtros 104 pueden ser definidos por la función de transferencia de IIR de orden doce:
104
\newpage
donde
105
f_{s} es la frecuencia de muestreo en hertz, y G es un factor de normalización para asegurar que cada filtro tenga ganancia unidad en el pico en su respuesta de frecuencia; elegido de tal manera que
106
El Grupo de Filtro 104 puede incluir M de tales filtros de audición, a los que se hace referencia como bandas, a frecuencias centrales f_{c}[1]... f_{c}[M] separadas uniformemente a lo largo de la escala de ERB. Más concretamente,
107
donde \Delta es la separación deseada de ERB del grupo de filtros 104, y donde f_{min} y f_{máx} son las frecuencias centrales mínima y máxima deseadas, respectivamente. Se puede elegir \Delta = 1, y, teniendo en cuenta el intervalo de frecuencias en el cual es sensible el oído humano, se puede establecer f_{min} = 50 Hz y f_{máx} = 20.000 Hz. Con tales parámetros, por ejemplo, la aplicación de las Ecuaciones a-c da M = 40 filtros de audición. Las magnitudes de tales M filtros de audición, con formación de bandas críticas aproximadas en la escala de ERB, se muestran en la figura 6.
Alternativamente, las operaciones de filtración pueden ser adecuadamente aproximadas usando una Transformada de Fourier Discreta de longitud finita, a la que se hace referencia comúnmente como Transformada de Fourier Discreta de Tiempo- Corto (STDFT), debido a que se cree que una ejecución que hace funcionar los filtros al régimen de muestreo de la señal de audio, a la que se hace referencia como una ejecución a pleno régimen, proporciona más resolución temporal que la que es necesaria para mediciones de sonoridad exactas. Usando la STDFT en lugar de una ejecución a pleno régimen, se puede conseguir una mejora de eficacia y reducción de complejidad de cálculo.
La STDFT de la señal de audio de entrada x[n] está definida como:
108
donde k es el índice de frecuencia, t es el índice de bloque de tiempo, N es el tamaño de DRT, T es el tamaño de reflejo o retorno, y w[n] es la ventana normalizada de longitud N de manera que
109
Obsérvese que la variable t en la Ecuación 6 es un índice discreto que representa el bloque de tiempo de la STDFT como opuesto a una medida de tiempo en segundos. Cada incremento de t representa un reflejo de T muestras a lo largo de la señal x[n]. Subsiguientes referencias al índice t suponen esta definición. Aunque se pueden usar diferentes establecimientos de parámetros y formas de ventanas, dependiendo de los detalles de ejecución, para f_{s} = 44100 Hz, la elección de N = 4096, T = 2048, y, el hecho de tener w[n] una ventana de Hanning, produce excelentes resultados. La STDFT descrita anteriormente puede ser más eficaz usando la Transformada de Fourier Rápida (FFT: Fast Fourier Transform).
Con el fin de calcular la sonoridad de la señal de audio de entrada, es necesaria una medición de la energía de la señal de audio en cada filtro del grupo de filtros 104. La salida de energía en corto tiempo de cada filtro del grupo de filtros 104 puede ser aproximada mediante multiplicación de respuestas de filtro en el dominio de frecuencias con el espectro de potencia de la señal de entrada:
110
donde m es el número de banda, t es número de bloque y P es el filtro de transmisión. Se ha de observar que se pueden usar en la Ecuación 8 formas para la respuesta de magnitud de los filtros de audición distintas de la especificada en la Ecuación 3, para conseguir resultados similares. Por ejemplo, Moore y Glasberg proponen una forma de filtro descrita por una función exponencial que actúa de forma similar a la Ecuación 3. Además, con una ligera reducción de prestación, se puede aproximar cada filtro como un paso de banda de "pared de ladrillo" con una anchura de banda de un ERB, y, como una aproximación más, el filtro de transmisión P puede ser extraído de la suma. En este caso, la Ecuación 8 se simplifica a
111
De ese modo, la salida de excitación del grupo de filtros 104 es una representación de dominio de frecuencias de energía E en respectivas bandas m de ERB por cada periodo de tiempo t.
Canal Múltiple
Para el caso en que la señal de audio de entrada es un formato de canal múltiple que se ha de añadir sobre múltiples altavoces, uno por cada canal, la excitación para cada canal individual puede ser primero calculada como se ha descrito anteriormente. Con el fin de calcular a continuación la sonoridad percibida de todos los canales combinados, las excitaciones individuales pueden ser sumadas conjuntamente en una excitación única para aproximarse a la excitación que alcanzan los oídos de un oyente. La totalidad del tratamiento subsiguiente es entonces realizado en esta excitación única, sumada.
Promediado de Tiempo 106
La investigación en psicoacústica y los ensayos de sonoridad subjetiva sugieren que cuando se compara la sonoridad entre varias señales de señales de audio, los oyentes realizan algún tipo de integración temporal de corto plazo o sonoridad de señal "instantánea" para llegar a un valor de sonoridad percibida a largo plazo para usar en la comparación. Cuando se construye un modelo de percepción de sonoridad, otros han sugerido que esta integración temporal sea realizada después de que la excitación haya sido transformada de manera no lineal en sonoridad específica. Sin embargo, los presentes inventores han determinado que esta integración temporal puede ser adecuadamente modelada usando filtrado lineal en la excitación antes de que sea transformada en sonoridad específica. Realizando el filtrado antes del cálculo de la sonoridad específica, de acuerdo con un aspecto de la presente invención, se obtiene una ventaja significativa cuando se calcula la ganancia que se precisa aplicar a una señal con el fin de ajustar su sonoridad medida de una manera prescrita. Como se explica con más detalle en lo que sigue, la ganancia puede ser calculada usando un bucle iterativo que no sólo excluye el cálculo de excitación, sino que excluye preferiblemente tal integración temporal. De esta manea, el bucle de iteración puede generar la ganancia a través de cálculos que dependan sólo del marco de tiempo actual para el que está siendo calculada la ganancia, como opuesto al cálculo que depende del intervalo de tiempo total de integración temporal. El resultado es un ahorro tanto en tiempo de tratamiento como en memoria. Las realizaciones que calculan la ganancia usando un bucle iterativo incluyen las descritas en lo que sigue en relación con las figuras 2, 3 y 10-12.
Volviendo a la descripción de la figura 1, el filtrado lineal de la excitación puede ser ejecutado de varias maneras. Por ejemplo, el filtrado puede ser realizado de modo recursivo usando un dispositivo o función de promediado de tiempo ("Promediado de Tiempo") 106 utilizando las siguientes ecuaciones:
\vskip1.000000\baselineskip
112
donde las condiciones iniciales son \tilde{\mathit{E}}[m,-1] = 0 y \tilde{\sigma}[m,-1] = 0. Una característica única del filtro de filtración es que variando el parámetro de filtración \lambda_{m}, la energía filtrada \tilde{\mathit{E}}[m,t] puede variar desde el promedio de tiempo verdadero de E[m,t] a un promedio de memoria de desvanecimiento de \tilde{\mathit{E}}[m,t]. Si \lambda_{m} = 1, entonces de (10b) se puede ver que \tilde{\sigma}[m,t, = t] y \tilde{\mathit{E}}[m,t] es entonces igual al promedio de tiempo verdadero para bloques de tiempo 0 a t. Si 0 \leq \lambda_{m} <1, entonces \tilde{\sigma}[m,t] \rightarrow 1/(1 - \lambda_{m}) cuando t \rightarrow \infty y \tilde{\mathit{E}}[m,t] es simplemente el resultado de aplicar un filtrador de un polo a E[m,t]. Para la aplicación en la que se desea un número único que describa la sonoridad a largo plazo de un segmento de audio de longitud finita, se puede establecer \lambda_{m} = 1 para todas las m. Para una aplicación en tiempo real, en la que se deseara seguir la sonoridad variable en el tiempo de una corriente de audio continua en tiempo real, se puede establecer 0 \leq \lambda_{m} < 1 y establecer \lambda_{m} en el mismo valor para todas las m.
En el cálculo del promedio de tiempo de puede ser deseable omitir segmentos de tiempo corto que se consideran "demasiado silencioso" y no contribuyen a la sonoridad percibida. Para conseguir esto, un segundo filtrador de umbral puede ser hecho discurrir en paralelo con el filtrador de la Ecuación 10. Este segundo filtrador mantiene su valor de corriente si E[m,t] es relativamente pequeño con relación a \tilde{\mathit{E}}[m,t]:
113
\vskip1.000000\baselineskip
114
donde tdB es el umbral relativo expresado en decibelios. Aunque no es crítico para la invención, se ha visto que un valor de tdB = -24 produce buenos resultados. Si no existe un segundo filtrador que discurra en paralelo, entonces
\overline{E}[m,t] = \tilde{\mathit{E}}[m,t].
\newpage
Sonoridad Específica 120
Falta que la energía de excitación promediada en tiempo, de formación en bandas \overline{E}[m,t] sea convertida en una medida única de sonoridad en unidades porcentuales, sone en este caso. En el convertidor o función de conversión de sonoridad específica ("Sonoridad Específica") 120, cada banda de la excitación es convertida en un valor de sonoridad específica, que es medida en sone por ERB. En el combinador de sonoridad o función de combinación de sonoridad ("Sonoridad") 122, los valores de sonoridad específica pueden ser integrados o sumados a través de bandas para producir la sonoridad porcentual total.
Control de Sonoridad Específica 124/Sonoridad Específica 120 Modelos Múltiples
En un aspecto, la presente invención utiliza una pluralidad de modelos en bloque 120 para convertir la excitación en bandas en sonoridad específica en bandas. La información de control deducida de la señal de audio de entrada a través del Control de Sonoridad Específica 124 en la trayectoria secundaria selecciona un modelo o controla el grado al cual contribuye un modelo a la sonoridad específica. En el bloque 124, ciertos rasgos o características que son útiles para seleccionar uno o más modelos de sonoridad específica de los disponibles son extraídos del audio. Las señales de control que indican qué modelo, o combinación de modelos, se ha de usar, son generadas de los rasgos o características extraídos.
Por ejemplo, la sonoridad específica N'[m,t] por banda puede ser expresada como una combinación lineal de la sonoridad específica por banda para cada modelo N'_{q}[m,t] como:
1140
donde Q indica el número total de modelos y la información de control \alpha_{q}[m,t] representa la ponderación o contribución de cada modelo. La suma de las ponderaciones puede o pueden no ser iguales a uno, dependiendo de los modelos que estén siendo usados.
Aunque la invención no está limitada a ellos, se ha visto que dos modelos proporcionan resultados exactos. Un modelo se comporta mejor cuando la señal de audio está caracterizada como banda estrecha, y el otro se comporta mejor cuando la señal de audio está caracterizada como banda ancha.
Inicialmente, en el cálculo de la sonoridad específica, el nivel de excitación de cada banda de \overline{E}[m,t] puede ser transformado en un nivel de excitación equivalente a 1 kHz según se especifica por los perfiles o curvas de sonoridad iguales de ISO266 (figura 7) normalizados por el filtro de transmisión P(z)(figura 8).
115
\vskip1.000000\baselineskip
donde L_{1kHz}(E,f) es una función que genera el nivel a 1kHz, que es igualmente sonoro a nivel E a la frecuencia f. En la práctica, L_{1kHz}(E,f) se ejecuta como una interpolación de una tabla de observación o consulta de los perfiles de sonoridad igual, normalizados por el filtro de transmisión. La transformación a niveles equivalentes a 1 kHz simplifica el siguiente cálculo de sonoridad específica.
A continuación, la sonoridad específica en cada banda se puede calcular como:
\vskip1.000000\baselineskip
116
\vskip1.000000\baselineskip
donde N'_{NB}[m,t] y N'_{WB}[m,t] son valores de sonoridad específica basados en una banda estrecha y modelo de señal de banda ancha, respectivamente. El valor \alpha[m,t] es un factor de interpolación que se sitúa entre 0 y 1, que es calculado a partir de la señal de audio, los detalles del cual se describen en lo que sigue.
\newpage
Los valores de sonoridad específica de banda estrecha y de banda ancha N'_{NB}[m,t] y N'_{WB}[m,t] pueden ser estimados a partir de la excitación en banda usando las funciones exponenciales:
117
\vskip1.000000\baselineskip
118
donde TQ_{1kHz} es el nivel de excitación en umbral en silencio o reposo para un tono de 1 kHz. Desde los perfiles de sonoridad iguales (figuras 7 y 8) TQ_{1kHz} iguala a 4,2 dB. Se observa que ambas de estas funciones de sonoridad específica son iguales a cero cuando la excitación es igual al umbral en silencio. Para excitaciones mayores que el umbral en silencio, ambas funciones crecen monotónicamente con una ley de potencia de acuerdo con la ley de Stevens de sensación de intensidad. El exponente para la función de banda estrecha es elegido de manera que sea mayor que el de la función de banda ancha, haciendo que la función de banda estrecha aumente más rápidamente que la función de banda ancha. La selección específica de exponentes \beta y ganancias G para los casos de banda estrecha y banda ancha se explican a continuación.
Sonoridad 122
La sonoridad 122 usa la sonoridad específica en banda de Sonoridad Específica 120 para crear una medida de sonoridad única para la señal de audio, a saber, una salida en el terminal 123 que es un valor de sonoridad en unidades porcentuales. La medida de sonoridad puede tener unidades arbitrarias, siempre que la comparación de valores de sonoridad para diferentes señales de audio indique que es más sonora y que es más suave.
La sonoridad total expresada en unidades de sone puede ser calculada como la suma de la sonoridad específica para todas las bandas de frecuencias:
119
donde \Delta es la separación de ERB especificada en la Ecuación 5. Los parámetros G_{NB} y \beta_{NB} en la Ecuación 15a se eligen de manera que cuando \alpha[m,t] = 1, una representación de S en sone en función de SPL para 1kHz es esencialmente igual a los correspondientes datos experimentales presentados por Zwicker (los círculos de la figura 9) (Zwicker, H. Fastl, "Psychoacoustics-Facts and Models", supra). Los parámetros G_{WM} y \beta_{WB} en la Ecuación 15b se eligen de manera que cuando \alpha[m,t] = 0, una representación de N en sone, en función de SPL para ruido de excitación uniforme (ruido con potencia igual en cada ERB) es esencialmente igual a los correspondientes resultados de Zwicker (los cuadrados de la figura 9). Un mínimo cuadrado que concuerda con los datos de Zwicker da:
120
La figura 9 (líneas llenas) muestra representaciones de sonoridad tanto para ruido de excitación uniforme como para un tono de 1 kHz.
Control de Sonoridad Específica 124
Como se ha mencionado anteriormente, se usan dos modelos de sonoridad específica en una realización práctica (Ecuaciones 15a y 15b), uno para señales de banda estrecha y uno para señales de banda ancha. El Control de Sonoridad Específica 124 de la trayectoria secundaria calcula una medida, \alpha[m,t], del grado al que la señal de entrada es o bien de banda estrecha o de banda ancha en cada banda. En un sentido general, \alpha[m,t] ha de ser igual a uno cuando la señal es de banda estrecha próxima a la frecuencia central f_{\alpha}[m] de una banda. El control ha de variar continuamente entre los dos extremos para mezclas variables de tales características. Como una simplificación, el control \alpha[m,t] puede ser elegido como constante a través de las bandas, en cuyo caso \alpha[m,t] es referido subsiguientemente como \alpha[t], omitiendo el índice m de banda. El control \alpha[t] representa entonces una medida de cómo de banda estrecha es la señal a través de todas las bandas. Aunque un método adecuado para generar un tal control se describe a continuación, el método particular no es crítico y se pueden emplear otros métodos apropiados.
El control \alpha[t] puede ser calculado a partir de la excitación E[m,t] en la salida del Grupo de Filtros 104 en lugar de a través de algún otro tratamiento de la señal x[n]. E[m,t] puede proporcionar una referencia adecuada a partir de la cual se mida el "carácter de banda estrecha" y el "carácter de banda ancha" de x[n], y, como resultado, \alpha[t] puede ser generada con poco cálculo añadido.
"Planitud espectral" es la característica de E[m,t] a partir de la cual se puede calcular. Planitud espectral, según se define por Jayant y Noll (N. S. Jayant, P. Noll, Codificación digital de formas de onda, Prentice Hall, New Jersey, 1984), es la relación de la media geométrica a la media aritmética, en que la media es tomada a través de la frecuencia (índice m en el caso de E[m,t]). Cuando E[m,t] es constante a través de m, la media geométrica es igual a la media aritmética, y la planitud espectral es igual a uno. Esto corresponde al caso de banda ancha. Si E[m,t] varía significativamente a través de m, entonces la media geométrica es significativamente menor que la media aritmética, y la planitud espectral se aproxima a cero. Esto corresponde al caso de banda estrecha. Calculando un menos la planitud espectral, se puede generar una medida de "carácter de banda estrecha", en que cero corresponde a banda ancha y uno a banda estrecha. Concretamente, se puede calcular un menos una planitud espectral modificada de E[m,t]:
121
donde P[m] es igual a la respuesta a la frecuencia del filtro de transmisión P(z) muestreada a la frecuencia \omega = 2\pif_{c}[m]/f_{z}. La normalización de E[m,t] mediante el filtro de transmisión puede proporcionar mejores resultados debido a que la aplicación del filtro de transmisión introduce un "bump" en E[m,t] que tiende a inflar la medida de "carácter de banda estrecha". Adicionalmente, calculando la planitud espectral en un subconjunto de bandas de E[m,t] se pueden obtener mejores resultados. Los límites inferior y superior de suma en la Ecuación 18, M_{1}[t] y M_{u}[t], definen una región que puede ser menor que el intervalo de todas las M bandas. Se desea que M_{1}[t] y M_{u}[t] incluyan una porción de E[m,t] que contiene la mayoría de su energía, y que el intervalo definido por M_{1}[t] y M_{u}[t] no sea mas que 24 unidades de anchura en la escala de ERB. Más concretamente (y recordando que f_{c}[m] es la frecuencia central de la banda m en Hz), se desea:
122
y se requiere:
1220
donde CT[t] es el centroide espectral de E[m,t] medido en la escala de ERB:
123
Idealmente, los límites de la suma, M_{1}[t] y M_{u}[t], están centrados alrededor de CT[t] cuando se mide en la escala de ERB, pero esto no siempre es posible cuando CT[t] está próxima a los límites inferior y superior de su intervalo.
A continuación, NB[t] puede ser filtrado en el tiempo de una manera análoga a la Ecuación 11a:
124
donde \overline{\sigma [t]} es igual al máximo de \overline{\sigma [m,t]}, definido en la Ecuación 11b, en todas las m.
Finalmente, \alpha[t] se calcula a partir de \overline{\mathit{NE}}[t] como sigue:
125
donde
126
Aunque la forma exacta de \Phi{x} no es crítica, el polinomio de la Ecuación 21b se puede encontrar haciendo óptimo \alpha[t] frente a la sonoridad subjetivamente medida de una gran variedad de material de audio.
La figura 2 muestra un diagrama de bloques funcional de una realización de un medidor de sonoridad o proceso de medición de sonoridad 200 de acuerdo con un segundo aspecto de la presente invención. Los dispositivos o funciones 202, 204, 206, 220, 222, 223 y 224 de la figura 2 corresponden a los respectivos dispositivos o funciones 102, 104, 106, 120, 122, 123 y 124 de la figura 1.
De acuerdo con un primer aspecto de la invención, de la cual muestra una realización la figura 2, el medidor de sonoridad o cálculo genera un valor de sonoridad en unidades porcentuales. Con el fin de ajustar la sonoridad de la señal de entrada, una medida útil es una ganancia G[t], la cual, cuando se multiplica por la señal de entrada x[n] (como, por ejemplo, en la realización de la figura 3, descrita más adelante), hace su sonoridad igual a un nivel de sonoridad de referencia S_{ref}, La sonoridad de referencia, S_{ref}, puede ser especificada arbitrariamente o medida por otro dispositivo o proceso que opere de acuerdo con el primer aspecto de la invención a partir de alguna señal de audio de referencia "conocida". Considerando que \Psi{x[n],t} representa la totalidad del cálculo realizado en la señal x[n] para generar la sonoridad S[t], se desea encontrar G[t] de tal manera que
127
Debido a que una porción del tratamiento incorporado en \Psi{\cdot} es no lineal, no existe solución de forma cerrada para G[t], de manera que, en su lugar, se puede utilizar una técnica iterativa para encontrar una solución aproximada. En cada iteración i del proceso, supongamos que G_{i} representa la estimación actual de G[t]. Para cada iteración, G_{i} es actualizada de manera que disminuye el error absoluto de la sonoridad de referencia.
128
Existen muchas técnicas apropiadas para actualizar G_{i} con el fin de conseguir la anterior disminución de error. Un tal método es el descenso de gradiente (véase Programación no lineal de Dimitri P. Bertseakas, Athena Scientific, Belmont, MA, 1995), en el que G_{i} es actualizada en una cantidad proporcional al error en las iteraciones previas:
129
donde \mu es el tamaño de paso de la iteración. La anterior iteración continúa hasta que el error absoluto está por debajo de cierto umbral, hasta que el número de iteraciones ha alcanzado cierto límite máximo predefinido, o hasta que ha transcurrido un tiempo especificado. En ese punto G[t] se fija igual a G_{i}.
Haciendo referencia de nuevo a las Ecuaciones 6-8, se observa que la excitación de la señal x[n] se obtiene a través de operaciones lineales en el cuadrado de la magnitud de STDFT de la señal, | X[k,t] |^{2}. Se deduce que la excitación resultante de una señal modificada en ganancia Gx[n] es igual a la excitación de x[n] multiplicada por G^{2}. Además, la integración temporal requerida para estimar la sonoridad percibida a largo plazo puede ser realizada a través de promediado lineal en tiempo de la excitación, y por tanto la excitación promediada en tiempo correspondiente a Gx[n] es igual a la excitación promediada en tiempo de x[n] multiplicada por G^{2}. Como resultado, el promediado en tiempo no necesita ser nuevamente calculado en toda la historia de la señal de entrada para cada nueva evaluación de \Psi{G_{i}x[n],t} en el proceso iterativo descrito anteriormente. En su lugar, la excitación promediada en tiempo \overline{\mathit{E}}[m,t] puede ser calculada sólo una vez a partir de x[n], y en la iteración pueden ser calculados valores actualizados de sonoridad aplicando el cuadrado de la ganancia actualizada directamente a \overline{\mathit{E}}[m,t]. Concretamente, suponiendo que \Psi_{E}{\overline{\mathit{E}}[m,t]} representa todo el tratamiento realizado en la excitación promediada en tiempo \overline{\mathit{E}}[m,t] para generar S[t], se cumple la siguiente relación para una ganancia multiplicativa general G:
130
Usando esta relación, el proceso iterativo puede ser simplificado sustituyendo \Psi{G_{i}x[n],t} por \Psi_{E}{G^{2}_{i}\overline{\mathit{E}}[m,t]}. Esta simplificación no sería posible si la integración temporal requerida para estimar la sonoridad percibida a largo plazo hubiera sido realizada después de la transformación no lineal a sonoridad específica.
El proceso iterativo para calcular G[t] está representado en la figura 2. La sonoridad de salida S[t] en el terminal 223 puede ser restada en un combinador substractivo o función de combinación 231 a partir de la sonoridad de referencia S_{ref} en el terminal 230. La señal de error resultante 232 es alimentada a un actualizador o función de actualización de ganancia iterativo ("Actualizador de Ganancia Iterativo") 233 que genera la siguiente ganancia G_{i} en la iteración. El cuadrado de esta ganancia, G^{2}_{i}, es entonces alimentado de nuevo a la salida 234 al combinador multiplicativo 208, G^{2}_{i} donde es multiplicada por la señal de excitación promediada en tiempo desde el bloque 206. El siguiente valor de S[t] en la iteración es entonces calculado a partir de esta versión modificada en ganancia de la excitación promediada en tiempo a través de los bloques 220 y 222. El bucle descrito itera hasta que se cumplen las condiciones de terminación, en cuyo momento la ganancia G[t] en el terminal 235 se establece igual al valor actual de G_{i}. El valor final de G[t] puede ser calculado a través del proceso iterativo descrito, por ejemplo, para cada marco t de FFT o justamente una vez al final de un segmento de audio después de que la excitación haya sido promediada en toda la longitud de este segmento.
Si se desea calcular la sonoridad de la señal no modificada en ganancia en combinación con este proceso iterativo, la ganancia G_{i} puede ser inicializada a uno al comienzo de cada proceso iterativo durante cada periodo de tiempo t. De este modo el primer valor de S[t] calculado en el bucle representa la sonoridad de la señal original y puede ser registrado como tal. Si no se desea, sin embargo, registrar este valor, G_{i} puede ser inicializada con cualquier valor. En el caso en que G[t] sea calculada en marcos de tiempo consecutivos y no se desee registrar la sonoridad de señal original, puede ser deseable inicializar G_{i} igual al valor de G[t] a partir del periodo de tiempo anterior. De este modo, si la señal no ha cambiado significativamente desde el periodo de tiempo anterior, es probable que el valor G[t] haya permanecido esencialmente el mismo. Por lo tanto, serán requeridas sólo unas pocas iteraciones para converger hacia el valor apropiado.
\newpage
Una vez que se han completado las iteraciones, G[t] representa la ganancia que se ha de aplicar a la señal de audio de entrada den 201 por algún dispositivo externo, de tal manera que la sonoridad de la señal modificada iguale la sonoridad de referencia. La figura 3 muestra una disposición adecuada en la que la ganancia G[t] desde la Actualización de Ganancia Iterativa 233 se aplica a una entrada de control de un dispositivo o función de control de nivel de señal, tal como un amplificador de voltaje controlado (VCA: voltaje controlled amplifier) 236 con el fin de proporcionar una señal de salida de ganancia ajustada. El VCA 234 de la figura 3 puede ser sustituido por un operador humano que controle un ajustador de ganancia en respuesta a una indicación sensorial de la ganancia G[t] en la línea 235.Una indicación sensorial puede ser proporcionada por un medidor, por ejemplo. La ganancia G[t] puede ser sometida a filtración de tiempo (no mostrado).
Para algunas señales, una alternativa a la filtración descrita en las Ecuaciones 10 y 11 puede ser deseable para calcular la sonoridad percibida a largo plazo. Los oyentes tienden a asociar la sonoridad a largo plazo de una señal con las porciones más sonoras de esa señal. Como consecuencia, la filtración presentada en las Ecuaciones 10 y 11 puede subestimar la sonoridad percibida de una señal que contenga largos periodos de silencio relativo interrumpido por segmentos más cortos de material más sonoro. Tales señales son con frecuencia encontradas en pistas de sonido de películas con cortos segmentos de diálogo rodeados de periodos más largos de ruido de escena ambiente. Incluso con el umbral presentado en la Ecuación 11, las porciones silenciosas de tales señales pueden contribuir demasiado fuertemente a la excitación promediada en tiempo \overline{\mathit{E}}[m,t].
Para tratar este problema, puede ser empleada una técnica estadística para calcular la sonoridad a largo plazo en un aspecto más de la presente invención. En primer lugar, la constante de tiempo de filtración en las Ecuaciones 10 y 11 se hace muy pequeña y tdB se fija en menos infinito de manera que \overline{\mathit{E}}[m,t] representa la excitación "instantánea". En este caso, el parámetro de filtración \lambda_{m} puede ser elegido para que varíe a través de las bandas m para modelar más exactamente la manera en que varía a través de la frecuencia la sonoridad instantánea. Sin embargo, en la práctica, la elección de \lambda_{m} para que sea constante a través de m todavía produce resultados aceptables. El resto del algoritmo anteriormente descrito opera sin cambio, dando lugar a una señal de sonoridad instantánea S[t], como se ha especificado en la Ecuación 16. En cierto intervalo, t_{1} \leq t \leq t_{2}, la sonoridad a largo plazo S_{p}[t_{1}, t_{2}] es entonces definida como un valor que es mayor que S[t] para p por ciento de los valores de tiempo en el intervalo y menor que S[t] para 100-p por ciento de los valores de tiempo en el intervalo. Los experimentos han mostrado que estableciendo p igual a aproximadamente 90% se hace subjetivamente igual a la sonoridad percibida a largo plazo. Con este establecimiento, solo 10% de los valores de S[t] necesitan ser significativos para afectar la sonoridad a largo plazo. El otro 90% de los valores puede ser relativamente silencioso sin disminuir la medida de sonoridad a largo plazo.
El valor S_{p}[t_{1}, t_{2}] puede ser calculado clasificando en orden ascendente los valores S[t], t_{1} \leq t \leq t_{2}, en una lista, S_{sort}{i}, 0 \leq i \leq t_{2} - t_{1}, donde i representa el elemento de orden i de la lista clasificada. La sonoridad a largo plazo está dada entonces por el elemento que es p por ciento del modo en la lista.
131
En sí mismo, el anterior cálculo es relativamente directo. Sin embargo, si se desea calcular una ganancia G_{2}[t_{1},t_{2}], la cual, cuando se multiplica por x[n] da lugar a que S_{p}[t_{1}, t_{2}] sea igual a cierta sonoridad de referencia S_{ref}, el cálculo resulta significativamente más complejo. Como antes, se requiere una solución iterativa, pero ahora la medida de sonoridad a largo plazo S_{p}[t_{1}, t_{2}] es dependiente en todo el intervalo de valores S[t], t_{1} \leq t \leq t_{2}, cada uno de los cuales debe ser actualizado con cada actualización de G_{i} en la iteración. Con el fin de calcular estas actualizaciones, la señal \overline{\mathit{E}}[m,t] debe ser almacenada en todo el intervalo t_{1} \leq t \leq t_{2}. Además, puesto que la dependencia de S[t] de Gi es no lineal, la ordenación relativa de S[t], t_{1} \leq t \leq t_{2}, puede cambiar con cada iteración, y por lo tanto debe ser también nuevamente calculada S_{sort}{i}. La necesidad de reclasificación es relativamente evidente cuando se consideran segmentos de señal a corto plazo cuyo espectro está justamente por debajo del umbral de audición para una ganancia particular en la iteración. Cuando se aumenta la ganancia, puede ser audible una porción significativa del espectro del segmento, lo que puede hacer que la sonoridad total del segmento sea mayor que la de otros segmentos de banda estrecha de la señal que fueran previamente audibles. Cuando el intervalo t_{1} \leq t \leq t_{2} resulta grande o si se desea calcular la ganancia G_{p}[t_{1}, t_{2}] continuamente como una función de una ventana de tiempo de deslizamiento, los costes de cálculo y de memoria de este proceso iterativo pueden resultar prohibitivos.
Un ahorro significativo en cálculo y memoria se consigue haciendo que S[t] sea una función monotónicamente creciente de G_{i}. En otras palabras, aumentando G_{i} aumenta siempre la sonoridad a corto plazo en cada instante de tiempo. Con este conocimiento, la ganancia de concordancia deseada G_{p}[t_{1}, t_{2}] puede ser eficazmente calculada como sigue. En primer lugar, se calcula la ganancia de concordancia previamente definida G[t] a partir de \overline{\mathit{E}}[m,t] usando la iteración descrita para todos los valores de t en el intervalo t_{1} \leq t \leq t_{2}. Obsérvese que para cada valor t, G[t] se calcula iterando sobre el valor único \overline{\mathit{E}}[m,t]. A continuación, se calcula de ganancia de concordancia a largo plazo G_{p}[t_{1}, t_{2}] clasificando en orden ascendente los valores G[t], t_{1} \leq t \leq t_{2} en una lista, G_{sort}{i} 0 \leq i \leq t_{2} - t_{1} y estableciendo después
132
Se arguye ahora que G_{p}[t_{1}, t_{2}] es igual a la ganancia que cuando se multiplica por x[n] da lugar a que S_{p}[t_{1}, t_{2}] sea igual a la sonoridad de referencia deseada S_{ref}. Obsérvese en la Ecuación 28 que G[t] < G_{p}[t_{1}, t_{2}] para 100-p por ciento de los valores de tiempo en el intervalo t_{1} \leq t \leq t_{2} y que G[t] > G_{p}[t_{1}, t_{2}] para el otro p por ciento. Para aquellos valores de G[t] tales que G[t] < G_{p}[t_{1}, t_{2}], se observa que si G_{p}[t_{1}, t_{2}] se fuera a aplicar a los correspondientes valores de \overline{\mathit{E}}[m,t] en vez de G[t], entonces los valores resultantes de S[t] serían mayores que la sonoridad de referencia deseada. Esto es cierto debido a que S[t] es una función monotónicamente creciente de la ganancia. Análogamente, si G_{p}[t_{1},t_{2}] se fuera a aplicar a los valores de \overline{\mathit{E}}[m,t] correspondientes a G[t] de tal manera que G[t] > G_{p}[t_{1},t_{2}], entonces los valores resultantes de S[t] serían menores que la sonoridad de referencia deseada. Por lo tanto, la aplicación de G_{p}[t_{1}, t_{2}] a todos los valores de \overline{\mathit{E}}[m,t] en el intervalo t_{1} \leq t \leq t_{2} da lugar a que S[t] sea mayor que el 100-p por ciento de referencia deseado del tiempo y menor que el p por ciento de referencia del tiempo. En otras palabras, S_{p}[t_{1}, t_{2}] es igual a la referencia deseada.
Este método alternativo de calcular la ganancia de concordancia evita la necesidad de almacenar \overline{\mathit{E}}[m,t] y S[t] en el intervalo t_{1} \leq t \leq t_{2}. Sólo se necesita almacenar G[t]. Además, para cada valor de G_{p}[t_{1}, t_{2}] que es calculado, el almacenamiento de G[t] en el intervalo t_{1} \leq t \leq t_{2} sólo necesita ser realizado una vez, en contraposición a la solución anterior, en la que S[t] necesita ser almacenada nuevamente en cada iteración. En el caso en que G_{p}[t_{1}, t_{2}] se haya de calcular continuamente en cierta longitud T de ventana de deslizamiento (es decir, t_{1} = t - T, t_{2} = t), la lista G_{sort}{i} se puede mantener eficientemente retirando y añadiendo simplemente un valor único de la lista clasificada para cada nuevo instante de tiempo. Cuando el intervalo t_{1} \leq t \leq t_{2} resulta extremadamente grande (la longitud de la totalidad de la canción o película, por ejemplo), la memoria requerida para almacenar G[t] puede ser todavía prohibitiva. En este caso, G_{p}[t_{1}, t_{2}] puede ser aproximadamente de un histograma hecho discreto de G[t]. En la práctica, este histograma es creado a partir de G[t] en unidades de decibelios. El histograma puede ser calculado como
H[i] = número de muestras en el intervalo t_{1} \leq t \leq t_{2} de al manera que
133
donde \Delta_{dB} es la resolución del histograma y dB_{min} es el mínimo del histograma. La ganancia de concordancia es entonces aproximadamente como
\vskip1.000000\baselineskip
134
donde
135
\vskip1.000000\baselineskip
e I es el índice máximo de histograma. Usando el histograma hecho discreto, sólo necesitan ser almacenados valores de I, y G_{p}[t_{1}, t_{2}] es fácilmente actualizado con cada nuevo valor de G[t].
Se pueden concebir otros métodos para aproximarse a G_{p}[t_{1}, t_{2}] desde G[t], y esta invención está destinada a incluir tales técnicas. El aspecto clave de esta porción de la invención es realizar algún tipo de filtración en la ganancia de concordancia o adaptación G[t] para generar la ganancia de concordancia a largo plazo Gp[t_{1}, t_{2}] en lugar de tratar la sonoridad instantánea S[t] para generar la sonoridad a largo plazo S_{p}[t_{1}, t_{2}], de la cual se estima entonces G_{p}[t_{1}, t_{2}] a través de un proceso iterativo.
Las figuras 10 y 11 representan sistemas similares a los de las figuras 2 y 3, respectivamente, pero en los que la filtración (dispositivo o función 237) de la ganancia de concordancia G[t] se usa para generar una señal de ganancia filtrada G_{p}[t_{1},t_{2}] (señal 238).
La sonoridad de referencia en la entrada 230 (figuras 2, 3, 10, 11) puede ser "fija" o "variable" y la fuente de la sonoridad de referencia puede ser interna o externa a una disposición que incorpore aspectos de la invención. Por ejemplo, la sonoridad de referencia puede ser fijada por un usuario, en cuyo caso su fuente es externa y puede permanecer "fija" durante un periodo de tiempo hasta que sea nuevamente fijada por el usuario. Alternativamente, la sonoridad de referencia puede ser una medida de sonoridad de otra fuente de audio derivada de un proceso o dispositivo de medición de sonoridad de acuerdo con la presente invención, tal como la disposición mostrada en el ejemplo de la figura 1.
El control de volumen normal de un dispositivo de producción de audio puede ser sustituido por un proceso o dispositivo de acuerdo con aspectos de la invención, tales como los ejemplo de la figura 3 o la figura 11. En ese caso, el botón, corredera, etc. de volumen, operado por el usuario, controlaría la sonoridad de referencia en 230 de la figura 3 o la figura 11 y, en consecuencia, el dispositivo de producción de audio tendría una sonoridad mesurada con el ajuste del usuario del control de volumen.
Un ejemplo de una referencia variable se muestra en la figura 12, en la que la sonoridad de referencia S_{ref} es sustituida por un referencia variable S_{ref}[t] que es calculada, por ejemplo, a partir de la señal de sonoridad S[t] a través de un dispositivo o función de sonoridad de referencia variable ("Sonoridad de Referencia Variable") 239. En esta disposición, al comienzo de cada iteración para cada periodo de tiempo t, la referencia variable S_{ref}[t] puede ser calculada a partir de la sonoridad no modificada S[t] antes de que haya sido aplicada cualquiera ganancia a la excitación en 208. La dependencia de S_{ref}[t] y S[t] a través de la función de referencia de sonoridad variable 239 puede adoptar varias formas para conseguir varios efectos. Por ejemplo, la función puede escalar simplemente S[t] para generar una referencia que sea cierta relación fija de la sonoridad original. Alternativamente, la función podría producir una referencia mayor que S[t] cuando S[t] estuviera por debajo de cierto umbral y menor que S[t] cuando S[t] está por encima de cierto umbral, reduciendo así el intervalo dinámico de la sonoridad percibida del audio. Cualquiera que sea la forma de esa función, la iteración anteriormente descrita se realiza para calcular G[t] de tal manera que
136
La ganancia de concordancia G[t] puede ser entonces filtrada como se ha descrito anteriormente o a través de alguna otra técnica apropiada para conseguir el efecto porcentual deseado. Finalmente, puede ser introducido un retardo 240 entre la señal de audio 201 y el bloque de VCA 236 para compensar cualquier estado latente en el cálculo de la ganancia filtrada. Un tal retardo puede ser también proporcionado en las disposiciones de las figuras 3 y 11.
La señal de control de ganancia G[t] de la figura 3 y la señal de control de ganancia filtrada G_{p}[t_{1}, t_{2}] de la disposición de la figura 11 puede ser útil en una diversidad de aplicaciones, incluyendo, por ejemplo, emisión televisiva o de radio por satélite, en las que varía la sonoridad percibida a través de diferentes canales. En tales entornos, el aparato o método de la presente invención puede comparar la señal de audio da cada canal con un nivel de sonoridad de referencia (o la sonoridad de una señal de referencia). Un operador o dispositivo automatizado puede usar la ganancia para ajustar la sonoridad de cada canal. Todos los canales tendrían así esencialmente la misma sonoridad percibida. La figura 13 muestra un ejemplo de una tal disposición, en la que el audio de una pluralidad de canales de televisión o de audio, 1 a N , se aplica a las respectivas entradas 201 de los procesos o dispositivos 250, 252, comenzando cada uno de acuerdo con aspectos de la invención como se muestran en las figuras 3 u 11. El mismo nivel de sonoridad de referencia se aplica a cada uno de los procesos o dispositivos 250, 252 que dan lugar al audio del primer canal al canal de orden N de sonoridad ajustada en cada salida 236.
La técnica de medición y de ajuste de ganancia puede ser aplicada también a un dispositivo de medición en tiempo real que vigile material de audio de entrada, realice el tratamiento que identifica contenido de audio que contiene principalmente señales de habla humana, y calcule una ganancia tal que las señales de habla concuerden esencialmente con un nivel de referencia previamente definido. Técnicas apropiadas para identificar habla en material de audio se exponen en la Solicitud de Patente de Estados Unidos S. N. 10/233.073, presentada el 30 de agosto de 2002 y publicada como Publicación de Solicitud de Estados Unidos US 2004/0044525 A1, publicada el 4 de marzo de 2004. Debido a la molestia de la audiencia con contenido de audio sonoro tiende a ser enfocado sobre las porciones de habla de material de programa, un método de medición y de ajuste de ganancia puede reducir en gran medida la diferencia de nivel de molestia en audio comúnmente usado en material de televisión, de películas y de música.
Ejecución
La invención puede ser ejecutada en equipo físico (hardware) o programación lógica (software) o en una combinación de ambos (por ejemplo, series lógicas programables). A menos que se especifique de otro modo, los algoritmos incluidos como parte de la invención no están inherentemente relacionados con ningún ordenador u otro aparato particular. En particular, se pueden usar varias máquinas de finalidad general con programas escritos de acuerdo con las enseñanzas de esta memoria, o puede ser más conveniente construir aparatos más especializados (por ejemplo, circuitos integrados) para realizar los pasos requeridos del método. Así, la invención puede ser ejecutada en uno o más programas de ordenador que se ejecuten en uno o más sistemas de ordenador programables, cada uno de los cuales comprenda al menos un ordenador, al menos un sistema de almacenamiento de datos (incluyendo memoria volátil o no volátil y/o elementos de almacenamiento), al menos un dispositivo o puerto de entrada, y al menos un dispositivo o puerto de salida. El código de programa se aplica a datos de entrada para realizar las funciones descritas aquí y generar información de salida. La información de salida se aplica a uno o más dispositivos de salida, de forma conocida.
\newpage
Cada uno de tales programas puede ser ejecutado en cualquier lenguaje de ordenador deseado (incluyendo lenguajes de máquina, de ensamble, procedimental de alto nivel o de programación orientado a objetos) para comunicar con un sistema de ordenador. En cualquier caso, el lenguaje puede ser lenguaje compilado o interpretado.
Cada uno de tales programas de ordenador es preferiblemente almacenado o descargado en un medio o dispositivo de almacenamiento (por ejemplo, memoria o medio de estado sólido, o medio magnético u óptico) legible por un ordenador general o especial de finalidad especial, para configurar y operar el ordenador cuando el medio o dispositivo de almacenamiento es leído por el sistema de ordenador para realizar los procedimientos descritos aquí. El sistema del invento se puede considerar también ejecutado como un medio de almacenamiento legible por ordenador, configurado con un programa de ordenador, en el que el medio de almacenamiento así configurado hace que un sistema de ordenador opere de una manera concreta y predefinida para realizar las funciones descritas en esta memoria.
Se han descrito varias realizaciones de la invención. Sin embargo, se entenderá que se pueden hacer varias modificaciones sin apartarse del ámbito de la invención. Por ejemplo, algunos de los pasos descritos anteriormente pueden ser independientes del orden, y de ese modo se pueden realizar en un orden diferente al descrito. Por lo tanto, otras realizaciones están dentro del ámbito de las siguientes reivindicaciones. Por lo tanto, el alcance de la invención está limitado solamente por las reivindicaciones adjuntas.

Claims (21)

1. Un método para tratar una señal de audio, que comprende producir, en respuesta a la señal de audio, una señal de excitación, y calcular la sonoridad porcentual de la señal de audio en respuesta a la señal de excitación y una medida de características de la señal de audio, en el que dicho cálculo selecciona, de un grupo de dos o más funciones específicas de modelo de sonoridad, una o una combinación de dos o más de las funciones específicas de modelo de sonoridad, cuya selección es controlada por la medición de características de la señal de audio de entrada.
2. Un método de acuerdo con la reivindicación 1, en el que la medición de características de la señal de audio es una medición del grado al cual la señal de entrada es espectralmente plana.
3. Un método de acuerdo con la reivindicación 1, en el que dicho cálculo selecciona o combina dos funciones específicas de modelo de sonoridad, siendo una primera función de modelo de sonoridad seleccionada por una medición de características resultantes de una señal de entrada que no es espectralmente plana, siendo seleccionada una segunda función de modelo de sonoridad por una medición de características que resultan de una señal de entrada espectralmente plana, y siendo seleccionada una combinación de las funciones primera y segunda de modelo de sonoridad por una medición de características resultante de una señal de entrada parcialmente no plana espectralmente, parcialmente plana espectralmente.
4. Un método de acuerdo con la reivindicación 3, en el que tanto la primera como la segunda funciones de modelo de sonoridad aumentan monotónicamente por encima de un umbral en silencio o inactividad con excitación creciente de acuerdo con una ley de potencia, aumentando la primera función de modelo de sonoridad más rápidamente que la segunda función de modelo de sonoridad.
5. Un método de acuerdo con la reivindicación 1, en el que dicho cálculo se selecciona de un grupo de dos o más modelos de sonoridad específicos, uno o una combinación de dos o más de dichos modelos de sonoridad específicos en cada una de las respectivas bandas de frecuencias de la señal de excitación.
6. Un método de acuerdo con la reivindicación 1, en el que dicho cálculo se selecciona de un grupo de dos o más modelos específicos de sonoridad, uno o una combinación de dos o más de dichos modelos de sonoridad de un grupo de respectivas bandas de frecuencias de excitación.
7. Un método de acuerdo con la reivindicación 6, en el que el grupo de respectivas bandas de frecuencias son todas de las bandas de frecuencia de la señal de excitación.
8. Un método de acuerdo con la reivindicación 1, en el que la medición de características de la señal de audio se deduce de la señal de excitación.
9. Un método de acuerdo con la reivindicación 1, en el que el cálculo incluye calcular una sonoridad específica en cada una de las bandas de frecuencias respectivas de la señal de excitación.
10. Un método de acuerdo con la reivindicación 9, en el que el cálculo comprende además seleccionar la sonoridad específica de una banda de frecuencias para proporcionar la sonoridad porcentual o combinar la sonoridad específica de un grupo de bandas de frecuencias para proporcionar la sonoridad porcentual.
11. Un método de acuerdo con la reivindicación 1, en el que el paso de producir, en respuesta a la señal de audio, una señal de excitación, comprende:
filtrar linealmente la señal de audio mediante una o más funciones que simulan las características del oído exterior y medio humano para producir una señal de audio filtrada linealmente, y
dividir la señal de audio linealmente filtrada en bandas de frecuencias que simulan la pauta de excitación generada a lo largo de la membrana basilar del oído interno para producir la señal de excitación.
12. Un método de acuerdo con cualquiera de las reivindicaciones precedentes, que comprende además
calcular, en respuesta a la señal de excitación, un valor de ganancia G[t], incluyendo el cálculo un bucle de tratamiento iterativo que incluye
ajustar la magnitud de la señal de excitación en respuesta a una función de un valor de ganancia de iteración G_{i} de tal manera que la magnitud ajustada de la señal de excitación aumenta con valores crecientes de G_{i} y disminuye con valores decrecientes de G_{i},
comparar la sonoridad porcentual calculada de la señal de audio con una sonoridad porcentual de referencia para generar una diferencia, y
\newpage
ajustar el valor de ganancia G_{i} en respuesta a la diferencia de manera que se reduzca la diferencia entre la sonoridad porcentual calculada y la sonoridad porcentual de referencia.
13. El método de la reivindicación 12, en el que la señal de excitación es filtrada en tiempo y/o el método comprende además filtrar en tiempo el valor de ganancia G_{i}[t].
14. El método de la reivindicación 13, en el que la señal de excitación es filtrada linealmente en tiempo.
15. El método de la reivindicación 13, en el que el método comprende además filtrar el valor de ganancia G[t], empleando dicha filtración una técnica de histograma.
16. Un método de acuerdo con la reivindicación 12, en el que el bucle de tratamiento iterativo, de acuerdo con un algoritmo de minimización, ajusta repetitivamente la magnitud de la señal de excitación, calcula una sonoridad porcentual, compara la sonoridad porcentual calculada con una sonoridad porcentual de referencia, y ajusta el valor de ganancia G_{i} a un valor final G[_{i}].
17. Un método de cuerdo con la reivindicación 16, en el que el algoritmo de minimización está de acuerdo con el método de minimización de gradiente descendente.
18. Un método de acuerdo con cualquiera de las reivindicaciones 12 a 17, que comprende además controlar la amplitud de la señal de audio de entrada con la ganancia G[t] de manera que la sonoridad resultante percibida de la señal de audio de entrada sea esencialmente la misma que la sonoridad de referencia.
19. Un método de acuerdo con cualquiera de las reivindicaciones 12 a 18, en el que la sonoridad de referencia es establecida por el usuario.
20. Aparato que comprende medios destinados a realizar cada uno de los pasos del método de cualquiera de las reivindicaciones 1 a 19.
21. Un programa de ordenador, almacenado en un medio legible por ordenador para hacer que un ordenador realice cada uno de los pasos del método de cualquiera de las reivindicaciones 1 a 19, cuando el programa de ordenador se está ejecutando en el ordenador.
ES04776174T 2003-05-28 2004-05-27 Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio. Expired - Lifetime ES2290764T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US47407703P 2003-05-28 2003-05-28
US474077P 2003-05-28

Publications (1)

Publication Number Publication Date
ES2290764T3 true ES2290764T3 (es) 2008-02-16

Family

ID=33551475

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04776174T Expired - Lifetime ES2290764T3 (es) 2003-05-28 2004-05-27 Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio.

Country Status (19)

Country Link
US (1) US8437482B2 (es)
EP (1) EP1629463B1 (es)
JP (1) JP4486646B2 (es)
KR (1) KR101164937B1 (es)
CN (2) CN1795490A (es)
AT (1) ATE371246T1 (es)
AU (1) AU2004248544B2 (es)
BR (1) BRPI0410740A (es)
CA (1) CA2525942C (es)
DE (1) DE602004008455T2 (es)
DK (1) DK1629463T3 (es)
ES (1) ES2290764T3 (es)
HK (2) HK1083918A1 (es)
IL (1) IL172108A (es)
IN (1) IN2010KN02913A (es)
MX (1) MXPA05012785A (es)
PL (1) PL1629463T3 (es)
SG (1) SG185134A1 (es)
WO (1) WO2004111994A2 (es)

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
DE602005005948T2 (de) * 2004-01-13 2009-04-16 Koninklijke Philips Electronics N.V. Audiosignal-verbesserung
KR101079066B1 (ko) 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
KR100708123B1 (ko) * 2005-02-04 2007-04-16 삼성전자주식회사 자동으로 오디오 볼륨을 조절하는 방법 및 장치
TWI397903B (zh) 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
KR101251426B1 (ko) 2005-06-03 2013-04-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN101421781A (zh) * 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
CN101410892B (zh) * 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
CN102684628B (zh) 2006-04-27 2014-11-26 杜比实验室特许公司 修正音频动态处理器的参数的方法以及执行该方法的设备
US11450331B2 (en) 2006-07-08 2022-09-20 Staton Techiya, Llc Personal audio assistant device and method
EP2044804A4 (en) * 2006-07-08 2013-12-18 Personics Holdings Inc PERSONAL HEARING AID AND METHOD
WO2008018012A2 (en) * 2006-08-10 2008-02-14 Koninklijke Philips Electronics N.V. A device for and a method of processing an audio signal
KR101137715B1 (ko) 2006-10-20 2012-04-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 리셋을 사용하는 오디오 다이내믹스 프로세싱
JP2010513974A (ja) 2006-12-21 2010-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声データを処理するシステム
JP4938862B2 (ja) * 2007-01-03 2012-05-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドデジタル/アナログラウドネス補償音量調節
MY144152A (en) 2007-06-19 2011-08-15 Dolby Lab Licensing Corp Loudness measurement with spectral modifications
ES2354962T3 (es) 2007-07-13 2011-03-21 Dolby Laboratories Licensing Corporation Nivel de señal de audio variable con el tiempo usando una densidad de probabilidad estimada variable con el tiempo del nivel.
US8396574B2 (en) 2007-07-13 2013-03-12 Dolby Laboratories Licensing Corporation Audio processing using auditory scene analysis and spectral skewness
DE102007035172A1 (de) 2007-07-27 2009-02-05 Siemens Medical Instruments Pte. Ltd. Hörsystem mit visualisierter psychoakustischer Größe und entsprechendes Verfahren
EP2188986B1 (en) * 2007-08-16 2016-04-06 DTS, Inc. Audio processing for compressed digital television
US8315398B2 (en) 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
CA2720636C (en) * 2008-04-18 2014-02-18 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
TWI397058B (zh) * 2008-07-29 2013-05-21 Lg Electronics Inc 音頻訊號之處理裝置及其方法,及電腦可讀取之紀錄媒體
EP2329492A1 (en) 2008-09-19 2011-06-08 Dolby Laboratories Licensing Corporation Upstream quality enhancement signal processing for resource constrained client devices
ES2385293T3 (es) * 2008-09-19 2012-07-20 Dolby Laboratories Licensing Corporation Procesamiento de señales ascendentes para dispositivos clientes en una red inalámbrica de células pequeñas
US9380385B1 (en) 2008-11-14 2016-06-28 That Corporation Compressor based dynamic bass enhancement with EQ
WO2010057134A1 (en) 2008-11-14 2010-05-20 That Corporation Dynamic volume control and multi-spatial processing protection
EP2374211B1 (en) 2008-12-24 2012-04-04 Dolby Laboratories Licensing Corporation Audio signal loudness determination and modification in the frequency domain
US9202456B2 (en) * 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
WO2010127024A1 (en) * 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (zh) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
CN102422349A (zh) * 2009-05-14 2012-04-18 夏普株式会社 增益控制装置和增益控制方法、声音输出装置
WO2010138311A1 (en) 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
WO2010138309A1 (en) 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Audio signal dynamic equalization processing control
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
DE112009005215T8 (de) * 2009-08-04 2013-01-03 Nokia Corp. Verfahren und Vorrichtung zur Audiosignalklassifizierung
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
WO2011071928A2 (en) * 2009-12-07 2011-06-16 Pixel Instruments Corporation Dialogue detector and correction
EP2367286B1 (en) * 2010-03-12 2013-02-20 Harman Becker Automotive Systems GmbH Automatic correction of loudness level in audio signals
WO2011141772A1 (en) * 2010-05-12 2011-11-17 Nokia Corporation Method and apparatus for processing an audio signal based on an estimated loudness
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
CN103348408B (zh) 2011-02-10 2015-11-25 杜比实验室特许公司 噪声和位置外信号的组合抑制方法和***
US20120263317A1 (en) * 2011-04-13 2012-10-18 Qualcomm Incorporated Systems, methods, apparatus, and computer readable media for equalization
EP2714184B1 (en) * 2011-05-26 2017-05-10 Advanced Bionics AG Systems for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels
KR102060208B1 (ko) 2011-07-29 2019-12-27 디티에스 엘엘씨 적응적 음성 명료도 처리기
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US9437213B2 (en) * 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
WO2013142695A1 (en) * 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Method and system for bias corrected speech level determination
CN104221284B (zh) * 2012-04-12 2017-05-24 杜比实验室特许公司 用于调平音频信号的响度变化的***及方法
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
WO2014021890A1 (en) 2012-08-01 2014-02-06 Dolby Laboratories Licensing Corporation Percentile filtering of noise reduction gains
EP2693637A1 (en) * 2012-08-01 2014-02-05 Harman Becker Automotive Systems GmbH Automatic loudness control
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9391576B1 (en) * 2013-09-05 2016-07-12 Cirrus Logic, Inc. Enhancement of dynamic range of audio signal path
US9831843B1 (en) 2013-09-05 2017-11-28 Cirrus Logic, Inc. Opportunistic playback state changes for audio devices
JP6151619B2 (ja) * 2013-10-07 2017-06-21 クラリオン株式会社 音場測定装置、音場測定方法および音場測定プログラム
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US9832562B2 (en) * 2013-11-07 2017-11-28 Gn Hearing A/S Hearing aid with probabilistic hearing loss compensation
DK2871858T3 (da) * 2013-11-07 2019-09-23 Gn Hearing As Et høreapparat med probabilistisk høretabskompensation
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
EP3092640B1 (en) * 2014-01-07 2018-06-27 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
US9774342B1 (en) 2014-03-05 2017-09-26 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system
US9525940B1 (en) 2014-03-05 2016-12-20 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system
US9503803B2 (en) 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
US9306588B2 (en) 2014-04-14 2016-04-05 Cirrus Logic, Inc. Switchable secondary playback path
CN105336341A (zh) 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
US10785568B2 (en) 2014-06-26 2020-09-22 Cirrus Logic, Inc. Reducing audio artifacts in a system for enhancing dynamic range of audio signal path
US10013992B2 (en) 2014-07-11 2018-07-03 Arizona Board Of Regents On Behalf Of Arizona State University Fast computation of excitation pattern, auditory pattern and loudness
US9337795B2 (en) 2014-09-09 2016-05-10 Cirrus Logic, Inc. Systems and methods for gain calibration of an audio signal path
US9596537B2 (en) 2014-09-11 2017-03-14 Cirrus Logic, Inc. Systems and methods for reduction of audio artifacts in an audio system with dynamic range enhancement
US9503027B2 (en) 2014-10-27 2016-11-22 Cirrus Logic, Inc. Systems and methods for dynamic range enhancement using an open-loop modulator in parallel with a closed-loop modulator
US9584911B2 (en) 2015-03-27 2017-02-28 Cirrus Logic, Inc. Multichip dynamic range enhancement (DRE) audio processing methods and apparatuses
US10109288B2 (en) * 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
US9959856B2 (en) 2015-06-15 2018-05-01 Cirrus Logic, Inc. Systems and methods for reducing artifacts and improving performance of a multi-path analog-to-digital converter
EP4156180A1 (en) * 2015-06-17 2023-03-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Loudness control for user interactivity in audio coding systems
DE102015216822B4 (de) * 2015-09-02 2017-07-06 Sivantos Pte. Ltd. Verfahren zur Unterdrückung einer Rückkopplung in einem Hörgerät
US9590580B1 (en) * 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
DE102015217565A1 (de) 2015-09-15 2017-03-16 Ford Global Technologies, Llc Verfahren und Vorrichtung zur Verarbeitung von Audio-Signalen
US9955254B2 (en) 2015-11-25 2018-04-24 Cirrus Logic, Inc. Systems and methods for preventing distortion due to supply-based modulation index changes in an audio playback system
US9543975B1 (en) 2015-12-29 2017-01-10 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system with low-pass filter between paths
US9880802B2 (en) 2016-01-21 2018-01-30 Cirrus Logic, Inc. Systems and methods for reducing audio artifacts from switching between paths of a multi-path signal processing system
US9998826B2 (en) 2016-06-28 2018-06-12 Cirrus Logic, Inc. Optimization of performance and power in audio system
US10545561B2 (en) 2016-08-10 2020-01-28 Cirrus Logic, Inc. Multi-path digitation based on input signal fidelity and output requirements
US10263630B2 (en) 2016-08-11 2019-04-16 Cirrus Logic, Inc. Multi-path analog front end with adaptive path
US9813814B1 (en) 2016-08-23 2017-11-07 Cirrus Logic, Inc. Enhancing dynamic range based on spectral content of signal
US9780800B1 (en) 2016-09-19 2017-10-03 Cirrus Logic, Inc. Matching paths in a multiple path analog-to-digital converter
US9762255B1 (en) 2016-09-19 2017-09-12 Cirrus Logic, Inc. Reconfiguring paths in a multiple path analog-to-digital converter
US9929703B1 (en) 2016-09-27 2018-03-27 Cirrus Logic, Inc. Amplifier with configurable final output stage
US9967665B2 (en) 2016-10-05 2018-05-08 Cirrus Logic, Inc. Adaptation of dynamic range enhancement based on noise floor of signal
US10321230B2 (en) 2017-04-07 2019-06-11 Cirrus Logic, Inc. Switching in an audio system with multiple playback paths
US10008992B1 (en) 2017-04-14 2018-06-26 Cirrus Logic, Inc. Switching in amplifier with configurable final output stage
US9917557B1 (en) 2017-04-17 2018-03-13 Cirrus Logic, Inc. Calibration for amplifier with configurable final output stage
CN107464563B (zh) * 2017-08-11 2020-08-04 广州迪宝乐电子有限公司 一种语音交互玩具
US10389323B2 (en) * 2017-12-18 2019-08-20 Tls Corp. Context-aware loudness control
US11894006B2 (en) 2018-07-25 2024-02-06 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
CN112437957A (zh) 2018-07-27 2021-03-02 杜比实验室特许公司 用于全面收听的强加间隙***
CN109547848B (zh) * 2018-11-23 2021-02-12 北京达佳互联信息技术有限公司 响度调整方法、装置、电子设备以及存储介质
JP2022527111A (ja) 2019-04-03 2022-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション スケーラブル音声シーンメディアサーバ
CN111640446B (zh) * 2020-06-24 2023-03-10 北京百瑞互联技术有限公司 一种基于音频编码器的响度均衡方法、编码器及蓝牙设备
US11916525B2 (en) * 2021-08-27 2024-02-27 Sennheiser Electronic Gmbh & Co. Kg Method for automatically controlling loudness of an audio signal, and device for automatically controlling loudness of an audio signal
WO2023122227A1 (en) * 2021-12-22 2023-06-29 University Of Maryland Audio control system

Family Cites Families (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) * 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
DE3314570A1 (de) * 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US4739514A (en) * 1986-12-22 1988-04-19 Bose Corporation Automatic dynamic equalizing
US4887299A (en) 1987-11-12 1989-12-12 Nicolet Instrument Corporation Adaptive, programmable signal processing hearing aid
US4953112A (en) 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5027410A (en) * 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
JPH02118322U (es) * 1989-03-08 1990-09-21
US5097510A (en) * 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
US5369711A (en) * 1990-08-31 1994-11-29 Bellsouth Corporation Automatic gain control for a headset
SG49883A1 (en) * 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
US5632005A (en) * 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
EP0517233B1 (en) 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
US5278912A (en) * 1991-06-28 1994-01-11 Resound Corporation Multiband programmable compression system
US5363147A (en) * 1992-06-01 1994-11-08 North American Philips Corporation Automatic volume leveler
DE4335739A1 (de) 1992-11-17 1994-05-19 Rudolf Prof Dr Bisping Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen
GB2272615A (en) 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
US5548638A (en) 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5706352A (en) * 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5434922A (en) * 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
BE1007355A3 (nl) * 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (es) * 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5530760A (en) * 1994-04-29 1996-06-25 Audio Products International Corp. Apparatus and method for adjusting levels between channels of a sound system
US5500902A (en) * 1994-07-08 1996-03-19 Stockham, Jr.; Thomas G. Hearing aid device incorporating signal processing techniques
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5548538A (en) * 1994-12-07 1996-08-20 Wiltron Company Internal automatic calibrator for vector network analyzers
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
CA2167748A1 (en) * 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
ATE229729T1 (de) 1995-03-13 2002-12-15 Phonak Ag Verfahren zur anpassung eines hörgerätes, vorrichtung hierzu und hörgerät
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
WO1996032710A1 (en) * 1995-04-10 1996-10-17 Corporate Computer Systems, Inc. System for compression and decompression of audio signals for digital transmission
US6301555B2 (en) * 1995-04-10 2001-10-09 Corporate Computer Systems Adjustable psycho-acoustic parameters
US5601617A (en) * 1995-04-26 1997-02-11 Advanced Bionics Corporation Multichannel cochlear prosthesis with flexible control of stimulus waveforms
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5663727A (en) * 1995-06-23 1997-09-02 Hearing Innovations Incorporated Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same
US5712954A (en) * 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5907622A (en) * 1995-09-21 1999-05-25 Dougherty; A. Michael Automatic noise compensation system for audio reproduction equipment
US5822018A (en) 1996-04-02 1998-10-13 Farmer; James O. Method and apparatus for normalizing signal levels in a signal processing system
US6108431A (en) * 1996-05-01 2000-08-22 Phonak Ag Loudness limiter
US6327366B1 (en) * 1996-05-01 2001-12-04 Phonak Ag Method for the adjustment of a hearing device, apparatus to do it and a hearing device
US6430533B1 (en) * 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
JPH09312540A (ja) * 1996-05-23 1997-12-02 Pioneer Electron Corp ラウドネスボリュームコントロール装置
JP3765622B2 (ja) * 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション オーディオ符号化復号化システム
EP0820212B1 (de) * 1996-07-19 2010-04-21 Bernafon AG Lautheitsgesteuerte Verarbeitung akustischer Signale
JP2953397B2 (ja) * 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US5862228A (en) 1997-02-21 1999-01-19 Dolby Laboratories Licensing Corporation Audio matrix encoding
US6125343A (en) * 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) * 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
KR100261904B1 (ko) * 1997-08-29 2000-07-15 윤종용 헤드폰 사운드 출력장치
US6088461A (en) * 1997-09-26 2000-07-11 Crystal Semiconductor Corporation Dynamic volume control system
US6404891B1 (en) * 1997-10-23 2002-06-11 Cardio Theater Volume adjustment as a function of transmission quality
US6233554B1 (en) * 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) * 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
JP3505085B2 (ja) * 1998-04-14 2004-03-08 アルパイン株式会社 オーディオ装置
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6498855B1 (en) 1998-04-17 2002-12-24 International Business Machines Corporation Method and system for selectively and variably attenuating audio data
JP2002518912A (ja) * 1998-06-08 2002-06-25 コックレア リミティド 聴覚装置
EP0980064A1 (de) * 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
FI113935B (fi) * 1998-09-25 2004-06-30 Nokia Corp Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
DE69933929T2 (de) * 1999-04-09 2007-06-06 Texas Instruments Inc., Dallas Bereitstellen von digitalen Audio- und Videoprodukten
WO2000065872A1 (en) 1999-04-26 2000-11-02 Dspfactory Ltd. Loudness normalization control for a digital hearing aid
US6263371B1 (en) * 1999-06-10 2001-07-17 Cacheflow, Inc. Method and apparatus for seaming of streaming content
US6985594B1 (en) * 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
US6442278B1 (en) * 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US7027981B2 (en) * 1999-11-29 2006-04-11 Bizjak Karl M System output control method and apparatus
FR2802329B1 (fr) * 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
DE10018666A1 (de) * 2000-04-14 2001-10-18 Harman Audio Electronic Sys Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
JP2002051392A (ja) * 2000-08-01 2002-02-15 Alpine Electronics Inc 車内会話補助装置
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3448586B2 (ja) 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US6625433B1 (en) * 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6807525B1 (en) * 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
ATE333751T1 (de) * 2000-11-09 2006-08-15 Koninkl Kpn Nv Messen einer übertragungsqualität einer telefonverbindung in einem fernmeldenetz
US7457422B2 (en) * 2000-11-29 2008-11-25 Ford Global Technologies, Llc Method and implementation for detecting and characterizing audible transients in noise
FR2820573B1 (fr) 2001-02-02 2003-03-28 France Telecom Methode et dispositif de traitement d'une pluralite de flux binaires audio
DE10107385A1 (de) * 2001-02-16 2002-09-05 Harman Audio Electronic Sys Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken
US6915264B2 (en) * 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
AU2001244029A1 (en) * 2001-04-10 2001-07-09 Phonak Ag Method for adjustment of a hearing aid to suit an individual
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
ATE318062T1 (de) 2001-04-18 2006-03-15 Gennum Corp Mehrkanal hörgerät mit übertragungsmöglichkeiten zwischen den kanälen
JP4681163B2 (ja) * 2001-07-16 2011-05-11 パナソニック株式会社 ハウリング検出抑圧装置、これを備えた音響装置、及び、ハウリング検出抑圧方法
CA2354755A1 (en) * 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
US7177803B2 (en) * 2001-10-22 2007-02-13 Motorola, Inc. Method and apparatus for enhancing loudness of an audio signal
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP3832396B2 (ja) * 2002-07-17 2006-10-11 コニカミノルタフォトイメージング株式会社 駆動装置、位置制御装置およびカメラ
JP4257079B2 (ja) 2002-07-19 2009-04-22 パイオニア株式会社 周波数特性調整装置および周波数特性調整方法
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
DE10308483A1 (de) * 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7551745B2 (en) 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8265295B2 (en) * 2005-03-11 2012-09-11 Rane Corporation Method and apparatus for identifying feedback in a circuit
CN101410892B (zh) 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
CN101421781A (zh) 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
CN102684628B (zh) 2006-04-27 2014-11-26 杜比实验室特许公司 修正音频动态处理器的参数的方法以及执行该方法的设备
JP4938862B2 (ja) 2007-01-03 2012-05-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドデジタル/アナログラウドネス補償音量調節

Also Published As

Publication number Publication date
EP1629463A2 (en) 2006-03-01
EP1629463B1 (en) 2007-08-22
JP2007503796A (ja) 2007-02-22
AU2004248544A1 (en) 2004-12-23
IL172108A (en) 2010-11-30
WO2004111994A2 (en) 2004-12-23
KR20060013400A (ko) 2006-02-09
CN1795490A (zh) 2006-06-28
MXPA05012785A (es) 2006-02-22
SG185134A1 (en) 2012-11-29
DK1629463T3 (da) 2007-12-10
IN2010KN02913A (es) 2015-05-01
HK1083918A1 (en) 2006-07-14
DE602004008455D1 (de) 2007-10-04
WO2004111994A3 (en) 2005-08-11
US8437482B2 (en) 2013-05-07
US20070092089A1 (en) 2007-04-26
JP4486646B2 (ja) 2010-06-23
CA2525942A1 (en) 2004-12-23
AU2004248544B2 (en) 2010-02-18
KR101164937B1 (ko) 2012-07-12
CA2525942C (en) 2015-04-07
ATE371246T1 (de) 2007-09-15
BRPI0410740A (pt) 2006-06-27
PL1629463T3 (pl) 2008-01-31
CN101819771A (zh) 2010-09-01
DE602004008455T2 (de) 2008-05-21
HK1105711A1 (en) 2008-02-22
CN101819771B (zh) 2012-04-11

Similar Documents

Publication Publication Date Title
ES2290764T3 (es) Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio.
US20210021247A1 (en) Methods and Apparatus for Adjusting a Level of an Audio Signal
ES2400160T3 (es) Control de una característica percibida del volumen sonoro de una señal de audio
US8199933B2 (en) Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
AU2008266847B2 (en) Loudness measurement with spectral modifications
EP1835487B1 (en) Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal