ES2290764T3 - Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio. - Google Patents
Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio. Download PDFInfo
- Publication number
- ES2290764T3 ES2290764T3 ES04776174T ES04776174T ES2290764T3 ES 2290764 T3 ES2290764 T3 ES 2290764T3 ES 04776174 T ES04776174 T ES 04776174T ES 04776174 T ES04776174 T ES 04776174T ES 2290764 T3 ES2290764 T3 ES 2290764T3
- Authority
- ES
- Spain
- Prior art keywords
- loudness
- signal
- audio signal
- excitation
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims description 71
- 238000004590 computer program Methods 0.000 title claims description 8
- 230000006870 function Effects 0.000 claims abstract description 68
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 230000005284 excitation Effects 0.000 claims description 54
- 238000005259 measurement Methods 0.000 claims description 38
- 230000004044 response Effects 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 210000000721 basilar membrane Anatomy 0.000 claims description 5
- 210000003027 ear inner Anatomy 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 230000005540 biological transmission Effects 0.000 description 19
- 230000007774 longterm Effects 0.000 description 16
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical compound O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 13
- 230000010354 integration Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000012935 Averaging Methods 0.000 description 8
- 238000012804 iterative process Methods 0.000 description 8
- 239000000463 material Substances 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 230000008447 perception Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000037007 arousal Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000000691 measurement method Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000035807 sensation Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000000135 prohibitive effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 101150107215 MANEA gene Proteins 0.000 description 1
- 102100035971 Molybdopterin molybdenumtransferase Human genes 0.000 description 1
- 101710119577 Molybdopterin molybdenumtransferase Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 210000000959 ear middle Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/005—Tone control or bandwidth control in amplifiers of digital signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/02—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
- H03G9/025—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuit For Audible Band Transducer (AREA)
- Television Receiver Circuits (AREA)
- Circuits Of Receivers In General (AREA)
Abstract
Un método para tratar una señal de audio, que comprende producir, en respuesta a la señal de audio, una señal de excitación, y calcular la sonoridad porcentual de la señal de audio en respuesta a la señal de excitación y una medida de características de la señal de audio, en el que dicho cálculo selecciona, de un grupo de dos o más funciones específicas de modelo de sonoridad, una o una combinación de dos o más de las funciones específicas de modelo de sonoridad, cuya selección es controlada por la medición de características de la señal de audio de entrada.
Description
Método, aparato y programa de ordenador para
calcular y ajustar la sonoridad percibida de una señal de audio.
La presente invención está relacionada con
mediciones de sonoridad o de altura de sonido de señales de audio y
con aparatos, métodos y programas de ordenador para controlar la
sonoridad de señales de audio en respuesta de tales mediciones.
La sonoridad es un atributo percibido
subjetivamente de sensación auditiva por el cual el sonido puede ser
ordenado en una escala que se extiende desde silencio a ruido.
Debido a que la sonoridad es una sensación percibida por un oyente,
no es apropiada para mediciones directas, por lo que resulta difícil
de cuantificar. Además, debido al componente porcentual de
sonoridad, distintos oyentes con percepción auditiva "normal"
pueden tener percepciones diferentes del mismo sonido. El único
modo de reducir las variaciones introducidas por la percepción
individual y de llegar a una medida general de la sonoridad de
material de audio es reunir un grupo de oyentes y deducir una cifra
de sonoridad, o graduación (ranking), estadísticamente. Este es
claramente un enfoque no práctico para mediciones estándar de
sonoridad, día a día.
Ha habido muchos intentos de desarrollar un
método objetivo satisfactorio de medir la sonoridad. Fletcher y
Munson determinaron en 1933 que la audición humana es menos
sensitiva a frecuencias bajas y altas que a frecuencias medias (o
de voz). También encontraron que el cambio relativo de sensibilidad
disminuía al aumentar el nivel de sonido. Un medidor primitivo de
sonoridad consistía en un micrófono, un amplificador, un medidor y
una combinación de filtros diseñados para imitar aproximadamente la
respuesta de frecuencia de niveles de sonido bajos, medios y
altos.
Incluso aunque tales dispositivos proporcionaban
una medida de la sonoridad de un tono único aislado, de nivel
constante, mediciones de sonidos más complejos no se adaptaban muy
bien a las impresiones subjetivas de sonoridad. Los medidores de
nivel de sonido de este tipo han sido normalizados, pero sólo usados
para tareas concretas, tales como la vigilancia y el control de
ruido industrial.
A principios de 1950, Zwicker y Stevens, entre
otros, extendieron el trabajo de Fletcher y Munson en el desarrollo
de un modelo más realista del proceso de percepción de sonoridad.
Stevens publicó un método para el "Calculo de la sonoridad de
ruido complejo" en la Revista de la Acoustical Society of
America, en 1956, y Zwicker publicó su artículo "Base psicológica
y metódica de sonoridad" en Acoustica en 1958. En 1959, Zwicker
publicó un procedimiento gráfico para cálculo de sonoridad, así
como varios artículos similares poco después. Los métodos de Stevens
y Zwicker fueron normalizados como ISO 532, partes A y B
(respectivamente).Ambos métodos incorporan fenómenos psicoacústicos
estándar tales como formación de bandas críticas, enmascaramiento de
frecuencia y sonoridad específica. Los métodos están basados en la
división de sonidos complejos en componentes que caen en "bandas
críticas" de frecuencias, permitiendo la posibilidad de que
algunos componentes enmascaren a otros, y la adición de la
sonoridad específica en cada banda crítica para llegar a la
sonoridad total del sonido.
La investigación reciente, según se ha puesto en
evidencia por "Investigación en sonoridad de anuncios" (julio
de 2002), de Australian Broadcasting Authority (ABA), ha mostrado
que muchos anuncios (y algunos programas) fueron percibidos como
demasiado ruidosos en relación con los otros programas, y que por lo
tanto eran muy enojosos para los oyentes. La investigación de ABA
es sólo el intento más reciente de enfrentarse al problema que ha
existido durante años virtualmente a través de todo el material de
difusión y países. Estos resultados muestran que la molestia de la
audiencia debido a sonoridad indebida a través de material de
programas podría ser reducida, o eliminada, si se pudieran efectuar
mediciones fiables, compatibles, de sonoridad de programas y se
usaran para reducir las molestas variaciones de sonoridad.
La escala de Bark es una unidad de medición
usada en el concepto de bandas críticas. La escala de bandas
críticas está basada en el hecho de que la audición humana analiza
un amplio espectro en partes que corresponden a
sub-bandas críticas menores. El añadir una banda
crítica a la siguiente de tal modo que el límite superior de la
banda crítica inferior sea el límite inferior de la siguiente banda
crítica más alta, conduce a la escala de régimen de
banda-crítica. Si las bandas críticas se añaden de
este modo, entonces a cada punto de cruce corresponde una cierta
frecuencia. La primera banda crítica salva el intervalo de 0 a 100
Hz, la segunda de 100 Hz a 200 Hz, la tercera de 200 Hz a 300 Hz, y
así sucesivamente hasta 500 Hz, donde aumenta el intervalo de
frecuencias de cada banda crítica. El intervalo de frecuencias
audibles de 0 a 16 kHz puede ser subdividido en 24 bandas críticas
en contacto, lo que aumenta en anchura de banda con la frecuencia
creciente. Las bandas críticas se numeran de 0 a 24 y tienen la
unidad "Bark", definiendo la escala de Bark. La relación entre
régimen de banda-crítica y frecuencia es importante
para el entendimiento de muchas características del oído humano.
Véase, por ejemplo, Psychoacoustics-Facts and
Models, de E. Zwicker y H.Fastl,
Springer-Verlag, Berlín, 1990.
La escala de Anchura de Banda Rectangular
Equivalente (ERB: Equivalent Rectangular Bandwidth) es un modo de
medir la frecuencia para la audición humana que es similar a la
escala de Bark. Desarrollada por Moore, Glasberg y Baer, es un
perfeccionamiento del trabajo de sonoridad de Zwicker. Véase Moore,
Glasberg y Baer (B.C.J. Moore, B. Glasberg, T. Baer, "Un modelo
para la predicción de umbrales, sonoridad y sonoridad parcial",
Revista de la Audio Engineering Society, Vol. 45, número 4,
abril de 1997, páginas 224-240). La medición de las
bandas críticas por debajo de 500 Hz es difícil debido a que a tales
bajas frecuencias la eficacia y sensibilidad del sistema de
audición humano disminuye rápidamente. Mediciones mejoradas de la
anchura de banda de filtro de audición han conducido a la escala de
régimen de ERB. Tales mediciones usaban enmascaradores de ruido
cortado para medir la anchura de banda de filtros de audición. En
general, para la escala de ERB la anchura de banda de filtro de
audición (expresada en unidades de ERB) es menor que en la escala de
Bark. La diferencia resulta mayor para frecuencias más bajas.
La selectividad de frecuencias del sistema de
audición humano puede ser aproximada subdividiendo la intensidad de
sonido en partes que caigan dentro de bandas críticas. Una tal
aproximación conduce a la noción de intensidades de bandas
críticas. Si en lugar de una pendiente infinitamente inclinada de
los filtros de banda crítica hipotética, se considera la pendiente
real producida en el sistema auditivo humano, entonces tal
procedimiento conduce a un valor intermedio de intensidad
denominada excitación. En la mayoría de los casos, tales valores no
son usados como valores lineales, sino como valores logarítmicos
similares al nivel de presión del sonido. La banda crítica y los
niveles de excitación son los valores correspondientes que juegan un
importante papel en muchos modelos como valores intermedios. (Véase
Psychoacoustics - Facts and Models, supra).
El nivel de sonoridad puede ser medido en
unidades de "fon". Un fon se define como la sonoridad percibida
de una onda pura de 1 kHz reproducida a un nivel de presión de
sonido (SPL: sound pressure level) de 1dB, que corresponde a una
presión de raíz cuadrática media de 2x10^{-5} Pascales. N Fon es
la sonoridad percibida de un tono de 1 kHz reproducido a un SPL de
N dB. Usando esta definición en la comparación de la sonoridad de
tonos a frecuencias diferentes de 1 kHz con un tono a 1 kHz, se
puede determinar un perfil de sonoridad igual para un nivel dado de
fon. La figura 7 muestra perfiles de nivel de sonoridad iguales para
frecuencias entre 20 Hz y 12,5 kHz, y para niveles de fon entre 4,2
fon (considerado como el umbral de audición) y 120 fon (ISO226:
1987 (E), "Acoustics-Normal Equal Loudness Level
Contours").
El nivel de sonoridad puede ser medido también
en unidades de "sone". Hay una correspondencia de uno a uno
entre unidades de fon y unidades de sone, como se indica en la
figura 7. Un sone se define como la sonoridad de una onda
sinusoidal pura de 1 kHz de (SPL) de 40 dB y es equivalente a 40
fon. Las unidades de sone son tales que un aumento doble en sone
corresponde al doble de la sonoridad percibida. Por ejemplo, 4 sone
se percibe como dos veces tal alta como 2 sone. De este modo, el
expresar la sonoridad en sone es más informativo.
Debido a que sone es una medida de sonoridad de
una señal de audio, la sonoridad específica es simplemente
sonoridad por unidad de frecuencia. Así, cuando se usa la escala de
frecuencias de Bark, la sonoridad específica tiene unidades de sone
por Bark y, análogamente, cuando se usa la escala de frecuencias de
ERB, las unidades son sone por ERB.
A lo largo de todo el resto de este documento,
términos como "filtro" o "grupo de filtros" se usan aquí
para incluir esencialmente cualquier forma de filtrado recursivo y
no recursivo tal como filtros o transformadores de IIR, e
información "filtrada"es el resultado de aplicar tales filtros.
Realizaciones descritas a continuación emplean grupos de filtros
realizados por filtros de IIR y por transformaciones.
Es un objeto de la invención proporcionar una
técnica de medición objetiva de sonoridad que pueda ser adaptado
más estrechamente a resultados de sonoridad subjetivos producidos
midiendo estadísticamente la sonoridad usando múltiples oyentes
humanos.
De acuerdo con un aspecto de la presente
invención, un método para tratar una señal de audio incluye
producir, en respuesta a la señal de audio, una señal de
excitación, y calcular la sonoridad porcentual de la señal de audio
en respuesta a la señal de excitación y una medición de
características de la señal de audio, en el que el cálculo
selecciona, a partir de un grupo de dos o más funciones de sonoridad
específica, una o una combinación de dos o más de las funciones de
modelo de sonoridad especifica, cuya selección es controlada por la
medición de características de la señal de audio de entrada. De
acuerdo con otros aspectos de la invención, se proporcionan un
aparato y un programa de ordenador como se exponen en las
reivindicaciones 20 y 21, respectivamente.
En una realización que emplea aspectos de la
invención, un método o dispositivo para tratamiento de señal recibe
una señal de audio de entrada. La señal es filtrada linealmente por
un filtro o función de filtro que simula las características del
oído exterior y medio humano y un grupo de filtros o función de
grupo de filtros que divide la señal filtrada en bandas de
frecuencias que simulan la pauta de excitación generada a lo largo
de la membrana basilar del oído interno. Para cada banda de
frecuencias, la sonoridad específica se calcula usando una o más
funciones o modelos de sonoridad específica, la selección de los
cuales es controlada por propiedades o características extraídas de
la señal de audio de entrada. La sonoridad específica para cada
banda de frecuencias se combina en una medida de sonoridad,
representativa de la señal de audio de entrada de banda ancha. Se
puede calcular un valor único de la medida de sonoridad para un
intervalo de tiempo finito de la señal de entrada, o la medida de
sonoridad puede ser calculada repetidamente a intervalos de tiempo
o bloques de la señal de audio de entrada.
\newpage
En otra realización que utiliza aspectos de la
invención, un método o dispositivo para tratamiento de señales
recibe una señal de audio de entrada. La señal es linealmente
filtrada por un filtro o función de filtro que simula las
características del oído exterior y medio humano y un grupo de
filtros o función de grupo de filtros que divide la señal filtrada
en bandas de frecuencias que simulan la pauta de excitación generada
a lo largo de la membrana basilar del oído interno. Para cada banda
de frecuencias, la sonoridad específica se calcula usando una o más
funciones o modelos de sonoridad específica; la selección de los
cuales es controlada por propiedades o características extraídas de
la señal de audio de entrada. La sonoridad específica para cada
banda de frecuencias se combina en una medida de sonoridad
representativa de la señal de audio de entrada de banda ancha. La
medida de sonoridad se compara con un valor de sonoridad de
referencia y la diferencia se usa para ajuste de escala o ganancia
de las señales en banda de frecuencias previamente introducidas para
el cálculo de la sonoridad específica. El cálculo de la sonoridad
específica, el cálculo de la sonoridad y la comparación de
referencia se repiten hasta que la sonoridad y el valor de sonoridad
de referencia son esencialmente equivalentes. De ese modo, la
ganancia aplicada a las señales en banda de frecuencias representa
la ganancia que, cuando se aplica a la señal de audio de entrada,
da lugar a la sonoridad percibida de la señal de audio de entrada
que es esencialmente equivalente a la sonoridad de referencia. Se
puede calcular un valor único de la medida de sonoridad para algún
intervalo finito de la señal de entrada, o la medición de sonoridad
puede ser calculada repetidamente a intervalos o bloques de tiempo
de la señal de audio de entrada. Se prefiere una aplicación
recurrente debido a la naturaleza no lineal de sonoridad percibida,
así como a la estructura del proceso de medición de sonoridad.
Los diversos aspectos de la presente invención y
sus realizaciones preferidas se pueden comprender mejor en
referencia a la siguiente descripción y a los dibujos que se
acompañan, en los cuales los mismos números de referencia se
dirigen a elementos similares en las diversas figuras. Los dibujos,
que ilustran varios dispositivos o procedimientos, muestran
elementos principales que son de ayuda para el entendimiento de la
presente invención. Por razones de claridad, los dibujos omiten
muchas otras características que pueden ser importantes en las
realizaciones prácticas y que son bien conocidas por los expertos
ordinarios en la técnica, pero que no son importantes para entender
los conceptos de la presente invención. El tratamiento de señal para
practicar la presente invención puede ser realizado de una amplia
variedad de modos, incluyendo programas ejecutados por
microprocesadores, procesadores de señal digital, series lógicas y
otras formas de circuitos de cálculo.
La figura 1 es un diagrama de bloques funcional
esquemático de una realización de un aspecto de la presente
invención.
La figura 2 es un diagrama de bloques funcional
esquemático de una realización de un aspecto más de la presente
invención.
La figura 3 es un diagrama de bloques funcional
esquemático de una realización de todavía un aspecto más de la
presente invención.
La figura 4 es una respuesta de característica
idealizada de un filtro lineal P(z) apropiado como un
filtro de transmisión en una realización de la presente invención
en la que el eje vertical es la atenuación en decibelios (dB) y el
eje horizontal es una frecuencia logarítmica de base 10 en Hertz
(Hz).
La figura 5 muestra la relación entre la escala
de frecuencias de ERB (eje vertical) y la frecuencia en Hertz (eje
horizontal).
La figura 6 muestra un conjunto de respuestas de
características de filtro de audición idealizadas que se aproxima a
la formación de bandas críticas aproximadas en la escala de ERB. La
escala horizontal es la frecuencia en Hertz y la escala vertical es
el nivel en decibelios.
La figura 7 muestra los perfiles o curvas de
sonoridad de ISO266. La escala horizontal es la frecuencia en Hertz
(escala logarítmica de base 10) y la escala vertical es el nivel de
presión de sonido en decibelios.
La figura 8 muestra las curvas de sonoridad
igual de ISO226 normalizadas por el filtro de transmisión
P(z). La escala horizontal es la frecuencia en Hertz
(escala logarítmica de base 10) y la escala vertical es el nivel de
presión del sonido en decibelios.
La figura 9 (líneas llenas) muestra
representaciones de sonoridad tanto para ruido de excitación
uniforme como para un tono de 1 kHz, en las que las líneas llenas
están de acuerdo con una realización de la presente invención en la
que se eligen parámetros para adaptarse a datos experimentales de
acuerdo con Zwicker (cuadrados y círculos). La escala vertical es
la sonoridad en sone (logarítmica de base 10) y la escala horizontal
es el nivel de presión del sonido en decibelios.
La figura 10 es u diagrama de bloques funcional
esquemático de una realización de un aspecto más de la presente
invención.
La figura 11 es un diagrama de bloques funcional
esquemático de una realización de todavía un aspecto más de la
presente invención.
La figura 12 es un diagrama de bloques funcional
esquemático de una realización de otro aspecto de la presente
invención.
La figura 13 es un diagrama de bloques funcional
esquemático de una realización de otro aspecto de la presente
invención.
Como se describe con más detalle a continuación,
una realización de un primer aspecto de la presente invención,
mostrada en la figura 1, incluye un controlador o función de
controlador de sonoridad específica ("Control de Sonoridad
Específica") 124 que analiza y deduce características de una
señal de audio de entrada. Las características de audio se utilizan
para controlar parámetros en un convertidor o función de convertidor
de sonoridad específica ("Sonoridad Específica") 120.
Ajustando los parámetros de sonoridad específica usando
características de señal, la técnica de medición de sonoridad
objetiva de la presente invención puede ser adaptada más
estrechamente a resultados de sonoridad subjetivos producidos
midiendo estadísticamente la sonoridad usando múltiples oyentes
humanos. El uso de características de señal para controlar
parámetros de sonoridad reduce también la ocurrencia de mediciones
incorrectas que dan lugar a sonoridad de señal considerada molesta
para los oyentes.
Como se describe con más detalle en lo que
sigue, una realización de un segundo aspecto de la presente
invención, mostrado en la figura 2, añade un dispositivo o función
de ganancia ("Actualización de Ganancia Iterativa") 233, cuya
finalidad es ajustar iterativamente la ganancia de la señal de
excitación promediada asociada, deducida de la señal de audio de
entrada hasta que la sonoridad asociada en 223 de la figura 2 se
iguala a una sonoridad de referencia deseada en 230 de la figura 2.
Debido a que la medición objetiva de sonoridad percibida implica un
proceso inherentemente no lineal, un bucle iterativo puede ser
ventajosamente empleado para determinar una ganancia apropiada para
igualar la sonoridad de la señal de audio de entrada a un nivel de
sonoridad deseado. Sin embargo, un bucle de ganancia iterativa que
circunde un sistema de medición de sonoridad completo, de tal
manera que el ajuste de ganancia se aplique a la señal de audio de
entrada original para cada iteración de sonoridad, sería caro de
ejecutar debido a la integración temporal requerida para generar una
medida exacta de sonoridad a la larga. En general, en una tal
disposición, la integración temporal requiere nuevo cálculo para
cada cambio de ganancia en la iteración. Sin embargo, como se
explica con más detalle en lo que sigue, en los aspectos de la
invención mostrados en las realizaciones de la figura 2 y también
las figuras 3 y 10-12, la integración temporal
puede ser realizada en trayectorias de tratamiento lineales que
precedan y/o sigan el proceso no lineal que forma parte del bucle
de ganancia iterativo. Las trayectorias de tratamiento lineales no
forman parte del bucle de iteración. De ese modo, por ejemplo en la
realización de la figura 2, la trayectoria de medición de sonoridad
desde la entrada 201 a un convertidor o función de convertidor de
sonoridad específica ("Sonoridad Específica") 220, puede
incluir la integración temporal en función de promediado de tiempo
("Time Averaging") 206, y es lineal. En consecuencia, las
iteraciones de ganancia sólo necesitan ser aplicadas a un conjunto
reducido de dispositivos o funciones de medición de sonoridad y no
precisa incluir integración temporal alguna. En la realización de
la figura 2, el filtro de transmisión o función de filtro de
transmisión ("Transmission Filter") 202, el grupo de filtros o
función de grupo de filtros ("Grupo de Filtros") 204, el
promediador de tiempo o función de promediado de tiempo
("Promediado de Tiempo") 206 y el controlador de sonoridad
específica o función de control de sonoridad específica ("Control
de Sonoridad Específica") 224 no forman parte del bucle
iterativo, que permite ejecutar control de ganancia iterativo en
sistemas en tiempo real eficaces y exactos.
En referencia ahora a la figura 1, se muestra en
ella un diagrama de bloques funcional de una realización de un
medidor de sonoridad o proceso de medición de sonoridad 100 de
acuerdo con un primer aspecto de la presente invención. Una señal
de audio para la cual se va a determinar una medición de sonoridad
se aplica a una entrada 101 del medidor de sonoridad o proceso de
medición de sonoridad 100. La entrada se aplica a dos trayectorias
- una primera (principal) trayectoria que calcula la sonoridad
específica en cada una de una pluralidad de bandas de frecuencias
que simula las de una pauta de excitación generada a lo largo de la
membrana basilar del oído interno y una segunda (secundaria)
trayectoria que tiene un controlador de sonoridad específica que
selecciona las funciones o modelos de sonoridad específica empleados
en la trayectoria principal.
En una realización preferida, el tratamiento de
audio se realiza en el dominio digital. Por lo tanto, la señal de
entrada de audio está indicada por la secuencia de tiempo discreta
x[n] que ha sido muestreada desde una fuente de audio a
alguna frecuencia de muestreo f_{s} Se supone que la
secuencia x[n] ha sido escalada apropiadamente de manera que
la potencia de rms de x[n] en decibelios, dada por
es igual al nivel de presión de
sonido en dB al que el audio está siendo oído por un oyente humano.
Además, se supone que la señal de audio es monofónica, por
simplificar la exposición. Sin embargo, la realización puede estar
adaptada para audio de canales múltiples de la manera que se
describe
posteriormente.
En la trayectoria principal, la señal de entrada
de audio se aplica a un filtro de transmisión o función de
transmisión ("Filtro de Transmisión") 102, cuya salida es una
versión filtrada de la señal de audio. El Filtro de Transmisión 102
simula el efecto de la transmisión de audio a través del oído
externo y medio con la aplicación de un filtro lineal
P(z). Como se muestra en la figura 4, una respuesta de
frecuencia de P(z) de magnitud apropiada es la unidad
por debajo de 1 kHz, y, por encima de 1 kHz, la respuesta sigue la
inversa del umbral de audición como se especifica en la norma
ISO226, con el umbral normalizado a unidad igual a 1 kHz. Mediante
la aplicación de un filtro de transmisión, el audio que es tratado
por el proceso de medición de sonoridad se asemeja más
estrechamente al audio que es percibido por el oído humano,
mejorando con ello la medición objetivo de sonoridad. Así, la
salida del Filtro de Transmisión 102 es una versión a escala
dependiente de la frecuencia de las muestras de audio de entrada
x[n] en dominio de
tiempo.
tiempo.
La señal de audio filtrada es aplicada a un
grupo de filtros o función de grupo de filtros ("Grupo de
Filtros"). El grupo de filtros 104 está diseñado para simular la
pauta de excitación generada a lo largo de la membrana basilar del
oído interno. El grupo de filtros 104 puede incluir un conjunto de
filtros lineales cuyas anchura de banda y separación son constantes
en la escala de frecuencias de Ancho de Banda Rectangular
Equivalente (ERB), según es definida por Moore, Glasberg y Baer (B.
C. J. Moore, B. Glasberg, T. Baer, "Un modelo para predicción de
umbrales, sonoridades y sonoridades parciales" supra).
Aunque la escala de frecuencias de ERB se adapta
más estrechamente a la percepción humana y muestra comportamiento
mejorado en la producción de mediciones de sonoridad objetiva que
igualan a los resultados de sonoridad subjetiva, la escala de
frecuencias de Bark puede ser empleada con rendimiento reducido.
Para una frecuencia central f en hertz,
la anchura de una banda de ERB en hertz puede ser aproximada
como:
A partir de esta relación, una escala de
frecuencias deformada se define de tal manera que en cualquier punto
a lo largo de la escala deformada, la ERB correspondiente en
unidades de la escala deformada es igual a uno. La función para
convertir desde frecuencia lineal en hertz a esta escala de
frecuencias de ERB se obtiene integrando la inversa de la Ecuación
1:
Es también útil expresar la transformación desde
la escala de ERB de nuevo a la escala de frecuencias lineal
resolviendo la ecuación 2a para f:
donde e está en unidades de
la escala de ERB. La figura 5 muestra la relación entre la escala de
ERB y la frecuencia en
hertz.
La respuesta de los filtros de audición para el
grupo de filtros 104 puede ser caracterizada y ejecutada usando
filtros estándar de IIR. Más concretamente, los filtros de audición
individuales a la frecuencia central f_{c} en hertz que se
ejecuta en el grupo de filtros 104 pueden ser definidos por la
función de transferencia de IIR de orden doce:
\newpage
donde
f_{s} es la frecuencia de
muestreo en hertz, y G es un factor de normalización para asegurar
que cada filtro tenga ganancia unidad en el pico en su respuesta
de frecuencia; elegido de tal manera
que
El Grupo de Filtro 104 puede incluir M de tales
filtros de audición, a los que se hace referencia como bandas, a
frecuencias centrales f_{c}[1]... f_{c}[M]
separadas uniformemente a lo largo de la escala de ERB. Más
concretamente,
donde \Delta es la separación
deseada de ERB del grupo de filtros 104, y donde f_{min} y
f_{máx} son las frecuencias centrales mínima y máxima
deseadas, respectivamente. Se puede elegir \Delta = 1, y,
teniendo en cuenta el intervalo de frecuencias en el cual es
sensible el oído humano, se puede establecer f_{min} = 50
Hz y f_{máx} = 20.000 Hz. Con tales parámetros, por
ejemplo, la aplicación de las Ecuaciones a-c da M =
40 filtros de audición. Las magnitudes de tales M filtros de
audición, con formación de bandas críticas aproximadas en la escala
de ERB, se muestran en la figura
6.
Alternativamente, las operaciones de filtración
pueden ser adecuadamente aproximadas usando una Transformada de
Fourier Discreta de longitud finita, a la que se hace referencia
comúnmente como Transformada de Fourier Discreta de Tiempo- Corto
(STDFT), debido a que se cree que una ejecución que hace funcionar
los filtros al régimen de muestreo de la señal de audio, a la que
se hace referencia como una ejecución a pleno régimen, proporciona
más resolución temporal que la que es necesaria para mediciones de
sonoridad exactas. Usando la STDFT en lugar de una ejecución a
pleno régimen, se puede conseguir una mejora de eficacia y reducción
de complejidad de cálculo.
La STDFT de la señal de audio de entrada
x[n] está definida como:
donde k es el índice de
frecuencia, t es el índice de bloque de tiempo, N es
el tamaño de DRT, T es el tamaño de reflejo o retorno, y
w[n] es la ventana normalizada de longitud N de manera
que
Obsérvese que la variable t en la
Ecuación 6 es un índice discreto que representa el bloque de tiempo
de la STDFT como opuesto a una medida de tiempo en segundos. Cada
incremento de t representa un reflejo de T muestras a
lo largo de la señal x[n]. Subsiguientes referencias
al índice t suponen esta definición. Aunque se pueden usar
diferentes establecimientos de parámetros y formas de ventanas,
dependiendo de los detalles de ejecución, para f_{s} =
44100 Hz, la elección de N = 4096, T = 2048, y, el
hecho de tener w[n] una ventana de Hanning, produce
excelentes resultados. La STDFT descrita anteriormente puede ser
más eficaz usando la Transformada de Fourier Rápida (FFT: Fast
Fourier Transform).
Con el fin de calcular la sonoridad de la señal
de audio de entrada, es necesaria una medición de la energía de la
señal de audio en cada filtro del grupo de filtros 104. La salida de
energía en corto tiempo de cada filtro del grupo de filtros 104
puede ser aproximada mediante multiplicación de respuestas de filtro
en el dominio de frecuencias con el espectro de potencia de la
señal de entrada:
donde m es el número de
banda, t es número de bloque y P es el filtro de
transmisión. Se ha de observar que se pueden usar en la Ecuación 8
formas para la respuesta de magnitud de los filtros de audición
distintas de la especificada en la Ecuación 3, para conseguir
resultados similares. Por ejemplo, Moore y Glasberg proponen una
forma de filtro descrita por una función exponencial que actúa de
forma similar a la Ecuación 3. Además, con una ligera reducción de
prestación, se puede aproximar cada filtro como un paso de banda de
"pared de ladrillo" con una anchura de banda de un ERB, y, como
una aproximación más, el filtro de transmisión P puede ser
extraído de la suma. En este caso, la Ecuación 8 se simplifica
a
De ese modo, la salida de excitación del grupo
de filtros 104 es una representación de dominio de frecuencias de
energía E en respectivas bandas m de ERB por cada
periodo de tiempo t.
Para el caso en que la señal de audio de entrada
es un formato de canal múltiple que se ha de añadir sobre múltiples
altavoces, uno por cada canal, la excitación para cada canal
individual puede ser primero calculada como se ha descrito
anteriormente. Con el fin de calcular a continuación la sonoridad
percibida de todos los canales combinados, las excitaciones
individuales pueden ser sumadas conjuntamente en una excitación
única para aproximarse a la excitación que alcanzan los oídos de un
oyente. La totalidad del tratamiento subsiguiente es entonces
realizado en esta excitación única, sumada.
La investigación en psicoacústica y los ensayos
de sonoridad subjetiva sugieren que cuando se compara la sonoridad
entre varias señales de señales de audio, los oyentes realizan algún
tipo de integración temporal de corto plazo o sonoridad de señal
"instantánea" para llegar a un valor de sonoridad percibida a
largo plazo para usar en la comparación. Cuando se construye un
modelo de percepción de sonoridad, otros han sugerido que esta
integración temporal sea realizada después de que la excitación haya
sido transformada de manera no lineal en sonoridad específica. Sin
embargo, los presentes inventores han determinado que esta
integración temporal puede ser adecuadamente modelada usando
filtrado lineal en la excitación antes de que sea transformada en
sonoridad específica. Realizando el filtrado antes del cálculo de la
sonoridad específica, de acuerdo con un aspecto de la presente
invención, se obtiene una ventaja significativa cuando se calcula la
ganancia que se precisa aplicar a una señal con el fin de ajustar
su sonoridad medida de una manera prescrita. Como se explica con
más detalle en lo que sigue, la ganancia puede ser calculada usando
un bucle iterativo que no sólo excluye el cálculo de excitación,
sino que excluye preferiblemente tal integración temporal. De esta
manea, el bucle de iteración puede generar la ganancia a través de
cálculos que dependan sólo del marco de tiempo actual para el que
está siendo calculada la ganancia, como opuesto al cálculo que
depende del intervalo de tiempo total de integración temporal. El
resultado es un ahorro tanto en tiempo de tratamiento como en
memoria. Las realizaciones que calculan la ganancia usando un bucle
iterativo incluyen las descritas en lo que sigue en relación con
las figuras 2, 3 y 10-12.
Volviendo a la descripción de la figura 1, el
filtrado lineal de la excitación puede ser ejecutado de varias
maneras. Por ejemplo, el filtrado puede ser realizado de modo
recursivo usando un dispositivo o función de promediado de tiempo
("Promediado de Tiempo") 106 utilizando las siguientes
ecuaciones:
\vskip1.000000\baselineskip
donde las condiciones iniciales son
\tilde{\mathit{E}}[m,-1] = 0 y
\tilde{\sigma}[m,-1] = 0. Una característica única del
filtro de filtración es que variando el parámetro de filtración
\lambda_{m}, la energía filtrada
\tilde{\mathit{E}}[m,t] puede variar desde el promedio de
tiempo verdadero de E[m,t] a un promedio de memoria
de desvanecimiento de \tilde{\mathit{E}}[m,t]. Si
\lambda_{m} = 1, entonces de (10b) se puede ver que
\tilde{\sigma}[m,t, = t] y \tilde{\mathit{E}}[m,t]
es entonces igual al promedio de tiempo verdadero para bloques de
tiempo 0 a t. Si 0 \leq \lambda_{m} <1, entonces
\tilde{\sigma}[m,t] \rightarrow 1/(1 - \lambda_{m})
cuando t \rightarrow \infty y
\tilde{\mathit{E}}[m,t] es simplemente el resultado de
aplicar un filtrador de un polo a E[m,t]. Para la
aplicación en la que se desea un número único que describa la
sonoridad a largo plazo de un segmento de audio de longitud finita,
se puede establecer \lambda_{m} = 1 para todas las m.
Para una aplicación en tiempo real, en la que se deseara seguir la
sonoridad variable en el tiempo de una corriente de audio continua
en tiempo real, se puede establecer 0 \leq \lambda_{m} < 1
y establecer \lambda_{m} en el mismo valor para todas las
m.
En el cálculo del promedio de tiempo de puede
ser deseable omitir segmentos de tiempo corto que se consideran
"demasiado silencioso" y no contribuyen a la sonoridad
percibida. Para conseguir esto, un segundo filtrador de umbral
puede ser hecho discurrir en paralelo con el filtrador de la
Ecuación 10. Este segundo filtrador mantiene su valor de corriente
si E[m,t] es relativamente pequeño con relación a
\tilde{\mathit{E}}[m,t]:
\vskip1.000000\baselineskip
donde tdB es el umbral
relativo expresado en decibelios. Aunque no es crítico para la
invención, se ha visto que un valor de tdB = -24 produce
buenos resultados. Si no existe un segundo filtrador que discurra
en paralelo, entonces
\overline{E}[m,t] = \tilde{\mathit{E}}[m,t].
\overline{E}[m,t] = \tilde{\mathit{E}}[m,t].
\newpage
Falta que la energía de excitación promediada en
tiempo, de formación en bandas \overline{E}[m,t] sea
convertida en una medida única de sonoridad en unidades
porcentuales, sone en este caso. En el convertidor o función de
conversión de sonoridad específica ("Sonoridad Específica")
120, cada banda de la excitación es convertida en un valor de
sonoridad específica, que es medida en sone por ERB. En el
combinador de sonoridad o función de combinación de sonoridad
("Sonoridad") 122, los valores de sonoridad específica pueden
ser integrados o sumados a través de bandas para producir la
sonoridad porcentual total.
En un aspecto, la presente invención utiliza una
pluralidad de modelos en bloque 120 para convertir la excitación en
bandas en sonoridad específica en bandas. La información de control
deducida de la señal de audio de entrada a través del Control de
Sonoridad Específica 124 en la trayectoria secundaria selecciona un
modelo o controla el grado al cual contribuye un modelo a la
sonoridad específica. En el bloque 124, ciertos rasgos o
características que son útiles para seleccionar uno o más modelos
de sonoridad específica de los disponibles son extraídos del audio.
Las señales de control que indican qué modelo, o combinación de
modelos, se ha de usar, son generadas de los rasgos o
características extraídos.
Por ejemplo, la sonoridad específica
N'[m,t] por banda puede ser expresada como una
combinación lineal de la sonoridad específica por banda para cada
modelo N'_{q}[m,t] como:
donde Q indica el número
total de modelos y la información de control
\alpha_{q}[m,t] representa la ponderación o contribución
de cada modelo. La suma de las ponderaciones puede o pueden no ser
iguales a uno, dependiendo de los modelos que estén siendo
usados.
Aunque la invención no está limitada a ellos, se
ha visto que dos modelos proporcionan resultados exactos. Un modelo
se comporta mejor cuando la señal de audio está caracterizada como
banda estrecha, y el otro se comporta mejor cuando la señal de
audio está caracterizada como banda ancha.
Inicialmente, en el cálculo de la sonoridad
específica, el nivel de excitación de cada banda de
\overline{E}[m,t] puede ser transformado en un nivel de
excitación equivalente a 1 kHz según se especifica por los perfiles
o curvas de sonoridad iguales de ISO266 (figura 7) normalizados por
el filtro de transmisión P(z)(figura 8).
\vskip1.000000\baselineskip
donde L_{1kHz}(E,f)
es una función que genera el nivel a 1kHz, que es igualmente sonoro
a nivel E a la frecuencia f. En la práctica,
L_{1kHz}(E,f) se ejecuta como una interpolación de
una tabla de observación o consulta de los perfiles de sonoridad
igual, normalizados por el filtro de transmisión. La transformación
a niveles equivalentes a 1 kHz simplifica el siguiente cálculo de
sonoridad
específica.
A continuación, la sonoridad específica en cada
banda se puede calcular como:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde N'_{NB}[m,t]
y N'_{WB}[m,t] son valores de sonoridad específica
basados en una banda estrecha y modelo de señal de banda ancha,
respectivamente. El valor \alpha[m,t] es un factor de
interpolación que se sitúa entre 0 y 1, que es calculado a partir
de la señal de audio, los detalles del cual se describen en lo que
sigue.
\newpage
Los valores de sonoridad específica de banda
estrecha y de banda ancha N'_{NB}[m,t] y
N'_{WB}[m,t] pueden ser estimados a partir de la
excitación en banda usando las funciones exponenciales:
\vskip1.000000\baselineskip
donde TQ_{1kHz} es el
nivel de excitación en umbral en silencio o reposo para un tono de 1
kHz. Desde los perfiles de sonoridad iguales (figuras 7 y 8)
TQ_{1kHz} iguala a 4,2 dB. Se observa que ambas de estas
funciones de sonoridad específica son iguales a cero cuando la
excitación es igual al umbral en silencio. Para excitaciones
mayores que el umbral en silencio, ambas funciones crecen
monotónicamente con una ley de potencia de acuerdo con la ley de
Stevens de sensación de intensidad. El exponente para la función de
banda estrecha es elegido de manera que sea mayor que el de la
función de banda ancha, haciendo que la función de banda estrecha
aumente más rápidamente que la función de banda ancha. La selección
específica de exponentes \beta y ganancias G para los casos de
banda estrecha y banda ancha se explican a
continuación.
La sonoridad 122 usa la sonoridad específica en
banda de Sonoridad Específica 120 para crear una medida de
sonoridad única para la señal de audio, a saber, una salida en el
terminal 123 que es un valor de sonoridad en unidades porcentuales.
La medida de sonoridad puede tener unidades arbitrarias, siempre que
la comparación de valores de sonoridad para diferentes señales de
audio indique que es más sonora y que es más suave.
La sonoridad total expresada en unidades de sone
puede ser calculada como la suma de la sonoridad específica para
todas las bandas de frecuencias:
donde \Delta es la separación de
ERB especificada en la Ecuación 5. Los parámetros G_{NB} y
\beta_{NB} en la Ecuación 15a se eligen de manera que cuando
\alpha[m,t] = 1, una representación de S en sone en función
de SPL para 1kHz es esencialmente igual a los correspondientes
datos experimentales presentados por Zwicker (los círculos de la
figura 9) (Zwicker, H. Fastl,
"Psychoacoustics-Facts and Models",
supra). Los parámetros G_{WM} y \beta_{WB} en
la Ecuación 15b se eligen de manera que cuando \alpha[m,t]
= 0, una representación de N en sone, en función de SPL para
ruido de excitación uniforme (ruido con potencia igual en cada ERB)
es esencialmente igual a los correspondientes resultados de Zwicker
(los cuadrados de la figura 9). Un mínimo cuadrado que concuerda
con los datos de Zwicker
da:
La figura 9 (líneas llenas) muestra
representaciones de sonoridad tanto para ruido de excitación
uniforme como para un tono de 1 kHz.
Como se ha mencionado anteriormente, se usan dos
modelos de sonoridad específica en una realización práctica
(Ecuaciones 15a y 15b), uno para señales de banda estrecha y uno
para señales de banda ancha. El Control de Sonoridad Específica 124
de la trayectoria secundaria calcula una medida,
\alpha[m,t], del grado al que la señal de entrada es o
bien de banda estrecha o de banda ancha en cada banda. En un sentido
general, \alpha[m,t] ha de ser igual a uno cuando la señal
es de banda estrecha próxima a la frecuencia central
f_{\alpha}[m] de una banda. El control ha de variar
continuamente entre los dos extremos para mezclas variables de tales
características. Como una simplificación, el control
\alpha[m,t] puede ser elegido como constante a través de
las bandas, en cuyo caso \alpha[m,t] es referido
subsiguientemente como \alpha[t], omitiendo el índice
m de banda. El control \alpha[t] representa entonces
una medida de cómo de banda estrecha es la señal a través de todas
las bandas. Aunque un método adecuado para generar un tal control
se describe a continuación, el método particular no es crítico y se
pueden emplear otros métodos apropiados.
El control \alpha[t] puede ser
calculado a partir de la excitación E[m,t] en la salida del
Grupo de Filtros 104 en lugar de a través de algún otro tratamiento
de la señal x[n]. E[m,t] puede proporcionar una
referencia adecuada a partir de la cual se mida el "carácter de
banda estrecha" y el "carácter de banda ancha" de
x[n], y, como resultado, \alpha[t] puede ser
generada con poco cálculo añadido.
"Planitud espectral" es la característica
de E[m,t] a partir de la cual se puede calcular. Planitud
espectral, según se define por Jayant y Noll (N. S. Jayant, P.
Noll, Codificación digital de formas de onda, Prentice
Hall, New Jersey, 1984), es la relación de la media geométrica a la
media aritmética, en que la media es tomada a través de la
frecuencia (índice m en el caso de E[m,t]). Cuando
E[m,t] es constante a través de m, la media
geométrica es igual a la media aritmética, y la planitud espectral
es igual a uno. Esto corresponde al caso de banda ancha. Si
E[m,t] varía significativamente a través de m,
entonces la media geométrica es significativamente menor que la
media aritmética, y la planitud espectral se aproxima a cero. Esto
corresponde al caso de banda estrecha. Calculando un menos la
planitud espectral, se puede generar una medida de "carácter de
banda estrecha", en que cero corresponde a banda ancha y uno a
banda estrecha. Concretamente, se puede calcular un menos una
planitud espectral modificada de E[m,t]:
donde P[m] es igual a la
respuesta a la frecuencia del filtro de transmisión P(z)
muestreada a la frecuencia \omega =
2\pif_{c}[m]/f_{z}. La normalización de
E[m,t] mediante el filtro de transmisión puede proporcionar
mejores resultados debido a que la aplicación del filtro de
transmisión introduce un "bump" en E[m,t] que tiende a
inflar la medida de "carácter de banda estrecha".
Adicionalmente, calculando la planitud espectral en un subconjunto
de bandas de E[m,t] se pueden obtener mejores resultados. Los
límites inferior y superior de suma en la Ecuación 18,
M_{1}[t] y M_{u}[t], definen una región que puede
ser menor que el intervalo de todas las M bandas. Se desea que
M_{1}[t] y M_{u}[t] incluyan una porción de
E[m,t] que contiene la mayoría de su energía, y que el
intervalo definido por M_{1}[t] y M_{u}[t] no sea
mas que 24 unidades de anchura en la escala de ERB. Más
concretamente (y recordando que f_{c}[m] es la frecuencia
central de la banda m en Hz), se
desea:
y se
requiere:
donde CT[t] es el
centroide espectral de E[m,t] medido en la escala de
ERB:
Idealmente, los límites de la suma,
M_{1}[t] y M_{u}[t], están centrados alrededor de
CT[t] cuando se mide en la escala de ERB, pero esto no
siempre es posible cuando CT[t] está próxima a los límites
inferior y superior de su intervalo.
A continuación, NB[t] puede ser filtrado
en el tiempo de una manera análoga a la Ecuación 11a:
donde \overline{\sigma [t]} es
igual al máximo de \overline{\sigma [m,t]}, definido en la
Ecuación 11b, en todas las
m.
Finalmente, \alpha[t] se calcula a
partir de \overline{\mathit{NE}}[t] como sigue:
donde
Aunque la forma exacta de \Phi{x} no es
crítica, el polinomio de la Ecuación 21b se puede encontrar haciendo
óptimo \alpha[t] frente a la sonoridad subjetivamente
medida de una gran variedad de material de audio.
La figura 2 muestra un diagrama de bloques
funcional de una realización de un medidor de sonoridad o proceso
de medición de sonoridad 200 de acuerdo con un segundo aspecto de la
presente invención. Los dispositivos o funciones 202, 204, 206,
220, 222, 223 y 224 de la figura 2 corresponden a los respectivos
dispositivos o funciones 102, 104, 106, 120, 122, 123 y 124 de la
figura 1.
De acuerdo con un primer aspecto de la
invención, de la cual muestra una realización la figura 2, el
medidor de sonoridad o cálculo genera un valor de sonoridad en
unidades porcentuales. Con el fin de ajustar la sonoridad de la
señal de entrada, una medida útil es una ganancia G[t], la
cual, cuando se multiplica por la señal de entrada x[n]
(como, por ejemplo, en la realización de la figura 3, descrita más
adelante), hace su sonoridad igual a un nivel de sonoridad de
referencia S_{ref}, La sonoridad de referencia,
S_{ref}, puede ser especificada arbitrariamente o medida
por otro dispositivo o proceso que opere de acuerdo con el primer
aspecto de la invención a partir de alguna señal de audio de
referencia "conocida". Considerando que
\Psi{x[n],t} representa la totalidad del
cálculo realizado en la señal x[n] para generar la sonoridad
S[t], se desea encontrar G[t] de tal manera que
Debido a que una porción del tratamiento
incorporado en \Psi{\cdot} es no lineal, no existe solución de
forma cerrada para G[t], de manera que, en su lugar, se
puede utilizar una técnica iterativa para encontrar una solución
aproximada. En cada iteración i del proceso, supongamos que
G_{i} representa la estimación actual de G[t]. Para cada
iteración, G_{i} es actualizada de manera que disminuye el error
absoluto de la sonoridad de referencia.
Existen muchas técnicas apropiadas para
actualizar G_{i} con el fin de conseguir la anterior disminución
de error. Un tal método es el descenso de gradiente (véase
Programación no lineal de Dimitri P. Bertseakas, Athena
Scientific, Belmont, MA, 1995), en el que G_{i} es actualizada en
una cantidad proporcional al error en las iteraciones previas:
donde \mu es el tamaño de paso de
la iteración. La anterior iteración continúa hasta que el error
absoluto está por debajo de cierto umbral, hasta que el número de
iteraciones ha alcanzado cierto límite máximo predefinido, o hasta
que ha transcurrido un tiempo especificado. En ese punto G[t]
se fija igual a
G_{i}.
Haciendo referencia de nuevo a las Ecuaciones
6-8, se observa que la excitación de la señal
x[n] se obtiene a través de operaciones lineales en el
cuadrado de la magnitud de STDFT de la señal, |
X[k,t] |^{2}. Se deduce que la excitación
resultante de una señal modificada en ganancia Gx[n] es igual
a la excitación de x[n] multiplicada por G^{2}. Además, la
integración temporal requerida para estimar la sonoridad percibida a
largo plazo puede ser realizada a través de promediado lineal en
tiempo de la excitación, y por tanto la excitación promediada en
tiempo correspondiente a Gx[n] es igual a la excitación
promediada en tiempo de x[n] multiplicada por G^{2}. Como
resultado, el promediado en tiempo no necesita ser nuevamente
calculado en toda la historia de la señal de entrada para cada
nueva evaluación de \Psi{G_{i}x[n],t} en el
proceso iterativo descrito anteriormente. En su lugar, la
excitación promediada en tiempo \overline{\mathit{E}}[m,t]
puede ser calculada sólo una vez a partir de x[n], y en la
iteración pueden ser calculados valores actualizados de sonoridad
aplicando el cuadrado de la ganancia actualizada directamente a
\overline{\mathit{E}}[m,t]. Concretamente, suponiendo que
\Psi_{E}{\overline{\mathit{E}}[m,t]} representa todo
el tratamiento realizado en la excitación promediada en tiempo
\overline{\mathit{E}}[m,t] para generar S[t], se
cumple la siguiente relación para una ganancia multiplicativa
general G:
Usando esta relación, el proceso iterativo puede
ser simplificado sustituyendo
\Psi{G_{i}x[n],t} por
\Psi_{E}{G^{2}_{i}\overline{\mathit{E}}[m,t]}.
Esta simplificación no sería posible si la integración temporal
requerida para estimar la sonoridad percibida a largo plazo hubiera
sido realizada después de la transformación no lineal a sonoridad
específica.
El proceso iterativo para calcular G[t]
está representado en la figura 2. La sonoridad de salida S[t]
en el terminal 223 puede ser restada en un combinador substractivo
o función de combinación 231 a partir de la sonoridad de referencia
S_{ref} en el terminal 230. La señal de error resultante
232 es alimentada a un actualizador o función de actualización de
ganancia iterativo ("Actualizador de Ganancia Iterativo") 233
que genera la siguiente ganancia G_{i} en la iteración. El
cuadrado de esta ganancia, G^{2}_{i}, es entonces
alimentado de nuevo a la salida 234 al combinador multiplicativo
208, G^{2}_{i} donde es multiplicada por la señal de
excitación promediada en tiempo desde el bloque 206. El siguiente
valor de S[t] en la iteración es entonces calculado a partir
de esta versión modificada en ganancia de la excitación promediada
en tiempo a través de los bloques 220 y 222. El bucle descrito
itera hasta que se cumplen las condiciones de terminación, en cuyo
momento la ganancia G[t] en el terminal 235 se establece
igual al valor actual de G_{i}. El valor final de G[t]
puede ser calculado a través del proceso iterativo descrito, por
ejemplo, para cada marco t de FFT o justamente una vez al
final de un segmento de audio después de que la excitación haya sido
promediada en toda la longitud de este segmento.
Si se desea calcular la sonoridad de la señal no
modificada en ganancia en combinación con este proceso iterativo,
la ganancia G_{i} puede ser inicializada a uno al comienzo de cada
proceso iterativo durante cada periodo de tiempo t. De este
modo el primer valor de S[t] calculado en el bucle representa
la sonoridad de la señal original y puede ser registrado como tal.
Si no se desea, sin embargo, registrar este valor, G_{i} puede
ser inicializada con cualquier valor. En el caso en que G[t]
sea calculada en marcos de tiempo consecutivos y no se desee
registrar la sonoridad de señal original, puede ser deseable
inicializar G_{i} igual al valor de G[t] a partir del
periodo de tiempo anterior. De este modo, si la señal no ha cambiado
significativamente desde el periodo de tiempo anterior, es probable
que el valor G[t] haya permanecido esencialmente el mismo.
Por lo tanto, serán requeridas sólo unas pocas iteraciones para
converger hacia el valor apropiado.
\newpage
Una vez que se han completado las iteraciones,
G[t] representa la ganancia que se ha de aplicar a la señal
de audio de entrada den 201 por algún dispositivo externo, de tal
manera que la sonoridad de la señal modificada iguale la sonoridad
de referencia. La figura 3 muestra una disposición adecuada en la
que la ganancia G[t] desde la Actualización de Ganancia
Iterativa 233 se aplica a una entrada de control de un dispositivo o
función de control de nivel de señal, tal como un amplificador de
voltaje controlado (VCA: voltaje controlled amplifier) 236 con el
fin de proporcionar una señal de salida de ganancia ajustada. El VCA
234 de la figura 3 puede ser sustituido por un operador humano que
controle un ajustador de ganancia en respuesta a una indicación
sensorial de la ganancia G[t] en la línea 235.Una indicación
sensorial puede ser proporcionada por un medidor, por ejemplo. La
ganancia G[t] puede ser sometida a filtración de tiempo (no
mostrado).
Para algunas señales, una alternativa a la
filtración descrita en las Ecuaciones 10 y 11 puede ser deseable
para calcular la sonoridad percibida a largo plazo. Los oyentes
tienden a asociar la sonoridad a largo plazo de una señal con las
porciones más sonoras de esa señal. Como consecuencia, la filtración
presentada en las Ecuaciones 10 y 11 puede subestimar la sonoridad
percibida de una señal que contenga largos periodos de silencio
relativo interrumpido por segmentos más cortos de material más
sonoro. Tales señales son con frecuencia encontradas en pistas de
sonido de películas con cortos segmentos de diálogo rodeados de
periodos más largos de ruido de escena ambiente. Incluso con el
umbral presentado en la Ecuación 11, las porciones silenciosas de
tales señales pueden contribuir demasiado fuertemente a la
excitación promediada en tiempo
\overline{\mathit{E}}[m,t].
Para tratar este problema, puede ser empleada
una técnica estadística para calcular la sonoridad a largo plazo en
un aspecto más de la presente invención. En primer lugar, la
constante de tiempo de filtración en las Ecuaciones 10 y 11 se hace
muy pequeña y tdB se fija en menos infinito de manera que
\overline{\mathit{E}}[m,t] representa la excitación
"instantánea". En este caso, el parámetro de filtración
\lambda_{m} puede ser elegido para que varíe a través de las
bandas m para modelar más exactamente la manera en que varía
a través de la frecuencia la sonoridad instantánea. Sin embargo, en
la práctica, la elección de \lambda_{m} para que sea constante a
través de m todavía produce resultados aceptables. El resto
del algoritmo anteriormente descrito opera sin cambio, dando lugar a
una señal de sonoridad instantánea S[t], como se ha
especificado en la Ecuación 16. En cierto intervalo, t_{1}
\leq t \leq t_{2}, la sonoridad a largo plazo
S_{p}[t_{1}, t_{2}] es entonces definida como un
valor que es mayor que S[t] para p por ciento de los
valores de tiempo en el intervalo y menor que S[t] para
100-p por ciento de los valores de tiempo en el intervalo.
Los experimentos han mostrado que estableciendo p igual a
aproximadamente 90% se hace subjetivamente igual a la sonoridad
percibida a largo plazo. Con este establecimiento, solo 10% de los
valores de S[t] necesitan ser significativos para afectar la
sonoridad a largo plazo. El otro 90% de los valores puede ser
relativamente silencioso sin disminuir la medida de sonoridad a
largo plazo.
El valor S_{p}[t_{1}, t_{2}]
puede ser calculado clasificando en orden ascendente los valores
S[t], t_{1} \leq t \leq t_{2},
en una lista, S_{sort}{i}, 0 \leq i \leq
t_{2} - t_{1}, donde i representa el
elemento de orden i de la lista clasificada. La sonoridad a
largo plazo está dada entonces por el elemento que es p por
ciento del modo en la lista.
En sí mismo, el anterior cálculo es
relativamente directo. Sin embargo, si se desea calcular una
ganancia G_{2}[t_{1},t_{2}], la cual, cuando se
multiplica por x[n] da lugar a que S_{p}[t_{1},
t_{2}] sea igual a cierta sonoridad de referencia
S_{ref}, el cálculo resulta significativamente más
complejo. Como antes, se requiere una solución iterativa, pero ahora
la medida de sonoridad a largo plazo S_{p}[t_{1},
t_{2}] es dependiente en todo el intervalo de valores
S[t], t_{1} \leq t \leq t_{2},
cada uno de los cuales debe ser actualizado con cada actualización
de G_{i} en la iteración. Con el fin de calcular estas
actualizaciones, la señal \overline{\mathit{E}}[m,t] debe
ser almacenada en todo el intervalo t_{1} \leq t
\leq t_{2}. Además, puesto que la dependencia de
S[t] de Gi es no lineal, la ordenación relativa de
S[t], t_{1} \leq t \leq t_{2},
puede cambiar con cada iteración, y por lo tanto debe ser también
nuevamente calculada S_{sort}{i}. La necesidad de
reclasificación es relativamente evidente cuando se consideran
segmentos de señal a corto plazo cuyo espectro está justamente por
debajo del umbral de audición para una ganancia particular en la
iteración. Cuando se aumenta la ganancia, puede ser audible una
porción significativa del espectro del segmento, lo que puede hacer
que la sonoridad total del segmento sea mayor que la de otros
segmentos de banda estrecha de la señal que fueran previamente
audibles. Cuando el intervalo t_{1} \leq t \leq
t_{2} resulta grande o si se desea calcular la ganancia
G_{p}[t_{1}, t_{2}] continuamente como una
función de una ventana de tiempo de deslizamiento, los costes de
cálculo y de memoria de este proceso iterativo pueden resultar
prohibitivos.
Un ahorro significativo en cálculo y memoria se
consigue haciendo que S[t] sea una función monotónicamente
creciente de G_{i}. En otras palabras, aumentando G_{i} aumenta
siempre la sonoridad a corto plazo en cada instante de tiempo. Con
este conocimiento, la ganancia de concordancia deseada
G_{p}[t_{1}, t_{2}] puede ser eficazmente
calculada como sigue. En primer lugar, se calcula la ganancia de
concordancia previamente definida G[t] a partir de
\overline{\mathit{E}}[m,t] usando la iteración descrita
para todos los valores de t en el intervalo t_{1}
\leq t \leq t_{2}. Obsérvese que para cada valor
t, G[t] se calcula iterando sobre el valor único
\overline{\mathit{E}}[m,t]. A continuación, se calcula de
ganancia de concordancia a largo plazo G_{p}[t_{1},
t_{2}] clasificando en orden ascendente los valores
G[t], t_{1} \leq t \leq t_{2}
en una lista, G_{sort}{i} 0 \leq i \leq
t_{2} - t_{1} y estableciendo después
Se arguye ahora que G_{p}[t_{1},
t_{2}] es igual a la ganancia que cuando se multiplica por
x[n] da lugar a que S_{p}[t_{1}, t_{2}]
sea igual a la sonoridad de referencia deseada S_{ref}. Obsérvese
en la Ecuación 28 que G[t] < G_{p}[t_{1},
t_{2}] para 100-p por ciento de los valores de
tiempo en el intervalo t_{1} \leq t \leq
t_{2} y que G[t] > G_{p}[t_{1},
t_{2}] para el otro p por ciento. Para aquellos
valores de G[t] tales que G[t] <
G_{p}[t_{1}, t_{2}], se observa que si
G_{p}[t_{1}, t_{2}] se fuera a aplicar a los
correspondientes valores de \overline{\mathit{E}}[m,t] en
vez de G[t], entonces los valores resultantes de S[t]
serían mayores que la sonoridad de referencia deseada. Esto es
cierto debido a que S[t] es una función monotónicamente
creciente de la ganancia. Análogamente, si
G_{p}[t_{1},t_{2}] se fuera a aplicar a los
valores de \overline{\mathit{E}}[m,t] correspondientes a
G[t] de tal manera que G[t] >
G_{p}[t_{1},t_{2}], entonces los valores
resultantes de S[t] serían menores que la sonoridad de
referencia deseada. Por lo tanto, la aplicación de
G_{p}[t_{1}, t_{2}] a todos los valores de
\overline{\mathit{E}}[m,t] en el intervalo t_{1}
\leq t \leq t_{2} da lugar a que S[t] sea
mayor que el 100-p por ciento de referencia deseado del
tiempo y menor que el p por ciento de referencia del tiempo.
En otras palabras, S_{p}[t_{1}, t_{2}] es igual
a la referencia deseada.
Este método alternativo de calcular la ganancia
de concordancia evita la necesidad de almacenar
\overline{\mathit{E}}[m,t] y S[t] en el intervalo
t_{1} \leq t \leq t_{2}. Sólo se
necesita almacenar G[t]. Además, para cada valor de
G_{p}[t_{1}, t_{2}] que es calculado, el
almacenamiento de G[t] en el intervalo t_{1} \leq
t \leq t_{2} sólo necesita ser realizado una vez,
en contraposición a la solución anterior, en la que S[t]
necesita ser almacenada nuevamente en cada iteración. En el caso en
que G_{p}[t_{1}, t_{2}] se haya de calcular
continuamente en cierta longitud T de ventana de deslizamiento (es
decir, t_{1} = t - T, t_{2} =
t), la lista G_{sort}{i} se puede mantener
eficientemente retirando y añadiendo simplemente un valor único de
la lista clasificada para cada nuevo instante de tiempo. Cuando el
intervalo t_{1} \leq t \leq t_{2}
resulta extremadamente grande (la longitud de la totalidad de la
canción o película, por ejemplo), la memoria requerida para
almacenar G[t] puede ser todavía prohibitiva. En este caso,
G_{p}[t_{1}, t_{2}] puede ser aproximadamente de
un histograma hecho discreto de G[t]. En la práctica, este
histograma es creado a partir de G[t] en unidades de
decibelios. El histograma puede ser calculado como
H[i] = número de muestras en el intervalo
t_{1} \leq t \leq t_{2} de al manera que
donde \Delta_{dB} es la
resolución del histograma y dB_{min} es el mínimo del
histograma. La ganancia de concordancia es entonces aproximadamente
como
\vskip1.000000\baselineskip
donde
\vskip1.000000\baselineskip
e I es el índice máximo de
histograma. Usando el histograma hecho discreto, sólo necesitan ser
almacenados valores de I, y G_{p}[t_{1}, t_{2}]
es fácilmente actualizado con cada nuevo valor de
G[t].
Se pueden concebir otros métodos para
aproximarse a G_{p}[t_{1}, t_{2}] desde
G[t], y esta invención está destinada a incluir tales
técnicas. El aspecto clave de esta porción de la invención es
realizar algún tipo de filtración en la ganancia de concordancia o
adaptación G[t] para generar la ganancia de concordancia a
largo plazo Gp[t_{1}, t_{2}] en lugar de
tratar la sonoridad instantánea S[t] para generar la
sonoridad a largo plazo S_{p}[t_{1}, t_{2}], de
la cual se estima entonces G_{p}[t_{1},
t_{2}] a través de un proceso iterativo.
Las figuras 10 y 11 representan sistemas
similares a los de las figuras 2 y 3, respectivamente, pero en los
que la filtración (dispositivo o función 237) de la ganancia de
concordancia G[t] se usa para generar una señal de ganancia
filtrada G_{p}[t_{1},t_{2}] (señal
238).
La sonoridad de referencia en la entrada 230
(figuras 2, 3, 10, 11) puede ser "fija" o "variable" y la
fuente de la sonoridad de referencia puede ser interna o externa a
una disposición que incorpore aspectos de la invención. Por
ejemplo, la sonoridad de referencia puede ser fijada por un usuario,
en cuyo caso su fuente es externa y puede permanecer "fija"
durante un periodo de tiempo hasta que sea nuevamente fijada por el
usuario. Alternativamente, la sonoridad de referencia puede ser una
medida de sonoridad de otra fuente de audio derivada de un proceso
o dispositivo de medición de sonoridad de acuerdo con la presente
invención, tal como la disposición mostrada en el ejemplo de la
figura 1.
El control de volumen normal de un dispositivo
de producción de audio puede ser sustituido por un proceso o
dispositivo de acuerdo con aspectos de la invención, tales como los
ejemplo de la figura 3 o la figura 11. En ese caso, el botón,
corredera, etc. de volumen, operado por el usuario, controlaría la
sonoridad de referencia en 230 de la figura 3 o la figura 11 y, en
consecuencia, el dispositivo de producción de audio tendría una
sonoridad mesurada con el ajuste del usuario del control de
volumen.
Un ejemplo de una referencia variable se muestra
en la figura 12, en la que la sonoridad de referencia S_{ref} es
sustituida por un referencia variable S_{ref}[t] que es
calculada, por ejemplo, a partir de la señal de sonoridad
S[t] a través de un dispositivo o función de sonoridad de
referencia variable ("Sonoridad de Referencia Variable") 239.
En esta disposición, al comienzo de cada iteración para cada periodo
de tiempo t, la referencia variable S_{ref}[t]
puede ser calculada a partir de la sonoridad no modificada
S[t] antes de que haya sido aplicada cualquiera ganancia a
la excitación en 208. La dependencia de S_{ref}[t] y
S[t] a través de la función de referencia de sonoridad
variable 239 puede adoptar varias formas para conseguir varios
efectos. Por ejemplo, la función puede escalar simplemente
S[t] para generar una referencia que sea cierta relación
fija de la sonoridad original. Alternativamente, la función podría
producir una referencia mayor que S[t] cuando S[t]
estuviera por debajo de cierto umbral y menor que S[t] cuando
S[t] está por encima de cierto umbral, reduciendo así el
intervalo dinámico de la sonoridad percibida del audio. Cualquiera
que sea la forma de esa función, la iteración anteriormente descrita
se realiza para calcular G[t] de tal manera que
La ganancia de concordancia G[t] puede
ser entonces filtrada como se ha descrito anteriormente o a través
de alguna otra técnica apropiada para conseguir el efecto porcentual
deseado. Finalmente, puede ser introducido un retardo 240 entre la
señal de audio 201 y el bloque de VCA 236 para compensar cualquier
estado latente en el cálculo de la ganancia filtrada. Un tal
retardo puede ser también proporcionado en las disposiciones de las
figuras 3 y 11.
La señal de control de ganancia G[t] de
la figura 3 y la señal de control de ganancia filtrada
G_{p}[t_{1}, t_{2}] de la disposición de la
figura 11 puede ser útil en una diversidad de aplicaciones,
incluyendo, por ejemplo, emisión televisiva o de radio por
satélite, en las que varía la sonoridad percibida a través de
diferentes canales. En tales entornos, el aparato o método de la
presente invención puede comparar la señal de audio da cada canal
con un nivel de sonoridad de referencia (o la sonoridad de una señal
de referencia). Un operador o dispositivo automatizado puede usar
la ganancia para ajustar la sonoridad de cada canal. Todos los
canales tendrían así esencialmente la misma sonoridad percibida. La
figura 13 muestra un ejemplo de una tal disposición, en la que el
audio de una pluralidad de canales de televisión o de audio, 1 a N ,
se aplica a las respectivas entradas 201 de los procesos o
dispositivos 250, 252, comenzando cada uno de acuerdo con aspectos
de la invención como se muestran en las figuras 3 u 11. El mismo
nivel de sonoridad de referencia se aplica a cada uno de los
procesos o dispositivos 250, 252 que dan lugar al audio del primer
canal al canal de orden N de sonoridad ajustada en cada salida
236.
La técnica de medición y de ajuste de ganancia
puede ser aplicada también a un dispositivo de medición en tiempo
real que vigile material de audio de entrada, realice el tratamiento
que identifica contenido de audio que contiene principalmente
señales de habla humana, y calcule una ganancia tal que las señales
de habla concuerden esencialmente con un nivel de referencia
previamente definido. Técnicas apropiadas para identificar habla en
material de audio se exponen en la Solicitud de Patente de Estados
Unidos S. N. 10/233.073, presentada el 30 de agosto de 2002 y
publicada como Publicación de Solicitud de Estados Unidos US
2004/0044525 A1, publicada el 4 de marzo de 2004. Debido a la
molestia de la audiencia con contenido de audio sonoro tiende a ser
enfocado sobre las porciones de habla de material de programa, un
método de medición y de ajuste de ganancia puede reducir en gran
medida la diferencia de nivel de molestia en audio comúnmente usado
en material de televisión, de películas y de música.
La invención puede ser ejecutada en equipo
físico (hardware) o programación lógica (software) o en una
combinación de ambos (por ejemplo, series lógicas programables). A
menos que se especifique de otro modo, los algoritmos incluidos
como parte de la invención no están inherentemente relacionados con
ningún ordenador u otro aparato particular. En particular, se
pueden usar varias máquinas de finalidad general con programas
escritos de acuerdo con las enseñanzas de esta memoria, o puede ser
más conveniente construir aparatos más especializados (por ejemplo,
circuitos integrados) para realizar los pasos requeridos del método.
Así, la invención puede ser ejecutada en uno o más programas de
ordenador que se ejecuten en uno o más sistemas de ordenador
programables, cada uno de los cuales comprenda al menos un
ordenador, al menos un sistema de almacenamiento de datos
(incluyendo memoria volátil o no volátil y/o elementos de
almacenamiento), al menos un dispositivo o puerto de entrada, y al
menos un dispositivo o puerto de salida. El código de programa se
aplica a datos de entrada para realizar las funciones descritas
aquí y generar información de salida. La información de salida se
aplica a uno o más dispositivos de salida, de forma conocida.
\newpage
Cada uno de tales programas puede ser ejecutado
en cualquier lenguaje de ordenador deseado (incluyendo lenguajes de
máquina, de ensamble, procedimental de alto nivel o de programación
orientado a objetos) para comunicar con un sistema de ordenador. En
cualquier caso, el lenguaje puede ser lenguaje compilado o
interpretado.
Cada uno de tales programas de ordenador es
preferiblemente almacenado o descargado en un medio o dispositivo
de almacenamiento (por ejemplo, memoria o medio de estado sólido, o
medio magnético u óptico) legible por un ordenador general o
especial de finalidad especial, para configurar y operar el
ordenador cuando el medio o dispositivo de almacenamiento es leído
por el sistema de ordenador para realizar los procedimientos
descritos aquí. El sistema del invento se puede considerar también
ejecutado como un medio de almacenamiento legible por ordenador,
configurado con un programa de ordenador, en el que el medio de
almacenamiento así configurado hace que un sistema de ordenador
opere de una manera concreta y predefinida para realizar las
funciones descritas en esta memoria.
Se han descrito varias realizaciones de la
invención. Sin embargo, se entenderá que se pueden hacer varias
modificaciones sin apartarse del ámbito de la invención. Por
ejemplo, algunos de los pasos descritos anteriormente pueden ser
independientes del orden, y de ese modo se pueden realizar en un
orden diferente al descrito. Por lo tanto, otras realizaciones
están dentro del ámbito de las siguientes reivindicaciones. Por lo
tanto, el alcance de la invención está limitado solamente por las
reivindicaciones adjuntas.
Claims (21)
1. Un método para tratar una señal de audio, que
comprende producir, en respuesta a la señal de audio, una señal de
excitación, y calcular la sonoridad porcentual de la señal de audio
en respuesta a la señal de excitación y una medida de
características de la señal de audio, en el que dicho cálculo
selecciona, de un grupo de dos o más funciones específicas de
modelo de sonoridad, una o una combinación de dos o más de las
funciones específicas de modelo de sonoridad, cuya selección es
controlada por la medición de características de la señal de audio
de entrada.
2. Un método de acuerdo con la reivindicación 1,
en el que la medición de características de la señal de audio es
una medición del grado al cual la señal de entrada es espectralmente
plana.
3. Un método de acuerdo con la reivindicación 1,
en el que dicho cálculo selecciona o combina dos funciones
específicas de modelo de sonoridad, siendo una primera función de
modelo de sonoridad seleccionada por una medición de
características resultantes de una señal de entrada que no es
espectralmente plana, siendo seleccionada una segunda función de
modelo de sonoridad por una medición de características que resultan
de una señal de entrada espectralmente plana, y siendo seleccionada
una combinación de las funciones primera y segunda de modelo de
sonoridad por una medición de características resultante de una
señal de entrada parcialmente no plana espectralmente, parcialmente
plana espectralmente.
4. Un método de acuerdo con la reivindicación 3,
en el que tanto la primera como la segunda funciones de modelo de
sonoridad aumentan monotónicamente por encima de un umbral en
silencio o inactividad con excitación creciente de acuerdo con una
ley de potencia, aumentando la primera función de modelo de
sonoridad más rápidamente que la segunda función de modelo de
sonoridad.
5. Un método de acuerdo con la reivindicación 1,
en el que dicho cálculo se selecciona de un grupo de dos o más
modelos de sonoridad específicos, uno o una combinación de dos o más
de dichos modelos de sonoridad específicos en cada una de las
respectivas bandas de frecuencias de la señal de excitación.
6. Un método de acuerdo con la reivindicación 1,
en el que dicho cálculo se selecciona de un grupo de dos o más
modelos específicos de sonoridad, uno o una combinación de dos o más
de dichos modelos de sonoridad de un grupo de respectivas bandas de
frecuencias de excitación.
7. Un método de acuerdo con la reivindicación 6,
en el que el grupo de respectivas bandas de frecuencias son todas
de las bandas de frecuencia de la señal de excitación.
8. Un método de acuerdo con la reivindicación 1,
en el que la medición de características de la señal de audio se
deduce de la señal de excitación.
9. Un método de acuerdo con la reivindicación 1,
en el que el cálculo incluye calcular una sonoridad específica en
cada una de las bandas de frecuencias respectivas de la señal de
excitación.
10. Un método de acuerdo con la reivindicación
9, en el que el cálculo comprende además seleccionar la sonoridad
específica de una banda de frecuencias para proporcionar la
sonoridad porcentual o combinar la sonoridad específica de un grupo
de bandas de frecuencias para proporcionar la sonoridad
porcentual.
11. Un método de acuerdo con la reivindicación
1, en el que el paso de producir, en respuesta a la señal de audio,
una señal de excitación, comprende:
filtrar linealmente la señal de audio mediante
una o más funciones que simulan las características del
oído exterior y medio humano para producir una señal de audio
filtrada linealmente, y
dividir la señal de audio linealmente filtrada
en bandas de frecuencias que simulan la pauta de excitación
generada a lo largo de la membrana basilar del oído interno para
producir la señal de excitación.
12. Un método de acuerdo con cualquiera de las
reivindicaciones precedentes, que comprende además
calcular, en respuesta a la señal de
excitación, un valor de ganancia G[t], incluyendo el cálculo
un bucle de tratamiento iterativo que incluye
ajustar la magnitud de la señal de excitación en
respuesta a una función de un valor de ganancia de iteración
G_{i} de tal manera que la magnitud ajustada de la señal de
excitación aumenta con valores crecientes de G_{i} y disminuye
con valores decrecientes de G_{i},
comparar la sonoridad porcentual calculada de la
señal de audio con una sonoridad porcentual de referencia para
generar una diferencia, y
\newpage
ajustar el valor de ganancia G_{i} en
respuesta a la diferencia de manera que se reduzca la diferencia
entre la sonoridad porcentual calculada y la sonoridad porcentual
de referencia.
13. El método de la reivindicación 12, en el que
la señal de excitación es filtrada en tiempo y/o el método comprende
además filtrar en tiempo el valor de ganancia
G_{i}[t].
14. El método de la reivindicación 13, en el que
la señal de excitación es filtrada linealmente en tiempo.
15. El método de la reivindicación 13, en el que
el método comprende además filtrar el valor de ganancia G[t],
empleando dicha filtración una técnica de histograma.
16. Un método de acuerdo con la reivindicación
12, en el que el bucle de tratamiento iterativo, de acuerdo con un
algoritmo de minimización, ajusta repetitivamente la magnitud de la
señal de excitación, calcula una sonoridad porcentual, compara la
sonoridad porcentual calculada con una sonoridad porcentual de
referencia, y ajusta el valor de ganancia G_{i} a un valor
final G[_{i}].
17. Un método de cuerdo con la reivindicación
16, en el que el algoritmo de minimización está de acuerdo con el
método de minimización de gradiente descendente.
18. Un método de acuerdo con cualquiera de las
reivindicaciones 12 a 17, que comprende además controlar la amplitud
de la señal de audio de entrada con la ganancia G[t] de
manera que la sonoridad resultante percibida de la señal de audio
de entrada sea esencialmente la misma que la sonoridad de
referencia.
19. Un método de acuerdo con cualquiera de las
reivindicaciones 12 a 18, en el que la sonoridad de referencia es
establecida por el usuario.
20. Aparato que comprende medios destinados a
realizar cada uno de los pasos del método de cualquiera de las
reivindicaciones 1 a 19.
21. Un programa de ordenador, almacenado en un
medio legible por ordenador para hacer que un ordenador realice
cada uno de los pasos del método de cualquiera de las
reivindicaciones 1 a 19, cuando el programa de ordenador se está
ejecutando en el ordenador.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US47407703P | 2003-05-28 | 2003-05-28 | |
US474077P | 2003-05-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2290764T3 true ES2290764T3 (es) | 2008-02-16 |
Family
ID=33551475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES04776174T Expired - Lifetime ES2290764T3 (es) | 2003-05-28 | 2004-05-27 | Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio. |
Country Status (19)
Country | Link |
---|---|
US (1) | US8437482B2 (es) |
EP (1) | EP1629463B1 (es) |
JP (1) | JP4486646B2 (es) |
KR (1) | KR101164937B1 (es) |
CN (2) | CN1795490A (es) |
AT (1) | ATE371246T1 (es) |
AU (1) | AU2004248544B2 (es) |
BR (1) | BRPI0410740A (es) |
CA (1) | CA2525942C (es) |
DE (1) | DE602004008455T2 (es) |
DK (1) | DK1629463T3 (es) |
ES (1) | ES2290764T3 (es) |
HK (2) | HK1083918A1 (es) |
IL (1) | IL172108A (es) |
IN (1) | IN2010KN02913A (es) |
MX (1) | MXPA05012785A (es) |
PL (1) | PL1629463T3 (es) |
SG (1) | SG185134A1 (es) |
WO (1) | WO2004111994A2 (es) |
Families Citing this family (113)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
DE602005005948T2 (de) * | 2004-01-13 | 2009-04-16 | Koninklijke Philips Electronics N.V. | Audiosignal-verbesserung |
KR101079066B1 (ko) | 2004-03-01 | 2011-11-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 멀티채널 오디오 코딩 |
US7617109B2 (en) | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
WO2006047600A1 (en) | 2004-10-26 | 2006-05-04 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US7676362B2 (en) * | 2004-12-31 | 2010-03-09 | Motorola, Inc. | Method and apparatus for enhancing loudness of a speech signal |
KR100708123B1 (ko) * | 2005-02-04 | 2007-04-16 | 삼성전자주식회사 | 자동으로 오디오 볼륨을 조절하는 방법 및 장치 |
TWI397903B (zh) | 2005-04-13 | 2013-06-01 | Dolby Lab Licensing Corp | 編碼音訊之節約音量測量技術 |
US8280730B2 (en) | 2005-05-25 | 2012-10-02 | Motorola Mobility Llc | Method and apparatus of increasing speech intelligibility in noisy environments |
KR101251426B1 (ko) | 2005-06-03 | 2013-04-05 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법 |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
CN101421781A (zh) * | 2006-04-04 | 2009-04-29 | 杜比实验室特许公司 | 音频信号的感知响度和/或感知频谱平衡的计算和调整 |
CN101410892B (zh) * | 2006-04-04 | 2012-08-08 | 杜比实验室特许公司 | 改进的离散余弦变换域中的音频信号响度测量及修改 |
CN102684628B (zh) | 2006-04-27 | 2014-11-26 | 杜比实验室特许公司 | 修正音频动态处理器的参数的方法以及执行该方法的设备 |
US11450331B2 (en) | 2006-07-08 | 2022-09-20 | Staton Techiya, Llc | Personal audio assistant device and method |
EP2044804A4 (en) * | 2006-07-08 | 2013-12-18 | Personics Holdings Inc | PERSONAL HEARING AID AND METHOD |
WO2008018012A2 (en) * | 2006-08-10 | 2008-02-14 | Koninklijke Philips Electronics N.V. | A device for and a method of processing an audio signal |
KR101137715B1 (ko) | 2006-10-20 | 2012-04-25 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 리셋을 사용하는 오디오 다이내믹스 프로세싱 |
JP2010513974A (ja) | 2006-12-21 | 2010-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声データを処理するシステム |
JP4938862B2 (ja) * | 2007-01-03 | 2012-05-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ハイブリッドデジタル/アナログラウドネス補償音量調節 |
MY144152A (en) | 2007-06-19 | 2011-08-15 | Dolby Lab Licensing Corp | Loudness measurement with spectral modifications |
ES2354962T3 (es) | 2007-07-13 | 2011-03-21 | Dolby Laboratories Licensing Corporation | Nivel de señal de audio variable con el tiempo usando una densidad de probabilidad estimada variable con el tiempo del nivel. |
US8396574B2 (en) | 2007-07-13 | 2013-03-12 | Dolby Laboratories Licensing Corporation | Audio processing using auditory scene analysis and spectral skewness |
DE102007035172A1 (de) | 2007-07-27 | 2009-02-05 | Siemens Medical Instruments Pte. Ltd. | Hörsystem mit visualisierter psychoakustischer Größe und entsprechendes Verfahren |
EP2188986B1 (en) * | 2007-08-16 | 2016-04-06 | DTS, Inc. | Audio processing for compressed digital television |
US8315398B2 (en) | 2007-12-21 | 2012-11-20 | Dts Llc | System for adjusting perceived loudness of audio signals |
CA2720636C (en) * | 2008-04-18 | 2014-02-18 | Dolby Laboratories Licensing Corporation | Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience |
US8831936B2 (en) * | 2008-05-29 | 2014-09-09 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
US8538749B2 (en) * | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
TWI397058B (zh) * | 2008-07-29 | 2013-05-21 | Lg Electronics Inc | 音頻訊號之處理裝置及其方法,及電腦可讀取之紀錄媒體 |
EP2329492A1 (en) | 2008-09-19 | 2011-06-08 | Dolby Laboratories Licensing Corporation | Upstream quality enhancement signal processing for resource constrained client devices |
ES2385293T3 (es) * | 2008-09-19 | 2012-07-20 | Dolby Laboratories Licensing Corporation | Procesamiento de señales ascendentes para dispositivos clientes en una red inalámbrica de células pequeñas |
US9380385B1 (en) | 2008-11-14 | 2016-06-28 | That Corporation | Compressor based dynamic bass enhancement with EQ |
WO2010057134A1 (en) | 2008-11-14 | 2010-05-20 | That Corporation | Dynamic volume control and multi-spatial processing protection |
EP2374211B1 (en) | 2008-12-24 | 2012-04-04 | Dolby Laboratories Licensing Corporation | Audio signal loudness determination and modification in the frequency domain |
US9202456B2 (en) * | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
WO2010127024A1 (en) * | 2009-04-30 | 2010-11-04 | Dolby Laboratories Licensing Corporation | Controlling the loudness of an audio signal in response to spectral localization |
TWI503816B (zh) * | 2009-05-06 | 2015-10-11 | Dolby Lab Licensing Corp | 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術 |
CN102422349A (zh) * | 2009-05-14 | 2012-04-18 | 夏普株式会社 | 增益控制装置和增益控制方法、声音输出装置 |
WO2010138311A1 (en) | 2009-05-26 | 2010-12-02 | Dolby Laboratories Licensing Corporation | Equalization profiles for dynamic equalization of audio data |
WO2010138309A1 (en) | 2009-05-26 | 2010-12-02 | Dolby Laboratories Licensing Corporation | Audio signal dynamic equalization processing control |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
DE112009005215T8 (de) * | 2009-08-04 | 2013-01-03 | Nokia Corp. | Verfahren und Vorrichtung zur Audiosignalklassifizierung |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
WO2011071928A2 (en) * | 2009-12-07 | 2011-06-16 | Pixel Instruments Corporation | Dialogue detector and correction |
EP2367286B1 (en) * | 2010-03-12 | 2013-02-20 | Harman Becker Automotive Systems GmbH | Automatic correction of loudness level in audio signals |
WO2011141772A1 (en) * | 2010-05-12 | 2011-11-17 | Nokia Corporation | Method and apparatus for processing an audio signal based on an estimated loudness |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
CN103348408B (zh) | 2011-02-10 | 2015-11-25 | 杜比实验室特许公司 | 噪声和位置外信号的组合抑制方法和*** |
US20120263317A1 (en) * | 2011-04-13 | 2012-10-18 | Qualcomm Incorporated | Systems, methods, apparatus, and computer readable media for equalization |
EP2714184B1 (en) * | 2011-05-26 | 2017-05-10 | Advanced Bionics AG | Systems for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels |
KR102060208B1 (ko) | 2011-07-29 | 2019-12-27 | 디티에스 엘엘씨 | 적응적 음성 명료도 처리기 |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US9437213B2 (en) * | 2012-03-05 | 2016-09-06 | Malaspina Labs (Barbados) Inc. | Voice signal enhancement |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
WO2013142695A1 (en) * | 2012-03-23 | 2013-09-26 | Dolby Laboratories Licensing Corporation | Method and system for bias corrected speech level determination |
CN104221284B (zh) * | 2012-04-12 | 2017-05-24 | 杜比实验室特许公司 | 用于调平音频信号的响度变化的***及方法 |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
WO2014021890A1 (en) | 2012-08-01 | 2014-02-06 | Dolby Laboratories Licensing Corporation | Percentile filtering of noise reduction gains |
EP2693637A1 (en) * | 2012-08-01 | 2014-02-05 | Harman Becker Automotive Systems GmbH | Automatic loudness control |
US10043535B2 (en) | 2013-01-15 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
US9559651B2 (en) | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
US9391576B1 (en) * | 2013-09-05 | 2016-07-12 | Cirrus Logic, Inc. | Enhancement of dynamic range of audio signal path |
US9831843B1 (en) | 2013-09-05 | 2017-11-28 | Cirrus Logic, Inc. | Opportunistic playback state changes for audio devices |
JP6151619B2 (ja) * | 2013-10-07 | 2017-06-21 | クラリオン株式会社 | 音場測定装置、音場測定方法および音場測定プログラム |
US10045135B2 (en) | 2013-10-24 | 2018-08-07 | Staton Techiya, Llc | Method and device for recognition and arbitration of an input connection |
US9832562B2 (en) * | 2013-11-07 | 2017-11-28 | Gn Hearing A/S | Hearing aid with probabilistic hearing loss compensation |
DK2871858T3 (da) * | 2013-11-07 | 2019-09-23 | Gn Hearing As | Et høreapparat med probabilistisk høretabskompensation |
US10043534B2 (en) | 2013-12-23 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
EP3092640B1 (en) * | 2014-01-07 | 2018-06-27 | Harman International Industries, Incorporated | Signal quality-based enhancement and compensation of compressed audio signals |
US9774342B1 (en) | 2014-03-05 | 2017-09-26 | Cirrus Logic, Inc. | Multi-path analog front end and analog-to-digital converter for a signal processing system |
US9525940B1 (en) | 2014-03-05 | 2016-12-20 | Cirrus Logic, Inc. | Multi-path analog front end and analog-to-digital converter for a signal processing system |
US9503803B2 (en) | 2014-03-26 | 2016-11-22 | Bose Corporation | Collaboratively processing audio between headset and source to mask distracting noise |
US9306588B2 (en) | 2014-04-14 | 2016-04-05 | Cirrus Logic, Inc. | Switchable secondary playback path |
CN105336341A (zh) | 2014-05-26 | 2016-02-17 | 杜比实验室特许公司 | 增强音频信号中的语音内容的可理解性 |
US10785568B2 (en) | 2014-06-26 | 2020-09-22 | Cirrus Logic, Inc. | Reducing audio artifacts in a system for enhancing dynamic range of audio signal path |
US10013992B2 (en) | 2014-07-11 | 2018-07-03 | Arizona Board Of Regents On Behalf Of Arizona State University | Fast computation of excitation pattern, auditory pattern and loudness |
US9337795B2 (en) | 2014-09-09 | 2016-05-10 | Cirrus Logic, Inc. | Systems and methods for gain calibration of an audio signal path |
US9596537B2 (en) | 2014-09-11 | 2017-03-14 | Cirrus Logic, Inc. | Systems and methods for reduction of audio artifacts in an audio system with dynamic range enhancement |
US9503027B2 (en) | 2014-10-27 | 2016-11-22 | Cirrus Logic, Inc. | Systems and methods for dynamic range enhancement using an open-loop modulator in parallel with a closed-loop modulator |
US9584911B2 (en) | 2015-03-27 | 2017-02-28 | Cirrus Logic, Inc. | Multichip dynamic range enhancement (DRE) audio processing methods and apparatuses |
US10109288B2 (en) * | 2015-05-27 | 2018-10-23 | Apple Inc. | Dynamic range and peak control in audio using nonlinear filters |
US9959856B2 (en) | 2015-06-15 | 2018-05-01 | Cirrus Logic, Inc. | Systems and methods for reducing artifacts and improving performance of a multi-path analog-to-digital converter |
EP4156180A1 (en) * | 2015-06-17 | 2023-03-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Loudness control for user interactivity in audio coding systems |
DE102015216822B4 (de) * | 2015-09-02 | 2017-07-06 | Sivantos Pte. Ltd. | Verfahren zur Unterdrückung einer Rückkopplung in einem Hörgerät |
US9590580B1 (en) * | 2015-09-13 | 2017-03-07 | Guoguang Electric Company Limited | Loudness-based audio-signal compensation |
DE102015217565A1 (de) | 2015-09-15 | 2017-03-16 | Ford Global Technologies, Llc | Verfahren und Vorrichtung zur Verarbeitung von Audio-Signalen |
US9955254B2 (en) | 2015-11-25 | 2018-04-24 | Cirrus Logic, Inc. | Systems and methods for preventing distortion due to supply-based modulation index changes in an audio playback system |
US9543975B1 (en) | 2015-12-29 | 2017-01-10 | Cirrus Logic, Inc. | Multi-path analog front end and analog-to-digital converter for a signal processing system with low-pass filter between paths |
US9880802B2 (en) | 2016-01-21 | 2018-01-30 | Cirrus Logic, Inc. | Systems and methods for reducing audio artifacts from switching between paths of a multi-path signal processing system |
US9998826B2 (en) | 2016-06-28 | 2018-06-12 | Cirrus Logic, Inc. | Optimization of performance and power in audio system |
US10545561B2 (en) | 2016-08-10 | 2020-01-28 | Cirrus Logic, Inc. | Multi-path digitation based on input signal fidelity and output requirements |
US10263630B2 (en) | 2016-08-11 | 2019-04-16 | Cirrus Logic, Inc. | Multi-path analog front end with adaptive path |
US9813814B1 (en) | 2016-08-23 | 2017-11-07 | Cirrus Logic, Inc. | Enhancing dynamic range based on spectral content of signal |
US9780800B1 (en) | 2016-09-19 | 2017-10-03 | Cirrus Logic, Inc. | Matching paths in a multiple path analog-to-digital converter |
US9762255B1 (en) | 2016-09-19 | 2017-09-12 | Cirrus Logic, Inc. | Reconfiguring paths in a multiple path analog-to-digital converter |
US9929703B1 (en) | 2016-09-27 | 2018-03-27 | Cirrus Logic, Inc. | Amplifier with configurable final output stage |
US9967665B2 (en) | 2016-10-05 | 2018-05-08 | Cirrus Logic, Inc. | Adaptation of dynamic range enhancement based on noise floor of signal |
US10321230B2 (en) | 2017-04-07 | 2019-06-11 | Cirrus Logic, Inc. | Switching in an audio system with multiple playback paths |
US10008992B1 (en) | 2017-04-14 | 2018-06-26 | Cirrus Logic, Inc. | Switching in amplifier with configurable final output stage |
US9917557B1 (en) | 2017-04-17 | 2018-03-13 | Cirrus Logic, Inc. | Calibration for amplifier with configurable final output stage |
CN107464563B (zh) * | 2017-08-11 | 2020-08-04 | 广州迪宝乐电子有限公司 | 一种语音交互玩具 |
US10389323B2 (en) * | 2017-12-18 | 2019-08-20 | Tls Corp. | Context-aware loudness control |
US11894006B2 (en) | 2018-07-25 | 2024-02-06 | Dolby Laboratories Licensing Corporation | Compressor target curve to avoid boosting noise |
CN112437957A (zh) | 2018-07-27 | 2021-03-02 | 杜比实验室特许公司 | 用于全面收听的强加间隙*** |
CN109547848B (zh) * | 2018-11-23 | 2021-02-12 | 北京达佳互联信息技术有限公司 | 响度调整方法、装置、电子设备以及存储介质 |
JP2022527111A (ja) | 2019-04-03 | 2022-05-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | スケーラブル音声シーンメディアサーバ |
CN111640446B (zh) * | 2020-06-24 | 2023-03-10 | 北京百瑞互联技术有限公司 | 一种基于音频编码器的响度均衡方法、编码器及蓝牙设备 |
US11916525B2 (en) * | 2021-08-27 | 2024-02-27 | Sennheiser Electronic Gmbh & Co. Kg | Method for automatically controlling loudness of an audio signal, and device for automatically controlling loudness of an audio signal |
WO2023122227A1 (en) * | 2021-12-22 | 2023-06-29 | University Of Maryland | Audio control system |
Family Cites Families (116)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2808475A (en) * | 1954-10-05 | 1957-10-01 | Bell Telephone Labor Inc | Loudness indicator |
US4281218A (en) * | 1979-10-26 | 1981-07-28 | Bell Telephone Laboratories, Incorporated | Speech-nonspeech detector-classifier |
DE3314570A1 (de) * | 1983-04-22 | 1984-10-25 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und anordnung zur einstellung der verstaerkung |
US4739514A (en) * | 1986-12-22 | 1988-04-19 | Bose Corporation | Automatic dynamic equalizing |
US4887299A (en) | 1987-11-12 | 1989-12-12 | Nicolet Instrument Corporation | Adaptive, programmable signal processing hearing aid |
US4953112A (en) | 1988-05-10 | 1990-08-28 | Minnesota Mining And Manufacturing Company | Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model |
US5027410A (en) * | 1988-11-10 | 1991-06-25 | Wisconsin Alumni Research Foundation | Adaptive, programmable signal processing and filtering for hearing aids |
JPH02118322U (es) * | 1989-03-08 | 1990-09-21 | ||
US5097510A (en) * | 1989-11-07 | 1992-03-17 | Gs Systems, Inc. | Artificial intelligence pattern-recognition-based noise reduction system for speech processing |
US5369711A (en) * | 1990-08-31 | 1994-11-29 | Bellsouth Corporation | Automatic gain control for a headset |
SG49883A1 (en) * | 1991-01-08 | 1998-06-15 | Dolby Lab Licensing Corp | Encoder/decoder for multidimensional sound fields |
US5632005A (en) * | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
EP0517233B1 (en) | 1991-06-06 | 1996-10-30 | Matsushita Electric Industrial Co., Ltd. | Music/voice discriminating apparatus |
US5278912A (en) * | 1991-06-28 | 1994-01-11 | Resound Corporation | Multiband programmable compression system |
US5363147A (en) * | 1992-06-01 | 1994-11-08 | North American Philips Corporation | Automatic volume leveler |
DE4335739A1 (de) | 1992-11-17 | 1994-05-19 | Rudolf Prof Dr Bisping | Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen |
GB2272615A (en) | 1992-11-17 | 1994-05-18 | Rudolf Bisping | Controlling signal-to-noise ratio in noisy recordings |
US5548638A (en) | 1992-12-21 | 1996-08-20 | Iwatsu Electric Co., Ltd. | Audio teleconferencing apparatus |
US5457769A (en) * | 1993-03-30 | 1995-10-10 | Earmark, Inc. | Method and apparatus for detecting the presence of human voice signals in audio signals |
US5706352A (en) * | 1993-04-07 | 1998-01-06 | K/S Himpp | Adaptive gain and filtering circuit for a sound reproduction system |
US5434922A (en) * | 1993-04-08 | 1995-07-18 | Miller; Thomas E. | Method and apparatus for dynamic sound optimization |
BE1007355A3 (nl) * | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
IN184794B (es) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
JP2986345B2 (ja) * | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
US5530760A (en) * | 1994-04-29 | 1996-06-25 | Audio Products International Corp. | Apparatus and method for adjusting levels between channels of a sound system |
US5500902A (en) * | 1994-07-08 | 1996-03-19 | Stockham, Jr.; Thomas G. | Hearing aid device incorporating signal processing techniques |
GB9419388D0 (en) * | 1994-09-26 | 1994-11-09 | Canon Kk | Speech analysis |
US5548538A (en) * | 1994-12-07 | 1996-08-20 | Wiltron Company | Internal automatic calibrator for vector network analyzers |
US5682463A (en) * | 1995-02-06 | 1997-10-28 | Lucent Technologies Inc. | Perceptual audio compression based on loudness uncertainty |
CA2167748A1 (en) * | 1995-02-09 | 1996-08-10 | Yoav Freund | Apparatus and methods for machine learning hypotheses |
ATE229729T1 (de) | 1995-03-13 | 2002-12-15 | Phonak Ag | Verfahren zur anpassung eines hörgerätes, vorrichtung hierzu und hörgerät |
US5727119A (en) * | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
WO1996032710A1 (en) * | 1995-04-10 | 1996-10-17 | Corporate Computer Systems, Inc. | System for compression and decompression of audio signals for digital transmission |
US6301555B2 (en) * | 1995-04-10 | 2001-10-09 | Corporate Computer Systems | Adjustable psycho-acoustic parameters |
US5601617A (en) * | 1995-04-26 | 1997-02-11 | Advanced Bionics Corporation | Multichannel cochlear prosthesis with flexible control of stimulus waveforms |
JPH08328599A (ja) | 1995-06-01 | 1996-12-13 | Mitsubishi Electric Corp | Mpegオーディオ復号器 |
US5663727A (en) * | 1995-06-23 | 1997-09-02 | Hearing Innovations Incorporated | Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same |
US5712954A (en) * | 1995-08-23 | 1998-01-27 | Rockwell International Corp. | System and method for monitoring audio power level of agent speech in a telephonic switch |
US6002776A (en) * | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
US5907622A (en) * | 1995-09-21 | 1999-05-25 | Dougherty; A. Michael | Automatic noise compensation system for audio reproduction equipment |
US5822018A (en) | 1996-04-02 | 1998-10-13 | Farmer; James O. | Method and apparatus for normalizing signal levels in a signal processing system |
US6108431A (en) * | 1996-05-01 | 2000-08-22 | Phonak Ag | Loudness limiter |
US6327366B1 (en) * | 1996-05-01 | 2001-12-04 | Phonak Ag | Method for the adjustment of a hearing device, apparatus to do it and a hearing device |
US6430533B1 (en) * | 1996-05-03 | 2002-08-06 | Lsi Logic Corporation | Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation |
JPH09312540A (ja) * | 1996-05-23 | 1997-12-02 | Pioneer Electron Corp | ラウドネスボリュームコントロール装置 |
JP3765622B2 (ja) * | 1996-07-09 | 2006-04-12 | ユナイテッド・モジュール・コーポレーション | オーディオ符号化復号化システム |
EP0820212B1 (de) * | 1996-07-19 | 2010-04-21 | Bernafon AG | Lautheitsgesteuerte Verarbeitung akustischer Signale |
JP2953397B2 (ja) * | 1996-09-13 | 1999-09-27 | 日本電気株式会社 | ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器 |
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
US5862228A (en) | 1997-02-21 | 1999-01-19 | Dolby Laboratories Licensing Corporation | Audio matrix encoding |
US6125343A (en) * | 1997-05-29 | 2000-09-26 | 3Com Corporation | System and method for selecting a loudest speaker by comparing average frame gains |
US6272360B1 (en) * | 1997-07-03 | 2001-08-07 | Pan Communications, Inc. | Remotely installed transmitter and a hands-free two-way voice terminal device using same |
US6185309B1 (en) * | 1997-07-11 | 2001-02-06 | The Regents Of The University Of California | Method and apparatus for blind separation of mixed and convolved sources |
KR100261904B1 (ko) * | 1997-08-29 | 2000-07-15 | 윤종용 | 헤드폰 사운드 출력장치 |
US6088461A (en) * | 1997-09-26 | 2000-07-11 | Crystal Semiconductor Corporation | Dynamic volume control system |
US6404891B1 (en) * | 1997-10-23 | 2002-06-11 | Cardio Theater | Volume adjustment as a function of transmission quality |
US6233554B1 (en) * | 1997-12-12 | 2001-05-15 | Qualcomm Incorporated | Audio CODEC with AGC controlled by a VOCODER |
US6298139B1 (en) * | 1997-12-31 | 2001-10-02 | Transcrypt International, Inc. | Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control |
US6182033B1 (en) * | 1998-01-09 | 2001-01-30 | At&T Corp. | Modular approach to speech enhancement with an application to speech coding |
US6353671B1 (en) * | 1998-02-05 | 2002-03-05 | Bioinstco Corp. | Signal processing circuit and method for increasing speech intelligibility |
JP3505085B2 (ja) * | 1998-04-14 | 2004-03-08 | アルパイン株式会社 | オーディオ装置 |
US6311155B1 (en) * | 2000-02-04 | 2001-10-30 | Hearing Enhancement Company Llc | Use of voice-to-remaining audio (VRA) in consumer applications |
US6498855B1 (en) | 1998-04-17 | 2002-12-24 | International Business Machines Corporation | Method and system for selectively and variably attenuating audio data |
JP2002518912A (ja) * | 1998-06-08 | 2002-06-25 | コックレア リミティド | 聴覚装置 |
EP0980064A1 (de) * | 1998-06-26 | 2000-02-16 | Ascom AG | Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen |
US6351731B1 (en) * | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
US6823303B1 (en) * | 1998-08-24 | 2004-11-23 | Conexant Systems, Inc. | Speech encoder using voice activity detection in coding noise |
US6411927B1 (en) * | 1998-09-04 | 2002-06-25 | Matsushita Electric Corporation Of America | Robust preprocessing signal equalization system and method for normalizing to a target environment |
FI113935B (fi) * | 1998-09-25 | 2004-06-30 | Nokia Corp | Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä |
DE19848491A1 (de) | 1998-10-21 | 2000-04-27 | Bosch Gmbh Robert | Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger |
US6314396B1 (en) * | 1998-11-06 | 2001-11-06 | International Business Machines Corporation | Automatic gain control in a speech recognition system |
DE69933929T2 (de) * | 1999-04-09 | 2007-06-06 | Texas Instruments Inc., Dallas | Bereitstellen von digitalen Audio- und Videoprodukten |
WO2000065872A1 (en) | 1999-04-26 | 2000-11-02 | Dspfactory Ltd. | Loudness normalization control for a digital hearing aid |
US6263371B1 (en) * | 1999-06-10 | 2001-07-17 | Cacheflow, Inc. | Method and apparatus for seaming of streaming content |
US6985594B1 (en) * | 1999-06-15 | 2006-01-10 | Hearing Enhancement Co., Llc. | Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment |
US6442278B1 (en) * | 1999-06-15 | 2002-08-27 | Hearing Enhancement Company, Llc | Voice-to-remaining audio (VRA) interactive center channel downmix |
US7027981B2 (en) * | 1999-11-29 | 2006-04-11 | Bizjak Karl M | System output control method and apparatus |
FR2802329B1 (fr) * | 1999-12-08 | 2003-03-28 | France Telecom | Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames |
US6351733B1 (en) * | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
DE10018666A1 (de) * | 2000-04-14 | 2001-10-18 | Harman Audio Electronic Sys | Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals |
US6889186B1 (en) * | 2000-06-01 | 2005-05-03 | Avaya Technology Corp. | Method and apparatus for improving the intelligibility of digitally compressed speech |
JP2002051392A (ja) * | 2000-08-01 | 2002-02-15 | Alpine Electronics Inc | 車内会話補助装置 |
AUPQ952700A0 (en) * | 2000-08-21 | 2000-09-14 | University Of Melbourne, The | Sound-processing strategy for cochlear implants |
JP3448586B2 (ja) | 2000-08-29 | 2003-09-22 | 独立行政法人産業技術総合研究所 | 聴覚障害を考慮した音の測定方法およびシステム |
US6625433B1 (en) * | 2000-09-29 | 2003-09-23 | Agere Systems Inc. | Constant compression automatic gain control circuit |
US6807525B1 (en) * | 2000-10-31 | 2004-10-19 | Telogy Networks, Inc. | SID frame detection with human auditory perception compensation |
ATE333751T1 (de) * | 2000-11-09 | 2006-08-15 | Koninkl Kpn Nv | Messen einer übertragungsqualität einer telefonverbindung in einem fernmeldenetz |
US7457422B2 (en) * | 2000-11-29 | 2008-11-25 | Ford Global Technologies, Llc | Method and implementation for detecting and characterizing audible transients in noise |
FR2820573B1 (fr) | 2001-02-02 | 2003-03-28 | France Telecom | Methode et dispositif de traitement d'une pluralite de flux binaires audio |
DE10107385A1 (de) * | 2001-02-16 | 2002-09-05 | Harman Audio Electronic Sys | Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken |
US6915264B2 (en) * | 2001-02-22 | 2005-07-05 | Lucent Technologies Inc. | Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding |
AU2001244029A1 (en) * | 2001-04-10 | 2001-07-09 | Phonak Ag | Method for adjustment of a hearing aid to suit an individual |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7461002B2 (en) * | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
ATE318062T1 (de) | 2001-04-18 | 2006-03-15 | Gennum Corp | Mehrkanal hörgerät mit übertragungsmöglichkeiten zwischen den kanälen |
JP4681163B2 (ja) * | 2001-07-16 | 2011-05-11 | パナソニック株式会社 | ハウリング検出抑圧装置、これを備えた音響装置、及び、ハウリング検出抑圧方法 |
CA2354755A1 (en) * | 2001-08-07 | 2003-02-07 | Dspfactory Ltd. | Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank |
US7177803B2 (en) * | 2001-10-22 | 2007-02-13 | Motorola, Inc. | Method and apparatus for enhancing loudness of an audio signal |
US7068723B2 (en) * | 2002-02-28 | 2006-06-27 | Fuji Xerox Co., Ltd. | Method for automatically producing optimal summaries of linear media |
US7155385B2 (en) | 2002-05-16 | 2006-12-26 | Comerica Bank, As Administrative Agent | Automatic gain control for adjusting gain during non-speech portions |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
JP3832396B2 (ja) * | 2002-07-17 | 2006-10-11 | コニカミノルタフォトイメージング株式会社 | 駆動装置、位置制御装置およびカメラ |
JP4257079B2 (ja) | 2002-07-19 | 2009-04-22 | パイオニア株式会社 | 周波数特性調整装置および周波数特性調整方法 |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
DE10308483A1 (de) * | 2003-02-26 | 2004-09-09 | Siemens Audiologische Technik Gmbh | Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät |
US7551745B2 (en) | 2003-04-24 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Volume and compression control in movie theaters |
US7617109B2 (en) * | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
WO2006047600A1 (en) | 2004-10-26 | 2006-05-04 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US8265295B2 (en) * | 2005-03-11 | 2012-09-11 | Rane Corporation | Method and apparatus for identifying feedback in a circuit |
CN101410892B (zh) | 2006-04-04 | 2012-08-08 | 杜比实验室特许公司 | 改进的离散余弦变换域中的音频信号响度测量及修改 |
CN101421781A (zh) | 2006-04-04 | 2009-04-29 | 杜比实验室特许公司 | 音频信号的感知响度和/或感知频谱平衡的计算和调整 |
CN102684628B (zh) | 2006-04-27 | 2014-11-26 | 杜比实验室特许公司 | 修正音频动态处理器的参数的方法以及执行该方法的设备 |
JP4938862B2 (ja) | 2007-01-03 | 2012-05-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ハイブリッドデジタル/アナログラウドネス補償音量調節 |
-
2004
- 2004-05-27 ES ES04776174T patent/ES2290764T3/es not_active Expired - Lifetime
- 2004-05-27 CA CA2525942A patent/CA2525942C/en not_active Expired - Fee Related
- 2004-05-27 WO PCT/US2004/016964 patent/WO2004111994A2/en active IP Right Grant
- 2004-05-27 JP JP2006533502A patent/JP4486646B2/ja not_active Expired - Fee Related
- 2004-05-27 AT AT04776174T patent/ATE371246T1/de active
- 2004-05-27 SG SG2008078875A patent/SG185134A1/en unknown
- 2004-05-27 CN CNA2004800146845A patent/CN1795490A/zh active Pending
- 2004-05-27 AU AU2004248544A patent/AU2004248544B2/en not_active Ceased
- 2004-05-27 KR KR1020057021694A patent/KR101164937B1/ko not_active IP Right Cessation
- 2004-05-27 CN CN201010134528XA patent/CN101819771B/zh not_active Expired - Fee Related
- 2004-05-27 IN IN2913KON2010 patent/IN2010KN02913A/en unknown
- 2004-05-27 US US10/558,246 patent/US8437482B2/en not_active Expired - Fee Related
- 2004-05-27 EP EP04776174A patent/EP1629463B1/en not_active Expired - Lifetime
- 2004-05-27 BR BRPI0410740-3A patent/BRPI0410740A/pt not_active Application Discontinuation
- 2004-05-27 DK DK04776174T patent/DK1629463T3/da active
- 2004-05-27 MX MXPA05012785A patent/MXPA05012785A/es active IP Right Grant
- 2004-05-27 DE DE602004008455T patent/DE602004008455T2/de not_active Expired - Lifetime
- 2004-05-27 PL PL04776174T patent/PL1629463T3/pl unknown
-
2005
- 2005-11-22 IL IL172108A patent/IL172108A/en unknown
-
2006
- 2006-03-30 HK HK06103946A patent/HK1083918A1/xx not_active IP Right Cessation
-
2007
- 2007-10-04 HK HK07110764.6A patent/HK1105711A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP1629463A2 (en) | 2006-03-01 |
EP1629463B1 (en) | 2007-08-22 |
JP2007503796A (ja) | 2007-02-22 |
AU2004248544A1 (en) | 2004-12-23 |
IL172108A (en) | 2010-11-30 |
WO2004111994A2 (en) | 2004-12-23 |
KR20060013400A (ko) | 2006-02-09 |
CN1795490A (zh) | 2006-06-28 |
MXPA05012785A (es) | 2006-02-22 |
SG185134A1 (en) | 2012-11-29 |
DK1629463T3 (da) | 2007-12-10 |
IN2010KN02913A (es) | 2015-05-01 |
HK1083918A1 (en) | 2006-07-14 |
DE602004008455D1 (de) | 2007-10-04 |
WO2004111994A3 (en) | 2005-08-11 |
US8437482B2 (en) | 2013-05-07 |
US20070092089A1 (en) | 2007-04-26 |
JP4486646B2 (ja) | 2010-06-23 |
CA2525942A1 (en) | 2004-12-23 |
AU2004248544B2 (en) | 2010-02-18 |
KR101164937B1 (ko) | 2012-07-12 |
CA2525942C (en) | 2015-04-07 |
ATE371246T1 (de) | 2007-09-15 |
BRPI0410740A (pt) | 2006-06-27 |
PL1629463T3 (pl) | 2008-01-31 |
CN101819771A (zh) | 2010-09-01 |
DE602004008455T2 (de) | 2008-05-21 |
HK1105711A1 (en) | 2008-02-22 |
CN101819771B (zh) | 2012-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2290764T3 (es) | Metodo, aparato y programa de ordenador para calcular y ajustar la sonoridad percibida de una señal de audio. | |
US20210021247A1 (en) | Methods and Apparatus for Adjusting a Level of an Audio Signal | |
ES2400160T3 (es) | Control de una característica percibida del volumen sonoro de una señal de audio | |
US8199933B2 (en) | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal | |
AU2008266847B2 (en) | Loudness measurement with spectral modifications | |
EP1835487B1 (en) | Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal |