MX2010011305A - Metodo y aparato para mantener la audibilidad del habla en audio con multiples canales con un impacto minimo en la experiencia envolvente. - Google Patents

Metodo y aparato para mantener la audibilidad del habla en audio con multiples canales con un impacto minimo en la experiencia envolvente.

Info

Publication number
MX2010011305A
MX2010011305A MX2010011305A MX2010011305A MX2010011305A MX 2010011305 A MX2010011305 A MX 2010011305A MX 2010011305 A MX2010011305 A MX 2010011305A MX 2010011305 A MX2010011305 A MX 2010011305A MX 2010011305 A MX2010011305 A MX 2010011305A
Authority
MX
Mexico
Prior art keywords
speech
channel
characteristic
attenuation factor
signal
Prior art date
Application number
MX2010011305A
Other languages
English (en)
Inventor
Hannes Muesch
Original Assignee
Dolby Lab Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Lab Licensing Corp filed Critical Dolby Lab Licensing Corp
Publication of MX2010011305A publication Critical patent/MX2010011305A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/041Adaptation of stereophonic signal reproduction for the hearing impaired

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

En una modalidad, la presente invención incluye un método para mejorar la audibilidad del habla en una señal de audio con múltiples canales. El método incluye comparar una primera característica y una segunda característica de la señal de audio con múltiples canales, para generar un factor de atenuación. La primera característica corresponde a un primer canal de la señal de audio con múltiples canales que contiene audio de habla y que no es del habla, y la segunda característica corresponde a un segundo canal de la señal de audio con múltiples canales que contiene de manera predominante audio que no es del habla. El método incluye además, ajustar el factor de atenuación de acuerdo a un valor de probabilidad del habla para generar un factor de atenuación ajustado. El método incluye además, atenuar el segundo canal utilizando el factor de atenuación ajustado.

Description

MÉTODO Y APARATO PARA MANTENER LA AUDIBILIDAD DEL HABLA EN AUDIO CON MÚLTIPLES CANALES CON UN IMPACTO MÍNIMO EN LA EXPERIENCIA ENVOLVENTE REFERENCIA CRUZADA A LAS SOLICITUDES RELACIONADAS Esta solicitud reclama el beneficio de prioridad de la Solicitud de Patente Provisional de los Estados Unidos No. 61/046,271, presentada en Abril 18 del 2008, incorporada en la presente como referencia en su totalidad.
ANTECEDENTES DE LA INVENCIÓN La invención se relaciona con el procesamiento de una señal de audio en general y con mejorar la claridad del diálogo y la narrativa en un audio de entretenimiento envolvente en particular.
A menos · que se indique de otra manera en la presente, los enfoques descritos en esta sección no son de la técnica anterior para las reivindicaciones en esta solicitud y no se admiten como que son la técnica anterior mediante la inclusión en esta sección.
.El audio de entretenimiento moderno con múltiples canales de audio simultáneos (sonido envolvente) proporciona a las audiencias medios de sonido de inmersión, realista, de un inmenso valor de entretenimiento. En tales medios, muchos elementos de sonido, tales como diálogo, música y efectos se presentan de manera simultánea y compiten por la atención del oyente. Para algunos miembros de la audiencia, especialmente aquéllos con capacidades sensoriales auditivas disminuidas o procesamiento cognoscitivo lento, el diálogo y la narrativa pueden ser difíciles de entender durante las partes del programa en donde los elementos de sonido fuertes que compiten están presentes. Durantes esos pasajes, estos oyentes se beneficiarían si el nivel de los sonidos que compiten se bajara.
El reconocimiento de que la música y los efectos pueden dominar el diálogo no es nuevo y se han sugerido varios métodos para remediar la situación. Sin embargo, como se expondrá a continuación, los métodos sugeridos son ya sea incompatible con la práctica de transmisión actual, ejercen una cuota innecesariamente alta en la experiencia de entretenimiento total o ambos.
Es una convención seguida ¦ comúnmente en la producción del audio envolvente para películas y televisión, colocar la mayoría del diálogo y la narrativa en un solo canal (el canal central, también referido como el canal del habla) . La música, los sonidos ambientales y los efectos de sonido se mezclan típicamente en el canal del habla y todos los canales restantes (por ejemplo, Izquierdo [L] , Derecho [R] , Envolvente Izquierdo [ls] y Envolvente Derecho [rs] , también referidos como los canales que no son del habla) . Como resultado, el canal del habla porta la mayoría del habla y una cantidad significativa del audio que no es de habla contenido en el programa de audio, mientras que los canales que no son del habla portan de manera predominante audio que no es del habla, pero también pueden portar una pequeña cantidad de habla. Un enfoque simple para ayudar en la percepción del diálogo y la narrativa en estas mezclas convencionales es reducir de manera permanente el nivel de todos los canales que no son del habla con relación al nivel del canal del habla, por ejemplo, por 6 dB. Este enfoque es simple y efectivo y se practica en la actualidad (por ejemplo Claridad del Diálogo SRS [Sistema de Recuperación del Sonido] o ecuaciones de mezcla descendente en los decodificadores envolventes) . Sin embargo, sufre de al menos una desventaja, que la atenuación constante de los canales que no son del habla puede disminuir el nivel de los sonidos ambientales tranquilos que no interfieren con la recepción del habla al punto en donde ya no pueden oírse más. Al atenuar los sonidos ambientales no interfirientes, el equilibrio estético del programa se altera, sin ningún beneficio acompañante para el entendimiento del habla.
Una solución alterna se describe en una serie de Patentes (Patente de los Estados Unidos No. 7,266,501, Patente de los Estados Unidos No. 6, 772,127, Patente de los Estados Unidos No. 6,912,501 y Patente de los Estados Unidos No. 6,650,755) de Vaudrey y Saunders. Como se entiende, su enfoque involucra modificar la producción y distribución del contenido. De acuerdo con ese arreglo, el consumidor recibe dos señales de audio separadas. La primera de estas señales comprende el audio del "Contenido Primario". En muchos casos, esta señal será dominada por el habla, pero si el productor del contenido lo desea, puede contener otros tipos de señal, también. La segunda señal comprende el audio del "Contenido Secundario", que está compuesto de todos los elementos de sonido restantes. Se le da control al usuario sobre los niveles relativos de estas dos señales, ya sea ajustando manualmente el nivel de cada señal o manteniendo de manera automática una relación de potencia seleccionada por el usuario. Aunque este arreglo puede limitar la atenuación innecesaria de los sonidos ambientales no interfirientes, su uso extendido está impedido por su incompatibilidad con los métodos de producción y distribución establecidos.
Otro ejemplo de un método para manejar los niveles relativos del audio de habla y que. no es del habla se ha propuesto por Bennett en la Publicación de la Solicitud de los Estados Unidos No. 20070027682.
Todos los ejemplos de la técnica antecedente comparten la limitación de no proporcionar ningún medio para reducir al mínimo el efecto que la mejora del diálogo tiene en la experiencia de escuchar pretendida por el creador del contenido, entre otras deficiencias. Por lo tanto, es un objeto de la presente invención, proporcionar un medio para limitár el nivel de los canales de audio que no son del habla en un programa de entretenimiento con múltiples canales mezclado de manera convencional, de manera que el habla permanece comprensible, mientras que también se mantiene la audibilidad de los componentes del audio que no son del habla.
Así, existe la necesidad de maneras mejoradas de mantener la audibilidad del habla. La presente invención soluciona éstos y otros problemas, proporcionando un aparato y un método para mejorar la audibilidad del habla en una señal de audio con múltiples canales.
SUMARIO DE LA INVENCIÓN Las modalidades de la presente invención mejoran la audibilidad del habla. En una modalidad, la presente invención incluye un método para mejorar la audibilidad del habla en una señal de audio con múltiples canales. El método incluye comparar una primera característica y una segunda característica de la señal de audio con múltiples canales, para generar un factor de atenuación. La primera característica corresponde a un primer canal de la señal de audio con múltiples canales que contiene habla y audio que no es del habla, y la segunda característica corresponde a un segundo canal de la señal de audio con múltiples canales que contiene predominantemente audio que no es del habla. ¦ El método incluye además, ajustar el factor de atenuación de acuerdo con un valor de probabilidad del habla para generar un factor de atenuación ajustado. El método incluye además, atenuar el segundo canal utilizando el factor de atenuación ajustado .
Un primer aspecto de la invención se basa en la observación de que el canal del habla de un programa de entretenimiento típico porta una señal que no es del habla durante una porción sustancial de la duración del programa. En consecuencia, de acuerdo con este primer aspecto de la invención, el enmascaramiento del audio del habla por el audio que no es del habla, puede controlarse (a) determinando la atenuación de una señal en un canal que no es del habla, necesaria para limitar la relación de la potencia de la señal en el canal que no es del habla a la potencia de la señal en el canal del habla, para no exceder un umbral predeterminado y (b) desmultiplicar la atenuación por un factor que está relacionado monotónicamente con la probabilidad de que la señal en el canal del habla sea habla, y (c) aplicar la atenuación desmultiplicada.
Un . segundo aspecto de la invención se basa en la observación de que la relación entre la potencia de la señal del habla y la potencia de la señal de enmascaramiento es un predictor deficiente de la inteligibilidad del habla. En consecuencia, de acuerdo con este segundo aspecto de la invención, la atenuación de la señal en el canal que no es del habla, que es necesaria para mantener un nivel predeterminado de inteligibilidad, se calcula prediciendo la inteligibilidad de la señal del habla en la presencia de la señales que no son del habla, con un modelo de predicción de la inteligibilidad basado de manera psicoacústica .
Un tercer aspecto de la invención se basa en las observaciones de qué si se deja que la atenuación varíe a través de la frecuencia, (a) puede lograrse un nivel dado de inteligibilidad con una variedad de patrones de atenuación, y (b) diferentes patrones de atenuación pueden proporcionar diferentes niveles de volumen o prominencia del audio que no es del habla. En consecuencia, de acuerdo con este tercer aspecto de la invención, el enmascaramiento del audio del habla por el audio que no es del habla, es controlado encontrando el patrón de atenuación que maximiza el volumen o algún otra medida de la prominencia del audio que no es del habla, bajo la restricción de que se alcance un nivel predeterminado de la inteligibilidad del habla predicha.
Las modalidades de la presente invención pueden realizarse como un método o un proceso. Los métodos pueden implementarse mediante circuiteria electrónica, como elementos físicos o elementos de programación o una combinación de los mismos. La circuiteria utilizada para implementar el proceso puede ser una circuiteria dedicada (que realiza sólo una tarea específica) o una circuiteria general (que está programada para realizar una o más tareas específicas) .
La siguiente descripción detallada y los dibujos acompañantes proporcionan un mejor entendimiento de la naturaleza y las ventajas de la presente invención.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La Figura 1 ilustra un procesador de la señal de acuerdo con una modalidad de la presente invención.
La Figura 2 ilustra un procesador de la señal de acuerdo con otra modalidad de la presente invención.
La Figura 3 ilustra un procesador de la señal de acuerdo con otra modalidad de la presente invención.
Las Figuras 4A-4B son diagramas de bloques que ilustran variaciones adicionales de las modalidades de las Figuras 1-3.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN Se describen en la presente técnicas para mantener la audibilidad del habla. En la siguiente descripción, para propósitos de explicación, se exponen numerosos ejemplos y detalles específicos, con el fin de proporcionar un entendimiento completo de la presente invención. Será evidente, sin embargo, para alguien con experiencia en la técnica, que la presente invención, como se define en las reivindicaciones, puede incluir algunas o todas de las características en estos ejemplos, solas o en combinación con otras características descritas a continuación, y puede incluir modificaciones y equivalentes de las características y conceptos descritos en la presente.
Varios métodos y procesos se describen a continuación. Que estén descritos en un cierto orden es principalmente para facilidad de la presentación. Se entenderá que los pasos particulares pueden realizarse en otros órdenes o en paralelo, conforme se desee, de acuerdo con varias implementaciones . Guando un paso particular debe preceder o seguir a otro, se indicará de manera específica cuando no sea evidente del contexto.
El principio del primer aspecto de la invención se ilustra en la Figura 1. Refiriéndose ahora a la Figura 1, se recibe una señal en múltiples canales que consiste de un canal del habla (101) y dos canales que no son del habla (102 y 103). La potencia de las señales en cada uno de estos canales se mide con un banco de estimadores de la potencia (104, 105 y 106) y se expresa en una escala logarítmica [dB] . Estos estimadores de la potencia pueden contener un mecanismo estabilizador, tal como un · integrador con derivación, de manera que el nivel de potencia medido refleja el nivel de potencia promediado en la duración de una oración o un pasaje entero. El nivel de potencia de ,1a señal en el canal del habla se sustrae del nivel de potencia en cada uno de los canales que no son del habla (por los sumadores 107 y 108), para proporcionar una medida de la diferencia del nivel de potencia entre los dos tipos de señal. El circuito de comparación 109 determina para cada canal que no es del habla, el número de dB por los cuales el canal que no es del habla debe atenuarse, con el fin de que su nivel de potencia permanezca al menos ? dB por debajo del nivel de potencia de la señal en el canal del habla. (El símbolo "?" denota una variable y también puede referirse como a una theta con caligrafía) . De acuerdo a una modalidad, una implementación de esto se agrega al valor del umbral ß (almacenado por el circuito 110) al diferencia del nivel de potencia (este resultado intermedio se refiere como el margen) y limita el resultado para que sea igual o menor que (por los limitadores 111 y 112) . El resultado es la ganancia (o atenuación negada) en dB, que debe aplicarse a los canales que no son del habla, para mantener su nivel de potencia 0 dB por debajo del nivel de potencia del canal del habla. Un valor adecuado para ? es 15 dB. El valor de ? puede ajustarse como se desee en otras modalidades.
Debido a que hay una relación única entre una medida expresada en una escala logarítmica (dB) y la misma medida expresada en una escala lineal, un circuito que es equivalente a la Figura 1 puede construirse, en donde la potencia, ganancia y umbral se expresan todos en una escala lineal. En esa implementación, todas las diferencias del nivel se reemplazan por las relaciones de las medidas lineales. Las, implementaciones alternativas pueden reemplazar la medida de la potencia con las medidas que se relacionan con la fuerza de la señal, tal como el valor absoluto de la señal.
Una característica notable del primer aspecto de la invención es desmultiplicar la ganancia así derivada por un valor relacionado monotónicamente con la probabilidad de que la señal en el canal del habla sea de hecho, habla. Todavía refiriéndose a la Figura 1, una señal de control (113) se recibe y multiplica por las ganancias (por los multiplicadores 114 y 115) . Las ganancias desmultiplicadas se aplican entonces a los canales que no son del habla correspondientes (por los amplificadores 116 y 117) para proporcionar las señales modificadas L' y R' (118 y 119). La señal de control (113) típicamente, será una medida derivada de manera automática de la probabilidad de que la señal en el canal del habla sea habla. Pueden utilizarse varios métodos para determinar de manera automática la probabilidad de que una señal sea una señal del habla. De acuerdo con una modalidad, un procesador de la probabilidad del habla 130 genera el valor de probabilidad del habla p (113) de la información en el canal C 101. Un ejemplo de tal mecanismo se describe por Robinson y Vinton en "Automated Speech/Other Discrimination for Loudness Monitoring" (Sociedad de Ingeniería del Audio, número preimpreso 6437 de la Convención 118, Mayo del 2005) . De manera alterna, la señal de control (113) puede crearse manualmente, por ejemplo, por el creador del contenido y transmitirse a junto con la señal de audio al usuario final.
Aquellos con experiencia en la técnica reconocerán fácilmente cómo puede extenderse el arreglo a cualquier número de canales de entrada.
El principio del segundo aspecto de la invención se ilustra en la Figura 2. Refiriéndose ahora a la Figura 2, se recibe una señal en múltiples canales, que consisten de un. canal del habla (101) y. dos canales que no son del habla (102 y 103). La potencia de las señales en cada uno de estos canales se mide con un banco de estimadores de 'la potencia (201, 202 y 203). A 'diferencia de sus contrapartes en la Figura 1, estos estimadores de la potencia miden la distribución de la potencia de la señal a través de la frecuencia, resultando en un espectro de la potencia, más que en un solo número. La resolución espectral del espectro de la potencia, corresponde idealmente con la resolución espectral del modelo de predicción de la inteligibilidad (205 y 206, aún no discutido) .
Los espectros de la potencia se alimentan en el circuito de comparación 204. El propósito de este bloque es determinar la atenuación á ser aplicada a cada canal que no es del habla, para asegurar que la señal en el canal que no es del habla, no reduce . la inteligibilidad de la señal en el canal del habla, para que sea menos que un criterio predeterminado. Esta funcionalidad se logra empleando un circuito de predicción de la inteligibilidad (205 y 206) , que predice la inteligibilidad del habla de los espectros de la potencia de la señal del habla (201) y las señales que no. son del habla (202 y 203) . Los circuitos de predicción de la inteligibilidad 205 y 206 pueden implementar un modelo de predicción de la inteligibilidad adecuado, de acuerdo con las elecciones y concesiones del diseño. Los ejemplos son el índice de Inteligibilidad del Habla, como se especifica en ANSI S3.5-1997 ("Methods for . Calculation of the Speech Intelligibility Index") y el modelo de Sensibilidad del Reconocimiento del Habla de Muesch y Buus ("Using statistical decisión theory to predict speech intelligibily . I. Model structure" Revista de la Sociedad Acústica de América (Journal of the Acoustical Society of America) , 2001, Volumen 109, p 2896-2909) . Está claro que el resultado del modelo de predicción de la inteligibilidad no tiene significado cuando la señal en el canal del habla es algo más que habla. A pesar de esto, en lo que sigue, la salida del modelo de predicción de la inteligibilidad será referida como la inteligibilidad del habla predicha. El error percibido será tomado en cuenta para el procesamiento posterior, desmultiplicando la salida de los valores de la ganancia del circuito de comparación 204 con un parámetro que está relacionado con la probabilidad de que la sea habla (113, aún no discutido) .
Los modelos de predicción de la inteligibilidad tienen en común que predicen la inteligibilidad del habla incrementada o no cambiada, como resultado de disminuir el nivel de la señal que no es del habla. Continuando con el flujo del proceso de la Figura 2, los circuitos de comparación 207 y 208 comparan la inteligibilidad predicha con un valor del criterio. Si el nivel de la señal que no es del habla es bajo, de manera que la inteligibilidad predicha excede del criterio, el parámetro de ganancia, que se inicializa para ser 0 dB, se recupera del circuito 209 ó 210 y se proporciona a los circuitos 211 y 212 como la salida del circuito de comparación 204. Si el criterio no se cumple, el parámetro de ganancia se disminuye por una cantidad fija y la predicción de la inteligibilidad se repite. Un tamaño de paso adecuado para disminuir la ganancia es de 1 dB. La iteración como se acaba de describir continúa hasta que la inteligibilidad predicha cumple o excede el valor del criterio. Por supuesto, es posible que la señal en el canal del habla sea tal que el criterio de inteligibilidad jo puede alcanzarse, incluso en la ausencia de' una señal en el canal que no es del habla. Un ejemplo de tal situación es una señal del habla de un nivel muy bajo o con un ancho de banda severamente restringido. Si eso pasa, se alcanzará un punto en donde cualquier reducción adicional de la ganancia, aplicada al canal que no es del habla, no afecta la inteligibilidad del habla predicha y el criterio nunca se cumple. En tal condición, el ciclo formado por (205, 206), (207, 208) y (209, 210) continúa de manera indefinida, y el lógico adicional (no mostrado) , puede aplicarse para romper el ciclo. Un ejemplo particularmente simple de tal lógico es contar el número de iteraciones y salir del ciclo una vez que se ha excedido un número predeterminado de iteraciones.
Continuando con el flujo del proceso de la Figura 2, una señal de control p (113) se recibe y se multiplica con las ganancias (por los multiplicadores 114 y 115) . La señal de control (113) típicamente, será una medida derivada de manera automática de la probabilidad de que la señal en el canal del .habla sea habla. Los métodos para determinar de manera automática la probabilidad de que una señal sea una señal del habla,, se conocen per se y se discutieron en el contexto de la Figura 1 (véase el procesador de la probabilidad del habla 130) . Las ganancias desmultiplicadas se aplican a continuación a sus canales que no son del habla correspondientes (por los amplificadores 116 y 117), para proporcionar las señales modificadas R' y L' (118 y 119).
El principio del tercer aspecto de la invención se ilustra en la Figura 3. Refiriéndose ahora la Figura 3, se recibe una señal en múltiples canales, que consisten de un canal del habla (101) y dos canales que no son del habla (102 y 103) . Cada una de las tres señales se divide en sus componentes espectrales (por los bancos de filtro 301, 302 y 303) . El análisis espectral puede lograrse con un banco de filtros de N canales de tiempo-dominio. De acuerdo con una modalidad, el banco de filtros divide el intervalo de la frecuencia en bandas de 1/3-octava o se parece a la filtración que se supone que ocurre en el oído interno humano. El hecho de que la señal consista ahora de N subseñales, se ilustra mediante el uso de líneas gruesas. El proceso de la Figura 3 puede reconocerse como un proceso de ramificación lateral. Siguiendo la trayectoria de la señal, las N subseñales que forman los canales que no son del habla, son desmultiplicadas cada una por un miembro de un conjunto de N valores de ganancia (por los amplificadores 116 y 117). La derivación de estos valores de ganancia se describirá posteriormente. A continuación, las subseñales desmultiplicadas se recombinan en una sola señal de audio. Esto puede hacerse vía la suma simple (por los circuitos de suma 313 y 314). De manera alterna, puede utilizarse un banco de filtros de síntesis, que corresponde con el banco de filtros de análisis. Este proceso resulta en las señales que no son del habla modificadas R' y L' (118 y 119) .
Describiendo ahora la trayectoria de ramificación lateral del proceso de la Figura 3, cada salida del banco de filtros se hace disponible para un banco correspondiente de N estimadores de la potencia (304, 305 y 306) . Los espectros ¦ de la potencia resultantes sirven como entradas para un circuito de optimización (307 y 308) que tiene como salida un vector de ganancia N dimensional. La optimización emplea tanto un circuito de predicción de la inteligibilidad (309 y 310) como un circuito de cálculo del volumen (311 y 312), para encontrar el vector de ganancia que maximiza el volumen del canal que no es del habla, mientras que mantiene un nivel predeterminado de inteligibilidad predicha de la señal del habla. Los modelos adecuados para predecir la inteligibilidad se han discutido con relación a la Figura 2.
Los circuitos de cálculo del volumen 311 y 312 pueden implementar un modelo de predicción del volumen adecuado, de acuerdo con las elecciones y concesiones del diseño. Los ejemplos de los modelos adecuados son el Estándar Nacional Americano ANSI S3 4-2007 "Procedimiento para el Cálculo del Volumen de los Sonidos Constantes" y el estándar alemán DIN 45631 "Berechnung des Lautstarkepegels und der Lautheit aus dem Gerauschspektrum" .
Dependiendo de los recursos computacionales disponibles y las restricciones impuestas, la forma y complejidad de los circuitos de optimización (307, 308) pueden varían en gran medida. De acuerdo con una modalidad, se utiliza una optimización restringida multidimensiional, iterativa de N parámetros libres. Cada parámetro representa la ganancia aplicada a una de las bandas de la frecuencia del canal que no es del habla. Las técnicas estándar, tales como seguir el gradiente más pronunciado en el espacio de búsqueda N dimensional, pueden aplicarse para encontrar el máximo. En otra modalidad, un enfoque menos exigente computacionalmente, restringe las funciones de ganancia vs frecuencia para que sean miembros de un pequeño conjunto de posibles funciones de ganancia vs frecuencia, tal como un conjunto de diferentes gradientes espectrales o filtros de repisa. Con esta astricción adicional, el problema de la optimización puede reducirse a un número pequeño de optimizaciones unidimensionales. En aún otra modalidad, se hace una búsqueda exhaustiva sobre un conjunto muy pequeño de posibles funciones de ganancia. Este último enfoque puede ser particularmente deseable en las aplicaciones - en tiempo real en donde se desea una carga y velocidad de búsqueda computacionales constantes.
Aquéllos con experiencia en la técnica reconocerán fácilmente las restricciones adicionales que puéden imponerse en la optimización, de acuerdo con las modalidades adicionales de la presente invención. Un ejemplo es restringir el volumen del canal qüe no es del habla modificado, para que no sea mayor que el volumen antes de la modificación. Otro ejemplo es imponer un limite en las diferencias de la ganancia entre las bandas de la frecuencia adyacentes, con' el fin de limitar el potencial para el solapamientó temporal en el banco de filtros de reconstrucción (313, 314) o reducir, la posibilidad de modificaciones objetables del timbre. Las restricciones deseables dependen de la implementación técnica del bando de filtros y de la concesión elegida entre la mejora de la inteligibilidad y la modificación del timbre. Por claridad de ilustración, estas restricciones se omiten en la Figura 3.
Continuando con el flujo del proceso de la Figura 3, una señal de control p (113) se recibe y multiplica con las funciones de ganancia (por los multiplicadores 114 y 115). La señal de control (113) será típicamente una medida derivada de manera automática de la probabilidad de que la señal en el canal del habla sea habla. Los métodos adecuados para calcular de manera automática la probabilidad de que una señal sea habla, se han discutido con relación a la Figura 1 (véase el procesador de la probabilidad del habla 130) . Las funciones de ganancia desmultiplicadas se aplican entonces a sus canales que no son del habla correspondientes (por los amplificadores 116 y 117), como se describió anteriormente.
Las Figuras 4A y 4B son diagramas de bloque que ilustran las variaciones de los aspectos mostrados en las Figuras 1-3. Además, aquellos con experiencia en la técnica reconocerán varias maneras para combinar los elementos de la invención descrita en las Figuras 1 hasta 3.
La Figura 4A muestra que el arreglo de la Figura 1 también puede aplicarse a una o más subbandas de la frecuencia de L, C y R. De manera específica, las señales L, C y R pueden pasarse cada una a través de un banco de filtros (441, 442 y 443), proporcionando tres conjuntos de n subbandas: {Li, L2,..., Ln}, {Ci, C2, C„}, y {Rx, R2, Rn} .
Las subbandas coincidentes se pasan a n casos del circuito 125 ilustrado en la Figura 1, y las subseñales procesadas se combinan (por los circuitos de suma 451 y 452) . Un valor del umbral $n separado puede seleccionarse de cada subbanda. Una buena elección es un conjunto en donde ?? es proporcional a un número promedio de claves del habla portadas en la región de la frecuencia correspondiente; es decir, bandas en donde a los extremos del espectro de la frecuencia se le asignan umbrales menores que las bandas que corresponden a las frecuencias del habla dominantes. Esta implementación de la invención ofrece una buena concesión entre la complejidad y el desempeño computacional.
La Figura 4B muestra otra variación. Por ejemplo, para reducir la carga computacional, una señal típica de un sonido envolvente con cinco canales (C, L, R, ls y rs) puede mejorarse procesando las señales L ' y R de acuerdo con el circuito 325 mostrado en la Figura 3, y las señales ls y rs, que son típicamente menos potentes que las señales L y R, de acuerdo con el circuito 125 mostrado en la Figura 1.
En la descripción anterior, se utilizan los términos "habla" (o audio del habla o canal del habla o señal del habla) y "que no es del habla" (o audio que no es del habla o canal que no es del habla o señal que no es del habla) . Una persona con experiencia reconocerá que estos términos se utilizan más para diferenciar uno de otro y menos para que sean descriptores absolutos del contenido de los canales. Por ejemplo, en una escena en un restaurante en una película, el canal del habla puede contener de manera predominante el diálogo en una mesa y los canales que no son del habla pueden contener el diálogo' en otras mesas (por lo tanto, ambos contienen "habla" como utiliza el término una persona no profesional) . Por lo tanto, es al diálogo en otras mesas hacia lo que están dirigidas ciertas modalidades de la presente invención para atenuar.
· Implementación La invención puede implementarse en los elementos físicos o los elementos de programación, o en una combinación de ambos (por ejemplo, arreglos lógicos programables ) . A menos que se especifique de otra manera, los algoritmos incluidos como parte de la invención no están relacionados de manera inherente a ninguna computadora particular u otro aparato. En particular, pueden utilizarse varias máquinas de propósito general con programas escritos, de acuerdo con las enseñanzas de la presente, o puede ser más conveniente construir un aparato más especializado (por ejemplo, circuitos integrados) , para realizar los pasos de métodos requeridos. Así, la invención puede implementarse en uno o más programas para computadora que ejecutan uno o más sistemas para computadora programables, cada uno que comprende al menos un procesador, al menos un sistema de almacenamiento - de datos (incluyendo elementos de memoria y/o almacenamiento volátiles y no volátiles) , al menos un dispositivo o puerto de entrada y al menos un dispositivo o puerto de salida. El código del programa se aplica a los datos de entrada para realizar las funciones descritas en la presente y generar la información de salida. La información de salida se aplica a uno o más dispositivos de salida, de una manera conocida.
Cada uno de tales programas puede implementarse en cualquier lenguaje para computadora deseado (incluyendo lenguajes de programación orientados a la máquina, al montaje, o de alto nivel del procedimiento lógico, o al objeto), para comunicarse con el sistema de computadora. En cualquier caso, el lenguaje puede ser un lenguaje recopilado o interpretado.
Cada uno de tales programas para computadora se almacena o se descarga de manera preferible a un medio o dispositivo de almacenamiento (por ejemplo, una memoria o medio en estado sólido, o un medio magnético u óptico) legible por una computadora programable para propósito general o especial, para configurar y operar la computadora cuando el medio o dispositivo de almacenamiento se lee por el sistema para computadora para realizar los procedimientos descritos en la presente. El sistema inventivo también puede considerarse como que está implementado como un medio de almacenamiento legible por computadora, configurado con un programa para computadora, en donde el medio de almacenamiento asi configurado causa que un sistema para computadora opere de una manera especifica y predefinida para 2.4 realizar las funciones descritas en la presente.
La descripción anterior ilustra varias modalidades de la presente invención, junto con los ejemplos de cómo pueden implementarse los aspectos de la presente invención. , Los ejemplos y modalidades anteriores no deben considerarse como las únicas modalidades, y se presentan para ilustrar la flexibilidad y las ventajas de la presente invención, como se défine por las siguientes reivindicaciones. Basándose en la descripción anterior y en las siguientes reivindicaciones, otros arreglos, modalidades, implementaciones y equivalentes serán evidentes para aquellos con experiencia en la técnica, y pueden emplearse sin apartarse del espíritu y alcance de la invención, como se define por las reivindicaciones.

Claims (14)

REIVINDICACIONES
1. Un método para mejorar la audibilidad del habla en una señal de audio con múltiples canales, que comprende: comparar una primera característica y una segunda característica de la señal de audio con múltiples canales para generar un factor de atenuación, en donde la primera característica corresponde a un primer canal de la señal de audio con múltiples canales, que contiene audio del habla y audio que no es del habla, en donde la primera característica corresponde a una primera medida que se relaciona con la fuerza de una señal en el primer canal, en donde la segunda característica corresponde a un segundo canal de la señal de audio con múltiples canales que contiene de manera predominante el audio que rio es del habla y en donde la segunda característica corresponde a una segunda medida que se relaciona con la fuerza de la señal en el segundo canal; que incluye: determinar una diferencia entre la primera medida y la segunda medida, y calcular el factor de atenuación basado en la diferencia entre la primera medida y la segunda medida y un valor del umbral; ajusfar el factor de atenuación de acuerdo con un valor de probabilidad del habla para generar un factor de atenuación ajustado; y atenuar el segundo canal utilizando el factor de atenuación ajustado.
2. El método de conformidad con la reivindicación 1, caracterizado porque comprende además: procesar la señal de audio con múltiples canales ¦ para generar la primera característica y la segunda característica.
3. El método de conformidad con cualquier reivindicación anterior, caracterizado porque comprende además : procesar el primer canal para generar el valor de probabilidad del habla.
. El método de conformidad con cualquier reivindicación anterior, caracterizado porque el segundo canal es uno de una pluralidad de segundos canales, en donde la segunda característica es una de una pluralidad de segundas características, en donde el factor de atenuación es uno de una pluralidad de factores de atenuación, y en donde el factor de atenuación ajustado es uno de una pluralidad de factores de ' atenuación ajustados, que comprende además: comparar la primera característica y la pluralidad de segundas características para generar la pluralidad de factores de atenuación; ajustar la pluralidad de factores de atenuación de acuerdo con el valor de probabilidad del habla, para generar la pluralidad de factores de atenuación ajustados; y atenuar la pluralidad de segundos canales utilizando' la pluralidad de factores de atenuación ajustados.
5. El método de conformidad con cualquiera de las reivindicaciones 1 a 3, caracterizado porque la señal de audio con múltiples canales incluye un tercer canal que contiene de manera predominante el audio que no es del habla, que comprende además: comparar la primera característica y una tercera característica para generar un factor de atenuación adicional, en donde la tercera característica corresponde al tercer canal; ajustar el factor de atenuación adicional de acuerdo con el valor de probabilidad del habla, para generar un factor de atenuación ajustado adicional; y atenuar el tercer canal utilizando el factor de atenuación ajustado.
6. El método de conformidad con cualquier reivindicación anterior, caracterizado porque la primera medida es un primer nivel de potencia de la señal en el primer canal, en donde la segunda medida es un segundo nivel de potencia de la señal en el segundo canal, y en donde la diferencia es una diferencia entre el primer nivel de potencia y el segundo nivel de potencia.
7. El método de conformidad con cualquiera de las reivindicaciones 1 a 5, caracterizado porque la primera medida es una primera potencia de la señal en el primer canal, en donde la segunda medida es una segunda potencia de la señal en el segundo canal, y en donde la diferencia es una relación entre la primera potencia y la segunda potencia.
8·. Un aparato que incluye un circuito para mejorar la audibilidad . del habla en una señal de audio con múltiples canales, que comprende: un circuito de comparación que está configurado para comparar una primera característica y una segunda característica de la señal de audio con múltiples canales, para generar un factor de atenuación, en donde la primera característica corresponde a un primer canal de la señal de audio con múltiples canales que contiene audio del habla y audio que no es del habla, en donde la primera característica corresponde a una primera medida que se relaciona con la fuerza de una señal en el primer canal, en donde la segunda característica corresponde a un segundo canal de la señal de audio con múltiples canales que contiene de manera predominante el audio que no es del habla y en donde la segunda característica corresponde a una segunda medida que está relacionada con la fuerza de una señal en el segundo canal, en donde el circuito de comparación está configurado: para determinar una diferencia entre la primera medida y la segunda medida, y para calcular el factor de atenuación basado en la diferencia entre la primera medida y la segunda medida y un valor del umbral, un multiplicador que ajusta el factor de atenuación de acuerdo con un valor de probabilidad del habla, para generar un factor de atenuación ajustado; y un amplificador que atenúa el segundo canal utilizando el factor de atenuación ajustado.
9. El aparato de conformidad con la reivindicación 8, caracterizado porque la primera característica corresponde a un primer nivel de potencia y en donde la segunda característica corresponde a un segundo nivel de¦ potencia, y en donde el circuito de comparación comprende : un primer sumador que está configurado para sustraer el primer nivel de potencia del segundo nivel de potencia, para generar una diferencia en el nivel de potencia; un segundo sumador que está configurado para sumar la diferencia del nivel de potencia y un valor del umbral para generar un margen; y un limitador del circuito que calcula el factor de atenuación como mayor de uno del margen y cero.
10. El aparato de conformidad con la reivindicación 8, caracterizado porque la primera característica corresponde a un primer nivel de potencia, y en donde la segunda característica corresponde a un segundo nivel de potencia, que comprende además: un primer estimador de la potencia, que está configurado para calcular el primer nivel de potencia del primer canal, y un segundo estimador de la potencia, que está configurado para calcular el segundo nivel de potencia del segundo canal. - .
11. El aparato de conformidad con cualquiera de las reivindicaciones 8' a 10, caracterizado porque comprende además: un procesador para la determinación del habla, que está configurado para procesar el primer canal para generar un valor de probabilidad del habla.
12. Un programa para computadora, incorporado en un medio de registro tangible, para mejorar la audibilidad del habla en una señal de audio con múltiples canales, el programa para computadora controla un dispositivo para ejecutar el procesamiento, que comprende: comparar una primera característica y una segunda característica de la señal de audio con múltiples canales para generar un factor de atenuación, en donde la primera característica corresponde al primer canal de la señal de audio con múltiples canales que contiene audio del habla ' y audio que no es del habla, en donde la primera característica corresponde a una primera medida que está relacionada con la fuerza de una señal en el primer, en donde la segunda característica corresponde a un segundo canal de la señal de audio con múltiples canales, que contiene de manera predominante el audio que no es del habla y en donde' la segunda característica corresponde a una segunda medida que se relaciona con la fuerza de una señal en el segundo canal; que incluye : determinar una diferencia entre la primera medida y la segunda . medida, y calcular el factor de atenuación basado en la diferencia entre la primera medida y la segunda medida y un valor del umbral; ajusfar el factor de atenuación de acuerdo con un valor de probabilidad del habla, para generar un factor de atenuación ajustado; y atenuar el segundo canal, utilizando el factor de atenuación ajustado.
13. Un aparato para mejorar la audibilidad del habla en una señal .de audio con , múltiples canales, que comprende: medios para comparar una primera característica y una segunda característica de la señal de audio con múltiples canales, para generar un factor de atenuación, en donde la primera característica corresponde a un primer canal de la señal de audio con múltiples canales que contiene audio del habla y audio que no es del habla, en donde la primera característica corresponde a una primera medida que está relacionada con la fuerza de una señal en el primer canal, en donde la segunda característica corresponde a un segundo canal de la señal de audio con múltiples canales que contiene de manera predominante el audio que no es del habla y en donde la segunda característica corresponde a una segunda medida que está relacionada" con la fuerza de una señal en el segundo canal, que incluye: medios para determinar una diferencia entre la primera medida y la segunda medida, y medios para calcular el factor de atenuación, basado en la diferencia entre la primera medida y la segunda medida y un valor del umbral; medios para ajusfar el factor de atenuación de acuerdo con un valor de probabilidad del habla, para generar un factor de atenuación ajustado; y medios para atenuar el segundo canal, utilizando el factor de atenuación ajustado.
14. El aparato de conformidad con la reivindicación 13, caracterizado porque la primera característica corresponde a un primer nivel de potencia y en donde la segunda característica corresponde a, un segundo nivel de potencia, en donde los medios para comparar comprenden: medios para sustraer el primer nivel de potencia del segundo nivel de potencia, para generar una diferencia del nivel de potencia.
MX2010011305A 2008-04-18 2009-04-17 Metodo y aparato para mantener la audibilidad del habla en audio con multiples canales con un impacto minimo en la experiencia envolvente. MX2010011305A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US4627108P 2008-04-18 2008-04-18
PCT/US2009/040900 WO2010011377A2 (en) 2008-04-18 2009-04-17 Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience

Publications (1)

Publication Number Publication Date
MX2010011305A true MX2010011305A (es) 2010-11-12

Family

ID=41509059

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2010011305A MX2010011305A (es) 2008-04-18 2009-04-17 Metodo y aparato para mantener la audibilidad del habla en audio con multiples canales con un impacto minimo en la experiencia envolvente.

Country Status (16)

Country Link
US (1) US8577676B2 (es)
EP (2) EP2373067B1 (es)
JP (2) JP5341983B2 (es)
KR (2) KR101238731B1 (es)
CN (2) CN102137326B (es)
AU (2) AU2009274456B2 (es)
BR (2) BRPI0911456B1 (es)
CA (2) CA2720636C (es)
HK (2) HK1153304A1 (es)
IL (2) IL208436A (es)
MX (1) MX2010011305A (es)
MY (2) MY159890A (es)
RU (2) RU2467406C2 (es)
SG (1) SG189747A1 (es)
UA (2) UA101974C2 (es)
WO (1) WO2010011377A2 (es)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10848118B2 (en) 2004-08-10 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US8284955B2 (en) 2006-02-07 2012-10-09 Bongiovi Acoustics Llc System and method for digital signal processing
US10158337B2 (en) 2004-08-10 2018-12-18 Bongiovi Acoustics Llc System and method for digital signal processing
US11431312B2 (en) 2004-08-10 2022-08-30 Bongiovi Acoustics Llc System and method for digital signal processing
US11202161B2 (en) 2006-02-07 2021-12-14 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10701505B2 (en) 2006-02-07 2020-06-30 Bongiovi Acoustics Llc. System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10069471B2 (en) * 2006-02-07 2018-09-04 Bongiovi Acoustics Llc System and method for digital signal processing
EP2232700B1 (en) 2007-12-21 2014-08-13 Dts Llc System for adjusting perceived loudness of audio signals
CN102137326B (zh) * 2008-04-18 2014-03-26 杜比实验室特许公司 用于保持多通道音频中的语音可听度的方法和设备
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8774417B1 (en) * 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
RU2526746C1 (ru) * 2010-09-22 2014-08-27 Долби Лабораторис Лайсэнзин Корпорейшн Микширование аудиопотока с нормализацией диалогового уровня
JP2013114242A (ja) * 2011-12-01 2013-06-10 Yamaha Corp 音響処理装置
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
US9363603B1 (en) * 2013-02-26 2016-06-07 Xfrm Incorporated Surround audio dialog balance assessment
CN108365827B (zh) 2013-04-29 2021-10-26 杜比实验室特许公司 具有动态阈值的频带压缩
US9883318B2 (en) 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
KR101790641B1 (ko) 2013-08-28 2017-10-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
US10820883B2 (en) 2014-04-16 2020-11-03 Bongiovi Acoustics Llc Noise reduction assembly for auscultation of a body
US10639000B2 (en) 2014-04-16 2020-05-05 Bongiovi Acoustics Llc Device for wide-band auscultation
KR101559364B1 (ko) * 2014-04-17 2015-10-12 한국과학기술원 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션
CN105336341A (zh) 2014-05-26 2016-02-17 杜比实验室特许公司 增强音频信号中的语音内容的可理解性
EP3175634B1 (en) 2014-08-01 2021-01-06 Steven Jay Borne Audio device
JP6683618B2 (ja) * 2014-09-08 2020-04-22 日本放送協会 音声信号処理装置
EP3201916B1 (en) * 2014-10-01 2018-12-05 Dolby International AB Audio encoder and decoder
CN106796804B (zh) * 2014-10-02 2020-09-18 杜比国际公司 用于对话增强的解码方法和解码器
US9792952B1 (en) * 2014-10-31 2017-10-17 Kill the Cann, LLC Automated television program editing
RU2673390C1 (ru) 2014-12-12 2018-11-26 Хуавэй Текнолоджиз Ко., Лтд. Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале
CN108432130B (zh) 2015-10-28 2022-04-01 Dts(英属维尔京群岛)有限公司 基于对象的音频信号平衡
US9621994B1 (en) 2015-11-16 2017-04-11 Bongiovi Acoustics Llc Surface acoustic transducer
EP3203472A1 (en) * 2016-02-08 2017-08-09 Oticon A/s A monaural speech intelligibility predictor unit
RU2620569C1 (ru) * 2016-05-17 2017-05-26 Николай Александрович Иванов Способ измерения разборчивости речи
CN109416914B (zh) * 2016-06-24 2023-09-26 三星电子株式会社 适于噪声环境的信号处理方法和装置及使用其的终端装置
US11211043B2 (en) 2018-04-11 2021-12-28 Bongiovi Acoustics Llc Audio enhanced hearing protection system
US10959035B2 (en) 2018-08-02 2021-03-23 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
CN115699172A (zh) 2020-05-29 2023-02-03 弗劳恩霍夫应用研究促进协会 用于处理初始音频信号的方法和装置
US20220270626A1 (en) * 2021-02-22 2022-08-25 Tencent America LLC Method and apparatus in audio processing
CN115881146A (zh) * 2021-08-05 2023-03-31 哈曼国际工业有限公司 用于动态语音增强的方法及***
US20230080683A1 (en) * 2021-09-08 2023-03-16 Minus Works LLC Readily biodegradable refrigerant gel for cold packs

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5105462A (en) * 1989-08-28 1992-04-14 Qsound Ltd. Sound imaging method and apparatus
US5208860A (en) * 1988-09-02 1993-05-04 Qsound Ltd. Sound imaging method and apparatus
US5046097A (en) * 1988-09-02 1991-09-03 Qsound Ltd. Sound imaging process
US5212733A (en) * 1990-02-28 1993-05-18 Voyager Sound, Inc. Sound mixing device
DE69214882T2 (de) * 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
JP2961952B2 (ja) * 1991-06-06 1999-10-12 松下電器産業株式会社 音楽音声判別装置
JP2737491B2 (ja) * 1991-12-04 1998-04-08 松下電器産業株式会社 音楽音声処理装置
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
BE1007355A3 (nl) * 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
US5485522A (en) 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JP3560087B2 (ja) * 1995-09-13 2004-09-02 株式会社デノン 音信号処理装置およびサラウンド再生方法
EP0852052B1 (en) 1995-09-14 2001-06-13 Ericsson Inc. System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6697491B1 (en) * 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
EP1013140B1 (en) 1997-09-05 2012-12-05 Harman International Industries, Incorporated 5-2-5 matrix decoder system
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US7260231B1 (en) * 1999-05-26 2007-08-21 Donald Scott Wedge Multi-channel audio panel
US6442278B1 (en) * 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US7027981B2 (en) * 1999-11-29 2006-04-11 Bizjak Karl M System output control method and apparatus
US7277767B2 (en) * 1999-12-10 2007-10-02 Srs Labs, Inc. System and method for enhanced streaming audio
JP2001245237A (ja) * 2000-02-28 2001-09-07 Victor Co Of Japan Ltd 放送受信装置
US7266501B2 (en) * 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7076071B2 (en) * 2000-06-12 2006-07-11 Robert A. Katz Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
EP2066139A3 (en) * 2000-09-25 2010-06-23 Widex A/S A hearing aid
KR100870870B1 (ko) * 2001-04-13 2008-11-27 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호의 고품질 타임 스케일링 및 피치 스케일링
JP2002335490A (ja) * 2001-05-09 2002-11-22 Alpine Electronics Inc Dvd再生装置
CA2354755A1 (en) * 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
CN1552171A (zh) * 2001-09-06 2004-12-01 �ʼҷ����ֵ��ӹɷ����޹�˾ 音频再现设备
JP2003084790A (ja) 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
TW569551B (en) 2001-09-25 2004-01-01 Roger Wallace Dressler Method and apparatus for multichannel logic matrix decoding
GR1004186B (el) * 2002-05-21 2003-03-12 Διαχυτης ευρεως φασματος ηχου με ελεγχομενη απορροφηση χαμηλων συχνοτητων και η μεθοδος εγκαταστασης του
RU2206960C1 (ru) * 2002-06-24 2003-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ подавления шума в информационном сигнале и устройство для его осуществления
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7251337B2 (en) * 2003-04-24 2007-07-31 Dolby Laboratories Licensing Corporation Volume control in movie theaters
US7551745B2 (en) * 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
BRPI0410740A (pt) * 2003-05-28 2006-06-27 Dolby Lab Licensing Corp método, aparelho e programa de computador para calcular e ajustar o volume percebido de um sinal de áudio
US7680289B2 (en) * 2003-11-04 2010-03-16 Texas Instruments Incorporated Binaural sound localization using a formant-type cascade of resonators and anti-resonators
JP4013906B2 (ja) * 2004-02-16 2007-11-28 ヤマハ株式会社 音量制御装置
ES2294506T3 (es) * 2004-05-14 2008-04-01 Loquendo S.P.A. Reduccion de ruido para el reconocimiento automatico del habla.
JP2006072130A (ja) 2004-09-03 2006-03-16 Canon Inc 情報処理装置及び情報処理方法
US8199933B2 (en) * 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
EP1866911B1 (en) * 2005-03-30 2010-06-09 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
US7567898B2 (en) 2005-07-26 2009-07-28 Broadcom Corporation Regulation of volume of voice in conjunction with background sound
US7912232B2 (en) * 2005-09-30 2011-03-22 Aaron Master Method and apparatus for removing or isolating voice or instruments on stereo recordings
JP2007142856A (ja) * 2005-11-18 2007-06-07 Sharp Corp テレビジョン受信装置
JP2007158873A (ja) * 2005-12-07 2007-06-21 Funai Electric Co Ltd 音声補正装置
JP2007208755A (ja) * 2006-02-03 2007-08-16 Oki Electric Ind Co Ltd 3次元音声信号出力方法及びその装置並びに3次元音声信号出力プログラム
PL2002429T3 (pl) 2006-04-04 2013-03-29 Dolby Laboratories Licensing Corp Kontrola słyszalnej charakterystyki głośności sygnału audio
DE602007011594D1 (de) * 2006-04-27 2011-02-10 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
AU2007296933B2 (en) 2006-09-14 2011-09-22 Lg Electronics Inc. Dialogue enhancement techniques
EP2122828B1 (en) * 2007-01-03 2018-08-22 Dolby Laboratories Licensing Corporation Hybrid digital/analog loudness-compensating volume control
ES2391228T3 (es) * 2007-02-26 2012-11-22 Dolby Laboratories Licensing Corporation Realce de voz en audio de entretenimiento
CN102137326B (zh) * 2008-04-18 2014-03-26 杜比实验室特许公司 用于保持多通道音频中的语音可听度的方法和设备
EP2337020A1 (en) * 2009-12-18 2011-06-22 Nxp B.V. A device for and a method of processing an acoustic signal

Also Published As

Publication number Publication date
RU2010150367A (ru) 2012-06-20
CA2720636A1 (en) 2010-01-28
BRPI0923669A2 (pt) 2013-07-30
HK1153304A1 (en) 2012-03-23
EP2373067B1 (en) 2013-04-17
BRPI0923669B1 (pt) 2021-05-11
KR101238731B1 (ko) 2013-03-06
JP2011172235A (ja) 2011-09-01
AU2009274456B2 (en) 2011-08-25
EP2279509A2 (en) 2011-02-02
UA101974C2 (ru) 2013-05-27
JP2011518520A (ja) 2011-06-23
IL208436A (en) 2014-07-31
BRPI0911456B1 (pt) 2021-04-27
AU2010241387B2 (en) 2015-08-20
BRPI0911456A2 (pt) 2013-05-07
CA2745842A1 (en) 2010-01-28
UA104424C2 (uk) 2014-02-10
IL209095A (en) 2014-07-31
CN102007535A (zh) 2011-04-06
US20110054887A1 (en) 2011-03-03
CN102137326A (zh) 2011-07-27
EP2279509B1 (en) 2012-12-19
MY159890A (en) 2017-02-15
CA2745842C (en) 2014-09-23
MY179314A (en) 2020-11-04
RU2467406C2 (ru) 2012-11-20
CA2720636C (en) 2014-02-18
KR20110015558A (ko) 2011-02-16
RU2010146924A (ru) 2012-06-10
CN102137326B (zh) 2014-03-26
CN102007535B (zh) 2013-01-16
JP5341983B2 (ja) 2013-11-13
AU2009274456A1 (en) 2010-01-28
IL209095A0 (en) 2011-01-31
RU2541183C2 (ru) 2015-02-10
HK1161795A1 (en) 2012-08-03
IL208436A0 (en) 2010-12-30
US8577676B2 (en) 2013-11-05
WO2010011377A3 (en) 2010-03-25
KR20110052735A (ko) 2011-05-18
WO2010011377A2 (en) 2010-01-28
SG189747A1 (en) 2013-05-31
KR101227876B1 (ko) 2013-01-31
EP2373067A1 (en) 2011-10-05
AU2010241387A1 (en) 2010-12-02
JP5259759B2 (ja) 2013-08-07

Similar Documents

Publication Publication Date Title
US8577676B2 (en) Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US9881635B2 (en) Method and system for scaling ducking of speech-relevant channels in multi-channel audio
EP2210427B1 (en) Apparatus, method and computer program for extracting an ambient signal
US10242692B2 (en) Audio coherence enhancement by controlling time variant weighting factors for decorrelated signals
CA2959090A1 (en) A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
WO2011076284A1 (en) An apparatus

Legal Events

Date Code Title Description
FG Grant or registration