ES2358786T3

ES2358786T3 - Derivación híbrida de canales de audio de sonido envolvente combinando de manera controlable componentes de señal de sonido ambiente y con decodificación matricial.

Info

Publication number: ES2358786T3
Application number: ES08768203T
Authority: ES
Inventors: Mark Stuart Vinton; Mark Franklin Davis; Charles Quito Robinson
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2007-06-08
Filing date: 2008-06-06
Publication date: 2011-05-13
Anticipated expiration: 2028-06-06
Also published as: EP2162882A1; TW200911006A; WO2008153944A1; EP2162882B1; US20100177903A1; US9185507B2; BRPI0813334A2; JP5021809B2; CN101681625A; CN101681625B; TWI527473B; ATE493731T1; RU2422922C1; DE602008004252D1; JP2010529780A

Abstract

Método para obtener dos canales de audio de sonido envolvente a partir de dos señales de audio de entrada, en el que dichas señales de audio de entrada pueden incluir componentes generadas mediante codificación matricial, que comprende obtener (4) componentes de señal de sonido ambiente a partir de dichas señales de audio de entrada, obtener (2) componentes de señal con decodificación matricial a partir de dichas señales de audio de entrada, y combinar (14, 16) de manera controlable componentes de señal de sonido ambiente y componentes de señal con decodificación matricial para proporcionar dichos canales de audio de sonido envolvente, caracterizado porque dicha combinación de manera controlable incluye aplicar (6, 8, 10, 12) factores de escala de ganancia basándose en la correlación de dichas señales de audio de entrada.

Description

Derivación híbrida de canales de audio de sonido envolvente combinando de manera controlable componentes de señal de sonido ambiente y con decodificación matricial.

\global\parskip0.930000\baselineskip

Campo técnico

La invención se refiere al procesamiento de señales de audio. Más particularmente, se refiere a la obtención de componentes de señal de sonido ambiente a partir de señales de audio fuente, la obtención de componentes de señal con decodificación matricial a partir de las señales de audio fuente, y la combinación de manera controlable de las componentes de señal de sonido ambiente con las componentes de señal con decodificación matricial.

[1] C. Avendano y Jean-Marc Jot, "Frequency Domain Techniques for Stereo to Multichannel Upmix", 22ª conf. Int. de la AES sobre Virtual, Synthetic Entertainment Audio.

[2] E. Zwicker, H. Fastl, "Psycho-acoustics", Segunda Edición, Springer, 1990, Alemania.

[3] B. Crockett, "Improved Transient Pre-Noise Performance of Low Bit Rate Audio Coders Using Time Scaling Synthesis", Artículo nº. 6184, 117ª Conferencia de la AES, San Francisco, Oct. 2004.

[4] Solicitud de patente estadounidense n.º de serie 10/478.538, PCT presentada el 26 de febrero de 2002, publicada como US 2004/0165730 A1 el 26 de agosto de 2004, "Segmenting Audio Signals into Auditory Events", Brett G. Crockett.

[5] A. Seefeldt, M. Vinton, C. Robinson, "New Techniques in Spatial Audio Coding", Artículo nº. 6587, 119ª Conferencia de la AES, New York, Oct 2005.

[6] Solicitud de patente estadounidense n.º de serie 10/474.387, PCT presentada el 12 de febrero de 2002, publicada como US 2004/0122662 A1 el 24 de junio de 2004, "High Quality Time-Scaling and Pitch-Scaling of Audio Signals", Brett Graham Crockett.

[7] Solicitud de patente estadounidense n.º de serie 10/476.347, PCT presentada el 25 de abril de 2002, publicada como US 2004/0133423 A1 el 8 de julio de 2004, "Transient Performance of Low Bit Rate Audio Coding Systems By Reducing Pre-Noise", Brett Graham Crockett.

[8] Solicitud de patente estadounidense n.º de serie 10/478.397, PCT presentada el 22 de febrero de 2002, publicada como US 2004/0172240 A1 el 8 de julio de 2004, "comparing Audio Using Characterizations Based on Auditory Events", Brett G. Crockett et al.

[9] Solicitud de patente estadounidense n.º de serie 10/478.398, PCT presentada el 25 de febrero de 2002, publicada como US 2004/0148159 A1 el 29 de julio de 2004, "Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events", Brett G. Crockett et al.

[10] Solicitud de patente estadounidense n.º de serie 10/478.398, PCT presentada el 25 de febrero de 2002, publicada como US 2004/0148159 A1 el 29 de julio de 2004, "Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events", Brett G. Crockett et al.

[11] Solicitud de patente estadounidense n.º de serie 10/911,404, PCT presentada el 3 de agosto de 2004, publicada como US 2006/0029239 A1 el 9 de febrero de 2006, "Method for Combining Audio Signals Using Auditory Scene Analysis", Michael John Smithers.

[12] Solicitud internacional publicada según el Tratado de Cooperación en Materia de Patentes, PCT/US2006/
020882, fecha de presentación internacional 26 de mayo de 2006, designación de los Estados Unidos, publicada como WO 2006/132857 A2 y A3 el 14 de diciembre de 2006, "Channel Reconfiguration with Side Information", Alan Jeffrey Seefeldt, et al.

[13] Solicitud internacional publicada según el Tratado de Cooperación en Materia de Patentes, PCT/US2006/
028874, fecha de presentación internacional 24 de julio de 2006, designación de los Estados Unidos, publicada como WO 2007/016107 A2 el 8 de febrero de 2007, "Controlling Spatial Audio Coding Parameters as a Function of Auditory Events", Alan Jeffrey Seefeldt, et al.

[14] Solicitud internacional publicada según el Tratado de Cooperación en Materia de Patentes, PCT/US2007/
004904, fecha de presentación internacional 22 de febrero de 2007, designación de los Estados Unidos, publicada como WO 2007/106234 A1 el 20 de septiembre 2007, "Rendering Center Channel Audio", Mark Stuart Vinton.

[15] Solicitud internacional publicada según el Tratado de Cooperación en Materia de Patentes, PCT/US2007/
008313, fecha de presentación internacional 30 de marzo de 2007, designación de los Estados Unidos, publicada como WO 2007/127023 el 8 de noviembre de 2007, "Audio Gain Control Using Specific Loudness-Based Auditory Event Detection", Brett G. Crockett, et al.

\global\parskip1.000000\baselineskip

Técnica anterior

La creación de material de audio multicanal a partir de o bien material estereofónico de dos canales con codificación matricial convencional (en el que los canales a menudo se designan como "Lt" y "Rt") o bien material estereofónico de dos canales sin codificación matricial (en el que los canales a menudo se designan como "Lo" y "Ro") se mejora mediante la derivación de canales envolventes. Sin embargo, el papel de los canales envolventes para cada tipo de señal (material con codificación matricial y sin codificación matricial) es bastante diferente. Para el material sin codificación matricial, usar los canales envolventes para resaltar el ambiente del material original a menudo produce resultados agradables para el oído. Sin embargo, para el material con codificación matricial es deseable recrear o aproximar las imágenes de sonido panorámico de los canales envolventes originales. Además, es deseable proporcionar una disposición que procese automáticamente los canales envolventes de la forma más apropiada, independientemente del tipo de entrada (o bien con codificación matricial o bien sin codificación matricial), sin necesidad de que el oyente seleccione un modo de decodificación.

En la actualidad, existen muchas técnicas para el mezclado ascendente de dos canales a múltiples canales. Tales técnicas varían desde decodificadores matriciales pasivos o fijos sencillos hasta decodificadores matriciales activos así como técnicas de extracción de sonido ambiente para derivación de canal envolvente. Más recientemente, las técnicas de extracción de sonido ambiente en el dominio de frecuencia para derivar los canales envolventes (véase, por ejemplo, la referencia 1) han demostrado ser prometedoras para crear experiencias de multicanal placenteras. Sin embargo, tales técnicas no vuelven a obtener imágenes de canal envolvente a partir de material con codificación matricial (LtRt) porque están diseñadas principalmente para material sin codificación matricial (LoRo). Alternativamente, los decodificadores matriciales pasivos y activos realizan razonablemente un buen trabajo de aislamiento de imágenes panorámicas envolventes para el material con codificación matricial. Sin embargo, las técnicas de extracción de sonido ambiente proporcionan un rendimiento mejor para material sin codificación material de lo que lo hace la decodificación matricial.

Con la generación actual de mezcladores ascendentes a menudo se requiere que el oyente cambie el sistema de mezclado ascendente para seleccionar el que mejor se ajusta al material de audio de entrada. Por tanto, un objeto de la presente invención es crear señales de canal envolvente que sean agradables para el oído tanto para material con codificación matricial como sin codificación matricial sin que se requiera que un usuario cambie entre modos de decodificación de la operación.

Descripción de la invención

C. Faller, "Matrix Surround Revisited", 30ª conferencia internacional de la AES, marzo de 2007, da a conocer un método para obtener dos canales de audio de sonido envolvente a partir de dos señales de audio de entrada, en el que las señales de audio de entrada pueden incluir componentes generadas mediante codificación matricial, que comprende obtener componentes de señal de sonido ambiente a partir de las señales de audio de entrada, obtener componentes de señal con decodificación matricial a partir de las señales de audio de entrada, y combinar de manera controlable componentes de señal de sonido ambiente y componentes de señal con decodificación matricial para proporcionar los canales de audio de sonido envolvente. Según la presente invención, según la reivindicación 1, este método se caracteriza porque dicha combinación de manera controlable incluye aplicar factores de escala de ganancia basándose en la correlación de dichas señales de audio de entrada.

Según aspectos de la presente invención, la obtención de componentes de señal de sonido ambiente puede incluir aplicar un factor de escala de ganancia de componente de señal de sonido ambiente que cambia dinámicamente a una señal de audio de entrada. El factor de escala de ganancia de componente de señal de sonido ambiente puede ser una función de una medida de correlación cruzada de las señales de audio de entrada, en el que, por ejemplo, el factor de escala de ganancia de componente de señal de sonido ambiente disminuye a medida que aumenta el grado de correlación cruzada y viceversa. La medida de correlación cruzada puede alisarse temporalmente y, por ejemplo, la medida de correlación cruzada puede alisarse temporalmente empleando un integrador con pérdidas dependiente de la señal o, alternativamente, empleando una media móvil. El alisado temporal puede ser adaptativo en cuanto a la señal de manera que, por ejemplo, el alisado temporal se adapta en respuesta a cambios en la distribución espectral.

Según aspectos de la presente invención, la obtención de componentes de señal de sonido ambiente puede incluir aplicar al menos una secuencia de filtro de decorrelación. Puede aplicarse la misma secuencia de filtro de decorrelación a cada una de las señales de audio de entrada o, alternativamente, puede aplicarse una secuencia de filtro de decorrelación diferente a cada una de las señales de audio de entrada.

Según aspectos adicionales de la presente invención, la obtención de componentes de señal con decodificación matricial puede incluir aplicar una decodificación matricial a las señales de audio de entrada, decodificación matricial que está adaptada para proporcionar señales de audio primera y segunda asociadas cada una con una dirección de sonido envolvente trasera.

Según aspectos de la presente invención, los factores de escala de ganancia pueden incluir el factor de escala de ganancia de componente de señal de sonido ambiente que cambia dinámicamente aplicado en la obtención de componentes de señal de sonido ambiente. Los factores de escala de ganancia pueden incluir además un factor de escala de ganancia de componente de señal con decodificación matricial que cambia dinámicamente aplicado a cada una de las señales de audio primera y segunda asociadas con una dirección de sonido envolvente trasera. El factor de escala de ganancia de componente de señal con codificación matricial puede ser una función de una medida de correlación cruzada de las señales de audio de entrada, en el que, por ejemplo, el factor de escala de ganancia de componente de señal con codificación matricial que cambia dinámicamente aumenta a medida que aumenta el grado de correlación cruzada y disminuye a medida que disminuye el grado de correlación cruzada. El factor de escala de ganancia de componente de señal con codificación matricial que cambia dinámicamente y el factor de escala de ganancia de componente de señal de sonido ambiente que cambia dinámicamente pueden aumentar y disminuir uno con respecto al otro de una manera que conserva la energía combinada de las componentes de señal con decodificación matricial y las componentes de señal de sonido ambiente. Los factores de escala de ganancia pueden incluir además un factor de escala de ganancia de canales de audio de sonido envolvente que cambia dinámicamente para controlar adicionalmente la ganancia de los canales de audio de sonido envolvente. El factor de escala de ganancia de los canales de audio de sonido envolvente puede ser una función de una medida de correlación cruzada de las señales de audio de entrada en el que, por ejemplo, la función hace que el factor de escala de ganancia de los canales de audio de sonido envolvente aumente a medida que disminuye la medida de correlación cruzada hasta un valor por debajo del cual disminuye el factor de escala de ganancia de los canales de audio de sonido envolvente.

Diversos aspectos de la presente invención pueden llevarse a cabo en el dominio tiempo-frecuencia en el que, por ejemplo, los aspectos de la invención pueden llevarse a cabo en una o más bandas de frecuencia en el dominio tiempo-frecuencia.

El mezclado ascendente de o bien material de audio de dos canales con codificación matricial o bien material de dos canales sin codificación matricial normalmente requiere la generación de canales envolventes. Los sistemas de decodificación matricial ampliamente conocidos funcionan bien para el material con codificación matricial, mientras que las técnicas de "extracción" de sonido ambiente funcionan bien para el material sin codificación matricial. Para enviar la necesidad de que el oyente cambie entre dos modos de mezclado ascendente, aspectos de la presente invención combinan de manera variable entre decodificación matricial y extracción de sonido ambiente para proporcionar automáticamente un mezclado ascendente apropiado para un tipo de señal de entrada actual. Para lograr esto, una medida de correlación cruzada entre los canales de entrada originales controla la proporción de componentes de señal directa desde un decodificador matricial parcial ("parcial" en el sentido de que el decodificador matricial sólo necesita decodificar los canales envolventes) y componentes de señal de sonido ambiente. Si los dos canales de entrada están altamente correlacionados, entonces se aplican más componentes de señal directa que componentes de señal de sonido ambiente a los canales de canal envolvente. A la inversa, si los dos canales de entrada están decorrelacionados, entonces se aplican más componentes de señal de sonido ambiente que componentes de señal directa a los canales de canal envolvente.

Las técnicas de extracción de sonido ambiente, tales como las dadas a conocer en la referencia 1, eliminan componentes de audio de sonido ambiente de los canales delantero originales y las trasladan de manera panorámica a canales envolventes, que pueden reforzar la anchura de los canales delanteros y mejorar la sensación de envolvimiento. Sin embargo, las técnicas de extracción de sonido ambiente no trasladan de manera panorámica imágenes discretas a los canales envolventes. Por otra parte, las técnicas de decodificación matricial realizan relativamente un buen trabajo de traslado panorámico de imágenes directas ("directas" en el sentido de un sonido que tiene una trayectoria directa desde la ubicación fuente hasta la del oyente en contraposición a un sonido de ambiente o reverberante que se refleja o "indirecto") a canales envolventes y, por tanto, pueden reconstruir material con codificación matricial de manera más fiable. Para aprovechar los puntos fuertes de ambos sistemas de decodificación, un aspecto de la presente invención es un híbrido de extracción de sonido ambiente y decodificación matricial.

Un objetivo de la invención es crear una señal multicanal agradable para el oído a partir de una señal de dos canales a la que o bien se ha aplicado codificación matricial o bien no se le ha aplicado codificación matricial sin necesidad de que un oyente cambie los modos. Por simplicidad, la invención se describe en el contexto de un sistema de cuatro canales que emplea canales izquierdo, derecho, envolvente izquierdo y envolvente derecho. La invención, sin embargo, puede ampliarse a cinco canales o más. Aunque puede emplearse cualquiera de diversas técnicas conocidas para proporcionar un canal central como quinto canal, una técnica particularmente útil se describe en una solicitud internacional publicada según el Tratado de Cooperación en Materia de Patentes WO 2007/106324 A1, presentada el 22 de febrero de 2007 y publicada el 20 de septiembre de 2007, titulada "Rendering Center Channel Audio" de Mark Stuart Vinton.

Descripción de los dibujos

La figura 1 muestra un diagrama de bloques funcional esquemático de un dispositivo o proceso para derivar dos canales de audio de sonido envolvente a partir de dos señales de audio de entrada según aspectos de la presente invención.

La figura 2 muestra un diagrama de bloques funcional esquemático de un mezclador ascendente o proceso de mezclado ascendente de audio según aspectos de la presente invención en los que el procesamiento se lleva a cabo en el dominio tiempo-frecuencia. Una parte de la disposición de la figura 2 incluye una realización de dominio tiempo-frecuencia del dispositivo o proceso de la figura 1.

\newpage

La figura 3 representa un par de ventanas de análisis/síntesis adecuado para dos bloques de tiempo de transformada discreta de Fourier en tiempo corto (STDFT) consecutivos que pueden usarse en una transformada de tiempo-frecuencia que puede emplearse para poner en práctica aspectos de la presente invención.

La figura 4 muestra un gráfico de la frecuencia central de cada banda en hercios para una tasa de muestreo de 44100 Hz que puede emplearse para poner en práctica aspectos de la presente invención en los que se aplican factores de escala de ganancia a coeficientes respectivos en bandas espectrales que tienen cada una aproximadamente una mitad de anchura de banda crítica.

La figura 5 muestra, en un gráfico del coeficiente de alisado (eje vertical) frente al número de bloque de transformada (eje horizontal), una respuesta a modo de ejemplo del parámetro alfa de un integrador con pérdidas dependiente de la señal que puede usarse como un estimador usado para reducir la varianza en el tiempo de una medida de correlación cruzada para poner en práctica aspectos de la presente invención. La aparición de un límite de evento auditivo aparece como una fuerte caída en el coeficiente de alisado en el límite de bloque justo antes del bloque 20.

La figura 6 muestra un diagrama de bloques funcional esquemático de la parte de obtención de sonido envolvente del mezclador ascendente o proceso de mezclado ascendente de audio de la figura 2 según aspectos de la presente invención. Por simplicidad en la presentación, la figura 6 muestra una representación esquemática del flujo de señal en una de múltiples bandas de frecuencia, entendiéndose que las acciones combinadas en todas las múltiples bandas de frecuencia producen los canales de audio de sonido envolvente L_{S} y R_{S}.

La figura 7 muestra un gráfico de los factores de escala de ganancia G'_{F} y G'_{B} (eje vertical) frente al coeficiente de correlación (\rho_{LR}(m,b)) (eje horizontal).

Mejor modo de llevar a cabo la invención

La figura 1 muestra un diagrama de bloques funcional esquemático de un dispositivo o proceso para derivar dos canales de audio de sonido envolvente a partir de dos señales de audio de entrada según aspectos de la presente invención. Las señales de audio de entrada pueden incluir componentes generadas mediante codificación matricial. Las señales de audio de entrada pueden ser dos canales de audio estereofónicos, que representan generalmente direcciones de sonido izquierda y derecha. Tal como se mencionó anteriormente, para el material estereofónico de dos canales con codificación matricial convencional, los canales a menudo se designan "Lt" y "Rt", y para el material estereofónico de dos canales sin codificación matricial, los canales a menudo se designan "Lo" y "Ro". Por tanto, para indiciar que las señales de audio de entrada pueden ser con codificación matricial algunas veces y sin codificación matricial otras veces, las entradas se marcan como "Lo/Lt" y "Ro/Rt" en la figura 1.

Ambas señales de audio de entrada en el ejemplo de la figura 1 se aplican a un decodificador matricial parcial o función de decodificación ("decodificador 2 matricial parcial") que genera componentes de señal con decodificación matricial en respuesta al par de señales de audio de entrada. Las componentes de señal con decodificación matricial se obtienen a partir de las dos señales de audio de entrada. En particular, el decodificador 2 matricial parcial está adaptado para proporcionar señales de audio primera y segunda asociadas cada una con una dirección de sonido envolvente trasera (tal como envolvente izquierda y envolvente derecha). Así, por ejemplo, el decodificador 2 matricial parcial puede implementarse como la parte de canales envolventes de un decodificador matricial o función de decodificación 2:4 (es decir, un decodificador matricial o función de decodificación "parcial"). El decodificador matricial puede ser pasivo o activo. El decodificador 2 matricial parcial puede caracterizarse por ser una "trayectoria (o trayectorias) de señal directa" (donde "directa" se usa en el sentido explicado anteriormente) (véase la figura 6, descrita más adelante).

En el ejemplo de la figura 1, ambas entradas también se aplican al elemento 4 ambiente que puede ser cualquiera de diversos dispositivos o funciones de generación, derivación o extracción de sonido ambiente bien conocidos que funcionan en respuesta a una o dos señales de audio de entrada para proporcionar una o dos salidas de componentes de señal de sonido ambiente. Las componentes de señal de sonido ambiente se obtienen a partir de dos señales de audio de entrada. El elemento 4 ambiente puede incluir dispositivos y funciones (1) en los que el sonido ambiente puede caracterizarse por "extraerse" a partir de la(las) señal(es) de entrada (a la manera, por ejemplo, de un extractor de sonido ambiente Habler de los años 1950 en el que se derivan una o más señales de diferencia (L-R, R-L) a partir de señales estereofónicas izquierda y derecha o un extractor de sonido ambiente en el dominio tiempo-frecuencia moderno como en la referencia (1) y (2) en el que el sonido ambiente puede caracterizarse por "añadirse" a o "generarse" en respuesta a la(las) señal(es) de entrada (a la manera, por ejemplo, de un reverberador digital (línea de retardo, convolucionador, etc.) o analógico (cámara, placa, muelle, línea de retardo, etc.)).

En los extractores de sonido ambiente en el dominio de la frecuencia modernos, la extracción de sonido ambiente puede lograrse monitorizando la correlación cruzada entre los canales de entrada, y extrayendo las componentes de la señal en tiempo y/o frecuencia que están decorrelacionadas (tienen un coeficiente de correlación pequeño, próximo a cero). Para intensificar adicionalmente la extracción de sonido ambiente, puede aplicarse decorrelación en la trayectoria de la señal de sonido ambiente para mejorar la sensación de separación delantera/trasera. No debe confundirse una decorrelación de este tipo con las componentes de señal decorrelacionadas extraídas o los procesos o dispositivos usados para extraerlas. El fin de una decorrelación de este tipo es reducir cualquier correlación residual entre los canales delanteros y los canales envolventes obtenidos. Véase el apartado el apartado más adelante titulado "Decorrelacionadores para canales envolventes".

En el caso de una señal de audio de entrada y dos señales de sonido ambiente de salida, pueden combinarse las dos señales de audio de entrada, o puede usarse sólo una de ellas. En el caso de dos entradas y una salida, puede usarse la misma salida para ambas salidas de señal de sonido ambiente. En el caso de dos entradas y dos salidas, el dispositivo o función puede operar independientemente sobre cada entrada de modo que cada salida de señal de sonido ambiente sea en respuesta sólo a una entrada particular, o, alternativamente, las dos salidas pueden ser en respuesta y dependientes de ambas entradas. El elemento 4 ambiente puede caracterizarse por estar en una "trayectoria (o trayectorias) de señal de sonido ambiente".

En el ejemplo de la figura 1, las componentes de señal de sonido ambiente y las componentes de señal con decodificación matricial se combinan de manera controlable para proporcionar dos canales de audio de sonido envolvente. Esto puede realizarse de la manera mostrada en la figura 1 o de una manera equivalente. En el ejemplo de la figura 1, se aplica un factor de escala de ganancia de componente de señal con codificación matricial que cambia dinámicamente a ambas salidas del decodificador 2 matricial parcial. Esto se muestra como la aplicación del mismo factor de escala de "ganancia de trayectoria directa" a cada uno de dos multiplicadores 6 y 8, cada uno en una trayectoria de salida del decodificador 2 matricial parcial. Se aplica un factor de escala de ganancia de componente de señal de sonido ambiente que cambia dinámicamente a ambas salidas del elemento 4 ambiente. Esto se muestra como la aplicación del mismo factor de escala de "ganancia de trayectoria de sonido ambiente" a cada uno de dos multiplicadores 10 y 12, cada uno en una salida del elemento 4 ambiente. La salida con decodificación matricial ajustada dinámicamente en ganancia del multiplicador 6 se suma a la salida de sonido ambiente ajustada en ganancia dinámicamente del multiplicador 10 en un combinador 14 aditivo (mostrado como un símbolo de sumatorio \Sigma) para producir una de las salidas de sonido envolvente. La salida con decodificación matricial ajustada dinámica en ganancia del multiplicador 8 se suma a la salida de sonido ambiente ajustada dinámica en ganancia del multiplicador 12 en un combinador 16 aditivo (mostrado como un símbolo de sumatorio \Sigma) para producir la otra salida de sonido envolvente. Para proporcionar la salida de envolvente izquierda (L_{S}) desde el combinador 14, la señal con decodificación matricial parcial ajustada en ganancia desde el multiplicador 6 debe obtenerse a partir de la salida de envolvente izquierda del decodificador 2 matricial parcial y la señal de sonido ambiente ajustada en ganancia del multiplicador 10 debe obtenerse a partir de una salida del elemento 4 ambiente prevista para la salida de envolvente izquierda. De manera similar, para proporcionar la salida de envolvente derecha (R_{S}) desde el combinador 16, la señal con decodificación matricial parcial ajustada en ganancia del multiplicador 8 debe obtenerse a partir de la salida de envolvente derecha del decodificador 2 matricial parcial y la señal de sonido ambiente ajustada en ganancia del multiplicador 12 debe obtenerse a partir de una salida del elemento 4 ambiente prevista para la salida de envolvente derecha.

La aplicación de factores de escala de ganancia que cambian dinámicamente a una señal que alimenta una salida de sonido envolvente puede caracterizarse como un "traslado panorámico" de esa señal hacia y desde tal salida de sonido envolvente.

La trayectoria de señal directa y la trayectoria de señal de sonido ambiente se ajustan en ganancia para proporcionar la cantidad apropiada de audio de señal directa y audio de señal de sonido ambiente basándose en la señal entrante. Si las señales de entrada están bien correlacionadas, entonces debe estar presente una gran proporción de la trayectoria de señal directa en las señales de canal envolvente finales. Alternativamente, si las señales de entrada están sustancialmente decorrelacionadas, entonces debe estar presente una gran proporción de la trayectoria de señal de sonido ambiente en las señales de canal envolvente finales.

Debido a que parte de la energía acústica de las señales de entrada se pasa a los canales envolventes, puede ser deseable, además, ajustar las ganancias de los canales delanteros, de modo que la presión acústica reproducida total permanezca sustancialmente sin cambios. Véase el ejemplo de la figura 2.

Debe observarse que cuando se emplea una técnica extracción de sonido ambiente en el dominio tiempo-frecuencia como en la referencia 1, la extracción de sonido ambiente puede llevarse a cabo mediante la aplicación de un factor de escala de ganancia de componente de señal de sonido ambiente que cambia dinámicamente adecuado a cada una de las señales de audio de entrada. En ese caso, puede considerarse que el bloque 4 ambiente incluye los multiplicadores 10 y 12, de manera que se aplica el factor de escala de ganancia de trayectoria de sonido ambiente a cada una de las señales de entrada de audio Lo/Lt y Ro/Rt independientemente.

En sus aspectos más amplios, la invención, tal como se caracteriza en el ejemplo de la figura 1, puede implementarse (1) en el dominio tiempo-frecuencia o en el dominio de frecuencia, (2) según la banda o por ancho de banda (en referencia a bandas de frecuencia), y (3) de una manera analógica, digital o híbrida analógica/digital.

Aunque la técnica de combinación cruzada de material de audio con decodificación matricial parcial con señales de sonido ambiente para crear los canales envolventes puede realizarse por ancho de banda, el rendimiento puede mejorarse calculando los canales envolventes deseados en cada una de una pluralidad de bandas de frecuencia. Una forma posible de derivar los canales envolventes deseados en bandas de frecuencia es emplear una transformada discreta de Fourier en tiempo corto superpuesta tanto para el análisis de la señal de dos canales original como para la síntesis final de la señal multicanal. Sin embargo, existen muchas más técnicas ampliamente conocidas que permiten la segmentación de señal tanto en tiempo como en frecuencia para el análisis y la síntesis (por ejemplo, bancos de filtros, filtros espejo en cuadratura, etc.).

\newpage

La figura 2 muestra un diagrama de bloques funcional esquemático de un mezclador ascendente o proceso de mezclado ascendente de audio según aspectos de la presente invención en los que el procesamiento se lleva a cabo en el dominio tiempo-frecuencia. Una parte de la disposición de la figura 2 incluye una realización en el dominio tiempo-frecuencia del dispositivo o proceso de la figura 1. Se aplican un par de señales de entrada estereofónicas Lo/Lt y Ro/Rt al mezclador ascendente o proceso de mezclado ascendente. En el ejemplo de la figura 2 y en otros ejemplos en el presente documento en los que el procesamiento se lleva a cabo en el dominio tiempo-frecuencia, los factores de escala de ganancia pueden actualizarse dinámicamente con la misma frecuencia que la tasa de bloque de transformada o a una tasa de bloque con alisamiento en el tiempo.

Aunque, en principio, los aspectos de la invención pueden ponerse en práctica mediante realizaciones analógicas, digitales o híbridas analógicas/digitales, el ejemplo de la figura 2 y otros ejemplos tratados más adelante son realizaciones digitales. Así, las señales de entrada pueden ser muestras de tiempo que pueden haberse derivado a partir de señales de audio analógicas. Las muestras de tiempo pueden codificarse como señales de modulación por impulsos codificados (PCM) lineales. Cada señal de entrada de audio de PCM lineal puede procesarse mediante un dispositivo o función de banco de filtros que tiene tanto una salida en fase como una en cuadratura, tal como una transformada discreta de Fourier en tiempo corto (STDFT) con ventanas de 2048 puntos.

Así, las señales de entrada estereofónicas de dos canales pueden convertirse al dominio de frecuencia usando un dispositivo o proceso de transformada discreta de Fourier en tiempo corto (STDFT) ("transformada 20 de tiempo-frecuencia") y pueden agruparse en bandas (agrupamiento no mostrado). Cada banda pude procesarse independientemente. Una trayectoria de control calcula en un dispositivo o función de ("cálculo 22 de ganancia trasera/delantera") las razones de factor de escala de ganancia delantera/trasera (G_{F} y G_{B}) (véanse las ecuaciones 12 y 13 y la figura 7 y su descripción, más adelante). Para un sistema de cuatro canales, las dos señales de entrada pueden multiplicarse por el factor de escala de ganancia delantera G_{F} (mostrado como los símbolos 24 y 26 de multiplicación) y pasarse a través de un proceso de transformada o transformada inversa ("transformada 28 de frecuencia-tiempo") para proporcionar los canales de salida izquierdo y derecho L'o/L't y R'o/R't, que pueden diferir en nivel respecto a las señales de entrada debido al ajuste a escala de la ganancia G_{F}. Las señales de canal envolvente L_{S} y R_{S}, obtenidas a partir de una versión en el dominio tiempo-frecuencia del dispositivo o proceso de la figura 1 ("generación 30 de canal envolvente"), que representa una combinación variable de componentes de audio de sonido ambiente y componentes de audio con decodificación matricial, se multiplican por el factor de escala de ganancia trasera G_{B} (mostrado como los símbolos 32 y 34 de multi-
plicación) antes de un proceso de transformada o transformada inversa ("transformada 36 de frecuencia-tiempo").

\vskip1.000000\baselineskip

Transformada 20 de tiempo-frecuencia

La transformada 20 de tiempo-frecuencia usada para generar dos canales envolventes a partir de la señal de dos canales de entrada puede basarse en la transformada discreta de Fourier en tiempo corto (STDFT) ampliamente conocida. Para minimizar los efectos de convolución circular, puede usarse una superposición del 75% tanto para el análisis como para la síntesis. Con la elección apropiada de las ventanas de análisis y síntesis, puede usarse una STDFT superpuesta para minimizar los efectos de convolución circular audibles, mientras se proporciona la capacidad para aplicar modificaciones de magnitud y fase al espectro. Aunque el par de ventanas particular no es crítico, la figura 3 representa un par de ventanas de análisis/síntesis adecuado para dos bloques de tiempo de STDFT consecutivos.

La ventana de análisis se diseña de modo que la suma de las ventanas de análisis superpuestas sea igual a la unidad para el espacio de superposición elegido. Puede emplearse el cuadrado de una ventana derivada de Kaiser-Bessel (KBD), aunque el uso de esta ventana particular no es crítico para la invención. Con una ventana de análisis de este tipo, puede sintetizarse una señal analizada perfectamente sin ventana de síntesis si no se han realizado modificaciones en las STDFT de superposición. Sin embargo, debido a las alteraciones de magnitud aplicadas y a las secuencias de decorrelación usadas en esta realización a modo de ejemplo, es deseable estrechar la ventana de síntesis para evitar discontinuidades de bloque audibles. Los parámetros de ventana usados en un sistema de codificación de audio espacial a modo de ejemplo se enumeran a continuación.

1

División en bandas

Una realización a modo de ejemplo del mezclado ascendente según aspectos de la presente invención calcula y aplica los factores de escala de ganancia a coeficientes respectivos en bandas espectrales con aproximadamente la mitad de anchura de banda crítica (véase, por ejemplo, la referencia 2). La figura 4 muestra un gráfico de la frecuencia central de cada banda en hercios para una tasa de muestreo de 44100 Hz, y la tabla I da la frecuencia central para cada banda para una tasa de muestreo de 44100 Hz.

TABLA 1

2

Integradores con pérdidas adaptativos en cuanto a la señal

En una disposición de mezclado ascendente a modo de ejemplo según aspectos de la invención, se calcula en primer lugar cada estadística y variable con respecto a una banda espectral y luego se alisa a lo largo del tiempo. El alisado temporal de cada variable es un IIR de primer orden sencillo tal como se muestra en la ecuación 1. Sin embargo, el parámetro alfa se adapta preferiblemente con el tiempo. Si se detecta un evento auditivo (véase, por ejemplo, la referencia 3 o la referencia 4), el parámetro alfa disminuye hasta un valor inferior y luego aumenta de nuevo hasta un valor superior a lo largo del tiempo. Así, el sistema se actualiza más rápidamente durante los cambios en el audio.

Un evento auditivo puede definirse como un cambio brusco en la señal de audio, por ejemplo el cambio de nota de un instrumento o el comienzo de la voz de un hablante. Por tanto, tiene sentido que para el mezclado ascendente se cambien rápidamente sus estimaciones estadísticas cerca de un punto de detección de evento. Además, el sistema auditivo humano es menos sensible durante el comienzo de transitorios/eventos, así, tales momentos en un segmento de audio pueden usarse para ocultar la inestabilidad de las estimaciones de las cantidades estadísticas del sistema. Un evento puede detectarse mediante cambios en la distribución espectral entre dos bloques adyacentes en el tiempo.

La figura 5 muestra una respuesta a modo de ejemplo del parámetro alfa (véase la ecuación 1, justo a continuación) en una banda cuando se detecta el comienzo de un evento auditivo (el límite de evento auditivo está justo antes del bloque 20 de transformada en el ejemplo de la figura 5). La ecuación 1 describe un integrador con pérdidas dependiente de la señal que puede usarse como un estimador usado para reducir la varianza en el tiempo de una medida de correlación cruzada (véase también la explicación de la ecuación 4, más adelante).

3

Donde: C(n, b) es la variable calculada con respecto a una banda espectral b en el bloque n, y C'(n, b) es la variable tras el alisado temporal en el bloque n.

\vskip1.000000\baselineskip

Cálculos de canal envolvente

La figura 6 muestra, en mayor detalle, un diagrama de bloques funcional esquemático de la parte de obtención de sonido envolvente del mezclador ascendente o proceso de mezclado ascendente de audio de la figura 2 según aspectos de la presente invención. Por simplicidad en la presentación, la figura 6 muestra una representación esquemática del flujo de señal en una de múltiples bandas de frecuencia, entendiéndose que las acciones combinadas de todas las múltiples bandas de frecuencia producen los canales de audio de sonido envolvente L_{S} y R_{S}.

Como se indica en la figura 6, cada una de las señales de entrada (Lo/Lt y Ro/Rt) se divide en tres trayectorias. La primera trayectoria es una "trayectoria 40 de control", que, en este ejemplo, calcula los factores de escala de ganancia de razón delantera/trasera (G_{F} y G_{B}) y los factores de escala de ganancia de razón directa/sonido ambiente (G_{D} y G_{A}) en un ordenador o función de cálculo ("cálculo 42 de control por banda") que incluye un dispositivo o proceso (no mostrado) para proporcionar una medida de correlación cruzada de las señales de entrada. Las otras dos trayectorias son una "trayectoria 44 de señal directa" y una trayectoria 46 de señal de sonido ambiente, cuyas salidas se combinan de manera controlable entre sí bajo el control de los factores de escala de ganancia G_{D} y G_{A} para proporcionar un par de señales de canal envolvente L_{S} y R_{S}. La trayectoria de señal directa incluye un proceso de decodificación o decodificador matricial pasivo ("decodificador 48 matricial pasivo"). Alternativamente, puede emplearse un decodificador matricial activo en lugar del decodificador matricial pasivo para mejorar la separación de canal envolvente en ciertas condiciones de señal. Muchas de tales funciones de decodificación o decodificadores matriciales activos se conocen bien en la técnica y el uso de cualquiera de tales dispositivos o procesos particulares no es crítico para la invención.

Opcionalmente, para mejorar adicionalmente el efecto de envolvimiento creado trasladando de manera panorámica las componentes de señal de sonido ambiente a los canales envolventes mediante la aplicación del factor de escala de ganancia G_{A}, las componentes de señal de sonido ambiente de las señales de entrada izquierda y derecha pueden aplicarse a un decorrelacionador respectivo o multiplicarse por una secuencia de filtro de decorrelación respectiva ("decorrelacionador 50") antes de combinarse con componentes de audio de imagen directa del decodificador 48 matricial. Aunque los decorrelacionadores 50 pueden ser idénticos entre sí, algunos oyentes pueden preferir el rendimiento proporcionado cuando no son idénticos. Aunque puede usarse cualquiera de muchos tipos de decorrelacionadores para la trayectoria de señal de sonido ambiente, debe tenerse cuidado en minimizar efectos de filtro de peine audibles que pueden producirse al mezclar material de audio decorrelacionado con una señal no decorrelacionada. Un decorrelacionador particularmente útil se describe más adelante, aunque su uso no es crítico para la invención.

La trayectoria 44 de señal directa puede caracterizarse por incluir multiplicadores 52 y 54 respectivos en los que se aplican factores de escala de ganancia de componente de señal directa G_{D} a las componentes de señal con decodificación matricial de envolvente izquierda y envolvente derecha respectivas, cuyas salidas se aplican a su vez a combinadores 56 y 58 aditivos respectivos (mostrado cada uno como un símbolo de sumatorio \Sigma). Alternativamente, pueden aplicarse factores de escala de ganancia de componente de señal directa G_{D} a las entradas a la trayectoria 44 de señal directa. Entonces puede aplicarse el factor de escala de ganancia trasera G_{B} a la salida de cada combinador 56 y 58 en los multiplicadores 64 y 66 para producir la salida de envolvente izquierda y derecha L_{S} y R_{S}. Alternativamente, los factores de escala de ganancia G_{B} y G_{D} pueden multiplicarse entre sí y luego aplicarse a las componentes de señal con codificación matricial de envolvente izquierda y envolvente derecha respectivas antes de aplicar el resultado a los combinadores 56 y 58.

La trayectoria de señal de sonido ambiente puede caracterizarse por incluir multiplicadores 60 y 62 respectivos en los que se aplican factores de escala de ganancia de componente de señal de sonido ambiente G_{A} a las señales de entrada izquierda y derecha respectivas, señales que pueden haberse aplicado a decorrelacionadores 50 opcionales. Alternativamente, pueden aplicarse factores de escala de ganancia de componente de señal de sonido ambiente G_{A} a las entradas a la trayectoria 46 de señal de sonido ambiente. La aplicación de los factores de escala de ganancia de componente de señal de sonido ambiente que varían dinámicamente G_{A} da como resultado la extracción de componentes de señal de sonido ambiente a partir de las señales de entrada izquierda y derecha, se emplee o no algún decorrelacionador 50. Tales componentes de señal de sonido ambiente izquierda y derecha se aplican entonces a los combinadores 56 y 58 aditivos respectivos. Si no se aplican tras los combinadores 56 y 58, el factor de escala de ganancia G_{B} puede multiplicarse por el factor de escala de ganancia G_{A} y aplicarse a las componentes de señal de sonido ambiente izquierda y derecha antes de aplicar el resultado a los combinadores 56 y 58.

Los cálculos de canal de sonido envolvente tal como pueden requerirse en el ejemplo de la figura 6 pueden caracterizarse tal como en las siguientes etapas y subetapas.

\vskip1.000000\baselineskip

Etapa 1

Agrupar cada una de las señales de entrada en bandas

Tal como se muestra en la figura 6, la trayectoria de control generas los factores de escala de ganancia G_{F}, G_{B}, G_{D} y G_{A}; estos factores de escala de ganancia se calculan y se aplican en cada una de las bandas de frecuencia. Debe observarse que el factor de escala de ganancia G_{F} no se usa en la obtención de los canales de sonido envolvente; puede aplicarse a los canales delanteros (véase la figura 2). La primera etapa en el cálculo de los factores de escala de ganancia es agrupar cada una de las señales de entrada en bandas tal como se muestra en las ecuaciones 2 y 3.

4

Donde: m es el índice de tiempo, b es el índice de banda, L(m,k) es la muestra espectral k-ésima del canal izquierdo en el momento m, R(m,k) es la muestra espectral k-ésima del canal derecho en el momento m, \overline{L}(m,b) es una matriz de columna que contiene las muestras espectrales del canal izquierdo para la banda b, \overline{R}(m,b) es una matriz de columna que contiene las muestras espectrales del canal derecho para la banda b, L_{b} es el límite inferior de la banda b, y U_{b} es el límite superior de la banda b.

\vskip1.000000\baselineskip

Etapa 2

Calcular una medida de la correlación cruzada entre las dos señales de entrada en cada banda

La siguiente etapa es calcular una medida de la correlación entre canales entre las dos señales de entrada (es decir, la "correlación cruzada") en cada banda. En este ejemplo, esto se lleva a cabo en tres subetapas.

\vskip1.000000\baselineskip

Subetapa 2a

Calcular una medida de varianza en el tiempo reducida (alisamiento en el tiempo) de correlación cruzada

En primer lugar, tal como se muestra en la ecuación 4, calcular una medida de varianza en el tiempo reducida de correlación entre canales. En la ecuación 4 y en otras ecuaciones en el presente documento, E es un operador de estimador. En este ejemplo, el estimador representa una ecuación de integrador con pérdidas dependiente de la señal (tal como en la ecuación 1). Existen muchas otras técnicas que pueden usarse como estimador para reducir la varianza en el tiempo de los parámetros medidos (por ejemplo, una simple media temporal móvil) y el uso de cualquier estimador particular no es crítico para la invención.

5

Donde: T es la transposición hermitiana, \rho_{LR}(m,b) es una estimación del coeficiente de correlación entre el canal izquierdo y derecho en la banda b en el momento m. \rho_{LR}(m,b) puede tener un valor que oscila desde cero hasta uno. La transposición hermitiana es tanto una transposición como una conjugación de los términos complejos. En la ecuación 4, por ejemplo, \overline{L}(m,b)\cdot\overline{R}(m,b)^{T} da como resultado un escalar complejo ya que \overline{L}(m,b) y R(m,b)^{T} son vectores de fila complejos tal como se define en las ecuaciones 1 y 2.

\newpage

Subetapa 2b

Construir una medida de correlación cruzada sesgada

El coeficiente de correlación puede usarse para controlar la cantidad de señal de sonido ambiente y directa que se traslada de manera panorámica a los canales envolventes. Sin embargo, si las señales izquierda y derecha son completamente diferentes, por ejemplo dos instrumentos diferentes se trasladan de manera panorámica a los canales izquierdo y derecho, respectivamente, entonces la correlación cruzada es cero y los instrumentos trasladados rígidamente de manera panorámica se trasladarían de manera panorámica a los canales envolventes si se empleara un enfoque tal como en la subetapa 2a por sí solo. Para evitar un resultado de este tipo, puede construirse una medida sesgada de la correlación cruzada de las señales de entrada izquierda y derecha, tal como se muestra en la ecuación 5.

6

\phi_{LR}(m,b) puede ser un valor que oscila desde cero hasta uno.

Donde: \phi_{LR}(m,b) es la estimación sesgada del coeficiente de correlación entre los canales izquierdo y derecho.

El operador "max" en el denominador de la ecuación 4 da como resultado que el denominador sea el máximo de o bien E{\overline{L}(m,b)\cdot\overline{L}(m,b)^{T}} o bien E{\overline{R}(m,b)\cdot\overline{R}(m,b)^{T}}. En consecuencia, la correlación cruzada se normaliza o bien mediante la energía en la señal izquierda o bien mediante la energía en la señal derecha, en lugar de la media geométrica como en la ecuación 4. Si las potencias de la señal izquierda y derecha son diferentes, entonces la estimación sesgada del coeficiente de correlación \phi_{LR}(m,b) de la ecuación 5 conduce a valores más pequeños que los generados por el coeficiente de correlación \phi_{LR}(m,b) de la ecuación 4. Así, la estimación sesgada puede usarse para reducir el grado de traslado panorámico a los canales envolventes de los instrumentos que se han trasladado rígidamente de manera panorámica a la izquierda y/o a la derecha.

\vskip1.000000\baselineskip

Subetapa 2c

Combinar las medidas de correlación cruzada sesgada y no sesgada

A continuación, combinar la estimación de correlación cruzada no sesgada obtenida en la ecuación 4 con la estimación sesgada obtenida en la ecuación 5 para dar una medida final de la correlación entre canales, que puede usarse para controlar el traslado panorámico de la señal de sonido ambiente y directa a los canales envolventes. La combinación puede expresarse como en la ecuación 6, que muestra que la coherencia entre canales es igual al coeficiente de correlación si la estimación sesgada del coeficiente de correlación (ecuación 5) está por encima de un umbral; en caso contrario la coherencia entre canales se aproxima a la unidad linealmente. El objetivo de la ecuación 6 es garantizar que los instrumentos se trasladan rígidamente de manera panorámica a la izquierda y a la derecha en las señales de entrada no se trasladen de manera panorámica a los canales envolventes. La ecuación 6 es sólo una de muchas formas posibles de lograr este objetivo.

7

Donde: \mu_{0} es un umbral predefinido. El umbral \mu_{0} debe ser lo más pequeño posible, pero preferiblemente no cero. Puede ser aproximadamente igual a la varianza de la estimación del coeficiente de correlación sesgado \phi_{LR}(m,b).

\vskip1.000000\baselineskip

Etapa 3

Calcular los factores de escala de ganancia delantera y trasera G_{F} y G_{B}

A continuación, calcular los factores de escala de ganancia delantera y trasera G_{F} y G_{B}. En este ejemplo, esto se lleva a cabo en tres subetapas. Las subetapas 3a y 3b pueden realizarse en cualquier orden o simultáneamente.

\vskip1.000000\baselineskip

Subetapa 3a

Calcular los factores de escala de ganancia delantera y trasera G'_{F} y G'_{B} debidos a señales de sonido ambiente solamente

A continuación, calcular un primer conjunto intermedio de factores de escala de ganancia con traslado panorámico delantero/trasero (G'_{F} y G'_{B}) tal como se muestra en las ecuaciones 7 y 8, respectivamente. Éstos representan la cantidad deseada de traslado panorámico trasero/delantero debido a la detección de señales de sonido ambiente solamente; los factores de escala de ganancia con traslado panorámico trasero/delantero finales, tal como se describe más adelante, tienen en cuenta tanto el traslado panorámico del sonido ambiente como el traslado panorámico de la imagen envolvente.

8

Donde: \partial_{0} es un umbral predefinido y controla la cantidad máxima de energía que puede trasladarse de manera panorámica a los canales envolventes desde el campo de sonido delantero. El umbral \partial_{0} puede seleccionarse por un usuario para controlar la cantidad de contenido de sonido ambiente enviado a los canales envolventes.

Aunque las expresiones para G'_{F} y G'_{B} en las ecuaciones 7 y 8 son adecuadas y conservan la potencia, no son críticas para la invención. Pueden emplearse otras relaciones en las que G'_{F} y G'_{B} sean generalmente inversas entre sí.

La figura 7 muestra un gráfico de los factores de escala de ganancia G'_{F} y G'_{B} frente al coeficiente de correlación (\phi_{LR}(m,b)). Debe observarse que a medida que el coeficiente de correlación disminuye, se traslada de manera panorámica mucha energía a los canales envolventes. Sin embargo, cuando el coeficiente de correlación cae por debajo de un cierto punto, un umbral \mu_{0}, la señal se traslada de nuevo de manera panorámica a los canales delanteros. Esto evita que instrumentos aislados trasladados rígidamente de manera panorámica a los canales izquierdo y derecho originales se trasladen de manera panorámica a los canales envolventes. La figura 7 muestra sólo la situación en la que las energías de señal izquierda y derecha son iguales; si las energías izquierda y derecha son diferentes, la señal se traslada de nuevo de manera panorámica a los canales delanteros a un valor superior del coeficiente de correlación. Más específicamente, el punto de cambio, el umbral \mu_{0}, se produce a un valor superior del coeficiente de correlación.

\vskip1.000000\baselineskip

Subetapa 3b

Calcular los factores de escala de ganancia delantera y trasera G''_{F} y G''_{B} debidos a señales directas con decodificación matricial solamente

Hasta ahora, se ha decidido cuánta energía aplicar a los canales envolventes debido a la detección de material de audio de sonido ambiente; la siguiente etapa es calcular el nivel de canal envolvente deseado debido a imágenes discretas con decodificación matricial solamente. Para calcular la cantidad de energía en los canales envolventes debido a tales imágenes discretas, en primer lugar se estima la parte real del coeficiente de correlación de la ecuación 4 tal como se muestra en la ecuación 9.

9

Debido al desplazamiento de fase de 90 grados durante el proceso de codificación matricial (mezclado descendente), la parte real del coeficiente de correlación que atraviesa de manera suave desde 0 hasta -1 mientras una imagen en la señal multicanal original, antes del mezclado descendente, se desplaza desde los canales delanteros hacia los canales envolventes. Por tanto, puede construirse un conjunto intermedio adicional de factores de escala de ganancia con traslado panorámico delantero/trasero tal como se muestra en las ecuaciones 10 y 11.

10

Donde G''_{F}(m,b) y G''_{B}(m,b) son los factores de escala de ganancia delantera y trasera para la señal directa con decodificación matricial respectivamente para la banda b en el momento m.

Aunque las expresiones para G''(m,b) y G''_{B}(m,b) en las ecuaciones 10 y 11 son adecuadas y conservan la energía, no son críticas para la invención. Pueden emplearse otras relaciones en las que G''_{F}(m,b) y G''_{B}(m,b) sean generalmente inversas entre sí.

\vskip1.000000\baselineskip

Subetapa 3c

Usando los resultados de las subetapas 3a y 3b, calcular un conjunto final de factores de escala de ganancia delantera y trasera G_{F} y G_{B}

Ahora calcular un conjunto final de factores de escala de ganancia delantera y trasera tal como se indica en las ecuaciones 12 y 13.

11

Donde MIN significa que el factor de escala de ganancia frontal final G_{F}(m,b) es igual a G'_{F}(m,b) si G'_{F}(m,b) es menor que G''_{F}(m,b), si no, G_{F}(m,b) es igual a G''_{F}(m,b).

Aunque las expresiones para G_{F} y G_{B} en las ecuaciones 10 y 11 son adecuadas y conservan la energía, no son críticas para la invención. Pueden emplearse otras relaciones en las que G_{F} y G_{B} sean generalmente inversas entre sí.

\vskip1.000000\baselineskip

Etapa 4

Calcular los factores de escala de ganancia de sonido ambiente y directa con decodificación matricial G_{D} y G_{A}

En este punto, se ha determinado la cantidad de energía que se envía a los canales envolventes debido tanto a la detección de señal de sonido ambiente como a la detección de señal directa con decodificación matricial. Sin embargo, ahora es necesario controlar la cantidad de cada tipo de señal que está presente en los canales envolventes. Para calcular los factores de escala de ganancia que controlan la combinación cruzada entre señales directas y de sonido ambiente (G_{D} y G_{A}), puede usarse el coeficiente de correlación \rho_{LR}(m,b) de la ecuación 4. Si las señales de entrada izquierda y derecha están relativamente no correlacionadas, entonces deben estar presentes más componentes de señal de sonido ambiente que componentes de señal directa en los canales envolventes; si las señales de entrada están bien correlacionadas entonces deben estar presentes más componentes de señal directa que componentes de señal de sonido ambiente en los canales envolventes. Por tanto, pueden derivarse los factores de escala de ganancia para la razón directa/sonido ambiente tal como se muestra en la ecuación 14.

12

Aunque las expresiones para G_{D} y G_{A} en la ecuación 14 son adecuadas y conservan la energía, no son críticas para la invención. Pueden emplearse otras relaciones en las que G_{D} y G_{A} sean generalmente inversas entre sí.

\newpage

Etapa 5

Construir componentes de señal con decodificación matricial y de sonido ambiente

A continuación construir las componentes de señal con decodificación matricial y de sonido ambiente. Esto puede conseguirse en dos subetapas, que pueden realizarse en cualquier orden o simultáneamente.

\vskip1.000000\baselineskip

Subetapa 5a

Construir componentes de señal con decodificación matricial para la banda b

Construir las componentes de señal con decodificación matricial para la banda b tal como se muestra, por ejemplo, en la ecuación 15.

\vskip1.000000\baselineskip

13

Donde \overline{L}_{D}(m,b) son las componentes de señal con decodificación matricial desde el decodificador matricial para el canal envolvente izquierdo en la banda b en el momento m y \overline{R}_{D}(m,b) son las componentes de señal con decodificación matricial desde el decodificador matricial para el canal envolvente derecho en la banda b en el momento m.

\vskip1.000000\baselineskip

Etapa 5b

Construir componentes de señal de sonido ambiente para la banda b

La aplicación del factor de escala de ganancia G_{A}, que varía dinámicamente a la tasa de bloque de transformada con alisamiento en el tiempo, funciona para derivar las componentes de señal de sonido ambiente. (Véase, por ejemplo, la referencia 1). El factor de escala de ganancia que varía dinámicamente G_{A} puede aplicarse antes o después de la trayectoria 46 de señal de sonido ambiente (figura 6). Las componentes de señal de sonido ambiente derivadas pueden mejorarse además multiplicando todo el espectro de la señal izquierda y derecha original por la representación en el dominio espectral del decorrelacionador. Por tanto, para la banda b y el momento m, las señales de sonido ambiente para las señales envolventes izquierda y derecha vienen dadas, por ejemplo, por las ecuaciones 16 y 17.

\vskip1.000000\baselineskip

14

Donde \overline{L}_{A}(m,b) es la señal de sonido ambiente para el canal envolvente izquierdo en la banda b en el momento m y D^{L}(k) es la representación en el dominio espectral del decorrelacionador de canal izquierdo en el intervalo k.

\vskip1.000000\baselineskip

15

Donde \overline{R}_{A}(m,b) es la señal de sonido ambiente para el canal envolvente derecho en la banda b en el momento m y D^{R}(k) es la representación de dominio espectral del decorrelacionador de canal derecho en el intervalo k.

\newpage

Etapa 6

Aplicar factores de escala de ganancia G_{B}, G_{D}, G_{A} para obtener señales de canal envolvente

Habiendo derivado las ganancias de señal de control G_{B}, G_{D}, G_{A} (etapas 3 y 4) y las componentes de señal con decodificación matricial y de sonido ambiente (etapa 5), éstas pueden aplicarse tal como se muestra en la figura 6 para obtener las señales de canal envolvente finales en cada banda. Ahora las señales envolventes izquierda y derecha de salida finales pueden venir dadas por la ecuación 18.

16

Donde \overline{L}_{S}(m,b) y \overline{R}_{S}(m,b) son las señales de canal envolvente izquierda y derecha finales en la banda b en el momento m.

Como se indicó anteriormente en conexión con la etapa 5b, se apreciará que la aplicación del factor de escala de ganancia G_{A}, que varía dinámicamente a la tasa de bloque de transformada con alisamiento en el tiempo, puede considerarse para derivar las componentes de señal de sonido ambiente.

Los cálculos de canal de sonido envolvente pueden resumirse de la siguiente manera.

1. Agrupar cada una de las señales de entrada en bandas (ecuaciones 2 y 3).

2. Calcular una medida de la correlación cruzada entre las dos señales de entrada en cada banda.

a.: Calcular una medida de varianza en el tiempo reducida (con alisamiento en el tiempo) de correlación cruzada (ecuación 4).

b.: Construir una medida sesgada de correlación cruzada (ecuación 5).

c.: Combinar las medidas sesgadas y no sesgadas de correlación cruzada (ecuación 6).

3. Calcular los factores de escala de ganancia delantera y trasera G_{F} y G_{B}.

a.: Calcular factores de escala de ganancia delantera y trasera G'_{F} y G'_{B} debido a señales de sonido ambiente solamente (ecuaciones 7, 8).

b.: Calcular factores de escala de ganancia delantera y trasera G''_{F} y G''_{B} debido a señales directas con decodificación matricial solamente (ecuaciones 10, 11).

c.: Usando los resultados de las subetapas 3a y 3b, calcular un conjunto final de factores de escala de ganancia delantera y trasera G_{F} y G_{B} (ecuaciones 12, 13).

4. Calcular los factores de escala de ganancia de sonido ambiente y directa con decodificación matricial G_{D} y G_{A} (ecuación 14).

5. Construir componentes de señal con decodificación matricial y de sonido ambiente.

a.: Construir componentes de señal con decodificación matricial para la banda b (ecuación 15).

b.: Construir componentes de señal de sonido ambiente para la banda b (ecuaciones 16, 17, aplicación de G_{A}).

6. Aplicar factores de escala de ganancia G_{B}, G_{D}, G_{A} a las componentes de señal construidas para obtener señales de canal envolvente (ecuación 18).

\vskip1.000000\baselineskip

Alternativas

Una implementación adecuada de aspectos de la presente invención emplea dispositivos o etapas de procesamiento que implementan las etapas de procesamiento respectivas y se relacionan funcionalmente como se explicó anteriormente. Aunque las etapas enumeradas anteriormente pueden llevarse a cabo cada una mediante secuencias de instrucciones de software informático que operen en el orden de las etapas enumeradas anteriormente, se entenderá que pueden obtenerse resultados equivalentes o similares mediante etapas ordenadas de otras maneras, teniendo en cuenta que determinadas magnitudes se derivan de las anteriores. Por ejemplo, pueden emplearse secuencias de instrucciones de software informático multiproceso de modo que ciertas secuencias de etapas se lleven a cabo en paralelo. Como otro ejemplo, el orden de ciertas etapas en el ejemplo anterior es arbitrario y puede alterarse sin afectar a los resultados, por ejemplo, las subetapas 3a y 3b pueden invertirse y las subetapas 5a y 5b pueden invertirse. Además, como será evidente a partir de la inspección de la ecuación 18, no es necesario calcular el factor de escala de ganancia G_{B} por separado del cálculo de los factores de escala de ganancia G_{A} y G_{D}, pueden emplearse y calcularse un factor de escala de ganancia único G_{B} G_{A} y un factor de escala de ganancia único G_{B} G_{D} en una forma modificada de la ecuación 18 en la que el factor de escala de ganancia G_{B} se pone entre paréntesis. Alternativamente, pueden implementarse las etapas descritas como dispositivos que realicen las funciones descritas, teniendo los diversos dispositivos interrelaciones funcionales como se describió anteriormente.

\vskip1.000000\baselineskip

Decorrelacionadores para canales envolventes

Para mejorar la separación entre canales delanteros y canales envolventes (o para enfatizar el envolvimiento del material de audio original) puede aplicarse decorrelación a los canales envolventes. La decorrelación, como se describe a continuación, puede ser similar a lo propuesto en la referencia 5. Aunque se ha encontrado que el decorrelacionador descrito a continuación es particularmente adecuado, su uso no es crítico para la invención y pueden emplearse otras técnicas de decorrelación.

La respuesta al impulso de cada filtro puede especificarse como una secuencia sinusoidal de longitud finita cuya frecuencia instantánea disminuye de manera monótona desde \pi hasta cero a lo largo de la duración de la secuencia:

17

donde \omega_{i}(t) es la función de frecuencia instantánea que disminuye de manera monótona, \omega'_{i}(t) es la primera derivada de la frecuencia instantánea, \varphi_{i}(t) es la fase instantánea dada por la integral de la frecuencia instantánea, y L_{i} es la longitud del filtro. Se requiere que el término de multiplicación haga que la respuesta de frecuencia de h_{i}[n] sea aproximadamente plana por toda la frecuencia, y la ganancia G_{i} se calcula de manera que:

18

La respuesta al impulso especificada tiene la forma de una secuencia de tipo de modulación de frecuencia (chirp) y, como resultado, el filtrado de señales de audio con un filtro de este tipo puede dar como resultado a veces artefactos "de modulación de frecuencia" audibles en las ubicaciones de transitorios. Este efecto puede reducirse añadiendo un término de ruido a la fase instantánea de la respuesta de filtro:

19

Hacer que esta secuencia de ruido N_{i}[n] sea igual a ruido gaussiano blanco con una varianza que es una fracción pequeña de \pi es suficiente para hacer que el sonido de respuesta al impulso sea más de tipo ruido que de tipo de modulación de frecuencia, mientras que aún se mantiene en gran medida la relación deseada entre frecuencia y retardo especificada por \omega_{i}(t).

A frecuencias muy bajas, el retardo creado por la secuencia de modulación de frecuencia es muy largo, llevando así a muescas audibles cuando el material de audio mezclado de manera ascendente se mezcla de nuevo de manera descendente para dar dos canales. Para reducir este artefacto, la secuencia de modulación de frecuencia puede sustituirse por un cambio de fase de 90 grados a frecuencias por debajo de 2,5 kHz. La fase se cambia entre 90 grados positivos y negativos produciéndose el cambio con espaciamiento logarítmico.

Debido a que el sistema de mezclado ascendente emplea STDFT con suficiente adición de ceros (descrito anteriormente), los filtros de decorrelacionador dados por la ecuación 21 pueden aplicarse usando multiplicación en el dominio espectral.

\vskip1.000000\baselineskip

Implementación

La invención puede implementarse en hardware o software, o una combinación de ambos (por ejemplo, disposiciones lógicas programables). A menos que se especifique lo contrario, los algoritmos o procesos incluidos como parte de la invención no están relacionados de manera inherente a ningún ordenador u otro aparato particular. En particular, pueden usarse diversas máquinas de propósito general con programas escritos según las enseñanzas en el presente documento, o puede ser más conveniente construir aparatos más especializados (por ejemplo, circuitos integrados) para realizar las etapas de método requeridas. Así, la invención puede implementarse en uno o más programas informáticos que se ejecuten en uno o más sistemas informáticos programables comprendiendo cada uno al menos un procesador, al menos un sistema de almacenamiento de datos (incluyendo memoria volátil y no volátil y/o elementos de almacenamiento), al menos un puerto o dispositivo de entrada, y al menos un puerto o dispositivo de salida. Se aplica código de programa a datos de entrada para realizar las funciones descritas en el presente documento y generar información de salida. La información de salida se aplica a uno o más dispositivos de salida, de una manera conocida.

Cada programa de este tipo puede implementarse en cualquier lenguaje informático deseado (incluyendo lenguajes de programación orientados a objetos, lógicos o para procedimientos de alto nivel, o ensambladores o máquina) para la comunicación con un sistema informático. En cualquier caso, el lenguaje puede ser un lenguaje interpretado o compilado.

Cada programa informático de este tipo se almacena o descarga preferiblemente en un dispositivo o medio de almacenamiento (por ejemplo medios o memoria de estados sólido, o medios magnéticos u ópticos) legibles por un ordenador programable de propósito especial o general, para configurar y operar el ordenador cuando el sistema informático lee el dispositivo o medios de almacenamiento para realizar los procedimientos descritos en el presente documento. También puede considerarse que la invención puede implementarse como un medio de almacenamiento legible por ordenador, configurado con un programa informático, en el que el medio de almacenamiento así configurado hace que un sistema informático funcione de una manera específica y predefinida para realizar las funciones descritas en el presente documento.

Se han descrito varias realizaciones de la invención. Sin embargo, se entenderá que pueden realizarse diversas modificaciones sin apartarse del alcance de la invención. Por ejemplo, como también se mencionó anteriormente, algunas de las etapas descritas en el presente documento pueden ser independientes del orden, y por tanto pueden realizarse en un orden diferente del descrito.

Claims

1. Método para obtener dos canales de audio de sonido envolvente a partir de dos señales de audio de entrada, en el que dichas señales de audio de entrada pueden incluir componentes generadas mediante codificación matricial, que comprende

obtener (4) componentes de señal de sonido ambiente a partir de dichas señales de audio de entrada,

obtener (2) componentes de señal con decodificación matricial a partir de dichas señales de audio de entrada, y combinar (14, 16) de manera controlable componentes de señal de sonido ambiente y componentes de señal con decodificación matricial para proporcionar dichos canales de audio de sonido envolvente, caracterizado porque dicha combinación de manera controlable incluye aplicar (6, 8, 10, 12) factores de escala de ganancia basándose en la correlación de dichas señales de audio de entrada.

\vskip1.000000\baselineskip

2. Método según la reivindicación 1, en el que la obtención de componentes de señal de sonido ambiente incluye aplicar un factor de escala de ganancia de componente de señal de sonido ambiente que cambia dinámicamente a una señal de audio de entrada y en el que dichos factores de escala de ganancia incluyen el factor de escala de ganancia de componente de señal de sonido ambiente que cambia dinámicamente aplicado en la obtención de componentes de señal de sonido ambiente.

3. Método según la reivindicación 2, en el que la obtención de componentes de señal con decodificación matricial incluye aplicar una decodificación matricial a dichas señales de audio de entrada, decodificación matricial que está adaptada para proporcionar señales de audio primera y segunda asociadas cada una con una dirección de sonido envolvente trasera y en el que dichos factores de escala de ganancia incluyen además un factor de escala de ganancia de componente de señal con codificación matricial que cambia dinámicamente aplicado a cada una de las señales de audio primera y segunda asociadas con una dirección de sonido envolvente trasera.

4. Método según la reivindicación 3, en el que dicho factor de escala de ganancia de componente de señal con codificación matricial es una función de una medida de correlación cruzada de dichas señales de audio de entrada.

5. Método según la reivindicación 4, en el que el factor de escala de ganancia de componente de señal con codificación matricial que cambia dinámicamente aumenta a medida que aumenta el grado de correlación cruzada y disminuye a medida que disminuye el grado de correlación cruzada.

6. Método según una cualquiera de las reivindicaciones 3 a 5, en el que dichos factores de escala de ganancia incluyen además un factor de escala de ganancia de canales de audio de sonido envolvente que cambia dinámicamente para controlar adicionalmente la ganancia de los canales de audio de sonido envolvente.

7. Método según la reivindicación 6, en el que el factor de escala de ganancia de los canales de audio de sonido envolvente es una función de una medida de correlación cruzada de dichas señales de audio de entrada.

8. Método según la reivindicación 7, en el que el método se lleva a cabo en el dominio tiempo-frecuencia o en el que el método se lleva a cabo en una o más bandas de frecuencia en el dominio tiempo-frecuencia.

9. Método según la reivindicación 2, en el que dicho factor de escala de ganancia de componente de señal de sonido ambiente es una función de una medida de correlación cruzada de dichas señales de audio de entrada.

10. Método según la reivindicación 9, en el que dicha medida de correlación cruzada se alisa temporalmente, o en el que la medida de correlación cruzada se alisa temporalmente empleando un integrador con pérdidas dependiente de la señal, o en el que la medida de correlación cruzada se alisa temporalmente empleando una media móvil.

11. Método según la reivindicación 10, en el que el alisado temporal es adaptativo en cuanto a la señal.

12. Método según una cualquiera de las reivindicaciones 1 a 11, en el que la obtención de componentes de señal de sonido ambiente incluye aplicar al menos una secuencia de filtro de decorrelación.

13. Método según la reivindicación 12, en el que se aplica la misma secuencia de filtro de decorrelación a cada una de dichas señales de audio de entrada, o en el que se aplica una secuencia de filtro de decorrelación diferente a cada una de dichas señales de audio de entrada.

14. Aparato adaptado para llevar a cabo los métodos según una cualquiera de las reivindicaciones 1 a 13.

15. Programa informático, almacenado en un medio legible por ordenador, para hacer que un ordenador lleve a cabo los métodos según una cualquiera de las reivindicaciones 1 a 13.