ES2358786T3 - Derivación híbrida de canales de audio de sonido envolvente combinando de manera controlable componentes de señal de sonido ambiente y con decodificación matricial. - Google Patents
Derivación híbrida de canales de audio de sonido envolvente combinando de manera controlable componentes de señal de sonido ambiente y con decodificación matricial. Download PDFInfo
- Publication number
- ES2358786T3 ES2358786T3 ES08768203T ES08768203T ES2358786T3 ES 2358786 T3 ES2358786 T3 ES 2358786T3 ES 08768203 T ES08768203 T ES 08768203T ES 08768203 T ES08768203 T ES 08768203T ES 2358786 T3 ES2358786 T3 ES 2358786T3
- Authority
- ES
- Spain
- Prior art keywords
- gain
- matrix
- signal
- sound
- channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009795 derivation Methods 0.000 title description 4
- 230000007613 environmental effect Effects 0.000 title 1
- 230000005236 sound signal Effects 0.000 claims abstract description 98
- 239000011159 matrix material Substances 0.000 claims description 110
- 238000000034 method Methods 0.000 claims description 62
- 238000009499 grossing Methods 0.000 claims description 12
- 230000007423 decrease Effects 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 description 26
- 230000006870 function Effects 0.000 description 24
- 230000008569 process Effects 0.000 description 20
- 238000002156 mixing Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 14
- 230000003595 spectral effect Effects 0.000 description 14
- 230000004044 response Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000012546 transfer Methods 0.000 description 8
- 230000001174 ascending effect Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004091 panning Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000011144 upstream manufacturing Methods 0.000 description 5
- 239000000654 additive Substances 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000610375 Sparisoma viride Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
Método para obtener dos canales de audio de sonido envolvente a partir de dos señales de audio de entrada, en el que dichas señales de audio de entrada pueden incluir componentes generadas mediante codificación matricial, que comprende obtener (4) componentes de señal de sonido ambiente a partir de dichas señales de audio de entrada, obtener (2) componentes de señal con decodificación matricial a partir de dichas señales de audio de entrada, y combinar (14, 16) de manera controlable componentes de señal de sonido ambiente y componentes de señal con decodificación matricial para proporcionar dichos canales de audio de sonido envolvente, caracterizado porque dicha combinación de manera controlable incluye aplicar (6, 8, 10, 12) factores de escala de ganancia basándose en la correlación de dichas señales de audio de entrada.
Description
Derivación híbrida de canales de audio de sonido
envolvente combinando de manera controlable componentes de señal de
sonido ambiente y con decodificación matricial.
\global\parskip0.930000\baselineskip
La invención se refiere al procesamiento de
señales de audio. Más particularmente, se refiere a la obtención de
componentes de señal de sonido ambiente a partir de señales de audio
fuente, la obtención de componentes de señal con decodificación
matricial a partir de las señales de audio fuente, y la combinación
de manera controlable de las componentes de señal de sonido ambiente
con las componentes de señal con decodificación matricial.
[1] C. Avendano y Jean-Marc Jot,
"Frequency Domain Techniques for Stereo to Multichannel Upmix",
22ª conf. Int. de la AES sobre Virtual, Synthetic Entertainment
Audio.
[2] E. Zwicker, H. Fastl,
"Psycho-acoustics", Segunda Edición, Springer,
1990, Alemania.
[3] B. Crockett, "Improved Transient
Pre-Noise Performance of Low Bit Rate Audio Coders
Using Time Scaling Synthesis", Artículo nº. 6184, 117ª
Conferencia de la AES, San Francisco, Oct. 2004.
[4] Solicitud de patente estadounidense n.º de
serie 10/478.538, PCT presentada el 26 de febrero de 2002, publicada
como US 2004/0165730 A1 el 26 de agosto de 2004, "Segmenting Audio
Signals into Auditory Events", Brett G. Crockett.
[5] A. Seefeldt, M. Vinton, C. Robinson, "New
Techniques in Spatial Audio Coding", Artículo nº. 6587, 119ª
Conferencia de la AES, New York, Oct 2005.
[6] Solicitud de patente estadounidense n.º de
serie 10/474.387, PCT presentada el 12 de febrero de 2002, publicada
como US 2004/0122662 A1 el 24 de junio de 2004, "High Quality
Time-Scaling and Pitch-Scaling of
Audio Signals", Brett Graham Crockett.
[7] Solicitud de patente estadounidense n.º de
serie 10/476.347, PCT presentada el 25 de abril de 2002, publicada
como US 2004/0133423 A1 el 8 de julio de 2004, "Transient
Performance of Low Bit Rate Audio Coding Systems By Reducing
Pre-Noise", Brett Graham Crockett.
[8] Solicitud de patente estadounidense n.º de
serie 10/478.397, PCT presentada el 22 de febrero de 2002, publicada
como US 2004/0172240 A1 el 8 de julio de 2004, "comparing Audio
Using Characterizations Based on Auditory Events", Brett G.
Crockett et al.
[9] Solicitud de patente estadounidense n.º de
serie 10/478.398, PCT presentada el 25 de febrero de 2002, publicada
como US 2004/0148159 A1 el 29 de julio de 2004, "Method for Time
Aligning Audio Signals Using Characterizations Based on Auditory
Events", Brett G. Crockett et al.
[10] Solicitud de patente estadounidense n.º de
serie 10/478.398, PCT presentada el 25 de febrero de 2002, publicada
como US 2004/0148159 A1 el 29 de julio de 2004, "Method for Time
Aligning Audio Signals Using Characterizations Based on Auditory
Events", Brett G. Crockett et al.
[11] Solicitud de patente estadounidense n.º de
serie 10/911,404, PCT presentada el 3 de agosto de 2004, publicada
como US 2006/0029239 A1 el 9 de febrero de 2006, "Method for
Combining Audio Signals Using Auditory Scene Analysis", Michael
John Smithers.
[12] Solicitud internacional publicada según el
Tratado de Cooperación en Materia de Patentes,
PCT/US2006/
020882, fecha de presentación internacional 26 de mayo de 2006, designación de los Estados Unidos, publicada como WO 2006/132857 A2 y A3 el 14 de diciembre de 2006, "Channel Reconfiguration with Side Information", Alan Jeffrey Seefeldt, et al.
020882, fecha de presentación internacional 26 de mayo de 2006, designación de los Estados Unidos, publicada como WO 2006/132857 A2 y A3 el 14 de diciembre de 2006, "Channel Reconfiguration with Side Information", Alan Jeffrey Seefeldt, et al.
[13] Solicitud internacional publicada según el
Tratado de Cooperación en Materia de Patentes,
PCT/US2006/
028874, fecha de presentación internacional 24 de julio de 2006, designación de los Estados Unidos, publicada como WO 2007/016107 A2 el 8 de febrero de 2007, "Controlling Spatial Audio Coding Parameters as a Function of Auditory Events", Alan Jeffrey Seefeldt, et al.
028874, fecha de presentación internacional 24 de julio de 2006, designación de los Estados Unidos, publicada como WO 2007/016107 A2 el 8 de febrero de 2007, "Controlling Spatial Audio Coding Parameters as a Function of Auditory Events", Alan Jeffrey Seefeldt, et al.
[14] Solicitud internacional publicada según el
Tratado de Cooperación en Materia de Patentes,
PCT/US2007/
004904, fecha de presentación internacional 22 de febrero de 2007, designación de los Estados Unidos, publicada como WO 2007/106234 A1 el 20 de septiembre 2007, "Rendering Center Channel Audio", Mark Stuart Vinton.
004904, fecha de presentación internacional 22 de febrero de 2007, designación de los Estados Unidos, publicada como WO 2007/106234 A1 el 20 de septiembre 2007, "Rendering Center Channel Audio", Mark Stuart Vinton.
[15] Solicitud internacional publicada según el
Tratado de Cooperación en Materia de Patentes,
PCT/US2007/
008313, fecha de presentación internacional 30 de marzo de 2007, designación de los Estados Unidos, publicada como WO 2007/127023 el 8 de noviembre de 2007, "Audio Gain Control Using Specific Loudness-Based Auditory Event Detection", Brett G. Crockett, et al.
008313, fecha de presentación internacional 30 de marzo de 2007, designación de los Estados Unidos, publicada como WO 2007/127023 el 8 de noviembre de 2007, "Audio Gain Control Using Specific Loudness-Based Auditory Event Detection", Brett G. Crockett, et al.
\global\parskip1.000000\baselineskip
La creación de material de audio multicanal a
partir de o bien material estereofónico de dos canales con
codificación matricial convencional (en el que los canales a menudo
se designan como "Lt" y "Rt") o bien material
estereofónico de dos canales sin codificación matricial (en el que
los canales a menudo se designan como "Lo" y "Ro") se
mejora mediante la derivación de canales envolventes. Sin embargo,
el papel de los canales envolventes para cada tipo de señal
(material con codificación matricial y sin codificación matricial)
es bastante diferente. Para el material sin codificación matricial,
usar los canales envolventes para resaltar el ambiente del material
original a menudo produce resultados agradables para el oído. Sin
embargo, para el material con codificación matricial es deseable
recrear o aproximar las imágenes de sonido panorámico de los canales
envolventes originales. Además, es deseable proporcionar una
disposición que procese automáticamente los canales envolventes de
la forma más apropiada, independientemente del tipo de entrada (o
bien con codificación matricial o bien sin codificación matricial),
sin necesidad de que el oyente seleccione un modo de
decodificación.
En la actualidad, existen muchas técnicas para
el mezclado ascendente de dos canales a múltiples canales. Tales
técnicas varían desde decodificadores matriciales pasivos o fijos
sencillos hasta decodificadores matriciales activos así como
técnicas de extracción de sonido ambiente para derivación de canal
envolvente. Más recientemente, las técnicas de extracción de sonido
ambiente en el dominio de frecuencia para derivar los canales
envolventes (véase, por ejemplo, la referencia 1) han demostrado ser
prometedoras para crear experiencias de multicanal placenteras. Sin
embargo, tales técnicas no vuelven a obtener imágenes de canal
envolvente a partir de material con codificación matricial (LtRt)
porque están diseñadas principalmente para material sin codificación
matricial (LoRo). Alternativamente, los decodificadores matriciales
pasivos y activos realizan razonablemente un buen trabajo de
aislamiento de imágenes panorámicas envolventes para el material con
codificación matricial. Sin embargo, las técnicas de extracción de
sonido ambiente proporcionan un rendimiento mejor para material sin
codificación material de lo que lo hace la decodificación
matricial.
Con la generación actual de mezcladores
ascendentes a menudo se requiere que el oyente cambie el sistema de
mezclado ascendente para seleccionar el que mejor se ajusta al
material de audio de entrada. Por tanto, un objeto de la presente
invención es crear señales de canal envolvente que sean agradables
para el oído tanto para material con codificación matricial como sin
codificación matricial sin que se requiera que un usuario cambie
entre modos de decodificación de la operación.
C. Faller, "Matrix Surround Revisited", 30ª
conferencia internacional de la AES, marzo de 2007, da a conocer un
método para obtener dos canales de audio de sonido envolvente a
partir de dos señales de audio de entrada, en el que las señales de
audio de entrada pueden incluir componentes generadas mediante
codificación matricial, que comprende obtener componentes de señal
de sonido ambiente a partir de las señales de audio de entrada,
obtener componentes de señal con decodificación matricial a partir
de las señales de audio de entrada, y combinar de manera controlable
componentes de señal de sonido ambiente y componentes de señal con
decodificación matricial para proporcionar los canales de audio de
sonido envolvente. Según la presente invención, según la
reivindicación 1, este método se caracteriza porque dicha
combinación de manera controlable incluye aplicar factores de escala
de ganancia basándose en la correlación de dichas señales de audio
de entrada.
Según aspectos de la presente invención, la
obtención de componentes de señal de sonido ambiente puede incluir
aplicar un factor de escala de ganancia de componente de señal de
sonido ambiente que cambia dinámicamente a una señal de audio de
entrada. El factor de escala de ganancia de componente de señal de
sonido ambiente puede ser una función de una medida de correlación
cruzada de las señales de audio de entrada, en el que, por ejemplo,
el factor de escala de ganancia de componente de señal de sonido
ambiente disminuye a medida que aumenta el grado de correlación
cruzada y viceversa. La medida de correlación cruzada puede alisarse
temporalmente y, por ejemplo, la medida de correlación cruzada puede
alisarse temporalmente empleando un integrador con pérdidas
dependiente de la señal o, alternativamente, empleando una media
móvil. El alisado temporal puede ser adaptativo en cuanto a la
señal de manera que, por ejemplo, el alisado temporal se adapta en
respuesta a cambios en la distribución espectral.
Según aspectos de la presente invención, la
obtención de componentes de señal de sonido ambiente puede incluir
aplicar al menos una secuencia de filtro de decorrelación. Puede
aplicarse la misma secuencia de filtro de decorrelación a cada una
de las señales de audio de entrada o, alternativamente, puede
aplicarse una secuencia de filtro de decorrelación diferente a cada
una de las señales de audio de entrada.
Según aspectos adicionales de la presente
invención, la obtención de componentes de señal con decodificación
matricial puede incluir aplicar una decodificación matricial a las
señales de audio de entrada, decodificación matricial que está
adaptada para proporcionar señales de audio primera y segunda
asociadas cada una con una dirección de sonido envolvente
trasera.
Según aspectos de la presente invención, los
factores de escala de ganancia pueden incluir el factor de escala de
ganancia de componente de señal de sonido ambiente que cambia
dinámicamente aplicado en la obtención de componentes de señal de
sonido ambiente. Los factores de escala de ganancia pueden incluir
además un factor de escala de ganancia de componente de señal con
decodificación matricial que cambia dinámicamente aplicado a cada
una de las señales de audio primera y segunda asociadas con una
dirección de sonido envolvente trasera. El factor de escala de
ganancia de componente de señal con codificación matricial puede ser
una función de una medida de correlación cruzada de las señales de
audio de entrada, en el que, por ejemplo, el factor de escala de
ganancia de componente de señal con codificación matricial que
cambia dinámicamente aumenta a medida que aumenta el grado de
correlación cruzada y disminuye a medida que disminuye el grado de
correlación cruzada. El factor de escala de ganancia de componente
de señal con codificación matricial que cambia dinámicamente y el
factor de escala de ganancia de componente de señal de sonido
ambiente que cambia dinámicamente pueden aumentar y disminuir uno
con respecto al otro de una manera que conserva la energía combinada
de las componentes de señal con decodificación matricial y las
componentes de señal de sonido ambiente. Los factores de escala de
ganancia pueden incluir además un factor de escala de ganancia de
canales de audio de sonido envolvente que cambia dinámicamente para
controlar adicionalmente la ganancia de los canales de audio de
sonido envolvente. El factor de escala de ganancia de los canales de
audio de sonido envolvente puede ser una función de una medida de
correlación cruzada de las señales de audio de entrada en el que,
por ejemplo, la función hace que el factor de escala de ganancia de
los canales de audio de sonido envolvente aumente a medida que
disminuye la medida de correlación cruzada hasta un valor por debajo
del cual disminuye el factor de escala de ganancia de los canales de
audio de sonido envolvente.
Diversos aspectos de la presente invención
pueden llevarse a cabo en el dominio
tiempo-frecuencia en el que, por ejemplo, los
aspectos de la invención pueden llevarse a cabo en una o más bandas
de frecuencia en el dominio tiempo-frecuencia.
El mezclado ascendente de o bien material de
audio de dos canales con codificación matricial o bien material de
dos canales sin codificación matricial normalmente requiere la
generación de canales envolventes. Los sistemas de decodificación
matricial ampliamente conocidos funcionan bien para el material con
codificación matricial, mientras que las técnicas de
"extracción" de sonido ambiente funcionan bien para el material
sin codificación matricial. Para enviar la necesidad de que el
oyente cambie entre dos modos de mezclado ascendente, aspectos de la
presente invención combinan de manera variable entre decodificación
matricial y extracción de sonido ambiente para proporcionar
automáticamente un mezclado ascendente apropiado para un tipo de
señal de entrada actual. Para lograr esto, una medida de correlación
cruzada entre los canales de entrada originales controla la
proporción de componentes de señal directa desde un decodificador
matricial parcial ("parcial" en el sentido de que el
decodificador matricial sólo necesita decodificar los canales
envolventes) y componentes de señal de sonido ambiente. Si los dos
canales de entrada están altamente correlacionados, entonces se
aplican más componentes de señal directa que componentes de señal de
sonido ambiente a los canales de canal envolvente. A la inversa, si
los dos canales de entrada están decorrelacionados, entonces se
aplican más componentes de señal de sonido ambiente que componentes
de señal directa a los canales de canal envolvente.
Las técnicas de extracción de sonido ambiente,
tales como las dadas a conocer en la referencia 1, eliminan
componentes de audio de sonido ambiente de los canales delantero
originales y las trasladan de manera panorámica a canales
envolventes, que pueden reforzar la anchura de los canales
delanteros y mejorar la sensación de envolvimiento. Sin embargo, las
técnicas de extracción de sonido ambiente no trasladan de manera
panorámica imágenes discretas a los canales envolventes. Por otra
parte, las técnicas de decodificación matricial realizan
relativamente un buen trabajo de traslado panorámico de imágenes
directas ("directas" en el sentido de un sonido que tiene una
trayectoria directa desde la ubicación fuente hasta la del oyente en
contraposición a un sonido de ambiente o reverberante que se refleja
o "indirecto") a canales envolventes y, por tanto, pueden
reconstruir material con codificación matricial de manera más
fiable. Para aprovechar los puntos fuertes de ambos sistemas de
decodificación, un aspecto de la presente invención es un híbrido de
extracción de sonido ambiente y decodificación matricial.
Un objetivo de la invención es crear una señal
multicanal agradable para el oído a partir de una señal de dos
canales a la que o bien se ha aplicado codificación matricial o bien
no se le ha aplicado codificación matricial sin necesidad de que un
oyente cambie los modos. Por simplicidad, la invención se describe
en el contexto de un sistema de cuatro canales que emplea canales
izquierdo, derecho, envolvente izquierdo y envolvente derecho. La
invención, sin embargo, puede ampliarse a cinco canales o más.
Aunque puede emplearse cualquiera de diversas técnicas conocidas
para proporcionar un canal central como quinto canal, una técnica
particularmente útil se describe en una solicitud internacional
publicada según el Tratado de Cooperación en Materia de Patentes WO
2007/106324 A1, presentada el 22 de febrero de 2007 y publicada el
20 de septiembre de 2007, titulada "Rendering Center Channel
Audio" de Mark Stuart Vinton.
La figura 1 muestra un diagrama de bloques
funcional esquemático de un dispositivo o proceso para derivar dos
canales de audio de sonido envolvente a partir de dos señales de
audio de entrada según aspectos de la presente invención.
La figura 2 muestra un diagrama de bloques
funcional esquemático de un mezclador ascendente o proceso de
mezclado ascendente de audio según aspectos de la presente invención
en los que el procesamiento se lleva a cabo en el dominio
tiempo-frecuencia. Una parte de la disposición de la
figura 2 incluye una realización de dominio
tiempo-frecuencia del dispositivo o proceso de la
figura 1.
\newpage
La figura 3 representa un par de ventanas de
análisis/síntesis adecuado para dos bloques de tiempo de
transformada discreta de Fourier en tiempo corto (STDFT)
consecutivos que pueden usarse en una transformada de
tiempo-frecuencia que puede emplearse para poner en
práctica aspectos de la presente invención.
La figura 4 muestra un gráfico de la frecuencia
central de cada banda en hercios para una tasa de muestreo de 44100
Hz que puede emplearse para poner en práctica aspectos de la
presente invención en los que se aplican factores de escala de
ganancia a coeficientes respectivos en bandas espectrales que tienen
cada una aproximadamente una mitad de anchura de banda crítica.
La figura 5 muestra, en un gráfico del
coeficiente de alisado (eje vertical) frente al número de bloque de
transformada (eje horizontal), una respuesta a modo de ejemplo del
parámetro alfa de un integrador con pérdidas dependiente de la señal
que puede usarse como un estimador usado para reducir la varianza en
el tiempo de una medida de correlación cruzada para poner en
práctica aspectos de la presente invención. La aparición de un
límite de evento auditivo aparece como una fuerte caída en el
coeficiente de alisado en el límite de bloque justo antes del bloque
20.
La figura 6 muestra un diagrama de bloques
funcional esquemático de la parte de obtención de sonido envolvente
del mezclador ascendente o proceso de mezclado ascendente de audio
de la figura 2 según aspectos de la presente invención. Por
simplicidad en la presentación, la figura 6 muestra una
representación esquemática del flujo de señal en una de múltiples
bandas de frecuencia, entendiéndose que las acciones combinadas en
todas las múltiples bandas de frecuencia producen los canales de
audio de sonido envolvente L_{S} y R_{S}.
La figura 7 muestra un gráfico de los factores
de escala de ganancia G'_{F} y G'_{B} (eje vertical)
frente al coeficiente de correlación (\rho_{LR}(m,b))
(eje horizontal).
La figura 1 muestra un diagrama de bloques
funcional esquemático de un dispositivo o proceso para derivar dos
canales de audio de sonido envolvente a partir de dos señales de
audio de entrada según aspectos de la presente invención. Las
señales de audio de entrada pueden incluir componentes generadas
mediante codificación matricial. Las señales de audio de entrada
pueden ser dos canales de audio estereofónicos, que representan
generalmente direcciones de sonido izquierda y derecha. Tal como se
mencionó anteriormente, para el material estereofónico de dos
canales con codificación matricial convencional, los canales a
menudo se designan "Lt" y "Rt", y para el material
estereofónico de dos canales sin codificación matricial, los canales
a menudo se designan "Lo" y "Ro". Por tanto, para indiciar
que las señales de audio de entrada pueden ser con codificación
matricial algunas veces y sin codificación matricial otras veces,
las entradas se marcan como "Lo/Lt" y "Ro/Rt" en la figura
1.
Ambas señales de audio de entrada en el ejemplo
de la figura 1 se aplican a un decodificador matricial parcial o
función de decodificación ("decodificador 2 matricial parcial")
que genera componentes de señal con decodificación matricial en
respuesta al par de señales de audio de entrada. Las componentes de
señal con decodificación matricial se obtienen a partir de las dos
señales de audio de entrada. En particular, el decodificador 2
matricial parcial está adaptado para proporcionar señales de audio
primera y segunda asociadas cada una con una dirección de sonido
envolvente trasera (tal como envolvente izquierda y envolvente
derecha). Así, por ejemplo, el decodificador 2 matricial parcial
puede implementarse como la parte de canales envolventes de un
decodificador matricial o función de decodificación 2:4 (es decir,
un decodificador matricial o función de decodificación
"parcial"). El decodificador matricial puede ser pasivo o
activo. El decodificador 2 matricial parcial puede caracterizarse
por ser una "trayectoria (o trayectorias) de señal directa"
(donde "directa" se usa en el sentido explicado anteriormente)
(véase la figura 6, descrita más adelante).
En el ejemplo de la figura 1, ambas entradas
también se aplican al elemento 4 ambiente que puede ser cualquiera
de diversos dispositivos o funciones de generación, derivación o
extracción de sonido ambiente bien conocidos que funcionan en
respuesta a una o dos señales de audio de entrada para proporcionar
una o dos salidas de componentes de señal de sonido ambiente. Las
componentes de señal de sonido ambiente se obtienen a partir de dos
señales de audio de entrada. El elemento 4 ambiente puede incluir
dispositivos y funciones (1) en los que el sonido ambiente puede
caracterizarse por "extraerse" a partir de la(las)
señal(es) de entrada (a la manera, por ejemplo, de un
extractor de sonido ambiente Habler de los años 1950 en el que se
derivan una o más señales de diferencia (L-R,
R-L) a partir de señales estereofónicas izquierda y
derecha o un extractor de sonido ambiente en el dominio
tiempo-frecuencia moderno como en la referencia (1)
y (2) en el que el sonido ambiente puede caracterizarse por
"añadirse" a o "generarse" en respuesta a la(las)
señal(es) de entrada (a la manera, por ejemplo, de un
reverberador digital (línea de retardo, convolucionador, etc.) o
analógico (cámara, placa, muelle, línea de retardo, etc.)).
En los extractores de sonido ambiente en el
dominio de la frecuencia modernos, la extracción de sonido ambiente
puede lograrse monitorizando la correlación cruzada entre los
canales de entrada, y extrayendo las componentes de la señal en
tiempo y/o frecuencia que están decorrelacionadas (tienen un
coeficiente de correlación pequeño, próximo a cero). Para
intensificar adicionalmente la extracción de sonido ambiente, puede
aplicarse decorrelación en la trayectoria de la señal de sonido
ambiente para mejorar la sensación de separación delantera/trasera.
No debe confundirse una decorrelación de este tipo con las
componentes de señal decorrelacionadas extraídas o los procesos o
dispositivos usados para extraerlas. El fin de una decorrelación de
este tipo es reducir cualquier correlación residual entre los
canales delanteros y los canales envolventes obtenidos. Véase el
apartado el apartado más adelante titulado "Decorrelacionadores
para canales envolventes".
En el caso de una señal de audio de entrada y
dos señales de sonido ambiente de salida, pueden combinarse las dos
señales de audio de entrada, o puede usarse sólo una de ellas. En el
caso de dos entradas y una salida, puede usarse la misma salida para
ambas salidas de señal de sonido ambiente. En el caso de dos
entradas y dos salidas, el dispositivo o función puede operar
independientemente sobre cada entrada de modo que cada salida de
señal de sonido ambiente sea en respuesta sólo a una entrada
particular, o, alternativamente, las dos salidas pueden ser en
respuesta y dependientes de ambas entradas. El elemento 4 ambiente
puede caracterizarse por estar en una "trayectoria (o
trayectorias) de señal de sonido ambiente".
En el ejemplo de la figura 1, las componentes de
señal de sonido ambiente y las componentes de señal con
decodificación matricial se combinan de manera controlable para
proporcionar dos canales de audio de sonido envolvente. Esto puede
realizarse de la manera mostrada en la figura 1 o de una manera
equivalente. En el ejemplo de la figura 1, se aplica un factor de
escala de ganancia de componente de señal con codificación matricial
que cambia dinámicamente a ambas salidas del decodificador 2
matricial parcial. Esto se muestra como la aplicación del mismo
factor de escala de "ganancia de trayectoria directa" a cada
uno de dos multiplicadores 6 y 8, cada uno en una trayectoria de
salida del decodificador 2 matricial parcial. Se aplica un factor de
escala de ganancia de componente de señal de sonido ambiente que
cambia dinámicamente a ambas salidas del elemento 4 ambiente. Esto
se muestra como la aplicación del mismo factor de escala de
"ganancia de trayectoria de sonido ambiente" a cada uno de dos
multiplicadores 10 y 12, cada uno en una salida del elemento 4
ambiente. La salida con decodificación matricial ajustada
dinámicamente en ganancia del multiplicador 6 se suma a la salida de
sonido ambiente ajustada en ganancia dinámicamente del multiplicador
10 en un combinador 14 aditivo (mostrado como un símbolo de
sumatorio \Sigma) para producir una de las salidas de sonido
envolvente. La salida con decodificación matricial ajustada dinámica
en ganancia del multiplicador 8 se suma a la salida de sonido
ambiente ajustada dinámica en ganancia del multiplicador 12 en un
combinador 16 aditivo (mostrado como un símbolo de sumatorio
\Sigma) para producir la otra salida de sonido envolvente. Para
proporcionar la salida de envolvente izquierda (L_{S}) desde el
combinador 14, la señal con decodificación matricial parcial
ajustada en ganancia desde el multiplicador 6 debe obtenerse a
partir de la salida de envolvente izquierda del decodificador 2
matricial parcial y la señal de sonido ambiente ajustada en ganancia
del multiplicador 10 debe obtenerse a partir de una salida del
elemento 4 ambiente prevista para la salida de envolvente izquierda.
De manera similar, para proporcionar la salida de envolvente derecha
(R_{S}) desde el combinador 16, la señal con decodificación
matricial parcial ajustada en ganancia del multiplicador 8 debe
obtenerse a partir de la salida de envolvente derecha del
decodificador 2 matricial parcial y la señal de sonido ambiente
ajustada en ganancia del multiplicador 12 debe obtenerse a partir de
una salida del elemento 4 ambiente prevista para la salida de
envolvente derecha.
La aplicación de factores de escala de ganancia
que cambian dinámicamente a una señal que alimenta una salida de
sonido envolvente puede caracterizarse como un "traslado
panorámico" de esa señal hacia y desde tal salida de sonido
envolvente.
La trayectoria de señal directa y la trayectoria
de señal de sonido ambiente se ajustan en ganancia para proporcionar
la cantidad apropiada de audio de señal directa y audio de señal de
sonido ambiente basándose en la señal entrante. Si las señales de
entrada están bien correlacionadas, entonces debe estar presente una
gran proporción de la trayectoria de señal directa en las señales de
canal envolvente finales. Alternativamente, si las señales de
entrada están sustancialmente decorrelacionadas, entonces debe estar
presente una gran proporción de la trayectoria de señal de sonido
ambiente en las señales de canal envolvente finales.
Debido a que parte de la energía acústica de las
señales de entrada se pasa a los canales envolventes, puede ser
deseable, además, ajustar las ganancias de los canales delanteros,
de modo que la presión acústica reproducida total permanezca
sustancialmente sin cambios. Véase el ejemplo de la figura 2.
Debe observarse que cuando se emplea una técnica
extracción de sonido ambiente en el dominio
tiempo-frecuencia como en la referencia 1, la
extracción de sonido ambiente puede llevarse a cabo mediante la
aplicación de un factor de escala de ganancia de componente de señal
de sonido ambiente que cambia dinámicamente adecuado a cada una de
las señales de audio de entrada. En ese caso, puede considerarse que
el bloque 4 ambiente incluye los multiplicadores 10 y 12, de manera
que se aplica el factor de escala de ganancia de trayectoria de
sonido ambiente a cada una de las señales de entrada de audio Lo/Lt
y Ro/Rt independientemente.
En sus aspectos más amplios, la invención, tal
como se caracteriza en el ejemplo de la figura 1, puede
implementarse (1) en el dominio tiempo-frecuencia o
en el dominio de frecuencia, (2) según la banda o por ancho de banda
(en referencia a bandas de frecuencia), y (3) de una manera
analógica, digital o híbrida analógica/digital.
Aunque la técnica de combinación cruzada de
material de audio con decodificación matricial parcial con señales
de sonido ambiente para crear los canales envolventes puede
realizarse por ancho de banda, el rendimiento puede mejorarse
calculando los canales envolventes deseados en cada una de una
pluralidad de bandas de frecuencia. Una forma posible de derivar los
canales envolventes deseados en bandas de frecuencia es emplear una
transformada discreta de Fourier en tiempo corto superpuesta tanto
para el análisis de la señal de dos canales original como para la
síntesis final de la señal multicanal. Sin embargo, existen muchas
más técnicas ampliamente conocidas que permiten la segmentación de
señal tanto en tiempo como en frecuencia para el análisis y la
síntesis (por ejemplo, bancos de filtros, filtros espejo en
cuadratura, etc.).
\newpage
La figura 2 muestra un diagrama de bloques
funcional esquemático de un mezclador ascendente o proceso de
mezclado ascendente de audio según aspectos de la presente invención
en los que el procesamiento se lleva a cabo en el dominio
tiempo-frecuencia. Una parte de la disposición de la
figura 2 incluye una realización en el dominio
tiempo-frecuencia del dispositivo o proceso de la
figura 1. Se aplican un par de señales de entrada estereofónicas
Lo/Lt y Ro/Rt al mezclador ascendente o proceso de mezclado
ascendente. En el ejemplo de la figura 2 y en otros ejemplos en el
presente documento en los que el procesamiento se lleva a cabo en el
dominio tiempo-frecuencia, los factores de escala
de ganancia pueden actualizarse dinámicamente con la misma
frecuencia que la tasa de bloque de transformada o a una tasa de
bloque con alisamiento en el tiempo.
Aunque, en principio, los aspectos de la
invención pueden ponerse en práctica mediante realizaciones
analógicas, digitales o híbridas analógicas/digitales, el ejemplo de
la figura 2 y otros ejemplos tratados más adelante son realizaciones
digitales. Así, las señales de entrada pueden ser muestras de tiempo
que pueden haberse derivado a partir de señales de audio analógicas.
Las muestras de tiempo pueden codificarse como señales de modulación
por impulsos codificados (PCM) lineales. Cada señal de entrada de
audio de PCM lineal puede procesarse mediante un dispositivo o
función de banco de filtros que tiene tanto una salida en fase como
una en cuadratura, tal como una transformada discreta de Fourier en
tiempo corto (STDFT) con ventanas de 2048 puntos.
Así, las señales de entrada estereofónicas de
dos canales pueden convertirse al dominio de frecuencia usando un
dispositivo o proceso de transformada discreta de Fourier en tiempo
corto (STDFT) ("transformada 20 de
tiempo-frecuencia") y pueden agruparse en bandas
(agrupamiento no mostrado). Cada banda pude procesarse
independientemente. Una trayectoria de control calcula en un
dispositivo o función de ("cálculo 22 de ganancia
trasera/delantera") las razones de factor de escala de ganancia
delantera/trasera (G_{F} y G_{B}) (véanse las
ecuaciones 12 y 13 y la figura 7 y su descripción, más adelante).
Para un sistema de cuatro canales, las dos señales de entrada pueden
multiplicarse por el factor de escala de ganancia delantera
G_{F} (mostrado como los símbolos 24 y 26 de
multiplicación) y pasarse a través de un proceso de transformada o
transformada inversa ("transformada 28 de
frecuencia-tiempo") para proporcionar los canales
de salida izquierdo y derecho L'o/L't y R'o/R't, que pueden diferir
en nivel respecto a las señales de entrada debido al ajuste a escala
de la ganancia G_{F}. Las señales de canal envolvente
L_{S} y R_{S}, obtenidas a partir de una versión en el dominio
tiempo-frecuencia del dispositivo o proceso de la
figura 1 ("generación 30 de canal envolvente"), que representa
una combinación variable de componentes de audio de sonido ambiente
y componentes de audio con decodificación matricial, se multiplican
por el factor de escala de ganancia trasera G_{B} (mostrado
como los símbolos 32 y 34 de multi-
plicación) antes de un proceso de transformada o transformada inversa ("transformada 36 de frecuencia-tiempo").
plicación) antes de un proceso de transformada o transformada inversa ("transformada 36 de frecuencia-tiempo").
\vskip1.000000\baselineskip
La transformada 20 de
tiempo-frecuencia usada para generar dos canales
envolventes a partir de la señal de dos canales de entrada puede
basarse en la transformada discreta de Fourier en tiempo corto
(STDFT) ampliamente conocida. Para minimizar los efectos de
convolución circular, puede usarse una superposición del 75% tanto
para el análisis como para la síntesis. Con la elección apropiada de
las ventanas de análisis y síntesis, puede usarse una STDFT
superpuesta para minimizar los efectos de convolución circular
audibles, mientras se proporciona la capacidad para aplicar
modificaciones de magnitud y fase al espectro. Aunque el par de
ventanas particular no es crítico, la figura 3 representa un par de
ventanas de análisis/síntesis adecuado para dos bloques de tiempo de
STDFT consecutivos.
La ventana de análisis se diseña de modo que la
suma de las ventanas de análisis superpuestas sea igual a la unidad
para el espacio de superposición elegido. Puede emplearse el
cuadrado de una ventana derivada de Kaiser-Bessel
(KBD), aunque el uso de esta ventana particular no es crítico para
la invención. Con una ventana de análisis de este tipo, puede
sintetizarse una señal analizada perfectamente sin ventana de
síntesis si no se han realizado modificaciones en las STDFT de
superposición. Sin embargo, debido a las alteraciones de magnitud
aplicadas y a las secuencias de decorrelación usadas en esta
realización a modo de ejemplo, es deseable estrechar la ventana de
síntesis para evitar discontinuidades de bloque audibles. Los
parámetros de ventana usados en un sistema de codificación de audio
espacial a modo de ejemplo se enumeran a continuación.
Una realización a modo de ejemplo del mezclado
ascendente según aspectos de la presente invención calcula y aplica
los factores de escala de ganancia a coeficientes respectivos en
bandas espectrales con aproximadamente la mitad de anchura de banda
crítica (véase, por ejemplo, la referencia 2). La figura 4 muestra
un gráfico de la frecuencia central de cada banda en hercios para
una tasa de muestreo de 44100 Hz, y la tabla I da la frecuencia
central para cada banda para una tasa de muestreo de 44100 Hz.
En una disposición de mezclado ascendente a modo
de ejemplo según aspectos de la invención, se calcula en primer
lugar cada estadística y variable con respecto a una banda espectral
y luego se alisa a lo largo del tiempo. El alisado temporal de cada
variable es un IIR de primer orden sencillo tal como se muestra en
la ecuación 1. Sin embargo, el parámetro alfa se adapta
preferiblemente con el tiempo. Si se detecta un evento auditivo
(véase, por ejemplo, la referencia 3 o la referencia 4), el
parámetro alfa disminuye hasta un valor inferior y luego aumenta de
nuevo hasta un valor superior a lo largo del tiempo. Así, el sistema
se actualiza más rápidamente durante los cambios en el audio.
Un evento auditivo puede definirse como un
cambio brusco en la señal de audio, por ejemplo el cambio de nota de
un instrumento o el comienzo de la voz de un hablante. Por tanto,
tiene sentido que para el mezclado ascendente se cambien rápidamente
sus estimaciones estadísticas cerca de un punto de detección de
evento. Además, el sistema auditivo humano es menos sensible durante
el comienzo de transitorios/eventos, así, tales momentos en un
segmento de audio pueden usarse para ocultar la inestabilidad de las
estimaciones de las cantidades estadísticas del sistema. Un evento
puede detectarse mediante cambios en la distribución espectral entre
dos bloques adyacentes en el tiempo.
La figura 5 muestra una respuesta a modo de
ejemplo del parámetro alfa (véase la ecuación 1, justo a
continuación) en una banda cuando se detecta el comienzo de un
evento auditivo (el límite de evento auditivo está justo antes del
bloque 20 de transformada en el ejemplo de la figura 5). La ecuación
1 describe un integrador con pérdidas dependiente de la señal que
puede usarse como un estimador usado para reducir la varianza en el
tiempo de una medida de correlación cruzada (véase también la
explicación de la ecuación 4, más adelante).
Donde: C(n, b) es la variable
calculada con respecto a una banda espectral b en el bloque n, y
C'(n, b) es la variable tras el alisado temporal en el bloque n.
\vskip1.000000\baselineskip
La figura 6 muestra, en mayor detalle, un
diagrama de bloques funcional esquemático de la parte de obtención
de sonido envolvente del mezclador ascendente o proceso de mezclado
ascendente de audio de la figura 2 según aspectos de la presente
invención. Por simplicidad en la presentación, la figura 6 muestra
una representación esquemática del flujo de señal en una de
múltiples bandas de frecuencia, entendiéndose que las acciones
combinadas de todas las múltiples bandas de frecuencia producen los
canales de audio de sonido envolvente L_{S} y R_{S}.
Como se indica en la figura 6, cada una de las
señales de entrada (Lo/Lt y Ro/Rt) se divide en tres trayectorias.
La primera trayectoria es una "trayectoria 40 de control", que,
en este ejemplo, calcula los factores de escala de ganancia de razón
delantera/trasera (G_{F} y G_{B}) y los factores
de escala de ganancia de razón directa/sonido ambiente
(G_{D} y G_{A}) en un ordenador o función de
cálculo ("cálculo 42 de control por banda") que incluye un
dispositivo o proceso (no mostrado) para proporcionar una medida de
correlación cruzada de las señales de entrada. Las otras dos
trayectorias son una "trayectoria 44 de señal directa" y una
trayectoria 46 de señal de sonido ambiente, cuyas salidas se
combinan de manera controlable entre sí bajo el control de los
factores de escala de ganancia G_{D} y G_{A} para
proporcionar un par de señales de canal envolvente L_{S} y
R_{S}. La trayectoria de señal directa incluye un proceso de
decodificación o decodificador matricial pasivo ("decodificador 48
matricial pasivo"). Alternativamente, puede emplearse un
decodificador matricial activo en lugar del decodificador matricial
pasivo para mejorar la separación de canal envolvente en ciertas
condiciones de señal. Muchas de tales funciones de decodificación o
decodificadores matriciales activos se conocen bien en la técnica y
el uso de cualquiera de tales dispositivos o procesos particulares
no es crítico para la invención.
Opcionalmente, para mejorar adicionalmente el
efecto de envolvimiento creado trasladando de manera panorámica las
componentes de señal de sonido ambiente a los canales envolventes
mediante la aplicación del factor de escala de ganancia
G_{A}, las componentes de señal de sonido ambiente de las
señales de entrada izquierda y derecha pueden aplicarse a un
decorrelacionador respectivo o multiplicarse por una secuencia de
filtro de decorrelación respectiva ("decorrelacionador 50")
antes de combinarse con componentes de audio de imagen directa del
decodificador 48 matricial. Aunque los decorrelacionadores 50 pueden
ser idénticos entre sí, algunos oyentes pueden preferir el
rendimiento proporcionado cuando no son idénticos. Aunque puede
usarse cualquiera de muchos tipos de decorrelacionadores para la
trayectoria de señal de sonido ambiente, debe tenerse cuidado en
minimizar efectos de filtro de peine audibles que pueden producirse
al mezclar material de audio decorrelacionado con una señal no
decorrelacionada. Un decorrelacionador particularmente útil se
describe más adelante, aunque su uso no es crítico para la
invención.
La trayectoria 44 de señal directa puede
caracterizarse por incluir multiplicadores 52 y 54 respectivos en
los que se aplican factores de escala de ganancia de componente de
señal directa G_{D} a las componentes de señal con
decodificación matricial de envolvente izquierda y envolvente
derecha respectivas, cuyas salidas se aplican a su vez a
combinadores 56 y 58 aditivos respectivos (mostrado cada uno como un
símbolo de sumatorio \Sigma). Alternativamente, pueden aplicarse
factores de escala de ganancia de componente de señal directa
G_{D} a las entradas a la trayectoria 44 de señal directa.
Entonces puede aplicarse el factor de escala de ganancia trasera
G_{B} a la salida de cada combinador 56 y 58 en los
multiplicadores 64 y 66 para producir la salida de envolvente
izquierda y derecha L_{S} y R_{S}. Alternativamente, los
factores de escala de ganancia G_{B} y G_{D}
pueden multiplicarse entre sí y luego aplicarse a las componentes de
señal con codificación matricial de envolvente izquierda y
envolvente derecha respectivas antes de aplicar el resultado a los
combinadores 56 y 58.
La trayectoria de señal de sonido ambiente puede
caracterizarse por incluir multiplicadores 60 y 62 respectivos en
los que se aplican factores de escala de ganancia de componente de
señal de sonido ambiente G_{A} a las señales de entrada
izquierda y derecha respectivas, señales que pueden haberse aplicado
a decorrelacionadores 50 opcionales. Alternativamente, pueden
aplicarse factores de escala de ganancia de componente de señal de
sonido ambiente G_{A} a las entradas a la trayectoria 46 de
señal de sonido ambiente. La aplicación de los factores de escala de
ganancia de componente de señal de sonido ambiente que varían
dinámicamente G_{A} da como resultado la extracción de
componentes de señal de sonido ambiente a partir de las señales de
entrada izquierda y derecha, se emplee o no algún decorrelacionador
50. Tales componentes de señal de sonido ambiente izquierda y
derecha se aplican entonces a los combinadores 56 y 58 aditivos
respectivos. Si no se aplican tras los combinadores 56 y 58, el
factor de escala de ganancia G_{B} puede multiplicarse por
el factor de escala de ganancia G_{A} y aplicarse a las
componentes de señal de sonido ambiente izquierda y derecha antes de
aplicar el resultado a los combinadores 56 y 58.
Los cálculos de canal de sonido envolvente tal
como pueden requerirse en el ejemplo de la figura 6 pueden
caracterizarse tal como en las siguientes etapas y subetapas.
\vskip1.000000\baselineskip
Etapa
1
Tal como se muestra en la figura 6, la
trayectoria de control generas los factores de escala de ganancia
G_{F}, G_{B}, G_{D} y G_{A};
estos factores de escala de ganancia se calculan y se aplican en
cada una de las bandas de frecuencia. Debe observarse que el factor
de escala de ganancia G_{F} no se usa en la obtención de
los canales de sonido envolvente; puede aplicarse a los canales
delanteros (véase la figura 2). La primera etapa en el cálculo de
los factores de escala de ganancia es agrupar cada una de las
señales de entrada en bandas tal como se muestra en las ecuaciones 2
y 3.
Donde: m es el índice de tiempo, b
es el índice de banda, L(m,k) es la muestra espectral
k-ésima del canal izquierdo en el momento m, R(m,k) es
la muestra espectral k-ésima del canal derecho en el momento
m, \overline{L}(m,b) es una matriz de columna que
contiene las muestras espectrales del canal izquierdo para la banda
b, \overline{R}(m,b) es una matriz de columna que
contiene las muestras espectrales del canal derecho para la banda
b, L_{b} es el límite inferior de la banda b, y
U_{b} es el límite superior de la banda b.
\vskip1.000000\baselineskip
Etapa
2
La siguiente etapa es calcular una medida de la
correlación entre canales entre las dos señales de entrada (es
decir, la "correlación cruzada") en cada banda. En este
ejemplo, esto se lleva a cabo en tres subetapas.
\vskip1.000000\baselineskip
Subetapa
2a
En primer lugar, tal como se muestra en la
ecuación 4, calcular una medida de varianza en el tiempo reducida de
correlación entre canales. En la ecuación 4 y en otras ecuaciones en
el presente documento, E es un operador de estimador. En este
ejemplo, el estimador representa una ecuación de integrador con
pérdidas dependiente de la señal (tal como en la ecuación 1).
Existen muchas otras técnicas que pueden usarse como estimador para
reducir la varianza en el tiempo de los parámetros medidos (por
ejemplo, una simple media temporal móvil) y el uso de cualquier
estimador particular no es crítico para la invención.
Donde: T es la transposición hermitiana,
\rho_{LR}(m,b) es una estimación del coeficiente de
correlación entre el canal izquierdo y derecho en la banda b
en el momento m. \rho_{LR}(m,b) puede tener un
valor que oscila desde cero hasta uno. La transposición hermitiana
es tanto una transposición como una conjugación de los términos
complejos. En la ecuación 4, por ejemplo,
\overline{L}(m,b)\cdot\overline{R}(m,b)^{T} da
como resultado un escalar complejo ya que \overline{L}(m,b)
y R(m,b)^{T} son vectores de fila complejos tal como
se define en las ecuaciones 1 y 2.
\newpage
Subetapa
2b
El coeficiente de correlación puede usarse para
controlar la cantidad de señal de sonido ambiente y directa que se
traslada de manera panorámica a los canales envolventes. Sin
embargo, si las señales izquierda y derecha son completamente
diferentes, por ejemplo dos instrumentos diferentes se trasladan de
manera panorámica a los canales izquierdo y derecho,
respectivamente, entonces la correlación cruzada es cero y los
instrumentos trasladados rígidamente de manera panorámica se
trasladarían de manera panorámica a los canales envolventes si se
empleara un enfoque tal como en la subetapa 2a por sí solo. Para
evitar un resultado de este tipo, puede construirse una medida
sesgada de la correlación cruzada de las señales de entrada
izquierda y derecha, tal como se muestra en la ecuación 5.
\phi_{LR}(m,b) puede ser un valor que
oscila desde cero hasta uno.
Donde: \phi_{LR}(m,b) es la
estimación sesgada del coeficiente de correlación entre los canales
izquierdo y derecho.
El operador "max" en el denominador de la
ecuación 4 da como resultado que el denominador sea el máximo de o
bien
E{\overline{L}(m,b)\cdot\overline{L}(m,b)^{T}}
o bien
E{\overline{R}(m,b)\cdot\overline{R}(m,b)^{T}}.
En consecuencia, la correlación cruzada se normaliza o bien mediante
la energía en la señal izquierda o bien mediante la energía en la
señal derecha, en lugar de la media geométrica como en la ecuación
4. Si las potencias de la señal izquierda y derecha son diferentes,
entonces la estimación sesgada del coeficiente de correlación
\phi_{LR}(m,b) de la ecuación 5 conduce a valores más
pequeños que los generados por el coeficiente de correlación
\phi_{LR}(m,b) de la ecuación 4. Así, la estimación
sesgada puede usarse para reducir el grado de traslado panorámico a
los canales envolventes de los instrumentos que se han trasladado
rígidamente de manera panorámica a la izquierda y/o a la
derecha.
\vskip1.000000\baselineskip
Subetapa
2c
A continuación, combinar la estimación de
correlación cruzada no sesgada obtenida en la ecuación 4 con la
estimación sesgada obtenida en la ecuación 5 para dar una medida
final de la correlación entre canales, que puede usarse para
controlar el traslado panorámico de la señal de sonido ambiente y
directa a los canales envolventes. La combinación puede expresarse
como en la ecuación 6, que muestra que la coherencia entre canales
es igual al coeficiente de correlación si la estimación sesgada del
coeficiente de correlación (ecuación 5) está por encima de un
umbral; en caso contrario la coherencia entre canales se aproxima a
la unidad linealmente. El objetivo de la ecuación 6 es garantizar
que los instrumentos se trasladan rígidamente de manera panorámica a
la izquierda y a la derecha en las señales de entrada no se
trasladen de manera panorámica a los canales envolventes. La
ecuación 6 es sólo una de muchas formas posibles de lograr este
objetivo.
Donde: \mu_{0} es un umbral predefinido. El
umbral \mu_{0} debe ser lo más pequeño posible, pero
preferiblemente no cero. Puede ser aproximadamente igual a la
varianza de la estimación del coeficiente de correlación sesgado
\phi_{LR}(m,b).
\vskip1.000000\baselineskip
Etapa
3
A continuación, calcular los factores de escala
de ganancia delantera y trasera G_{F} y G_{B}. En
este ejemplo, esto se lleva a cabo en tres subetapas. Las subetapas
3a y 3b pueden realizarse en cualquier orden o simultáneamente.
\vskip1.000000\baselineskip
Subetapa
3a
A continuación, calcular un primer conjunto
intermedio de factores de escala de ganancia con traslado panorámico
delantero/trasero (G'_{F} y G'_{B}) tal como se
muestra en las ecuaciones 7 y 8, respectivamente. Éstos representan
la cantidad deseada de traslado panorámico trasero/delantero debido
a la detección de señales de sonido ambiente solamente; los factores
de escala de ganancia con traslado panorámico trasero/delantero
finales, tal como se describe más adelante, tienen en cuenta tanto
el traslado panorámico del sonido ambiente como el traslado
panorámico de la imagen envolvente.
Donde: \partial_{0} es un umbral predefinido
y controla la cantidad máxima de energía que puede trasladarse de
manera panorámica a los canales envolventes desde el campo de sonido
delantero. El umbral \partial_{0} puede seleccionarse por un
usuario para controlar la cantidad de contenido de sonido ambiente
enviado a los canales envolventes.
Aunque las expresiones para G'_{F} y
G'_{B} en las ecuaciones 7 y 8 son adecuadas y conservan la
potencia, no son críticas para la invención. Pueden emplearse otras
relaciones en las que G'_{F} y G'_{B} sean
generalmente inversas entre sí.
La figura 7 muestra un gráfico de los factores
de escala de ganancia G'_{F} y G'_{B} frente al
coeficiente de correlación (\phi_{LR}(m,b)). Debe
observarse que a medida que el coeficiente de correlación disminuye,
se traslada de manera panorámica mucha energía a los canales
envolventes. Sin embargo, cuando el coeficiente de correlación cae
por debajo de un cierto punto, un umbral \mu_{0}, la señal se
traslada de nuevo de manera panorámica a los canales delanteros.
Esto evita que instrumentos aislados trasladados rígidamente de
manera panorámica a los canales izquierdo y derecho originales se
trasladen de manera panorámica a los canales envolventes. La figura
7 muestra sólo la situación en la que las energías de señal
izquierda y derecha son iguales; si las energías izquierda y derecha
son diferentes, la señal se traslada de nuevo de manera panorámica a
los canales delanteros a un valor superior del coeficiente de
correlación. Más específicamente, el punto de cambio, el umbral
\mu_{0}, se produce a un valor superior del coeficiente de
correlación.
\vskip1.000000\baselineskip
Subetapa
3b
Hasta ahora, se ha decidido cuánta energía
aplicar a los canales envolventes debido a la detección de material
de audio de sonido ambiente; la siguiente etapa es calcular el nivel
de canal envolvente deseado debido a imágenes discretas con
decodificación matricial solamente. Para calcular la cantidad de
energía en los canales envolventes debido a tales imágenes
discretas, en primer lugar se estima la parte real del coeficiente
de correlación de la ecuación 4 tal como se muestra en la ecuación
9.
Debido al desplazamiento de fase de 90 grados
durante el proceso de codificación matricial (mezclado descendente),
la parte real del coeficiente de correlación que atraviesa de manera
suave desde 0 hasta -1 mientras una imagen en la señal multicanal
original, antes del mezclado descendente, se desplaza desde los
canales delanteros hacia los canales envolventes. Por tanto, puede
construirse un conjunto intermedio adicional de factores de escala
de ganancia con traslado panorámico delantero/trasero tal como se
muestra en las ecuaciones 10 y 11.
Donde G''_{F}(m,b) y
G''_{B}(m,b) son los factores de escala de ganancia
delantera y trasera para la señal directa con decodificación
matricial respectivamente para la banda b en el momento
m.
Aunque las expresiones para G''(m,b) y
G''_{B}(m,b) en las ecuaciones 10 y 11 son adecuadas
y conservan la energía, no son críticas para la invención. Pueden
emplearse otras relaciones en las que G''_{F}(m,b) y
G''_{B}(m,b) sean generalmente inversas entre
sí.
\vskip1.000000\baselineskip
Subetapa
3c
Ahora calcular un conjunto final de factores de
escala de ganancia delantera y trasera tal como se indica en las
ecuaciones 12 y 13.
Donde MIN significa que el factor de
escala de ganancia frontal final G_{F}(m,b) es igual
a G'_{F}(m,b) si G'_{F}(m,b) es
menor que G''_{F}(m,b), si no,
G_{F}(m,b) es igual a
G''_{F}(m,b).
Aunque las expresiones para G_{F} y
G_{B} en las ecuaciones 10 y 11 son adecuadas y conservan
la energía, no son críticas para la invención. Pueden emplearse
otras relaciones en las que G_{F} y G_{B} sean
generalmente inversas entre sí.
\vskip1.000000\baselineskip
Etapa
4
En este punto, se ha determinado la cantidad de
energía que se envía a los canales envolventes debido tanto a la
detección de señal de sonido ambiente como a la detección de señal
directa con decodificación matricial. Sin embargo, ahora es
necesario controlar la cantidad de cada tipo de señal que está
presente en los canales envolventes. Para calcular los factores de
escala de ganancia que controlan la combinación cruzada entre
señales directas y de sonido ambiente (G_{D} y
G_{A}), puede usarse el coeficiente de correlación
\rho_{LR}(m,b) de la ecuación 4. Si las señales de
entrada izquierda y derecha están relativamente no correlacionadas,
entonces deben estar presentes más componentes de señal de sonido
ambiente que componentes de señal directa en los canales
envolventes; si las señales de entrada están bien correlacionadas
entonces deben estar presentes más componentes de señal directa que
componentes de señal de sonido ambiente en los canales envolventes.
Por tanto, pueden derivarse los factores de escala de ganancia para
la razón directa/sonido ambiente tal como se muestra en la ecuación
14.
Aunque las expresiones para G_{D} y
G_{A} en la ecuación 14 son adecuadas y conservan la
energía, no son críticas para la invención. Pueden emplearse otras
relaciones en las que G_{D} y G_{A} sean
generalmente inversas entre sí.
\newpage
Etapa
5
A continuación construir las componentes de
señal con decodificación matricial y de sonido ambiente. Esto puede
conseguirse en dos subetapas, que pueden realizarse en cualquier
orden o simultáneamente.
\vskip1.000000\baselineskip
Subetapa
5a
Construir las componentes de señal con
decodificación matricial para la banda b tal como se muestra,
por ejemplo, en la ecuación 15.
\vskip1.000000\baselineskip
Donde \overline{L}_{D}(m,b) son las
componentes de señal con decodificación matricial desde el
decodificador matricial para el canal envolvente izquierdo en la
banda b en el momento m y
\overline{R}_{D}(m,b) son las componentes de señal con
decodificación matricial desde el decodificador matricial para el
canal envolvente derecho en la banda b en el momento
m.
\vskip1.000000\baselineskip
Etapa
5b
La aplicación del factor de escala de ganancia
G_{A}, que varía dinámicamente a la tasa de bloque de
transformada con alisamiento en el tiempo, funciona para derivar las
componentes de señal de sonido ambiente. (Véase, por ejemplo, la
referencia 1). El factor de escala de ganancia que varía
dinámicamente G_{A} puede aplicarse antes o después de la
trayectoria 46 de señal de sonido ambiente (figura 6). Las
componentes de señal de sonido ambiente derivadas pueden mejorarse
además multiplicando todo el espectro de la señal izquierda y
derecha original por la representación en el dominio espectral del
decorrelacionador. Por tanto, para la banda b y el momento
m, las señales de sonido ambiente para las señales
envolventes izquierda y derecha vienen dadas, por ejemplo, por las
ecuaciones 16 y 17.
\vskip1.000000\baselineskip
Donde \overline{L}_{A}(m,b) es la
señal de sonido ambiente para el canal envolvente izquierdo en la
banda b en el momento m y D^{L}(k) es
la representación en el dominio espectral del decorrelacionador de
canal izquierdo en el intervalo k.
\vskip1.000000\baselineskip
Donde \overline{R}_{A}(m,b) es la
señal de sonido ambiente para el canal envolvente derecho en la
banda b en el momento m y D^{R}(k) es
la representación de dominio espectral del decorrelacionador de
canal derecho en el intervalo k.
\newpage
Etapa
6
Habiendo derivado las ganancias de señal de
control G_{B}, G_{D}, G_{A} (etapas 3 y
4) y las componentes de señal con decodificación matricial y de
sonido ambiente (etapa 5), éstas pueden aplicarse tal como se
muestra en la figura 6 para obtener las señales de canal envolvente
finales en cada banda. Ahora las señales envolventes izquierda y
derecha de salida finales pueden venir dadas por la ecuación 18.
Donde \overline{L}_{S}(m,b) y
\overline{R}_{S}(m,b) son las señales de canal envolvente
izquierda y derecha finales en la banda b en el momento
m.
Como se indicó anteriormente en conexión con la
etapa 5b, se apreciará que la aplicación del factor de escala de
ganancia G_{A}, que varía dinámicamente a la tasa de bloque
de transformada con alisamiento en el tiempo, puede considerarse
para derivar las componentes de señal de sonido ambiente.
Los cálculos de canal de sonido envolvente
pueden resumirse de la siguiente manera.
1. Agrupar cada una de las señales de entrada en
bandas (ecuaciones 2 y 3).
2. Calcular una medida de la correlación cruzada
entre las dos señales de entrada en cada banda.
- a.
- Calcular una medida de varianza en el tiempo reducida (con alisamiento en el tiempo) de correlación cruzada (ecuación 4).
- b.
- Construir una medida sesgada de correlación cruzada (ecuación 5).
- c.
- Combinar las medidas sesgadas y no sesgadas de correlación cruzada (ecuación 6).
3. Calcular los factores de escala de ganancia
delantera y trasera G_{F} y G_{B}.
- a.
- Calcular factores de escala de ganancia delantera y trasera G'_{F} y G'_{B} debido a señales de sonido ambiente solamente (ecuaciones 7, 8).
- b.
- Calcular factores de escala de ganancia delantera y trasera G''_{F} y G''_{B} debido a señales directas con decodificación matricial solamente (ecuaciones 10, 11).
- c.
- Usando los resultados de las subetapas 3a y 3b, calcular un conjunto final de factores de escala de ganancia delantera y trasera G_{F} y G_{B} (ecuaciones 12, 13).
4. Calcular los factores de escala de ganancia
de sonido ambiente y directa con decodificación matricial
G_{D} y G_{A} (ecuación 14).
5. Construir componentes de señal con
decodificación matricial y de sonido ambiente.
- a.
- Construir componentes de señal con decodificación matricial para la banda b (ecuación 15).
- b.
- Construir componentes de señal de sonido ambiente para la banda b (ecuaciones 16, 17, aplicación de G_{A}).
6. Aplicar factores de escala de ganancia
G_{B}, G_{D}, G_{A} a las componentes de
señal construidas para obtener señales de canal envolvente (ecuación
18).
\vskip1.000000\baselineskip
Una implementación adecuada de aspectos de la
presente invención emplea dispositivos o etapas de procesamiento que
implementan las etapas de procesamiento respectivas y se relacionan
funcionalmente como se explicó anteriormente. Aunque las etapas
enumeradas anteriormente pueden llevarse a cabo cada una mediante
secuencias de instrucciones de software informático que operen en el
orden de las etapas enumeradas anteriormente, se entenderá que
pueden obtenerse resultados equivalentes o similares mediante etapas
ordenadas de otras maneras, teniendo en cuenta que determinadas
magnitudes se derivan de las anteriores. Por ejemplo, pueden
emplearse secuencias de instrucciones de software informático
multiproceso de modo que ciertas secuencias de etapas se lleven a
cabo en paralelo. Como otro ejemplo, el orden de ciertas etapas en
el ejemplo anterior es arbitrario y puede alterarse sin afectar a
los resultados, por ejemplo, las subetapas 3a y 3b pueden invertirse
y las subetapas 5a y 5b pueden invertirse. Además, como será
evidente a partir de la inspección de la ecuación 18, no es
necesario calcular el factor de escala de ganancia G_{B}
por separado del cálculo de los factores de escala de ganancia
G_{A} y G_{D}, pueden emplearse y calcularse un
factor de escala de ganancia único G_{B} G_{A} y
un factor de escala de ganancia único G_{B} G_{D}
en una forma modificada de la ecuación 18 en la que el factor de
escala de ganancia G_{B} se pone entre paréntesis.
Alternativamente, pueden implementarse las etapas descritas como
dispositivos que realicen las funciones descritas, teniendo los
diversos dispositivos interrelaciones funcionales como se describió
anteriormente.
\vskip1.000000\baselineskip
Para mejorar la separación entre canales
delanteros y canales envolventes (o para enfatizar el envolvimiento
del material de audio original) puede aplicarse decorrelación a los
canales envolventes. La decorrelación, como se describe a
continuación, puede ser similar a lo propuesto en la referencia 5.
Aunque se ha encontrado que el decorrelacionador descrito a
continuación es particularmente adecuado, su uso no es crítico para
la invención y pueden emplearse otras técnicas de decorrelación.
La respuesta al impulso de cada filtro puede
especificarse como una secuencia sinusoidal de longitud finita cuya
frecuencia instantánea disminuye de manera monótona desde \pi
hasta cero a lo largo de la duración de la secuencia:
donde \omega_{i}(t) es
la función de frecuencia instantánea que disminuye de manera
monótona, \omega'_{i}(t) es la primera derivada de la
frecuencia instantánea, \varphi_{i}(t) es la fase
instantánea dada por la integral de la frecuencia instantánea, y
L_{i} es la longitud del filtro. Se requiere que el término
de multiplicación haga que la respuesta de frecuencia de
h_{i}[n] sea aproximadamente plana por toda la
frecuencia, y la ganancia G_{i} se calcula de manera
que:
La respuesta al impulso especificada tiene la
forma de una secuencia de tipo de modulación de frecuencia
(chirp) y, como resultado, el filtrado de señales de audio
con un filtro de este tipo puede dar como resultado a veces
artefactos "de modulación de frecuencia" audibles en las
ubicaciones de transitorios. Este efecto puede reducirse añadiendo
un término de ruido a la fase instantánea de la respuesta de
filtro:
Hacer que esta secuencia de ruido
N_{i}[n] sea igual a ruido gaussiano blanco con una
varianza que es una fracción pequeña de \pi es suficiente para
hacer que el sonido de respuesta al impulso sea más de tipo ruido
que de tipo de modulación de frecuencia, mientras que aún se
mantiene en gran medida la relación deseada entre frecuencia y
retardo especificada por \omega_{i}(t).
A frecuencias muy bajas, el retardo creado por
la secuencia de modulación de frecuencia es muy largo, llevando así
a muescas audibles cuando el material de audio mezclado de manera
ascendente se mezcla de nuevo de manera descendente para dar dos
canales. Para reducir este artefacto, la secuencia de modulación de
frecuencia puede sustituirse por un cambio de fase de 90 grados a
frecuencias por debajo de 2,5 kHz. La fase se cambia entre 90 grados
positivos y negativos produciéndose el cambio con espaciamiento
logarítmico.
Debido a que el sistema de mezclado ascendente
emplea STDFT con suficiente adición de ceros (descrito
anteriormente), los filtros de decorrelacionador dados por la
ecuación 21 pueden aplicarse usando multiplicación en el dominio
espectral.
\vskip1.000000\baselineskip
La invención puede implementarse en hardware o
software, o una combinación de ambos (por ejemplo, disposiciones
lógicas programables). A menos que se especifique lo contrario, los
algoritmos o procesos incluidos como parte de la invención no están
relacionados de manera inherente a ningún ordenador u otro aparato
particular. En particular, pueden usarse diversas máquinas de
propósito general con programas escritos según las enseñanzas en el
presente documento, o puede ser más conveniente construir aparatos
más especializados (por ejemplo, circuitos integrados) para realizar
las etapas de método requeridas. Así, la invención puede
implementarse en uno o más programas informáticos que se ejecuten en
uno o más sistemas informáticos programables comprendiendo cada uno
al menos un procesador, al menos un sistema de almacenamiento de
datos (incluyendo memoria volátil y no volátil y/o elementos de
almacenamiento), al menos un puerto o dispositivo de entrada, y al
menos un puerto o dispositivo de salida. Se aplica código de
programa a datos de entrada para realizar las funciones descritas en
el presente documento y generar información de salida. La
información de salida se aplica a uno o más dispositivos de salida,
de una manera conocida.
Cada programa de este tipo puede implementarse
en cualquier lenguaje informático deseado (incluyendo lenguajes de
programación orientados a objetos, lógicos o para procedimientos de
alto nivel, o ensambladores o máquina) para la comunicación con un
sistema informático. En cualquier caso, el lenguaje puede ser un
lenguaje interpretado o compilado.
Cada programa informático de este tipo se
almacena o descarga preferiblemente en un dispositivo o medio de
almacenamiento (por ejemplo medios o memoria de estados sólido, o
medios magnéticos u ópticos) legibles por un ordenador programable
de propósito especial o general, para configurar y operar el
ordenador cuando el sistema informático lee el dispositivo o medios
de almacenamiento para realizar los procedimientos descritos en el
presente documento. También puede considerarse que la invención
puede implementarse como un medio de almacenamiento legible por
ordenador, configurado con un programa informático, en el que el
medio de almacenamiento así configurado hace que un sistema
informático funcione de una manera específica y predefinida para
realizar las funciones descritas en el presente documento.
Se han descrito varias realizaciones de la
invención. Sin embargo, se entenderá que pueden realizarse diversas
modificaciones sin apartarse del alcance de la invención. Por
ejemplo, como también se mencionó anteriormente, algunas de las
etapas descritas en el presente documento pueden ser independientes
del orden, y por tanto pueden realizarse en un orden diferente del
descrito.
Claims (15)
1. Método para obtener dos canales de audio de
sonido envolvente a partir de dos señales de audio de entrada, en el
que dichas señales de audio de entrada pueden incluir componentes
generadas mediante codificación matricial, que comprende
obtener (4) componentes de señal de sonido
ambiente a partir de dichas señales de audio de entrada,
obtener (2) componentes de señal con
decodificación matricial a partir de dichas señales de audio de
entrada, y combinar (14, 16) de manera controlable componentes de
señal de sonido ambiente y componentes de señal con decodificación
matricial para proporcionar dichos canales de audio de sonido
envolvente, caracterizado porque dicha combinación de manera
controlable incluye aplicar (6, 8, 10, 12) factores de escala de
ganancia basándose en la correlación de dichas señales de audio de
entrada.
\vskip1.000000\baselineskip
2. Método según la reivindicación 1, en el que
la obtención de componentes de señal de sonido ambiente incluye
aplicar un factor de escala de ganancia de componente de señal de
sonido ambiente que cambia dinámicamente a una señal de audio de
entrada y en el que dichos factores de escala de ganancia incluyen
el factor de escala de ganancia de componente de señal de sonido
ambiente que cambia dinámicamente aplicado en la obtención de
componentes de señal de sonido ambiente.
3. Método según la reivindicación 2, en el que
la obtención de componentes de señal con decodificación matricial
incluye aplicar una decodificación matricial a dichas señales de
audio de entrada, decodificación matricial que está adaptada para
proporcionar señales de audio primera y segunda asociadas cada una
con una dirección de sonido envolvente trasera y en el que dichos
factores de escala de ganancia incluyen además un factor de escala
de ganancia de componente de señal con codificación matricial que
cambia dinámicamente aplicado a cada una de las señales de audio
primera y segunda asociadas con una dirección de sonido envolvente
trasera.
4. Método según la reivindicación 3, en el que
dicho factor de escala de ganancia de componente de señal con
codificación matricial es una función de una medida de correlación
cruzada de dichas señales de audio de entrada.
5. Método según la reivindicación 4, en el que
el factor de escala de ganancia de componente de señal con
codificación matricial que cambia dinámicamente aumenta a medida que
aumenta el grado de correlación cruzada y disminuye a medida que
disminuye el grado de correlación cruzada.
6. Método según una cualquiera de las
reivindicaciones 3 a 5, en el que dichos factores de escala de
ganancia incluyen además un factor de escala de ganancia de canales
de audio de sonido envolvente que cambia dinámicamente para
controlar adicionalmente la ganancia de los canales de audio de
sonido envolvente.
7. Método según la reivindicación 6, en el que
el factor de escala de ganancia de los canales de audio de sonido
envolvente es una función de una medida de correlación cruzada de
dichas señales de audio de entrada.
8. Método según la reivindicación 7, en el que
el método se lleva a cabo en el dominio
tiempo-frecuencia o en el que el método se lleva a
cabo en una o más bandas de frecuencia en el dominio
tiempo-frecuencia.
9. Método según la reivindicación 2, en el que
dicho factor de escala de ganancia de componente de señal de sonido
ambiente es una función de una medida de correlación cruzada de
dichas señales de audio de entrada.
10. Método según la reivindicación 9, en el que
dicha medida de correlación cruzada se alisa temporalmente, o en el
que la medida de correlación cruzada se alisa temporalmente
empleando un integrador con pérdidas dependiente de la señal, o en
el que la medida de correlación cruzada se alisa temporalmente
empleando una media móvil.
11. Método según la reivindicación 10, en el que
el alisado temporal es adaptativo en cuanto a la señal.
12. Método según una cualquiera de las
reivindicaciones 1 a 11, en el que la obtención de componentes de
señal de sonido ambiente incluye aplicar al menos una secuencia de
filtro de decorrelación.
13. Método según la reivindicación 12, en el que
se aplica la misma secuencia de filtro de decorrelación a cada una
de dichas señales de audio de entrada, o en el que se aplica una
secuencia de filtro de decorrelación diferente a cada una de dichas
señales de audio de entrada.
14. Aparato adaptado para llevar a cabo los
métodos según una cualquiera de las reivindicaciones 1 a 13.
15. Programa informático, almacenado en un medio
legible por ordenador, para hacer que un ordenador lleve a cabo los
métodos según una cualquiera de las reivindicaciones 1 a 13.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US93378907P | 2007-06-08 | 2007-06-08 | |
US933789P | 2007-06-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2358786T3 true ES2358786T3 (es) | 2011-05-13 |
Family
ID=39743799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES08768203T Active ES2358786T3 (es) | 2007-06-08 | 2008-06-06 | Derivación híbrida de canales de audio de sonido envolvente combinando de manera controlable componentes de señal de sonido ambiente y con decodificación matricial. |
Country Status (11)
Country | Link |
---|---|
US (1) | US9185507B2 (es) |
EP (1) | EP2162882B1 (es) |
JP (1) | JP5021809B2 (es) |
CN (1) | CN101681625B (es) |
AT (1) | ATE493731T1 (es) |
BR (1) | BRPI0813334A2 (es) |
DE (1) | DE602008004252D1 (es) |
ES (1) | ES2358786T3 (es) |
RU (1) | RU2422922C1 (es) |
TW (1) | TWI527473B (es) |
WO (1) | WO2008153944A1 (es) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101401456B (zh) * | 2006-03-13 | 2013-01-02 | 杜比实验室特许公司 | 呈现中央声道音频的方法和装置 |
PL1994526T3 (pl) * | 2006-03-13 | 2010-03-31 | France Telecom | Połączona synteza i uprzestrzennienie dźwięków |
US8580622B2 (en) | 2007-11-14 | 2013-11-12 | Invensas Corporation | Method of making integrated circuit embedded with non-volatile programmable memory having variable coupling |
US7876615B2 (en) | 2007-11-14 | 2011-01-25 | Jonker Llc | Method of operating integrated circuit embedded with non-volatile programmable memory having variable coupling related application data |
PL2232700T3 (pl) | 2007-12-21 | 2015-01-30 | Dts Llc | System regulacji odczuwanej głośności sygnałów audio |
TWI413109B (zh) * | 2008-10-01 | 2013-10-21 | Dolby Lab Licensing Corp | 用於上混系統之解相關器 |
US8203861B2 (en) | 2008-12-30 | 2012-06-19 | Invensas Corporation | Non-volatile one-time—programmable and multiple-time programmable memory configuration circuit |
US20120121091A1 (en) * | 2009-02-13 | 2012-05-17 | Nokia Corporation | Ambience coding and decoding for audio applications |
CN101848412B (zh) * | 2009-03-25 | 2012-03-21 | 华为技术有限公司 | 通道间延迟估计的方法及其装置和编码器 |
KR20120028915A (ko) * | 2009-05-11 | 2012-03-23 | 아키타 블루, 인크. | 임의의 신호의 쌍으로부터 공통 및 고유 구성요소의 추출 |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US8831934B2 (en) * | 2009-10-27 | 2014-09-09 | Phonak Ag | Speech enhancement method and system |
US8786852B2 (en) | 2009-12-02 | 2014-07-22 | Lawrence Livermore National Security, Llc | Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto |
TWI444989B (zh) * | 2010-01-22 | 2014-07-11 | Dolby Lab Licensing Corp | 針對改良多通道上混使用多通道解相關之技術 |
EP2523473A1 (en) * | 2011-05-11 | 2012-11-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an output signal employing a decomposer |
WO2013107602A1 (en) | 2012-01-20 | 2013-07-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for audio encoding and decoding employing sinusoidal substitution |
US9986356B2 (en) * | 2012-02-15 | 2018-05-29 | Harman International Industries, Incorporated | Audio surround processing system |
US9395304B2 (en) | 2012-03-01 | 2016-07-19 | Lawrence Livermore National Security, Llc | Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
JP6186436B2 (ja) * | 2012-08-31 | 2017-08-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 個々に指定可能なドライバへの上方混合されたコンテンツの反射されたおよび直接的なレンダリング |
US9754596B2 (en) | 2013-02-14 | 2017-09-05 | Dolby Laboratories Licensing Corporation | Methods for controlling the inter-channel coherence of upmixed audio signals |
US9830917B2 (en) | 2013-02-14 | 2017-11-28 | Dolby Laboratories Licensing Corporation | Methods for audio signal transient detection and decorrelation control |
TWI618050B (zh) * | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於音訊處理系統中之訊號去相關的方法及設備 |
EP2974253B1 (en) | 2013-03-15 | 2019-05-08 | Dolby Laboratories Licensing Corporation | Normalization of soundfield orientations based on auditory scene analysis |
MX342965B (es) * | 2013-04-05 | 2016-10-19 | Dolby Laboratories Licensing Corp | Sistema y método de compansión para reducir el ruido de cuantificación usando extensión espectral avanzada. |
EP4329338A3 (en) * | 2013-04-26 | 2024-05-22 | Sony Group Corporation | Audio processing device, method, and program |
EP2830065A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
JP6186503B2 (ja) | 2013-10-03 | 2017-08-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | アップミキサーにおける適応的な拡散性信号生成 |
JP5981408B2 (ja) * | 2013-10-29 | 2016-08-31 | 株式会社Nttドコモ | 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム |
DE102014100049A1 (de) * | 2014-01-05 | 2015-07-09 | Kronoton Gmbh | Verfahren zur Audiowiedergabe in einem Mehrkanaltonsystem |
EP2980789A1 (en) * | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
TWI615040B (zh) * | 2016-06-08 | 2018-02-11 | 視訊聮合科技股份有限公司 | 多功能模組式音箱 |
CN109640242B (zh) * | 2018-12-11 | 2020-05-12 | 电子科技大学 | 音频源分量及环境分量提取方法 |
US11656848B2 (en) * | 2019-09-18 | 2023-05-23 | Stmicroelectronics International N.V. | High throughput parallel architecture for recursive sinusoid synthesizer |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6193100A (ja) | 1984-10-02 | 1986-05-12 | 極東開発工業株式会社 | 貯蔵タンクの収容液種判別装置 |
JPS6193100U (es) * | 1984-11-22 | 1986-06-16 | ||
JP2512038B2 (ja) * | 1987-12-01 | 1996-07-03 | 松下電器産業株式会社 | 音場再生装置 |
CN1046801A (zh) * | 1989-04-27 | 1990-11-07 | 深圳大学视听技术研究所 | 电影立体声解码及处理方法 |
US5251260A (en) * | 1991-08-07 | 1993-10-05 | Hughes Aircraft Company | Audio surround system with stereo enhancement and directivity servos |
JP2660614B2 (ja) | 1991-08-21 | 1997-10-08 | 日野自動車工業株式会社 | クレーンを搭載したトラックの支持装置 |
DE4409368A1 (de) | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
US6697491B1 (en) * | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
FI116990B (fi) | 1997-10-20 | 2006-04-28 | Nokia Oyj | Menetelmä ja järjestelmä akustisen virtuaaliympäristön käsittelemiseksi |
RU2193827C2 (ru) | 1997-11-14 | 2002-11-27 | В. Вейвс (Сша) Инк. | Постусилительная схема декодирования стереофонического звука в окружающий звук |
US7076071B2 (en) * | 2000-06-12 | 2006-07-11 | Robert A. Katz | Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings |
US7003467B1 (en) * | 2000-10-06 | 2006-02-21 | Digital Theater Systems, Inc. | Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio |
US7039198B2 (en) * | 2000-11-10 | 2006-05-02 | Quindi | Acoustic source localization system and method |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7461002B2 (en) * | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
EP1386312B1 (en) * | 2001-05-10 | 2008-02-20 | Dolby Laboratories Licensing Corporation | Improving transient performance of low bit rate audio coding systems by reducing pre-noise |
WO2003049497A2 (en) | 2001-12-05 | 2003-06-12 | Koninklijke Philips Electronics N.V. | Circuit and method for enhancing a stereo signal |
US20040086130A1 (en) | 2002-05-03 | 2004-05-06 | Eid Bradley F. | Multi-channel sound processing systems |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7508947B2 (en) * | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
US20060262936A1 (en) * | 2005-05-13 | 2006-11-23 | Pioneer Corporation | Virtual surround decoder apparatus |
MX2007015118A (es) | 2005-06-03 | 2008-02-14 | Dolby Lab Licensing Corp | Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion. |
JP2007028065A (ja) | 2005-07-14 | 2007-02-01 | Victor Co Of Japan Ltd | サラウンド再生装置 |
TWI396188B (zh) | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
CN101401456B (zh) | 2006-03-13 | 2013-01-02 | 杜比实验室特许公司 | 呈现中央声道音频的方法和装置 |
US8144881B2 (en) | 2006-04-27 | 2012-03-27 | Dolby Laboratories Licensing Corporation | Audio gain control using specific-loudness-based auditory event detection |
US7844453B2 (en) * | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US8345899B2 (en) * | 2006-05-17 | 2013-01-01 | Creative Technology Ltd | Phase-amplitude matrixed surround decoder |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US8213623B2 (en) * | 2007-01-12 | 2012-07-03 | Illusonic Gmbh | Method to generate an output audio signal from two or more input audio signals |
-
2008
- 2008-06-06 ES ES08768203T patent/ES2358786T3/es active Active
- 2008-06-06 DE DE602008004252T patent/DE602008004252D1/de active Active
- 2008-06-06 JP JP2010511203A patent/JP5021809B2/ja not_active Expired - Fee Related
- 2008-06-06 WO PCT/US2008/007128 patent/WO2008153944A1/en active Application Filing
- 2008-06-06 US US12/663,276 patent/US9185507B2/en not_active Expired - Fee Related
- 2008-06-06 CN CN2008800188969A patent/CN101681625B/zh not_active Expired - Fee Related
- 2008-06-06 RU RU2009149399/09A patent/RU2422922C1/ru not_active IP Right Cessation
- 2008-06-06 AT AT08768203T patent/ATE493731T1/de not_active IP Right Cessation
- 2008-06-06 EP EP08768203A patent/EP2162882B1/en not_active Not-in-force
- 2008-06-06 TW TW097121163A patent/TWI527473B/zh not_active IP Right Cessation
- 2008-06-06 BR BRPI0813334-4A2A patent/BRPI0813334A2/pt not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP2162882A1 (en) | 2010-03-17 |
TW200911006A (en) | 2009-03-01 |
WO2008153944A1 (en) | 2008-12-18 |
EP2162882B1 (en) | 2010-12-29 |
US20100177903A1 (en) | 2010-07-15 |
US9185507B2 (en) | 2015-11-10 |
BRPI0813334A2 (pt) | 2014-12-23 |
JP5021809B2 (ja) | 2012-09-12 |
CN101681625A (zh) | 2010-03-24 |
CN101681625B (zh) | 2012-11-07 |
TWI527473B (zh) | 2016-03-21 |
ATE493731T1 (de) | 2011-01-15 |
RU2422922C1 (ru) | 2011-06-27 |
DE602008004252D1 (de) | 2011-02-10 |
JP2010529780A (ja) | 2010-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2358786T3 (es) | Derivación híbrida de canales de audio de sonido envolvente combinando de manera controlable componentes de señal de sonido ambiente y con decodificación matricial. | |
KR101380167B1 (ko) | 개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용 | |
EP3739908B1 (en) | Binaural filters for monophonic compatibility and loudspeaker compatibility | |
ES2907377T3 (es) | Aparato, procedimiento y programa informático para la codificación, la decodificación, el procesamiento de escenas y otros procedimientos relacionados con la codificación de audio espacial basada en DirAC | |
ES2399058T3 (es) | Aparato y procedimiento para generar una señal de control de sintetizador de múltiples canales y aparato y procedimiento para sintetizar múltipes canales | |
KR101256555B1 (ko) | 청각 이벤트의 함수에 따라서 공간 오디오 코딩파라미터들을 제어 | |
JP2009533910A (ja) | アンビエンス信号を生成するための装置および方法 | |
CN112019993B (zh) | 用于音频处理的设备和方法 | |
KR101637407B1 (ko) | 부가적인 출력 채널들을 제공하기 위하여 스테레오 출력 신호를 발생시키기 위한 장치와 방법 및 컴퓨터 프로그램 | |
JP5038145B2 (ja) | 定位制御装置、定位制御方法、定位制御プログラムおよびコンピュータに読み取り可能な記録媒体 | |
ES2641580T3 (es) | Generación de señal difusa adaptativa en un mezclador ascendente | |
EP3761673A1 (en) | Stereo audio |