ES2499640T3 - Matrices óptimas de mezcla y uso de descorreladores en el procesamiento de audio espacial - Google Patents

Matrices óptimas de mezcla y uso de descorreladores en el procesamiento de audio espacial Download PDF

Info

Publication number
ES2499640T3
ES2499640T3 ES12745880.0T ES12745880T ES2499640T3 ES 2499640 T3 ES2499640 T3 ES 2499640T3 ES 12745880 T ES12745880 T ES 12745880T ES 2499640 T3 ES2499640 T3 ES 2499640T3
Authority
ES
Spain
Prior art keywords
matrix
covariance
mixing
signal
properties
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12745880.0T
Other languages
English (en)
Inventor
Juha Vilkamo
Tom BÄCKSTRÖM
Fabian KÜCH
Achim Kuntz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2499640T3 publication Critical patent/ES2499640T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • G10H1/183Channel-assigning means for polyphonic instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Amplifiers (AREA)

Abstract

Un aparato para generar una señal de salida de audio que tiene dos o más canales de salida de audio a partir de una señal de entrada de audio que tiene dos o más canales de entrada de audio, el cual comprende: un proveedor (110) para proporcionar primeras propiedades de covarianza de la señal de entrada de audio, y un procesador de señales (120) para generar la señal de salida de audio mediante la aplicación de una regla de mezcla en por lo menos dos de los dos o más canales de entrada de audio, en el que el procesador de señales (120) está configurado para determinar la regla de mezcla sobre la base de las primeras propiedades de covarianza de la señal de entrada de audio y sobre la base de las segundas propiedades de covarianza de la señal de salida de audio, en donde las segundas propiedades de covarianza son distintas de las primeras propiedades de covarianza

Description

10
15
20
25
30
35
40
45
50
55
60
E12745880
05-09-2014
DESCRIPCIÓN
Matrices óptimas de mezcla y uso de descorreladores en el procesamiento de audio espacial
[0001] La presente invención se refiere al procesamiento de señales de audio y, en particular, a un aparato y un procedimiento que emplea matrices óptimas de mezcla y, además, al uso de descorreladores en el procesamiento de audio espacial. [0002] El procesamiento de audio es cada vez más importante. En el procesamiento perceptual de audio espacial, un supuesto típico es que el aspecto espacial de un sonido reproducido por un parlante es determinado especialmente por las potencias y las dependencias alineadas en tiempo entre los canales de audio en bandas de frecuencia perceptuales. Esto se basa en la noción de que estas características, cuando son reproducidas por parlantes, se transfieren a diferencias de nivel interaural, diferencias de tiempo interaural y coherencias interaurales, las cuales son las señales binaurales de percepción espacial. A partir de este concepto han surgido diversos procedimientos de procesamiento espacial, incluyendo la mezcla ascendente, véase
[1] C. Faller, “Multiple-Loudspeaker Playback of Stereo Signals”, Journal of the Audio Engineering Society, Vol. 54, Nº 11, pp. 1051-1064, junio de 2006, microfonía espacial, véase, por ejemplo,
[2] V. Pulkki, “Spatial Sound Reproduction with Directional Audio Coding”, Journal of the Audio Engineering Society, Vol. 55, Nº 6, pp. 503-516, junio de 2007, y
[3] C. Tournery, C. Faller, F. Küch, J. Herre, “Converting Stereo Microphone Signals Directly to MPEG Surround”, 128th AES Convention, mayo de 2010; y transmisión estéreo y multicanal eficiente, véase, por ejemplo,
[4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, “Parametric Coding of Stereo Audio”, EURASIP Journal on Applied Signal Processing, Vol. 2005, Nº 9, pp. 1305-1322, 2005; y
[5]
J. Herre, K. Kjörling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rödén, W. Oomen,
K.
Linzmeier and K. S. Chong, “MPEG Surround – The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding”, Journal of the Audio Engineering Society, Vol. 56, Nº 11, pp. 932-955, noviembre de 2008. Las pruebas de escucha han confirmado el beneficio del concepto en cada aplicación, véase, por ejemplo, [1, 4, 5] y, por ejemplo,
[6] J. Vilkamo, V. Pulkki, “Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation”, Journal of the Audio Engineering Society, Vol. 57, Nº 9, pp. 709-724, septiembre de 2009.
[0003] Todas estas tecnologías, si bien tienen distinta aplicación, tienen la misma tarea central, que consiste en generar a partir de un conjunto de canales de entrada un conjunto de canales de salida con potencias y dependencias definidas en función del tiempo y la frecuencia, que se puede suponer que es la tarea común subyacente en el procesamiento de audio perceptual y espacial. Por ejemplo, en el contexto de la Codificación de Audio Direccional (DirAC) véase, por ejemplo, [2], los canales de origen son típicamente señales de micrófono de primer orden, que se procesan por medio de mezcla, panoramización de amplitud y descorrelación, para aproximarse perceptualmente a un campo de sonido medido. En la mezcla ascendente (véase [1]), los canales de entrada estéreo, nuevamente en función del tiempo y la frecuencia, son distribuidos adaptativamente a una configuración de sonido envolvente.
[0004] Un objetivo de la presente invención consiste en proporcionar conceptos mejorados para generar a partir de un conjunto de canales de entrada un conjunto de canales de salida con propiedades definidas. El objetivo de la presente invención se resuelve por medio de un aparato de acuerdo con la reivindicación 1, un procedimiento de acuerdo con la reivindicación 25 y un programa informático de acuerdo con la reivindicación 26.
[0005] Se proporciona un aparato para generar una señal de salida de audio que tiene dos o más canales de salida de audio a partir de una señal de entrada de audio que tiene dos o más canales de entrada de audio. El aparato comprende un proveedor y un procesador de señales. El proveedor está adaptado para proporcionar primeras propiedades de covarianza de la señal de entrada de audio. El procesador de señales está adaptado para generar la señal de salida de audio mediante la aplicación de una regla de mezcla en por lo menos dos de los dos o más canales de entrada de audio. El procesador de señales está configurado para determinar la regla de mezcla sobre la base de las primeras propiedades de covarianza de la señal de entrada de audio y sobre la base de las segundas propiedades de covarianza de la señal de salida de audio, en donde las segundas propiedades de covarianza son distintas de las primeras propiedades de covarianza.
E12745880
05-09-2014
[0006] Por ejemplo, las potencias de los canales y las dependencias alineadas en tiempo pueden ser expresadas por la parte real de una matriz de covarianza de la señal, por ejemplo, en bandas de frecuencia perceptuales. A continuación se expone un concepto generalmente aplicable para procesar un sonido espacial en este dominio. El concepto comprende una solución de mezcla adaptativa para alcanzar propiedades de covarianza de destino dadas 5 (las segundas propiedades de covarianza), por ejemplo, una matriz de covarianza de destino dada, por el mejor uso de los componentes independientes en los canales de entrada. En una forma de realización se pueden prever medios para inyectar la cantidad necesaria de potencia de sonido descorrelacionado, cuando el objetivo no se logra de otro modo. Dicho concepto es robusto en su función y puede ser aplicado en numerosos casos de uso. Las propiedades de covarianza de destino pueden ser proporcionadas, por ejemplo, por un usuario. Por ejemplo, un
10 aparato de acuerdo con una forma de realización puede tener medios de modo que un usuario pueda introducir las propiedades de covarianza.
[0007] De acuerdo con una forma de realización, el proveedor puede adaptarse para proporcionar las primeras propiedades de covarianza, en donde las primeras propiedades de covarianza tienen un primer estado para un
15 primer intervalo de tiempo-frecuencia, y en donde las primeras propiedades de covarianza tienen un segundo estado, diferente del primer estado, para un segundo intervalo de tiempo-frecuencia, diferente del primer intervalo de tiempo-frecuencia. El proveedor no tiene que llevar a cabo necesariamente el análisis para obtener las propiedades de covarianza, pero puede proporcionar estos datos de un almacenamiento, una entrada de usuario o fuentes similares.
20 [0008] En otra forma de realización, el procesador de señales puede adaptarse para determinar la regla de mezcla sobre la base de las segundas propiedades de covarianza, en donde las segundas propiedades de covarianza tienen un tercer estado para un tercer intervalo de tiempo-frecuencia, y en donde las segundas propiedades de covarianza tienen un cuarto estado, que es diferente del tercer estado para un cuarto intervalo de tiempo-frecuencia,
25 que es diferente del tercer intervalo de tiempo-frecuencia.
[0009] De acuerdo con otra forma de realización, el procesador de señales está adaptado para generar la señal de salida de audio mediante la aplicación de la regla de mezcla de modo que cada uno de los dos o más canales de salida de audio depende de cada uno de los dos o más canales de entrada de audio.
30 [0010] En otra forma de realización, el procesador de señales puede adaptarse para determinar la regla de mezcla de modo que una medida de error se reduce al mínimo. Una medida de error puede ser, por ejemplo, una señal de diferencia absoluta entre una señal de salida de referencia y una señal de salida real.
35 [0011] En una forma de realización, una medida de error puede ser, por ejemplo, una media que depende de
||yref –y||²
en donde y es la señal de salida de audio, en donde
40
yref = Qx,
en donde x especifica la señal de entrada de audio y en donde Q es una matriz de mapeo, que puede ser específica de la aplicación, de modo que yref especifica una señal de salida de audio de destino de referencia.
45 [0012] De acuerdo con una forma de realización adicional, el procesador de señales puede adaptarse para determinar la regla de mezcla de modo que
imagen1
50 se reduce al mínimo, en donde E es un operador de expectativa, en donde yref es un punto de referencia definido, y en donde y es la señal de salida de audio.
[0013] De acuerdo con otra forma de realización, el procesador de señales puede estar configurado para determinar
55 la regla de mezcla mediante la determinación de las segundas propiedades de covarianza, en donde el procesador de señales puede estar configurado para determinar las segundas propiedades de covarianza sobre la base de las primeras propiedades de covarianza.
[0014] De acuerdo con una forma de realización adicional, el procesador de señales puede adaptarse para
60 determinar una matriz de mezcla como la regla de mezcla, en donde el procesador de señales puede adaptarse para determinar la matriz de mezcla sobre la base de las primeras propiedades de covarianza y sobre la base de las segundas propiedades de covarianza.
E12745880
05-09-2014
[0015] En otra forma de realización, el proveedor puede adaptarse para analizar las primeras propiedades de covarianza mediante la determinación de una primera matriz de covarianza de la señal de entrada de audio y en donde el procesador de señales puede estar configurado para determinar la regla de mezcla sobre la base de una
5 segunda matriz de covarianza de la señal de salida de audio como las segundas propiedades de covarianza.
[0016] De acuerdo con otra forma de realización, el proveedor puede adaptarse para determinar la primera matriz de covarianza de modo que cada valor de la diagonal de la primera matriz de covarianza puede indicar una potencia de uno de los canales de entrada de audio y de modo que cada valor de la primera matriz de covarianza que no es un
10 valor de la diagonal puede indicar una correlación entre canales entre un primer canal de entrada de audio y un segundo canal de entrada de audio diferente.
[0017] De acuerdo con una forma de realización adicional, el procesador de señales puede estar configurado para determinar la regla de mezcla sobre la base de la segunda matriz de covarianza, en donde cada valor de la diagonal
15 de la segunda matriz de covarianza puede indicar una potencia de uno de los canales de salida de audio y en donde cada valor de la segunda matriz de covarianza que no es un valor de la diagonal puede indicar una correlación entre canales entre un primer canal de salida de audio y un segundo canal de salida de audio.
[0018] De acuerdo con otra forma de realización, el procesador de señales puede adaptarse para determinar la regla 20 de mezcla de modo que:
M = K y PK −x 1
de modo que
25
KKT = C
xx x
K y KTy = C y
en donde M es la matriz de mezcla, en donde Cx es la primera matriz de covarianza, en donde Cy es la segunda
T
matriz de covarianza, en donde K x es una primera matriz transpuesta de una primera matriz descompuesta Kx, en
30 donde KT es una segunda matriz transpuesta de una segunda matriz descompuesta Ky, en donde K −1 es una
y x
matriz inversa de la primera matriz descompuesta Kx y en donde P es una primera matriz unitaria.
[0019] En una forma de realización adicional, el procesador de señales puede adaptarse para determinar la regla de mezcla de modo que
35
M = K y PK −x 1
en donde
P = VUT
40 en donde UT es una tercera matriz transpuesta de una segunda matriz unitaria U, en donde V es una tercera matriz unitaria, en donde
imagen2
45 en donde QT es una cuarta matriz transpuesta de la matriz de mezcla descendente Q, en donde VT es una quinta matriz transpuesta de la tercera matriz unitaria V, y en donde S es una matriz de la diagonal.
[0020] De acuerdo con otra forma de realización, el procesador de señales está adaptado para determinar una
50 matriz de mezcla como regla de mezcla, en donde el procesador de señales está adaptado para determinar la matriz de mezcla sobre la base de las primeras propiedades de covarianza y sobre la base de las segundas propiedades de covarianza, en donde el proveedor está adaptado para proporcionar o analizar las primeras propiedades de covarianza mediante la determinación de una primera matriz de covarianza de la señal de entrada de audio, y en donde el procesador de señales está configurado para determinar la regla de mezcla sobre la base de una segunda
55 matriz de covarianza de la señal de salida de audio como las segundas propiedades de covarianza, en donde el procesador de señales está configurado para modificar por lo menos algunos valores de diagonal de una matriz de
E12745880
05-09-2014
la diagonal Sx cuando los valores de la matriz de la diagonal Sx son cero o menores que un valor umbral predeterminado, de modo que los valores son mayores que o iguales al valor umbral, en donde el procesador de señales está adaptado para determinar la matriz de mezcla sobre la base de la matriz de la diagonal. Sin embargo, el valor umbral no necesariamente está predeterminado pero también puede depender de una función.
5
[0021] En una forma de realización adicional, el procesador de señales está configurado para modificar dichos por lo
menos algunos valores de diagonal de la matriz de la diagonal Sx, en donde K = USVT , y en donde
x xxx
C = KKT , en donde Cx es la primera matriz de covarianza, en donde Sx es la matriz de la diagonal, en donde
xx x TT
Ux es una segunda matriz, V es una tercera matriz transpuesta, y en donde K es una cuarta matriz transpuesta
xx
10 de la quinta matriz Kx. Las matrices Vxy Ux pueden ser matrices unitarias.
[0022] De acuerdo con otra forma de realización, el procesador de señales está adaptado para generar la señal de salida de audio mediante la aplicación de la regla de mezcla en por lo menos dos de los dos o más canales de
ˆ
entrada de audio para obtener una señal intermedia y' = Mx y mediante la adición de una señal residual r a la 15 señal intermedia para obtener la señal de salida de audio.
[0023] En otra forma de realización, el procesador de señales está adaptado para determinar la matriz de mezcla
sobre la base de una matriz de ganancia de la diagonal G y una matriz intermedia Mˆ , de modo que M'= GMˆ , en donde la matriz de ganancia de la diagonal tiene el valor
20
imagen3
T
en donde Cˆ y = Mˆ CxMˆ ,
ˆ
25 en donde M' es la matriz de mezcla, en donde G es la matriz de ganancia de la diagonal y en donde Mes la matriz ˆT
intermedia, en donde Cy es la segunda matriz de covarianza y en donde M es una quinta matriz transpuesta de la
ˆ
matriz M.
[0024] Las formas de realización preferidas de la presente invención se explicarán con referencia a las figuras en las 30 que:
La Fig. 1 ilustra un aparato para generar una señal de salida de audio que tiene dos o más canales de salida de audio a partir de una señal de entrada de audio que tiene dos o más canales de entrada de audio de acuerdo con una forma de realización.
35
La Fig. 2 representa un procesador de señales de acuerdo con una forma de realización.
La Fig. 3 muestra un ejemplo de aplicación de una combinación lineal de vectores L y R para lograr un conjunto nuevo de vectores R' y L'.
40
La Fig. 4 ilustra un diagrama de bloques de un aparato de acuerdo con otra forma de realización.
La Fig. 5 muestra un diagrama que representa una señal de micrófono de coincidencia estéreo a codificador MPEG de Sonido Envolvente de acuerdo con una forma de realización.
45
La Fig. 6 representa un aparato de acuerdo con otra forma de realización relativa a la mezcla descendente ICC/corrección de nivel para un codificador SAM-a-MPS. La Fig. 7 representa un aparato de acuerdo con una forma de realización de un mejoramiento para arreglos de micrófonos de espacio reducido.
50
La Fig. 8 ilustra un aparato de acuerdo con otra forma de realización para el mejoramiento ciego de la calidad de sonido espacial en la reproducción estéreo o multicanal.
La Fig. 9 ilustra el mejoramiento de las configuraciones estrechas de parlantes.
E12745880
05-09-2014
La Fig. 10 representa una forma de realización que proporciona una representación mejorada de la Codificación de Audio Direccional sobre la base de una señal de micrófono de formato B.
5 Las Figs. 11A, 11B y 11C ilustran la tabla 1 que muestra ejemplos numéricos de una forma de realización, y
Las Figs. 12A y 12B representan el listado 1 que muestra una aplicación de Matlab de un procedimiento de acuerdo con una forma de realización.
10 [0025] La Fig. 1 ilustra un aparato para generar una señal de salida de audio que tiene dos o más canales de salida de audio a partir de una señal de entrada de audio que tiene dos o más canales de entrada de audio de acuerdo con una forma de realización. El aparato comprende un proveedor 110 y un procesador de señales 120. El proveedor 110 está adaptado para recibir la señal de entrada de audio que tiene dos o más canales de entrada de audio. Asimismo, el proveedor 110 es una adaptado para analizar las primeras propiedades de covarianza de la señal de
15 entrada de audio. El proveedor 110 está adaptado además para proporcionar las primeras propiedades de covarianza al procesador de señales. El procesador de señales 120 está adaptado además para recibir la señal de entrada de audio. El procesador de señales 120 está adaptado además para generar la señal de salida de audio mediante la aplicación de una regla de mezcla en por lo menos dos de los dos o más canales de entrada de la señal de entrada de audio. El procesador de señales120 está configurado para determinar la regla de mezcla sobre la
20 base de las primeras propiedades de covarianza de la señal de entrada de audio y sobre la base de las segundas propiedades de covarianza de la señal de salida de audio, en donde las segundas propiedades de covarianza son distintas de las primeras propiedades de covarianza.
[0026] La Fig. 2 ilustra un procesador de señales de acuerdo con una forma de realización. El procesador de
25 señales comprende una unidad de formulación de matriz de mezcla óptima 210 y una unidad de mezcla 220. La unidad de formulación de matriz de mezcla óptima 210 formula una matriz de mezcla óptima. Para ello, la unidad de formulación de matriz de mezcla óptima 210 utiliza las primeras propiedades de covarianza 230 (por ejemplo, propiedades de covarianza de entrada) de una señal de entrada de audio de banda de frecuencia estéreo o multicanal tal como se recibe, por ejemplo, por un proveedor 110 de la forma de realización de la Fig. 1. Asimismo, la
30 unidad de formulación de matriz de mezcla óptima 210 determina la matriz de mezcla sobre la base de las segundas propiedades de covarianza 240, por ejemplo, una matriz de covarianza de destino, que puede ser dependiente de la aplicación. La matriz de mezcla óptima formulada por la unidad de formulación de matriz de mezcla óptima 210 se puede utilizar como una matriz de mapeo de canales. La matriz de mezcla óptima entonces puede ser proporcionada a la unidad de mezcla 220. La unidad de mezcla 220 aplica la matriz de mezcla óptima a la entrada
35 de banca de frecuencia estéreo o multicanal para obtener una salida de banda de frecuencia estéreo o multicanal de la señal de salida de audio. La señal de salida de audio tiene las segundas propiedades de covarianza deseadas (propiedades de covarianza de destino).
[0027] Con el fin de explicar las formas de realización de la presente invención con más detalle se incluyen
40 definiciones. Ahora se definen las señales complejas de entrada y salida de media cero xi(t,f) y yj(t,f), en donde t es el índice de tiempo, en donde f es el índice de frecuencia, en donde i es el índice de canal de entrada, y en donde j es el índice de canal de salida. Asimismo se definen los vectores de señales de la señal de entrada de audio x y la señal de salida de audio y:
imagen4
en donde N x y Ny son el número total de canales de entrada y de salida. Asimismo, se definen N = max (Ny, Nx) y las señales de igual dimensión completadas con 0:
E12745880
05-09-2014
imagen5
[0028] Las señales completadas con cero se pueden utilizar en la formulación hasta cuando la solución derivada se extiende hasta distintas longitudes de vectores.
[0029] Como se ha explicado anteriormente, la medida ampliamente utilizada para describir el aspecto espacial de un sonido multicanal es la combinación de las potencias de canales y las dependencias alineadas en tiempo. Estas propiedades están incluidas en la parte real de las matrices de covarianza, definidas como:
imagen6
10
[0030] En la ecuación (3) y a continuación, E[] es el operador de expectativa, Re{} es el operador de parte real, y x H y y H son los transpuestos conjugados de x y y. El operador de expectativa E[] es un operador matemático. En las aplicaciones prácticas se sustituye por una estimación tal como una media de un determinado intervalo de tiempo.
15 En las secciones siguientes, el uso del término matriz de covarianza se refiere a esta definición de valor real. Cxy Cy son simétricas y positivas semi-definidas y, por lo tanto, se pueden definir las matrices reales Kxy Ky, de modo que:
imagen7
20 Dichas descomposiciones se pueden obtener, por ejemplo, mediante el uso de la descomposición de Cholesky o la descomposición Eigen, véase, por ejemplo,
[7] Golub, G.H. y Van Loan, C.F., “Matrix computations”, Johns Hopkins Univ Press, 1996.
25 [0031] Cabe señalar que existe un número infinito de descomposiciones que cumplen la ecuación (4). Para cualquier matriz ortogonal Pxy Py, las matrices KxPxy KyPy también cumplen la condición ya que
imagen8
en casos que utilizan estéreo, la matriz de covarianza se da a menudo en forma de potencias de canales y correlación entre canales (ICC, por sus siglas en inglés), por ejemplo, en [1, 3, 4]. Los valores de diagonal de Cx son las potencias de canales y la ICC entre los dos canales es
imagen9
35
y correspondientemente para Cy. Los índices en los paréntesis indican fila y columna de la matriz.
[0032] La definición que queda es la matriz de mapeo determinada por la aplicación Q, que comprende la información sobre cuáles canales de entrada se van a utilizar en la composición de cada canal de salida. Con Q se 40 puede definir una señal de referencia
imagen10
E12745880
05-09-2014
[0033] La matriz de mapeo Q puede comprende cambios en la dimensionalidad y, el cambio de escala, la combinación y reordenación de los canales. Debido a la definición de las señales completadas con cero, Q es aquí una matriz cuadrada N × N que puede comprender cero filas o columnas. Algunos ejemplos de Q son: -Mejoramiento espacial: Q = I, en aplicaciones en donde la salida debería ser similar a la entrada.
5 -Mezcla descendente: Q es una matriz de mezcla descendente. -Síntesis espacial a partir de señales de micrófonos de primer orden: Q puede ser, por ejemplo, una matriz de mezcla de micrófonos de Ambisonic, que significa que yref es un conjunto de señales de micrófonos virtuales.
[0034] A continuación se formula el modo de generar una señal y a partir de una señal x, con una limitación de que
10 y tiene la matriz de covarianza definida por la aplicación Cy. La solicitud también define una matriz de mapeo Q que da un punto de referencia para la optimización. La señal de entrada x tiene la matriz de covarianza medida Cx. Como se ha indicado, los conceptos propuestos para llevar a cabo esta transformada utilizan, en primer lugar, un concepto que implica sólo una mezcla óptima de los canales, ya que el uso de descorreladores comprende generalmente la calidad de la señal, y en segundo lugar, la inyección de potencia descorrelacionada cuando el objetivo no se logra
15 de otro modo.
[0035] La relación de entrada-salida de acuerdo con estos conceptos se puede expresar del siguiente modo
imagen11
20 en donde M es una matriz de mezcla real de acuerdo con el concepto primario y r es una señal residual de acuerdo con el concepto secundario.
[0036] A continuación se sugieren conceptos para la modificación de la matriz de covarianza.
25 [0037] En primer lugar, la tarea de acuerdo con el concepto primario se resuelve sólo por la mezcla cruzada de los canales de entrada. La ecuación (8) luego se simplifica a
imagen12
A partir de las ecuaciones (3) y (9), se obtiene
imagen13
35 [0038] A partir de las ecuaciones (5) y (10) se deduce que
imagen14
[0039] a partir del cual proviene un conjunto de soluciones para M que cumplen la ecuación (10)
40
T −1 −1
M = KyPy PK = KyP K (12)
xx x
[0040] La condición para estas soluciones es que exista K −1 . La matriz ortogonal P = Py PT es el parámetro libre
x x
restante.
45 [0041] A continuación se describe cómo se obtiene una matriz P que proporciona una matriz óptima M. De todos los M en la ecuación (12) se ha examinado uno que produce una salida más cercana al punto de referencia definido yref, es decir, que reduce al mínimo
imagen15
es decir, que reduce al mínimo
E12745880
05-09-2014
imagen16
[0042] Ahora se define una señal w, de modo que E[Re{ww H}] = I. Se puede elegir w de modo que x = Kxw, ya que
imagen17
[0043] A continuación, se deduce que
imagen18
10 [0044] La ecuación (13) se puede expresar como
imagen19
[0045] A partir de E[Re{ww H}] = I, se puede demostrar fácilmente para una matriz simétrica real A que E[w HAw]= tr(A), que es la traza de la matriz. De ello se deduce que la ecuación (16) adopta la forma
imagen20
(17)
20
[0046] Para trazas de matriz se puede confirmar fácilmente que
imagen21
(18)
25
[0047] Al utilizar estas propiedades, la ecuación (17) adopta la forma
imagen22
(19)
30
[0048] Sólo el último término depende de P. El problema de optimización es así
imagen23
(20) [0049] Se puede demostrar fácilmente para una matriz de la diagonal no negativa S y cualquier matriz ortogonal Ps que
imagen24
9 (21) E12745880
05-09-2014
T
[0050] De ese modo, mediante la definición de la descomposición de valor singular USVT= K QTKy, en donde S
x
no es negativa y diagonal y U y V son ortogonales, se deduce que
imagen25
T
por lo que P produce el máximo de tr( K QTKyP) y el mínimo de la medida de error en la ecuación (13).
x
10 [0051] Un aparato de acuerdo con una forma de realización determina una matriz de mezcla óptima M, de modo que se reduce al mínimo un error e. Cabe señalar que las propiedades de covarianza de la señal de entrada de audio y la señal de salida de audio pueden variar para distintos intervalos de tiempo-frecuencia. Para ello, un proveedor de un aparato de acuerdo con una forma de realización está adaptado para analizar las propiedades de covarianza del canal de entrada de audio que pueden ser diferentes para los distintos intervalos de tiempo-frecuencia. Asimismo, el
15 procesador de señales de un aparato de acuerdo con una forma de realización está adaptado para determinar una regla de mezcla, por ejemplo, una matriz de mezcla M sobre la base de las segundas propiedades de covarianza de la señal de salida de audio, en donde las segundas propiedades de covarianza pueden tener distintos valores para distintos intervalos de tiempo-frecuencia.
20 [0052] Como la matriz de mezcla determinada M se aplica sobre cada uno de los canales de entrada de audio de la señal de entrada de audio, y como cada uno de los canales de salida de audio resultantes de la señal de salida de audio pueden depender, por lo tanto, de cada uno de los canales de entrada de audio, un procesador de señales de un aparato de acuerdo con una forma de realización está adaptado, por lo tanto, para generar la señal de salida de audio mediante la aplicación de la regla de mezcla de modo que cada uno de los dos o más canales de salida de
25 audio depende de cada uno de los dos o más canales de entrada de audio de la señal de entrada de audio.
[0053] De acuerdo con otra forma de realización se sugiere utilizar la descorrelación cuando K −1 no existe o es
x
inestable. En las formas de realización descriptas anteriormente se proporciona una solución para la determinación
−1 −1
de una matriz de mezcla óptima en donde se supone que K existe. Sin embargo, K no siempre existe o su
x x
30 inversa puede implicar multiplicadores muy grandes si algunos de los componentes principales en x son muy pequeños. Un modo efectivo de regularizar la inversa consiste en emplear la descomposición de valor singular Kx=
UxSx VT . En consecuencia, la inversa es
x
35 [0054] Los problemas surgen cuando algunos de los valores de diagonal de la matriz de la diagonal no negativa Sx son cero o muy pequeños. Un concepto que regulariza fuertemente la inversa es entonces sustituir estos valores con
valores más grandes. El resultado de este procedimiento es Sx, y la inversa correspondiente
−1
la matriz de mezcla correspondiente Mˆ = K yPKˆ x .
40 [0055] Esta regularización significa efectivamente que dentro del proceso de mezcla, la amplificación de algunos de los componentes pequeños principales en x se reduce y, por consiguiente, su intacta (sic) a la señal de salida y también se reduce y la covarianza de destino Cy generalmente no se alcanza.
[0056] Por esto, de acuerdo con una forma de realización, el procesador de señales puede estar configurado para
45 modificar por lo menos algunos valores de diagonal de una matriz de la diagonal Sx, en donde los valores de la matriz de la diagonal Sx son cero o menores que un valor umbral (el valor de umbral puede estar predeterminado o puede depender de una función), de modo que los valores son mayores que o iguales al valor umbral, en donde el procesador de señales puede estar adaptado para determinar la matriz de mezcla sobre la base de la matriz de la diagonal.
50
imagen26
imagen27
E12745880
05-09-2014
[0057] De acuerdo con una forma de realización, el procesador de señales puede estar configurado para modificar dichos por lo menos algunos valores de diagonal de la matriz de la diagonal Sx, en donde Kx= UxSxVxT, y en donde
Cx= Kx KT en donde Cx es la primera matriz de covarianza, en donde Sx es la matriz de la diagonal, en donde Ux es
x una segunda matriz, VT es una tercera matriz transpuesta y en donde KT es una cuarta matriz transpuesta de la
x x
quinta matriz Kx.
[0058] La pérdida anterior de un componente de la señal puede compensarse totalmente con una señal residual r. La relación de entrada-salida original se elaborará con la inversa regularizada.
imagen28
(25)
ˆ −1 T
[0059] Ahora se define un componente aditivo c de modo que en lugar de S Ux , se obtiene
xx
−1 T
ˆ
S Ux + c . Adicionalmente se define una señal independiente w', de modo que
xx
imagen29
imagen30
[0060] Puede demostrarse fácilmente que una señal
imagen31
tiene covarianza Cy. La señal residual para compensar la regularización es entonces
imagen32
[0061] A partir de las ecuaciones (27) y (28) se deduce que
imagen33
30 [0062] Como c ha sido definida como una señal estocástica, se deduce que la propiedad relevante de r es su matriz de covarianza. De este modo, cualquier señal que es independiente con respecto a x que se procesa para tener la covarianza Cr sirve como una señal residual que idealmente, reconstruye la matriz de covarianza de destino Cy en situaciones en las que se utilizó la regularización descripta. Dicha señal residual puede generarse fácilmente utilizando descorreladores y el procedimiento propuesto de mezcla de canales.
35 [0063] No resulta sencillo encontrar analíticamente el equilibrio óptimo entre la cantidad de potencia descorrelacionada y la amplificación de pequeños componentes de la señal. Esto es debido a que depende de factores específicos de la aplicación, tales como la estabilidad de las propiedades estadísticas de la señal de entrada, la ventana de análisis aplicado y SNR de la señal de entrada. Sin embargo, es bastante sencillo ajustar una
40 función heurística para llevar a cabo este equilibrio sin desventajas obvias, como se realizó en el código de ejemplo proporcionado a continuación.
[0064] De acuerdo con esto, el procesador de señales de un aparato de acuerdo con una forma de realización puede estar adaptado para generar la señal de salida de audio mediante la aplicación de la regla de mezcla en
ˆ
45 dichas por lo menos dos de las dos o más señales de entrada de audio para obtener una señal intermedia y' = Μx y mediante la adición de una señal residual r a la señal intermedia para obtener la señal de salida de audio.
15
25
35
45
E12745880
05-09-2014
[0065] Se ha demostrado que cuando se aplica la regularización de la inversa de Kx, los componentes de la señal faltantes en la salida total pueden complementarse totalmente con una señal residual r con la covarianza Cr. Por estos medios, se puede garantizar que la covarianza de destino Cy siempre se alcanza. A continuación se presenta una forma de generar una señal residual correspondiente r. Dicha forma comprende los pasos siguientes:
1.
Generar un conjunto de señales que abarque la misma cantidad de canales de salida. La señal yref = Qx se puede emplear porque tiene tantos canales como la señal de salida, y cada una de las señales de salida contiene una señal apropiada para ese canal en particular.
2.
Descorrelacionar esta señal. Hay muchas maneras de descorrelacionar, incluyendo los filtros de todo paso, convoluciones con ráfagas de ruido, y retardos pseudo-aleatorios en bandas de frecuencia.
3.
Medir (o suponer) la matriz de covarianza de la señal descorrelacionada. La medición es más simple y más robusta, pero debido a que las señales provienen de descorreladores, podrían suponerse incoherentes. Entonces, sólo la medición de la potencia sería suficiente.
4.
Aplicar el procedimiento propuesto para generar una matriz de mezcla que, cuando se aplica a la señal descorrelacionada, genera una señal de salida con la matriz de covarianza Cr. Utilizar aquí una matriz de mapeo Q = I, debido a que se desea afectar mínimamente el contenido de la señal.
5.
Procesar la señal proveniente de los descorreladores con esta matriz de mezcla e introducirla en la señal de salida para complementar la falta de los componentes de la señal. Por esto se logra la Cy de destino.
[0066] En una forma de realización alternativa, los canales descorrelacionados se añaden a la (por lo menos una) señal de entrada antes de la formulación de la matriz de mezcla óptima. En este caso, la entrada y la salida es de igual dimensión, y siempre que la señal de entrada tenga tantos componentes independientes de la señal como canales de entrada, no es necesario utilizar una señal residual r. Cuando los descorreladores se utilizan de este modo, el uso de descorreladores es "invisible" para el concepto propuesto, porque los canales descorrelacionados son canales de entrada como cualquier otro.
[0067] Si el uso de descorreladores no es aconsejable, por lo menos las potencias de canales de destino pueden
ˆ
lograrse mediante la multiplicación de las filas de Μde modo que
imagen34
en donde G es una matriz de ganancia de la diagonal con los valores
imagen35
imagen36
en donde
[0068] En muchas aplicaciones, el número de canales de entrada y de salida es diferente. Como se describe en la Ecuación (2), la adición de ceros de la señal con una dimensión más pequeña se aplica para tener la misma dimensión que la superior. La adición de ceros implica una sobrecarga computacional debido a que algunas filas o columnas en M resultante corresponden a los canales con potencia cero definida. Desde el punto de vista matemático, primero utilizar la adición de ceros y finalmente recortar la M hasta la dimensión Ny × Nx relevante equivale a reducir la sobrecarga mediante la introducción de la matriz Λ que es una matriz de identidad añadida con ceros hasta la dimensión Ny × Nx, por ejemplo,
imagen37
Cuando P se redefine de modo que P =VΛUT (33) 12
10
15
20
25
30
35
40
45
50
55
60
E12745880
05-09-2014
la M resultante es una matriz de mezcla Ny × Nx que es la misma que la parte relevante de la M del caso con adición de ceros. En consecuencia, Cx, Cy, Kxy Ky pueden ser su dimensión natural y la matriz de mapeo Q es de dimensión Ny × Nx.
[0069] La matriz de covarianza de entrada es siempre descomponible a Cx= Kx KT debido a que es una medida
x
positiva semi-definida de una señal real. Sin embargo, es posible definir dichas matrices de covarianza de destino que no son descomponibles por la razón de que representan las dependencias imposibles de canal. Hay conceptos para garantizar la descomposición, tales como el ajuste de los valores Eigen negativos a ceros y la normalización de la potencia, véase, por ejemplo,
[8] R. Rebonato, P. Jäckel, “The most general methodology to create a valid correlation matrix for risk management and option pricing purposes”, Journal of Risk, Vol. 2, N° 2, pp. 17-28, 2000.
[0070] Sin embargo, el uso más significativo del concepto propuesto consiste en solicitar sólo las matrices de covarianza posibles.
[0071] Para resumir lo anterior, la tarea común puede reformularse del siguiente modo. En primer lugar, una señal de entrada tiene una matriz de covarianza determinada. En segundo lugar, la aplicación define dos parámetros: la matriz de covarianza de destino y una regla, cuyos canales de entrada se van a utilizar en la composición de cada uno de los canales de salida. Para llevar a cabo esta transformada se sugiere utilizar los siguientes conceptos: El concepto primario, ilustrado por la Fig. 2, es que la covarianza de destino se logra utilizando una solución de mezcla óptima de los canales de entrada. Este concepto se considera primario ya que evita el uso del descorrelador, que a menudo compromete la calidad de la señal. El concepto secundario tiene lugar cuando no hay suficientes componentes independientes de potencia disponible razonable. La potencia descorrelacionada se inyecta para compensar la falta de estos componentes. Juntos, estos dos conceptos proporcionan los medios para llevar a cabo el ajuste robusto de matriz de covarianza en cualquier escenario dado.
[0072] La principal aplicación prevista del concepto propuesto está en el campo de la microfonía espacial [2,3], que es el campo en donde los problemas relacionados con covarianza de señales son particularmente evidentes debido a las limitaciones físicas de los micrófonos direccionales. Otros casos previstos de uso incluyen el mejoramiento estéreo y multicanal, la extracción ambiental, y la mezcla ascendente y descendente.
[0073] En la descripción anterior se han proporcionado definiciones y, a continuación, la derivación del concepto propuesto. En primer lugar se ha proporcionado la solución de mezcla cruzada, luego se ha proporcionado el concepto de inyección de la potencia de sonido correlacionado. Posteriormente se ha proporcionado una descripción del concepto con un número diferente de canales de entrada y de salida y también consideraciones en cuanto a la descomponibilidad de la matriz de covarianza. A continuación se presentan casos prácticos de uso y un conjunto de ejemplos numéricos y la conclusión. Asimismo se proporciona un ejemplo de código Matlab con la funcionalidad completa de acuerdo con este documento.
[0074] La característica espacial percibida de un sonido estéreo o multicanal está ampliamente definida por la matriz de covarianza de la señal en bandas de frecuencia. Se ha proporcionado un concepto para llevar a cabo una mezcla cruzada óptima y adaptativa de un conjunto de canales de entrada con propiedades de covarianza dadas a un conjunto de canales de salida con propiedades de covarianza arbitrariamente definibles. Se ha proporcionado otro concepto para inyectar potencia descorrelacionada sólo cuando sea necesario, cuando no haya disponibilidad de componentes de sonido independientes de potencia razonable. El concepto tiene una amplia variedad de aplicaciones en el campo del procesamiento de señales de audio espacial.
[0075] Las potencias de canales y las dependencias entre los canales (o la matriz de covarianza) de una señal multicanal pueden controlarse sólo mediante la mezcla cruzada lineal y variable en tiempo dependiendo de las características de entrada y las características de destino deseadas. Este concepto puede ilustrarse con una representación de factor de la señal en donde el ángulo entre los vectores corresponde a la dependencia de canales y la amplitud del vector es igual al nivel de la señal.
[0076] La Fig. 3 ilustra un ejemplo para aplicar una combinación lineal de vectores L y R para lograr un nuevo conjunto de vectores R’ y L’. De manera similar, los niveles de canales de audio y su dependencia pueden modificarse con una combinación lineal. La solución general no incluye vectores sino una formulación de matriz que es óptima para cualquier número de canales.
[0077] La matriz de mezcla para las señales estéreo se puede formular fácilmente también en forma trigonométrica, como puede verse en la Fig. 3. Los resultados son los mismos que con las matemáticas de la matriz, pero la formulación es diferente.
10
15
20
25
30
35
40
45
50
55
60
E12745880
05-09-2014
[0078] Si los canales de entrada son muy dependientes sólo es posible lograr la matriz de covarianza de destino con el uso de descorreladores. También se ha proporcionado un procedimiento para inyectar descorreladores sólo cuando es necesario, por ejemplo, de forma óptima.
[0079] La Fig. 4 ilustra un diagrama de bloques de un aparato de acuerdo con una forma de realización que aplica la técnica de mezcla. El aparato comprende un módulo de análisis de la matriz de covarianza 410, y un procesador de señales (sin ilustrar), en donde el procesador de señales comprende un módulo de formulación de la matriz de mezcla 420 y un módulo de aplicación de la matriz de mezcla 430. Las propiedades de covarianza de entrada de una entrada de banda de frecuencia estéreo o multicanal son analizadas por un módulo de análisis de la matriz de covarianza 410. El resultado del análisis de la matriz de covarianza se introduce en un módulo de formulación de la matriz de mezcla 420.
[0080] El módulo de formulación de la matriz de mezcla 420 formula una matriz de mezcla sobre la base del resultado del análisis de la matriz de covarianza, sobre la base de una matriz de covarianza de destino y posiblemente también sobre la base de un criterio de error.
[0081] El módulo de formulación de la matriz de mezcla 420 introduce la matriz de mezcla en un módulo de aplicación de la matriz de mezcla 430. El módulo de aplicación de la matriz de mezcla 430 aplica la matriz de mezcla en la entrada de banda de frecuencia estéreo o multicanal para obtener una salida de banda de frecuencia estéreo o multicanal que tiene, por ejemplo, las propiedades predefinidas de covarianza de destino que dependen de la matriz de covarianza de destino.
[0082] Resumiendo lo anterior, el objetivo general del concepto consiste en mejorar, corregir y/o sintetizar el sonido espacial con un grado extremo de optimización en términos de calidad de sonido. El de destino, por ejemplo, las segundas propiedades de covarianza, está definido por la aplicación.
[0083] El concepto es perceptualmente significativo y también aplicable en toda la banda, especialmente en el procesamiento de la banda de frecuencia.
[0084] Los descorreladores se utilizan con el fin de mejorar (reducir) la correlación entre canales. Lo hacen, pero tienden a poner en peligro la calidad del sonido en general, especialmente con un componente de sonido transitorio.
[0085] El concepto propuesto evita, o en alguna aplicación reduce al mínimo, el uso de descorreladores. El resultado es la misma característica espacial, pero sin dicha pérdida de calidad de sonido.
[0086] Entre otros usos, la tecnología se puede emplear en un codificador SAM-a-MPS.
[0087] El concepto propuesto se ha implementado para mejorar una técnica de micrófono que genera una corriente de bits de Sonido Envolvente de MPEG (Grupo de Expertos en Imágenes en Movimiento, MPEG según sus siglas en inglés) de una señal desde micrófonos estéreo coincidentes de primer orden, véase, por ejemplo, [3]. El proceso incluye la estimación a partir de la señal estéreo de la dirección y la difusión del campo de sonido en bandas de frecuencia y la creación de dicha corriente de bits de Sonido Envolvente de MPEG que, cuando se decodifica en el extremo receptor, produce un campo de sonido que se aproxima perceptualmente al campo de sonido original.
[0088] En la Fig. 5 se ilustra un diagrama que representa una señal de micrófono de coincidencia estéreo al codificador de Sonido Envolvente de MPEG de acuerdo con una forma de realización, que emplea el concepto propuesto para crear la señal de mezcla descendente de Sonido Envolvente de MPEG a partir de la señal de micrófono dada. Todo el procesamiento se lleva a cabo en bandas de frecuencia.
[0089] Un módulo de determinación de datos espaciales 520 está adaptado para formular los datos de información de configuración que comprenden datos de sonido envolvente espacial y mezcla descendente ICC y/o niveles sobre la base de la información de dirección y difusión que depende de un modelo de campo de sonido 510. El modelo de campo de sonido en sí se basa en un análisis de ICCs de micrófonos y en los niveles de una señal la CCI de micrófono y los niveles de una señal de micrófono estéreo. El módulo de determinación de datos espaciales 520 a continuación proporciona las ICCs de mezcla descendente de destino y los niveles a un módulo de formulación de la matriz de mezcla 530. Asimismo, el módulo de determinación de datos espaciales 520 puede estar adaptado para formular datos de sonido envolvente espacial e ICCs de mezcla descendente y niveles como información lateral espacial de Sonido Envolvente de MPEG. El módulo de formulación de la matriz de mezcla 530 luego formula una matriz de mezcla sobre la base de datos de información de configuración proporcionados, por ejemplo las ICCs y los niveles de la mezcla descendente de destino, e introduce la matriz en un módulo de mezcla 540. El módulo de mezcla 540 aplica la matriz de mezcla en la señal de micrófono estéreo. Por esto, se genera una señal que tiene las ICCs y los niveles de destino. La señal que tiene las ICCs y los niveles de destino luego se proporciona a un
10
15
20
25
30
35
40
45
50
55
60
E12745880
05-09-2014
codificador central 550. En una forma de realización, los módulos 520, 530 y 540 son submódulos de un procesador de señales.
[0090] Dentro del proceso llevado a cabo por un aparato de acuerdo con la Fig. 5 debe generarse una mezcla descendente estéreo de Sonido Envolvente de MPEG. Esto incluye la necesidad de ajustar los niveles y las ICCs de la señal estéreo dado con un impacto mínimo sobre la calidad del sonido. Para este fin se aplicó el concepto de mezcla cruzada sugerido y pudo observarse el beneficio perceptual de la técnica anterior en [3].
[0091] La Fig. 6 ilustra un aparato de acuerdo con otra forma de realización relativa a la ICC de mezcla descendente/corrección de nivel para un codificador SAM-a-MPS, Un análisis de ICC y nivel se lleva a cabo en el módulo 602 y el modelo de campo de sonido 610 depende del análisis de la ICC y el nivel por el módulo 602. El módulo 620 corresponde al módulo 520, el módulo 630 corresponde al módulo 530 y el módulo 640 corresponde a módulo 540 de la Fig. 5, respectivamente. Lo mismo se aplica para el codificador central 650 que corresponde al codificador central 550 de la Fig. 5. El concepto descripto anteriormente puede estar integrado en un codificador SAM-a-MPS para crear desde las señales del micrófono la mezcla descendente MPS con ICC y niveles exactamente correctos. El concepto descripto anteriormente es también aplicable en la representación directa SAM-a-multicanal sin MPS con el fin de proporcionar una síntesis espacial ideal mientras reduce al mínimo la cantidad de uso del descorrelador.
[0092] Se esperan mejoras con respecto a la distancia de origen, la localización de origen, la estabilidad, la comodidad de escucha y el sonido envolvente.
[0093] La Fig. 7 representa un aparato de acuerdo con una forma de realización de un mejoramiento para arreglos de micrófonos de espacio reducido. Un módulo 705 está adaptado para llevar a cabo un análisis de matriz de covarianza de una señal de entrada de micrófono para obtener una matriz de covarianza de micrófono. La matriz de covarianza de micrófono se introduce en un módulo de formulación de la matriz de mezcla 730. Asimismo, la matriz de covarianza de micrófono se utiliza para obtener un modelo de campo de sonido 710. El modelo de campo de sonido 710 puede estar basado sobre otras fuentes distintas de la matriz de covarianza.
[0094] La información de dirección y difuso basada en el modelo de campo de sonido luego se introduce en un módulo de formulación de matriz de covarianza de destino 720 para generar una matriz de covarianza de destino. El módulo de formulación de la matriz de covarianza de destino 720 luego introduce la matriz de covarianza de destino generada en el módulo de formulación de la matriz de mezcla 730.
[0095] El módulo de formulación de la matriz de mezcla 730 está adaptado para generar la matriz de mezcla e introduce la matriz de mezcla generada en un módulo de aplicación de la matriz de mezcla 740. El módulo de aplicación de la matriz de mezcla 740 está adaptado para aplicar la matriz de mezcla en la señal de entrada del micrófono para obtener una señal de salida del micrófono que tiene las propiedades de covarianza de destino. En una forma de realización, los módulos 720, 730 y 740 son submódulos de un procesador de señales.
[0096] Dicho aparato se ajusta al concepto de DirAC y SAM, que consiste en estimar la dirección y la difusión del campo de sonido original y crear dicha salida que reproduce mejor la dirección y la difusión estimadas. Este procedimiento de procesamiento de señales requiere grandes ajustes de la matriz de covarianza con el fin de proporcionar la imagen espacial correcta. El concepto procesado es la solución a lo anterior. El concepto propuesto implica la distancia de origen, la localización de origen y/o la separación de origen, confortabilidad de escucha y/o sonido envolvente.
[0097] La Fig. 8 ilustra un ejemplo que muestra una forma de realización para el mejoramiento ciego de la calidad de sonido espacial en la reproducción estéreo o multicanal. En el módulo 805 se lleva a cabo un análisis de la matriz de covarianza, por ejemplo, un análisis de ICC o nivel del contenido estéreo o multicanal. A continuación, una regla de mejoramiento se aplica en el módulo de mejoramiento 815, por ejemplo, para obtener las ICCs de salida de las ICCs de entrada. Un módulo de formulación de la matriz de mezcla 830 genera una matriz de mezcla sobre la base del análisis de la matriz de covarianza llevado a cabo por el módulo 805 y sobre la base de la información derivada de la aplicación de la regla de mejoramiento que se llevó a cabo en el módulo de mejoramiento 815. La matriz de mezcla se aplica entonces al contenido estéreo o multicanal en el módulo 840 para obtener el contenido estéreo o multicanal ajustado que tiene las propiedades de covarianza de destino.
[0098] En cuanto al sonido multicanal, por ejemplo, mezclas o grabaciones, es bastante común encontrar suboptimalidad en el sonido espacial, especialmente en términos de ICC demasiado elevada. Una consecuencia típica abarca calidad reducida con respecto a la anchura, sonido envolvente, distancia, separación de origen, localización de origen y/o estabilidad de origen y confortabilidad de escucha. Se ha probado de manera informal que el concepto es capaz de mejorar estas propiedades con los elementos que tienen innecesariamente ICCs elevadas. Las mejoras observadas son la anchura, la distancia de origen, la localización/separación de origen, sonido envolvente y confortabilidad de escucha.
10
15
20
25
30
35
40
45
50
55
60
E12745880
05-09-2014
[0099] La Fig. 9 ilustra otra forma de realización para el mejoramiento de las configuraciones estrechas de parlantes (por ejemplo, tablets, TV). El concepto propuesto es probablemente beneficioso como herramienta para mejorar la calidad estéreo en las configuraciones de reproducción en donde un ángulo del parlante es demasiado estrecho (por ejemplo, tablets). El concepto propuesto contempla lo siguiente:
-repanoramización de fuentes dentro del arco dado para que coincidan con una configuración más amplia de parlantes -aumentar la ICC para adaptarse mejor a la de una configuración más amplia de parlantes -proporcionar un mejor punto de partida para llevar a cabo la cancelación de diafonía, por ejemplo, utilizando cancelación de diafonía sólo cuando no hay forma directa de crear las señales binaurales deseadas.
[0100] Se esperan mejoras con respecto a la anchura y con respecto a la cancelación de diafonía regular, calidad de sonido y robustez.
[0101] En otro ejemplo de aplicación ilustrado por la Fig. 10, una forma de realización proporciona una reproducción óptima de Codificación de Audio Direccional (DirAC) sobre la base de una señal de micrófono de formato B.,
[0102] La forma de realización de la Fig. 10 se basa en el hallazgo de que las unidades de reproducción de DirAC del estado de las técnica basadas en señales de micrófonos coincidentes aplican la descorrelación en una medida innecesaria, por lo tanto, comprometen la calidad de audio. Por ejemplo, si el campo de sonido analizado es difuso se aplica correlación total en todos los canales, aunque un formato B proporcione ya tres componentes de sonido incoherentes en el caso de un campo de sonido horizontal (W, X, Y). Este efecto está presente en diversos grados excepto cuando la difusión es cero.
[0103] Asimismo, los sistemas descriptos anteriormente que utilizan micrófonos virtuales no garantizan una matriz de covarianza de salida correcta (niveles y correlaciones entre canales), porque los micrófonos virtuales efectúan el sonido de modo diferente dependiendo del ángulo de origen, el posicionamiento del parlante y la difusión del campo de sonido.
[0104] El concepto propuesto resuelve ambos problemas. Existen dos alternativas: proporcionar canales decorrelacionados como canales de entrada adicionales (como en la figura siguiente); o utilizar un concepto de descorrelador-mezcla.
[0105] En la Fig. 10, un módulo 1005 lleva a cabo un análisis de la matriz de covarianza. Un módulo de formulación de la matriz de covarianza de destino 1018 no sólo toma en cuenta un modelo de campo de sonido, sino también una configuración de parlantes cuando formula una matriz de covarianza de destino. Asimismo, un módulo de formulación de la matriz de mezcla 1030 genera una matriz de mezcla no sólo sobre la base de un análisis de la matriz de covarianza y la matriz de covarianza de destino, sino también sobre la base de un criterio de optimización, por ejemplo, una matriz de mezcla de micrófonos de formato B a virtual proporcionada por un módulo 1032. El modelo de campo de sonido 1010 puede corresponder al modelo de campo de sonido 710 de la Fig. 7. El módulo de aplicación de la matriz de mezcla 1040 puede corresponder al módulo de aplicación de la matriz de mezcla 740 de la Fig. 7.
[0106] En un ejemplo de aplicación adicional se proporciona una forma de realización para el ajuste espacial en los procedimientos de conversión de canales, por ejemplo, mezcla descendente. La conversión de canales, por ejemplo, haciendo automática la mezcla descendente 5.1 de la pista de audio 22.2 incluye canales de colapso. Esto puede incluir una pérdida o cambio de la imagen espacial que puede ser abordado con el concepto propuesto. Una vez más, existen dos alternativas: La primera alternativa utiliza el concepto en el dominio del mayor número de canales pero definiendo canales con cero potencia para los canales que faltan del número inferior; la otra alternativa formula la disolución de la matriz directamente para los números de canales diferentes.
[0107] La Fig. 11 ilustra la Tabla 1, que proporciona ejemplos numéricos de los conceptos descriptos anteriormente. Cuando una señal con covarianza Cx se procesa con una matriz de mezcla M y se complementa con una señal residual posible con Cr, la señal de salida tiene la covarianza Cy. A pesar de que estos ejemplos numéricos son estáticos, el caso de uso típico del procedimiento propuesto es dinámico. El orden de los canales se supone que es L, R, C, Ls, Rs, (Lr, Rr).
[0108] La Tabla 1 muestra un conjunto de ejemplos numéricos para ilustrar el comportamiento del concepto propuesto en algunos casos de uso previstos. Las matrices se formularon con el código Matlab proporcionado en el Listado 1. El Listado 1 se ilustra en la Fig. 12.
[0109] El Listado 1 de la Fig. 12 ilustra una aplicación de Matlab del concepto propuesto. El código Matlab se utilizó en los ejemplos numéricos y proporciona la funcionalidad general del concepto propuesto.
10
15
20
25
30
35
40
45
50
55
60
E12745880
05-09-2014
[0110] Aunque las matrices se ilustran estáticas, en aplicaciones típicas varían en tiempo y frecuencia. El criterio de diseño se cumple por definición ya que si una señal con la covarianza Cx se procesa con una matriz de mezcla M y se complementa con una señal residual posible con Cr, la señal de salida tiene la covarianza Cy.
[0111] La primera y la segunda fila de la tabla ilustran un caso de uso de mejoramiento estéreo por medio de la descorrelación de las señales. En la primera fila hay un componente incoherente pequeño pero razonable entre los dos canales y, por lo tanto, se logra una salida totalmente incoherente sólo con la mezcla de canales. En la segunda fila, la correlación de entrada es muy alta, por ejemplo, el componente principal más pequeño es muy pequeño. La amplificación de esto en grados extremos no es deseable y, por lo tanto, el limitador incorporado comienza a requerir así la inyección de potencia correlacionada, por ejemplo, Cr ahora es distinto de cero.
[0112] La tercera fila muestra un caso de estéreo a mezcla ascendente 5.0. En este ejemplo, la matriz de covarianza de destino se fija de modo que el componente incoherente de la mezcla estéreo es distribuido por igual e incoherentemente a los parlantes laterales y traseros y el componente coherente se coloca en el parlante central. La señal residual es nuevamente distinta de cero dado que la dimensión de la señal aumenta.
[0113] La cuarta fila muestra un caso de mezcla ascendente simple de 5.0 a 7.0 en donde los dos canales traseros originales se mezclan incoherentemente en forma ascendente a los cuatro canales traseros nuevos. Este ejemplo ilustra que el procesamiento se enfoca en aquellos canales en donde se requieren ajustes.
[0114] La quinta fila representa un caso de mezcla descendente de una señal 5.0 a estéreo. La mezcla descendente pasiva, tal como la aplicación de una matriz de mezcla descendente estática Q, amplificaría los componentes coherentes en comparación con los componentes incoherentes. Aquí, la matriz de covarianza de destino se definió para conservar la potencia que se cumple por la M resultante.
[0115] La sexta y séptima fila ilustran el caso de uso de microfonía espacial coincidente. Las matrices de covarianza de entrada Cx son el resultado de la colocación de micrófonos coincidentes ideales de primer orden en un campo difuso ideal. En la sexta fila, los ángulos entre los micrófonos son iguales, y en la séptima fila los micrófonos están orientados hacia ángulos estándares de una configuración 5.0. En ambos casos, los valores grandes fuera de la diagonal de Cx ilustran la desventaja inherente de las técnicas pasivas de los micrófonos coincidentes de primer orden en el caso ideal, en donde la matriz de covarianza que representa mejor un campo difuso es diagonal, y esto se fijó por lo tanto como el objetivo. En ambos casos, la relación de la potencia correlacionada resultante sobre toda la energía es exactamente 2/5. Esto se debe a que hay tres componentes de señales independientes disponibles en las señales de los micrófonos coincidentes horizontales de primer orden, y dos son para agregar con el fin de alcanzar la matriz de covarianza diagonal de destino de cinco canales.
[0116] Se ha identificado que la percepción espacial en la reproducción estéreo y multicanal depende especialmente de la matriz de covarianza de la señal en las bandas de frecuencia perceptualmente relevantes.
[0117] Se ha presentado un concepto para controlar la matriz de covarianza de una señal mediante la mezcla cruzada óptima de los canales. Se han presentado medios para inyectar la potencia descorrelacionada en casos en que sea necesario ya que no se dispone de componentes de señales suficientemente independientes de potencia razonable.
[0118] Se ha descubierto que el concepto es robusto en su propósito y se ha identificado una amplia variedad de aplicaciones probables.
[0119] A continuación se presentan formas de realización que describen cómo generar Cy sobre la base de Cx.A modo de primer ejemplo se considera la mezcla ascendente estéreo a 5.0. En cuanto a la mezcla ascendente estéreo a 5.0, Cx es una matriz 2x2 y Cy es una matriz 5x5 (en este ejemplo, el canal subwoofer (parlante para graves) no se considera). Los pasos para generar Cy sobre la base de Cx en cada baldosa de tiempo-frecuencia, en el contexto de mezcla ascendente pueden ser, por ejemplo, los siguientes:
1.
Estimar la potencia ambiental y directa en el canal izquierdo y derecho. El ambiente se caracteriza por un componente incoherente entre los canales que tiene igual potencia en ambos canales. La potencia directa es el resto cuando la porción de potencia ambiental se extrae de la potencia total, por ejemplo, el componente de potencia coherente, posiblemente con distintas energías en los canales izquierdo y derecho.
2.
Estimar un ángulo del componente directo. Esto se lleva a cabo utilizando una panoramización de amplitud de ley inversa. Hay una relación de panoramización de amplitud en el componente directo, y sólo hay un ángulo entre los parlantes delanteros que corresponde a la misma.
3.
Generar una matriz de 5x5 de ceros como Cy.
E12745880
05-09-2014
4. Colocar la cantidad de potencia directa en la diagonal de Cy correspondiente a los dos parlantes más próximos de la dirección analizada. La distribución de la potencia entre éstos puede adquirirse por las leyes de panoramización de amplitud. La panoramización de amplitud es coherente, por lo tanto agregar a la no diagonal correspondiente la
5 raíz cuadrada del producto de las potencias de los dos canales.
5. Agregar a la diagonal de Cy, correspondiente a los canales L, R, Ls y Rs, la cantidad de potencia que corresponde a la potencia del componente ambiental. La distribución equitativa es una buena opción. Ahora se obtiene la Cy de destino.
10
[0120] A modo de otro ejemplo se considera la mejora. El objetivo es aumentar las calidades perceptuales tales como anchura o sonido envolvente mediante el ajuste de la coherencia entre canales a cero. Aquí se proporcionan dos ejemplos diferentes en dos formas para llevar a cabo la mejora. En la primera forma se selecciona un caso de uso del mejoramiento de estéreo, por lo que Cx y Cy son matrices de 2x2. Los pasos son los siguientes:
15
1.
Formular la ICC (el valor normalizado de covarianza entre -1 y 1, por ejemplo con la fórmula proporcionada.
2.
Ajustar la ICC por una función. Por ejemplo, ICCnueva = signo(ICC) * ICC2. Este es un ajuste muy leve. O ICCnueva = signo(ICC) * max(0, abs(ICC) * 10 − 9). Este es un ajuste mayor.
3.
Formular Cy de manera que los valores de la diagonal sean los mismos que en Cx, pero el valor no diagonal se formula utilizando ICCnueva, con la misma fórmula que en el paso 1, pero a la inversa.
20
[0121] En la perspectiva anterior, la señal residual no es necesaria, debido a que el ajuste de la ICC está diseñado 25 para que el sistema no requiera una gran amplificación de pequeños componentes de la señal.
[0122] El segundo tipo de aplicación del procedimiento en este caso de uso es el siguiente. Uno tiene una señal de entrada del canal N, de modo que Cx y Cy son matrices NxN.
30 1. Formular Cy a partir de Cx fijando simplemente los valores de la diagonal en Cy igual que en Cx, y los valores nodiagonales a cero.
2. Habilitar el procedimiento de compensación de ganancia en el procedimiento propuesto, en lugar de utilizar los
residuales. La regularización en la inversa de Kx controla que el sistema sea estable. La compensación de la 35 ganancia se encarga de que las potencias se conserven.
[0123] Las dos formas descriptas para llevar a cabo el mejoramiento proporcionan resultados similares. Esta última es más fácil de aplicar en el caso de uso de canales múltiples.
40 [0124] Por último, como tercer ejemplo, se considera el modelo Directo/de difusión, por ejemplo la Codificación de Audio Direccional (DirAC).
[0125] La DirAC y también los Micrófonos de Audio Espacial (SAM) proporcionan una interpretación de un campo de sonido con dirección de parámetros y difusión. La dirección es el ángulo de llegada del componente de sonido 45 directo. La difusión es un valor entre 0 y 1, el cual proporciona información sobre la magnitud de la difusión de la potencia de sonido total, por ejemplo, que se supone que llega incoherentemente desde todas las direcciones. Esta es una aproximación del campo de sonido, pero cuando se aplica en bandas de frecuencias perceptuales, proporciona una representación perceptualmente buena del campo de sonido. La dirección, difusión, y la potencia total del campo de sonido conocidos se suponen en una baldosa de tiempo-frecuencia. Éstos se formulan utilizando
50 la información en la matriz de covarianza del micrófono Cx. Se obtiene una configuración de parlantes de canal N. Los pasos para generar Cy son similares a la mezcla ascendente, de acuerdo con lo siguiente:
1. Generar una matriz de NxN de ceros como Cy.
55 2. Colocar la cantidad de potencia directa, que es (1 − difusión) * potencia total en la diagonal de Cy correspondiente a los dos parlantes más próximos de la dirección analizada. La distribución de la potencia entre éstos puede adquirirse por las leyes de panoramización de amplitud. La panoramización de amplitud es coherente, por lo tanto agregar a la no diagonal correspondiente una raíz cuadrada de los productos de las potencias de los dos canales.
60 3. Distribuir en la diagonal de Cy la cantidad de potencia de difusión, que es la potencia de difusión total *. La distribución puede llevarse a cabo, por ejemplo, de modo que se coloque más potencia en aquellas direcciones en donde los parlantes son escasos. Ahora se obtiene la Cy de destino.
10
15
20
25
30
35
40
45
50
55
60
E12745880
05-09-2014
[0126] Aunque algunos aspectos han sido descriptos en el contexto de un aparato, es evidente que estos aspectos representan también una descripción del procedimiento correspondiente, en donde un bloque o dispositivo corresponde a un paso del procedimiento o una característica de un paso del procedimiento. En forma análoga, los aspectos descriptos en el contexto de un paso del procedimiento también representan una descripción de un bloque
o elemento o característica correspondiente de un aparato respectivo.
[0127] Dependiendo de determinados requisitos de implementación, las formas de realización de la invención se pueden implementar en hardware o en software. La implementación se puede llevar a cabo utilizando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, una memoria ROM, una memoria PROM, una memoria EPROM, una memoria EEPROM o una memoria FLASH, que tienen señales de control de lectura electrónica almacenadas en los mismos, cuyas señales cooperan (o son capaces de cooperar) con un sistema de computación programable de forma tal que el procedimiento respectivo se realice.
[0128] Algunas formas de realización de acuerdo con la invención comprenden un portador de datos que tiene señales de control de lectura electrónica, las cuales son capaces de cooperar con un sistema de computadora programable, de tal manera que uno de los procedimientos descriptos aquí se realice.
[0129] En general, las formas de realización de la presente invención se pueden implementar como un producto de programa informático con un código de programa, cuyo código de programa es operativo para llevar a cabo uno de los procedimientos cuando el producto de programa informático se ejecuta en una computadora. El código del programa se puede almacenar, por ejemplo, en un portador legible por computadora.
[0130] Otras formas de realización comprenden el programa informático para llevar a cabo uno de los procedimientos descriptos en la presente, almacenados en un portador legible por computadora o un medio de almacenamiento no transitorio.
[0131] En otras palabras, una forma de realización del procedimiento de la invención es, por lo tanto, un programa informático que tiene un código de programa para llevar a cabo uno de los procedimientos descriptos en la presente, cuando el programa informático se ejecuta en una computadora.
[0132] Otra forma de realización de los procedimientos de la invención es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio legible por computadora) que comprende, grabado en el mismo, el programa informático para llevar a cabo uno de los procedimientos descriptos en la presente.
[0133] Otra forma de realización del procedimiento de la invención es, por lo tanto, una corriente de datos o una secuencia de señales que representan el programa informático para llevar a cabo uno de los procedimientos descriptos en la presente. La corriente de datos o la secuencia de señales, por ejemplo, pueden estar configuradas para ser transferidas a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
[0134] Una forma de realización adicional comprende un medio de procesamiento, por ejemplo, una computadora, o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los procedimientos descriptos en la presente.
[0135] Otra forma de realización comprende una computadora que tiene el programa informático instalado en la misma para llevar a cabo uno de los procedimientos descriptos en la presente.
[0136] En algunas formas de realización, un dispositivo lógico programable (por ejemplo, un arreglo de puerta programable de campo) se puede utilizar para llevar a cabo algunas o todas las funcionalidades de los procedimientos descriptos en la presente. En algunas formas de realización, un arreglo de puerta programable de campo puede cooperar con un microprocesador para llevar a cabo uno de los procedimientos descriptos en la presente. En general, los procedimientos serán llevados a cabo, preferentemente, por cualquier aparato de hardware.
[0137] Las formas de realización anteriormente descriptas son simplemente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de los arreglos y los detalles descriptos en la presente serán evidentes para otros expertos en la materia. Es la intención, por lo tanto, de que la invención esté limitada solamente por el alcance de las reivindicaciones inminentes de la patente y no por los detalles específicos presentados a modo de descripción y explicación de las formas de realización de la presente.
Bibliografía:
[0138]
E12745880
05-09-2014
[1] C. Faller, “Multiple-Loudspeaker Playback of Stereo Signals”, Journal of the Audio Engineering Society, Vol. 54, Nº 11, pp. 1051-1064, junio de 2006.
[2] V. Pulkki, “Spatial Sound Reproduction with Directional Audio Coding”, Journal of the Audio Engineering Society, 5 Vol. 55, Nº 6, pp. 503-516, junio de 2007.
[3] C. Tournery, C. Faller, F. Küch, J. Herre, “Converting Stereo Microphone Signals Directly to MPEG Surround”, 128th AES Convention, mayo de 2010.
10 [4] J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, “Parametric Coding of Stereo Audio”, EURASIP Journal on Applied Signal Processing, Vol. 2005, Nº 9, pp. 1305-1322, 2005.
[5] J. Herre, K. Kjörling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rödén, W. Oomen,
K. Linzmeier and K. S. Chong, “MPEG Surround – The ISO/MPEG Standard for Efficient and Compatible 15 Multichannel Audio Coding”, Journal of the Audio Engineering Society, Vol. 56, Nº 11, pp. 932-955, noviembre de 2008.
[6] J. Vilkamo, V. Pulkki, “Directional Audio Coding: Virtual Microphone-Based Synthesis and Subjective Evaluation”, Journal of the Audio Engineering Society, Vol. 57, Nº 9, pp. 709-724, septiembre de 2009.
20
[7] Golub, G.H. y Van Loan, C.F., “Matrix computations”, Johns Hopkins Univ Press, 1996.
[8] R. Rebonato, P. Jäckel, “The most general methodology to create a valid correlation matrix for risk management and option pricing purposes”, Journal of Risk, Vol. 2, N° 2, pp. 17-28, 2000.
25

Claims (25)

  1. E12745880
    05-09-2014
    REIVINDICACIONES
    1. Un aparato para generar una señal de salida de audio que tiene dos o más canales de salida de audio a partir de una señal de entrada de audio que tiene dos o más canales de entrada de audio, el cual comprende:
    5
    un proveedor (110) para proporcionar primeras propiedades de covarianza de la señal de entrada de audio, y un procesador de señales (120) para generar la señal de salida de audio mediante la aplicación de una regla de mezcla en por lo menos dos de los dos o más canales de entrada de audio, en el que el procesador de señales (120) está configurado para determinar la regla de mezcla sobre la base de las
    10 primeras propiedades de covarianza de la señal de entrada de audio y sobre la base de las segundas propiedades de covarianza de la señal de salida de audio, en donde las segundas propiedades de covarianza son distintas de las primeras propiedades de covarianza.
  2. 2. Un aparato de acuerdo con la reivindicación 1, en el cual el proveedor (110) está adaptado para
    15 proporcionar las primeras propiedades de covarianza, en donde las primeras propiedades de covarianza tienen un primer estado para un primer intervalo de tiempo-frecuencia, y en donde las primeras propiedades de covarianza tienen un segundo estado, diferente del primer estado, para un segundo intervalo de tiempo-frecuencia, diferente del primer intervalo de tiempo-frecuencia.
    20 3. Un aparato de acuerdo con la reivindicación 1 o 2, en el que el procesador de señales (120) está adaptado para determinar la regla de mezcla sobre la base de las segundas propiedades de covarianza, en donde las segundas propiedades de covarianza tienen un tercer estado para un tercer intervalo de tiempo-frecuencia, y en donde las segundas propiedades de covarianza tienen un cuarto estado, que es diferente del tercer estado para un cuarto intervalo de tiempo-frecuencia, que es diferente del tercer intervalo de tiempo-frecuencia.
    25
  3. 4.
    Un aparato de acuerdo con una de las reivindicaciones anteriores, en el cual el procesador de señales (120) está adaptado para generar la señal de salida de audio mediante la aplicación de la regla de mezcla de modo que cada uno de los dos o más canales de salida de audio depende de cada uno de los dos o más canales de entrada de audio.
  4. 5.
    Un aparato de acuerdo con una de las reivindicaciones anteriores, en el cual el procesador de señales (120) está adaptado para determinar la regla de mezcla de modo que una medida de error se reduce al mínimo.
    30
  5. 6. Un aparato de acuerdo con la reivindicación 5, en el cual el procesador de señales (120) está adaptado 35 para determinar la regla de mezcla de modo que la regla de mezcla depende de
    ||yref – y||²
    en el cual
    40
    yref = Qx,
    en donde x es la señal de entrada de audio, en donde Q es una matriz de mapeo, y en donde y es la señal de salida 45 de audio.
  6. 7. Un aparato de acuerdo con una de las reivindicaciones anteriores, en el cual el procesador de señales (120) está configurado para determinar la regla de mezcla mediante la determinación de las segundas propiedades de covarianza, en donde el procesador de señales (120) está configurado para determinar las segundas propiedades
    50 de covarianza sobre la base de las primeras propiedades de covarianza.
  7. 8. Un aparato de acuerdo con una de las reivindicaciones anteriores, en el cual el procesador de señales (120) está adaptado para determinar una matriz de mezcla como la regla de mezcla, en donde el procesador de señales
    (120) está adaptado para determinar la matriz de mezcla sobre la base de las primeras propiedades de covarianza y 55 sobre la base de las segundas propiedades de covarianza.
  8. 9. Un aparato de acuerdo con una de las reivindicaciones anteriores, en el cual el proveedor (110) está adaptado para proporcionar las primeras propiedades de covarianza mediante la determinación de una primera matriz de covarianza de la señal de entrada de audio y en donde el procesador de señales (120) está configurado
    60 para determinar la regla de mezcla sobre la base de una segunda matriz de covarianza de la señal de salida de audio como las segundas propiedades de covarianza.
  9. 10. Un aparato de acuerdo con la reivindicación 9, en el cual el proveedor (110) está adaptado para determinar la primera matriz de covarianza, de modo que cada valor de la diagonal de la primera matriz de covarianza indica
    5
    15
    25
    35
    45
    55
    E12745880
    05-09-2014
    una potencia de uno de los canales de entrada de audio, y de modo que cada valor de la primera matriz de covarianza, que no es un valor de diagonal indica una correlación entre canales entre un primer canal de entrada de audio y un segundo canal de entrada de audio diferente.
  10. 11.
    Un aparato de acuerdo con la reivindicación 9 o 10, en el cual el procesador de señales (120) está configurado para determinar la regla de mezcla sobre la base de la segunda matriz de covarianza, en donde cada valor de la diagonal de la segunda matriz de covarianza indica una potencia de uno de los canales de salida de audio, y en donde cada valor de la segunda matriz de covarianza, que no es un valor de la diagonal, indica una correlación entre canales entre un primer canal de salida de audio y un segundo canal de salida de audio.
  11. 12.
    Un aparato de acuerdo con una de las reivindicaciones anteriores, en el cual el procesador de señales (120) está adaptado para determinar una matriz de mezcla como regla de mezcla, en donde el procesador de señales
    (120) está adaptado para determinar la matriz de mezcla sobre la base de las primeras propiedades de covarianza y sobre la base de las segundas propiedades de covarianza, en donde el proveedor (110) está adaptado para proporcionar las primeras propiedades de covarianza mediante la determinación de una primera matriz de covarianza de la señal de entrada de audio, y en donde el procesador de señales (120) está configurado para determinar la regla de mezcla sobre la base de una segunda matriz de covarianza de la señal de salida de audio como las segundas propiedades de covarianza, en donde el procesador de señales (120) está adaptado para determinar la matriz de mezcla, de modo que:
    M = K yPK − x1 ,
    de modo que
    ,
    KKT = C ,
    xx x
    KKT = C
    yy y
    en donde M es la matriz de mezcla, en donde Cx es la primera matriz de covarianza, en donde Cy es la segunda
    T
    matriz de covarianza, en donde K es una primera matriz transpuesta de una primera matriz descompuesta Kx, en
    x T -1
    donde K es una segunda matriz transpuesta de una segunda matriz descompuesta Ky, en donde K es una
    yx
    matriz inversa de la primera matriz descompuesta Kx, y en donde P es una primera matriz unitaria.
  12. 13. Un aparato de acuerdo con la reivindicación 12, en el cual el procesador de señales (120) está adaptado para determinar la regla de mezcla de modo que
    M = K yPK − x1 ,
    en el cual
    P = VΛUT,
    en donde UT es una tercera matriz transpuesta de una segunda matriz unitaria U, en donde V es una tercera matriz unitaria, en donde Λ es una matriz de identidad añadida con ceros, en donde
    T TT
    USV = Kx QK y ,
    en donde QT es una cuarta matriz transpuesta de la matriz de mapeo Q,
    en donde VT es una quinta matriz transpuesta de la tercera matriz unitaria V, y en donde S es una matriz de la diagonal.
  13. 14. Un aparato de acuerdo con la reivindicación 1, en el cual el procesador de señales (120) está adaptado para determinar una matriz de mezcla como la regla de mezcla, en donde el procesador de señales (120) está adaptado para determinar la matriz de mezcla sobre la base de las primeras propiedades de covarianza y sobre la base de las segundas propiedades de covarianza, en el cual el proveedor (110) está adaptado para proporcionar las primeras propiedades de covarianza mediante la determinación de la primera matriz de covarianza de la señal de entrada de audio, y
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    E12745880
    05-09-2014
    en el cual el procesador de señales (120) está configurado para determinar la regla de mezcla sobre la base de una segunda matriz de covarianza de la señal de salida de audio como las segundas propiedades de covarianza. en el cual el procesador de señales (120) está adaptado para determinar la regla de mezcla mediante la modificación de por lo menos algunos valores de la diagonal de una matriz de la diagonal Sx cuando los valores de la matriz de la diagonal Sx son cero o menores que un valor umbral, de modo que los valores son mayores que o iguales al valor umbral, en el cual la matriz de la diagonal depende de la primera matriz de covarianza.
  14. 15. Un aparato de acuerdo con la reivindicación 14, en el cual el procesador de señales (120) está configurado para modificar dichos por lo menos algunos valores de la diagonal de la matriz de la diagonal Sx, en donde
    T
    K = USV , y en donde C = KKT , en donde Cx es la primera matriz de covarianza, en donde Sx es la
    xx x TT
    x xxx
    matriz de la diagonal, en donde Ux es una segunda matriz, V es una tercera matriz transpuesta, y en donde K
    xx
    es una cuarta matriz transpuesta de la quinta matriz Kx, y en donde V y Ux son matrices unitarias.
    x
  15. 16.
    Un aparato de acuerdo con la reivindicación 14 o 15, en el cual el procesador de señales (120) está adaptado para generar la señal de salida de audio mediante la aplicación de la matriz de mezcla en por lo menos dos de los dos o más canales de entrada de audio para obtener una señal intermedia y mediante la adición de una señal residual r a la señal intermedia para obtener la señal de salida de audio.
  16. 17.
    Un aparato de acuerdo con la reivindicación 14 o 15, en el cual el procesador de señales (120) está adaptado para determinar la matriz de mezcla sobre la base de una matriz de ganancia de la diagonal G y una
    matriz intermedia Mˆ , de modo que M'= GMˆ , en donde la matriz de ganancia de la diagonal tiene el valor
    imagen1
    T
    en donde Cˆ y = Mˆ CxMˆ ,
    en donde M' es la matriz de mezcla, en donde G es la matriz de ganancia de la diagonal, en donde Cy es la segunda
    ˆT ˆ
    matriz de covarianza y en donde M es una quinta matriz transpuesta de la matriz intermedia M.
  17. 18.
    Un aparato de acuerdo con la reivindicación 1, en el cual el procesador de señales (120) comprende:
    un módulo de formulación de la matriz de mezcla (420; 530; 630; 730; 830; 1030) para generar una matriz de mezcla como la regla de mezcla sobre la base de las primeras propiedades de covarianza, y un módulo de aplicación de la matriz de mezcla (430; 540; 640; 740; 840; 1040) para aplicar la matriz de mezcla en la señal de entrada de audio para generar la señal de salida de audio.
  18. 19.
    Un aparato de acuerdo con la reivindicación 18, en el cual el proveedor (110) comprende un módulo de análisis de la matriz de covarianza (410; 705; 805; 1005) para proporcionar las propiedades de covarianza de entrada de la señal de entrada de audio para obtener un resultado de análisis como las primeras propiedades de covarianza, y en el cual el módulo de formulación de la matriz de mezcla (420; 530; 630; 730; 830; 1030) está adaptado para generar la matriz de mezcla sobre la base del resultado del análisis.
  19. 20.
    Un aparato de acuerdo con la reivindicación 18 o 19, en el cual el módulo de formulación de la matriz de mezcla (420; 530; 630; 730; 830; 1030) está adaptado para generar la matriz de mezcla sobre la base de un criterio de error.
  20. 21.
    Un aparato de acuerdo con una de las reivindicaciones 18 a 20, en el cual el procesador de señales (120) comprende además un módulo de determinación de datos espaciales (520; 620) para determinar los datos de información de configuración que comprenden los datos espaciales de sonido envolvente, los datos de la correlación entre canales o los datos del nivel de la señal de audio, y en el cual el módulo de formulación de la matriz de mezcla (420; 530; 630; 730; 830; 1030) está adaptado para generar la matriz de mezcla sobre la base de los datos de la información de configuración.
    E12745880
    05-09-2014
  21. 22. Un aparato de acuerdo con una de las reivindicaciones 18 a 20, en el cual el procesador de señales (120) comprende además un módulo de formulación de la matriz de covarianza de destino (730; 1018) para generar una matriz de covarianza de destino sobre la base del resultado del análisis, y en el cual el módulo de formulación de la matriz de mezcla (420; 530; 630; 730; 830; 1030) está adaptado para
    5 generar una matriz de mezcla sobre la base de la matriz de covarianza de destino.
  22. 23.
    Un aparato de acuerdo con la reivindicación 22, en el cual el módulo de formulación de la matriz de covarianza de destino (1018) está configurado para generar la matriz de covarianza de destino sobre la base de una configuración de parlante.
  23. 24.
    Un aparato de acuerdo con la reivindicación 18 a 19, en el cual el procesador de señales (120) comprende además un módulo de mejoramiento (815) para la obtención de datos de la correlación entre canales de salida sobre la base de los datos de la correlación entre canales de entrada, diferentes de los datos de la correlación entre canales de entrada, y
    10
    15 en el cual el módulo de formulación de la matriz de mezcla (420; 530; 630; 730; 830; 1030) está adaptado para generar la matriz de mezcla sobre la base de los datos de la correlación entre canales de salida.
  24. 25. Un procedimiento para generar una señal de salida de audio que tiene dos o más canales de salida de
    20 audio a partir de una señal de entrada de audio que tiene dos o más canales de entrada de audio, el cual comprende: proporcionar primeras propiedades de covarianza de la señal de entrada de audio, y generar la señal de salida de audio mediante la aplicación de una regla de mezcla en por lo menos dos de los dos o más canales de entrada de audio,
    25 en el cual la regla de mezcla está determinada sobre la base de las primeras propiedades de covarianza de la señal de entrada de audio y sobre la base de las segundas propiedades de covarianza de la señal de salida de audio, distintas de las primeras propiedades de covarianza.
  25. 26. Un programa de computadora adaptado para aplicar el procedimiento de acuerdo con la reivindicación 25 30 cuando se ejecuta en una computadora o procesador.
ES12745880.0T 2011-08-17 2012-08-14 Matrices óptimas de mezcla y uso de descorreladores en el procesamiento de audio espacial Active ES2499640T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161524647P 2011-08-17 2011-08-17
US201161524647P 2011-08-17
EP12156351A EP2560161A1 (en) 2011-08-17 2012-02-21 Optimal mixing matrices and usage of decorrelators in spatial audio processing
EP12156351 2012-02-21
PCT/EP2012/065861 WO2013024085A1 (en) 2011-08-17 2012-08-14 Optimal mixing matrices and usage of decorrelators in spatial audio processing

Publications (1)

Publication Number Publication Date
ES2499640T3 true ES2499640T3 (es) 2014-09-29

Family

ID=45656296

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12745880.0T Active ES2499640T3 (es) 2011-08-17 2012-08-14 Matrices óptimas de mezcla y uso de descorreladores en el procesamiento de audio espacial

Country Status (16)

Country Link
US (3) US10339908B2 (es)
EP (2) EP2560161A1 (es)
JP (1) JP5846460B2 (es)
KR (1) KR101633441B1 (es)
CN (1) CN103765507B (es)
AR (1) AR087564A1 (es)
AU (1) AU2012296895B2 (es)
BR (1) BR112014003663B1 (es)
CA (1) CA2843820C (es)
ES (1) ES2499640T3 (es)
HK (1) HK1187731A1 (es)
MX (1) MX2014001731A (es)
PL (1) PL2617031T3 (es)
RU (1) RU2631023C2 (es)
TW (1) TWI489447B (es)
WO (1) WO2013024085A1 (es)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
JP5930441B2 (ja) * 2012-02-14 2016-06-08 ホアウェイ・テクノロジーズ・カンパニー・リミテッド マルチチャネルオーディオ信号の適応ダウン及びアップミキシングを実行するための方法及び装置
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9769586B2 (en) 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
KR102161169B1 (ko) * 2013-07-05 2020-09-29 한국전자통신연구원 오디오 신호 처리 방법 및 장치
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830335A3 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9883308B2 (en) * 2014-07-01 2018-01-30 Electronics And Telecommunications Research Institute Multichannel audio signal processing method and device
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US20160173808A1 (en) * 2014-12-16 2016-06-16 Psyx Research, Inc. System and method for level control at a receiver
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
EP3611727B1 (en) 2015-03-03 2022-05-04 Dolby Laboratories Licensing Corporation Enhancement of spatial audio signals by modulated decorrelation
US10129661B2 (en) * 2015-03-04 2018-11-13 Starkey Laboratories, Inc. Techniques for increasing processing capability in hear aids
EP3357259B1 (en) 2015-09-30 2020-09-23 Dolby International AB Method and apparatus for generating 3d audio content from two-channel stereo content
EP3780653A1 (en) * 2016-01-18 2021-02-17 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reproduction
US10225657B2 (en) 2016-01-18 2019-03-05 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reproduction
CN108781331B (zh) * 2016-01-19 2020-11-06 云加速360公司 用于头戴式扬声器的音频增强
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
WO2017143003A1 (en) * 2016-02-18 2017-08-24 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US10979844B2 (en) * 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US10313820B2 (en) 2017-07-11 2019-06-04 Boomcloud 360, Inc. Sub-band spatial audio enhancement
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10764704B2 (en) 2018-03-22 2020-09-01 Boomcloud 360, Inc. Multi-channel subband spatial processing for loudspeakers
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
CN110782911A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 音频信号处理方法、装置、设备和存储介质
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
KR20220025107A (ko) * 2019-06-14 2022-03-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 매개변수 인코딩 및 디코딩
BR112022000806A2 (pt) * 2019-08-01 2022-03-08 Dolby Laboratories Licensing Corp Sistemas e métodos para atenuação de covariância
GB2587357A (en) * 2019-09-24 2021-03-31 Nokia Technologies Oy Audio processing
US10841728B1 (en) 2019-10-10 2020-11-17 Boomcloud 360, Inc. Multi-channel crosstalk processing
CN112653985B (zh) 2019-10-10 2022-09-27 高迪奥实验室公司 使用2声道立体声扬声器处理音频信号的方法和设备
GB2589321A (en) 2019-11-25 2021-06-02 Nokia Technologies Oy Converting binaural signals to stereo audio signals
GB2594265A (en) * 2020-04-20 2021-10-27 Nokia Technologies Oy Apparatus, methods and computer programs for enabling rendering of spatial audio signals
US11373662B2 (en) * 2020-11-03 2022-06-28 Bose Corporation Audio system height channel up-mixing
WO2023147864A1 (en) * 2022-02-03 2023-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method to transform an audio stream

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4298466B2 (ja) * 2003-10-30 2009-07-22 日本電信電話株式会社 収音方法、装置、プログラム、および記録媒体
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
ATE473502T1 (de) * 2005-03-30 2010-07-15 Koninkl Philips Electronics Nv Mehrkanal-audiocodierung
JP4875142B2 (ja) * 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
KR101111520B1 (ko) * 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
WO2008100100A1 (en) 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101542596B (zh) * 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
ES2452348T3 (es) 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
WO2009049895A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
EP2327072B1 (en) * 2008-08-14 2013-03-20 Dolby Laboratories Licensing Corporation Audio signal transformatting
KR20100111499A (ko) * 2009-04-07 2010-10-15 삼성전자주식회사 목적음 추출 장치 및 방법
TWI463485B (zh) 2009-09-29 2014-12-01 Fraunhofer Ges Forschung 音訊信號解碼器或編碼器、用以提供上混信號表示型態或位元串流表示型態之方法、電腦程式及機器可存取媒體
TWI396186B (zh) * 2009-11-12 2013-05-11 Nat Cheng Kong University 基於盲訊號分離語音增強技術之遠距離雜訊語音辨識
US9344813B2 (en) * 2010-05-04 2016-05-17 Sonova Ag Methods for operating a hearing device as well as hearing devices

Also Published As

Publication number Publication date
KR20140047731A (ko) 2014-04-22
JP5846460B2 (ja) 2016-01-20
TW201320059A (zh) 2013-05-16
US10339908B2 (en) 2019-07-02
PL2617031T3 (pl) 2015-01-30
MX2014001731A (es) 2014-03-27
HK1187731A1 (en) 2014-04-11
AR087564A1 (es) 2014-04-03
CN103765507B (zh) 2016-01-20
US11282485B2 (en) 2022-03-22
EP2617031A1 (en) 2013-07-24
RU2631023C2 (ru) 2017-09-15
JP2014526065A (ja) 2014-10-02
US10748516B2 (en) 2020-08-18
WO2013024085A1 (en) 2013-02-21
EP2617031B1 (en) 2014-07-23
US20140233762A1 (en) 2014-08-21
TWI489447B (zh) 2015-06-21
CA2843820C (en) 2016-09-27
BR112014003663B1 (pt) 2021-12-21
KR101633441B1 (ko) 2016-07-08
AU2012296895A1 (en) 2014-02-27
AU2012296895B2 (en) 2015-07-16
US20190251938A1 (en) 2019-08-15
BR112014003663A2 (pt) 2020-10-27
EP2560161A1 (en) 2013-02-20
RU2014110030A (ru) 2015-09-27
US20200372884A1 (en) 2020-11-26
CA2843820A1 (en) 2013-02-21
CN103765507A (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
ES2499640T3 (es) Matrices óptimas de mezcla y uso de descorreladores en el procesamiento de audio espacial
AU2022291444B2 (en) Method for and apparatus for decoding an ambisonics audio soundfield representation for audio playback using 2D setups
Pulkki et al. Parametric time-frequency domain spatial audio
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
US11470436B2 (en) Spatial audio parameters and associated spatial audio playback
US9014377B2 (en) Multichannel surround format conversion and generalized upmix
US8145499B2 (en) Generation of decorrelated signals
CA2908180C (en) Apparatus and method for generating an output signal employing a decomposer
US20130304480A1 (en) Encoding and decoding of slot positions of events in an audio signal frame
US20210314719A1 (en) Method and device for applying dynamic range compression to a higher order ambisonics signal
JP2017535153A (ja) オーディオ・エンコーダおよびデコーダ
Delikaris-Manias et al. Parametric binaural rendering utilizing compact microphone arrays
EP2934025A1 (en) Method and device for applying dynamic range compression to a higher order ambisonics signal