ES2834087T3 - Procesamiento en sub-bandas de un contenido ambisónico real para el perfeccionamiento de un descodificador - Google Patents

Procesamiento en sub-bandas de un contenido ambisónico real para el perfeccionamiento de un descodificador Download PDF

Info

Publication number
ES2834087T3
ES2834087T3 ES17829231T ES17829231T ES2834087T3 ES 2834087 T3 ES2834087 T3 ES 2834087T3 ES 17829231 T ES17829231 T ES 17829231T ES 17829231 T ES17829231 T ES 17829231T ES 2834087 T3 ES2834087 T3 ES 2834087T3
Authority
ES
Spain
Prior art keywords
ambisonic
matrix
sub
matrices
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17829231T
Other languages
English (en)
Inventor
Mathieu Baque
Alexandre Guerin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Application granted granted Critical
Publication of ES2834087T3 publication Critical patent/ES2834087T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Procedimiento, implementado por medios informáticos, para procesar un contenido ambisónico que comprende una pluralidad de componentes ambisónicos de una pluralidad de órdenes que definen una sucesión de canales ambisónicos en cada uno de los cuales se representa un 5 componente ambisónico, comprendiendo el procedimiento: - un filtrado de frecuencia de los componentes ambisónicos en una pluralidad de bandas de frecuencia, - una elaboración de una matriz (B) de descodificación ambisónica, estando el procedimiento caracterizado por: - un procesamiento de la matriz (B) de descodificación ambisónica para extraer, por reducción de la dimensión de la matriz, una pluralidad de submatrices (B1, B2) de descodificación ambisónica, cada una asociada con un orden ambisónico y una banda de frecuencia elegida para este orden ambisónico, - aplicaciones respectivas de las submatrices de descodificación a componentes ambisónicos en cada banda de frecuencia elegida y una reconstrucción banda a banda de los resultados de dichas aplicaciones respectivas, para dar salida a una pluralidad de señales descodificadas, cada una asociada con una fuente de sonido.

Description

DESCRIPCIÓN
Procesamiento en sub-bandas de un contenido ambisónico real para el perfeccionamiento de un descodificador La presente invención se refiere al campo del procesamiento de señales de audio o acústicas y, más particularmente, al procesamiento de contenido de sonido multicanal real en sonido envolvente (o formato "ambisónico" en adelante). En el estado de la técnica anterior, se conocen procedimientos de tratamiento ambisónico: M. Baqué, A. Guérin et M. Melon "Séparation de sources appliquée a un contenu ambisonique: localisation et extraction des champs directs", Congrés Frangais d'Acoustique et le 20e colloque Vibrations, SHocks and NOise, CFA/VISHNO 2016, 1 de abril de 2016 (01-04-2016), páginas 1-6, Le Mans, describe el uso de una matriz de mezcla diferente según las sub-bandas de frecuencia. La solicitud de patente EP2866475A1 describe una técnica similar.
La técnica ambisónica consiste en utilizar un subconjunto de canales en cada banda de frecuencia que tienen las características de directividad deseadas. Como ejemplo de aplicación, se pueden citar:
- Separación de fuentes de sonido:
o Para entretenimiento (karaoke: supresión de voz),
o Para música (mezcla de fuentes separadas en contenido multicanal),
o Para telecomunicaciones (mejora de la voz, eliminación de ruido),
o Para domótica (control por voz),
o Codificación de audio multicanal.
- Descodificación para transmisión multicanal:
o Para el cine,
o Para la música,
o Para realidad virtual.
La ambisonia consiste en una proyección del campo acústico sobre la base de funciones armónicas esféricas (base ilustrada en la figura 1), para obtener una representación espacializada de la escena sonora. La función Y£n (0,0) es el armónico esférico de orden m e índice na, dependiendo de las coordenadas esféricas (0,), definido con la siguiente fórmula:
cos n0 si a = 1
n£n(0,0) Pmn(cos$). sinn0 si a = — 1 y n > 1
donde Pmn(cos0) es una función polar que implica el polinomio de Legendre:
Figure imgf000002_0001
En la representación de la figura 1, el primer "vector' de la base de armónicos esféricos (en la parte superior de la figura 1) corresponde al orden m = 0, los tres “vectores” de la siguiente fila corresponden al orden m = 1 (orientados según las tres direcciones del espacio), etc.
En la práctica, la codificación ambisónica real se realiza a partir de una red de sensores, generalmente distribuidos sobre una esfera, que se combinan para sintetizar un contenido ambisónico cuyos canales respetan mejor las directividades de los armónicos esféricos (como se ilustra en la figura 2). Con referencia a la figura 2, un micrófono MIC comprende una pluralidad de cápsulas piezoeléctricas C1, C2, ... que reciben ondas sonoras en diferentes direcciones de llegada desde el espacio. Una unidad de procesamiento UP que recibe las señales provenientes de estas cápsulas realiza una codificación ambisónica utilizando una matriz de filtros que se presenta a continuación y entrega señales ambisónicas (formalizadas en una base de armónicos esféricos del tipo ilustrado en la figura 1). Los principios básicos de la codificación ambisónica se describen a continuación.
El formalismo ambisónico, inicialmente limitado a la representación de funciones armónicas esféricas de orden 1, posteriormente se amplió a órdenes superiores. El formalismo ambisónico con un mayor número de componentes se denomina habitualmente "Ambisónicos de orden superior" (u "AOS" en lo sucesivo).
A cada orden m le corresponden 2m 1 funciones armónicas esféricas, como se ilustra en la figura 1. De este modo, el contenido de orden M contiene un total de (M+1)2 canales (4 canales en orden 1, 9 canales en orden 2, 16 canales en orden 3, y así sucesivamente).
La expresión "componentes ambisónicos" se entiende en adelante como la señal ambisónica en cada canal ambisónico, con referencia a los "componentes vectoriales" en una base vectorial que estaría formada por cada función armónica esférica. De este modo, por ejemplo, se puede citar:
- un componente ambisónico para el orden m = 0,
- tres componentes ambisónicos para el orden m = 1,
- cinco componentes ambisónicos para el orden m = 2,
- siete componentes ambisónicos para el orden m = 3, etc.
Las señales ambisónicas captadas por estos diferentes componentes se distribuyen luego en un número N de canales que se deduce del orden máximo m que se pretende captar en la escena sonora. Por ejemplo, si se captura una escena sonora con un micrófono ambisónico con 20 cápsulas piezoeléctricas, entonces, el orden ambisónico máximo captado es M = 3, de modo que no haya más de 20 canales N = (M+1)2, el número de componentes ambisónicos considerados es 7 5 3 1 = 16 y el número N de canales es N = 16, dado en otro lugar por la relación N = (M+1)2, con M = 3.
La captación ambisónica x(t) de orden M y compuesta de N fuentes de sonido si la incidencia (Qi, i) que se propaga en un campo libre se puede escribir matemáticamente en la siguiente forma de matriz:
Figure imgf000003_0001
Donde A es una llamada "matriz de mezcla", de dimensiones (M+1)2 x N y en la que cada columna Ai contiene los coeficientes de mezcla de la fuente i.
Físicamente, esta matriz A corresponde a los coeficientes de codificación de cada fuente i, asociados con cada dirección de cada fuente i. Para extraer las fuentes de dicho contenido, es necesario proceder a la estimación de una matriz B denominada "matriz de separación", inversa de la matriz A. Para obtener la matriz B, se puede implementar una etapa de separación de fuente ciega, por ejemplo, utilizando un algoritmo de análisis de componentes independientes (o "ACI" en lo sucesivo), o también un algoritmo de análisis de componentes principales. La matriz B = A'1 permite la extracción de las fuentes mediante la siguiente operación:
s(t) = Bx(t)
Esta etapa equivale a formar canales (o "formación de haces" en lo sucesivo), es decir, combinar diferentes canales con directividades distintas, para crear un nuevo componente con la directividad deseada. Un ejemplo de formación de haces para extraer tres componentes, para un contenido de AOS de orden 2, 4 o 6, se ilustra en la figura 3. Cuanto mayor sea el orden, cuanto más direccional sea la formación del haz, mayor será el número de componentes que se pueden extraer.
En la práctica, la generación de las señales ambisónicas x(t) = As(t) pasa por una etapa intermedia de captura de micrófono como se ilustra en la Figura 2, donde las fuentes s(t) son captadas por las cápsulas del micrófono MlC para formar las señales p1, p2, p3... A continuación, se formaliza la matriz de codificación microfónica E tal que x(t) = E.p(t), para obtener los componentes ambisónicos x1, x2, ..., xN (en N canales ambisónicos como se ilustra en la Figura 4). Ahora con referencia a la figura 4, se estima, como se ha presentado anteriormente, la matriz de descodificación B es la inversa de la matriz A, para determinar las señales de las fuentes s1, s2, s3:
s(t) = Bx(t)
Para descodificar un contenido AOS en un sistema de altavoces, el proceso es similar. Se adquieren señales ambisónicas en N canales x1, x2, xN, pero, en el presente documento, en lugar de considerar s(t) como la suma de las contribuciones de las fuentes, se considera s(t) como la suma de las señales emitidas por un conjunto de altavoces (lo que hace posible suministrar eficazmente a estos altavoces las señales s1, s2, s3...). Por lo tanto, la matriz de descodificación B se formula en este caso a partir de las posiciones de los altavoces de un sistema de reproducción de sonido y las señales destinadas a los altavoces se extraen según el mismo proceso que el utilizado para la separación de fuentes.
En realidad, los sensores utilizados tienen limitaciones físicas que conducen a una degradación de la codificación del micrófono y, por tanto, a una degradación de la directividad de los componentes ambisónicos. Por ejemplo, la codificación de altas frecuencias se degrada cuando el espaciado entre sensores se vuelve aproximadamente mayor que la mitad de una longitud de onda: esto se debe al fenómeno de solapamiento espacial. A bajas frecuencias, las cápsulas del micrófono tienden a volverse omnidireccionales y resulta imposible obtener las directividades deseadas. Más precisamente, las degradaciones a bajas frecuencias son más marcadas cuando se trata de sintetizar componentes ambisónicos de alto orden. De manera general, las directividades asociadas son más complejas y, por tanto, más sensibles a las variaciones en las propiedades de los sensores. La figura 5 ilustra el grado de correlación entre la codificación teórica y la codificación real de un micrófono esférico de 32 cápsulas, según la frecuencia y el orden ambisónico. La figura 5 muestra que el grado más alto de correlación generalmente se logra para frecuencias entre 1 kHz y 10 kHz. No obstante, para otros intervalos de frecuencia (excepto para los órdenes ambisónicos 0 y 1), la extracción de fuentes no siempre conduciría al mismo resultado para una codificación teórica y para una codificación real de estas mismas fuentes. Más precisamente, para frecuencias fuera del intervalo [1 kHz-10 kHz], los componentes extraídos están potencialmente degradados.
La figura 6 muestra la directividad real en el plano horizontal de las primeras componentes de los órdenes 0, 1, 2 y 3 en función de la frecuencia del sonido. Parece, en la figura 6, que los componentes reales no están codificados correctamente. En efecto, si se toma el ejemplo del componente de orden 0 a la frecuencia de 10 kHz, se ve que no es circular, a diferencia del componente teórico y el mismo componente calculado en frecuencias entre 300 y 1.000 Hz. De este modo, ya no se respeta la directividad de este componente a la frecuencia de 10 kHz, lo que podría inducir una representación espacial degradada. Por otra parte, Los componentes de órdenes 1, 2 y 3 también tienen directividades sesgadas para frecuencias inferiores a 10 kHz.
Más generalmente, tan pronto como la directividad teórica ya no se respete, la formación de haces realizada ya no permite extraer correctamente los componentes deseados. Por ejemplo, esto da como resultado la aparición de interferencias durante la separación de fuentes. Esto también puede resultar en una degradación de la reproducción espacial en las bandas de frecuencia afectadas por la radiodifusión multicanal. Más particularmente, hay una pérdida de energía a bajas frecuencias en órdenes altos durante la codificación. Esto implica que las fuentes extraídas mediante canales de alto orden pueden perder parte de su energía en las frecuencias en cuestión.
El uso de la formación de haces para la separación de fuentes o la restitución de un contenido ambisónico ideal o de una captura multicanal ya se utiliza en particular para la separación o para la descodificación multicanal. Para la separación de la fuente, se utiliza una inversión de la matriz de mezcla estimada por análisis de componentes independientes para extraer las fuentes. Para descodificación multicanal, la matriz de coeficientes ambisónicos relacionados con los altavoces se puede invertir. En cambio, el procesamiento del contenido ambisónico real, afectado por las limitaciones físicas del sistema de grabación, no se aborda en la técnica anterior. La única solución propuesta actualmente es limitar el ancho de banda total de las fuentes extraídas, lo que no es satisfactorio.
La presente invención mejora esta situación.
Ofrece un procedimiento para tal fin, implementado por medios informáticos, para procesar un contenido ambisónico que comprende una pluralidad de componentes ambisónicos de una pluralidad de órdenes que definen una sucesión de canales ambisónicos en cada uno de los cuales se representa un componente ambisónico, comprendiendo el procedimiento:
- un filtrado de frecuencia de los componentes ambisónicos en una pluralidad de bandas de frecuencia, - una elaboración de una matriz de descodificación ambisónica,
- un procesamiento de la matriz de descodificación ambisónica para extraer, por reducción de la dimensión de la matriz, una pluralidad de submatrices de descodificación ambisónica, cada una asociada con un orden ambisónico y con una banda de frecuencia elegida para este orden ambisónico,
- aplicaciones respectivas de las submatrices de descodificación a componentes ambisónicos en cada banda de frecuencia elegida y una reconstrucción banda a banda de los resultados de dichas aplicaciones respectivas, para dar salida a una pluralidad de señales descodificadas, cada una asociada con una fuente de sonido.
Por "fuente de sonido" también se entiende en el presente documento:
- una fuente de sonido efectivamente identificada y ubicada en el espacio tridimensional (en la técnica de extracción de la fuente), en cuyo caso la matriz de descodificación es una matriz de separación de fuentes, o
- un altavoz entre varios altavoces, con una posición claramente identificada en el espacio, y alimentado en particular por una de las señales descodificadas mencionadas anteriormente.
Una banda de frecuencia se puede definir mediante varias bandas de frecuencia o sub-bandas de frecuencia.
El desarrollo de submatrices de descodificación ambisónicas para cada banda de frecuencia, y para cada orden ambisónico, permite aprovechar en cada banda de frecuencia un número máximo de canales ambisónicos que son realmente válidos en cada submatriz, para restaurar una señal descodificada con poca o ninguna degradación. Según una realización, cada submatriz de descodificación ambisónica está asociada a una banda de frecuencia elegida en función de un criterio de validez de los componentes ambisónicos del orden al que se asocia dicha submatriz, en dicha banda de frecuencias elegidas.
Tal realización permite aislar los componentes ambisónicos que constituyen cada orden, para procesarlos en el intervalo de frecuencia en el que son válidos. Por "válido", se entiende un respeto por la representación ambisónica teórica, tal como, por ejemplo, el orden m = 4 en la banda de frecuencia de 4.000 a 6.000 Hz en el ejemplo de la figura 5, o el orden m = 3 en la banda de frecuencia de 2.000 a 9.000 Hz.
De este modo, en una realización, el criterio de validez de los componentes puede definirse por las condiciones para capturar dichos componentes ambisónicos, por al menos un micrófono ambisónico.
En esta realización, por ejemplo, el procedimiento puede comprender, además:
- una recepción de datos de al menos un micrófono ambisónico utilizado para captar dichos componentes ambisónicos;
- una determinación de las bandas de frecuencia elegidas para construir dichas submatrices, según dichos datos del micrófono ambisónico.
El conocimiento de los datos del micrófono ambisónico utilizado para la captura ambisónica permite afinar la determinación de las bandas de frecuencia elegidas para el desarrollo de las submatrices. En efecto, el procesamiento ambisónico se realiza sobre submatrices cuyos componentes ambisónicos cumplen estrictamente el criterio de validez en las bandas de frecuencia asociadas.
No obstante, los datos del micrófono ambisónico utilizado para la captación no siempre son accesibles. Como variante, por lo tanto, es posible prever la determinación de las bandas de frecuencia usando un ábaco previamente establecido a partir de mediciones realizadas en una pluralidad de micrófonos ambisónicos, para establecer los intervalos de frecuencia "medios", asociados con un orden ambisónico, en el que los componentes ambisónicos de cada orden ambisónico generalmente cumplen con el criterio de validez mencionado anteriormente.
De este modo, según una realización, cada submatriz de descodificación ambisónica está asociada con un orden ambisónico y con una banda de frecuencia elegida para este orden ambisónico,
- se puede elegir una banda de frecuencia en un intervalo de 100 Hz a 10 kHz para el orden ambisónico m = 1, - se puede elegir una banda de frecuencia en un intervalo de 500 Hz a 10 kHz para el orden ambisónico m = 2, - se puede elegir una banda de frecuencia en un intervalo de 2.000 Hz a 9.000 Hz para el orden ambisónico m = 3,
- se puede elegir una banda de frecuencias en un intervalo de 3.000 Hz a 7.000 Hz para el orden ambisónico m = 4.
En una realización en la que las bandas de frecuencia se obtienen mediante transformada de Fourier a corto plazo (FFT), una banda de frecuencia asociada con un orden ambisónico puede comprender varias bandas de frecuencia FFT. De este modo, varias bandas de frecuencia pueden asociarse con un orden ambisónico.
En un ejemplo de esta realización en la que se usa una FFT, para una señal muestreada a 48 kHz y para un tamaño de FFT de 4.096 puntos (212), las bandas n.° 10 a 910 corresponden a la banda de frecuencia de 100 a 10 kHz y están asociadas al orden ambisónico m = 1.
De este modo, resulta que es posible definir un criterio de validez en base a valores promedio de las bandas de frecuencia para cada orden ambisónico, incluso si los datos del micrófono ambisónico utilizado para captar componentes ambisónicos son inaccesibles.
Según una realización particular, el procesamiento de la matriz de descodificación ambisónica comprende:
- una inversión de la elaborada matriz de descodificación ambisónica, para obtener una matriz de mezcla que incluya: * las filas correspondientes a los respectivos canales ambisónicos, y
* las columnas correspondientes a las fuentes de sonido,
- un tratamiento de la matriz de mezcla para extraer, por reducción de la dimensión de la matriz, una pluralidad de submatrices de mezcla, cada una asociada con un orden ambisónico y con una banda de frecuencia elegida, y - una inversión de las submatrices de mezcla para obtener, respectivamente, dichas submatrices de descodificación ambisónica.
Por tanto, se entiende que un filtrado de frecuencia de las componentes de orden m = 4 entre 4.000 y 6.000 Hz, en el ejemplo de la figura 5, permite construir una submatriz, en particular de mezcla (matriz indicada A arriba), en N = (M+1)2 = 25 filas, conservando los primeros 25 canales ambisónicos. No obstante, a estos efectos, es preferible que la señal ambisónica esté suficientemente representada en esta banda de frecuencia de 4-6 kHz, como se verá más adelante. Por otra parte, si la señal ambisónica también está bien representada en las bajas frecuencias, por ejemplo entre 100 y 200 Hz, también se puede construir una submatriz para el orden m = 1, por ejemplo, en N = 4 filas. Por tanto, finalmente es posible obtener una pluralidad de submatrices de mezcla, cada una asociada a un orden ambisónico m y cada una comprende un número de filas correspondientes a un número de canales ambisónicos válidos para este orden m y en la banda de frecuencia con la que está asociada esta submatriz.
En una realización, el procesamiento del contenido ambisónico se lleva a cabo para la separación de la fuente y dicha matriz de descodificación es una matriz de separación ciega de la fuente construida a partir de los componentes ambisónicos.
Por ejemplo, la matriz de separación se puede producir a partir de los componentes ambisónicos filtrados en una banda de frecuencia elegida y, preferentemente, en la que el número de canales ambisónicos válidos según el criterio mencionado anteriormente es máximo.
De este modo, los canales se seleccionan para una precisión de representación en un orden ambisónico tan alto, pero también para mantener un máximo de canales representados correctamente en esta banda de frecuencia, en órdenes ambisónicos inferiores.
En esta realización, las submatrices de mezcla se pueden simplificar antes de su inversión, reduciendo un número de columnas de cada submatriz, eligiendo las columnas restantes de las submatrices para conservar señales de mayor energía después de la aplicación de las submatrices de descodificación.
En efecto, conservar las señales de mayor energía permite representar mejor y, por lo tanto, restaurar mejor, el campo de sonido.
Además o como variante, es posible optar por favorecer las señales extraídas más descorrelacionadas o las más independientes según un criterio de independencia elegido.
De este modo, en esta realización, Las submatrices de mezcla se simplifican antes de su inversión, reduciendo un número de columnas de cada submatriz, eligiendo las columnas restantes de las submatrices para mantener las señales menos correlacionadas después de la aplicación de las submatrices de descodificación.
Por otra parte, en un ambiente reverberante, la señal está formada por campos directos resultantes de la propagación equivalente en "campo libre" de cada fuente y por reflexiones en las paredes del entorno acústico. De este modo, en una realización alternativa o complementaria, Las submatrices de mezcla se simplifican antes de su inversión, reduciendo un número de columnas de cada submatriz, las columnas restantes de las submatrices se eligen de manera que conserven las señales correspondientes a los campos de sonido directos después de la aplicación de las submatrices de descodificación.
Por supuesto, en una realización en la que el procesamiento del contenido ambisónico se lleva a cabo para la reproducción ambisónica en una pluralidad de altavoces, la matriz de descodificación mencionada anteriormente puede ser una matriz inversa de las posiciones espaciales relativas de los altavoces.
En una realización ilustrada a continuación con referencia a la figura 9, el procedimiento comprende, en particular, para un contenido ambisónico dividido en sub-bandas de frecuencia, una aplicación de descodificación de submatrices, obtenido por:
- Para cada orden ambisónico de contenido, una determinación de una banda de frecuencia en la que dicho orden cumple un criterio de validez predeterminado de codificación ambisónica,
- Sobre la base de dichas bandas de frecuencia, una aplicación de un banco de filtros con contenido ambisónico para producir una pluralidad de señales en sub-bandas, de dimensiones variables correspondientes a canales ambisónicos válidos en esta sub-banda,
- Determinación de una matriz de descodificación de tamaño máximo en la banda de frecuencia del orden ambisónico máximo y de una matriz de mezcla asociada, inversa o pseudo-inversa, de dicha matriz de descodificación, - Para cada otra banda de frecuencia, una determinación de una matriz de mezcla de tamaño reducido, submatriz de dicha matriz de mezcla y de una submatriz de separación, inversa o pseudo-inversa, de dicha submatriz de mezcla, - una reconstrucción de las señales separadas de banda completa aplicando un banco de filtros de síntesis a las señales separadas resultantes de la multiplicación de dichas señales por dichas matrices.
La presente invención también tiene por objeto un programa informático que comprende instrucciones para la implementación del procedimiento cuando este programa lo ejecuta un procesador. Un ejemplo de un diagrama de flujo del algoritmo general de dicho programa se ilustra en la Figura 7, comentada a continuación, que se especifica en las figuras 8 y 9.
La presente invención también se refiere a un dispositivo informático que comprende:
- una interfaz de entrada para recibir señales de componentes ambisónicos,
- una interfaz de salida para entregar señales descodificadas, cada uno asociado con una fuente de sonido, - y un programa informático para implementar el procedimiento.
Un ejemplo de tal dispositivo se ilustra en la figura 10, comentada a continuación.
La presente invención propone de este modo utilizar la formación de canales a partir de una codificación ambisónica real aprovechando, en cada banda de frecuencia, todos los canales cuya directividad respete el formalismo ambisónico. Una realización presentada anteriormente permite determinar una o más matrices de mezcla Ak, correspondientes a submatrices obtenidas a partir de la matriz teórica A y cada una formulada en una banda de frecuencia, invertida luego para dar matrices de descodificación Bk.
De este modo, la invención ofrece un procesamiento genérico de cualquier contenido ambisónico, y en particular real, posiblemente afectado por las limitaciones físicas de un sistema de grabación, sin ninguna restricción que pretenda limitar el ancho de banda total de las fuentes extraídas.
Otras ventajas y características de la invención resultarán evidentes al leer la descripción detallada a continuación de las realizaciones de ejemplo de la invención y al examinar los dibujos adjuntos en los que:
- la figura 1 ilustra una base de funciones armónicas esféricas de orden 0 (primera fila) a 3 (última fila), con los valores positivos en gris claro y los valores negativos en gris oscuro,
- la figura 2 ilustra un sistema de codificación ambisónico de un micrófono esférico,
- la figura 3 ilustra la formación de canales para la extracción de tres componentes, para diferentes órdenes ambisónicos,
- la figura 4 ilustra muy esquemáticamente un sistema de descodificación ambisónico a partir de componentes ambisónicos,
- la figura 5 ilustra la correlación entre una codificación ambisónica ideal y una codificación real,
- la figura 6 ilustra la directividad en el plano horizontal, medida para una codificación ambisónica real (con, sucesivamente, de izquierda a derecha los componentes de los órdenes 0, 1, 2 y 3),
- la figura 7 ilustra las etapas principales de un ejemplo de un procedimiento en el sentido de la invención,
- la figura 8 ilustra las etapas de un modo de realización particular del procedimiento según la invención,
- la figura 9 es un diagrama de bloques de un algoritmo de procesamiento correspondiente a la realización ilustrada en la figura 7 y
- la figura 10 ilustra esquemáticamente un posible dispositivo para la implementación de la invención.
El diagrama general de un procedimiento de procesamiento ambisónico general dentro del significado de la invención se presenta en la figura 7. Este es, por ejemplo, un procedimiento de descodificación ambisónico. Se entiende que los términos "descodificación ambisónica" significan tanto el suministro de señales decodificadas, por ejemplo, destinadas a suministrar los respectivos altavoces para la reproducción de sonido envolvente, como, más generalmente, el suministro de señales, cada una asociada con una fuente de sonido, especialmente en la técnica de separación de fuentes.
En la etapa S1, hay un contenido ambisónico x(t) que comprende una pluralidad de componentes ambisónicos CA, de órdenes sucesivos m = 0, 1, ..., M (con, por ejemplo, M = 4) y, de una grabación o de una "captura", por al menos un micrófono ambisónico MIC. Un micrófono ambisónico es un micrófono formado por una pluralidad de cápsulas de micrófono distribuidas generalmente de forma esférica y con la mayor regularidad posible. Estas cápsulas actúan como sensores de señales de sonido. Las cápsulas de micrófono están dispuestas en el micrófono ambisónico para captar señales de sonido según su directividad en el espacio. Como se ilustra en la figura 5, el conjunto de cápsulas que forman tal micrófono ambisónico puede adquirir diferentes componentes ambisónicos en órdenes ambisónicos hasta M, pero la precisión de la representación ambisónica para estos diferentes órdenes no se respeta realmente para todas las frecuencias del espectro de audio entre 0 y 20 kHz. No obstante, la invención propone en el presente documento aislar ciertas frecuencias del espectro para las cuales los componentes ambisónicos, por órdenes dados, son exactos (como, por ejemplo, en el intervalo de frecuencias entre 4.000 y 6.000 Hz para el orden m = 4 en la figura 5, o más ampliamente el intervalo entre 2.000 Hz y 9.000 Hz para el orden m = 3, etc.).
No obstante, las variaciones de frecuencia de la precisión de representación ambisónica de cada orden de la figura 5 se obtienen para un micrófono particular que tiene dimensiones y un número dado de cápsulas. De este modo, para otro micrófono, se pueden esperar otras variaciones espectrales.
La etapa S2, por lo tanto, tiene como objetivo recuperar los datos que caracterizan el micrófono ambisónico MIC (y posiblemente las condiciones para capturar el contenido ambisónico c(t), y/o las condiciones de reverberación durante la captura, o similares).
Más generalmente, un dato que caracteriza al micrófono ambisónico MIC puede ser el espaciado entre cápsulas. En efecto, la codificación de alta frecuencia se degrada cuando el espaciado entre sensores es mayor que la mitad de la longitud de onda. Esto se debe al fenómeno del solapamiento espacial (o "solapamiento"). A la inversa, para una señal de baja frecuencia, las cápsulas de micrófono que están demasiado juntas no pueden generar la directividad deseada.
En la etapa S3, se puede aplicar un banco de filtros de análisis de BFA al contenido ambisónico x(t) para luego seleccionar, en la etapa S31, señales de componentes ambisónicos filtrados en intervalos de frecuencia en los que la representación ambisónica para un orden dado m es la más exacta (respetando así un "criterio de validez" de la representación ambisónica) y esto de acuerdo con los datos del micrófono definidos anteriormente.
Según el tipo de procesamiento aplicado al contenido ambisónico x(t), entre un tratamiento de separación de fuente SAS o un tratamiento con vistas a la restitución en los altavoces RES, la etapa S4 tiene como objetivo obtener una matriz de descodificación B, dependiendo del tipo de tratamiento elegido. En el caso de reproducción ambisónica en altavoces, la matriz de descodificación B es la inversa de una matriz A que contiene coeficientes específicos de las posiciones espaciales de los altavoces utilizados para la reproducción.
En el caso de separación de fuentes, la matriz de descodificación B se desarrolla inicialmente en la etapa S4 con vistas a un procesamiento de separación ciega de las fuentes de los componentes ambisónicos filtrados y seleccionados. Más particularmente, esta matriz de descodificación B se produce para la banda de frecuencia que contiene el mayor número de canales ambisónicos válidos (y el mayor orden probable de obtener M).
La determinación de las bandas de frecuencia de validez de los diversos órdenes ambisónicos puede adaptarse al micrófono ambisónico utilizado para capturar los componentes ambisónicos a descodificar. Para hacer esto, es posible, por ejemplo, basarse en las variaciones de frecuencia de la precisión de la representación ambisónica para diferentes órdenes m, del tipo ilustrado en la figura 5.
Más generalmente, todavía es posible determinar una tasa "promedio" de las variaciones de frecuencia de la precisión de la representación ambisónica para los diferentes órdenes m para diferentes modelos de micrófonos ambisónicos y utilizar estas tasas promedio si estos datos no están disponibles, en la descodificación.
En la etapa S7, se determinan al menos dos matrices B1, B2, resultantes de una reducción de la matriz de descodificación B para cada sub-banda de frecuencia (en el ejemplo ilustrado, las sub-bandas de frecuencia f1 y f2 ). Una realización más precisa de esta reducción de matriz se describirá más adelante con referencia a la figura 8. Luego, en la etapa S8, se realiza el producto de cada matriz B1 y B2 obtenido en la etapa anterior por las señales ambisónicas filtradas en las sub-bandas f1, f2 correspondientes. De este modo se obtiene, en cada sub-banda k (k = 1,2), un conjunto de señales extraídas sk.
En la etapa S9, los vectores de señal extraídos s1 (1 para k = 1) y s2 (2 para k = 2) se combinan para obtener las señales reconstruidas de banda completa (mediante la aplicación, por ejemplo, de un banco de filtros de síntesis).
La figura 8 muestra las etapas principales de un modo de realización particular del procedimiento según la invención. Más precisamente, la figura 8 presenta las etapas del procedimiento que se pueden implementar entre las etapas S4 y S7 de la figura 7.
En la etapa S4, como se ha descrito anteriormente, se obtiene la matriz de descodificación B definida anteriormente. En la etapa S5, es posible realizar una inversión de esta matriz de descodificación B (o de manera equivalente, una determinación de su pseudo-inversa) para obtener la matriz de mezcla A correspondiente (etapa S51). En el caso de separación de fuentes, la matriz de mezcla A puede, por tanto, contener coeficientes relacionados con las respectivas posiciones de las fuentes de sonido a extraer. En el caso de reproducción en altavoces, la matriz de mezcla A puede contener coeficientes relacionados con la posición de los altavoces en los que se desea restaurar las señales descodificadas. Más precisamente, las filas de la matriz de mezcla A corresponden a los sucesivos canales ambisónicos (definiendo sucesivamente los órdenes m = 0 a m = M, donde M es el orden ambisónico máximo disponible) y sus columnas corresponden a fuentes o altavoces.
En la etapa S6, es posible reducir las dimensiones de la matriz de mezcla A, para obtener submatrices de A1, A2. Se trata de una reducción matricial cuyo número de filas corresponde al número de canales ambisónicos de cada orden. Normalmente, si las señales ambisónicas están bien codificadas en la banda de 100 a 1.000 Hz, donde se respeta bien el orden m = 1 (al menos para el micrófono ambisónico de la figura 5), ya se extrae de la matriz A una submatriz A1 a N = 4 filas asociadas con el orden m = 1 y con la banda de frecuencia 100-1.000 Hz. A continuación, si las señales ambisónicas están bien representadas en la banda de 1.000 a 10.000 Hz, donde el orden m = 2 se respeta bien, se extrae una matriz A2 con N = 9 filas de la matriz A y se asocia con el orden m = 2 y en la banda de frecuencia 1.000-10.000 Hz, y así sucesivamente. Por tanto, el número de submatrices depende del orden del contenido ambisónico x(t) cuyos componentes se conservan como válidos en la etapa S31. Cada submatriz corresponde entonces a una banda de frecuencia y, por tanto, puede contener un número de filas correspondientes al número de canales válidos para esta banda de frecuencia. Más precisamente, como se ilustra en la figura 8, para cada sub­ banda, se identifica el número correspondiente de canales válidos. Por ejemplo, para una sub-banda f1 elegida para el orden m = 1 del contenido ambisónico x(t), se extrae una matriz A1 que comprende cuatro filas (N1 = (m+1)2) correspondientes a los cuatro canales ambisónicos en el orden 1, y el número de “fuentes” (fuentes a extraer o altavoces) en columnas. Como se ilustra en la figura 8, las cuatro filas retenidas para la construcción de la submatriz A1 son los coeficientes de la matriz inicial total A:
-C11, C12, C13,
-C21, C22, C23,
-C31, C32, C33 y
- C41, C42, C43.
Con respecto a la submatriz A2, se pueden llevar estas filas de la matriz global A, así como las siguientes, hasta la fila:
-C91, C92, C93.
Para la matriz de mezcla A2, correspondiente al orden 2 del contenido ambisónico x(t) y, por tanto, a la sub-banda f2, por lo tanto, se mantienen nueve filas, correspondientes a los nueve canales de orden 2, y el número de fuentes a extraer en columnas.
Cada submatriz de mezcla así obtenida es de dimensión N x Ndiana, siendo Ndiana el número de fuentes resultante de la separación de fuentes ciegas o el número de altavoces previstos para una reproducción.
En el caso de reproducción en altavoces, el número de altavoces es, preferentemente igual o mayor que el número de filas. Por ejemplo, para la matriz de mezcla de cuatro filas A1, solo se puede mantener un conjunto de cuatro columnas. En el caso de separación de fuentes, el número de columnas puede ser menor o igual al número de filas. Por ejemplo, para la matriz de mezcla de cuatro filas A1, es posible eliminar columnas y mantener, por ejemplo, fuentes cuyas señales son de mayor energía y/o las que están menos correlacionadas (fuentes lo más “mezcladas” posible) y/o las señales corresponden al campo directo de las fuentes, o similares.
En la etapa S71, se lleva a cabo una inversión de cada submatriz de mezcla A1, A2 para obtener, respectivamente, las submatrices de descodificación B1, B2 presentadas anteriormente (etapa S7). El paso a través de la matriz de mezcla A permite, en particular, conservar niveles satisfactorios de energía de los componentes ambisónicos vinculados a cada orden, a pesar de las reducciones de la matriz. En otros términos, las etapas S5 a S71 permiten "refinar" la descodificación del contenido ambisónico x(t).
La figura 9 es un diagrama de bloques de un algoritmo de procesamiento correspondiente a la realización ilustrada en las figuras 7 y 8. Se utilizaron las mismas referencias de etapas S1, S2, etc., para indicar etapas idénticas o similares presentadas anteriormente con referencia a las figuras 7 y 8.
Se llaman "canales" a las señales del micrófono ambisónico y "fuentes" a las señales que se van a extraer (las fuentes que realmente se van a extraer o las señales de suministro del altavoz). En la etapa S1, hay un contenido ambisónico x(t) de orden M, que comprende una pluralidad de N canales ambisónicos registrados para ser procesados. De manera general, el número de canales ambisónicos registrados es igual a N = (M+1)2. En la etapa S2, se dispone de los datos relacionados con la captura ambisónica del contenido x(t) (datos relacionados con el micrófono ambisónico MIC utilizado, etc.).
Conociendo los límites de validez de la codificación de micrófonos, se determina una banda de frecuencia para cada orden ambisónico. Se aplica un banco de filtros que permite la reconstrucción a los N canales ambisónicos en la etapa S3, para dar K sub-bandas anotadas xk. Las sub-bandas se eligen para corresponder a los diferentes intervalos de validez de la codificación del micrófono.
En una realización particular en la etapa S4A ilustrada con filas continuas, se utiliza una matriz de separación de fuentes B que se desarrolla en función de los componentes ambisónicos filtrados por frecuencia (la flecha superior se muestra en el rectángulo S4A). Más particularmente, se aplica un procedimiento de separación ciega de fuentes en la sub-banda que contiene los canales más válidos, para obtener una matriz de separación B de dimensiones N diana x N, N diana es el número de fuentes obtenidas por el procedimiento de separación ciega en la sub-banda de frecuencia elegida.
Los canales válidos se determinan sobre la base de un criterio de validez relativo a cada orden del contenido ambisónico x(t) en función de cada banda de frecuencia del banco de filtros. Más generalmente, para maximizar la calidad de la separación de fuentes, se elige una banda de frecuencia que comprende los componentes ambisónicos más válidos. Por "válido" se entiende componentes cuyos criterios de energía o directividad no fueron sesgados durante la captura ambisónica, como se presentó anteriormente con referencia a la figura 5. La validez de cada orden en bandas de frecuencia del dominio de audio se puede establecer conociendo los límites del micrófono ambisónico utilizado durante la captura del contenido ambisónico x(t) o con la ayuda de un ábaco establecido sobre la base de mediciones realizadas en una pluralidad de micrófonos ambisónicos, permitiendo obtener un promedio de la validez de cada orden ambisónico en cada banda de frecuencia.
Por ejemplo, los canales ambisónicos de primer orden tienden a ser válidos en una banda de frecuencia de 100 Hz a aproximadamente 10 kHz. La banda de frecuencia en la que los canales ambisónicos de orden 2 pueden ser válidos de manera más general puede ir, por ejemplo, de 1 kHz a 9 kHz, etc.
En una realización variante con el fin de reproducir una escena sonora en varios altavoces (más de dos en general), en la etapa S4B (ilustrado por las líneas de puntos en la figura 9, para designar esta variante), la matriz de descodificación se construye según la posición de los altavoces en los que se va a reproducir el contenido. Más exactamente, esta matriz de descodificación B corresponde a la inversa de una matriz de mezcla A que está definida por las respectivas posiciones espaciales de los altavoces.
Volviendo al procesamiento general (para restitución o separación de fuentes), en la etapa S5, la matriz de mezcla "teórica" A (para las dos variantes mencionadas anteriormente) se construye mediante inversión de B. Para la separación de fuentes, la matriz de mezcla se compone de N filas y N columnas diana, conteniendo la i-ésima columna los coeficientes armónicos esféricos, relativos a las coordenadas (0¡¡) de la fuente si. A continuación se muestra un ejemplo de una matriz de mezcla A en el caso de una separación de fuente para contenido ambisónico de orden 2 compuesto por cinco fuentes:
Figure imgf000010_0001
Para transmitir en altavoces, A se compone de N filas y un mínimo de N columnas, conteniendo la i-ésima columna los coeficientes armónicos esféricos, relativos a las coordenadas (0 ii) del altavoz i.
En la etapa S6 y para cada sub-banda k, se construye una submatriz de mezcla Ak, tal que Ak es una versión truncada de la matriz A, manteniendo únicamente las Nk filas correspondientes a los canales efectivamente válidos en esta sub-banda k.
Para la separación de la fuente, si Nk es menor que el número de fuentes N diana buscado en la sub-banda, solo se mantiene un conjunto de N diana, k, columnas (con N diana, k menor o igual que Nk), elegido de acuerdo con criterios de energía (por ejemplo, en separando las fuentes con mayor aporte) o según otros criterios de interés definidos anteriormente. Por tanto, la matriz Ak tiene dimensiones Nk x N diana, k, con N diana, k = min (Nk, N diana) por ejemplo. A continuación se muestra un ejemplo de una matriz Ak (4x4) truncada por el orden 1 ambisónico: Para reproducir en altavoces, se selecciona un conjunto de altavoces Nk para la reproducción y, por lo tanto, Ak tiene las dimensiones Nk x Nk.
En la etapa S7, la matriz Ak se invierte para dar Bk. Cuando la submatriz Ak no es una matriz cuadrada, existe un número infinito de posibilidades para la inversión. Se puede aplicar una pseudoinversión, o incluso una inversión, aplicando restricciones adicionales (por ejemplo, la elección de la solución que proporciona la formación de haz más direccional o minimiza los lóbulos secundarios).
De manera general, se entiende que la expresión "inversión de matriz" significa tanto una inversión de matriz convencional, como una pseudoinversión como se ha presentado anteriormente.
Luego, en la etapa S8, Bk se aplica a la sub-banda xk para obtener las señales sk de forma que
sk = Bk. xk
Una vez extraídas las fuentes en cada sub-banda, las correspondientes señales de banda completa se reconstruyen mediante un filtro de síntesis a partir de las señales de sub-bandas de la misma dirección, en la etapa S9.
A continuación, a modo de ejemplo se describe un ejemplo de implementación del procedimiento según una realización particular de la invención.
Se dispone de un contenido ambisónico de orden 2 (9 canales) muestreado a 16 kHz, indicado x(t) compuesto por 3 fuentes que se desea extraer. La codificación ambisónica en los órdenes 0 y 1 es válida entre 200 Hz y 8.000 Hz. La codificación de orden 2 es válida entre 900 Hz y 8.000 Hz.
Se implementa un banco de filtros, compuesto por dos bandas de frecuencia, 200 Hz-900 Hz (hasta el orden 1) y 900 Hz-8.000 Hz (uso del orden 2)
El banco de filtros se aplica a x(t), para formar xl(t) y x2(t). xl (t) consta de 4 canales (ambisónicos de orden 1) y x2(t) contiene 9 canales (ambisónicos de orden 2).
Una matriz de separación B de dimensiones 3x9 se estima mediante análisis de componentes independientes realizado en la sub-banda 900 Hz-8.000 Hz, es decir x2(t).
Una matriz de mezcla teórica A, de dimensiones 9x3, se deduce por inversión de B, cada columna i contiene los coeficientes armónicos esféricos de la fuente i.
Al mismo tiempo, las matrices A1 y A2 se calculan a partir de A para extraer las fuentes en cada sub-banda:
- A1 contiene solo los coeficientes hasta el orden 1 para las tres fuentes, es decir: A1 = A (las primeras cuatro filas, las primeras tres columnas),
- A2 contiene los coeficientes relacionados con los nueve canales para las tres fuentes, de modo que: A2 = A A1 y A2 se invierten para formar las matrices de separación B1 y B2.
Las tres fuentes se extraen en cada sub-banda de los índices 1 y 2 respectivos:
s1=B1.x1 et s2=B2.x2
Luego, las fuentes de banda completa se reconstituyen aplicando el filtro de síntesis a las señales en las sub-bandas s1 y s2, por ejemplo, mediante la suma banda a banda (si el banco de filtros de análisis operaba en la banda base):
s = s1 s2
Con referencia a la figura 10, la presente invención se refiere además a un dispositivo DIS para implementar la invención. Este dispositivo DIS puede incluir una interfaz de entrada IN para recibir señales ambisónicas x(t). El dispositivo DIS puede comprender una memoria MEM para almacenar instrucciones de un programa informático en el sentido de la invención. Las instrucciones del programa informático son instrucciones para procesar las señales ambisónicas x(t). Son implementados por un procesador PROC, para entregar, a través de una interfaz de salida OUT, señales descodificadas s(t).
Por supuesto, la presente invención no se limita a las formas de realización descritas anteriormente, a modo de ejemplo; se extienden a otras variantes.
Normalmente, los intervalos de frecuencia para los que es válida la representación ambisónica se dan anteriormente a modo de ejemplo y pueden diferir dependiendo de la naturaleza del micrófono o micrófonos ambisónicos utilizados para la captación, o incluso de las propias condiciones de captación.

Claims (15)

REIVINDICACIONES
1. Procedimiento, implementado por medios informáticos, para procesar un contenido ambisónico que comprende una pluralidad de componentes ambisónicos de una pluralidad de órdenes que definen una sucesión de canales ambisónicos en cada uno de los cuales se representa un componente ambisónico, comprendiendo el procedimiento:
- un filtrado de frecuencia de los componentes ambisónicos en una pluralidad de bandas de frecuencia,
- una elaboración de una matriz (B) de descodificación ambisónica, estando el procedimiento caracterizado por:
- un procesamiento de la matriz (B) de descodificación ambisónica para extraer, por reducción de la dimensión de la matriz, una pluralidad de submatrices (B1, B2) de descodificación ambisónica, cada una asociada con un orden ambisónico y una banda de frecuencia elegida para este orden ambisónico,
- aplicaciones respectivas de las submatrices de descodificación a componentes ambisónicos en cada banda de frecuencia elegida y una reconstrucción banda a banda de los resultados de dichas aplicaciones respectivas, para dar salida a una pluralidad de señales descodificadas, cada una asociada con una fuente de sonido.
2. Procedimiento según la reivindicación 1, en el que cada submatriz está asociada a una banda de frecuencia elegida en función de un criterio de validez de los componentes ambisónicos del orden al que se asocia dicha submatriz, en dicha banda de frecuencia elegida.
3. Procedimiento según la reivindicación 2, en el que el criterio de validez del componente está definido por las condiciones para capturar dichos componentes ambisónicos, por al menos un micrófono ambisónico.
4. Procedimiento según la reivindicación 3, que comprende:
- una recepción de datos de al menos un micrófono ambisónico utilizado para captar dichos componentes ambisónicos;
- una determinación de las bandas de frecuencia elegidas para construir dichas submatrices (B1, B2), según dichos datos del micrófono ambisónico.
5. Procedimiento según una de las reivindicaciones anteriores, en el que, cada submatriz de descodificación ambisónica (B1, B2) está asociada con un orden ambisónico y con una banda de frecuencia elegida para este orden ambisónico,
- se elige una banda de frecuencia
Figure imgf000013_0001
intervalo de 100 Hz a 10 kHz para el orden ambisónico m = 1, - se elige una banda de frecuencia
Figure imgf000013_0002
intervalo de 500 Hz a 10 kHz para el orden ambisónico m = 2, - se elige una banda de frecuencia
Figure imgf000013_0003
intervalo de 2000 Hz a 9000 Hz para el orden ambisónico m = - se elige una banda de frecuencia
Figure imgf000013_0004
intervalo de 3.000 Hz a 7.000 Hz para el orden ambisónico m
6. Procedimiento según una de las reivindicaciones anteriores, en el que el procesamiento de la matriz (B) de descodificación ambisónica comprende:
- una inversión de la matriz (B) de descodificación ambisónica elaborada, para obtener una matriz de mezcla (A) que incluya:
* las filas correspondientes a los respectivos canales ambisónicos, y
* las columnas correspondientes a las fuentes de sonido,
- un procesamiento de la matriz de mezcla (A) para extraer, por reducción de la dimensión de la matriz, una pluralidad de submatrices de mezcla (A1, A2) cada una asociada con un orden ambisónico y una banda de frecuencia elegida, y
- una inversión de las submatrices de mezcla (A1, A2) para obtener respectivamente dichas submatrices (B1, B2) de descodificación ambisónica.
7. Procedimiento según una de las reivindicaciones anteriores, en el que el procesamiento del contenido ambisónico se lleva a cabo para la separación de la fuente y dicha matriz de descodificación (B) es una matriz de separación ciega de la fuente hecha de los componentes ambisónicos (S4A).
8. Procedimiento según la reivindicación 7, tomado en combinación con la reivindicación 2, en el que la matriz de separación (B) se produce a partir de los componentes ambisónicos filtrados en una banda de frecuencia elegida y en el que el número de canales ambisónicos válidos según dicho criterio es máximo.
9. Procedimiento según una de las reivindicaciones 7 y 8, tomado en combinación con la reivindicación 6, que comprende además una simplificación de las submatrices de mezcla (A1, A2) antes de su inversión, reduciendo un número de columnas de cada submatriz, eligiendo las columnas restantes de las submatrices para conservar señales de mayor energía después de la aplicación de las submatrices de descodificación.
10. Procedimiento según una de las reivindicaciones 7 a 9, tomado en combinación con la reivindicación 6, que comprende además una simplificación de las submatrices de mezcla (A1, A2) antes de su inversión, reduciendo un número de columnas de cada submatriz, eligiendo las columnas restantes de las submatrices para mantener las señales menos correlacionadas después de la aplicación de las submatrices de descodificación.
11. Procedimiento según una de las reivindicaciones 7 a 10, tomado en combinación con la reivindicación 6, que comprende además una simplificación de las submatrices de mezcla (A1, A2) antes de su inversión, reduciendo un número de columnas de cada submatriz, las columnas restantes de las submatrices se eligen de manera que conserven las señales correspondientes a los campos de sonido directos después de la aplicación de las submatrices de descodificación.
12. Procedimiento según una de las reivindicaciones 1 a 6, en el que el procesamiento del contenido ambisónico se realiza para la reproducción ambisónica en una pluralidad de altavoces y dicha matriz de descodificación (B) es una matriz inversa de posiciones espaciales relativas de los altavoces (S4B).
13. Procedimiento según una de las reivindicaciones anteriores, que comprende, para un contenido ambisónico (x) dividido en sub-bandas de frecuencia (k), una aplicación de submatrices de descodificación (Bk), obtenido por: - Para cada orden ambisónico de contenido, una determinación de una banda de frecuencia en la que dicho orden cumple un criterio de validez predeterminado de codificación ambisónica,
- sobre la base de dichas bandas de frecuencia, una aplicación de un banco de filtros al contenido ambisónico (x) para producir una pluralidad de señales en sub-bandas (xk), de dimensiones variables correspondientes a canales ambisónicos válidos en esta sub-banda (k),
- una determinación de una matriz de descodificación (B) de tamaño máximo en la banda de frecuencia del orden ambisónico máximo y de una matriz de mezcla asociada (A), inversa o pseudo-inversa de dicha matriz de descodificación (B),
- para cada una de las otras bandas de frecuencia (k), una determinación de una matriz de mezcla (Ak) de tamaño reducido, submatriz de dicha matriz de mezcla (A) y de una submatriz de descodificación (Bk), inversa o pseudoinversa, de dicha submatriz de mezcla (Ak),
- una reconstrucción de las señales separadas de banda completa aplicando un banco de filtros de síntesis a las señales separadas (sk) resultantes de la multiplicación de dichas señales (xk) por dichas matrices (Bk).
14. Programa informático caracterizado por que comprende instrucciones para la implementación del procedimiento según una de las reivindicaciones 1 a 13, cuando este programa es ejecutado por un procesador.
15. Dispositivo informático que comprende:
- una interfaz de entrada para recibir señales de componentes ambisónicos,
- una interfaz de salida para entregar señales descodificadas, cada uno asociado con una fuente de sonido, - y un circuito de procesamiento para implementar el procedimiento según una de las reivindicaciones 1 a 13.
ES17829231T 2016-12-21 2017-12-15 Procesamiento en sub-bandas de un contenido ambisónico real para el perfeccionamiento de un descodificador Active ES2834087T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1663079A FR3060830A1 (fr) 2016-12-21 2016-12-21 Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne
PCT/FR2017/053622 WO2018115666A1 (fr) 2016-12-21 2017-12-15 Traitement en sous-bandes d'un contenu ambisonique réel pour un décodage perfectionné

Publications (1)

Publication Number Publication Date
ES2834087T3 true ES2834087T3 (es) 2021-06-16

Family

ID=58162877

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17829231T Active ES2834087T3 (es) 2016-12-21 2017-12-15 Procesamiento en sub-bandas de un contenido ambisónico real para el perfeccionamiento de un descodificador

Country Status (6)

Country Link
US (1) US10687164B2 (es)
EP (1) EP3559947B1 (es)
CN (1) CN110301003B (es)
ES (1) ES2834087T3 (es)
FR (1) FR3060830A1 (es)
WO (1) WO2018115666A1 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201818959D0 (en) * 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
FR3096550B1 (fr) * 2019-06-24 2021-06-04 Orange Dispositif de captation sonore à réseau de microphones perfectionné
FR3112016B1 (fr) * 2020-06-30 2023-04-14 Fond B Com Procédé de conversion d’un premier ensemble de signaux représentatifs d’un champ sonore en un second ensemble de signaux et dispositif électronique associé

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
US8817991B2 (en) * 2008-12-15 2014-08-26 Orange Advanced encoding of multi-channel digital audio signals
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2592846A1 (en) * 2011-11-11 2013-05-15 Thomson Licensing Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2866475A1 (en) * 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
CN104754471A (zh) * 2013-12-30 2015-07-01 华为技术有限公司 基于麦克风阵列的声场处理方法和电子设备
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
EP3007167A1 (en) * 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
US9712936B2 (en) * 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization

Also Published As

Publication number Publication date
EP3559947B1 (fr) 2020-09-02
CN110301003B (zh) 2023-04-21
FR3060830A1 (fr) 2018-06-22
US10687164B2 (en) 2020-06-16
US20190335291A1 (en) 2019-10-31
CN110301003A (zh) 2019-10-01
EP3559947A1 (fr) 2019-10-30
WO2018115666A1 (fr) 2018-06-28

Similar Documents

Publication Publication Date Title
ES2898951T3 (es) Virtualización de auricular
ES2834087T3 (es) Procesamiento en sub-bandas de un contenido ambisónico real para el perfeccionamiento de un descodificador
US11272311B2 (en) Methods and systems for designing and applying numerically optimized binaural room impulse responses
ES2733878T3 (es) Codificación mejorada de señales de audio digitales multicanales
ES2729308T3 (es) Aparato y procedimiento para la correspondencia de un primer y un segundo canal de entrada con al menos un canal de salida
Farina et al. 3D sound characterisation in theatres employing microphone arrays
ES2317297T3 (es) Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares.
ES2922451T3 (es) Indicación de la reusabilidad de parámetros de un marco para la codificación de vectores
TWI489450B (zh) 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
US9706292B2 (en) Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images
ES2387248T3 (es) Aparato y procedimiento para generar una señal de salida multi-canal
ES2932422T3 (es) Método y aparato para procesar señales multimedia
CN107464553B (zh) 游戏装置
ES2965395T3 (es) Determinación de codificación de parámetros de audio espacial y decodificación asociada
ES2261994T3 (es) Metodo de tratamiento de datos sonoros y dispositivos de adquisicion sonoro que ejecuta este procedimiento.
ES2312025T3 (es) Esquema de codificador/descodificador de multicanal casi transparente o transparente.
ES2687952T3 (es) Reducción de fallas de filtro peine en mezcla descendente de canales múltiples con alineación de fase adaptativa
ES2623365T3 (es) Compactación de información secundaria para la codificación paramétrica de audio espacial
JP5612125B2 (ja) マルチチャネル脱相関を使った改善されたマルチチャネル上方混合
TWI651973B (zh) 以保真立體音響格式所編碼聲訊訊號為l揚聲器在已知位置之解碼方法和裝置以及電腦可讀式儲存媒體
CN113597776B (zh) 参数化音频中的风噪声降低
US8774418B2 (en) Multi-channel down-mixing device
ES2969138T3 (es) Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza compensación directa de componentes
EP3329486B1 (en) Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation
EP4005240A1 (en) Partial hrtf compensation or prediction for in-ear microphone arrays