ES2922639T3 - Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente - Google Patents

Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente Download PDF

Info

Publication number
ES2922639T3
ES2922639T3 ES11752172T ES11752172T ES2922639T3 ES 2922639 T3 ES2922639 T3 ES 2922639T3 ES 11752172 T ES11752172 T ES 11752172T ES 11752172 T ES11752172 T ES 11752172T ES 2922639 T3 ES2922639 T3 ES 2922639T3
Authority
ES
Spain
Prior art keywords
input signals
audio input
subspace
playable
sound field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11752172T
Other languages
English (en)
Inventor
Etienne Corteel
Matthias Rosenthal
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sennheiser Electronic GmbH and Co KG
Original Assignee
Sennheiser Electronic GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sennheiser Electronic GmbH and Co KG filed Critical Sennheiser Electronic GmbH and Co KG
Application granted granted Critical
Publication of ES2922639T3 publication Critical patent/ES2922639T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

La invención se refiere a un método y un dispositivo para la reproducción de campos de sonido en un área de escucha (5) de primeras señales de entrada de audio codificadas espacialmente (1) de acuerdo con los datos de descripción de campos de sonido (2) utilizando un conjunto de altavoces físicos (3). El método comprende los pasos de calcular los datos de descripción del subespacio de reproducción (8) a partir de los datos de posicionamiento del altavoz (4) que describen el subespacio en el que se pueden reproducir las fuentes virtuales con la configuración físicamente disponible. Luego, la segunda (10) y la tercera (12) señales de entrada de audio con datos de descripción de campo de sonido asociados (11) (13) donde las segundas señales de entrada de audio (10) comprenden componentes espaciales de las primeras señales de entrada de audio (1) ubicadas dentro del reproducible el subespacio (6) y las terceras señales de entrada de audio (12) comprenden componentes espaciales de las primeras señales de entrada de audio (1) ubicadas fuera del subespacio reproducible (6). Se realiza un análisis espacial en las segundas señales de entrada de audio (10) para extraer las cuartas señales de entrada de audio (15) correspondientes a fuentes localizables dentro del subespacio reproducible (5) con datos de posicionamiento de fuente asociados (13). Los componentes restantes de las segundas señales de entrada de audio (10) después del análisis espacial se fusionan con las terceras señales de entrada de audio (12) en quintas señales de entrada de audio (17) con datos de descripción de campo de sonido asociados (18) para su reproducción dentro del subespacio reproducible (5). Finalmente, las señales de alimentación del altavoz (20) se calculan a partir de las señales de entrada de audio cuarta (15) y quinta (17) de acuerdo con los datos de posicionamiento del altavoz (4), los datos de posicionamiento de las fuentes localizables (16) y los datos de descripción del campo sonoro (18). (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente
La invención se refiere a un procedimiento y un dispositivo para la reproducción eficiente de campos de sonido en 3D utilizando altavoces. La reproducción del campo sonoro se relaciona con la reproducción de las características espaciales de una escena de sonido dentro de un área de escucha extendida. Primero, la escena de sonido debe codificarse en un conjunto de señales de audio con datos de descripción de campo sonoro asociados. Luego, debe reproducirse/decodificarse en el sistema de altavoces disponible.
Existe una variedad cada vez mayor de los llamados formatos de audio (estéreo, 5.1, 7.1 9.1, 10.2, 22.2, HOA, MPEG-4, ...) que deben reproducirse en el sistema de reproducción disponible mediante altavoces o auriculares. Sin embargo, el sistema de altavoces disponible generalmente no se ajusta al estándar del formato de audio, tanto por limitaciones económicas como prácticas. De hecho, el formato de audio puede requerir una cantidad demasiado grande de altavoces que deben colocarse en posiciones poco prácticas en la mayoría de los entornos. El sistema de altavoces necesario también puede resultar demasiado caro para un gran número de instalaciones. Por lo tanto, se requieren procedimientos y dispositivos de reproducción avanzados para optimizar la reproducción en el sistema de altavoces disponible.
Descripción del estado de la técnica
En la descripción del estado de la técnica, se describen en primer lugar los procedimientos de codificación espacial, destacando sus limitaciones. En una segunda parte, se presentan técnicas de reproducción espacial de audio conocidas de la técnica.
Codificación de la escena sonora espacial
Existen dos tipos de descripción del campo sonoro:
- la descripción basada en objetos,
- la descripción física.
La descripción basada en objetos proporciona una descripción espacial de las causas (las fuentes acústicas), sus características de radiación acústica (directividad) y su interacción con el entorno (efecto de sala). Este formato es muy genérico, pero adolece de dos grandes inconvenientes. Primero, el número de canales de audio aumenta linealmente con el número de fuentes. Por lo tanto, es necesario transmitir un número muy alto de canales para describir escenas complejas junto con los datos de descripción asociados, lo que lo hace inadecuado para aplicaciones de bajo ancho de banda (dispositivos móviles, conferencias...). En segundo lugar, los parámetros de mezcla se revelan completamente a los usuarios y pueden modificarse. Esto limita la protección de la propiedad intelectual de los ingenieros de sonido, por lo que reduce el factor de aceptación de dicho formato.
La descripción física pretende proporcionar una descripción físicamente correcta del campo sonoro dentro de un área extendida. Proporciona una descripción global de las consecuencias, es decir, el campo sonoro, a diferencia de la descripción basada en objetos que describe las causas, es decir, las fuentes. De nuevo existen dos tipos de descripción física:
- la descripción de los límites,
- la descomposición de la autofunción espacial.
La descripción de límites consiste en describir la presión y la velocidad normal del campo sonoro objetivo en los límites de un subespacio de reproducción de tamaño fijo. De acuerdo con la llamada integral de Kirchhoff-Helmholtz, esta descripción proporciona una representación única del campo sonoro dentro del subespacio de escucha interior. En teoría, se requiere una distribución continua de puntos de grabación lo que lleva a un número infinito de canales de audio. Realizar un muestreo espacial de la superficie de descripción puede reducir el número de canales de audio. Sin embargo, esto introduce el llamado aliasing espacial que introduce artefactos audibles. Además, el campo sonoro solo se describe dentro de un subespacio de reproducción definido que no es fácilmente escalable. Por lo tanto, la descripción de los límites no se puede utilizar en la práctica.
La descripción de la autofunción (función Figen) corresponde a una descomposición del campo sonoro en auto soluciones de la ecuación de onda en un sistema de coordenadas dado (ondas planas en coordenadas cartesianas, armónicos esféricos en coordenadas esféricas, armónicos cilindricos en coordenadas cilindricas, ...). Tales funciones forman una base de dimensión infinita para la descripción del campo sonoro en el espacio 3D.
El formato High Order Ambisonics (HOA) describe el campo sonoro utilizando armónicos esféricos hasta el llamado orden N. Se requieren (N+1)2 componentes para la descripción hasta el orden N que están indexados por el llamado orden y grado. Este formato es divulgado por J. Daniel en "Spatial sound encoding including near field effect: Introducing distance coding filters and a viable, new ambisonic format” en la 23a Conferencia Internacional de la Sociedad de Ingeniería de Audio, Helsingor, Dinamarca, junio de 2003. La Fig. 1 describe las características de radiación equivalente de los armónicos esféricos para N=3. Puede verse que los órdenes más altos corresponden a un patrón de radiación más complejo en la elevación, mientras que los grados absolutos más altos inducen un patrón de radiación más complejo en la dimensión azimutal.
Como cualquier otra descripción de campo sonoro, la descripción de HOA es independiente de la configuración de reproducción. Esta descripción además mantiene los parámetros de mezcla ocultos para los usuarios finales.
El HOA proporciona, sin embargo, una descripción físicamente precisa en un área limitada alrededor del origen del sistema de coordenadas esféricas. Esta área tiene la forma de una esfera con radio rmax=N/6*A donde A es la longitud de onda. Por lo tanto, una descripción físicamente correcta para el tamaño de cabeza típico en todo el ancho de banda de audio (20-20000 Hz) requeriría un orden de 20 (es decir, 441 componentes). El uso práctico de HOA generalmente considera órdenes máximos comprendidos entre 1 (4 canales, el llamado formato B) y 4 (es decir, 25 canales de audio).
El HOA, por lo tanto, introduce errores de localización y desenfoque de localización de eventos de sonido de la escena de sonido, incluso en las posiciones de escucha centradas ideales que se vuelven menos perturbadoras para órdenes superiores, como lo revelan S. Bertet, J. Daniel, E. Parizet y O. Warusfel en "Investigations on the restitution system influence over perceived higher order Ambisonics sound field: a subjective evaluation involving from first to fourth order system”, en Proc. Acoustics-08, reunión conjunta ASA/EAA, París, 2008.
La descripción física basada en ondas planas también requiere un número infinito de componentes para proporcionar una descripción precisa del campo sonoro en el espacio 3D. Una onda plana se puede describir como el resultado de una fuente a una distancia infinita del punto de referencia que describe una dirección fija independientemente del punto de escucha. Hoy en día, los formatos basados en estereofonía (estéreo, 5.1, 7.1, 22.2 ...) puede relacionarse con la descripción de ondas planas usando un número reducido de componentes. De hecho, transportan información de audio que debe reproducirse mediante altavoces ubicados en direcciones específicas en referencia a un punto de escucha óptimo (origen del sistema cartesiano).
Los canales de audio contenidos para formato estereofónico o basado en canales se obtienen posicionando fuentes virtuales usando las llamadas leyes de paneo. Las leyes de paneo generalmente distribuyen la energía del canal de entrada de audio de la fuente en dos o más canales de audio de salida para simular una posición virtual entre las direcciones de los altavoces. Estas técnicas se basan en principios estereofónicos que se utilizan esencialmente en el plano horizontal, pero que pueden extenderse a 3D mediante VBAP, tal como lo describe V. Pulkki en "Virtual sound source positioning using vector based amplitude panning” Journal of the Audio Engineering Society, 45(6), junio de 1997. Los principios estereofónicos crean una ilusión que solo es válida en el punto de escucha de referencia (el llamado punto óptimo). Fuera del punto óptimo, la ilusión se desvanece y las fuentes se vuelven a localizar en el altavoz más cercano. La localización en altura usando principios estereofónicos también está limitada tal y como has sido divulgado por W. de Bruijn en la tesis doctoral "Application of Wave Field Synthesis in Videoconferencing", TU Delft, Delft, Países Bajos, 2004. La localización se muestra muy imprecisa y borrosa.
La codificación de fuentes de sonido en armónicos esféricos también se puede describir como funciones de paneo equivalentes utilizando altavoces ubicados en una esfera como lo describe M. Poletti en "Three-dimensional surround sound systems based on spherical harmonics” Journal of the Audio Engineering Society, 1 1 (53): 1 004-1 025, noviembre de 2005. Por lo tanto, se puede entender que el HOA sufre de artefactos similares al formato de descripción basado en canales.
Técnicas de reproducción del campo sonoro
Las técnicas de reproducción de sonido se pueden clasificar en dos grupos:
-técnicas de reproducción pasiva que reproducen directamente las señales codificadas espacialmente,
- técnicas de reproducción activa que primero realizan un análisis espacial del contenido para aumentar típicamente la precisión de la descripción espacial antes de la reproducción.
Técnicas de reproducción pasiva
La primera técnica de reproducción de campo sonoro pasivo descrita aquí se conoce como síntesis de campo de ondas (WFS). WFS se basa en la recreación de la curvatura del frente de onda de un campo acústico emitido por una fuente virtual (descripción basada en objetos) utilizando una pluralidad de altavoces dentro de un área de escucha extendida que generalmente abarca todo el espacio de reproducción. Este procedimiento ha sido descrito por A. J. Berkhout en "A holographic approach to acoustic control", Journal of the Audio Eng. Soc., vol. 36, págs. 977-995, 1988. En su descripción original, WFS se limita a la reproducción del campo sonoro horizontal utilizando arreglos de altavoces horizontales. Sin embargo, WFS se puede derivar fácilmente para la reproducción en 3D, como lo describen Munenori N., Kimura T., Yamakata, Y. y Katsumoto, M. en " Performance Evaluation of 3D Sound Field Reproduction System Using a Few Loudspeakers and Wave Field Synthesis". Segundo Simposio Internacional de Comunicación Universal, 2008. WFS es un procedimiento de reproducción de sonido muy flexible que puede adaptarse fácilmente a cualquier forma de arreglo de altavoces convexos.
El principal inconveniente de WFS se conoce como aliasing espacial. El aliasing espacial resulta del uso de altavoces individuales en lugar de una línea o superficie continua. Sin embargo, es posible reducir los artefactos de aliasing espacial considerando el tamaño del área de escucha como se describe en el documento WO2009056508.
La reproducción con WFS también ha sido divulgada en Corteel E. "Equalization in extended area using multichannel inversion and wave field synthesis" Journal of the Audio Engineering Society, 54(12), Diciembre 2006.
El formato basado en canales se puede reproducir fácilmente usando WFS usando altavoces virtuales. Los altavoces virtuales son fuentes virtuales que se colocan en las posiciones previstas de los altavoces según el formato basado en canales (+/- 30 grados para estéreo, ...). Estos altavoces virtuales se reproducen preferentemente como ondas planas, tal y como describen Boone, M. y Verheijen E. en "Sound Reproduction Applications with Wave-Field Synthesis", 104.a convención de Audio Engineering Society, 1998. Esto asegura que se perciban en la posición angular deseada en toda el área de escucha, lo que tiende a extender el tamaño del punto óptimo (el área donde funciona la ilusión estereofónica). Sin embargo, sigue existiendo una modificación de los retrasos relativos entre canales con respecto a la posición de escucha debido a las diferencias de tiempo de viaje desde la disposición física de los altavoces que limitan el tamaño del área de escucha óptima.
Reproducción HOA
La reproducción de material codificado en HOA generalmente se realiza sintetizando armónicos esféricos en un conjunto dado de al menos (N+1)2 altavoces donde N es el orden del formato HOA. Esta técnica de "descodificación" se conoce comúnmente como solución de coincidencia de modo. La operación principal consiste en invertir una matriz L que contiene la descomposición armónica esférica de las características de radiación de cada altavoz como lo revela R. Nicol en "Sound spaceization by high order ambisonics: Encoding and decoding a sound scene in Practice from a theoric point of vista." en las actas del segundo simposio internacional de ambisónica y acústica esférica, 2010. La matriz L se puede acondicionar fácilmente, especialmente para diseños arbitrarios de altavoces y depende de la frecuencia. La decodificación funciona mejor para un diseño de altavoces completamente regular en una esfera con exactamente (N+1)2 altavoces en 3D. En este caso, la inversa de la matriz L es simplemente la transpuesta de L. Además, la decodificación podría hacerse independientemente de la frecuencia si el altavoz pudiera considerarse como ondas planas, lo que a menudo no es el caso en la práctica.
Corteel E., Roux S. y Warusfel O. dan a conocer otra solución para la reproducción de HOA en altavoces en “Creation of Virtual Sound Scenes Using Wave Field Synthesis" en proceedings of the 22nd tonmeistertagung vdt international audio convention, Hannover, Alemania, 2002. La reproducción del material codificado en HOA se describe decodificando primero la escena codificada en HOA en canales de audio que luego se reproducen a través de altavoces virtuales en una configuración de altavoz real usando WFS. Se recomienda reproducir altavoces virtuales como ondas planas para aumentar el área de escucha con HOA o material codificado estereofónico. El uso de ondas planas simplifica adicionalmente la decodificación de señales codificadas HOA ya que la matriz de decodificación es entonces independiente de la frecuencia.
Una técnica similar se describe más adelante en US201 0/009201 4 A1. Sin embargo, se dan muy pocos detalles sobre el posicionamiento de los altavoces virtuales. Esta solicitud de patente está más dirigida a la reducción del costo de reproducción, al realizar todos los movimientos de las fuentes virtuales en el formato codificado espacialmente mediante paneo multicanal, VBAP o HOA.
Otros procedimientos: procedimientos de optimización del campo sonoro dentro del subespacio restringido
La principal limitación para la reproducción del campo sonoro es el número necesario de altavoces y su ubicación dentro de la sala. La reproducción 3D completa requeriría colocar el altavoz en una superficie que rodea el área de escucha. En la práctica, los sistemas de reproducción se limitan pues a una disposición de altavoces más sencilla que puede ser horizontal como en la mayoría de los sistemas WFS, o incluso solo frontal. En el mejor de los casos, los altavoces se colocan en la mitad superior de la esfera, como lo describen Zotter F., Pomberger H. y Noisternig M. en "Ambisonic decoding with and without mode-matching: a case study using the hemisphere" en el 2° Simposio Internacional sobre Ambisonics y Acústica esférica, 2010.
Reproducción activa: upmixing
La reproducción activa de señales de entrada codificadas espacialmente se ha aplicado principalmente en el campo de los sistemas de mezcla ascendente (upmixing). Upmix consiste en realizar un análisis espacial para separar los sonidos localizables de los sonidos difusos y, por lo general, crea más señales de salida de audio que señales de entrada de audio. Las aplicaciones clásicas de upmix consideran la reproducción mejorada de señales estéreo en un sistema de renderizado 5.1.
Los procedimientos de la técnica anterior consisten primero en descomponer las señales de entrada de las señales de audio en bandas de frecuencia. A continuación, se realiza el análisis espacial en cada banda de frecuencia de forma independiente utilizando diferentes técnicas:
procedimiento 1: comparación de canales direccionales por pares usando, por ejemplo, métricas de correlación de valor real como se describe en WO2007026025 o métricas de correlación de valor complejo como se describe en US20090198356;
procedimiento 2: obtención de dirección y difusividad a partir de "vectores Gerzon", es decir, vectores de velocidad e intensidad para formatos basados en canales como se describe en US20070269063;
procedimiento 3: usar el análisis de componentes principales de la matriz de correlación para extraer la dirección principal de los formatos basados en canales como se describe en US20080175394.
procedimiento 4: computar el vector de intensidad a partir de Ambisonics de primer orden mediante la combinación de componentes omnidireccionales y dipolos para evaluar la difusión y la dirección de incidencia como se describe en US20080232616;
Los dos primeros procedimientos se basan principalmente en formatos basados en canales, mientras que el último considera solo entradas Ambisonics de primer orden. Sin embargo, la patente relacionada describe técnicas para traducir el formato Ambisonics a un formato basado en canales al realizar la decodificación en una configuración de altavoz virtual determinada o, alternativamente, al considerar las direcciones del formato basado en canales como ondas planas y descomponerlas en armónicos esféricos para crear un formato Ambisonics equivalente.
Todas estas técnicas de análisis espacial adolecen del mismo tipo de problemas. Solo permiten una precisión limitada, ya que normalmente solo se puede estimar una dirección de fuente por banda de frecuencia. El análisis generalmente se realiza en el espacio completo. Las interferencias fuertes ubicadas en posiciones que no pueden ser reproducidas por la configuración de altavoces disponible pueden perturbar fácilmente el análisis. Por lo tanto, es posible que se pasen por alto fuentes importantes ubicadas en el subespacio reproducible.
Inconvenientes del estado de la técnica
Los sistemas de reproducción de campos de sonido según el estado de la técnica adolecen de varios inconvenientes. En primer lugar, la codificación del campo sonoro en un conjunto limitado de componentes (codificación basada en canales o HOA) reduce la calidad de la descripción espacial de la escena sonora y el tamaño del área de escucha. En segundo lugar, los procedimientos de análisis espacial utilizados en los sistemas de reproducción activa para mejorar la resolución de la codificación espacial tienen capacidades limitadas, ya que solo pueden extraer una fuente por banda de frecuencia considerada. Además, los procedimientos de análisis espacial no tienen en cuenta el subespacio reproducible limitado debido a las limitaciones de la configuración de reproducción para limitar la influencia de interferencias fuertes ubicadas fuera del subespacio reproducible y enfocar el análisis solo en el subespacio reproducible.
Objeto de la invención
El objetivo de la invención es aumentar el rendimiento espacial de la reproducción del campo sonoro con señales de audio codificadas espacialmente en un área de escucha ampliada teniendo en cuenta adecuadamente las capacidades del sistema de reproducción. Otro objetivo de la invención es proponer técnicas avanzadas de análisis espacial para mejorar la descripción del campo sonoro antes de la reproducción. Otro objetivo de la invención es tener en cuenta las capacidades de la configuración de reproducción para centrar el análisis espacial de las señales de entrada de audio en el subespacio reproducible y limitar la influencia de las interferencias fuertes que no se pueden reproducir con el sistema de altavoces disponible.
Resumen de la invención
La invención consiste en un procedimiento con características de acuerdo con la reivindicación 1 y un dispositivo con características de acuerdo con la reivindicación 4, en el que se define un subespacio reproducible en función de las capacidades del sistema de reproducción.
En base a esta descripción del subespacio reproducible, las señales de audio ubicadas dentro del subespacio reproducible se extraen de las señales de entrada de audio codificadas espacialmente. Se realiza un análisis espacial de las señales de entrada de audio extraídas para extraer las principales fuentes localizables dentro del subespacio reproducible. Las señales restantes y la parte de las señales de entrada de audio ubicadas fuera del reproducible se mapean dentro del subespacio reproducible. Estas últimas y las fuentes extraídas se reproducen luego como fuentes/altavoces virtuales en el sistema de altavoces físicamente disponible.
El análisis espacial se realiza preferiblemente en el dominio de los armónicos esféricos. Se propone adaptar la técnica del procedimiento de estimación de la dirección de llegada desarrollada en el campo del procesamiento de arreglos de micrófonos como lo describe Teutsch, H. en "Modal Array Signal Processing: Principles and Applications of Acoustic Wavefield Decom position" Springer, 2007. Estos procedimientos permiten estimar múltiples fuentes simultáneamente en presencia de ruido distribuido espacialmente. Se describieron para estimar la dirección de llegada de las fuentes y la formación de haces usando una distribución circular (2D) o esférica (3D) de micrófonos en los armónicos cilíndricos (2D) o esféricos (3D).
En otras palabras, aquí se presenta un procedimiento para la reproducción de campos de sonido en un área de escucha de primeras señales de entrada de audio codificadas espacialmente de acuerdo con datos de descripción de campo sonoro utilizando un conjunto de altavoces físicos. El procedimiento comprende los pasos de computar datos de descripción del subespacio de reproducción a partir de los datos de posicionamiento de altavoz que describen el subespacio en el que se pueden reproducir fuentes virtuales con el sistema físicamente disponible. Las segundas y terceras señales de entrada de audio con datos de descripción de campo sonoro asociados se extraen de las primeras señales de entrada de audio de modo que las segundas señales de entrada de audio comprendan componentes espaciales de las primeras señales de entrada de audio ubicadas dentro del subespacio reproducible y las terceras señales de entrada de audio comprendan componentes espaciales de las primeras señales de entrada de audio ubicadas fuera del subespacio reproducible. Luego, se realiza un análisis espacial en las segundas señales de entrada de audio para extraer las cuartas señales de entrada de audio correspondientes a fuentes localizables dentro del subespacio reproducible con datos de posicionamiento de fuente asociados. Los componentes restantes de las segundas señales de entrada de audio después del análisis espacial se fusionan con las terceras señales de entrada de audio formando las quintas señales de entrada de audio con datos de descripción de campo sonoro asociados para su reproducción dentro del subespacio reproducible. Finalmente, señales de alimentación de altavoz se computan a partir de las cuartas y quintas señales de entrada de audio de acuerdo con los datos de posicionamiento de altavoz, los datos de posicionamiento de las fuentes localizables y los datos de descripción de campo sonoro.
Además, el procedimiento puede comprender pasos en los que los datos de descripción del campo sonoro corresponden a soluciones propias de la ecuación de onda (ondas planas, armónicos esféricos, armónicos cilíndricos, ...) o direcciones entrantes (formato basado en canales: estéreo, 5.1, 7.1, 10.2, 12.2, 22.2). Y el procedimiento puede comprender pasos:
donde el análisis espacial se realiza convirtiendo primero, si es necesario, segundas señales de entrada de audio en componentes armónicos esféricos (3D) o cilíndricos (2D); en segundo lugar, identificar datos de descripción de dirección de llegada/campo sonoro de las principales fuentes localizables dentro del subespacio reproducible; y formar patrones de haz por combinación de armónicos esféricos que tienen un lóbulo principal en la dirección de la dirección de llegada estimada para extraer las cuartas señales de entrada de audio de las segundas señales de entrada de audio.
en el que los datos de descripción del campo sonoro de las cuartas señales de entrada de audio se estiman utilizando un procedimiento de estimación de llegada direccional subespacial, derivado, por ejemplo, de un algoritmo basado en MUSIC o ESPRIT, que opera en el dominio de armónicos esféricos (3D) o cilíndricos (2D).
en el que los datos de descripción del subespacio reproducible se calculan de acuerdo con los datos de posicionamiento de altavoz (4) y los datos de descripción del área de escucha (23).
Además, la invención comprende un dispositivo para la reproducción de campos de sonido en un área de escucha de primeras señales de entrada de audio codificadas espacialmente de acuerdo con datos de descripción de campos de sonido utilizando un conjunto de altavoces físicos. Dicho dispositivo comprende un dispositivo de computación de subespacio reproducible para computar datos de descripción de subespacio de reproducción a partir de datos de posicionamiento de altavoz que describen el subespacio en el que se pueden reproducir fuentes virtuales con el sistema físicamente disponible. Dicho dispositivo comprende además un dispositivo de selección de audio de subespacio reproducible para extraer segundas y terceras señales de entrada de audio con datos de descripción de campo sonoro asociados, donde las segundas señales de entrada de audio comprenden componentes espaciales de las primeras señales de entrada de audio ubicadas dentro del subespacio reproducible y las terceras señales de entrada de audio comprenden componentes espaciales de las primeras señales de entrada de audio ubicadas fuera del subespacio reproducible. Dicho dispositivo también comprende un dispositivo de transformación de campo sonoro en las segundas señales de entrada de audio para extraer cuartas señales de entrada de audio correspondientes a fuentes localizables dentro del subespacio reproducible con datos de posicionamiento de fuente asociados y fusionar los componentes restantes de las segundas señales de entrada de audio después del análisis espacial y las terceras señales de entrada de audio en quintas señales de entrada de audio con datos de descripción de campo sonoro asociados para reproducción dentro del subespacio reproducible. Dicho dispositivo comprende finalmente un dispositivo de reproducción de sonido espacial para computar señales de alimentación de altavoces a partir de las cuartas y quintas señales de entrada de audio según datos de posicionamiento de altavoz, datos de posicionamiento de fuentes localizables y datos de descripción de campo sonoro de las quintas señales de entrada de audio.
Además, dicho dispositivo podrá comprometer preferentemente elementos:
en el que el dispositivo de computación de subespacio reproducible computa los datos de descripción de subespacio reproducible según los datos de posicionamiento de altavoz y los datos de descripción del área de escucha.
en el que el dispositivo de reproducción de sonido espacial calcula las señales de alimentación de altavoz de acuerdo con los datos de posicionamiento de altavoz, los datos de descripción del área de escucha, los datos de posicionamiento de fuentes localizables y los datos de descripción del campo sonoro de las quintas señales de entrada de audio.
La invención se describirá con más detalle a continuación con la ayuda de un ejemplo y con referencia a los dibujos adjuntos, en los que
La Fig. 1 describe el patrón de radiación de armónicos esféricos.
La Fig. 2 describe un sistema de reproducción de sonido según la técnica anterior.
La Fig. 3 describe un sistema de reproducción de sonido según la invención.
La Fig. 4 describe la formación de haz por combinación de armónicos esféricos de orden máximo 3
La Fig. 5 describe una primera realización según la invención.
La Fig. 6 describe una segunda realización según la invención.
La Fig. 7 describe una tercera realización según la invención.
Descripción detallada de las figuras
La figura 1 se analizó en la parte introductoria de la memoria descriptiva y representa el estado de la técnica. Por lo tanto, estas figuras no se discuten más en este momento.
La figura 2 representa un dispositivo de generación de campos de sonido según el estado de la técnica. En este dispositivo, un dispositivo de decodificación/análisis espacial 24 calcula una pluralidad de señales de audio decodificadas 25 y sus datos de posicionamiento de campo sonoro asociados 26 a partir de las primeras señales de entrada de audio 1 y sus datos de descripción de campo sonoro asociados 2. Dependiendo de la implementación, el dispositivo de decodificación/análisis espacial 24 puede realizar la decodificación de señales codificadas HOA o el análisis espacial de las primeras señales de entrada de audio 1. Los datos de posicionamiento 26 describen la posición de los altavoces virtuales de destino 21 que se sintetizarán en los altavoces físicos 3.
Un dispositivo de reproducción de sonido espacial 19 calcula señales de alimentación 20 para altavoces físicos 3 a partir de señales de audio decodificadas 25, sus datos de descripción de campo sonoro asociados 26 y datos de posicionamiento de altavoz 4. Las señales de alimentación para altavoces físicos 20 activan una pluralidad de altavoces 3.
La figura 3 representa un dispositivo de generación de campos de sonido según la invención. En este dispositivo, un dispositivo de computación de subespacio reproducible 7 está computando datos de descripción de subespacio reproducible 8 a partir de datos de posicionamiento de altavoz 4. Un dispositivo de selección de audio de subespacio reproducible 9 extrae las segundas señales de entrada de audio 10 y sus datos de descripción de campo sonoro asociados 11, y las terceras señales de entrada de audio 12 y sus datos de descripción de campo sonoro asociados 13 de las primeras señales de entrada de audio 1, sus datos de descripción de campo sonoro asociados 2 y datos de descripción de subespacio reproducibles 8 de manera que las segundas señales de entrada de audio 10 comprenden elementos de las primeras señales de entrada de audio 1 que están ubicados dentro del subespacio reproducible 6 y las terceras señales de entrada de audio 12 comprenden elementos de las primeras señales de entrada de audio 1 que están ubicados fuera del subespacio reproducible 6. Un dispositivo de transformación de campo sonoro 14 computa las cuartas señales de entrada de audio 15 y sus datos de posicionamiento asociados 16 extrayendo fuentes localizables de las segundas señales de entrada de audio 10 dentro del subespacio reproducible 6. El dispositivo de transformación de campo sonoro 14 computa adicionalmente las quintas señales de entrada de audio 17 y sus datos de posicionamiento asociados 18 a partir de los componentes restantes de las segundas señales de entrada de audio 10 y sus datos de descripción de campo sonoro asociados 11 después de la extracción de fuentes localizables y las terceras señales de entrada de audio 12 y sus datos de descripción de campo sonoro asociados 13. Los datos de posicionamiento 18 de las quintas señales de entrada de audio 17 corresponden a altavoces virtuales fijos 21 ubicados dentro del subespacio reproducible 6. Un dispositivo de reproducción de sonido espacial 19 calcula las señales de alimentación 20 para los altavoces físicos 3 a partir de las cuartas señales de entrada de audio 15 y sus datos de posicionamiento asociados 16, las quintas señales de entrada de audio 17 y sus datos de posicionamiento asociados 18 y los datos de posicionamiento de altavoz 4. Las señales de alimentación para altavoces físicos 20 controlan una pluralidad de altavoces 3 para reproducir el campo sonoro de destino en el área de escucha 5.
Fundamentos matemáticos:
Las derivaciones presentadas aquí solo se dan en el dominio de armónicos esféricos que está adaptado para describir campos de sonido en 3 dimensiones (3D). Para campos de sonido bidimensionales (2D), se pueden realizar las mismas derivaciones usando un subconjunto limitado de armónicos cilindricos que son independientes de la coordenada vertical (eje z).
Para el problema interior, donde no hay fuentes ubicadas dentro del área de escucha, el campo sonoro radiado en un punto r (r: radio, 9: ángulo de acimut, 0: ángulo de elevación) puede expresarse únicamente como una suma ponderada de los llamados esféricos. armónicos Ymn(9, 0) como:
Figure imgf000008_0001
Los armónicos esféricos Ymn(9, 0) de grado m y orden n vienen dados por
cos(mcp) s im > 0
Ymn(V,8)
Figure imgf000008_0002
Pmn(sin0) x
sin (-m(p)si m < 0
A
donde
1 sí m = 0
= f: 2 en el resto de los casos
j n(kr) es la función de Bessel esférica de primer tipo de orden n y
Pmn(sin8) son las funciones de Legendre asociadas, definadas como
dP.,(sin8)
Pmn(sin8) = d(s¿n0)m
donde Pn(sin0) es el polinomio de Legendre de primer tipo de grado n.
Bmn(w) se denominan coeficientes de descomposición armónica esférica del campo sonoro.
Los armónicos esféricos Ymn(9, 0) que se muestran en la figura 3 para órdenes n que van de 0 a 3 y todos los grados posibles. Por lo tanto, los armónicos esféricos describen patrones de radiación cada vez más complejos alrededor del origen del sistema de coordenadas.
Para una onda plana de magnitud Opwque se origina en (9pw, 0pw), los coeficientes de descomposición armónica esférica Bmn(w) vienen dados por:
Figure imgf000009_0001
que son independientes de la frecuencia.
Para una fuente puntual de magnitud Osw que se origina en (rsw, 9sw, 0sw), los coeficientes de descomposición armónica esférica Bmn(w) vienen dados por:
Figure imgf000009_0002
donde es la función esférica de Hankel de primer tipo. Por lo tanto, la posición de descomposición armónica esférica para una fuente puntual depende de la frecuencia.
Estos coeficientes forman la base de la codificación HOA a partir de un formato de descripción basado en objetos donde el orden está limitado a un valor máximo N que proporciona (N+1)2 señales. Las señales codificadas forman la matriz B de tamaño (N+1)2*1 que comprende las señales codificadas a la frecuencia w.
Además, también se utilizan para describir la radiación de los altavoces Nl durante el proceso de decodificación. La decodificación consiste en encontrar la matriz inversa (o pseudo-inversa) D de la matriz L de Nl*(N+1)2 que contiene los coeficientes Limn(w) que describen la radiación de cada altavoz en armónicos esféricos hasta el orden N tal que: Uls=DB
donde Uls es la matriz Nl*1 que contiene las señales de alimentación de los altavoces.
Por lo tanto, la decodificación se puede considerar como una operación de formación de haces en la que las señales codificadas por HOA se combinan de una manera específica diferente para cada canal para formar un haz directivo en la dirección del altavoz de destino.
Dicha operación se describe en la figura 4 en la que la combinación de armónicos esféricos se logra utilizando pesos correspondientes a los coeficientes Bmn(w) obtenidos para una onda plana originada desde (3n/ ^ , n/ 4).
Se muestra un haz con máxima energía en la dirección entrante de la onda plana y nivel reducido en otras direcciones. Para la estimación de la dirección de llegada, consideramos que las señales codificadas espacialmente están disponibles como armónicos esféricos en la matriz B(w ,k) que se obtiene usando una transformada de Fourier de tiempo corto (STFT) en el instante k. Suponemos aquí que la matriz B (w ,k ) se obtiene a partir de la siguiente ecuación: B(<d , k ) = V( m ,Q,k )S( m ,k ) N( m , k )
donde B(o>,k) = [B1( ^ , k) B2( u , k) — Bm ( m, k) ]t contiene la transformada STFT de las M=(N+1)2 señales de la escena codificada HOA, S(o>,k) = [51(w, k) S2(( ú , k ) (^,k ) ]t contiene la transformada STFT de las I señales fuente en el instante k y frecuencia w; N(o>,k) = [N(m , k) N2(u , k) ■■■Nm (m, k) ]t contiene la transformada STFT de las M señales de ruido o componentes de campo difuso que se supone que están descorrelacionados con respecto a las señales fuente.
En la literatura sobre formaciones de micrófonos, la matriz V(w, 0, k) se denomina comúnmente "matriz múltiple de formación". Describe cómo se captura cada fuente en la formación de micrófonos dependiendo de la geometría del arreglo y la dirección de incidencia de las fuentes deseadas 0 (k)= [01 (k) 02 (k) ... 0 i(k)]t.
Suponiendo que las fuentes virtuales son ondas planas, el vector múltiple de la formación contiene coeficientes Bmn(w) obtenidos de la descomposición armónica esférica de una onda plana de incidencia 0 i= (9i, 0i) hasta el orden N.
El objetivo de los algoritmos de dirección de llegada es, por tanto, encontrar la dirección ©i = (9¡, 9¡)i =1L / para todas las fuentes de la escena sonora.
Una cantidad útil para la estimación de la dirección de llegada es la matriz de correlación cruzada Sbb(w , k) que se puede escribir como,
Sbb(o>,k) = E[B(o>,k)Bh (o»,k)} = V(o), k)Sss(o>, k)Vh (u>, k) Snn(o>,k)
donde E{ } denota el operador de expectativa y H es el operador de transposición hermítica. Se supone que la matriz espectral de ruido es Snn(w , k) = a^I donde a* es la varianza del ruido e I es la matriz identidad de tamaño M*M. Actualmente se obtiene recursivamente una estimación de la matriz de correlación espacio-espectral como:
Sbb ( m , k ) = X x V(a>,K)VH(a>,K) ( 1 - A ) x Sbb (<d, k 1)
donde A e [0, 1] es el factor de olvido descrito por Allen J., Berkeley D. y Blauert, J. en "Multi-microphone signalprocessing technique to remove room revereberation from speech signals", Journal of the Acoustical Society of America, vol.62, pp 912-915, octubre de 1977.
Un factor de olvido bajo proporciona una estimación muy precisa de la matriz de correlación, pero no es capaz de adaptarse adecuadamente a los cambios en la posición de las fuentes. Por el contrario, un factor de olvido alto proporcionaría una muy buena estimación de la matriz de correlación, pero sería poco conservador y lento para adaptarse a los cambios en la escena sonora.
Entonces es beneficioso descomponer la estimación de la matriz de correlación espacio-espectral en sus valores propios Zi y sus vectores propios Zi, l=1L M tal que
M
sBB = ^ 666 "
1=1
Esta descomposición de valores propios de $BB es la base de los llamados procedimientos de dirección de llegada basados en el subespacio, como lo revela Teutsch, H. en "Modal Array Signal Processing: Principies and Applications of Acoustic Wavefield Decomposition" Springer, 2007. Los vectores propios se separan en subespacios, el subespacio de señal y el subespacio de ruido. El subespacio de señal se compone de los vectores propios I correspondientes a los I valores propios más grandes. El subespacio de ruido está compuesto por los vectores propios restantes.
Ahora es útil notar que, por definición, estos subespacios son ortogonales. Esta observación es la base del llamado algoritmo de estimación de la dirección de llegada de MUSIC. El algoritmo MUSIC busca los vectores múltiples v(©) de la formación I que describen mejor el subespacio de señal o, en otras palabras, son "más ortogonales" al subespacio de ruido. Por lo tanto, definimos el llamado pseudo-espectro Q(0) proyectando el vector múltiple de formación en el subespacio de ruido mientras variamos la dirección de llegada © = (9,9):
Figure imgf000010_0001
El ©i = (9¡,9¡)í = 1L / puede así obtenerse como el I mínimo de Q(0).
Este algoritmo se conoce comúnmente como MUSIC espectral. Existen muchas variaciones de este algoritmo (root-MUSIC, unitary root-MUSIC, ...) que se detallan en la literatura (consulte Krim H. y Viberg M. "Two decades of array signal processing research - the parametric approach" IEEE Signal Processing Mag., 13(4):67-94, julio de 1996) y no se reproducen aquí.
La otra clase de algoritmo de localización de fuentes se conoce comúnmente como algoritmos ESPRIT. Se basa en las características de invariancia rotacional del conjunto de micrófonos o, en este contexto, de los armónicos esféricos. La formulación completa del algoritmo ESPRIT para armónicos esféricos es divulgada por Teutsch, H. en "Modal Array Signal Processing: Principies and Applications of Acoustic Wavefield Decomposition" Springer, 2007.
Es muy complejo en su formulación y por lo tanto no se reproduce aquí.
Descripción de realizaciones
En una primera realización de la invención, se utiliza una formación lineal de altavoces físicos 3 para la reproducción de una señal de entrada 5.1. Esta realización se muestra en la Fig. 5. El área de escucha objetivo 5 es relativamente grande y se utiliza para calcular el subespacio reproducible junto con los datos de posicionamiento de altavoz, considerando la formación de altavoces como una ventana, tal como lo describe Corteel E. en "Equalization in extended area using multichannel inversion and wave field synthesis" Journal of the Audio Engineering Society, 54(12), diciembre de 2006. Las segundas señales de entrada de audio 10 están así compuestas por los canales frontales de la entrada 5.1 (L/R/C). Los terceros canales de entrada de audio 12 están formados por los componentes traseros de la entrada 5.1 (canales Ls y Rs). El análisis espacial se logra en el dominio armónico cilíndrico codificando los segundos canales de entrada de audio en HOA con, por ejemplo, N=4. El análisis espacial permite extraer fuentes virtuales 21 que luego se reproducen utilizando WFS en los altavoces físicos en la ubicación deseada. Los componentes restantes de las segundas señales de entrada de audio se decodifican en 3 altavoces virtuales frontales 22 ubicados en las posiciones previstas de los canales LRC (-30, 0, 30 grados) como ondas planas. Las terceras señales de entrada de audio se reproducen usando altavoces virtuales ubicados en los límites del subespacio reproducible usando WFS.
En una segunda realización de la invención, se utiliza una formación circular horizontal de altavoces físicos 3 para la reproducción de una señal de entrada de 10.2. Esta realización se muestra en la Fig. 6. 10.2 es un formato de reproducción basado en canales que comprende 10 canales de altavoces de banda ancha entre los cuales 8 canales están ubicados en el plano horizontal y 2 están ubicados a 45 grados de elevación y /- 45 grados de acimut como lo describe Martin G. en " Introducción a Surround grabación de sonido" disponible en http://www.tonmeister.ca/main/textbook/. Las segundas señales de entrada de audio 10 se componen así de los canales horizontales de la entrada 10.2. Los terceros canales de entrada de audio 12 están formados por los componentes elevados de la entrada 10.2. El análisis espacial se logra en el dominio armónico cilíndrico codificando los segundos canales de entrada de audio en HOA con, por ejemplo, N=4. El análisis espacial permite extraer fuentes virtuales 21 que luego se reproducen mediante WFS en los altavoces físicos en su ubicación prevista. Los componentes restantes de las segundas señales de entrada de audio se decodifican en 5 altavoces virtuales circundantes 22 espaciados regularmente ubicados en (0, 72, 144, 216, 288 grados) como ondas planas. Esta configuración permite una decodificación mejorada de las señales codificadas HOA utilizando un diseño de canal regular y una matriz de decodificación independiente de la frecuencia. Además, dado que se han extraído fuertes fuentes localizables del análisis espacial, los componentes restantes se pueden renderizar utilizando un número menor de altavoces virtuales. Las terceras señales de entrada de audio se reproducen mediante altavoces virtuales ubicados a /- 45 grados mediante WFS.
En una tercera realización de la invención, se utiliza una matriz semiesférica superior de altavoces físicos 3 para la reproducción de una señal codificada HOA hasta el orden 3. Esta realización se muestra en la Fig. 7. La extracción de las segundas señales de entrada de audio 10 y las terceras señales de entrada de audio 12 se realiza aplicando un esquema de decodificación y recodificación. Esto consiste en decodificar las primeras señales de entrada de audio 1 en una configuración de altavoz virtual que realiza un muestreo regular de la esfera completa con L = (N+1)2 altavoces considerados como ondas planas. Tales técnicas de muestreo son divulgadas por Zotter F. en "Analysis and Synthesis of Sound-Radiation with Spherical Arrays" tesis doctoral, Instituto de Música Electrónica y Acústica, Universidad de Música y Artes Escénicas, 2009.
Los segundos canales de entrada de audio 10 se extraen simplemente seleccionando los altavoces virtuales ubicados en el medio espacio superior. Los datos de descripción del campo sonoro 11 asociados a los segundos canales de entrada de audio corresponden simplemente a las direcciones de la configuración de altavoz virtual seleccionada. Los canales decodificados restantes por lo tanto forman las terceras señales de entrada de audio 13 y sus direcciones dan los datos de descripción de campo sonoro asociados 14.
El análisis espacial se realiza en el dominio de los armónicos esféricos recodificando primero las segundas señales de entrada de audio 10. Las fuentes extraídas 21 luego se reproducen en los altavoces físicos 3 usando WFS. Los componentes restantes de las segundas señales de entrada de audio 10 se combinan luego con las terceras señales de entrada de audio 12 para formar quintas señales de entrada de audio 17 que se reproducen como altavoces virtuales 22 en los altavoces físicos 3 usando WFS. El mapeo de las terceras señales de entrada de audio 12 en los altavoces virtuales 22 se puede lograr asignando cada canal a los altavoces virtuales disponibles más cercanos 22 o distribuyendo la energía utilizando técnicas de paneo basadas en estereofónicos.
Las aplicaciones de la invención incluyen, pero no se limitan a, los siguientes dominios: reproducción de sonido de alta fidelidad, cine en casa, cine, conciertos, espectáculos, simulación de ruido interior para un avión, reproducción de sonido para Realidad Virtual, reproducción de sonido en el contexto de experimentos de percepción unimodal/crossmodal.

Claims (4)

REIVINDICACIONES
1. Procedimiento para la reproducción de campo sonoro de primeras señales de entrada de audio codificadas espacialmente (1) de acuerdo con primeros datos de descripción de campo sonoro asociados (2) en un área de escucha (5) utilizando un sistema de altavoces disponible físicamente (3), caracterizado porque el procedimiento comprende los pasos de:
computar datos de descripción de subespacio reproducible (8) a partir de datos de posicionamiento de altavoz (4) y datos de descripción de área de escucha (23), donde los datos de descripción de subespacio reproducible (8) describen un subespacio reproducible en el que se pueden reproducir para el área de escucha fuentes virtuales ubicadas en el subespacio reproducible usando síntesis de campo de ondas (WFS) por el sistema de altavoces disponible físicamente (3);
extraer segundas (10) y terceras (12) señales de entrada de audio con segundos (11) y terceros (13) datos de descripción de campo sonoro asociados a partir de las primeras señales de entrada de audio (1) usando los primeros datos de descripción de campo sonoro (2), donde las segundas señales de entrada de audio (10) comprenden componentes espaciales de las primeras señales de entrada de audio (1) ubicadas dentro de subespacio reproducible (6) y las terceras señales de entrada de audio (12) comprenden componentes espaciales de las primeras señales de entrada de audio (1) ubicadas fuera del subespacio reproducible (6),
realizar un análisis espacial en las segundas señales de entrada de audio (10) para extraer cuartas señales de entrada de audio (15) correspondientes a fuentes localizables dentro del subespacio reproducible (6) con datos de posicionamiento de fuentes localizables asociados (13),
fusionar los componentes restantes de las segundas señales de entrada de audio (10) después de la extracción de las cuartas señales de entrada de audio (15) con las terceras señales de entrada de audio (12) y mapear el resultado en el espacio reproducible (6), proporcionando así quitas señales de entrada de audio (17) con datos de descripción de campo sonoro asociados (18) para su reproducción dentro del subespacio reproducible (6), computar señales de alimentación de altavoz (20) para el sistema de altavoces físicamente disponible (3) usando síntesis de campo de ondas (WFS) a partir de las cuartas (15) y las quintas (17) señales de entrada de audio según los datos de posicionamiento de altavoz (4), los datos de descripción de área de escucha (23), los datos de posicionamiento de fuentes localizables (16) y datos de descripción de campo sonoro (18) que están asociados a las quintas señales de entrada de audio (17).
2. El procedimiento de la reivindicación 1 donde el análisis espacial de las segundas señales de entrada de audio (10) comprende el paso de:
convertir las segundas señales de entrada de audio (10) en componentes armónicos esféricos (3D) o cilíndricos (2D);
3. El procedimiento de la reivindicación 1 donde los datos de posicionamiento de fuentes localizables (16) son estimados usando un método de estimación de dirección de llegada de subespacio operando en un dominio de armónicos esféricos (3D) o cilíndricos (2D).
4. Dispositivo para la reproducción de campo sonoro de primeras señales de entrada de audio codificadas espacialmente (1) de acuerdo con primeros datos de descripción de campo sonoro asociados (2) en un área de escucha (5) utilizando un sistema de altavoces disponible físicamente (3), caracterizado porque el dispositivo comprende:
un dispositivo de computación de subespacio reproducible (7) para computar datos de descripción de subespacio reproducible (8) a partir de datos de posicionamiento de altavoz (4) y datos de descripción de área de escucha (23), donde los datos de descripción de subespacio reproducible (8) describen un subespacio reproducible en el que se pueden reproducir para el área de escucha fuentes virtuales ubicadas en el subespacio reproducible usando síntesis de campo de ondas (WFS) por el sistema de altavoces disponible físicamente (3);
un dispositivo de selección de audio de subespacio reproducible (9) para extraer segundas (10) y terceras (12) señales de entrada de audio con segundos (11) y terceros (13) datos de descripción de campo sonoro asociados a partir de las primeras señales de entrada de audio (1) usando los primeros datos de descripción de campo sonoro (2), donde las segundas señales de entrada de audio (10) comprenden componentes espaciales de las primeras señales de entrada de audio (1) ubicadas dentro del subespacio reproducible (6) y las terceras señales de entrada de audio (12) comprenden componentes espaciales de las primeras señales de entrada de audio (1) ubicadas fuera del subespacio reproducible (6);
un dispositivo de transformación de campo sonoro (14) para realizar un análisis espacial en las segundas señales de entrada de audio (10) para extraer cuartas señales de entrada de audio (15) correspondientes a fuentes localizables dentro del subespacio reproducible (6) con datos de posicionamiento de fuentes localizables asociados (13) y para
fusionar los componentes restantes de las segundas señales de entrada de audio (10) después de extraer las cuartas señales de entrada de audio (15) con las terceras señales de entrada de audio (12) y de mapear el resultado en el subespacio reproducible (6), proporcionando así quintas señales de entrada de audio (17) con datos de descripción de campo sonoro asociados (18) para su reproducción dentro de subespacio reproducible (6); y
un dispositivo de reproducción de sonido espacial (19) para computar señales de alimentación de altavoz (20) para el sistema de altavoces disponible físicamente (3) usando síntesis de campo de ondas (WFS) de las cuartas (15) y quintas (17) señales de entrada de audio de acuerdo con los datos de posicionamiento de altavoz (4), los datos de descripción de área de escucha (23), los datos de posicionamiento de fuentes localizables (16) y los datos de descripción del campo sonoro (18) que está asociados con las quintas señales de entrada de audio (17).
ES11752172T 2010-08-27 2011-08-25 Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente Active ES2922639T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP10174407 2010-08-27
PCT/EP2011/064592 WO2012025580A1 (en) 2010-08-27 2011-08-25 Method and device for enhanced sound field reproduction of spatially encoded audio input signals

Publications (1)

Publication Number Publication Date
ES2922639T3 true ES2922639T3 (es) 2022-09-19

Family

ID=44582979

Family Applications (1)

Application Number Title Priority Date Filing Date
ES11752172T Active ES2922639T3 (es) 2010-08-27 2011-08-25 Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente

Country Status (4)

Country Link
US (1) US9271081B2 (es)
EP (1) EP2609759B1 (es)
ES (1) ES2922639T3 (es)
WO (1) WO2012025580A1 (es)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9119011B2 (en) 2011-07-01 2015-08-25 Dolby Laboratories Licensing Corporation Upmixing object based audio
EP2862370B1 (en) 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
KR20230154111A (ko) 2012-07-16 2023-11-07 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
WO2014013070A1 (en) * 2012-07-19 2014-01-23 Thomson Licensing Method and device for improving the rendering of multi-channel audio signals
CN102857852B (zh) * 2012-09-12 2014-10-22 清华大学 一种声场定量重现控制***的扬声器回放阵列控制信号的处理方法
FR2996095B1 (fr) 2012-09-27 2015-10-16 Sonic Emotion Labs Procede et dispositif de generation de signaux audio destines a etre fournis a un systeme de restitution sonore
US9565314B2 (en) * 2012-09-27 2017-02-07 Dolby Laboratories Licensing Corporation Spatial multiplexing in a soundfield teleconferencing system
FR2996094B1 (fr) 2012-09-27 2014-10-17 Sonic Emotion Labs Procede et systeme de restitution d'un signal audio
KR102160218B1 (ko) * 2013-01-15 2020-09-28 한국전자통신연구원 사운드 바를 위한 오디오 신호 처리 장치 및 방법
US9736609B2 (en) * 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
EP2765791A1 (en) * 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
FR3002406B1 (fr) 2013-02-18 2015-04-03 Sonic Emotion Labs Procede et dispositif de generation de signaux d'alimentation destines a un systeme de restitution sonore
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
US9716959B2 (en) 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
JP6330325B2 (ja) * 2013-09-12 2018-05-30 ヤマハ株式会社 ユーザインタフェース装置及び音響制御装置
US20150127354A1 (en) * 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
WO2015054033A2 (en) 2013-10-07 2015-04-16 Dolby Laboratories Licensing Corporation Spatial audio processing system and method
EP2866475A1 (en) * 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
DE102013223201B3 (de) 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
JP6458738B2 (ja) * 2013-11-19 2019-01-30 ソニー株式会社 音場再現装置および方法、並びにプログラム
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
FR3018026B1 (fr) 2014-02-21 2016-03-11 Sonic Emotion Labs Procede et dispositif de restitution d'un signal audio multicanal dans une zone d'ecoute
US20150264483A1 (en) * 2014-03-14 2015-09-17 Qualcomm Incorporated Low frequency rendering of higher-order ambisonic audio data
US10412522B2 (en) * 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
CN106664500B (zh) 2014-04-11 2019-11-01 三星电子株式会社 用于渲染声音信号的方法和设备以及计算机可读记录介质
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US20150332682A1 (en) * 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
EP3172541A4 (en) * 2014-07-23 2018-03-28 The Australian National University Planar sensor array
US9536531B2 (en) * 2014-08-01 2017-01-03 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
EP3024253A1 (en) * 2014-11-21 2016-05-25 Harman Becker Automotive Systems GmbH Audio system and method
US10932078B2 (en) 2015-07-29 2021-02-23 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals
KR102063307B1 (ko) 2016-03-15 2020-01-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 음장 기술을 생성하기 위한 장치, 방법, 또는 컴퓨터 프로그램
US20170372697A1 (en) * 2016-06-22 2017-12-28 Elwha Llc Systems and methods for rule-based user control of audio rendering
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
GB2563635A (en) * 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
WO2020037282A1 (en) 2018-08-17 2020-02-20 Dts, Inc. Spatial audio signal encoder
WO2020037280A1 (en) 2018-08-17 2020-02-20 Dts, Inc. Spatial audio signal decoder
EP3618464A1 (en) 2018-08-30 2020-03-04 Nokia Technologies Oy Reproduction of parametric spatial audio using a soundbar
CN110751956B (zh) * 2019-09-17 2022-04-26 北京时代拓灵科技有限公司 一种沉浸式音频渲染方法及***
GB2590906A (en) * 2019-12-19 2021-07-14 Nomono As Wireless microphone with local storage
US11937070B2 (en) * 2021-07-01 2024-03-19 Tencent America LLC Layered description of space of interest

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10321986B4 (de) * 2003-05-15 2005-07-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Pegel-Korrigieren in einem Wellenfeldsynthesesystem
EP1761110A1 (en) 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
US9088855B2 (en) 2006-05-17 2015-07-21 Creative Technology Ltd Vector-space methods for primary-ambient decomposition of stereo audio signals
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
DE102006053919A1 (de) 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
EP2056627A1 (en) * 2007-10-30 2009-05-06 SonicEmotion AG Method and device for improved sound field rendering accuracy within a preferred listening area
US8103005B2 (en) 2008-02-04 2012-01-24 Creative Technology Ltd Primary-ambient decomposition of stereo audio signals using a complex similarity index
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal

Also Published As

Publication number Publication date
EP2609759A1 (en) 2013-07-03
US9271081B2 (en) 2016-02-23
WO2012025580A1 (en) 2012-03-01
EP2609759B1 (en) 2022-05-18
US20130148812A1 (en) 2013-06-13

Similar Documents

Publication Publication Date Title
ES2922639T3 (es) Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente
JP7119060B2 (ja) マルチポイント音場記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
US9838825B2 (en) Audio signal processing device and method for reproducing a binaural signal
JP6950014B2 (ja) 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
US10313815B2 (en) Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
Frank et al. Producing 3D audio in ambisonics
Farina et al. 3D sound characterisation in theatres employing microphone arrays
US9706292B2 (en) Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images
ES2907377T3 (es) Aparato, procedimiento y programa informático para la codificación, la decodificación, el procesamiento de escenas y otros procedimientos relacionados con la codificación de audio espacial basada en DirAC
US8345899B2 (en) Phase-amplitude matrixed surround decoder
US9100768B2 (en) Method and device for decoding an audio soundfield representation for audio playback
US11863962B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
Arteaga Introduction to ambisonics
Suzuki et al. 3D spatial sound systems compatible with human's active listening to realize rich high-level kansei information
De Sena Analysis, design and implementation of multichannel audio systems
Gerken et al. Evaluation of real-time implementation of 3D multichannel audio rendering methods
Politis et al. Overview of Time–Frequency Domain Parametric Spatial Audio Techniques
Tronchin et al. Implementing spherical microphone array to determine 3D sound propagation in the" Teatro 1763" in Bologna, Italy
Sontacchi et al. “GETTING MIXED UP WITH WFS, VBAP, HOA, TRM…” FROM ACRONYMIC CACOPHONY TO A GENERALIZED RENDERING TOOLBOX
Tronchin On the measurement of wave propagation in systems by means of spherical microphone array: a case study
Masiero et al. EUROPEAN SYMPOSIUM ON ENVIRONMENTAL ACOUSTICS AND ON BUILDINGS ACOUSTICALLY SUSTAINABLE