ES2525839T3 - Adquisición de sonido mediante la extracción de información geométrica de estimativos de dirección de llegada - Google Patents

Adquisición de sonido mediante la extracción de información geométrica de estimativos de dirección de llegada Download PDF

Info

Publication number
ES2525839T3
ES2525839T3 ES11801647.6T ES11801647T ES2525839T3 ES 2525839 T3 ES2525839 T3 ES 2525839T3 ES 11801647 T ES11801647 T ES 11801647T ES 2525839 T3 ES2525839 T3 ES 2525839T3
Authority
ES
Spain
Prior art keywords
microphone
sound
virtual
sound event
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11801647.6T
Other languages
English (en)
Inventor
Jürgen HERRE
Fabian KÜCH
Markus Kallinger
Giovanni Del Galdo
Oliver Thiergart
Dirk Mahne
Achim Kuntz
Michael Kratschmer
Alexandra Craciun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2525839T3 publication Critical patent/ES2525839T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

Aparato para generar una señal de salida de audio para simular una grabación de la señal de salida de audio de un micrófono virtual en una posición virtual configurable en un entorno, que comprende: un estimador de posición de acontecimientos sonoros (110) destinado a estimar una posición de un acontecimiento sonoro que indica una posición de un acontecimiento sonoro en el entorno, en el que el acontecimiento sonoro está activo en un determinado momento o en un determinado contenedor de tiempo-frecuencia, en el que el acontecimiento sonoro es una fuente sonora real o una fuente en imagen-espejo, en el que el estimador de posición de acontecimientos sonoros (110) está configurado para estimar la posición del acontecimiento sonoro que indica una posición de una fuente en imagen-espejo en el entorno cuando el acontecimiento sonoro es una fuente en imagen-espejo, y en el que el estimador de posición de acontecimientos sonoros (110) está adaptado para estimar la posición del acontecimiento sonoro a partir de una primera información de dirección suministrada por un primer micrófono espacial real situado en una posición del primer micrófono real en el entorno, y a partir de una segunda información de dirección suministrada por un segundo micrófono espacial real situado en una posición del segundo micrófono real en el entorno, donde el primer micrófono espacial real y el segundo micrófono espacial real son unos micrófonos espaciales que existen físicamente; y donde el primer micrófono espacial real y el segundo micrófono espacial real son unos aparatos destinados a la adquisición de sonido espacial capaz de determinar la dirección de llegada del sonido, y un módulo de cálculo de informaciones (120) destinado a generar la señal de salida de audio a partir de una primera señal de entrada de audio grabada, a partir de la posición del primer micrófono real, a partir de la posición virtual del micrófono virtual, y a partir de la posición del acontecimiento sonoro, en el cual el primer micrófono espacial real está configurado para grabar la primera señal de entrada de audio grabada, o en el cual un tercer micrófono está configurado para grabar la primera señal de entrada de audio grabada, en el cual el estimador de posición de acontecimientos sonoros (110) está adaptado para estimar la posición del acontecimiento sonoro a partir de una primera dirección de llegada de la onda sonora emitida por el acontecimiento sonoro en la posición del primer micrófono real como primera información de dirección y a partir de una segunda dirección de llegada de la onda sonora en la posición del segundo micrófono real como segunda información de dirección, y en el cual el módulo de cálculo de informaciones (120) comprende un compensador de propagación (500), en el cual el compensador de propagación (500) está adaptado para generar una primera señal de audio modificada modificando la primera señal de entrada de audio grabada a partir de una primera disminución de amplitud entre el acontecimiento sonoro y el primer micrófono espacial real y a partir de una segunda disminución de amplitud entre el acontecimiento sonoro y el micrófono virtual, ajustando un valor de amplitud, un valor de magnitud o un valor de fase de la primera señal de entrada de audio grabada, para obtener la señal de salida de audio; o en el cual el compensador de propagación (500) está adaptado para generar una primera señal de audio modificada compensando un primer retardo entre una llegada de una onda sonora emitida por el acontecimiento sonoro en el primer micrófono espacial real y una llegada de la onda sonora al micrófono virtual ajustando un valor de amplitud, un valor de magnitud o un valor de fase de la primera señal de entrada de audio grabada, para obtener la señal de salida de audio.

Description

15
25
35
45
55
65
E11801647
10-12-2014
DESCRIPCIÓN
Adquisición de sonido mediante la extracción de información geométrica de estimativos de dirección de llegada
[0001] La presente invención se relaciona con el procesamiento de audio y, en particular, con un aparato y procedimiento para la adquisición de sonido mediante la extracción de información geométrica de estimativos de dirección de llegada.
[0002] La grabación de sonido espacial tradicional apunta a capturar un campo sonoro con múltiples micrófonos de tal manera que, del lado de la reproducción, un oyente perciba la imagen sonora como si estuviera en el lugar de la grabación. Las estrategias normales para la grabación de sonido espacial por lo general utilizan micrófonos omnidireccionales espaciados, por ejemplo en al estereofonía AB, o micrófonos direccionales coincidentes, como por ejemplo en la estereofonía de intensidad, o bien micrófonos más sofisticados como un micrófono con formato B, por ej., en Ambisonics; véase, por ejemplo,
[1] R. K. Furness, “Ambisonics – An overview,” en la 8a Conferencia Internacional de AES, abril de 1990, pág. 181–
189.
[0003] En cuanto a la reproducción del sonido, estas estrategias no paramétricas derivan las señales de reproducción de audio deseadas (por ej., las señales que han de ser enviadas a los parlantes) directamente de las señales de micrófono grabadas.
[0004] Por otro lado, se pueden aplicar procedimientos basados en la representación paramétrica de campos sonoros, a los que se hace referencia como codificadores de audio espacial paramétricos. Estos procedimientos emplean con frecuencia matrices de micrófonos para determinar una o más señales de mezcla descendente junto con información secundaria espacial que describe el sonido espacial. Son ejemplos la Codificación de Audio direccional (DirAC) o el denominado enfoque de micrófonos de audio espacial (SAM). Se pueden encontrar más detalles sobre la DirAC en
[2] Pulkki, V., "Directional audio coding in spatial sound reproduction and stereo upmixing," en el Acta de la 28a Conferencia Internacional de AES, pág. 251–258, Piteå, Suecia, Junio 30 – Julio 2 de 2006,
[3] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc., vol. 55, no. 6, pág. 503– 516, Junio de 2007. Para más detalles sobre la estrategia de micrófonos de audio espacial, se hace referencia a
[4] C. Faller: “Microphone Front–Ends for Spatial Audio Coders”, en el Acta de la 125a Convención Internacional de AES, San Francisco, Oct. 2008.
[0005] En la DirAC, por ejemplo, el caso de la información de la pista espacial comprende la dirección de llegada (DOA) del sonido y la difusividad del campo sonoro computada en un dominio de dominio del tiempo–frecuencia. Para la reproducción del sonido, se pueden derivar las señales de reproducción de audio sobre la base de la descripción paramétrica. En algunas aplicaciones, la adquisición de sonido espacial apunta a capturar una escena sonora completa. En otras aplicaciones, la adquisición de sonido espacial sólo tiene por fin capturar ciertos componentes deseados. Con frecuencia se usan micrófonos para hablar muy cerca para grabar fuentes de sonido individuales con alta relación señal a ruido (SNR) y baja reverberación, en tanto que las configuraciones más distantes como la estereofonía XY representan una manera de capturar la imagen espacial de una escena sonora total. Se puede obtener una mayor flexibilidad en términos de directividad con la formación de haces, donde se utiliza una matriz de micrófonos para obtener patrones de captación direccionables. Se obtiene una flexibilidad aun mayor con los procedimientos antes mencionados, como por ejemplo la codificación direccional de audio (DirAC) (ver [2], [3]), en la cual es posible incluir filtros espaciales con patrones arbitrarios de captación, como se describe en
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Küch, D. Mahne, R. Schultz–Amling. y O. Thiergart, "A spatial filtering approach for directional audio coding," en Audio Engineering Society Convention 126, Munich, Alemania, mayo de 2009, como así también otras manipulaciones del procesamiento de señales de le la escena sonora; ver, por ejemplo,
[6] R. Schultz–Amling, F. Küch, O. Thiergart y M. Kallinger, "Acoustical zooming based on a parametric sound field representation," en Audio Engineering Society Convention 128, Londres, R.U., mayo de 2010,
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger y O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," en Audio Engineering Society Convention 128, Londres R.U., mayo de 2010.
[0006] Lo que tienen en común todos los conceptos antes mencionados es que los micrófonos están dispuestos en una geometría fija conocida. El espaciamiento entre los micrófonos es el menor posible para la microfonía coincidente, en tanto que normalmente es de sólo unos pocos centímetros en los demás procedimientos. A continuación nos referimos a cualquier aparato para la grabación del sonido espacial con capacidad para rescatar la dirección de llegada del sonido (por ej. una combinación de micrófonos direccionales o una matriz de micrófonos, etc.) como un micrófono espacial.
[0007] Más aun, lo que tienen en común todos los procedimientos precedentemente mencionados es que se limitan a una representación del campo sonoro con respecto a un solo punto, es decir la ubicación de medición. Por consiguiente, los micrófonos necesarios deben estar situados en puntos muy específicos, cuidadosamente
15
25
35
45
55
65
E11801647
10-12-2014
seleccionados, por ej. cerca de las fuentes o de tal manera que se pueda captar de manera óptima la imagen espacial.
[0008] Sin embargo, en numerosas aplicaciones, esto no es factible y, por lo tanto, sería ventajoso colcocar varios micrófonos a mayor distancia de las fuentes de sonido y de todas maneras poder captar el sonido pretendido.
[0009] Existen varios procedimientos de reconstrucción de campo para estimar el campo sonoro en un punto del espacio aparte de aquél en el cual se lo midiera. Uno de estos procedimientos es la holografía acústica, descripta en
[8] E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999.
[0010] La holografía acústica permite computar el campo sonoro en cualquier punto con un volumen arbitrario, siempre que se conozca la presión sonora y la velocidad de partícula en toda su superficie. Por lo tanto, cuando el volumen es grande, se requiere un número de sensores no práctico por lo grande. Por añadidura, el procedimiento presupone que no hay fuentes sonoras presentes dentro del volumen, lo que hace que el algoritmo sea inviable para nuestras necesidades. La extrapolación de campos de ondas relacionada (remitirse también a [8]) tiene por fin extrapolar el campo sonoro conocidos sobre la superficie de un volumen a regiones externas. No obstante, la precisión de la extrapolación se degrada rápidamente en el caso de distancias de extrapolación más grandes, como así también en el caso de extrapolaciones hacia direcciones ortogonales a la dirección de propagación del sonido; véase
[9] A. Kuntz y R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," en 15th European Signal Processing Conference (EUSIPCO 2007), 2007.
[10] A. Walther y C. Faller, "Linear simulation of spaced matrices de micrófonos using b–format recordings," en Audio Engineering Society Convention 128, Londres R.U., mayo de 2010, describe un modelo de onda plana, en el cual la extrapolación de campo sólo es posible en puntos lejanos a las fuentes sonoras reales, por ej., cerca del punto de medición.
[0011] Una desventaja importante de los enfoques tradicionales es que la imagen espacial registrada siempre es relativa al micrófono espacial utilizado. En muchas aplicaciones, no es posible o factible colocar un micrófono espacial en la posición indicada, por ej., cerca de las fuentes del sonido. En este caso, sería más ventajoso colocar múltiples micrófonos espaciales más alejados de la escena sonora y de todas maneras poder capturar el sonido como se pretende.
[11] US61/287,596: An apparatus and Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal, propone un procedimiento para correr la posición real de grabación a otra posición cuando se reproducen por parlantes o auriculares. Sin embargo, esta estrategia se limita a una sencilla escena sonora en la cual se presume que todos los objetos sonoros están a una distancia igual con respecto al micrófono espacial utilizado para la grabación. Más aun, el procedimiento sólo puede aprovechar un micrófono espacial.
[0012] Otro ejemplo de procedimiento para generar una señal de salida de audio para simular una grabación de la señal de salida de audio mediante un micrófono virtual en una posición virtual configurable se describe en US 2005/0281410 A1.
[0013] Es un objeto de la presente invención proporcionar conceptos mejorados para la adquisición de sonido mediante la extracción de información geométrica. El objetivo de la presente invención se alcanza por medio de un aparato de acuerdo con la reivindicación 1, un procedimiento de acuerdo con la reivindicación 17 y un programa de computación de acuerdo con la reivindicación 18.
[0014] De acuerdo con una realización, se presenta un aparato para generar una señal de salida de audio a fin de simular una grabación de un micrófono virtual en una posición virtual configurable de un ambiente. El aparato comprende un estimador de posición de eventos sonoros y un módulo de cómputo de información. El estimador de posición de eventos sonoros está adaptado para estimar la posición de una fuente sonora que indica una posición de una fuente de sonido en el ambiente, donde el estimador de posición de eventos sonoros está adaptado para estimar la posición de la fuente sonora sobre la base de una primera información de dirección provista por un primer micrófono espacial real que está situado en una primera posición del micrófono real en el ambiente, y sobre la base de una segunda información de dirección provista por un segundo micrófono espacial real que está situado en una segunda posición de micrófono real en el ambiente.
[0015] El módulo de cómputo de información está adaptado para generar la señal de salida de audio sobre la base de una primera señal de entrada de audio grabada que es registrada por el primer micrófono espacial real, sobre la base de la primera posición del micrófono real, sobre la base de la posición virtual del micrófono virtual, y sobre la base de la posición de la fuente sonora.
[0016] En una forma de realización, el módulo de cómputo de información comprende un compensador de la propagación, donde el compensador de la propagación está adaptado para generar una primera señal de audio modificada mediante la modificación de la primera señal de entrada de audio grabada, sobre la base de la degradación de una primera amplitud entre la fuente del sonido y el primer micrófono espacial real y sobre la base de una segunda degradación de la amplitud entre la fuente del sonido y el micrófono virtual, mediante el ajuste de un
15
25
35
45
55
65
E11801647
10-12-2014
valor de amplitud, un valor de magnitud o un valor de fase de la primera señal de entrada de audio grabada, para obtener la señal de salida de audio. En una forma de realización, la primera degradación de la amplitud puede ser la degradación de la amplitud de una onda sonora emitida por una fuente de sonido y la segunda degradación de la amplitud puede ser la degradación de la amplitud de la onda sonora emitida por la fuente del sonido.
[0017] De acuerdo con otra forma de realización, el módulo de cómputo de información comprende un compensador de la propagación que está adaptado para generar una primera señal de audio modificada mediante la modificación de la primera señal de entrada de audio grabada compensando un primer retardo entre la llegada de una onda sonora emitida por la fuente del sonido en el lugar del primer micrófono espacial real y la llegada de la onda sonora en el lugar del micrófono virtual mediante el ajuste de un valor de amplitud, un valor de magnitud o un valor de fase de la primera señal de entrada de audio grabada, para obtener la señal de salida de audio.
[0018] De acuerdo con una forma de realización, se presume el uso de de dos o más micrófonos espaciales, a los que se hace referencia en lo sucesivo como micrófonos espaciales reales. Por cada micrófono espacial real, se puede estimar la DOA del sonido en el dominio del tiempo–frecuencia. De la información reunida por los micrófonos espaciales reales, junto con el conocimiento de su posición relativa, es posible constituir la señal de salida de un micrófono espacial arbitrario ubicado virtualmente a voluntad en el ambiente. En lo sucesivo se hace referencia a este micrófono espacial como micrófono espacial virtual.
[0019] Nótese que la Dirección de Llegada (DOA) se puede puede expresar como ángulo azimutal en el caso del espacio 2D, o por un par de ángulos azimutal y de elevación en 3D. De modo similar, se puede utilizar un vector normal unitario que apunte a la DOA.
[0020] En las realizaciones, se presentan medios para capturar sonido de manera espacialmente selectiva, por ej., se puede captar el sonido que se origina en una ubicación específica, como si se hubiera instalado un “micrófono de punto” cercano en esta ubicación. En lugar de instalar, en realidad, este micrófono de punto, se puede simular su señal de salida utilizando dos o más micrófonos espaciales colocados en otras posiciones distantes.
[0021] El término “micrófono espacial” se refiere a cualquier aparato para la adquisición de sonido espacial con capacidad para recuperar la dirección de llegada del sonido (por ej. una combinación de micrófonos direccionales, matrices de micrófonos, etc.) .
[0022] El término “micrófono no espacial” se refiere a cualquier aparato que no esté adaptado para recuperar la dirección de llegada del sonido, como por ejemplo un micrófono omnidireccional o directivo único.
[0023] Se debe tener en cuenta que el término “micrófono espacial real” se refiere a un micrófono espacial de acuerdo con lo definido anteriormente, que existe físicamente.
[0024] En lo que respecta al micrófono espacial virtual, cabe señalar que el micrófono espacial virtual puede representar cualquier tipo de micrófono o combinación de micrófonos conveniente, por ej. puede representar, por ejemplo, un micrófono omnidireccional único, un micrófono direccional, un par de micrófonos direccionales como se utiliza en los micrófonos estéreo comunes, aunque también una matriz de micrófonos.
[0025] La presente invención se basa en el hallazgo de que cuando se utilizan dos o más micrófonos espaciales reales, es posible estimar la posición en el espacio 2D o 3D de los eventos sonoros, y por consiguiente se puede obtener la localización de la posición. Utilizando las posiciones determinadas de los eventos sonoros, se puede computar la señal de sonido que habría sido registrada por un micrófono espacial virtual situado y orientado arbitrariamente en el espacio, como así también la correspondiente información complementaria espacial, tal como la Dirección de llegada desde el punto de vista del micrófono espacial virtual.
[0026] Para este fin, se puede presumir que cada evento sonoro representa una fuente de sonido puntual, por ej. una fuente de sonido de punto isotrópico. En lo sucesivo la expresión “fuente sonora real” se refiere a una fuente de sonido real con existencia física en el ambiente de grabación, como por ejemplo personas que hablan o instrumentos musicales, etc.. Por el contrario, en lo sucesivo utilizamos la expresión “fuente sonora” o “evento sonoro” para referirnos a una fuente de sonido efectivo, que está activa en un determinado instante de tiempo o en una determinada caja de tiempo–frecuencia, donde las fuentes del sonido pueden representar, por ejemplo, fuentes sonoras reales o fuentes de imágenes espejadas. De acuerdo con una forma de realización, se supone implícitamente que se puede modelar la escena sonora como multitud de dichos eventos sonoros o como fuentes sonoras puntuales. Más aun, se puede suponer que cada fuente está activa sólo dentro de una ranura específica de tiempo y frecuencia en una representación de tiempo–frecuencia predefinida. La distancia entre los micrófonos espaciales reales puede ser tal que la diferencia temporal consiguiente de los tiempos de propagación sea más corta que la resolución temporal de la representación de tiempo–frecuencia. Esta última presunción garantiza que un determinado evento sonoro sea captado por todos los micrófonos espaciales dentro de la misma ranura de tiempo. Esto implica que las DOAs estimadas en diferentes micrófonos espaciales correspondientes a la misma ranura de tiempo–frecuencia corresponden al mismo evento sonoro. Esta presunción no es difícil de cumplir con micrófonos espaciales reales colocados a pocos metros entre sí en recintos grandes (tales como salas de estar o salones de conferencias) con una resolución temporal de incluso unos pocos ms.
15
25
35
45
55
65
E11801647
10-12-2014
[0027] Se pueden utilizar matrices de micrófonos para localizar fuentes sonoras. Las fuentes sonoras localizadas pueden tener diferentes interpretaciones físicas dependiendo de su naturaleza. Cuando las matrices de micrófonos reciben sonido directo, pueden tener la capacidad de localizar la posición de una fuente sonora verdadera (por ej. voces humanas). Al recibir reflexiones las matrices de micrófonos, éstas pueden localizar la posición de una fuente de imagen espejada. Las fuentes de imágenes espejadas también son fuentes de sonido.
[0028] Se da a conocer un procedimiento paramétrico que puede estimar la señal sonora de un micrófono virtual situado en una ubicación arbitraria. A diferencia de los procedimientos antes descriptos, el procedimiento propuesto no apunta directamente a la reconstrucción del campo sonoro, sino que tiene por objeto producir un sonido perceptualmente similar al que sería captado por un micrófono situado físicamente en ese punto. Esto se puede obtener empleando un modelo paramétrico del campo sonoro sobre la base de fuentes sonoras puntuales, por ej. de punto isotrópico (IPLS). Se puede obtener la información geométrica requerida, es decir la posición instantánea de todas las IPLS, llevando a cabo la triangulación de las direcciones de llegada estimadas con dos o más matrices de micrófonos distribuidas. Esto se puede lograr obteniendo el conocimiento de la posición y orientación relativas de las matrices. Pese a ello, no es necesario conocer de antemano el número y la posición de las fuentes sonoras reales (por ej., las voces humanas). Dada la naturaleza paramétrica de los conceptos propuestos, por ejemplo el aparato o procedimiento propuesto, el micrófono virtual puede poseer un patrón de directividad arbitrario, como así también comportamientos físicos o no físicos arbitrarios, por ej., con respecto a la degradación de la presión con la distancia. La estrategia presentada ha sido verificada estudiando la precisión de la estimación de parámetros basada en mediciones del entorno reverberante.
[0029] Mientras que las técnicas de grabación convencionales para el audio espacial son limitadas en la medida en que la imagen espacial obtenida siempre es relativa a la posición en la cual se han colocado físicamente los micrófonos, las realizaciones de la presente invención toman en cuenta que, en numerosas aplicaciones, es ventajoso colocar los micrófonos fuera de la escena sonora y, de todas maneras, pueden capturar el sonido desde una perspectiva arbitraria. De acuerdo con las realizaciones, se presentan conceptos que colocan virtualmente un micrófono virtual en un punto arbitrario del espacio, computando una señal perceptualmente similar a la que se habría captado si se hubiera colocado físicamente el micrófono en la escena sonora. Las realizaciones pueden aplicar conceptos que pueden emplear un modelo paramétrico del campo sonoro sobre la base de las fuentes sonoras puntuales, por ej. fuentes sonoras puntuales isotrópicas. La información geométrica necesaria puede ser colectada por dos o más matrices de micrófonos distribuidas.
[0030] De acuerdo con una forma de realización, el estimador de posición de eventos sonoros puede estar adaptado para estimar la posición de la fuente sonora sobre la base de una primera dirección de llegada de la onda sonora emitida por la fuente del sonido en la primera posición del micrófono real como primera información de dirección y sobre la base de una segunda dirección de llegada de la onda sonora en la segunda posición de micrófono real como segunda información de dirección.
[0031] En otra forma de realización, el módulo de cómputo de información puede comprender un módulo de cómputo de información complementaria espacial para computar la información complementaria espacial. El módulo de cómputo de información puede estar adaptado para estimar la dirección de llegada o una intensidad sonora activa en el lugar del micrófono virtual como información complementaria espacial, sobre la base de un vector de posición del micrófono virtual y sobre la base de un vector de posición del evento sonoro.
[0032] De acuerdo con una forma de realización adicional, el compensador de la propagación puede estar adaptado para generar la primera señal de audio modificada en un dominio del tiempo–frecuencia, compensando el primer retardo o degradación de la amplitud entre la llegada de la onda sonora emitida por la fuente del sonido en el lugar del primer micrófono espacial real y la llegada de la onda sonora en el lugar del micrófono virtual mediante el ajuste de dicho valor de magnitud de la primera señal de entrada de audio grabada que está representada en un dominio del tiempo–frecuencia.
[0033] En una forma de realización, el compensador de la propagación puede estar adaptado para llevar a cabo la compensación de la propagación mediante la generación de un valor de magnitud modificado de la primera señal de audio modificada aplicando la fórmula:
d1(k, n)
P (k, n)= P (k, n)
v ref
s(k, n)
donde d1(k, n) es la distancia entre la posición del primer micrófono espacial real y la posición del evento sonoro, donde s(k, n) es la distancia entre la posición virtual del micrófono virtual y la posición de la fuente sonora del evento sonoro, donde Pref(k, n) es un valor de magnitud de la primera señal de entrada de audio grabada que está representada en un dominio del tiempo–frecuencia y donde Pv(k, n) es el valor de magnitud modificado.
[0034] En otra forma de realización, el módulo de cómputo de información puede comprender además un combinador, donde el compensador de la propagación puede estar adaptado además para modificar una segunda
15
25
35
45
55
E11801647
10-12-2014
señal de entrada de audio grabada, que es registrada por el segundo micrófono espacial real, mediante la compensación de un segundo retardo o degradación de la amplitud entre la llegada de la onda sonora emitida por la fuente del sonido en el lugar del segundo micrófono espacial real y la llegada de la onda sonora en el lugar del micrófono virtual, mediante el ajuste de un valor de amplitud, un valor de magnitud o un valor de fase de la segunda señal de entrada de audio grabada para obtener una segunda señal de audio modificada, y donde el combinador puede estar adaptado para generar una señal combinatoria combinando la primera señal de audio modificada y la segunda señal de audio modificada, para obtener la señal de salida de audio.
[0035] De acuerdo con otra forma de realización, el compensador de la propagación puede estar adaptado asimismo para modificar una o más señales de entrada de audio grabadas adicionales, que es registrada por dichos uno o más micrófonos espaciales reales adicionales, compensando los retardos entre una llegada de la onda sonora en el lugar del micrófono virtual y la llegada de la onda sonora emitida por la fuente del sonido en cada uno de los micrófonos espaciales reales adicionales. cada uno de los retardos o degradaciones de la amplitud puede ser compensado mediante el ajuste de un valor de amplitud, un valor de magnitud o un valor de fase de cada una de las señales de entrada de audio grabadas adicionales para obtener una pluralidad de terceras señales de audio modificadas. El combinador puede estar adaptado para generar una señal combinatoria combinando la primera señal de audio modificada y la segunda señal de audio modificada y la pluralidad de terceras señales de audio modificadas, para obtener la señal de salida de audio.
[0036] En otra forma de realización, el módulo de cómputo de información puede comprender una unidad de ponderación espectral para generar una señal de audio ponderada mediante la modificación de la primera señal de audio modificada dependiendo de la dirección de llegada de la onda sonora en la posición virtual del micrófono virtual y dependiendo de la orientación virtual del micrófono virtual para obtener la señal de salida de audio, donde la primera señal de audio modificada puede ser modificada en un dominio del tiempo–frecuencia.
[0037] Más aun, el módulo de cómputo de información puede comprender una unidad de ponderación espectral para generar una señal de audio ponderada modificando la señal combinatoria dependiendo de la dirección de llegada o la onda sonora en la posición virtual del micrófono virtual y una orientación virtual del micrófono virtual para obtener la señal de salida de audio, donde la señal combinatoria puede ser modificada en un dominio del tiempo–frecuencia.
[0038] De acuerdo con otra forma de realización, la unidad de ponderación espectral puede estar adaptada para aplicar el factor de ponderación
α + (1–α)cos(φv(k, n)), o el factor de ponderación
0,5 + 0,5 cos(φv(k, n))
a la señal de audio ponderada, donde φv(k, n) indica un vector de dirección de llegada de la onda sonora emitida por la fuente del sonido en la posición virtual del micrófono virtual.
[0039] En una forma de realización, el compensador de la propagación está adaptado además para generar una tercera señal de audio modificada modificando una tercera señal de audio de entrada grabada registrada por un micrófono omnidireccional mediante la compensación de un tercer retardo o degradación de la amplitud entre una llegada de la onda sonora emitida por la fuente del sonido en el micrófono omnidireccional y la llegada de la onda sonora en el lugar del micrófono virtual mediante el ajuste de un valor de amplitud, un valor de magnitud o un valor de fase de la tercera señal de audio de entrada grabada, para obtener la señal de salida de audio.
[0040] En otra forma de realización, el estimador de posición de eventos sonoros puede estar adaptado para estimar la posición de una fuente sonora en un ambiente tridimensional.
[0041] Más aun, de acuerdo con otra forma de realización, el módulo de cómputo de información puede comprender asimismo una unidad de cómputo de la difusividad que está adaptada para estimar una intensidad sonora difusa en el lugar del micrófono virtual o una intensidad sonora directa en el lugar del micrófono virtual.
[0042] La unidad de cómputo de la difusividad puede estar adaptada, de acuerdo con una forma de realización
adicional, para estimar la intensidad sonora difusa E(VM) en el lugar del micrófono virtual by applying the formula:
dif
imagen1
E11801647
10-12-2014
en la cual N es el número de una pluralidad de micrófonos espaciales reales que comprende el primero y segundo
(SM i)
micrófonos espaciales reales, y donde E es la intensidad sonora difusa en el i–ésimo micrófono espacial real.
dif
[0043] En otra forma de realización, la unidad de cómputo de la difusividad puede estar adaptada para estimar la intensidad sonora directa aplicando la fórmula:
imagen2
10 en la cual “distancia SMi – IPLS” es la distancia entre una posicón del i–ésimo micrófono real y la posición de la fuente sonora, donde “distancia VM – IPLS” es la distancia entre la posición virtual y la posición de la fuente sonora,
(SM i)
y donde es la intensidad directa en el i–ésimo micrófono espacial real.
Edir
[0044] Más aun, de acuerdo con otra forma de realización, la unidad de cómputo de la difusividad puede estar
15 adaptada además para estimar la difusividad en el lugar del micrófono virtual mediante el cálculo de la intensidad sonora difusa en el lugar del micrófono virtual y la intensidad sonora directa en el lugar del micrófono virtual y aplicando la fórmula:
imagen3
20 en la cual ψ(VM) indica la difusividad en el lugar del micrófono virtual que se está estimando, donde E(VM) indica la
dif (VM)
intensidad sonora difusa que se estima y donde indica la intensidad sonora directa que se está estimando.
Edir
[0045] A continuación se describen las realizaciones preferidas de la presente invención, en las cuales: 25 La Fig. 1ilustra un aparato para generar una señal de salida de audio de acuerdo con una forma de realización, La Fig. 2 ilustra las entradas y salidas de un aparato y un procedimiento para generar una señal de salida de audio de acuerdo con una forma de realización,
30 La Fig. 3 ilustra la estructura básica de un aparato de acuerdo con una forma de realización que comprende un estimador de posición de eventos sonoros y un módulo de cómputo de información, La Fig. 4 expone un ejemplo de escanerio en el que inos micrófonos espaciales reales se representan como tiras
lineales uniformes de 3 micrófonos cada una,
35
La Fig. 5 ilustra dos micrófonos espaciales en 3D para estimar la dirección de llegada en el espacio 3D,
La Fig. 6 ilustra una geometría en la que una Fuente de sonido de tipo puntual isotrópica del contenedor de tiempo– frecuencia (k, n) actual está localizado en una posición pIPLS(k, n),
40
La Fig. 7 ilustra el módulo de cómputo de información de acuerdo con una forma de realización, La Fig. 8 ilustra el módulo de cómputo de información de acuerdo con otra forma de realización,
45 La Fig. 9 expone dos micrófonos espaciales reales, un evento sonoro localizado y una posición de un micrófono espacial virtual, junto con los correspondientes retardos y degradaciones de la amplitud, La Fig. 10ilustra, cómo obtener la dirección de llegada con respecto a un micrófono virtual de acuerdo con una forma
de realización,
50
La Fig. 11 ilustra una manera posible de derivar la DOA del sonido desde el punto de vista del micrófono virtual de acuerdo con una forma de realización,
La Fig. 12 ilustra un bloque de cálculo de información que comprende además una unidad de cómputo de la 55 difusividad de acuerdo con una forma de realización,
La Fig. 13 ilustra una unidad de cómputo de la difusividad de acuerdo con una forma de realización,
15
25
35
45
55
65
E11801647
10-12-2014
La Fig. 14 ilustra una situación en que no es posible la estimación de la posición de los eventos sonoros y
Las Figs. 15a–15c ilustran situaciones en que dos matrices de micrófonos reciben sonido directo, sonido reflejado por una pared y sonido difuso.
[0046] La Fig. 1 ilustra un aparato para generar una señal de salida de audio para simular una grabación de un micrófono virtual en una posición virtual configurable posVmic en un ambiente. El aparato comprende un estimador de posición de eventos sonoros 110 y un módulo de cómputo de información 120. El estimador de posición de eventos sonoros 110 recibe una primera información de la dirección di1 de un primer micrófono espacial real y una segunda información de la dirección di2 desde un segundo micrófono espacial real. El estimador de posición de eventos sonoros 110 está adaptado para estimar la posición de una fuente sonora ssp que indica una posición de una fuente de sonido en el ambiente, donde la fuente del sonido emite una onda sonora, donde el estimador de posición de eventos sonoros 110 está adaptado para estimar la posición de la fuente sonora ssp sobre la base de una primera información de dirección di1 provista por un primer micrófono espacial real que está situado en una primera posición del micrófono real pos1mic en el ambiente, y sobre la base de una segunda información de dirección di2 provista por un segundo micrófono espacial real que está situado en una segunda posición de micrófono real en el ambiente. El módulo de cómputo de información 120 está adaptado para generar la señal de salida de audio sobre la base de una primera señal de entrada de audio grabada is1 que es registrada por el primer micrófono espacial real, sobre la base de la primera posición del micrófono real pos1mic y sobre la base de la posición virtual posVmic del micrófono virtual. El módulo de cómputo de información 120 comprende un compensador de la propagación que está adaptado para generar una primera señal de audio modificada mediante la modificación de la primera señal de entrada de audio grabada is1 compensando un primer retardo o degradación de la amplitud entre una llegada de la onda sonora emitida por la fuente del sonido en el lugar del primer micrófono espacial real y la llegada de la onda sonora en el lugar del micrófono virtual mediante el ajuste de un valor de amplitud, un valor de magnitud o un valor de fase de la primera señal de entrada de audio grabada is1, para obtener la señal de salida de audio.
[0047] La Fig. 2 ilustra las entradas y salidas de un aparato y un procedimiento de acuerdo con una forma de realización. Se alimenta información de dos o más micrófonos espaciales reales 111, 112, …, 11N al aparato/es procesada por el procedimiento. Esta información comprende las señales de audio captadas por los micrófonos espaciales reales, como así también información de la dirección de los micrófonos espaciales reales, por ej. estimativos de la dirección de llegada (DOA). Las señales de audio y la información de dirección, como por ejemplo los estimativos de dirección de llegada, pueden ser expresadas en un dominio del tiempo–frecuencia. Si, por ejemplo, es conveniente una recostrucción geométrica 2D y se opta por un dominio de STFT tradicional (transformación de fourier de corto tiempo) para la representación de las sañes, la DOA se puede expresar en términos de ángulos azimutales dependientes de k y n, es decir los índices de frecuencia y tiempo.
[0048] En las realizaciones, la localización del evento sonoro en el espacio, como así también la descripción de la posición del micrófono virtual se puede llevar a cabo basándose en las posiciones y orientaciones de los micrófonos espaciales reales y virtuales en un sistema de coordenadas común. Esta información puede estar representada por las entradas 121 ... 12N y la entrada 104 de la Fig. 2. La entrada 104 puede especificar además la característica del micrófono espacial virtual, por ej., su posición y patrón de captación, como se describe más adelante. Si el micrófono espacial virtual comprende múltiples sensores virtuales, se pueden considerar sus posiciones y los correspondientes patrones de captación diferentes.
[0049] La salida del aparato o un procedimiento correspondiente puede consistir, en caso de ser conveniente, una o más señales sonoras 105, que pueden haber sido captadas por un micrófono espacial definido y colocado de acuerdo con lo especificado en 104. Más aun, el aparato (o, más precisamente el procedimiento) puede producir como salida la información complementaria espacial correspondiente 106 que puede ser estimada empleando el micrófono espacial virtual.
[0050] La Fig. 3 ilustra un aparato de acuerdo con una forma de realización, que comprende dos unidades principales de procesamiento, un estimador de posición de eventos sonoros 201 y un módulo de cómputo de información 202. El estimador de posición de eventos sonoros 201 puede llevar a cabo la reconstrucción geométrica sobre la base de las DOAs comprendidas en las entradas 111 ... 11N y basándose en el conocimiento de la posición y orientación de los micrófonos espaciales reales, donde se han computado las DOAs. La salida del estimador de posición de eventos sonoros 205 comprende los estimativos de posición (ya sea en 2D o 3D) de las fuentes de sonido en que tienen lugar los eventos sonoros por cada caja de tiempo y frecuencia. El segundo bloque de procesamiento 202 es un módulo de cómputo de información. De acuerdo con la forma de realización de la Fig. 3, el segundo bloque de procesamiento 202 computa una señal de micrófono virtual y la información complementaria espacial. Por lo tanto, también se lo denomina bloque de cómputo de señal de micrófono virtual e información complementaria 202. El bloque de cómputo de señal de micrófono virtual e información complementaria 202 utiliza las posiciones de los eventos sonoros 205 para procesar las señales de audio comprendidas en 111…11N para dar salida a la señal de audio del micrófono virtual 105. El bloque 202, en caso de ser necesario, puede computar asimismo la información complementaria espacial 106 correspondiente al micrófono espacial virtual. Las siguientes realizaciones ilustran posibilidades de cómo pueden funcionar los bloques 201 y 202.
15
25
35
45
55
65
E11801647
10-12-2014
[0051] A continuación se describe en forma más detallada la estimación de posiciones por un estimador de posición de eventos sonoros de acuerdo con una forma de realización.
[0052] Dependiendo de la dimensionalidad del problema (2D o 3D) y del número de micrófonos espaciales, hay varias soluciones posibles para la estimación de posición.
[0053] En caso de existir dos micrófonos espaciales en 2D, (el caso más sencillo posible) es posbible una triangulación simple. La Fig. 4 expone una situación ilustrativa en la cual se muestran los micrófonos espaciales reales en forma de Matrices Uniformes Lineales (ULAs) de 3 micrófonos cada una. Se computa la DOA, que se expresa en términos de ángulos azimulates al(k, n) y a2(k, n), correspondiente a la caja de tiempo–frecuencia (k, n). Esto se obtiene empleando un estimador de DOA apropiado tal como ESPRIT,
[13] R. Roy, A. Paulraj, and T. Kailath, "Direction–of–arrival estimation by subspace rotation methods – ESPRIT," en IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, abril de 1986, o (raíz) MÚSICA, ver
[14] R. Schmidt, “Multiple emitter location and signal parameter estimation,” IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pág. 276–280, 1986 a las señales de presión transformadas al dominio del tiempo–frecuencia.
[0054] En la Fig. 4, se ilustran dos micrófonos espaciales reales, en este caso dos matrices de micrófonos espaciales reales 410, 420. Las dos DOAs estimadas al(k, n) y a2(k, n) están representadas por dos líneas, una primera línea 430 que representa la DOA al(k, n) y una segunda línea 440 que representa la DOA a2(k, n). La triangulación es posible mediante sencillas consideraciones geométricas conociendo la posición y orientación de cada matriz.
[0055] La triangulación falla cuando las dos líneas 430, 440 son exactamente paralelas. Sin embargo, en aplicaciones reales, esto es muy poco probable. No obstante, no todos los resultados de la triangulación corresponden a una posición física o factible para el evento sonoro en el espacio en cuestión. Por ejemplo, la posición estimada del evento sonoro podría estar demasiado lejos o incluso fuera del espacio presunto, indicado que probablemente las DOAs no corresponden a ningún evento sonoro que pueda ser físicamente interpretado con el modelo utilizado. Esos resultados pueden ser causados por ruido de los sensores o por una reverberación demasiado fuerte del recinto. Por lo tanto, de acuerdo con una forma de realización, esos resultados no deseados son identificados con banderas de tal manera que el módulo de cómputo de información 202 los pueda tratar correctamente.
[0056] La Fig. 5 ilustra una situación en la cual se estima la posición de un evento sonoro en el espacio 3D. Se emplean micrófonos espaciales apropiados, por ejemplo, una matriz de micrófonos planos o 3D. En la Fig. 5, se ilustra un primer micrófono espacial 510, por ejemplo, una primera matriz de micrófonos 3D y un segundo micrófono espacial 520, por ej. , una primera matriz de micrófonos 3D. La DOA del espacio 3D se puede expresar, por ejemplo, en términos de azimut y elevación. Se pueden emplear vectores unitarios 530, 540 para expresar las DOAs. Se proyectan dos líneas 550, 560 de acuerdo con las DOAs. En 3D, incluso con cálculos estimativos muy confiables, las dos líneas 550, 560 proyectadas de acuerdo con las DOAs podrían no intersectarse. Sin embargo, de todas maneras se puede llevar a cabo la triangulación, por ejemplo, eligiendo el punto medio del segmento más pequeño que conecta las dos líneas.
[0057] De manera similar al caso 2D, la triangulación puede fallar o puede producir resultados no factibles en el caso de ciertas combinaciones de direcciones, que también pueden ser indicadas con banderas, por ej. con el módulo de cómputo de información 202 de la Fig. 3.
[0058] Si existen más de dos micrófonos espaciales, hay varias soluciones posibles. Por ejemplo, se podría llevar a cabo la triangulación antes explicada sobre todos los pares de micrófonos espaciales reales (si N = 3, 1 con 2, 1 con 3, y 2 con 3). A continuación se pueden promediar las posiciones así obtenidas (a lo largo de x e y y, en caso de considerarse 3D, z).
[0059] Por otro lado, se pueden utilizar conceptos más complejos. Por ejemplo, se pueden aplicar los enfoques probabilísticos descriptos en
[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Ago., 1982), pág. 548–553.
[0060] De acuerdo con una forma de realización, el campo sonoro puede ser analizado en el dominio del tiempo– frecuencia, por ejemplo, obtenido mediante una transformada de Fourier de corto tiempo (STFT), en la cual k y n denotan el índice de frecuencia k y el índice de tiempo n, respectivamente. La presión compleja Pv(k, n) en una posición arbitraria pv correspondiente a un k y n determinados se modela en forma de onda esférica única emitida por una fuente puntual isotrópica de banda angosta, por ej. empleando la fórmula:
imagen4
15
25
35
45
55
65
E11801647
10-12-2014
en la cual PIPLS(k, n) es la señal emitida por la IPLS en su posición pIPLS(k, n). El factor complejo γ(k, pIPLS, pv) expresa la propagación de pIPLS(k, n) a pv, por ej., introduce modificaciones apropiadas de fase y magnitud. En este caso, se puede aplicar la presunción de que, en cada caja de tiempo–frecuencia, sólo una IPLS está activa. Pese a esto, también pueden estar activas múltiples IPLSs de banda angosta en diferentes posiciones en un solo instante de tiempo.
[0061] Cada IPLS modela el sonido directo, o bien una reflexión diferenciada del recinto. Su posición pIPLS(k, n) puede corresponder idealmente a una fuente de sonido real situada dentro del recinto o a una fuente de sonido de imagen espejada situada en el exterior, respectivamente. Por lo tanto, la posición pIPLS(k, n) puede indicar asimismo la posición de un evento sonoro.
[0062] Sírvase notar que el término “fuentes sonoras reales” denota las fuentes de sonido real físicamente existentes en el ambiente de grabación, tales como voces humanas o instrumentos musicales. Por el contrario, con la expresión “fuentes de sonido” o “eventos sonoros” o “IPLS” nos referimos a fuentes sonoras efectivas, que son activas en determinados instantes de tiempo o en ciertas cajas de tiempo–frecuencia, donde las fuentes del sonidos pueden representar, por ejemplo, fuentes sonoras reales o fuentes de imágenes espejadas.
[0063] Las Fig. 15a–15b ilustran matrices de micrófonos que localizan fuentes sonoras. Las fuentes sonoras localizadas pueden tener diferentes interpretaciones físicas según su naturaleza. Cuando las matrices de micrófonos reciben sonido directo, pueden ser aptas para localizar la posición de una verdadera fuente de sonido (por ej. voces humanas). Cuando las matrices de micrófonos reciben reflexiones, pueden localizar la posición de una fuente de imágenes espejadas. Las fuentes de imágenes espejadas también son fuentes sonoras.
[0064] La Fig. 15a ilustra una situación en que dos matrices de micrófonos 151 y 152 reciben sonido directo de una fuente sonora real (una fuente sonora de existencia física) 153.
[0065] La Fig. 15b ilustra una situación en la cual dos matrices de micrófonos 161, 162 reciben sonido reflejado, donde el sonido ha sido reflejado por una pared. Debido a la reflexión, las matrices de micrófonos 161, 162 localizan la posición de la cual parece que el sonido proviene, en una posición de una fuente de imágenes espejadas 165, que es diferente de la posición de la persona que habla 163.
[0066] Tanto la fuente sonora real 153 de la Fig. 15a, como la fuente de imágenes espejadas 165 son fuentes sonoras.
[0067] La Fig. 15c ilustra una situación en la cual dos matrices de micrófonos 171, 172 reciben sonido difuso y no pueden localizar una fuente de sonido.
[0068] Si bien este modelo de onda única es preciso sólo en ambientes con poca reverberación, dado que las señales de la fuente cumplen la condición de ortogonalidad W disjunta (WDO), es decir que el traslape de tiempo– frecuencia es suficientemente pequeño. Esto es así normalmente en el caso de las señales de voz; véase, por ejemplo,
[12] S. Rickard and Z. Yilmaz, "On the approximate W–disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, abril de 2002, vol. 1.
[0069] Sin embargo, el modelo también ofrece un cálculo estimativo satisfactorio con respecto a otros ambientes y, por lo tanto, también es aplicable a esos ambientes.
[0070] A continuación se explica la estimación de las posiciones pIPLS(k, n) de acuerdo con una forma de realización. La posición pIPLS(k, n) de una IPLS activa de una cierta caja de tiempo–frecuencia, y por consiguiente la estimación de un evento sonoro en una caja de tiempo–frecuencia, se realiza por medio de la triangulación sobre la base de la dirección de llegada (DOA) del sonido medida en por lo menos dos puntos de observación diferentes.
[0071] La Fig. 6 ilustra una geometría en la cual la IPLS de la ranura de tiempo–frecuencia (k, n) actual está situada en una posición desconocida pIPLS(k, n). Para determinar la información de DOA requerida, se emplean dos micrófonos espaciales reales, en este caso dos matrices de micrófonos, con una geometría, posición y orientación conocidas, que se colocan en las posiciones 610 y 620, respectivamente. Los vectores p1 y p2 apuntan a las posiciones 610, 620, respectivamente. Las orientaciones de la matriz están definidas por los vectores unitarios c1 y c2. La DOA del sonido se determina en las posiciones 610 y 620 correspondientes a cada (k, n) empleando un algoritmo de cálculo de DOA, por ejemplo el provisto por el análisis de DirAC (ver [2], [3]). Al hacerlo de esta manera,
POV
se puede producir un vector unitario de un primer punto de vista e(k, n) y un vector unitario del segundo punto
1 POV
de vista e(k, n) con respecto a un punto de vista de las matrices de micrófonos (ninguna de las cuales está
2 ilustrada en la Fig. 6) como salida del análisis de DirAC. Por ejemplo, cuando se opera en 2D, el primer vector unitario de punto de vista da como resultado:
E11801647
10-12-2014
imagen5
(2)
[0072] En este caso, φ1(k, n) representa el azimut de la DOA estimada en la primera matriz de micrófonos ilustrada en la Fig. 6. Los correspondientes vectores unitarios de DOA e1(k, n) y e2(k, n), con respecto al sistema global de coordenadas en el origen, pueden ser computados aplicando las fórmulas:
imagen6
(3)
donde R son matrices de transformación de coordenadas, por ej.,
imagen7
(4)
al operar en 2D y imagen8. Para llevar a cabo la triangulación, los vectores de dirección d1(k, n) y 20 d2(k, n) pueden ser calculados de la siguiente manera:
imagen9
(5)
donde d1(k, n) = ||d1(k, n)|| y d2(k, n) = ||d2(k, n)|| son las distancias desconocidas entre las IPLS y las dos matrices de micrófonos. La siguiente ecuación
imagen10
(6)
puede ser resuelta con respecto a d1(k, n). Por último, la posición pIPLS(k, n) de la IPLS está dada por
35
imagen11
(7)
[0073] En otra forma de realización, se puede resolver la ecuación (6) correspondiente a d2(k, n) y pIPLS(k, n) se 40 computa de manera análoga empleando d2(k, n).
[0074] La ecuación (6) siempre ofrece una solución cuando se opera en 2D, a menos que e1(k, n) y e2(k, n) son paralelos. Sin embargo, cuando se utilizan más de dos matrices de micrófonos o cuando se opera en 3D, no se puede obtener una solución cuando los vectores de dirección d no se intersectan. De acuerdo con una forma de
45 realización, en este caso, se debe computar el punto más cercano a todos los vectores de dirección d y se puede utilizar el resultado como posición de la IPLS.
[0075] En una forma de realización, todos los puntos de observación p1, p2, … deben estar situados de tal manera que el sonido emitido por la IPLS caiga dentro del mismo bloque temporal n. Este requisito se puede cumplir 50 simplemente cuando la distancia ∆ entre dos cualesquiera de los puntos de observación es menor que
imagen12
5
10
15
20
25
30
35
40
45
50
55
60
65
E11801647
10-12-2014
(8)
donde nFFT es la longitud de ventana de STFT, 0 ≤ R < 1 especifica el traslape entre los sucesivos cuadros de tiempo y fs es la frecuencia de muestreo. Por ejemplo, en el caso de una STFT de 1024 puntos a 48 kHz con 50 % de traslapo (R = 0,5), el espaciamiento máximo entre las matrices para cumplir el requisito mencionado es ∆ = 3,65 m.
[0076] A continuación se describe en forma más detallada un módulo de cómputo de información 202, por ej. un módulo de cómputo de la señal de micrófono virtual e información complementaria de acuerdo con una forma de realización.
[0077] La Fig. 7 ilustra una reseña esquemática de un módulo de cómputo de información 202 de acuerdo con una forma de realización. La unidad de cómputo de información comprende un compensador de la propagación 500, un combinador 510 y una unidad de ponderación espectral 520. El módulo de cómputo de información 202 recibe los estimativos de posición de la fuente sonora ssp estimados por un estimador de posición de eventos sonoros, una o más señales de entrada de audio es registrada por uno o más de los micrófonos espaciales reales, las posiciones posRealMic de uno o más de los micrófonos espaciales reales y la posición virtual posVmic del micrófono virtual. Produce como salida una señal de salida de audio os que representa una señal de audio del micrófono virtual.
[0078] La Fig. 8 ilustra un módulo de cómputo de información de acuerdo con otra forma de realización. El módulo de cómputo de información de la Fig. 8 comprende un compensador de la propagación 500, un combinador 510 y una unidad de ponderación espectral 520. El compensador de la propagación 500 comprende un módulo de cómputo de parámetros de propagación 501 y un módulo de compensación de la propagación 504. El combinador 510 comprende un módulo de cómputo de factores de combinación 502 y un módulo de combinación 505. La unidad de ponderación espectral 520 comprende una unidad una unidad de cómputo de ponderaciones espectrales 503, un módulo de aplicación de ponderación espectral 506 y un módulo de cómputo de información complementaria espacial 507.
[0079] Para computar la señal de audio del micrófono virtual, se alimenta la información geométrica, por ej. la posición y orientación de los micrófonos espaciales reales 121 ... 12N, la posición, orientación y características del micrófono espacial virtual 104, y los estimativos de posición de los eventos sonoros 205 al módulo de cómputo de información 202, en particular, al módulo de cómputo de parámetros de propagación 501 del compensador de la propagación 500, al módulo de cómputo de factores de combinación 502 del combinador 510 y a la unidad de cómputo de ponderaciones espectrales 503 de la unidad de ponderación espectral 520. El módulo de cómputo de parámetros de propagación 501, el módulo de cómputo de factores de combinación 502 y la unidad de cómputo de ponderaciones espectrales 503 computan los parámetros empleados en la modificación de las señales de audio 111 ... 11N en el módulo de compensación de la propagación 504, el módulo de combinación 505 y el módulo de aplicación de ponderación espectral 506.
[0080] En el módulo de cómputo de información 202, las señales de audio 111 ... 11N pueden ser modificadas en un principio para compensar los efectos producidos por las longitudes de propagación diferentes entre las posiciones de los eventos sonoros y los micrófonos espaciales reales. A continuación se pueden combinar las señales para mejorar, por ejemplo, la relación señal a ruido (SNR). Por último, se puede realizar la ponderación espectral de la señal obtenida para tomar en cuenta el patrón de captación direccional del micrófono virtual, como así también cualquier función de ganancia dependiente de la distancia. Más adelante se describen en forma más detallada estos tres pasos.
[0081] Se explica ahora la compensación de la propagación en forma más detallada. En la porción superior de la Fig. 9, se ilustran dos micrófonos espaciales reales (una primera matriz de micrófonos 910 y una segunda matriz de micrófonos 920), la posición de un evento sonoro localizado 930 correspondiente a la caja de tiempo–frecuencia (k, n) y la posición of the micrófono espacial virtual 940.
[0082] La porción inferior de la Fig. 9 ilustra un eje temporal. Se presume que un evento sonoro es emitido en el momento t0 y luego se propaga a los micrófonos espaciales reales y virtuales. Los retardos de tiempo de llegada, como así también las amplitudes, cambian con la distancia, por lo que cuanto mayor sea la longitud de propagación, más débil es la amplitud y más prolongado el retardo de tiempo de llegada.
[0083] Las señales presentes en las dos matrices reales son comparables sólo si el retardo relativo Dt12 entre ellos es pequeño. De lo contrario, una de las dos señales debe ser realineada temporalmente para compensar el retardo relativo Dt12, y posiblemente para ser escalada a fin de compensar las degradaciones diferentes.
[0084] La compensación del retardo entre la llegada al lugar del micrófono virtual y la llegada a las matrices de micrófonos reales (en uno de los micrófonos espaciales reales) cambia el retardo independientemente de la localización del evento sonoro, lo que hace que sea superflua en la mayoría de las aplicaciones.
E11801647
10-12-2014
[0085] Volviendo a la Fig. 8, el módulo de cómputo de parámetros de propagación 501 está adaptado para computar los retardos que se han de corregir por cada micrófono espacial real y por cada evento sonoro. Si resulta ventajoso, también computa los factores de ganancia a considerar para compensar las diferentes degradaciones de la amplitud.
[0086] El módulo de compensación de la propagación 504 está configurado para usar esta información para modificar las señales de audio de modo correspondiente. Si las señales se deben desplazar en una pequeña cantidad de tiempo (en comparación con la ventana temporal del banco de filtros), luego basta con una simple rotación de fases. Si los retardos son más grandes, son necesarias implementaciones más complicadas.
[0087] La salida del módulo de compensación de la propagación 504 está constituida por las señales de audio modificadas expresadas en el dominio del tiempo–frecuencia original.
[0088] A continuación se describe una estimación específica de la compensación de la propagación correspondiente a un micrófono virtual de acuerdo con una forma de realización, con referencia a la Fig. 6 que ilustra, entre otras cosas, la posición 610 de un primer micrófono espacial real y la posición 620 de un segundo micrófono espacial real.
[0089] En la forma de realización que se pasa a explicar ahora, se presume que se dispone de por lo menos una primera señal de entrada de audio grabada, por ej. una señal de presión de por lo menos uno de los micrófonos espaciales reales (por ej. las matrices de micrófonos), por ejemplo, la señal de presión de un primer micrófono espacial real. Nos referimos al micrófono considerado como micrófono de referencia, a su posición como posición de referencia pref y a su señal de presión como señal de presión de referencia Pref(k, n). Sin embargo, la compensación de la propagación puede no sólo llevarse a cabo con respecto a una sola señal de presión, sino también con respecto a las señales de presión de una pluralidad o todos los micrófonos espaciales reales.
[0090] La relación entre la señal de presión PIPLS(k, n) emitida por la IPLS y una señal de presión de referencia Pref(k, n) de un micrófono de referencia situado en pref puede estar expresada por la fórmula (9):
imagen13
[0091] En general, el factor complejo γ(k, pa, pb) expresa la rotación de fases y la degradación de la amplitud introducida por la propagación de una onda esférica desde su origen en pa a pb. Sin embargo, las pruebas prácticas indicaron que considerando sólo la degradación de la amplitud en γ se llega a impresiones plausibles de la señal del micrófono virtual con significativamente menos distorsiones en comparación con la consideración asimismo de la rotación de fases.
[0092] La intensidad sonora que se puede medir además en un cierto punto del espacio depende fuertemente de la distancia r de la fuente del sonido, en la Fig 6 desde la posición pIPLS de la fuente del sonido. En muchas situaciones, esta dependencia puede ser modelada con suficiente precisión utilizando principios físicos muy conocidos, por ejemplo, la degradación 1/r de la presión sonora en el campo lejano de una fuente puntual. Cuando se conoce la distancia de un micrófono de referencia, por ejemplo, el primer micrófono real, de la fuente del sonido, y cuando también se conoce la distancia del micrófono virtual de la fuente del sonido, luego se puede estimar la intensidad sonora en la posición del micrófono virtual de la señal y la intensidad del micrófono de referencia, por ej. el primer micrófono espacial real. Esto significa que se puede obtener la señal de salida del micrófono virtual aplicando las ganancias adecuadas a la señal de presión de referencia.
[0093] Suponiendo que el primer micrófono espacial real es el micrófono de referencia, luego pref = p1. En la Fig. 6, el micrófono virtual está situado en pv. Dado que en la Fig. 6 se conoce en detalle la geometría, se puede determinar fácilmente la distancia d1(k, n) = ||d1(k, n)|| entre el micrófono de referencia (en la Fig. 6: el primer micrófono espacial real) y la IPLS, como así también la distancia s(k, n) = ||s(k, n)|| entre el micrófono virtual y la IPLS, es decir
imagen14
(10)
[0094] La presión del sonido Pv(k, n) en la posición del micrófono virtual se computa combinando las fórmulas (1) y (9), par dar
imagen15
(11)
E11801647
10-12-2014
[0095] Como se mencionara anteriormente, en algunas de las realizaciones, los factores γ pueden considerar sólo la degradación de la amplitud debido a la propagación. Suponiendo, por ejemplo, que la presión sonora se reduce con 1/r, luego
imagen16
(12)
[0096] Cuando prima el modelo de la fórmula (1), por ej., cuando sólo está presente el sonido directo, luego la
10 fórmula (12) puede reconstruir con precisión la información de magnitud. Sin embargo, en el caso de los campos sonoros difusos, por ej., en que no se cumplen las presunciones del modelo, el procedimiento presentado da una desreverberación implícita de la señal al alejar el micrófono virtual de las la posiciones de las matrices de sensores. De hecho, como se explicara anteriormente, en los campos sonoros difusos, esperamos que la mayoría de las IPLS estén situadas cerca de las dos matrices de sensores. De esa manera, al alejar el micrófono virtual de estas
15 posiciones, es probable que se incremente la distancia s = ||s|| de la Fig. 6. Por lo tanto, se reduce la magnitud de la presión de referencia al aplicar una ponderación de acuerdo con la fórmula (11). De manera correspondiente, al acercar el micrófono virtual a una fuente sonora real, las cajas de tiempo–frecuencia que corresponden al sonido directo se amplifican de tal manera que la señal de audio general se percibe en forma menos difusa. Ajustando la regla de la fórmula (12), se puede controlar la amplificación del sonido directo y la supresión del sonido difuso a
20 voluntad.
[0097] Efectuando la compensación de la propagación sobre la señal de audio de entrada grabada (por ej. la señal de presión) del primer micrófono espacial real, se obtiene una primera señal de audio modificada.
25 [0098] En ciertas realizaciones, se puede obtener una segunda señal de audio modificada llevando a cabo la compensación de la propagación en una segunda señal de entrada de audio grabada (segunda señal de presión) del segundo micrófono espacial real.
[0099] En otras realizaciones, se pueden obtener otras señales de audio llevando a cabo la compensación de la
30 propagación en otras señales de entrada de audio grabadas (otras señales de presión) de otros micrófonos espaciales reales.
[0100] Se explica ahora, en forma más detallada, la combinación efectuada en los bloques 502 y 505 de la Fig. 8 de acuerdo con una forma de realización. Se presume que dos o más señales de audio de una pluralidad de micrófonos
35 espaciales reales diferentes han sido modificadas para compensar los diferentes trayectos de propagación a fin de obtener dos o más señales de audio modificadas. Una vez que las señales de audio procedentes de los diferentes micrófonos espaciales reales han sido modificadas para compensar los diferentes trayectos de propagación, se las puede combinar para mejorar la calidad del audio. Al así hacerlo, por ejemplo, se puede incrementar la SNR o se puede reducir la reverberación.
40
[0101] Las soluciones posibles para la combinación comprenden:
-Promedio ponderado, por ej., considerando la SNR, o la distancia hasta el micrófono virtual, o la difusividad estimada por los micrófonos espaciales reales. Se pueden emplear soluciones tradicionales, por ejemplo la
45 Combinación de Relación Máxima (MRC) o la Combinación de Ganancias Iguales ( o
-La combinación lineal de algunas o todas las señales de audio modificadas para obtener una señal combinatoria Las señales de audio modificas pueden ser ponderadas en la combinación lineal para obtener la señal combinatoria o
50 -La selección, por ej., el uso de una sola señal, por ejemplo dependiendo de la SNR o la distancia o difusividad, por ejemplo, dependiente de la SNR o la distancia o la difusividad.
[0102] La tarea del módulo 502 consiste, en caso de ser aplicable, en computar los parámetros para la combinación, 55 que se lleva a cabo en el módulo 505.
[0103] Se describe ahora la ponderación espectral de acuerdo con las realizaciones en forma más detallada. Para ello, se hace referencia a los bloques 503 y 506 de la Fig. 8. En este paso final, se pondera la señal de audio que resulta de la combinación o de la compensación de la propagación de las señales de audio de entrada en el dominio
60 del tiempo–frecuencia de acuerdo con las características espaciales del micrófono espacial virtual según lo especificado por la entrada 104 y/o de acuerdo con la geometría reconstruida (dada en 205).
[0104] Por cada caja de tiempo–frecuencia la reconstrucción geométrica nos permite obtener fácilmente la DOA con respecto al micrófono virtual, como se ilustra en la Fig. 10. Más aun, la distancia entre el micrófono virtual y la
65 posición del evento sonoro también puede ser fácilmente calculada.
E11801647
10-12-2014
[0105] A continuación se computa la ponderación correspondiente a la caja de tiempo–frecuencia considerando el tipo de micrófono virtual deseado.
[0106] En el caso de los micrófonos direccionales, las ponderaciones espectrales pueden ser computadas de acuerdo con un patrón de captación predefinido. Por ejemplo, de acuerdo con una forma de realización, un micrófono cardioide puede tener un patrón de captación definido por la función g(theta),
g(theta) = 0,5 + 0,5 cos(theta),
donde theta es el ángulo entre la dirección de mirada del micrófono espacial virtual y la DOA del sonido desde el punto de vista del micrófono virtual.
[0107] Otra posibilidad es la de funciones de degradación artística (no física). En ciertas aplicaciones, puede ser ventajoso suprimir los eventos sonoros alejados del micrófono virtual en un factor superior al que caracteriza la propagación libre en el campo. Por esta razón, algunas realizaciones introducen una función de ponderación adicional que depende de la distancia entre el micrófono virtual y el evento sonoro. En una forma de realización, sólo se deben captar los eventos sonoros dentro de una determinada distancia (por ej. en metros) del micrófono virtual.
[0108] Con respecto a la directividad del micrófono virtual, se pueden aplicar patrones de directividad arbitrarios al micrófono virtual. Al hacerlo, se puede separar, por ejemplo, una fuente de una escena de sonido compleja.
[0109] Dado que se puede computar la DOA del sonido en la posición pv del micrófono virtual, es decir
imagen17
(13)
donde cv es un vector unitario que describe la orientación del micrófono virtual, se pueden obtener directividades arbitrarias para el micrófono virtual. Por ejemplo, suponiendo que Pv(k,n) indica la señal combinatoria o la señal de audio modificada con compensación de la propagación, luego la fórmula:
imagen18
(14)
calcula la salida de un micrófono virtual con directividad cardioide. Los patrones direccionales, que potencialmente pueden generarse de esta manera, dependen de la precisión de la estimación de posición.
[0110] En las realizaciones, se coloca uno o más micrófonos reales no espaciales, por ejemplo, un micrófono omnidireccional o un micrófono direccional tal como un cardioide, en la escena sonora además de los micrófonos espaciales reales para mejorar aun más la calidad del sonido de las señales del micrófono virtual 105 de la Figura 8. Estos micrófonos no se utilizan para colectar información geométrica alguna, sino que sólo para obtener una señal de audio más nítida. Estos micrófonos pueden estar ubicados más cerca de las fuentes del sonido que los micrófonos espaciales. En este caso, de acuerdo con una forma de realización, las señales de audio de los micrófonos reales no espaciales y sus posiciones son alimentadas al módulo de compensación de la propagación 504 de la Fig. 8 para su procesamiento, en lugar de las señales de audio de los micrófonos espaciales reales. A continuación se ejecuta la compensación de la propagación correspondiente a las unas o más señales de audio registradas de los micrófonos no espaciales con respecto a la posición de uno o más micrófonos no espaciales. De esta manera, se obtiene una forma de realización utilizando micrófonos no espaciales adicionales.
[0111] En otra forma de realización, se realiza el cómputo de la información complementaria espacial del micrófono virtual. Para computar la información complementaria espacial 106 del micrófono, el módulo de cómputo de información 202 de la Fig. 8 comprende un módulo de cómputo de información complementaria espacial 507, que está adaptado para recibir, como entrada, las posiciones de las fuentes del sonido 205 y la posición, orientación y características 104 del micrófono virtual. En ciertas realizaciones, de acuerdo con la información complementaria 106 que se debe computar, también se puede tomar en cuenta la señal de audio del micrófono virtual 105 como entrada al módulo de cómputo de información complementaria espacial 507.
[0112] La salida del módulo de cómputo de información complementaria espacial 507 es la información complementaria del micrófono virtual 106. Esta información complementaria puede ser, por ejemplo, la DOA o la difusividad del sonido correspondiente a cada caja de tiempo–frecuencia (k, n) desde el punto de vista del micrófono virtual. Otra información complementaria posible podría ser, por ejemplo, el vector de intensidad sonora Ia(k, n) que
15
25
35
45
55
65
E11801647
10-12-2014
se habría medido en la posición del micrófono virtual. Se pasa a describir ahora cómo se pueden derivar estos parámetros.
[0113] De acuerdo con una forma de realización, se ejecuta la estimación de la DOA correspondiente al micrófono espacial virtual. El módulo de cómputo de información 120 está adaptado para estimar la dirección de llegada en el lugar del micrófono virtual como información complementaria espacial, sobre la base de un vector de posición del micrófono virtual y sobre la base de un vector de posición del evento sonoro, como se ilustra en la Fig. 11.
[0114] La Fig. 11 ilustra una manera posible de derivar la DOA del sonido desde el punto de vista del micrófono virtual. Se puede describir la posición del evento sonoro, provista por el bloque 205 de la Fig. 8, por cada caja de tiempo–frecuencia (k, n) con un vector de posición r(k, n), la posición vector del evento sonoro. De modo similar, la posición del micrófono virtual, provista como entrada 104 en la Fig. 8, puede ser descripta con un vector de posición s(k,n), la posición vector del micrófono virtual. La dirección de mirada del micrófono virtual puede ser descripta por un vector v(k, n). La DOA con respecto al micrófono virtual está dada en a(k,n). Representa el ángulo entre v y h(k,n). Se puede computar el trayecto de propagación del sonido h(k, n) empleando la fórmula:
h(k, n)= s(k,n) – r(k, n).
[0115] Ahora se puede computar la DOA deseada a(k, n) por cada (k, n), por ejemplo por medio de la definición del producto puntual de h(k, n)y v(k,n), es decir
a(k, n) = arcos (h(k, n) • v(k,n)/ ( ||h(k, n)|| ||v(k,n)|| ).
[0116] En otra forma de realización, el módulo de cómputo de información 120 puede estar adaptado para estimar la intensidad del sonido activo en el lugar del micrófono virtual como información complementaria espacial, sobre la base de un vector de posición del micrófono virtual y sobre la base de un vector de posición del evento sonoro como se ilustra en la Fig. 11.
[0117] De la DOA a(k, n) antes definida podemos derivar la intensidad del sonido activo Ia(k, n) en la posición del micrófono virtual. Para ello, se presume que la señal de audio del micrófono virtual 105 de la Fig. 8 corresponda a la salida de un micrófono omnidireccional, por ej., suponemos que el micrófono virtual es un micrófono omnidireccional. Más aun, se supone que la dirección de mirada v de la Fig. 11 es paralela al eje x del sistema de coordenadas. Dado que el vector de intensidad del sonido activo Ia(k, n) describe el flujo de energía neto a través de la posición del micrófono virtual, podemos computar Ia(k, n), por ej. de acuerdo con la fórmula:
Ia(k, n) = – (1/2 rho) |Pv(k, n)|2 * [ cos a(k, n), sen a(k, n) ]T,
donde []T denota un vector transpuesto, rho es la densidad del aire y Pv (k, n) es la presión sonora medida por el micrófono espacial virtual, por ej., la salida 105 del bloque 506 de la Fig. 8.
[0118] Si se computa el vector de intensidad activa expresado en el sistema general de coordenadas, pero aún en la posición del micrófono virtual, se puede aplicar la siguiente fórmula:
Ia(k, n) = (1/2 rho) |Pv (k, n)|2 h(k, n) /|| h(k, n) ||.
[0119] La difusividad del sonido expresa cuán difuso es el campo sonoro en una ranura de tiempo–frecuencia dada (ver, por ejemplo, [2]). La difusividad está expresada por un valor ψ, donde 0 ≤ψ ≤ 1. Una difusividad de 1 indica que la energía del campo sonoro total es completamente difusa. Esta información es importante, por ej. en la reproducción del sonido espacial. Tradicionalmente, la difusividad se computa en el punto específico del espacio en el cual se coloca una matriz de micrófonos.
[0120] De acuerdo con una forma de realización, la difusividad puede ser computada como parámetro adicional a la información complementaria generada con respecto al micrófono virtual (VM), que puede ser colocado a voluntad en una posición arbitraria de la escena de sonido. Al hacerlo, se puede considerar que un aparato que también calcula la difusividad aparte de la señal de audio en una posición virtual de un micrófono virtual es un DirAC frontal, ya que es posible producir un flujo de DirAC, es decir una señal de audio, dirección de llegada y difusividad, con respecto a un punto arbitrario de la escena sonora. El flujo de DirAC puede ser posteriormente procesado, almacenado, transmitido y reproducido en una configuración arbitraria de múltiples parlantes. En este caso, el oyente experimenta la escena sonora como si él o ella estuviera en la posición especificada por el micrófono virtual y estuviera mirando en la dirección determinada por su orientación.
[0121] La Fig. 12 ilustra un bloque de cómputo de la información de acuerdo con una forma de realización que comprende una unidad de cómputo de la difusividad 801 para computar la difusividad en el lugar del micrófono virtual. El bloque de cómputo de la información 202 está adaptado para recibir entradas 111 a 11N, que además de las entradas de la Fig. 3, incluyen también difusividad en los micrófonos espaciales reales. Digamos que ψ(SM1) a ψ(SMN) denotan estos valores. Estas entradas adicionales son alimentadas al módulo de cómputo de información 202.
E11801647
10-12-2014
La salida 103 de la unidad de cómputo de la difusividad 801 es el parámetro de difusividad computado en la posición del micrófono virtual.
[0122] Una unidad de cómputo de la difusividad 801 de acuerdo con una forma de realización es la ilustrada en la Fig. 13 que expone más detalles. De acuerdo con una forma de realización, se estima la energía del sonido directo y difuso en cada uno de los N micrófonos espaciales. A continuación, utilizando la información sobre las posiciones de la IPLS y la información sobre las posiciones de los micrófonos espaciales y virtuales, se obtienen N cálculos estimativos de estas energías en la posición del micrófono virtual. Por último, se pueden combinar los estimativos para mejorar la precisión de estimación y se puede computar fácilmente el parámetro de difusividad en el lugar del micrófono virtual.
(SM 1) (SM N ) (SM 1) (SM N )
[0123] Digamos que a y E a E denotan los estimativos de las energías del sonido
Edir Edir dif dif
directo y difuso correspondientes a los N micrófonos espaciales computados por la unidad de análisis de energía
810. Si Pi es la señal de presión compleja y ψi es la difusividad correspondiente al i–ésimo micrófono espacial, luego se pueden computar las energías, por ejemplo, de acuerdo con las fórmulas:
imagen19
[0124] La energía del sonido difuso debe ser igual en todas las posiciones; por lo tanto, se puede computar un
(VM) (SM 1)
estimativo de la intensidad sonora difusa en el lugar del micrófono virtual simplemente promediando E
Ediff dif (SM N )
a E , por ej. en una unidad de combinación de difusividades 820, por ejemplo, de acuerdo con la fórmula:
dif (SM 1) (SM N )
imagen20
[0125] Se podría llevar a cabo una combinación más eficaz de los estimativos E a E considerando la
dif dif
varianza de los estimadores, por ejemplo considerando la SNR.
[0126] La energía del sonido directo depende de la distancia hasta la fuente debido a la propagación. Por lo tanto,
(SM 1) (SM N )
a pueden ser modificadas para tomar esto en cuenta. Esto se puede llevar a cabo, por ej.,
Edir Edir
mediante una unidad de ajuste de la propagación del sonido directo 830. Por ejemplo, si se presume que la energía del campo de sonido directo se degrada en 1 sobre la distancia al cuadrado, luego se puede calcular el estimativo correspondiente al sonido directo en el lugar del micrófono virtual correspondiente al i–ésimo micrófono espacial de acuerdo con la fórmula:
imagen21
[0127] De manera similar a la unidad de combinación de difusividades 820, se pueden combinar los estimativos de la intensidad sonora directa obtenida en diferentes micrófonos espaciales, por ej. por medio de una unidad de
(VM)
combinación de sonido directo 840. El resultado es , por ej., el estimativo correspondiente a la intensidad
Edir
sonora directa en el lugar del micrófono virtual. La difusividad en el lugar del micrófono virtual ψ(VM) puede ser computada, por ejemplo, por una subcalculadora de difusividad 850, por ej. de acuerdo con la fórmula:
imagen22
[0128] Como ya se mencionara, en algunos casos, falla la estimación de posición de los eventos sonoros llevada a cabo por un estimador de posición de eventos sonoros, por ej., en el caso de una estimación incorrecta de la
15
25
35
45
55
65
E11801647
10-12-2014
dirección de llegada. La Fig. 14 ilustra esa situación. En estos casos, independientemente de los parámetros de difusividad estimados en los diferentes micrófonos espaciales y recibidos como entradas 111 a 11N, se puede ajustar a 1 la difusividad correspondiente al micrófono virtual 103 (es decir, completamente difuso), ya que no es posible una reproducción espacialmente coherente.
[0129] Además, se puede considerar la confiabilidad de las estimaciones de DOA en los N micrófonos espaciales. Esto se puede expresar, por ej., en términos de la varianza del estimador de DOA o SNR. Esa información puede ser tomada en cuenta por la subcalculadora de difusividad 850, de manera que la difusividad del VM 103 pueda ser artificialmente incrementada en caso de que los estimativos de DOA no sean confiables. De hecho, tampoco son confiables, como consecuencia, los estimativos de posición 205.
[0130] Si bien se han descripto algunos aspectos en el contexto de un aparato, es obvio que estos aspectos también representan una descripción del procedimiento correspondiente, en el cual un bloque o dispositivo corresponde a un paso del procedimiento o a una característica de un paso del procedimiento. De manera análoga, los aspectos descriptos en el contexto de un paso del procedimiento también representan una descripción de un bloque o ítem correspondiente o de una característica de un aparato correspondiente.
[0131] La señal descompuesta de la presente invención puede ser almacenada en un medio de almacenamiento digital o se la puede transmitir por un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión conectado por cables tal como la Internet
[0132] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden ser implementadas en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco blando, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en la misma señales control legibles electrónicamente, que cooperan (o tienen capacidad para cooperar) con un sistema de computación programable de tal manera que se ejecute el procedimiento respectivo.
[0133] Algunas realizaciones comprenden un transportador de datos no transitorio que comprende señales de control legibles electrónicamente, con capacidad para cooperar con un sistema de computación programable de tal manera que se ejecute uno de los procedimientos descriptos en la presente.
[0134] En general, las realizaciones de la presente invención pueden ser implementadas en forma de producto programa de computación con un código de programa, donde el código de programa cumple la función de ejecutar uno de los procedimientos al ejecutarse el programa de computación en una computadora. El código de programa puede ser almacenado, por ejemplo, en un portador legible por una máquina.
[0135] Otras realizaciones comprenden el programa de computación para ejecutar uno de los procedimientos aquí descriptos, almacenado en un portador legible por una máquina.
[0136] En otras palabras, una realización del procedimiento consiste, por lo tanto, en un programa de computación que consta de un código de programa para realizar uno de los procedimientos aquí descriptos al ejecutarse el programa de computación en una computadora.
[0137] Una forma de realización adicional de los procedimientos consiste, por lo tanto, en un portador de datos (o medio de almacenamiento digital, o medio legible por computadora) que comprende, grabado en el mismo, el programa de computación para ejecutar uno de los procedimientos aquí descriptos.
[0138] Otra realización del procedimiento es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa de computación para ejecutar uno de los procedimientos aquí descriptos. El flujo de datos o la secuencia de señales pueden estar configurada, por ejemplo, para ser transferida a través de una conexión de comunicación de datos, por ejemplo por la Internet.
[0139] Otra de las realizaciones comprende un medio de procesamiento, por ejemplo una computadora, un dispositivo lógico programable, configurado o adaptado para ejecutar uno de los procedimientos aquí descriptos.
[0140] Una forma de realización adicional comprende una computadora en la que se ha instalado el programa de computación para ejecutar uno de los procedimientos aquí descriptos.
[0141] En algunas formas de realización, se puede utilizar un dispositivo lógico programable (por ejemplo una matriz de puertas programables en el campo) para ejecutar algunas o todas las funcionalidades de los procedimientos aquí descriptos. En algunas realizaciones, una matriz de puertas programables en el campo puede cooperar con un microprocesador para ejecutar uno de los procedimientos aquí descriptos. Por lo general, los procedimientos son ejecutados preferentemente por cualquier aparato de hardware.
[0142] Las realizaciones precedentemente descriptas son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y detalles aquí descriptos han de
15
25
35
45
55
65
E11801647
10-12-2014
ser evidentes para las personas con capacitación en la técnica. Por lo tanto, sólo es intención limitarse al alcance de las siguientes reivindicaciones de patente y no a los detalles específicos presentados a manera de descripción y explicación de las realizaciones aquí presentadas.
Literatura:
[0143]
[1] R. K. Furness, “Ambisonics – An overview,” in AES 8th International Conference, Abril de 1990, pág. 181–189.
[2] V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," en el Acta de la 28a Conferencia Internacional de AES, pág. 251–258, Piteå, Suecia, Junio 30 – Julio 2, 2006.
[3] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc., vol. 55, no. 6, pág. 503– 516, Junio 2007.
[4] C. Faller: “Microphone Front–Ends for Spatial Audio Coders”, en el Acta de la 125a Convención Internacional de AES, San Francisco, Oct. 2008.
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Küch, D. Mahne, R. Schultz–Amling. y O. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Alemania, Mayo de 2009.
[6] R. Schultz–Amling, F. Küch, O. Thiergart y M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, Londres R.U., Mayo de 2010.
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger y O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," in Audio Engineering Society Convention 128, Londres R.U., mayo de 2010.
[8] E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999.
[9] A. Kuntz y R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007.
[10] A. Walther y C. Faller, "Linear simulation of spaced matrices de micrófonos using b–format recordings," in Audio Engineering Society Convention 128, Londres R.U., mayo de 2010.
[11] US61/287,596: An apparatus and a method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal.
[12] S. Rickard y Z. Yilmaz, "On the approximate W–disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, abril de 2002, vol. 1.
[13] R. Roy, A. Paulraj y T. Kailath, "Direction–of–arrival estimation by subspace rotation methods – ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, EE.UU., abril de 1986.
[14] R. Schmidt, “Multiple emitter location and signal parameter estimation,” IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pág. 276–280, 1986.
[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pág. 548–553.
[16] F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989.
[17] R. Schultz–Amling, F. Küch, M. Kallinger, G. Del Galdo, T. Ahonen y V. Pulkki, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding," en Audio Engineering Society Convention 124, Amsterdam, Países Bajos, mayo de 2008.
[18] M. Kallinger, F. Küch, R. Schultz–Amling, G. Del Galdo, T. Ahonen y V. Pulkki, "Enhanced direction estimation using matrices de micrófonos for directional audio coding;” in Hands–Free Speech Communication and microphone arrays, 2008. HSCMA 2008, mayo de 2008, pág. 45–48.

Claims (16)

  1. 5
    15
    25
    35
    45
    55
    65
    E11801647
    10-12-2014
    REIVINDICACIONES
    1.
    Aparato para generar una señal de salida de audio para simular una grabación de la señal de salida de audio de un micrófono virtual en una posición virtual configurable en un entorno, que comprende:
    un estimador de posición de acontecimientos sonoros (110) destinado a estimar una posición de un acontecimiento sonoro que indica una posición de un acontecimiento sonoro en el entorno, en el que el acontecimiento sonoro está activo en un determinado momento o en un determinado contenedor de tiempo-frecuencia, en el que el acontecimiento sonoro es una fuente sonora real o una fuente en imagen-espejo, en el que el estimador de posición de acontecimientos sonoros (110) está configurado para estimar la posición del acontecimiento sonoro que indica una posición de una fuente en imagen-espejo en el entorno cuando el acontecimiento sonoro es una fuente en imagen-espejo, y en el que el estimador de posición de acontecimientos sonoros (110) está adaptado para estimar la posición del acontecimiento sonoro a partir de una primera información de dirección suministrada por un primer micrófono espacial real situado en una posición del primer micrófono real en el entorno, y a partir de una segunda información de dirección suministrada por un segundo micrófono espacial real situado en una posición del segundo micrófono real en el entorno, donde el primer micrófono espacial real y el segundo micrófono espacial real son unos micrófonos espaciales que existen físicamente; y donde el primer micrófono espacial real y el segundo micrófono espacial real son unos aparatos destinados a la adquisición de sonido espacial capaz de determinar la dirección de llegada del sonido, y un módulo de cálculo de informaciones (120) destinado a generar la señal de salida de audio a partir de una primera señal de entrada de audio grabada, a partir de la posición del primer micrófono real, a partir de la posición virtual del micrófono virtual, y a partir de la posición del acontecimiento sonoro, en el cual el primer micrófono espacial real está configurado para grabar la primera señal de entrada de audio grabada, o en el cual un tercer micrófono está configurado para grabar la primera señal de entrada de audio grabada, en el cual el estimador de posición de acontecimientos sonoros (110) está adaptado para estimar la posición del acontecimiento sonoro a partir de una primera dirección de llegada de la onda sonora emitida por el acontecimiento sonoro en la posición del primer micrófono real como primera información de dirección y a partir de una segunda dirección de llegada de la onda sonora en la posición del segundo micrófono real como segunda información de dirección, y en el cual el módulo de cálculo de informaciones (120) comprende un compensador de propagación (500), en el cual el compensador de propagación (500) está adaptado para generar una primera señal de audio modificada modificando la primera señal de entrada de audio grabada a partir de una primera disminución de amplitud entre el acontecimiento sonoro y el primer micrófono espacial real y a partir de una segunda disminución de amplitud entre el acontecimiento sonoro y el micrófono virtual, ajustando un valor de amplitud, un valor de magnitud o un valor de fase de la primera señal de entrada de audio grabada, para obtener la señal de salida de audio; o en el cual el compensador de propagación (500) está adaptado para generar una primera señal de audio modificada compensando un primer retardo entre una llegada de una onda sonora emitida por el acontecimiento sonoro en el primer micrófono espacial real y una llegada de la onda sonora al micrófono virtual ajustando un valor de amplitud, un valor de magnitud o un valor de fase de la primera señal de entrada de audio grabada, para obtener la señal de salida de audio.
  2. 2.
    Aparato según la reivindicación 1, en el cual el módulo de cálculo de informaciones (120) comprende un módulo de cálculo de informaciones laterales espaciales (507) destinado a calcular las informaciones laterales espaciales, en el cual el módulo de cálculo de informaciones (120) está adaptado para estimar la dirección de llegada o una intensidad de sonido activo al micrófono virtual como informaciones laterales espaciales a partir de un vector de posición del micrófono virtual y a partir de un vector de posición del acontecimiento sonoro.
  3. 3.
    Aparato según la reivindicación 1, en el cual el compensador de propagación (500) está adaptado para generar la primera señal de audio modificada modificando la primera señal de entrada de audio grabada a partir de la primera disminución de amplitud entre el acontecimiento sonoro y el primer micrófono espacial real y a partir de la segunda disminución de amplitud entre el acontecimiento sonoro y el micrófono virtual ajustando el valor de amplitud, el valor de magnitud o el valor de fase de la primera señal de entrada de audio grabada, para obtener la señal de salida de audio, en el cual el compensador de propagación (500) está adaptado para generar la primera señal de audio modificada en un ámbito de tiempo-frecuencia a partir de la primera disminución de amplitud entre el acontecimiento sonoro y el primer micrófono espacial real y a partir de la segunda disminución de amplitud entre el acontecimiento sonoro y el micrófono virtual ajustando dicho valor de amplitud de la primera señal de entrada de audio grabada representada en un ámbito de tiempo-frecuencia.
  4. 4.
    Aparato según la reivindicación 1, en el cual el compensador de propagación (500) está adaptado para generar la primera señal de audio modificada compensando el primer retardo entre la llegada de una onda sonora emitida por el acontecimiento sonoro en el primer micrófono espacial real y la llegada de la onda sonora al micrófono virtual ajustando el valor de amplitud, el valor de magnitud o el valor de fase de la primera señal de entrada de audio grabada, para obtener la señal de salida de audio, en el cual el compensador de propagación (500) está adaptado para generar la primera señal de
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    E11801647
    10-12-2014
    audio modificada en el ámbito de tiempo-frecuencia compensando el primer retardo entre la llegada de la onda sonora emitida por el acontecimiento sonoro en el primer micrófono espacial real y la llegada de la onda sonora al micrófono virtual ajustando dicho valor de amplitud de la primera señal de entrada de audio grabada representada en un ámbito de tiempo-frecuencia.
  5. 5. Aparato según cualquiera de las reivindicaciones anteriores, en el cual el compensador de propagación (500) está adaptado para realizar la compensación de propagación generando un valor de magnitud modificada de la primera señal de audio modificada aplicando la fórmula:
    imagen1
    en la que d1(k, n) es la distancia entre la posición del primer micrófono espacial real y la posición del acontecimiento sonoro, en la que s(k, n) es la distancia entre la posición virtual del micrófono virtual y la posición del acontecimiento sonoro, en la que Pref(k, n) es un valor de magnitud de la primera señal de entrada de audio grabada representada en un ámbito de tiempo-frecuencia, y en al que Pv(k, n) es el valor de magnitud modificada correspondiente a la señal del micrófono virtual, en la que k designa un índice de frecuencia y en el que n designa un índice de tiempo.
  6. 6.
    Dispositivo según cualquiera de las reivindicaciones anteriores, en el cual el módulo de cálculo de información (120) comprende por otro lado un combinador (510), en el cual el compensador de propagación (500) está adaptado por otro lado para modificar una segunda señal de entrada de audio grabada que se graba mediante el segundo micrófono espacial real compensando un segundo retardo o una segunda disminución de amplitud entre una llegada de la onda sonora emitida por el acontecimiento sonoro al segundo micrófono espacial real y una llegada de la onda sonora al micrófono virtual ajustando un valor de amplitud, un valor de magnitud o un valor de fase de la segunda señal de entrada de audio grabada, para obtener una segunda señal de audio modificada, y en el cual el combinador (510) está adaptado para generar una señal de combinación combinando la primera señal de audio modificada y la segunda señal de audio modificada, para obtener la señal de salida de audio.
  7. 7.
    Aparato según la reivindicación 6, en el cual el compensador de propagación (500) está adaptado por otro lado para modificar una o varias otras señales de entrada de audio grabadas que se graban mediante uno o varios otros micrófonos espaciales reales compensando los retardos o las diminuciones de amplitud entre una llegada de la onda sonora al micrófono virtual y una llegada de la onda sonora emitida por el acontecimiento sonoro a cada uno de los otros micrófonos espaciales reales, en el cual el compensador de propagación (500) está adaptado para compensar cada uno de los retardos o diminuciones de amplitud ajustando un valor de amplitud, un valor de magnitud o un valor de fase de cada una de las otras señales de entrada de audio grabadas, para obtener una pluralidad de terceras señales de audio modificadas, y en el cual el combinador (510) está adaptado para generar una señal de combinación combinando la primera señal de audio modificada y la segunda señal de audio modificada y la pluralidad de terceras señales de audio modificadas, para obtener la señal de salida de audio.
  8. 8.
    Dispositivo según cualquiera de las reivindicaciones 1 a 5, en el cual el módulo de cálculo de informaciones (120) comprende una unidad de ponderación espectral (520) destinada a generar una señal de audio ponderada modificando la primera señal de audio modificada en función de una dirección de llegada de la onda sonora en la posición virtual del micrófono virtual y en función de un vector de unidad que describe la orientación del micrófono virtual, para obtener la señal de salida de audio, en el cual la primera señal de audio modificada se modifica en un ámbito de tiempo-frecuencia.
  9. 9.
    Aparato según la reivindicación 6 o la 7, en el cual el módulo de cálculo de informaciones (120) comprende una unidad de ponderación espectral (520) destinada a generar una señal de audio ponderada modificando la señal de combinación en función de una dirección de llegada o de la onda sonora en la posición virtual del micrófono virtual y en función de un vector de unidad que describe la orientación del micrófono virtual, para obtener la señal de salida de audio, en el cual la señal de combinación se modifica en un ámbito de tiempo-frecuencia.
  10. 10.
    Aparato según la reivindicación 8 o la 9, en el cual la unidad de ponderación espectral (520) está adaptada para aplicar el factor de ponderación a + (1 -α)cos(ϕv(k,n)),o el factor de ponderación
    imagen2
    a la señal de audio ponderada, E11801647
    10-12-2014
    en la que ∏v(k, n) indica un ángulo que especifica una dirección de llegada de la onda sonora emitida por el acontecimiento sonoro en la posición virtual del micrófono virtual, en la que k designa un índice de frecuencia y en la que n designa un índice de tiempo.
    5 11. Aparato según cualquiera de las reivindicaciones 1 a 6, en el cual el compensador de propagación (500) está adaptado por otro lado para generar una tercera señal de audio modificada modificando una tercera señal de entrada de audio grabada que se graba mediante un cuarto micrófono compensando un tercer retardo o una tercera disminución de amplitud entre una llegada de la onda sonora emitida por el acontecimiento sonoro al cuarto micrófono y una llegada de la onda sonora al micrófono virtual ajustando un valor de amplitud, un valor de magnitud
    10 o un valor de fase del tercera señal de entrada de audio grabada, para obtener la señal de salida de audio.
  11. 12.
    Aparato según cualquiera de las reivindicaciones anteriores, en el cual el estimador de posición de acontecimientos sonoros (110) está adaptado para estimar una posición del acontecimiento sonoro en un entorno tridimensional.
  12. 13.
    Aparato según cualquiera de las reivindicaciones anteriores, en el cual el módulo de cálculo de informaciones
    15
    (120) comprende por otro lado una unidad de cálculo de difusión (801) adaptada para estimar una energía de sonido difuso en el micrófono virtual o una energía de sonido directo en el micrófono virtual, en el cual la unidad de cálculo de difusión (801) está adaptado para estimar la energía de sonido difuso en el micrófono virtual a partir de las
    20 energías de sonido difuso al primer y al segundo micrófono espacial real.
  13. 14. Aparato según la reivindicación 13, en el cual la unidad de cálculo de difusión (801) está adaptada para estimar
    la energía de sonido difuso
    imagen3en el micrófono virtual aplicando la fórmula:
    imagen4
    25 en la que N es el número de una pluralidad de micrófonos espaciales reales que comprende el primer y el segundo
    micrófono espacial real, y en la que
    imagen5es la energía del sonido difuso en el i-ésimo micrófono espacial real.
  14. 15. Aparato según la reivindicación 13 o la 14, en el cual la unidad de cálculo de difusión (801) está adaptado para
    imagen6
    en la que la "distancia SMi -IPLS" es la distancia entre una posición de el i-ésimo micrófono espacial real y la posición del acontecimiento sonoro, en la que la "distancia VM -IPLS" es la distancia entre la posición virtual y la
    posición del acontecimiento sonoro, y en la que imagen7es la energía directa en el i-ésimo micrófono espacial real.
    35 16. Aparato según cualquiera de las reivindicaciones 13 a 15, en el cual la unidad de cálculo de difusión (801) está adaptada para estimar la difusión en el micrófono virtual estimando la energía de sonido difuso en el micrófono virtual y la energía de sonido directo en el micrófono virtual y aplicando la fórmula:
    imagen8
    en la que Ψ(VM) indica la difusión en el micrófono virtual estimada, en la que imagen9 imagen10indica la energía de sonido difuso 40 estimada y en la que indica la energía de sonido directo estimada.
    5
    10
    15
    20
    25
    30
    35
    E11801647
    10-12-2014
  15. 17.
    Procedimiento de generación de una señal de salida de audio para simular una grabación de la señal de salida de audio por un micrófono virtual en una posición virtual configurable en un entorno, que comprende:
    estimar una posición del acontecimiento sonoro que indica una posición de un acontecimiento sonoro en el entorno, en el que el acontecimiento sonoro está activo en un determinado momento o en un determinado contenedor de tiempo-frecuencia, en el que el acontecimiento sonoro es una fuente sonora real o una fuente en imagen-espejo, en el que la etapa de estimación de la posición del acontecimiento sonoro comprende estimar la posición del acontecimiento sonoro indicando una posición de una fuente en imagen-espejo en el entorno cuando el acontecimiento sonoro es una fuente en imagen-espejo, y en el que la etapa de estimación de la posición del acontecimiento sonoro se basa en una primera información de dirección suministrada por un primer micrófono espacial real situado en una posición del primer micrófono real en el entorno, y basada en una segunda información de dirección suministrada por un segundo micrófono espacial real situado en una posición del segundo micrófono real en el entorno, donde el primer micrófono espacial real y el segundo micrófono espacial real son unos micrófonos espaciales que existen físicamente; y donde el primer micrófono espacial real y el segundo micrófono espacial real son unos aparatos destinados a la adquisición de sonido espacial capaz de determinar la dirección de llegada del sonido, y generar la señal de salida de audio a partir de una primera señal de entrada de audio grabada a partir de la posición del primer micrófono real, a partir de la posición virtual del micrófono virtual, y a partir de la posición del acontecimiento sonoro, en el cual el primer micrófono espacial real está configurado para grabar la primera señal de entrada de audio grabada, o en el cual un tercer micrófono está configurado para grabar la primera señal de entrada de audio grabada, en el cual la estimación de la posición del acontecimiento sonoro se realiza a partir de una primera dirección de llegada de la onda sonora emitida por el acontecimiento sonoro en la posición del primer micrófono real como primera información de dirección y a partir de una segunda dirección de llegada de la onda sonora en la posición del segundo micrófono real como segunda información de dirección, en el cual la etapa de generación de la señal de audio de salida comprende generar una primera señal de audio modificada modificando la primera señal de entrada de audio grabada a partir de una primera disminución de amplitud entre el acontecimiento sonoro y el primer micrófono espacial real y a partir de una segunda disminución de amplitud entre el acontecimiento sonoro y el micrófono virtual ajustando un valor de amplitud, un valor de magnitud o un valor de fase de la primera señal de entrada de audio grabada, para obtener la señal de salida de audio; o en el cual la etapa de generación de la señal de salida de audio comprende generar una primera señal de audio modificada compensando un primer retardo entre una llegada de una onda sonora emitida por el acontecimiento sonoro del primer micrófono espacial real y una llegada de la onda sonora al micrófono virtual ajustando un valor de amplitud, un valor de magnitud o un valor de fase de la primera señal de entrada de audio grabada, para obtener la señal de salida de audio.
  16. 18.
    Programa de ordenador para la realización del procedimiento según la reivindicación 17 cuando se ejecuta en un ordenador o un procesador de señal.
ES11801647.6T 2010-12-03 2011-12-02 Adquisición de sonido mediante la extracción de información geométrica de estimativos de dirección de llegada Active ES2525839T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US41962310P 2010-12-03 2010-12-03
US419623P 2010-12-03
US42009910P 2010-12-06 2010-12-06
US420099P 2010-12-06
PCT/EP2011/071629 WO2012072798A1 (en) 2010-12-03 2011-12-02 Sound acquisition via the extraction of geometrical information from direction of arrival estimates

Publications (1)

Publication Number Publication Date
ES2525839T3 true ES2525839T3 (es) 2014-12-30

Family

ID=45406686

Family Applications (2)

Application Number Title Priority Date Filing Date
ES11801647.6T Active ES2525839T3 (es) 2010-12-03 2011-12-02 Adquisición de sonido mediante la extracción de información geométrica de estimativos de dirección de llegada
ES11801648.4T Active ES2643163T3 (es) 2010-12-03 2011-12-02 Aparato y procedimiento para codificación de audio espacial basada en geometría

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES11801648.4T Active ES2643163T3 (es) 2010-12-03 2011-12-02 Aparato y procedimiento para codificación de audio espacial basada en geometría

Country Status (16)

Country Link
US (2) US9396731B2 (es)
EP (2) EP2647222B1 (es)
JP (2) JP5728094B2 (es)
KR (2) KR101442446B1 (es)
CN (2) CN103460285B (es)
AR (2) AR084091A1 (es)
AU (2) AU2011334851B2 (es)
BR (1) BR112013013681B1 (es)
CA (2) CA2819502C (es)
ES (2) ES2525839T3 (es)
HK (1) HK1190490A1 (es)
MX (2) MX338525B (es)
PL (1) PL2647222T3 (es)
RU (2) RU2556390C2 (es)
TW (2) TWI489450B (es)
WO (2) WO2012072804A1 (es)

Families Citing this family (106)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
EP2600637A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
US10154361B2 (en) 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
BR112015004625B1 (pt) 2012-09-03 2021-12-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para fornecer uma estimativa de probabilidade de presença de voz multicanal informada.
WO2014046916A1 (en) * 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US20160210957A1 (en) * 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
FR2998438A1 (fr) * 2012-11-16 2014-05-23 France Telecom Acquisition de donnees sonores spatialisees
EP2747451A1 (en) 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
CN104019885A (zh) * 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析***
US9979829B2 (en) 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
US9769586B2 (en) 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、***和装置
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP3028476B1 (en) 2013-07-30 2019-03-13 Dolby International AB Panning of audio objects to arbitrary speaker layouts
CN104637495B (zh) * 2013-11-08 2019-03-26 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
CN103618986B (zh) * 2013-11-19 2015-09-30 深圳市新一代信息技术研究院有限公司 一种3d空间中音源声像体的提取方法及装置
CN112351367B (zh) 2013-11-22 2022-11-29 苹果公司 用于调节由扬声器阵列发出的声音的方法、***和设备
ES2833424T3 (es) 2014-05-13 2021-06-15 Fraunhofer Ges Forschung Aparato y método para panoramización de amplitud de atenuación de bordes
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
DE112015003945T5 (de) * 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN110636415B (zh) 2014-08-29 2021-07-23 杜比实验室特许公司 用于处理音频的方法、***和存储介质
CN104168534A (zh) * 2014-09-01 2014-11-26 北京塞宾科技有限公司 一种全息音频装置及控制方法
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN104378570A (zh) * 2014-09-28 2015-02-25 小米科技有限责任公司 录音方法及装置
EP3206415B1 (en) * 2014-10-10 2019-09-04 Sony Corporation Sound processing device, method, and program
US9794721B2 (en) 2015-01-30 2017-10-17 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
US9609436B2 (en) 2015-05-22 2017-03-28 Microsoft Technology Licensing, Llc Systems and methods for audio creation and delivery
US9530426B1 (en) 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US9601131B2 (en) * 2015-06-25 2017-03-21 Htc Corporation Sound processing device and method
WO2017004584A1 (en) 2015-07-02 2017-01-05 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
GB2543275A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
US10425726B2 (en) * 2015-10-26 2019-09-24 Sony Corporation Signal processing device, signal processing method, and program
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
US9894434B2 (en) * 2015-12-04 2018-02-13 Sennheiser Electronic Gmbh & Co. Kg Conference system with a microphone array system and a method of speech acquisition in a conference system
US11064291B2 (en) 2015-12-04 2021-07-13 Sennheiser Electronic Gmbh & Co. Kg Microphone array system
EP3338462B1 (en) 2016-03-15 2019-08-28 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus, method or computer program for generating a sound field description
US9956910B2 (en) * 2016-07-18 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. Audible notification systems and methods for autonomous vehicles
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
US9986357B2 (en) 2016-09-28 2018-05-29 Nokia Technologies Oy Fitting background ambiance to sound objects
US10820097B2 (en) 2016-09-29 2020-10-27 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US10531220B2 (en) 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
CN106708041B (zh) * 2016-12-12 2020-12-29 西安Tcl软件开发有限公司 智能音箱、智能音箱定向移动方法及装置
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10366700B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Device for acquiring and processing audible input
US10229667B2 (en) 2017-02-08 2019-03-12 Logitech Europe S.A. Multi-directional beamforming device for acquiring and processing audible input
US10366702B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10362393B2 (en) 2017-02-08 2019-07-23 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US10397724B2 (en) 2017-03-27 2019-08-27 Samsung Electronics Co., Ltd. Modifying an apparent elevation of a sound source utilizing second-order filter sections
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) * 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
IT201700055080A1 (it) * 2017-05-22 2018-11-22 Teko Telecom S R L Sistema di comunicazione wireless e relativo metodo per il trattamento di dati fronthaul di uplink
US10602296B2 (en) 2017-06-09 2020-03-24 Nokia Technologies Oy Audio object adjustment for phase compensation in 6 degrees of freedom audio
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
GB2563606A (en) 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
GB201710085D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB201710093D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
KR102654507B1 (ko) 2017-07-14 2024-04-05 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중-지점 음장 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
KR102652670B1 (ko) 2017-07-14 2024-04-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
CN111108555B (zh) 2017-07-14 2023-12-15 弗劳恩霍夫应用研究促进协会 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的装置和方法
US10264354B1 (en) * 2017-09-25 2019-04-16 Cirrus Logic, Inc. Spatial cues from broadside detection
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
CN111201784B (zh) 2017-10-17 2021-09-07 惠普发展公司,有限责任合伙企业 通信***、用于通信的方法和视频会议***
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
TWI690921B (zh) * 2018-08-24 2020-04-11 緯創資通股份有限公司 收音處理裝置及其收音處理方法
US11017790B2 (en) * 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences
TWI751457B (zh) 2018-12-07 2022-01-01 弗勞恩霍夫爾協會 使用直流分量補償用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
CN113841197B (zh) * 2019-03-14 2022-12-27 博姆云360公司 具有优先级的空间感知多频带压缩***
EP4005233A1 (en) 2019-07-30 2022-06-01 Dolby Laboratories Licensing Corporation Adaptable spatial audio playback
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
KR102154553B1 (ko) * 2019-09-18 2020-09-10 한국표준과학연구원 지향성이 향상된 마이크로폰 어레이 및 이를 이용한 음장 취득 방법
EP3963902A4 (en) 2019-09-24 2022-07-13 Samsung Electronics Co., Ltd. METHODS AND SYSTEMS FOR MIXED AUDIO SIGNAL RECORDING AND DIRECTIONAL AUDIO CONTENT REPRODUCTION
TW202123220A (zh) 2019-10-30 2021-06-16 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
GB2590504A (en) * 2019-12-20 2021-06-30 Nokia Technologies Oy Rotating camera and microphone configurations
CN113284504A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
US11277689B2 (en) 2020-02-24 2022-03-15 Logitech Europe S.A. Apparatus and method for optimizing sound quality of a generated audible signal
US11425523B2 (en) * 2020-04-10 2022-08-23 Facebook Technologies, Llc Systems and methods for audio adjustment
CN111951833A (zh) * 2020-08-04 2020-11-17 科大讯飞股份有限公司 语音测试方法、装置、电子设备和存储介质
CN112083379B (zh) * 2020-09-09 2023-10-20 极米科技股份有限公司 基于声源定位的音频播放方法、装置、投影设备及介质
JPWO2022162878A1 (es) * 2021-01-29 2022-08-04
CN116918350A (zh) * 2021-04-25 2023-10-20 深圳市韶音科技有限公司 声学装置
US20230036986A1 (en) * 2021-07-27 2023-02-02 Qualcomm Incorporated Processing of audio signals from multiple microphones
DE202022105574U1 (de) 2022-10-01 2022-10-20 Veerendra Dakulagi Ein System zur Klassifizierung mehrerer Signale für die Schätzung der Ankunftsrichtung

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01109996A (ja) * 1987-10-23 1989-04-26 Sony Corp マイクロホン装置
JPH04181898A (ja) * 1990-11-15 1992-06-29 Ricoh Co Ltd マイクロホン
JPH1063470A (ja) * 1996-06-12 1998-03-06 Nintendo Co Ltd 画像表示に連動する音響発生装置
US6577738B2 (en) * 1996-07-17 2003-06-10 American Technology Corporation Parametric virtual speaker and surround-sound system
US6072878A (en) 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
JP3344647B2 (ja) * 1998-02-18 2002-11-11 富士通株式会社 マイクロホンアレイ装置
JP3863323B2 (ja) 1999-08-03 2006-12-27 富士通株式会社 マイクロホンアレイ装置
EP1275272B1 (en) * 2000-04-19 2012-11-21 SNK Tech Investment L.L.C. Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions
KR100387238B1 (ko) * 2000-04-21 2003-06-12 삼성전자주식회사 오디오 변조 기능을 갖는 오디오 재생 장치 및 방법, 그장치를 적용한 리믹싱 장치 및 방법
GB2364121B (en) 2000-06-30 2004-11-24 Mitel Corp Method and apparatus for locating a talker
JP4304845B2 (ja) * 2000-08-03 2009-07-29 ソニー株式会社 音声信号処理方法及び音声信号処理装置
KR100626661B1 (ko) * 2002-10-15 2006-09-22 한국전자통신연구원 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법
AU2003269551A1 (en) * 2002-10-15 2004-05-04 Electronics And Telecommunications Research Institute Method for generating and consuming 3d audio scene with extended spatiality of sound source
KR101014404B1 (ko) * 2002-11-15 2011-02-15 소니 주식회사 오디오신호의 처리방법 및 처리장치
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
KR20040060718A (ko) 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
EP1576602A4 (en) 2002-12-28 2008-05-28 Samsung Electronics Co Ltd METHOD AND DEVICE FOR MIXING AUDIO SEQUENCE AND INFORMATION RECORDING MEDIUM
JP3639280B2 (ja) * 2003-02-12 2005-04-20 任天堂株式会社 ゲームメッセージ表示方法およびゲームプログラム
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
JP4133559B2 (ja) 2003-05-02 2008-08-13 株式会社コナミデジタルエンタテインメント 音声再生プログラム、音声再生方法及び音声再生装置
US20060104451A1 (en) * 2003-08-07 2006-05-18 Tymphany Corporation Audio reproduction system
RU2396608C2 (ru) * 2004-04-05 2010-08-10 Конинклейке Филипс Электроникс Н.В. Способ, устройство, кодирующее устройство, декодирующее устройство и аудиосистема
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
KR100586893B1 (ko) 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
WO2006006935A1 (en) 2004-07-08 2006-01-19 Agency For Science, Technology And Research Capturing sound from a target region
US7617501B2 (en) 2004-07-09 2009-11-10 Quest Software, Inc. Apparatus, system, and method for managing policies on a computer having a foreign operating system
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
WO2006105105A2 (en) 2005-03-28 2006-10-05 Sound Id Personal sound system
JP4273343B2 (ja) * 2005-04-18 2009-06-03 ソニー株式会社 再生装置および再生方法
US20070047742A1 (en) 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and system for enhancing regional sensitivity noise discrimination
JP5038145B2 (ja) * 2005-10-18 2012-10-03 パイオニア株式会社 定位制御装置、定位制御方法、定位制御プログラムおよびコンピュータに読み取り可能な記録媒体
WO2007136187A1 (en) * 2006-05-19 2007-11-29 Electronics And Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
CN101473645B (zh) * 2005-12-08 2011-09-21 韩国电子通信研究院 使用预设音频场景的基于对象的三维音频服务***
DE602007004451D1 (de) 2006-02-21 2010-03-11 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
GB0604076D0 (en) * 2006-03-01 2006-04-12 Univ Lancaster Method and apparatus for signal presentation
EP1989926B1 (en) 2006-03-01 2020-07-08 Lancaster University Business Enterprises Limited Method and apparatus for signal presentation
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
JP4894386B2 (ja) * 2006-07-21 2012-03-14 ソニー株式会社 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US8229754B1 (en) * 2006-10-23 2012-07-24 Adobe Systems Incorporated Selecting features of displayed audio data across time
EP2595148A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for coding multi-object audio signals
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
JP4221035B2 (ja) * 2007-03-30 2009-02-12 株式会社コナミデジタルエンタテインメント ゲーム音出力装置、音像定位制御方法、および、プログラム
EP2147567B1 (en) 2007-04-19 2013-04-10 Epos Development Ltd. Voice and position localization
FR2916078A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US20080298610A1 (en) 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
JP5294603B2 (ja) * 2007-10-03 2013-09-18 日本電信電話株式会社 音響信号推定装置、音響信号合成装置、音響信号推定合成装置、音響信号推定方法、音響信号合成方法、音響信号推定合成方法、これらの方法を用いたプログラム、及び記録媒体
GB2467668B (en) * 2007-10-03 2011-12-07 Creative Tech Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
KR101415026B1 (ko) 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
DE212009000019U1 (de) 2008-01-10 2010-09-02 Sound Id, Mountain View Persönliches Schallsystem für die Anzeige eines Schalldruckpegels oder einer anderen Umgebungsbedingung
JP5686358B2 (ja) * 2008-03-07 2015-03-18 学校法人日本大学 音源距離計測装置及びそれを用いた音響情報分離装置
JP2009246827A (ja) * 2008-03-31 2009-10-22 Nippon Hoso Kyokai <Nhk> 音源及び仮想音源の位置特定装置、方法及びプログラム
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
US8457328B2 (en) * 2008-04-22 2013-06-04 Nokia Corporation Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment
EP2154677B1 (en) 2008-08-13 2013-07-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a converted spatial audio signal
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
US8023660B2 (en) * 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
KR101392546B1 (ko) * 2008-09-11 2014-05-08 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 마이크로폰 신호를 기반으로 공간 큐의 세트를 제공하는 장치, 방법 및 컴퓨터 프로그램과, 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치
ES2733878T3 (es) * 2008-12-15 2019-12-03 Orange Codificación mejorada de señales de audio digitales multicanales
JP5309953B2 (ja) 2008-12-17 2013-10-09 ヤマハ株式会社 収音装置
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US8867754B2 (en) 2009-02-13 2014-10-21 Honda Motor Co., Ltd. Dereverberation apparatus and dereverberation method
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
JP5314129B2 (ja) * 2009-03-31 2013-10-16 パナソニック株式会社 音響再生装置及び音響再生方法
CN102414743A (zh) * 2009-04-21 2012-04-11 皇家飞利浦电子股份有限公司 音频信号合成
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
KR20120059827A (ko) * 2010-12-01 2012-06-11 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법

Also Published As

Publication number Publication date
PL2647222T3 (pl) 2015-04-30
TW201234873A (en) 2012-08-16
AR084091A1 (es) 2013-04-17
HK1190490A1 (en) 2014-11-21
JP2014501945A (ja) 2014-01-23
JP2014502109A (ja) 2014-01-23
US20130268280A1 (en) 2013-10-10
ES2643163T3 (es) 2017-11-21
KR101619578B1 (ko) 2016-05-18
WO2012072804A1 (en) 2012-06-07
AU2011334857A1 (en) 2013-06-27
WO2012072798A1 (en) 2012-06-07
MX338525B (es) 2016-04-20
CN103460285A (zh) 2013-12-18
CA2819394A1 (en) 2012-06-07
EP2647222A1 (en) 2013-10-09
CN103460285B (zh) 2018-01-12
AU2011334851B2 (en) 2015-01-22
BR112013013681A2 (pt) 2017-09-26
AU2011334857B2 (en) 2015-08-13
JP5878549B2 (ja) 2016-03-08
RU2570359C2 (ru) 2015-12-10
TWI489450B (zh) 2015-06-21
CN103583054B (zh) 2016-08-10
RU2013130226A (ru) 2015-01-10
TWI530201B (zh) 2016-04-11
US20130259243A1 (en) 2013-10-03
AR084160A1 (es) 2013-04-24
MX2013006068A (es) 2013-12-02
US9396731B2 (en) 2016-07-19
EP2647005A1 (en) 2013-10-09
CA2819502C (en) 2020-03-10
KR20140045910A (ko) 2014-04-17
BR112013013681B1 (pt) 2020-12-29
KR20130111602A (ko) 2013-10-10
CN103583054A (zh) 2014-02-12
RU2556390C2 (ru) 2015-07-10
CA2819502A1 (en) 2012-06-07
KR101442446B1 (ko) 2014-09-22
TW201237849A (en) 2012-09-16
JP5728094B2 (ja) 2015-06-03
MX2013006150A (es) 2014-03-12
AU2011334851A1 (en) 2013-06-27
US10109282B2 (en) 2018-10-23
CA2819394C (en) 2016-07-05
RU2013130233A (ru) 2015-01-10
EP2647222B1 (en) 2014-10-29
EP2647005B1 (en) 2017-08-16

Similar Documents

Publication Publication Date Title
ES2525839T3 (es) Adquisición de sonido mediante la extracción de información geométrica de estimativos de dirección de llegada
ES2573802T3 (es) Aparato y método para colocar micrófonos basándose en una densidad de potencia espacial
ES2779198T3 (es) Aparato y procedimiento para la adquisición espacialmente selectiva del sonido mediante triangulación acústica
ES2526785T3 (es) Aparato y procedimiento para derivar una información direccional y sistemas
JP6086923B2 (ja) 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法
BR112013013678B1 (pt) Aparelho e método para codificação de áudio espacial com base em geometria