ES2452557T3 - Procesador de audio espacial y método para proveer parámetros espaciales en base a una señal de entrada acústica - Google Patents

Procesador de audio espacial y método para proveer parámetros espaciales en base a una señal de entrada acústica Download PDF

Info

Publication number
ES2452557T3
ES2452557T3 ES11708299.0T ES11708299T ES2452557T3 ES 2452557 T3 ES2452557 T3 ES 2452557T3 ES 11708299 T ES11708299 T ES 11708299T ES 2452557 T3 ES2452557 T3 ES 2452557T3
Authority
ES
Spain
Prior art keywords
signal
spatial
acoustic input
parameters
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11708299.0T
Other languages
English (en)
Inventor
Oliver Thiergart
Fabian KÜCH
Richard Schultz-Amling
Markus Kallinger
Giovanni Del Galdo
Achim Kuntz
Dirk Mahne
Ville Pulkki
Mikko-Ville Laitinen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2452557T3 publication Critical patent/ES2452557T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

Procesador audio espacial para suministrar parámetros espaciales (102, φ(k, n), ψ(k, n)) a partir de una señal de entrada acústica (104), comprendiendo el procesador audio espacial: un determinador de características de señal (108, 308, 408, 508, 608, 808, 908) configurado para determinar una característica de señal (110, 710, 810) de la señal de entrada acústica (104), donde la señal de entrada acústica (104) comprende al menos una componente direccional; y un estimador de parámetro controlable (106, 306, 406, 506, 606, 606a, 606b, 806, 906) destinado a calcular los parámetros espaciales (102, φ (k, n), ψ(k, n)) para la señal de entrada acústica (104) en función de una regla de cálculo de parámetro espacial variable; en el cual el estimador de parámetro controlable (106, 306, 406, 506, 606, 606a, 606b, 806, 906) está configurado para modificar la regla de cálculo de parámetro espacial variable en función de la característica de señal determinada (110, 710, 810).

Description

Procesador de audio espacial y método para proveer parámetros espaciales en base a una señal de entrada acústica
CAMPO DE TÉCNICO
[0001] Las realizaciones de la presente invención crean procesador de audio espacial para proveer parámetros espaciales en base a una señal de entrada acústica. Realizaciones adicionales de la presente invención crean un procedimiento para proveer parámetros espaciales en base a una señal de entrada acústica. Las realizaciones de la presente invención pueden ser concernientes con el campo de análisis acústica, descripción paramétrica y reproducción de sonido espacial, por ejemplo basada en grabaciones de micrófonos.
ANTECEDENTES DE LA INVENCIÓN
[0002] La grabación de sonido espacial tiene como objetivo capturar un campo de sonido con múltiples micrófonos, de tal manera que en el sitio de reproducción, el usuario que escucha percibe la imagen de sonido como si estuviera presente en el sitio de grabación. Procedimientos estándar para grabación de sonido espacial usan micrófonos estereofónicos simples o combinaciones más sofisticadas de micrófonos direccionales, por ejemplo tales como micrófonos de formato B usados en Ambisonics. Comúnmente, estos procedimientos son denominados como técnicas de micrófono coincidentes.
[0003] Como alternativa, se pueden aplicar procedimientos basados en una representación paramétrica de campos de sonido, que son denominados como procesadores de audio espacial paramétricos. Recientemente, se han propuesto varias técnicas para el análisis, descripción paramétrica y reproducción de audio espacial. Cada sistema tiene ventajas y desventajas únicas con respecto al tipo de la descripción paramétrica, el tipo de las señales requeridas, la dependencia e independencia de un montaje de altavoz específico, etc.
[0004] Un ejemplo para una descripción paramétrica eficiente de sonido espacial es dado por Codificación de Audio Direccional (DirAC) (V, Pulkki: Spatial Sound Reproduction with Directional Audio Coding, Journal of the AES, Vol. 55, No. 6, 2007). DirAC representa un procedimiento al análisis acústico y descripción paramétrica del sonido espacial (análisis de DirAC), también como su reproducción (síntesis de DirAC). El análisis de DirAC toma múltiples señales de micrófono como entrada. La descripción de sonido espacial es provista para un numero de sub-bandas de frecuencia en términos de una o varias señales de audio de mezcla descendente e información lateral paramétrica que contiene dirección del sonido y difusividad. El ultimo parámetro describe que tan difuso el campo de sonido grabado esta. Además, la difusividad puede ser usada como una medida de confiabilidad para el valor estimativo de la dirección. Otra aplicación consiste del procesamiento dependiente de la dirección de la señal de audio espacial (M. Kallinger et al.: A Spatial Filtering Approach for Directional Audio Coding, 126th AES Convention, Munich, May 2009). En base a la representación paramétrica, el audio espacial puede ser reproducido con montajes de altavoces arbitrarios, además, el análisis de DirAC puede ser considerado como un extremo frontal acústico para el sistema de codificación paramétrico que son aptos de codificar, transmitir y reproducir audio espacial de multicanal, por ejemplo surround de MEPG.
[0005] Otro procedimiento análisis de campo de sonido espacial es representado por el llamado Micrófono de Audio Espacial (SAM) (C. Faller: Microphone Front-Ends for Spatial Audio Coders, in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008). SAM toma las señales de micrófonos direccionales coincidentes como entrada. Similar a DirAC, SAM determina la DOA (DOA-dirección de llegada) del sonido para una descripción paramétrica del campo de sonido, junto con un valor estimativo de los componentes de sonido difusos.
[0006] Técnicas paramétricas para la grabación y análisis de audio espacial, tales como DirAC y SAM, dependen de valores estimativos de parámetros de campo de sonido específicos. El desempeño de estos procedimientos son así fuertemente dependientes del desempeño de estimación de los parámetros de pista espacial tales como la dirección de llegada del sonido o la difusividad del campo de sonido.
[0007] En general, cuando se estiman parámetros de pista espacial, se pueden hacer suposiciones especificas en cuanto a las señales de entrada acústicas (por ejemplo, en lo estacionario o en la tonalidad) con el fin de emplear el mejor algoritmo (esto es, el más eficiente o más exacto) para el procesamiento de audio. Tradicionalmente, un solo modelo de señal no variante en el tiempo puede ser definido para este propósito. Sin embargo, un problema que surge comúnmente es que diferentes señales de audio pueden exhibir una varianza temporal significativa de tal manera que un modelo invariante en el tiempo general que describe la entrada de audio es frecuentemente inapropiado. En particular, cuando se considera un modelo de señal invariante en el tiempo individual para el procesamiento de audio, se puede presentar desajustes de modelo que degradan el desempeño del algoritmo aplicado.
[0008] Es un objetivo de las realizaciones de la presente invención proveer parámetros espaciales para una señal de entrada acústica con desajustes de modelo más bajas provocadas por una varianza temporal o un no estacionario temporal de la señal de entrada acústica.
BREVE DESCRIPCIÓN DE LA INVENCIÓN
[0009] Este objetivo es resuelto por un procesador de audio espacial de acuerdo con la reivindicación 1, un procedimiento para proveer parámetros espaciales en base a una señal de entrada acústica de acuerdo con la reivindicación 14 y un programa de computadora de acuerdo con la reivindicación 15.
[0010] Realizaciones de la presente invención crean un procesador de audio espacial para proveer parámetros espaciales en base a una señal de entrada acústica. El procesador de audio espacial comprende un determinador de características de señal y un estimador de parámetros controlables. El determinador de características de señal está configurado para determinar una característica de la señal de la señal de entrada acústica. El estimador de parámetros controlable está configurado para calcular los parámetros espaciales para la señal de entrada acústica de acuerdo con una regla de cálculo de parámetros espaciales variable. El estimador de parámetros está configurado además para modificar la regla de cálculo del parámetro espacial variable de acuerdo con la característica de señal determinada.
[0011] Es una idea de las realizaciones de la presente invención que un procesador de audio espacial para proveer parámetros espaciales basados en una señal de entrada acústica, que reduce desajustes de modelo provocados por una varianza temporal de la señal de entrada acústica, pueden ser creados cuando una regla de cálculo para calcular el parámetro espacial es modificada en base a una característica de señal de la señal de entrada acústica. Se ha encontrado que los desajustes de modelo pueden ser reducidos cuando una característica de señal de la señal de entrada acústica es determinada y en base a esta característica de señal determinada, los parámetros espaciales para la señal de entrada acústica son calculados.
[0012] En otras palabras, las realizaciones de la presente invención pueden manejar el problema de desajustes de modelo provocados por una varianza temporal de la señal de entrada acústica al determinar características (características de señal) de la señales de entrada acústicas, por ejemplo en una etapa de pre procesamiento (en el determinador de característica de señal) y luego identificar el modelo de señal (por ejemplo, una regla de calculo de parámetros espaciales o parámetros del arreglo de cálculo de parámetros espaciales) que se ajustan mejor a la situación actual (las características de señal actuales). Esta información puede ser implementada al estimador de parámetros que pueden luego seleccionar la mejor estrategia de estimación de parámetros (con respecto a la varianza temporal de la señal de entrada acústica) para calcular los parámetros espaciales. Por consiguiente, es una ventaja de las realizaciones de la presente invención que una descripción de campo paramétrica (los parámetros espaciales) con un desajuste de modelo significativamente reducido pueda ser obtenida.
[0013] La señal de entrada acústica puede por ejemplo ser una señal medida con uno o más micrófono (s), por ejemplo con arreglos de micrófonos o con un micrófono de formato B. Diferentes micrófonos pueden tener diferentes directividades. Las señales de entrada acústicas pueden ser por ejemplo una presión de sonido ”P” o una velocidad particular ”U”, por ejemplo en un dominio de tiempo o en un dominio de frecuencia (por ejemplo, en un dominio
STFT-, STFT= transformada de Fourier de tiempo corto) o en otras palabras, ya sea en una representación de tiempo o en una representación de frecuencia. La señal de entrada acústica puede por ejemplo comprender componentes en tres direcciones diferentes (por ejemplo, ortogonales) (por ejemplo, un componente X, un componente Y y un componente Z) y de un componente omnidireccional (por ejemplo, un componente W). Además, las señales de entrada acústicas pueden solamente contener componentes de las tres direcciones y ningún componente omnidireccional. Además, las señal de entrada acústica puede comprender dos componentes direccionales (por ejemplo, el componente X, el componente Y, el componente X y el componente Z o el componente Y y el componente Z) y el componente omnidireccional o ningún componente omnidireccional. Además, la señal de entrada acústica puede comprender solamente un componente direccional (por ejemplo, el componente X, un componente Y y un componente Z) y el componente omnidireccional o ningún componente omnidireccional.
[0014] La característica de señal determinada por el determinador de características de señal de la señal de entrada acústica, por ejemplo de señales de micrófono puede ser por ejemplo: intervalos estacionarios con respecto al tiempo, frecuencia, espacio; presencia de doble habla o múltiples fuentes de sonido; presencia de tonalidad o transitorios; una proporción de señal a ruido de la señal de entrada acústica o presencia de señales semejantes a aplausos.
[0015] Las señales semejantes a aplausos son definidas en la presente como señales que comprenden una secuencia temporal rápida de transitorios, por ejemplo diferentes direcciones.
[0016] La información reunida por el determinador de características de señal puede ser usada para controlar el estimador de parámetros controlables, por ejemplo en la codificación de audio direccional (DirAC) o micrófono de audio espacial (SAM), por ejemplo para seleccionar la estrategia del estimador o los ajustes del estimador (o en otras palabras para modificar la regla de cálculo del parámetro espacial variable) que se ajuste mejor a la situación actual (la característica de señal actual de la señal de entrada acústica).
[0017] Las realizaciones de la presente invención pueden ser aplicadas de manera similar a ambos sistemas, micrófono de audio espacial (SAM) y codificación de audio direccional (DirAC) o a cualquier otro sistema paramétrico. En lo siguiente, un enfoque principal caerá en el análisis de codificación de audio direccional.
[0018] De acuerdo con algunas realizaciones de la presente invención, el estimador de parámetros controlable puede estar configurado para calcular los parámetros espaciales como parámetros de codificación de audio direccional que comprenden un parámetro de difusividad para un segmento del tiempo y una sub-banda de frecuencia y/o un parámetro de dirección de llegada para un segmento de tiempo y una sub-banda de frecuencia o como parámetros de micrófono de audio espacial.
[0019] En lo siguiente, la codificación de audio de dirección y micrófono de audio espacial son considerados como extremos frontales acústicos para sistemas que operan en parámetros espaciales, tales como por ejemplo la dirección de llegada y la difusividad del sonido. Se debe notar que es directo aplicar el concepto de la presente invención a otros extremos frontales acústicos también. Tanto la codificación de audio direccional como el micrófono de audio espacial proveen parámetros específicos (espaciales) obtenidos de señales de entrada acústicas para describir el sonido tradicional. Tradicionalmente, cuando se procesa audio espacial con extremos frontales acústicos, tales como codificación de audio de dirección y micrófono de audio espacial, un solo modelo general para las señales de entrada acústico es definido de tal manera que estimadores de parámetros óptimos (o casi óptimos) puedan ser derivados. Los estimadores se desempeñan como se desee en tanto que se satisfagan las suposiciones fundamentales tomadas en cuenta por el modelo. Como se menciona antes, si este no es el caso, surgen desajustes de modelo, que usualmente conducen a errores severos en los valores estimativos. Tales desajustes de modelo representan un problema recurrente puesto que las señales de entrada acústicas son usualmente variantes en el tiempo altamente.
BREVE DESCRIPCIÓN DE LAS FIGURAS
[0020] Realizaciones de acuerdo con la presente invención serán descritas con referencia a las figuras adjuntas, en las cuales:
La Figura 1 muestra un diagrama esquemático por bloques de un procesador de audio espacial de acuerdo con una realización de la presente invención;
La Figura 2 muestra un diagrama de bloques esquemático de un codificador de audio direccional como un ejemplo de referencia;
La Figura 3 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una realización adicional de la presente invención;
La Figura 4 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una realización adicional de la presente invención;
La Figura 5 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una realización adicional de la presente invención;
La Figura 6 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una realización adicional de la presente invención;
La Figura 7a muestra un diagrama de bloques esquemático de un estimador de parámetros que puede ser usado en procesador de audio espacial de acuerdo con una realización de la presente invención;
La Figura 7b muestra un diagrama de bloques esquemático de un estimador de parámetros que puede ser usado en un procesador de audio espacial de acuerdo con una realización de la presente invención;
La Figura 8 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una realización adicional de la presente invención;
La Figura 9 muestra un diagrama de bloques esquemático de un procesador de audio espacial de acuerdo con una realización adicional de la presente invención y
La Figura 10 muestra un diagrama de flujo de un procedimiento de acuerdo con una realización adicional de la presente invención.
DESCRIPCIÓN DETALLADA DE REALIZACIONES DE LA PRESENTE INVENCIÓN
[0021] Antes de que las realizaciones de la presente invención sean explicadas con mayor detalle utilizando las figuras adjuntas, se debe indicar que los mismos o elementos funcionalmente iguales son provistos con los mismos números de referencia y que se omitirá una descripción repetida de estos elementos. Las descripciones de elementos provistos con los mismos números de referencia son por consiguiente mutuamente intercambiables.
Procesador de audio espacial de acuerdo con la Figura 1
[0022] En lo siguiente, un procesador de audio espacial 100 será descrito con referencia a la Figura 1 que muestra un diagrama de bloques esquemático de tal procesador de audio espacial. El procesador de audio espacial 100 para proveer parámetros espaciales 102 o valores estimativos de parámetros espaciales 102 en base a una señal de entrada acústica 104 (o en una pluralidad de señales de entrada acústicas 104) comprende un estimador de parámetros controlables 106 y un determinador de características de señal 108. El determinador de características de señal 108 está configurado para determinar una característica de señal 110 de la señal de entrada acústica 104. El estimador de parámetros controlables 106 está configurado para calcular los parámetros espaciales 102 para la señal de entrada acústica 104 de acuerdo con una regla de cálculo de parámetros espaciales variable. El estimador de parámetros controlables 106 esta configurado además para modificar la regla de cálculo de parámetros espaciales variables de acuerdo con las características de señal determinadas 110.
[0023] En otras palabras, el estimador de parámetros controlables 106 es controlado dependiendo de las características de las señales de entrada acústica o la entrada de señal acústica 104.
[0024] La señal de entrada acústica 104 puede comprender, como se describe anteriormente, componentes direccionales y/o componentes omnidireccionales. Una característica de señal apropiada 110, como ya se menciono puede ser por ejemplo intervalos estacionarios con respecto al tiempo, frecuencia, espacio de la señal de entrada acústica 104, una presencia de doble habla o múltiples fuentes de sonido en la señal de entrada acústica 104, una presencia de tonalidad o transitorios al interior de la señal de entrada acústica 104, una presencia de aplausos o una proporción de señal a ruido de la señal de entrada acústica 104. Esta enumeración de características de señal apropiadas es solo un ejemplo de características de señal que el determinador de características de señal 108 puede determinar. De acuerdo con realizaciones adicionales de la presente invención, el determinador de características de señal 108 puede también determinar otras características de señal (no mencionadas) de la señal de entrada acústica 104 y el estimador de parámetros controlables 106 puede modificar la regla de cálculo del parámetro espacial variable en base a estas otras características de señal de la señal de entrada acústica 104.
[0025] El estimador de parámetros controlables 106 puede estar configurado para calcular los parámetros espaciales 102 como parámetros de codificación de audio direccionales que comprenden un parámetro de difusividad Ψ (k,n) para un segmento de tiempo n y una sub banda de frecuencia k y/o un parámetro de dirección de llegada φ para un segmento de tiempo n y una sub-banda de frecuencia k o como parámetros de micrófono de audio espacial, por ejemplo para un segmento de tiempo n y una sub-banda de frecuencia k.
[0026] El estimador de parámetros controlable 106 puede estar configurado además para calcular los parámetros espaciales 102 utilizando otro concepto de DirAC o SAM. El cálculo de los parámetros de DirAC y parámetros de SAM solamente serán comprendidos como ejemplos. El estimador de parámetros controlable puede por ejemplo estar configurado para calcular los parámetros espaciales 102 de tal manera que los parámetros espaciales comprenden una dirección del sonido, una difusividad de sonido o una medida estadística de la dirección del sonido.
[0027] Una señal de entrada acústica 104 puede por ejemplo ser provista en un dominio de tiempo o un dominio de frecuencia (tiempo corto), por ejemplo en el dominio de STFT.
[0028] Por ejemplo, la señal acústica 104, en donde es provista en el dominio de tiempo, puede comprender una pluralidad de corrientes de audio acústicas x1(t) a xN(t) cada una comprendiendo una pluralidad de muestras de entrada acústica con el paso del tiempo. Cada una de las corrientes de entrada acústica, pueden por ejemplo ser provistas de un micrófono diferente y pueden corresponder con una dirección de observación diferente. Por ejemplo, una primera corriente de entrada acústica x1(t) puede comprender con una primera dirección (por ejemplo, con una dirección x), una segunda corriente de entrada acústica x2(t) puede corresponder con una segunda dirección, que puede ser ortogonal a la primera dirección (por ejemplo, una dirección y), una tercera corriente de entrada acústica x3(t) puede corresponder con una tercera dirección, que puede ser ortogonal a la primera dirección y a la segunda dirección (por ejemplo, una dirección seca) y una cuarta corriente de entrada acústica x4(t) puede ser un componente omnidireccional. Estas diferentes corrientes de aire acústica pueden ser grabadas de diferentes micrófonos, por ejemplo en una orientación ortogonal y pueden ser digitalizadas utilizando un convertidor análogo a digital.
[0029] De acuerdo con realizaciones adicionales de la presente invención, la señal de entrada acústica 104 puede comprender corrientes de entrada acústicas en una representación de frecuencia, por ejemplo en un dominio de frecuencia de tiempo, tal como el dominio STFT. Por ejemplo, la señal de entrada acústica 104 puede ser provista en el formato B que comprende un vector de velocidad particular U (k,n) y un vector de presión de sonido P (k,n) en donde k denota una sub-banda de frecuencia y n denota un espacio de tiempo. El vector de velocidad particular U (k,n) es un componente direccional de la señal de entrada acústica 104, en donde la presión de sonido P (k,n) representa un componente omnidireccional de la señal de entrada acústica 104.
[0030] Como se menciona anteriormente, el estimador de parámetros controlables 106 puede ser configurado para proveer los parámetros espaciales 102 como parámetros de codificación de audio direccionales o como parámetros de micrófonos de audio espacial. En lo siguiente, un codificador de audio direccional convencional será presentado como un ejemplo de referencia. Un diagrama de bloques esquemático de tal codificador de audio direccional convencional es mostrado en la Figura 2.
Audio Direccional Convencional de acuerdo con la Figura 2
[0031] La Figura 2 muestra un diagrama de bloques esquemático de un codificador de audio direccional 200. El codificador de audio direccional 200 comprende un estimador de formato B 202. El estimador de formato B 202 comprende un banco de filtros. El codificador de audio direccional 200 comprende además un estimador de parámetros de codificación de audio direccional 204. El estimador de parámetros de codificación de audio direccional 204 comprende un analizador energético 206 para efectuar un análisis energético.
[0032] Además, el estimador de parámetros de codificación de audio direccional 204 comprende un estimador de dirección 208 y un estimador de difusividad 210.
[0033] Directional Audio Coding (DirAC) (V. Pulkki: Spatial Sound Reproduction with Directional Audio Coding, Journal of the AES, Vol. 55, No. 6, 2007) representa un procedimiento motivado perceptualmente, eficiente al análisis y reproducción de sonido espacial. El análisis de DirAC provee una descripción paramétrica del campo de sonido en términos de una señal de audio de mezcla descendente e información lateral adicional, por ejemplo dirección de llegada (DOA) del sonido y difusividad del campo de sonido. DirAC toma en cuenta los elementos que son relevantes para la audición humana. Por ejemplo, supone que diferencias de tiempo inter aurales (ITD) y diferencias de nivel inter aurales (ILD) puede ser descrita por la DOA del sonido. Correspondientemente, se supone que la coherencia interaural (IC) puede ser representada por la difusividad del campo de sonido. De la salida del análisis de DirAC un sistema de reproducción de sonido puede generar elementos para reproducir el sonido con la impresión espacial original con el conjunto arbitrario de altavoces. Se debe notar que la difusividad puede también ser considerada como una medida de continuidad para las DOA estimadas. Mientras más alta es la difusividad, más baja es la confiabilidad de la DOA y viceversa. Esta información puede ser usada por muchas herramientas basadas en DirAC tales como localización de fuente (O. Thiergart et al.: Localization of Sound Sources in Reverberant Environment Base don Directional Audio COding Parameters, 127th AES Convention, NY, Octubre 2009). Realizaciones de la presente invención se enfocan en la parte de análisis de DirAC en lugar de sobre la reproducción de sonido.
[0034] En el análisis de DirAC, los parámetros son estimados vía un análisis energético efectuado por el analizador energético 206 del campo de sonido, en base a las señales de formato B provistas por el estimador de formato B
202. Las señales de formato B consisten de una señal omnidireccional, correspondiente a la presión de sonido P (k,n) y una, dos o tres señales de dipolo alienadas con la dirección x, y y z de un sistema de coordenadas cartesiano. Las señales de dipolo corresponden a los elementos del vector de velocidad de partículas U (k, n). El análisis de DirAC es centrado en la Figura 2. Las señales de micrófono en el dominio de tiempo, es decir x1(t), x2(t),… xN(t), son provistas al estimador de formato B 202. Estas señales de micrófono de dominio de tiempo pueden ser denominadas como “señales de entrada acústica en el dominio de tiempo” en lo siguiente. El estimador de
formato B 202, que contiene una transformada de Fourier de tiempo corto (STFT) u otro banco de filtros (FB), calcula la señales de formato B en el dominio de frecuencia de tiempo corto, esto es, la presión de sonido P (k,n) y el vector de velocidad de partículas U (k,n), en donde k y n denotan el índice de frecuencia (una sub-banda de frecuencia) y el índice de bloque de tiempo (un segmento de tiempo), respectivamente. Las señales P (k,n) y U (k,n,) pueden ser
denominadas como “señales de entrada acústica en el dominio d frecuencia de tiempo corto” en lo siguiente. Las
señales de formato B pueden ser obtenidas de mediciones con arreglos de micrófono como se explica en R. Schultz-Amling et al.: Planar Microphone Array Processing for the Analysis and Reproduction of Spatial Audio using Directional Audio Coding, 124th AES COnvention, Amsterdam, The Netherlands, Mayo 2008 o directamente al usar por ejemplo un micrófono de formato B. en el análisis energético, el vector de intensidad de sonido activo Ia(k,n)
en donde Re (.) produce la parte real y U*(k,n)denota el conjugado completo del vector de velocidad de partículas U(k,n).
[0035] En lo siguiente, el vector de intensidad de sonido activo también será llamado parámetro de intensidad.
[0036] Utilizando la representación de dominio de STFT en la ecuación 1, la DOA del sonido φ(k,n) puede ser determinada en el estimador de dirección 208 para cada k y n como la dirección opuesta del vector de intensidad de
sonido activo Ia(k,n). En el estimador de difusividad 210, la difusividad del campo de sonido Ψ (k,n) puede ser calculada en base a fluctuaciones de la intensidad activa de acuerdo con:
en donde |(.)| denota la norma del vector y E(.) devuelve la esperanza. En la aplicación práctica, la esperanza E(.) puede ser aproximada mediante una promediación obtenida a lo largo de una o más dimensiones específicas, por ejemplo a lo largo del tiempo, frecuencia o espacio.
[0037] Se ha encontrado que la esperanza E (.) en la ecuación 2 puede ser aproximada mediante pro mediación a lo largo de una dimensión especifica. Para esta cuestión, la pro mediación puede ser llevada a cabo a lo largo del tiempo (pro mediación temporal), frecuencia (pro mediación espectral) o espacio (pro mediación espacial). La pro mediación espacial significa por ejemplo que el vector de intensidad del sonido activo Ia(k,n) de la ecuación 2 es estimado con múltiples arreglos de micrófono colocados en puntos diferentes. Por ejemplo, se pueden colocar cuatro arreglos diferentes (micrófonos) en cuatro puntos diferentes al interior de la sala. Como resultado, se tiene entonces para cada tiempo de punto de tiempo-frecuencia(k,n), cuatro vectores de intensidad Ia(k,n)que pueden ser promediados (de la misma manera, por ejemplo la pro mediación espacial) para obtener una aproximación del operador de esperanza E(.).
[0038] Por ejemplo, cuando se usa una pro mediación temporal sobre varios n, se obtiene un valor estimativo Ψ
[0039] Existen procedimientos comunes para realizar una pro mediación temporal como se requiera en (3). Un procedimiento es pro mediación por bloques (pro mediación de intervalos) sobre un numero especifico N de instancia de tiempo n, dadas por
en donde y (k,n,) es la cantidad hacer promediada, por ejemplo Ia(k,n) o |Ia(k,n)|. Un segundo procedimiento para calcular promedios temporales, que es usado comúnmente en DirAC debido a su eficiencia es aplicar filtros de respuesta de impulso infinita (IIR). por ejemplo, cuando se usa un filtro de paso debajo de orden con coeficiente de
en donde y(k,n,) denota el resultado de pro mediación real y y (k,n,-1) es el resultado de pro mediación pasado, esto es, el resultado de pro mediación para la instancia de tiempo (n-1). Una pro mediación temporal más larga es obtenida para α más pequeña, mientras que una una α mas grande produce resultados más instantáneos en donde el resultado pasado y(k,n-1) cuenta menos. Un valor típico para α usado en DirAC es α=0.1.
[0040] Se ha encontrado que además de usar la pro mediación temporal, el operador de esperanza en la ecuación 2 puede también ser aproximado mediante pro mediación espectral a lo largo de varias o todas las sub-bandas de frecuencia k. este procedimiento es solamente aplicable si ningún valor estimativo de difusividad independiente para la diferentes sub-bandas de frecuencia en el último procesamiento, por ejemplo cuando solamente una sola fuente de sonido, está presente, son necesarias. Y así, usualmente la manera más apropiada para calcular la difusividad en la práctica puede ser emplear pro mediación temporal.
[0041] En general, cuando se aproxima un operador de esperanza como en la ecuación 2 mediante un proceso de pro mediación, se supone estacionario de la señal considerada con respecto a la cantidad a ser promediada. Mientras más larga es la pro mediación, esto es, más muestras son tomadas en cuenta, usualmente más datos son los resultados.
[0042] En lo siguiente, el análisis de micrófono de audio espacial (SAM) también será explicado en breve.
Análisis de Micrófono de Audio Espacial (SAM)
5 [0043] Similar a DirAC el análisis de SAM (C. Faller: Microphone Fronts-Ends for Spatial Audio Coders, in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008) provee una descripción paramétrica del sonido espacial. La representación de campo de sonido está basada en una señal de audio de mezcla descendente e información lateral paramétrica, es decir la DOA del sonido y valores estimativos de los
10 niveles de los componentes de sonido directos y difusos. La entrada al análisis de SAM son las señales de medidas con múltiples micrófonos direccionales coincidentes, por ejemplo dos sensores cardiodes colocados en el mismo punto. La base para el análisis de SAM son las densidades espectrales de potencia (PSD) y las densidades espectrales cruzadas (CSD) de las señales de entrada.
15 [0044] Por ejemplo, sea X1(k,n) y X2(k,n) las señales en el dominio de tiempo-frecuencia medidas por dos micrófonos direccionales coincidentes. Las PSD de ambas señales de entrada pueden ser determinadas con
[0045] La CSD entre ambas entradas es dada por la correlación
20 [0046] La SAM supone las señales de entrada medidas X1(k,n) y X2(k,n) representan una superposición del sonido directo y sonido difuso, mientras que el sonido directo y el sonido difuso no están correlacionados. En base a esta suposición, es mostrado en C. Faller: Microphone Fronts-Ends for Spatial Audio Coders, in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008, que es posible derivar de las ecuaciones 5a y 5b para cada sensor la PSD del sonido directo medido y el sonido difuso medido. A partir de la proporción entre las PSD del
25 sonido directo es entonces posible determinar la DOA φ (k,n) del sonido con un conocimiento a priori de la respuestas direccionales de los micrófonos.
[0047] Se ha encontrado que en una aplicación práctica, las esperanzas E{.} en la ecuación 5a y 5b pueden ser aproximadas mediante operaciones de pro mediación temporal y/o espectral. Esto es similar al cálculo de difusividad 30 en DirAC descrito en la sección previa. Similarmente, la pro mediación puede ser llevada a cabo utilizando por ejemplo la ecuación 4 o 5. Para dar un ejemplo, la estimación de la CSD puede ser efectuada en base a la pro
[0048] Como se discute en la sección previa, cuando se aproxima un operador de esperanza como en las
35 ecuaciones 5a y 5b mediante un proceso de pro mediación, lo estacionario de la educación considerada con respecto a la cantidad a ser promediada, puede tener que ser supuesta.
[0049] En lo siguiente, una realización de la presente invención será explicada que efectúa una estimación parámetros variante en el tiempo dependiendo un intervalo de estacionario.
40 Procesador de Audio Espacial de acuerdo con la Figura 3
[0050] La Figura 3 muestra un procesador de audio espacial 300 de acuerdo con una realización de la presente invención. En una funcionalidad del procesador de audio espacial 300 puede ser similar a una funcionalidad del 45 procesador de audio de audio espacial 100 de acuerdo con la Figura 1. El procesador de audio espacial 300 puede comprender los elementos adicionales mostrados en la Figura 3. El procesador de audio espacial 300 comprende un estimador de parámetros controlable 306, una funcionalidad del cual puede ser similar a una funcionalidad de estimador de parámetros controlables 106 de acuerdo con la Figura 1 y que puede comprender los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 300 comprende además un determinador de 50 características de señal 308, una funcionalidad en el cual puede ser similar a una funcionalidad del determinador de
características de señal 108 de acuerdo con la Figura 1 y que puede comprender los elementos adicionales descritos en lo siguiente.
[0051] El determinador de características de señal 308 puede estar configurado para determinar un intervalo de estacionario de la señal de entrada acústica 104 que constituye la característica de señal determinada 110, por ejemplo utilizando un determinador de intervalo estacionario 310. El estimador de parámetro 306 puede estar configurado para modificar la regla de cálculo del parámetro variable de acuerdo con las características de señal determinada 110, esto es el intervalo estacionario determinado. El estimador de parámetros 306 puede estar configurado para modificar la regla de cálculo del parámetro variable, de tal manera que un periodo de pro mediación o longitud de pro mediación para calcular los parámetros espaciales 102 es comparativamente más largo (más alto) para un intervalo estacionario comparativamente más largo y es comparativamente más corto (más bajo) para un intervalo estacionario comparativamente más corto. La longitud de pro mediación puede por ejemplo ser igual al intervalo estacionario.
[0052] En otras palabras, el procesador de audio espacial 300 crea un concepto para mejorar la estimación de difusividad en la codificación de audio de dirección al considerar el intervalo variable de estacionario de la señal de entrada acústica 104 o las señales de entrada acústicas.
[0053] El intervalo estacionario de la señal de entrada acústica 104 puede por ejemplo definir un periodo en el tiempo en el cual ningún movimiento (o solamente uno insignificativamente pequeño) de una fuente de sonido de la entrada de la señal acústica 104 se presenta. En general, lo estacionario de la señal de entrada acústica 104 puede definir un periodo de tiempo en el cual una cierta característica de la señal de la señal de entrada acústica 104 permanece constante a lo largo del tiempo. Las características de señal puede ser por ejemplo una energía de señal, una difusividad espacial, una tonalidad, una proporción de señal a ruido y/o u otros. Al tomar en cuenta el intervalo estacionario de la señal de entrada acústica 104 para calcular los parámetros espaciales 102, una longitud de pro mediación para calcular los parámetros espaciales 102 pueden ser modificada, de tal manera que la precisión de los parámetros espaciales 102 que representan la entrada de señal acústica 104 pueden ser mejorados. Por ejemplo, para un intervalo estacionario más largo, lo que significa que la fuente de sonido de la señal de entrada acústica 104 no se ha movido por un intervalo más largo, una pro mediación temporal más larga (o tiempo) puede ser aplicada que para un intervalo estacionario más corto. Por consiguiente, una estimación de parámetros espaciales casi optima (o en algunos casos aun una óptima) puede (siempre) ser efectuada por el estimador de parámetros controlables 306 dependiendo del intervalo estacionario de la señal de entrada acústica 104.
[0054] El estimador de parámetros controlables 306 puede por ejemplo ser configurado para proveer un parámetro difusividad Ψ (k,n) por ejemplo en un dominio de STFT para un sub-banda de frecuencia k y un segmento de tiempo
o bloque de tiempo n. el estimador de parámetros controlables 306 puede comprender un estimador de difusividad 312 para calcular el parámetro de difusividad Ψ (k,n), por ejemplo en base a una promediación temporal de un parámetro de intensidad de una entrada de señal acústica 104 en un dominio STFT. Además, el estimador de parámetros controlables 306 puede comprender un analizador energético 314 para efectuar un análisis energético de la señal de entrada acústica 104 para determinar el parámetro de intensidad Ia(k,n). El parámetro de intensidad 1a(k,n) puede también ser designado como vector de intensidad de salida activo y puede ser calculado por el analizador energético 314 de acuerdo con la ecuación 1.
[0055] Por consiguiente la señal de entrada acústica 104 puede también ser provista en el dominio STFT por ejemplo en el formato B que comprende una presión de sonido P(k,n,) y un vector de velocidad particular U (k,n,) para una sub-banda de frecuencia k y un segmento de tiempo n.
[0056] El estimador de difusividad 312 puede calcular el parámetro de difusividad Ψ (k,n) en base a una
promediación temporal de los parámetros de intensidad Ia(k,n) de la señal acústica 104, por ejemplo de la misma sub-banda de frecuencia k. el estimador de difusividad 312 puede calcular el parámetro de difusividad Ψ (k,n) de acuerdo con la ecuación 3, en donde un numero de parámetros de intensidad y por consiguiente la longitud de promediación pueden ser variados por el estimador de difusividad 312 en dependencia del intervalo estacionario determinado.
[0057] Como un ejemplo numérico, si un intervalo estacionario comparativamente largo es determinado por el determinador de intervalo estacionario 310, el estimador de difusividad 312 puede efectuar la promediación temporal de los parámetros de intensidad Ia(k,n) con respecto a los parámetros de intensidad Ia (k,n-10) a Ia (k,n-1). Para un intervalo estacionario comparativamente corto determinado por el determinador de intervalo estacionario 310, el estimador de difusividad 312 puede efectuar la promediación temporal de los parámetros de intensidad Ia (k,n)para los parámetros de intensidad Ia (k,n-1).
[0058] Como se puede ver, la longitud de promediación de la promediación temporal aplicada por el estimador de difusividad 312 corresponde con el número de parámetros de intensidad Ia (k,n-1) usado por la promediación temporal.
[0059] En otras palabras, la estimación de difusividad de codificación de audio direccional es mejorada al considerar el intervalo estacionario invariante en el tiempo (también llamado tiempo de coherencia) de las señales de entrada acústica con la señal de entrada acústica 104. Como se explica anteriormente, la manera común en la práctica para
estimar el parámetro de difusividad Ψ (k,n) es usar la ecuación 3 que comprende una promediación temporal del
vector de intensidad activo Ia (k,n). Se ha encontrado que la longitud de promediación óptima depende del estacionario temporal de las señales de entrada acústica o la entrada de señal de entrada acústica 104. Se ha encontrado que los resultados más exactos pueden ser obtenidos cuando la longitud de promediación es escogida para ser igual al intervalo estacionario.
[0060] Tradicionalmente, como se muestra con el codificador de audio direccional convencional 200, un modelo invariante en el tiempo en general para la señal de entrada acústica es definido del cual la estrategia de estimación de parámetros óptimos es luego definida, que en este caso significa la longitud de promediación temporal óptima. Para la estimación de difusividad, se supone comúnmente que la señal de entrada acústica posee el estacionario del tiempo dentro de un cierto intervalo de tiempo, por ejemplo 20 ms. En otras palabras, el intervalo estacionario considerado es ajustado a un valor constante que es típico para varias señales de entrada. Del intervalo estacionario supuesto, la estrategia de promediación temporal óptima es luego derivada, por ejemplo, el mejor valor para alfa cuando se usa una promediación de IIR como se muestra en la ecuación 5 o en la mejor N cuando se usa promediación por bloques como se muestra en la ecuación 4.
[0061] Sin embargo, se ha encontrado que diferentes señales de entrada acústicas son usualmente caracterizadas por diferentes intervalos estacionarios, así, el procedimiento tradicional para suponer un modelo invariante en el tiempo para la señal de entrada acústica no se mantiene. En otras palabras, cuando la señal de entrada exhibe intervalos estacionarios que son diferentes del supuesto por el estimador, se puede ejecutar a un desajuste de modelo que puede dar como resultado valores estimativos de parámetros escasos.
[0062] Por consiguiente, el nuevo procedimiento propuesto (por ejemplo realizado en el procesador de audio espacial 300) adapta la estrategia de estimación de parámetros (la regla de cálculo de parámetros espaciales variables) dependiendo de la característica de señal real, tal como es visualizada en la Figura 3 para la estimación de difusividad: el intervalo estacionario de la señal de entrada acústica 104, esto es, de la señal de formato B, es determinado en una etapa de pre procesamiento (por el determinador de características de señal 308). A partir de esta información (del intervalo estacionario determinado) la mejor longitud de promediación temporal (o en algunos casos la casi mejor), el mejor valor (o en algunos casos casi el mejor valor) para α o para N es escogido y luego el cálculo de parámetros (espacial) es llevado a cabo con el estimador de difusividad 312.
[0063] Se debe mencionar que además de una estimación de difusividad adaptable de señal en DirAC, es posible mejorar la estimación de dirección en SAM de una manera muy similar. En efecto, el cálculo de la PSD y la CSD de las señales de entrada acústicas en las ecuaciones 5a y 5b también requieren aproximar los operadores de esperanza mediante un proceso de promediación temporal (por ejemplo, al usar las ecuaciones 4 o 5). Como se explica anteriormente, los resultados más exactos pueden ser obtenidos cuando la longitud de promediación corresponde al intervalo estacionario de las señales de entrada acústicas. Esto significa que el análisis de SAM puede ser mejorado al determinar primero el intervalo estacionario de las señales de entrada acústicas y luego escoger de esta información la mejor longitud de promediación. El intervalo estacionario de las señales de entrada acústicas y el filtro de promediación óptimo correspondiente pueden ser determinados como se explica en lo siguiente.
[0064] En lo siguiente, se presentara un procedimiento ejemplar que determina el intervalo estacionario de la señal de entrada acústica 104. A partir de esta información, la longitud de promediación temporal óptima para el cálculo de difusividad mostrado en la Figura 3 es luego escogida.
Determinación del intervalo estacionario
[0065] En lo siguiente, una manera posible para determinar el intervalo estacionario de una señal de entrada
acústica (por ejemplo, la entrada de señal acústica 104) también como el coeficiente de filtro IIR óptimo α (por
ejemplo usado en la ecuación 5) que produce una promediación temporal correspondiente es descrita. La determinación del intervalo estacionario descrita en lo siguiente puede ser efectuada por el determinador de intervalo estacionario 310 del determinador de características de señal 308. El procedimiento presentado permite usar la
ecuación 3 para estimar exactamente la difusividad (parámetro) Ψ(k,n) dependiendo del intervalo estacionario de la
señal de entrada acústica 104. La presión de sonido del dominio de frecuencia P(k,n) que es parte de la señal de formato B, puede ser considerada como la señal de entrada acústica 104. En otras palabras, la señal de entrada acústica 104 puede comprender por lo menos un componente correspondiente a la presión de sonido P (k,n,).
[0066] Las señales de entrada acústica exhiben en general un intervalo estacionario corto si la energía de señal varía fuertemente dentro de un intervalo de tiempo corto y viceversa. Ejemplos típicos para los cuales el intervalo estacionario es corto son transitorios, inicios de habla y “desplazamientos”, es decir cuando un usuario se detiene de hablar. El último caso es caracterizado por energía de señal decreciente fuertemente (ganancia negativa) dentro de un tiempo corto, mientras que en los dos primeros casos, la energía se incrementa fuertemente (ganancia positiva).
[0067] El algoritmo deseado, que tiene como objetivo encontrar el coeficiente de filtro optimo α, tiene que proveer valores cercanos a α = 1 (correspondiente a una promediación temporal corta) para señales no estacionarias altas y valores cerca de α = α’ en el caso de estacionario. El símbolo α´ denota un coeficiente de filtro independiente de
señal apropiado para promediar señales estacionarias. Expresado en términos matemáticos, un algoritmo es dado
en donde α+(k,n) es el coeficiente de filtro óptimo para cada bandeja de tiempo-frecuencia, W (k,n,)= |P(k,n,)|2 es el valor absoluto de la energía de señal instantánea de P(k,n,) y W (k,n) es un promedio 10 temporal de W(k,n). Para señales estacionarias, la energía instantánea W (k,n) es igual a al promedio temporal W(k,n) que produce α+ = α’ como se desea. En el caso de señales altamente no estacionarias debido a ganancias de energía positivas, el denominador de la ecuación 7 se convierte en α’ W(k,n), ya que W(k,n) es grande en comparación con W (k,n). Así, α+ ≈ 1 es obtenido como se desea. En caso de no estacionario debido a ganancias de energía negativas, el resultado indeseable α+ ≈ 0 es obtenido, puesto
15 que W (k,n) se vuelve grande en comparación con W (k,n). Por consiguiente, un candidato alternativo para
es introducido que es similar a la ecuación 7, pero exhibe el comportamiento inverso en el caso de no estacionario. Esto significa que en el caso de no estacionario debido a ganancia de energía positiva, se tiene α-≈ 0, mientras que 20 para ganancias de energía negativa α-≈ 1 es obtenido. De aquí, tomando el máximo de la ecuación 7 y ecuación 8
esto es
produce el valor optimo deseado para el coeficiente de promediación recursivo α, conduciendo a una promediación temporal que corresponde al intervalo estacionario de las señales de entrada acústicas.
25 [0068] En otras palabras, el determinador de características de señal 308 está configurado para determinar el parámetro de ponderación α en base a una proporción entre la energía de señal actual (instantánea) de por lo menos un componente (omnidireccional) (por ejemplo, la presión de sonido P (k,n)) de la señal de entrada acústica 104 y un promedio temporal sobre un segmento de tiempo dado (previo) de energía de señal de por lo menos un componente
30 (omnidireccional) de la señal de entrada acústica 104. El segmento de tiempo dado puede por ejemplo corresponder a un número dado de coeficiente de energía de señal para diferentes segmentos de tiempo (previo).
[0069] En el caso de un análisis de SAM, la señal de energía W (k,n) puede estar compuesta de las de energías de las dos señales de micrófono X1(k,n) y X2(k,n), por ejemplo W (k,n) = | X1(k,n)|2 + | X1(k,n)|2 . El coeficiente α para la 35 estimación recursiva de las correlaciones en la ecuación 5a o ecuación 5b, de acuerdo con la ecuación 5c, puede ser escogido apropiadamente utilizando el criterio de la ecuación 9 descrita anteriormente.
[0070] Como se puede ver de lo anterior, el estimador de parámetros controlable 306 puede ser configurada para aplicar la promediación temporal de los parámetros de Ia(k,n) de la señal acústica 104 utilizando un filtro de paso de 40 bajos (por ejemplo, el filtro de respuesta de impulso infinita) (IIR) mencionado o un filtro de respuesta de impulso finita (FIR)). Además, estimador de parámetros controlable 306 puede ser configurado para ajustar la ponderación entre un parámetro de intensidad actual de la señal de audio acústica 104 y parámetros de intensidad previos de la señal de entrada acústica 104 en base al parámetro de ponderación alfa. En un caso especial del filtro de IIR de primer orden como se muestra con la ecuación 5, una ponderación entre el parámetro de intensidad actual y el 45 parámetro de intensidad previo puede ser ajustada. Mientras más alto es el factor de ponderación alfa, más corta es la longitud de promediación temporal y por consiguiente más alto es el peso del parámetro de intensidad actual en comparación con el peso de los parámetros de intensidad previos. En oras palabras, la longitud de promediación
temporal está basada en el parámetro de ponderación α.
[0071] El estimador de parámetros controlable 306 puede por ejemplo estar configurado de tal manera que el peso del parámetro de intensidad actual en comparación con el peso de los parámetros de intensidad previos es comparativamente más alto para un intervalo estacionario comparativamente más corto y de tal manera que el peso del parámetro de intensidad actual en comparación con el peso de los parámetros de intensidad previos es comparativamente más bajo para un intervalo estacionario comparativamente más largo. Por consiguiente, la longitud de promediación temporal es comparativamente más corta para un intervalo estacionario comparativamente más corto y es comparativamente más larga para un intervalo estacionario comparativamente más largo.
[0072] De acuerdo con realizaciones adicionales de la presente invención, un estimador de parámetros controlable de un procesador de audio espacial de acuerdo con una realización de la presente invención puede estar configurado para seleccionar una regla de cálculo de parámetros espaciales de una pluralidad de reglas de cálculo de parámetros espaciales para calcular los parámetros espaciales en dependencia de la característica de señal determinada. Una pluralidad de reglas de cálculo de parámetros espaciales puede por ejemplo diferir en parámetros de cálculo o pueden aun ser completamente diferentes entre sí. Como se muestra con las ecuaciones 4 y 5, una promediación temporal puede ser calculada utilizando una promediación por bloques como se muestra en la ecuación 4 o un filtro de paso de bajos como se muestra en la ecuación 5. Una primera regla de cálculo de parámetros espaciales puede por ejemplo corresponder con la promediación por bloques de acuerdo con la ecuación 4 y una segunda regla de cálculo de parámetros puede por ejemplo corresponder con la promediación que usa el filtro de paso de bajo de acuerdo con la ecuación 5. El estimador de parámetros controlable puede escoger las reglas de cálculo de la pluralidad de las reglas de cálculo que provee la estimación más precisa de los parámetros espaciales, en base a la característica de señal determinada.
[0073] De acuerdo con realizaciones adicionales de la presente invención, el estimador de parámetros controlable puede ser configurado de tal manera que una primera regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales es diferente de una segunda regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales. La primera regla de cálculo de parámetros espaciales y la segunda regla de cálculo de parámetros espaciales pueden ser seleccionadas de un grupo que consiste de:
promediación en el tiempo sobre una pluralidad de segmentos de tiempo en una sub-banda de frecuencia (por ejemplo, como se muestra en la ecuación 3), promediación de frecuencia sobre una pluralidad de subbandas de frecuencia en un segmento de tiempo, promediación de tiempo de frecuencia, promediación especial y sin promediación.
[0074] En lo siguiente, este concepto de escoger una regla de cálculo de parámetros espaciales de una pluralidad de reglas de cálculo de parámetros espaciales por un estimador de parámetros controlable será descrito utilizando dos realizaciones ejemplares de la presente invención mostradas en las Figura 4 y 5.
Estimación de la dirección de llegada y difusividad variantes en el tiempo dependiendo de doble habla utilizando un codificador espacial de acuerdo con la Figura 4
[0075] La Figura 4 muestra un diagrama de bloques esquemático de un procesador de audio espacial 400 de acuerdo con una realización de la presente invención. La funcionalidad del procesador de audio espacial 400 puede ser similar a la funcionalidad del procesador de audio espacial 100 de acuerdo con la Figura 1. El procesador de audio espacial 400 puede comprender los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 400 comprende un estimador de parámetros controlable 406, la funcionalidad del cual puede ser similar a la funcionalidad del estimador de parámetros controlables 106 de la Figura 1 y que puede comprender los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 400 comprende además un determinar de características de señal 408, la funcionalidad del cual puede ser similar a la funcionalidad del determinador de características de señal de acuerdo con la Figura 1 y que puede comprender los elementos adicionales descritos en lo siguiente.
[0076] El estimador de parámetros controlable 406 está configurado para seleccionar una regla de cálculo de parámetros espaciales de una pluralidad de reglas de cálculo de parámetros espaciales para calcular parámetros espaciales 102, en dependencia de una característica de señal determinada 110, que es determinada por el determinador de características de señal 408. En la realización ejemplar mostrada en la Figura 4, el determinador de características de señal está configurado para determinar si una señal de entrada acústica 104 comprende componentes de diferentes fuentes de sonido o solamente comprende componentes de una fuente de sonido. En base a esta determinación, el estimador de parámetros controlable 406 puede escoger una primera regla de cálculo de parámetros espaciales 410 para calcular los parámetros espaciales 102 si la señal de entrada acústica 104 solamente comprende componentes de una fuente de sonido y puede escoger una segunda regla de cálculo de parámetros espaciales 412 para calcular los parámetros espaciales 102 si la señal de entrada acústica 104 comprende componentes de una más de una fuente de sonido. La primera regla de cálculo de parámetros espaciales 410 puede por ejemplo comprender una promediación espectral o promediación de frecuencia sobre una pluralidad de sub-bandas de frecuencia y la segunda regla de cálculo de parámetros espaciales 412 puede no
comprender promediación espectral o promediación de frecuencia.
[0077] La determinación de si la señal de entrada acústica 104 comprende componentes de más de una fuente de sonido o no puede ser efectuada por un detector de doble habla 414 del determinador de características de señal
408. El estimador de parámetros 406 puede por ejemplo estar configurado para proveer un parámetro de difusividad Ψ (k, n) de la señal de entrada acústica 104 en el dominio de STFT para una sub-banda de frecuencia k y un bloque de tiempo n.
[0078] En otras palabras, el procesador de audio espacial 400 muestra un concepto para mejorar la estimación de difusividad en la codificación de audio direccional al tomar en cuenta situaciones de doble habla.
[0079] De otra manera, en otras palabras, el determinador de características de señal 408 está configurado para determinar si la señal de entrada acústica 104 comprende componentes de diferentes fuentes de sonido al mismo tiempo. EL estimador de parámetros controlable 406 está configurado para seleccionar de acuerdo con el resultado de la determinación de características de señal una regla de cálculo de parámetros espaciales (por ejemplo, la primera regla de cálculo de parámetros espaciales 410 o la segunda regla de cálculo de parámetros espaciales 412) de la pluralidad de reglas de cálculo de parámetros espaciales, para calcular los parámetros espaciales 102 (por ejemplo, para calcular el parámetro de difusividad Ψ (k, n)). La primera regla de cálculo de parámetros espaciales 410 es escogida cuando la señal de entrada acústica 104 comprende componentes de a lo máximo una fuente de sonido y la segunda regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales es escogida cuando la señal de entrada acústica 104 comprende componentes de más de una fuente de sonido al mismo tiempo. La primera regla de cálculo de parámetros espaciales 410 incluye una promediación de frecuencia (por ejemplo, de parámetro de intensidad Ia (k, n)) de la señal de entrada acústica 104 sobre una pluralidad de sub-bandas de frecuencia. La segunda regla de cálculo de parámetros espaciales 412 no incluye promediación de frecuencia.
[0080] En el ejemplo mostrado en la Figura 4, la estimación del parámetro de difusividad Ψ (k, n) y/o parámetro de dirección (de llegada) φ (k, n) en el análisis de codificación de audio direccional es mejorada al ajustar los
estimadores correspondiente dependiendo de situaciones de doble habla. Se ha encontrado que el cálculo de difusividad de la ecuación 2 puede ser realizado en la práctica mediante promediación del vector de intensidad activo Ia (k, n) sobre sub-bandas de frecuencia k o al combinar una promediación temporal y promediación espectral. Sin embargo, la promediación espectral no es apropiada si se requieren valores estimativos de difusividad independientes para las diferentes sub-bandas de frecuencia, como es el caso en una llamada situación de doble habla, en donde múltiples fuentes de sonido (por ejemplo, usuarios que hablan) están activos al mismo tiempo. Por consiguiente, tradicionalmente (como en el codificador de audio direccional mostrado en la Figura 2) la promediación espectral no es empleada, ya que el modelo general de las señales de entrada acústicas siempre supone situaciones de doble habla. Se ha encontrado que esta suposición de modelo no es óptima en el caso de situaciones de una sola habla, debido a que se ha encontrado que en situaciones de una sola habla, la promediación espectral puede mejorar la exactitud de estimación de parámetros.
[0081] El nuevo procedimiento propuesto, como se muestra en la Figura 4, escoge la estrategia de estimación de parámetros óptima (la regla de cálculo de parámetros espaciales óptima) al seleccionar el modelo básico para la señal de entrada acústica 104 o para las señales de entrada acústicas. En otras palabras, la Figura 4 muestra una aplicación de una realización de la presente invención para mejorar la estimación de difusividad dependiendo de situaciones de doble habla: Primero el detector de doble habla 414 es empleado que determina de la señal de entrada acústica 104 o las señales de entrada acústicas si está presente doble habla en la situación actual o no. Si no se decide para un estimador de parámetros (o en otras palabras, el estimador de parámetros controlable 406 escoge una regla de cálculo de parámetros espaciales) que calcula la difusividad (parámetros) Ψ (k, n) al aproximar la ecuación 2 al utilizar la promediación espectral (frecuencia) y temporal del vector de intensidad activo Ia (k, n), esto es:
[0082] De otra manera, si existe doble habla, un estimador es escogido (o en otras palabras, el estimador de parámetros controlable 406 escoge una regla de cálculo de parámetros espaciales) que usa promediación temporal solamente, como en la ecuación 3. Una idea similar puede ser aplicada a la estimación de dirección: en el caso de situaciones de una sola habla, pero solamente en este caso, la estimación de dirección φ (k, n) puede ser mejorada mediante una promediación espectral de los resultados sobre varias o todas la sub-bandas de frecuencia k, esto es:
[0083] De acuerdo con algunas realizaciones de la presente invención, es también concebible aplicar la promediación (espectral) sobre partes del espectro y no todo el ancho de banda necesariamente.
[0084] Para efectuar la promediación temporal y espectral, el estimador de parámetros controlable 406 puede determinar el vector de intensidad activo Ia (k, n), por ejemplo en el dominio de STFR para cada sub-banda k y cada segmento de tiempo n, por ejemplo utilizando un análisis energético, por ejemplo al emplear un analizador enérgico 416 del estimador de parámetros controlable 406.
[0085] En otras palabras, el estimador de parámetros 406 puede estar configurado para determinar un parámetro de difusividad actual Ψ (k, n) para una sub-banda de frecuencia k y un segmento de tiempo actual n de la señal de entrada acústica 104 en base a la promediación espectral y temporal de los parámetros de intensidad activos determinados Ia (k, n) de la señal de entrada acústica 104 incluida en la primera regla de cálculo de parámetros espaciales 410 o basada en solamente la promediación temporal de los vectores de intensidad activos determinado Ia (k, n) en dependencia de la característica de señal determinada.
[0086] En lo siguiente, otra realización ejemplar de la presente invención será descrita que esta también basada en el concepto de escoger una regla de cálculo de parámetros espaciales de ajuste para mejorar el cálculo de los parámetros espaciales de la señal de entrada acústica utilizando un procesador de audio espacial 500 mostrado en la Figura 5, basado en la tonalidad de la señal de entrada acústica.
Estimación de parámetros dependiente de la tonalidad utilizando un procesador espacial de acuerdo con la Figura 5
[0087] La Figura 5 muestra un diagrama de bloques esquemático de un procesador de audio espacial 500 de acuerdo con una realización de la presente invención. La funcionalidad del procesador de audio espacial 500 puede ser similar a la funcionalidad del procesador de audio espacial 100 de acuerdo con la Figura 1. El procesador de audio espacial 500 puede comprender además los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 500 comprende un estimador de parámetros controlables 506 y un determinador de características de señal 508. La funcionalidad del estimador de parámetros controlable 506 puede ser similar a la funcionalidad del estimador de parámetros controlable 106 de acuerdo con la Figura 1, el estimador de parámetros controlable 506 puede comprender los elementos adicionales descritos en lo siguiente. La funcionalidad del determinador de características de señal 508 puede ser similar a la funcionalidad del determinador de características de señal 108 de acuerdo con la Figura 1. El determinador de características de señal 508 puede comprender los elementos adicionales descritos en lo siguiente.
[0088] El procesador de audio espacial 500 difiere del procesador de audio espacial 400 en el hecho de que el cálculo de los parámetros espaciales 102 es modificado en base a la tonalidad determinada de la señal de entrada acústica 104. El determinador de características de señal 508 puede determinar la tonalidad de señal de entrada acústica 104 y el estimador de parámetros controlable 506 puede escoger, en base a la tonalidad determinada de la señal de entrada acústica 104, una regla de cálculo de parámetros espaciales de una pluralidad de reglas de cálculo de parámetros espaciales para calcular los parámetros espaciales 102.
[0089] En otras palabras, el procesador de audio espacial 500 muestra un concepto para mejorar la estimación en parámetros de codificación de audio direccional al considerar la tonalidad de la señal de entrada acústica 104 o de las señales de entrada acústicas.
[0090] El determinador de características de señal 508 puede determinar la tonalidad de la señal de entrada acústica utilizando una estimación de tonalidad, por ejemplo, utilizando el estimador de tonalidad 510 del determinador de características de señal 508. El determinador de características de señal 508 puede proveer por consiguiente la tonalidad de la señal de entrada acústica 104 o una información correspondiente a la tonalidad de la señal de entrada acústica 104 como la característica de señal determinada 110 de la señal de entrada acústica 104.
[0091] El estimador de parámetros controlable 506 puede estar configurado para seleccionar, de acuerdo con un resultado de la determinación de características de señal (de la estimación de tonalidad) una regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales para calcular los parámetros espaciales 102, de tal manera que una primera regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales es escogida cuando la tonalidad de la señal de entrada acústica 104 está debajo de un nivel de umbral de tonalidad dado y de tal manera que una segunda regla de cálculo de parámetros espaciales de la pluralidad de reglas de cálculo de parámetros espaciales es escogida cuando la tonalidad de la señal de entrada acústica 104 está por encima de un nivel de umbral de tonalidad dado. Similar al estimador de
parámetros controlables 406 de acuerdo con la Figura 4, la primera regla de cálculo de parámetros espaciales puede incluir una promediación de frecuencia y la segunda regla de cálculo de parámetros espaciales puede no incluir promediación de frecuencia.
[0092] En general, la tonalidad de una señal acústica provee información de si la señal tiene o no un espectro de banda ancha. Una alta tonalidad indica que el espectro de señal contiene solamente unas pocas frecuencias con alta energía. En contraste, la baja tonalidad indica señales de banda amplia, esto es, señales en donde energía similar está presente en un intervalo de frecuencia grande.
[0093] Esta información en la tonalidad de la señal de entrada acústica (de la tonalidad de la señal de entrada acústica 104) puede ser aprovechada para mejorar, por ejemplo la estimación de parámetros de codificación de audio direccional. Con referencia al diagrama de bloques esquemático mostrado en la Figura 5, de la señal de entrada acústica 104 o la señales de entrada acústicas, primero la tonalidad es determinada (por ejemplo, como se explica en S. Molla y B. Torresani: Determining Local Transientness of Audio Signals, IEEE Signal Processing Letters, Vol. 11, No. 7, Julio 2007) de la entrada utilizando el detector de tonalidad o estimador de tonalidad 510. La información en cuanto a la tonalidad (la característica de señal determinada 110) controla la estimación de los parámetros de codificación de audio direccionales (de los parámetros de audio espaciales 102). Una salida del estimador de parámetros controlables 506 son los parámetros espaciales 102 con exactitud incrementada en comparación con el procedimiento tradicional con el codificador de audio direccional de acuerdo con la Figura 2.
[0094] La estimación de la difusividad Ψ (k, n) puede ganar del conocimiento de la tonalidad de señal de entrada como sigue: el cálculo de la difusividad Ψ (k, n) requiere un proceso de promediación como se muestra en la
ecuación 3. Esta promediación es tradicionalmente llevada a cabo solo a lo largo del tiempo n. particularmente en campos de sonido difuso, una estimación exacta de la difusividad es solamente posible cuando la promediación es suficientemente larga. Una promediación temporal larga sin embargo usualmente no es posible debido al intervalo estacionario corto de las señales de entrada acústicas. Para mejorar la estimación de difusividad, se puede combinar la promediación temporal con una promediación espectral sobre las bandas de frecuencia k, esto es,
[0095] Sin embargo, este procedimiento puede requerir señales de banda amplia en donde la difusividad es similar para diferentes de frecuencia. En el caso de señales tonales, en donde solamente pocas frecuencias poseen energía significativa, la verdadera difusividad del campo de sonido puede variar fuertemente a lo largo de las bandas de frecuencia k. Esto significa que cuando el detector de tonalidad (el estimador de tonalidad 510 del determinador de características de señal 508) indica una alta tonalidad de la señal acústica 104, entonces la promediación espectral es evitada.
[0096] En otras palabras, el estimador de parámetros controlables 506 está configurado para derivar los parámetros espaciales 102, por ejemplo un parámetro de difusividad Ψ (k, n) por ejemplo en el dominio de STFT para una subbanda de frecuencia k y un segmento de tiempo n en base a promediación temporal y espectral de los parámetros de intensidad Ia(k, n) de la señal de entrada acústica 104 si la tonalidad determinada de la señal acústica 104 es
comparativamente pequeña y proveer los parámetros espaciales 102, por ejemplo el parámetro de difusividad Ψ (k,
n) basado en solamente una promediación temporal y no promediación espectral de los parámetros de intensidad Ia (k, n) de la de señal entrada acústica 104 si la tonalidad determinada de la señal de de entrada acústica 104 es comparativamente alta.
[0097] La misma idea puede ser aplicada a la estimación del parámetro de dirección (de llegada) φ (k, n) para mejorar la proporción de la señal a ruido de los resultados (de los parámetros espaciales determinados 102). En otras palabras, el estimador de parámetros controlable 506 puede estar configurado para determinar el parámetro de dirección de llegada φ (k, n) en base a la promediación espectral si la tonalidad determinada de la señal de entrada acústica 104 es comparativamente pequeña y para derivar el parámetro de dirección de llegada φ (k, n) sin efectuar
una promediación espectral si la tonalidad ya es comparativamente alta.
[0098] Esta idea de mejorar la proporción de mejorar la señal a ruido m3diante promediación espectral del parámetro de dirección de llegada φ (k, n) será descrita en lo siguiente en más detalle utilizando otra realización de la presente invención. La promediación espectral puede ser aplicada a la señal de entrada acústica 104 o las
señales de entrada acústicas al a intensidad de señal activo o directamente al parámetro de dirección (de llegada) φ
(k, n).
[0099] Para la persona experimentada en el arte es claro que el procesador de audio espacial 500 puede también ser aplicado al análisis de micrófono de audio espacial de manera similar con la diferencia de que ahora los operadores de esperanza en la ecuación 5a y 5b son aproximados al considerar una promediación espectral en el caso en donde ninguna doble habla está presente o en el caso de una baja tonalidad.
[0100] En lo siguiente, otras dos realizaciones de la presente invención serán explicadas, que efectúan una estimación de dirección dependiente de la proporción de señal a ruido para mejorar el cálculo de los parámetros espaciales.
Estimación de dirección dependiente de la proporción de señal a ruido utilizando un procesador de audio espacial de acuerdo con la Figura 6
[0101] La Figura 6 muestra un diagrama de bloques esquemático del procesador de audio espacial 600. El procesador de audio espacial 600 está configurado para efectuar la estimación de dirección dependiente de la producción de ruido mencionada anteriormente.
[0102] La funcionalidad del procesador de audio espacial 600 puede ser similar a la funcionalidad del procesador de audio espacial 100 de acuerdo con la Figura 1. El procesador de audio espacial 600 puede comprender los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 600 comprende un estimador de parámetros controlable 606 y un determinador de características de señal 608. La funcionalidad del estimador de parámetros controlable 606 puede ser similar a la funcionalidad del estimador de parámetros controlable 106 de acuerdo con la Figura 1, el estimador de parámetros controlable 606 puede comprender los elementos adicionales descritos en lo siguiente. La funcionalidad del determinador de características de señal 608 puede ser similar a la funcionalidad del determinador de características de señal 108 de acuerdo con la Figura 1 y el determinador de características de señal 608 puede comprender los elementos adicionales descritos en lo siguiente.
[0103] El determinador de características de señal 608 puede estar configurado para determinar la proporción de señal a ruido (SNR) de una señal de entrada acústica 104 como una característica de señal 110 de la señal de entrada acústica 104. El estimador de parámetros controlable 606 puede estar configurado para proveer una regla de cálculo espacial variable para calcular parámetros espaciales 102 de la señal de entrada acústica 104 en base a la proporción de señal a ruido de la señal de entrada acústica 104.
[0104] El estimador de parámetros controlable 606 puede por ejemplo efectuar una promediación temporal para determinar los parámetros espaciales 102 y puede hacer variar la longitud de promediación de la promediación temporal (o un número de elementos usados para la promediación temporal) en dependencia de la proporción de señal a ruido determinado de la señal de entrada acústica 104. Por ejemplo, el estimador de parámetros 606 puede estar configurado para hacer variar la longitud de promediación de la promediación temporal, de tal manera que la longitud de promediación es comparativamente alta para una proporción de señal a ruido comparativamente baja de la señal de entrada acústica 104 y de tal manera que la longitud de promediación es comparativamente baja para una proporción de señal a ruido comparativamente alta de la señal de entrada acústica 104.
[0105] El estimador de parámetros 606 puede estar configurado para proveer el parámetro de dirección de llegada φ
(k, n) como parámetro espacial 602 en base a la promediación temporal mencionada. Como se menciona anteriormente, el parámetro de dirección de llegada φ (k, n) puede ser determinado en el estimador de parámetros controlables 606 (por ejemplo, en un estimador de dirección 610 del estimador de parámetros 606) para cada subbanda de frecuencia k y segmento de tiempo como la dirección opuesta del vector de intensidad de sonido activo Ia (k, n). El estimador de parámetros 606 puede comprender por consiguiente un analizador energético 612 para efectuar un análisis energético en la señal de entrada acústica 104 para determinar el vector de intensidad de sonido activo Ia (k, n) por cada sub-banda de frecuencia k y cada segmento de tiempo n. el estimador de dirección 610 puede efectuar la promediación temporal, por ejemplo en el vector de intensidad activo determinado para una subbanda de frecuencia k sobre una pluralidad de segmentos de tiempo n. en otras palabras, el estimador de dirección 610 puede efectuar una promediación temporal de los parámetros de intensidad Ia (k, n) para una sub-banda de frecuencia k y una pluralidad de segmentos de tiempo (previo) para calcular el parámetro de dirección de llegada φ (k, n) para una sub-banda de frecuencia k y un segmento de tiempo n. De acuerdo con realizaciones adicionales de la presente invención, estimador de dirección 610 puede también (por ejemplo, en lugar de una promediación temporal de los parámetros de intensidad Ia(k, n))efectuar la promediación temporal en una pluralidad de parámetros de dirección de llegada determinados φ (k, n) para una sub-banda de frecuencia k y una pluralidad de segmentos de tiempo (previos). La longitud de promediación de la promediación temporal corresponde por consiguiente con el número de parámetros de intensidad o el número de parámetros de dirección de llegada usados para efectuar la promediación temporal. En otras palabras, el estimador de parámetros 606 puede estar configurado para aplicar la promediación temporal a un subconjunto de parámetros de intensidad Ia(4k, n) para una pluralidad de segmentos de tiempo y una sub-banda de frecuencia k o a un subconjunto de parámetros de dirección de llegada φ (k, n) para una pluralidad de segmentos de tiempo y una sub-banda de frecuencia k. El número de parámetros de intensidad en el subconjunto de parámetros de intensidad o el número de parámetros de dirección de llegada en el subconjunto de parámetros de dirección de llegada usados para la promediación temporal corresponde con la longitud de promediación de la promediación temporal. El estimador de parámetros controlable 606 es configurado para ajustar el número de parámetros de intensidad o el número de parámetros de dirección de llegada en el subconjunto usado para calcular la promediación temporal, de tal manera que el número de parámetros de intensidad en el subconjunto de parámetros de intensidad o el número de parámetros de dirección de llegada en el subconjunto de parámetros de dirección de llegada es comparativamente bajo para una proporción de señal a ruido comparativamente alta de la señal de entrada acústica 104 y de tal manera que el número de parámetros de intensidad o el número de parámetros de dirección de llegada es comparativamente alto para una proporción de señal a ruido comparativamente baja de la señal de entrada acústica 104.
[0106] En otras palabras, la realización de la presente invención provee una estimación de dirección de codificación de audio direccional que está basada en la proporción de señal a ruido de las señales de entrada acústicas o de la señal de entrada acústica 104.
[0107] En general, la exactitud de la dirección estimada φ (k, n) (o del parámetro de dirección de llegada φ (k, n)) del
sonido, definido de acuerdo con el codificador de audio direccional 200 de acuerdo con la Figura 2 es influenciada por el ruido que está siempre presente dentro de las señales de entrada acústicas.
[0108] El impacto del ruido sobre la exactitud de estimación depende de la SNR, esto es, de la proporción entre la energía de señal del sonido que llega en el arreglo (micrófono) y la energía del ruido. Una SNR pequeña reduce significativamente la exactitud de estimación de la dirección φ (k, n). La señal de ruido es usualmente introducida por el equipo de medición, esto es, los micrófonos y el amplificador del micrófono y conduce a errores en φ (k, n). Se ha encontrado que la dirección φ (k, n) está con igual probabilidad ya sea subestimada o sobreestimada, pero la esperanza de φ (k, n) es todavía correcta.
[0109] Se ha encontrado que al tener varias estimaciones independientes del parámetro de dirección de llegada φ
(k, n), por ejemplo, al repetir la medición varias veces, la influencia del ruido puede ser reducida y así la exactitud de
la estimación de dirección puede ser incrementada mediante promediación del parámetro de dirección de llegada φ
(k, n) sobre lasa varias instancias de medición. Efectivamente, el proceso de promediación incrementa la proporción de señal a ruido del estimador. Mientras más pequeña es la proporción a ruido en los micrófonos o en general en los dispositivos de grabación o mientras más alta es la proporción de señal a ruido objetivo deseada en el estimador, más alto es el número de instancias de medición que pueden ser requeridas en el proceso de promediación.
[0110] El codificador espacial 600 mostrado en la Figura 6 efectúa este proceso de promediación en dependencia de la proporción de señal a ruido de la señal de entrada acústica 104. De otra manera, en otras palabras, el procesador de audio espacial 600 muestra un concepto para mejorar la estimación de dirección en codificación de audio direccional al tomar en cuenta la SNR en la entrada acústica o de la señal de entrada acústica 104.
[0111] Antes de estimar la dirección φ (k, n) con el estimador de dirección 610, la proporción de señal a ruido de la
señal de entrada acústica 104 o de las señales de entrada acústicas es determinada con el estimador de proporción de señal a ruido 614 del determinador de características de señal 608. La proporción de señal a ruido puede ser estimada para cada bloque de tiempo n y una banda de frecuencia k, por ejemplo en el dominio de STFT. La información en cuanto a la proporción de señal a ruido real de la señal de entrada acústica 104 es provista como la característica de señal determinada 110 del estimador de proporción de señal a ruido 614 al estimador de dirección 610 que incluye una promediación temporal dependiente de la frecuencia y el tiempo de señales de codificación de audio direccional específicas para mejorar la proporción de señal a ruido. Además, una proporción de señal a ruido objetivo deseada se puede hacer pasar al estimador de dirección 610. La proporción de señal a ruido objetivo deseada puede ser definida externamente, por ejemplo por un usuario. El estimador de dirección 610 puede ajustar la longitud e promediación de la promediación temporal, de tal manera que una proporción de señal a ruido obtenida de la señal de entrada acústica 104 o en la salida del estimador de parámetros controlable 606 (después de la promediación) coincide con la proporción de señal a ruido deseada. De otra manera, en otras palabras, la promediación (en el estimador de dirección 610) se lleva a cabo hasta que se obtiene la proporción de señal a ruido objetivo deseada.
[0112] El estimador de dirección 610 puede comparar continuamente la proporción de señal a ruido obtenida de la señal de entrada acústica 104 con la proporción de señal a ruido objetivo y puede efectuar la promediación hasta que se obtiene la proporción de señal a ruido deseada. Utilizando este concepto, la proporción de señal a ruido obtenida, la señal de entrada acústica 104 es monitoreada continuamente y la promediación es finalizada, cuando la proporción de señal a ruido obtenida de la señal de entrada acústica 104 coincide con la proporción de señal a ruido objetivo, así, no hay necesidad de calcular la longitud de promediación por adelantado.
[0113] Además, el estimador de dirección 610 puede determinar, en base a la proporción de señal a ruido de la señal de entrada acústica 104 en la entrada del estimador de parámetros controlables 606 , la longitud de promediación para la promediación de la proporción de señal a ruido de la señal de entrada acústica 104, de tal manera que la proporción de señal a ruido obtenida de la señal de entrada acústica 104 en la salida de estimador de parámetros controlables 606 coincide con la proporción de señal a ruido objetivo. Así, utilizando este concepto, la proporción de señal a ruido obtenida de la señal de entrada acústica 104 no es monitoreada continuamente.
[0114] Un resultado generado por los dos conceptos para el estimador de dirección 610 descrito anteriormente es el mismo: durante la estimación de los parámetros espaciales 102, se puede obtener la precisión de los parámetros
espaciales 102, como si la señal de entrada acústica 104 tuviera la proporción de señal a ruido objetivo, aunque la proporción de señal a ruido actual de la señal de entrada acústica 104 (en la entrada del estimador de parámetros controlables 606) es peor.
[0115] Mientras más pequeña es la proporción de señal a ruido de la señal de entrada acústica 104 en comparación con la proporción de señal a ruido objetivo, más larga es la promediación temporal. Una salida del estimador de
dirección 610, por ejemplo es un valor estimativo φ (k, n) esto es, en parámetros de dirección de llegada φ (k, n) con
exactitud incrementada. Como se menciona anteriormente, diferentes posibilidades para la promediación de la señales de codificación de audio direccionales existen: promediación del vector de intensidad del sonido activo Ia(k, n) para una sub-banda de frecuencia k y una pluralidad de segmentos de tiempo provistos en la ecuación 1 o promediación directamente de la dirección estimada φ (k, n ) (el parámetro de dirección de llegada φ (k, n)) definido ya antes como la dirección opuesta del vector de intensidad de salida activo a lo largo del tiempo.
[0116] El procesador de audio espacial 600 puede también ser aplicado al análisis de dirección de micrófono de audio espacial de manera similar. La exactitud de la estimación de dirección puede ser incrementada al promediar resultados sobre varias instancias de medición. Esto significa que similar a DirAC en la Figura 6, el estimador de SAM es mejorado al terminar primero la SNR de la (s) señal (es) de entrada acústica (s) 104. La información en cuanto a la SNR real y la SNR objetivo deseada se hace pasar al estimador de dirección de SAM que incluye una promediación temporal dependiente de la frecuencia y el tiempo de señales de SAM específicas para mejorar la SNR. La promediación es llevada a cabo hasta que se obtiene la SNR objetivo deseada. En efecto, dos señales de SAM pueden ser promediadas, es decir, la dirección estimada φ (k, n) o lama PSD y CSD definidas en la ecuación 5a y ecuación 5b. La última estimación posiblemente significa que los operadores de esperanza son aproximados por un proceso de promediación cuya longitud depende de la SNR real y la SNR (objetivo) deseada. La
promediación de la dirección estimada φ (k, n) es explicada para DirAC de acuerdo con la Figura 7b, pero sigue
siendo de la misma manera para SAM.
[0117] De acuerdo con una realización adicional de la presente invención, que será explicada más tarde utilizando la Figura 8, en lugar de promediar explícitamente las cantidades físicas con estos dos procedimientos, es posible cambiar a un banco de filtros utilizado, como ya que el bando de filtros puede contener una promediación inherente de las señales de entrada. En lo siguiente, los dos procedimientos mencionados para promediar las señales de codificación de audio direccional serán explicados en más detalle utilizando las Figuras 7a y 7b. El procedimiento alternativo de cambio el banco de filtros con un procesador de audio espacial es mostrado en la Figura 8.
Promediación del vector de densidad de sonido activo en codificación de audio direccional de acuerdo con la Figura 7a
[0118] La Figura 7a muestra un diagrama de bloques esquemático de una primera realización posible del estimador de dirección dependiente de la proporción de señal a ruido 610 de la Figura 6. La realización que es mostrada en la Figura 7a está basada en la promediación temporal de la intensidad de sonido acústico o de los parámetros de intensidad de sonido Ia (k, n) por un estimador de dirección 610a. la funcionalidad del estimador de dirección 610a puede ser similar a la funcionalidad del estimador de dirección 610 de la Figura 6, en donde el estimador de dirección 610a puede comprender los elementos adicionales descritos en lo siguiente.
[0119] El estimador de dirección 610a está configurado para efectuar una promediación y una estimación de dirección. El estimador de dirección 610a es conectado al analizador energético 612 de la Figura 6, el estimador de dirección 610 con el analizador energético 612 puede constituir un estimador de parámetros controlable 606a, una funcionalidad de la cual es similar a la funcionalidad del estimador de parámetros controlables 606 mostrado en la Figura 6. El estimador de parámetros controlables 606a determina en primer lugar a partir de la señal de entrada acústica 104 o las señales de entrada acústica un vector de intensidad de sonido activo 706 (Ia(k, n)) en el análisis energético utilizando el analizador energético 612 utilizando la ecuación 1 como se explica anteriormente. En un bloque de promediación 702 del estimador de dirección 610a que efectúa la promediación de este vector (el vector de intensidad de sonido 706) es promediado a lo largo del tiempo n, independientemente para todas (o por lo menos parte de todas) las bandas de frecuencia o sub-bandas de frecuencia k, que conduce a un vector de intensidad
[0120] Para llevar a cabo la promediación, el estimador de dirección 610a considera los valores estimativos de intensidad del pasado. Una entrada al bloque de promediación 702 es la proporción de señal a ruido 710 de la entrada acústica 104 o de la señal de entrada acústica 104, que es determinada con el estimador de proporción de señal a ruido 714 mostrado en la Figura 6. La proporción de señal a ruido real 710 de la señal de entrada acústica 104 constituye la característica de señal determinada 110 de la señal de entrada acústica 104. La proporción de señal a ruido es determinada para cada sub-banda de frecuencia k y cada segmento de tiempo n en el dominio de frecuencia de tiempo corto. Una segunda entrada al bloque de promediación 702 es una proporción de señal a ruido
deseada o una proporción de señal a ruido objetivo 712, que debe ser obtenida en una salida del estimador de parámetros controlables 606a, esto es, la proporción de señal a ruido objetivo. La proporción de señal a ruido objetivo 712 es una entrada externa, dada por ejemplo por un usuario. El bloque de promediación 702 promedia el vector de intensidad 706 (Ia (k, n)) hasta que se obtiene la proporción de señal a ruido objetivo 712. En base al vector de intensidad promediado (acústico) 708 (Iavg(k, n)) finalmente la dirección φ(k, n) del sonido puede ser calculada utilizando un bloque de estimación de dirección 704 del estimador de dirección 310ª que efectúa la estimación de dirección, como se explica anteriormente. El parámetro de dirección de llegada φ (k, n) constituye un parámetro espacial 702 determinado por el estimador de parámetros controlables 606a. el estimador de dirección 610a puede determinar el parámetro de dirección de llegada φ (k, n) para cada sub-banda de frecuencia k y segmento de tiempo como la dirección opuesta del vector de intensidad de sonido promediado 708 (Iavg (k, n)) de la sub-banda de frecuencia correspondiente k y el segmento de tiempo correspondiente n.
[0121] Dependiendo de la proporción de señal a ruido objetivo deseada 712, el estimador de parámetros controlable 610ª puede hacer variar la longitud de promediación para la promediación de los parámetros de intensidad de sonido 706 (Ia (k, n)) de tal manera que la proporción de señal a ruido en la salida del estimador de parámetros controlables 606ª coincide (o es igual a) la proporción de señal a ruido objetivo 712. Comúnmente, el estimador de parámetros controlable 610a puede escoger una longitud de promediación comparativamente larga para una diferencia comparativamente alta entre la proporción de señal a ruido real 710 de la señal de entrada acústica 104 y la proporción de señal a ruido objetivo 712. Para una diferencia comparativamente baja entre la proporción de señal a ruido real 710 de la señal de entrada acústica 104 y la proporción de señal a ruido objetivo 712, el estimador de parámetros controlable 610ª escogerá una longitud de promediación comparativamente corta.
[0122] En otras palabras, el estimador de dirección 606ª está basado en la promediación de la intensidad acústica de los parámetros de intensidad acústica.
Promediación del parámetro de dirección de codificación de audio direccional directamente de acuerdo con la Figura 7b
[0123] La Figura 7b muestra un diagrama de bloques esquemático de un estimador de parámetros controlables 606b, la funcionalidad del cual puede ser similar a la funcionalidad del estimador de parámetros controlables 606 mostrado en la Figura 6. El estimador de parámetros controlable 606b comprende el analizador energético 612 y un estimador de dirección 610b configurado para efectuar una estimación de dirección y una promediación. El estimador de dirección 610b difiere del estimador de dirección 610a en que en primer lugar efectúa una estimación de dirección para determinar el parámetro de dirección de llegada 718 (φ (k, n)) para cada sub-banda de frecuencia k y cada segmento de tiempo n y en segundo lugar efectúa la promediación del parámetro de dirección de llegada determinado 718 para determinar un parámetro de dirección de llegada φprom (k, n) promediado para cada subbanda de frecuencia k y cada segmento de tiempo n. el parámetro de dirección de llegada promediado (φprom (k, n)) constituye un parámetro espacial 102 determinado por el estimador de parámetros controlable 606b.
[0124] En otras palabras, la Figura 7b muestra otra realización posible del estimador de dirección dependiente de la proporción de señal a ruido 610, que es mostrado en la Figura 6. La realización, que es mostrada en la Figura 7b, está basada en la promediación temporal de la dirección estimada (el parámetro de dirección de llegada 718 (φ (k, n))) que puede ser obtenida con un procedimiento de codificación de audio convencional, por ejemplo para cada sub-banda de frecuencia k y cada segmento de tiempo n como la dirección opuesta del vector de intensidad del sonido activo 706 (Ia (k, n).
[0125] De la entrada acústica o la señal de entrada acústica 104 el análisis energético es efectuado utilizando el analizador energético 612 y luego la dirección de sonido (el parámetro de dirección de llegada 718 (φ (k, n))) es determinada en un bloque de estimación de dirección 714 del estimador de dirección 710b que efectúa la estimación de dirección, por ejemplo con un procedimiento de codificación de audio direccional convencional explicado anteriormente. Luego, en un bloque de promediación 716 del estimador de dirección 710b, una promediación
temporal es aplicada sobre esta dirección (sobre el parámetro de dirección de llegada 718 (φ (k, n))). Como se
explica anteriormente, la promediación es llevada a cabo a lo largo del tiempo y para todas (o para por lo menos parte de todas) las bandas de frecuencia o sub-bandas de frecuencia k, que produce la dirección promediada (φprom
[0126] La dirección promediada φprom (k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n constituye un parámetro espacial 102 determinado por el estimador de parámetros comparables 606b.
[0127] Como se describe anteriormente, las entradas al bloque de promediación 716 son la proporción de señal a ruido real 710 de la entrada acústica o de la señal de entrada acústica 104, también como la proporción de señal a ruido objetivo 712, que será obtenida en la salida del estimador de parámetros controlable 606b. La proporción de señal a ruido real 710 es determinada para cada sub-banda de frecuencia y cada segmento de tiempo n, por ejemplo en el dominio de SFTF. La promediación 716 es llevada a cabo en un número suficiente de bloquees de tiempo (o segmentos de tiempo) hasta que se obtiene la proporción de señal a ruido 712. El resultado final es la dirección promediada temporal φprom (k, n) con exactitud incrementada.
[0128] Para resumir en breve, el determinador de características de señal 708 está configurado para proveer la proporción de señal a ruido 710 de la señal de entrada acústica 104 como una pluralidad de parámetros de proporción de señal a ruido para una sub-banda de frecuencia k y un segmento de tiempo n, de la señal de entrada acústica 104. Los estimadores de parámetros controlables 606a, 606b están configurados para recibir la proporción de señal a ruido objetivo 712 como una pluralidad de parámetros de proporción de señal a ruido objetivo para una sub-banda de frecuencia k y un segmento de tiempo n. Los estimadores de parámetros controlables 606a, 606b están configurados además para derivar la longitud de promediación de la promediación temporal de acuerdo con un parámetro de proporción de señal a ruido actual de la señal de entrada acústica de tal manera que un parámetro de proporción de señal a ruido actual del parámetro de dirección de llegada actual (promediado φprom (k, n) coincide con el parámetro de proporción de señal a ruido objetivo actual.
[0129] Los estimadores de parámetros controlables 606a, 606b están configurados para derivar los parámetros de intensidad Ia(k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n de la señal de entrada acústica 104. Además, los estimadores de parámetros controlables 606a, 606b están configurados para derivar los parámetros de dirección de llegada φ (k, n) para cada sub-banda de frecuencia y cada segmento de tiempo n de la señal de entrada acústica 104 en base de los parámetros de intensidad Ia (k, n) de la señal de audio acústica determinado por los estimadores de parámetros controlables 606a, 606b. Los estimadores de parámetros
controlables 606a, 606b están configurados además para derivar el parámetro de dirección de llegada actual φ (k, n)
para una sub-banda de frecuencia actual y un segmento de tiempo actual en base a la promediación temporal de por lo menos un subconjunto de parámetros de intensidad derivados de la señal de entrada acústica 104 o basados en la promediación temporal de por lo menos un subconjunto de parámetros de dirección de llegada derivados.
[0130] Los estimadores de parámetros controlables 606a, 606b están configurados para derivar los parámetros de intensidad Ia (k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n, en el dominio de STFT, además, los estimadores de parámetros controlables 606a, 606b están configurados para derivar el parámetro de dirección de llegada φ (k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n, por ejemplo en el dominio de STFT. El estimador de parámetros controlables 606a está configurado para escoger el subconjunto de parámetros de intensidad para efectuar la promediación temporal, de tal manera que un subcanal de frecuencia asociado con todos los parámetros de intensidad del subconjunto de parámetros de intensidad es igual a una subbanda de frecuencia actual asociada con el parámetro de dirección de llegada actual. El parámetro controlable 606b está configurado para escoger el subconjunto de parámetros de dirección de llegada para efectuar la promediación temporal 716, de tal manera que un subcanal de frecuencia asociado con todos los parámetros de dirección de llegada del subconjunto de parámetros de dirección de llegada es igual al subcanal de frecuencia actual asociado con el parámetro de dirección de llegada actual.
[0131] Además, el estimador de parámetros controlable 606a está configurado para escoger el subconjunto de parámetros de intensidad, de tal manera que los segmentos de tiempos asociados con los parámetros de intensidad del subconjunto de parámetros de intensidad son adyacentes en el tiempo. El estimador de parámetros controlables 606b está configurado para escoger el subconjunto de parámetros de dirección de llegada, de tal manera que los segmentos de tiempo asociados con los parámetros de dirección de llegada del subconjunto de parámetros de dirección de llegada son adyacentes en el tiempo. El número de parámetros de intensidad en el subconjunto de parámetros de intensidad o el número de parámetros de dirección de llegada en el subconjunto de parámetros de dirección de llegada corresponde con la longitud de promediación de la promediación temporal. El estimador de parámetros controlable 606ª está configurado para derivar el número de parámetros de intensidad en el subconjunto de parámetros de intensidad para efectuar la promediación temporal en dependencia de la diferencia entre la proporción de señal a ruido actual de la señal acústica 104 y la proporción de señal a ruido objetivo actual. El estimador de parámetros controlable 606b está configurado para derivar el número de parámetros de dirección de llegada en el subconjunto de parámetros de dirección de llegada para efectuar la promediación temporal en base a la diferencia entre la proporción de señal a ruido actual de la señal de entrada acústica 104 y la proporción de señal a ruido objetivo actual.
[0132] En otras palabras el estimador de dirección 606b está basado en la promediación de la dirección 718 φ (k, n) obtenida con un procedimiento de codificación de audio direccional convencional.
[0133] En lo siguiente, otra realización de un procesador de audio espacial será descrita, que también efectúa una estimación de parámetros dependiente de la proporción de señal a ruido.
Uso de un campo de filtros con una resolución espectro-temporal apropiada en codificación de audio direccional utilizando un codificador de audio de acuerdo con la Figura 8
[0134] La Figura 8 muestra un procesador de audio espacial 800 que comprende un estimador de parámetros controlable 806 y un determinador de características de señal 808. La funcionalidad del codificador de audio direccional 800 puede ser similar a la funcionalidad del codificador de audio direccional 100. El codificador de audio direccional 800 puede comprender los elementos adicionales descritos en lo siguiente. La funcionalidad del estimador de parámetros controlable 806 puede ser similar a la funcionalidad del estimador de parámetros controlable 106 y la funcionalidad del determinador de características de señal 808 puede ser similar a la funcionalidad del determinador de características de señal 108. El estimador de parámetros controlable 806 y el determinador de características de señal 808 pueden comprender los elementos adicionales descritos en lo siguiente.
[0135] El determinador de características de señal 808 difiere del determinador de características de señal 608 en que determina la proporción de señal a ruido 810 de la señal de entrada acústica 104, que es también denotada como proporción de señal a ruido de entrada, en el dominio de tiempo y no en el dominio de STFT. La proporción de señal a ruido 810 de la señal de entrada acústica 104 constituye una característica de señal determinada por el determinador de características de señal 808. El estimador de parámetros controlable 806 difiere del estimador de parámetros controlable 606 mostrado en la Figura 6 en que comprende un estimador de formato B 812 que comprende un banco e filtros 814 y un bloque de cálculo de formato B 816, que está configurado para transformar la señal de entrada acústica 104 en el dominio de tiempo a la representación de formato B, por ejemplo en el dominio de STFT.
[0136] Además, el estimador de formato B 812 está configurado para hacer variar la determinación de formato B de la señal de entrada acústica 104 en base a las características de señal determinadas por el determinador de características de señal 808 o en otras palabras en dependencia de la proporción de señal a ruido 810 de la señal de entrada acústica 104 en el dominio de tiempo.
[0137] Una salida del estimador de formato B 812 es una representación de formato 818 de la señal de entrada acústica 104. La representación de formato B 818 comprende un componente omnidireccional, por ejemplo el vector de presión de sonido mencionado anteriormente P (k, n) y un componentes direccional, por ejemplo, el vector de velocidad de sonido mencionado anteriormente U (k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n.
[0138] Un estimador de dirección 820 del estimador de parámetros controlable 806 deriva un parámetro de dirección de llegada φ (k, n) de la señal de entrada acústica 104 para cada sub-banda de frecuencia k y cada segmento de tiempo n. el parámetro de dirección de llegada φ (k, n) constituye un parámetro espacial 102 determinado por el
estimador de parámetros controlable 806. El estimador de dirección 820 puede efectuar la estimación de dirección al determinar un parámetro de intensidad activo Ia(k, n) para cada sub-banda de frecuencia k y cada segmento de tiempo n y al derivar los parámetros de dirección de llegada φ (k, n) en base a los parámetros de intensidad activos Ia(k, n).
[0139] El banco de filtros 814 del estimador de formato B 812 está configurado para recibir la proporción de señal a ruido real 810 de la señal de entrada acústica 104 y para recibir una proporción de señal a ruido objetivo 822. El estimador de parámetros controlable 806 está configurado para hacer variar la longitud del bloque del banco de filtro 814 dependiendo de la diferencia entre la proporción de señal a ruido real 810 de la señal de entrada acústica 104 y la proporción de señal a ruido objetivo 822. Una salida de banco de filtros 814 es la representación de frecuencia (por ejemplo, en el dominio de STFT) de la señal de entrada acústica 104, en base a la cual el bloque de cálculo de formato B 816 calcula la representación de formato 818 de la señal de entrada acústica 104. En otras palabras, la conversión de la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia puede ser efectuada por el banco de filtros 814 en dependencia de la proporción de señal a ruido real determinada 810 de la señal de entrada acústica 104 y en dependencia de la proporción de señal a ruido objetivo 822. En breve, el cálculo de formato B puede ser efectuado por el bloque de formato B 816 en dependencia de la proporción de señal a ruido real determinado 810 y la proporción de señal a ruido objetivo 822.
[0140] En otras palabras, el determinador de características de señal 808 está configurado para determinar la proporción de señal a ruido 810 de la señal de entrada acústica 104 en el dominio de tiempo. El estimador de parámetros controlable 806 comprende el banco de filtros 814 para convertir la señal de entrada acústica 804 del dominio de tiempo a la representación de frecuencia. El estimador de parámetros controlable 806 está configurado para hacer variar la longitud de bloques del banco de filtros 814 de acuerdo con la proporción de señal a ruido determinada 810 de la señal de entrada acústica 104. El estimador de parámetros controlable 806 está configurado para recibir la proporción de señal a ruido objetivo 812 y para hacer variar la longitud del bloque del banco de filtros 814, de tal manera que la proporción de señal a ruido d la señal de entrada acústica 104 en el dominio de frecuencia coincide con la proporción de señal a ruido objetivo 824 o en otras palabras, de tal manera que la proporción de señal a ruido de la representación de frecuencia 824 de la señal de entrada acústica 104 coincide con la proporción de señal a ruido objetivo 822.
[0141] El estimador de parámetros controlable 806 mostrado en la Figura 8 puede también ser entendido como otra realización del estimador de dirección dependiente de la proporción de señal a ruido 610 mostrado en la Figura 6. La realización que es mostrada en la Figura 8 está basada en escoger una resolución temporal espectral asociada del banco de filtros 814. Como se explica anteriormente, la codificación de audio direccional opera en el dominio de STFT. Así, la señales de entrada acústicas o la señal de entrada acústica 104 en el dominio de tiempo, por ejemplo medidas con micrófonos son transformadas utilizando por ejemplo una transformación de Fourier de tiempo corto o cualquier otro banco de filtros. El estimado de formato B 812 provee luego la representación de frecuencia de tiempo corto 818 de la señal de entrada acústica 104 o en otras palabras provee la señal de formato B como se denota por la presión de sonido P (k, n) y el vector de velocidad particular U (k, n), respectivamente. La aplicación del banco de filtros 814 sobre las señales de entrada del dominio de tiempo acústicas (sobre la señal de entrada acústica 104 en el dominio de tiempo) promedia inherentemente la señal transformada (la representación de frecuencia de tiempo corto 824 de la señal de entrada acústica 104), mientras que la longitud de promediación corresponde a la longitud de transformada (o longitud de bloques) del banco de filtros 814. El procedimiento de promediación descrito en conjunción con el procesador de audio espacial 800 aprovecha esta promediación temporal inherente de la señales de entrada.
[0142] La entrada acústica o la señal de entrada acústica 104 que puede ser medida con los micrófonos, es transformada al dominio de frecuencia de tiempo corto utilizando el banco de filtros 814. La longitud de transformada
o longitud de filtro o longitud de bloque es controlada por la proporción de señal a ruido de entrada real 810 de la señal de entrada acústica 104 o de las señales de entrada acústicas y la proporción de señal a ruido objetivo deseadas 822, que debe ser obtenida mediante el proceso de promediación. En otras palabras, se desea efectuar la promediación en el banco de filtros 814, de tal manera que la proporción de señal a ruido de la representación de tiempo-frecuencia 824 de la señal de entrada acústica 104 coincide o es igual con la proporción de señal a ruido objetivo 822. La proporción de señal a ruido es determinada a partir de la señal de entrada acústica 104 o las señales de entrada acústicas en el dominio de tiempo. En el caso de una alta proporción de señal a ruido de entrada 810 una longitud de transformada más corta es escogida y viceversa una para proporción de señal a ruido de entrada baja 810, se escoge una longitud de transformada más larga. Como se explica en la sección previa, la proporción de señal a ruido de entrada 810 de la señal de entrada acústica 104 es provista por un estimador de proporción de señal a ruido del determinador de características de señal 808, mientras que la proporción de señal a ruido objetivo 822 puede ser controlada externamente, por ejemplo por un usuario. La salida del banco de filtros 814 y el cálculo de formato B subsecuente efectuado por el bloque de cálculo de formato B 816 son la señales de entrada acústicas 818, por ejemplo en el dominio de STFT, es decir P(k, n) o U (k, n). Estas señales (la señal de entrada acustica818 en el dominio de STFT) son procesadas adicionalmente, por ejemplo, con el procesamiento de audio direccional convencional en el estimador de dirección 820 para obtener la dirección x para cada sub-banda de frecuencia k y cada segmento de tiempo n.
[0143] En otras palabras, el procesador de audio espacial 800 o el estimador de dirección están basados en escoger un banco de filtro apropiado para la señal de entrada acústica 104 o para las señales de entrada acústica.
[0144] En breve, el determinador de características de señal 808 está configurado para determinar la proporción de señal a ruido 810 de la señal de entrada acústica 104 en el dominio de tiempo. El estimador de parámetros controlable 806 comprende el banco de filtros 814 configurado para convertir la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia. El estimador de parámetros controlable 806 está configurado para hacer variar la longitud de bloque del banco de filtros 814, de acuerdo con la proporción de señal a ruido determinada 810 de la señal de entrada acústica 104. Además, el estimador de parámetros controlable 806 está configurado para recibir la proporción de señal a ruido objetivo 822 y para hacer variar la longitud de bloques del banco de filtros 814, de tal manera que la proporción de señal a ruido de la señal de entrada acústica 824 en la representación de frecuencia coincide con la proporción de señal a ruido objetivo 822.
[0145] La estimación de la proporción de señal a ruido efectuada por el estimador de características de señales 608, 808 es un problema bien conocido. En lo siguiente, se describirá una implementación posible de un estimador de la proporción de señal a ruido.
Implementación posible de un estimador de SNR
[0146] En lo siguiente, se describirá una implementación posible del estimador de proporción de señal a ruido de entrada 614 en la Figura 600. El estimador de la proporción de señal a ruido descrito en lo siguiente puede ser usado por el estimador de parámetros controlable 606ª y el estimador de parámetros controlables 606b mostrado en la Figura 7ª y 7b. El estimador de la proporción de señal a ruido estima la proporción de señal a ruido de la señal de entrada acústica 104, por ejemplo en el dominio de STFT. Una implementación en dominio de tiempo (por ejemplo, implementado en el determinador de características de señal 808) puede ser realizada de manera similar.
[0147] El estimador de SNR puede estimar la SNR de las señales de entrada acústicas, por ejemplo en el dominio de STFT para cada bloque de tiempo n y banda de frecuencia k o para señal de dominio de tiempo. La SNR es estimada al calcular la energía de la señal para la bandeja de tiempo-frecuencia considerada. Sea x (k, n) la señal de entrada acústica. La energía de la señal S (k, n) puede ser determinada con
[0148] Para obtener la SNR, la proporción entre la energía de la señal y la energía de ruido N (k) es calculada, esto es
[0149] Ya que S (k, n) ya contiene ruido, un estimador de SNR más exacto en el caso de SNR baja es dado por:
[0150] Se supone que la señal de energía de ruido N (k) es constante a lo largo del tiempo n. se puede determinar para cada k de la entrada acústica. En efecto, es igual a la potencia media de la señal de entrada acústica en el caso de que ningún sonido este presente, esto es durante el silencio. Expresado en términos matemáticos
N (k) = <|x(k, n)|2>n, x (k, n ) medido durante el silencio (17)
[0151] En otras palabras, de acuerdo con algunas realizaciones de la presente invención, un determinador de características de señal está configurado para medir una señal de ruido durante una fase silente de la señal de entrada acústica 104 y para calcular la energía N (k) de la señal de ruido. El determinador de características de señal puede estar configurado además para medir una señal activa durante una fase no silente de la señal de entrada acústica 104 y para calcular la energía S (k, n) de la señal activa. El determinador de características de señal puede estar configurado además para calcular la estimador de la proporción de señal a ruido de la entrada señal acústica 104 en base a la potencia calculada N (k) de la señal de ruido y la potencia calculada S(k) de la señal activa.
[0152] Este esquema puede también ser aplicado al determinarlo de características de señal 808 con la diferencia de que el determinador de características de señal 808 determina la energía S (t) de la señal activa en el dominio de tiempo y determina la energía N (t) de la señal de ruido en el dominio de tiempo, para obtener la estimador de la proporción de señal a ruido real de la señal de entrada acústica 104 en el dominio de tiempo.
[0153] En otras palabras, los determinadores de características de señal 608, 808 están configurados para medir una señal de ruido durante una fase silente durante la fase de señal de entrada acústica 104 y para calcular la energía N (k) de señal de ruido. Los determinadores de características de señal 606, 808 están configurados para medir una señal activa durante una fase no silente de la señal de entrada acústica 104 y para calcular la energía de la señal activa (S (k, n)). Además, los determinadores de características de señal 608, 808 están configurados para determinar la proporción de señal a ruido de la señal de entrada acústica 104 en base a la energía calculada N(k) en base a la señal de ruido y la energía calculada S (k) de la señal activa.
[0154] En lo siguiente otra realización de la presente invención será descrita que efectúa una estimación de parámetros dependiente de aplausos.
Estimación de parámetros dependiente de aplauso utilizando un procesador de audio espacial de acuerdo con la Figura 9
[0155] La Figura 9 muestra un diagrama de bloques esquemático de un procesador de audio espacial 900 de acuerdo con una realización de la presente invención. La funcionalidad del procesador de audio espacial 900 puede ser similar a la funcionalidad del procesador de audio espacial 100 y el procesador de audio espacial 900 puede comprender los elementos adicionales descritos en lo siguiente. El procesador de audio espacial 900 comprende un estimador de parámetros controlables 906 y un determinador de características de señal 908. La funcionalidad del estimador de parámetros controlables 906 puede ser similar a la funcionalidad del estimador de parámetros controlables 106 y el estimador de parámetros controlables 906 puede comprender los elementos adicionales descritos en lo siguiente. La funcionalidad del determinador de características de señal 908 puede ser similar a la funcionalidad del determinador de características de señal 108 al determinar de características de señal 908 puede comprender los elementos adicionales descritos en lo siguiente.
[0156] El determinador de características de señal 908 está configurado para determinar si la señal de entrada acústica 104 comprende componentes transitorios que corresponden a señales semejantes a aplauso utilizando un detector de aplauso 910.
[0157] Las señales semejantes a aplausos definidas en la presente como señales que comprenden una secuencia temporal rápida de transitorios, por ejemplo con diferentes direcciones.
[0158] El estimador de parámetros controlable 906 comprende un banco de filtros 912 que está configurado para convertir la señal de entrada acústica 104 del dominio de tiempo a una representación de frecuencia (a un dominio de STFT) en base a una regla de cálculo de conversión. El estimador de parámetros controlable 906 está configurado para escoger la regla de cálculo de conversión para convertir la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia de una pluralidad de reglas de cálculo de conversión de acuerdo con el resultado de una determinación de características de señal efectuada por el determinador de características de señal 908. El resultado de la determinación de características de señal constituye la característica de señal determina 110 del determinador de características de señal 908. El estimador de parámetros controlables 906 escoge la regla de cálculo de conversión de una pluralidad de reglas de cálculo de conversión, de tal manera que una primera regla de cálculo de conversión de la pluralidad de reglas de cálculo de conversión es escogida para convertir la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia cuando la señal de entrada acústica comprende componentes correspondientes a aplausos y de tal manera que una segunda regla de cálculo de conversión de la pluralidad de reglas de cálculo de conversión es escogida para convertir la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia cuando la señal de entrada acústica 104 no comprende componentes correspondientes a aplausos.
[0159] En otras palabras, el estimador de parámetros controlable 906 está configurado para escoger una regla de cálculo de conversión apropiada para convertir la señal de entrada acústica 104 del dominio de tiempo a la representación de frecuencia en dependencia de la detección de aplauso.
[0160] En breve, el procesador de audio espacial 900 es mostrado como una realización ejemplar de la invención, en donde la descripción paramétrica del campo de sonido es determinada dependiendo de la características de las señales de entrada acústica o la señal de entrada acústica 104. En el caso de micrófonos que capturan el aplauso o la señal de entrada acústica 104 comprende componentes correspondientes a señales semejantes a aplauso, se usa un procesamiento especial con el fin de incrementar la exactitud de la estimación del parámetro.
[0161] El aplauso es caracterizado usualmente por una variación rápida de la dirección de llegada de sonido dentro de un periodo de tiempo muy corto. Además, la señales de sonido capturados contienen principalmente transitorios. Se ha encontrado para un análisis exacto del sonido es ventajoso un sistema que pueda resolver la variación temporal rápida de la dirección de llegada y que pueda conservar el carácter transitorio de los componentes de señal.
[0162] Estos objetivos pueden ser obtenidos al utilizar un banco de filtro con alta resolución temporal (por ejemplo, una STFT con transformada corta o longitud de bloque corta) para transformar las señales de entrada de dominio de tiempo acústicas. Cuando se usa tal banco de filtros, la resolución espectral del sistema será reducida. Esto no es problemático para señales de aplauso ya que la DOA del sonido no varía mucho a lo largo de la frecuencia debido a las características transitorias del sonido, sin embargo, se ha encontrado que una resolución espectral pequeña es problemática para otras señales tales como habla en un escenario de doble habla, en donde una cierta resolución espectral es requerida para ser aptos de distinguir entre los parlantes individuales. Se ha encontrado que una estimación de parámetros exacta puede requerir un cambio dependiente de la señal del banco de filtro (o de la transformada correspondiente o longitud correspondiente del banco de filtro) dependiendo de las características de las señales de entrada acústicas o de la señal de entrada acústica 104.
[0163] El codificador espacial 900 mostrado en la Figura 9 representa una realización posible para efectuar la conmutación dependiente de la señal del banco de filtro 912 o de escoger la regla de cálculo de conversión de banco de filtro 912. Antes de transformar las señales de entrada o la señal de entrada acústica 104 a la representación de frecuencia (por ejemplo, al dominio de STFT)con el banco de filtro 912, las señales de entrada o la señal de entrada acústica 104 se hace pasar al detector de aplausos 910 del determinador de características de señal 908. La señal de entrada acústica 104 se hace pasar al detector de aplausos 910 en el dominio de tiempo. El detector de aplausos 910 del determinador de características de señal 908 controla el banco de filtro 912 en base a la característica de señal determinada 110 (que en este caso señala así la señal de entrada acústica 104 contiene componentes correspondientes a señales semejantes a aplauso o no). Si el aplauso es detectado en las señales de entrada acústica o en la señal de entrada acústica 104, el estimador de parámetros controlables 900 cambia a un banco de filtros o en otras palabras una regla de cálculo de conversión es escogida en el banco de filtros que es apropiada para el análisis de aplauso. En el caso de que ningún aplauso este presente, un banco de filtros convencional o en otras palabras una regla de cálculo de conversión convencional que puede ser por ejemplo conocido del codificador de audio direccional 200 es usada. Después de transformar la señal de entrada acústica 104 al dominio de STFT (u otra representación de frecuencia), un procesamiento de codificación de audio direccional convencional puede ser llevado a cabo (utilizando un bloque de cálculo de formato B 914 y un bloque de estimación de parámetros 916 del estimador de parámetros controlable 906). En otras palabras, la determinación de los parámetros de codificación de audio direccionales, que constituyen los parámetros espaciales 102, que son determinados por el procesador de audio espacial 900, puede ser llevado a cabo utilizando el bloque de cálculo de formato B 914 y el bloque de estimación de parámetros 916 como se describe de acuerdo con el codificador de audio direccional 200 mostrado en la Figura 2. Los resultados son por ejemplo los parámetros de codificación de
audio direccional, esto es, dirección φ (k, n) y difusividad Ψ (k, m).
[0164] En otras palabras, el procesador de audio espacial 900 provee un concepto en el cual la estimación de los parámetros de codificación de audio direccionales es mejorada al cambiar el banco de filtros en el caso de señales de aplauso o señales semejantes a aplauso.
[0165] En breve, el estimador de parámetros controlable 906 está configurado de tal manera que la primera regla de cálculo de conversión corresponde a una resolución temporal más alta de la señal de entrada acústica en la representación de frecuencia que la segunda regla de cálculo de conversión y de tal manera que la segunda regla de cálculo de conversión corresponde a una resolución espectral más alta de la señal de entrada acústica en la representación de frecuencia que la primera regla de cálculo de conversión.
[0166] El detector de aplausos 910 del determinador de características de señal 908 puede determinar por ejemplo si la señal de entrada acústica 104 comprende señales semejantes a aplauso en base a metadatos, por ejemplo generados por el usuario.
[0167] El proceso de audio espacial 900 mostrado en la Figura 9 puede también ser aplicado al análisis de SAM de manera similar con la diferencia que ahora el banco de filtros del SAM es controlado por el detector de aplausos 910 del determinador de características de señal 908.
[0168] En una realización adicional de la presente invención, el estimador de parámetros controlable puede determinar los parámetros espaciales utilizando diferentes estrategias de estimación de parámetros independientes de la característica de señal determinada, de tal manera que para cada estrategia de estimación de parámetros, el estimador de parámetros controlable determina un conjunto de parámetros espaciales de la señal de entrada acústica. El estimador de parámetros controlable puede está configurado además para seleccionar un conjunto de parámetros espaciales de los conjuntos determinados de parámetros espaciales como el parámetro espacial de la señal de entrada acústica y por consiguiente como el resultado del proceso de estimación en dependencia de la característica de señal determinada. Por ejemplo, una primera regla de cálculo de parámetros espaciales variables puede comprender: determinar parámetros espaciales de la señal de entrada acústica para cada estrategia de estimación de parámetros y seleccionar el conjunto de parámetros espaciales determinados con una primera estrategia de estimación de parámetros. Una segunda regla de cálculo de parámetros espaciales variables puede comprender: determinar parámetros espaciales de la señal de entrada acústica para cada estrategia de estimación de parámetros y seleccionar el conjunto de parámetros espaciales determinado con una segunda estrategia de estimación de parámetros.
[0169] La Figura 10 muestra un diagrama de flujo de un procedimiento 1000 de acuerdo con una realización de la presente invención.
[0170] El procedimiento 1000 para proveer parámetros espaciales en base a una señal de entrada acústica comprende una etapa 1010 para determinar una característica de señal de la señal de entrada acústica.
[0171] El procedimiento 1000 comprende además una etapa 1020 de modificar una regla de cálculo de parámetros espaciales variables de acuerdo con la característica de señal determinada.
[0172] El procedimiento 1000 comprende además una etapa 1030 para calcular parámetros espaciales de la señal de entrada acústica de acuerdo con la regla de cálculo de parámetros espaciales variable.
[0173] Realizaciones de la presente invención son concernientes con el procedimiento que controla estrategias de estimación de parámetros en sistemas para representación de sonido espacial basados en características de señales de entrada acústicas, esto es señales de micrófono.
[0174] En lo siguiente, algunos aspectos de realizaciones de la presente invención serán resumidos.
[0175] Por lo menos algunas realizaciones de la presente invención están configuradas para recibir señales de audio de multicanal acústicas, esto es señales de micrófono. A partir de las señales de entrada acústica, realizaciones de la presente invención pueden determinar las características de señal específicas. En base a las características de señal, realizaciones de la presente invención pueden escoger el modelo de señal de mejor ajuste. El modelo de señal puede luego controlar la estrategia de estimación de parámetros. En base a la estrategia de estimación de parámetros controlada o seleccionada, realizaciones de la presente invención pueden estimar parámetros espaciales de mejora ajuste para la señal de entrada acústica dada.
[0176] La estimación de descripción de campo de sonido paramétrico depende de suposiciones específicas en las señales de entrada acústicas. Sin embargo, esta entrada puede exhibir una varianza temporal significativa y así un modelo invariante en el tiempo es frecuentemente inapropiado. En la codificación paramétrica, este problema puede ser resuelto al identificar a prior las características de señal y luego escoger la estrategia de codificación mejor de una manera variante en el tiempo. Realizaciones de la presente invención determinan las características de señal de las señales de entrada acústicas no a priori sino continuamente, por ejemplo por bloques, por ejemplo para una subbanda de frecuencia y un segmento de tiempo o para un subconjunto de sub-bandas de frecuencia y/o un subconjunto de segmento de tiempo. Realizaciones de la presente invención pueden aplicar esta estrategia a extremos frontales acústicos para el procesamiento de audio espacial paramétrico y/o codificación de audio espacial tal como codificación de audio direccional (DirAC) o micrófono de audio espacial (SAM).
[0177] Es una idea de realizaciones de la presente invención usar estrategias de procesamiento de datos dependientes de la señal dependientes en el tiempo para la estimación de parámetros en codificación de audio espacial paramétrica basada en señale de micrófono o en otras señales de entrada acústicas.
[0178] Realizaciones de la presente invención han sido descritas con un enfoque principal sobre la estimación de parámetros en codificación de audio direccional, sin embargo el concepto presentado puede también ser aplicado a otros procedimientos paramétricos, tal como un micrófono de audio espacial.
[0179] Realizaciones de la presente invención proveen una estimación de parámetros adaptables de señal para sonido espacial basado en señales de entrada acústicas.
[0180] Diferentes realizaciones de la presente invención han sido descritas. Algunas realizaciones de la presente invención efectúan una estimación de parámetros dependiendo de un intervalo estacionario de las señales de entrada. Realizaciones adicionales de la presente invención efectúan una estimación de parea metros dependiendo de situaciones de doble habla. Realizaciones adicionales de la presente invención efectúan una estimación de parámetros dependiente de una proporción de señal a ruido de las señales de entrada. Realizaciones adicionales de la presente invención efectúan una estimación de parámetros basada en la promediación del vector de intensidad de sonido dependiendo de la proporción de señal a ruido de entrada. Realizaciones adicionales de la presente invención efectúan la estimación de parámetros basada en la promediación del parámetro de dirección estimado dependiendo de la proporción de señal a ruido de entrada. Realizaciones adicionales de la presente invención efectúan la estimación de parámetros al escoger un banco de filtros apropiado o una regla de cálculo de conversión apropiada dependiendo de la proporción de señal a ruido de entrada. Realizaciones adicionales de la presente invención efectúan la estimación de parámetros dependiendo de la tonalidad de las señales de entrada acústicas. Realizaciones adicionales de la presente invención efectúan la estimación de parámetros dependiente de las señales semejantes a aplauso.
[0181] Un procesador de audio espacial puede ser en general un aparato que procesa audio espacial y genera o procesa información paramétrica.
Alternativas de implementación
[0182] Aunque algunos aspectos han sido descritos en el contexto de un aparato, es claro que estos aspectos también representan una descripción del procedimiento correspondiente en donde un bloque o dispositivo corresponde a una etapa de procedimiento o un elemento de una etapa de procedimiento. Análogamente, aspectos descritos en el contexto de una etapa de procedimiento también representan una descripción de un bloque o ítem o elemento correspondiente de un aparato correspondiente. Algunas o todas las etapas del procedimiento pueden ser ejecutadas al (o usando) un aparato de elementos físicos, por ejemplo un microprocesador, una computadora programable o un circuito electrónico. En algunas realizaciones, una o más de las etapas de procedimiento más importantes pueden ser ejecutadas mediante tal aparato.
[0183] Dependiendo de ciertos requerimientos de implementación, realizaciones de la invención pueden ser implementadas en elementos físicos o en elementos de programación. La implementación puede ser efectuada utilizando un medio de almacenamiento digital, por ejemplo un disco flexible, un Dvd, un bluy ray, un CD, un ROM, un PROM, un EPROM, un EEPROM o una memoria instantánea, que tiene señales de control que se pueden leer electrónicamente almacenadas en la misma que cooperan (o son aptas de cooperar) con un sistema de computadora programable, de tal manera que el procedimiento respectivo es efectuado. Por consiguiente, el medio de almacenamiento digital puede ser leíble por computadora.
[0184] Algunas realizaciones de acuerdo con la invención comprenden un portador de datos que tiene señales de control que se pueden leer electrónicamente que son aptas de cooperar con un sistema de computadora programable, de tal manera que uno de los procedimientos descritos en la presente es efectuado.
[0185] En general, realizaciones de la presente invención pueden ser implementadas como un producto de programa de computadora con un código de programa, el código de programa es operativo para efectuar uno de los procedimientos cuando el producto de programa de computadora se ejecuta en una computadora. Los códigos de programa pueden por ejemplo ser almacenados en un portador que se puede leer por la máquina.
[0186] Otras realizaciones comprenden el programa de computadora para efectuar uno de los procedimientos descritos en la presente, almacenados en un portador que se puede leer por la máquina.
[0187] En otras palabras, una realización del procedimiento de la invención es por consiguiente un programa de computadora que tiene códigos de programa para efectuar uno de los procedimientos descritos en la presente, cuando el programa de computadora se ejecuta en una computadora.
[0188] Una realización adicional de los procedimientos de la invención es por consiguiente un portador de datos (o medio de almacenamiento digital o medio que se puede leer por computadora) que comprende, registrado sobre el mismo, el programa de computadora para efectuar uno de los procedimientos descritos en la presente.
[0189] Una realización adicional del procedimiento de la invención es por consiguiente una corriente de datos o una secuencia de señales que representan el programa de computadora para efectuar uno de los procedimientos descritos en la presente. La corriente de datos o la secuencia de señales puede por ejemplo estar configurada para ser transferida vía una conexión de comunicación de datos, por ejemplo vía internet.
[0190] Una realización adicional comprende un medio de procesamiento, por ejemplo una computadora o un dispositivo lógico programable configurado para o apto para efectuar uno de los procedimientos descritos en la presente.
[0191] Una realización adicional comprende una computadora que tiene instalado en la misma el programa de computadora para efectuar uno de los procedimientos descritos en la presente.
[0192] En algunas realizaciones, un dispositivo lógico programable (por ejemplo, un arreglo de compuerta programable en el campo) puede ser usado para efectuar algunas o todas las funcionalidades de los procedimientos descritos en la presente. En algunas realizaciones, un arreglo de compuerta programable en el campo puede cooperar con un microprocesador con el fin de efectuar uno de los procedimientos descritos en la presente. En general, los procedimientos son efectuados preferiblemente por cualquier aparato de elementos físicos.
[0193] Las realizaciones descritas anteriormente son solo ilustrativas para los principios de la presente invención. Se comprenderá que modificaciones y variaciones de los arreglos y los detalles descritos en la presente se harán evidentes para otros experimentados en el arte. Se pretende por consiguiente estar limitados solo por el alcance de las reivindicaciones de patentes pendientes y no por los detalles específicos presentados a manera de descripción y explicación de las realizaciones de la presente.

Claims (15)

  1. REIVINDICACIONES
    1. Procesador audio espacial para suministrar parámetros espaciales (102, q(k, n), ψ(k, n)) a partir de una señal de entrada acústica (104), comprendiendo el procesador audio espacial:
    un determinador de características de señal (108, 308, 408, 508, 608, 808, 908) configurado para determinar una característica de señal (110, 710, 810) de la señal de entrada acústica (104), donde la señal de entrada acústica
    (104) comprende al menos una componente direccional; y
    un estimador de parámetro controlable (106, 306, 406, 506, 606, 606a, 606b, 806, 906) destinado a calcular los parámetros espaciales (102, q (k, n), ψ(k, n)) para la señal de entrada acústica (104) en función de una regla de cálculo de parámetro espacial variable; en el cual el estimador de parámetro controlable (106, 306, 406, 506, 606, 606a, 606b, 806, 906) está configurado para modificar la regla de cálculo de parámetro espacial variable en función de la característica de señal determinada (110, 710, 810).
  2. 2.
    Procesador audio espacial según la reivindicación 1, en el cual los parámetros espaciales (102) comprenden una dirección del sonido, y/o un carácter difuso del sonido, y/o una medida estadística de la dirección del sonido.
  3. 3.
    Procesador audio espacial según la reivindicación 1 ó la 2, en el cual el estimador de parámetro controlable (106, 306, 406, 506, 606, 606a, 606b, 806, 906) está configurado para calcular los parámetros espaciales (102, q (k, n),
    ψ(k, n)) como parámetros de codificación audio direccional que comprenden un parámetro de carácter difuso (ψ(k,
    n)) para un intervalo de tiempo (n) y para una sub-banda de frecuencias (k) y/o un parámetro de dirección de llegada (q (k, n)) para un intervalo de tiempo (n) y una sub-banda de frecuencias (k) o como parámetros de micrófono audio espacial.
  4. 4.
    Procesador audio espacial según cualquiera de las reivindicaciones 1 a 3, en el cual el determinador de las características de señal (308) está configurado para determinar un intervalo de condición de estacionaria de la señal de entrada acústica (104);
    y en el cual el estimador de parámetro controlable (306) está configurado para modificar la regla de cálculo de parámetro espacial variable según el intervalo de condición de estacionaria determinado, de manera que un periodo de determinación de media para calcular los parámetros espaciales (102, ψ(k, n), q (k, n)) sea relativamente más largo para un intervalo de condición de estacionaria relativamente más largo y sea relativamente más corto para un intervalo de condición de estacionaria relativamente más corto.
  5. 5.
    Procesador audio espacial según la reivindicación 4, en el cual el estimador de parámetro controlable (306) está configurado para calcular los parámetros espaciales (102, ψ(k, n)) a partir de la señal de entrada acústica (104) para un intervalo de tiempo (n) y una sub-banda de frecuencias (k) en función de al menos una determinación de la media en el tiempo de los parámetros de señal (Ia(k, n)) de la señal de entrada acústica (104), y en el cual el estimador de parámetro controlable (306) está configurado para hacer variar un periodo de determinación de media de la determinación de la media en el tiempo de los parámetros de señal (Ia(k, n)) de la señal de entrada acústica (104) según el intervalo de condición de estacionaria determinado.
  6. 6.
    Procesador audio espacial según la reivindicación 5, en el cual el estimador de parámetro controlable (306) está configurado para aplicar la determinación de la media en el tiempo de los parámetros de señal (Ia(k, n)) de la señal de entrada acústica (104) con ayuda de un filtro pasa-bajos; en el cual el estimador de parámetro controlable (306) está configurado para ajustar una ponderación entre un parámetro de señal actual de la señal de entrada acústica (104) y de los parámetros de señal anteriores de la señal
    de entrada acústica (104) a partir de un parámetro de ponderación (α), de manera que el periodo de determinación de media esté basado en el parámetro de ponderación (α), de manera que el peso del parámetro de señal actual, comparado con el peso de los parámetros de señal anteriores, sea relativamente grande para un intervalo de condición de estacionaria relativamente corto y de manera que el peso del parámetro de señal actual, comparado con el peso de los parámetros de señal anteriores, sea relativamente reducido para un intervalo de condición de estacionaria relativamente largo.
  7. 7.
    Procesador audio espacial según cualquiera de las reivindicaciones 1 a 6, en el cual el estimador de parámetro controlable (406, 506, 906) está configurado para seleccionar una regla de cálculo de parámetro espacial (410, 412) entre una pluralidad de reglas de cálculo de parámetro espacial (410, 412) para calcular los parámetros espaciales (102, ψ(k, n), q (k, n)) en función de la característica de señal determinada (110).
  8. 8.
    Procesador audio espacial según la reivindicación 7, en el cual el estimador de parámetro controlable (406, 506) está configurado de manera que una primera regla de cálculo de parámetro espacial (410) entre la pluralidad de reglas de cálculo de parámetro espacial (410, 412) sea diferente de una segunda regla de cálculo de parámetro espacial (412) entre la pluralidad de reglas de cálculo de parámetro espacial (410, 412) y donde la primera regla de
    cálculo de parámetro espacial (410) y la segunda regla de cálculo de parámetro espacial (412) se seleccionan de entre un grupo compuesto por:
    determinación de la media en el tiempo en una pluralidad de intervalos de tiempo en una sub-banda de frecuencias, determinación de la media de frecuencia en una pluralidad de sub-bandas de frecuencias en un intervalo de tiempo, determinación de la media en el tiempo y determinación de la media de frecuencia y sin determinación de media.
  9. 9.
    Procesador audio espacial según cualquiera de las reivindicaciones 1 a 8, en el cual el determinador de características de señal (408) está configurado para determinar si la señal de entrada acústica (104) comprende componentes de fuentes de sonido diferentes al mismo tiempo o en el cual el determinador de características de la señal (508) está configurado para determinar una tonalidad de la señal de entrada acústica (104); en el cual el estimador de parámetro controlable (406, 506) está configurado para seleccionar, según un resultado de la determinación de las características de señal, una regla de cálculo de parámetro espacial (410, 412) de entre una pluralidad de reglas de cálculo de parámetro espacial (410, 412), para calcular los parámetros espaciales (102, ψ(k, n), q (k, n)) de manera que se seleccione una primera regla de cálculo de parámetro espacial (410) entre la pluralidad de reglas de cálculo de parámetro espacial (410, 412) cuando la señal de entrada acústica (104) comprende componentes de cómo mucho una fuente de sonido o cuando la tonalidad de la señal de entrada acústica (104) está por debajo de un nivel umbral de tonalidad determinado y de manera que se seleccione una segunda regla de cálculo de parámetro espacial (412) entre la pluralidad de reglas de cálculo de parámetro espacial (410, 412) cuando la señal de entrada acústica (104) comprende componentes además de una fuente de sonido al mismo tiempo o cuando la tonalidad de la señal de entrada acústica (104) está por encima de un nivel umbral de tonalidad determinado; en el cual la primera regla de cálculo de parámetro espacial (410) comprende una determinación de media de frecuencia en un primer número de sub-bandas de frecuencias (k) y la segunda regla de cálculo de parámetro espacial (412) comprende una determinación de media de frecuencia en un segundo número de sub-bandas de frecuencias (k) o no comprende determinación de media de frecuencia; y en el cual el primer número es más grande que el segundo número.
  10. 10.
    Procesador audio espacial según cualquiera de las reivindicaciones 1 a 9, en el cual el determinador de características de señal (608) está configurado para determinar una relación señal ruido (110, 710) de la señal de entrada acústica (104); en el cual el estimador de parámetro controlable (606, 606a, 606b) está configurado para aplicar una determinación de media en el tiempo en una pluralidad de intervalos de tiempo en una sub-banda de frecuencias (k), una determinación de media en frecuencia en una pluralidad de sub-bandas de frecuencias (k) en un intervalo de tiempo (n), una determinación de media espacial o una combinación de estas últimas, y en el cual el estimador de parámetro controlable (606, 606a, 606b) está configurado para hacer variar un periodo de determinación de la media en el tiempo, de determinación de la media en frecuencia, de determinación de la media espacial, o de la combinación de estas últimas según la relación señal-ruido determinada (110, 710) de manera que el periodo de determinación de la media sea relativamente más largo para una relación señal-ruido (110, 710) relativamente más reducida de la señal acústica de entrada y de manera que el periodo de determinación de media sea relativamente más corto para una relación señal-ruido (110, 710) relativamente más grande de la señal de entrada acústica (104).
  11. 11.
    Procesador audio espacial según la reivindicación 10, en el cual el estimador de parámetro controlable (606a, 606b) está configurado para aplicar la determinación de la media en el tiempo a un subconjunto de parámetros de intensidad (Ia(k, n)) en una pluralidad de intervalos de tiempo y una sub-banda de frecuencias (k) o a un subconjunto de parámetros de dirección de llegada (q (k, n)) en una pluralidad de intervalos de tiempo y una sub-banda de frecuencias (k); y en el cual un número de parámetros de intensidad (Ia(k, n)) en el subconjunto de parámetros de intensidad (Ia(k, n))
    o un número de parámetros de dirección de llegada (q (k, n)) en el subconjunto de parámetros de dirección de llegada (q (k, n)) corresponde al periodo de determinación de la media en el tiempo de la determinación de la media en el tiempo, de manera que el número de parámetros de intensidad (Ia(k, n)) en el subconjunto de parámetros de intensidad (Ia(k, n)) o el número de parámetros de dirección de llegada (q (k, n)) en el subconjunto de parámetros de dirección de llegada (q (k, n)) sea relativamente más reducido para una relación señal-ruido (110, 710) relativamente más grande de la señal de entrada acústica (104) y de manera que el número de parámetros de intensidad (Ia (k, n)) en el subconjunto de parámetros de intensidad (Ia(k, n)) o el número de parámetros de dirección de llegada (q (k, n)) en el subconjunto de parámetros de dirección de llegada (q (k, n)) sea relativamente más grande para una relación señal-ruido (110, 710) relativamente más reducida de la señal de entrada acústica (104).
  12. 12.
    Procesador audio espacial según cualquiera de las reivindicaciones 10 a 11, en el cual el determinador de características de señal (608) está configurado para suministrar la relación señal-ruido (110, 710) de la señal de entrada acústica (104) como una pluralidad de parámetros de relación señal-ruido de la señal de entrada acústica (104), estando cada parámetro de relación señal-ruido de la señal de entrada acústica (104) asociado a una subbanda de frecuencias y un intervalo de tiempo, en el cual el estimador de parámetro controlable (606a, 606b) está configurado para recibir una relación señal-ruido diana (712) como una pluralidad de parámetros de relación señalruido diana, estando cada parámetro de relación señal-ruido diana asociado a una sub-banda de frecuencias y un
    intervalo de tiempo, y en el cual el estimador de parámetro controlable (606a, 606b) está configurado para hacer variar el periodo de determinación de la media de la determinación de la media en el tiempo según un parámetro de relación señal-ruido actual de la señal acústica de entrada, de manera que un parámetro de relación señal-ruido actual (102) trata de corresponder a un parámetro de relación señal-ruido diana actual.
  13. 13.
    Procesador audio espacial según cualquiera de las reivindicaciones 1 a 12, en el cual el determinador de características de señal (908) está configurado para determinar si la señal de entrada acústica (104) comprende componentes transitorios que corresponden a unas señales de tipo aplausos; en el cual el estimador de parámetro controlable (906) comprende un banco de filtros (912) que está configurado para convertir la señal de entrada acústica (104) de un ámbito temporal en una representación de frecuencia a partir de una regla de cálculo de conversión, y en el cual el estimador de parámetro controlable (906) está configurado para seleccionar la regla de cálculo de conversión para convertir la señal de entrada acústica (104) del ámbito temporal en una representación de frecuencia entre una pluralidad de reglas de cálculo de conversión según el resultado de la determinación de características de señal, de manera que se seleccione una primera regla de cálculo de conversión entre la pluralidad de reglas de cálculo de conversión para convertir la señal de entrada acústica (104) del ámbito temporal a una representación de frecuencia cuando la señal acústica de entrada comprende componentes correspondientes a unas señales de tipo aplausos, y de manera que se seleccione una segunda regla de cálculo de conversión entre la pluralidad de reglas de cálculo de conversión para convertir la señal de entrada acústica (104) del ámbito temporal a una representación de frecuencia cuando la señal de entrada acústica no comprende componentes correspondiente a unas señales de tipo aplausos.
  14. 14.
    Procedimiento para suministrar parámetros espaciales a partir de una señal de entrada acústica, comprendiendo el procedimiento:
    determinar (1010) una característica de señal de la señal de entrada acústica, donde la señal acústica de entrada comprende al menos una componente direccional; modificar (1020) una regla de cálculo de parámetro espacial variable según la característica de señal determinada, y calcular (1030) los parámetros espaciales de la señal acústica de entrada según la regla de cálculo de parámetro espacial variable.
  15. 15.
    Programa de ordenador que tiene un código de programa adaptado para realizar, cuando se ejecuta en un ordenador, el procedimiento según la reivindicación 14.
ES11708299.0T 2010-03-29 2011-03-16 Procesador de audio espacial y método para proveer parámetros espaciales en base a una señal de entrada acústica Active ES2452557T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US31868910P 2010-03-29 2010-03-29
US318689P 2010-03-29
EP10186808.1A EP2375410B1 (en) 2010-03-29 2010-10-07 A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal
EP10186808 2010-10-07
PCT/EP2011/053958 WO2011120800A1 (en) 2010-03-29 2011-03-16 A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal

Publications (1)

Publication Number Publication Date
ES2452557T3 true ES2452557T3 (es) 2014-04-01

Family

ID=44023044

Family Applications (2)

Application Number Title Priority Date Filing Date
ES10186808.1T Active ES2656815T3 (es) 2010-03-29 2010-10-07 Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica
ES11708299.0T Active ES2452557T3 (es) 2010-03-29 2011-03-16 Procesador de audio espacial y método para proveer parámetros espaciales en base a una señal de entrada acústica

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES10186808.1T Active ES2656815T3 (es) 2010-03-29 2010-10-07 Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica

Country Status (14)

Country Link
US (2) US9626974B2 (es)
EP (2) EP2375410B1 (es)
JP (1) JP5706513B2 (es)
KR (1) KR101442377B1 (es)
CN (1) CN102918588B (es)
AU (1) AU2011234772B2 (es)
BR (1) BR112012025013B1 (es)
CA (1) CA2794946C (es)
ES (2) ES2656815T3 (es)
HK (1) HK1180824A1 (es)
MX (1) MX2012011203A (es)
PL (1) PL2543037T3 (es)
RU (1) RU2596592C2 (es)
WO (1) WO2011120800A1 (es)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9462399B2 (en) 2011-07-01 2016-10-04 Dolby Laboratories Licensing Corporation Audio playback system monitoring
JP5752324B2 (ja) * 2011-07-07 2015-07-22 ニュアンス コミュニケーションズ, インコーポレイテッド 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US20140358565A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
EP3017446B1 (en) 2013-07-05 2021-08-25 Dolby International AB Enhanced soundfield coding using parametric component generation
CN104299615B (zh) * 2013-07-16 2017-11-17 华为技术有限公司 一种声道间电平差处理方法及装置
KR102231755B1 (ko) * 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR102112018B1 (ko) * 2013-11-08 2020-05-18 한국전자통신연구원 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
EP2884491A1 (en) * 2013-12-11 2015-06-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraction of reverberant sound using microphone arrays
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9462406B2 (en) 2014-07-17 2016-10-04 Nokia Technologies Oy Method and apparatus for facilitating spatial audio capture with multiple devices
CN105336333B (zh) * 2014-08-12 2019-07-05 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
CN108886649B (zh) * 2016-03-15 2020-11-10 弗劳恩霍夫应用研究促进协会 用于生成声场描述的装置、方法或计算机程序
EP3264802A1 (en) * 2016-06-30 2018-01-03 Nokia Technologies Oy Spatial audio processing for moving sound sources
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN107785025B (zh) * 2016-08-25 2021-06-22 上海英波声学工程技术股份有限公司 基于房间脉冲响应重复测量的噪声去除方法及装置
EP3297298B1 (en) 2016-09-19 2020-05-06 A-Volute Method for reproducing spatially distributed sounds
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US10020813B1 (en) * 2017-01-09 2018-07-10 Microsoft Technology Licensing, Llc Scaleable DLL clocking system
JP6788272B2 (ja) * 2017-02-21 2020-11-25 オンフューチャー株式会社 音源の検出方法及びその検出装置
US11232804B2 (en) 2017-07-03 2022-01-25 Dolby International Ab Low complexity dense transient events detection and coding
US10863269B2 (en) * 2017-10-03 2020-12-08 Bose Corporation Spatial double-talk detector
US10165388B1 (en) * 2017-11-15 2018-12-25 Adobe Systems Incorporated Particle-based spatial audio visualization
AU2018368589B2 (en) * 2017-11-17 2021-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
US11122354B2 (en) 2018-05-22 2021-09-14 Staton Techiya, Llc Hearing sensitivity acquisition methods and devices
CN109831731B (zh) * 2019-02-15 2020-08-04 杭州嘉楠耘智信息科技有限公司 音源定向方法及装置和计算机可读存储介质
CN110007276B (zh) * 2019-04-18 2021-01-12 太原理工大学 一种声源定位方法及***
US10964305B2 (en) 2019-05-20 2021-03-30 Bose Corporation Mitigating impact of double talk for residual echo suppressors
GB2598932A (en) * 2020-09-18 2022-03-23 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
CN112969134B (zh) * 2021-02-07 2022-05-10 深圳市微纳感知计算技术有限公司 麦克风异常检测方法、装置、设备及存储介质
US20230047859A1 (en) * 2021-08-13 2023-02-16 Harman International Industries, Incorporated Systems and methods for a signal processing device
CN114639398B (zh) * 2022-03-10 2023-05-26 电子科技大学 一种基于麦克风阵列的宽带doa估计方法
CN114949856A (zh) * 2022-04-14 2022-08-30 北京字跳网络技术有限公司 游戏音效的处理方法、装置、存储介质及终端设备
GB202211013D0 (en) * 2022-07-28 2022-09-14 Nokia Technologies Oy Determining spatial audio parameters

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3812887B2 (ja) * 2001-12-21 2006-08-23 富士通株式会社 信号処理システムおよび方法
JP2005533271A (ja) * 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
RU2383941C2 (ru) * 2005-06-30 2010-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для кодирования и декодирования аудиосигналов
JP2007178684A (ja) * 2005-12-27 2007-07-12 Matsushita Electric Ind Co Ltd マルチチャンネルオーディオ復号装置
US20080232601A1 (en) * 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
WO2009084918A1 (en) * 2007-12-31 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2254110B1 (en) * 2008-03-19 2014-04-30 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
BR122020009727B1 (pt) * 2008-05-23 2021-04-06 Koninklijke Philips N.V. Método
PT2146344T (pt) * 2008-07-17 2016-10-13 Fraunhofer Ges Forschung Esquema de codificação/descodificação de áudio com uma derivação comutável
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
CN101673549B (zh) * 2009-09-28 2011-12-14 武汉大学 一种移动音源空间音频参数预测编解码方法及***

Also Published As

Publication number Publication date
CN102918588B (zh) 2014-11-05
CA2794946A1 (en) 2011-10-06
BR112012025013A2 (pt) 2020-10-13
RU2012145972A (ru) 2014-11-27
RU2596592C2 (ru) 2016-09-10
KR101442377B1 (ko) 2014-09-17
PL2543037T3 (pl) 2014-08-29
EP2543037B1 (en) 2014-03-05
AU2011234772B2 (en) 2014-09-04
CN102918588A (zh) 2013-02-06
EP2543037B8 (en) 2014-04-23
JP2013524267A (ja) 2013-06-17
KR20130007634A (ko) 2013-01-18
MX2012011203A (es) 2013-02-15
BR112012025013B1 (pt) 2021-08-31
WO2011120800A1 (en) 2011-10-06
EP2543037A1 (en) 2013-01-09
HK1180824A1 (en) 2013-10-25
US20170134876A1 (en) 2017-05-11
US9626974B2 (en) 2017-04-18
JP5706513B2 (ja) 2015-04-22
US20130022206A1 (en) 2013-01-24
ES2656815T3 (es) 2018-02-28
EP2375410B1 (en) 2017-11-22
EP2375410A1 (en) 2011-10-12
AU2011234772A1 (en) 2012-11-08
US10327088B2 (en) 2019-06-18
CA2794946C (en) 2017-02-28

Similar Documents

Publication Publication Date Title
ES2452557T3 (es) Procesador de audio espacial y método para proveer parámetros espaciales en base a una señal de entrada acústica
US10334357B2 (en) Machine learning based sound field analysis
Baumgarte et al. Binaural cue coding-Part I: Psychoacoustic fundamentals and design principles
US10204614B2 (en) Audio scene apparatus
US11223924B2 (en) Audio distance estimation for spatial audio processing
GB2559765A (en) Two stage audio focus for spatial audio processing
CN113597776B (zh) 参数化音频中的风噪声降低
BR112013014173B1 (pt) Aparelho e método para decompor um sinal de entrada utilizando uma curva de referência pré-calculada
JP2015502716A (ja) 空間パワー密度に基づくマイクロフォン位置決め装置および方法
GB2572650A (en) Spatial audio parameters and associated spatial audio playback
ES2755675T3 (es) Aparato y método para escalado de señales centrales y mejora estereofónica basada en una relación señal a mezcla a dos canales
JP5449624B2 (ja) 到来方向推定値から曖昧性を解消する装置及び方法
BR112021007807A2 (pt) analisador, avaliador de similaridade, codificador e decodificador de áudio, conversor de formato, renderizador, métodos e representação de áudio
US20220060824A1 (en) An Audio Capturing Arrangement
EP3613043A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
Herzog et al. Signal-Dependent Mixing for Direction-Preserving Multichannel Noise Reduction