ES2950001T3

ES2950001T3 - Rastreo de cabeza para sistema de salida binaural paramétrica

Info

Publication number: ES2950001T3
Application number: ES20157296T
Authority: ES
Inventors: Dirk Jeroen Breebaart; Kristofer Kjoerling; Mark F Davis; David Matthew Cooper; David S Mcgrath; Harald Mundt; Rhonda Wilson
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2015-11-17
Filing date: 2016-11-17
Publication date: 2023-10-04
Anticipated expiration: 2036-11-17
Also published as: BR112018010073A2; CA3005113C; KR20180082461A; KR102586089B1; CN113038354A; EP3378239A1; EP3378239B1; CN108476366A; EP3716653A1; IL259348A; WO2017087650A1; EP4236375A2; CA3005113A1; AU2020200448B2; CN108476366B; US20180359596A1; SG11201803909TA; JP6740347B2; CA3080981C; KR20230145232A

Abstract

Un método para codificar audio de entrada basado en canal u objeto para reproducción, incluyendo el método los pasos de: (a) representar inicialmente el audio de entrada basado en canal u objeto en una presentación de salida inicial; (b) determinar una estimación del componente de audio dominante a partir del audio de entrada basado en canal u objeto y determinar una serie de factores de ponderación del componente de audio dominante para mapear la presentación de salida inicial en el componente de audio dominante; (c) determinar una estimación de la dirección o posición del componente de audio dominante; y (d) codificar la presentación de salida inicial, los factores de ponderación del componente de audio dominante, la dirección o posición del componente de audio dominante como la señal codificada para reproducción. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Rastreo de cabeza para sistema de salida binaural paramétrica

Referencia cruzada a solicitud relacionada

Esta solicitud es una solicitud divisional europea de la solicitud de patente Euro-PCT EP 16806384.0 (Referencia: D15020EP01), presentada el 17 de noviembre de 2016.

Campo de la invención

La presente invención proporciona un sistema y un medio de almacenamiento legible por ordenador para una forma mejorada de salida binaural paramétrica cuando se utiliza opcionalmente el rastreo de cabeza.

Referencias

Gundry, K., "A New Matrix Decoder for Surround Sound," AES 19th International Conf., Schloss Elmau, Alemania, 2001.

Vinton, M., McGrath, D., Robinson, C., Brown, P., "Next generation surround decoding and up-mixing for consumer and professional applications", AES 57th International Conf., Hollywood, CA, EE.UU., 2015.

Wightman, F. L., y Kistler, D. J. (1989). "Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858-867.

Norma ISO/IEC 14496-3:2009 - Tecnología de la información - Codificación de objetos audiovisuales - - Parte 3: Audio, 2009.

Mania, Katerina, et al. "Perceptual sensitivity to head tracking latency in virtual environments with varying degrees of scene complexity." Proceedings of the 1 st Symposium on Applied perception in graphics and visualization. ACM, 2004.

Allison, R. S., Harris, L. R., Jenkin, M., Jasiobedzka, U., y Zacher, J. E. (2001, March). Tolerance of temporal delay in virtual environments. In Virtual Reality, 2001. Proceedings. IEEE (págs. 247-254). IEEE.

Van de Par, Steven, y Armin Kohlrausch. "Sensitivity to auditory-visual asynchrony and to jitter in auditory-visual timing." Electronic Imaging. International Society for Optics and Photonics, 2000.

Antecedentes de la invención

Cualquier discusión sobre la técnica anterior a lo largo de la especificación no debe considerarse de ninguna manera como una admisión de que dicha técnica es ampliamente conocida o forma parte del conocimiento general común en el campo.

La creación, codificación, distribución y reproducción de contenido de audio se basa tradicionalmente en canales. Es decir, se prevé un sistema de reproducción de destino específico para el contenido en todo el ecosistema de contenido. Ejemplos de tales sistemas de reproducción de destino son mono, estéreo, 5.1,7.1, 7.1.4 y similares. Si el contenido se va a reproducir en un sistema de reproducción diferente al previsto, se puede aplicar una mezcla descendente o ascendente. Por ejemplo, el contenido 5.1 se puede reproducir en un sistema de reproducción estéreo mediante el uso de ecuaciones específicas de mezcla descendente conocidas. Otro ejemplo es la reproducción de contenido estéreo a través de una configuración de altavoces 7.1, que puede comprender un llamado proceso de mezcla ascendente que podría o no ser guiado por la información presente en la señal estéreo, tal como la utilizada por los llamados codificadores matriciales como Dolby Pro Logic. Para guiar el proceso de mezcla ascendente, la información sobre la posición original de las señales antes de la mezcla descendente puede señalizarse implícitamente mediante la inclusión de relaciones de fase específicas en las ecuaciones de mezcla descendente, o dicho de otra manera, aplicando ecuaciones de mezcla descendente de valor complejo. Un ejemplo bien conocido de tal método de mezcla descendente utilizando coeficientes de mezcla descendente de valor complejo para contenido con altavoces colocados en dos dimensiones es LtRt (Vinton et al. 2015).

La señal de mezcla descendente (estéreo) resultante se puede reproducir en un sistema de altavoces estéreo, o se puede mezclar en configuraciones de altavoces con altavoces envolventes y/ o de altura. La ubicación prevista de la señal puede derivarse mediante un mezclador ascendente a partir de las relaciones de fase entre canales. Por ejemplo, en una representación estéreo LtRt, una señal que está fuera de fase (por ejemplo, tiene un coeficiente de correlación cruzada normalizado de forma de onda entre canales cerca de -1) idealmente debería ser reproducida por uno o más altavoces envolventes, mientras que un coeficiente de correlación positivo (cercano a 1) indica que la señal debe ser reproducida por los altavoces frente al oyente.

Se han desarrollado una variedad de algoritmos y estrategias de mezcla ascendente que difieren en sus estrategias para recrear una señal multicanal a partir de la mezcla descendente estéreo. En mezcladores ascendentes relativamente simples, el coeficiente de correlación cruzada normalizado de las señales de forma de onda estéreo se rastrea en función del tiempo, mientras que la(s) señal(es) son dirigidas a los altavoces delanteros o traseros dependiendo del valor del coeficiente de correlación cruzada normalizado. Este enfoque funciona bien para un contenido relativamente simple en el que solo un objeto auditivo está presente simultáneamente. Los mezcladores ascendentes más avanzados se basan en información estadística que se deriva de regiones de frecuencia específicas para controlar el flujo de señal desde la entrada estéreo a la salida multicanal (Gundry 2001, Vinton et al.

2015). Específicamente, un modelo de señal basado en un componente dirigido o dominante y una señal residual estéreo (difusa) se puede emplear en mosaicos individuales de tiempo/frecuencia como se describe en el documento EP1070438. Además de la estimación del componente dominante y las señales residuales, también se calcula un ángulo de dirección (en acimut, posiblemente aumentado con elevación), y posteriormente la señal del componente dominante se dirige a uno o más altavoces para reconstruir la posición (calculada) durante la reproducción.

El uso de codificadores matriciales y decodificadores/mezcladores ascendentes no se limita al contenido basado en canales. Los desarrollos recientes en la industria del audio se basan en objetos de audio en lugar de canales, en los que uno o más objetos consisten en una señal de audio y metadatos asociados que indican, entre otras cosas, su posición prevista en función del tiempo. Para dicho contenido de audio basado en objetos, también se pueden usar codificadores matriciales, como se describe en Vinton et al. 2015. En dicho sistema, las señales de los objetos se mezclan de forma descendente en una representación de señal estéreo con coeficientes de mezcla descendente que dependen de los metadatos posicionales del objeto.

La mezcla ascendente y la reproducción de contenido codificado en matriz no se limitan necesariamente a la reproducción en altavoces. La representación de un componente dirigido o dominante que consiste en una señal de componente dominante y una posición (prevista) permite la reproducción en auriculares mediante convolución con respuestas de impulso relacionadas con la cabeza (HRIR) (Wightman et al, 1989). Un esquema simple de un sistema que implementa este método se muestra 1 en la figura 1. La señal de entrada 2, en un formato codificado en matriz, se analiza primero 3 para determinar la dirección y magnitud de componente dominante. La señal de componente dominante se convoluciona 4, 5 por medio de un par de HRIRs derivados de una búsqueda 6 basada en la dirección del componente dominante, para calcular una señal de salida para la reproducción de auriculares 7 de modo que la señal de reproducción se perciba como proveniente de la dirección que fue determinada por la etapa de análisis de componente dominante 3. Este esquema puede aplicarse en señales de banda ancha así como en subbandas individuales, y puede aumentarse con procesamiento dedicado de señales residuales (o difusas) de varias maneras.

El uso de codificadores matriciales es muy adecuado para la distribución y reproducción en receptores AV, pero puede ser problemático para aplicaciones móviles que requieren bajas velocidades de transmisión de datos y bajo consumo de energía.

Independientemente de si se utiliza contenido basado en canales o en objetos, los codificadores y decodificadores de matriz dependen de relaciones de fase entre canales bastante precisas de las señales que se distribuyen desde el codificador de matriz al decodificador. En otras palabras, el formato de distribución debe en gran medida preservar la forma de onda. Tal dependencia de la preservación de la forma de onda puede ser problemática en condiciones restringidas de velocidad de bits, en las que los códecs de audio emplean métodos paramétricos en lugar de herramientas de codificación de forma de onda para obtener una mejor calidad de audio. Se conocen generalmente ejemplos de tales herramientas paramétricas que no conservan la forma de onda a menudo que se denominan replicación de banda espectral, estéreo paramétrico, codificación de audio espacial y similares, tal como se implementa en los códecs de audio MPEG-4 (ISO/ IEC 14496-3: 2009)

Como se expone en la sección anterior, el mezclador ascendente consiste en análisis y dirección (o convolución HRIR) de señales. Para dispositivos con alimentación, como los receptores AV, esto generalmente no causa problemas, pero para los dispositivos que funcionan con baterías, como teléfonos móviles y tabletas, la complejidad computacional y los requisitos de memoria correspondientes asociados con estos procesos a menudo no son deseables debido a su impacto negativo en la vida de la batería.

El análisis anteriormente mencionado normalmente también introduce latencia de audio adicional. Tal latencia de audio no es deseable porque (1) requiere demoras de video para mantener la sincronización de labios de audio y video que requiere una cantidad significativa de memoria y potencia de procesamiento, y (2) puede causar asincronía/ latencia entre los movimientos de la cabeza y la reproducción de audio en el caso del rastreo de cabeza. La mezcla descendente codificada en matriz también puede no sonar de forma óptima en altavoces estéreo o auriculares, debido a la posible presencia de componentes de señal fuertes fuera de fase.

Compendio de la invención

Un objeto de la invención es proporcionar una forma mejorada de salida binaural paramétrica.

Según un primer aspecto de la presente invención, se proporciona un sistema de acuerdo con la reivindicación 1. En algunas realizaciones, las operaciones incluyen además determinar una estimación de una mezcla residual que es la presentación de salida inicial menos una representación del componente de audio dominante o la estimación del mismo. Las operaciones también pueden incluir generar una mezcla binaural anecoica del canal o el audio de entrada basado en objetos, y determinar una estimación de una mezcla residual, en donde la estimación de la mezcla residual puede ser la mezcla binaural anecoica menos una representación del componente de audio dominante o la estimación de los mismos. Además, las operaciones pueden incluir la determinación de una serie de coeficientes de matriz residuales para mapear la presentación de salida inicial para la estimación de la mezcla residual.

La presentación de salida inicial puede comprender una presentación de auriculares o altavoces. El audio de entrada basado en canal u objeto puede estar en mosaico de tiempo y frecuencia y la etapa de codificación puede repetirse para una serie de etapas de tiempo y una serie de bandas de frecuencia. La presentación de salida inicial puede comprender una mezcla de altavoces estéreo.

Según un aspecto adicional de la presente invención, se proporciona un medio de almacenamiento legible por ordenador de acuerdo con la reivindicación 2.

La señal de audio codificada puede incluir además una serie de coeficientes de matriz residuales que representan una señal de audio residual y la etapa de reconstrucción puede comprender además (c1) aplicar los coeficientes de matriz residual a la presentación de salida inicial para reconstruir la estimación del componente residual.

En algunas realizaciones, la estimación del componente residual puede reconstruirse restando el componente dominante estimado binauralizado renderizado de la presentación de salida inicial. La etapa de renderizado puede incluir una rotación inicial del componente dominante estimado según una señal de entrada de rastreo de cabeza que indica la orientación de la cabeza de un oyente previsto.

Breve descripción de los dibujos

A continuación se describirán realizaciones de la invención, solo a modo de ejemplo, con referencia a los dibujos adjuntos en los que:

la figura 1 ilustra esquemáticamente un decodificador de auriculares para contenido codificado en matriz;

la figura 2 ilustra esquemáticamente un codificador;

la figura 3 es un diagrama de bloques esquemático del decodificador.

la figura 4 es una visualización detallada de un codificador; y

la figura 5 ilustra una forma del decodificador con más detalle.

Descripción detallada

Las realizaciones proporcionan un sistema para representar contenido de audio basado en objetos o canales que es (1) compatible con la reproducción estéreo, (2) permite la reproducción binaural incluyendo el rastreo de cabeza, (3) es de una baja complejidad de decodificador y (4) no se basa en, pero es compatible con la codificación matricial. Esto se logra combinando el análisis del lado del codificador de uno o más componentes dominantes (u objeto dominante o combinación de los mismos) incluyendo ponderaciones para predecir estos componentes dominantes a partir de una mezcla descendente, en combinación con parámetros adicionales que minimizan el error entre un renderizado binaural basado solo en los componentes dirigidos o dominantes, y la presentación binaural deseada del contenido completo.

En una realización, se proporciona un análisis del componente dominante (o componentes dominantes múltiples) en el codificador en lugar del decodificador/renderizador. La cadena de audio se aumenta con metadatos que indican la dirección del componente dominante e información sobre cómo se puede(n) obtener el/los componente(s) dominante(s) de una señal de mezcla descendente asociada.

La figura 2 ilustra una forma de un codificador 20 de una realización que no forma parte de la invención. El contenido 21 basado en objeto o canal se somete a un análisis 23 para determinar uno o más componentes dominantes. Este análisis puede tener lugar en función del tiempo y la frecuencia (suponiendo que el contenido de audio se divida en mosaicos de tiempo y subtítulos de frecuencia). El resultado de este proceso es una señal de componente dominante 26 (o múltiples señales de componente dominante), y la información asociada de posición (s) o dirección (s) 25. Posteriormente, se estiman 24 las ponderaciones y la salida 27 para permitir la reconstrucción de la señal de componente dominante (s) a partir de una mezcla descendente transmitida. Este generador de mezcla descendente 22 no necesariamente tiene que cumplir con las reglas de mezcla descendente LtRt, pero podría ser una mezcla descendente estándar ITU (LoRo) que utiliza coeficientes de mezcla descendente no negativos y de valor real. Por último, la señal de mezcla descendente de salida 29, las ponderaciones 27 y los datos de posición 25 son empaquetados por un codificador de audio 28 y preparados para su distribución.

Volviendo ahora a la figura 3, se ilustra un decodificador correspondiente 30 de la realización preferida. El decodificador de audio reconstruye la señal de mezcla descendente. La señal es introducida 31 y desempaquetada por el decodificador de audio 32 en señal de mezcla descendente, ponderaciones y dirección de los componentes dominantes. Posteriormente, las ponderaciones de estimación de componentes dominantes se utilizan para reconstruir 34 el/los componente(s) dirigido(s), que son renderizados 36 usando datos de posición o dirección transmitidos. Los datos de posición pueden modificarse opcionalmente 33 dependiendo de la información de rotación y translación de la cabeza 38. Además, los componentes dominantes reconstruidos pueden sustraerse 35 de la mezcla descendente. Opcionalmente, hay una sustracción del/de los componente(s) dominante(s) dentro de la ruta de mezcla descendente, pero alternativamente, esta sustracción también puede ocurrir en el codificador, como se describe a continuación.

Para mejorar la eliminación o cancelación del componente dominante reconstruido en el sustractor 35, la salida del componente dominante puede representarse primero usando los datos de posición o dirección transmitidos antes de la sustracción. Esta etapa de representación opcional 39 se muestra en la figura 3.

Volviendo ahora a describir inicialmente el codificador con más detalle, la figura 4 muestra una forma de codificador 40 para procesar contenido de audio basado en objetos (por ejemplo, Dolby Atmos). Los objetos de audio se almacenan originalmente como objetos Atmos 41 y se dividen inicialmente en mosaicos de tiempo y frecuencia usando un banco 42 de filtro de espejo en cuadratura de valor complejo híbrido (HCQMF). Las señales de los objetos de entrada se pueden denotar por x ⁱ[n] cuando se omiten los índices de tiempo y frecuencia correspondientes; la posición correspondiente dentro del cuadro actual viene dada por el vector unitario pi, y el índice i se refiere al número de objeto, y el índice n se refiere al tiempo (por ejemplo, índice de muestra de subbanda). El objeto de entrada señala x ⁱ[n] son un ejemplo de audio de entrada basado en canal u objeto.

Una mezcla binaural anecoica, sub-banda Y (y^l, y^r) se crea 43 utilizando escalares de valor complejo H^l,i, H^r,i(por ejemplo, HRTF 48 de un toque) que representan la representación de sub-banda de los HRIRs correspondientes a la posi ^.ci ^.ó ^rn ^-pi^f:

Alternativamente, la mezcla binaural Y (yl, yr) puede crearse por convolución utilizando respuestas de impulso relacionadas con la cabeza (HRIRs). Además, una mezcla descendente estéreo z z (que incorpora a modo de ejemplo una presentación de salida inicial) se crea 44 utilizando coeficientes de ganancia de panoramización de amplitud gu.grj:

El vector de dirección del componente dominante pD (que encarna a modo de ejemplo una dirección o posición de componente de audio dominante) puede estimarse calculando el componente dominante 45 calculando inicialmente una suma ponderada de vectores de dirección de unidad para cada objeto:

con CTi la energía de la señal xi[n]:

y con (.)* siendo el operador de conjugación compleja.

La señal dominante/dirigida, d[n] (que encarna a modo de ejemplo un componente de audio dominante) viene dada por:

con -^(Pi'P2) una función que produce una ganancia que disminuye al aumentar la distancia entre los vectores unitarios (Pi-E). Por ejemplo, para crear un micrófono virtual con un patrón de direccionalidad basado en armónicos esféricos de orden superior, una implementación correspondería a:

con pi representando un vector de dirección unitario en un sistema de coordenadas bidimensional o tridimensional, (.) el operador del producto de puntos para dos vectores y con parámetros a modo de ejemplo a, b, c (por ejemplo a = b = 0,5; c = 1).

Las ponderaciones o coeficientes de predicción wl,d wr,d se calculan 46 y se usan para calcular 47 una señal dirigida estimada d[n]:

con ponderaciones wl,d wr,d minimizando el error medio cuadrático entre d[n] y d[n] dadas las señales de mezcla descendente zl,zr. Las ponderaciones wl,d wr,d son un ejemplo de factores de ponderación de componentes de audio dominantes para mapear la presentación de salida inicial (por ejemplo, zl,zr) al componente de audio dominante (por ejemplo, d[n]). Un método conocido para derivar estas ponderaciones es mediante la aplicación de un predictor mínimo de error medio cuadrático (MMSE):

con R^abla matriz de covarianza entre las señales para las señales a y las señales b, y ^eun parámetro de regularización.

Posteriormente, se puede restar 49 la estimación representada de la señal del componente dominante d [n] de la mezcla binaural anecoica y ^l, y^rpara crear una mezcla binaural residual y ⁱ, y^rutilizando HRTF (HRIR) H^i,d, H^r,D50 asociado con la dirección/ posición pD de la señal componente dominante d:

Por último, se calcula 51 otro conjunto de coeficientes de predicción o ponderaciones wi,j que permite la reconstrucción de la mezcla binaural residual yi, yr de la mezcla estéreo zi,zr utilizando estimaciones de error medio cuadrático mínimo:

con Rab la matriz de covarianza entre señales para representación a y representación b, y ^eun parámetro de regularización. Los coeficientes de predicción o ponderaciones wi,j son un ejemplo de coeficientes de matriz residual para mapear la presentación de salida inicial (por ejemplo, zi, zr) a la estimación de la mezcla binaural residual yi, yr. La expresión anterior puede estar sujeta a restricciones de nivel adicionales para superar cualquier pérdida de predicción. El codificador emite la siguiente información:

La mezcla estéreo zi,zr (que encarna a modo de ejemplo la presentación de salida inicial);

Los coeficientes para estimar el componente dominante wi,d wr,d (que encarna a modo de ejemplo los factores de ponderación de componentes de audio dominantes);

La posición o dirección del componente dominante po;

Y opcionalmente, las ponderaciones residuales wi,j (que encarnan a modo de ejemplo los coeficientes de la matriz residuales).

Aunque la descripción anterior se refiere al renderizado basado en un único componente dominante, en algunas realizaciones el codificador puede estar adaptado para detectar múltiples componentes dominantes, determinar ponderaciones y direcciones para cada uno de los múltiples componentes dominantes, renderizar y restar cada uno de los múltiples componentes dominantes de la mezcla binaural anecoica Y, y luego determinar las ponderaciones residuales después de que cada uno de los múltiples componentes dominantes haya sido sustraído de la mezcla binaural anecoica Y.

Decodificador/renderizador

La figura 5 ilustra una forma de decodificador/renderizador 60 con más detalle. El decodificador/renderizador 60 aplica un proceso destinado a reconstruir la mezcla binaural yl, yr para salida al oyente 71 desde la información de entrada desempaquetada zi,zr; ^{w i,d w r,d; p d ; w ¡, j.}Aquí, la mezcla estéreo zi,zr es un ejemplo de una primera representación de audio, y los coeficientes de predicción o ponderaciones wij y/o la dirección/posición pD de la señal de componente dominante d son ejemplos de datos adicionales de transformación de audio.

Inicialmente, la mezcla descendente estéreo está dividida en mosaicos de tiempo/frecuencia utilizando un banco de filtros adecuado o una transformación 61, como el banco de análisis 61 HCQMF. Otras transformaciones, como una transformada discreta de Fourier, una transformación de coseno o seno (modificada), banco de filtros de dominio de tiempo, o transformadas wavelet también se pueden aplicar igualmente. Posteriormente, la señal de componente dominante estimada d[n] se calcula 63 utilizando ponderaciones de coeficiente de predicción w^l,dw^r,d:

La señal de componente dominante calculada d [n] es un ejemplo de una señal auxiliar. Por lo tanto, se puede decir que esta etapa corresponde a la creación de una o más señales auxiliares basadas en dicha primera representación de audio y datos de transformación recibidos.

Esta señal de componente dominante se procesa posteriormente 65 y se modifica 68 con HRTF 69 en función de los datos de posición/dirección transmitidos ^pd, posiblemente modificada (girada) en base a la información obtenida de un rastreador de cabeza 62. Finalmente, la salida binaural anecoica total consiste en la señal de componente dominante renderizada sumada 66 con los residuos reconstruidos yl, yr basados en las ponderaciones de coeficientes de predicción wi,j:

La salida binaural anecoica total es un ejemplo de una segunda representación de audio. Por lo tanto, se puede decir que esta etapa corresponde a la creación de una segunda representación de audio que consiste en una combinación de dicha primera representación de audio y dichas señal(es) auxiliares, en las que una o más de dichas señal(es) auxiliares se han modificado en respuesta a dichos datos de orientación de la cabeza.

Debe observarse además que si se recibe información sobre más de una señal dominante, cada señal dominante se puede representar y agregar a la señal residual reconstruida.

Mientras no se aplique rotación o traslación de la cabeza, las señales de salida y, y- deben estar muy cerca (en términos de error cuadrático medio) de las señales binaurales de referencia yl, yr siempre y cuando

Propiedades clave

Como se puede observar de la formulación de la ecuación anterior, la operación efectiva para construir la presentación binaural anecoica a partir de la presentación estéreo consiste en una matriz 70 de 2x2, en la cual los coeficientes de la matriz dependen de la información transmitida ^{w i,d w r,d; p d ; w ¡j y}la rotación ^{y / o}traslación del rastreador de la cabeza. Esto indica que la complejidad del proceso es relativamente baja, ya que el análisis de los componentes dominantes se aplica en el codificador en lugar de en el decodificador.

Si no se estima un componente dominante (por ejemplo, wl,d,wr,d = 0), la solución descrita es equivalente a un método binaural paramétrico.

En los casos en que se desee excluir ciertos objetos de la rotación de cabeza / rastreo de cabeza, estos objetos se pueden excluir del (1) análisis de dirección del componente dominante y (2) la predicción de la señal del componente dominante. Como resultado, estos objetos se convertirán de estéreo a binaural a través de los coeficientes w ^i,jy, por lo tanto, no se verán afectados por ninguna rotación o traslación de la cabeza.

En una línea de pensamiento similar, los objetos se pueden configurar en un modo de "paso a través", lo que significa que en la presentación binaural, estarán sujetos a un cribado de amplitud en lugar de una convolución HRIR. Esto se puede obtener simplemente usando ganancias de amplitud panorámica para los coeficientes H.,ⁱen lugar de los HRTF de un toque o cualquier otro procesamiento binaural adecuado.

Extensiones

El decodificador 60 descrito con referencia a la figura 5 tiene una señal de salida que consta de una dirección de componente dominante representada más la señal de entrada formando una matriz mediante los coeficientes de matriz w ^i,j. Los últimos coeficientes se pueden derivar de varias maneras, por ejemplo:

1. Los coeficientes w^i,jse puede determinar en el codificador mediante la reconstrucción paramétrica de las señales y ^l, y^r. En otras palabras, en esta implementación, los coeficientes w^i,jtienen el objetivo de la reconstrucción fiel de las señales binaurales y ^l, y^reso se habría obtenido al representar los objetos/canales de entrada originales de forma binaural; en otras palabras, los coeficientes w^i,json contenidos dirigidos. 2. Los coeficientes w ^i,jse pueden enviar desde el codificador al decodificador para representar HRTF para posiciones espaciales fijas, por ejemplo en ángulos de acimut de /- 45 grados. En otras palabras, la señal residual se procesa para simular la reproducción a través de dos altavoces virtuales en ciertos lugares. Como estos coeficientes que representan los HRTF se transmiten del codificador al decodificador, las ubicaciones de los altavoces virtuales pueden cambiar con el tiempo y la frecuencia. Si se emplea este enfoque utilizando altavoces virtuales estáticos para representar la señal residual, los coeficientes w ^i,jno necesitan transmisión del codificador al decodificador, y en su lugar pueden estar cableados en el decodificador. Una variación de este enfoque consistiría en un conjunto limitado de posiciones estáticas disponibles en el decodificador, con sus correspondientes coeficientes w^i,j, y la selección de qué posición estática se usa para procesar la señal residual se señala desde el codificador al decodificador.

Las señales y ^l, y^rpueden ser sometidas a un denominado mezclador ascendente, que reconstruye más de 2 señales por medio del análisis estadístico de estas señales en el decodificador, seguido de una renderización binaural de las señales mixtas ascendentes resultantes.

Los métodos descritos también se pueden aplicar en un sistema en el que la señal transmitida Z es una señal binaural. En ese caso particular, el decodificador 60 de la figura 5 permanece como está, mientras que el bloque etiquetado “Generar mezcla estéreo (LoRo)” 44 en la figura 4 debe reemplazarse por “Generar mezcla binaural anecoica”43 (figura 4) que es lo mismo que el bloque que produce el par de señales Y. Además, se pueden generar otras formas de mezclas según los requisitos.

Este enfoque puede ampliarse con métodos para reconstruir una o más señales de entrada FDN de la mezcla estéreo transmitida que consiste en un subconjunto específico de objetos o canales.

El enfoque se puede extender con múltiples componentes dominantes que se predicen a partir de la mezcla estéreo transmitida y se renderizan en el lado del decodificador. No existe una limitación fundamental de predecir solo un componente dominante para cada mosaico de tiempo/frecuencia. En particular, el número de componentes dominantes puede diferir en cada mosaico de tiempo/frecuencia.

Interpretación

Como se usa en este documento, a menos que se especifique lo contrario, el uso de los adjetivos ordinales "primero", "segundo", "tercero", etc., para describir un objeto común, simplemente indica que se están haciendo referencia a diferentes menciones de objetos similares, y no pretende implicar que los objetos así descritos deben estar en una secuencia dada, ya sea temporal, espacial, en clasificación o de cualquier otra manera.

En las reivindicaciones que siguen y en la descripción en este documento, cualquiera de los términos que comprende, compuesto por son términos abiertos que significan incluir al menos los elementos/características que siguen, pero sin excluir otros. Por lo tanto, el término que comprende, cuando se usa en las reivindicaciones, no debe interpretarse como limitativo de los medios o elementos o etapas enumerados a continuación. Por ejemplo, el alcance de la expresión un dispositivo que comprende A y B no debe limitarse a dispositivos que consisten solo en los elementos A y B. Cualquiera de los términos incluyendo o que incluye como se usa en el presente documento también es un término abierto que también significa incluir al menos los elementos/características que siguen al término, pero sin excluir otros. Por lo tanto, incluir es sinónimo y significa comprender.

Como se usa en el presente documento, el término "a modo de ejemplo" se usa en el sentido de proporcionar ejemplos, en lugar de indicar calidad. Es decir, una "realización a modo de ejemplo" es una realización proporcionada como un ejemplo, en oposición a ser necesariamente una realización de calidad a modo de ejemplo.

En la descripción proporcionada en la presente memoria, se exponen numerosos detalles específicos. Sin embargo, se entiende que las realizaciones de la invención se pueden llevar a la práctica sin estos detalles específicos. En otros casos, los métodos, estructuras y técnicas bien conocidos no se han mostrado en detalle para no oscurecer la comprensión de esta descripción.

De manera similar, se debe observar que el término "acoplado", cuando se usa en las reivindicaciones, no debe interpretarse como limitado solo a conexiones directas. Se pueden usar los términos "acoplado" y "conectado", junto con sus derivados. Debe entenderse que estos términos no pretenden ser sinónimos entre sí. Por lo tanto, el alcance de la expresión de un dispositivo A acoplado a un dispositivo B no debe limitarse a dispositivos o sistemas en los que una salida del dispositivo A está directamente conectada a una entrada del dispositivo B. Esto significa que existe una ruta entre una salida de A y una entrada de B que puede ser una ruta que incluye otros dispositivos o medios. "Acoplado" puede significar que dos o más elementos están en contacto físico o eléctrico directo, o que dos o más elementos no están en contacto directo entre sí, pero aún cooperan o interactúan entre sí.

Por lo tanto, aunque se han descrito realizaciones de la invención, los expertos en la materia reconocerán que se pueden hacer otras modificaciones adicionales sin salir del alcance de la invención definido por las reivindicaciones adjuntas, y que está destinado a reivindicar que todos esos cambios y modificaciones están dentro del alcance de la invención.

Claims

REIVINDICACIONES

1. Un sistema configurado para codificar audio de entrada basado en un canal u objeto (21) para la reproducción, comprendiendo el sistema:

uno o más procesadores adaptados para realizar operaciones que comprenden:

renderizar el audio de entrada basado en un canal u objeto (21) en una presentación de salida inicial, comprendiendo la presentación de salida inicial una mezcla de altavoces estéreo;

determinar (23) una estimación de un componente de audio dominante (26) a partir del audio de entrada basado en un canal u objeto (21), incluyendo la determinación:

determinar (24) una serie de factores de ponderación de componente de audio dominante (27) para mapear la presentación de salida inicial en el componente de audio dominante; y

determinar la estimación de un componente de audio dominante (26) en base a los factores de ponderación de componente de audio dominante (27) y la presentación de salida inicial;

determinar una estimación de una dirección o posición (25) del componente de audio dominante); y

codificar la presentación de salida inicial, los factores de ponderación de componente de audio dominante (21), y al menos una de entre la dirección o posición de componente de audio dominante como la señal codificada para la reproducción.

2. Un medio de almacenamiento legible por ordenador que almacena instrucciones que, cuando se ejecutan por uno o más procesadores, hacen que el uno o más procesadores realicen operaciones que comprenden: renderizar el audio de entrada basado en canal u objeto (21) en una presentación de salida inicial que comprende una mezcla de altavoces estéreo;

determinar una estimación de una dirección o posición (25) del componente de audio dominante; y