MX2012005781A - Aparato para proporcionar una representacion de señal de mezcla ascendente con base en la representacion de señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio multicanal, metodos, programas informaticos y flujo de bits que representan una señal de audio multicanal usando un parametro de combinacion lineal. - Google Patents

Aparato para proporcionar una representacion de señal de mezcla ascendente con base en la representacion de señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio multicanal, metodos, programas informaticos y flujo de bits que representan una señal de audio multicanal usando un parametro de combinacion lineal.

Info

Publication number
MX2012005781A
MX2012005781A MX2012005781A MX2012005781A MX2012005781A MX 2012005781 A MX2012005781 A MX 2012005781A MX 2012005781 A MX2012005781 A MX 2012005781A MX 2012005781 A MX2012005781 A MX 2012005781A MX 2012005781 A MX2012005781 A MX 2012005781A
Authority
MX
Mexico
Prior art keywords
matrix
reproduction
audio
downmix
user
Prior art date
Application number
MX2012005781A
Other languages
English (en)
Inventor
Heiko Purnhagen
Jonas Engdegard
Cornelia Falch
Leon Terentiv
Juergen Herrre
Oliver Hellmuth
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of MX2012005781A publication Critical patent/MX2012005781A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

Un aparato para proporcionar una representación de señal de mezcla ascendente con base en una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto, que están incluidas en una representación de flujo de bits de un contenido de audio, que es independiente de una matriz de reproducción especificada por el usuario, el aparato comprende un limitador de distorsión configurado para obtener una matriz de reproducción modificada utilizando una combinación lineal de una matriz de reproducción especificada por el usuario en una matriz de reproducción de destino que depende de un parámetro de combinación lineal. El aparato comprende también un procesador de señales configurado para obtener la representación de señal de mezcla ascendente con base en la representación de señal de mezcla descendente y la información paramétrica relacionada con el objeto utilizando la matriz de reproducción modificada. El aparato también está configurado para evaluar un elemento de flujo de bits que representa el parámetro de combinación lineal con el fin de obtener el parámetro de combinación lineal.

Description

APARATO PARA PROPORCIONAR UNA REPRESENTACIÓN DE SEÑAL DE MEZCLA ASCENDENTE CON BASE EN LA RE RESENTACIÓN DE SEÑAL DE MEZCLA DESCENDENTE, APARATO PARA PROPORCIONAR UN FLUJO DE BITS QUE REPRESENTA UNA SEÑAL DE AUDIO MULTICANAL, MÉTODOS, PROGRAMAS INFORMÁTICOS Y FLUJO DE BITS QUE REPRESENTAN UNA SEÑAL DE AUDIO MULTICANAL USANDO UN PARÁMETRO DE COMBINACIÓN LINEAL CAMPO TÉCNICO Las modalidades de acuerdo con la invención se refieren a un aparato para proporcionar una representación de señal de mezcla ascendente con base en una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto, que se incluyen en una representación de flujo de bits de un contenido de audio y, que dependen de una matriz de reproducción especificada por el usuario.
Otras modalidades de acuerdo con la invención se refieren a un aparato para proporcionar un flujo de bits que representa una señal de audio multicanal.
Otras modalidades de acuerdo con la invención se refieren a un método para proporcionar una representación de señal de mezcla ascendente con base en una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto que se incluyen en una representación del flujo de bits del contenido de audio y, que dependen de una matriz de reproducción especificada por el usuario.
Otras modalidades de acuerdo con la invención se refieren a un método para proporcionar un flujo de bits que representa una señal de audio multicanal.
Otras modalidades de acuerdo con la invención se refieren a un programa informático que realiza uno de los métodos .
Otra modalidad de acuerdo con la invención se refiere a un flujo de bits que representa una señal de audio multicanal.
En la técnica de procesamiento de audio, transmisión de audio, y almacenamiento de audio hay un deseo creciente de manejar contenidos multicanal con el fin de mejorar la impresión de la audiencia. El uso de un contenido de audio multicanal trae consigo importantes mejoramientos para el usuario. Por ejemplo, se puede obtener una impresión de audiencia tridimensional, que brinda una mejor satisfacción del usuario en aplicaciones de entretenimiento. Sin embargo, los contenidos de audio multicanal también son útiles en ambientes profesionales, por ejemplo, aplicaciones de teleconferencias, porque la inteligibilidad del altavoz puede ser mejorada mediante el uso de un playback de audio multicanal. .
Sin embargo, también es deseable tener un buen equilibrio entre los requisitos de la calidad de audio y de velocidad de bits con el fin de evitar un consumo excesivo de recursos a bajo costo o aplicaciones profesionales multicanal.
Recientemente se han propuesto técnicas paramétricas para la transmisión eficiente en cuanto a la velocidad de bits y/o el almacenamiento de escenas de audio que contienen varios objetos de audio. Por ejemplo, también se ha propuesto una codificación de apunte binaural, que se describe, por ejemplo, en la referencia [1], y una codificación combinada paramétrica de fuentes de audio, que se describe, por ejemplo, en la referencia [2]. También, sé ha propuesto una codificación del objeto de audio espacial (SAOC) de MPEG, que se describe, por ejemplo, en las referencias [3] y [4]. La codificación del objeto de audio espacial de MPEG se encuentra actualmente en la estandarización, y se describe en la referencia [5] no publicada previamente.
Estas técnicas tienen por objeto reconstruir perceptualmente la escena de salida deseada en lugar de por una coincidencia de forma de onda.
Sin embargo, en combinación con la interactividad del usuario en el lado receptor, tales técnicas pueden conducir a una baja calidad de audio de las señales de salida de audio si se lleva a cabo la reproducción extrema del objeto. Esto se describe, por ejemplo, en la referencia [6] .
En lo siguiente, se describirán tales sistemas, y hay que señalar que los conceptos básicos también se aplican a las modalidades de la invención.
La Figura 8 muestra una vista general de tal sistema (aquí: MPEG SAOC) . El sistema MPEG SAOC 800 mostrado en la Figura 8 comprende un codificador SAOC 810 y un descodificador SAOC 820. El codificador SAOC 810 recibe una pluralidad de señales del objeto xi a xN, que puede ser representado, por ejemplo, como señales de dominio de tiempo o como señales de dominio de tiempo-frécuencia (por ejemplo, en la forma de un conjunto de coeficientes de transformación de una transformación tipo Fourier, o en forma de señales de subbandas QMF) . El codificador SAOC 810 típicamente también recibe coeficientes de mezcla descendente di a dN, que se asocian con las señales del objeto i a ?· Pueden estar disponibles dos grupos de coeficientes de mezcla descendente para cada canal de la señal de mezcla descendente. El codificador SAOC 810 se configura típicamente para obtener un canal de la señal de mezcla descendente mediante la combinación de las señales del objeto xi a xN de acuerdo con coeficientes de mezcla descendente asociados di a dN. Típicamente, hay menos canales de mezcla descendente que señales del objeto xi a xN. A fin de permitir (al menos aproximadamente) una separación (o un tratamiento separado) de las señales del objeto en el lado del descodificador SAOC 820, el codificador SAOC 810 proporciona tanto una o más señales de mezcla descendente (designadas Como canales de mezcla descendente) 812 como una información lateral 814. La información lateral 814 describe características de las señales del objeto xi a xN, con el fin de permitir el procesamiento específico de objeto del lado del descodificador .
El descodificador SAOC 820 está configurado para recibir tanto una o más señales de mezcla descendente 812 como la información lateral 814. También, el descodificador SAOC 820 típicamente se configura para recibir una información de interacción del usuario y/o una información de control del usuario 822, que describe una configuración de reproducción deseada. Por ejemplo, la información de interacción del usuario/información de control del usuario 822 puede describir una configuración de altavoz y la colocación espacial deseada de los objetos que proporcionan las señales del objeto i a xN.
El descodificador SAOC 820 está configurado para proporcionar, por ejemplo, una pluralidad de señales descodificadas del canal de mezcla ascendente yi a yM. Las señales del canal de mezcla ascendente por ejemplo se pueden asociar con altavoces individuales de una disposición de reproducción multi-altavoz . El descodificador SAOC 820, por ejemplo, puede comprender un separador de objeto 820a, que está configurado para reconstruir, al menos aproximadamente, las señales del objeto i a xN con base en una o más señales de mezcla descendente 812 y la información lateral 814, obteniendo de este modo las señales del objeto reconstruidas 820b. Sin embargo, las señales del objeto reconstruidas 820b pueden desviarse ligeramente de las señales del objeto originales xi a xN, por ejemplo, porque la información lateral 814 no es suficiente para una reconstrucción perfecta debido a las limitaciones de velocidad de bits. El descodificador SAOC 820 puede comprender además un mezclador 820c, que puede ser configurado para recibir las señales del objeto reconstruidas 820b y la información de interacción del usuario/información de control del usuario 822, y proporcionar, con base en el mismo, las señales del canal de mezcla ascendente ? a yM. El mezclador 820 puede ser configurado para utilizar la información de interacción del usuario/información de control del usuario 822 para determinar la contribución de las señales del objeto reconstruidas individuales 820b a las señales del canal de mezcla ascendente ? a yM. La información de interacción del usuario/información de control del usuario 822, por ejemplo, puede comprender parámetros de reproducción (también designados como coeficientes de reproducción) , que determinan la contribución de las señales del objeto reconstruidas individuales 822 a las señales del canal de mezcla ascendente ?? a yM.
Sin embargo, debe señalarse que en muchas modalidades, la separación del objeto, que está indicada por el separador de objeto 820a en la Figura 8, y la mezcla, que se indica por el mezclador 820c en la Figura 8, se llevan a cabo en un solo paso. Para este propósito, los parámetros globales pueden computarse, los cuales describen un mapeo' directo de una o más señales de mezcla descendente 812 en las señales del canal de mezcla ascendente yi a yM. Estos parámetros pueden ser computados con base en la información lateral y la información de interacción del usuario/información de control del usuario 820.
Haciendo referencia ahora a las Figuras 9a, 9b y 9c, se describirán diferentes aparatos para la obtención de una representación de señal de mezcla ascendente con base en una representación de señal de mezcla descendente e información lateral relacionada con el objeto. La Figura 9a muestra un diagrama esquemático de bloques de un sistema MPEG SAOC 900 que comprende un descodificador SAOC 920. El descodificador SAOC 920 comprende, como bloques funcionales separados, un descodi ficador del objeto 922 y un mezclador/reproductor 926. El descodificador del objeto 922 proporciona una pluralidad de señales del objeto reconstruidas 924 que dependen de la representación de señal de mezcla descendente (por ejemplo, en la forma de una o más señales de mezcla descendente representadas en él dominio de tiempo o en el dominio de tiempo-frecuencia) e información lateral relacionada con el objeto (por ejemplo, en la forma de metadatos del objeto) . El mezclador/reproductor 924 recibe las señales del objeto reconstruidas 924 asociadas con una pluralidad de objetos N-y proporciona, con base en las mismas, una o más señales del canal de mezcla ascendente " 928. En el " descodificador SAOC 920, la extracción de las señales del objeto 924 se realiza por separado de la mezcla/reproducción, lo que permite una separación de la funcionalidad de la descodificación del objeto de la funcionalidad de mezcla/reproducción pero trae consigo una complejidad computacional relativamente alta.
Haciendo referencia ahora a la Figura 9b, se expondrá brevemente otro sistema MPEG SAOC 930, que comprende un descodificador SAOC 950. El descodificador SAOC 950 proporciona una pluralidad de señales del canal de mezcla ascendente 958 que dependen de una representación de señal de mezcla descendente (por ejemplo, en la forma de una o más señales de mezcla descendente) y una información lateral relacionada con el objeto (por ejemplo, en la forma de metadatos del objeto) . El descodificador SAOC 950 comprende un descodificador del objeto combinado y un mezclador/reproductor, que está configurado para obtener las señales del canal de mezcla ascendente 958 en un proceso de mezcla conjunta sin una separación de la descodificación y la mezcla/reproducción objeto, en donde los parámetros para el proceso de mezcla ascendente conjunta dependen tanto de la información lateral relacionada con el objeto como con la información de la reproducción. El proceso de mezcla ascendente conjunta depende" también de ' la información de mezcla descendente, que se considera es parte de la información lateral relacionada con el objeto.
Para resumir lo anterior, la provisión de las señales del canal de mezcla ascendente 928, 958 se puede realizar en un proceso de un solo paso o un proceso de dos pasos .
Haciendo referencia ahora a la Figura 9c, se describirá un sistema MPEG SAOC 960. El sistema SAOC 960 comprende un transcodificador circundante o Surround de SAOC a MPEG 980, en lugar de un descodificador de SAOC.
El transcodificador Surround de SAOC a MPEG comprende un transcodificador de información lateral 982, que está configurado para recibir la información lateral relacionada con el objeto (por ejemplo, en la forma de metadatos del objeto) y, opcionalmente, información sobre una o más señales de mezcla descendente y la información de reproducción. El transcodificador de información lateral también "est configurado para proporcionar una información lateral Surround MPEG (por ejemplo, en la forma de un flujo de bits Surround MPEG) con base en un dato recibido. Por consiguiente, el transcodificador de información lateral 982 está configurado para transformar una información lateral relacionada con el objeto (paramétrica) , que se libera del codificador objeto, en una información lateral relacionada con el canal (paramétrica) , teniendo en cuenta la información de reproducción y, opcionalmente, la información sobre el contenido de una o más señales de mezcla descendente.
Opcionalmente, el transcodificador Surround de SAOC a MPEG 980 puede ser configurado para manipular una o más señales de mezcla descendente, descritos, por ejemplo, por la representación de señal de mezcla descendente, para obtener una representación de señal de mezcla descendente manipulada 988. Sin embargo, el manipulador de señal de mezcla descendente 986 puede ser omitido, de tal manera que la representación de señal de mezcla descendente de salida 988 del transcodificador Surround de SAOC a MPEG 980 es idéntica a la representación de señal de mezcla descendente de entrada del transcodificador Surround de SAOC a MPEG. El manipulador de señal de mezcla descendente 986, por ejemplo, puede ser usado si la información lateral Surround MPEG relacionada con el canal 984 no permitiría proporcionar una impresión de audiencia deseada con base en la representación de señal de mezcla descendente de entrada del transcodificador Surround de SAOC a MPEG 980, que puede ser el caso en algunas constelaciones de reproducción.
En consecuencia, . el transcodificador Surround de SAOC a MPEG 980 proporciona la representación de señal de mezcla descendente 988 y el flujo de bits Surround MPEG 984 de tal ' manera que una pluralidad de señales del canal' de mezcla ascendente, que representan los objetos de audio de acuerdo con la entrada de información de reproducción al transcodificador Surround de SAOC a MPEG se pueden generar utilizando un descodificador Surround MPEG, que recibe el flujo de bits Surround MPEG 984 y la representación de señal de mezcla descendente 988.
Para resumir lo anterior, se pueden utilizar diferentes conceptos para descodificar señales de audio codificadas por SAOC. En algunos casos, se utiliza un descodificador SAOC, que proporciona señales del canal de mezcla ascendente (por ejemplo, señales del canal de mezcla ascendente .928, 958) que dependen de la representación de señal de mezcla descendente y la información lateral paramétrica relacionada con el objeto. Ejemplos de este concepto se pueden ver en las Figuras 9a y 9b. Alternativamente, la información de audio codificada por SAOC puede ser transcodificada para obtener una representación de señal de mezcla descendente (por ejemplo, una representación de señal de mezcla descendente 988) y una información lateral relacionada con el canal (por ejemplo, el flujo de bits Surround MPEG relacionado con el canal 984), que puede ser utilizada por un descodificador Surround MPEG para proporcionar las señales del canal de mezcla ascendente, deseadas.
En el sistema MPEG SA'OC 800, en la Figura 8 se da una visión general del sistema, el procesamiento general se lleva a cabo en un modo selectivo de frecuencia y se puede describir como sigue dentro de cada banda de frecuencia: • Las señales del objeto de audio de entrada N xi a xN se mezclan en forma descendente como parte del procesamiento del codificador SAOC. Para una mezcla ascendente mono, los coeficientes de mezcla descendente se denotan por di a dN. Además, el codificador SAOC 810 extrae información lateral 814 que describe las características de los objetos de audio de entrada. Para MPEG SAOC, las relaciones de las potencias del objeto con respecto a otras son la forma más básica de tal información lateral.
• La señal (o señales) de mezcla descendente 812 y la información lateral 814 se transmiten y/o almacenan. Para este fin, la señal de audio de mezcla descendente puede comprimirse utilizando codificadores perceptuales de audio bien conocidos, tales como Capa II o III de MPEG-1 (también conocidos como ".mp3"), Codificación Avanzada de Audio MPEG (AAC) , o cualquier otro codificador de audio.
• En el extremo receptor, el descodificador SAOC 820 conceptualmente intenta restaurar la señal del objeto original ("separación de objeto") utilizando la información lateral transmitida 814 (y, naturalmente, una o más señales de mezcla descendente 812) . Estas señales aproximadas del objeto (también designadas como señales reconstruidas del objeto 820b) después se mezclan en una escena de destino representada por M canales de salida de audio (que, por ejemplo, pueden ser representadas por las señales del canal de mezcla ascendente yi a yM) utilizando una matriz de reproducción. Para una salida mono, se dan los coeficientes de la matriz de reproducción por ?i a rN.
• Efectivamente, la separación de las señales del objeto raramente se ejecuta (o incluso nunca se ejecuta), ya que tanto el paso de separación (indicado por el separador del objeto 820a) y el paso de mezcla (indicado por el mezclador 820c) se combinan en un único paso de transcodificación, que a menudo se traduce en una enorme reducción de la complejidad computacional .
Se ha encontrado que tal sistema es tremendamente eficiente, tanto en términos de velocidad de bits de transmisión (solamente es necesario para transmitir algunos pocos Canales de mezcla descendente más alguna información lateral en lugar de N señales de audio del objeto discretas o un sistema discreto) y la complejidad computacional (la complejidad del procesamiento se refiere principalmente al número de canales de salida en lugar del número de objetos de audio) . Otras ventajas para el usuario en el extremo receptor incluyen la libertad de elegir una configuración de la reproducción de su elección (mono, estéreo, surround, playback virtualizado de auriculares, y asi sucesivamente) y la función de la interactividad del usuario: la matriz de reproducción, y por lo tanto la escena de salida, se pueden establecer y cambiar de forma interactiva por el usuario de acuerdo a su voluntad, a la preferencia personal u otros criterios. Por ejemplo, es posible localizar los conversadores de un grupo juntos en un área espacial para maximizar la discriminación de otros conversadores restantes. Esta interactividad se logra al proporcionar una interfaz de usuario descodificadora : Para cada objeto de sonido transmitido, se puede ajusfar su nivel relativo (para la . reproducción no mono) y la posición espacial de la reproducción. Esto puede ocurrir en tiempo real mientras el usuario cambia la posición de las deslizaderas de interfaz de usuario de gráfica asociada (GUI) (por ejemplo: nivel del objeto = +5 dB, posición del objeto = -30 grados) .
Sin embargo, se ha encontrado que la elección del lado del descodificador de parámetros para la provisión de la representación de señal de mezcla ascendente (por ejemplo, las señales del canal de mezcla ascendente yi a yM) trae consigo degradaciones audibles en algunos casos.
En vista de esta situación, el objetivo de la presente invención es crear un concepto que permite reducir o incluso evitar la distorsión audible incluso cuando se proporciona una representación de señal de mezcla ascendente (por ejemplo, en la forma de señales del canal de mezcla ascendente yi a yM) .
BREVE DESCRIPCIÓN DE LA INVENCIÓN Una modalidad de acuerdo con la invención crea un aparato para proporcionar una representación de señal de mezcla ascendente con base en una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto, que se incluyen en una representación de flujo de bits de un contenido de audio, y que dependen de una matriz de reproducción especificada por el usuario. El aparato comprende un limitador de distorsión configurado para obtener una matriz de reproducción modificada utilizando una combinación lineal de una matriz de reproducción especificada por el usuario y una matriz de reproducción de destino, que dependen de un parámetro de combinación lineal. El aparato comprende también" un procesador de señales configurado para obtener la representación de señal de mezcla ascendente con base en la representación de señal de mezcla descendente y la información paramétrica relacionada con el objeto utilizando la matriz de reproducción modificada. El aparato está configurado para evaluar un elemento del flujo de bits que representa el parámetro de combinación lineal con el fin de obtener el parámetro de combinación lineal.
Esta modalidad de acuerdo con la invención se basa en la idea fundamental de que las distorsiones audibles de la representación de señal de mezcla ascendente pueden reducirse o incluso evitarse con baja complejidad computacional mediante la realización de una combinación lineal de una matriz de reproducción especificada por el usuario y la matriz de reproducción de destino que depende de un parámetro de combinación lineal, el cual se extrae de la representación del flujo de bits del contenido de audio, porque una combinación lineal puede realizarse de manera eficiente, y porque la ejecución de la tarea solicitada de determinar el parámetro de combinación lineal se puede realizar en el lado del codificador de señal de audio donde hay típicamente más recursos computacionales disponibles que en el lado del descodificador de señal de audio (aparato para proporcionar una representación de señal de mezcla ascendente) .
En consecuencia, el concepto anteriormente discutido permite obtener una matriz de reproducción modificada, que da por resultado distorsiones audibles reducidas incluso para una elección inapropiada de la matriz de¦ reproducción especificada por el usuario, sin agregar ninguna complejidad significativa al aparato para proporcionar una representación de señal de mezcla ascendente. En particular, incluso puede ser innecesario modificar el procesador de señales cuando se compara con un aparato sin un limitador de distorsión, porque la matriz de reproducción modificada constituye una cantidad de entrada para el procesador de señales y solamente reemplaza la matriz de reproducción especificada por el usuario. Además, el concepto inventivo trae consigo la ventaja de que un codificador de señal de audio puede ajusfar el esquema de limitación de distorsión, que se aplica en el lado del descodificador de señal de audio, de acuerdo con los requisitos especificados en el lado del codificador, simplemente definiendo el parámetro de combinación lineal,. que está incluido en la representación del flujo de bits del contenido de audio. En consecuencia, el codificador de señal de audio gradualmente puede proporcionar más o menos libertad con respecto a la elección de la matriz de reproducción al usuario del descodificador (aparato para proporcionar una representación de señal de mezcla ascendente) al elegir adecuadamente el parámetro de combinación lineal. Esto permite la adaptación del descodificador de señal de audio a las expectativas del usuario para un servicio dado, ya que para algunos servicios un usuario puede esperar una calidad máxima (lo que implica reducir la posibilidad del usuario para ajusfar • arbitrariamente la matriz de reproducción) , mientras que para otros servicios el usuario típicamente puede esperar un grado máximo de libertad (lo que implica aumentar el impacto de la matriz de reproducción especificada por el usuario, en el resultado de la combinación lineal).
Para resumir lo anterior, el concepto inventivo combina alta eficiencia computacional en el lado del descodificador , que puede ser particularmente importante para los descodificadores de audio portátiles, con la posibilidad de una implementación simple, sin provocar la necesidad de modificar el procesador de señales, y también proporciona una alto grado de control a un codificador de señal de audio, que puede ser importante para cumplir con las expectativas del usuario para diferentes tipos de servicios de audio.
En una modalidad preferida, el limitador de distorsión está configurado para obtener la matriz de reproducción de destino de manera que la matriz de reproducción de destino es una matriz de reproducción de destino sin distorsión. Esto trae consigo la posibilidad de tener un escenario de playback en el que no hay distorsiones o al menos casi ninguna distorsión causada por la elección de la matriz de reproducción. También, se ha encontrado que la computación de una matriz de reproducción de destino sin distorsión se puede realizar de una manera muy simple en algunos casos. Además, se ha encontrado que una matriz de reproducción, que se elige entre una matriz de reproducción especificada por el usuario y una matriz de reproducción de destino sin distorsión, típicamente da por resultado una impresión de buena audición.
En una modalidad preferida, el limitador de distorsión está configurado para obtener la matriz de reproducción de destino de manera que la matriz de reproducción de destino es una matriz de reproducción de destino similar a la mezcla descendente. Se ha encontrado que el uso de una matriz de reproducción de destino similar a enlace descendente trae consigo un grado muy bajo o incluso mínimo de distorsiones. También, tal matriz de reproducción de destino similar a la mezcla descendente puede obtenerse con un esfuerzo computacional muy bajo, debido a que la matriz de reproducción de destino similar a la mezcla descendente puede obtenerse mediante el escalamiento de las entradas de la matriz de mezcla descendente con un factor de escala común y la adición de algunas entradas cero adicionales.
En una modalidad preferida, el limitador de distorsión está configurado para escalar una matriz de mezcla descendente ampliada utilizando un valor escalar de normalización de energía, para- obtener la matriz- de reproducción de destino, en donde la matriz de mezcla descendente ampliada es una "versión ampliada de la matriz de mezcla descendente (una fila de la matriz de mezcla descendente describe contribuciones de una pluralidad de señales del objeto de audio a uno o más canales de la representación de señal de mezcla descendente) , ampliada por filas de elementos cero, de manera que un número de filas de la matriz de mezcla descendente ampliada es idéntico a una constelación de reproducción descrita por la matriz de reproducción especificada por el usuario. Así, la matriz de mezcla descendente ampliada se obtiene utilizando una copia de los valores de la matriz de mezcla descendente en la matriz de mezcla descendente ampliada, una adición de entradas cero de la matriz, y una multiplicación escalar de todos los elementos de la matriz con el mismo valor escalar de energía de normalización. Todas estas operaciones se pueden realizar de forma muy eficiente, de tal manera que la matriz de reproducción de destino se puede obtener rápidamente, incluso en un descodificador de audio muy sencillo.
En una modalidad preferida, el limitador de distorsión está configurado para obtener la matriz de reproducción de destino de manera que la matriz de reproducción de destino es una matriz de reproducción de destino de máximo esfuerzo-. A pesar de que este procedimiento es computacionalmente un poco más exigente que "el uso de una matriz de reproducción de destino similar a la mezcla descendente, el uso de una matriz de reproducción de destino de máximo esfuerzo de representación ofrece una mejor consideración del escenario de reproducción deseada de un usuario. Utilizando la matriz de reproducción de destino de máximo esfuerzo, la definición de un usuario de la matriz de reproducción deseada se toma en cuenta al determinar la matriz de reproducción de destino en la medida en que sea posible sin introducir distorsiones o distorsiones significativas. En particular, la matriz de reproducción de destino de máximo esfuerzo tiene en cuenta la sonoridad deseada del usuario para una pluralidad de altavoces (o canales de la representación de señal de mezcla ascendente) . En consecuencia, cuando se utiliza la matriz de reproducción de destino de máximo esfuerzo puede dar por resultado la impresión de una mejor audición.
En una modalidad preferida, el limitador de distorsión está configurado para obtener la matriz de reproducción de destino de manera que la matriz de reproducción de destino depende de una matriz de mezcla descendente y la matriz de reproducción especificada por el usuario. En consecuencia, la matriz de reproducción de destino está relativamente cerca de las expectativas del usuario, pero todavía proporciona una reproducción de audio sustancialmente sin distorsión. Así, el parámetro de combinación lineal determina un equilibrio entre una aproximación de la reproducción deseada del usuario y la minimización de las distorsiones audibles, en donde la consideración de la matriz de reproducción especificada por el usuario para la computación de la matriz de reproducción de destino proporciona una buena satisfacción de los deseos del usuario, incluso si el parámetro de combinación lineal indica que la matriz de reproducción de destino debe dominar la combinación lineal.
En una modalidad preferida, el limitador de distorsión está configurado para computar una matriz que comprende valores de normalización individuales por canal para una pluralidad de canales de salida de audio del aparato para proporcionar una representación de señal de mezcla ascendente, de tal manera que un valor de normalización de energía para un canal de salida dado del aparato describe, al menos aproximadamente, una proporción entre una suma de valores de reproducción de energía asociados con el canal de salida dado en la matriz de reproducción especificada por el usuario para una pluralidad de objetos de audio, y una suma de valores de mezcla descendente de energía para la pluralidad de objetos de audio. En consecuencia, la expectativa de un usuario con respecto a la sonoridad de los diferentes canales de salida del' aparato puede ser satisfecha en algún grado.
En este caso, el limitador de distorsión está configurado para escalar un conjunto de valores de mezcla descendente utilizando un valor de normalización de energía individual del canal asociado, para obtener un conjunto de valores de reproducción de la matriz de reproducción de destino asociada con el canal de salida dado. Por consiguiente, la contribución relativa de un objeto de audio dado para un canal de salida del aparato es idéntica a la contribución relativa del objeto de audio dado para la representación de señal de mezcla descendente, lo que permite evitar sustancialmente distorsiones audibles que podrían . ser causadas por una modificación de las contribuciones relativas de los objetos de audio. Por consiguiente, cada uno de los canales de salida del aparato está sustancialmente sin distorsión. No obstante, las expectativas del usuario con respecto a una distribución de sonoridad sobre una pluralidad de altavoces (o canales de la representación de señal de mezcla ascendente) se toma en consideración, aunque los detalles donde colocar cuál objeto de audio y/o cómo cambiar intensidades relativas de los objetos de audio con respecto a los otros se dejaran sin considerar (al menos en cierto grado) con el fin de evitar distorsiones que posiblemente podrían ser causadas por una separación espacial excesivamente brusca de los objetos de audio o una " modificacióri excesiva de las intensidades relativas de objetos de audio.
Así, la evaluación de la proporción entre una suma de valores de reproducción de energía (por ejemplo, cuadrados de los valores de reproducción de magnitud) asociada con un canal de salida dado en la matriz de reproducción especificada por el usuario para una pluralidad de objetos de audio y una suma de valores de mezcla descendente de energía para la pluralidad de objetos de audio permite considerar todos los canales de salida de audio, aunque la representación de la señal de mezcla descendente puede comprender menos canales, mientras que aun así se evitarían distorsiones que podrían ser causadas por una redistribución espacial de los objetos de audio o por un cambio excesivo de la sonoridad relativa de los diferentes objetos de audio.
En una modalidad preferida, el limitador de distorsión está configurado para computar una matriz que describe una normalización de energía individual del canal para una pluralidad de canales de salida de audio del aparato para proporcionar una representación de señal de mezcla ascendente que depende de la matriz de reproducción especificada por el usuario y una matriz de mezcla descendente. En este caso, el limitador de distorsión está configurado para aplicar la matriz que describe la normalización de energía individual del canal para Obtener un conjunto de coeficientes de reproducción de la matriz de reproducción de destino asociada con el canal de salida dado del aparato como una combinación lineal de conjuntos de valores de mezcla descendente (es decir, valores que describen una escala aplicada a las señales de audio de diferentes objetos de audio para obtener un canal de la señal de mezcla descendente) asociados con diferentes canales de la representación de señal de mezcla descendente. Al usar este concepto, una matriz de reproducción de destino, que está bien adaptada a la matriz de reproducción especificada por el usuario, deseada, puede obtenerse incluso si la representación de señal de mezcla descendente comprende más de un canal de audio, mientras que aún asi sustancialmente se evitarían distorsiones. Se ha encontrado que la formación de una combinación lineal de conjuntos de valores de mezcla descendente da por resultado un conjunto de coeficientes de reproducción que típicamente causa solamente pequeñas distorsiones audibles. No obstante, se ha encontrado que es posible aproximarse a la expectativa de un usuario utilizando este procedimiento para derivar la matriz de reproducción de destino.
En una modalidad preferida, el aparato está configurado para leer un valor de índice que representa el parámetro de combinación lineal de la reproducción del flujo de bits del contenido de audio, y mapear el valor de índice sobre el parámetro de combinación lineal utilizando una tabla de cuantificación de parámetros. Se ha encontrado que este es un concepto en particular computacionalmente eficiente para derivar el parámetro de combinación lineal. También se ha encontrado que este procedimiento trae consigo un mejor equilibrio entre la satisfacción del usuario y la complejidad computacional cuando se compara con otros conceptos posibles en los que se llevan a cabo cómputos complicados, en lugar de la evaluación de una tabla de mapeo unidimensional.
En una modalidad preferida, la tabla de cuantificación describe una cuantificación no uniforme, en la que pequeños valores del parámetro de combinación lineal, que describen una mayor contribución de la matriz de reproducción especificada por el usuario sobre la matriz de reproducción modificada, se cuantifican con resolución comparativamente alta y valores más grandes del parámetro de combinación lineal, que describen una menor contribución de la matriz de reproducción especificada por el usuario sobre la matriz de reproducción modificada se cuantifican con una resolución comparativamente más baja. Se ha encontrado que en muchos casos solamente ajustes extremos de la matriz de reproducción traen significativas distorsiones audibles. En consecuencia, se ha encontrado que un ajuste fino del parámetro de combinación lineal es más importante en la región de una mayor contribución de la matriz de reproducción especificada por el usuario sobre la matriz de reproducción de destino, con el fin de obtener un ajuste que permite un equilibrio óptimo entre el cumplimiento de la expectativa de reproducción de un usuario y una minimización de las distorsiones audibles.
En una modalidad preferida, el aparato está configurado para evaluar un elemento del flujo de bits que describe un modo de limitación de distorsión. En este caso, el limitador de distorsión preferentemente está configurado para obtener selectivamente la matriz de reproducción de destino de manera que la matriz de reproducción de destino es una matriz de reproducción de destino similar a la mezcla descendente o tal que la matriz de reproducción de destino es una matriz de reproducción de destino de máximo esfuerzo. Se ha encontrado que tal concepto conmutable ofrece una posibilidad eficiente para obtener un buen equilibrio entre el cumplimiento de las expectativas de reproducción de un usuario y una minimización de las distorsiones audibles para un gran número de diferentes piezas de audio. Este concepto también permite un buen control de un codificador de señal de audio sobre la reproducción real en el lado del descodificador-. Por consiguiente, se pueden cumplir los requisitos de una gran variedad de diferentes servicios de audio.
Otra modalidad de acuerdo con la invención crea un aparato para proporcionar un flujo de bits que representa una señal de audio multicanal.
El aparato comprende un mezclador descendente configurado para proporcionar una señal de mezcla descendente con base en una pluralidad de señales del objeto de audio. El aparato comprende también un proveedor de información lateral configurado para proporcionar una información lateral paramétrica relacionada con el objeto, que describe las características de las señales del objeto de audio y los parámetros de mezcla descendente, y un parámetro de combinación lineal que describe las contribuciones de una matriz de reproducción especificada por el usuario y de una matriz de reproducción de destino a una matriz de reproducción modificada. El aparato para proporcionar un flujo de bits comprende también un formateador del flujo de bits configurado para proporcionar un flujo de bits que compre'nde una reproducción de la señal de mezcla descendente, la información lateral paramétrica relacionada con el objeto y el parámetro de combinación lineal .
Este aparato para proporcionar un flujo de bits que representa una señal de audio multicanal está bien adaptado para la cooperación con el aparato anteriormente discutido para proporcionar una representación de señal de mezcla ascendente. El aparato para proporcionar un flujo de bits que representa una señal de audio multicanal permite proporcionar el parámetro de combinación lineal que depende de su conocimiento de las señales del objeto de audio. En consecuencia, el codificador de audio (es decir, el aparato para proporcionar un flujo de bits que representa una señal de audio multicanal) puede tener un fuerte impacto sobre la calidad de reproducción proporcionada por un descodificador de audio (es decir, el aparato anteriormente discutido para proporcionar una representación de señal de mezcla ascendente) que evalúa el parámetro de combinación lineal. Asi, el aparato para proporcionar el flujo de bits . que representa una señal de audio multicanal tiene un nivel muy alto de control sobre el resultado de reproducción, que proporciona una satisfacción mejorada del usuario en muchos escenarios diferentes. En consecuencia, el codificador de audio de un proveedor de servicios es el que ofrece la guia, al utilizar el parámetro de combinación lineal, si al usuario se le debe permitir o no usar la configuración de reproducción extrema en riesgo de distorsiones audibles. Asi, la decepción del usuario, junto con las correspondientes consecuencias económicas negativas, pueden evitarse mediante el uso del codificador de audio descrito anteriormente .
Otra modalidad de acuerdo con la invención crea un método para proporcionar una representación de señal de mezcla ascendente con base en una representación de señal de mezcla descendente y una información de parámetro relacionado con el objeto, que se incluyen en una reproducción del flujo de bits del contenido de audio, que dependen de una matriz de reproducción especificada por el usuario. Este método se basa en la misma idea clave como el aparato descrito anteriormente.
Otro método de acuerdo con la invención crea un método para proporcionar un flujo de bits que representa una señal de audio multicanal. Tal método se basa en el hallazgo mismo que el aparato anteriormente descrito.
Otra modalidad de acuerdo con la invención crea un programa informático para realizar los métodos anteriores .
Otra modalidad de acuerdo con la invención crea un flujo de bits que representa una señal de audio multicanal. El flujo de bits comprende una representación de una señal de mezcla descendente que combina las señales de audio de una pluralidad de objetos de audio en una información lateral paramétrica relacionada con el objeto que describe las características de los objetos de audio.
El flujo de bits también comprende un parámetro- de combinación lineal que describe las contribuciones de una matriz de reproducción especificada por el usuario y de una matriz de reproducción de destino para una matriz de reproducción modificada. El flujo de bits permite algún grado de control sobre los parámetros de reproducción del lado del descodificador desde el lado del codificador de señal de audio.
BREVE DESCRIPCIÓN DE LAS FIGURAS Las modalidades de acuerdo con la presente invención se describirán posteriormente haciendo referencia a las figuras anexas, en las cuales: La Figura la muestra un diagrama esquemático de bloques de un aparato para proporcionar una representación de señal de mezcla ascendente, de acuerdo con una modalidad de la invención; La Figura Ib muestra un diagrama esquemático de bloques de un aparato para proporcionar un flujo de bits que representa una señal de audio multicanal, de acuerdo con una modalidad de la invención; La figura 2 muestra un diagrama esquemático de bloques de un aparato para proporcionar una representación de señal de mezcla ascendente, de acuerdo con otra modalidad de la invención; La Figura 3a muestra una representación esquemática de un flujo de bits que representa una señal de audio multicanal, de acuerdo con 'una modalidad de la invención; La Figura 3b muestra una representación detallada de la sintaxis de una información de configuración especifica de SAOC, de acuerdo con una modalidad de la invención; La Figura 3c muestra una representación detallada de la sintaxis de una información de cuadro de SAOC, de acuerdo con una modalidad de la invención; La Figura 3d muestra una representación esquemática de una codificación de un modo de control de distorsión en un elemento del flujo de bits "bsDcuMode" que puede ser utilizado en un flujo de bits de SAOC; La Figura 3e muestra una representación de la tabla de una asociación entre un índice de flujo de bits idx y un valor de un parámetro de combinación lineal "DcuParam [idx] ", que puede ser utilizado para la codificación de una información de combinación lineal en un flujo de bits de SAOC; La Figura 4 muestra un diagrama esguemático de bloques de un aparato para proporcionar una representación de señal de mezcla ascendente, de acuerdo con otra modalidad de la invención; La Figura 5a muestra una representación de la sintaxis de una información de configuración específica de "SAOC, de acuerdo con una modalidad de la invención; La Figura 5b muestra una representación de la tabla de una asociación entre un índice de flujo de bits idx y un parámetro de combinación lineal Param [idx] , que puede ser utilizado para codificar el parámetro de combinación lineal en un flujo de bits de SAOC; La Figura 6a muestra una tabla que describe las condiciones de prueba de audición; La Figura 6b muestra una tabla que describe los elementos de audio de las pruebas de audición; La Figura 6c muestra una tabla que describe las condiciones probadas de mezcla descendente/reproducción para un escenario de descodificación de SAOC estéreo a estéreo; La Figura 7 muestra una representación gráfica de los resultados de pruebas de audición de la unidad de control de distorsión (DCU) para un escenario SAOC estéreo a estéreo; La Figura 8 muestra un diagrama esquemático de bloques de un sistema de referencia MPEG SAOC; La Figura 9a muestra un diagrama esquemático de bloques de un sistema SAOC de referencia utilizando un descodificador y mezclador separados; La Figura 9b muestra un diagrama esquemático de bloques de un sistema SAOC de referencia utilizando un descodificador y mezclador integrados; y La Figura 9c muestra un diagrama esquemático de bloques de un sistema de referencia SAOC utilizando un transcodificador SAOC a MPEG.
DESCRIPCIÓN DETALLADA DE LAS MODALIDADES 1. Aparato para proporcionar una representación de señal de mezcla ascendente, de acuerdo a la Figura la La Figura la muestra un diagrama esquemático de bloques de un aparato para proporcionar una representación de señal de mezcla ascendente, de acuerdo con una modalidad de la invención.
El aparato 100 está configurado para recibir una representación de señal de mezcla descendente 110 y una información paramétrica relacionada con el objeto 112. El aparato 100 también está configurado para recibir un parámetro de combinación lineal 114. La representación de señal de mezcla descendente 110, la información paramétrica relacionada con el objeto 112 y el parámetro de combinación lineal 114 se incluyen en una representación de flujo de bits de un contenido de audio. Por ejemplo, el parámetro de combinación lineal 114 se describe por un elemento del flujo de bits dentro de la representación del flujo de bits. El aparato 100 también está configurado para recibir una información de reproducción 120, que define "una matriz de reproducción especificada por el usuario.
El aparato 100 está configurado para proporcionar una representación de señal de mezcla ascendente 130, por ejemplo, las señales de canales individuales o una señal de mezcla descendente surround MPEG en combinación con una información lateral surround MPEG.
El aparato 100 comprende un limitador de distorsión 140 que está configurado para obtener una matriz de reproducción modificada 142 utilizando una combinación lineal de una matriz de reproducción especificada por el usuario 144 (que se describe, directa o indirectamente, por la información de reproducción 120) y una matriz de reproducción de destino que depende de un parámetro de combinación lineal 146, que puede, por ejemplo, ser designado con gDcu- El aparato 100, por ejemplo, puede ser configurado para evaluar un elemento del flujo de bits 114 que representa el parámetro de combinación linea'l 146 con el fin de obtener el parámetro de combinación lineal.
El aparato 100 comprende también un procesador de señales 148 que está configurado para obtener la representación de señal de mezcla ascendente 130 con base en la representación de señal de mezcla descendente 110 y la información paramétrica relacionada con el objeto 112 utilizando la matriz de "reproducción' modificada 142.
En consecuencia, el aparato 100 es capaz de proporcionar la representación de señal de mezcla ascendente con buena calidad de reproducción utilizando, por ejemplo, un procesador de señales SAOC 148, o cualquier otro procesador de señales relacionado con el objeto 148. La matriz de reproducción modificada 142 se adapta por el limitador de distorsión 140 de tal manera que se logra una impresión de audiencia suficientemente buena con distorsiones suficientemente pequeñas, en la mayoría o en todos los casos. La matriz de reproducción modificada típicamente se encuentra "entre" la matriz de reproducción especificada por el usuario (deseada) y la matriz de reproducción de destino, en donde se determina un grado de similitud de la matriz de reproducción modificada a la matriz de reproducción especificada por el usuario y la matriz de reproducción de destino es determinada por el parámetro de combinación lineal, que en consecuencia permite un ajuste de una" calidad de reproducción alcanzable y/o de un nivel de distorsión máxima de la representación de señal de mezcla ascendente 130.
El procesador de señales 148, por ejemplo, puede ser un procesador de señales de SAOC . En consecuencia, el procesador de señales 148 puede ser configurado para evaluar la información paramétrica relacionada con el objeto 112 " para obtener los parámetros que describen las características de los objetos de audio representados, en una forma de mezcla descendente, por la representación de la señal de mezcla descendente 110. Además, el procesador de señales 148 puede obtener (por ejemplo, recibir) los parámetros que describen el procedimiento de mezcla descendente, que se utiliza en el lado de un codificador de audio proporcionando la representación del flujo de bits del contenido de audio con el fin de derivar la representación de señal de mezcla descendente 110 mediante la combinación de las señales del objeto de audio de una pluralidad de objetos de audio. Así, el procesador de señales 148, por ejemplo, puede evaluar una información de diferencia de nivel de objeto OLD que describe una diferencia de nivel entre una pluralidad de objetos de audio para un cuadro de audio dado y una o más bandas de frecuencia, y una información de correlación entre objetos IOC que describe una correlación entre señales de audio de "una pluralidad de pares de objetos de audio para un cuadro de audio dado y para una o más bandas de frecuencia. Además, el procesador de señales 148 también puede evaluar una información de mezcla descendente DMG, DCLD que describe una mezcla descendente, que se realiza en el lado de un codificador de audio proporcionando la representación del flujo de bits del contenido de audio, por ejemplo, en la forma de uno o más parámetros de ganancia de mezcla descendente DMG y uno o más parámetros de diferencia de nivel de los canales de mezcla descendente DCLD.
Además, el procesador de señales 148 recibe la matriz de reproducción modificada 142, que indica que los canales de audio de la representación de señal de mezcla ascendente 130 deben comprender un contenido de audio de los diferentes objetos de audio. En consecuencia, el procesador de señales 148 está configurado para determinar las contribuciones de los diferentes objetos de audio a la representación de señal de mezcla descendente 110 utilizando su conocimiento (obtenido a partir de la información OLD y la información IOC) de los objetos de audio asi como su conocimiento del proceso de mezcla descendente (obtenido a partir de la información DMG y la información DCLD) . Además, el procesador de señales proporciona la representación de señal de mezcla ascendente tal que se considera la matriz de reproducción modificada 142.
En consecuencia, el procesador de señales 148 cumple la funcionalidad del descodificador SAOC 820, en donde la representación de señal de mezcla descendente 110 toma el lugar de una o más señales de mezcla descendente 812, en donde la información paramétrica relacionada con el objeto 112 toma el lugar de la información lateral 814, y en donde la matriz de reproducción modificada "142 toma el lugar de la información la interacción/control del usuario 822. Las señales del canal ?? a yM toman el papel de la representación de señal de mezcla ascendente 130. En consecuencia, se hace referencia a la descripción del descodificador SAOC 820.
De manera similar, el procesador de señales 148 puede tomar el papel del descodificador/mezclador 920, en donde la representación de señal de mezcla descendente 110 toma el papel de una o más señales de mezcla descendente, en donde la información paramétrica relacionada con el objeto 112 toma el papel de los metadatos del objeto, en donde la matriz de reproducción modificada 142 toma el papel de la entrada de información de reproducción al mezclador/reproductor 926, y en donde la señal del canal 928 toma el papel de la representación de señal de mezcla ascendente 130.
Alternativamente, el procesador de señales 148 puede realizar la funcionalidad del descodificador y mezclador 950 integrados, en donde la representación de señal de mezcla descendente 110 puede tomar el papel de una o más señales de mezcla descendente, en donde la información paramétrica relacionada con el objeto 112 puede tomar el papel de los meta-datos del objeto, en donde la matriz de reproducción modificada 142 puede tomar el papel de la entrada de información dé reproducción para el descodificador del objeto más mezclador/reproductor 950, y en donde las señales del canal 958 pueden tomar el papel de la representación de señal de mezcla ascendente 130.
Alternativamente, el procesador de señales 148 puede realizar la funcionalidad del transcodificador surround de SAOC a MPEG 980, en donde la representación de señal de mezcla descendente 110 puede tomar el papel de una o más señales de mezcla descendente, en donde la información paramétrica relacionada con el objeto 112 puede tomar el papel de los metadatos del objeto, en donde la matriz de reproducción modificada 142 puede tomar el papel de la información de reproducción, y en donde una o más señales de mezcla descendente 988 en combinación con el flujo de bits surround MPEG 984 puede tomar el papel de la representación de señal de mezcla ascendente 130.
Por consiguiente, para obtener más detalles con respecto a la funcionalidad del procesador de señales 148, se hace referencia a la' descripción del descodificador SAOC 820, del descodificador y mezclador 920 separados, del descodificador y mezclador integrados 950, y del transcodificador surround de SAOC a MPEG 980. También se hace referencia, por ejemplo, a los documentos [3] y [4] con respecto a la funcionalidad del procesador de señales 148, en donde la matriz de reproducción modificada 142, en lugar de 'la matriz de reproducción especificada por el usuario 120, toma el papel de la información de reproducción de entrada en las modalidades de acuerdo con la invención.
Más detalles acerca de la funcionalidad del limitador de distorsión 140 se describirán más adelante. 2. Aparato para proporcionar un flujo de bits que representa una señal de audio multicanal, de acuerdo con la Figura Ib La Figura Ib muestra un diagrama esquemático de bloques de un aparato 150 para proporcionar un flujo de bits que representa una señal de audio multicanal.
El aparato 150 está configurado para recibir una pluralidad de señales del objeto de audio 160a a 160N. El aparato 150 está configurado además para proporcionar un flujo de bits 170 que representa la señal de audio multicanal, que se describe por las señales del objeto de audio 160a a 160N.
El aparato 150 comprende un mezclador descendente 180 que está configurado para proporcionar una señal de mezcla descendente 182 con base en la pluralidad de señales del objeto de audio 160a a 160N. El aparato 150 comprende ¦también un proveedor de información lateral 184 que está configurado para proporcionar una información lateral paramétrica relacionada con el objeto 186 que describe las características de las señales del objeto de audio 160a a 160N y los parámetros de mezcla descendente utilizados por el mezclador descendente 180. El proveedor de información lateral 184 también está configurado para proporcionar un parámetro de combinación lineal 188 que describe una contribución deseada de una matriz de reproducción especificada (deseada) por el usuario y de una matriz de reproducción de destino (baja distorsión) a una matriz de reproducción modificada.
La información lateral paramétrica relacionada con el objeto 186, por ejemplo, puede comprender una información de diferencia, de nivel de objeto (OLD) , que describe las diferencias al nivel de objeto de las señales del objeto de audio 160a a 160N (por ejemplo, de una manera relacionada con la banda) . La información lateral paramétrica relacionada con el objeto también puede comprender una información de correlación entre objetos (IOC) que describe las correlaciones entre las señales del objeto de audio 160a a 160N. Además, la información lateral paramétrica relacionada con el objeto puede describir la ganancia de mezcla descendente (por ejemplo, en una forma relacionada con el objeto), en donde los valores de ganancia de mezcla descendente son utilizados por el mezclador descendente 180 con el fin de obtener la señal de mezcla descendente 182 combinando las señales del objeto dé audio 160a a 160N. La información lateral paramétrica relacionada con el objeto 186 puede comprender una información de diferencia de nivel del canal de mezcla descendente (DCLD), que describe las diferencias entre los niveles de mezcla descendente para múltiples canales de la señal de mezcla descendente 182 (por ejemplo, si la señal de mezcla descendente 182 es una señal multicanal) .
El parámetro de combinación lineal 188 puede ser por ejemplo un valor numérico entre 0 y 1, que describe utilizar solamente una matriz de mezcla descendente especificada por el usuario (por ejemplo, para un valor de parámetro de 0), solamente una matriz de reproducción de destino (por ejemplo, para un valor de parámetro de 1) o cualquier combinación dada de la matriz de reproducción especificada por el usuario y la matriz de reproducción de destino entre estos extremos (por ejemplo, para valores de parámetros entre 0 y 1) .
El aparato 150 comprende también un" formateador del flujo de bits 190 que está configurado para proporcionar el flujo de bits 170 de tal manera que el flujo de bits comprende una representación de la señal de mezcla descendente 182, la información lateral paramétrica relacionada con el objeto 186 y el parámetro de combinación lineal 188.
En consecuencia, el aparato- 150 realiza la funcionalidad del codificador SAOC 810 de acuerdo con la Figura 8 o del codificador objeto de acuerdo con las Figuras 9a-9c. Las señales del objeto de audio 160a a 160N son equivalentes a las señales del objeto xi a xN recibidas, por ejemplo, por el codificador SAOC 810. La señal de mezcla descendente 182, por ejemplo, puede ser equivalente a una o más señales de mezcla descendente 812. La información lateral paramétrica relacionada con el objeto 186, por ejemplo, puede ser equivalente a la información lateral 814 o a los metadatos del objeto. Sin embargo, además de una señal de mezcla descendente de 1 canal o una señal de mezcla descendente multicanal 182 y la información lateral paramétrica relacionada con el objeto 186, el flujo de bits 170 también puede codificar el parámetro de combinación lineal 188.
En consecuencia, el aparato 150, que puede ser considerado como un codificador de audio, tiene un impacto sobre un manejo del ládo del descodificador del esquema de control de distorsión, que es realizado por el limitador de distorsión 140, al establecer apropiadamente el parámetro de combinación lineal 188, de tal manera que el aparato 150 espera una calidad de reproducción suficiente, provista por un descodificador de audio (por ejemplo, un aparato 100) que recibe el flujo de bits 170.
Por ejemplo, el proveedor de información lateral 184 puede establecer el parámetro de combinación lineal que depende de una información de requisito de calidad, que se recibe de una interfaz de usuario opcional 199 del aparato 150. Alternativamente, o además, el proveedor de información lateral 184 también puede tener en consideración las características de las señales del objeto de audio 160a a 160N, y de los parámetros de mezcla descendente del mezclador descendente 180. Por ejemplo, el aparato 150 puede estimar un qrado de distorsión, que se obtiene en un descodificador de audio bajo la suposición de una o más matrices de reproducción especificadas por el usuario del peor caso, y puede ajustar el parámetro de combinación lineal 188 de tal manera que se espera obtener una calidad de reproducción por el descodificador de señal de audio bajo la consideración de este parámetro de combinación lineal, todavía se considera como suficiente por el proveedor de información lateral 184. Por ejemplo, el aparato 150 puede establecer el parámetro de combinación lineal 188 a un valor que permita un impacto fuerte del usuario (influencia de la matriz de reproducción especificada por el usuario) sobre la matriz de reproducción modificada, si el proveedor de información lateral 184 encuentra que una calidad de audio de una representación de señal de mezcla ascendente no se degradaría severamente, incluso en presencia de ajustes extremos de reproducción especificados por el usuario. Este puede ser el caso, por ejemplo, si las señales del objeto de audio 160a a 160N son suficientemente similares. Por el contrario, el proveedor de información lateral 184 puede establecer el parámetro de combinación lineal 188 a un valor que permita un impacto comparativamente pequeño del usuario (o de la matriz de reproducción especificada por el usuario) , si el proveedor de información lateral 184 encuentra que los ajustes de la reproducción extrema podrían provocar fuertes distorsiones audibles. Este puede ser el caso, por ejemplo, si las señales del objeto de audio 160a a 160N son significativamente diferentes, de tal manera que es difícil una clara separación de los objetos de audio en el lado del descodificador de audio (o conectados con distorsiones audibles).
Se debe señalar aquí que el aparato 150 puede usar el conocimiento para el ajuste del parámetro de combinación lineal 188 que solamente está disponible en el lado del aparato 150, pero no en el lado de un descodificador de audio (por ejemplo, el aparato 100) tal como, por ejemplo, una entrada de información de calidad de reproducción deseada al aparato 150 por medio de una interfaz de usuario o el conocimiento detallado respecto a los objetos separados de audio, representados por las señales del objeto de audio 160a y 160N.
En consecuencia, el proveedor de información lateral 184 puede proporcionar el parámetro de combinación lineal 188 de una manera muy significativa. 3_. Sistema SAOC con Unidad de Control de distorsión (DCU), de acuerdo con la Figura 2 3.1 Estructura del Descodificador SAOC En lo siguiente, se describirá tomando como referencia la Figura 2, un proceso realizado por una unidad de control de distorsión (procesamiento DCU) que muestra un diagrama esquemático de bloques de un sistema SAOC 200.
Específicamente, la Figura 2 ilustra la unidad de control de distorsión DCU dentro del sistema SAOC global.
Tomando como referencia la Figura 2, el descodificador SAOC 200 está configurado para recibir una representación de señal de mezcla descendente 210 que representa, por ejemplo, una señal de mezcla descendente de 1 canal o una señal de mezcla descendente de 2 canales, o incluso una señal de mezcla descendente que tenga más de dos canales. El descodificador SAOC 200 está configurado para recibir un flujo de bits SAOC 212, que comprende una información lateral paramétrica relacionada con el objeto, tal como, por ejemplo, una información de diferencia de nivel de objeto OLDj una información de correlación entre objetos IOC, una información de ganancia de mezcla descendente DMG, y, opcionalmente , una información de diferencia de nivel de canal de mezcla descendente DCLD. El descodificador SAOC 200 también está configurado para obtener un parámetro de combinación lineal 214, que también se designa con gDcu- Típicamente, la representación de señal de mezcla descendente 210, el flujo de bits SAOC 212 y el parámetro de combinación lineal 214 se incluyen en una representación del flujo de bits de un contenido de audio.
El descodificador SAOC 200 también está configurado para recibir, por ejemplo, de una interfaz de usuario, una entrada de matriz de reproducción 220. Por ejemplo, el descodificador SAOC 200 puede recibir una entrada de matriz de reproducción 220 en forma de una matriz Mren, que define la contribución (especificada por el usuario, deseada) de una pluralidad de Nobj objetos de audio a 1, 2, o incluso má"s canales de señal de salida de audio (de la representación de mezcla ascendente) . La matriz de reproducción Mren, por ejemplo, puede ser la entrada de una interfaz de usuario, en donde la interfaz de usuario puede traducir una diferente forma de representación especificada por el usuario de configuración deseada de reproducción en parámetros de la matriz de reproducción Mren- Por ejemplo, la interfaz de usuario puede traducir una entrada en la forma de valores de deslizadera de nivel y una información de la posición del objeto de audio en una matriz de reproducción especificada por el usuario Mren utilizando algún mapeo.
Se debe señalar aquí que a lo largo de la presente descripción, los índices 1 que definen un segmento de tiempo de parámetro y m que definen una banda de procesamiento algunas veces se omiten en aras de la claridad. No obstante, debe tenerse en cuenta que el procesamiento puede realizarse de forma individual para una pluralidad de ranuras de tiempo de parámetros posteriores que tienen índices 1 y para una pluralidad de bandas de frecuencia que tienen índices de banda de frecuencia m.
El descodificador SAOC 200 también comprende una unidad de control de distorsión DCU 240 que está configurada para recibir la matriz de reproducción especificada por el usuario Mren, al menos una parte de la información del flujo de bits SAOC 212 (como se describirá en detalle más adelante) y el parámetro de combinación lineal 214. La unidad de control de distorsión 240 proporciona la matriz de reproducción modificada Mren/lim.
El descodificador de audio 200 comprende también una unidad de descodificación/transcodificación SAOC 248, que puede ser considerada como un procesador de señal, y que recibe la representación de señal de mezcla descendente 210, el flujo de bits SAOC 212 y la matriz de reproducción modificada Mren,iim. La Unidad de descodificación/transcodificación SAOC 248 proporciona una representación 230 de uno o más canales de salida, que puede considerarse como una representación de señal de mezcla ascendente. La representación 230 de uno o más canales de salida, por ejemplo, puede tomar la forma de una representación del dominio de frecuencia de canales de señales de audio individuales, de una representación de dominio de tiempo de canales de audio individuales o de una representación multicanal paramétrica. Por ejemplo, la representación de señal de mezcla ascendente 230 puede tomar la forma de una representación surround MPEG que comprende una señal de mezcla descendente surround MPEG y una información lateral surround MPEG.
Se debe señalar que la unidad de descodificación/transcodificación SAOC 248 puede comprender la misma funcionalidad que un procesador de señales 148, y puede ser equivalente al descodificador SAOC 820, al codificador y mezclador separados 920, al descodificador y mezclador integrados 950 y al transcodificador surround de SAOC a MPEG 980. 3.2 Introducción en la operación del Descodificador SAOC A continuación, se dará una breve "introducción" en la operación del descodificador 200 SAOC.
Dentro del sistema SAOC global, la unidad de control de distorsión (DCU) se incorpora en la cadena de procesamiento del descodificador/transcodificador SAOC entre la interfaz de reproducción (por ejemplo, una interfaz de usuario en donde se puede derivar la matriz de reproducción especificada por el usuario, o una información de la matriz de reproducción especificada por el usuario, es la entrada) y la unidad de descodificación/transcodificación SAOC real.
La unidad de control de distorsión 240 proporciona una matriz de reproducción modificada Mren,iira usando la información de la interfaz de reproducción (por ejemplo, la entrada de la matriz de reproducción especificada por el usuario, directamente o indirectamente, por medio de la interfaz de reproducción o interfaz de usuario) y los datos SAOC (por ejemplo, los datos del flujo de bits SAOC 212). Para más detalles, se haCe referencia a la Figura 2. A la matriz de reproducción modificada Mrefl lim se puede acceder mediante la aplicación (por ejemplo, la unidad de descodificación/transcodificación SAOC 248), que refleja las configuraciones de reproducción realmente eficaces.
Con base en el escenario de la reproducción especificada por el usuario, répresentado por la matriz de reproducción (especificada por el usuario) M're™ con los elementos m'"' , la DCU evita ajustes extremos de reproducción mediante la producción de una matriz modificada M^™lini que comprende coeficientes de reproducción limitada, que serán utilizados por la máquina de reproducción SAOC. Para todos los modos operativos de SAOC, los coeficientes de reproducción finales (procesados por la DCU) se calcularán de acuerdo a: iTiren.lim \l & DCU / ? ? ren t 6 DCUlyl ren.tar · El parámetro £?a/ e [0>l] / ue también se diseña como un parámetro de combinación lineal, se utiliza para definir el grado de transición de la matriz de reproducción especificada por el usuario M're™ hacia la matriz de destino sin distorsión M'^taT .
El parámetro gDCu se deriva del elemento del flujo de bits "bsDcuParam" de acuerdo con: gDcu = DcuParam [bsDcuParam] .
En consecuencia, se forma una combinación lineal • entre la matriz de reproducción especificada por el usuario Mren y la matriz de reproducción de destino sin distorsión Mren,tar'que depende del parámetro de combinación lineal gDcu- El parámetro de combinación lineal gDCu se deriva de un elemento del flujo de bits, de tal manera que no se requiere computación difícil del parámetro de combinación lineal gocu (al menos en el lado del descodificador ) . También, al derivar el parámetro de combinación lineal gDCu del flujo de bits, incluyendo la representación de señal de mezcla descendente 210, el flujo de bits SAOC 212 y el elemento del flujo de bits que representa el parámetro de combinación lineal, da a un codificador de señal de audio la oportunidad de controlar parcialmente el mecanismo de control de distorsión, que se realiza en el lado del descodificador SAOC.
Hay dos versiones posibles de la matriz de destino sin distorsión M're™tar , adecuadas para aplicaciones diferentes. Ésta es controlada por el elemento del flujo de bits "bsDcuMode": · ("bsDcuMode" = 0) : La reproducción "similar a mezcla descendente", en donde M're™tar corresponde a la matriz de mezcla descendente normalizada de energía. ("bsDcuMode" = 1) : La reproducción de "máximo esfuerzo", en donde 're™Iar se define como una función tanto de matriz de reproducción de mezcla descendente como especificada por el usuario.
En resumen, hay dos modos de control de distorsión llamados reproducción "similar a mezcla descendente" y reproducción de "máximo esfuerzo", que se pueden seleccionar de acuerdo con los elementos del flujo de bits "bsDcuMode". Estos dos modos difieren en la manera en que se computa su matriz de reproducción de destino. A continuación, se describirán con detalle aspectos sobre la computación de la matriz de reproducción de destino para los dos modos de reproducción "similar a mezcla descendente" y reproducción de "máximo esfuerzo". 3.3 Reproducción "similar a mezcla descendente" 3.3.1 Introducción El método de reproducción "similar a mezcla descendente" se puede utilizar típicamente en los casos en que la mezcla descendente es una importante referencia de alta calidad artística. La matriz de reproducción "similar a mezcla descendente" M'enDS se computa como en donde ND'S representa un valor escalar de normalización de energía (para cada ranura de parámetro /) y O'DS es la matriz de mezcla descendente D' extendida por filas de elementos cero de manera que el número y el orden de las filas corresponden a la constelación de M^™ .
Por ejemplo, en el modo estéreo SAOC a transcodificación multicanal NMPS = 6. Por consiguiente D'D5 es de tamaño /Vm iV (en donde N representa el número de objetos de audio de entrada) y sus filas representan los canales de salida frontal izquierdo y derecho iguales a D' (o corresponden a las filas de D' ) .
Para facilitar la comprensión de lo anterior, se deben considerar las siguientes definiciones de la matriz de reproducción y de la matriz de mezcla descendente.
La matriz de reproducción (modificada) MREN,LIM aplicada a los objetos de audio de entrada S determina la salida reproducida de destino como Y = MREN<LIM. La matriz de reproducción (modificada) Mren,iim con elementos m¡ . mapea todos los objetos de entrada /' (es decir, objetos de entrada que tienen índice de objeto ) para los canales de salida deseados j (es decir, los canales de salida que tienen índice de canal j) . La matriz de reproducción (modificada) Mren<lim se da por M , para la configuración de salida 5.1, ren,\\m para la configuración de salida estéreo, Para Ia configuración de salida mono.
Típicamente las mismas dimensiones se aplican también a la matriz de reproducción especificada por el usuario Mren y la matriz de reproducción de destino Mren tar.
La matriz de mezcla descendente D aplicada a los objetos de audio de entrada S (en un descodificador de audio) determina la señal de mezcla descendente como X = DS.
Para el caso de mezcla descendente estéreo, la matriz de mezcla descendente D de tamaño 2xN (también designada con D , para mostrar una posible dependencia del tiempo) con elementos d se obtiene (/ = 0, l;y = 0,..., N - l) (en un descodificador de audio) de los parámetros DMG y DCLD como 10 V i + ioO IDCi¾ Para el caso de la mezcla descendente mono, se obtiene la matriz de mezcla descendente D de tamaño l x N con elementos dt. j ( = 0;y =0,... , N - l) (en un descodificador de audio) a partir de los parámetros DMG como d0 =10 Los parámetros de mezcla descendente DMG y DCLD obtienen del flujo de bits SAOC 212. 3.3.2 Computación del Valor Escalar de Normalización de Energía para todos los modos SAOC de descodificación/transcodificación Para todos los modos SAOC de descodificación/transcodificación el valor escalar de normalización de energía ND' S se computa utilizando la siguiente ecuación: 3.4 Reproducción de "máximo esfuerzo" 3.4.1 Introducción El método de reproducción de "máximo esfuerzo" se puede utilizar típicamente en los casos en que la reproducción de destino es una referencia importante.
La matriz de reproducción de "máximo esfuerzo" describe una matriz de reproducción de destino, que depende de la mezcla descendente y la información de reproducción. La normalización de energía se representa por una matriz '5£ de tamaño NMPSxM , por lo que proporciona valores individuales para cada canal de salida. Esto requiere diferentes cálculos de N'¿™ para los diferentes modos de operación SAOC, que se exponen más adelante. La matriz de reproducción de "máximo esfuerzo" se computa como Mren,BE = M'ren,tar =VNB£D' ' 3G3 l0S Siguientes modOS SAOC "X~l" 1/2/5/b", "?-2-l/b", M ,BE = MLn,tar = N'0£D' > Para los siguientes modos SAOC "x-2-2/5".
Aquí D' es la matriz de mezcla descendente y N'¿™ representa la matriz de la normalización de energía.
El operador raíz cuadrada en la ecuación anterior designa una formación de raíz cuadrada en forma de elemento .
A continuación, la computación del valor N'fl£ , que puede ser un valor escalar de normalización de energía en el caso de un modo de descodificación SAOC mono a mono, y que puede ser una matriz de normalización de energía en el caso de otros modos de descodificación o modos de transcodificación, serán analizados en detalle. 3.4.2 Modo de descodificación SAOC mono a mono ("x-1-1") Para el modo SAOC "x-1-1" en donde se descodifica una señal de mezcla descendente mono para obtener una señal de salida mono (como una representación de señal de mezcla ascendente) , el valor escalar de normalización de eñergía N'BE' se calcula utilizando la siguiente ecuación 3.4.3 Modo de descodificación SAOC mono a estéreo ("x-1-2") Para el modo SAOC "x-1-2", en donde se descodifica una señal de mezcla descendente mono para obtener una salida estéreo (2 canales) (como una representación de señal de mezcla ascendente) , la matriz de normalización de energía '¿" de tamaño 2x1 se computa utilizando la siguiente ecuación 3.4.4 Modo de descodificación SAOC mono a binaural ("x-l-b") Para el modo SAOC "x-l-b", en donde se descodifica una señal de mezcla descendente mono para obtener una señal de salida reproducida binaural (como una representación de señal de mezcla ascendente) , la matriz de normalización de energía N'¿™ de tamaño 2x1 se computa . utilizando la siguiente ecuación Los elementos axmy comprenden (o se toman de) la matriz de reproducción binaural de destino A/,m . 3.4.5 Modo de descodificación SAOC estéreo a mono ("x-2-1") Para el modo SAOC "x-2-1", en donde se descodifica una señal de mezcla descendente (estéreo) de dos canales para obtener una señal de salida (mono) de un canal (como una representación de señal de mezcla ascendente) , la matriz de normalización de energía N'¿" de tamaño 1x2 se computa usando la siguiente ecuación N£= £(i )'j' en donde M're"' es la matriz de reproducción mono de tamaño lxN . 3.4.6 Modo de descodificación SAOC estéreo a estéreo ("x-2-2") Para el modo SAOC "x-2-2", en donde se descodifica una señal de mezcla descendente estéreo para obtener una señal de salida estéreo (como una representación de señal de mezcla ascendente) , la matriz de normalización de energía ;ß™ de tamaño 2x2 se computa usando la siguiente ecuación ^ = M:-(D')*J' en donde M're" es la matriz de reproducción estéreo de tamaño 2xN . 3.4.7 Modo de descodificación SAOC estéreo a binaural ("x-2-b") Para el modo SAOC "?-2-b", en donde se descodifica una señal de mezcla descendente estéreo para obtener una señal de salida reproducida binaural (como una representación de señal de mezcla ascendente) , la matriz de normalización de energía N'¿^' de tamaño 2x2 se computa usando la siguiente ecuación ?'^ = ?'"(?')* J' f en donde A''"' es una matriz de reproducción binaural de tamaño 2xN. 3.4.8 Modo de transcodificación SAOC mono a multicanal ("x-1-5") Para el modo SAOC "x-1-5", en donde se transcodifica una señal de mezcla descendente mono para obtener una señal de salida de 5 canales o de 6 canales (como una representación de señal de mezcla ascendente) , la matriz de normalización de energía N'fl™ de tamaño NMPSx se computa usando la siguiente ecuación 3.4.9 Modo de transcodificación SAOC estéreo a multicanal Px-2-5") Para el modo SAOC "x-2-5", en donde se transcodifica una señal de mezcla descendente estéreo para obtener una señal de salida de 5 canales o de 6 canales (como una representación de señal de mezcla ascendente) , la matriz de normalización de energía N'¿™ de tamaño NMPSx2 se computa usando la siguiente ecuación 3.4.10 Computación de J' Para evitar problemas numéricos cuando se calcula el término, J'=(D'(D')') en los incisos 3.4.5, 3.4.6, 3.4.7 y 3.4.9, J' se modifica en algunas modalidades. En primer ¦ lugar los valores propios ?_ de J; se calculan, resolviendo det(J-4-2I) = 0.
Los valores propios se ordenan en orden descendente {?]=?7) y el vector propio correspondiente al valor propio más grande se calcula de acuerdo con la ecuación anterior. Se debe asegurar de que se encuentren en el plano x positivo (el primer elemento tiene que ser positivo) . El segundo vector propio se obtiene del primero por una rotación de -90 grados: 3.4.1 Aplicación de la Unidad de Control de Distorsión (DCU) para objetos de audio mejorados (EAO) A continuación, se describirán algunas extensiones opcionales con respecto a la aplicación de la unidad de control de distorsión, que pueden ser implementadas en algunas modalidades de acuerdo con la invención .
Para descodificadores SAOC que descodifican datos de codificación residuales y asi soportan el manejo de EAOs, puede ser significativo el proporcionar una segunda parametrización de la DCU, que permite aprovechar al máximo la calidad de audio mejorada proporcionada por el uso de EAOs. Esto se logra mediante la descodificación y el uso de un segundo conjunto alternativo de parámetros de la DCU (es decir bsDcuMode2 y bsDcuParam2) que adicionalmente se transmite como parte de las estructuras de datos que contienen lós datos " residuales (es decir SAOCExtensionConfigDat ( ) y SAOCExtensionFrameData ( ) ) . Una aplicación puede hacer uso de este segundo conjunto de parámetros, si se descodifican los datos residuales de codificación y opera en modo estricto EAO que está definido por la condición de que solamente los EAOs pueden ser modificados arbitrariamente mientras que todos los no EAOs solamente pasan por una modificación común única. Específicamente, este modo estricto de EAO requiere el cumplimiento de dos condiciones siguientes: La matriz de mezcla descendente y la matriz de reproducción tienen las mismas dimensiones (lo que implica que el número de canales de reproducción es igual al número de canales de mezcla descendente) .
La aplicación solamente emplea coeficientes de reproducción para cada uno de los objetos regulares (es decir, no EAOs) que se relacionan con sus correspondientes coeficientes de mezcla descendente por un factor de escala común única. 4. Flujo de bits de acuerdo con la Figura 3a En lo siguiente, se describirá un flujo de bits que representa una señal de audio multicanal tomando como referencia la Figura 3a que muestra una representación gráfica del flujo de bits 300.
•El flujo de bits 300 comprendé una representación de señal de mezcla descendente 302, que es una representación (por ejemplo, una representación codificada) de una señal de mezcla descendente combinando las señales de audio de una pluralidad de objetos de audio. El flujo de bits 300 comprende también una información lateral paramétrica relacionada con el objeto 304 que describe características del objeto de audio y, típicamente, también características de un mezcla descendente realizada en un codificador de audio. La información paramétrica relacionada con el objeto 304 comprende preferentemente una información de diferencia de nivel de objeto OLD, una información de correlación entre objetos IOC, una información de ganancia de mezcla descendente DMG y una información diferente de nivel de canal de mezcla descendente DCLD. El flujo de bits 300 también comprende un parámetro de combinación lineal 306 que describe contribuciones deseadas de una matriz de reproducción especificada por el usuario y de una matriz de reproducción de destino a una matriz de reproducción modificada (para ser aplicado por un descodificador de señal de audio) .
Más detalles opcionales acerca de este flujo de bits 300, que puede ser proporcionado por el aparato 150 como el flujo de bits 170, y que puede ser la entrada en el aparato 100 para obtener la representación de señal de mezcla descendente 110, la información paramétrica relacionada con el objeto 112 y el parámetro de combinación lineal 140, o en el aparato 200 para obtener la información de mezcla descendente 210, la información del flujo de bits SAOC 212 y el parámetro de combinación lineal 214, se describirán en lo siguiente haciendo referencia a las Figuras 3b y 3c. 5. Detalles de Sintaxis del Flujo de Bits 5.1. Sintaxis de Configuración Especifica de SAOC La Figura .3b muestra una representación detallada de la sintaxis de una información de configuración especifica de SAOC.
La configuración especifica de SAOC 310 de acuerdo con la Figura 3b, por ejemplo, puede formar parte de un encabezado del flujo de bits 300 de acuerdo con la Figura 3a .
La configuración especifica de SAOC, por ejemplo, puede comprender una configuración de frecuencia de muestreo que describe una frecuencia de muestreo a ser aplicada por un descodificador SAOC. La configuración especifica de SAOC comprende también una configuración de modo de bajo retardo que describe si se debe utilizar un modo de bajo retardo o un modo dé alto retardo del procesador de señales 148 o de la unidad de descodificación/transcodificación SAOC 248. La configuración especifica de SAOC comprende también una configuración de resolución de frecuencia que describe una resolución de frecuencia para ser utilizada por el procesador de señales 148 o por la unidad de descodificación/transcodificación SAOC 248. Además, la configuración especifica de SAOC puede comprender una configuración de longitud de cuadro que describe una longitud de cuadros de audio para ser utilizados por el procesador de señales 148, o por la unidad de descodificación/transcodificación SAOC 248. Además, la configuración especifica de SAOC comprende típicamente una configuración del número de objetos que describe un número de objetos de audio para ser procesados por el procesador de señales 148, o por la unidad de descodificación/transcodificación SAOC 248. La configuración del número de objetos también describe una serie de parámetros relacionados con los objetos incluidos en la información paramétrica relacionada con el objeto 112, o en el flujo de bits SAOC 212. La configuración específica de SAOC puede comprender una configuración de relación de objetos, que designa a los objetos que tienen una información paramétrica común relacionada con el objeto. La coñfiguración específica de SAOC también puede comprender una configuración de transmisión de energía absoluta, que indica si una información de energía absoluta se transmite desde un codificador de audio hacia un descodificador de audio. La configuración específica de SAOC puede comprender también una configuración del número de canales de mezcla descendente, que indica si solamente hay un canal de mezcla descendente, si hay dos canales de mezcla descendente, o si existen, opcionalmente, más de dos canales de mezcla descendente. Además, la configuración específica de SAOC puede comprender información de configuración adicional en algunas modalidades.
La configuración específica de SAOC puede comprender también información de configuración de ganancia de mezcla descendente post-procesamiento "bsPdgFlag", que define si se transmite una ganancia de mezcla descendente post-procesamiento para un post-procesamiento opcional.
La configuración especifica de SAOC comprende también un indicador "bsDcuFlag" (que, por ejemplo, puede ser una indicador de 1 bit), que define si los valores "bsDcuMode" y "bsDcuParam" se transmiten en el flujo de bits. Si este indicador "bsDcuFlag" toma el valor de "1", otro indicador que está marcado "bsDcuMandatory" y un indicador "bsDcuDynamic" se incluyen en la configuración especifica de SAOC 310. El indicador "bsDcuMandatory" déscribe · si el control de distorsión debe ser aplicado por un descodificador de audio. Si el indicador "bsDcuMandatory" es igual a 1, entonces la unidad de control de distorsión debe ser aplicada usando los parámetros "bsDcuMode" y "bsDcuParam" tal como se transmiten en el flujo de bits. Si el indicador "bsDcuMandatory" es igual a "0", entonces los parámetros de la unidad de control de distorsión "bsDcuMode" y "bsDcuParam" transmitidos en el flujo de bits solamente son valores recomendados, y también se pueden usar otros ajustes de la unidad de control de distorsión.
En otras palabras, un codificador de audio puede activar el indicador "bsDcuMandatory" con .el fin de hacer cumplir el uso del mecanismo de control de distorsión en un descodificador de audio compatible con el estándar, y puede desactivar el indicador con el fin de dejar la decisión de aplicar o no la unidad control de distorsión, y si es asi, cuáles parámetros utilizar para la unidad de control de distorsión, al descodificador de audio.
El indicador "bsDcuDynamic" permite una señalización dinámica de los valores "bsDcuMode" y "bsDcuParam". Si el indicador "bsDcuDynamic" está desactivado, los parámetros "bsDcuMode" y "bsDcuParam" se incluyen en la configuración especifica de SAOC, y en caso contrario, los parámetros "bsDcuMode" y "bsDcuParam" se incluyen en los marcos de SAOC, o, al menos, en algunos de los marcos de SAOC, como se discutirá más adelante. En consecuencia, un codificador de señal de audio puede cambiar entre una señalización de una sola vez (por pieza de audio que comprende una sola configuración especifica de SAOC y, típicamente, una pluralidad de cuadros de SAOC) y una transmisión dinámica de los parámetros dentro de algunos o todos los cuadros de SAOC.
El parámetro "bsDcuMode" define el tipo de matriz de destino sin distorsión para la unidad de control de distorsión (DCU) de acuerdo con la tabla de la Figura 3d.
El parámetro "bsDcuParam" define el valor del parámetro para el. algoritmo de la unidad de control de distorsión (DCU) de acuerdo con la tabla de la Figura 3e. En otras palabras, el parámetro de 4 bits "BsDcuParam" define un valor de índice idx, que puede ser mapeado por un descodificador de señal de audio en un valor de combinación lineal gDcu (también designado con "DcuParam[ind] " o "DcuParam [ idx] " ) . Así, el parámetro "bsDcuParam" representa, de una manera cuantificada , el parámetro de combinación lineal.
Como puede verse en la Figura 3b, los parámetros "bsDcuMandatory", "bsDcuDynamic" , "bsDcuMode" y "bsDcuParam" se establecen en un valor por defecto de "0", si el indicador "bsDcuFlag" toma el valor de "0", lo que indica que no se transmiten parámetros de la unidad de control de distorsión.
La configuración específica de SAOC comprende también, opcionalmente, uno o más bits de alineación de bytes "ByteAlign ( ) " para llevar la configuración específica de SAOC a una longitud deseada.
Además, la configuración específica de SAOC puede comprender opcionalmente una Configuración de extensión de SAOC "SAOCExtensionConfig ( ) ", que comprende parámetros de configuración adicionales. Sin embargo, los parámetros de configuración no son relevantes para la presente invención, de tal manera que aquí se omite una discusión en aras de la brevedad. 5.2. Sintaxis de Cuadro de SAOC En lo siguiente, la sintaxis de un cuadro de SAOC se describirá tomando como referencia la Figura 3c.
El cuadro de SAOC "SAOCFrame" típicamente comprende valores de diferencia de nivel de objetos codificados OLD como se mencionó anteriormente, los cuales pueden ser incluidos en los datos del cuadro de SAOC para una pluralidad de bandas de frecuencia ("modo de banda") y para una pluralidad de objetos de audio (por objeto de audio) .
El cuadro de SAOC, opcionalmente , también comprende valores de energía absoluta codificada NRG que pueden ser incluidos para una- pluralidad de bandas de frecuencia (modo de banda) .
El cuadro de SAOC puede comprender también valores de correlación entre objetos codificados IOC, que se incluyen en los datos de cuadro de SAOC para una pluralidad de combinaciones de objetos de audio. Los valores IOC se incluyen típicamente en una forma de banda.
El cuadro de SAOC comprende también valores de ganancia de mezcla descendente codificados DMG, en donde típicamente existe un valor de ganancia de mezcla descendente por objeto de audio por cuadro de SAOC.
El cuadro de SAOC comprende también, opcionalmente, diferencias de nivel de canal de mezcla descendente codificadas DCLD, en donde típicamente existe un valor de diferencia de nivel de canal de mezcla descendente por objeto de audio y por cuadro de SAOC.
También, el cuadro de SAOC típicamente comprende, opcionalmente, valores de ganancia de mezcla descendente codificados pdst-procesamiento PDG.
Además, un cuadro de SAOC puede comprender también, en algunas circunstancias, uno o más parámetros de control de distorsión. Si el indicador "bsDcuFlag", que se incluye en la sección de configuración específica de SAOC, es igual a "1", que indica el uso de información de la unidad de control de distorsión en el flujo de bits, y si él indicador "bsDcuDynamic" en la configuración específica de SAOC también toma el valor de "1", indicando el uso de una información de la unidad de control de distorsión dinámica (en forma de cuadro) , la información de control de distorsión se incluye en el cuadro de SAOC, siempre que el cuadro de SAOC sea un llamado cuadro de SAOC "independiente", para que el indicador "bsIndependencyFlag" se active, o que el indicador "bsDcuDynamicUpdate" se active .
Debe señalarse aquí que el indicador "bsDcuDynamicUpdate" solamente se incluye en el cuadro de SAOC si el indicador "bsIndependencyFlag" está inactivo y que el indicador "bsDcuDynamicUpdate" define si los valores "bsDcuMode" y "bsDcuParam" están actualizados. Más precisamente, "bsDcuDynamicUpdate" = = 1 significa que los valores "bsDcuMode" y "bsDcuParam" se actualizan en el cuadro actual, mientras que "bsDcuDynamicUpdate" = = 0 significa que los valores transmitidos previamente se mantienen .
Por consiguiente, los parámetros "bsDcuMode" y "bsDcuParam", que se han explicado anteriormente, se incluyen en el cuadro de SAOC si la transmisión de los parámetros de la unidad de control de distorsión está activada y una transmisión dinámica de los datos de la unidad de control de distorsión también está activada y el indicador "bsDcuDynamicUpdate" está activado. Además, los parámetros "bsDcuMode" y "bsDcuParam" también se incluyen en el cuadro de SAOC si el cuadro de SAOC es un cuadro de SAOC "independiente", la transmisión de datos de la unidad de control de distorsión está activada y la transmisión dinámica de los datos de la unidad de control de distorsión también está activada.
El cuadro de SAOC comprende también, opcionalmente, datos de relleno "byteAlign ( ) " para llenar el cuadro de SAOC a una longitud deseada.
Opcionalmente, el cuadro de SAOC puede comprender información adicional, la cual se designa como "SAOCExt o ExtensionFrame ( ) ".. Sin embargo, esta información adicional opcional del cuadro de SAOC no es relevante para la presente invención y, en aras de la brevedad, por lo tanto no se discutirá aquí.
Para completar, hay que señalar que el indicador "bsIndependencyFlag" indica si la codificación sin pérdida del cuadro de SAOC actual se hace independientemente del cuadro de SAOC previo, es decir, si el cuadro de SAOC actual puede ser descodificado sin el conocimiento del cuadro de SAOC previo. 6. Descodificador/transcodificador SAOC de acuerdo con la Figura 4 En lo siguiente, se describirán modalidades adicionales de esquemas limitantes del coeficiente de reproducción para el control de distorsión en SAOC. 6.1 Perspectiva general La Figura 4 muestra un diagrama esquemático de bloques de un descodificador de audio 400, de acuerdo con una modalidad de la invención.
El descodificador de audio 400 está configurado para recibir una señal de mezcla descendente 410, un flujo de bits de SAOC 412, un parámetro de combinación lineal 414 (también designado con ?) , y una información de matriz de reproducción 420 (también designada con R) . El descodificador de audio 400 está configurado para recibir una representación de señal de mezcla ascendente, por ejemplo, en la forma de una pluralidad de canales de salida 130a a 130 . El descodificador de audio 400 comprende una unidad de control de distorsión 440 (también designada con DCU) que recibe al menos una parte "de la información del flujo de bits de SAOC del flujo de bits de SAOC 412, el parámetro de combinación lineal 414 y la información de la matriz de reproducción 420. La unidad de control de distorsión proporciona una información de reproducción modificada Riim que puede ser una información de la matriz de reproducción modificada.
?G descodificador de -audio 400 también comprende un descodificador SAOC y/o transcodificador SAOC 448, que recibe la señal de mezcla descendente 410, el flujo de bits de SAOC 412 y la información de reproducción modificada Riim y proporciona, con base en el mismo, los canales de salida 130a a 130M.
En lo siguiente, la funcionalidad del descodificador de audio 400, que utiliza uno o más esquemas limitantes del coeficiente de reproducción de acuerdo con la presente invención, se discutirá en detalle.
El general procesamiento de SAOC se lleva a cabo de una manera selectiva de tiempo/frecuencia y se puede describir como sigue. El codificador SAOC (por ejemplo, el codificador SAOC 150) extrae las características psicoacústicas (por ejemplo, las relaciones y correlaciones de poder del objeto) de varias señales de objeto de audio de entrada y luego realiza una mezcla descendente de ellos en un canal mono combinado o estéreo (por ejemplo, la señal de mezcla descendente 182 o la señal de mezcla descendente 410) . Esta señal de mezcla descendente y la información lateral extraída (por ejemplo, la información lateral paramétrica relacionada con el objeto o la información del flujo de bits de SAOC 412 se transmiten (o almacenan) en formato comprimido usando los codificadores de audio de percepción bien conocidos. En el extremo receptor, el descodificador SAOC 418 conceptualmente intenta restaurar las señales de los objetos originales (es decir, objetos mezclados descendentemente separados) usando la información lateral transmitida 412. Estas señales aproximadas de objetos después se mezclan en una escena de destino utilizando una matriz de reproducción. La matriz de reproducción, por ejemplo, R o Rüm se compone de los Coeficientes de Reproducción (RCs) especificados para cada objeto de audio transmitido y altavoz de configuración de mezcla ascendente. Estos RCs determinan las ganancias y las posiciones espaciales de todos los objetos separados/reproducidos .
Efectivamente, la separación de las señales de objetos raramente o incluso nunca se ejecuta, ya que la separación y la mezcla se realizan en un solo paso de procesamiento combinado que da por resultado una enorme reducción de la complejidad computacional . Este esquema es tremendamente eficiente, tanto en términos de velocidad de transmisión de bits (solamente necesita transmitir uno o dos canales de mezcla descendente 182, 410, además de alguna información lateral 186, 188, 412, 414, en lugar de varias señales de objetos de audio individuales) y la complejidad computacional (la complejidad del procesamiento se refiere principalmente al número de canales de salida en lugar del número de objetos de audio). El descodificador SAOC transforma (en un nivel paramétrico) las ganancias de objeto y otra información lateral directamente en los Coeficientes de Transcodificación (TCs) que se aplican a la señal de mezcla descendente 182, 414 para crear las señales correspondientes 130a a 130M para la escena de salida de audio reproducida (o la señal de mezcla descendente preprocesada por una operación de descodificación adicional, es decir, típicamente reproducción Surround MPEG multicanal) .
La calidad de audio percibida subjetivamente de la escena de salida reproducida se puede mejorar mediante la aplicación de una unidad de control de distorsión DCU (por ejemplo, una unidad de modificación de matriz de reproducción), como se describe en [6]. Este mejoramiento se puede conseguir por el precio de aceptar una modificación dinámica moderada de las configuraciones de reproducción de destino. La modificación de la información de reproducción se puede hacer con la variante del tiempo y la frecuencia, que en circunstancias especificas puede dar " por resultado coloraciones sonoras no naturales y/o artefactos de fluctuación temporal.
Dentro del sistema SAOC global, la DCU se puede incorporar en la cadena de procesamiento del descodificador/transcodificador SAOC de manera sencilla. Específicamente, se coloca en el extremo frontal de la SAOC mediante el control de los RCs R, véase la Figura 4. 6.2 Hipótesis subyacente La hipótesis subyacente del método de control indirecto considera una relación entre el nivel de distorsión y las desviaciones de los RCs desde su nivel de los objetos correspondientes en la mezcla descendente. Esto se basa en la observación de que la atenuación/elevación más especificas se aplican por los RCs a un objeto en particular con respecto a los otros objetos, la modificación más agresiva de la señal transmitida de mezcla descendente se va a realizar por el descodificador/transcodificador SAOC. En otras palabras: cuanto mayor es la desviación de los valores de "ganancia del objeto" que son relativos entre si, mayor será la probabilidad de que se produzca distorsión inaceptable (suponiendo idénticos coeficientes de mezcla descendente). 6.3 Cálculo de los coeficientes de reproducción limitada Con base en el escenario de la reproducción especificada por el usuario, representado por los coeficientes (los CRs) de una matriz ^ de tamaño ^chx^ob (es decir, las filas corresponden a los canales de salida 130a a 130M, · las columnas a los- objetos de audio de entrada), la DCU evita ajustes extremos de reproducción mediante "la producción de una matriz modificada lim que comprende coeficientes de reproducción limitada, que son realmente utilizados por la máquina de reproducción SAOC 448. Sin pérdida de generalidad, en la descripción posterior, se supone que los RCs son de frecuencia invariante para simplificar la notación. Para todos los modos operativos de SAOC, los coeficientes de reproducción limitada pueden derivarse como ^ Esto significa que al incorporar el parámetro de desvanecimiento Ae[0,l] (también designado como un parámetro de combinación lineal), se puede realizar una mezcla de la matriz de reproducción (especificada por el usuario) R hacia una matriz de destino R . En otras palabras, la matriz limitada RUm representa una combinación lineal de la matriz de reproducción R y una matriz de destino. Por un lado, la matriz de reproducción de destino podría ser la matriz de mezcla descendente (es decir, los canales de mezcla descendente se pasan a través del transcodificador 448) con un factor de normalización u otra matriz estática que da por resultado una matriz de transcodificación estática. Esta "reproducción similar a mezcla descendente" asegura que la matriz de reproducción de destino no introduzca ningún artefacto de procesamiento SAOC y por lo tanto representa un punto de reproducción óptima en términos de calidad de audio no obstante ser totalmente independiente de los coeficientes de reproducción inicial.
No obstante, si una aplicación exige un escenario de reproducción específica o un valor establecido alto por el usuario en su configuración de reproducción inicial (especialmente, por ejemplo, la posición espacial de uno o más objetos) , la reproducción similar a mezcla descendente no sirve como punto de destino. Por otro lado, un punto tal puede ser interpretado como "la reproducción de máximo esfuerzo" cuando se tiene en cuenta los coeficientes tanto de mezcla descendente como de reproducción inicial (por ejemplo, la matriz de reproducción especificada por el usuario) . El objetivo de esta segunda definición de la matriz de reproducción de destino es preservar el escenario de reproducción especificado (por ejemplo, definido por la matriz de reproducción especificada por el usuario) de una mejor manera posible, pero al mismo tiempo manteniendo la degradación audible debido a la excesiva manipulación del objeto en un nivel mínimo. 6.4 Reproducción Similar a Mezcla Descendente 6.4.1 Introducción La matriz de mezcla descendente D de tamaño jVrfmi.xNo6 se determina por el codificador (por ejemplo, el codificador de audio 150) y comprende información sobre cómo se combinan linealmente los objetos de entrada en la señal de mezcla descendente que se transmite al descodificador . Por ejemplo, con una señal de mezcla descendente mono, D se reduce a un vector de una sola fila, y en el caso de mezcla descendente estéreo Ndnu. = 2.
La matriz de "reproducción similar a mezcla descendente" RDS se computa como R(=RDS) = NDSDR en donde NDS representa el valor escalar de normalización de energía y DR es la matriz de mezcla descendente extendida por filas de elementos cero de modo que el número y el orden de las filas de DR corresponden a la constelación de R. Por ejemplo, en el modo de transcodificación SAOC estéreo a multicanal (x-2-5) Ndmr=2 y Nch=6. Por consiguiente DR es de tamaño NchxNob y sus filas que representan los canales de salida frontal izquierdo y derecho son iguales a D. 6.4.2 Todos los modos de descodificación/transcodificación SAOC Para todos los modos de descodificación/transcodificacióh SAOC el valor escalar de normalización de energía NDS se puede computar utilizando la siguiente ecuación en donde el operador traza (X) , implica la suma de todos los elementos diagonales de la matriz X. El (*) implica el operador de transposición conjugado complejo. 6.5 Reproducción de máximo esfuerzo 6.5.1 Introducción El método reproducción de máximo esfuerzo describe una matriz de reproducción de destino, que depende de la información de mezcla descendente y de reproducción.
La normalización de energía está representada por una matriz NBE de tamaño Nch Ndm , por lo que proporciona valores individuales para cada canal de salida (siempre que exista más de un canal de salida) . Esto requiere diferentes cálculos de NBE para los diferentes modos de operación de SAOC, que se exponen en las secciones siguientes.
La matriz de "reproducción de máximo esfuerzo" se computa como- en donde D es la matriz de mezcla descendente y NBE representa la matriz de normalización de energía. 6.5.2 Modo de descodificación SAOC mono a mono ("x-1-1") Para el modo SAOC "x-1-1" el valor escalar de normalización de energía NBE se puede computar usando la siguiente ecuación 6.5.3 Modo de descodificación SAOC mono a estéreo ("x-1-2") Para el modo SAOC "x-l-2"la matriz de normalización de energía NBE de tamaño 2x1 se puede computar usando la siguiente ecuación 6.5.4 Modo de descodificación SAOC mono a binaural ("x-1-b") • Para el modo SAOC "x-l-b" la matriz de normalización de energía NBE de tamaño 2x1 se puede computar usando la siguiente ecuación Se debe señalar además que aquí ri y r2 consideran/incorporan información de parámetros de HRTF binaurales .
También se debe señalar que, para todas las 3 ecuaciones anteriores, se debe tomar la raíz cuadrada de (véase la descripción anterior) 6.5.5 Modo de descodificación SAOC estéreo a mono ("x-2-1") Para el modo SAOC "x-2-1" la matriz de normalización de energía NBE de tamaño 1x2 se puede computar usando la siguiente ecuación N„ =R,D*(DD'Y R en donde la matriz de reproducción mono Ri de tamaño lxNob se define como 6.5.6 Modo de descodificación SAOC estéreo a estéreo ("x-2-2") Para el modo SAOC "x-2-2" la matriz de normalización de energía NBE de tamaño 2x2 se puede computar usando la siguiente ecuación NBE=R2D*(DD*)'1 , en donde la matriz de reproducción estéreo ¾ de tamaño 2xN. se define como 6.5.7 Modo de descodificación SAOC mono a binaural ("x-2-b") Para el modo SAOC "?-2-b" la matriz de normalización de energía NBE de tamaño 2x2 se puede computar usando la siguiente ecuación Nia;=w(DD-y t en donde la matriz de reproducción binaural i¾ de tamaño 2xNob se define como Se debe señalar además que aquí ri,n y r2,n consideran/incorporan información de parámetros de HRTF binaurales . 6.5.8 Modo de transcodificación SAOC mono a multicanal ("x-1-5") Para el modo de SAOC "x-1-5" la matriz de normalización de energía NBE de tamaño N,Ax se puede computar usando la siguiente ecuación De nuevo, tomar la raíz cuadrada para cada elemento, se recomienda o incluso se requiere en algunos casos . 6.5.9 Modo de transcodificación SAOC estéreo a multicanal ("x-2-5") Para el modo de SAGC "x-2-5" la matriz de normalización de energía NBE de tamaño Nchx2 se puede computar usando la siguiente ecuación JV^ = RD* (£>£)*)' 6.5.10 Cálculo del (DD )_i Para el cálculo del término (DD*)-1 se pueden aplicar métodos de regularización para prevenir los malos resultados de la matriz planteada. 6.6 Control de los esquemas limitantes de coeficientes de reproducción 6.6.1 Ejemplo de sintaxis del flujo de bits En lo siguiente se describirá una representación sintáctica de una configuración especifica de SAOC tomando como referencia la Figura 5a. La configuración especifica de SAOC "SAOCSpecificConfig ( ) " comprende la información de configuración convencional de SAOC. Además, la configuración especifica de SAOC comprende una adición específica de DCU 510, que se describirá con mayor detalle más adelante. La configuración especifica de SAOC también comprende uno o más bits de relleno "ByteAlign ( ) " , que pueden ser utilizados para ajusfar la longitud de la configuración específica de SAOC. Además, la configuración específica de SAOC puede comprender opcionalmente la ¦configuración de extensión de SAOC, que comprende más parámetros de configuración.
La adición específica de DCU 510 de acuerdo con la Figura 5a, para el elemento de sintaxis del flujo de bits "SAOCSpecificConfig () " es un ejemplo de señalización de flujo de bits para el esquema de DCU propuesto. Esto se relaciona con la sintaxis descrita en la subcláusula "5.1 campos de información para SAOC" del proyecto de Estándar de SAOC de acuerdo con la referencia [8] .
A continuación, se dará la definición de algunos de los parámetros. "bsDcuFlag" Define si las configuraciones de la DCU son determinadas por el codificador o descodificador/transcodificador SAOC. Más precisamente, "bsDcuFlag" = 1 significa que los valores "bsDcvi ode" y "bsDcuParam" especificados en la SAOCSpecificConfig ( ) por el codificador SAOC se aplican a la DCU, mientras que "bsDcuFlag" = 0 significa que las variables "bsDcuMode" y "bsDcuParam" (inicializadas por los valores por defecto) pueden ser modificadas por la aplicación de descodificador/transcodificador SAOC o usuario. "bsDcuMode" Define el modo de la DCU. Más precisamente, "bsDcuMod" = 0 significa que el modo de reproducción "similar a mezcla descendente" es aplicado por la DCU, mientras que "bsDcuMode" = 1 que el modo de reproducción de "máximo esfuerzo" es aplicado por el algoritmo de la DCU. "bsDcuParam" Define el valor del parámetro de mezcla para el algoritmo de la DCU, en donde la tabla de la Figura 5b muestra una tabla de cuantificación para los parámetros "bsDcuParam".
Los posibles valores "bsDcuParam" son en este ejemplo, parte de una tabla con 16 entradas representadas por 4 bits. Por supuesto, se podría utilizar cualquier tabla, más grande o más pequeña. El espaciamiento entre los valores puede ser logarítmico a fin de corresponder a la separación máxima del objeto en decibeles. Pero los valores también podrían ser linealmente espaciados, o una combinación híbrida de logarítmicos y lineales, o cualquier otro tipo de escala.
El parámetro "bsDcuMode" en el flujo de bits hace posible en el lado del codificador elegir, de acuerdo con la situación, el algoritmo óptimo de DCU . Esto puede ser muy útil, ya que algunas aplicaciones o contenidos podrían beneficiarse del modo de reproducción "similar a mezcla descendente", mientras que otras podrían beneficiarse del modo de reproducción de "máximo esfuerzo".
Típicamente, el modo de reproducción "similar a mezcla descendente" puede ser el método deseado para aplicaciones en donde la compatibilidad hacia atrás/hacia adelante es importante y la mezcla descendente tiene importantes cualidades artísticas que necesitan ser preservadas. Por otro lado, el modo de reproducción de "máximo esfuerzo" puede tener un mejor desempeño en los casos en que este no sea el caso.
Estos parámetros de la DCU relacionados con la presente invención, por supuesto, podrían ser transmitidos en cualquier otra parte del flujo de bits de SAOC . Una ubicación alternativa sería utilizar el contenedor "SAOCExtensionConfig ( ) " en donde se podría utilizar un ID de cierta extensión. Ambas secciones se encuentran en el encabezado de SAOC, asegurando mínima sobrecarga a la velocidad de datos.
Otra alternativa consiste en transmitir los datos de la DCU en los datos de campos de información (es decir, en SAOCFrame ( ) ) . Esto permitiría la señalización variante del tiempo (por ejemplo, control adaptable de señal) .
Un procedimiento flexible es definir la señalización del 'flujo de bits de los datos de la DCU ' tanto para encabezado (es decir, señalización estática) como en los datos de campos de información (es decir señalización dinámica) . A continuación, un codificador SAOC es libre de elegir uno de los dos métodos de señalización. 6.7 Estrategia de Procesamiento En el caso de que las configuraciones de la DCU (por . ej emplo, el modo de DCU "bsDcuMode" y la configuración del parámetro de mezcla "bsDcuParam" ) se especifiquen explícitamente por el codificador SAOC (por ejemplo, "bsDcuFlag" = 1), el descodificador/transcodificador SAOC aplica estos valores directamente a la DCU. Si las configuraciones de la DCU no se especifican explícitamente (por ejemplo, "bsDcuFlag" = 0) el descodificador/transcodificador SAOC utiliza los valores por defecto y permite la aplicación del descodificador/transcodificador SAOC o que el usuario los modifique. El primer índice de cuantificación (por ejemplo idx = 0) se puede utilizar para deshabilitar la DCU. Alternativamente, el valor por defecto de la DCU ( "bsDcuParam" ) puede ser "0", es decir deshabilitar la DCU o "1", es decir limitación completa. 7. Evaluación del Desempeño 7.1 Diseño de la prueba de audición Se llevó a cabo una prueba de audición subjetiva para evaluar el desempeño de percepción del concepto de DCM propuesto y fue comparada con los resultados del procesamiento de descodificación/transcodificación RM SAOC. En comparación con otras pruebas de audición, la tarea de esta prueba consiste en considerar la mejor calidad de reproducción posible en situaciones extremas de reproducción ("objetos solistas", "objetos mudos") en relación con dos aspectos de la calidad: 1. alcanzar el objetivo de la reproducción (una buena atenuación/elevación de los. objetos de destino) 2. la calidad del sonido de la escena en general (considerando las distorsiones, artefactos, elementos antinaturales, etc.).
Por favor, tenga en cuenta que un procesamiento sin modificar SAOC puede cumplir el aspecto # 1, pero no el aspecto # 2, mientras que el simple uso de la señal transmitida de mezcla descendente puede cumplir el aspecto # 2, pero no el aspecto # 1.
La prueba de audición se llevó a cabo al presentar solamente opciones verdaderas al oyente, es decir, solamente material que realmente está disponible como una señal en el lado del descodificador . Asi, las señales presentadas son la señal de salidá del descodificador SAOC regular (sin procesar por la DCU) , demostrando el desempeño de linea de base de la SAOC y la salida de SAOC/DCU. Además, el caso de la reproducción trivial, que corresponde a la señal de mezcla descendente, se presenta en la prueba de audición.
La tabla de la Figura 6a describe las condiciones de la prueba de audición.
Ya que la DCU propuesta opera utilizando los datos regulares de la SAOC y los mezcla descendentemente y no se basa en información residual, no se aplicó codificador de núcleo a las correspondientes señales de mezcla descendente de la SAOC. 7.2 Elementos de prueba de audición Los siguientes elementos, junto con la reproducción extrema y critica han sido elegidos para la prueba de audición actual del material de prueba de audición CfP.
La tabla de la Figura 6b describe los elementos de audio de las pruebas de audición. 7.3 Ajustes de mezcla descendente y reproducción Las ganancias de los objetos de reproducción que se describen en la tabla de la Figura 6c se han aplicado para los escenarios considerados de mezcla ascendente. 7. Instrucciones de prueba de audición Las pruebas subjetivas de audición se llevaron a cabo en una sala de audición acústicamente aislada que está diseñada para permitir la audición de alta calidad. El playback se hizo usando auriculares (STAX SR Lambda Pro con Convertidor Lake-People D/A y Monitor STAX SRM) .
El método de prueba siguió el procedimiento utilizado en las pruebas de verificación de audio espacial, similares al método de "Estimulo Múltiple con Referencia Oculta y Anclas" (MUSHRA, por sus siglas en inglés) para la evaluación subjetiva de la calidad de audio intermedia [2]. El método de prueba se ha modificado como se describió anteriormente con el fin de evaluar el rendimiento de percepción de la DCU propuesta. Los oyentes fueron instruidos para cumplir con las siguientes instrucciones de prueba de audición: "Escenario de aplicación: Imagínese que usted es el usuario de un sistema de "remezcla de música interactiva que le permite realizar remezclas dedicadas de material musical. El sistema proporciona controles deslizantes de mezcla de estilo de escritorio para cada instrumento, para cambiar su nivel, posición espacial, etc. Debido a la naturaleza del sistema, algunas mezclas de sonidos extremos pueden conducir a la distorsión que degrada la calidad general del sonido. Por otro lado, las mezclas de sonido con los niveles de instrumentos similares tienden a producir una mejor calidad de sonido.
El objetivo de esta prueba es evaluar diferentes algoritmos de procesamiento con respecto a su impacto en la fuerza de la modificación del sonido y una calidad de sonido .
¡No hay ninguna "Señal de referencia" en esta prueba! Más bien, una descripción de las mezclas de sonido deseadas se da a continuación.
Para cada elemento de audio, por favor: primero lea la descripción de las mezclas de sonido que desee, como a un usuario del sistema le gustaría lograr Elemento "CaféNegro": Sección de metales suaves dentro de la mezcla de sonido Elemento "VozSobreMúsica" : Música de fondo suave Elemento "Audición": Sonido vocal fuerte y música suave Elemento "AmorPop": Sección de cuerdas suaves dentro de la mezcla de sonido posteriormente, clasificar las señales usando un grado común para describir tanto alcanzar el objetivo de reproducción de la mezcla deseada del sonido como la calidad de sonido de la escena global (considerando las distorsiones, artefactos, elementos antinaturales, distorsiones espaciales, ...)".
Un total de 8 oyentes participaron en cada una de las pruebas realizadas. Todos los sujetos pueden ser considerados como oyentes experimentados. Las condiciones de prueba fueron aleatorizadas automáticamente para cada elemento de prueba y para cada oyente. Las respuestas subjetivas fueron registradas por un programa informático de prueba de audición basada en . una escala que osciló de 0 a 100, con cinco intervalos etiquetados de la misma manera como en la escala MUSHRA. Se permitió un cambio instantáneo entre los elementos a prueba. 7.5 Resultados de la prueba de audición Las gráficas mostradas en la representación gráfica de la Figura 7 muestran el puntaje promedio por elemento sobre todos los oyentes y el valor medio estadístico sobre todos los elementos evaluados junto con los intervalos de confianza asociados del 95%.
Se pueden hacer las siguientes observaciones con base en los resultados de las pruebas realizadas de audición: Para la prueba realizada de audición, las puntuaciones obtenidas de MUSHRA demostraron que la funcionalidad de la DCU propuesta ofrece un desempeño significativamente mejor en comparación con el sistema regular de RM SAOC en el sentido de los valores medios estadísticos globales. Hay que señalar que la calidad de todos los elementos producidos por el descodificador regular SAOC (que muestran fuertes artefactos de audio para las condiciones de reproducción extremas consideradas) se clasifica tan baja como la calidad de las configuraciones de reproducción idéntica a mezcla descendente que no cumple del todo con el escenario de la reproducción deseada. Por lo tanto, se puede concluir que los métodos propuestos de DCU conducen a un mejoramiento considerable de la calidad de la señal subjetiva para todos los escenarios de prueba de audición considerados. 8. Conclusiones Para resumir la discusión anterior, se describieron esquemas que limitan el coeficiente de reproducción para el control de distorsión en SAOC. Las modalidades de acuerdo con la invención pueden utilizarse en combinación con técnicas paramétricas para la transmisión/almacenamiento eficiente en cuanto a flujo de bits de escenas de audio que contienen múltiples objetos de audio, que recientemente "se han propuesto (por ejemplo, véanse las referencias [1], [2], [3], [4] y [5]).
En combinación con la interactividad del usuario en el lado receptor, tales técnicas pueden convencionalmente (sin el uso de los esquemas que limitan el coeficiente de reproducción de la invención) conducir a una baja calidad de las señales de salida si se lleva a cabo la reproducción extrema del objeto (véase, por ejemplo, la referencia [6]).
La presente especificación se enfoca en la Codificación del objeto de Audio Espacial (SAOC), que proporciona los medios para que una interfaz de usuario seleccione la configuración de playback deseada (por ejemplo, mono, estéreo, 5.1, etc.) y la modificación interactiva en tiempo real de la escena de reproducción de salida deseada mediante el control de la matriz de reproducción de acuerdo con las preferencias personales u otros criterios. Sin embargo, la invención también es aplicable para técnicas parámétricas en general.
Debido al procedimiento paramétrico basado en la mezcla descendente/separación/mezcla, la calidad subjetiva de la salida de audio reproducida depende de las configuraciones de los parámetros de reproducción. La libertad de seleccionar las configuraciones de la reproducción de la elección del usuario conlleva el riesgo de que el usuario seleccione opciones de reproducción de objetos inapropiados , tales como manipulaciones de ganancia extrema de un objeto dentro de la escena del sonido global.
Para un producto comercial, es inaceptable por todos los medios el producir una mala calidad de sonido y/o artefactos de audio para cualquier configuración de la interfaz de usuario. Con el fin de controlar el deterioro excesivo de la salida de audio producida por SAOC, se han descrito varias medidas computacionales , que se basan en la idea de computar una medida de la calidad de percepción de la escena reproducida, y dependiendo de esta medida (y, opcionalmente, otra información) , modificar los coeficientes de reproducción realmente aplicados (véase, por ejemplo, la referencia [6]).
El presente documento describe ideas alternativas para salvaguardar la calidad del sonido subjetivo de la escena reproducida de SAOC para la cual se lleva a cabo todo el procesamiento completo dentro del descodificador/transcodificador SAOC, y que no implica el cálculo explícito de sofisticadas medidas de calidad de audio percibida de la escena de sonido reproducida.
Por lo tanto, estas ideas se pueden implementar en una forma estructuralmente simple y extremadamente eficiente dentro del ambiente de trabajo del descodificador/transcodificador SAOC. El algoritmo de la Unidad de Control de Distorsión (DCU) propuesto tiene como objetivo limitar los parámetros de entrada del descodificador SAOC, es decir, los coeficientes de reproducción .
Para resumir lo anterior, las modalidades de acuerdo con la invención crean un codificador de audio, un descodificador de audio, un método de codificación, un método de descodificación, y programas informáticos para la codificación o descodificación, o señales codificadas de audio como se describió anteriormente. 9. Alternativas de implementación Aunque algunos aspectos han sido descritos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del método correspondiente, en donde un bloque o dispositivo corresponde a un paso del método o una característica de un paso del método. Análogamente, los aspectos descritos en el contexto de un paso del método también representan una descripción de un bloque o un elemento o característica correspondiente de un aparato correspondiente. Algunos o todos los pasos del método pueden ser ejecutados por (o usando) un aparato de hardware, como por ejemplo, un microprocesador, una computadora programable o un circuito electrónico .
En algunas modalidades, alguno o más de los pasos del método más importantes pueden ser ejecutados por tal aparato.
La señal de audio codificada inventiva puede almacenarse en un medio de almacenamiento digital o puede transmitirse en un medio de transmisión tal como un medio de transmisión inalámbrica o un medio de transmisión por cable como Internet.
Dependiendo de ciertos requisitos de ímplementación, las modalidades de la invención pueden ser implementadas en hardware o en software. La ímplementación se puede realizar utilizando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blue-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria instantánea (FLASH), que tengan señales de control legibles electrónicamente almacenadas en el mismo, que cooperen (o sean capaces de cooperar) con un sistema informático programable de tal manera que se realice el método respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible en computadora.
Algunas modalidades de acuerdo con la invención comprenden un portador de datos que tiene señales de control electrónicamente legibles, que son capaces de cooperar con un sistema informático programable, de tal manera que se realiza uno de los métodos descritos en la presente.
Generalmente, las modalidades de la presente invención pueden ser implementadas como un producto de programa informático con un código de programa, el código de programa es operativo para llevar a cabo uno de los métodos cuando el producto de programa informático se ejecuta en una computadora. El código de programa puede por ejemplo ser almacenado en un portador legible en máquina.
Otras modalidades incluyen el programa informático para llevar a cabo uno de los métodos descritos en la presente, almacenado en un portador legible en máquina .
En otras palabras, una modalidad del método inventivo es, por lo tanto, un programa informático que tiene un código de programa para llevar a cabo uno de los métodos descritos en la presente, cuando el programa informático se ejecuta en una computadora.
Una modalidad adicional de los métodos inventivos es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio legible en computadora) que comprende, registrado en él, el programa informático para llevar a cabo uno de los métodos descritos en la presente. El portador de datos, el medio de almacenamiento digital o el medio registrado son típicamente tangibles y/o no transicionales .
Una' modalidad adicional del método inventivo es, por lo tanto, un flujo de datos o una secuencia de señales gue representan el programa informático para llevar a cabo uno de los métodos descritos en la presente. El flujo de datos o la secuencia de señales, por ejemplo puede ser configurado para ser transferido por medio de una conexión de comunicación de datos, por ejemplo a través de Internet.
Una modalidad adicional comprende un medio de procesamiento, por ejemplo una computadora, o un dispositivo lógico programable, configurado para adaptarse para realizar uno de los métodos descritos en la presente.
Una modalidad adicional comprende una computadora que tiene instalado en ella el programa informático para llevar a cabo uno de los métodos descritos en la presente.
En algunas modalidades, se puede utilizar un dispositivo lógico programable (por ejemplo un conjunto de puertas programabies de campo) para realizar todas o algunas de las funcionalidades de los métodos descritos en la presente. En algunas modalidades, un conjunto de puertas programabies de campo puede cooperar con un microprocesador con el fin de realizar uno de los métodos descritos en la presente. Generalmente, los métodos se realizan preferentemente por cualquier aparato de hardware.
Las modalidades descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en la presente serán evidentes para otros expertos en la técnica.
Es la intención, por lo tanto, que se limiten solamente por el alcance de las reivindicaciones de patente siguientes y no por los detalles específicos presentados a modo de descripción y explicación de las modalidades en la presente.
REFERENCIAS [1] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part IT Schemes and applications", IEEE Trans, on Speech and Audio Proa, vol. 11, no. 6, Nov. 2003. [2] C. Faller, "Parametric Joint-Coding of Audio Sources", 120a Convención de AES, París, 2006, Preimpresión 6752. [3] J. Herré, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22a Conferencia Regional AES Reino Unido, Cambridge, Reino Unido, Abril 2007. [4] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Tereritiev, J. Breebaart, J. Koppens, E. Schuijers y W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124a Convención AES, Amsterdam 2008, Preimpresión 7377. [5] ISO/IEC, "MPEG audio technologies - Parte 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2. [6] Solicitud de patente de los Estados Unidos 61/173,456, METHODS, APPARATUS, AND COMPUTER PROGRAMS FOR DISTORTION AVOIDING AUDIO SIGNAL PROCESSING [7] EBU Technical recommendation : "MUSHRA-EBU Method for Subjective Listening Tests of Intermedíate Audio Quality", Doc. B/AI 022, Octubre 1999. [8] ISO/IEC JTC1/SC29/ G11 (MPEG), Documento N10843, "Study on ISO/IEC 23003-2 : 200x Spatial Audio Object Coding (SAOC)", 89a Junta de MPEG, Londres, Reino Unido, Julio 2009

Claims (21)

REIVINDICACIONES
1. Aparato de procesamiento de audio para proporcionar una representación de señal de mezcla ascendente con base en una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto, que se incluyen en una representación de flujo de bits de un contenido de audio, y que dependen de una matriz de reproducción especificada por el usuario que define una contribución deseada de una pluralidad de objetos de audio a uno, dos o más canales de salida de audio, el aparato comprende: un limitador de distorsión configurado para obtener una matriz de " reproduccióri modificada utilizando una combinación lineal de una matriz de reproducción especificada por el usuario y una matriz de reproducción de destino sin distorsión, que dependen de un parámetro de combinación lineal; y un procesador de señales configurado para obtener la representación de señal de mezcla ascendente con base en la representación de señal de mezcla descendente y la información paramétrica relacionada con el objeto utilizando la matriz de reproducción modificada; en donde el aparato está configurado para evaluar un elemento del flujo de bits que representa el parámetro de combinación lineal con el fin de obtener el parámetro de combinación lineal.
2. Aparato según la reivindicación 1, en donde el limitador de distorsión está configurado para obtener la matriz de reproducción de destino de manera que la matriz de reproducción de destino es una matriz de reproducción de destino sin distorsión.
3. Aparato según la reivindicación 1 o la reivindicación 2, en donde el limitador de distorsión está configurado para obtener la matriz de reproducción modificada M™LJM de acuerdo con: M£LIB = (1 -gDCU )M£ + gDCUM[Mr en donde gocu designa el parámetro de combinación lineal, un valor del cual está en un intervalo [0,1]; en donde M^™ designa la matriz de reproducción especificada por el usuario; y en donde ?;',",?,. designa la matriz de reproducción de destino.
4. Aparato según cualquiera de las reivindicaciones 1 a 3, en donde el limitador de distorsión está configurado para obtener la matriz de reproducción de destino de modo que la matriz de reproducción de destino es un matriz de reproducción de destino similar a mezcla descendente .
5. Aparato según cualquiera de las reivindicaciones 1 a 4, en donde el limitador de distorsión está configurado para escalar una matriz de mezcla descendente ampliada utilizando un valor escalar de normalización de energía, para obtener la matriz de reproducción de destino, en donde la matriz de mezcla descendente ampliada es una versión ampliada de una matriz de mezcla descendente, una o más filas de la matriz de mezcla descendente describe contribuciones de una pluralidad de señales del objeto de audio a uno o más canales de la representación de señal de mezcla descendente, ampliada por filas de elementos cero, de manera que un número de filas de la matriz de mezcla descendente ampliada es idéntico a una constelación de reproducción descrita por la matriz de reproducción especificada por el usuario.
6. Aparato según cualquiera ' de las reivindicaciones 1 a 3, en donde el limitador de distorsión está configurado para obtener la matriz de reproducción de destino de manera que la matriz de reproducción de destino es una matriz de reproducción de destino de máximo esfuerzo .
7. Aparato según cualquiera de las reivindicaciones 1 a 3 ó 6, en donde el limitador de distorsión está configurado para obtener la matriz de reproducción de destino, de manera que la matriz de reproducción de destino depende de una matriz de mezcla descendente y la matriz de reproducción especificada por el usuario.
8. Aparato según cualquiera de las reivindicaciones 1 a 3, 6 ó 7, en donde el limitador de distorsión está configurado para computar una matriz que comprende valores de normalización individuales por canal para una pluralidad de canales de salida de audio del aparato para proporcionar una representación dé señal de mezcla ascendente, de tal manera que un valor de normalización de energía para un canal de salida de audio dado del aparato describe, al menos aproximadamente, una proporción entre una suma de valores de reproducción de energía asociados con el canal de salida de audio dado en la matriz de reproducción especificada por el usuario para una pluralidad de objetos de audio y una suma de valores de mezcla descendente de energía para la pluralidad de objetos de audio; y en donde el limitador de distorsión está configurado para escalar un conjunto de valores de mezcla descendente utilizando un valor de normalización de energía individual del canal, para obtener un conjunto de valores de reproducción de la matriz de reproducción de destino asociada con el canal de salida dado.
9. Aparato según cualquiera de las reivindicaciones I a 3 y 6 a 8, en donde el limitador de distorsión está configurado para computar una matriz que comprende valores de normalización de energía individual por canal para una pluralidad de canales de salida de audio de acuerdo con para el caso de una representación de señal mezcla descendente de G canal y una señal de salida de canales del aparato; o de acuerdo con: para el caso de una representación de señal de mezcla descendente de 1 canal y una señal' de salida reproducida binaural del aparato; o de acuerdo con: para el caso de una representación de señal de mezcla descendente de 1 canal y una señal de salida de canal NWPS del aparato; en donde mj'' designa coeficientes de reproducción de la matriz de reproducción especificada por el usuario que describe una contribución deseada de un objeto de audio que tiene índice de objeto j para un primer canal de salida de audio del aparato; en donde m':"¡ designa coeficientes de reproducción de la matriz de reproducción especificada por el usuario que describe una contribución deseada de un objeto de audio que tiene índice de objeto j para un segundo canal de salida de audio del aparato; en donde aj'™ y al'" designan los coeficientes de reproducción de la matriz de reproducción especificada por el usuario que describe una contribución deseada de un objeto de audio que tiene índice de objeto j para un primero y segundo canales de salida de audio del aparato, y tomando en consideración información paramétrica de HRTF; en donde d1- designa un coeficiente de mezcla descendente que describe una contribución de un objeto de audio que tiene un índice de objeto j para la representación de la señal de mezcla descendente; y en donde e designa una constante aditiva para evitar la división por cero; y en donde el limitador de distorsión está configurado para computar la matriz de reproducción de destino [M'en/ar ] de acuerdo con: en donde D' designa una matriz de mezcla descendente que comprende el coeficiente de mezcla descendente dj .
10. Aparato según cualquiera de las reivindicaciones I a 3 ó 6 a 7, en donde el limitador de distorsión está configurado para computar una matriz que describe una normalización de energía individual del canal para una pluralidad de canales de salida de audio del aparato que dependen de la matriz de reproducción especificada por el usuario, y una matriz de mezcla descendente D ; y en donde el limitador de distorsión está configurado para aplicar la matriz que describe la normalización de energía individual del canal para obtener un conjunto de coeficientes de reproducción de la matriz de reproducción de destino asociada con un canal de salida de audio dado del aparato como una combinación lineal de los conjuntos de valores de mezcla descendente asociados con diferentes canales de la representación de señal de mezcla descendente .
11. Aparato según cualquiera de las reivindicaciones I a 3 ó 6 a 7, ó 10, en donde el limitador de distorsión está configurado para computar una matriz N'¿ ' que describe la normalización de energía individual del canal para una pluralidad de canales de salida de audio de acuerdo con: N£ = M£ (D' )* J' para el caso de una representación de señal de mezcla descendente de 2 canales y una señal de salida de audio multicanal del aparato; en donde M|.^ designa la matriz de reproducción especificada por el usuario que describe contribuciones deseadas especificadas por el usuario de una pluralidad de señales del objeto de audio a la señal de salida de audio multicanal del aparato; en donde D' designa una matriz de mezcla descendente que describe contribuciones de una pluralidad de señales del objeto de audio para la representación de l"a señal de mezcla descendente; en donde el limitador de distorsión está configurado para computar la matriz de reproducción de destino M'E(L FTH. de acuerdo con M; = M' = N' D'
12. Aparato" según las reivindicaciones 1 a 3 ó 6 a 7, ó 10, en donde el limitador de distorsión está configurado para computar una matriz de acuerdo con N'£ = M£ (D' )* J' para el caso de una representación de señal de mezcla descendente de 2 canales y una señal de salida de audio de 1 canal del aparato, o de acuerdo con ?'^ = A'-M (D' )* J' para el caso de una representación de señal de mezcla descendente de 2 canales y una señal de salida de audio reproducida binauralmente del aparato; en donde ?'^', designa la matriz de reproducción especificada por el usuario que describe contribuciones deseadas especificadas por el usuario de una pluralidad de señales del objeto de audio para la señal de salida del aparato; en donde D' designa una matriz de mezcla descendente que describe contribuciones de una pluralidad de señales del objeto de audio para la representación de la señal de mezcla descendente; en donde A''"' designa una matriz de reproducción binaural que se basa en la matriz de reproducción especificada por el usuario y los parámetros de una función de transferencia relacionada con el encabezado .
13. Aparato según cualquiera de las reivindicaciones 1 a 3 ó 6 a 7, en donde el limitador de distorsión está configurado para computar un valor escalar de normalización de energía de acuerdo con en donde mj'¿' designa un coeficiente de reproducción de la matriz de reproducción especificada por el usuario que describe una contribución deseada de un objeto de audio que tiene el índice de objeto j para una señal de salida de audio del aparato; en donde d. designa un coeficiente de mezcla descendente que describe una contribución de un objeto de audio que tiene el índice de objeto j para la representación de señal de mezcla descendente; y en donde e designa una constante aditiva para evitar la división por cero.
14. Aparato según cualquiera de las reivindicaciones 1 a 13, en donde el aparato está configurado para leer un valor de índice que representa el parámetro de combinación lineal de la representación del flujo de bits del contenido de audio y para mapear el valor del índice en el parámetro de combinación lineal utilizando una tabla de cuantificación de parámetros.
15. Aparato según la reivindicación 14, en donde la tabla de cuantificación describe una cuantificación no uniforme, en donde pequeños valores del parámetro de combinación lineal, que describen una mayor contribución de la matriz de reproducción especificada por el usuario sobre la matriz de reproducción modificada, se cuantifican con mayor resolución.
16. Aparato según cualquiera de las reivindicaciones 1 a 15, en donde el aparato está configurado para evaluar un elemento del flujo de bits que describe un modo de limitación de distorsión, y en donde el limitador de distorsión está configurado para obtener selectivamente la matriz de reproducción de destino de modo que la matriz de reproducción de destino es una matriz de reproducción de destino similar a la mezcla descendente, o de modo que la matriz de reproducción de destino es una matriz de reproducción de destino de máximo esfuerzo.
17. Aparato para proporcionar un flujo de bits que representa una señal de audio multicanal, el aparato comprende: un mezclador descendente configurado para proporcionar una señal de mezcla descendente con base en una pluralidad de señales del objeto de audio; un proveedor de información lateral configurado para proporcionar una información lateral paramétrica relacionada con el objeto que describe las características de las señales del objeto de audio y parámetros de mezcla descendente, y un parámetro de combinación lineal que describe las contribuciones deseadas de una matriz de reproducción especificada por él usuario y de una matriz de reproducción de destino para una matriz de reproducción modificada que será utilizada por un aparato para proporcionar una representación de señal de mezcla ascendente con base en el flujo de bits; y un formateador del flujo de bits configurado para proporcionar un flujo de bits que comprende una representación de la señal de mezcla descendente, de la información lateral paramétrica relacionada con el objeto y del parámetro de combinación lineal; en donde la matriz de reproducción especificada por el usuario define una contribución deseada de una pluralidad de objetos de audio a uno, dos o más canales de salida de audio.
18. Método de procesamiento de audio para proporcionar una representación de señal de mezcla ascendente con base en una representación de señal de mezcla descendente y una información paramétrica relacionada con el objeto, que se incluyen en una representación del flujo de bits de un contenido de audio, y que dependen de una matriz de reproducción" especificada por el usuario que define una contribución deseada de una pluralidad de objetos de audio a uno, dos o más canales de salida de audio, el método comprende: evaluar un elemento del flujo de bits que representa un parámetro de combinación lineal, con el fin de obtener el parámetro de combinación lineal; obtener una matriz de reproducción modificada utilizando una combináción lineal de una matriz de reproducción especificada por el usuario y una matriz de reproducción de destino sin distorsión que depende del parámetro de combinación lineal; y obtener la representación de señal de mezcla ascendente con base en la representación de señal de mezcla descendente y la información paramétrica relacionada con el objeto utilizando la matriz de reproducción modificada.
19. Método para proporcionar un flujo de bits que representa una señal de audio multicanal, el método comprende: proporcionar una señal de mezcla descendente con base en una pluralidad de señales del objeto de audio; proporcionar una información lateral paramétrica relacionada con el objeto que describe características de las señales del objeto de audio y los parámetros de mezcla descendente, y un parámetro de combinación lineal que describe las contribuciones deseadas de una matriz de reproducción especificada por el usuario y de una matriz de reproducción de destino para una matriz de reproducción modificada; y proporcionar un flujo de bits que comprende una representación de la señal de mezcla descendente, de la información lateral paramétrica relacionada con el objeto y el parámetro de combinación lineal; en donde la matriz de reproducción especificada por el usuario define una contribución deseada de una pluralidad de objetos de audio a uno, dos o más canales de salida de audio.
20. Programa informático para realizar un método según la reivindicación 18 ó 19 cuando el programa informático se ejecuta en una computadora.
21. Flujo de bits que representa una señal de audio multicanal, el flujo de bits comprende: una representación de una señal de mezcla descendente combinando las señales de audio de una pluralidad de objetos de audio; una información paramétrica relacionada con el objeto que describe las características de los objetos de audio; y un parámetro de combinación lineal que describe las contribuciones deseadas de una matriz de reproducción especificada por el usuario y de una matriz de reproducción de destino para una matriz de reproducción modificada.
MX2012005781A 2009-11-20 2010-11-16 Aparato para proporcionar una representacion de señal de mezcla ascendente con base en la representacion de señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio multicanal, metodos, programas informaticos y flujo de bits que representan una señal de audio multicanal usando un parametro de combinacion lineal. MX2012005781A (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US26304709P 2009-11-20 2009-11-20
US36926110P 2010-07-30 2010-07-30
EP10171452 2010-07-30
PCT/EP2010/067550 WO2011061174A1 (en) 2009-11-20 2010-11-16 Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter

Publications (1)

Publication Number Publication Date
MX2012005781A true MX2012005781A (es) 2012-11-06

Family

ID=44059226

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2012005781A MX2012005781A (es) 2009-11-20 2010-11-16 Aparato para proporcionar una representacion de señal de mezcla ascendente con base en la representacion de señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio multicanal, metodos, programas informaticos y flujo de bits que representan una señal de audio multicanal usando un parametro de combinacion lineal.

Country Status (15)

Country Link
US (1) US8571877B2 (es)
EP (1) EP2489038B1 (es)
JP (1) JP5645951B2 (es)
KR (1) KR101414737B1 (es)
CN (1) CN102714038B (es)
AU (1) AU2010321013B2 (es)
BR (1) BR112012012097B1 (es)
CA (1) CA2781310C (es)
ES (1) ES2569779T3 (es)
MX (1) MX2012005781A (es)
MY (1) MY154641A (es)
PL (1) PL2489038T3 (es)
RU (1) RU2607267C2 (es)
TW (1) TWI441165B (es)
WO (1) WO2011061174A1 (es)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2550809B8 (en) 2010-03-23 2016-12-14 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
CA3157717A1 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
EP2883225B1 (en) * 2012-08-10 2017-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and method employing a residual concept for parametric audio object coding
EP2717265A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
CN109166587B (zh) 2013-01-15 2023-02-03 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
BR112015029129B1 (pt) 2013-05-24 2022-05-31 Dolby International Ab Método para codificar objetos de áudio em um fluxo de dados, meio legível por computador, método em um decodificador para decodificar um fluxo de dados e decodificador para decodificar um fluxo de dados incluindo objetos de áudio codificados
CN105393304B (zh) 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
EP3270375B1 (en) 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
CN109712630B (zh) 2013-05-24 2023-05-30 杜比国际公司 包括音频对象的音频场景的高效编码
CN109887516B (zh) * 2013-05-24 2023-10-20 杜比国际公司 对音频场景进行解码的方法、音频解码器以及介质
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
KR102243395B1 (ko) 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
JP6476192B2 (ja) 2013-09-12 2019-02-27 ドルビー ラボラトリーズ ライセンシング コーポレイション 多様な再生環境のためのダイナミックレンジ制御
WO2015059154A1 (en) 2013-10-21 2015-04-30 Dolby International Ab Audio encoder and decoder
US9813837B2 (en) * 2013-11-14 2017-11-07 Dolby Laboratories Licensing Corporation Screen-relative rendering of audio and encoding and decoding of audio for such rendering
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
JP6439296B2 (ja) * 2014-03-24 2018-12-19 ソニー株式会社 復号装置および方法、並びにプログラム
EP3127109B1 (en) 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects
WO2015183060A1 (ko) * 2014-05-30 2015-12-03 삼성전자 주식회사 오디오 객체를 이용한 오디오 콘텐트 제공 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN105227740A (zh) * 2014-06-23 2016-01-06 张军 一种实现移动终端三维声场听觉效果的方法
EP3786955B1 (en) 2014-10-03 2023-04-12 Dolby International AB Smart access to personalized audio
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
CN105989845B (zh) 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
WO2017035281A2 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
CN108665902B (zh) * 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
BR112020015835A2 (pt) * 2018-04-11 2020-12-15 Dolby International Ab Métodos, aparelho e sistemas para renderização de áudio 6dof e representações de dados e estruturas de fluxo de bits para renderização de áudio 6dof
GB2593136B (en) * 2019-12-18 2022-05-04 Nokia Technologies Oy Rendering audio
CN113641915B (zh) * 2021-08-27 2024-04-16 北京字跳网络技术有限公司 对象的推荐方法、装置、设备、存储介质和程序产品
US20230091209A1 (en) * 2021-09-17 2023-03-23 Nolan Den Boer Bale ripper assembly for feed mixer apparatus

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2300567T3 (es) * 2002-04-22 2008-06-16 Koninklijke Philips Electronics N.V. Representacion parametrica de audio espacial.
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
KR100663729B1 (ko) * 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
WO2006108543A1 (en) 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
WO2007089131A1 (en) * 2006-02-03 2007-08-09 Electronics And Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
JP4875142B2 (ja) 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
WO2008003362A1 (en) * 2006-07-07 2008-01-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
UA94117C2 (ru) * 2006-10-16 2011-04-11 Долби Свиден Ав Усовершенстованное кодирование и отображение параметров многоканального кодирования микшированных объектов
EP2437257B1 (en) 2006-10-16 2018-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Saoc to mpeg surround transcoding
KR101100222B1 (ko) * 2006-12-07 2011-12-28 엘지전자 주식회사 오디오 처리 방법 및 장치
US8370164B2 (en) * 2006-12-27 2013-02-05 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel including information bitstream conversion
JP2010518460A (ja) 2007-02-13 2010-05-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
WO2008100098A1 (en) * 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101821799B (zh) * 2007-10-17 2012-11-07 弗劳恩霍夫应用研究促进协会 使用上混合的音频编码
KR101024924B1 (ko) * 2008-01-23 2011-03-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
ES2665766T3 (es) * 2008-03-04 2018-04-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mezclado de corrientes de datos de entrada y generación a partir de ahí de una corriente de datos de salida
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata

Also Published As

Publication number Publication date
CA2781310A1 (en) 2011-05-26
KR101414737B1 (ko) 2014-07-04
CN102714038A (zh) 2012-10-03
AU2010321013B2 (en) 2014-05-29
CA2781310C (en) 2015-12-15
KR20120084314A (ko) 2012-07-27
EP2489038B1 (en) 2016-01-13
AU2010321013A1 (en) 2012-07-12
JP5645951B2 (ja) 2014-12-24
PL2489038T3 (pl) 2016-07-29
MY154641A (en) 2015-07-15
EP2489038A1 (en) 2012-08-22
BR112012012097A2 (pt) 2017-12-12
RU2012127554A (ru) 2013-12-27
JP2013511738A (ja) 2013-04-04
BR112012012097B1 (pt) 2021-01-05
US20120259643A1 (en) 2012-10-11
TWI441165B (zh) 2014-06-11
ES2569779T3 (es) 2016-05-12
WO2011061174A1 (en) 2011-05-26
US8571877B2 (en) 2013-10-29
CN102714038B (zh) 2014-11-05
TW201131553A (en) 2011-09-16
RU2607267C2 (ru) 2017-01-10

Similar Documents

Publication Publication Date Title
CA2781310C (en) Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
JP5719372B2 (ja) アップミックス信号表現を生成する装置及び方法、ビットストリームを生成する装置及び方法、並びにコンピュータプログラム
CN112151049B (zh) 解码器、编码器、产生音频输出信号的方法及编码方法
JP5758902B2 (ja) ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、平均値を用いて、1つ以上の調整されたパラメータを提供する装置、方法およびコンピュータプログラム
Falch et al. Spatial audio object coding with enhanced audio object separation

Legal Events

Date Code Title Description
FG Grant or registration