ES2644520T3 - Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia - Google Patents

Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia Download PDF

Info

Publication number
ES2644520T3
ES2644520T3 ES10757435.2T ES10757435T ES2644520T3 ES 2644520 T3 ES2644520 T3 ES 2644520T3 ES 10757435 T ES10757435 T ES 10757435T ES 2644520 T3 ES2644520 T3 ES 2644520T3
Authority
ES
Spain
Prior art keywords
inter
audio
saoc
parameter
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10757435.2T
Other languages
English (en)
Inventor
Jürgen HERRE
Johannes Hilpert
Andreas HÖLZER
Jonas Engdegard
Heiko Purnhagen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Dolby International AB filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2644520T3 publication Critical patent/ES2644520T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Description

DESCRIPCION
Decodificador de senal de audio MPEG-SAOC, metodo para proporcionar una representacion de senal de mezcla ascendente usando decodificacion MPEG-SAOC y programa informatico usando un valor de parametro de 5 correlacion inter-objeto comun dependiente del tiempo/frecuencia
Campo tecnico
[0001] Las realizaciones de acuerdo con la invencion se refieren a un decodificador de senal de audio para 10 proporcionar una representacion de senal de mezcla ascendente sobre la base de una representacion de senal de
mezcla descendente y una informacion parametrica relacionada con el objeto y en dependencia de una informacion de interpretacion.
[0002] Otras realizaciones de acuerdo con la invencion se refieren a un metodo para proporcionar una 15 representacion de senal de mezcla descendente sobre la base de una representacion de senal de mezcla
descendente y una informacion parametrica relacionado con el objeto y en dependencia de una informacion de interpretacion.
[0003] Otras realizaciones adicionales de acuerdo con la invencion se refieren a un programa informatico para la 20 realizacion de dichos metodos.
Antecedentes de la invencion
[0004] En la tecnica del procesamiento de audio, la transmision de audio y el almacenamiento de audio, hay un 25 creciente deseo de manejar contenidos de multicanal para mejorar la impresion auditiva. El uso de contenido de
audio multicanal produce significativas mejoras para el usuario. Por ejemplo, se puede obtener una impresion auditiva tridimensional, lo cual produce una mejor satisfaction del usuario en aplicaciones de entretenimiento. Sin embargo, los contenidos de audio multicanal tambien son utiles para entornos profesionales, por ejemplo, en aplicaciones de conferencias telefonicas, porque se puede mejorar la inteligibilidad del locutor usando una 30 reproduction de audio multicanal.
[0005] Sin embargo, tambien es deseable tener una buena solution de compromiso entre calidad de audio y requisitos de tasa de bits para evitar una excesiva carga de recurso causada por aplicaciones multicanal.
35 [0006] Recientemente se han propuesto tecnicas parametricas para la transmision eficiente en cuanto a la tasa de bits y/o almacenamiento de multiples objetos de audio, por ejemplo, Codification Binaural (Tipo I) (vease, por ejemplo, referencia [BCC]), Codificacion Redundante (vease, por ejemplo, la referencia [JSC], y Codificacion de Objeto de Audio Espacial MPEG (SAOC) (vease, por ejemplo, referencias [SAOC1], [SAOC2] y la referencia no publicada [SAOC]).
40
[0007] Estas tecnicas tienen el objetivo de reconstruir perceptualmente la escena de audio de salida deseada en lugar de una coincidencia de forma de onda.
[0008] La Fig. 8 muestra un resumen del sistema de tal sistema (aqul: MPEG SAOC). Ademas, la Fig. 9a muestra 45 un resumen del sistema de tal sistema (aqul: MPEG SAOC).
[0009] El sistema MPEG SAOC 800 mostrado en la Fig. 8 comprende un codificador SAOC 810 y un decodificador SAOC 820. El codificador SAOC 810 recibe una pluralidad de senales objeto xi a Xn, las cuales pueden ser representadas, por ejemplo, como senales en el dominio del tiempo o como senales en el dominio de tiempo-
50 frecuencia (por ejemplo, en la forma de un conjunto de coeficientes de transformada de una transformada de tipo Fourier, o en la forma de senales de sub-banda QMF). El codificador SAOC 810 tlpicamente tambien recibe coeficientes de mezcla descendente d1 a dN, los cuales estan asociados con las senales objeto X1 a xn. Conjuntos separados de coeficientes de mezclado descendente pueden estar disponibles para cada canal de la senal de mezcla descendente. El codificador SAOC 810 tlpicamente esta configurado para obtener un canal de la senal de 55 mezcla descendente combinando las senales objeto X1 a xn de acuerdo con los coeficientes de mezcla descendente asociados d1 a dN. Tlpicamente, hay menos canales de mezcla descendente que senales objeto X1 a xn. Para permitir (al menos aproximadamente) una separation (o tratamiento separado) de las senales objeto en el lado del decodificador SAOC 820, el codificador SAOC 810 proporciona tanto una o mas senales de mezcla descendente (designadas como canales de mezcla descendente) 812 como una informacion complementaria 814. La informacion
complementaria 814 describe caracterlsticas de las senales objeto xi a xn, para permitir un procesamiento especifico de objeto del lado del decodificador.
[0010] El decodificador SAOC 820 esta configurado para recibir tanto la una o mas senales de mezcla 5 descendente 812 como la informacion complementaria 814. Ademas, el decodificador SAOC 820 tlpicamente esta
configurado para recibir una informacion de interaccion de usuario y/o una informacion de control de usuario 822, que describe una configuracion de interpretacion deseada. Por ejemplo, la informacion de interaccion de usuario/informacion de control de usuario 822 puede describir una configuracion de altavoz y la ubicacion espacial deseada de los objetos, que proporcionan las senales objeto xi a xn.
10
[0011] El decodificador SAOC 820 esta configurado para proporcionar, por ejemplo, una pluralidad de senales de canal de mezcla ascendente decodificadas yi a yM. Las senales de canal de mezcla ascendente pueden estar asociadas, por ejemplo, con altavoces individuales de una disposicion de interpretacion de multiples altavoces. El decodificador SAOC 820 puede comprender, por ejemplo, un separador de objeto 820a, que esta configurado para
15 reconstruir, al menos aproximadamente, las senales objeto xi a xn sobre la base de la una o mas senales de mezcla descendente 812 y la informacion complementaria 814, obteniendo de ese modo senales objeto reconstruidas 820b. Sin embargo, las senales objeto reconstruidas 820b pueden desviarse un poco de las senales objeto originales x1 a Xn, por ejemplo, porque la informacion complementaria 814 no es suficiente para una reconstruccion perfecta debido a las restricciones de tasa de bits. El decodificador SAOC 820 puede comprender ademas un mezclador 820c, que
20 puede estar configurado para recibir las senales objeto reconstruidas 820b y la informacion de interaccion de usuario/informacion de control de usuario 822, y para proporcionar, sobre la base del mismo, las senales de canal de mezcla ascendente y1 a yM. El mezclador 820 puede estar configurado para usar la informacion de interaccion de usuario/informacion de control de usuario 822 para determinar la contribution de las senales objeto reconstruidas individuales 820b a las senales de canal de mezcla ascendente y1 a yM. La informacion de interaccion de
25 usuario/informacion de control de usuario 822 puede comprender, por ejemplo, parametros de interpretacion (tambien designados como coeficientes de interpretacion), que determinan la contribucion de las senales objeto reconstruidas individuales 822 a las senales de canal de mezcla ascendente y1 a yM.
[0012] Sin embargo, se debe apreciar que, en muchas realizaciones, la separation de objetos, que esta indicada
30 mediante el separador de objetos 820a en la Figura 8, y la mezcla, que esta indicado mediante el mezclador 820c en
la Fig. 8, se realizan en una unica etapa. Con este fin, se pueden computar parametros generales que describen una asignacion directa de la una o mas senales de mezcla descendente 812 en las senales de canal de mezcla ascendente y1 a yM. Estos parametros pueden computarse sobre la base de la informacion complementaria y la informacion de interaccion de usuario/informacion de control de usuario 820.
35
[0013] Tomando como referencia ahora las figuras 9a, 9b y 9c, se describiran diferentes aparatos para obtener una representation de senal de mezcla ascendente sobre la base de una representation de senal de mezcla descendente e informacion complementaria relacionada con el objeto. La Fig. 9a muestra un diagrama de bloques esquematico de un sistema MPEg SAOC 900 que comprende un decodificador SAOC 920. El decodificador SAOC
40 920 comprende, como bloques funcionales separados, un decodificador de objeto 922 y un mezclador/representador 926. El decodificador de objeto 922 proporciona una pluralidad de senales objeto reconstruidas 924 en dependencia de la representacion de senal de mezcla descendente (por ejemplo, en forma de una o mas senales de mezcla descendente representadas en el dominio del tiempo o en el dominio de tiempo-frecuencia) e informacion complementaria relacionada con el objeto (por ejemplo, en forma de meta datos de objeto). El
45 mezclador/representador 924 recibe las senales objeto reconstruidas 924 asociadas con una pluralidad de N objetos y proporciona, sobre la base de los mismos, una o mas senales de canal de mezcla ascendente 928. En el decodificador SAOC 920, la extraction de las senales objeto 924 se realiza por separado de la mezcla/interpretacion, lo cual permite una separacion de la funcionalidad de decodificacion de objeto, de la mezcla/interpretacion, pero produce una complejidad de computation relativamente alta.
50
[0014] Tomando como referencia ahora la Fig. 9b, se analizara brevemente otro sistema MPEG SAOC 930, el cual comprende un decodificador SAOC 950. El decodificador SAOC 950 proporciona una pluralidad de senales de canal de mezcla ascendente 958 en dependencia de una representacion de senal de mezcla descendente (por ejemplo, en forma de una o mas senales de mezcla descendente) y una informacion complementaria relacionada con el objeto
55 (por ejemplo, en forma de meta datos de objeto). El decodificador SAOC 950 comprende un decodificador de objeto y mezclador/representador combinados, que esta configurado para obtener las senales de canal de mezcla ascendente 958 en un proceso de mezcla colectivo sin una separacion de la decodificacion de objeto y la mezcla/interpretacion, en el que los parametros para dicho proceso de mezcla ascendente colectivo son dependientes tanto de la informacion complementaria relacionada con el objeto como de la informacion de
interpretacion. El proceso de mezcla ascendente colectivo depende tambien de la informacion de mezcla descendente, que se considera como parte de la informacion complementaria relacionada con el objeto.
[0015] Para resumir lo anterior, la provision de las senales de canal de mezcla ascendente 928, 958 puede 5 realizarse en un proceso de una etapa o en un proceso de dos etapas.
[0016] Tomando como referencia ahora la Fig. 9c, se describira un sistema MPEG SAOC 960. El sistema de SAOC 960 comprende un transcodificador SAOC a MPEG Surround 980, en lugar de un decodificador SAOC.
10 [0017] El transcodificador SAOC a MPEG Surround comprende un transcodificador de informacion complementaria 982, que esta configurado para recibir la informacion complementaria relacionada con el objeto (por ejemplo, en forma de meta datos de objeto) y, opcionalmente, informacion sobre la una o mas senales de mezcla descendente y la informacion de interpretacion. El transcodificador de informacion complementaria tambien esta configurado para proporcionar una informacion complementaria de MEPG Surround (por ejemplo, en forma de un 15 flujo de bits de MpEg Surround) sobre la base de un dato recibido. Por consiguiente, el transcodificador de informacion complementaria 982 esta configurado para transformar una informacion complementaria (parametrica) relacionada con el objeto, que se descarga del codificador de objeto, en una informacion complementaria (parametrica) relacionada con el canal, tomando en consideracion la informacion de interpretacion y, opcionalmente, la informacion acerca del contenido de la una o mas senales de mezcla descendente.
20
[0018] Opcionalmente, el transcodificador SAOC a MPEG Surround 980 puede ser configurado para manipular la una o mas senales de mezcla descendente, descritas, por ejemplo, por la representacion de senal de mezcla descendente, para obtener una representacion de senal de mezcla descendente manipulada 988. Sin embargo, el manipulador de senal de mezcla descendente 986 puede omitirse, de tal forma que la representacion de senal de
25 mezcla descendente de salida 988 del transcodificador SAOC a MPEG Surround 988 sea identica a la representacion de senal de mezcla descendente de entrada del transcodificador SAOC a MPEG Surround. El manipulador de senal de mezcla descendente 986 puede usarse, por ejemplo, si la informacion complementaria de MPEG Surround relacionada con el canal 984 no permite proporcionar una impresion auditiva deseada sobre la base de la representacion de senal de mezcla descendente de entrada del transcodificador SAOC a MPEG Surround 980, 30 que puede ser el caso en algunas constelaciones de interpretacion.
[0019] Por consiguiente, el transcodificador SAOC a MPEG Surround 980 proporciona la representacion de senal de mezcla descendente 988 y el flujo de bits MPEG Surround 984 de tal forma que una pluralidad de senales de canal de mezcla ascendente, que representan los objetos de audio de acuerdo con la informacion de interpretacion
35 introducida en el transcodificador SAOC a MPEG Surround 980, puede generarse usando un decodificador MPEG Surround que recibe el flujo de bits MPEG Surround 984 y la representacion de senal de mezcla descendente 988.
[0020] Para resumir lo anterior, pueden usarse diferentes conceptos para decodificar senales de audio codificadas por SAOC. En algunos casos, se usa un decodificador SAOC, que proporciona senales de canal de mezcla
40 ascendente (por ejemplo, senales de canal de mezcla ascendente 928, 958) en dependencia de la representacion de senal de mezcla descendente y la informacion complementaria parametrica relacionada con el objeto. Los ejemplos para este concepto se pueden ver en las figuras 9a y 9b. Como alternativa, la informacion de audio codificada con SAOC puede ser transcodificada para obtener una representacion de senal de mezcla descendente (por ejemplo, una representacion de senal de mezcla descendente 988) y una informacion complementaria relacionada con el 45 canal (por ejemplo, el flujo de bits MPEG Surround relacionado con el canal 984), que puede usarse por un decodificador MpEG Surround para proporcionar las senales de canal de mezcla ascendente deseadas.
[0021] En el sistema MPEG SAOC 800, un esquema del sistema del cual se da en la Fig. 8, y tambien en el sistema MPEG SAOC 900, un esquema del sistema del cual se da en la Fig. 9, el procesamiento general se realiza
50 de una manera selectiva en frecuencia y puede describirse como se indica a continuacion dentro de cada banda de frecuencia.
N senales de objeto de audio de entrada xi a Xn son de mezcla descendente como parte del procesamiento de codificador SAOC. Para una mono mezcla descendente, los coeficientes de mezcla descendente se representan por 55 di a dN. Ademas, el codificador SAOC 810, 910 extrae informacion complementaria 814 que describe las caracterlsticas de los objetos de audio de entrada. Una parte importante de esta informacion complementaria consiste en relaciones de las potencias de objetos y correlaciones unos con respecto a otros, es decir, diferencias a nivel de objeto (OLD) en correlaciones inter-objeto (lOC).
La senal o senales en mezcla descendente 812, 912 e informacion complementaria 814, 914 se transmiten y/o se
almacenan. Con este fin, la senal de audio de mezcla descendente puede ser comprimida usando codificadores de audio perceptuales conocidos tales como MPEG1, Layer II o III (tambien conocido como "mp3"), Codificacion de Audio Avanzada MPEG (AAC), o cualquier otro codificador de audio.
En el extremo de recepcion, el decodificador SAOC 820, 920 trata conceptualmente de recuperar las senales de 5 objeto originales ("separacion de objeto") usando la informacion complementaria transmitida 814, 914 (y, naturalmente, la una o mas senales de mezcla descendente 812, 912). Estas senales de objeto aproximadas (tambien designadas como senales de objeto reconstruidas 820b, 924) entonces se mezclan en una escena objetivo representada por M canales de salida de audio (que pueden estar representados, por ejemplo, por las senales de canal de mezcla ascendente y1 a yM 928) usando una matriz de interpretacion. Para una salida mono, los 10 coeficientes de la matriz de interpretacion se dan por r1 a rN
Efectivamente, la separacion de las senales de objetos es raramente ejecutada (o incluso nunca se ejecuta), ya que tanto la etapa de separacion (indicada por el separador de objetos 820a, 922) como la etapa de mezcla (indicada por el mezclador 820c, 926) se combinan en una unica etapa de transcodificacion, que con frecuencia da como resultado una enorme reduction de complejidad de computation.
15
[0022] Se ha encontrado que tal esquema es muy eficiente, tanto en terminos de tasa de bits de transmision (solo es necesario transmitir unos pocos canales de mezcla descendente mas alguna informacion complementaria en lugar de N senales de audio de objetos) como en complejidad de computacion (la complejidad de computacion se refiere principalmente al numero de canales de salida en lugar de al numero de objetos de audio). Ventajas
20 adicionales para el usuario en el extremo de recepcion incluyen la libertad de elegir un esquema de interpretacion de su election (mono, estereo, envolvente, reproduction por auricular virtualizada, etc.) y la caracterlstica de interactividad del usuario: la matriz de interpretacion, y, por lo tanto, la escena de salida, puede ajustarse y cambiarse de forma interactiva por el usuario a voluntad, por preferencia personal u otros criterios. Por ejemplo, es posible ubicar los locutores de un grupo juntos en un area espacial para maximizar discrimination de otros locutores 25 restantes. Esta interactividad se logra proveyendo una interfaz de usuario de decodificador:
Para cada objeto de sonido transmitido, se puede ajustar su nivel relativo y (para interpretacion no mono) position espacial de interpretacion. Esto puede ocurrir en tiempo real conforme el usuario cambia la posicion de los deslizadores de la interfaz de usuario grafica (GUI) asociada (por ejemplo, nivel de objeto =+5 dB, posicion de objeto 30 = -30 grados).
[0023] A continuation, se dara una breve referencia a tecnicas, las cuales se han aplicado previamente en el campo de codificacion de audio basada en canales.
35 [0024] El documento US 11/032.689 describe un proceso para combinar varios valores de referencia en un solo transmitido para ahorrar informacion complementaria.
[0025] Esta tecnica tambien se aplica a la "codificacion de audio jerarquica multicanal con informacion complementaria compacta" en el documento US 60/671.544.
40
[0026] Sin embargo, se ha descubierto que la informacion parametrica relacionada con el objeto, que se usa para una codificacion de un contenido de audio multicanal, comprende una tasa de bits comparativamente alta en algunos casos.
45 [0027] Por consiguiente, es un objetivo de la presente invention crear un concepto, que permita una provision, almacenamiento o transmision de un contenido de audio multicanal con una informacion complementaria compacta.
Resumen de la invencion
50 [0028] Este objetivo se alcanza mediante un decodificador de senal de audio, un metodo para proporcionar una representation de senal de mezcla ascendente, y un programa informatico como se define mediante las reivindicaciones independientes.
[0029] Una realization de acuerdo con la invencion crea un decodificador de senal de audio para proporcionar una 55 representacion de senal de mezcla ascendente sobre la base de una representacion de senal de mezcla descendente y una informacion parametrica relacionada con el objeto y en dependencia de una informacion de interpretacion. El aparato comprende un determinador de parametro de objeto configurado para obtener valores de correlation inter-objeto para una pluralidad de pares de objetos de audio. El determinador de parametro de objeto esta configurado para evaluar un parametro de senalizacion de flujo de bits para decidir si evaluar valores de
parametro de transmision de flujo de bits de correlation inter-objeto individuales para obtener valores de correlation inter-objeto para una pluralidad de pares de objetos de audio relacionadas u obtener valores de correlacion inter- objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parametro de flujo de bits de correlacion inter-objeto comun. El decodificador de senal de audio tambien comprende un procesador de senal 5 configurado para obtener la representation de senal de mezcla ascendente sobre la base de la representation de senal de mezcla descendente y usando los valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionados y la information de interpretation.
[0030] Este decodificador de senal de audio esta basado en la idea clave de que una tasa de bits requerida para 10 codificar valores de correlacion inter-objeto puede ser excesivamente alta en algunos casos en los cuales es
necesario considerar correlaciones entre muchos pares de objetos de audio para obtener una buena impresion auditiva, y que una tasa de bits requerida para codificar valores de correlacion inter-objeto puede ser significativamente reducida en tales casos usando un parametro de flujo de bits de correlacion inter-objeto en lugar de valores de parametros de flujo de bits de correlacion inter-objeto sin comprometer significativamente la impresion 15 auditiva.
[0031] Se ha encontrado que en situaciones en las que hay notables correlaciones inter-objeto entre muchos pares de objetos de audio, lo cual debe ser considerado para obtener una buena impresion auditiva, una consideration de las correlaciones inter-objeto normalmente dara como resultado un alto requisito de tasa de bits para los valores de
20 parametros de flujo de bits de correlacion inter-objeto. Sin embargo, se ha encontrado que, en tal situation, en la que hay una correlacion inter-objeto no despreciable entre muchos pares de objetos, se puede lograr una buena impresion auditiva meramente codificando un unico valor de parametro de flujo de bits de correlacion inter-objeto comun, y derivando los valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionados a partir de tal valor de parametro de flujo de bits de correlacion inter-objeto comun. Por consiguiente, la 25 correlacion entre muchos objetos de audio puede ser considerada con suficiente precision en la mayorla de los casos, mientras se mantiene el esfuerzo para la transmision del valor de parametro de flujo de bits de correlacion inter-objeto suficientemente pequeno.
[0032] Por lo tanto, el concepto analizado anteriormente da como resultado una pequena demanda de tasa de bits 30 para la informacion complementaria relacionada con el objeto en algunos entornos acusticos en los que hay una
correlacion inter-objeto no despreciable entre muchas senales de objetos de audio diferentes, mientras que todavla se logra una impresion auditiva suficientemente buena.
[0033] En una realization preferida, el determinador de parametro de objeto esta configurado para fijar el valor de 35 correlacion inter-objeto para todos los pares de objetos de audio relacionados diferentes a un valor comun definido
por el valor de parametro de flujo de bits de correlacion inter-objeto. Se ha encontrado que esta solution sencilla produce una impresion auditiva suficientemente buena en muchas situaciones relevantes.
[0034] En una realizacion preferida, el determinador de parametro de objeto esta configurado para evaluar una 40 informacion de relation de objeto que describe si dos objetos estan relacionados entre si o no. El determinador de
parametro de objeto ademas esta configurado para obtener selectivamente valores de correlacion inter-objeto para pares de objetos de audio para los cuales la informacion de relacion de objeto indica una relacion usando el valor de parametro de flujo de bits de correlacion inter-objeto, y para fijar valores de correlacion inter-objeto para pares de objetos de audio para los cuales la informacion de relacion de objeto indica que no hay relacion, a un valor 45 predefinido (por ejemplo, a cero). Por consiguiente, se puede distinguir, con alta eficiencia de tasa de bits, entre objetos de audio relacionados y no relacionados. Por lo tanto, se evita la asignacion de un valor de correlacion inter- objeto no nulo a pares de objetos de audio, los cuales no estan (aproximadamente) relacionados. Por consiguiente, se evita una degradation de una impresion auditiva y es posible una separation entre objetos de audio aproximadamente no relacionados. Ademas, la serialization de objetos de audio relacionados y no relacionados 50 puede realizarse con muy alta eficiencia de tasa de bits, porque la relacion de objeto de audio tlpicamente no varla en el tiempo sobre un trozo de audio, de tal forma la tasa de bits requerida para esta senalizacion tlpicamente es muy baja. Por lo tanto, el concepto descrito produce una muy buena solucion de compromiso entre eficiencia de tasa de bits e impresion auditiva.
55 [0035] En una realizacion preferida, el determinador de parametro de objeto esta configurado para evaluar una informacion de relacion de objeto que comprende una bandera de un bit para cada combination de diferentes objetos de audio, en el que la bandera de un bit asociada con una combinacion dada de diferentes objetos de audio indica si los objetos de audio de la combinacion dada estan relacionados o no. Tal informacion puede ser transmitida muy eficientemente y da como resultado una significativa reduction de la tasa de bits requeridos para lograr una
buena impresion auditiva.
[0036] En una realizacion preferida, el determinador de parametro de objeto esta configurado para fijar los valores de correlacion inter-objeto para todos los pares de objetos de audio relacionados diferentes a un valor comun
5 definido por el valor de parametro de flujo de bits de correlacion inter-objeto.
[0037] En una realizacion preferida, el determinador de parametro de objeto comprende un analizador sintactico de flujo de bits configurado para hacer el analisis sintactico de una representation de flujo de bits de un contenido de audio para obtener el parametro de serialization de flujo de bits y los parametros de flujo de bits de correlacion inter-
10 objeto individuales o el parametro de flujo de bits de correlacion inter-objeto comun. Usando un analizador sintactico de flujo de bits, se puede obtener el parametro de senalizacion de flujo de bits y los parametros de flujo de bits de correlacion inter-objeto individuales o el parametro de flujo de bits de correlacion inter-objeto comun con muy buena eficiencia de implementation.
15 [0038] En una realizacion preferida, el decodificador de senal de audio esta configurado para combinar un valor de correlacion inter-objeto asociado con un par de objetos de audio relacionados con un parametro de diferencia de nivel de objeto que describe un nivel de objeto de un primer objeto de audio del par de objetos de audio relacionados y con un valor de parametro de diferencia de nivel de objeto que describe un nivel de objeto de un segundo objeto de audio del par de objetos de audio relacionados para obtener un valor de covarianza asociado con el par de 20 objetos de audio relacionados. Por consiguiente, es posible establecer el valor de covarianza asociado con un par de objetos de audio relacionados de tal forma que el valor de covarianza este adaptado al par de objetos de audio, aunque se use un parametro de correlacion inter-objeto comun. Por lo tanto, se pueden obtener diferentes valores de covarianza para diferentes pares de objetos de audio. En particular, se puede obtener un gran numero de diferentes valores de covarianza usando el valor de parametro de flujo de bits de correlacion inter-objeto comun.
25
[0039] En una realizacion preferida, el decodificador de senal de audio esta configurado para manejar tres o mas objetos de audio. En este caso, el determinador de parametro de objeto esta configurado para proporcionar valores de correlacion inter-objeto para cada par de objetos de audio diferentes. Se ha encontrado que los valores significativos pueden ser obtenidos usando el concepto inventivo incluso si hay un numero relativamente grande de
30 objetos de audio, los cuales estan todos relacionados entre si. Obtener valores de correlacion inter-objeto de muchas combinaciones de objetos de audio es particularmente util cuando se codifica y decodifica senales de objeto de audio usando una information complementaria parametrica relacionada con el objeto.
[0040] En una realizacion preferida, el determinador de parametro de objeto esta configurado para evaluar el 35 parametro de senalizacion de flujo de bits, que esta incluido en una portion de flujo de bits de configuration, para
decidir si evaluar valores de parametro de transmision de flujo de bits de correlacion inter-objeto individuales para obtener valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionadas u obtener valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parametro de flujo de bits de correlacion inter-objeto comun. En esta realizacion, el determinador de parametro de 40 objeto esta configurado para evaluar una informacion de relation de objeto, que esta incluida en la porcion de flujo de bits de configuracion, para determinar si los objetos de audio estan relacionados o no. Ademas, el determinador de parametro de objeto esta configurado para evaluar un valor de parametro de flujo de bits de correlacion inter- objeto comun, el cual esta incluido en una porcion de tasa de bits de datos de trama, para todas las tramas del contenido de audio si se decide obtener valores de correlacion inter-objeto para una pluralidad de pares de objetos 45 de audio relacionados usando un valor de parametro de flujo de bits de correlacion inter-objeto comun. Por consiguiente, se obtiene una alta eficiencia de tasa de bits, porque la informacion de relacion de objeto comparativamente grande es evaluada solo una vez por trozo de audio (el cual esta definido por la presencia de una porcion de flujo de bits de configuracion), mientras que el valor de parametro de flujo de bits de correlacion inter- objeto comun comparativamente pequeno es evaluado para cada trama del trozo de audio, es decir, multiples veces 50 por trozo de audio. Esto refleja el hallazgo que la relacion entre objetos de audio tlpicamente no cambia dentro de un trozo de audio o solo cambia muy raramente. Por consiguiente, se puede obtener una buena impresion auditiva a una tasa de bits razonablemente baja.
[0041] Como alternativa, sin embargo, el uso de un valor de parametro de flujo de bits de correlacion inter-objeto 55 comun podrla ser senalizado en una porcion de flujo de bits de datos de trama, lo cual permitirla, por ejemplo, una
adaptation flexible a contenidos de audio variables.
[0042] Realizaciones adicionales de acuerdo con la invention crean un metodo para proporcionar una representacion de senal de mezcla ascendente. Estos metodos se basan en las mismas ideas que el decodificador
de audio analizado anteriormente.
Breve descripcion de las figuras
5 [0043] Las realizaciones de acuerdo con y los ejemplos que ilustran la invention se describiran posteriormente con referencia a las figuras adjuntas, en las que:
La Fig. 1 muestra un diagrama esquematico de bloques de un decodificador de senal de audio, de acuerdo con una realization de la invencion;
la Fig. 2 muestra un diagrama esquematico de bloques de un codificador de senal de audio, de acuerdo con un ejemplo;
la Fig. 3 muestra una representation esquematica de un flujo de bits de acuerdo con un ejemplo;
la Fig. 4 muestra un diagrama de bloques esquematico de un sistema MPEG SAOC usando un unico
calculo de parametro de correlation inter-objeto;
la Fig. 5 muestra una representacion de sintaxis de una information de configuration especlfica de SAOC, que puede ser parte de un flujo de bits;
la Fig. 6 muestra una representacion de sintaxis de una informacion de trama SAOC, que puede ser parte de un flujo de bits;
la Fig. 7 muestra una tabla que representa una cuantificacion de parametros del parametro de correlacion inter-objeto;
la Fig. 8 muestra un diagrama de bloques esquematico de un sistema MPEG SAOC de referencia;
la Fig. 9a muestra un diagrama de bloques esquematico de un sistema de SAOC de referencia usando
un decodificador y un mezclador separados;
la Fig. 9b muestra un diagrama de bloques esquematico de un sistema SAOC de referencia usando decodificador y mezclador integrados;
la Fig. 9c muestra un diagrama de bloques esquematico de un sistema SAOC de referencia usando un transcodificador SAOC a MpEg.
Descripcion detallada de las realizaciones y ejemplos
10
1. Decodificador de senal de audio de acuerdo con la Fig. 1
[0044] A continuation, se describira un decodificador de senal de audio 100 haciendo referencia a la Fig. 1, la cual muestra un diagrama esquematico de bloques de un tal decodificador de senal de audio 100.
15
[0045] En primer lugar, se describiran senales de entrada y salida del decodificador de senal de audio 100. Posteriormente, se describira la estructura del decodificador de senal de audio 100 y finalmente, se analizara la funcionalidad del decodificador de senal de audio 100.
20 [0046] El decodificador de senal de audio 100 esta configurado para recibir una representacion de senal de mezcla descendente 110, la cual tlpicamente representa una pluralidad de senales de objetos de audio, por ejemplo, en forma de una representacion de senal de audio de un canal o una representacion de senal de audio de dos canales.
[0047] El decodificador de senal de audio 100 tambien recibe una informacion parametrica relacionada con el
25 objeto 112, la cual tlpicamente describe objetos de audio, los cuales estan incluidos en la representacion de senal de mezcla descendente 110.
[0048] Por ejemplo, la informacion parametrica relacionada con el objeto 112 describe niveles de objeto de los objetos de audio, los cuales estan representados por la representacion de senal de mezcla descendente 110,
30 usando valores de diferencia de nivel de objeto (OLD).
[0049] Ademas, la informacion parametrica relacionada con el objeto 112 tlpicamente representa caracterlsticas de correlacion inter-objeto de los objetos de audio, los cuales estan representados por la representacion de senal de mezcla descendente 110. La informacion parametrica relacionada con el objeto tlpicamente comprende un
35 parametro de senalizacion de flujo de bits (tambien designado aqul "bsOnelOC"), el cual senaliza si la informacion parametrica relacionada con el objeto comprende valores de parametro de flujo de bits de correlacion inter-objeto individuales asociados a pares individuales de objetos de audio, o un valor de parametro de flujo de bits de correlacion inter-objeto comun con una pluralidad de pares de objetos de audio. Por consiguiente, la informacion parametrica relacionada con el objeto comprende los valores de parametros de flujo de bits de correlacion inter-
objeto individuales o el valor de parametro de flujo de bits de correlacion inter-objeto comun, de acuerdo con el parametro de senalizacion de flujo de bits "bsOnelOC".
[0050] La informacion parametrica relacionada con el objeto 112 tambien puede comprender informacion de 5 mezcla descendente describiendo un mezclado descendente de los objetos de audio individuales que forman la
representacion de senal de mezcla descendente. Por ejemplo, la informacion parametrica relacionada con el objeto comprende una informacion de ganancia de mezcla descendente DMG describiendo una contribucion de las senales de objeto de audio a la representacion de senal de mezcla descendente 110. Ademas, opcionalmente, la informacion parametrica relacionada con el objeto puede comprender una informacion de diferencia de nivel de canal de mezcla 10 descendente DCLD que describe diferencias de ganancia entre diferentes canales de mezcla descendente.
[0051] El decodificador de senal 100 tambien esta configurado para recibir informacion de interpretation 120, por ejemplo, desde una interfaz de usuario para introducir dicha informacion de interpretacion. La informacion de interpretacion describe la asignacion de las senales de los objetos de audio a canales de mezcla ascendente. Por
15 ejemplo, la informacion de interpretacion 120 puede adoptar la forma de una matriz de interpretacion (o entradas de la misma). Como alternativa, la informacion de interpretacion 120 puede comprender una description de una position de interpretacion deseada (por ejemplo, en terminos de coordenadas espaciales) de los objetos de audio e intensidades (o volumenes) deseadas para los objetos de audio.
20 [0052] El decodificador de senal de audio 100 proporciona una representacion de senal de mezcla ascendente 130, la cual constituye una representacion interpretada de las senales de objeto de audio descritas por la representacion de senal de mezcla descendente y la informacion parametrica relacionada con el objeto. Por ejemplo, la representacion de senal de mezcla ascendente puede adoptar la forma de senales de canal de audio individuales, o puede adoptar la forma de una representacion de senal de mezcla descendente en combination con una 25 informacion complementaria parametrica relacionada con el canal (por ejemplo, informacion complementaria MPEG- Surround).
[0053] El decodificador de senal de audio 100 esta configurado para proporcionar la representacion de senal de mezcla ascendente 130 sobre la base de la representacion de senal de mezcla descendente 110 y la informacion
30 parametrica relacionada con el objeto 112 y en dependencia de la informacion de interpretacion 120. El aparato 100 comprende un determinador de parametro de objeto 140, el cual esta configurado para obtener valores de correlacion inter-objeto (al menos) para una pluralidad de pares de objetos de audio relacionados sobre la base de la informacion parametrica relacionada con el objeto 112. Con este fin, el determinador de parametro de objeto 140 esta configurado para evaluar el parametro de senalizacion de flujo de bits (bsOnelOC") para decidir si evaluar 35 valores de parametro de transmision de flujo de bits de correlacion inter-objeto individuales para obtener los valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionadas u obtener los valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parametro de flujo de bits de correlacion inter-objeto comun. Por consiguiente, el determinador de parametro de objeto 140 esta configurado para proporcionar los valores de correlacion inter-objeto 142 para una pluralidad de pares de objetos de 40 audio relacionados sobre la base de valores de parametro de flujo de bits de correlacion inter-objeto individuales si el parametro de senalizacion de flujo de bits indica que no esta disponible un valor de parametro de flujo de bits de correlacion inter-objeto comun. De manera similar, el determinador de parametro de objeto determina los valores de correlacion inter-objeto 142 para una pluralidad de pares de objetos de audio relacionados sobre la base del valor de parametro de flujo de bits de correlacion inter-objeto comun si el parametro de senalizacion de flujo de bits indica 45 que un tal valor de parametro de flujo de bits de correlacion inter-objeto comun esta disponible.
[0054] El determinador de parametro de objeto tlpicamente proporciona otros valores relacionados con el objeto, como, por ejemplo, valores de diferencia de nivel de objeto OLD, valores de ganancia de mezcla descendente DMG y (opcionalmente) valores de diferencia de nivel de canal de mezcla descendente DCLD sobre la base de la
50 informacion parametrica relacionada con el objeto 112.
[0055] El decodificador de senal de audio 100 tambien comprende un procesador de senal 150, el cual esta configurado para obtener la representacion de senal de mezcla ascendente 130 sobre la base de la representacion de senal de mezcla descendente 110 y usando los valores de correlacion inter-objeto 142 para una pluralidad de
55 pares de objetos de audio relacionados y la informacion de interpretacion 120. El procesador de senal 150 tambien usa los otros valores relacionados con el objeto, como valores de diferencia de nivel de objeto, valores de ganancia de mezcla descendente y valores de diferencia de nivel de canal de mezcla descendente.
[0056] El procesador de senal 150 puede, por ejemplo, estimar caracterlsticas estadlsticas de una representacion
de senal de mezcla ascendente deseada 130 y procesar la representacion de senal de mezcla descendente de tal forma que la representacion de senal de mezcla ascendente 130 que derive de la representacion de senal de mezcla descendente comprende las caracteristicas estadisticas deseadas. Como alternativa, el procesador de senal 150 puede intentar separar las senales de objeto de audio de la pluralidad de objetos de audio, que estan combinadas en 5 la representacion de senal de mezcla descendente 110, usando el conocimiento acerca de las caracteristicas de objeto y el proceso de mezcla descendente. Por consiguiente, el procesador de senal puede calcular una regla de procesamiento (por ejemplo, una regla de escala o una regla de combinacion lineal), la cual permitira una reconstruccion de las senales de objeto de audio individuales o al menos de senales de audio que tienen caracteristicas estadisticas similares a las senales de objeto de audio individuales. El procesador de senal 150 luego 10 puede aplicar la interpretacion deseada para obtener la representacion de senal de mezcla ascendente. Naturalmente, el computo de las senales de objeto de audio reconstruidas, las cuales aproximan las senales de objeto de audio individuales, y la interpretacion pueden combinarse en una unica etapa de procesamiento para reducir la complejidad de computacion.
15 [0057] Para sintetizar lo anterior, el decodificador de senal de audio esta configurado para proporcionar la representacion de senal de mezcla ascendente 130 sobre la base de la representacion de senal de mezcla descendente 110 y la informacion parametrica relacionada con el objeto 112 usando la informacion de interpretacion 120. La informacion parametrica relacionada con el objeto 112 es evaluada para tener un conocimiento acerca de las caracteristicas estadisticas de las senales de objeto de audio individuales y de la relacion entre las senales de objeto 20 de audio individuales, que es requerida por el procesador de senal 150. Por ejemplo, la informacion parametrica relacionada con el objeto 112 se usa para obtener una matriz de varianza estimada que describe valores de covarianza estimados de las senales de objeto de audio individuales. La matriz de covarianza estimada despues se aplica por el procesador de senal 150 para determinar una regla de procesamiento (por ejemplo, como se ha analizado anteriormente) para derivar la representacion de senal de mezcla ascendente 130 a partir de la 25 representacion de senal de mezcla descendente 110, en la que, naturalmente, tambien puede ser aprovechada otra informacion relacionada con el objeto.
[0058] El determinador de parametro de objeto 140 comprende diferentes modos para obtener los valores de correlation inter-objeto para una pluralidad de pares de objetos de audio relacionados, lo cual constituye una
30 importante informacion de entrada para el procesador de senal 150. En un primer modo, los valores de correlacion inter-objeto son determinados usando valores de parametro de flujo de bits de correlacion inter-objeto individuales. Por ejemplo, puede ser un valor de parametro de flujo de bits de correlacion inter-objeto individual para cada par de objetos de audio relacionados, de tal forma que el determinador de parametro de objeto 140 simplemente mapea tal valor de parametro de flujo de bits de correlacion inter-objeto individual sobre uno o dos valores de correlacion inter- 35 objeto con un par dado de objetos de audio relacionados. Por el otro lado, tambien hay un segundo modo de operation, en el cual el determinador de parametro de objeto 140 meramente lee un unico valor de parametro de flujo de bits de correlacion inter-objeto del flujo de bits y provee una pluralidad de valores de correlacion inter-objeto para una pluralidad de diferentes pares de objetos de audio relacionados sobre la base de este unico valor de parametro de flujo de bits de correlacion inter-objeto. Por consiguiente, los valores de correlacion inter-objeto para 40 una pluralidad de pares de objetos de audio relacionados pueden, por ejemplo, ser identicos al valor representado por el valor unico de parametro de flujo de bits de correlacion inter-objeto comun, o pueden ser derivados del mismo valor de parametro de flujo de bits de correlacion inter-objeto comun. El determinador de parametro de objeto 140 es conmutable entre dicho primer modo y dicho segundo modo en dependencia del parametro de senalizacion de flujo de bits ("bsOnelOC").
45
[0059] Por consiguiente, hay diferentes modos para la provision de los valores de correlacion inter-objeto, los cuales pueden ser aplicados por el determinador de parametro de objeto 140. Si hay un numero relativamente pequeno de pares de objetos de audio relacionados, los valores de correlacion inter-objeto de dichos pares de objetos de audio relacionados tipicamente son determinados (en dependencia del parametro de senalizacion de flujo
50 de bits) individualmente por el determinador de parametro de objeto, lo cual permite una representacion particularmente precisa de las caracteristicas de dichos pares de objetos de audio relacionados y, en consecuencia, ofrece la posibilidad de reconstruir las senales de objeto de audio individuales con buena precision en el procesador de senal 150. Por lo tanto, tipicamente es posible proporciona una buena impresion auditiva en un caso asi en el cual solo las correlaciones entre un numero comparativamente pequeno de pares de objetos de audio relacionados 55 son relevantes.
[0060] El segundo modo de operacion del determinador de parametro de objeto, en el cual se usa un valor de parametro de flujo de bits de correlacion inter-objeto comun para obtener valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionados, tipicamente se usa en casos en los cuales hay correlaciones
no despreciables entre una pluralidad de pares de objetos de audio. Tales casos no podrlan ser manejados convencionalmente sin aumentar excesivamente la tasa de bits de un flujo de bits que representa tanto la representacion de senal de mezcla descendente 110 como la information parametrica relacionada con el objeto 112. El uso de un valor de parametro de flujo de bits de correlation inter-objeto comun produce ventajas especlficas si 5 hay correlaciones no despreciables entre un numero comparativamente grande de pares de objetos de audio, cuyas correlaciones no comprenden variaciones acusticamente significativas. En este caso, es posible considerar las correlaciones con moderado esfuerzo de tasa de bits, lo cual produce un compromiso razonablemente bueno entre requisito de tasa de bits y calidad de la impresion auditiva.
10 [0061] Por consiguiente, el decodificador de senal de audio 100 es capaz de manejar eficientemente diferentes situaciones, a saber, situaciones en las cuales hay solo unos pocos pares de objetos de audio relacionados, la correlacion inter-objeto de los cuales debe ser tomada en cuenta con alta precision, y situaciones en las cuales hay un gran numero de pares de objetos de audio relacionados, las correlaciones inter objeto de los cuales no deben ser despreciadas completamente pero tienen alguna similitud. El decodificador de senal de audio 100 es capaz de 15 manejar ambas situaciones con buena calidad de impresion auditiva.
2. Codificador de senal de audio de acuerdo con la Fig. 2
[0062] A continuation, se describira un codificador de senal de audio 200 haciendo referencia a la Fig. 2, la cual 20 muestra un diagrama esquematico de bloques de un tal codificador de senal de audio 200.
[0063] El codificador de senal de audio 200 esta configurado para recibir una pluralidad de senales de objeto de audio 210a a 210N. Las senales de objeto de audio 210a a 210n pueden ser, por ejemplo, senales de un canal o senales de dos canales representando diferentes objetos de audio.
25
[0064] El codificador de senal de audio 200 tambien esta configurado para proporcionar una representacion de flujo de bits 220, que describe la escena de auditorio representada por las senale de objeto de audio 210a a 210N en una manera compacta y eficiente en cuando a tasa de bits.
30 [0065] El codificador de senal de audio 200 comprende un mezclador descendente 220, el cual esta configurado para recibir senales de objeto de audio 210a a 210N y para proporcionar una senal de mezcla descendente 232 sobre la base de las senales de objeto de audio 210a a 210N. El mezclador descendente 230 esta configurado para proporcionar la senal de mezcla descendente 232 en dependencia de parametros de mezcla descendente que describen contribuciones de las senales de objeto de audio 210a a 210N a los uno o mas canales de la senal de 35 mezcla descendente.
[0066] El codificador de senal de audio tambien comprende un proveedor de parametros 240, el cual esta configurado para proporcionar un valor de parametro de flujo de bits de correlacion inter-objeto comun 242 asociado con una pluralidad de senales de objeto de audio relacionadas 210a a 210N. El proveedor de parametros 240 40 tambien esta configurado para proporcionar un parametro de senalizacion de flujo de bits 244 que indica que se proporciona el valor de parametro de flujo de bits de correlacion inter-objeto comun 242 en lugar de una pluralidad de parametros de flujo de bits de correlacion inter-objeto individuales (asociados individualmente con diferentes pares de objetos de audio).
45 [0067] El codificador de senal de audio 200 tambien comprende un formateador de flujo de bits 250, el cual esta configurado para proporcionar una representacion de flujo de bits 250 que comprende una representacion de la senal de mezcla descendente 232 (por ejemplo, una representacion de la senal de mezcla descendente 232), una representacion del valor de parametro de flujo de bits de correlacion inter-objeto comun 242 (por ejemplo, una representacion cuantificada y codificada de ello) y el parametro de senalizacion de flujo de bits 244 (por ejemplo, en 50 forma de un valor de parametro de un bit).
[0068] El codificador de senal de audio 200 en consecuencia proporciona una representacion de flujo de bits 220, la cual representa la escena de audio descrita por las senales de objeto de audio 210a a 210N con buena precision. En particular, la representacion de flujo de bits 220 comprende una informacion complementaria compacta si muchas 55 de las senales de objeto de audio 210a a 210N estan relacionadas entre si, es decir, comprenden una correlacion inter-objeto no despreciable. En este caso, se proporciona el valor de parametro de flujo de bits de correlacion inter- objeto comun 242 en lugar de los valores de parametro de flujo de bits de correlacion inter-objeto individuales, asociados individualmente con pares de objetos de audio. Por consiguiente, el codificador de senal de audio puede proporcionar una representacion de flujo de bits compacta 220 en cualquier caso, tanto si hay muchos pares de
senales de objeto de audio correlacionados 210a a 210N como si hay solo unos pocos pares de senales de objeto de audio relacionadas 210a a 210N. En particular, la representation de flujo de bits 220 puede comprender la information requerida por el decodificador de senal de audio 100 como una information de entrada, concretamente, la representacion de senal de mezcla descendente 110 y la informacion parametrica relacionada con el objeto 112. 5 Por lo tanto, el proveedor de parametros 240 puede estar configurado para proporcionar informacion parametrica relacionada con el objeto adicional que describe las senales de objeto de audio 210a a 210N, as! como tambien el proceso de mezcla descendente realizado por el mezclador descendente 230. Por ejemplo, el proveedor de parametros 240 puede proporcionar adicionalmente una informacion de diferencia de nivel de objeto OLD que describe los niveles de objeto (o diferencias de nivel de objeto) de las senales de objeto de audio 210a a 210n. 10 Ademas, el proveedor de parametros 240 puede proporcionar una informacion de ganancia de mezcla descendente DMG que describe ganancias de mezcla descendente aplicadas a las senales de objeto de audio individuales 210a a 210N cuando se forma el uno o mas canales de la senal de mezcla descendente 232. Tambien, opcionalmente, se pueden proporcionar valores de diferencia de nivel de canal de mezcla descendente DCLD, que describen diferencias de ganancia de mezcla descendente entre diferentes canales de la senal de mezcla descendente 232, 15 mediante el proveedor de parametros 240 para inclusion en la representacion de flujo de bits 220.
[0069] Para resumir lo anterior, el codificador de senal de audio proporciona eficientemente la informacion parametrica relacionada con el objeto requerida para una reconstruction de la escena de audio descrita por las senales de objeto de audio 210a a 210N con una buena impresion auditiva, en la que se usa un valor de parametro
20 de flujo de bits de correlation inter-objeto comun compacto si hay un gran numero de pares de objetos de audio relacionados. Esto es senalizado usando el parametro de senalizacion de flujo de bits 244. Por lo tanto, se evita una excesiva carga de flujo de bits en tal caso.
[0070] A continuation, se describiran detalles adicionales con respecto a la provision de una representacion de 25 flujo de bits.
3. Flujo de bits de acuerdo con la Fig. 3
[0071] La Fig. 3 muestra una representacion esquematica de un flujo de bits 300.
30
[0072] El flujo de bits 300 puede servir, por ejemplo, como un flujo de bits de entrada del decodificador de senal de audio 100, que lleva la representacion de senal de mezcla descendente 110 y la informacion parametrica relacionada con el objeto 112. El flujo de bits 300 puede proporcionarse como un flujo de bits de salida 220 por el codificador de senal de audio 200.
35
[0073] El flujo de bits 300 comprende una representacion de senal de mezcla descendente 310, la cual es una representacion de una senal de mezcla descendente multicanal (por ejemplo, la senal de mezcla descendente 232) combinando senales de audio de una pluralidad de objetos de audio. El flujo de bits 300 tambien comprende informacion complementaria parametrica relacionada con el objeto 320 que describe caracterlsticas de los objetos
40 de audio, cuyas senales de objeto de audio estan representadas, de forma combinada, por la representacion de senal de mezcla descendente 310. La informacion complementaria parametrica relacionada con el objeto 320 comprende un parametro de senalizacion de flujo de bits 322 que indica si el flujo de bits comprende parametros de flujo de bits de correlacion inter-objeto individuales (asociados individualmente con diferentes pares de objetos de audio) o un valor de parametro de flujo de bits de correlacion inter-objeto comun (asociados con una pluralidad de 45 diferentes pares de objetos de audio).
[0074] La informacion complementaria parametrica relacionada con el objeto tambien comprende una pluralidad de valores de parametro de flujo de bits de correlacion inter-objeto individuales 324a, lo cual esta indicado por un primer estado del parametro de senalizacion de flujo de bits 322, o un valor de parametro de flujo de bits de correlacion
50 inter-objeto comun, lo cual esta indicado por un segundo estado del parametro de senalizacion de flujo de bits 322.
[0075] Por consiguiente, el flujo de bits 300 puede ser adaptada a caracterlsticas de relation de las senales de objeto de audio 210a a 210N adaptando el formato del flujo de bits 300 para contener una representacion de valores de parametro de flujo de bits de correlacion inter-objeto individuales o una representacion de un valor de parametro
55 de flujo de bits de correlacion inter-objeto comun.
[0076] En consecuencia, el flujo de bits 300 puede proporcionar la oportunidad de codificar eficientemente diferentes tipos de escenas de audio con una informacion complementaria compacta, mientras que mantiene la oportunidad de obtener una buena impresion auditiva para el caso en el que hay solo unos pocos objetos de audio
fuertemente correlacionados.
[0077] Posteriormente, se analizaran detalles adicionales con respecto al flujo de bits.
5 4. El sistema MPEG SAOC de acuerdo con la Fig. 4
[0078] A continuation, se describira un sistema MPEG SAOC usando un calculo de parametro de IOC unico, tomando como referencia la Fig. 4.
10 [0079] El sistema MEPG SAOC 400 de acuerdo con la Fig. 4 comprende un codificador SAOC 410 y un decodificador SAOC 420.
[0080] El codificador SAOC 410 esta configurado para recibir, por ejemplo, una pluralidad de L senales de objeto de audio 420a a 420N. El codificador SAOC 410 esta configurado para proporcionar una representation de senal de
15 mezcla descendente 430 y una information complementaria 432, que estan incluidas, preferiblemente, pero no necesariamente, en un flujo de bits.
[0081] El codificador SAOC 410 comprende un procesamiento de mezcla descendente de SAOC 440, que recibe las senales de objeto de audio 420a a 420N y proporciona la representacion de senal de mezcla descendente 430
20 en base a lo mismo. El codificador SAOC 410 tambien comprende un extractor de parametro 444, que puede recibir las senales de objeto 420a a 420N y tambien opcionalmente, puede recibir una informacion acerca del procesamiento de mezcla descendente de SAOC 440 (por ejemplo, uno o mas parametros de mezcla descendente). El extractor de parametro 444 comprende un unico calculador de correlation inter-objeto 448, que esta configurado para calcular un unico valor de correlacion inter-objeto (comun) asociado con una pluralidad de pares de objetos de 25 audio. Ademas, el unico calculador de correlacion inter-objeto 448 esta configurado para proporcionar una unica serialization de correlacion inter-objeto 452, que indica si se usa un unico valor de correlacion inter-objeto en lugar de valores de correlacion inter-objeto de par de objeto individual. El calculador de correlacion inter-objeto unico 448 puede decidir, por ejemplo, sobre la base de un analisis de las senales de objeto de audio 420a a 420N, si se proporciona un unico valor de correlacion inter-objeto comun (o, como alternativa, una pluralidad de valores de 30 parametro de correlacion inter-objeto individuales asociados individualmente con pares de senales de objeto de audio). Sin embargo, el calculador de correlacion inter-objeto unico 448 tambien puede recibir una informacion de control externa que determina si se debe calcular un valor de correlacion inter-objeto comun (por ejemplo, un valor de parametro de flujo de bits) o valores de correlacion inter-objeto individuales (por ejemplo, valores de parametro de flujo de bits).
35
[0082] El extractor de parametro 444 tambien esta configurado para proporcionar una pluralidad de parametros que describen las senales de objeto de audio 420a a 420N, como, por ejemplo, parametros de diferencia de nivel de objeto. El extractor de parametro 444 tambien esta configurado preferiblemente para proporcionar parametros que describen la mezcla descendente, como, por ejemplo, un conjunto de parametros de ganancia de mezcla
40 descendente DMG y un conjunto de parametros de diferencia de nivel de canal de mezcla descendente DCLD.
[0083] El codificador SAOC 410 comprende una cuantificacion 456, que cuantifica los parametros proporcionados por el extractor de parametro 444. Por ejemplo, el parametro de correlacion inter-objeto comun puede ser cuantificado por la cuantificacion 456. Ademas, los parametros de diferencia de nivel de objeto, los parametros de
45 ganancia de mezcla descendente y los parametros de diferencia de nivel de canal de mezcla descendente tambien pueden cuantificarse por la cuantificacion 456. Por consiguiente, los parametros cuantificados son obtenidos mediante la cuantificacion 456.
[0084] El codificador SAOC 410 tambien comprende una codification sin ruido 460, que esta configurada para 50 codificar los parametros cuantificados proporcionados por la cuantificacion 456. Por ejemplo, la codificacion sin ruido
puede codificar sin ruido el parametro de correlacion inter-objeto comun cuantificado y tambien otros parametros cuantificados (por ejemplo, OLD, DMG y DCLD).
[0085] Por consiguiente, el codificador SAOC 410 proporciona la informacion complementaria 432 de tal forma que 55 la informacion complementaria comprende la senalizacion de IOC unica 452 (la cual puede ser considerada como un
parametro de senalizacion de flujo de bits) y los parametros codificados sin ruido proporcionados por la codificacion sin ruido 480 (los cuales pueden ser considerados como valores de parametros de flujo de bits).
[0086] El decodificador SAOC 420 esta configurado para recibir la informacion complementaria 432 proporcionada
por el codificador SAOC 410 y la representation de senal de mezcla descendente 430 proporcionada por el codificador SAOC 410.
[0087] El decodificador SAOC 420 comprende una decodificacion sin ruido 464, que esta configurada para revertir 5 la codification sin ruido 460 de la information complementaria 432 realizada en el codificador 410. El decodificador
SAOC 420 tambien comprende una descuantificacion 468, la cual tambien puede ser considerada como una cuantificacion inversa (aunque, estrictamente hablando, la cuantificacion no es reversible con precision perfecta), en la que la descuantificacion 468 esta configurada para recibir la information complementaria decodificada 466 desde la decodificacion sin ruido 464. La descuantificacion 468 proporciona los parametros descuantificados 470, por 10 ejemplo, el valor de correlation inter-objeto comun decodificado y descuantificado proporcionado por el calculador de correlation inter-objeto unico 488 y tambien valores de diferencia de nivel de objeto OLD decodificados y descuantificados, valores de ganancia de mezcla descendente DMG decodificados y descuantificados y valores de diferencia de nivel de canal de mezcla descendente DCLD. El decodificador SAOC 420 tambien comprende un unico expansor de correlation inter-objeto 474, que esta configurado para proporcionar una pluralidad de valores de 15 correlation inter-objeto asociados con una pluralidad de pares de objetos de audio relacionados sobre la base del valor de correlacion-inter-objeto comun. Sin embargo, se debe apreciar que el expansor de correlation inter-objeto unico 474 puede disponerse antes de la decodificacion sin ruido 464 y la descuantificacion 468 en algunas realizaciones. Por ejemplo, el expansor de correlation inter-objeto unico 474 puede estar integrado en un analizador sintactico de flujo de bits, el cual recibe un flujo de bits que comprende tanto la representation de senal de mezcla 20 descendente 430 como la information complementaria 432.
[0088] El decodificador SAOC 420 tambien comprende un procesamiento y mezcla de decodificador SAOC 480, el cual esta configurado para recibir la representation de senal de mezcla descendente 430 y los parametros decodificados incluidos (en forma codificada) en la information complementaria 432. Por lo tanto, el procesamiento y
25 mezcla de decodificador SAOC 480 puede recibir, por ejemplo, uno o dos valores de correlation inter-objeto para cada par de (diferentes) objetos de audio), en el que el uno o dos valores de correlation inter-objeto puede ser cero para objetos de audio no relacionados y no nulo para objetos de audio relacionados. Ademas, el procesamiento y mezcla de decodificador SAOC 480 puede recibir valores de diferencia de nivel de objeto para cada objeto de audio. Ademas, el procesamiento y mezcla de decodificador SAOC 480 puede recibir valores de ganancia de mezcla 30 descendente y (opcionalmente) valores de diferencia de nivel de canal de mezcla descendente que describen la mezcla descendente realizada en el procesamiento de mezcla descendente de SAOC 440. Por consiguiente, el procesamiento y mezcla de decodificador SAOC 480 puede proporcionar una pluralidad de senales de canal 484a a 484N en dependencia de la representation de senal de mezcla descendente 430, los parametros de information complementaria incluidos en la information complementaria 432 y una information de interaction 482, que describe 35 una interpretation deseada de los objetos de audio. Sin embargo, ha de apreciarse que los canales 484a a 484N pueden ser representados ya sea en forma de senales de canal de audio individuales o bien en forma de una representation parametrica, como, por ejemplo, una representation multicanal de acuerdo con el estandar MPEG Surround (que comprende, por ejemplo, una senal de mezcla descendente MPEG Surround e information complementaria de MPEG Surround relacionada con el canal). En otras palabras, tanto una representation de senal 40 de audio de canal individual como una representation parametrica de senal de audio multicanal seran consideradas como una representation de senal de mezcla ascendente dentro de la presente description.
[0089] A continuation, se describiran algunos detalles con respecto a la funcionalidad del codificador SAOC 410 y del decodificador SAOC 420.
45
[0090] La information complementaria de SAOC, que se analizara a continuation, desempena un papel importante en la codification SAOC y la decodificacion SAOC. La information complementaria de SAOC describe los objetos de entrada (objetos de audio) por medio de su matriz de covarianza variante de tiempo/frecuencia. Las N senales de objeto 420a a 420N (algunas veces tambien designadas como "objetos") pueden ser escritas en filas en una matriz:
50
"5,(0) 5,(1) ... 5,(I-1)'
s= J2(°) Jz0) •••
5W(0) Jjy(1) ... sn(L -1)
[0091] Aquf, las entradas si(l) designan valores espectrales de un objeto de audio que tiene fndice de objeto de audio i para una pluralidad de porciones temporales que tienen indices de tiempo 1. Un bloque de senal de L
muestras representa la senal en un intervalo de tiempo y frecuencia que es una parte de la inclinacion motivada perceptualmente del plano de tiempo-frecuencia que se aplica para la description de propiedades de senal.
[0092] Por lo tanto, la matriz de covarianza se da como
con
imagen1
imagen2
P\N
Pin
Pni Pni
imagen3
imagen4
10 [0093] La matriz de covarianza tfpicamente es usada por el procesamiento y mezcla de decodificador SAOC 480 para obtener las senales de canal 484a a 484N.
[0094] Los elementos de la diagonal pueden ser reconstruidos directamente en el lado del decodificador SAOC con los datos de OLD, y los elementos fuera de la diagonal se dan por las correlaciones inter objeto (IOC) como
15
imagen5
[0095] Ha de apreciarse que los valores de diferencia de nivel de objeto describen sm y sn.
[0096] El numero de valores de correlation inter-objeto necesario para transferir toda la matriz de covarianza es 20 N*N/2-N/2. Como este numero puede hacerse grande (por ejemplo, para un numero N grande de senales de objeto),
dando como resultado una alta demanda de bis, el codificador SAOC 410 (asf como el codificador de senal de audio 200), opcionalmente, puede transmitir solo valores de correlacion inter-objeto seleccionados para pares de objetos, los cuales estan senalizados como "relacionados" entre si. Esta information "relacionada con" opcional es, por ejemplo, transferida estadfsticamente en un elemento de sintaxis de configuration especffico de SAOC del flujo de 25 bits, que puede designarse, por ejemplo, con "SAOCSpecificConfig()". Se supone que los objetos que no estan relacionados entre si, son no relacionados, es decir, su correlacion inter-objeto es igual a cero.
[0097] Sin embargo, existen escenarios de aplicaciones donde todos los objetos (o casi todos los objetos) estan relacionados entre si. Un ejemplo de un tal escenario de aplicacion es una conferencia telefonica con una
30 configuracion de microfono y acustica ambiente con un alto grado de entrecruzamiento de voz inter-microfono. En estos casos, se necesitara la transmision de todos los valores de IOC (si se uso el mecanismo convencional mencionado anteriormente), pero usualmente excedera el presupuesto de bits deseado. Como una alternativa, suponer que todos los objetos no estan correlacionados inducira a un gran error en el modelo y, por lo tanto, producira una calidad de audio sub-optimo de la escena interpretada.
35
[0098] La suposicion subyacente del enfoque propuesto es que para ciertos escenarios de aplicacion de SAOC, fuentes de sonido no correlacionadas dan como resultado objetos de entrada de SAOC correlacionados debido al ambiente acustico en que se hallan y debido a las tecnicas de registro aplicadas.
40 [0099] Considerando una configuracion de conferencia telefonica, por ejemplo, el impacto de la reverberation ambiente y el imperfecto aislamiento de los locutores individuales conducen a objetos de SAOC correlacionados a pesar de que el habla de los sujetos individuales no esta correlacionada. Estas circunstancias acusticas y la correlacion resultante pueden describirse aproximadamente con un unico valor variable con la frecuencia y con el tiempo.
45
[0100] Por lo tanto, el metodo propuesto evita la alta demanda de tasa de bits de transferir todas las correlaciones de objeto deseadas. Esto se hace calculando un unico valor de IOC dependiente del tiempo y la frecuencia en un modulo "calculador de IOC unico" 448 especffico en el codificador SAOC (vease la Fig. 4). El uso de la caracterfstica "IOC unico" es senalizado en la informacion de SAOC (por ejemplo, usando el parametro de senalizacion de flujo de 50 bits "bsOnelOC"). El valor unico de IOC por intervalo de tiempo/frecuencia despues se transmite en lugar de todos los valores de iOc separados (por ejemplo, usando el valor de parametro de flujo de bits de correlacion inter-objeto comun).
[0101] En una aplicacion tlpica, el encabezado de flujo de bits (por ejemplo, el elemento "SAOCSpecificConfig()" de acuerdo con la norma de SAOC no prepublicada [SAOC]) incluye un bit indicando si se usa senalizacion "IOC unico" o IOC "normal". Algunos detalles con respecto a esta cuestion se analizaran a continuation.
5
[0102] Los datos de trama de carga util (por ejemplo, el elemento "SAOCFrame()" en la norma de SAOC no prepublicada [SAOC]) entonces incluye lOC comunes para todos los objetos o varios lOC dependiendo del modo "lOC unico" o "normal".
10 [0103] Por lo tanto, un analizador sintactico de flujo de bits (que puede ser parte del decodificador SAOC) para los datos de carga util en el decodificador puede designarse de acuerdo con el ejemplo a continuacion (que se formula en un pseudocodigo C): if (iocMode == SINGLE_IOC)
{
15 readIocDataFromBitstream(l);
}
else
{
readIocDataFromBitstream (numberOfTransmittedIocs);
20 }
[0104] De acuerdo con el ejemplo anterior, el analizador sintactico de flujo de bits verifica si una bandera "iocMode" (tambien designada con "bsOnelOC" a continuacion) indica que hay solo un unico valor de parametro de flujo de bits de correlation inter-objeto (lo cual es senalado por el valor de parametro "SINGLE_IOC"). Si el 25 analizador sintactico encuentra que hay solo un unico valor de correlacion inter-objeto, el analizador sintactico de flujo de bits lee una unidad de datos de correlacion inter-objeto (esto es, un valor de parametro de flujo de bits de correlacion inter-objeto) de flujo de bits, lo cual esta indicado por la operation readIocDataFromBitstream(l)". Si, por el contrario, el analizador de sintactico de flujo de bits encuentra que la bandera "iocMode" no indica el uso de un unico valor de correlacion inter-objeto (comun), el analizador sintactico de flujo de bits lee un numero diferente de 30 unidades de datos de correlacion inter-objeto (por ejemplo, valores de parametro de flujo de bits de correlacion inter- objeto) del flujo de bits, lo cual esta indicado por la funcion "readIocDataFromBitstream (numberOfTransmittedIocs)"). El numero ("numberOfTransmittedIocs") de unidades de datos de correlacion inter- objeto leldo en este caso tlpicamente esta determinado por un numero de pares de objetos de audio relacionados.
35 [0105] Como alternativa, la senalizacion "IOC unico" puede estar presente en la trama de carga util (por ejemplo, en el elemento denominado "SAOCFrame()" en la Norma de SAOC no pre-publicada) para permitir conmutacion dinamica entre el modo de IOC unico y el modo de IOC normal en una base por trama.
5. Implementacion del lado del codificador del calculo de un parametro de flujo de bits de correlacion inter- 40 objeto comun
[0106] A continuacion, se describiran algunas implementaciones preferidas para el calculo de IOC unico (IOCunico).
5.1. Calculo usando terminos de potencia cruzada
45
[0107] En una realization preferida del codificador SAOC 410, el valor de parametro de flujo de bits de correlacion inter-objeto comun IOCunico puede computarse de acuerdo con la siguiente ecuacion:
imagen6
con los terminos de potencia cruzada
IIX* (*;■*)'
n k
donde n y k son instancias de tiempo y frecuencia (o Indices de tiempo y frecuencia) para los cuales se aplica el parametro de SAOC.
5
[0108] En otras palabras, el valor de parametro de flujo de bits de correlation inter-objeto comun IOCunico puede computarse en dependencia de una relation entre una suma de terminos cruzados nrgij (en el que el Indice de objeto i es tlpicamente diferente del Indice de objeto j) y una suma de valores de energla promedio
10
(cuyos valores de energla promedio representan, por ejemplo, una media geometrica entre los valores de energla nrgii y nrgjj).
15 [0109] La suma puede realizarse, por ejemplo, para todos los pares de objetos de audio diferentes, o solo para pares de objetos de audio relacionados.
[0110] El termino de potencia cruzada nrgij puede ser formado, por ejemplo, como una suma sobre productos de conjugado complejo (siendo uno de los factores complejo conjugado) de coeficientes espectrales sink, sjnk asociados
20 con las senales de objeto de audio del par de objetos de audio bajo consideration para una pluralidad de instancias (que tienen Indices de tiempo n) y/o una pluralidad de instancias de frecuencia (que tienen Indices de frecuencia k).
[0111] Una parte real de dicha relacion puede formarse (por ejemplo, mediante una operation Re{} para tener un valor de parametro de flujo de bits de correlacion inter-objeto comun IOCunico, de valor real, como se muestra en la
25 ecuacion anterior.
5.2. Uso de un valor constante
[0112] En otra realization preferida, se puede elegir un valor constante c para obtener el valor de parametro de 30 flujo de bits de correlacion inter-objeto comun IOCunico de acuerdo con
IOCunjco Cj
siendo c una constante.
35
[0113] Esta constante c podrla describir, por ejemplo, habla cruzada independiente del tiempo y la frecuencia de una habitation con acustica especlfica (cantidad de reverberation) donde tiene lugar una conferencia telefonica.
[0114] La constante c puede ser fijada, por ejemplo, de acuerdo con una estimation de la acustica de la sala, lo 40 cual puede realizarse por el codificador SAOC. Como alternativa, la constante c puede introducirse a traves de una
interfaz de usuario, o puede estar predeterminada en el codificador SAOC 410.
6. Determination del lado del decodificador de los valores de correlacion inter-objeto para todos los pares de objeto
45
[0115] A continuation, se describira ahora como se pueden obtener los valores de correlacion inter-objeto para todos los pares de objetos.
[0116] En el lado del decodificador (por ejemplo, en el decodificador SAOC 420), se usa el parametro de 50 correlacion inter-objeto (flujo de bits) (IOCunico) para determinar los valores de correlacion inter-objeto para todos los
pares de objetos. Esto se hace, por ejemplo, en el modulo "Expansor de IOC Unico" 474 (vease la Fig. 4).
[0117] Un metodo preferido es una simple operacion de copia. La copia puede aplicarse con o sin considerar la information "relacionada con" transportada, por ejemplo, en el encabezado de flujo de bits de SAOC (por ejemplo,
55 en la portion "SAOCSpecificConfiguration()").
imagen7
[0118] En una realization preferida, se puede realizar una copia sin information "relacionada con" (es decir, sin transferir o considerar una information "relacionada con") de la siguiente manera:
5 IOCmn = lOCunico, para todos m, n con m ^ n
[0119] Por lo tanto, todos los valores de correlation inter-objeto para pares de diferentes objetos de audio se fijan al valor de parametro de (flujo de bits de) correlation inter-objeto comun.
10 [0120] En otra realization preferida se realiza una copia con information "relacionada con" (es decir, teniendo en cuenta la information "relacionada con"), por ejemplo, de la siguiente manera:
I OCunico
para todos m, n con m ^ n y relatedTo(m,n) = 1
15 para todos m, n con m ^ n y relatedTo(m,n) = 0
[0121] Por consiguiente, uno o incluso dos valores de correlation inter-objeto asociados con un par de objetos de audio (que tienen Indices de objeto de audio m y n) se ajustan al valor lOCunico especificado, por ejemplo, mediante el valor de parametro de flujo de bits de correlation inter-objeto comun, si la information de relation de objeto
20 "relatedTo(m,n)" indica que dichos objetos de audio estan relacionados entre si. De otro modo, es decir, si la information de relation de objeto "relatedTo(m,n)" indica que los objetos de audio de un par de objetos de audio no estan relacionados, uno o incluso dos valores de correlation inter-objeto asociados con el par de objetos de audio se fijan a un valor predeterminado, por ejemplo, a cero.
25 [0122] Sin embargo, son posibles diferentes metodos de distribution, por ejemplo, teniendo en cuenta las potencias de objeto. Por ejemplo, los valores de correlation inter-objeto que se refieren a objetos con potencia relativamente baja podrlan ser fijados a valores altos, tal como 1 (correlation total), para minimizar la influencia del filtro de descorrelacion en el decodificador SAOC.
30 7. Concepto de decodificador usando elementos de flujo de bits de acuerdo con las Figs. 5 y 6
[0123] A continuation se describira un concepto de decodificador de un decodificador de senal de audio usando los elementos de sintaxis de flujo de bits de acuerdo con las Fig. 5 y 6. Ha de apreciarse aqul que la sintaxis de flujo de bits y el concepto de evaluation de flujo de bits, que se describira con referencia a las Figs. 5 y 6, pueden ser
35 aplicados, por ejemplo, en el decodificador de senal de audio 100 de acuerdo con la Fig. 1 y en el decodificador de senal de audio 420 de acuerdo con la Fig. 4. Ademas, cabe apreciarse que el codificador de senal de audio 200 de acuerdo con la Fig. 2 y el decodificador de senal de audio 410 de acuerdo con la Fig. 4 pueden adaptarse para proporcionar elementos de sintaxis de flujo de bits como se analiza con respecto a las Figs. 5 y 6.
40 [0124] Por consiguiente, el flujo de bits que comprende la representation de senal de mezcla descendente 110 y la information parametrica relacionada con el objeto 112 y/o la representation de flujo de bits 220 y/o el flujo de bits 300 y/o un flujo de bits que comprende la information de mezcla descendente 430 y la information complementaria 432, pueden proporcionarse de acuerdo con la siguiente description.
45 [0125] Un flujo de bits de SAOC, que puede proporcionarse por los codificadores de SAOC descritos anteriormente y los cuales pueden evaluarse por los decodificadores de SAOC descritos anteriormente puede comprender una portion de configuration especlfica de SAOC, que se describira a continuation haciendo referencia a la Fig. 5, que muestra una representation de sintaxis de tal portion de configuration especlfica de SAOC "SAOCSpecificConfig()".
50
[0126] La information de configuration especlfica de SAOC comprende, por ejemplo, information de configuration de frecuencia de muestreo, que describe una frecuencia de muestreo usada por un codificador de senal de audio y/o a ser usada por un decodificador de senal de audio. La information de configuration especlfica de SAOC tambien comprende una information de configuration de modo de bajo retardo, la cual describe si ha sido usado un modo de
55 bajo retardo por un codificador de senal de audio y/o debe ser usado por un decodificador de senal de audio. La information de configuration especlfica de SAOC tambien comprende una information de configuration de resolution de frecuencia, que describe una resolution de frecuencia usada por un codificador de senal de audio y/o a ser usada por un decodificador de senal de audio. La information de configuration especlfica de SAOC tambien comprende una information de configuration de longitud de trama que describe una longitud de trama de tramas
usadas por el codificador SAOC y/o a ser usadas por el decodificador SAOC. La informacion de configuracion especlfica de SAOC tambien comprende una informacion de configuracion de numero de objetos la cual describe un numero de objetos de audio. Esta informacion de configuracion de numero de objetos, que tambien es designada con "bsNumObjects", por ejemplo, describe el valor N, que se ha usado anteriormente.
5
[0127] La informacion de configuracion especlfica de SAOC tambien comprende una informacion de configuracion de relacion de objeto. Por ejemplo, puede haber un bit de flujo de bits cada par de diferentes objetos de audio. Sin embargo, la relacion de objetos de audio puede estar representada, por ejemplo, mediante una matriz cuadrada de N x N que tiene una entrada de un bit para cada combination de objetos de audio. Las entradas de dicha matriz que
10 describen la relacion de un objeto consigo mismo, es decir, elementos de la diagonal, pueden fijarse en uno, lo cual indica que un objeto esta relacionado consigo mismo. Dos entradas, concretamente una primera entrada que tiene un primer Indice i y un segundo Indice j, y una segunda entrada que tiene un primer Indice j y un segundo Indice i, pueden asociarse con cada par de diferentes objetos de audio que tienen Indices de objeto de audio i y j. Por consiguiente, un unico bit de flujo de bits determina los valores de dos entradas de la matriz de relacion de objeto, 15 que se ajustan a valores identicos.
[0128] Como se puede ver, un primer Indice de objeto de audio i va desde i = 0 hasta i = bsNumObjects (para bucle exterior). Una entrada de diagonal "bsRelatedTo[i][i]" se ajusta a uno para todos los valores de i. Para un primer Indice de objeto de audio i, los bits que describen una relacion entre el objeto de audio i y los objetos de audio
20 j (que tienen Indice de objeto de audio j) estan incluidos en el flujo de bits para j = i + 1 hasta j = bsNumOjects. Por consiguiente, las entradas de la matriz de relacion "bsRelatedTo[i][j]", que describen una relacion entre objetos de audio que tienen Indices de objeto de audio i y j, se fijan al valor dado en el flujo de bits. Ademas, una entrada de matriz de relacion de objeto "bsRelatedTo[j][i]" se ajusta al mismo valor, es decir, el valor de la entrada de matriz "bsRelatedTo[i][j]". Para detalles, se hace referencia a la representation de sintaxis de la Fig. 5.
25
[0129] La informacion de configuracion especlfica de SAOC tambien comprende una informacion de configuracion de transmision de energla absoluta, que describe si un codificador de audio ha incluido una informacion de energla absoluta dentro del flujo de bits, y/o si un decodificador de audio debe evaluar una informacion de configuracion de transmision de energla absoluta incluida en el flujo de bits.
30
[0130] La informacion de configuracion especlfica de SAOC tambien comprende una informacion de configuracion de numero de canal de mezcla descendente, que describe un numero de canales de mezcla descendente usado por el codificador de audio y/o a usarse por el decodificador de audio. La informacion de configuracion especlfica de SAOC tambien puede comprender informacion de configuracion adicional, la cual no es relevante para la presente
35 solicitud, y puede omitirse opcionalmente.
[0131] La informacion de configuracion especlfica de SAOC tambien comprende una informacion de configuracion de correlation inter-objeto (tambien designada en el presente documento como un "parametro de serialization de flujo de bits") que describe si se incluye un valor de parametro de flujo de bits de correlacion inter-objeto comun en el
40 flujo de bits de SAOC, o si se incluyen valores de parametro de flujo de bits de correlacion inter-objeto individuales de par de objetos, en el flujo de bits de SAOC. Dicha informacion de configuracion de correlacion inter-objeto comun puede ser designada, por ejemplo, con "bsOnelOC" y puede ser un valor de un bit.
[0132] La informacion de configuracion especlfica de SAOC tambien puede comprender una informacion de 45 configuracion de unidad de control de distorsion.
[0133] Ademas, la informacion de configuracion especlfica de SAOC puede comprender uno o mas bits de relleno, los cuales son designados con "ByteAlign()", y los cuales pueden usarse para ajustar las longitudes de la informacion de configuracion especlfica de SAOC. Ademas, la informacion de configuracion especlfica de SAOC
50 puede comprender informacion de configuracion adicional opcional "SAOCExtensionConfig()" que no es de relevancia para la presente solicitud y que no se analizara aqul por esa razon.
[0134] Se ha de apreciar aqul que la informacion de configuracion especlfica de SAOC puede comprender mas o menos que la informacion de configuracion descrita anteriormente. En otras palabras, parte de la informacion de
55 configuracion descrita anteriormente puede omitirse en algunas realizaciones, y tambien se puede incluir informacion de configuracion adicional en algunas realizaciones.
[0135] Sin embargo, se ha de apreciar que la informacion de configuracion especlfica de SAOC puede incluirse, por ejemplo, una vez por trozo de audio en un flujo de bits de SAOC. Sin embargo, la informacion de configuracion
especlfica de SAOC opcionalmente puede ser incluida mas frecuentemente en el flujo de bits.
[0136] No obstante, tlpicamente se proporciona la information de configuration especlfica de SAOC para una pluralidad de tramas de SAOC, porque la informacion de configuracion especlfica de SAOC proporciona un espacio
5 de carga de bits significativo.
[0137] A continuation, se describira la sintaxis de una trama de SAOC haciendo referencia a la Fig. 6, que muestra una representation de sintaxis de tal trama de SAOC. La trama de SAOC comprende valores de diferencia de nivel de objeto OLD codificados, los cuales pueden incluirse en banda y por objeto de audio.
10
[0138] La trama de SAOC tambien comprende valores de energla absoluta NRG codificados, los cuales pueden ser considerados como opcionales, y los cuales pueden ser incluidos en banda.
[0139] La trama de SAOC tambien comprende valores de correlation inter-objeto IOC codificados, los cuales 15 pueden proporcionarse en banda, es decir, por separado para una pluralidad de bandas de frecuencia, y para una
pluralidad de combinaciones de objetos de audio.
[0140] A continuacion, se describira el flujo de bits con respecto a las operaciones que pueden realizarse por un analizador sintactico de flujo de bits que analiza la sintaxis del flujo de bits.
20
[0141] El analizador sintactico de flujo de bits puede, por ejemplo, inicializar variables k, iocldxl, iocldx2 a un valor de cero en una primera etapa preparatoria.
[0142] Posteriormente, el analizador sintactico de flujo de bits puede realizar un analisis sintactico para una 25 pluralidad de valores del primer Indice de objeto de audio i = 0 e i = bsNumObjects (para bucle exterior). El
analizador sintactico de flujo de bits puede, por ejemplo, fijar un valor de Indice de correlacion inter-objeto idxloc[i][i] que describe una relation entre el objeto de audio que tiene Indice de objeto de audio i y en si mismo, a cero, lo cual indica una correlacion completa.
30 [0143] Posteriormente, un analizador sintactico de flujo de bits puede evaluar el flujo de bits para determinar valores j de un segundo Indice de objeto de audio entre i +. 1 y bsNumObjects. Si los objetos de audio que tienen Indices de objeto de audio i y j estan relacionados, lo cual esta indicado por un valor no nulo de la entrada de matriz de relacion de objeto "bsRelatedTo[i][j]", el analizador sintactico de flujo de bits realiza un algoritmo 610, y en otro caso, el analizador sintactico de flujo de bits fija en cinco el Indice de correlacion inter-objeto asociado con los 35 objetos de audio que tienen Indices de objeto de audio i y j (operation "idxIOC[i][j] = 5"), que describe una correlacion nula. Por lo tanto, para pares de objetos de audio para los cuales la matriz de relacion de objeto indica que no hay relacion, el valor de correlacion inter-objeto se fija a cero. Para pares de objetos de audio relacionados, sin embargo, el parametro de serialization de flujo de bits "bsOnelOC", el cual esta incluido en la configuracion especlfica de SAOC, es evaluado para decidir como proceder. Si el parametro de senalizacion de flujo de bits 40 "bsOnelOC" indica que hay valores de parametro de correlacion inter-objeto individuales por par de objeto, una pluralidad de Indices de relacion inter-objeto idxIOCI[i][j] (que pueden ser considerados como valores de parametro de flujo de bits de relacion inter-objeto) se extraen del flujo de bits para bandas de frecuencia "numBands" usando la funcion "EcDataSaoc", en la dicha funcion puede usarse para decodificar los Indices de relacion inter-objeto.
45 [0144] Sin embargo, si el parametro de senalizacion de flujo de bits "bsOnelOC" indica que se usa un valor de parametro de flujo de bits de correlacion inter-objeto comun para una pluralidad de pares de objetos de audio, y el parametro de flujo de bits "bsRelatedTo[i][j]" indica que los objetos de audio que tienen Indices de objeto de audio i y j estan relacionados, se lee un unico conjunto de una pluralidad de Indices de correlacion inter-objeto "idxlOC[i][j]" del flujo de bits usando la funcion "EcDataSaoc" para una pluralidad de bandas de frecuencia numBands, en las que 50 solo se lee un unico Indice de correlacion inter-objeto para cualquier banda de frecuencia dada. Sin embargo, tras la re-ejecucion del algoritmo 610, se copia un Indice de correlacion inter-objeto leldo previamente idxIOC[iocldx1][iocldx2] sin evaluar el flujo de bits. Esto se asegura mediante el uso de la variable k, la cual es inicializada a cero y se aumenta tras la evaluation del primer conjunto de Indices de correlacion inter-objeto idxIOC[i][j].
55
[0145] Para resumir, para cada combination de dos objetos de audio, primero se evalua si los dos objetos de audio de tal combinacion estan senalados como relacionados entre si (por ejemplo, verificando si el valor "bsRelatedTo[i][j]" adopta un valor nulo o no). Si los objetos de audio del par de objetos de audio estan relacionados, se realiza el procesamiento 610 adicional. En otro caso, el valor "idxIOC[i][j]" asociado con este par de objetos de
5
10
15
20
25
30
35
40
45
50
55
audio (sustancialmente no relacionados), se fija a un valor predeterminado, por ejemplo, un valor predeterminado que indica una correlacion inter-objeto nula.
[0146] En el procesamiento 610, se lee un valor de flujo de bits del flujo de bits para cada par de objetos de audio (que se senala para que comprende objetos de audio relacionados) si la senalizacion "bsOnelOC" esta inactiva. En otro caso, esto es, si la senalizacion "bsOnelOC" esta activa, solo se lee un valor de flujo de bits para un par de objetos de audio, y la referencia a dicho par se mantiene ajustando los valores de fndice iocldxl e iocldx2 para apuntar a este valor lefdo. El valor lefdo unico se usa para otros pares de objetos de audio (los cuales estan senalados como relacionados entre si) si la senalizacion "bsOnelOC" esta activa.
[0147] Finalmente, tambien se asegura que un mismo valor de fndice de correlacion inter-objeto esta asociado a ambas combinaciones de dos objetos de audio diferentes dados, sin importar de cual de los dos objetos de audio dados es el primer objeto de audio y cual de los objetos de audio dados es el segundo objeto de audio.
[0148] Ademas, ha de apreciarse que la trama de SAOC tfpicamente comprende los valores de ganancia de mezcla descendente (DMG) codificados sobre una base por objeto de audio.
[0149] Ademas, la trama de SAOC tfpicamente comprende diferencias de nivel de canal de mezcla descendente (DCLD) codificadas, las cuales opcionalmente pueden ser incluidas sobre una base de por objeto de audio.
[0150] La trama de SAOC ademas comprende opcionalmente valores de ganancia de mezcla descendente de post-procesamiento (PDG) codificados, que pueden incluirse de una manera en banda y por canal de mezcla descendente.
[0151] Ademas, la trama de SAOC puede comprender parametros de unidad de control de distorsion, que determinan la aplicacion de medidas de control de distorsion.
[0152] Ademas, la trama de SAOC puede comprender uno o mas bits de relleno "ByteAlign()".
[0153] Ademas, una trama de SAOC puede comprender datos de extension "SAOCExtensionFrame()", los cuales, sin embargo, no son relevantes para la presente solicitud y no seran analizados en detalle aquf por esa razon.
[0154] Haciendo referencia a la Fig. 7 se describira ahora un ejemplo para una cuantificacion ventajosa del parametro de correlacion inter-objeto.
[0155] Como se puede observar, una primera fila 710 de la tabla de la Fig. 7, describe el fndice de cuantificacion idx, que esta en un intervalo entre cero y siete. Este fndice de cuantificacion puede ser asignado a la variable "idxlOC[i]fj]". Una segunda fila 720 de la tabla de la Fig. 7 muestra el valor de correlacion inter-objeto asociado, y esta en el intervalo entre -0,99 y 1. Por consiguiente, los valores de los parametros "idxIOC[i][j]" pueden asignarse sobre valores de correlacion inter-objeto inversamente cuantificados usando la asignacion de la tabla de la Fig. 7.
[0156] Para concluir, una portion de configuration de SAOC "SAOCSpecificConfig()" comprende preferiblemente un parametro de flujo de bits "bsOnelOC" que indica si solo un unico parametro de IOC es transferido comun a todos los objetos que tienen relation entre si, senalado por "bsRelatedTo[i][j] =1". Los valores de correlacion inter-objeto estan incluidos en el flujo de bits de forma codificada "EcDataSaoc (lOC,k,numBands)". Un conjunto "idxIOC[i][j]" se rellena sobre la base de uno o mas valores de correlacion inter-objeto codificados. Las entradas del conjunto "idxIOC[i][j]" se asignan sobre valores inversamente cuantificados usando la tabla de asignacion de la Fig. 7, para obtener valores de correlacion inter-objeto inversamente cuantificados. Los valores de correlacion inter-objeto inversamente cuantificados, que estan designados con IOCi,j, se usan para obtener entradas de una matriz de covarianza. Con este proposito tambien se aplican parametros de diferencia de nivel de objeto inversamente cuantificados, los cuales son designados con OLDi.
[0157] La matriz de covarianza E de tamano N x N con los elementos eij representa una aproximacion de la matriz de covarianza de senal original E=SS" y se obtiene a partir de los parametros OLD e IOC como
imagen8
7. Alternativas de implementation
[0158] Si bien se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos ademas representan una description del correspondiente metodo, donde un bloque o dispositivo corresponde a una etapa de metodo o una caracterlstica de una etapa de metodo. De manera analoga, los aspectos descritos en el
5 contexto de una etapa de metodo ademas representan una descripcion de un bloque o artlculo o caracterlstica correspondiente de un correspondiente aparato. Algunas o la totalidad de las etapas de metodo pueden ejecutarse por medio de (o usando) un aparato de hardware, como, por ejemplo, un microprocesador, un ordenador programable o un circuito electronico. En algunas realizaciones, algunas de una o mas de las etapas de metodo mas importantes pueden ejecutarse por dicho aparato.
10
[0159] La senal de audio codificada puede ser almacenada en un medio de almacenamiento digital, o puede ser transmitida en un medio de transmision tal como un medio de transmision inalambrico o un medio de transmision cableado, tal como Internet.
15 [0160] Dependiendo de ciertos requisitos de implementation, las realizaciones de la invention pueden implementarse en hardware o software. La implementacion puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disquete, un DVD, un Blu-Ray, un cD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene senales de control electronicamente legibles almacenadas en el mismo, que cooperan (o son capaces de cooperar) con un sistema informatico programable de tal forma que se realiza el 20 respectivo metodo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
[0161] En general, las realizaciones de la presente invencion pueden ser implementadas como un producto de programa informatico con un codigo de programa, estando el codigo de programa operativo para realizar uno de los metodos cuando se ejecuta el producto de programa informatico en un ordenador. El codigo de programa puede ser
25 almacenado, por ejemplo, en un portador legible por maquina.
[0162] En otras palabras, una realization del metodo de la invencion, por lo tanto, es un programa informatico que tiene un codigo de programa para la realizacion de uno de los metodos que se describen en el presente documento, cuando se ejecuta el programa informatico en un ordenador.
30
[0163] En algunas realizaciones, puede usarse un dispositivo logico programable (por ejemplo, una matriz de puertas programables de campo) para realizar algunas o la totalidad de las funcionalidades de los metodos que se describen en el presente documento. En algunas realizaciones, una matriz de puertas programables de campo puede cooperar con un microprocesador a fin de llevar a cabo uno de los metodos que se describen en el presente
35 documento. En general, los metodos se realizan, preferiblemente, por cualquier aparato de hardware.
[0164] Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invencion. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles que se describen en el presente documento seran evidentes para los expertos en la tecnica. Por lo tanto, se tiene la intention de limitarse
40 solamente por el alcance de las reivindicaciones de patente inminentes, y no por los detalles especlficos presentados a modo de descripcion y explicacion de las realizaciones del presente documento.
8. Referencias
45 [0165]
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003
[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752 [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric 50 Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007
[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC 55 JTC1/SC29/WG11 (MPEG) FCD 23003-2.

Claims (3)

  1. REIVINDICACIONES
    1. Un decodificador de senal de audio MPEG-SAOC (100; 420) para proporcionar una representacion de
    senal de mezcla ascendente (130; 484a a 484M) sobre la base de una representacion de senal de mezcla 5 descendente (110; 430) y una information parametrica relacionada con objeto (112; 432), y que depende de una information de interpretation (120; 482), comprendiendo el aparato:
    un determinador de parametros de objeto (140; 464, 468, 474) configurado para obtener valores de correlation inter- objeto (142) para una pluralidad de pares de objetos de audio,
    10 en el que el determinador de parametro de objeto esta configurado para evaluar un parametro de senalizacion de flujo de bits para decidir si evaluar valores de parametro de transmision de flujo de bits de correlacion inter-objeto individuales para obtener valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionadas u obtener valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parametro de flujo de bits de correlacion inter-objeto comun dependiente de la 15 frecuencia/tiempo; y
    un procesador de senal (150;480) configurado para obtener la representacion de senal de mezcla ascendente sobre la base de la representacion de senal de mezcla descendente y usando los valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionados y la informacion de interpretacion;
    en el que el decodificador de senal de audio esta configurado para combinar un valor de correlacion inter-objeto 20 IOCi,j asociado con un par de objetos de audio relacionados con un valor de diferencia de nivel de objeto OLDi que describe un nivel de objeto de un primer objeto de audio del par de objetos de audio relacionados y con un valor de diferencia de nivel de objeto OLDj que describe un nivel de objeto de un segundo objeto de audio del par de objetos de audio relacionados, para obtener un valor de covarianza eij asociado con el par de objetos de audio relacionados; en el que el decodificador de audio esta configurado para obtener un elemento ei,j de una matriz de covarianza de 25 acuerdo con
    eL/ = JOLDiOLDrIOCil;
    en el que la informacion parametrica relacionada con un objeto (112;432) comprende el parametro de senalizacion 30 de flujo de bits y los valores de parametro de flujo de bits de correlacion inter-objeto individuales o el valor de parametro de flujo de bits de correlacion inter-objeto comun dependiente del tiempo/frecuencia.
  2. 2. Un metodo para proporcionar una representacion de senal de mezcla ascendente sobre la base de
    una representacion de senal de mezcla descendente y una informacion parametrica relacionada con un objeto y en 35 dependencia de una informacion de interpretacion usando una decodificacion MPEG SAOC, comprendiendo el metodo:
    obtener valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio, en el que un parametro de senalizacion de flujo de bits se evalua para decidir si evaluar valores de parametro de flujo de bits de correlacion 40 inter-objeto individuales, para obtener valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionados, o para obtener valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionados usando un valor de parametro de flujo de bits de correlacion inter-objeto comun dependiente del tiempo/frecuencia; y
    obtener la representacion de senal de mezcla ascendente sobre la base de la representacion de senal de mezcla 45 descendente y usando los valores de correlacion inter-objeto para una pluralidad de pares de objetos de audio relacionados y la informacion de interpretacion;
    en el que un valor de correlacion inter-objeto IOCi,j asociado con un par de objetos de audio relacionados se combina con un valor de diferencia de nivel de objeto OLDi que describe un nivel de objeto de un primer objeto de audio del par de objetos de audio relacionados y con un valor de diferencia de nivel de objeto OLDj que describe un nivel de 50 objeto de un segundo objeto de audio del par de objetos de audio relacionados, para obtener un valor de covarianza ei,j asociado con el par de objetos de audio relacionados; en el que un elemento eij de una matriz covarianza se obtiene de acuerdo con
    eiJ=^OLDiOLDjIOC
    en el que la informacion parametrica relacionada con un objeto (112;432) comprende el parametro de senalizacion de flujo de bits y los valores de parametro de flujo de bits de correlacion inter-objeto individuales o el valor de
    parametro de flujo de bits de correlacion inter-objeto comun dependiente del tiempo/frecuencia.
  3. 3. Un programa informatico adaptado para realizar el metodo de acuerdo con la reivindicacion 2 cuando
    el programa informatico se ejecuta en un ordenador.
    5
ES10757435.2T 2009-09-29 2010-09-28 Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia Active ES2644520T3 (es)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US246681P 2000-11-07
US24668109P 2009-09-29 2009-09-29
US36950510P 2010-07-30 2010-07-30
EP10171406 2010-07-30
US369505P 2010-07-30
EP10171406 2010-07-30
PCT/EP2010/064379 WO2011039195A1 (en) 2009-09-29 2010-09-28 Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value

Publications (1)

Publication Number Publication Date
ES2644520T3 true ES2644520T3 (es) 2017-11-29

Family

ID=43085706

Family Applications (1)

Application Number Title Priority Date Filing Date
ES10757435.2T Active ES2644520T3 (es) 2009-09-29 2010-09-28 Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia

Country Status (17)

Country Link
US (4) US9460724B2 (es)
EP (2) EP2483887B1 (es)
JP (1) JP5576488B2 (es)
KR (1) KR101391110B1 (es)
CN (1) CN102667919B (es)
AR (1) AR078474A1 (es)
AU (1) AU2010303039B9 (es)
BR (1) BR112012007138B1 (es)
CA (1) CA2775828C (es)
ES (1) ES2644520T3 (es)
MX (1) MX2012003785A (es)
MY (1) MY165328A (es)
PL (2) PL2483887T3 (es)
PT (1) PT2483887T (es)
RU (1) RU2576476C2 (es)
TW (1) TWI463485B (es)
WO (1) WO2011039195A1 (es)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5576488B2 (ja) * 2009-09-29 2014-08-20 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号デコーダ、オーディオ信号エンコーダ、アップミックス信号表現の生成方法、ダウンミックス信号表現の生成方法、及びコンピュータプログラム
CN104822036B (zh) 2010-03-23 2018-03-30 杜比实验室特许公司 用于局域化感知音频的技术
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
US9754595B2 (en) * 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
JP5775637B2 (ja) 2011-08-04 2015-09-09 ドルビー・インターナショナル・アーベー パラメトリック・ステレオを使った改善されたfmステレオ電波受信機
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
JP6096789B2 (ja) 2011-11-01 2017-03-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオオブジェクトのエンコーディング及びデコーディング
WO2013120510A1 (en) * 2012-02-14 2013-08-22 Huawei Technologies Co., Ltd. A method and apparatus for performing an adaptive down- and up-mixing of a multi-channel audio signal
BR112015000247B1 (pt) * 2012-07-09 2021-08-03 Koninklijke Philips N.V. Decodificador, método de decodificação, codificador, método de codificação, e sistema de codificação e decodificação.
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9489954B2 (en) * 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
US9373335B2 (en) 2012-08-31 2016-06-21 Dolby Laboratories Licensing Corporation Processing audio objects in principal and supplementary encoded audio signals
WO2014108738A1 (en) * 2013-01-08 2014-07-17 Nokia Corporation Audio signal multi-channel parameter encoder
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
WO2014161993A1 (en) * 2013-04-05 2014-10-09 Dolby International Ab Stereo audio encoder and decoder
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
JP6248186B2 (ja) * 2013-05-24 2017-12-13 ドルビー・インターナショナル・アーベー オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ
CN110085240B (zh) * 2013-05-24 2023-05-23 杜比国际公司 包括音频对象的音频场景的高效编码
EP3270375B1 (en) 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
CN105247611B (zh) 2013-05-24 2019-02-15 杜比国际公司 对音频场景的编码
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、***和装置
EP2838086A1 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830048A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
WO2015059154A1 (en) * 2013-10-21 2015-04-30 Dolby International Ab Audio encoder and decoder
KR101841380B1 (ko) 2014-01-13 2018-03-22 노키아 테크놀로지스 오와이 다중-채널 오디오 신호 분류기
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
CN105989845B (zh) 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
CN107211229B (zh) 2015-04-30 2019-04-05 华为技术有限公司 音频信号处理装置和方法
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
CN105740029B (zh) * 2016-03-03 2019-07-05 腾讯科技(深圳)有限公司 一种内容呈现的方法、用户设备及***
US10779106B2 (en) * 2016-07-20 2020-09-15 Dolby Laboratories Licensing Corporation Audio object clustering based on renderer-aware perceptual difference
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US11004457B2 (en) * 2017-10-18 2021-05-11 Htc Corporation Sound reproducing method, apparatus and non-transitory computer readable storage medium thereof
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation
MX2023003965A (es) * 2020-10-09 2023-05-25 Fraunhofer Ges Forschung Aparato, metodo, o programa de computadora para procesar una escena de audio codificada utilizando una extension de ancho de banda.

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3268905A (en) 1960-06-30 1966-08-23 Atlantic Refining Co Coordinate adjustment of functions
CA2742649C (en) * 1999-04-07 2014-11-04 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
WO2005083679A1 (en) * 2004-02-17 2005-09-09 Koninklijke Philips Electronics N.V. An audio distribution system, an audio encoder, an audio decoder and methods of operation therefore
JP2006003580A (ja) * 2004-06-17 2006-01-05 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置及びオーディオ信号符号化方法
US8843378B2 (en) 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
ATE470930T1 (de) * 2005-03-30 2010-06-15 Koninkl Philips Electronics Nv Skalierbare mehrkanal-audiokodierung
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
JP4640020B2 (ja) * 2005-07-29 2011-03-02 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
US20070036228A1 (en) 2005-08-12 2007-02-15 Via Technologies Inc. Method and apparatus for audio encoding and decoding
EP1989920B1 (en) * 2006-02-21 2010-01-20 Koninklijke Philips Electronics N.V. Audio encoding and decoding
KR20090013178A (ko) 2006-09-29 2009-02-04 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
RU2431940C2 (ru) 2006-10-16 2011-10-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аппаратура и метод многоканального параметрического преобразования
CN101578658B (zh) * 2007-01-10 2012-06-20 皇家飞利浦电子股份有限公司 音频译码器
RU2419168C1 (ru) * 2007-03-09 2011-05-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ обработки аудиосигнала и устройство для его осуществления
US8515759B2 (en) * 2007-04-26 2013-08-20 Dolby International Ab Apparatus and method for synthesizing an output signal
KR101049144B1 (ko) * 2007-06-08 2011-07-18 엘지전자 주식회사 오디오 신호 처리방법 및 장치
MX2010003807A (es) * 2007-10-09 2010-07-28 Koninkl Philips Electronics Nv Metodo y aparato para generar una señal de audio binaural.
EP2076900A1 (en) * 2007-10-17 2009-07-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Audio coding using upmix
KR101413967B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
CN102037507B (zh) * 2008-05-23 2013-02-06 皇家飞利浦电子股份有限公司 参数立体声上混合设备、参数立体声译码器、参数立体声下混合设备、参数立体声编码器
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
ES2426677T3 (es) * 2009-06-24 2013-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Descodificador de señal de audio, procedimiento para descodificar una señal de audio y programa de ordenador que utiliza etapas de procesamiento de objetos de audio en cascada
JP5576488B2 (ja) * 2009-09-29 2014-08-20 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号デコーダ、オーディオ信号エンコーダ、アップミックス信号表現の生成方法、ダウンミックス信号表現の生成方法、及びコンピュータプログラム
EP2522016A4 (en) 2010-01-06 2015-04-22 Lg Electronics Inc DEVICE FOR PROCESSING AN AUDIO SIGNAL AND METHOD THEREFOR
US8625802B2 (en) 2010-06-16 2014-01-07 Porticor Ltd. Methods, devices, and media for secure key management in a non-secured, distributed, virtualized environment with applications to cloud-computing security and management

Also Published As

Publication number Publication date
CA2775828A1 (en) 2011-04-07
CN102667919A (zh) 2012-09-12
BR112012007138A2 (pt) 2017-10-31
EP2483887B1 (en) 2017-07-26
US20180033441A1 (en) 2018-02-01
RU2012116743A (ru) 2013-11-10
KR20120063535A (ko) 2012-06-15
US20150356976A1 (en) 2015-12-10
WO2011039195A1 (en) 2011-04-07
PT2483887T (pt) 2017-10-23
EP3093843B1 (en) 2020-12-02
US9805728B2 (en) 2017-10-31
JP2013506164A (ja) 2013-02-21
PL2483887T3 (pl) 2018-02-28
EP2483887A1 (en) 2012-08-08
BR112012007138B1 (pt) 2021-11-30
US20150356977A1 (en) 2015-12-10
TW201120874A (en) 2011-06-16
MX2012003785A (es) 2012-05-22
AU2010303039B9 (en) 2014-10-23
CA2775828C (en) 2016-03-29
US10504527B2 (en) 2019-12-10
KR101391110B1 (ko) 2014-04-30
EP3093843A1 (en) 2016-11-16
AR078474A1 (es) 2011-11-09
TWI463485B (zh) 2014-12-01
PL3093843T3 (pl) 2021-06-14
US9460724B2 (en) 2016-10-04
US9466303B2 (en) 2016-10-11
AU2010303039A1 (en) 2012-05-24
AU2010303039B2 (en) 2014-05-29
US20120269353A1 (en) 2012-10-25
JP5576488B2 (ja) 2014-08-20
CN102667919B (zh) 2014-09-10
RU2576476C2 (ru) 2016-03-10
MY165328A (en) 2018-03-21

Similar Documents

Publication Publication Date Title
ES2644520T3 (es) Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
JP6687683B2 (ja) マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
US9578435B2 (en) Apparatus and method for enhanced spatial audio object coding
AU2014295207B2 (en) Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
ES2529219T3 (es) Aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples, métodos, programa de computación y un flujo de bits que utiliza una señalización de control de distorsión
ES2649739T3 (es) Procedimiento y descodificador para un concepto paramétrico de codificación de objetos de audio espacial generalizado para casos de mezcla descendente/mezcla ascendente de multicanal
BR112016001137B1 (pt) Decodificador de áudio, codificador de áudio, método para fornecer pelo menos quatro sinais de canal de áudio na base de uma representação codificada, e método para fornecer uma representação codificada na base de pelo menos quatro sinais de canal de áudio que usa uma extensão de largura de banda
CN107077861B (zh) 音频编码器和解码器
ES2654792T3 (es) Procedimiento y decodificador para codificación de objeto de audio espacial de multi-instancias que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal
ES2856423T3 (es) Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia