ES2873977T3

ES2873977T3 - Codificador, decodificador y métodos para la transformada por ampliación dependiente de señales en la codificación espacial de objetos de audio

Info

Publication number: ES2873977T3
Application number: ES13776987T
Authority: ES
Inventors: Sascha Disch; Jouni Paulus; Bernd Edler; Oliver Hellmuth; Jürgen Herre; Thorsten Kastner
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2012-10-05
Filing date: 2013-10-02
Publication date: 2021-11-04
Anticipated expiration: 2033-10-02
Also published as: RU2015116645A; CA2886999A1; RU2639658C2; BR112015007649B1; KR20150056875A; WO2014053547A1; BR112015007649A2; US10152978B2; BR112015007650A2; AR092928A1; KR101685860B1; KR20150065852A; AU2013326526B2; CN105190747B; US20150279377A1; EP2904611A1; HK1213361A1; TWI539444B; CA2887028C; TW201423729A

Abstract

Decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente, en el que la señal de mezcla descendente codifica una o más señales de objeto de audio, en el que el decodificador comprende: una unidad de control (181) para establecer una indicación de activación en un estado de activación dependiendo de una propiedad de señal de al menos una de la una o más señales de objeto de audio, un primer módulo de análisis (182) para transformar la señal de mezcla descendente para obtener una primera mezcla descendente transformada que comprende una pluralidad de primeros canales de subbandas, un segundo módulo de análisis (183) para generar, cuando la indicación de activación se establece en el estado de activación, una segunda mezcla descendente transformada mediante la transformación de al menos uno de los primeros canales de subbanda para obtener una pluralidad de segundos canales de subbanda, en el que la segunda mezcla descendente transformada comprende los primeros canales de subbanda que no se han transformado por el segundo módulo de análisis y los segundos canales de subbanda, y una unidad de desmezclado (184), en el que la unidad de desmezclado (184) está configurada para desmezclar la segunda mezcla descendente transformada, cuando la indicación de activación se establece en el estado de activación, basándose en información lateral paramétrica sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, y para desmezclar la primera mezcla descendente transformada, cuando la indicación de activación no se establece en el estado de activación, basándose en la información lateral paramétrica sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, en el que la unidad de control (181) está configurada para establecer la indicación de activación en el estado de activación dependiendo de una presencia de un transitorio en al menos una de la una o más señales de objeto de audio, en el que el transitorio indica un cambio de señal de la al menos una de la una o más señales de objeto de audio.

Description

DESCRIPCIÓN

Codificador, decodificador y métodos para la transformada por ampliación dependiente de señales en la codificación espacial de objetos de audio

La presente invención se refiere a codificación y a decodificación espacial de objetos de audio.

En los sistemas de audio digital modernos, es una tendencia importante permitir modificaciones relacionadas con objetos de audio del contenido transmitido en el lado del receptor. Estas modificaciones incluyen modificaciones de ganancia de partes seleccionadas de la señal de audio y/o reposicionamiento espacial de los objetos de audio dedicados en el caso de la reproducción multicanal mediante altavoces distribuidos espacialmente. Esto puede lograrse mediante la entrega individual de diferentes partes del contenido de audio a los diferentes altavoces.

En otras palabras, en la técnica del procesamiento de audio, la transmisión de audio y el almacenamiento de audio, existe un creciente deseo de permitir la interacción del usuario en la reproducción de contenido de audio orientado a los objetos y también una demanda para utilizar las posibilidades ampliadas de la reproducción multicanal para renderizar individualmente los contenidos de audio o partes de los mismos con el fin de mejorar la impresión de la audición. De esta manera, el uso del contenido de audio multicanal trae consigo mejoras significativas para el usuario. Por ejemplo, puede obtenerse una impresión de audición tridimensional, lo que trae consigo una mejora de la satisfacción del usuario en aplicaciones de entretenimiento. Sin embargo, el contenido de audio multicanal también es útil en entornos profesionales, por ejemplo, en aplicaciones de conferencias telefónicas, ya que puede mejorarse la comprensión del hablante mediante el uso de una reproducción de audio multicanal. Otra aplicación posible es ofrecer a un oyente de una pieza musical el ajuste individual del nivel de reproducción y/o la posición espacial de diferentes partes (también denominados "objetos de audio") o pistas, tales como una parte vocal o diferentes instrumentos. El usuario puede realizar un ajuste de este tipo por razones de gusto personal, para facilitar la transcripción de una o más parte(s) de la pieza musical, con fines educativos, karaoke, ensayo, etc.

La transmisión discreta sencilla de todo el contenido de audio digital multicanal o multiobjeto, por ejemplo, en forma de datos de modulación por impulsos codificados (PCM) o incluso de formatos de audio comprimidos, requiere velocidades de bits muy elevadas. Sin embargo, también es deseable transmitir y almacenar datos de audio de una manera eficiente en cuanto a la velocidad de bits. Por ello, existe la predisposición de aceptar una relación razonable entre la calidad de audio y los requisitos de velocidad de bits con el fin de evitar una carga excesiva sobre los recursos causada por aplicaciones multicanal/multiobjeto.

Recientemente, en el campo de la codificación de audio, se han introducido técnicas paramétricas para la transmisión/el almacenamiento eficiente desde el punto de vista de la velocidad de bits de señales de audio multicanal/multiobjeto mediante, por ejemplo, el Grupo de Expertos de Imágenes en Movimiento (MPEG) y otros. Un ejemplo es el MPEG Surround (MPS) como un enfoque orientado a los canales [MPS, BCC] o la Codificación de Objetos de Audio Espacial (SAoC) de MPEG como un enfoque orientado a los objetos [JSC, SAOC, SAOC1, SAOC2]. Otro enfoque orientado a los objetos se denomina "separación de fuente informada" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Estas técnicas apuntan a reconstruir una escena de audio de salida deseada o un objeto de fuente de audio deseado basándose en una mezcla descendente de canales/objetos e información lateral adicional que describe la escena de audio transmitida/almacenada y/o los objetos de fuente de audio en la escena de audio.

La estimación y la aplicación de información lateral relacionada con los canales/objetos en tales sistemas se realiza de manera selectiva en tiempo-frecuencia. Por lo tanto, tales sistemas emplean trasformadas de tiempo-frecuencia tales como la T ransformada Discreta de Fourier (DFT), la T ransformada de Fourier de Tiempo Corto (STFT) o bancos de filtros como bancos de Filtro Espejo en Cuadratura (QMF), etc. El principio básico de tales sistemas se representa en la figura 3, usando el ejemplo de MPEG SAOC.

En el caso de STFT, la dimensión temporal está representada por el número de bloques de tiempo y la dimensión espectral se captura por el número de coeficientes espectrales ("bin"). En el caso de QMF, la dimensión temporal está representada por el número de ranuras de tiempo y la dimensión espectral se captura por el número de subbandas. Si la resolución espectral del QMF se mejora mediante la posterior aplicación de una segunda fase de filtro, todo el banco de filtros se denomina QMF híbrido y las subbandas de resolución fina se denominan subbandas híbridas.

Tal como ya se ha mencionado anteriormente, en SAOC se lleva a cabo el procesamiento general de una manera selectiva en tiempo-frecuencia y puede describirse de la siguiente manera dentro de cada banda de frecuencia, tal como se representa en la figura 3:

- N señales de objeto de audio de entrada si ... s ⁿ se someten a mezcla descendente en P canales x i ... xp como parte del procesamiento de codificador usando una matriz de mezcla descendente que consiste en los elementos di,i ... ú ⁿ,^p . Además, el codificador extrae información lateral que describe las características de los objetos de audio de entrada (módulo de estimador de información lateral (SIE)). Para el MPEG SAOC, las relaciones de las potencias de objeto entre sí son la forma más básica de una información lateral de este tipo.

- Se transmiten/almacenan señal(es) de mezcla descendente e información lateral. A tal efecto, la(s) señal(es) de audio de mezcla descendente puede(n) comprimirse, por ejemplo, usando codificadores de audio perceptuales muy conocidos tales como MPEG-1/2 Capa II o III (también conocido como mp3), Codificación Avanzada de Audio (AAC) de MPEG-2/4, etc.

- En el extremo de recepción, el decodificador intenta conceptualmente restaurar las señales de objeto originales ("separación de objetos") a partir de las señales de mezcla descendente (decodificadas) usando la información lateral transmitida. Estas señales de objeto aproximadas si ... sn se mezclan entonces en una escena objetivo representada por M canales de salida de audio y i ... yu usando una matriz de renderización descrita por los coeficientes ri,i ... ín,m en la figura 3. La escena objetivo deseada puede ser, en el caso extremo, la renderización de solamente una señal de fuente de la mezcla (escenario de separación de fuente), pero también cualquier otra escena acústica arbitraria que consiste en los objetos transmitidos. Por ejemplo, la salida puede ser un canal simple, un estéreo de 2 canales o una escena objetivo multicanal 5.1.

Los sistemas basados en tiempo-frecuencia pueden utilizar una transformada de tiempo-frecuencia (t/f) con resolución estática de tiempo y frecuencia. La elección de una determinada rejilla de resolución de t/f fija normalmente implica una relación entre resolución de tiempo y de frecuencia.

El efecto de una resolución de t/f fija puede demostrarse con el ejemplo de señales de objeto normales en una mezcla de señales de audio. Por ejemplo, los espectros de sonidos tonales presentan una estructura armónicamente relacionada con una frecuencia fundamental y varios matices. La energía de tales señales se concentra en determinadas regiones de frecuencia. Para tales señales, una resolución de alta frecuencia de la representación de t/f utilizada es beneficiosa para la separación de las regiones espectrales tonales de banda estrecha a partir de una mezcla de señales. En cambio, las señales transitorias, tales como los sonidos de percusión, frecuentemente tienen una estructura temporal distinta: la energía sustancial está presente solamente durante cortos períodos de tiempo y se extiende sobre un amplio intervalo de frecuencias. Para estas señales, una elevada resolución temporal de la representación de t/f utilizada es ventajosa para separar la porción de señal transitoria de la mezcla de señales.

Los esquemas de codificación de objetos de audio actuales ofrecen solamente una limitada variabilidad en la selectividad de tiempo-frecuencia del procesamiento por SAOC. Por ejemplo, el MPEG SAOC [SAOC] [SAOC1] [SAOC2] está limitado a la resolución de tiempo-frecuencia que puede obtenerse mediante el uso del denominado Banco de Filtros Espejo en Cuadratura Híbrido (QMF Híbrido) y su posterior agrupación en bandas paramétricas. Por tanto, la restauración de objetos en el estándar SAOC (MPEG SAOC, tal como se estandariza en [SAOC]) a menudo sufre la resolución de frecuencia gruesa del QMF Híbrido que conduce a diafonía modulada sonora a partir de los otros objetos de audio (por ejemplo, artefactos de diafonía en la voz o artefactos de rugosidad auditiva en la música). Se da a conocer un enfoque para superar dicho problema en la ponencia de Kyungryeol K. et al., "Variable Subband Analysis for High Quality Spatial Audio Object Coding", International Conference on Advanced Communication Technology, 17.02.2008.

Los esquemas de codificación de objetos de audio, tales como la Codificación de Cue Binaural [BCC] y la Codificación Paramétrica Conjunta de Fuentes de Audio [JSC] también se limitan al uso de un banco de filtros de resolución fija. La elección real de una transformada o banco de filtros de resolución fija siempre implica una relación predefinida en términos de carácter óptimo entre las propiedades temporales y espectrales del esquema de codificación.

En el campo de la separación de fuente informada (ISS), se ha sugerido adaptar dinámicamente la longitud de la transformada de frecuencia de tiempo a las propiedades de la señal [ISS7] tal como es muy conocido a partir de los esquemas de codificación de audio perceptuales, por ejemplo, la Codificación de Audio Avanzada (AAC) [AAC].

El objeto de la presente invención es proporcionar conceptos mejorados para la codificación de objetos de audio. El objeto de la presente invención se resuelve mediante un decodificador según la reivindicación 1, mediante un codificador según la reivindicación 7, mediante un método para la decodificación según la reivindicación 13, mediante un método para la codificación según la reivindicación 14 y mediante un programa informático según la reivindicación 15.

A diferencia del SAOC del estado de la técnica, se proporcionan realizaciones para adaptar dinámicamente la resolución de tiempo-frecuencia a la señal de una manera compatible inversamente, de manera que

- las corrientes de bits de parámetro de SAOC originadas desde un codificador de SAOC estándar (MPEG SAOC, tal como se estandariza en [SAOC]) todavía pueden decodificarse por un decodificador mejorado con una calidad perceptual comparable con la obtenida mediante un decodificador estándar,

- las corrientes de bits de parámetro de SAOC mejorada pueden decodificarse con una calidad óptima con el decodificador mejorado, y

- las corrientes de bits de parámetro de SAOC estándar y mejoradas pueden mezclarse, por ejemplo, en un escenario de unidad de control multipunto (MCU), en una corriente de bits común que puede decodificarse con un decodificador estándar o con uno mejorado.

Para las propiedades mencionadas anteriormente, es útil proporcionar una representación de transformada/banco de filtros común que pueda adaptarse dinámicamente en resolución de tiempo-frecuencia para o bien soportar la decodificación de los datos novedosos de SAOC mejorada y, al mismo tiempo, el mapeo compatible inversamente de los datos de SAOC estándar tradicionales. La fusión de datos de SAOC mejorada con datos de SAOC estándar es posible mediante una representación común de este tipo.

Puede obtenerse una calidad perceptual de SAOC mejorada mediante la adaptación dinámica de la resolución de tiempo-frecuencia del banco de filtros o transformada que se emplea para la estimación o que se utiliza para sintetizar las señales de los objetos de audio a las propiedades específicas del objeto de audio de entrada. Por ejemplo, si el objeto de audio es casi estacionario durante un determinado intervalo de tiempo, la estimación y la síntesis de los parámetros se realizan de manera beneficiosa en una resolución de tiempo gruesa y una resolución de frecuencia fina. Si el objeto de audio contiene transitorios o no estacionarios durante un determinado intervalo de tiempo, la estimación y la síntesis de los parámetros se realizan de manera ventajosa usando una resolución de tiempo fina y una resolución de frecuencia gruesa. De este modo, la adaptación dinámica del banco de filtros o de la transformada permite

- una selectividad de alta frecuencia en la separación espectral de las señales casi estacionarias con el fin de evitar la diafonía entre objetos, y

- una elevada precisión temporal para apariciones de objetos o acontecimientos de transitorios con el fin de minimizar ecos previos y posteriores.

Al mismo tiempo, puede obtenerse una calidad de SAOC tradicional mediante el mapeo de datos de SAOC estándar en la rejilla de tiempo-frecuencia proporcionada por la transformada adaptativa de señales compatible inversamente según la invención que depende de información lateral que describe las características de la señal de objeto.

Tener la capacidad de decodificar tanto datos de SAOC estándar como mejorados utilizando una transformada común permite la compatibilidad directa inversa para aplicaciones que abarcan la mezcla de datos novedosos de SAOC mejorada y estándar.

El siguiente decodificador no es según la invención y está presente con fines de ilustración únicamente. Se proporciona el decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente que comprende una pluralidad de muestras de mezcla descendente en el dominio del tiempo. La señal de mezcla descendente codifica dos o más señales de objeto de audio.

El decodificador comprende un generador de secuencias de ventanas para determinar una pluralidad de ventanas de análisis, en el que cada una de las ventanas de análisis comprende una pluralidad de muestras de mezcla descendente en el dominio del tiempo de la señal de mezcla descendente. Cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica el número de las muestras de mezcla descendente en el dominio del tiempo de dicha ventana de análisis. El generador de secuencias de ventanas está configurado para determinar la pluralidad de ventanas de análisis de modo que la longitud de la ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio.

Además, el decodificador comprende un módulo de análisis de t/f para transformar la pluralidad de muestras de mezcla descendente en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis desde un dominio del tiempo hasta un dominio de tiempo-frecuencia dependiendo de la longitud de la ventana de dicha ventana de análisis, para obtener una mezcla descendente transformada.

Por otra parte, el decodificador comprende una unidad de desmezclado para desmezclar la mezcla descendente transformada basándose en información lateral paramétrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

El generador de secuencias de ventanas puede estar configurado para determinar la pluralidad de ventanas de análisis, de modo que una primera ventana de análisis de la pluralidad de ventanas de análisis y una segunda ventana de análisis de la pluralidad de ventanas de análisis comprendan un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio que se codifican por la señal de mezcla descendente, en el que un centro Ck de la primera ventana de análisis está definido por una ubicación t del transitorio según Ck = t- lb, y un centro Ck+1 de la primera ventana de análisis está definido por la ubicación t del transitorio según Ck+1 = t+ la, en el que la y Ib son números.

El generador de secuencias de ventanas puede estar configurado para determinar la pluralidad de ventanas de análisis, de modo que una primera ventana de análisis de la pluralidad de ventanas de análisis comprenda un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio que se codifican por la señal de mezcla descendente, en el que un centro Ck de la primera ventana de análisis está definido por una ubicación t del transitorio según Ck = t, en el que un centro Ck-i de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio según Ck-i = t-lb, y en el que un centro Ck+i de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio según Ck+i = t+la , en el que la y Ib son números.

El generador de secuencias de ventanas puede estar configurado para determinar la pluralidad de ventanas de análisis, de modo que cada una de la pluralidad de ventanas de análisis comprende o bien un primer número de muestras de señales en el dominio del tiempo o bien un segundo número de muestras de señales en el dominio del tiempo, en el que el segundo número de muestras de señales en el dominio del tiempo es mayor que el primer número de muestras de señales en el dominio del tiempo, y en el que cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende el primer número de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio que se codifican por la señal de mezcla descendente.

El módulo de análisis de t/f puede estar configurado para transformar las muestras de mezcla descendente en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo hasta un dominio de tiempofrecuencia empleando un banco de filtros de QMF y un banco de filtros de Nyquist, en el que la unidad de análisis de t/f (135) está configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis.

El siguiente codificador no es según la invención y está presente con fines de ilustración únicamente. El codificador proporcionado es para codificar dos o más señales de objeto de audio de entrada. Cada una de las dos o más señales de objeto de audio de entrada comprende una pluralidad de muestras de señales en el dominio del tiempo. El codificador comprende una unidad de secuencias de ventanas para determinar una pluralidad de ventanas de análisis. Cada una de las ventanas de análisis comprende una pluralidad de las muestras de señales en el dominio del tiempo de una de las señales de objeto de audio de entrada, en la que cada una de las ventanas de análisis tiene una longitud de ventana que indica el número de muestras de señales en el dominio del tiempo de dicha ventana de análisis. La unidad de secuencias de ventanas está configurada para determinar la pluralidad de ventanas de análisis de modo que la longitud de ventana de cada una de las ventanas de análisis dependa de una propiedad de señal de al menos una de las dos o más señales de objeto de audio de entrada.

Además, el codificador comprende una unidad de análisis de t/f para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo hasta un dominio de tiempo-frecuencia para obtener muestras de señales transformadas. La unidad de análisis de t/f puede estar configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis.

Por otra parte, el codificador comprende una unidad de estimación de PSI para determinar información lateral paramétrica dependiendo de las muestras de señales transformadas.

El codificador puede comprender, además, una unidad de detección de transitorios que está configurada para determinar una pluralidad de diferencias de nivel de objeto de las dos o más señales de audio de objeto de entrada, y que está configurada para determinar si una diferencia entre una primera de las diferencias de nivel de objeto y una segunda de las diferencias de nivel de objeto es mayor que un valor umbral, para determinar para cada una de las ventanas de análisis si dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio de entrada.

La unidad de detección de transitorios puede estar configurada para emplear una función de detección d(n) para determinar si la diferencia entre la primera de las diferencias de nivel de objeto y la segunda de las diferencias de nivel de objeto es mayor que el valor umbral, en la que la función de detección d(n) se define como:

d (n) = £ |log (OLDij (b ,n - l) ) - log {OLDíj (b, w))|

‘j

en la que n indica un índice, en la que / indica un primer objeto, en la que j indica un segundo objeto, en la que b indica una banda paramétrica. OLD puede, por ejemplo, indicar una diferencia de nivel de objeto.

La unidad de secuencias de ventanas puede estar configurada para determinar la pluralidad de ventanas de análisis, de modo que una primera ventana de análisis de la pluralidad de ventanas de análisis y una segunda ventana de análisis de la pluralidad de ventanas de análisis comprendan un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio de entrada, en el que un centro Ck de la primera ventana de análisis está definido por una ubicación t del transitorio según Ck = t - lb, y un centro Ck+1 de la primera ventana de análisis está definido por la ubicación t del transitorio según Ck+1 = t la, en el que la y lb son números.

La unidad de secuencias de ventanas puede estar configurada para determinar la pluralidad de ventanas de análisis, de modo que una primera ventana de análisis de la pluralidad de ventanas de análisis comprende un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio de entrada, en el que un centro Ck de la primera ventana de análisis está definido por una ubicación t del transitorio según Ck = t, en el que un centro Ck-1 de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio según Ck-1 = t- lb, y en el que un centro Ck+1 de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio según Ck+1 = t+ la, en el que la y lb son números.

La unidad de secuencias de ventanas puede estar configurada para determinar la pluralidad de ventanas de análisis, de modo que cada una de la pluralidad de ventanas de análisis comprende o bien un primer número de muestras de señales en el dominio del tiempo o bien un segundo número de muestras de señales en el dominio del tiempo, en la que el segundo número de muestras de señales en el dominio del tiempo es mayor que el primer número de muestras de señales en el dominio del tiempo, y en la que cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende el primer número de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio de entrada.

La unidad de análisis de t/f puede estar configurada para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo hasta un dominio de tiempo-frecuencia empleando un banco de filtros de QMF y un banco de filtros de Nyquist, en la que la unidad de análisis de t/f puede estar configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis.

Además, el siguiente decodificador tampoco es según la invención y está presente con fines de ilustración únicamente. El decodificador proporcionado es para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente que comprende una pluralidad de muestras de mezcla descendente en el dominio del tiempo. La señal de mezcla descendente codifica dos o más señales de objeto de audio. El decodificador comprende un primer submódulo de análisis para transformar la pluralidad de muestras de mezcla descendente en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas. Además, el decodificador comprende un generador de secuencias de ventanas para determinar una pluralidad de ventanas de análisis, en el que cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de la pluralidad de subbandas, en el que cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica el número de muestras de subbandas de dicha ventana de análisis, en el que el generador de secuencias de ventanas está configurado para determinar la pluralidad de ventanas de análisis de modo que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio. Por otra parte, el decodificador comprende un segundo módulo de análisis para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis para obtener una mezcla descendente transformada. Por otra parte, el decodificador comprende una unidad de desmezclado para desmezclar la mezcla descendente transformada basándose en información lateral paramétrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

El siguiente codificador tampoco es según la invención y está presente con fines de ilustración únicamente. El codificador proporcionado es para codificar dos o más señales de objeto de audio de entrada. Cada una de las dos o más señales de objeto de audio de entrada comprende una pluralidad de muestras de señales en el dominio del tiempo. El codificador comprende un primer submódulo de análisis para transformar la pluralidad de muestras de señales en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas. Además, el codificador comprende una unidad de secuencias de ventanas para determinar una pluralidad de ventanas de análisis, en el que cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de la pluralidad de subbandas, en el que cada una de las ventanas de análisis tiene una longitud de ventana que indica el número de muestras de subbandas de dicha ventana de análisis, en el que la unidad de secuencias de ventanas está configurada para determinar la pluralidad de ventanas de análisis de modo que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio de entrada. Por otra parte, el codificador comprende un segundo módulo de análisis para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis para obtener muestras de señales transformadas. Además, el codificador comprende una unidad de estimación de PSI para determinar información lateral paramétrica dependiendo de las muestras de señales transformadas.

Sin embargo, el siguiente decodificador proporcionado es según una realización de la presente invención. El decodificador es para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente. La señal de mezcla descendente codifica una o más señales de objeto de audio. El decodificador comprende una unidad de control para establecer una indicación de activación en un estado de activación dependiendo de una propiedad de señal de al menos una de la una o más señales de objeto de audio. Además, el decodificador comprende un primer módulo de análisis para transformar la señal de mezcla descendente para obtener una primera mezcla descendente transformada que comprende una pluralidad de primeros canales de subbandas. Por otra parte, el decodificador comprende un segundo módulo de análisis para generar, cuando la indicación de activación se establece en el estado de activación, una segunda mezcla descendente transformada mediante la transformación de al menos uno de los primeros canales de subbandas para obtener una pluralidad de segundos canales de subbandas, en el que la segunda mezcla descendente transformada comprende los primeros canales de subbandas que no se han transformado por el segundo módulo de análisis y los segundos canales de subbandas. Además, el decodificador comprende una unidad de desmezclado, en el que la unidad de desmezclado está configurada para desmezclar la segunda mezcla descendente transformada, cuando la indicación de activación se establece en el estado de activación, basándose en información lateral paramétrica sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, y para desmezclar la primera mezcla descendente transformada, cuando la indicación de activación no se establece en el estado de activación, basándose en la información lateral paramétrica sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, en el que la unidad de control está configurada para establecer la indicación de activación en el estado de activación dependiendo de una presencia de un transitorio en al menos una de la una o más señales de objeto de audio, en el que el transitorio indica un cambio de señal de la al menos una de la una o más señales de objeto de audio.

Según otra realización, se proporciona un codificador para codificar una señal de objeto de audio de entrada. El codificador comprende una unidad de control para establecer una indicación de activación en un estado de activación dependiendo de una propiedad de señal de la señal de objeto de audio de entrada. Además, el codificador comprende un primer módulo de análisis para transformar la señal de objeto de audio de entrada para obtener una primera señal de objeto de audio transformada, en el que la primera señal de objeto de audio transformada comprende una pluralidad de primeros canales de subbandas. Por otra parte, el codificador comprende un segundo módulo de análisis para generar, cuando la indicación de activación se establece en el estado de activación, una segunda señal de objeto de audio transformada mediante la transformación de al menos uno de la pluralidad de primeros canales de subbandas para obtener una pluralidad de segundos canales de subbandas, en el que la segunda señal de objeto de audio transformada comprende los primeros canales de subbandas que no se han transformado por el segundo módulo de análisis y los segundos canales de subbandas. Además, el codificador comprende una unidad de estimación de PSI, en el que la unidad de estimación de PSI está configurada para determinar información lateral paramétrica basándose en la segunda señal de objeto de audio transformada, cuando la indicación de activación se establece en el estado de activación, y para determinar la información lateral paramétrica basándose en la primera señal de objeto de audio transformada, cuando la indicación de activación no se establece en el estado de activación, en el que la unidad de control está configurada para establecer la indicación de activación en el estado de activación dependiendo de una presencia de un transitorio en la señal de objeto de audio de entrada, en el que el transitorio indica un cambio de señal de la señal de objeto de audio de entrada.

Los siguientes métodos para decodificar y codificar no son según la invención y están presentes con fines de ilustración únicamente. Uno de estos métodos a modo de ejemplo es para decodificar mediante la generación de una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente que comprende una pluralidad de muestras de mezcla descendente en el dominio del tiempo. La señal de mezcla descendente codifica dos o más señales de objeto de audio. El método comprende:

- determinar una pluralidad de ventanas de análisis, en el que cada una de las ventanas de análisis comprende una pluralidad de muestras de mezcla descendente en el dominio del tiempo de la señal de mezcla descendente, en el que cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica el número de las muestras de mezcla descendente en el dominio del tiempo de dicha ventana de análisis, en el que la determinación de la pluralidad de ventanas de análisis se lleva a cabo de modo que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio.

- transformar la pluralidad de muestras de mezcla descendente en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis desde un dominio del tiempo hasta un dominio de tiempofrecuencia dependiendo de la longitud de ventana de dicha ventana de análisis, para obtener una mezcla descendente transformada, y

- desmezclar la mezcla descendente transformada basándose en información lateral paramétrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio,

Otro método a modo de ejemplo es para codificar dos o más señales de objeto de audio de entrada. Cada una de las dos o más señales de objeto de audio de entrada comprende una pluralidad de muestras de señales en el dominio del tiempo. El método comprende:

- determinar una pluralidad de ventanas de análisis, en el que cada una de las ventanas de análisis comprende una pluralidad de las muestras de señales en el dominio del tiempo de una de las señales de objeto de audio de entrada, en el que cada una de las ventanas de análisis tiene una longitud de ventana que indica el número de muestras de señales en el dominio del tiempo de dicha ventana de análisis, en el que la determinación de la pluralidad de ventanas de análisis se lleva a cabo de modo que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio de entrada.

- transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo hasta un dominio de tiempo-frecuencia para obtener muestras de señales transformadas, en el que la transformación de la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis depende de la longitud de ventana de dicha ventana de análisis. Y:

- determinar información lateral paramétrica dependiendo de las muestras de señales transformadas.

Se proporciona otro método ilustrativo para decodificar mediante la generación de una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente que comprende una pluralidad de muestras de mezcla descendente en el dominio del tiempo, en el que la señal de mezcla descendente codifica dos o más señales de objeto de audio. El método comprende:

- transformar la pluralidad de muestras de mezcla descendente en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas.

- determinar una pluralidad de ventanas de análisis, en el que cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de la pluralidad de subbandas, en el que cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica el número de muestras de subbandas de dicha ventana de análisis, en el que la determinación de la pluralidad de ventanas de análisis se lleva a cabo de modo que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio.

- transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis para obtener una mezcla descendente transformada. Y:

- desmezclar la mezcla descendente transformada basándose en información lateral paramétrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

Se proporciona un método ilustrativo adicional para codificar dos o más señales de objeto de audio de entrada, en el que cada una de las dos o más señales de objeto de audio de entrada comprende una pluralidad de muestras de señales en el dominio del tiempo. El método comprende:

- transformar la pluralidad de muestras de señales en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas.

- determinar una pluralidad de ventanas de análisis, en el que cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de la pluralidad de subbandas, en el que cada una de las ventanas de análisis tiene una longitud de ventana que indica el número de muestras de subbandas de dicha ventana de análisis, en el que la determinación de la pluralidad de ventanas de análisis se lleva a cabo de modo que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de entrada de objeto de audio.

- transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis para obtener muestras de señales transformadas. Y

A continuación, se proporciona un método para decodificar mediante la generación de una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente, en el que la señal de mezcla descendente codifica dos o más señales de objeto de audio. El método comprende:

- establecer una indicación de activación en un estado de activación dependiendo de una propiedad de señal de al menos una de las dos o más señales de objeto de audio.

- transformar la señal de mezcla descendente para obtener una primera mezcla descendente transformada que comprende una pluralidad de primeros canales de subbandas.

- generar, cuando la indicación de activación se establece en el estado de activación, una segunda mezcla descendente transformada mediante la transformación de al menos uno de los primeros canales de subbandas para obtener una pluralidad de segundos canales de subbandas, en el que la segunda mezcla descendente transformada comprende los primeros canales de subbandas que no se han transformado por el segundo módulo de análisis y los segundos canales de subbandas. Y:

- desmezclar la segunda mezcla descendente transformada, cuando la indicación de activación se establece en el estado de activación, basándose en información lateral paramétrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio, y desmezclar la primera mezcla descendente transformada, cuando la indicación de activación no se establece en el estado de activación, basándose en la información lateral paramétrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio,

en el que la indicación de activación se establece en el estado de activación dependiendo de una presencia de un transitorio en al menos una de las dos o más señales de objeto de audio, en el que el transitorio indica un cambio de señal de la al menos una de las dos o más señales de objeto de audio.

Por otra parte, se proporciona un método para codificar dos o más señales de objeto de audio de entrada. El método comprende:

- establecer una indicación de activación en un estado de activación dependiendo de una propiedad de señal de al menos una de las dos o más señales de objeto de audio de entrada.

- transformar cada una de las señales de objeto de audio de entrada para obtener una primera señal de objeto de audio transformada de dicha señal de objeto de audio de entrada, en el que dicha primera señal de objeto de audio transformada comprende una pluralidad de primeros canales de subbanda.

- generar para cada una de las señales de objeto de audio de entrada, cuando la indicación de activación se establece en el estado de activación, una segunda señal de objeto de audio transformada mediante la transformación de al menos uno de los primeros canales de subbandas de la primera señal de objeto de audio transformada de dicha señal de objeto de audio de entrada para obtener una pluralidad de segundos canales de subbandas, en el que dicha segunda mezcla descendente transformada comprende dichos primeros canales de subbandas que no se han transformado por el segundo módulo de análisis y dichos segundos canales de subbandas. Y:

- determinar información lateral paramétrica basándose en la segunda señal de objeto de audio transformada de cada una de las señales de objeto de audio de entrada, cuando la indicación de activación se establece en el estado de activación, y determinar la información lateral paramétrica basándose en la primera señal de objeto de audio transformada de cada una de las señales de objeto de audio de entrada, cuando la indicación de activación no se establece en el estado de activación

Las realizaciones de la invención son tal como se definen por las reivindicaciones adjuntas. Además, se proporciona un programa informático para implementar métodos tal como se definen en las reivindicaciones cuando se ejecuta en un ordenador o procesador de señales.

En las reivindicaciones dependientes se proporcionarán realizaciones preferidas.

A continuación, se describen con mayor detalle las realizaciones de la presente invención con referencia a las figuras, en las que:

la figura 1a ilustra un decodificador a modo de ejemplo que no forma parte de la presente invención,

la figura 1b ilustra un decodificador a modo de ejemplo que no forma parte de la presente invención

la figura 1c ilustra un decodificador según una realización,

la figura 2a ilustra un codificador para codificar señales de objeto de audio de entrada que no forma parte de la presente invención,

la figura 2b ilustra un codificador para codificar señales de objeto de audio de entrada que no forma parte de la presente invención,

la figura 2c ilustra un codificador para codificar señales de objeto de audio de entrada según una realización, la figura 3 muestra un diagrama de bloques esquemático de un resumen conceptual de un sistema de SAOC, la figura 4 muestra un diagrama esquemático e ilustrativo de una representación temporal-espectral de una señal de audio de canal simple,

la figura 5 muestra un diagrama de bloques esquemático de un cálculo selectivo de tiempo-frecuencia de información lateral dentro de un codificador de SAOC,

la figura 6 representa un diagrama de bloques de un decodificador de SAOC mejorada según una realización, que ilustra la decodificación de corrientes de bits de SAOC estándar,

la figura 7 representa un diagrama de bloques de un decodificador según una realización,

la figura 8 ilustra un diagrama de bloques de un codificador según una realización particular que implementa una trayectoria paramétrica de un codificador,

la figura 9 ilustra la adaptación de la secuencia de formación de ventanas normal para dar cabida a un punto de cruce de ventana en el transitorio,

la figura 10 ilustra un esquema de conmutación de bloques de aislamiento de transitorios según una realización, la figura 11 ilustra una señal con un transitorio y la secuencia de formación de ventanas similar a AAC resultante según una realización,

la figura 12 ilustra filtración híbrida de QMF ampliada,

la figura 13 ilustra un ejemplo en el que se utilizan ventanas cortas para la transformada,

la figura 14 ilustra un ejemplo en el que se utilizan ventanas más largas que el ejemplo de la figura 13 para la transformada,

la figura 15 ilustra un ejemplo en el que se lleva a cabo una resolución de alta frecuencia y una baja resolución de tiempo,

la figura 16 ilustra un ejemplo en el que se lleva a cabo una alta resolución de tiempo y una resolución de baja frecuencia,

la figura 17 ilustra un primer ejemplo en el que se lleva a cabo una resolución de tiempo intermedia y una resolución de frecuencia intermedia, y

la figura 18 ilustra un primer ejemplo en el que se lleva a cabo una resolución de tiempo intermedia y una resolución de frecuencia intermedia.

Antes de describir las realizaciones de la presente invención, se proporcionan más antecedentes sobre los sistemas de SAOC del estado de la técnica.

La figura 3 muestra una disposición general de un codificador de SAOC 10 y de un decodificador de SAOC 12. El codificador de SAOC 10 recibe como una entrada N objetos, es decir, señales de audio si a sn. En particular, el codificador 10 comprende un mezclador descendente 16 que recibe las señales de audio si a sn y realiza la mezcla descendente al mismo para dar una señal de mezcla descendente 18. Como alternativa, la mezcla descendente puede proporcionarse externamente ("mezcla descendente artística") y el sistema estima información lateral adicional para hacer que la mezcla descendente proporcionada coincida con la mezcla descendente calculada. En la figura 3, la señal de mezcla descendente se muestra como una señal de canal P. Por lo tanto, puede concebirse cualquier configuración de señal de mezcla descendente de canal mono (P=1), estéreo (P=2) o múltiple (P>2).

En el caso de una mezcla descendente estéreo, los canales de la señal de mezcla descendente 18 se indican como L0 y R0, en el caso de una mezcla descendente mono se indica simplemente como L0. Con el fin de permitir que el decodificador de SAOC 12 recupere los objetos individuales si a sn, el estimador de información lateral 17 proporciona al decodificador de SAOC 12 información lateral que incluye parámetros de SAOC. Por ejemplo, en el caso de una mezcla descendente estéreo, los parámetros de SAOC comprenden diferencias de nivel de objeto (OLD), correlación entre objetos (IOC) (parámetros de relación cruzada entre objetos), valores de ganancia de mezcla descendente (DMG) y diferencias de nivel de canal de mezcla descendente (DCLD). La información lateral 20, que incluye los parámetros de SAOC, junto con la señal de mezcla descendente 18, forma la corriente de datos de salida de SAOC recibida por el decodificador de SAOC 12.

El decodificador de SAOC 12 comprende un mezclador ascendente que recibe la señal de mezcla descendente 18 así como la información lateral 20 con el fin de recuperar y renderizar las señales de audio si y sn sobre cualquier conjunto seleccionado por el usuario de canales y i a / m, estando la renderización prescrita por la información de renderización 26 introducida en el decodificador de SAOC 12.

Las señales de audio si a sn pueden introducirse en el codificador 10 en cualquier dominio de codificación, tal como en el dominio espectral o de tiempo. En caso de que las señales de audio si a sn se alimenten al codificador 10 en el dominio de tiempo, tal como codificadas por PCM, el codificador 10 puede utilizar un banco de filtros, tal como un banco de QMF híbrido, con el fin de transferir las señales a un dominio espectral, en el que las señales de audio están representadas en varias subbandas asociadas con diferentes porciones espectrales, con una resolución específica del banco de filtros. Si las señales de audio si a sn están ya en la representación esperada por el codificador 10, este no tiene que realizar la descomposición espectral.

La figura 4 muestra una señal de audio en el dominio espectral que se acaba de mencionar. Tal como puede verse, la señal de audio se representa como una pluralidad de señales de subbandas. Cada señal de subbanda 301 a 30k consiste en una secuencia temporal de valores de subbanda indicadas por los bloques pequeños 32. Tal como puede verse, los valores de subbanda 32 de las señales de subbanda 301 a 30k están sincronizados entre sí en el tiempo de modo que, para cada una de las ranuras de tiempo consecutivas del banco de filtros 34, cada subbanda 301 a 30k comprende exactamente un valor de subbanda 32. Tal como se ilustra por el eje de frecuencia 36, las señales de subbanda 301 a 30k están asociadas con diferentes regiones de frecuencia y, tal como se ilustra por el eje de tiempo 38, las ranuras de tiempo del banco de filtros 34 están dispuestas consecutivamente en el tiempo.

Tal como se explicó anteriormente, el extractor de información lateral 17 de la figura 3 calcula parámetros de SAOC a partir de las señales de audio de entrada si a sn. Según la norma de SAOC actualmente implementado, el codificador 10 realiza este cálculo con una resolución de tiempo/frecuencia que puede disminuirse con respecto a la resolución de tiempo/frecuencia original tal como se determina por las ranuras de tiempo del banco de filtros 34 y la descomposición de subbanda, en una cantidad determinada, señalizándose esta cantidad determinada al lado del decodificador dentro de la información lateral 20. Los grupos de ranuras de tiempo consecutivas del banco de filtros 34 pueden formar un marco de SAOC 41. Asimismo, el número de bandas de parámetros dentro del marco de SAOC 41 se transporta dentro de la información lateral 20. Por ello, el dominio de tiempo/frecuencia se divide en mosaicos de tiempo/frecuencia ejemplificados en la figura 4 mediante líneas discontinuas 42. En la figura 4, las bandas de parámetros están distribuidas de la misma manera en los diversos marcos de SAOC ilustrados 41 de modo que se obtiene una disposición regular de mosaicos de tiempo/frecuencia. Sin embargo, por lo general, las bandas de parámetros pueden variar de un marco de SAOC 41 al posterior, dependiendo de las diferentes necesidades de resolución espectral en los respectivos marcos de SAOC 41. Por otra parte, la longitud de los marcos de SAOC 41 también puede variar. El resultado de ello es que la disposición de los mosaicos de tiempo/frecuencia puede ser irregular. Sin embargo, los mosaicos de tiempo/frecuencia dentro de un marco de SAOC 41 particular normalmente tienen la misma duración y están alineados en la dirección del tiempo, es decir, todos los mosaicos de t/f en dicho marco de SAOC 41 empiezan en el inicio del marco de SAOC 41 dado y terminan al final de dicho marco de SAOC 41.

El extractor de información lateral 17 representado en la figura 3 calcula los parámetros de SAOC según las siguientes fórmulas. En particular, el extractor de información lateral 17 calcula las diferencias de nivel de objeto para cada objeto i como

en el que las sumas y los índices n y k, respectivamente, abarcan todos los índices temporales 34, y todos los índices espectrales 30 que pertenecen a un determinado mosaico de tiempo/frecuencia 42, al que se hace referencia por los índices l para el marco de SAOC (o ranura de tiempo de procesamiento) y m para la banda de parámetros. Por ello, se suman las energías de todos los valores de subbanda x¡ de un objeto o una señal de audio i y se normalizan hasta x " ,k*

el valor de energía más elevado de ese mosaico entre todos los objetos o señales de audio. indica el conjugado n ,k

complejo de '

Además, el extractor de información lateral de SAOC 17 es capaz de calcular una medida de similitud de los mosaicos de frecuencia/tiempo correspondientes de pares de diferentes objetos de entrada si a sn. Aunque el extractor de información lateral de SAOC 17 puede calcular la medida de similitud entre todos los pares de objetos de entrada si a sn, el extractor de información lateral 17 también puede eliminar la señalización de las medidas de similitud o limitar el cálculo de las medidas de similitud a objetos de audio si a sn que forman canales izquierdos o derechos de un canal estéreo común. En cualquier caso, la medida de similitud se denomina los parámetros de correlación cruzada entre I O Ó m.

objetos l,J . El cálculo es como sigue

pasando de nuevo los índices n y k por todos los valores de subbanda pertenecientes a un determinado mosaico de tiempo/frecuencia 42, indicando i y j un determinado par de objetos de audio s i a s ⁿ , e indicando Re{ } la operación de descartar la parte imaginaria del argumento complejo.

El mezclador descendente 16 de la figura 3 realiza la mezcla descendente a los objetos s i a s ⁿ usando factores de ganancia aplicados a cada objeto s i a s ⁿ . Es decir, se aplica un factor de ganancia di al objeto i y, entonces, todos los objetos ponderados de ese modo s i a s ⁿ se suman para obtener una señal de mezcla descendente mono, que se ejemplifica en la figura 3 si P=1. En otro caso a modo de ejemplo de una señal de mezcla descendente de dos canales, representada en la figura 3 si P=2, se aplica un factor de ganancia d i ,i al objeto i y entonces todos estos objetos amplificados por ganancia se suman con el fin de obtener el canal de mezcla descendente izquierdo L0, y los factores de ganancia d2,i se aplican al objeto i y entonces los objetos amplificados de ese modo por ganancia se suman con el fin de obtener el canal de mezcla descendente derecho R0. Debe aplicarse un procesamiento que sea análogo al anterior en caso de una mezcla descendente multicanal (P>2).

Esta prescripción de mezcla descendente se señaliza al lado del decodificador mediante las ganancias de mezcla descendente DMGi y, en caso de una señal estéreo de mezcla descendente, diferencias de nivel de canal de mezcla descendente DCLD

Las ganancias de mezcla descendente se calculan según:

D M G j - 20 log ]0 (d¡ £) (mezc|a descendente mono),

DMGt - 101og10 {dXJ d2J+ s ) ^mezc|a descendente estéreo),

donde e es un número pequeño tal como 10-9.

Para los DCLD se aplica la siguiente fórmula:

En el modo normal, el mezclador descendente 16 genera la señal de mezcla descendente según:

para una mezcla descendente mono, o

para una mezcla descendente estéreo, respectivamente.

Por lo tanto, en las fórmulas mencionadas anteriormente, los parámetros OLD e IOC son una función de las señales de audio y los parámetros DMG y DCLD son una función de d. Además, se observa que d puede variar en tiempo y en frecuencia.

Por lo tanto, en el modo normal, el mezclador descendente 16 mezcla todos los objetos si a sn sin preferencias, es decir, tratando todos los objetos si a sn de la misma manera.

En el lado del decodificador, el mezclador ascendente realiza la inversión del procedimiento de mezcla descendente y la implementación de la "información de renderización" 26 representada por una matriz R (en la bibliografía a veces también se denomina A ) en una etapa de cálculo, a saber, en caso de una mezcla descendente de dos canales

donde la matriz E es una función de los parámetros OLD e IOC, y la matriz D contiene los coeficientes de mezcla descendente como

La matriz E es una matriz de covarianza estimada de los objetos de audio si a sn. En las implementaciones de SAOC actuales, el cálculo de la matriz de covarianza estimada E normalmente se realiza en la resolución espectral/temporal de los parámetros de SAOC, es decir, para cada (l,m), de modo que la matriz de covarianza estimada pueda escribirse como Elm. La matriz de covarianza estimada Elm es de un tamaño N x N definiéndose sus coeficientes como

Por lo tanto, la matriz El,m con

tiene a lo largo de su diagonal las diferencias de nivel de objeto, es decir,

para i=j, ya que

OLD¡m = OLDl; m IO C l: m _{= 1}

1 y y * 'd " para /=/. Fuera de su diagonal la matriz de covarianza estimada E tiene coeficientes de matriz que representan la media geométrica de las diferencias de nivel de objeto de los objetos i y j,

IO C L" .

respectivamente, ponderados con la medida de correlación cruzada entre objetos J .

La figura 5 presenta un posible principio de implementación en el ejemplo del estimador de información lateral (SIE) como parte de un codificador de SAOC 10. El codificador de SAOC 10 comprende el mezclador 16 y el estimador de información lateral (SIE) 17. El SIE consiste conceptualmente en dos módulos: un módulo 45 para calcular una representación de t/f basada en poco tiempo (por ejemplo, STFT o QMF) de cada señal. La representación de t/f en poco tiempo calculada se alimenta al segundo módulo 46, el módulo de estimación de información lateral selectiva de t/f (SIE de t/f). El módulo de SIE de t/f 46 calcula la información lateral para cada mosaico de t/f. En las implementaciones de SAOC actuales, la transformación de tiempo/frecuencia es fija e idéntica para todos los objetos de audio si a sn. Por otra parte, se determinan los parámetros de SAOC sobre marcos de SAOC que son los mismos para todos los objetos de audio y tienen la misma resolución de tiempo/frecuencia para todos los objetos de audio si a sn, descartando por lo tanto las necesidades específicas de objeto para la resolución temporal fina en algunos casos o resolución espectral fina en otros casos.

La figura 1a ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente que comprende una pluralidad de muestras de mezcla descendente en el dominio del tiempo según un ejemplo ilustrativo que no forma parte de la presente invención. La señal de mezcla descendente codifica dos o más señales de objeto de audio.

El decodificador comprende un generador de secuencias de ventanas 134 para determinar una pluralidad de ventanas de análisis (por ejemplo, basándose en información lateral paramétrica, por ejemplo, diferencias de nivel de objeto), en el que cada una de las ventanas de análisis comprende una pluralidad de muestras de mezcla descendente en el dominio del tiempo de la señal de mezcla descendente. Cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica el número de las muestras de mezcla descendente en el dominio del tiempo de dicha ventana de análisis. El generador de secuencias de ventanas 134 está configurado para determinar la pluralidad de ventanas de análisis de modo que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio. Por ejemplo, la longitud de ventana puede depender de si dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio que se codifican por la señal de mezcla descendente.

Para determinar la pluralidad de ventanas de análisis, el generador de secuencias de ventanas 134 puede, por ejemplo, analizar información lateral paramétrica, por ejemplo, diferencias de nivel de objeto transmitidas relacionadas con las dos o más señales de objeto de audio, para determinar la longitud de ventana de las ventanas de análisis, de modo que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio. O, por ejemplo, para determinar la pluralidad de ventanas de análisis, el generador de secuencias de ventanas 134 puede analizar las formas de ventanas o las propias ventanas de análisis, en el que las formas de ventanas o las ventanas de análisis pueden, por ejemplo, transmitirse en la corriente de bits desde el codificador hasta el decodificador, y en el que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio.

Además, el decodificador comprende un módulo de análisis de t/f 135 para transformar la pluralidad de muestras de mezcla descendente en el dominio del tiempo de cada ventana de análisis de la pluralidad de ventanas de análisis desde un dominio del tiempo hasta un dominio de tiempo-frecuencia dependiendo de la longitud de ventana de dicha ventana de análisis, para obtener una mezcla descendente transformada.

Por otra parte, el decodificador comprende una unidad de desmezclado 136 para desmezclar la mezcla descendente transformada basándose en información lateral paramétrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

Las siguientes implementaciones a modo de ejemplo usan un mecanismo especial de construcción de secuencias de ventanas. Se define un función de ventana prototipo f(n, Nw) para el índice 0<n <Nw-1 para una longitud de ventana Nw. Al diseñar una ventana única wk(n), son necesarios tres puntos de control, a saber, los centros de la ventana anterior, actual y siguiente, Ck-¹, Ck, y Ck+¹.

Mediante su uso, se define la función de formación de ventanas como

^{w M = í f ( n ’ 2 ( c k -} Cfc-i)), para 0 ^{< n < c k - c k - í}

^{k { f i n - 2 c k} cfc- i ^{c k i , 2 ( c k i - c k ) ) , p a r a c k - c} ^{k - 1 < n < c k i - c k - f}

La ubicación real de la ventana es entonces -Ck-1-|<m <LCk+1-con n=m- |-Ck-1-|(n indica la operación de redondeo del argumento hasta el siguiente número entero hacia arriba, y L- indica en consecuencia la operación de redondeo del argumento hasta el siguiente número entero hacia abajo). La función de ventana prototipo utilizada en las ilustraciones es una ventana sinusoidal definida como

f (n,N) = sen ( ^ J ^ 0 ),

pero también pueden usarse otras formas. La ubicación del transitorio t define los centros para tres ventanas Ck-1 = tlb, Ck = t, y Ck+1 = t+ la, donde los números lb y la definen el intervalo de ventana deseado antes y después del transitorio.

Tal como se explica más adelante con respecto a la figura 9, el generador de secuencias de ventanas 134 puede, por ejemplo, estar configurado para determinar la pluralidad de ventanas de análisis, de modo que una primera ventana de análisis de la pluralidad de ventanas de análisis y una segunda ventana de análisis de la pluralidad de ventanas de análisis comprendan un transitorio, en el que un centro Ck de la primera ventana de análisis está definido por una ubicación t del transitorio según Ck = t-lb, y un centro Ck+1 de la primera ventana de análisis está definido por la ubicación t del transitorio según Ck+1 = t+la, en el que la y lb son números.

Tal como se explica más adelante con respecto a la figura 10, el generador de secuencias de ventanas 134 puede, por ejemplo, estar configurado para determinar la pluralidad de ventanas de análisis, de modo que una primera ventana de análisis de la pluralidad de ventanas de análisis comprenda un transitorio, en el que un centro Ck de la primera ventana de análisis está definido por una ubicación t del transitorio según Ck = t, en el que un centro Ck-1 de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio según Ck-1 = t-lb, y en el que un centro Ck+1 de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio según Ck+1 = t+la, en el que la y lb son números.

Tal como se explica más adelante con respecto a la figura 11, el generador de secuencias de ventanas 134 puede, por ejemplo, estar configurado para determinar la pluralidad de ventanas de análisis, de modo que cada una de la pluralidad de ventanas de análisis comprende o bien un primer número de muestras de señales en el dominio del tiempo o bien un segundo número de muestras de señales en el dominio del tiempo, en el que el segundo número de muestras de señales en el dominio del tiempo es mayor que el primer número de muestras de señales en el dominio del tiempo, y en el que cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende el primer número de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio.

El módulo de análisis de t/f 135 está configurado para transformar las muestras de mezcla descendente en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo hasta un dominio de tiempo-frecuencia empleando un banco de filtros de QMF y un banco de filtros de Nyquist, en el que la unidad de análisis de t/f (135) está configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis.

La figura 2a ilustra un codificador para codificar dos o más señales de objeto de audio de entrada como un ejemplo ilustrativo que no forma parte de la presente invención. Cada una de las dos o más señales de objeto de audio de entrada comprende una pluralidad de muestras de señales en el dominio del tiempo.

El codificador comprende una unidad de secuencias de ventanas 102 para determinar una pluralidad de ventanas de análisis. Cada una de las ventanas de análisis comprende una pluralidad de las muestras de señales en el dominio del tiempo de una de las señales de objeto de audio de entrada, en la que cada una de las ventanas de análisis tiene una longitud de ventana que indica el número de muestras de señales en el dominio del tiempo de dicha ventana de análisis. La unidad de secuencias de ventanas 102 está configurada para determinar la pluralidad de ventanas de análisis de modo que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio de entrada. Por ejemplo, la longitud de ventana puede depender de si dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio de entrada.

Además, el codificador comprende una unidad de análisis de t/f 103 para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo hasta un dominio de tiempofrecuencia para obtener muestras de señales transformadas. La unidad de análisis de t/f 103 puede estar configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis.

Por otra parte, el codificador comprende la unidad de estimación de PSI 104 para determinar información lateral paramétrica dependiendo de las muestras de señales transformadas.

El codificador puede comprender, además, una unidad de detección de transitorios 101 que está configurada para determinar una pluralidad de diferencias de nivel de objeto de las dos o más señales de objeto de audio de entrada, y que está configurada para determinar si una diferencia entre una primera de las diferencias de nivel de objeto y una segunda de las diferencias de nivel de objeto es mayor que un valor umbral, para determinar para cada una de las ventanas de análisis si dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio de entrada.

La unidad de detección de transitorios 101 está configurada para emplear una función de detección d(n) para determinar si la diferencia entre la primera de las diferencias de nivel de objeto y la segunda de las diferencias de nivel de objeto es mayor que el valor umbral, en el que la función de detección d(n) se define como:

d («) = ^ \log(OLDi ^j (b, n - 1)) - log {OLDUJ (b, «))|

íj

en el que n indica un índice temporal, en el que i indica un primer objeto, en el que j indica un segundo objeto, en el que b indica una banda paramétrica. OLD puede, por ejemplo, indicar una diferencia de nivel de objeto.

Tal como se explica más adelante con respecto a la figura 9, la unidad de secuencias de ventanas 102 puede, por ejemplo, estar configurada para determinar la pluralidad de ventanas de análisis, de modo que una primera ventana de análisis de la pluralidad de ventanas de análisis y una segunda ventana de análisis de la pluralidad de ventanas de análisis comprendan un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio de entrada, en el que un centro Ck de la primera ventana de análisis está definido por una ubicación t del transitorio según Ck = t-lb, y un centro Ck+i de la primera ventana de análisis está definido por la ubicación t del transitorio según Ck+i = t la , en el que la y lb son números.

Tal como se explica más adelante con respecto a la figura 10, la unidad de secuencias de ventanas 102 puede, por ejemplo, estar configurada para determinar la pluralidad de ventanas de análisis, de modo que una primera ventana de análisis de la pluralidad de ventanas de análisis comprende un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio de entrada, en el que un centro Ck de la primera ventana de análisis está definido por una ubicación t del transitorio según Ck = t, en el que un centro C k -1, de una segunda ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio según C k -1, = t-lb, y en el que un centro Ck+1 de una tercera ventana de análisis de la pluralidad de ventanas de análisis está definido por una ubicación t del transitorio segúnCk+1 = t+la , en el que la y lb son números.

Tal como se explica más adelante con respecto a la figura 11, la unidad de secuencias de ventanas 102 puede, por ejemplo, estar configurada para determinar la pluralidad de ventanas de análisis, de modo que cada una de la pluralidad de ventanas de análisis comprende o bien un primer número de muestras de señales en el dominio del tiempo o bien un segundo número de muestras de señales en el dominio del tiempo, en el que el segundo número de muestras de señales en el dominio del tiempo es mayor que el primer número de muestras de señales en el dominio del tiempo, y en el que cada una de las ventanas de análisis de la pluralidad de ventanas de análisis comprende el primer número de muestras de señales en el dominio del tiempo cuando dicha ventana de análisis comprende un transitorio, que indica un cambio de señal de al menos una de las dos o más señales de objeto de audio de entrada.

La unidad de análisis de t/f 103 está configurada para transformar las muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis desde un dominio del tiempo hasta un dominio de tiempo-frecuencia empleando un banco de filtros de QMF y un banco de filtros de Nyquist, en el que la unidad de análisis de t/f 103 está configurada para transformar la pluralidad de muestras de señales en el dominio del tiempo de cada una de las ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis. A continuación, se describe SAOC mejorada usando bancos de filtro adaptativos compatibles inversamente según un ejemplo ilustrativo que no forma parte de la presente invención.

En primer lugar, se explica la decodificación de corrientes de bits de SAOC estándar mediante un decodificador de SAOC mejorada.

El decodificador de SAOC mejorada está diseñado de modo que es capaz de decodificar corrientes de bits de codificadores de SAOC estándar con buena calidad. La decodificación se limita a la reconstrucción paramétrica solamente, y se ignoran posibles corrientes residuales.

La figura 6 representa un diagrama de bloques de un decodificador de SAOC mejorada, que ilustra la decodificación de corrientes de bits de SAOC estándar. Los bloques funcionales en negrita (132, 133, 134, 135) indican el procesamiento de la invención. La información lateral paramétrica (PSI) consiste en conjuntos de diferencias de nivel de objeto (OLD), correlaciones entre objetos (IOC) y una matriz de mezcla descendente D usada para crear la señal de mezcla descendente (audio de DMX) a partir de los objetivos individuales en el decodificador. Cada conjunto de parámetros está asociado con un borde de parámetros que define la región temporal a la cual los parámetros están asociados. En el SAOC estándar, los bins de frecuencia de la representación de tiempo/frecuencia subyacente están agrupados en bandas paramétricas. La separación de las bandas se asemeja a la de las bandas decisivas en el sistema auditivo humano. Por otra parte, múltiples marcos de representación de t/f pueden agruparse en un marco de parámetros. Estas dos operaciones proporcionan una reducción en la cantidad de información lateral requerida con el coste de las inexactitudes de modelado.

Tal como se describe en la norma de SAOC, se utilizan las OLD e IOC para calcular la matriz de desmezclado G =

E (i,j) = I0CIJj0LD i 0LDJ

EDrJ, donde los elementos de E son ’ v se aproxima a la matriz de correlación cruzada de objetos, i y j son índices de objeto,

J=(DEDr)^-1, y Dr es la traspuesta de D. Un calculador de la matriz de desmezclado 131 puede configurarse para calcular una matriz de desmezclado según esto.

La matriz de desmezclado se interpola entonces de manera lineal mediante un interpolador temporal 132 a partir de la matriz de desmezclado del marco anterior sobre el marco de parámetros hasta el borde de parámetros sobre el cual se alcanzan los valores estimados, según el SAOC estándar. Esto da como resultado matrices de desmezclado para cada ventana de análisis de tiempo/frecuencia y banda paramétrica.

La resolución de frecuencia de banda paramétrica de las matrices de desmezclado se expande hasta la resolución de la representación de tiempo-frecuencia en esa ventana de análisis mediante una unidad de adaptación de resolución de frecuencia de ventana 133. Cuando la matriz de desmezclado interpolada para la banda paramétrica b en un marco de tiempo está definida como G(b), se utilizan los mismos coeficientes de desmezclado para todos los bins de frecuencia dentro de esa banda paramétrica.

Se configura un generador de secuencias de ventanas 134 para utilizar la información de intervalo del conjunto de parámetros de la PSI para determinar una secuencia de formación de ventanas adecuada para analizar la señal de audio de mezcla descendente de entrada. El requisito principal es que cuando hay un borde del conjunto de parámetros en la PSI, el punto de cruce entre ventanas de análisis consecutivas debería coincidir con el mismo. La formación de ventanas determina también la resolución de frecuencia de los datos dentro de cada ventana (utilizada en la expansión de datos de desmezclado, tal como se describió anteriormente).

Los datos con ventanas se transforman entonces por el módulo de análisis de t/f 135 en una representación en el dominio de la frecuencia mediante la utilización de una transformada de tiempo-frecuencia adecuada, por ejemplo, Transformada Discreta de Fourier (DFT), Transformada de Coseno Discreta Modificada Compleja (CMDCT) o Transformada Discreta de Fourier de Apilamiento Impar (ODFT).

Finalmente, una unidad de desmezclado 136 aplica las matrices de desmezclado por marco por bin de frecuencia sobre la representación espectral de la señal de mezcla descendente X para obtener las reconstrucciones paramétricas Y . El canal de salida j es una combinación lineal de los canales de mezcla descendente

V i 0 , * -/

Para la mayoría de los fines, la calidad que puede obtenerse con este proceso no puede distinguirse perceptualmente del resultado obtenido con un decodificador de SAOC estándar.

Debe observarse que el texto anterior describe la reconstrucción de objetos individuales, pero en el SAOC estándar la renderización se incluye en la matriz de desmezclado, es decir, se incluye en la interpolación paramétrica. Como una operación lineal, el orden de las operaciones no importa, pero vale la pena observar la diferencia.

A continuación, se describe la decodificación de corrientes de bits de SAOC mejorada por un decodificador de SAOC mejorada que no forma parte de la presente invención.

La funcionalidad principal del decodificador de SAOC mejorada ya se describió anteriormente en la decodificación de corrientes de bits de SAOC estándar. Esta sección detallará cómo pueden usarse las mejoras de SAOC mejorada introducidas en la PSI para obtener una mejor calidad perceptual.

La figura 7 representa los principales bloques funcionales del decodificador que ilustra la decodificación de las mejoras de resolución de frecuencia. Los bloques funcionales en negrita (132, 133, 134, 135) indican el procesamiento de la invención.

Inicialmente, una unidad de expansión de valor sobre banda 141 adapta los valores de OLD e IOC para cada banda paramétrica a la resolución de frecuencia utilizada en las mejoras, por ejemplo, a 1024 bins. Esto se realiza replicando el valor sobre los bins de frecuencia que corresponden a la banda paramétrica. Esto da como resultado nuevos OLD O LD ^ei ( f ) = K ( f , b ) O L D i( b ) e IOC lO C ™¡ei( f ) = K ( f , b ) l O C ijJ( b ) . ^K (f,b) es una matriz de núcleo que define la asignación de bins de frecuencia f en bandas paramétricas b mediante

1, si f E b

K ( f , b ) = {

0, de lo contrario .

Paralelamente a esto, la unidad de recuperación de función delta 142 invierte la parametrización del factor de

corrección para obtener la función delta ^{C r}1^ec(J ^{f )}J del mismo tamaño que las OLD e IOC expandidos.

Entonces, la unidad de aplicación delta 143 aplica el delta sobre los valores de OLD expandidos, y se obtienen los valores de OLD de resolución fina obtenidos mediante OLDÍina( f ) = Cl (f)OLD™'ei ( f) .

El cálculo de las matrices de desmezclado puede, por ejemplo, realizarse por el calculador de matriz de desmezclado 131 como con la decodificación de la corriente de bits de SAOC estándar: G (f) = E (f)D T(f)J (f), con Etj ( f ) =

IOC^eJ(f)J O L D Íina(f ) OLDpna( f ) , y J (f)~(D (f)E (f)D T(f))~\ Si se desea, puede multiplicarse la matriz de renderización para dar la matriz de desmezclado G(f). La interpolación temporal por el interpolador temporal 132 sigue según el SAOC estándar.

Dado que la resolución de frecuencia en cada ventana puede ser diferente (normalmente inferior) con respecto a la resolución nominal de alta frecuencia, es necesario que la unidad de adaptación de resolución de frecuencia de ventana 133 se adapte a las matrices de desmezclado para coincidir con la resolución de los datos espectrales de audio para permitir su aplicación. Esto puede realizarse, por ejemplo, por el remuestreo de los coeficientes sobre el eje de frecuencia hasta resolución correcta. O, si las resoluciones son múltiplos enteros, sencillamente promediando a partir de los datos de alta resolución los índices que corresponden a un bin de frecuencia en la resolución inferior Gba¡a(b) = 1/\\b\\Yfíb G(f).

La información de secuencia de formación de ventanas a partir de la corriente de bits puede usarse para obtener un análisis de tiempo-frecuencia totalmente complementario con respecto al utilizado en el codificador, o la secuencia de formación de ventanas puede construirse basándose en uno de los bordes de parámetros, tal como se realiza en la decodificación de corrientes de bits de SAOC estándar. Para ello, puede emplearse un generador de secuencias de ventanas 134.

El análisis de tiempo-frecuencia del audio de mezcla descendente se lleva a cabo entonces mediante un módulo de análisis de t/f 135 usando las ventanas dadas.

Por último, las matrices de desmezclado temporalmente interpoladas y espectralmente (posiblemente) adaptadas se aplican por una unidad de desmezclado 136 en la representación de tiempo-frecuencia del audio de entrada, y el canal

de salida j puede obtenerse como una combinación lineal de los canales de entrada

A continuación, se describe la codificación de SAOC mejorada compatible inversamente, que no forma parte de la presente invención.

Ahora se describe un codificador de SAOC mejorada que produce una corriente de bits que contiene una porción de información lateral compatible inversamente y mejoras adicionales. Los decodificadores de SAOC estándar existentes pueden decodificar la porción compatible inversamente de la PSI y producir reconstrucciones de los objetos. La información añadida utilizada por el decodificador de SAOC mejorada mejora la calidad perceptual de las reconstrucciones en la mayoría de los casos. Además, si el decodificador de SAOC mejorada se ejecuta con recursos limitados, pueden ignorarse las mejoras y puede obtenerse todavía una reconstrucción de calidad básica. Debe observarse que las reconstrucciones a partir de los decodificadores de SAOC estándar y de SAOC mejorada usando solamente la PSI compatible con SAOC estándar difieren, pero se considera que perceptualmente son muy similares (la diferencia es de naturaleza similar a la decodificación de corrientes de bits de SAOC estándar con un decodificador de SAOC mejorada).

La figura 8 ilustra un diagrama de bloques de un codificador que implementa la trayectoria paramétrica del codificador descrito anteriormente. Los bloques funcionales en negrita (102, 103) indican el procesamiento de la invención. En particular, la figura 8 ilustra un diagrama de bloques de codificación de dos fases que produce una corriente de bits compatible inversamente con mejoras para decodificadores de mayor capacidad.

En primer lugar, se subdivide la señal en marcos de análisis, que entonces se transforman en el dominio de frecuencia. Múltiples marcos de análisis se agrupan en un marco de parámetros de longitud fija usando, por ejemplo, en longitudes de MPEG SAOC de 16 y 32 marcos de análisis que son comunes. Se supone que las propiedades de las señales siguen siendo casi estacionarias durante el marco de parámetros y que puede caracterizarse por tanto con un solo conjunto de parámetros. Si las características de la señal cambian dentro del marco de parámetros, se sufre un error de modelado, y sería beneficioso subdividir el marco de parámetros más largo en partes en las que se cumpla de nuevo el supuesto de casi estacionario. Con este fin, es necesaria la detección de transitorios.

Los transitorios pueden detectarse por la unidad de detección de transitorios 101 a partir de todos los objetos de entrada por separado, y cuando hay un acontecimiento de transitorios en solo uno de los objetos esa ubicación se declara como una ubicación global de transitorios. La información de las ubicaciones de transitorios se utiliza para la construcción de una secuencia de formación de ventanas adecuada. La construcción puede basarse, por ejemplo, en la siguiente lógica:

- establecer una longitud de ventana por defecto, es decir, la longitud de un bloque de transformada de señal por defecto, por ejemplo, 2048 muestras.

- establecer la longitud del marco de parámetros, por ejemplo, 4096 muestras, correspondiente a 4 ventanas por defecto con una superposición del 50%. Los marcos de parámetros agrupan múltiples ventanas y se usa un único conjunto de descriptores de señal para el bloque entero en lugar de tener descriptores para cada ventana por separado. Esto permite reducir la cantidad de PSI.

- si no se ha detectado ningún transitorio, utilizar las ventanas por defecto y la longitud completa del marco de parámetros.

- si se detecta un transitorio, adaptar la formación de ventanas para proporcionar una mejor resolución temporal en la ubicación del transitorio.

Mientras se construye la secuencia de formación de ventanas, la unidad de secuencias de ventanas 102 responsable de ello también crea submarcos de parámetros a partir de una o más ventanas de análisis. Cada subconjunto se analiza como una entidad y solamente un conjunto de parámetros de PSI se transmiten para cada subbloque. Para proporcionar una PSI compatible con SAOC estándar, la longitud de bloque de parámetros definida se utiliza como la principal longitud del bloque de parámetros, y los posibles transitorios situados dentro de ese bloque definen subconjuntos de parámetros.

La secuencia de ventanas construida se emite para el análisis de tiempo-frecuencia de las señales de audio de entrada llevado a cabo por la unidad de análisis de t/f 103, y se transmite en la porción de mejora de SAOC mejorada de la PSI.

Los datos espectrales de cada ventana de análisis se utilizan por la unidad de estimación de PSI 104 para estimar la PSI para la parte de SAOC (por ejemplo, MPEG) compatible inversamente. Esto se realiza agrupando los bins espectrales en bandas paramétricas de MPEG SAOC y estimando los IOC, OLD y energías de objetos absolutas (NRG) en las bandas. Siguiendo aproximadamente la notación de MPEG SAOC, el producto normalizado de dos espectros de objeto Si(f,n) y Sj (f,n) en un mosaico de parametrización se define como

donde la matriz K ( b , f , r i ) :M " define el mapeo a partir de los bins de representación de t/f Fn en el marco n (de los N marcos en este marco de parámetros) en bandas B paramétricas por

1, si f E b

K (b ,f,n ) = {

0, de lo contrario,

y

S* es el conjugado complejo de S. La resolución espectral puede variar entre los marcos dentro de un único bloque paramétrico, por lo que la matriz de mapeo convierte los datos en una base de resolución común. La máxima energía de objeto en este mosaico de parametrización se define como la máxima energía de objeto NRG(b) = max(nrg\. (¿)).

‘ ' . Teniendo este valor, las OLD se definen entonces como las energías de objetos normalizadas

OLD.(b) = nrg<Ab)

NRG(b) '

Y finalmente, puede obtenerse el IOC a partir de las potencias cruzadas como

Esto concluye la estimación de las partes compatibles con SAOC estándar de la corriente de bits.

Se configura una unidad de reconstrucción de espectro de potencia grueso 105 para utilizar las OLD y NRG para reconstruir una estimación aproximada de la envolvente espectral en el bloque de análisis de parámetros. Se construye la envolvente en la resolución de frecuencia más alta utilizada en ese bloque.

Se utiliza el espectro original de cada ventana de análisis mediante una unidad de estimación de espectro de potencia 106 para calcular el espectro de potencia en esa ventana.

Los espectros de potencia obtenidos se transforman en una representación de resolución de alta frecuencia mediante una unidad de adaptación de resolución de frecuencia 107. Esto puede realizarse, por ejemplo, interpolando los valores espectrales de potencia. Entonces, se calcula el perfil espectral de potencia media promediando los espectros dentro del bloque de parámetros. Esto corresponde aproximadamente a que la estimación de OLD omita la agregación de la banda paramétrica. El perfil espectral obtenido se considera como la OLD de resolución fina.

La unidad de estimación de delta 108 está configurada para estimar un factor de corrección, "delta", por ejemplo, dividiendo la OLD de resolución fina por la reconstrucción aproximada del espectro de potencia. Como resultado de ello, esto proporciona para cada bin de frecuencia un factor de corrección (multiplicativo) que puede utilizarse para aproximar la OLD de resolución fina dados los espectros aproximados.

Finalmente, se configura una unidad de modelado de delta 109 para modelar el factor de correlación estimado de una manera eficiente para la transmisión.

Efectivamente, las modificaciones de SAOC mejorada en la corriente de bits consisten en la información de secuencias de formación de ventanas y en los parámetros para transmitir el "delta".

A continuación, se describe la detección de transitorios.

Cuando las características de la señal permanecen casi estacionarias, puede obtenerse una ganancia de codificación (con respecto a la cantidad de información lateral) combinando diversos marcos temporales en bloques de parámetros. Por ejemplo, en el SAOC estándar, los valores usados a menudo son 16 y 32 marcos de Qm F por un bloque de parámetros. Estos corresponden a 1024 y 2048 muestras, respectivamente. La longitud del bloque de parámetros puede establecerse por adelantado en un valor fijo. El único efecto directo que tiene es el retardo de códec (el codificador debe tener un marco completo para poder codificarlo). Cuando se utilizan bloques paramétricos largos, sería beneficioso detectar cambios significativos en las características de la señal, esencialmente cuando se infringe la suposición casi estacionaria. Después de encontrar una ubicación de un cambio significativo, la señal en el dominio del tiempo puede dividirse allí y las partes pueden cumplir de nuevo la suposición casi estacionaria mejor.

En el presente documento, se describe un método de detección de transitorios novedoso que va a usarse conjuntamente con SAOC. Visto de manera minuciosa, no pretende detectar transitorios, sino más bien cambios en las parametrizaciones de señales que pueden activarse también, por ejemplo, por un desplazamiento del sonido.

La señal de entrada se divide en marcos de superposición breves, y los marcos se transforman en el dominio de la frecuencia, por ejemplo, con la Transformada Discreta de Fourier (DFT). El espectro complejo se transforma en espectro de potencia multiplicando los valores con sus conjugados complejos (es decir, elevando al cuadrado sus valores absolutos). Entonces, se utiliza una agrupación de bandas paramétricas, similar a la usada en SAOC estándar, y se calcula la energía de cada banda paramétrica en cada marco de tiempo en cada objeto. En pocas palabras, las operaciones son

feb

donde Si(f,n) es el espectro complejo del objeto i en el marco de tiempo n. La suma se ejecuta sobre los bins de frecuencia f en la banda b. Para eliminar algunos efectos de ruido de los datos, los valores se filtran por paso bajo con un filtro de IIR de primer orden:

P " ( b , n) = aLFp í ' ( b , « -1 ) (1 - a¡J,)V, (b, n) ,

donde 0 < slp < 1 es el coeficiente de retroalimentación del filtro, por ejemplo, slp = 0,9.

La principal parametrización en el SAOC son las diferencias de nivel de objeto (OLD). El método de detección propuesto intenta detectar cuándo cambiarían los OLD. Por lo tanto, todos los pares de objeto se inspeccionan con OLD, ,J ,(jb,n) =f-P(b,n)/¥ Jfp(b,n). . .

. Los cambios en todos los pares de objeto únicos se suman en una función de detección por

d(n) - £|log(0LD^(b,n-\))~ log(0Z£>, y (b,n))\

íj

Se comparan los valores obtenidos con un umbral T para filtrar pequeñas desviaciones de nivel, y se impone una distancia mínima L entre detecciones consecutivas. Por lo tanto, la función de detección es

A continuación, se describe una resolución de frecuencia de SAOC mejorada.

La resolución de frecuencia obtenida mediante el análisis de SAOC estándar se limita al número de bandas paramétricas, que tienen el valor máximo de 28 en el SAOC estándar. Se obtienen a partir de un banco de filtros híbrido que consiste en un análisis de QMF de 64 bandas seguido por una fase de filtración híbrida en las bandas más bajas dividiéndolas además en hasta 4 subbandas complejas. Las bandas de frecuencia obtenidas se agrupan en bandas paramétricas que imitan la resolución de banda decisiva del sistema de audición humano. La agrupación permite reducir la velocidad de los datos de información lateral requeridos.

El sistema existente produce una calidad de separación razonable dada la velocidad razonablemente baja de los datos. El problema principal es la insuficiente resolución de frecuencia para una separación clara de los sonidos tonales. Esto se presenta como un "halo" de otros objetos que rodean los componentes tonales de un objeto. Perceptualmente, esto se observa como rugosidad o un artefacto similar a un vocodificador. El efecto perjudicial de este halo puede reducirse incrementando la resolución de frecuencia paramétrica. Se observó que una resolución igual o superior a 512 bandas (con una velocidad de muestreo de 44,1 kHz) produce una separación perceptualmente buena en las señales de ensayo. Esta resolución podría obtenerse ampliando la fase de filtración híbrida del sistema existente, pero sería necesario que los filtros híbridos fuesen de un orden bastante alto para una separación suficiente, lo cual implica un elevado coste de cálculo.

Una manera sencilla de obtener la resolución de frecuencia requerida es usar una transformada de tiempo-frecuencia basada en DFT. Estas pueden implementarse de manera eficiente mediante un algoritmo de Transformada Rápida de Fourier (FFT). En lugar de una DFT normal, CMDCT u ODFT se consideran como alternativas. La diferencia es que estas dos últimas son impares, y el espectro obtenido contiene frecuencias positivas y negativas puras. En comparación con una DFT, los bins de frecuencia se desplazan en un ancho de 0,5 bins. En la DFT uno de los bins está centrado a 0 Hz y otro en la frecuencia de Nyquist. La diferencia entre ODFT y CMDCT es que la CMDCT contiene una operación adicional de postmodulación que afecta el espectro de fase. El beneficio de esto es que el espectro de complejo resultante consiste en la Transformada de Coseno Discreta Modificada (MDCT) y la Transformada de Seno Discreta Modificada (MDST).

Una transformada basada en DFT de longitud N produce un espectro complejo con N valores. Cuando la secuencia transformada tiene valor real, solo N/2 de estos valores son necesarios para una reconstrucción perfecta; los otros N/2 valores pueden obtenerse a partir de los dados con manipulaciones sencillas. El análisis funciona normalmente tomando un marco de N muestras en el dominio del tiempo de la señal, aplicando una función de formación de ventanas sobre los valores y después calculando la transformada real sobre los datos con ventanas. Los bloques consecutivos se superponen temporalmente en un 50% y las funciones de formación de ventanas están diseñadas de modo que los cuadrados de ventanas consecutivas se sumarán como unidad. Esta asegura que cuando la función de formación de ventanas se aplica dos veces sobre los datos (una vez analizando la señal en el dominio del tiempo, y una segunda vez después de la transformada de síntesis antes de su superposición/adición); la cadena de síntesis más análisis sin modificaciones de señal no tiene pérdida.

Dada una superposición del 50% entre marcos consecutivos y una longitud de marco de 2048 muestras, la resolución temporal efectiva es de 1024 muestras (lo que corresponde a 23,2 ms a una velocidad de muestreo de 44,1 kHz). Esto no es lo suficientemente pequeño por dos razones: en primer lugar, sería deseable poder decodificar corrientes de bits producidas por un codificador de SAOC estándar y, en segundo lugar, analizar señales en un codificador de SAOC mejorada con una resolución temporal más fina, en caso de ser necesario.

En SAOC, es posible agrupar múltiples bloques en marcos de parámetros. Se supone que las propiedades de señales permanecen lo suficientemente similares a lo largo del marco de parámetros como para caracterizarlo con un único conjunto de parámetros. Las longitudes de marcos de parámetros normalmente encontrados en SAOC estándar son de 16 o 32 marcos de QMF (la norma permite longitudes de hasta 72 marcos). Pueden realizarse agrupaciones similares cuando se utiliza un banco de filtros con una alta resolución de frecuencia. Si las propiedades de la señal no cambian durante un marco de parámetros, la agrupación proporciona una eficiencia de codificación sin degradaciones de la calidad. Sin embargo, cuando las propiedades de la señal cambian dentro del marco de parámetros, la agrupación induce errores. La SAOC estándar permite definir una longitud de agrupación por defecto, que se utiliza con señales casi estacionarias, pero que también define subbloques de parámetros. Los subbloques definen agrupaciones más cortas que la longitud por defecto, y la parametrización se realiza sobre cada subbloque por separado. Debido a la resolución temporal del banco de QMF subyacente, la resolución temporal resultante es de 64 muestras en el dominio del tiempo, lo que es mucho más fino que la resolución que puede obtenerse usando un banco de filtros fijo con una alta resolución de frecuencia. Este requisito afecta el decodificador de SAOC mejorada.

La utilización de un banco de filtros con una gran longitud de transformada proporciona una buena resolución de frecuencia, pero al mismo tiempo se degrada la resolución temporal (el denominado principio de incertidumbre). Si las propiedades de la señal cambian dentro de un único marco de análisis, la resolución temporal baja puede ocasionar emborronamiento en la salida de síntesis. Por ello, sería beneficioso obtener una resolución temporal de submarco en los lugares con cambios de señal considerables. La resolución temporal de submarco conduce naturalmente a una resolución de frecuencia inferior, pero se supone que durante un cambio de señal la resolución temporal es el aspecto más importante que debe capturarse con exactitud. Este requisito de resolución temporal de submarco afecta principalmente al codificador de SAOC mejorada (y, por consiguiente, también al decodificador).

Puede utilizarse el mismo principio de solución en ambos casos: la utilización de marcos de análisis largos cuando la señal es casi estacionaria (no se detectan transitorios) y cuando no hay bordes de parámetros. Cuando no se cumple alguna de las dos condiciones, se emplea el esquema de conmutación de la longitud de bloques. Una excepción a esta condición puede realizarse sobre los bordes de parámetros que residen entre grupos de marcos no divididos y coinciden con el punto de cruce entre dos ventanas largas (mientras se decodifica una corriente de bits de SAOC estándar). Se supone que en un caso de este tipo las propiedades de la señal permanecen suficientemente estacionarias para el banco de filtros de alta resolución. Cuando se señaliza un borde de parámetros (a partir del detector de transitorios o corriente de bits), se ajustan los marcos para usar una longitud de marco más pequeña, mejorando por lo tanto localmente la resolución temporal.

Los dos primeros ejemplos usan el mismo mecanismo de construcción de secuencias de ventanas subyacente. Una función de ventana prototipo f(n,N ) se define para el índice 0<n<N-1 para una longitud de ventana N. Al diseñar una ventana única w k(n), son necesarios tres puntos de control, a saber, los centros de la ventana anterior, actual y siguiente, Ck^-1 , ck , y Ck+1.

Mediante su uso, se define la función de formación de ventanas como

w (n) = ( f ( n ’ 2 ( c k - Cfc-i)), para 0 < n < c k - c k- í

^k( ) ^{\f(.n - 2 c k} £*_! cfe+1,2(cfe+1 - ^{ck) ) ,} para ^{ck - c k- í} < ^{n < c k+1 - ck- í}

La ubicación real de la ventana es entonces r Ck-1-|<m< Lck+1J con n=m- rCk-1-|. La función de ventana prototipo utilizada en las ilustraciones es una ventana sinusoidal definida como

f(n ,N ) = sen ^{í n(2n+í)\}

_{( 2N ),}

pero también pueden usarse otras formas.

A continuación, se describe el cruce en un transitorio.

La figura 9 es una ilustración del principio del esquema de conmutación de bloques "cruce en el transitorio". En particular, la figura 9 ilustra la adaptación de la secuencia de formación de ventanas normal para dar cabida a un punto de cruce de ventana en el transitorio. La línea 111 representa las muestras de señales en el dominio del tiempo, la línea vertical 112 la ubicación t del transitorio detectado (o un borde de parámetros a partir de la corriente de bits), y las líneas 113 ilustran las funciones de formación de ventanas y sus intervalos temporales. Este esquema requiere decidir la cantidad de superposición entre las dos ventanas Wk y Wk⁺¹alrededor del transitorio, definiendo la pendiente de la ventana. Si la longitud de superposición se ajusta en un valor pequeño, las ventanas tienen sus puntos máximos cercanos al transitorio y las secciones que cruzan el transitorio decaen rápidamente. Las longitudes de superposición también pueden ser diferentes antes y después del transitorio. En este enfoque, las dos ventanas o marcos que rodean el transitorio se ajustarán en longitud. La ubicación del transitorio define los centros de las ventanas circundantes como

Ck =t-lb y Ck+1 =t+la, en el que lb y la son la longitud de superposición antes y después del transitorio, respectivamente.

Habiéndose definido estos, puede utilizarse la ecuación anterior.

A continuación, se describe el aislamiento de los transitorios. La figura 10 ilustra el principio del esquema de conmutación de bloques de aislamiento de transitorios según una realización,. Se centra una ventana corta Wk en el transitorio, y las dos ventanas adyacentes Wk-1 y Wk+1 se ajustan para complementar la ventana corta. De manera efectiva, las ventanas adyacentes se limitan a la ubicación del transitorio, por lo que la ventana anterior contiene solamente señales antes del transitorio, y la siguiente ventana contiene solamente señales después del transitorio. En este enfoque, el transitorio define los centros para tres ventanas Ck-1 = t-lb, Ck =t, y Ck+1 = t+la, dond intervalo de ventana deseado antes y después del transitorio. Habiéndose definido estos, puede utilizarse la ecuación anterior.

A continuación, se describen marcos similares a AAC según un ejemplo ilustrativo que no forma parte de la presente invención.

Puede que no sean necesarios siempre los grados de libertad de los dos esquemas de formación de ventanas anteriores. También se emplea un procesamiento de transitorios diferente en el campo de la codificación perceptual de audio. En ese caso, el objetivo es reducir la dispersión temporal del transitorio que ocasionaría los denominados ecos previos. En el MPEG-2/4 AAC [AAC], se utilizan dos longitudes básicas de ventanas: LARGA (con una longitud de 2048 muestras) y CORTA (con una longitud de 256 muestras). Además de estas dos, también se definen dos ventanas de transición para permitir la transición desde LARGA hasta CORTA y viceversa. Como limitación adicional, se requiere que las ventanas CORTAS se presenten en grupos de 8 ventanas. De esta manera, el paso entre ventanas y grupos de ventana permanece en un valor constante de 1024 muestras.

Si el sistema de SAOC emplea un códec basado en AAC para las señales de audio, la mezcla descendente o los objetivos residuales, sería beneficioso tener un esquema de marcos que pueda sincronizarse fácilmente con el códec. Por esta razón, se describe un esquema de conmutación de bloques basado en las ventanas de AAC.

La figura 11 representa un ejemplo de conmutación de bloques similar a AAC. En particular, la figura 11 ilustra la misma señal con un transitorio y la secuencia de formación de ventanas similar a AAC resultante. Puede verse que la ubicación temporal del transitorio está cubierta con 8 ventanas CORTAS, que están rodeadas por ventanas de transición desde y hacia ventanas LARGAS. Puede verse en la ilustración que el propio transitorio no está centrado en una ventana única ni en el punto de cruce entre dos ventanas. Esto se debe a que las ubicaciones de las ventanas están fijadas en una rejilla, pero esta rejilla asegura el paso constante al mismo tiempo. Se supone que el error de redondeo temporal resultante es lo suficientemente pequeño como para ser perceptualmente irrelevante en comparación con los errores ocasionados por el uso de ventanas LARGAS solamente.

Las ventanas se definen como:

- la ventana LARGA: W LA RGA(n)=f(n, N ^{l a r g a} ), con N ^{l a r g a} =2048.

- la ventana CORTA: w coR TA(n)=f(n,NcoR TA), con N ^{c o r t a} =256 .

- la ventana de transición de LARGA a CORTA

n larga

^{N l a r g a ) ,} para 0 ^{< n <}2

a r a Nlarga < n < 2fLARGA 7NCORTA

4

2NLARGA 7NCORTA 2Nlarg a+ 9Ncorta'

N c o r t a ) , p a r a < n <

4 4

^{a r a 2NLARGA+9NCORTA}< n < N

4 ^{l a r g a}

- la ventana de transición de CORTA a LARGA wpARADA(n)=wiNicio(NLARGA-n-1).

A continuación, se describen variantes de implementación según ejemplos ilustrativos que no forman parte de la invención.

Independientemente del esquema de conmutación de bloques, otra elección de diseño es la longitud de la transformada de t/f real. Si el objetivo principal es no complicar las siguientes operaciones en el dominio de frecuencia a través de los marcos de análisis, puede utilizarse una longitud de transformada constante. se establece la longitud en un valor grande adecuado, por ejemplo, correspondiente a la longitud del marco más largo permitido. Si el marco en el dominio del tiempo es más corto que este valor, entonces se rellena con ceros hasta la longitud completa. Debe observarse que, aunque después del relleno con ceros el espectro tiene un mayor número de bins, la cantidad de información real no se aumenta en comparación con una transformada más corta. En este caso, las matrices de núcleo K(b,f,n) tienen las mismas dimensiones para todos los valores de n .

Otra alternativa es transformar el marco con ventanas sin relleno con ceros. Esto presenta una menor complejidad de cálculo que con una longitud de transformada constante. Sin embargo, es necesario tener en cuenta las resoluciones de frecuencia diferentes entre marcos consecutivos con las matrices de núcleo K(b,f,n).

A continuación, se describe la filtración híbrida ampliada según un ejemplo ilustrativo que no forma parte de la presente invención.

Otra posibilidad de obtener una resolución de frecuencia más alta sería modificar el banco de filtros híbrido utilizado en la SAOC estándar para lograr una resolución más fina. En SAOC estándar, solo las tres bandas de QMF más bajas de las 64 se hacen pasar a través del banco de filtros de Nyquist subdividiendo el contenido de banda adicionalmente.

La figura 12 ilustra la filtración híbrida de QMF ampliado. Los filtros de Nyquist se repiten para cada banda de QMF por separado y las salidas se combinan para lograr un único espectro de alta resolución. En particular, la figura 12 ilustra cómo obtener una resolución de frecuencia comparable al enfoque basado en DFT requeriría subdividir cada banda de QMF en, por ejemplo, 16 subbandas (lo que requiere una filtración compleja en 32 subbandas). El inconveniente de este enfoque es que los prototipos de filtros requeridos son largos debido a que las bandas son estrechas. Esto ocasiona algún retardo de procesamiento e incrementa la complejidad de cálculo.

Una forma alternativa es implementar la filtración híbrida ampliada mediante el reemplazo de los conjuntos de filtros de Nyquist por transformadas/bancos de filtros eficientes (por ejemplo, DFT por "ampliación", Transformada de Coseno Discreta, etc.). Por otra parte, el solapamiento contenido en los coeficientes espectrales de alta resolución resultantes, que está provocado por los efectos de fuga de la primera fase de filtro (en el presente documento: QMF), puede reducirse sustancialmente mediante un postprocesamiento de anulación de solapamiento de los coeficientes espectrales de alta resolución similar al banco de filtros híbrido MPEG-1/2 Capa 3 muy conocido [FB] [MPEG-1].

La figura 1 b ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente que comprende una pluralidad de muestras de mezcla descendente en el dominio del tiempo según un ejemplo ilustrativo que no forma parte de la presente invención. La señal de mezcla descendente codifica dos o más señales de objeto de audio.

El decodificador comprende un primer submódulo de análisis 161 para transformar la pluralidad de muestras de mezcla descendente en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas.

Además, el decodificador comprende un generador de secuencias de ventanas 162 para determinar una pluralidad de ventanas de análisis, en el que cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de la pluralidad de subbandas, en el que cada ventana de análisis de la pluralidad de ventanas de análisis tiene una longitud de ventana que indica el número de muestras de subbandas de dicha ventana de análisis. El generador de secuencias de ventanas 162 está configurado para determinar la pluralidad de ventanas de análisis, por ejemplo, basándose en información lateral paramétrica, de modo que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio.

Por otra parte, el decodificador comprende un segundo módulo de análisis 163 para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis para obtener una mezcla descendente transformada.

Por otra parte, el decodificador comprende una unidad de desmezclado 164 para desmezclar la mezcla descendente transformada basándose en información lateral paramétrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

En otras palabras: la transformada se lleva a cabo en dos fases. En una primera fase de transformada, se crea una pluralidad de subbandas que comprende cada una de ellas una pluralidad de muestras de subbandas. Entonces, en una segunda fase, se lleva a cabo una transformada adicional. Entre otros, las ventanas de análisis utilizadas para la segunda fase determinan la resolución de tiempo y la resolución de frecuencia de la mezcla descendente transformada resultante.

La figura 13 ilustra un ejemplo en el que se utilizan ventanas cortas para la transformada. La utilización de ventanas cortas conduce a una baja resolución de frecuencia, pero una alta resolución de tiempo. El empleo de ventanas cortas puede, por ejemplo, ser adecuado cuando está presente un transitorio en las señales de objeto de audio codificadas (u¡j indica muestras de subbandas, y vs,r indica muestras de la mezcla descendente transformada en un dominio de tiempo-frecuencia).

la figura 14 ilustra un ejemplo en el que se utilizan ventanas más largas que el ejemplo de la figura 13 para la transformada, La utilización de ventanas largas conduce a una resolución de alta frecuencia, pero a una baja resolución de tiempo. El empleo de ventanas largas puede, por ejemplo, ser adecuado cuando no está presente un transitorio en las señales de objeto de audio codificadas. (De nuevo, u¡j indica las muestras de subbandas, y vs,r indica las muestras de la mezcla descendente transformada en el dominio de tiempo-frecuencia).

La figura 2b ilustra un codificador para codificar dos o más señales de objeto de audio de entrada según un ejemplo ilustrativo que no forma parte de la presente invención. Cada una de las dos o más señales de objeto de audio de entrada comprende una pluralidad de muestras de señales en el dominio del tiempo.

El codificador comprende un primer submódulo de análisis 171 para transformar la pluralidad de muestras de señales en el dominio del tiempo para obtener una pluralidad de subbandas que comprende una pluralidad de muestras de subbandas.

Además, el codificador comprende una unidad de secuencias de ventanas 172 para determinar una pluralidad de ventanas de análisis, en el que cada una de las ventanas de análisis comprende una pluralidad de muestras de subbandas de una de la pluralidad de subbandas, en el que cada una de las ventanas de análisis tiene una longitud de ventana que indica el número de muestras de subbandas de dicha ventana de análisis, en el que la unidad de secuencias de ventanas 172 está configurada para determinar la pluralidad de ventanas de análisis, de modo que la longitud de ventana de cada una de las ventanas de análisis depende de una propiedad de señal de al menos una de las dos o más señales de objeto de audio de entrada. Por ejemplo, una unidad (opcional) de detección de transitorios 175 puede proporcionar información acerca de si está presente un transitorio en una de las señales de objeto de audio de entrada en la unidad de secuencias de ventanas 172.

Por otra parte, el codificador comprende un segundo módulo de análisis 173 para transformar la pluralidad de muestras de subbandas de cada ventana de análisis de la pluralidad de ventanas de análisis dependiendo de la longitud de ventana de dicha ventana de análisis para obtener muestras de señales transformadas.

Además, el codificador comprende una unidad de estimación de PSI 174 para determinar información lateral paramétrica dependiendo de las muestras de señales transformadas.

Según las realizaciones, pueden estar presentes dos módulos de análisis para llevar a cabo el análisis en dos fases, pero el segundo módulo puede conectarse o desconectarse dependiendo de una propiedad de señal.

Por ejemplo, si se requiere una alta resolución de frecuencia y es aceptable una baja resolución de tiempo, entonces se conecta el segundo módulo de análisis.

En cambio, si se requiere una alta resolución de tiempo y es aceptable una baja resolución de frecuencia, entonces se desconecta el segundo módulo de análisis.

La figura 1c ilustra un decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente según una realización de este tipo. La señal de mezcla descendente codifica una o más señales de objeto de audio.

El decodificador comprende una unidad de control 181 para establecer una indicación de activación en un estado de activación dependiendo de una propiedad de señal de al menos una de la una o más señales de objeto de audio.

Además, el decodificador comprende un primer módulo de análisis 182 para transformar la señal de mezcla descendente para obtener una primera mezcla descendente transformada que comprende una pluralidad de primeros canales de subbandas.

Por otra parte, el decodificador comprende un segundo módulo de análisis 183 para generar, cuando la indicación de activación se establece en el estado de activación, una segunda mezcla descendente transformada mediante la transformación de al menos uno de los primeros canales de subbandas para obtener una pluralidad de segundos canales de subbandas, en el que la segunda mezcla descendente transformada comprende los primeros canales de subbandas que no se han transformado por el segundo módulo de análisis y los segundos canales de subbandas.

Además, el decodificador comprende una unidad de desmezclado 184, en el que la unidad de desmezclado 184 está configurada para desmezclar la segunda mezcla descendente transformada, cuando la indicación de activación se establece en el estado de activación, basándose en información lateral paramétrica sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, y para desmezclar la primera mezcla descendente transformada, cuando la indicación de activación no se establece en el estado de activación, basándose en la información lateral paramétrica sobre la una o más señales de objeto de audio para obtener la señal de salida de audio.

La figura 15 ilustra un ejemplo en el que se requiere una alta resolución de frecuencia y una baja resolución de tiempo es aceptable. Por lo tanto, la unidad de control 181 conecta el segundo módulo de análisis estableciendo la indicación de activación en el estado de activación (por ejempl0, estableciendo una variable booleana "indicación_activación" en "indicación_activación = verdadera"). La señal de mezcla descendente se transforma por el primer módulo de análisis 182 (no mostrado en la figura 15) para obtener una primera mezcla descendente transformada. En el ejemplo de la figura 15, la mezcla descendente transformada tiene tres subbandas. En escenarios de aplicación más realistas, la mezcla descendente transformada puede, por ejemplo, tener, por ejemplo, 32 o 64 subbandas. Entonces, la primera mezcla descendente transformada se transforma por el segundo módulo de análisis 183 (no mostrado en la figura 15) para obtener una segunda mezcla descendente transformada. En el ejemplo de la figura 15, la mezcla descendente transformada tiene nueve subbandas. En escenarios de aplicación más realistas, la mezcla descendente transformada puede, por ejemplo, tener, por ejemplo, 512, 1024 o 2048 subbandas. La unidad de desmezclado 184 desmezclará entonces la segunda mezcla descendente transformada para obtener la señal de salida de audio.

Por ejemplo, la unidad de desmezclado 184 puede recibir la indicación de activación desde la unidad de control 181. O, por ejemplo, cada vez que la unidad de desmezclado 184 recibe una segunda mezcla descendente transformada desde el segundo módulo de análisis 183, la unidad de desmezclado 184 llega a la conclusión de que la segunda mezcla descendente transformada tiene que desmezclarse; cada vez que la unidad de desmezclado 184 no recibe una segunda mezcla descendente transformada desde el segundo módulo de análisis 183, la unidad de desmezclado 184 llega a la conclusión de que la primera mezcla descendente transformada tiene que desmezclarse.

La figura 16 ilustra un ejemplo en el que se requiere una alta resolución de tiempo y una baja resolución de frecuencia es aceptable. Por consiguiente, la unidad de control 181 desconecta el segundo módulo de análisis estableciendo la indicación de activación en un estado diferente del estado de activación (por ejemplo, estableciendo la variable booleana "indicación_activación" en "indicación_activación = falsa"). La señal de mezcla descendente se transforma por el primer módulo de análisis 182 (no mostrado en la figura 16) para obtener una primera mezcla descendente transformada. Entonces, a diferencia de la figura 15, la primera mezcla descendente transformada no se transforma una vez más por el segundo módulo de análisis 183. En cambio, la unidad de desmezclado 184 desmezclarará la primera segunda mezcla descendente transformada para obtener la señal de salida de audio.

Según una realización, la unidad de control 181 está configurada para establecer la indicación de activación en el estado de activación dependiendo de si al menos una de la una o más señales de objeto de audio comprende un transitorio que indica un cambio de señal de la al menos una de la una o más señales de objeto de audio.

En otra realización, se asigna una indicación de transformada de subbanda a cada uno de los primeros canales de subbandas. La unidad de control 181 está configurada para establecer la indicación de transformada de subbanda de cada uno de los primeros canales de subbandas en un estado de transformada de subbanda dependiendo de la propiedad de señal de al menos una de la una o más señales de objeto de audio. Además, el segundo módulo de análisis 183 está configurado para transformar cada uno de los primeros canales de subbandas, cuya indicación de transformada de subbanda se establece en el estado de transformada de subbanda, para obtener la pluralidad de segundos canales de subbandas, y para no transformar cada uno de los segundos canales de subbandas, cuya indicación de transformada de subbanda no se establece en el estado de transformada de subbanda.

La figura 17 ilustra un ejemplo en el que la unidad de control 181 (no mostrada en la figura 17) estableció la indicación de transformada de subbanda de la segunda subbanda en el estado de transformada de subbanda (por ejemplo, estableciendo una variable booleana "indicación_transformada_subbanda_2" en "indicación transformada_subbanda_2 = verdadera"). Por lo tanto, el segundo módulo de análisis 183 (no mostrado en la figura 17) transforma la segunda subbanda para obtener tres nuevas subbandas de "resolución fina". En el ejemplo de la figura 17, la unidad de control 181 no estableció la indicación de transformada de subbanda de la subbanda primera y tercera en el estado de transformada de subbanda (por ejemplo, esto puede indicarse por la unidad de control 181 estableciendo las variable booleanas "indicación_transformada_subbanda_1" y "indicación_transformada_subbanda_3" en "indicación transformada_subbanda_1 = falsa" e "indicación transformada_subbanda_3 = falsa"). Por lo tanto, el segundo módulo de análisis 183 no transforma la subbanda primera y tercera. En cambio, la propia primera subbanda y la propia tercera subbanda se usan como subbandas de la segunda mezcla descendente transformada.

La figura 18 ilustra un ejemplo, en el que la unidad de control 181 (no mostrada en la figura 18) estableció la indicación de transformada de subbanda de la subbanda primera y segunda en el estado de transformada de subbanda (por ejemplo, estableciendo la variable booleana "indicación_transformada_subbanda_1" en "indicación transformada_subbanda_1 = verdadera" y, por ejemplo, estableciendo la variable booleana "indicación_transformada_subbanda_2" en "indicación transformada_subbanda_2 = verdadera"). Por lo tanto, el segundo módulo de análisis 183 (no mostrado en la figura 18) transforma la subbanda primera y segunda para obtener seis nuevas subbandas de "resolución fina". En el ejemplo de la figura 18, la unidad de control 181 no estableció la indicación de transformada de subbanda de la tercera subbanda en el estado de transformada de subbanda (por ejemplo, esto puede indicarse por la unidad de control 181 estableciendo la variable booleana "indicación transformada_subbanda_3" en "indicación transformada_subbanda_3 = falsa"). Por lo tanto, el segundo módulo de análisis 183 no transforma la tercera subbanda. En cambio, la propia tercera subbanda se usa como una subbanda de la segunda mezcla descendente transformada.

Según una realización, el primer módulo de análisis 182 está configurado para transformar la señal de mezcla descendente para obtener la primera mezcla descendente transformada que comprende la pluralidad de primeros canales de subbandas empleando un Filtro Espejo en Cuadratura (QMF).

En una realización, el primer módulo de análisis 182 está configurado para transformar la señal de mezcla descendente dependiendo de una primera longitud de ventana de análisis, en el que la primera longitud de ventana de análisis depende de dicha propiedad de señal, y/o el segundo módulo de análisis 183 está configurado para generar, cuando la indicación de activación se establece en el estado de activación, la segunda mezcla descendente transformada mediante la transformación del al menos uno de los primeros canales de subbandas dependiendo de una segunda longitud de ventana de análisis, en el que la segunda longitud de ventana de análisis depende de dicha propiedad de señal. Una realización de este tipo conecta y desconecta el segundo módulo de análisis 183, y establece la longitud de una ventana de análisis.

En una realización, el decodificador está configurado para generar la señal de salida de audio que comprende uno o más canales de salida de audio a partir de la señal de mezcla descendente, en el que la señal de mezcla descendente codifica dos o más señales de objeto de audio. La unidad de control 181 está configurada para establecer la indicación de activación en el estado de activación dependiendo de la propiedad de señal de al menos una de las dos o más señales de objeto de audio. Además, la unidad de desmezclado 184 está configurada para desmezclar la segunda mezcla descendente transformada, cuando la indicación de activación se establece en el estado de activación, basándose en información lateral paramétrica sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, y para desmezclar la primera mezcla descendente transformada, cuando la indicación de activación no se establece en el estado de activación, basándose en la información lateral paramétrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

La figura 2c ilustra un codificador para codificar una señal de objeto de audio de entrada según una realización.

El codificador comprende una unidad de control 191 para establecer una indicación de activación en un estado de activación dependiendo de una propiedad de señal de la señal de objeto de audio de entrada.

Además, el codificador comprende un primer módulo de análisis 192 para transformar la señal de objeto de audio de entrada para obtener una primera señal de objeto de audio transformada, en el que la primera señal de objeto de audio transformada comprende una pluralidad de primeros canales de subbandas.

Por otra parte, el codificador comprende un segundo módulo de análisis 193 para generar, cuando la indicación de activación se establece en el estado de activación, una segunda señal de objeto de audio transformada mediante la transformación de al menos uno de la pluralidad de primeros canales de subbandas para obtener una pluralidad de segundos canales de subbandas, en el que la segunda señal de objeto de audio transformada comprende los primeros canales de subbandas que no se han transformado por el segundo módulo de análisis y los segundos canales de subbandas.

Además, el codificador comprende una unidad de estimación de PSI 194, en el que la unidad de estimación de PSI 194 está configurada para determinar información lateral paramétrica basándose en la segunda señal de objeto de audio transformada, cuando la indicación de activación se establece en el estado de activación, y para determinar la información lateral paramétrica basándose en la primera señal de objeto de audio transformada, cuando la indicación de activación no se establece en el estado de activación.

Según una realización, la unidad de control 191 está configurada para establecer la indicación de activación en el estado de activación dependiendo de si la señal de objeto de audio de entrada comprende un transitorio que indica un cambio de señal de la señal de objeto de audio de entrada.

En otra realización, se asigna una indicación de transformada de subbanda a cada uno de los primeros canales de subbandas. La unidad de control 191 está configurada para establecer la indicación de transformada de subbanda de cada uno de los primeros canales de subbandas en un estado de transformada de subbanda dependiendo de la propiedad de señal de la señal de objeto de audio de entrada. El segundo módulo de análisis 193 está configurado para transformar cada uno de los primeros canales de subbandas, cuya indicación de transformada de subbanda se establece en el estado de transformada de subbanda, para obtener la pluralidad de segundos canales de subbandas, y para no transformar cada uno de los segundos canales de subbandas, cuya indicación de transformada de subbanda no se establece en el estado de transformada de subbanda.

Según una realización, el primer módulo de análisis 192 está configurado para transformar cada una de las señales de objeto de audio de entrada empleando un filtro espejo en cuadratura.

En otra realización, el primer módulo de análisis 192 está configurado para transformar la señal de objeto de audio de entrada dependiendo de una primera longitud de ventana de análisis, en el que la primera longitud de ventana de análisis depende de dicha propiedad de señal, y/o el segundo módulo de análisis 193 está configurado para generar, cuando la indicación de activación se establece en el estado de activación, la segunda señal de objeto de audio transformada mediante la transformación de al menos uno de la pluralidad de primeros canales de subbandas dependiendo de una segunda longitud de ventana de análisis, en el que la segunda longitud de ventana de análisis depende de dicha propiedad de señal.

Según otra realización, el codificador está configurado para codificar la señal de objeto de audio de entrada y al menos una señal de objeto de audio de entrada adicional. La unidad de control 191 está configurada para establecer la indicación de activación en el estado de activación dependiendo de la propiedad de señal de la señal de objeto de audio de entrada y dependiendo de una propiedad de señal de la al menos un señal de objeto de audio de entrada adicional. El primer módulo de análisis 192 está configurado para transformar al menos una señal de objeto de audio de entrada adicional para obtener al menos una primera señal de objeto de audio transformada adicional, en el que cada una de la al menos una primera señal de objeto de audio transformada adicional comprende una pluralidad de primeros canales de subbandas. El segundo módulo de análisis 193 está configurado para transformar, cuando la indicación de activación se establece en el estado de activación, al menos uno de la pluralidad de primeros canales de subbandas de al menos una de la al menos una primera señal de objeto de audio transformada para obtener una pluralidad de segundos canales de subbandas adicionales. Además, la unidad de estimación de PSI 194 está configurada para determinar la información lateral paramétrica basándose en la pluralidad de los segundos canales de subbandas adicionales, cuando la indicación de activación se establece en el estado de activación.

El método y aparato de la invención alivian los inconvenientes mencionados anteriormente del procesamiento por SAOC del estado de la técnica usando una transformada de tiempo-frecuencia o banco de filtros fijo. Puede obtenerse una calidad de audio subjetivamente mejor mediante la adaptación dinámica de la resolución de tiempo/frecuencia de las transformadas o bancos de filtros empleados para analizar y sintetizar objetos de audio dentro de SAOC. Al mismo tiempo, los artefactos tales como los ecos previos y posteriores causados por la falta de precisión temporal y artefactos como la rugosidad auditiva y la diafonía causadas por insuficiente precisión espectral pueden minimizarse dentro del mismo sistema de SAOC. Y, lo que es más importante, el sistema de SAOC mejorada equipado con la transformada adaptativa de la invención mantiene la compatibilidad inversa con la SAOC estándar sin dejar de proporcionar una buena calidad perceptual comparable con la de la SAOC estándar.

Las realizaciones proporcionan un codificador de audio o un método de codificación de audio o un programa informático relacionado tal como se describió anteriormente. Además, las realizaciones proporcionan un codificador de audio o un método de decodificación de audio o un programa informático relacionado tal como se describió anteriormente. Por otra parte, las realizaciones proporcionan una señal de audio codificada o medio de almacenamiento en el que se almacena la señal de audio codificada tal como se describió anteriormente.

Aunque se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del método correspondiente, en el que un bloque o dispositivo corresponde a una etapa del método o una característica de una etapa del método. De manera análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque o un elemento o una característica correspondientes de un aparato correspondiente.

La señal descompuesta de la invención puede almacenarse en un medio de almacenamiento digital o puede transmitirse en un medio de transmisión tal como un medio de transmisión inalámbrica o un medio de transmisión por cable tal como Internet.

Dependiendo de determinados requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un CD, una r Om , una PROM, una EPROM, una EEPROM o una memoria FLa Sh , que tiene señales de control legibles electrónicamente almacenadas en el mismo, que actúan conjuntamente (o son capaces de actuar conjuntamente) con un sistema informático programable de manera que se realice el método respectivo.

Algunos ejemplos ilustrativos que no forman parte de la presente invención comprenden un soporte de datos no transitorio que tiene señales de control legibles electrónicamente, que son capaces de actuar conjuntamente con un sistema informático programable, de manera que se realiza uno de los métodos descritos en el presente documento.

Otra realización comprende un programa informático adaptado para implementar uno de los métodos de codificación y decodificación tal como se define en las reivindicaciones adjuntas cuando se ejecuta en un ordenador o procesador de señales.

Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que serán evidentes modificaciones y variaciones en las disposiciones y los detalles descritos en el presente documento para otros expertos en la técnica. Por lo tanto, la intención es limitarse solamente por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.

Bibliografía

[BCC] C. Faller y F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans. on Speech and Audio Proc., vol. 11, n.° 6, noviembre de 2003.

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, París, 2006.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, R.U., abril, 2007.

[SAOC2] J. Engdegárd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J.

Koppens, E. Schuijers y W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", l24th AES Convention, Ámsterdam, 2008. [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.

[AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs,

Hendrik; Dietz, Martin, "ISO/IEC MPEG-2 Advanced Audio Coding", J. Audio Eng. Soc, vol. 45, n°.

10, págs. 789-814, 1997.

[1551] M. Parvaix y L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.

[1552] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.

[1553] A. Liutkus y J. Pinel y R. Badeau y L. Girin y G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.

[1554] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[1555] Shuhua Zhang y Laurent Girin: "An Informed Source Separation System for Speech Signals",

INTERSPEECH, 2011.

[1556] L. Girin y J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures",

AES 42nd International Conference: Semantic Audio, 2011.

[1557] Andrew Nesbit, Emmanuel Vincent, y Mark D. Plumbley: "Benchmarking flexible adaptive timefrequency transforms for underdetermined audio source separation", IEEE International Conference on Acoustics, Speech and Signal Processing, págs. 37-40, 2009.

[FB] B. Edler, "Aliasing reduction in subbands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, n.° 12, págs. 1104-1106, junio de 1992.

[MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s, 1993.

Claims

REIVINDICACIONES

Decodificador para generar una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente, en el que la señal de mezcla descendente codifica una o más señales de objeto de audio, en el que el decodificador comprende:

una unidad de control (181) para establecer una indicación de activación en un estado de activación dependiendo de una propiedad de señal de al menos una de la una o más señales de objeto de audio,

un primer módulo de análisis (182) para transformar la señal de mezcla descendente para obtener una primera mezcla descendente transformada que comprende una pluralidad de primeros canales de subbandas,

un segundo módulo de análisis (183) para generar, cuando la indicación de activación se establece en el estado de activación, una segunda mezcla descendente transformada mediante la transformación de al menos uno de los primeros canales de subbanda para obtener una pluralidad de segundos canales de subbanda, en el que la segunda mezcla descendente transformada comprende los primeros canales de subbanda que no se han transformado por el segundo módulo de análisis y los segundos canales de subbanda, y

una unidad de desmezclado (184), en el que la unidad de desmezclado (184) está configurada para desmezclar la segunda mezcla descendente transformada, cuando la indicación de activación se establece en el estado de activación, basándose en información lateral paramétrica sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, y para desmezclar la primera mezcla descendente transformada, cuando la indicación de activación no se establece en el estado de activación, basándose en la información lateral paramétrica sobre la una o más señales de objeto de audio para obtener la señal de salida de audio,

en el que la unidad de control (181) está configurada para establecer la indicación de activación en el estado de activación dependiendo de una presencia de un transitorio en al menos una de la una o más señales de objeto de audio, en el que el transitorio indica un cambio de señal de la al menos una de la una o más señales de objeto de audio.

Decodificador según la reivindicación 1,

en el que se asigna una indicación de trasformada de subbanda a cada uno de los primeros canales de subbanda,

en el que la unidad de control (181) está configurada para establecer la indicación de trasformada de subbanda de cada uno de los primeros canales de subbanda en un estado de trasformada de subbanda dependiendo de la propiedad de señal de al menos una de la una o más señales de objeto de audio, y

en el que el segundo módulo de análisis (183) está configurado para transformar cada uno de los primeros canales de subbanda, cuya indicación de trasformada de subbanda se establece en el estado de trasformada de subbanda, para obtener la pluralidad de segundos canales de subbanda, y para no transformar cada uno de los segundos canales de subbanda, cuya indicación de trasformada de subbanda no se establece en el estado de trasformada de subbanda.

Decodificador según una de las reivindicaciones anteriores, en el que el primer módulo de análisis (182) está configurado para transformar la señal de mezcla descendente para obtener la primera mezcla descendente transformada que comprende la pluralidad de primeros canales de subbanda empleando un filtro espejo en cuadratura.

Decodificador según una de las reivindicaciones anteriores,

en el que el primer módulo de análisis (182) está configurado para transformar la señal de mezcla descendente dependiendo de una primera longitud de ventana de análisis, en el que la primera longitud de ventana de análisis depende de dicha propiedad de señal, o

en el que el segundo módulo de análisis (183) está configurado para generar, cuando la indicación de activación se establece en el estado de activación, la segunda mezcla descendente transformada mediante la transformación del al menos uno de los primeros canales de subbanda dependiendo de una segunda longitud de ventana de análisis, en el que la segunda longitud de ventana de análisis depende de dicha propiedad de señal.

5. Decodificador según una de las reivindicaciones anteriores,

en el que el decodificador está configurado para generar la señal de salida de audio que comprende uno o más canales de salida de audio a partir de la señal de mezcla descendente, en el que la señal de mezcla descendente codifica dos o más señales de objeto de audio,

en el que la unidad de control (181) está configurada para establecer la indicación de activación en el estado de activación dependiendo de la propiedad de señal de al menos una de las dos o más señales de objeto de audio, y

en el que la unidad de desmezclado (184) está configurada para desmezclar la segunda mezcla descendente transformada, cuando la indicación de activación se establece en el estado de activación, basándose en información lateral paramétrica sobre la una o más señales de objeto de audio para obtener la señal de salida de audio, y para desmezclar la primera mezcla descendente transformada, cuando la indicación de activación no se establece en el estado de activación, basándose en la información lateral paramétrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio.

6. Codificador para codificar una señal de objeto de audio de entrada, en el que el codificador comprende:

una unidad de control (191) para establecer una indicación de activación en un estado de activación dependiendo de una propiedad de señal de la señal de objeto de audio de entrada,

un primer módulo de análisis (192) para transformar la señal de objeto de audio de entrada para obtener una primera señal de objeto de audio transformada, en el que la primera señal de objeto de audio transformada comprende una pluralidad de primeros canales de subbanda,

un segundo módulo de análisis (193) para generar, cuando la indicación de activación se establece en el estado de activación, una segunda señal de objeto de audio transformada mediante la transformación de al menos uno de la pluralidad de primeros canales de subbanda para obtener una pluralidad de segundos canales de subbanda, en el que la segunda señal de objeto de audio transformada comprende los primeros canales de subbanda que no se han transformado por el segundo módulo de análisis y los segundos canales de subbanda, y

una unidad de estimación de PSI (194), en el que la unidad de estimación de PSI (194) está configurada para determinar información lateral paramétrica basándose en la segunda señal de objeto de audio transformada, cuando la indicación de activación se establece en el estado de activación, y para determinar la información lateral paramétrica basándose en la primera señal de objeto de audio transformada, cuando la indicación de activación no se establece en el estado de activación,

en el que la unidad de control (191) está configurada para establecer la indicación de activación en el estado de activación dependiendo de una presencia de un transitorio en la señal de objeto de audio de entrada, en el que el transitorio indica un cambio de señal de la señal de objeto de audio de entrada.

7. Codificador según la reivindicación 6,

en el que se asigna una indicación de trasformada de subbanda a cada uno de los primeros canales de subbanda,

en el que la unidad de control (191) está configurada para establecer la indicación de trasformada de subbanda de cada uno de los primeros canales de subbanda en un estado de trasformada de subbanda dependiendo de la propiedad de señal de la señal de objeto de audio de entrada, y

en el que el segundo módulo de análisis (193) está configurado para transformar cada uno de los primeros canales de subbanda, cuya indicación de trasformada de subbanda se establece en el estado de trasformada de subbanda, para obtener la pluralidad de segundos canales de subbanda, y para no transformar cada uno de los segundos canales de subbanda, cuya indicación de trasformada de subbanda no se establece en el estado de trasformada de subbanda.

8. Codificador según la reivindicación 6 o 7, en el que el primer módulo de análisis (192) está configurado para transformar cada una de las señales de objeto de audio de entrada empleando un filtro espejo en cuadratura.

9. Codificador según una de las reivindicaciones 6 a 8,

en el que el primer módulo de análisis (192) está configurado para transformar la señal de objeto de audio de entrada dependiendo de una primera longitud de ventana de análisis, en el que la primera longitud de ventana de análisis depende de dicha propiedad de señal, o

en el que el segundo módulo de análisis (193) está configurado para generar, cuando la indicación de activación se establece en el estado de activación, la segunda señal de objeto de audio transformada mediante la transformación de al menos uno de la pluralidad de primeros canales de subbanda dependiendo de una segunda longitud de ventana de análisis, en el que la segunda longitud de ventana de análisis depende de dicha propiedad de señal.

Codificador según una de las reivindicaciones 6 a 9,

en el que el codificador está configurado para codificar la señal de objeto de audio de entrada y al menos una señal de objeto de audio de entrada adicional,

en el que la unidad de control (191) está configurada para establecer la indicación de activación en el estado de activación dependiendo de la propiedad de señal de la señal de objeto de audio de entrada y dependiendo de una propiedad de señal de la al menos una señal de objeto de audio de entrada adicional,

en el que el primer módulo de análisis (192) está configurado para transformar al menos una señal de objeto de audio de entrada adicional para obtener al menos una primera señal de objeto de audio transformada adicional, en el que cada una de la al menos una primera señal de objeto de audio transformada adicional comprende una pluralidad de primeros canales de subbanda,

en el que el segundo módulo de análisis (193) está configurado para transformar, cuando la indicación de activación se establece en el estado de activación, al menos uno de la pluralidad de primeros canales de subbanda de al menos una de la al menos una primera señal de objeto de audio transformada adicional para obtener una pluralidad de segundos canales de subbanda adicionales, y en el que la unidad de estimación de PSI (194) está configurada para determinar la información lateral paramétrica basándose en la pluralidad de segundos canales de subbanda adicionales, cuando la indicación de activación se establece en el estado de activación.

Método de decodificación generando una señal de salida de audio que comprende uno o más canales de salida de audio a partir de una señal de mezcla descendente, en el que la señal de mezcla descendente codifica dos o más señales de objeto de audio, en el que el método comprende:

establecer una indicación de activación en un estado de activación dependiendo de una propiedad de señal de al menos una de las dos o más señales de objeto de audio,

transformar la señal de mezcla descendente para obtener una primera mezcla descendente transformada que comprende una pluralidad de primeros canales de subbanda,

generar, cuando la indicación de activación se establece en el estado de activación, una segunda mezcla descendente transformada mediante la transformación de al menos uno de los primeros canales de subbanda para obtener una pluralidad de segundos canales de subbanda, en el que la segunda mezcla descendente transformada comprende los primeros canales de subbanda que no se han transformado por un segundo módulo de análisis y los segundos canales de subbanda, y desmezclar la segunda mezcla descendente transformada, cuando la indicación de activación se establece en el estado de activación, basándose en información lateral paramétrica en las dos o más señales de objeto de audio para obtener la señal de salida de audio, y desmezclar la primera mezcla descendente transformada, cuando la indicación de activación no se establece en el estado de activación, basándose en la información lateral paramétrica sobre las dos o más señales de objeto de audio para obtener la señal de salida de audio,

en el que la indicación de activación se establece en el estado de activación dependiendo de una presencia de un transitorio en al menos una de las dos o más señales de objeto de audio,

en el que el transitorio indica un cambio de señal de la al menos una de las dos o más señales de objeto de audio.

Método de codificación de dos o más señales de objeto de audio de entrada, en el que el método comprende:

establecer una indicación de activación en un estado de activación dependiendo de una propiedad de señal de al menos una de las dos o más señales de objeto de audio de entrada,

transformar cada una de las señales de objeto de audio de entrada para obtener una primera señal de objeto de audio transformada de dicha señal de objeto de audio de entrada, en el que dicha primera señal de objeto de audio transformada comprende una pluralidad de primeros canales de subbanda,

generar para cada una de las señales de objeto de audio de entrada, cuando la indicación de activación se establece en el estado de activación, una segunda señal de objeto de audio transformada mediante la transformación de al menos uno de los primeros canales de subbanda de la primera señal de objeto de audio transformada de dicha señal de objeto de audio de entrada para obtener una pluralidad de segundos canales de subbanda, en el que la segunda señal de objeto de audio transformada comprende dichos primeros canales de subbanda que no se han transformado por un segundo módulo de análisis y dichos segundos canales de subbanda, y

determinar información lateral paramétrica basándose en la segunda señal de objeto de audio transformada de cada una de las señales de objeto de audio de entrada, cuando la indicación de activación se establece en el estado de activación, y determinar la información lateral paramétrica basándose en la primera señal de objeto de audio transformada de cada una de las señales de objeto de audio de entrada, cuando la indicación de activación no se establece en el estado de activación

en el que la indicación de activación se establece en el estado de activación dependiendo de una presencia de un transitorio en al menos una de las dos o más señales de objeto de audio,

en el que el transitorio indica un cambio de señal de la al menos una de las dos o más señales de objeto de audio.

Programa informático adaptado para implementar el método según la reivindicación 11 o 12 cuando se ejecuta en un ordenador o un procesador de señales.