MX2008012439A

MX2008012439A - Metodo de codificacion y decodificacion de señal de audio basada en objetos y aparato para lo mismo.

Info

Publication number: MX2008012439A
Application number: MX2008012439A
Authority: MX
Inventors: Hee Suk Pang; Dong Soo Kim; Jae Hyun Lim; Sung Yong Yoon; Hyun Kook Lee
Original assignee: Lg Electronics Inc
Priority date: 2006-11-24
Filing date: 2007-11-24
Publication date: 2008-10-10
Also published as: CA2645863C; RU2010147691A; CA2645911A1; ES2387692T3; US20090265164A1; RU2544789C2; JP2010511190A; EP2095364A1; CA2645911C; WO2008063034A1; JP2010511189A; US20090210239A1; EP2095364A4; KR20110002489A; RU2484543C2; BRPI0711094A2; JP5394931B2; AU2007322488B2; KR101102401B1; EP2095364B1

Abstract

La presente invención se refiere a un método y aparato para codificar y decodificar señales de audio basadas en objetos. Este método de decodificación de audio incluye extraer una primera señal de audio y un primer parámetro de audio en la cual se codifica un objeto de música sobre una base de canal y una segunda señal de audio y un segundo parámetro de audio en la cual un objeto vocal se codifica sobre una base de objeto, de una señal de audio, generando una tercera señal de audio empleando por lo menos una de las primera y segunda señales de audio y genera una señal de audio de múltiples canales empleando por lo menos uno de los primero y segundo parámetros de audio y la tercera señal de audio. Consecuentemente, la cantidad de calcula para proceso de codificación y decodificación y se puede reducir eficientemente el tamaño de una corriente e bits que se codifica.

Description

MÉTODO DE CODIFICACIÓN Y DECODIFICACIÓN DE SEÑAL DE AUDIO BASADA EN OBJETOS Y APARATO PARA LO MISMO Campo Técnico La presente invención se refiere a un método de codificación y decodificación de audio y aparato para codificar y decodificar señales de audio basadas en objetos de manera que las señales de audio pueden procesarse a través de la agrupación eficiente.

Técnica Anterior En general, un codee de audio basado en objetos emplea un método para enviar la suma de un parámetro especifico extraído de cada señal de objeto y las señales de objetos, restaurando las señales de objetos respectivas de los mismos y mezclando tantas señales de objetos como cierto número deseado de canales. Por lo tanto, cuando es grande el número de señales de objetos, la cantidad de información necesaria para mezclar señales de objetos respectivas se incrementa en proporción al número de las señales de objetos. Sin embargo, en las señales de objetos que tienen una correlación estrecha, la información de mezclado similar y así sucesivamente, se envían con respecto a cada señal de objeto. Consecuentemente, si las señales de objetos se empaquetan en un grupo y la misma información se envía solo una vez, se puede mejorar eficientemente. Aún en un método de codificación y decodificación general, un efecto similar puede obtenerse empaquetando varias señales de objetos en la señal de objetos. Sin embargo, si se usa este método, la unidad de la señal de objeto se incrementa y también es imposible mezclar la señal de objetos como una unidad de señal de objetos original antes de empaquetarlas.

Descripción de la Invención Problema Técnico Consecuentemente, un objeto de la presente invención es proveer un método de codificación y decodificación de audio para codificar y decodificar señales de objetos, en las cuales las señales de audio de objetos con una asociación de empaque en un grupo y por lo tanto pueden procesarse sobre una base por grupo y un aparato para lo mismo .

Solución Técnica Para lograr el objeto anterior, un método de decodificación de señal de audio de acuerdo con la presente invención incluye los pasos de extraer una primera señal de audio y una primer parámetro de audio en el cual se codifica un objeto de música sobre una base de canales y una segunda señal de audio y un segundo parámetro de audio en el cual se codifica un objeto vocal sobre una base de objeto de una señal de audio; generando una tercera señal de audio empleando por lo menos una de las primera y segunda señales de audio y generando una señal de audio de múltiples canales empleando por lo menos uno de los primero y segundo parámetros de audio y la tercera señal de audio. Además, para lograr el objetivo anterior, un método de decodificación de audio de acuerdo con la presente invención incluye los pasos de recibir una señal de mezclado descendente, extrayendo una primera señal de audio en la cual se codifica un objeto de música incluyendo un objeto vocal y una segunda señal de audio en la cual se codifica un objeto vocal, de la señal mixta descendente, y generando cualquiera de una señal de audio incluyendo solo el objeto vocal, una señal de audio comprendiendo el objeto vocal, y una señal de audio que no incluye el objeto vocal basado en las primera y segunda señales de audio. Mientras, un aparato de decodificación de señal de audio de acuerdo con la presente invención incluye un multiplexor para extraer una señal de mezcla descendente e información lateral de una corriente de bits recibida, un decodificador de objetos para generar una tercera señal de audio empleando por lo menos uno de una primera señal de audio en la cual un objeto de música extraído de la señal de mezcla descendente se codifica sobre una base de canal y una segunda señal de audio en la cual se extrae un objeto vocal extraído de la señal mixta descendente se codifica sobre una base de objeto, y un decodificador de múltiples canales para generar una señal de audio de múltiples canales empleando por lo menos uno de un primer parámetro de audio y un segundo parámetro de audio extraído de la información lateral, y la tercera señal de audio. Además, un aparato de decodificación de audio de acuerdo con la presente invención incluye un decodificador de objetos para generar cualquiera de una señal de audio incluyendo solo un objeto vocal, una señal de audio comprendiendo el objeto vocal, y una señal de audio que no incluye el objeto vocal basado en una primera señal de audio en la cual un objeto de música extraído de una señal mixta descendente se codifica y una segunda señal de audio en la cual un objeto vocal extraída de la señal mixta descendente se codifica, y un decodificador de múltiples canales para generar una señal de audio de múltiples canales empelado una salida de señales del decodificador de objetos. Además, el método de decodificación de audio de acuerdo con la presente invención incluye los pasos de generar una primera señal de audio en la cual se codifica un objeto de música sobre una base de canal, y un primer parámetro de audio que corresponde al objeto musical, generando una segunda señal de audio en la cual se codifica un objeto vocal sobre una base de objetos, y un segundo parámetro de audio que corresponde al objeto vocal y que genera una corriente de bits incluyendo las primera y segunda señales de audio y los primero y segundo parámetros de audio. De acuerdo con la presente invención, se provee un aparato de codificación de audio que incluye un codificador de múltiples canales para generar una primera señal de audio en la cual se codifica un objeto de música sobre una base de canales y un primer parámetro de audio basado en canales con respecto al objeto de música, un codificador de objetos para generar una segunda señal de audio en lea cual se codifica un objeto vocal sobre una base de objeto, y un segundo parámetro de audio basado en objetos con respecto al objeto vocal y un multiplexor para generar una corriente de bits incluyendo las primera y segunda señales de audio, y los primero y segundo parámetros de audio. Para logar el objeto anterior, la presente invención provee un medio de grabación que puede leerse en computadora en el cual se registra un programa para ejecutar el método anterior en una computadora.

Efectos Ventajosos De acuerdo con la presente invención, las señales de audio de objeto con una asociación se pueden procesar sobre una base de grupo mientras que utiliza las ventajas para codificar y decodificar las señales de audio basadas en objetos al mayor grado posible. Consecuentemente, se pueden mejorar la eficiencia en términos de la cantidad de cálculo en los proceso de codificación y decodificación, el tamaño de una corriente de bits que se codifican, y asi sucesivamente. Además, la presente invención se puede aplicar a un sistema de karaoke, etc., de manera útil mediante la agrupación de señas de objetos en un objeto de música, un objeto vocal, etc .

Breve Descripción de los Dibujos La Fig. 1 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una primera modalidad de la presente invención, La Fig. 2 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una segunda modalidad de la presente invención, La Fig. 3 es una vista que ilustra una correlación entre una fuente de sonido, grupos y señales de objetos; La Fig. 4 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una tercera modalidad de la presente invención; Las Figs. 5 y 6 son vistas que lustran un objeto principal y un objeto de fondo; Las Figs. 7 y 8 son vistas que ilustran una configuración de una corriente de bits generada en el aparato de codificación; La Fig. 9 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una cuarta modalidad de la presente invención; La Fig. 10 es una vista que ilustra una caja en donde se usa una pluralidad de objetos principales; La Fig. 11 es un diagrama de bloque de un aparato de codificación y decodificación de audio de acuerdo con una quinta modalidad de la presente invención; La Fig. 12 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una sexta modalidad de la presente invención; La Fig. 13 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una séptima modalidad de la presente invención; La Fig. 14 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una octava modalidad de la presente invención; La Fig. 15 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una novena modalidad de la presente invención; y La Fig. 16 es una vista que ilustra la caja en donde se codifican paso por paso los objetos vocales.

Mejor Modo para Llevar a Cabo la Invención La presente invención será descrita ahora en detalle con referencia a los dibujos anexos. La Fig. 1 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una primera modalidad de la presente invención. El aparato de codificación y decodificación de audio de acuerdo con la presente modalidad decodifica y decodifica una señal de objetos que corresponde a una señal de audio basada en objetos sobre la base de un concepto de agrupación. En otras palabras, se llevan a cabo un proceso de codificación y decodificación sobre una base por grupo uniendo una o más señales de objetos con una asociación en el mismo grupo. Haciendo referencia a la Fig. 1, se muestra un aparato de codificación de audio 110 incluyendo un codificador de objetos 111, y un aparato de decodificación de audio 120 incluyendo un decodificador de objetos 121 y una mezcladora/procesador 123. Aunque no se muestra en el dibujo, el aparato de codificación 110 puede incluir un multiplexor, etc. para generar una corriente de bits en la cual se combinan una señal de mezclado descendente e información lateral, y el aparato de decodificación 120 puede incluir un desmultiplexor, etc. para extraer una señal de mezcla descendente e información lateral de una corriente de bits recibida. Esta construcción es la caja, con el aparato de codificación y decodificación de acuerdo con otras modalidades que se describen más adelante. El aparato de codificación 110 recibe señales de objetos N e información de grupos que incluyen información de posición relativa, información de tamaño, información de registros de tiempo, etc., sobre una base por grupo, de la señal de objetos con una asociación. El aparato de codificación 110 codifica una señal en la cual se agrupan las señales de objetos con una asociación, y genera una señal de mezclado descendente basado en objetos que tienen uno o más canales e información lateral, incluyendo información extraída de cada señal de objeto, etc. En el aparato de decodificación 120, el decodificador de objetos 121 genera señales que se codifican sobre la base de agrupación, basado en la señal de mezclado descendente y la información lateral, y el mezclador/procesador 123 coloca las señales fuera del decodificador de objetos 121 en posiciones específicas sobre un espacio de múltiples canales a un nivel específico basado en la información de control. Es decir, el aparato de decodificación 120 genera señales de múltiples canales sin señales no empacadas que se codifican sobre la base de agrupación sobre una base por objeto. A través de esta construcción, la cantidad de información que será transmitida puede reducirse agrupando y codificando señales de objetos que tienen cambio se posición similar, cambio de tamaño, cambio de retardo, etc., de acuerdo con el tiempo. Además, si se agrupan las señas de objetos, se puede transmitir la información lateral común con respecto a un grupo, por lo que varias señales de objetos que pertenecen al mismo grupo pueden controlarse fácilmente. La Fig. 2 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una segunda modalidad de la presente invención. Un aparato de decodificación de señal de audio 140 de acuerdo con la presente modalidad es diferente de la primera modalidad en cuanto a que incluye además un extractor de objetos 143. En otras palabras, el aparato de codificación 130, el decodificador de objetos 141, y la mezcladora/procesador 145 tiene la misma función y construcciones que aquellas de la primera modalidad. Sin embargo, dado que el aparato de decodificación 140 además incluye el extractor de objetos 143, puede desempaquetarse un grupo al cual pertenece una señal de objetos sobre una base de objetos cuando es necesario que se desempaquete una unidad de objetos. En este caso, todos los grupos no se desempaqueten sobre una base por objetos, pero las señales de objetos pueden extraerse con respecto únicamente a grupos en los cuales no puede llevarse a cabo el mezclado de cada grupo, etc. La Fig. 3 es una vista que ilustra una correlación entre una fuente de sonidos, grupos y señales de objetos.

Como se muestra en la fig. 3, las señales de objetos que tienen una propiedad similar se agrupan de manera que puede reducirse el tamaño de una corriente de bits y todas las señales de objetos pertenece a un grupo superior. La Fig. 4 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una tercera modalidad de la presente invención. En el aparato de codificación y decodificación de audio de acuerdo con la presente modalidad, se usa el concepto de un canal de mezclado descendente de núcleo. Haciendo referencia a la Fig. 4, se muestra un codificador de objetos 151 que pertenece a un aparato de codificación de audio y un aparato de decodificación de audio 160 que incluye un decodificador de objetos 161 y una mezcladora/creadora de imágenes 163. El codificador de objetos 151 recibe señales de objetos N (N>1) y genera señales que se mezclan descendentemente sobre canales M (1>M>N). En el aparato de decodificación 160, el decodificador de objetos 161 decodifica las señales que se han mezclado descendentemente sobre los canales M, en señales de objetos N de nuevo y la mezcladora/productora 163 finalmente da señales de canal L (L>1) . En este momento, los canales de mezclado descendente M generados por el codificador de objetos 151 comprende canales de mezclado descendente de núcleo K (K<M) y canales de mezclado descendente sin núcleo M-K. La razón por la cual se construyen canales de mezclado descendente como se describió antes es que la importancia del mismo puede cambiar de acuerdo con una señal de objeto. En otras palabras, un método de codificación y decodificación general no tiene una resolución suficiente con respecto a una señal de objeto y por lo tanto puede incluir los componentes de otras señales de objetos sobre una base de señal por objeto. Por lo tanto, si se comprenden canales de mezclado descendente de los canales de mezclado descendente de núcleo y los canales de mezclado descendente sin núcleo como se describió antes, se puede reducir la interferencia entre las señales de objetos. En este caso, el canal de mezcla descendente puede usar un método de proceso diferente al del canal de mezcla descendente sin núcleo. Por ejemplo, en la Fig. 4, la entrada de información lateral a la mezcladora/procesador 163 puede definirse únicamente en el canal de mezclado descendente. En otras palabras, la mezcladora/procesador 163 puede configurarse para controlar cualesquiera señales de objetos decodificadas del canal de mezclado descendente sin señales de objetos decodificadas del canal de mezclado descendente sin núcleo. Como otro ejemplo, el canal de mezclado descendente de núcleo se puede construir únicamente de un pequeño grupo de señales de objetos, y las señales de objetos se agrupan y se controlan con base en la información de control. Por ejemplo, un canal de mezclado descendente de núcleo adicional puede construirse únicamente de señales vocales con el fin de construir un sistema de karaoke. Además, se puede construir un canal de mezclado descendente de núcleo adicional agrupando solo señales de un tambor, etc., de manera que la intensidad de una señal de baja frecuencia, tal como una señal de tambor, puede controlarse con precisión. Mientras, la música se genera generalmente mezclando varias señales de audio que tienen la forma de una pista, etc. por ejemplo, en el caos de música comprendida de tambor, guitarra, piano y señales vocales, cada uno del tambor, guitarra, piano y señales vocales pueden convertirse en una señal de objetos. En este caso, una de las señales de objetos totales, que se determina que es especialmente importante y se puede controlar por un usuario, o un número de señales de objetos, que se mezclan y controlan como una señal de objetos, se puede definir como un objeto principal. Además, una mezcla de señales de objetos diferentes al objeto principal de las señales de objetos totales puede definirse como un objeto de fondo. De acuerdo con esta definición, puede ser tal que un objeto total o un objeto de música consiste del objeto principal y el objeto de fondo. Las Figs. 5 y 6 son vistas que ilustran el objeto principal y el objeto de fondo. Como se muestra en la fig. 5a, suponiendo que el objeto principal es sonido vocal y el objeto de fondo es la mezcla de sonidos de todos los instrumentos musicales diferentes al sonido vocal, un objeto musical puede incluir un objeto vocal y un objeto de fondo del sonido mezclado de los instrumentos musicales diferentes al sonido vocal. El número del objeto principal puede ser uno o más, como se muestra en la Fig. 5b. Además, el objeto principal puede tener una forma en la cual varias señales de objetos se mezclan. Por ejemplo, como se muestra en la Fig. 6, el mezclado de sonido vocal y de guitarra puede usarse como los objetos principales y los sonidos de los instrumentos musicales restantes pueden usarse como los objetos de fondo. Con el fin de controlar por separado el objeto principal y el objeto de fondo en el objeto de música, la corriente de bits codificada en el aparato de codificación deberá tener uno de los formaos mostrados en la Fig. 7.

La Fig. 7a ilustra un caso en donde la corriente de bits generada en el aparato de codificación está comprendido de una corriente de bits de música y una corriente de bits del objeto principal. La corriente de bits de música tiene una forma en la cual se mezclan las señales de objetos, y se refiere a una corriente de bits que corresponde a la suma de todos los objetos principales y objetos de fondo. La Fig. 7b ilustra un caso en donde la corriente de bits está comprendida de una corriente de bits de música y una corriente de bits del objeto de fondo. La Fig. 7c ilustra un caso en donde la corriente de bits está comprendida de una corriente de bits del objeto principal y una corriente de bits del objeto de fondo. En la Fig. 7, se crea una regla para generar la corriente de bits de música, la corriente de bits del objeto principal y la corriente de bits del objeto de fondo usando un codificador y un decodificador que tiene el mismo método. Sin embargo, cuando se usa el objeto principal como un objeto vocal, la corriente de bits de música puede codificarse usando un codee de voz, tal como AMR, QCELP, EFR, o EVRC con el fin de reducir la capacidad de la corriente de bits. En otras palabras, los métodos de codificación y decodificación del objeto de música y el objeto principal, el objeto principal y el objeto de fondo y por lo tanto puede diferir.

En la Fig. 7a, la parte de corriente de bits de música se configura usando el mismo método que un método de codificación general. Además, en el método de codificación tal como MP3 o AAC, un aparte en la cual la información lateral, tal como una región complementaria o una región auxiliar, se indica incluida en la última mitad de la corriente de bits. La corriente de bits del objeto principal puede agregarse a esta parte. Por lo tanto, una corriente de bits esta comprendida de una región en donde el objeto de música se codifica y una región de objeto principal subsiguiente a la región en donde se codifica el objeto de música. En este momento, un indicador, etiqueta o similares, que informa que se agregó el objeto principal, puede agregarse a la primera mitad de la región lateral de manera que se puede determinar si existe o no el objeto principal en el aparato de decodificación. El caso de la Fig. 7b tiene básicamente el mismo formato que el de la Fig. 7a. En la Fig. 7b, el objeto de fondo se usa en lugar del objeto principal de la Fig. 7a. La Fig. 7c ilustra un caos en donde la corriente de bits está comprendida de una corriente de bits del objeto principal y una corriente de bits del objeto de fondo. En este caos, el objeto de música esta comprendido de la suma o mezcla del objeto principal y el objeto de fondo. En un método para configurar la corriente de bits, el objeto de fondo puede almacenarse primero y el objeto principal puede almacenarse en la región auxiliar. Alternativamente, el objeto principal primero puede almacenarse y el objeto de fondo puede almacenarse en la región auxiliar. En tal caso, se puede agregar un indicador para informar la información acerca de la región lateral a la primera mitad de la región lateral, que es igual que la descrita antes. La Fig. 8 ilustra un método para configurar la corriente de bits de manera que se puede determinar si se ha agregado el objeto principal. Un primer ejemplo es uno en el cual después de que se termina la corriente de bits, una región correspondiente es una región auxiliar hasta que empieza un siguiente marco. En el primer ejemplo, solo se puede incluir un indicador, que informa que el objeto principal se ha codificado. Un segundo ejemplo corresponde a un método de codificación que requiere un indicador, informando que empieza una región auxiliar o una región de datos después de que termina una corriente de bits. Con este fin, para codificar un objeto principal, se requieren dos clases de indicadores, tal como un indicador para informar el inicio de la región auxiliar y un indicador para informar el objeto principal. Para decodificar esta corriente de bits, el tipo de datos se determina leyendo el indicador y luego se decodifica la corriente de bits leyendo una parte de datos.

La Fig. 9 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una cuarta modalidad de la presente invención. El aparato de codificación y decodificación de audio de acuerdo con la presente modalidad codifica y decodifica una corriente de bits en la cual se agrega un objeto vocal como un objeto principal . Haciendo referencia a la Fig. 9, un codificador 211 incluido en un aparato de codificación codifica una señal de música que incluye un objeto ocal y un objeto de música. Ejemplos de las señales de música del codificador 211 puede incluir MP3, AAC, WMA, y asi sucesivamente. El codificador 211 adiciona el objeto vocal a una corriente de bits como un objeto principal diferente a las señales de música. En este momento, el codificador 211 adiciona el objeto vocal a una parte, informando la información lateral tal como una región complementaria o una región auxiliar, como se mencionó antes, y también agrega un indicador, etc., informando al aparato de codificación del hecho que el objeto vocal existe adicionalmente a la parte. Un aparato de decodificación 220 incluye un decodificador codee general 221, un decodificador vocal 223, y una mezcladora 225. El decodificador codee general 221 decodifica la parte de corriente de bits de música de la corriente de bits recibida. En este caso, una región de objeto principal simplemente se reconoce como una región lateral o una región de datos, pero no se usa en el proceso de decodificación. El decodificador vocal 223 decodifica la parte de objeto vocal de la corriente de bits recibida. La mezcladora 225 mezcla las señales decodificadas en el decodificador codee general 221 y el decodificador vocal 223 y da los resultados de mezclado. Cuando una corriente de bits en la cual se incluye un objeto vocal cuando se recibe un objeto principal, el aparato de codificación que no incluye el decodificador vocal 223 decodifica únicamente una corriente de bits de música y da los resultados de decodificación. Sin embargo, aún en este caso, es igual que una salida de audio general dado que la señal vocal se incluye en la corriente de música. Además, en el proceso de decodificación, se determina si el objeto vocal se ha agregado a la corriente de bits basado en un indicador, etc. Cuando es imposible decodificar el objeto vocal, el objeto vocal se pasa por alto mediante omisiones, etc., pero cuando es posible decodificar el objeto vocal, el objeto vocal se decodifica y se usa para mezclado. El decodificador codee general 221 se adapta para reproducir música y generalmente usa decodificación de audio. Por ejemplo hay MP3, AAC, HE-AAC, WMA, Ogg Vorbis, y similares. El decodificador vocal 223 puede usar el mismo codee o uno diferente de aquel del decodificador de codee general 221. Por ejemplo, el decodificador vocal 223 puede usar un codee de voz, tal como VRC, EFR, AMR o QCELP. En este caso, se puede reducir la cantidad de calculo para decodificación . Además, si el objeto vocal está comprendido de señal mono, el régimen de bits puede reducirse al mayor grado posible. Sin embargo, si la corriente de bits de música no puede estar comprendida únicamente de señal mono debido a que esta comprendida de canales estéreo y señales de voz y difieren los canales de izquierda y derecha, el objeto vocal también puede estar comprendido de estéreo. En el aparato de decodificación 220 de acuerdo con la presente modalidad, cualquiera de un modo en el cual se reproduce solamente música, un modo en el cual solo se reproduce un objeto principal, y un modo en el cual la música y un objeto principal se mezclan y reproducen adecuadamente pueden seleccionarse y reproducirse en respuesta a un comando de control de usuario tal como un botón o manipulación de menú en un dispositivo reproductor. En el caso en donde un objeto principal se pasa por alto y solo se reproduce música original, corresponde a la reproducción de música existente. Sin embargo, dado que es posible el mezclado en respuesta a un comando de control de usuario, etc., se puede controlar el tamaño del objeto principal o un objeto de fondo, etc.. Cuando el objeto principal es un objeto vocal, se entiende que solo se puede incrementar o disminuir lo vocal cuando se compara con la música de fondo. Un ejemplo en el cual solo se produce un objeto principal puede incluir uno en el cual un objeto vocal o un sonido de instrumento musical especial se usa como el objeto principal. En otras palabras, se entiende que solo se escucha una voz sin música de fondo, únicamente se escucha un sonido de instrumento musical sin música de fondo, y similares. Cuando se mezclan y escuchan adecuadamente la música y un objeto principal, se entiende que solo la vocal se incrementa o disminuye cuando se compara con la música de fondo. En particular, en el caso en el que los componentes vocales se eliminan completamente de la música, la música puede usarse como un sistema de karaoke dado que desabracen los componentes vocales. Si se codifica un objeto vocal en el aparato de codificación en un estado en donde se invierte la fase del objeto vocal, el aparato de decodificación puede reproducir un sistema de karaoke agregando el objeto vocal a un objeto musical. En el proceso anterior, se ah descrito que el objeto musical y el objeto principal se decodifican respectivamente y luego se mezclan. Sin embargo, el proceso de mezclado puede llevarse a cabo durante el proceso de decodificación. Por ejemplo, para transformar la serie de codificación tal como MDCT (Transformación de Coseno Discreta modificada, MDCT por sus siglas en inglés) incluyendo MP3 y AAC, el mezclado puede llevarse a cabo en coeficientes de MDCT y se puede realizar finamente MDCT, generando asi salidas de PCM. En este caso, una cantidad de total de cálculo puede reducirse significativamente. Además, la presente invención no se limita a MDCT, pero incluye todas las transformaciones en las cuales se mezclan los coeficientes en un dominio de transformación con respecto a un decodificador en serie de codificación de transformación general y se lleva a cabo la decodificación. Además, un ejemplo en el cual se usa un objeto principal se ha descrito en el ejemplo anterior. Sin embargo, se puede usar cierto número de objetos principales. Por ejemplo, como se muestra en la Fig. 10, se puede usar la voz como un objeto principal 1 y se puede usar una guitarra como un objeto principal 2. Esta construcción es muy útil cuando solo se reproduce un objeto de fondo diferente a la voz y se reproduce una guitarra en la música y un usuario produce directamente la voz y una guitarra. Además, esta corriente de bits puede reproducirse a través de varias combinaciones de música, una en la cual se excluye la voz de la música, una en la cual se excluye una guitarra de la música, una en la cual la voz y una vocal de guitarra se excluyen de la música, y asi sucesivamente.

Mientras, en la presente invención, un canal indicado por una corriente de bits bocal puede expandirse. Por ejemplo, todas las partes de música, una parte de sonido de tambor de música, o una parte en la cual solo se excluye el sonido de tambor de todas las partes en la música pueden reproducirse usando una corriente de bits de tambor. Además, se puede controlar el mezclado sobre una base por partes usando dos o más corrientes de bits adicionales tales como la corriente de bits de voz y la corriente de bits de tambor. Además, en la presente modalidad, solo el estereo/mono se ha descrito principalmente. Sin embargo, la modalidad presente también puede expandirse a una caja de múltiples canales. Por ejemplo, una corriente de bits puede configurarse agregando un objeto vocal, una corriente de bits del objeto principal, y asi sucesivamente a una corriente de bits del canal 5.1, y al reproducirse, puede eliminarse cualquiera del sonido original, sonido del cual se produce la voz, y sonido incluyendo solo voz. La presente modalidad también puede configurarse para soportar solamente música y un modo en el cual se elimina la voz de la música, pero no soporta un modo en el cual se reproduce cualquier voz (un objeto principal) . Este método puede usarse cuando lo cantantes no desean que solo se reproduzca la voz. Se puede expandir a la configuración de un decodificador en el cual un identificador, indicando si existe o no una función para soportar solo la voz, se coloca en una corriente de bits y el rango de reproducción se decide con base en la corriente de bits. La Fig. 11 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una quinta modalidad de la presente invención. El aparato de codificación y decodificación de audio de acuerdo con la presente modalidad puede implementar un sistema de karaoke usando una señal residual. Cuando se especializa un sistema de karaoke, se puede dividir un objeto musical en un objeto de fondo y un objeto principal como se mencionó antes. El objeto principal se refiere a una señal de objetos que será controlada por separado del objeto de fondo. En particular, el objeto principal puede referirse a una señal de objeto vocal. El objeto de fondo es la suma de todas las señales de objeto diferentes al objeto principal. Haciendo referencia a la Fig. 11, un codificador 251 incluido en un aparato de codificación codifica un objeto de fondo y un objeto principal cuando se colocan juntos. En el momento de codificación, un codee de audio general tal como AAC o MP3 puede usarse. Si la señal se decodifica en un aparato de decodificación 260, la señal decodificada incluye una señal de objeto de fondo y una señal de objeto principal. Suponiendo que la señal decodificada es una señal de codificación original, el siguiente método puede usarse con el fin de aplicar un sistema de karaoke a la señal. El objeto principal se incluye en una corriente de bits total en la forma de una señal residual. El objeto principal se decodifica y luego se sustrae de la señal de decodificación original. En este caso, un primer decodificador 261 decodifica la señal total y el segundo decodificador 263 decodifica la señal residual, en donde g = 1. Alternativamente, la señal de objeto principal que tiene una fase inversa puede incluirse en la corriente de bits total en la forma de una señal residual. La señal de objeto principal puede codificarse y luego agregarse a la señal de decodificación original. En este caso, g = -1. En cualquier caso, una clase de un sistema de karaoke decreciente es posible controlando el valor de g. Por ejemplo, cuando g = -0.5, el objeto principal o el objeto vocal no se remueve completamente, pero solo el nivel puede controlarse. Además, si el valor g se fija aun número positivo o un número negativo, hay un efecto en cuanto a que se puede controlar el tamaño del objeto vocal. Si no se usa la señal de decodificación original y solo sale la señal residual, un modo de solo puede soportarse también cuando solo hay voz. La Fig. 12 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una sexta modalidad de la presente invención. El aparato de codificación y decodificación de audio de acuerdo con la presente modalidad usa dos señales residuales diferenciando las señales residuales para una salida de señal de karaoke y una salida de modo de vocal. Haciendo referencia a la Fig. 12, una señal de decodificación original codificada en un primer decodificador 291 se divide en una señal de objeto de fondo y una señal de objeto principal y luego sale en una unidad de separación de objeto 295. En realidad, el objeto de fondo incluye algunos componentes de objetos principales asi como el objeto de fondo original y el objeto principal también incluye algunos componentes de objeto de fondo asi como el objeto principal original. Esto se debe al proceso de dividir la señal de decodificación original en el objeto de fondo y la señal de objeto principal no se completa. En particular, con respecto al objeto de fondo, los componentes del objeto principal incluidos en el objeto de fondo pueden incluirse previamente en la corriente de bits total en la forma de la señal residual, la corriente de bits total puede decodificarse y los componentes de objetos principales pueden sustraerse luego del objeto de fondo. En este caso, en la Fig. 12, g = 1. Alternativamente, una fase inversa puede darse a los componentes del objeto principal incluidos en el objeto de fondo, los componentes del objeto principal pueden incluirse en la corriente de bits total en forma de una señal residual, y la corriente de bits total puede decodificarse y luego agregarse a la señal de objeto de fondo. En este caos, en la Fig. 12, g = -1. En cualquier caso, es posible un sistema de karaoke creciente controlando el valor g como se mencionó antes junto con la quinta modalidad . De la misma manera, un modo de solo puede soportarse controlando un valor gl después de que se aplica a la señal residual a la señal de objeto principal. El valor gl puede aplicarse como se describió antes en consideración de la comparación de fases de la señal residual y el objeto original y el grado de un modo vocal. La Fig. 13 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una séptima modalidad de la presente invención. En la presente modalidad, se usa el siguiente método con el fin de reducir más el régimen de bits de una señal residual en la modalidad anterior. Cuando una señal de objeto principal es de señal mono, una unidad de conversión de estéreo a tres canales 305 realiza la transformación de estéreo a tres canales en una señal de estéreo original decodificada en un primer decodificador 301. Dado que la transformación de estéreo a tres canales no es completa, un objeto de fondo (es decir, una salida del mismo) incluye algunos componentes de objetos principales asi como componentes de objetos de fondo, y un objeto principal (es decir, otra salida del mismo) también incluye algunos componentes de objeto de fondo asi como los componentes del objeto principal. Luego, un segundo decodificador 303 realiza la decodificación (o después de la decodificación, conversión de qmf o conversión de mdct-a-qmf ) en una parte residual de una corriente de bits total y suma sopesando la señal de objeto de fondo y la señal de objeto principal. Consecuentemente, se pueden obtener las señales comprendidas respectivamente de los componentes de objeto de fondo y los componentes de objeto principales. La ventaja de este método es que dado que la señal de objeto de fondo y la señal de objeto principal se han dividido una vez a través de la conversión de estéreo a tres canales, una señal residual para remover otro componentes incluidos en la señal 8es decir, los componentes del objeto principal que permanecen dentro de la señal de objeto de fondo y los componentes de objeto de fondo que permanecen dentro de la señal de objeto principal) pueden construirse usando un régimen de bits menor. Haciendo referencia a la Fig. 13, suponiendo que el componente de objeto de fondo es B y el componente de objeto principal es m dentro de la señal de objeto de fondo y los componentes de objeto de fondo que permanecen dentro de la señal de objeto principal) pueden construirse usando un régimen de bits menor. Haciendo referencia a la Fig. 13, suponiendo que el componente de objeto de fondo es B y el componente de objeto principal es m dentro de la señal de objeto de fondo BS y el componente de objeto principal es M y el componente de objeto de fondo es b dentro de la señal de objeto principal MS, se establece la siguiente fórmula. Figura Matemática 1 BS = B + MS = M +b Por ejemplo, cuando la señal residual R está comprendida de b-m, una salida de karaoke final KO da como resultado: Figura Matemática 2 KO = BS + R = B + b Una salida de modo solo final SO da como resultado: Figura Matemática 3 SO = BS - R = M + m El signo de la señal residual puede invertirse en la fórmula anterior, es decir, R = m - b, g = -1 y gl = 1. Cuando se configura BS y MS, los valores de g y gl en los cuales los valores finales de kO y SO comprenderán B y b, y M y m pueden calcularse fácilmente dependiendo de la forma en que se colocan los signos de B, m, M y/o b. En los casos anteriores, tantotas señales de karaoke como de solo cambian ligeramente de las señales originales, pero son posibles las salidas de señales de alta calidad que pueden usarse realmente debido a que la salida de karaoke no incluye los componentes de solo y la salida de solo no incluye los componentes de karaoke. Además, cuando existen dos objetos principales, de dos a tres canales de conversión y un incremento/disminución de la señal residual se puede usar paso a paso. La Fig. 14 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una octava modalidad de la presente invención. Un aparato de decodificación de señales 290 de acuerdo con la presente modalidad es diferente de la séptima modalidad en la que se lleva a cavo la conversión de mono a estero en cada canal de estéreo original dos veces cuando una señal de objeto principal es una señal de estéreo. Dado que la conversión de mono a estéreo no es perfecta, una señal de objeto de fondo (es decir, una salida del mismo) incluye algunos componentes de objeto principales asi como componentes de objetos de fondo y una señal de objeto principal (es decir, la otra salida del mismo) también incluye algunos componentes de objetos de fondo asi como componentes de objetos principales. Después, se lleva a cabo la decodificación (o después de la decodificación, la conversión de qumf o conversión de mdct-a-qmf ) en una parte residual de una corriente de bits total y los componentes de canal de izquierda y derecha de los mismos y se agrega a los canales de izquierda y derecha de una señal de objeto de fono y una señal de objeto principal, respectivamente, que se multiplican por un peso, de manera que se pueden obtener las señales comprendidas de un componente de objeto de fondo 8estreo) y un componente de objeto principal (estéreo) . En el caso en que se formen las señales residuales estéreo empleado la diferencia entre los componentes de izquierda y derecha del objeto de fondo de estéreo y el objeto principal, g = g2 = g3 = 1 en la Fig. 14. Además, como se describió antes los valores de g, gl, g2, y g3 pueden calcularse fácilmente de acuerdo con los signos de la señal de objeto de fondo, la señal de objeto principal y la señal residual . En general, una señal de objeto principal puede ser mono o estéreo. Por esta razón, una etiqueta, indicando si la señal de objeto principal es mono o estéreo, se coloca dentro de una corriente de bits total. Cuando la señal de objeto principal es mono, la señal de objeto principal puede decodificarse usando el método descrito junto con la séptima modalidad de la Fig. 13, y cuando la señal de objeto principal es estéreo, la señal de objeto principal puede decodificarse usando el método descrito junto con la octava modalidad de la Fig. 14, leyendo la etiqueta. Además, cuando se incluyen uno o más objetos principales, los métodos anteriores se usan consecutivamente dependiendo de si cada uno de los objetos principales es mono estero. En este momento, el número de veces en los cuales se usa cada método es idéntico al número de objetos principales de mono/estereo . Por ejemplo, cuando el número de objetos principales es 3, el número de objetos principales mono de los tres objetos principales es 2, y el número de objetos principales estéreo es 1, las señales de karaoke pueden salir usando el método descrito junto con la séptima modalidad dos veces y el método descrito junto con la octava modalidad de la Fig. 14 una vez. En este momento, la secuencia del método descrito junto con la séptima modalidad y el método descrito junto con la octava modalidad pueden decidirse previamente. Por ejemplo, el método descrito junto con la séptima modalidad pueden realizarse siempre sobre los objetos mono principales y el método descrito junto con la octava modalidad puede realizarse entonces en los objetos estéreo principales. Como otro método de decisión de secuencias, un descriptor, que describe la secuencia del método descrito junto con la séptima modalidad y el método descrito junto con la octava modalidad, se puede colocar dentro de una corriente de bits total y los métodos pueden realizarse selectivamente con base en el descriptor. La Fig. 15 es un diagrama de bloques de un aparato de codificación y decodificación de audio de acuerdo con una novena modalidad de la presente invención. El aparato de codificación y decodificación de audio de cuerdo con la presente modalidad genera objetos musicales u objetos de fondo usando codificadores de múltiples canales. Haciendo referencia a la Fig. 15, se muestra un aparato de codificación de audio 350 incluyendo un codificador de múltiples canales 351, un codificador de objetos 353, y un multiplexor 355, y un aparato de decodificación de audio 360 incluyendo un desmultiplexor 361, un decodificador de objetos 363, y un decodificador de múltiples canales 369. El decodificador de objetos 363 puede incluir un convertidor de canales 365 y una mezcladora 367. El codificador de múltiples canales 351 genera una señal, que se mezcla descendentemente usando objetos musicales como una base de canal, y primera información de parámetros de audio basada en canales extrayendo información acerca del objeto musical. El decodificador de objetos 353 genera una señal mixta descendente, que se codifica usando objetos de vocales y la señal mixta descendente del codificador de múltiples canales 351, como una base de objeto, segunda información de parámetro de audio basada en objetos, y señales residuales que corresponden a los objetos vocales. El multiplexor 355 genera una corriente de bits en la cual se combinan la señal mixta inferior generada del codificador de objetos 353 e información lateral. En este momento, la información lateral es información que incluye el primer parámetro de uso generado del codificador de múltiples canales 351, las señales residuales y el segundo parámetro de audio generado del decodificador de objetos 353, y asi sucesivamente. En el aparato de codificación de audio 360, el desmultiplexor 361 desmultiplexa la señal de mezcla descendente y la información lateral en la corriente de bits recibida. El decodificador de objetos 363 genera señales de audio con componentes vocales controlados empleando por lo menos una señal de audio en la cual se codifica el objeto musical sobre una base de canales y una señal de audio en la cual se codifica el objeto vocal. El decodificador de objetos 363 incluye el convertidor de canales 365 y por lo tanto puede realizar la conversión de mono a estéreo o conversión de dos a tres en el proceso de decodificación. La mezcladora 367 puede controlar el nivel, posición, etc. de una señal de objeto especifica usando un parámetro de mezclado, etc., que se incluyen en la información de control. El decodificador de múltiples canales 369 genera señales de múltiples canales usando la señal de audio y la información lateral decodificada en el decodificador de objeto 361, y asi sucesivamente . El decodificador de objetos 363 puede generar una señal de audio que corresponde a cualquiera de un modo de karaoke en el cual se generan las señales de audio sin componentes vocales, un modo de solo en el cual se generan las señales de audio que incluye solo componentes vocales, un solo modo en el cual se generan las señales de audio que incluyen solo componentes vocales, y un modo general en el cual las señales de audio incluyendo componentes vocales se generan de acuerdo con la información de control de entrada. La Fig. 16 es una vista que ilustra la caja en donde los objetos vocales se codifican paso a paso. Haciendo referencia a la Fig. 16, un aparato de codificación 380 de acuerdo con la presente modalidad incluye un codificador de múltiples canales 381, primero a tercero objetos decodificador 383, 385 y 387, y un multiplexor 389. El codificador de múltiples canales 381 tiene la misma construcción y función que aquellas del codificador de múltiples canales mostrado en la Fig. 15. La presente modalidad difiere de la novena modalidad de la Fig. 15 en cuanto a que los primero a tercero codificadores de objetos 383, 385 y 387 se configuran para agrupar objetos vocales paso a paso y señales residuales, que se generan en pasos de agrupación respectivos, se incluyen en una corriente de bits generada por el multiplexor 389. En el caos en el que la corriente de bits generada por este proceso se decodifique, una señal con componentes vocales controlados u otros componentes de objetos deseados pueden genere aplicando las señales residuales, que se extraen de la corriente de bits a una señal de audio codificada agrupando los objetos musicales o una señal de audio codificado agrupando los objetos vocales paso a paso. Mientras, en la modalidad anterior, un lugar en donde se lleva a cabo la suma o diferencia de la señal de descodificación original y la señal residual, o la suma o diferencia de la señal de objeto de fondo o la señal de objeto principal y la señal residual, no se limita como un dominio especifico. Por ejemplo, este proceso puede llevarse a cabo en un dominio de tiempo o una clase de dominio de frecuencia tal como un dominio de MDCT. Alternativamente, este proceso puede llevarse a cabo en un dominio de banda secundaria tal como un dominio de banda secundaria de QMF o un dominio de banda secundaria híbrido. En particular, cuando se lleva a cabo este proceso en el dominio de frecuencia o el dominio de banda secundaria, se puede generar una señal de karaoke creciente controlando el número de bandas excluyendo los componentes residuales. Por ejemplo, cuando el número de bandas secundarias de una señal de decodificación original es de 20, si el número de bandas de una señal residual se establece en 20, puede darse una señal de karaoke perfecta. Cuando solo se cubren 10 bajas frecuencias, los componentes ocales se excluyen únicamente de las partes de baja frecuencia y permanecen las partes de alta frecuencia. En el último caso, la calidad de sonido puede ser inferior a la del caso anterior, pero hay una ventaja en cuanto a que puede disminuir el régimen de bits. Además, cuando el número de objetos principales no es uno, se pueden incluir varias señales residuales en una corriente de bits total y la suma o diferencia de las señales residuales pueden realizarse varias veces. Por ejemplo, cuando dos objetos principales incluyen voz y una guitarra y sus señales residuales se incluyen en una corriente de bits total, una señal de karaoke de la cual tanto la señal de voz como de guitarra se han removido, pueden generarse de manera que la señal vocal se remueve primero de la señal total y luego se remueve la señal de guitarra. En este caso, se puede generar una señal de karaoke de la cual solo la señal de vocal se ha removido y una señal de karaoke de la cual solo se ha removido la señal de guitarra. Alternativamente, solo puede salir una señal de voz o solo puede salir la señal de guitarra . Además, con el fin de generar la señal de karaoke removiendo solo la señal de voz de la señal total fundamentalmente, la señal total y la señal vocal se codifican respectivamente. Las dos siguientes clases de secciones se requieren de acuerdo con el tipo de un codee usado para codificación. Primero, siempre que se usa el mismo codee de codificación en la señal total y la señal de voz. En este caso, un identificador , que puede determinar el tipo de un codee de codificación con respecto a la señal total y la señal vocal, tiene que construirse en una corriente de bits y un decodificador realiza el proceso de identificar el tipo de un codee determinando el identificador , decodificando las señales y luego removiendo los componentes vocales. En este proceso, como se mencionó antes, se usa la suma o diferencia. La información acerca del identificado puede incluir información acerca de si una señal residual ha usado el mismo codee como aquel de una señal de decodificación original, el tipo de un codee usado para codificar una señal residual y asi sucesivamente. Además, se pueden usar diferentes codees de codificación para la señal total y la señal de voz. Por ejemplo, la señal de voz (es decir, la señal residual) siempre usa un codee fijo. En este caso, un identificador para la señal residual no es necesario y solo se puede usar un codee predeterminado para decodificar la señal total Sin embargo, en este caso, se limita u proceso para remover la señal residual de la señal total a un dominio en donde el proceso entre las dos señales es posible inmediatamente, tal como un dominio de tiempo o un dominio de banda secundaria. Por ejemplo, un dominio tal como mdct, que procesa entre dos señales es imposible inmediatamente. Además, de acuerdo con la presente invención, puede darse una señal de karaoke comprendida únicamente de una señal de objeto de fondo. Una señal de múltiples canales puede generarse llevando a cabo un proceso de mezclado ascendente adicional en la señal de karaoke. Por ejemplo, si las cercanías de MPEG se aplican adicionalmente a la señal de karaoke generada por la presente invención, se puede generar una señal de karaoke de canal 5.1. Incidentalmente, en las modalidades anteriores, se ha descrito que el número del objeto musical y el objeto principal, o el objeto de fondo y el objeto principal dentro de un marco es idéntico. Sin embargo, puede diferir el número del objeto musical y el objeto principal, o el objeto de fondo y el objeto principal dentro de un marco. Sin embargo, puede diferir el número del objeto de música y el objeto principal o el objeto de fondo y el objeto principal dentro de un marco. Por ejemplo, la música puede existir en cada marco y un objeto principal puede existir cada dos marcos. En este tiempo, el objeto principal puede decodificarse y el resultado de decodificación puede aplicarse a dos marcos.

La música y el objeto principal pueden tener diferentes frecuencias de muestreo. Por ejemplo, cuando la frecuencia de muestreo de música es 44.1 KHz y la frecuencia de muestreo de un objeto principal es de 22.05 KHz, los coeficientes de MDCT del objeto principal pueden calcularse y la mezcla puede llevarse a cabo únicamente en una región correspondiente de coeficientes de MDCT de la música. Esto emplea el principio de que el sonido vocal tiene una banda de frecuencia inferior a la del sonido de instrumento musical con respecto a un sistema de karaoke, y es ventajoso en cuanto a que se puede reducir la capacidad de datos. Además, de acuerdo con la presente invención, los códigos que pueden leer por un procesador pueden implementarse en un medio de grabación que puede leerse por el procesador. El medio de grabación que puede leerse por el procesador puede incluir todas las clases de dispositivos de grabación en los cuales se almacenan los datos que pueden leerse por el procesador. Ejemplos de los medios de grabación que pueden leerse por el procesador pueden incluir ROM, RAM, CD-ROM, cintas magnéticas, discos blandos, almacenamientos de datos ópticos, y asi sucesivamente, y también incluyen ondas portadoras tales como transmisión en una Internet. Además, el medio de grabado que puede leerse por el procesador puede distribuirse en sistemas conectados en una red, y los códigos que pueden leerse por el procesador se pueden almacenar y ejecutarse de una forma distribuida. Mientras que la presente invención se ha descrito en relación con lo que se considera actualmente como las modalidades preferidas, se deberá entender que la presente invención no se limita a las modalidades especificas, pero son posibles varias modificaciones por aquellos que tienen experiencia ordinaria en la materia. Se deberá observar que estas modificaciones no se deberán entender individualmente del espíritu técnico y prospecto de la presente invención.

Aplicabilidad Industrial La presente invención se puede usar para proceso de codificación y decodificación de señales de audio basada sen objetos, etc. señales de objetos de proceso con una asociación sobre una base por grupo y puede proveer modos de reproducción tales como un modo de karaoke, un modo de solo, y un modo general.

Claims

REIVINDICACIONES

1. - Un método de decodificación de audio que comprende : extraer una primera señal de audio y un primer parámetro de audio en el cual se codifica un objeto musical sobre una base de canales y una segunda señal de audio y un segundo parámetro de audio en el cual se codifica un objeto vocal sobre una base de objetos, de una señal de audio, generar una tercera señal de audio empleando por lo menos una de las primera y segunda señales de audio; y generar una señal de audio de múltiples canales empleando por lo menos uno de los primero y segundo parámetros de audio y la tercera señal de audio.

2. - El método de decodificación de audio de la reivindicación 1, en donde la primera señal de audio reobtiene codificando por lo menos dos objetos musicales, y la segunda señal de audio se obtiene codificando por lo menos dos objetos vocales.

3. - El método de decodificación de audio de la reivindicación 1, en donde la tercera señal de audio se genera basado en un comando de control de usuarios.

4. - El método de decodificación de audio de la reivindicación 1, en donde la tercera señal de audio se genera sobre la base de adición/sustracción de una señal de por lo menos una de las primera y segunda señales de audio.

5. - El método de decodificación de audio de la reivindicación 1, en donde la tercera señal de audio se genera removiendo por lo menos una de las primera y segunda señales de audio.

6. - El método de decodificación de audio de la reivindicación 1, en donde la primera señal de audio es una señal que no incluye un componente vocal.

7. - El método de codificación de audio de la reivindicación 1, en donde la señal de audio es una señal recibida de una señal de difusión.

8. - Un aparato de decodificación de audio que comprende : un multiplexor para extraer una señal de mezcla descendente y la información lateral de una corriente de bits recibida; un decodificador de objeto para generar una tercera señal de audio empelado por lo menos uno de una primera señal de audio en la cual un objeto de música extraído de la señal de mezcla descendente se codifica sobre una base de canal y una segunda señal de audio en la cual un objeto vocal extraído de la señal mixta descendente se codifica sobre una base de objeto; y un decodificador de múltiples canales para generar una señal de audio de múltiples canales empleando por lo menos un primer parámetro de audio y un segundo parámetro de audio extraído de la información lateral y la tercera señal de audio.

9. - El aparato de decodificación de audio de la reivindicación 8, en donde el decodificador de objetos genera la tercera señal de audio sobre la base de adición/sustracción de una señal de por lo menos una de las primera y segunda señales de audio.

10. - Un método de decodificación de audio que comprende los pasos de: recibir una señal de mezcla descendente; extraer una primer señal de audio en la cual un objeto musical que incluye un objeto vocal se codifica y una segunda señal de audio en la cual se codifica un objeto vocal, de la señal de mezcla descendente; y generar cualquiera de una señal de audio que incluye únicamente el objeto vocal, una señal de audio comprendiendo el objeto vocal y una señal de audio que no incluye el objeto vocal basado en las primera y segunda señales de audio.

11. - El método de decodificación de audio de la reivindicación 10, en donde la primera señal de audio es una señal que se codifica sobre una base de canal, y la segunda señal de audio es una señal que se codifica sobre una base de objeto.

12. - El método de decodificación de audio de la reivindicación 10, en donde la segunda señal de audio es una señal de una forma residual.

13. - Un aparato de decodificación de audio, que comprende : un decodificador de objeto para generar cualquiera de una señal de audio incluyendo solo un objeto vocal, una señal de audio que comprende el objeto vocal, y se codifica una señal de audio que no incluye el objeto vocal basado en una primera señal de audio en la cual un objeto musical extraído de una señal de mezcla descendente y se codifica una segunda señal de audio en la cual se extrae un objeto vocal de la señal de mezcla descendente; y un decodificador de múltiples canales para generar una señal de audio de múltiples canales empleando una salida de señal del decodificador de objeto.

14. - El aparato de codificador de audio de la reivindicación 13, en donde la primera señal de audio se usan señal que se codifica sobre una base de canales, la segunda señal de audio es una señal que se codifica sobre una base de objeto.

15. - El aparto de decodificación de audio de la reivindicación 13, comprende además un desmultiplexor para extraer la señal de mezcla descendente y la información lateral usada para generar la señal de audio de múltiples canales de una corriente de bits recibida. 16.- Un método de codificación de audio que comprende los pasos de: generar una primera señal de audio en la cual se codifica un objeto musical sobre una base de canal, y un primer parámetro de audio que corresponde al objeto musical; generar una segunda señal de audio en la cual un objeto vocal se codifica sobre una base de objeto, y un segundo parámetro de audio que corresponde al objeto vocal; y generar una corriente de bits que incluye las primera y segunda señales de audio y los primero y segundo parámetros de audio. 17.- Un aparato de codificación de audio que compren : un codificador de múltiples canales para generar una primera señal de audio en la cual se codifica un objeto musical sobre una base de canal, y un primer parámetro de audio basado en canales con respecto al objeto musical; un codificador de objeto para generar una segunda señal de audio en la cual se codifica un objeto vocal sobre una base de objeto; y un segundo parámetro de audio con base en objeto con respecto al objeto vocal; y un multiplexor para generar una corriente de bits incluyendo las primera y segunda señales de audio y los primero y segundo parámetros de audio. 18. - Un medio de grabación en el cual un programa para ejecutar un método de codificación de acuerdo con una de las reivindicaciones 1 a 7, en un procesador se graba, el medio de grabado pudiéndose leer por el procesador. 19. - Un medio de grabación en la cual un programa para ejecutar un método de codificación de acuerdo con la reivindicación 16, en un procesador se graba, el medio de grabación pudiéndose leer por el procesador.