MX2008002391A

MX2008002391A - Metodo y aparato para codificar video de vistas multiples.

Info

Publication number: MX2008002391A
Application number: MX2008002391A
Authority: MX
Inventors: Tae-Hyeun Ha; Pil-Ho Yu
Original assignee: Samsung Electronics Co Ltd
Priority date: 2005-08-22
Filing date: 2006-08-19
Publication date: 2008-03-18
Also published as: WO2007024072A1; CN101243692B; EP1917814A1; EP1917814A4; JP2009505604A; CN101243692A

Abstract

Se proporciona un metodo y un aparato para codificar un video de vistas multiples que utiliza una cantidad minima de informacion con respecto al video de vistas multiples. El metodo incluye: clasificar una pluralidad de marcos B en al menos dos grupos de conformidad con un estandar predeterminado; y secuencialmente codificar los marcos B clasificados. Por lo tanto, un video de vistas multiples que es realista puede proporcionar simultaneamente a mucha gente que utiliza una cantidad minima de informacion con respecto al video de vistas multiples.

Description

MÉTODO Y APARATO PARA CODIFICAR VIDEO DE VISTAS MÚLTIPLES CAMPO DE LA INVENCIÓN Métodos y aparatos consistentes con la presente invención se refieren a codificar una secuencia de video de vistas múltiples, y más particularmente, a codificar un video de vistas múltiples fotografiado por una cámara de vistas múltiples que utiliza una cantidad minima de información con respecto al video de vistas múltiples. ANTECEDENTES DE LA INVENCIÓN El realismo es un factor importante al realizar información de alta calidad y servicios de telecomunicación. Este realismo puede lograrse con comunicación de video basada en imágenes tridimensionales (3D) . Los sistemas de creación de imágenes 3D tienen muchas aplicaciones potenciales en educación, entretenimiento, cirugia médica, videoconferencia, y similares. Para proporcionar a muchos observadores con información más vivida y exacta de una escena remota, se colocan tres o más cámaras en puntos de vista ligeramente diferentes para producir una secuencia de vistas múltiples. Al reflejar el interés actual en imágenes 3D, un número de grupos de búsqueda desarrollaron sistemas de procesamiento y de presentación de imagen 3D. En Europa, la búsqueda sobre 3DTV inició a través de varios proyectos tal como DISTIMA, el objetivo del cual es desarrollar un sistema para capturar, codificar, transmitir y presentar secuencias de Ref. 190418 imagen estereoscópica digitales. Estos proyectos llevaron a otro proyecto, PANORAMA, con la meta de mejorar la información visual en comunicación de telepresencia 3D. Los proyectos también llevaron a otro proyecto, ATTEST, en el cual se investigaron varias tecnologías para la adquisición de contenido 3D, comprensión y transmisión 3D, y sistemas de presentación 3D. En el proyecto ATTEST, se aplicaron estándares de grupo 2 de expertos de imagen de movimiento (MPEG-2, por sus siglas en inglés) y de difusión de video digital (DVB, por sus siglas en inglés) para transmitir contenidos 3D que utilizan escalabilidad temporal. Para lograr escalabilidad temporal, una capa de base se utiliza para la transmisión de contenidos 2D y una capa avanzada se utiliza para la transmisión de contenidos 3D. El estándar de MPEG-2 se enmendó en 1997 para definir un perfil de vistas múltiples (MVP, por sus siglas en inglés) . El MVP define el uso de un modo de escalabilidad temporal para secuencias de cámaras múltiples y parámetros de cámara de adquisición en una sintaxis de MPEG-2. Una corriente de capa de base que representa una señal de video de vistas múltiples puede codificase a un índice de marco reducido, y una corriente de capa de mejora, que puede utilizarse para insertar marcos adicionales entre estos, puede definirse para permitir la reproducción a un índice de marco completo cuando ambas corrientes están disponibles. Una forma muy eficiente de codificar la capa de mejora es determinar el método óptimo de realizar estimación compensada por movimiento en cada macrobloque en un marco de capa de mejora basándose ya sea en un marco de capa de base o un marco de capa de mejora recientemente reconstruido. El procedimiento de estéreo y codificación de canal de vistas múltiples tal como señal de video de vistas múltiples que utiliza sintaxis de escalabilidad temporal es directa. Por este propósito, un marco de una vista de cámara particular (usualmente un marco de ojo izquierdo) se define como la capa de base, y un marco de la otra vista de cámara se define como la capa de mejora. La capa de base representa una secuencia monoscopica simultánea. Para la capa de mejora, aunque la estimación compensada de disparidad puede fallar en regiones obstruidas, incluso es posible mantener la calidad de una imagen reconstruida que utiliza estimación compensada de movimiento dentro del mismo canal. Ya que el MVP de MPEG-2 principalmente se definió para secuencias de estéreo, no soporta secuencias de vistas múltiples y es inherentemente difícil de extender a secuencias de vistas múltiples. La Figura 1 es un diagrama de bloque de un codificador y descodificador convencionales del MVP de MPEG-2. La escalabilidad proporcionada por el MPEG-2 se utiliza para descodificar simultáneamente imágenes que tienen diferentes resoluciones o formatos con un dispositivo de procesamiento de imagen. Entre las escalabilidades soportadas por MPEG-2, la escalabilidad temporal se utiliza para mejorar calidad visual al aumentar un índice de marco. El MVP se aplica a secuencias de estéreo en consideración de escalabilidad temporal. El codificador y descodificador ilustrados en la Figura 1 son un codificador y descodificador de video de estéreo con escalabilidad temporal. Las imágenes a la izquierda en un video de estéreo se ingresan a un codificador de vista de base, y las imágenes a la derecha se ingresan a un codificador de vista auxiliar temporal. El codificador de vista auxiliar temporal proporciona escalabilidad temporal, y es un codificador de capa intermedia que separa en intervalos imágenes entre imágenes de la capa de base. Cuando la imagen a la izquierda se codifica y descodifica de forma separada, puede obtenerse un video bidimensional (2D) . Cuando la imagen a la izquierda y la imagen a la derecha se codifican y descodifican simultáneamente, puede obtenerse un video estereoscópico. Para transmitir o almacenar un video, se necesita un multiplexor de sistema y un demultiplexor de sistema para combinar o separar secuencias de las dos imágenes. La Figura 2 es un diagrama de bloque de un codificador y descodificador de estéreo-video convencionales que utilizan el MVP de MPEG-2.

Una imagen de la capa de base se codifica a través de compensación de movimiento y transformación de coseno separada (DCT, por sus siglas en inglés) . La imagen codificada se descodifica en un procedimiento inverso. Un codificador de vista auxiliar temporal funciona como un codificador de capa intermedia temporal que realiza predicción basándose en la imagen descodificada de la capa de base. En otras palabras, puede realizarse una estimación compensada por disparidad dos veces, o puede realizarse la estimación de disparidad y la estimación compensada por movimiento cada una, una vez. Similar a un codificador y descodificador de una capa de base, el codificador de vista auxiliar temporal incluye una disparidad y codificador y descodificador de DCT compensado por movimiento. Además, un procedimiento de codificación compensado por disparidad requiere un estimador de disparidad y un compensador como un procedimiento de codificación de estimación/compensación de movimiento requiere un estimador de movimiento y compensador. Además de la estimación y compensación de movimiento/disparidad a base de bloque, el procedimiento de codificación incluye realizar DCT en una diferencia entre una imagen estimada y una imagen original, cuantificación de coeficientes de DCT, y codificación de longitud variable. Por otro lado, un procedimiento de descodificación incluye descodificación de longitud variable, cuantificación inversa y DCT inversa. La codificación de MPEG-2 es un método de compresión muy efectivo debido a que se realiza la estimación de movimiento bidireccional para ilustraciones compensadas por movimiento bidireccionalmente (ilustraciones B) . Ya que la codificación de MPEG-2 proporciona escalabilidad temporal altamente efectiva, las ilustraciones B pueden utilizarse para codificar una secuencia de imagen a la derecha. En consecuencia, puede generarse una secuencia derecha altamente comprimida. La Figura 3 ilustra codificación predictiva basada en disparidad en la cual la estimación de disparidad se utiliza dos veces para estimación de movimiento bidireccional. Una imagen izquierda se codifica al utilizar un codificador de MPEG-2 no escalable, y una imagen derecha se codifica al utilizar un codificador de vista auxiliar temporal de MPEG-2 en la imagen izquierda descodificada. En otras palabras, una imagen derecha se predice al utilizar dos imágenes de referencia, por ejemplo, dos imágenes izquierdas, y se codifica en una ilustración B. En este caso, una de las dos imágenes de referencia es una imagen izquierda isócrona para presentarse simultáneamente con la imagen derecha, y la otra es una imagen izquierda que sigue la imagen izquierda isócrona. Similar a la estimación/compensación de movimiento, las dos predicciones tienen tres modos de predicción: un modo directo, un modo hacia atrás y un modo interpolando. El modo directo denota estimación de disparidad basándose en la imagen izquierda isócrona, y el modo hacia atrás denota estimación de disparidad basándose en la imagen izquierda que inmediatamente sigue a la imagen izquierda isócrona. En este caso, una imagen derecha se predice al utilizar vectores de disparidad de las dos imágenes izquierdas. Tal método de estimación se llama codificación predictiva, al considerar sólo vectores de disparidad. Por lo tanto, un codificador estima dos vectores de disparidad para cada marco de una imagen derecha, y un descodificador descodifica la imagen derecha de la imagen izquierda al utilizar dos vectores de disparidad. La Figura 4 ilustra codificación predictiva que utiliza vector de disparidad y un vector de movimiento para la estimación bidireccional. En la codificación predictiva ilustrada en la Figura 4, se utilizan ilustraciones B obtenidas a través de la estimación bidireccional de la Figura 3. Sin embargo, la estimación de disparidad y la estimación de movimiento cada una se utilizan una vez en la estimación bidireccional. Es decir, se utiliza la estimación de disparidad que utiliza una imagen izquierda isócrona y la estimación de movimiento que utiliza una imagen derecha previa . Además, la estimación bidireccional también incluye tres modos de estimación, es decir, un modo directo, un modo hacia atrás y un modo interpolando, como en la codificación predictiva basada en disparidad de la Figura 3. El modo directo denota estimación de movimiento basada en una imagen derecha descodificada, y el modo hacia atrás denota estimación de disparidad basada en una imagen izquierda descodificada. Como se describió anteriormente, ya que el MVP de MPEG-2 no considera un codificador de video de vistas múltiples, no es adecuado para codificar un video de vistas múltiples. Por lo tanto, se requiere un codificador de video de vistas múltiples para proporcionar simultáneamente un video de vistas múltiples, que es estereoscópico y realista, para mucha gente. BREVE DESCRIPCIÓN DE LA INVENCION La presente invención proporciona un método y aparato para codificar eficientemente un video de vistas múltiples que es realista y simultáneamente proporcionar el video de vistas múltiples codificado a mucha gente. La presente invención también proporciona un método y aparato para codificar un video de vistas múltiples que utiliza una estructura de predicción que utiliza una cantidad mínima de información con respecto al video de vistas múltiples . La presente invención proporciona un método y aparato para codificar eficientemente un video de vistas múltiples para proporcionar simultáneamente el video de vistas múltiples que es realista para mucha gente. La presente invención también proporciona un método y aparato para codificar un video de vistas múltiples que utiliza una estructura de predicción de marco B que utiliza una cantidad mínima de información con respecto al video de vistas múltiples. BREVE DESCRIPCIÓN DE LAS FIGURAS Las características y ventajas anteriores y otras de la presente invención serán más evidentes al describir en detalle las modalidades ilustrativas de la misma con referencia a las figuras anexas, en las cuales: la Figura 1 es un diagrama de bloque de un codificador y descodificador de la técnica relacionada de un perfil de vistas múltiples (MVP) de grupo 2 de ilustración de movimiento (MPEG-2); la Figura 2 es un diagrama de bloque de un codificador y descodificador de estéreo-video de la técnica relacionada que utiliza el MVP de MPEG-2; la Figura 3 ilustra una codificación predictiva basada en disparidad de la técnica relacionada en la cual se utiliza la estimación de disparidad dos veces para estimación de movimiento bidireccional; la Figura 4 ilustra una codificación predictiva de la técnica relacionada que utiliza un vector de disparidad y un vector de movimiento para la estimación bidireccional; la Figura 5 es un diagrama de bloque de un aparato para codificar un video de vistas múltiples de conformidad con una modalidad ilustrativa de la presente invención; la Figura 6 ilustra una estructura de codificación de unidad de un video de vistas múltiples de conformidad con una modalidad ilustrativa de la presente invención; la Figura 7A a Figura 7F ilustran tres tipos de ilustraciones B utilizadas en codificación de video de vistas múltiples de conformidad con una modalidad ilustrativa de la presente invención; la Figura 8 ilustra una estructura de codificación de unidad horizontalmente extendida de un video de vistas múltiples de conformidad con una modalidad ilustrativa de la presente invención; la Figura 9 ilustra una secuencia de predicción de la imagen de vistas múltiples de la Figura 8; la Figura 10 ilustra una estructura de codificación de video que utiliza un número irregular de vistas para estimación de movimiento y estimación de disparidad de conformidad con una modalidad ilustrativa de la presente invención; la Figura 11 ilustra una estructura de codificación de video que tiene un número fijo de vistas para estimación de movimiento y estimación de disparidad de conformidad con una modalidad ilustrativa de la presente invención; y la Figura 12 es un diagrama de flujo que ilustra un método de codificación de un video de vistas múltiples de conformidad con una modalidad ilustrativa de la presente invención. DESCRIPCIÓN DETALLADA DE LA INVENCIÓN De conformidad con un aspecto de la presente invención, se proporciona un método de codificación de un video de vistas múltiples, el método que incluye: clasificar una pluralidad de marcos B en al menos dos grupos de conformidad con un estándar predeterminado; y que secuencialmente codifica los marcos B clasificados. El estándar predeterminado puede ser el número de marcos al cual se refiere cada marco B. Alternativamente, el estándar predeterminado puede ser el número de marcos de referencia para el cual se refiere cada marco B y posiciones de los marcos de referencia. Los marcos B pueden clasificarse en un primer grupo de marcos B que se predicen con referencia a dos marcos horizontalmente adyacentes, dos marcos verticalmente adyacentes o un marco horizontalmente adyacente y un marco verticalmente adyacente, un segundo grupo de marcos B que se predice con referencia a dos marcos horizontalmente adyacentes y un marco verticalmente adyacente o un marco horizontalmente adyacente y dos marcos verticalmente adyacentes, y un tercer grupo de marcos B que se predice con referencia a dos marcos horizontalmente adyacentes y dos marcos verticalmente adyacentes, en donde uno o dos marcos horizontalmente adyacentes son un marco o marcos obtenidos del video de vistas múltiples en un mismo nivel temporal como un marco B de referencia, y uno o dos marcos verticalmente adyacentes son un marco o marcos obtenidos de video de vistas múltiples en una misma posición de vista como un marco B de referencia. La codificación secuencial de los marcos B clasificados puede incluir codificar secuencialmente el primer grupo de marcos B, el segundo grupo de marcos B, y el tercer grupo de marcos B. La codificación secuencial puede realizarse basándose en una estructura de codificación de video que incluye los marcos B, y que además puede incluir realizar estimación de disparidad entre marcos dispuestos horizontalmente de conformidad con una pluralidad de vistas y realizar estimación de movimiento entre marcos dispuestos verticalmente de conformidad con el paso del tiempo, y la estructura de codificación de video puede extenderse horizontal y verticalmente. En la estructura de codificación de video que incluye los marcos B, una estructura de codificación de video que tiene n vistas puede configurarse en una estructura de codificación de video que tiene n-l vistas al deshabilitar una (n-l) va columna de marcos, en donde n es' un número natural impar. De conformidad con otro aspecto de la presente invención, se proporciona un aparato para codificar un video de vistas múltiples, el aparato que incluye: una unidad de predicción que predice un vector de disparidad y un vector de movimiento de un video de vistas múltiples de entrada; una unidad de compensación de disparidad y movimiento que compensa una imagen que utiliza el vector de disparidad previsto y el vector de movimiento; una unidad de codificación de imagen residual que recibe una imagen original y la imagen compensada generada por la unidad de compensación de disparidad y movimiento, substrae la imagen compensada de la imagen original, y codifica una imagen residual obtenida de la substracción; y una unidad de codificación de entropía que genera una corriente de bits para el video de vistas múltiples que utiliza el vector de disparidad, el vector de movimiento, y la imagen residual codificada, en donde la unidad de predicción clasifica una pluralidad de marcos B en al menos dos grupos de conformidad con un estándar predeterminado y secuencialmente predice los marcos B clasificados. De conformidad con otro aspecto de la presente invención, se proporciona un medio de registro legible por computadora en el cual se registra un programa para ejecutar un programa para implementar el método.

La presente invención ahora se describirá más completamente con referencia a las figuras anexas, en las cuales se muestran las modalidades ilustrativas de la invención. La invención, sin embargo, puede representarse en muchas formas diferentes y no debe interpretarse como limitada a las modalidades expuestas aquí; en lugar de esto, estas modalidades se proporcionan para que esta descripción sea total y completa, y transporte completamente el concepto de la invención a aquellos expertos en la técnica. La Figura 5 es un diagrama de bloque de un aparato para codificar un video de vistas múltiples de conformidad con una modalidad ilustrativa de la presente invención. Al hacer referencia a la Figura 5, el aparato incluye una memoria intermedia de imagen de vistas múltiples 510, una unidad de predicción 520, una unidad de compensación de disparidad/movimiento 530, una unidad de codificación de imagen residual 540, y una unidad de codificación de entropía 550. El aparato puede recibir una fuente de video de vistas múltiples desde una pluralidad de sistemas de cámara o a través de otro método. El video de vistas múltiples recibidas se almacenan en la memoria intermedia de imagen de vistas múltiples 510. La memoria intermedia de imagen de vistas múltiples 510 proporciona el video de vistas múltiples a la unidad de predicción 520 y la unidad de codificación de imagen residual 540. La unidad de predicción 520 incluye una unidad de estimación de disparidad 522 y una unidad de estimación de movimiento 524. La unidad de predicción 520 realiza estimación de movimiento y estimación de disparidad en el video de vistas múltiples. La unidad de predicción 520 estima un vector de disparidad y un vector de movimiento en direcciones indicadas por las flechas ilustradas en la Figura 6 a Figura 11, y proporciona el vector de disparidad estimado y el vector de movimiento a la unidad de compensación de disparidad/movimiento 530. Como se ilustró en las estructuras de codificación de video de vistas múltiples ilustradas en la Figura 6 a Figura 11, la unidad de predicción 520 puede establecer direcciones para realizar estimación de movimiento y estimación de disparidad al utilizar eficientemente un vector de disparidad de vistas múltiples y un vector de movimiento que se generan cuando se extiende la fuente de video de vistas múltiples basándose en un eje de tiempo. En otras palabras, una estructura de codificación de MPEG-2 puede extenderse basándose en un eje de vista para utilizar correlación espacial/temporal del video de vistas múltiples. La unidad de compensación de disparidad/movimiento 530 realiza la estimación de disparidad y la estimación de movimiento que utiliza el vector de movimiento y el vector de disparidad estimado por la unidad de estimación de disparidad 522 y la unidad de estimación de movimiento 524. La unidad de compensación de disparidad/movimiento 530 reconstruye una imagen que utiliza el vector de movimiento estimado y el vector de disparidad y proporciona la imagen reconstruida a la unidad de codificación de imagen residual 540. Para proporcionar mejor calidad visual y estereoscopia, la unidad de codificación de imagen residual 540 codifica una imagen residual obtenida al substraer la imagen compensada y reconstruida por la unidad de compensación de disparidad/movimiento 530 de la imagen original proporcionada por la memoria intermedia de imagen de vistas múltiples 510 y proporciona la imagen residual codificada a la unidad de codificación de entropía 550. La unidad de codificación de entropía 550 recibe el vector de disparidad estimado y el vector de movimiento desde la unidad de predicción 520 y la imagen residual codificada desde la unidad de codificación de imagen residual 540 y genera una corriente de bits para la fuente de video de vistas múltiples. La Figura 6 ilustra una estructura de codificación de unidad de un video de vistas múltiples de conformidad con una modalidad ilustrativa de la presente invención. Una estructura de predicción de núcleo o una estructura de predicción de unidad ilustrada en la Figura 6 se basa en la suposición que existen tres vistas. Un bloque cuadrado indica un marco de imagen en un video de vistas múltiples. Una flecha horizontal indica una secuencia de marcos de conformidad con vistas o posiciones de cámaras, y una flecha vertical indica una secuencia de los marcos de conformidad con el tiempo. Una imagen I indica una 'ilustración intermedia' , idéntica a un marco I en MPEG-2/4 o H.264. Ilustraciones P y B respectivamente indican una 'ilustración predictiva' y una 'ilustración de predicción bidireccional', similar a marcos P y B en MPEG-2. o H.264. Las ilustraciones P y B se estiman por la estimación de movimiento y la estimación de disparidad juntas en la codificación de video de vistas múltiples. En la Figura 6, las flechas entre marcos de ilustración indican direcciones de predicción. Las flechas horizontales indican la estimación de disparidad, y las flechas verticales indican estimación de movimiento. De conformidad con una modalidad ilustrativa de la presente invención, existen tres tipos de ilustraciones B, que ahora se describirán con referencia a las Figuras 7A-7F. La Figura 7A a Figura 7F ilustran tres tipos de ilustraciones B utilizados en codificación de video de vistas múltiples de conformidad con una modalidad ilustrativa de la presente invención. De conformidad con modalidades ilustrativas de la presente modalidad, existen tres tipos de ilustraciones B: ilustraciones B, Bl, y B2. En las Figuras 7A-7F, las ilustraciones B, Bl, y B2 denotan marcos de ilustración previstos al utilizar dos o más marcos horizontal o verticalmente adyacentes. Las ilustraciones B se predicen al utilizar dos marcos horizontalmente adyacentes como se ilustró en la Figura 7A, dos marcos verticalmente adyacentes como se ilustró en la Figura 7B, o un marco horizontalmente adyacente y un marco verticalmente adyacente como se ilustró en la Figura 7C. Las ilustraciones Bl se predicen al utilizar dos marcos horizontalmente adyacentes y un marco verticalmente adyacente como se ilustró en la Figura 7D o un marco horizontalmente adyacente y dos marcos verticalmente adyacentes como se ilustró en la Figura 7E. Las ilustraciones B2 se predicen al utilizar cuatro marcos horizontal o verticalmente adyacentes como se ilustró en la Figura 7F. La estructura de codificación de unidad que indica una secuencia de predicción de un video de vistas múltiples de conformidad con una modalidad ilustrativa de la presente invención ahora se describirá con referencia a la Figura 6. Al hacer referencia a la Figura 6, una secuencia de predicción básica son ilustraciones I, P, B, Bl y B2 en orden. Primero, se predice por intermedio un marco I 601. Se predice un marco P 603 al hacer referencia al marco I 601, y un marco P 610 se predice al hacer referencia al marco I 601. Un marco B 602 se predice al utilizar el marco I 601 y el marco P 603 horizontalmente adyacente al marco B 602. Un marco B 604 y un marco B 607 se predicen al utilizar el marco I 601 y el marco P 610 verticalmente adyacente al marco B 604 y el marco B 607. Se predice un marco B 612 al utilizar el marco P 610 horizontalmente adyacente al marco B 612 y el marco P 603 verticalmente adyacente al marco B 612. Entonces, se predicen marcos Bl . Específicamente, se predice un marco Bl 606 que utiliza el marco B 604 horizontalmente adyacente al marco Bl 606 y el marco P 603 y el marco B 612 verticalmente adyacente al marco Bl 606. Un marco Bl 609 se predice al utilizar el marco B 607 horizontalmente adyacente al marco Bl 609 y el marco P 603 y el marco B 612 verticalmente adyacente al marco Bl 609. Un marco Bl 611 se predice al utilizar el marco P 610 y el marco B 612 horizontalmente adyacente al marco Bl 611 y el marco B 602 verticalmente adyacente al marco Bl 611. Finalmente, se predicen marcos B2. Específicamente, un marco B2 605 se predice al utilizar el marco B 604 y el marco Bl 606 horizontalmente adyacente al marco B2 605 y el marco B 602 y el marco Bl 611 verticalmente adyacente al marco B2 605. Además, un marco B2 608 se predice al utilizar el marco B 607 y el marco Bl 609 horizontalmente adyacente al marco B2 608 y el marco B 602 y el marco Bl 611 verticalmente adyacente al marco B2 608. Como se describió anteriormente con referencia a la Figura 6 y Figura 7A a Figura 7F, de conformidad con modalidades ilustrativas de la presente invención, la predicción bidireccional se realiza con referencia no sólo a marcos B, sino también a marcos Bl y B2. Ya que puede aumentar el número de marcos de tipo B, la cantidad de información requerida para codificar una imagen de vistas múltiples puede minimizarse. Por lo tanto, de conformidad con una modalidad de la presente invención, para codificar eficientemente una imagen de vistas múltiples, los marcos B se agrupan de conformidad con los tipos de marco ilustrados en la Figura 7A a Figura 7F y se codifican en la secuencia de predicción de marco B->marco Bl->marco B2 como se describió anteriormente. La Figura 8 ilustra una estructura de codificación de unidad horizontalmente extendida de un video de vistas múltiples de conformidad con una modalidad ilustrativa de la presente invención. La Figura 8 ilustra una estructura de bloque de predicción que tiene 5 vistas de una fuente de imagen de entrada. La Figura 9 ilustra una secuencia de predicción de la imagen de vistas múltiples de la Figura 8. En la Figura 9, se predicen marcos en la misma columna al mismo tiempo. Al hacer referencia a la Figura 9, primero, se predice por intermedio un marco I 801. Entonces, se predice un marco P 803 y un marco P 816 en una segunda columna, y los marcos B 802, 806, 811 y 818 y un marco P 805 en una tercera columna se predicen. Después, los marcos Bl 817, 808 y 813, y los marcos B 804 y 820 se predicen. Los marcos B2 807 y 821 y los marcos Bl 810, 819 y 815 en una quinta columna entonces se predicen. Finalmente, se predicen los marcos B2 809 y 814. Por lo tanto, la secuencia de predicción de conformidad con la presente modalidad ilustrativa son ilustraciones I, P, B, Bl, B2, P, B, Bl y B2 en orden. La Figura 10 ilustra una estructura de codificación de video que tiene un número irregular de vistas para estimación de movimiento y estimación de disparidad de conformidad con una modalidad ilustrativa de la presente invención. La Figura 11 ilustra una estructura de codificación de video que tiene un número fijo de vistas para estimación de movimiento y estimación de disparidad de conformidad con una modalidad ilustrativa de la presente invención. La estructura de codificación de video de la Figura 11 puede obtenerse al deshabilitar una cuarta columna de marcos de predicción en la estructura de codificación de video de cinco vistas de la Figura 10. La estructura de codificación de video de conformidad con la presente modalidad ilustrativa puede extenderse horizontal y verticalmente. Por lo tanto, de conformidad con una modalidad ilustrativa de la presente invención, una estructura de codificación de video de vista n (n es un número irregular) puede reconfigurarse en una estructura de codificación de video de vista (n-l) al deshabilitar una (n-l)va columna de marcos de predicción. La Figura 12 es un diagrama de flujo que ilustra un método para codificar un video de vistas múltiples de conformidad con una modalidad ilustrativa de la presente invención. El método se describió con referencia a la Figura 6 a Figura 11. En particular, los marcos B se codifican en los métodos como sigue. Una pluralidad de marcos B se divide en al menos dos grupos de conformidad con un estándar predeterminado (S 1210). El estándar predeterminado puede ser el número de marcos al que se refiere cada marco B o puede ser el número de marcos al que cada marco B se refiere y la posición de los marcos de referencia. Los marcos B pueden clasificarse en un primer grupo de marcos B que se predicen con referencia a dos marcos horizontalmente adyacentes, dos marcos verticalmente adyacentes o un marco horizontalmente adyacente y un marco verticalmente adyacente, un segundo grupo de marcos B que se predice con referencia a dos marcos horizontalmente adyacentes y un marco verticalmente adyacente o un marco horizontalmente adyacente y dos marcos verticalmente adyacentes, y un tercer o grupo de marcos B que se predice con referencia a dos marcos horizontalmente adyacentes y dos marcos verticalmente adyacentes . Los marcos B agrupados como se describió anteriormente se codifican secuencialmente (S 1220) . En este caso, los marcos B pueden codificarse en el orden del primer grupo, el segundo grupo, y el tercer grupo. Como se describió anteriormente, la presente invención proporciona un método y aparato para codificar eficientemente un video de vistas múltiples para proporcionar simultáneamente el video de vistas múltiples que es realista para mucha gente. La presente invención también proporciona un método y aparato para codificar un video de vistas múltiples que utiliza una estructura de predicción de marco B que utiliza una cantidad mínima de información con respecto al video de vistas múltiples. La presente invención también puede implementarse como código legible por computadora en un medio de registro legible por computadora. El medio de registro legible por computadora es cualquier dispositivo de almacenamiento de datos que puede almacenar datos que después de eso pueden leerse por un sistema de computadora. Los ejemplos del medio de registro legible por computadora incluyen memoria sólo de lectura (ROM, por sus siglas en inglés) , memoria de acceso aleatorio (RAM, por sus' siglas en inglés) , CD-ROMs (por sus siglas en inglés), cintas magnéticas, discos flexibles, dispositivos de almacenamiento de datos óptico, y ondas portadoras (tal como transmisión de datos a través de Internet) . El medio de registro legible por computadora también puede distribuirse en sistemas de computadora acoplados a red para que el código legible por computadora se almacene y ejecute en una forma distribuida. Mientras la presente invención se mostró y describió particularmente con referencia a modalidades ilustrativas de la misma, se entenderá por aquellos expertos en la técnica que pueden hacerse varios cambios en la forma y detalles en esta sin apartarse del espíritu y alcance de la presente invención como se definió por las siguientes reivindicaciones. Se hace constar que con relación a esta fecha, el mejor método conocido por la solicitante para llevar a la práctica la citada invención es el que resulta claro de la presente descripción de la invención.

Claims

REIVINDICACIONES Habiéndose descrito la invención como antecede, se reclama como propiedad lo contenido en las siguientes reivindicaciones : l.- Un método para codificar un video de vistas múltiples, caracterizado porque comprende: clasificar una pluralidad de marcos B en al menos dos grupos de conformidad con un estándar predeterminado; y codificar secuencialmente la pluralidad clasificada de marcos B. 2.- El método de conformidad con la reivindicación 1, caracterizado porque el estándar predeterminado comprende un número de marcos al cual se refiere cada uno de la pluralidad de marcos B. 3.- El método de conformidad con la reivindicación 1, caracterizado porque el estándar predeterminado comprende un número de marcos al cual se refiere cada uno de la pluralidad de marcos B y posiciones de vista de los marcos. 4. - El método de conformidad con la reivindicación 1, caracterizado porque la pluralidad de marcos B se clasifican en un primer grupo de marcos B que se predicen con referencia a dos marcos horizontalmente adyacentes, dos marcos verticalmente adyacentes o un marco horizontalmente adyacente y un marco verticalmente adyacente, un segundo grupo de marcos B que se predicen con referencia a dos marcos horizontalmente adyacentes y un marco verticalmente adyacente o un marco horizontalmente adyacente y dos marcos verticalmente adyacentes, y un tercer grupo de marcos B que se predice con referencia a dos marcos horizontalmente adyacentes y dos marcos verticalmente adyacentes, y en donde uno o dos marcos horizontalmente adyacentes son un marco o marcos obtenidos del video de vistas múltiples en un mismo nivel temporal que un marco B del primer grupo, el segundo grupo o el tercer grupo, y uno o dos marcos verticalmente adyacentes son un marco o marcos obtenidos del video de vistas múltiples en una misma posición de vista que el marco B del primer grupo, el segundo grupo o el tercer grupo. 5.- El método de conformidad con la reivindicación 4, caracterizado porque la codificación secuencial de la pluralidad clasificada de marcos B comprende codificar secuencialmente el primer grupo de marcos B, el segundo grupo de marcos B, y el tercer grupo de marcos B. 6.- El método de conformidad con la reivindicación 1, caracterizado porque la codificación secuencial se realiza basándose en una estructura de codificación de video que comprende la pluralidad de marcos B, en donde la codificación secuencial comprende realizar estimación de disparidad entre marcos dispuestos horizontalmente de conformidad con una pluralidad de vistas y realizar estimación de movimiento entre marcos dispuestos verticalmente de conformidad con el paso del tiempo, en donde la estructura de codificación de video es extensible al menos en una de las direcciones horizontal y vertical, y en donde los marcos dispuestos horizontalmente son marcos obtenidos de video de vistas múltiples en un mismo nivel temporal, y los marcos dispuestos verticalmente son marcos obtenidos del video de vistas múltiples en una misma posición de vista. 1 . - El método de conformidad con la reivindicación 6, caracterizado porque la pluralidad de vistas comprende n vistas, en donde n es un número natural impar. 8.- El método de conformidad con la reivindicación 7, caracterizado porque los marcos obtenidos en una (n-l) va vista no se utilizan para la estimación de disparidad y la estimación de movimiento. 9.- El método de conformidad con la reivindicación 7, caracterizado porque en la estructura de codificación de video, los marcos obtenidos en vistas excepto en una primera vista, entre la pluralidad de vistas, no incluyen un marco I, y los marcos obtenidos en una k-va vista comprenden sólo marcos B, en donde k es un número natural fijo que es más pequeño que n. 10.- Un aparato para codificar un video de vistas múltiples, caracterizado porque comprende: una unidad de predicción que predice un vector de disparidad y un vector de movimiento de un video de vistas múltiples de entrada; una disparidad y unidad de compensación de movimiento que compensa una imagen que utiliza el vector de disparidad y el vector de movimiento; una unidad de codificación de imagen residual que recibe el video de vistas múltiples de entrada y la imagen compensada generada por la unidad de compensación de disparidad y movimiento, substrae la imagen compensada de la imagen o diseño original, y codifica una imagen residual obtenida de la substracción; y una unidad de codificación de entropía que genera una corriente de bits para el video de vistas múltiples que utiliza el vector de disparidad, el vector de movimiento, y la imagen residual codificada, en donde la unidad de predicción clasifica una pluralidad de marcos B en al menos dos grupos de conformidad con un estándar predeterminado y predice secuencialmente la pluralidad clasificada de marcos B. 11.- El aparato de conformidad con la reivindicación 10, caracterizado porque el estándar predeterminado comprende un número de marcos al cual se refiere cada uno de la pluralidad de marcos B. 12.- El aparato de conformidad con la reivindicación 10, caracterizado porque el estándar predeterminado comprende un número de marcos al cual se refiere cada uno de la pluralidad de marcos B y posiciones de vista de los marcos. 13.- El aparato de conformidad con la reivindicación 10, caracterizado porque la pluralidad de marcos B se clasifican en un primer grupo de marcos B que se predicen con referencia a dos marcos horizontalmente adyacentes, dos marcos verticalmente adyacentes o un marco horizontalmente adyacente y un marco verticalmente adyacente, un segundo grupo de marcos B que se predice con referencia a dos marcos horizontalmente adyacentes y un marco verticalmente adyacente o un marco horizontalmente adyacente y dos marcos verticalmente adyacentes, y un tercer grupo de marcos B que se predicen con referencia a dos marcos horizontalmente adyacentes y dos marcos verticalmente adyacentes, en donde uno o dos marcos horizontalmente adyacentes son un marco o marcos obtenidos del video de vistas múltiples en un mismo nivel temporal que un marco B del primer grupo, el segundo grupo o el tercer grupo, y uno o dos marcos verticalmente adyacentes son un marco o marcos obtenidos del video de vistas múltiples en una misma posición de vista que el marco B del primer grupo, el segundo grupo o el tercer grupo. 14.- El aparato de conformidad con la reivindicación 13, caracterizado porque la unidad de predicción secuencialmente predice el primer grupo de marcos B el segundo grupo de marcos B, y el tercer grupo de marcos B. 15.- El aparato de conformidad con la reivindicación 10, caracterizado porque la unidad de predicción predice el vector de disparidad y el vector de movimiento de un video de vistas múltiples de entrada basándose en una estructura de codificación de video que comprende la pluralidad de marcos B, en donde la unidad de predicción además realiza estimación de disparidad entre marcos dispuestos horizontalmente de conformidad con una pluralidad de vistas y realiza estimación de movimiento entre marcos dispuestos verticalmente de conformidad con el paso del tiempo, en donde la estructura de codificación de video es extensible en al menos una de las direcciones horizontal y vertical, y en donde los marcos dispuestos horizontalmente son marcos obtenidos del video de vistas múltiples en un mismo nivel temporal, y los marcos dispuestos verticalmente son marcos obtenidos del video de vistas múltiples en una misma posición de vista. 16.- El aparato de conformidad con la reivindicación 15, caracterizado porque la pluralidad de vistas comprende n vistas, en donde n es un número natural impar. 17.- El aparato de conformidad con la reivindicación 16, caracterizado porque los marcos obtenidos en una (n-l) va vista no se utilizan para la estimación de disparidad y la estimación de movimiento. 18.- El aparato de conformidad con la reivindicación 16, caracterizado porque la estructura de codificación de video, los marcos obtenidos en vistas excepto una primera vista, entre la pluralidad de vistas, no incluyen un marco I, y los marcos obtenidos en una k-va vista comprenden solo marcos B, en donde k es un número natural fijo que es más pequeño que n. 19.- Un medio de registro legible por computadora que almacena un método para codificar un video de vistas múltiples, caracterizado porque comprende: clasificar una pluralidad de Marcos B en al menos dos grupos de conformidad con un estándar predeterminado; y codificar secuencialmente la pluralidad clasificada de marcos B. 20.- El medio de registro legible por computadora de conformidad con la reivindicación 19, caracterizado porque el estándar predeterminado comprende un número de marcos al cual se refiere cada uno de la pluralidad de marcos B. 21.- El medio de registro legible por computadora de conformidad con la reivindicación 19, caracterizado porque el estándar predeterminado comprende un número de marcos al cual se refiere cada uno de la pluralidad de marcos B y posiciones de vista de los marcos. 22.- El medio de registro legible por computadora de conformidad con la reivindicación 19, caracterizado porque la pluralidad de marcos B se clasifican en un primer grupo de marcos B que se predice con referencia a dos marcos horizontalmente adyacentes, dos marcos verticalmente adyacentes o un marco horizontalmente adyacente y un marco verticalmente adyacente, un segundo grupo de marcos B que se predice con referencia a dos marcos horizontalmente adyacentes y un marco verticalmente adyacente o un marco horizontalmente adyacente y dos marcos verticalmente adyacentes, y un tercer grupo de marcos B que se predice con referencia a dos marcos horizontalmente adyacentes y dos marcos verticalmente adyacentes, y en donde uno o dos marcos horizontalmente adyacentes son un marco o marcos obtenidos del video de vistas múltiples en un mismo nivel temporal que un marco B del primer grupo, el segundo grupo o el tercer grupo, y uno o dos marcos verticalmente adyacentes son un marco o marcos obtenidos del video de vistas múltiples en una misma posición de vista que el marco B del primer grupo, el segundo grupo o el tercer grupo. 23.- El medio de registro legible por computadora de conformidad con la reivindicación 22, caracterizado porque la codificación secuencial de la pluralidad clasificada de marcos B comprende codificar secuencialmente el primer grupo de marcos B, el segundo grupo de marcos B, y el tercer grupo de marcos B. 24.- El medio de registro legible por computadora de conformidad con la reivindicación 19, caracterizado porque la codificación secuencial se realiza basándose en una estructura de codificación que comprende la pluralidad de marcos B, en donde la codificación secuencial comprende realizar estimación de disparidad entre marcos dispuestos horizontalmente de conformidad con una pluralidad de vistas y realizar estimación de movimiento entre marcos dispuestos verticalmente de conformidad con el paso de tiempo, en donde la estructura de codificación de video es extensible al menos en una de las direcciones horizontal y vertical, y en donde los marcos dispuestos horizontalmente son marcos obtenidos del video de vistas múltiples en un mismo nivel temporal, y los marcos dispuestos verticalmente son marcos obtenidos del video de vistas múltiples en una misma posición de vista. 25.- El medio de registro legible por computadora de conformidad con la reivindicación 24, caracterizado porque la pluralidad de vistas comprende n vistas, en donde n es un número natural impar. 26.- El medio de registro legible por computadora de conformidad con la reivindicación 25, caracterizado porque los marcos obtenidos en (n-l) va vista no se utilizan para la estimación de disparidad y la estimación de movimiento. 27.- El medio de registro legible por computadora de conformidad con la reivindicación 25, caracterizado porque en la estructura de codificación de video, los marcos obtenidos en vistas excepto una primera vista, entre la pluralidad de vistas, no incluyen un marco I, y los marcos obtenidos en una k-va vista comprende sólo marcos B, en donde k es un número natural fijo que es más pequeño que n.