ES2561078T3

ES2561078T3 - Codificación de vídeo híbrido que soporta síntesis de vistas intermedias

Info

Publication number: ES2561078T3
Application number: ES10734970.6T
Authority: ES
Inventors: Thomas Wiegand; Karsten Müller; Philipp Merkle
Original assignee: GE Video Compression LLC
Current assignee: GE Video Compression LLC
Priority date: 2010-07-15
Filing date: 2010-07-15
Publication date: 2016-02-24
Anticipated expiration: 2030-07-15
Also published as: US11115681B2; WO2012007038A1; US20190261019A1; US20220021904A1; US9118897B2; EP2594077A1; US9860563B2; EP2991347A1; DK2594077T3; PT2594077E; US11917200B2; PL2594077T3; US20160381391A1; US9854271B2; US9462276B2; US10382787B2; US20180098091A1; US10771814B2; EP2991347B1; US20160381392A1

Abstract

Decodificador de vídeo híbrido que soporta síntesis de vistas intermedias de un vídeo de vista intermedia a partir de un vídeo de una primera y de una segunda vista que son codificadas predictivamente en una señal de datos multivista, estando las tramas (1221 - 1224) del vídeo de segunda vista subdivididas espacialmente en subregiones (132232) y teniendo la señal de datos multivista un modo de predicción de un conjunto de posibles modos de predicción, asociado con cada una de las subregiones, en el que el conjunto de posibles modos de predicción comprende al menos un modo de predicción intervista y un modo de predicción intravista, comprendiendo el decodificador de vídeo híbrido: un extractor (82) configurado para extraer respectivamente, de la señal de datos multivista, para las subregiones (132232) de las tramas del vídeo de segunda vista con las cuales está asociado el modo de predicción intervista, un vector de disparidad y un resido de predicción; un reconstructor predictivo (84) configurado para reconstruir las subregiones (132232) de las tramas del vídeo de segunda vista con las cuales está asociado el modo de predicción intervista, generando una predicción a partir de una versión reconstruida de una porción de tramas (1201 - 1204) del vídeo de primera vista usando los vectores de disparidad extraídos de las señales de datos multivista para las subregiones respectivas, y el residuo de predicción para las subregiones respectivas; y un sintetizador de vista intermedia (86) configurado para reconstruir las primeras porciones (136) del vídeo de vista intermedia usando la versión reconstruida de las porciones de las tramas (1201 - 1204) del vídeo de primera vista, caracterizado porque el sintetizador de vista intermedia (86) está configurado para reconstruir las primeras porciones (136) del vídeo de vista intermedia usando los vectores de disparidad extraídos de la señal multivista, y configurado para reconstruir las cuartas porciones (142) del vídeo de vista intermedia aparte de las primeras porciones interpolando temporalmente y/o espacialmente los vectores de disparidad extraídos de la señal de datos multivista para las subregiones de las tramas del vídeo de segunda vista con las cuales está asociado el modo de predicción intervista, para obtener los vectores de disparidad para las subregiones con las cuales está asociado el modo de predicción intravista.

Description

DESCRIPCION

Codificacion de video hlbrido que soporta slntesis de vistas intermedias

5 [0001] La presente invencion tiene relacion con la codificacion de video hlbrido que soporta sintesis de vistas intermedias.

[0002] Las aplicaciones de video 3D tales como las visualizaciones estereo y multivista, las aplicaciones de video de puto de vista libre, etc. representan actualmente mercados en auge. Para el contenido de video estereo y

10 multivista, se ha especificado el estandar MVC. Se hace referencia a la norma ISO/IEC JTC1/SC29/WG11, “Text of ISO/IEC 14496-10:200X/FDAM 1 Multiview Video Coding”, Doc. N9978, Hannover, Alemania, julio de 2008, la ITU-T y la norma ISO/IEC JTC1, “Advanced video coding for generic audiovisual services”, la recomendacion ITU-T H.264 y la norma ISO/IEC 14496-10(MPEG-4-AVC), Version 1: mayo de 2003, Version 2: mayo de 2004, Version 3: marzo de 2005 (incluyendo la ampliacion FRExt), Version 4: septiembre de 2005, Version 5 y Version 6: junio de 2006, 15 Version 7: abril de 2007, Version 8: julio de 2007 (incluyendo la ampliacion SVC), Version 9: julio de 2009 (incluyendo la ampliacion MVC).

[0003] Esta norma comprime las secuencias de video procedentes de un numero de camaras adyacentes. El procedimiento de decodificacion MVC solo reproduce estas vistas de camara en sus posiciones de camara

20 originales. Para diferentes visualizaciones multivista, sin embargo, se requieren diferentes numeros de vistas con diferentes posiciones espaciales, de manera que se requieren vistas adicionales, por ejemplo entre las posiciones de camara originales. De este modo, con el fin de resultar adecuado para todas las visualizaciones multivista diferentes, el contenido de video multivista segun la norma MVC tendria que transportar una enorme cantidad de vistas de camara lo cual, necesariamente, disminuiria la tasa de compresion en relacion con la tasa de compresion mas baja 25 posible para visualizaciones multivista simplemente aprovechandose de un subconjunto apropiado de las vistas de camara transportadas. Otras tecnicas para transportar datos multivista proporcionan a cada muestra de las tramas de las vistas de camara no solo el valor de color correspondiente, sino tambien un valor de profundidad o disparidad correspondiente basandose en el cual un sintetizador de vista intermedia en la fase de decodificacion puede reproducir vistas intermedias proyectando y fusionando vistas de camara vecinas en la vista intermedia en cuestion. 30 Obviamente, la capacidad de sintetizar vistas intermedias en la fase de decodificacion reduce el numero de vistas de camara que han de ser transportadas a traves de los datos multivista. Desventajosamente, sin embargo, proporcionar a cada muestra un valor de profundidad o disparidad asociado aumenta la cantidad de datos que han de ser transportados por vista de camara. Ademas, los datos de profundidad o disparidad anadidos a los datos de color tienen o bien que ser tratados como un componente de un cuarto color para poder usar un codec de video 35 apropiado para comprimir los datos, o tiene que usarse una tecnica de compresion apropiada con el fin de comprimir los datos de color mas los de profundidad/disparidad. La primera alternativa no logra la maxima tasa de compresion posible ya que las diferentes estadisticas de los valores de color y profundidad no se consideran correctamente, y la segunda alternativa es engorrosa ya que tiene que disenarse una solucion patentada, y el grado de carga de calculo en el lado de sintetizacion es relativamente elevado.

40

[0004] En general, seria favorable si, por una parte, la cantidad de datos multivista pudiera mantenerse razonablemente baja, mientras que por otra parte, el numero de vistas disponibles en el lado de decodificacion sea de una calidad razonablemente elevada.

45 [0005] El documento US2008/0247462A1 desvela compensacion de movimiento para compresion de video usando un “campo de flujo” que comprende un campo por pixel de vectores de movimiento y valores de confianza. Los campos de flujo pueden ser codificados mediante transformacion cuantificada para compensacion de movimiento de compresion. Los campos de flujo solo de codificacion concuerdan con una o mas tramas anteriores y posteriores para determinar tanto la modulacion para capas de mejora de resolucion, asi como el filtrado 50 agudo/suave para una imagen original, una capa base, y para capas de mejora de resolucion. Los campos de flujo solo de codificacion pueden usarse con diversos tipos de codec usando la longitud del vector de movimiento de campo de flujo y la confianza para activar los filtros agudo/suave para mejorar la eficiencia por medio de reduction de ruido in situ. Los pixeles pueden ser desplazados a las tramas cercanas usando campos de flujo solo de codificacion, y ponderados para una reduccion de ruido eficiente. Los campos de flujo solo de codificacion se 55 desechan despues de su uso en la decodificacion, y por lo tanto no requieren bits codificados. Los campos de flujo solo de codificacion pueden aplicarse a todos los tipos de trama, incluyendo tramas “F” con prediction intra, con prediction de campo de flujo hacia delante, y tipos de trama “M” de prediccion multiple, y mejoran la eficiencia de intracodificacion.

[0006] En su artlcuio “Multi-View Image Compression and Intermediate View Synthesis for Stereoscopic Applications”, ISCAS 2000, IEEE International Symposium on Circuits and Systems, 28-31 de mayo, Ginebra, Suiza, Gan-Chieh Chang y Wen-Nung Lie describen un sistema de compresion de imagen muitivista que es capaz de proporcionar informacion de disparidad suficiente y fiabie para slntesis de vistas intermedias para apiicaciones de

5 reaiidad virtual 3D. La primera parte del artlcuio presenta un codec que ofrece acceso aieatorio a cuaiquier vista decodificada y tiene un rendimiento comparable ai de la norma MPEG. En la segunda parte, las disparidades son interpoiadas, y se hace referencia a imagenes decodificadas apropiadas para la slntesis de cuaiquier vista intermedia. El diseno de dicho trabajo proporciona suficiente informacion de manera que cada slntesis puede iograrse ai cabo de 0,04 s para una imagen de 320x240 (exciuyendo el tiempo de decodificacion). Tambien se 10 adopta un visor ocular con sincronizacion infrarroja para ver ios resuitados estereo.

[0007] En su artlcuio “Intermediate View Synthesis From Binocular Images for Stereoscopic Applications”, Department of Electrical Engineering, National Chung Cheng University, Taiwan, 2001, Wen-Nung Lie y Bo-Er Wei proponen un nuevo procedimiento para sintetizar vistas intermedias a partir de imagenes binocuiares captadas por

15 camaras paraieias. Las tecnicas principaies inciuyen: (1) procedimiento de coincidencia de bioques predictivo y muitifase para estimacion de disparidad, (2) interpolacion de disparidad para mala correspondencia y regiones de oclusion, y (3) slntesis de imagen mediante reproduccion de imagen de bioque hipotetizado y comprobado. El procedimiento ofrece una estimacion rapida (3 veces) y exacta del mapa de disparidad, as! como un compromiso entre la caiidad de slntesis (disparidades basadas en plxeies) y la veiocidad de slntesis (reproduccion basada en 20 bioques de 4x4). En el documento “A Layered Method of Visibility Resolving in Depth Image-based Rendering”, Yu Huang y Chao Zhang, Thomson Corporate Research, Princeton, NJ 08540, Us, State Key Lab of Machine Perception, Peking University, Pekin 100871, China, 2008, presentan un procedimiento por capas para resolver el probiema de visibiiidad en ia reproduccion basada en imagenes profundas. Se propone una representacion novedosa de tres capas para cada vista de referencia, es decir, la capa principal, la capa de fondo y la capa iimite. 25 Un procedimiento espaciai-temporai esta disenado para generar la capa iimite para reproduccion basada en pixeies (saipicadura). Mientras tanto, se construye un modeio de fondo temporal para cada trama buscando hacia atras y hacia deiante informacion de fondo sin cubrir basandose en la variation de profundidad en el video de referencia.

[0008] En el documento “Overview of Multi-view Video Coding”, Yo-Sung Ho y Kwan-Jung Oh, Gwangju 30 Instituye of Science and Technology (GIST), Gwangju, Corea, 2007, proponen un sistema de video muitivista que

puede proporcionar un reaiismo aumentado a traves de una experiencia de vision seiectiva. El video muitivista es una coleccion de multiples videos que captan la misma escena 3D en diferentes puntos de vista. Puesto que el tamano de ios datos del video muitivista aumenta proporcionaimente ai numero de camaras, es necesario comprimir ios datos de video muitivista para un aimacenamiento y una transmision eficientes. Este trabajo proporciona una 35 perspectiva general de la codification de video muitivista (MVC) y describe sus apiicaciones, requisitos, y el modeio de software de referencia para MVC .

[0009] Por io tanto, un objeto de la presente invention es proporcionar un esquema para transmision y reception muitivista que, por una parte, permite transportar un eievado numero de vistas disponibies y, por otro iado,

40 simpiemente piantea una demanda razonabie tanto de tasa de transmision como de tara de reproduccion.

[0010] Este objeto se iogra mediante un decodificador de video hibrido segun la reivindicacion 1, un procedimiento segun la reivindicacion 7, y un programa informatico segun la reivindicacion 8.

45 [0011] La presente invencion esta basada, entre otras cosas, en la conclusion de que ios codecs de video hibrido segun ios cuaies ios videos de multiples vistas son codificados predictivamente en una senal de datos muitivista, estando las tramas de un video de una cierta vista subdivididas espaciaimente en subregiones y teniendo la senal de datos muitivista un modo de prediction de un conjunto de posibies modos de prediction, asociado con cada una de las subregiones, comprendiendo el conjunto de posibies modos de prediccion ai menos un modo de prediccion 50 intervista y un modo de prediccion intravista, ya transportan suficiente informacion con el fin de permitir una slntesis de vistas intermedias en el iado de decodificacion de video hibrido. Es decir, no es necesario ningun formato de datos muitivista patentado segun el cuai ios datos de color estan acompanados por datos adicionaies de profundidad por pixel y/o de disparidad. En otras paiabras, ios inventores de la presente soiicitud averiguaron que inciuso cuando ai codificador de video hibrido se ie da la libertad de seieccionar iibremente el modo de prediccion preferente de ios 55 posibies modos de prediccion para cada subregion - segun algun esquema de optimization para optimizar una medida de tasa/distorsion, o similar -, ios vectores de disparidad transportados reaimente dentro de la senal de datos muitivista resuitante para la subregiones para las cuaies se ha escogido el modo de prediccion intervista, son suficientes con el fin de permitir una slntesis de vistas intermedias en la fase de decodificacion de video hibrido. Es decir, aunque un reconstructor predictivo reconstruye subregiones de tramas de un video de una cierta vista de la

senal de datos multivista, con la cual esta asociado el modo de prediccion intervista, generando una prediccion a partir de una version reconstruida de una porcion de tramas de un video de otra vista de la senal de datos multivista usando los vectores de disparidad extraldos de la senal de datos multivista para las subregiones respectivas, y tambien se extrae un residuo de prediccion para las subregiones respectivas a partir de la senal de datos multivista, 5 un sintetizador de vista intermedia puede reconstruir porciones de un video de vista intermedia usando la version reconstruida de las porciones de las tramas del video de la cierta vista, y los vectores de disparidad extraidos de la senal de datos multivista. Las porciones restantes del video de vista intermedia que no son reconstruidos usando los vectores de disparidad extraidos de la senal de datos multivista - puesto que el codificador de video hibrido decidio usar el codigo de prediccion intravista para otras subregiones -, pueden ser rellenadas posteriormente por medio de

10 intra/extrapolacion en el tiempo y/o espacialmente, o estimando vectores de disparidad adicionales interpolando vectores de disparidad extraidos de la senal de datos multivista, temporalmente y/o espacialmente.

[0012] Las realizaciones preferentes de la presente solicitud se describen a continuacion con respecto a las figuras. En particular:

15

La fig. 1 muestra un diagrama esquematico que ilustra la coexistencia de vectores de movimiento y disparidad en un esquema de codificacion multivista respecto a un ejemplo que incluye dos vistas y dos instancias de tiempo, subyacente al esquema hibrido de codificacion y decodificacion descrito con respecto a las figs. 5 a 8;

20 la fig. 2 muestra un diagrama esquematico que ilustra las correspondencias puntuales definidas por un vector de disparidad entre vistas adyacentes de acuerdo con una realizacion de la presente invencion;

la fig. 3 muestra un diagrama esquematico que ilustra una sintesis de vistas intermedias mediante proyeccion de contenido de escena a partir de dos vistas vecinas usando vectores de disparidad a escala de acuerdo con una

25 realizacion de la presente invencion;

la fig. 4 muestra un diagrama de bloques de un codificador de video hibrido segun una realizacion de la presente invencion;

30 la fig. 5 muestra un diagrama de bloques de un decodificador de video hibrido segun una realizacion de la presente invencion;

la fig. 6 muestra un diagrama esquematico que ilustra el modo de funcionamiento del decodificador de video hibrido de la fig. 5 con respecto a la sintesis de vistas intermedias de acuerdo con una realizacion de la presente invencion;

35

la fig. 7 muestra un diagrama esquematico que ilustra un esquema de decodificacion de N vistas de un tren de datos de 2 vistas para una visualizacion de 9 vistas en la cual puede emplearse el decodificador de video hibrido de la fig. 5.

40 [0013] Antes de describir diversas realizaciones de un decodificador de video hibrido o un procedimiento de decodificacion de video hibrido asi como un codificador de video hibrido o un procedimiento de codificacion de video hibrido correspondiente, estas realizaciones estan motivadas en primer lugar explicando el uso de vectores de disparidad en la codificacion predictiva de datos de vistas multiples.

45 [0014] Si el contenido de escena es captado con multiples camaras, una perception 3D de este contenido puede presentarse a un espectador. Con este fin, tienen que proporcionarse recorridos estereo con una direction de visualizacion diferente para el ojo izquierdo y el derecho. La desviacion del mismo contenido en ambas vistas para instancias de tiempo iguales se representa por la denominada paralaje. En otras palabras, la paralaje describe una desviacion de muestras dentro de una vista en relation con las posiciones correspondientes dentro de otra vista.

50 Puesto que ambas vistas muestran el mismo contenido de escena, ambas vistas son muy similares dentro de las porciones relacionadas entre si por medio de la paralaje. Igualmente, las tramas consecutivas de un video que corresponden a una vista individual comprenden similitudes entre si. Por ejemplo, en caso de una camara no movil, las muestras que corresponden a un fondo estatico deberia aparecer constantemente dentro de tramas consecutivas del video en posiciones coubicadas espacialmente. Los objetos moviles dentro del contenido de escena cambian

55 sus posiciones dentro de tramas consecutivas del video. En las tecnicas de comprension de video hibrido, las similitudes entre tramas temporalmente consecutivas se aprovecha por medio de la prediccion de movimiento compensado segun la cual se usan vectores de movimiento con el fin de obtener predicciones para ciertas subregiones de una trama basandose en porciones previamente codificadas y reconstruidas de otras tramas, principalmente correlacionando porciones de los mismos en la subregion en cuestion.

[0015] Igualmente, con el fin de comprimir datos multivista, la similitud entre las tramas del mismo instante de tiempo de direcciones de vista espacialmente distintas pero similares puede aprovecharse con el fin de comprimir predictivamente el contenido de video de estas vistas. La desviacion del mismo contenido en ambas vistas para

5 instancias de tiempo iguales puede representarse mediante vectores de disparidad. Esta desviacion es comparable a la desviacion de contenido dentro de una secuencia de tramas entre diferentes instancias de tiempo representadas por los vectores de movimiento anteriormente mencionados. La fig. 1 ilustra la utilizacion conjunta de vectores de disparidad y vectores de movimiento con el fin de reducir la redundancia de datos multivista para un caso ilustrativo de dos vistas en dos instancias de tiempo.

10

[0016] En particular, la fig. 1 muestra una trama 10 de una primera vista que corresponde a un instante de tiempo t y una segunda trama 12 de la misma vista 1 que corresponde al instante de tiempo t-1, y ademas, se muestra una trama 14 de una segunda vista que corresponde al instante de tiempo t y una trama adicional 16 de la vista 2 en el instante de tiempo t-1. Un vector de movimiento 18 ilustra el desplazamiento espacial de contenido de escena similar

15 dentro de las tramas consecutivas 10 y 12 de la primera vista, con un vector de movimiento 20 que ilustra igualmente el desplazamiento espacial de contenido de escena mutuamente correspondiente en las tramas consecutivas 14 y 16 de la segunda vista. Tal como se explico anteriormente, el movimiento de contenido de escena mutuamente correspondiente dentro de tramas consecutivas dentro de una vista individual varla espacialmente, dependiendo del contenido de escena, y por lo tanto, en la codificacion de video hibrido con la cual estan relacionadas las siguientes 20 realizaciones, los vectores de movimiento son asignados individualmente para diferentes subregiones de las tramas 10 a 16 con el fin de indicar, para la subregion respectiva, como ha de desplazarse la trama de referencia a la cual apunta o se refiere el vector de movimiento respectivo 18 y 20 con el fin de servir como prediccion en la subregion respectiva de la trama actual. Hasta ahora, en la fig. 1, las tramas 12 y 16 representan las tramas de referencia para predecir porciones de las tramas 10 y 14, respectivamente, usando vectores de movimiento 18 y 20, 25 respectivamente. Un codificador de video hibrido puede estar configurado para establecer los vectores de movimiento 18 y 20 de manera que se minimice una cierta medida de tasa/distorsion considerando que representar los vectores de movimiento 18 y 20 a una resolucion final aumenta la velocidad binaria necesaria para transportar la information de movimiento en tanto que, por otra parte, aumentando la calidad de prediccion y por lo tanto, reduciendo el error de prediccion y la velocidad binaria necesaria para codificar el error de prediccion. Con el fin de 30 determinar el vector de movimiento para una cierta subregion, el codificador de video hibrido puede, por ejemplo, determinar la similitud de porciones de la trama de referencia 12 y 16, respectivamente, desplazadas en relation con la subregion en cuestion dentro de la trama actual 10 y 14, respectivamente, mediante posibles vectores de movimiento diferentes escogiendo, como candidatos a vectores de movimiento, aquellos vectores de movimiento que conducen a un error de prediccion local bajo o minimo tal como se mide mediante el error cuadratico medio.

35

[0017] En un sentido similar, los vectores de disparidad 22 y 24, respectivamente, muestran un desplazamiento espacial de contenidos de escena mutuamente correspondientes dentro de las tramas 12, 16 y 10, 14 en el mismo instante de tiempo de las diferentes vistas 1 y 2, y el video hibrido y el codificador pueden establecer estos vectores de disparidad 22 de una manera que corresponde a la determination de los vectores de movimiento 18 y 20

40 esbozados anteriormente con, por ejemplo, las tramas 10 y 12 de la vista 1 representando las tramas de referencia para los vectores de disparidad 22 y 24, que a su vez ayudan a las tramas 12 y 10 que han de ser desplazadas espacialmente con el fin de servir como prediccion para las subregiones de las tramas 14 y 16 a las cuales corresponden los vectores de disparidad 22 y 24. Por lo tanto, la estimation de movimiento tal como se realiza mediante un codificador de video hibrido, es aplicable no solo a la direction temporal, sino tambien a una direction 45 intervista. En otras palabras, si se codifican juntas multiples vistas, las direcciones temporal e intervista pueden tratarse de manera similar, de manera que la estimacion de movimiento se lleva a cabo en la direccion temporal asi como en la intervista durante la codificacion. Los vectores de movimiento estimados en la direccion intervista son los vectores de disparidad 22 y 24. Como los vectores de disparidad corresponden al desplazamiento espacial de contenido de escena mutuamente correspondiente dentro de diferentes vistas, tales codificadores de video hibrido 50 tambien llevan a cabo la estimacion de disparidad implicitamente y los vectores de disparidad 22 y 24 tal como se incluyen en el tren de bits codificado, pueden aprovecharse para la sintesis intervista como se esbozara con mas detalle mas adelante. Estos vectores 22 y 24 pueden usarse para sintesis de vistas intermedias adicionales en el decodificador.

55 [0018] Con el fin de ilustrar esto con mas detalle, se hace referencia a la fig. 2. Considerese un pixel p1(x1,y1) en la vista 1 en la position (x1,y1) y un pixel p2(x2,y2) en la vista 2 en la position (X2,y2), los cuales tienen valores de luminancia identicos o, en otras palabras, representan muestras de escena mutuamente correspondientes. Entonces, considerese un pixel p1(x1,y1) en la vista 1 en la posicion (x1,y1) y un pixel p2(x2,y2) en la vista 2 en la posicion (x2,y2), los cuales tienen valores de luminancia identicos. Entonces:

pi(xi,yi)=p2(x2,y2). (1)

[0019] Sus posiciones (xi,yi) y (X2,y2) estan conectadas por el vector de disparidad 2D 26, por ejemplo desde la 5 vista 2 hasta la vista 1, el cual es d21(x2,y2) con las componentes dx,21(x2,y2) y dy,21(x2,y2). Por lo tanto, es valida la

siguiente ecuacion:

(x1,y1)=(x2+ dx,21(x2,y2),y2+ dy,21(x2,y2)). (2)

10 combinando (1) y (2),

p1(x2+ dx,21(x2,y2),y2+ dy,21(x2,y2))=p2(x2,y2). (3)

[0020] Tal como se muestra en la figura 2, abajo a la derecha, dos puntos con contenido identico pueden estar 15 conectados con un vector de disparidad 26: Sumar este vector a las coordenadas de p2 da la posicion de p1 en

coordenadas de imagen. Si ahora se cambia la escala del vector de disparidad d21(x2,y2) por un factor =[0... 1], puede abordarse cualquier posicion intermedia entre (x1,y1) y (x2,y2). Por lo tanto, pueden generarse vistas intermedias desplazando el contenido de imagen de la vista 1 y/o la vista 2 mediante vectores de disparidad a escala. En la figura 3 se muestra un ejemplo para una vista intermedia.

20

[0021] Por lo tanto, pueden generarse nuevas vistas intermedias con cualquier posicion entre la vista 1 y la vista 2.

[0022] Aparte de esto, tambien puede lograrse una extrapolacion de vista usando factores de escala <0 y >1 para las disparidades.

25

[0023] Estos procedimientos de escala tambien pueden aplicarse en la direccion temporal, de manera que pueden extraerse nuevas tramas cambiando la escala de los vectores de movimiento, lo cual conduce a la generacion de secuencias de video de frecuencia de tramas mas elevada.

30 [0024] Despues de haber ilustrado la posibilidad de usar los vectores de disparidad tal como son generados y transmitidos por un codificador multivista hlbrido en la slntesis de vistas intermedias, o al menos los principios subyacentes a ello, a continuacion se describen realizaciones para un esquema de codificacion de video hlbrido que soporta sintesis de vistas intermedias. En particular, la fig. 4 muestra un codificador de video hlbrido que es adecuado para generar una senal de datos multivista basandose en la cual se permite la decodificacion de video 35 hlbrido, que soporta sintesis de vistas intermedias tal como se describe con respecto a las figs. 5 y 6 siguientes.

[0025] El codificador de video hlbrido segun la fig. 4 esta indicado en general con el signo de referencia 30. El codificador de video hlbrido 30 de la fig. 4 es un codificador predictivo que soporta uno o mas modos de prediccion intervista, y uno o mas modos de intraprediccion. Ademas, el codificador de video hlbrido 30 de la fig. 4 esta

40 configurado para seleccionar y establecer el modo de prediccion a una granularidad de una subtrama, concretamente en unidades de subregiones de las tramas de las vistas que han de ser codificadas.

[0026] En particular, el codificador de video hlbrido de la fig. 4 comprende una entrada 32 para un video de primera vista 34, y una entrada 34 para un video de segunda entrada 36. El video de primera vista 34 se considera

45 que es el resultado de una captacion de una escena desde una direccion de primera vista, mientras que el video de segunda vista 36 se espera que represente una captacion de la misma escena desde una segunda vista que es diferente de la primera vista. La primera y la segunda vistas difieren, por ejemplo, en la posicion de vista, es decir, la posicion de captacion/camara y/o el angulo de vista, es decir, la direccion del eje de vista. La primera y la segunda vista pueden diferir simplemente en la posicion de vista siendo la direccion del eje de vista la misma. En general, la 50 primera y la segunda vistas pueden estar colocadas una en relacion con otra de manera que las mismas ubicaciones de objeto en la escena, colocadas a una distancia media de los objetos de escena captados por la primera y la segunda vistas, estan desplazadas dentro de las imagenes de ambas vistas en menos de 5 pixeles, o, aun con mas preferencia, menos de 2 pixeles.

55 [0027] Ademas, el codificador de video hlbrido 30 de la fig. 4 comprende una salida 38 para producir como salida la senal de datos multivista. En medio, el codificador de video hlbrido 30 comprende dos bucles de estimacion de prediccion 40 y 42, respectivamente, el primero de los cuales esta conectado entre la primera entrada 32 y la salida 38, y el segundo de los cuales esta conectado entre la segunda entrada 34 y la salida 38. En particular, el primer bucle de estimacion de prediccion 40 comprende un sustractor 44 y una fase de

cuantificacion/escalado/transformacion 46 conectada, en el orden mencionado, entre la entrada 32 y una primera entrada de un generador de senal de datos 48, cuya salida esta conectada a la salida 38. Ademas, el primer bucle de prediccion 40 comprende un bloque de reescalado/transformacion inversa 15, un filtro de desagrupamiento 52, y un reconstructor predictivo 54, los cuales estan conectados en el orden mencionado entre una salida de la fase de 5 cuantificacion/escalado/transformacion 46 y una entrada de inversion del sustractor 44. De manera similar, el segundo bucle de estimacion de prediccion se forma conectando en serie un sustractor 56, una fase de cuantificacion/escalado/transformacion 58, un bloque de reescalado/transformacion inversa 60, un filtro de desagrupamiento 62 y el reconstructor predictivo 54. Para ser mas exactos, el constructor predictivo 54 esta conectado dentro de los dos bucles de estimacion de prediccion 40 y 42, respectivamente, y comprende un primer 10 par de entrada y salida conectadas dentro del primer bucle de estimacion de prediccion 40 y un segundo par de entrada y salida conectadas dentro del segundo bucle de estimacion de prediccion 42. Ademas el sustractor 56 y la fase de cuantificacion/escalado/transformacion 58 estan conectados en el orden mencionado entre la entrada 34 y otra entrada del generador de senal de datos 48, mientras que el bloque de reescalado/transformacion inversa 60 y el filtro de desagrupamiento 62 estan conectados en serie en el orden mencionado entre la salida de la fase de 15 cuantificacion/escalado/transformacion 58 y la entrada correspondiente del reconstructor predictivo 54. Finalmente, otra salida del reconstructor predictivo 54 esta conectada a otra entrada del generador de senal de datos 48. Por ultimo, la salida del reconstructor predictivo 54 conectado dentro del primer bucle de estimacion de prediccion 40 tambien esta conectada a una segunda entrada de un sumador 64 conectado, por su primera entrada, entre el bloque de reescalado/transformacion inversa 50 y el filtro de desagrupamiento 52, y de manera similar, la otra salida 20 del reconstructor predictivo 54 tambien esta conectada a una segunda entrada de un sumador 66, que esta conectado a traves de su primera entrada entre el bloque de reescalado/transformacion inversa 60 y el filtro de desagrupamiento 62. Despues de haber descrito la estructura general del codificador de video hlbrido 30 de la fig. 4, mas adelante se describe si modo de funcionamiento.

25 [0028] Cada video 32 y 36 consiste en una secuencia de tramas 68 y 70, respectivamente, siendo cada trama 68 y 70 una matriz de muestras que representan un valor de color de la escena captada por ambos videos 34 y 36. Cada trama 68 y 70 esta subdividida en subregiones 72, es decir, grupos de muestras inmediatamente adyacentes de las tramas 68 y 70, respectivamente. La subdivision de las tramas puede ser constante en el tiempo para cada video 34 y 36, y pueden corresponder espacialmente entre si cuando se comparan el video 34 y el 36. Por ejemplo, la 30 subdivision espacial de las tramas en subregiones puede ser tal que las subregiones forman una disposicion regular de bloques dispuestos en columnas y filas, como se muestra de manera ejemplar con respecto a la trama 68. Alternativamente, la subdivision espacial de la trama 68 y el 70 en subregiones puede variar en el tiempo tal como basandose en trama por trama. El reconstructor predictivo 54 puede ser responsable de establecer la subdivision espacial con el objetivo de optimizar alguna medida de tasa/distorsion tal como se esboza con mas detalle mas 35 adelante. Con este fin, las subregiones 72 pueden ser los bloques de hojas de un multiarbol, tal como un arbol cuaternario, la subdivision de la trama 68 y el 70 como se ilustra de manera ejemplar con respecto al video 36. En este caso, el reconstructor predictivo 54 puede senalizar la subdivision seleccionada al generador de senal de datos 48 que ha de ser insertada dentro de la senal de datos multivista 38. La subdivision puede estar disenada de manera que un limite inferior del tamano de las subregiones es 4x4 posiciones de muestras de color, o de manera que un 40 promedio del tamano de posibles tamanos de las subregiones entre las cuales puede escoger el reconstructor predictivo durante la subdivision, es mayor que 4x4 muestras.

[0029] En general, la subdivision espacial de las tramas 68 y 70 en subregiones forma la granularidad a la cual el reconstructor predictivo 54 asigna diferentes modos de prediccion a diferentes regiones espaciales de las tramas 68 45 y 70. Tal como se describio anteriormente, el reconstructor predictivo 54 soporta, al menos, uno o mas modos de prediccion intervista, y uno o mas modos de prediccion intravista. El modo de prediccion intervista puede expresarse tal como se esbozo anteriormente con respecto a las figs. 1 y 2 y un ejemplo de un modo de prediccion intravista es el modo de prediccion de movimiento compensado tambien ilustrado anteriormente con respecto a las figs. 1 y 2. Ejemplos adicionales para modos de prediccion intravista engloban un modo de intraprediccion segun el cual se 50 usan valores de muestra ya codificados y reconstruidos de subregiones vecinas de la trama actual dentro del mismo video o vista para predecir - mediante interpolacion o extrapolacion, los valores de muestra de una subregion actual 72. Un modo de prediccion intravista adicional puede suprimir cualquier prediccion de manera que los valores de muestra dentro de esta subregion son codificados dentro de la senal de datos multivista de una manera no predicha.

55 [0030] Dependiendo del modo de prediccion, el reconstructor de prediccion 54 asigna diferente informacion de prediccion a una subregion que ha de ser codificada actualmente y senaliza la misma al generador de senal de datos 48 para ser introducida dentro de la senal de datos multivista en la salida 38. Generalmente, esta informacion de prediccion permite que el decodificador de video hlbrido recupere el mismo resultado de prediccion que el reconstructor de prediccion 54 a partir de tramas codificadas/decodificadas previamente.

[0031] En el sustractor 44, la prediccion de la subregion que ha de ser codificada actualmente es sustralda de los valores de muestra de la subregion que ha de ser codificada actualmente, tras lo cual el error de prediccion as! obtenido es cuantificado y transformado en el bloque 46. En particular, el bloque 46 puede aplicar una

5 transformacion de descomposicion espectral sobre el error de prediccion con una cuantificacion posterior de los coeficientes de transformacion. Los datos de resido de prediccion as! obtenidos se pasan al generador de senal de datos 48 para una incorporacion a la senal de datos multivista en la salida 38, as! como el bloque 50 para reconstruir el error de prediccion que entra en el bloque 46 y desviar de este simplemente debido a la cuantificacion realizada en el bloque 46. El bloque 50 aplica una descuantificacion seguida por una transformacion inversa sobre los niveles 10 de coeficiente de transformacion y produce como salida el residuo de prediccion reconstruido para la primera entrada del sumador 64 donde se realiza una suma con una prediccion usada previamente con el fin de obtener el residuo de prediccion respectivo. Asl, en la salida del sumador 64, se produce como salida una reconstruction de la subregion actual y el filtro de desagrupamiento 52, que es opcional, recibe la reconstruccion de esta subregion junto con la reconstruccion de las otras subregiones de la trama actual para producir como salida una reconstruccion de la 15 antigua trama, es decir, el codificado/decodificado previamente, para que se pase al reconstructor predictivo 54.

[0032] La description recien presentada se referla a la codification de subregiones de tramas en el video de primera vista 34, pero esta descripcion puede transferirse facilmente a la funcionalidad del bucle de estimation de prediccion 42 con respecto a la codificacion de subregiones de tramas 70 del video de segunda vista 36.

20

[0033] Como ya se menciono anteriormente, el reconstructor predictivo 54 tiene que realizar muchas decisiones durante la codificacion/compresion de los valores de muestra de las tramas 68 y 70 de los videos 34 y 36, concerniendo las decisiones, opcionalmente, a subdivisiones espaciales de las tramas en subregiones 72 y, para cada subregion, la selection de un modo de prediccion que ha de usarse para codificar la subregion respectiva junto

25 con los detalles de prediccion respectivos concernientes al modo de prediccion seleccionado. Por ejemplo, para una subregion que tiene un modo de prediccion intervista asociado con la misma, el reconstructor predictivo 54 tambien determina el vector de disparidad anteriormente mencionado. En particular, el reconstructor predictivo 54 puede estar configurado para determinar exactamente un vector de disparidad por subregion, mientras que la granularidad a la cual se varia espacialmente el modo de prediccion sobre las tramas, puede ser mas gruesa, tal como en 30 unidades de grupos de una o mas subregiones vecinas.

[0034] Basandose en el vector de disparidad, la prediccion para la subregion respectiva se determina correlacionando las posiciones de las muestras de la subregion respectiva segun el vector de disparidad para obtener posiciones muestreadas correlacionadas, y adoptando como la prediccion la version reconstruida de la

35 trama correspondiente temporalmente del otro de los videos 34 y 36 en las posiciones de muestra correlacionadas. La correlation puede ser una correlation lineal tal como, por ejemplo, un desplazamiento de traslacion en una cantidad y direction determinadas por el vector de disparidad. Con el fin de optimizar los ajustes de prediccion, el reconstructor predictivo 54 puede probar vectores de disparidad diferentes dentro de una cierta area de busqueda alrededor del vector cero, y determinar el error de prediccion resultante, asi como la velocidad binaria resultante 40 necesaria para representar el error de prediccion mediante coeficientes de forma cuantificados para estos vectores de disparidad diferentes. El area de busqueda, por ejemplo, restringe los posibles vectores de disparidad para una cierta subregion a una cierta longitud maxima de los vectores de disparidad. La direccion de los posibles vectores de disparidad que son sometidos a pruebas respectivas en la determination del vector de disparidad optimo, sin embargo, puede ser sin restricciones o restringida a direcciones horizontales teniendo en cuenta que las 45 disparidades entre diferentes vistas por lo general se extienden a lo largo de la direccion horizontal mas que la vertical. El area de busqueda puede extenderse incluso simplemente en una direccion horizontal en relation con el vector cero aprovechando que las disparidades normalmente apuntan en una cierta direccion de las direcciones izquierda y derecha.

50 [0035] El reconstructor predictivo 54 puede estar configurado para determinar, para cada subregion para la cual se escoge el modo de prediccion intervista, un vector de disparidad. Sin embargo, el reconstructor predictivo 54 tambien puede analizar el resultado de busqueda anteriormente mencionado de las otras pruebas de posibles vectores de disparidad dentro del area de busqueda anteriormente mencionada. Por ejemplo, el reconstructor predictivo 54 puede estar configurado para asignar una fiabilidad al vector de disparidad seleccionado finalmente. 55 Como ya se describio anteriormente, los vectores de disparidad seleccionados no son necesariamente el que conduce al error de prediccion mas bajo, aunque es muy probable que el error de prediccion que resulta del vector de disparidad seleccionado sea relativamente bajo. De acuerdo con una realization, el reconstructor predictivo 54 determina la fiabilidad asignada al vector de disparidad seleccionado finalmente enviado al generador de senal de datos 48 dependiendo del resultado de las pruebas de posibles vectores de disparidad dentro del area de busqueda

anteriormente mencionada de manera que la fiabilidad se determina dependiendo de una funcion que:

1. aumenta monotonamente con un error de prediccion decreciente, y/o

5 2. aumenta monotonamente con un valor decreciente de una medida de dispersion de la distribution del error de prediccion resultante en los vectores de disparidad probados cuando se traza frente a la distancia del vector de disparidad probado respectivo desde el vector escogido realmente.

[0036] En efecto, la fiabilidad sera una medida que indica una probabilidad de que el vector de disparidad 10 insertado dentro de la senal de datos multivista, realmente coincida con la disparidad real, o en cuanto a si el vector de disparidad simplemente corresponde a alguna similitud artificial de las porciones de las tramas sincronizadas en el tiempo de las diferentes vistas. Cabe destacar que la medida de dispersion mantiene su dependencia del error de prediccion aun cuando se usen como referencia tramas reconstruidas, y por tanto obtenibles a partir del tren de bits.

15 [0037] El reconstructor de prediccion 54 puede entonces estar configurado para pasar este valor de fiabilidad junto con el vector de disparidad asociado al generador de senal de datos 48 para ser insertado dentro de la senal de datos multivista.

[0038] En principio, el reconstructor de prediccion 54 puede actuar de la misma manera que se describio 20 anteriormente con respecto al modo de prediccion intervista con respecto a subregiones para las cuales ha sido

escogido un modo de prediccion de compensation de movimiento por el reconstructor predicho 54. Es decir, el reconstructor predictivo 54 puede determinar un vector de movimiento para tales subregiones junto con, opcionalmente, una fiabilidad asociada, con el paso de esta information de prediccion al generador de senal de datos 48 para la introduccion dentro de la senal de datos multivista.

25

[0039] Antes de describir realizaciones para un decodificador de video hlbrido adecuado para decodificar la senal de datos multivista producida como salida en la salida 38, cabe destacar que varias caracterlsticas descritas anteriormente con respecto a la fig. 4 son opcionales. Por ejemplo, el error de prediccion en los sustractores 44 y 56 no necesita necesariamente ser codificado por transformation. Ademas, en caso de una codification sin perdidas, la

30 cuantificacion en los bloques 46 y 58 puede omitirse. Ademas, el codificador de video hlbrido en la fig. 4 codifica predictivamente ambos videos 34 y 36. Sin embargo, los bloques 56, 58, 60, 62 y 66 pueden sustituirse por otro motor de codificacion para codificar de otro modo el video de segunda vista 36. Como ya se menciono anteriormente, el filtro de desagrupamiento 52 y 62 es opcional, o puede sustituirse por otro filtro, tal como un filtro de mejora adaptativo. Aunque no se menciono de manera explicita anteriormente, el generador de senal de datos 48 35 puede estar configurado para codificar los datos recibidos desde los bloques 46, 54 y 58 dentro de la senal de datos multivista mediante codificacion de entropia tal como la codificacion Huffman o aritmetica con el fin de comprimir mas los datos. Por ultimo, se observa que mas de dos vistas o mas de dos videos 34 y 36 pueden estar presentes y ser codificados por el codificador de video hlbrido de la fig. 4. La extension de la realization de la fig. 4 sobre mas de dos videos que corresponden a las diferentes vistas del mismo escenario deberia resultar suficientemente clara a 40 partir de la description anterior.

[0040] En lo que viene a continuation, se describe una realizacion para un decodificador de video hlbrido con respecto a la fig. 5. El decodificador de video hlbrido de la fig. 5 soporta sintesis de vistas intermedias de un video de vista intermedia a partir del video de primera y de segunda vista codificado predictivamente dentro de la senal de

45 datos multivista en la salida 38 del codificador de video hlbrido de la fig. 4. Se recuerda brevemente que el codificador de video hlbrido o, como responsable por lo tanto, el reconstructor predictivo 54 no asocia necesariamente cada subregion con el modo de prediccion intervista. En cambio, la asociacion se realiza con el objetivo de optimizar alguna medida de tasa/distorsion y hasta ahora, el modo de prediccion intervista compite con la prediccion de movimiento compensado y modos de prediccion intravista adicionales disponibles. No obstante, los 50 inventores de la presente invention averiguaron que el porcentaje de subregiones - ya sea medidas en numero o en area de trama - es suficiente con el fin de aprovechar los vectores de disparidad asociados con estas subregiones para sintetizar un video de vista intermedia a partir de las mismas, es decir, un video que muestra la misma escena que los videos de primera y de segunda vista, pero desde otra vista, concretamente una vista aparte de la primera y la segunda vistas, que puede estar colocada localmente entre la primera y la segunda vistas, pero puede estar 55 colocada incluso aun mas alejada de una de la primera y la segunda vistas, que la otra de las dos.

[0041] El codificador de video hlbrido de la fig. 5 esta indicado en general con el signo de referencia 80. Comprende una fase de extraction 82, una fase de reconstruction predictiva 84 y una fase de sintetizacion 86. La fase de extraccion 82 actua como un extractor configurado para extraer, de la senal de datos multivista aplicada a

una entrada 88 del decodificador de video hlbrido 80, para subregiones de las tramas, con las cuales esta asociado el modo de prediccion intervista, un vector de disparidad y un resido de prediction. La fase de reconstruction predictiva 84, a su vez, esta configurada para reconstruir las subregiones de las tramas con las cuales esta asociado el modo de prediccion intervista, generando una prediccion a partir de la version reconstruida de una portion de 5 tramas del video de vista de referencia usando los vectores de disparidad extraidos de la senal de datos multivista para las subregiones respectivas, y el resido de prediccion para las subregiones respectivas. Por ultimo, la fase de sintetizacion 86 actua como un sintetizador de vista intermedia configurado para reconstruir las primeras porciones del video de vista intermedia usando la version reconstruida de las porciones de las tramas del video de vista de referencia, y los vectores de disparidad extraidos de la senal de datos multivista.

10

[0042] El video de vista intermedia asi obtenido es producido como salida en una salida 90 del decodificador de video hibrido 80, ya sea solo o junto con los videos de primera y de segunda vista representados en la senal de datos multivista que entra en la entrada 88.

15 [0043] Para ser mas exactos, la fase de extraction 82 comprende un extractor de senal de datos 92, un bloque de reescalado/transformacion inversa 94 y un bloque de reescalado/transformacion inversa 96. La fase de reconstruccion predictiva 84 comprende sumadores 98 y 100, filtros de desagrupamiento 102 y 104, y un reconstructor predictivo 106. La fase de sintetizacion 86 comprende un constructor de vista intermedia 108.

20 [0044] En efecto, el decodificador de video hibrido 80 comprende una primera parte responsable de reconstruir el video de primera vista, que implica los bloques 92, 94, 98, 102 y 106, y una segunda parte responsable de reconstruir el video de segunda vista, que implica los bloques 92, 96, 100, 104 y 106. Es decir, el extractor de senal de datos 92 y el reconstructor predictivo 106 participan en la reconstruccion de ambos videos, los videos de primera vista y de segunda vista. En efecto, los componentes 94, 96, 98, 100, 102, 104 y 106 cooperan de una manera que 25 emula el modo de funcionamiento de los componentes 50, 60, 64, 66, 52, 62 y 54 del codificador de video hibrido de la fig. 4. Para ser mas exactos, el extractor de senal de datos 92 esta configurado para extraer de la senal de datos multivista en la entrada 88, los niveles de coeficiente de transformation cuantificados de las subregiones de las tramas de los videos de primera vista y de segunda vista y pasar esta information a los bloques de reescalado/transformacion inversa 94 y 96, respectivamente, los cuales a su vez actuan para reconstruir el residuo 30 de prediccion respectivo de las subregiones de las tramas del video de primera vista y de segunda vista respectivo. Ademas, el extractor de senal de datos 92 extrae de la senal de datos multivista en la entrada 88 la informacion de prediccion asociada con cada subregion. Es decir, el extractor de senal de datos 92 recupera de la senal de datos multivista el modo de prediccion asociado con cada subregion. Para las subregiones que tienen un modo de prediccion intervista asociado con las mismas, el extractor de senal de datos 92 extrae un vector de disparidad 35 respectivo y, opcionalmente, datos de fiabilidad. Igualmente, el extractor de senal de datos 92 extrae de la senal de datos multivista un vector de movimiento y, opcionalmente, datos de fiabilidad para cada subregion que tiene el modo de prediccion de movimiento compensado asociado con la misma. Igualmente, para las subregiones que tienen un modo de intraprediccion asociado con las mismas, el extractor de senal de datos 92 puede recuperar informacion de intraprediccion a partir de la senal de datos multivista tal como, por ejemplo, una direction de 40 extension de contenido de borde principal. El extractor de senal de datos 92 pasa esta informacion al reconstructor predictivo 106 y el constructor de vista intermedia 108.

[0045] Los componentes 94 a 106 anteriormente mencionados estan interconectados entre si de la manera descrita anteriormente con respecto a los elementos 46, 50 a 54, y 58 a 66 de la fig. 4. La funcionalidad de estos

45 elementos es exactamente la misma. Es decir, el reconstructor predictivo 106 esta configurado para generar una prediccion para las subregiones de las tramas de ambos videos a partir de versiones decodificadas previamente y reconstruidas de porciones de tramas del video usando la informacion de prediccion asociada con las subregiones respectivas. Por ejemplo, las subregiones del modo de prediccion intervista son procesadas correlacionando las posiciones de muestra de las mismas tal como prescriben los vectores de disparidad respectivos y el muestreo, es 50 decir, deduciendo los valores de muestra en las posiciones de muestra correlacionadas - a partir de la trama del otro video en el mismo instante de tiempo en las posiciones de muestra asi obtenidas mediante correlation. El muestreo puede implicar una interpolation de posiciones de submuestra dependiendo de la resolution del vector de disparidad. Tal como se indico anteriormente, la correlacion puede implicar o ser un desplazamiento de traslacion en una direccion, y en una cantidad, prescritas por el vector de disparidad. Se aplica lo mismo a subregiones de modo 55 de prediccion de movimiento compensado, excepto para la trama de referencia, donde tiene lugar el muestreo o la interpolacion, que es una trama reconstruida decodificada previamente del mismo video de vista.

[0046] La prediccion asi obtenida se suma al residuo de prediccion reconstruido producido como salida por los bloques 94 y 96, con el resultado de que la suma representa una reconstruccion de la subregion respectiva que,

opcionalmente, tal como se indico anteriormente, puede mejorarse desagrupando el filtro 102 y 104.

[0047] Hasta ahora, la descripcion se ha centrado en el modo de funcionamiento del decodificador de video hlbrido de la fig. 5, que concierne a la construccion de las vistas primarias con las cuales estan relacionadas 5 realmente los videos que han sido codificados en la senal de datos multivista. Sin embargo, tal como se indico anteriormente, el decodificador de video hlbrido de la fig. 5 es particularmente adecuado para sintetizar un video de vista intermedia a partir del video de primera y de segunda vista transmitido explicitamente por medio de la senal de datos multivista. Esta sintetizacion es realizada por el constructor de vista intermedia 108 que recibe en su entrada las tramas reconstruidas de ambos videos transmitidos explicitamente asi como la informacion de prediccion, de al 10 menos un subconjunto apropiado de las subregiones, concretamente al menos la informacion de prediccion de las subregiones que tienen el modo de prediccion intervista asociado con las mismas. Tal como se describira con mas detalle mas adelante, el constructor de vista intermedia 108 puede, sin embargo, aprovechar tambien otra informacion de prediccion de otros modos de prediccion y opcionalmente datos de fiabilidad.

15 [0048] En terminos generales, el constructor de vista intermedia 108 esta configurado para reconstruir porciones del video de vista intermedia usando la version reconstruida de porciones de las tramas de cualquiera de los videos de vista primaria transmitidos explicitamente dentro de la senal de datos multivista, y los vectores de disparidad extraidos de la senal de datos multivista. Se recuerda al lector acerca de la declaracion presentada anteriormente segun la cual, lo mas probable, simplemente un subconjunto apropiado de las subregiones de las tramas del video 20 de primera y de segunda vista son del modo de prediccion intervista. Las otras subregiones no tienen vectores de disparidad asociados con las mismas. No obstante, los inventores de la presente invencion averiguaron que debido a la similitud entre tramas de vistas vecinas, el porcentaje de subregiones del modo de prediccion intervista es suficiente con el fin de sintetizar un video de vista intermedia a partir de los videos de primera y de segunda vista, evitando asi la necesidad de proporciona a la senal de datos multivista datos de profundidad por pixel/disparidad 25 patentados.

[0049] Haciendo referencia a la figura 6, se describen diferentes posibilidades sobre como el constructor de vista intermedia sintetiza las tramas del video de vista intermedia. La fig. 6 muestra cuatro tramas 1201 a 1204 del video de primera vista que se suceden inmediatamente en el tiempo una a otra en el lado izquierdo, cuatro tramas

30 consecutivas 1221 a 1224 del video de segunda vista de las mismas instancias de tiempo que las tramas 1201 a 1204, en el lado derecho, y cuatro tramas que han de ser sintetizadas 1241 a 1244 en el medio entre las tramas del primer video y las tramas del segundo video tambien de las mismas instancias de tiempo.

[0050] En aras de una mejor comprension, se muestra que cada uno de las tramas 1201 a 1204 y 1221 a 1224 esta 35 subdividida en una matriz regular de 3x3 subregiones. Con el fin de mantener el numero de signos de referencia a

un nivel razonable, solo se indica explicitamente una subregion por video, concretamente la subregion 130m, la subregion 132232, y la subregion 134433. Entre los indices, el primer digito indica el numero de trama, el segundo digito indica el numero de columna de la subregion respectiva (de izquierda a derecha), y el tercer digito indica el numero de fila de la subregion respectiva (de arriba a abajo), en donde el ultimo digito del propio numero de 40 referencia corresponde al ultimo digito respectivo de los signos de referencia que indican las tramas de los videos respectivos, es decir, “0” para el video de primera vista, “2” para el video de segunda vista, y “4” para el video de vista intermedia.

[0051] A continuacion, la fig. 6 muestra vectores de movimiento y de disparidad. Los vectores de movimiento se 45 muestran apuntando desde el medio de la subregion asociada hasta una trama del mismo video. Es decir, los

vectores de movimiento generalmente se extienden verticalmente. Los vectores de disparidad apuntan desde el medio de una cierta subregion hasta una trama del otro de los videos de primera y de segunda vista. Es decir, los vectores de disparidad apuntan a la trama precedente inmediata del mismo video. Sin embargo, como resulta evidente para un experto en la materia, no es necesario que la trama de referencia, a la cual apuntan los vectores de 50 movimiento, este restringida a la trama inmediatamente precedente. En cambio, la trama de referencia a la cual se refiere el vector de movimiento puede estar separada de la trama actual por otras tramas en el tiempo. Ademas, la trama de referencia puede ser incluso una trama subsiguiente a la trama actual en el tiempo de reproduccion, pero precedente en el tiempo de decodificacion, tal como en las tramas B. Ademas, puede usarse prediccion multihipotesis. Es decir, mas de un vector de movimiento puede estar asociado con una subregion, con la prediccion 55 resultante de las predicciones parciales de movimiento compensado siendo, por ejemplo, una suma ponderada de las predicciones parciales. Se aplica lo mismo a los vectores de disparidad. Por ejemplo, se muestra que los vectores de disparidad de la fig. 6 apuntan desde subregiones del video de segunda vista hasta las tramas 1201 a 1204 del video de primera vista solamente. Aunque seria posible restringir los modos de prediccion intervista a una cierta o ciertas vistas transmitidas explicitamente dentro de la senal de datos multivista, tambien es posible que las

subregiones del modo de prediccion intervista esten presentes en ambos videos, el video de primera vista y el video de segunda vista. Esto se ilustra mediante la linea de puntos que apunta desde la trama 1202 hasta la 1222. Ademas, como tambien se indico anteriormente, dentro de la senal de datos multivista puede estar presente mas de una vista principal transmitida explicitamente, y por consiguiente, tambien puede usarse prediccion multihipotesis 5 con respecto a las subregiones del modo de prediccion intervista porque mas de un vector de disparidad esta asociado con una cierta subregion, estando las tramas de referencia de estos vectores de disparidad colocadas en la misma instancia de tiempo pero dentro de videos multivista diferentes. Por ultimo, se observa que por medio de la multihipotesis, los modos de prediccion de movimiento y los modos de prediccion intervista podrian mezclarse de manera que al menos un vector de disparidad y al menos un vector de movimiento esta asociado a la misma 10 subregion. En este caso, el modo respectivo asociado a esa subregion estara subsumido bajo el termino “modo de prediccion intervista” ya que la subregion tiene un vector de disparidad asociado a la misma.

[0052] Despues de haber descrito los elementos de la fig. 6, la funcionalidad del constructor de vista intermedia de la fig. 5 con respecto a diversas realizaciones se describe mas adelante con respecto a la fig. 6. Como ya se expuso 15 anteriormente, el constructor de vista intermedia 108 usa los vectores de disparidad de subregiones del modo de prediccion intervista con el fin de reconstruir las primeras porciones del video de vista intermedia. Se dispone de diferentes posibilidades para el constructor de vista intermedia con el fin de reconstruir estas primeras porciones que estan indicadas como areas blancas dentro de las tramas 1241 a 1244 en la fig. 6. Por ejemplo, el constructor de vista intermedia 108 puede reconstruir las primeras porciones del video de vista intermedia de una manera muy 20 similar al procesamiento de subregiones de modo de prediccion intervista mediante el reconstructor predictivo 106. Es decir, el constructor de vista intermedia 108 puede correlacionar las posiciones de muestra de la subregion de un modo de prediccion intervista tal como es prescrito por el vector de disparidad asociado y determinar los valores de muestra en estas posiciones correlacionadas dentro de la trama de la misma instancia de tiempo de la vista vecina. En lugar de usar el vector de disparidad tal como es, sin embargo, el constructor de vista intermedia 108 cambia la 25 escala del vector de acuerdo con la ubicacion espacial del parametro de posicion de vista intermedia que corresponde al video de vista intermedia en relacion con la posicion de vista de los videos de primera y de segunda vista. Por ejemplo, segun la fig. 6, la subregion 132m, es decir, la subregion superior izquierda de la trama 1221, es una subregion del modo de prediccion intervista. Por consiguiente, el constructor de vista intermedia 108 correlaciona las posiciones de muestra de la subregion segun un vector de disparidad a escala, concretamente el 30 vector de disparidad asociado con esa subregion a escala con un valor de escala determinado del modo descrito, por ejemplo, con respecto a la fig. 3. En las posiciones de muestra asi obtenidas, el constructor de vista intermedia 108 muestrea la version reconstruida de la trama 1201 con el fin de lograr una reconstruccion 136 de una primera porcion de la trama 1241 del video de vista intermedia.

35 [0053] Alternativamente y/o adicionalmente, el constructor de vista intermedia puede intentar aplicar el vector de disparidad en el sentido inverso. Es decir, el constructor de vista intermedia 108 puede correlacionar las posiciones muestreadas de la subregion actual 132m en una direccion prescrita por el vector de disparidad pero apuntando en la direccion opuesta y cambiando la escala por 1-. Entonces, el constructor de vista intermedia 108 puede muestrear (o interpolar) los valores de muestra reconstruidos de la trama actual, es decir, la trama 1221 con el fin de obtener 40 una reconstruccion de la primera porcion 136 del video de vista intermedia. En el ultimo caso, el constructor de vista intermedia 108 puede restringir la reconstruccion a un area donde las posiciones de muestra correlacionadas y la subregion actual 132m se superponen. Como ya se indico anteriormente, el constructor de vista intermedia 108 puede combinar ambas posibilidades con el fin de aumentar el area de la porcion 136 obtenida aprovechando el vector de disparidad de la subregion actual 132m.

45

[0054] Tratando todas las subregiones del modo de prediccion intervista tal como se explico representativamente con respecto a la subregion 132m, el constructor de videos intermedios 108 obtiene las areas no sombreadas dentro de la trama 1241 a 1244 del video de vista intermedia. Obviamente, todavia hay porciones restantes 138 que han de ser rellenadas.

50

[0055] Con el fin de rellenar estas porciones restantes 138, el constructor de vista intermedia 108 puede estar configurado para finalizar una reconstruccion del video de vista intermedia por grupo de imagenes (GOP), en lugar de por trama, en donde el grupo puede ser cualquier grupo de imagenes consecutivas temporalmente sin tener en cuenta si los grupos se pueden decodificar independientemente unos de otros, es decir, ninguna imagen de un

55 grupo es imagen de referencia para una subregion de una imagen/trama de otro grupo, aunque el ultimo caso puede ser ventajoso. Es decir, el constructor de vista intermedia 108 puede almacenar en memoria intermedia las primeras porciones 136 de un grupo de un cierto numero de tramas consecutivas del video de vista intermedia, tras haber reconstruido el numero maximo de porciones reconstruibles mediante el uso de los vectores de disparidad dentro de la senal de datos multivista, usando estas primeras porciones 136 como puntos de apoyo y extrapolando y/o

interpolando las porciones restantes 138 del video de vista intermedia, siendo posible la extrapolacion y/o interpolacion en una direccion temporal y/o espacial. Sin embargo, el constructor de videos intermedios 108 ademas puede, antes o en lugar de la extrapolacion y/o interpolacion, aprovechar la informacion adicional transmitida dentro de la senal de datos multivista con el fin de rellenar porciones adicionales de la porcion restante 138.

5

[0056] Por ejemplo, el constructor de vista intermedia puede estar configurado para identificar porciones espaciales de la escena donde los vectores de disparidad disponibles pueden ser interpolados temporalmente y/o espacialmente - concretamente entre vistas. Por ejemplo, las dos subregiones 132222 y 132422 tienen vectores de disparidad asociados con las mismas. El constructor de vista intermedia 108 puede decidir interpolar temporalmente

10 entre los vectores de disparidad asociados con estas subregiones para obtener un vector de disparidad interpolado temporalmente 140 para reconstruir la porcion restante 142 entre las porciones restantes 138 del video de vista intermedia. El constructor de vista intermedia 108 puede aplicar este vector de disparidad interpolado temporalmente 140 de la misma manera a las porciones reconstruidas de las tramas 1203 y 1223 de los videos de primera y de segunda vista tal como se describio anteriormente con respecto a los vectores de disparidad originales transmitidos 15 explicitamente dentro de la senal de datos multivista.

[0057] Igualmente, el constructor de vista intermedia 108 puede interpolar espacialmente entre los vectores de disparidad asociados con las subregiones 132m y 132231 con el fin de obtener un vector de disparidad interpolado espacialmente para la porcion 144 entre las porciones restantes 138 del video de vista intermedia y aplicar este

20 vector de disparidad interpolado espacialmente de la misma manera que se describio anteriormente con respecto a los otros vectores de disparidad.

[0058] Como ya se ha indicado anteriormente, la senal de datos multivista puede contener datos de fiabilidad para cada vector de disparidad y/o vector de movimiento con el fin de senalizar al decodificador de video hibrido la

25 probabilidad de que el vector de disparidad transmitido dentro de la senal de datos multivista coincida realmente con la disparidad real entre las vistas, en lugar de representar solo una similitud accidental entre porciones de vistas vecinas transmitidas dentro de la senal de datos multivista. En este sentido, el constructor de vista intermedia 108 puede estar configurado para excluir los vectores de disparidad extraidos de la senal de datos multivista para subregiones procedentes de la reconstruccion de porciones del video de vista intermedia para las cuales los datos 30 de fiabilidad extraidos de la senal multidatos no cumplen un requisito minimo predeterminado, es decir, su fiabilidad es demasiado baja.

[0059] Los datos de fiabilidad adicionales pueden estar ocultos en la senal de datos multivista dentro de porciones de la misma que son ignoradas por los decodificadores de video hibrido que no pueden realizar la sintesis de vistas

35 intermedias recien descrita. Por ultimo, se observa que, por ejemplo, ocultas en la porcion recien mencionada de la senal de datos multivista transparente para los decodificadores de video hibrido convencionales, podrian estar contenidas senales residuales para un conjunto predeterminado de vistas intermedias predeterminadas. En este caso, el constructor de vista intermedia 108 podria estar configurado para, cuando se sintetiza un video de vista intermedia en tal vista intermedia predeterminada colocada entre los videos de primera vista y de segunda vista, en 40 primer lugar, realizar la reconstruccion de las tramas del video de vista intermedia, tal como se acaba de describir anteriormente, aplicando entonces la senal residual tal como se obtiene de la senal de datos multivista por medio del extractor de senal de datos 92, a las tramas reconstruidas del video de vista intermedia. Aunque aumentarian los datos que han de ser transferidos por medio de la senal de datos multivista, tambien aumentaria la calidad de la sintesis de vistas intermedias. Por otra parte, se evitaria una transmision de datos de disparidad adicionales para 45 estas vistas intermedias predeterminadas. Solo la senal residual para las tramas de estos videos de vista intermedia en las vistas intermedias predeterminadas tendria que transmitirse dentro de la senal de datos multivista, finalmente junto con los datos de fiabilidad anteriormente mencionados.

[0060] Por ultimo, se observa que el constructor de vista intermedia ademas podria estar configurado para crear 50 tramas en instancias de tiempo intermedias de una manera similar a la descrita anteriormente, con el uso de los

vectores de movimiento en lugar de los vectores de disparidad, sin embargo. Por ejemplo, las posiciones de una subregion del modo de prediccion de movimiento compensado son correlacionadas segun un vector de movimiento a escala de acuerdo con la ubicacion de la trama intermedia en relacion con las tramas inmediatamente vecinas en el tiempo, con el fin de obtener una porcion de estas tramas de tiempo intermedias de los videos de primera y de 55 segunda vista. Las tramas del video de vista intermedia en las posiciones de tiempo intermedias podrian obtenerse por medio, por ejemplo, de extrapolacion/interpolacion en el tiempo de la direccion de vista, o determinando vectores de movimiento del video de vista intermedia mediante interpolacion intervista de los vectores de movimiento del video de primera y de segunda vista solo por mencionar unas pocas posibilidades.

[0061] En otras palabras, las realizaciones descritas anteriormente con respecto a las figs. 4 a 6 permiten la extraccion de nuevas vistas usando vectores de disparidad a escala en el procedimiento de decodificacion. Todas las vistas requeridas, por ejemplo para una visualization de N vistas, pueden extraerse en paralelo usando vectores de disparidad a escala diferente y posiblemente information de fiabilidad. La estructura de un posible decodificador

5 para el cual se mostro una realization en la fig. 5 puede describirse, en otras palabras, de la siguiente manera. En particular, el mismo puede estar basado en estructuras de decodificacion de video “clasicas”, con la incorporation, sin embargo, de elementos de tecnologla adicional. El decodificador puede recibir un tren de bits comprimido que contiene una representation codificada de dos o mas secuencias de video. Puede aplicarse una decodificacion de entropia al tren de bits para extraer los coeficientes de transformation cuantificados, datos de 10 movimiento/disparidad, datos de fiabilidad y otros datos de control. En la realizacion de la fig. 5, esta decodificacion de entropia puede realizarse dentro del extractor de senal de datos 92.

[0062] Los coeficientes de transformacion cuantificados pueden entonces cambiarse de escala y puede aplicarse una transformacion inversa para obtener la diferencia de senal residual de prediction. Esto puede realizarse dentro

15 de los bloques 94 y 96 anteriormente mencionados. A este residuo de prediccion se anaden datos decodificados previamente procedentes de vistas temporales o vecinas. El tipo de informacion que ha de anadirse puede controlarse mediante datos de control especiales: en el caso de datos de video intracodificados, no se dispone de informacion previa o vecina, de manera que se aplica la reconstruction intratrama. Para datos de video intercodificados, se dispone de datos decodificados previamente procedentes de todas las vistas vecinas 20 precedentes temporalmente. Los datos decodificados previamente son desplazados por los vectores de movimiento asociados y el procedimiento de compensation de movimiento y se anaden a las diferentes senales. Los datos decodificados previamente pertenecen a una vista vecina; los datos de movimiento representan los datos de disparidad.

25 [0063] Para la sintesis de vistas intermedias, pueden usarse los mismos datos de disparidad con el fin de sintetizar una, o en paralelo, varias vistas intermedias. Por ejemplo, los vectores de disparidad pueden cambiarse de escala por uno o mas factores de escala n, n = 1...N. Mediante esta medida pueden obtenerse n versiones a escala diferente de los vectores de disparidad y usarse para desplazar los datos decodificados previamente en consecuencia para reconstruir las porciones respectivas 136 de la una o mas vistas intermedias.

30

[0064] En caso de que se transmitan datos residuales para las vistas intermedias, las n versiones desplazadas pueden anadirse a estos datos diferentes transmitidos adicionalmente para generar un numero de tramas reconstruidas adicionales de vistas en paralelo. Como solo unos pocos bloques de una imagen pueden haber sido predichos a partir de vistas vecinas y de este modo tienen vectores de disparidad, mientras que la mayoria pueden 35 haber sido predichos a partir de tramas previas, la reconstruccion inicial puede ser bastante escasa. Ademas, los vectores de disparidad pueden ser poco fiables y diferentes de los valores reales, ya que los vectores de disparidad fueron estimados inicialmente en el codificador basandose en la minimization de tasa global. Por lo tanto, los datos de fiabilidad pueden estar incluidos dentro del flujo de bits o la senal de datos multivista, respectivamente. Estos datos pueden usarse en la fase de mejora de vista o de datos de sintesis para juzgar la fiabilidad de los vectores de 40 disparidad disponibles y posiblemente omitir o refinar los datos mas poco fiables. Estas tramas o vistas iniciales puede ser procesadas ademas mediante filtros de desagrupamiento o posiblemente procedimientos de mejora, tales como relleno de huecos, suavizado de bordes, etc., para mejorar la calidad visual. Esto puede realizarse en los filtros de desagrupamiento 102 y 104 anteriormente mencionado, por ejemplo. Tambien, los datos escasos pueden rellenarse como se describio anteriormente, tal como mediante datos precedentes temporalmente o procedimientos 45 avanzados tales como estimation de disparidad o profundidad para obtener los vectores de disparidad que faltan y rellenar las vistas intermedias inicialmente escasas. Puesto que se dispone de N tramas o vistas a la vez, estos procedimientos de mejora pueden usar informacion disponible de todas ellas. Un ejemplo es la sintesis de vistas: si ha de sintetizarse una nueva vista entre dos vistas originales 1 y 2, tal como se muestra en la fig. 3, los datos de la vista 1 pueden desplazarse primero a la nueva position. La desviacion de disparidad, sin embargo, es diferente para 50 los objetos de primer plano y de fondo, ya que la desviacion es inversamente proporcional a la profundidad de escena original (distancia frontal desde la camara). Por lo tanto, nuevas areas de fondo se hacen visibles en la vista sintetizada que no eran visibles en la vista 1. Aqui, la vista 2 puede usarse para rellenar esta informacion. Ademas, puede usarse datos de vecindad espacial, por ejemplo, informacion de fondo adyacente. Despues de esta fase de mejora, los datos reconstruidos pueden ser transferidos a una memoria intermedia de salida. Tal memoria intermedia 55 de salida puede estar colocada en la salida 90. Esta memoria intermedia puede ordenar los datos codificados y producir como salida las imagenes decodificadas en el orden temporal correcto con un numero correcto de vistas sintetizadas para cada instancia de tiempo. Para lo ultimo, el numero requerido de vistas puede senalizarse por medio de un control de extraccion de vistas intermedias. Ademas, los datos de partida tambien pueden usarse para el siguiente ciclo de procesamiento para que sirvan como entrada a la compensacion de disparidad escalable.

[0065] El decodificador de video hlbrido de la fig. 5 puede usarse as! como decodificador de N vistas tal como se muestra en la fig. 7. Aqul, el tren de bits que contiene dos vistas vbs1 y vbs2, han de ser decodificadas por el decodificador de N vistas para una visualization de 9 vistas con las vistas vd1, vd2,..., vd9, con el decodificador de 9

5 vistas estando implementado, por ejemplo, como se describio anteriormente con respecto a la fig. 5. La visualizacion senaliza el numero de posiciones espaciales o vistas por medio del control de extraction de vistas intermedias. Aqul, se requieren nueve vistas con una distancia espacial de 0,25 cuando se mide en unidades de la distancia intervista entre las vistas vbsi y vbs2, de manera que las vistas de visualizacion vecinas tales como vd2 y vd3 estan 4 veces mas cerca entre si en cuanto a la position espacial y la perception estereoscopica que las vistas en el tren de bits. Por lo 10 tanto, el constructor de vista intermedia puede usar un conjunto de factores de extraccion de vistas {ki, k2,..., k9} que esta establecido en {-0,5, -0,25, 0, 0,25, 0,5, 0,75, 1, 1,25, 1,5} con el fin de cambiar las escala de los vectores de disparidad y reconstruir las tramas de videos de vista intermedia a partir de ello. Tal como se muestra, las vistas de tren de bits vbsi y vbs2 coinciden en su posicion espacial con las vistas de visualizacion vd3 y vd7 ya que 3 = 0 y 7 = 1. Ademas, los factores vd3, vd4 y vd5 son interpolados entre dBsl y vbs2. Finalmente, vd1 y vd2 asi como vd8 y vd9 15 son extrapolados a cada lado del par del tren de bits vbs1, vbs2. Con el conjunto de factores de extraccion de vistas, los vectores de disparidad entre vbs1 y vbs2 son cambiados de escala en consecuencia para obtener 9 versiones desplazadas de manera diferente de los datos decodificados previamente. Junto con los nuevos datos de diferencia procedentes del bloque de escalado/transformacion inversa en el decodificador, se proporcionan 9 vistas nuevas para el bloque de desagrupamiento /postprocesamiento. Las 9 vistas finales se proporcionan entonces a la 20 visualizacion por medio de la memoria intermedia de imagenes de salida.

[0066] Por lo tanto, las realizaciones anteriores describen un procedimiento para extraccion de vistas a partir de datos de video de dominio comprimido, donde las vistas extraidas pueden ser diferentes de las vistas contenidas en la representation comprimida o el tren de datos en cuanto al numero de vistas y la posicion espacial. A diferencia de

25 los procedimientos del estado de la tecnica actual, no se requeria de antemano ninguna extraccion de geometria, tal como la estimation de profundidad. En cambio, la information contenida en la representacion comprimida se uso para la extraccion de vistas, tal como los vectores de movimiento y disparidad. Ademas, el tren de bits tambien puede contener informacion de fiabilidad acerca de los vectores de movimiento/disparidad con el fin de juzgar lo adecuado de estos vectores para una correcta sintesis de vistas adicionales. Estos vectores estan incluidos en el 30 tren de bits comprimido en los procedimientos de codification de video clasicos, tales como la codification de video multivista.

[0067] Por lo tanto, las realizaciones anteriores pueden usarse para generar directamente diferentes vistas en la posicion intermedia requerida de una manera eficiente. Por lo tanto, diferentes visualizaciones multivista pueden

35 usar la misma representacion comprimida y no se requiere ningun procesamiento externo adicional.

[0068] Aunque algunos aspectos se han descrito en el contexto de un aparato, resulta evidente que estos aspectos tambien representan una description del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa de procedimiento o una caracteristica de una etapa de procedimiento. Analogamente, los

40 aspectos descritos en el contexto de una etapa de procedimiento tambien representan una descripcion de un bloque o elemento o caracteristica correspondiente de un aparato correspondiente. Algunas o todas las etapas de procedimiento pueden ejecutarse mediante (o usando) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electronico. En algunas realizaciones, alguna o algunas de las etapas de procedimiento mas importantes pueden ser ejecutadas mediante tal aparato.

45

[0069] La senal de video codificada inventiva puede ser almacenada en un medio de almacenamiento digital o puede ser transmitida en un medio de transmision tal como un medio de transmision inalambrico o un medio de transmision por cable tal como Internet.

50 [0070] Dependiendo de ciertos requisitos de implementation, las realizaciones de la invention pueden implementarse en hardware o en software. La implementacion puede realizarse usando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blue-Ray, un CD, una ROM, una PROM, una EEPROM o una memoria FLASH, que tenga senales de control legibles electronicamente en el mismo, las cuales cooperan (o son capaces de cooperar) con un sistema informatico programable de manera que se realiza el 55 procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.

[0071] Algunas realizaciones segun la invencion comprenden un soporte de datos que tiene senales de control legibles electronicamente, las cuales son capaces de cooperar con un sistema informatico programable, de manera que se realiza uno de los procedimientos descritos en este documento.

[0072] Generalmente, las realizaciones de la presente invencion pueden implementarse como un producto de programa informatico con un codigo de programa, siendo el codigo de programa operativo para realizar uno de los procedimientos cuando el producto de programa informatico se ejecuta en un ordenador. El codigo de programa

5 puede estar almacenado, por ejemplo, en un soporte legible por una maquina.

[0073] Otras realizaciones comprenden el programa informatico para realizar uno de los procedimientos descritos en este documento, almacenado en un soporte legible por una maquina.

10 [0074] En otras palabras, una realizacion del procedimiento inventivo es, por lo tanto, un programa informatico que tiene un codigo de programa para realizar uno de los procedimientos descritos en este documento, cuando el programa informatico se ejecuta en un ordenador.

[0075] Una realizacion adicional del procedimiento inventivo es, por lo tanto, un soporte de datos (o un medio de 15 almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa

informatico para realizar uno de los procedimientos descritos en este documento. El soporte de datos, el medio de almacenamiento digital o el medio grabado son tlpicamente tangibles y/o no transitorios.

[0076] Una realizacion adicional del procedimiento inventivo es, por lo tanto, un tren de datos o una secuencia de 20 senales que representa el programa informatico para realizar uno de los procedimientos descritos en este

documento. El tren de datos o la secuencia de senales puede estar configurado, por ejemplo, para ser transferido a traves de una conexion de comunicacion de datos, por ejemplo a traves de Internet.

[0077] Una realizacion adicional comprende un medio de procesamiento, por ejemplo un ordenador, o un 25 dispositivo logico programable, configurado para o adaptado para realizar uno de los procedimientos descritos en

este documento.

[0078] Una realizacion adicional comprende un ordenador que tiene instalado en el mismo el programa informatico para realizar uno de los procedimientos descritos en este documento.

30

[0079] En algunas realizaciones, puede usarse un dispositivo logico programable (por ejemplo una matriz de puertas programables in situ) para realizar algunas o todas las funcionalidades de los procedimientos descritos en este documento. En algunas realizaciones, una matriz de puertas programables in situ puede cooperar con un microprocesador con el fin de realizar uno de los procedimientos descritos en este documento. Generalmente, los

35 procedimientos se realizan, con preferencia, mediante algun aparato de hardware.

[0080] Las realizaciones descritas anteriormente son simplemente ilustrativas de los principios de la presente invencion. Se comprende que a otros expertos en la material les resultaran evidentes modificaciones y variaciones de las disposiciones y los detalles descritos en este documento. Por lo tanto, la intencion es que este limitada solo

40 por el ambito de las reivindicaciones de patente inminente y no por los detalles especlficos presentados a modo de descripcion y explication de las realizaciones de este documento.

Claims

REIVINDICACIONES

1. Decodificador de video hlbrido que soporta slntesis de vistas intermedias de un video de vista intermedia a partir de un video de una primera y de una segunda vista que son codificadas predictivamente en una

5 senal de datos multivista, estando las tramas (122i - 1224) del video de segunda vista subdivididas espacialmente en subregiones (132232) y teniendo la senal de datos multivista un modo de prediccion de un conjunto de posibles modos de prediccion, asociado con cada una de las subregiones, en el que el conjunto de posibles modos de prediccion comprende al menos un modo de prediccion intervista y un modo de prediccion intravista, comprendiendo el decodificador de video hlbrido:

10

un extractor (82) configurado para extraer respectivamente, de la senal de datos multivista, para las subregiones (132232) de las tramas del video de segunda vista con las cuales esta asociado el modo de prediccion intervista, un vector de disparidad y un resido de prediccion;

15 un reconstructor predictivo (84) configurado para reconstruir las subregiones (132232) de las tramas del video de segunda vista con las cuales esta asociado el modo de prediccion intervista, generando una prediccion a partir de una version reconstruida de una porcion de tramas (1201 - 1204) del video de primera vista usando los vectores de disparidad extraidos de las senales de datos multivista para las subregiones respectivas, y el residuo de prediccion para las subregiones respectivas; y

20

un sintetizador de vista intermedia (86) configurado para reconstruir las primeras porciones (136) del video de vista intermedia usando la version reconstruida de las porciones de las tramas (12O1 - 1204) del video de primera vista,

caracterizado porque

25

el sintetizador de vista intermedia (86) esta configurado para reconstruir las primeras porciones (136) del video de vista intermedia usando los vectores de disparidad extraidos de la senal multivista, y configurado para reconstruir las cuartas porciones (142) del video de vista intermedia aparte de las primeras porciones interpolando temporalmente y/o espacialmente los vectores de disparidad extraidos de la senal de datos multivista para las subregiones de las 30 tramas del video de segunda vista con las cuales esta asociado el modo de prediccion intervista, para obtener los vectores de disparidad para las subregiones con las cuales esta asociado el modo de prediccion intravista.
2. Decodificador de video hlbrido segun la reivindicacion 1, en el que el sintetizador de vista intermedia (86) esta configurado para usar la reconstruccion de las primeras porciones del video de vista intermedia como

35 puntos de apoyo en la extrapolacion y/o interpolacion de terceras porciones del video de vista intermedia.
3. Decodificador de video hlbrido segun cualquiera de las reivindicaciones anteriores, en el que el sintetizador de vista intermedia (86) esta configurado para finalizar una reconstruccion del video de vista intermedia por grupo de imagenes.

40
4. Decodificador de video hlbrido segun cualquiera de las reivindicaciones anteriores, en el que el reconstructor predictivo (84) y el sintetizador de vista intermedia (86) estan configurados para correlacionar linealmente, dependiendo de los vectores de disparidad, las posiciones de muestra de subregiones de las tramas (1221 - 1224) del video de segunda vista con las cuales esta asociado el modo de prediccion intervista en el video

45 de primera vista, y muestrear la version reconstruida de las porciones de las tramas (1201 -1204) del video de primera vista en las posiciones de muestra asi obtenidas para obtener respectivamente la prediccion para las subregiones de las tramas (1221 - 1224) del video de segunda vista con las cuales esta asociado el modo de prediccion intervista, y la reconstruccion de las primeras porciones (136) del video de vista intermedia, con una reduccion de la cantidad de correlacion lineal del sintetizador de vista intermedia (86) en relacion con el 50 reconstructor predictivo (84), que depende de una ubicacion espacial de una vista intermedia que corresponde al video de vista intermedia, en relacion con una primera vista que corresponde al video de primera vista, y una segunda vista que corresponde al video de segunda vista.
5. Decodificador de video hlbrido segun cualquiera de las reivindicaciones anteriores, en el que el 55 reconstructor predictivo (84) esta configurado para correlacionar linealmente, dependiendo de los vectores de

disparidad, las posiciones de muestra de subregiones de las tramas (1221 - 1224) del video de segunda vista con las cuales esta asociado el modo de prediccion intervideo en el video de primera vista, y muestrear la version reconstruida de las porciones de las tramas (1201 -1204) del video de primera vista en las posiciones de muestra asi obtenidas, para obtener la prediccion para las subregiones de las tramas (1221 - 1224) del video de segunda vista

con las cuales esta asociado el modo de prediccion intervista, y el sintetizador de vista intermedia (86) esta configurado para correlacionar linealmente, dependiendo del vector de disparidad, las posiciones de muestra de las subregiones de las tramas (1221 - 1224) del video de segunda vista con las cuales esta asociado el modo de prediccion intervista, en una direccion opuesta a los vectores de disparidad, y muestrear la reconstruccion de las 5 subregiones de las tramas (122i - 1224) del video de segunda vista en las posiciones de muestra asi obtenidas, con una reduction de una cantidad de correlation lineal del sintetizador de vista intermedia (86) en relation con el reconstructor predictivo (84), que depende de una ubicacion espacial de una vista intermedia que corresponde al video de vista intermedia, en relacion con una primera vista que corresponde al video de primera vista, y una segunda vista que corresponde al video de segunda vista, respectivamente.

10
6. Decodificador de video hibrido segun cualquiera de las reivindicaciones anteriores, en el que el extractor (82) esta configurado para extraer, de la senal de datos multivista, para las subregiones de las tramas (1221 - 1224) del video de segunda vista, tambien datos de fiabilidad, en el que el sintetizador de vista intermedia (86) esta configurado para excluir los vectores de disparidad extraidos de la senal de datos multivista para las

15 subregiones de las tramas (1221 - 1224) del video de segunda vista para las cuales los datos de fiabilidad extraidos de la senal de datos multivista no cumplen un requisito minimo predeterminado, de su utilization en la reconstruccion de las primeras porciones del video de vista intermedia.
7. Procedimiento de decodificacion de video hibrido que soporta sintesis de vistas intermedias de un 20 video de vista intermedia de un video de primera vista y de segunda vista que son codificados predictivamente en

una senal de datos multivista, estando las tramas (1221 - 1224) del video de segunda vista subdivididas espacialmente en subregiones (132232) y teniendo la senal de datos multivista un modo de prediccion de un conjunto de posibles modos de prediccion, asociado con cada una de las subregiones, en el que el conjunto de posibles modos de prediccion comprende al menos un modo de prediccion intervista y un modo de prediccion intravista, 25 comprendiendo el procedimiento de decodificacion de video hibrido:

extraer respectivamente, de la senal de datos multivista, para las subregiones (132232) de las tramas del video de segunda vista con las cuales esta asociado el modo de prediccion intervista, un vector de disparidad y un resido de prediccion;

30

reconstruir predictivamente las subregiones (132232) de las tramas del video de segunda vista con las cuales esta asociado el modo de prediccion intervista, generando una prediccion a partir de una version reconstruida de una portion de tramas (1201 - 1204) del video de primera vista usando los vectores de disparidad extraidos de las senales de datos multivista para las subregiones respectivas, y el residuo de prediccion para las subregiones 35 respectivas; y

reconstruir las primeras porciones (136) del video de vista intermedia usando la version reconstruida de las porciones de las tramas (1201 - 1204) del video de primera vista,

40 caracterizado porque la etapa de reconstruir las primeras porciones (136) del video de vista intermedia usa los vectores de disparidad extraidos de la senal de datos multivista y porque el procedimiento comprende ademas reconstruir las cuartas porciones (142) del video de vista intermedia aparte de las primeras porciones interpolando temporalmente y/o espacialmente los vectores de disparidad extraidos de la senal de datos multivista para las subregiones de las tramas del video de segunda vista con las cuales esta asociado el modo de prediccion intervista, 45 para obtener los vectores de disparidad para las subregiones con las cuales esta asociado el modo de prediccion intravista.
8. Programa informatico que tiene un codigo de programa para realizar, cuando es ejecutado en un ordenador, un procedimiento segun la revindication 7.