ITTO20121073A1

ITTO20121073A1 - Apparato e metodo per la generazione e la ricostruzione di un flusso video

Info

Publication number: ITTO20121073A1
Application number: IT001073A
Authority: IT
Inventors: Maria Giovanna Cucca
Original assignee: Rai Radiotelevisione Italiana; S I Sv El Societa Italiana Per Lo Sviluppo Dell
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2014-06-14
Also published as: EP2932711B1; TW201440484A; US20150312547A1; CN104838648B; TWI539790B; KR20150095765A; EP2932711A1; CN104838648A; WO2014091445A1

Description

â€œAPPARATO E METODO PER LA GENERAZIONE E LA RICOSTRUZIONE DI UN FLUSSO VIDEOâ€

DESCRIZIONE

[CAMPO DELLâ€™INVENZIONE]

La presente invenzione si riferisce ad un apparato, un metodo ed un prodotto software per la generazione di un flusso video.

La presente invenzione si riferisce altresÃ¬ ad un apparato, un metodo ed un prodotto software per la ricostruzione di un flusso video.

La presente invenzione si riferisce inoltre ad un segnale elettromagnetico incorporante un flusso video generato tramite detto apparato, metodo o prodotto software per la generazione di un flusso video.

[ARTE NOTA]

La diffusione della tecnologia 3D, dopo essere stata esclusiva protagonista nelle sale cinematografiche, sta prendendo sempre piÃ¹ piede anche nel campo televisivo come televisione HD stereoscopica basata sullâ€™utilizzo di una coppia di viste, quella destra e quella sinistra, che rappresentano quanto percepito rispettivamente dallâ€™occhio destro e dallâ€™occhio sinistro nella visione binoculare.

La tecnica piÃ¹ semplice per la distribuzione del segnale stereoscopico consiste nella trasmissione sia della vista destra, sia di quella sinistra (cosiddetto simulcast), raddoppiando perÃ² in tal modo la banda utilizzata. Tale aumento della banda impiegata risulta quantomai indesiderato, dal momento che attualmente le risorse di frequenza per le trasmissioni TV sono ormai estremamente limitate.

Per sopperire a tale inconveniente Ã ̈ possibile ricorrere ad approcci alternativi tra i quali il 2D plus stereoscopic metadata (2D piÃ¹ metadati stereoscopici), che consentono una visualizzazione Full HD del video stereoscopico, dove per â€œ2Dâ€ si intende una delle due viste, e per â€œstereoscopic metadataâ€ si intendono le informazioni addizionali che consentono di rappresentare lâ€™altra vista sfruttando la correlazione tra le due viste.

La definizione 2D plus stereoscopic metadata include diversi approcci, ciascuno dei quali utilizza dei metadati differenti per ottenere la vista che non viene trasmessa integralmente:

a) 2D plus Difference: viene calcolata e trasmessa la differenza tra le due viste;

b) 2D plus Depth / Disparity: viene calcolata e trasmessa la mappa di profonditÃ o disparitÃ ottenuta a partire dalle due viste;

c) 2D plus Depth, Occlusion and Transparency (DOT): vengono calcolate e trasmesse, oltre alla mappa di profonditÃ , le parti non ricostruibili tramite questâ€™ultima.

Esistono diversi approcci per la trasmissione della TV 3D che si differenziano per quanto concerne il bit-rate necessario alla codifica delle viste; i piÃ¹ noti si basano su arrangiamenti spaziali delle due viste stereoscopiche (formati Side-by-side, Top-and-Bottom, etc.), sfruttamento della correlazione tra le viste (Multiview Video Coding o MVC â€“ Stereo High Profile), utilizzo della mappa di profonditÃ (depth map) e di quella delle occlusioni (occlusion map).

Side-by-side e Top-and-Bottom consentono di riutilizzare lâ€™esistente infrastruttura HDTV, ma non permettono una visualizzazione Full HD per entrambi gli occhi, in quanto le due viste sono collocate spazialmente allâ€™interno di un frame HDTV, con conseguente dimezzamento orizzontale o verticale della risoluzione nativa.

Il Multiview Video Coding (MVC) consente la fruizione di un contenuto Full HD per entrambi gli occhi in quanto viene trasmessa la coppia stereoscopica sfruttando la correlazione tra le viste, ma non consente unâ€™efficienza di compressione significativa rispetto al simulcast.

Lâ€™approccio 2D plus Depth, come detto, prevede la trasmissione di una vista (segnale 2D, ad esempio la vista sinistra) e della mappa di profonditÃ calcolata a partire dalle due viste.

La mappa di profonditÃ (depth map) rappresenta, in scala di grigi, le informazioni che forniscono la disparitÃ tra le due viste, ovvero la distanza a cui i pixel della vista considerata (da ricostruire in lato rigenerazione) si trovano rispetto a quella di riferimento (cioÃ ̈ quella trasmessa integralmente). La conversione tra disparitÃ e profonditÃ avviene mediante unâ€™opportuna trasformazione che dipende dai parametri intrinseci delle videocamere, dalla distanza tra le due videocamere, dalla distanza dei piani di scena piÃ¹ lontano e piÃ¹ vicino alle videocamere. La ricostruzione di una delle due viste puÃ² avvenire utilizzando diverse tecniche:

1) spostando i pixel di un valore pari alla disparitÃ , ottenuta dalla mappa di profonditÃ , a partire dalla vista presa come riferimento;

2) utilizzando algoritmi cosiddetti di 3D warping e reverse 3D warping per la proiezione delle coordinate spaziali reali dei pixel su quelli della vista sintetizzate tramite opportune matrici. Tali matrici sono ricavate dai parametri che definiscono la posizione e lâ€™orientamento della camera rispetto al sistema reale. La qualitÃ della vista ricostruita Ã ̈ strettamente legata alla qualitÃ della mappa di profonditÃ .

La vista cosÃ¬ ricostruita non Ã ̈ perÃ² completa a causa delle cosiddette occlusioni, ossia parti dello sfondo (background) e/o oggetti presenti soltanto in una delle due viste. Per correggere questo problema diventa necessario quindi trasmettere anche una mappa delle occlusioni, allo scopo di coprire i pixel non ricostruiti. Utilizzando questo metodo si ha perÃ² unâ€™occupazione di banda complessiva risultante compresa tra il 180% e il 220% rispetto ad un flusso 2D Full HD a pari risoluzione e frequenza di quadro, rendendo molto onerosa la trasmissione e/o la memorizzazione di un segnale 3D realizzato in questo modo.

[SINTESI DELLâ€™INVENZIONE]

Scopo della presente invenzione Ã ̈ quello di presentare un metodo, un apparato ed un prodotto software che risolvano alcuni dei problemi dellâ€™arte nota.

In particolare scopo dellâ€™invenzione Ã ̈ mettere a disposizione un metodo, un apparato ed un prodotto software che permettano di generare un flusso video stereoscopico, nonchÃ© un apparato, un metodo ed un prodotto software che permettano di ricostruire un flusso video stereoscopico, che siano in grado di limitare in maniera significativa lâ€™occupazione di banda in fase di trasmissione/ricezione, e lâ€™occupazione di spazi di memoria in fase di archiviazione, senza al contempo ridurre la qualitÃ del flusso video stesso.

Ulteriore scopo dellâ€™invenzione Ã ̈ quello di indicare un metodo, un apparato e un software di elaborazione di un flusso video tridimensionale che sia altamente scalabile rispetto alla complessitÃ richiesta specie in lato ricostruzione, per cui Ã ̈ facilmente possibile ricostruire un medesimo flusso video stereoscopico 3D entrante in modalitÃ 2D con una semplicissima modificazione alla modalitÃ di funzionamento dellâ€™apparato ricostruttore.

Ulteriore scopo dellâ€™invenzione Ã ̈ quello di indicare un metodo, un apparato e un software di generazione e ricostruzione di un flusso video tridimensionale che sia facilmente estendibile dal caso di un flusso video stereoscopico comprendente due viste a sistemi cosiddetti â€œmultiviewâ€ che impiegano un numero di viste maggiore di due.

Questi ed altri scopi ancora sono sostanzialmente raggiunti da un metodo, un apparato e da un prodotto software di generazione, nonchÃ© da un apparato, un metodo ed un prodotto software di ricostruzione, secondo quanto descritto nelle unite rivendicazioni.

[BREVE DESCRIZIONE DEI DISEGNI]

Ulteriori scopi e vantaggi della presente invenzione appariranno maggiormente dalla descrizione dettagliata di una forma di esecuzione preferita e non esclusiva dellâ€™invenzione stessa. Tale descrizione Ã ̈ fornita qui di seguito con riferimento agli uniti disegni, anchâ€™essi aventi scopo puramente esemplificativo e pertanto non limitativo, in cui:

âˆ’ la Figura 1a mostra uno schema a blocchi di un apparato di generazione secondo la presente invenzione;

âˆ’ la Figura 1b mostra uno schema a blocchi di un apparato di ricostruzione secondo la presente invenzione;

âˆ’ la Figura 2 mostra schematicamente un flusso video impiegato nellâ€™ambito della presente invenzione;

âˆ’ la Figura 3 mostra uno schema a blocchi di una possibile forma di esecuzione di un generatore secondo lâ€™invenzione;

âˆ’ la Figura 4a mostra uno schema a blocchi di una possibile forma di esecuzione di un apparato di ricostruzione secondo lâ€™invenzione;

âˆ’ le Figure 4b-4c mostrano schematicamente due modalitÃ operative dellâ€™apparato di Figura 4a;

âˆ’ le Figure 5a-5b mostrano diagrammi di flusso rappresentativi del metodo di ricostruzione secondo la presente invenzione;

âˆ’ la Figura 6 mostra schematicamente relazioni intercorrenti tra immagini utilizzate ed immagini ricostruite nel metodo di ricostruzione secondo la presente invenzione;

âˆ’ la Figura 7 mostra una applicazione dellâ€™invenzione al caso di piÃ¹ di due viste con retro-compatibilitÃ 2D;

âˆ’ la Figura 8 mostra una applicazione dellâ€™invenzione al caso di piÃ¹ di due viste senza retro-compatibilitÃ 2D; âˆ’ la Figura 9 mostra uno schema a blocchi di una possibile forma di esecuzione di un apparato di generazione secondo lâ€™invenzione;

âˆ’ le Figure 10a-10d mostrano schematicamente fasi di sintesi di immagini, impiegate in un apparato ed in un metodo secondo lâ€™invenzione;

âˆ’ le Figure 11a-11d mostrano schematicamente fasi di ricostruzione di immagini, impiegate in un apparato ed in un metodo secondo lâ€™invenzione;.

[DESCRIZIONE DETTAGLIATA]

Con riferimento alle unite Figure, con 1 e 2 sono stati complessivamente indicati, rispettivamente, un apparato di generazione per la generazione di un flusso video ed un apparato di ricostruzione per la ricostruzione di un flusso video.

Si noti che, nel presente contesto, i termini â€œimmagineâ€ , â€œquadroâ€ e â€œframeâ€ saranno considerati tra loro sinonimi e potranno quindi essere utilizzati in maniera intercambiabile, mentre il termine â€œmappaâ€ indica indifferentemente una mappa di disparitÃ o di profonditÃ .

Lâ€™apparato di generazione 1 (Figura 1a) comprende innanzitutto unâ€™interfaccia di comunicazione 10 configurata per ricevere in ingresso un flusso video stereoscopico, che sarÃ indicato come flusso stereoscopico di ingresso VIN, comprendente due distinte sequenze di immagini: una prima sequenza di ingresso L di immagini rappresentative di una prima vista di tale flusso stereoscopico, ed una seconda sequenza di ingresso R di immagini rappresentative di una seconda vista di detto flusso stereoscopico.

La prima sequenza di ingresso L e la seconda sequenza di ingresso R, quando riprodotte tramite un opportuno apparato di riproduzione (come ad esempio un televisore con predisposizione 3D) permettono di visualizzare contenuti in modo che lâ€™utente abbia la percezione della profonditÃ alla quale i vari elementi rappresentati si trovano, dando quindi la sensazione di una rappresentazione tridimensionale di tali contenuti.

A titolo esemplificativo, la prima sequenza di ingresso L puÃ² essere relativa alla vista sinistra del flusso stereoscopico, mentre la seconda sequenza di ingresso R puÃ² essere relativa alla vista destra di tale flusso. Va tuttavia notato che lâ€™invenzione puÃ² essere attuata anche nella situazione diametralmente opposta, in cui la prima sequenza L Ã ̈ rappresentativa della vista destra e la seconda sequenza R Ã ̈ rappresentativa della vista sinistra.

In particolare lâ€™interfaccia di comunicazione 10 riceve in ingresso una o piÃ¹ immagini della prima sequenza di ingresso L, ed una o piÃ¹ immagini della seconda sequenza di ingresso R.

Le immagini della prima sequenza di ingresso L possono essere archiviate, ad esempio, in una prima area di memoria M1; le immagini della seconda sequenza di ingresso R possono essere archiviate, ad esempio, in una seconda area di memoria M2.

La prima e/o la seconda area di memoria M1, M2 possono appartenere ad una memoria non-volatile, in cui la prima e/o la seconda sequenza di ingresso L, R possono essere archiviate in maniera stabile, fino ad un successivo comando di cancellazione, oppure ad una memoria volatile, in cui la prima e/o la seconda sequenza di ingresso L, R, o loro parti, sono archiviate solo per il tempo strettamente necessario allâ€™elaborazione delle stesse.

Lâ€™interfaccia di comunicazione 10 riceve in ingresso una o piÃ¹ mappe che permettono, a partire da una o piÃ¹ delle immagini della prima sequenza di ingresso L, di ricostruire sostanzialmente corrispondenti immagini della seconda sequenza di ingresso R.

In pratica, combinando tra loro una determinata immagine della prima sequenza di ingresso L ed una corrispondente di dette mappe, Ã ̈ possibile ottenere sostanzialmente la rispettiva immagine appartenente alla seconda sequenza di ingresso R, cioÃ ̈ lâ€™immagine della seconda sequenza di ingresso R associata al medesimo riferimento temporale dellâ€™immagine della prima sequenza di ingresso L.

Come sarÃ piÃ¹ chiaro in seguito, tale ricostruzione potrÃ non essere completa, a causa delle cosiddette â€œocclusioniâ€ .

Lâ€™interfaccia di comunicazione 10 riceve in ingresso una o piÃ¹ mappe D che permettono, a partire da una o piÃ¹ delle immagini della seconda sequenza di ingresso R, e rispettivamente della prima sequenza di ingresso L, di ricostruire sostanzialmente corrispondenti immagini della prima sequenza di ingresso L, e rispettivamente della seconda sequenza di ingresso R. Anche queste ricostruzioni potrebbero non essere complete, per i motivi giÃ esposti sopra.

Le mappe possono essere mappe di profonditÃ oppure mappe di disparitÃ . Tali mappe possono essere generate tramite tecniche di per sÃ© note, che non verranno qui descritte in dettaglio. Si noti tuttavia che, ai fini dellâ€™implementazione della presente invenzione, possono essere impiegate sia mappe di profonditÃ , sia mappe di disparitÃ . Questa osservazione si riferisce non solo alle mappe menzionate qui sopra, ma anche alle altre â€œmappe â€ che sono citate nella presente descrizione e nelle successive rivendicazioni.

In una forma di realizzazione, lâ€™apparato 1 puÃ² essere predisposto a ricevere in ingresso solamente la prima e la seconda sequenza di ingresso L, R, ed a calcolare in maniera autonoma le mappe necessarie. Lâ€™opportuno modulo di calcolo che genera le mappe in questa forma di realizzazione, provvede poi a fornire in ingresso allâ€™interfaccia di comunicazione 10 le mappe generate, cosÃ¬ che le stesse possano essere processate dallâ€™unitÃ di elaborazione 11 per la creazione del flusso video codificato CVS.

Vantaggiosamente le mappe possono essere archiviate in un opportuno registro di memoria, appartenente ad una memoria volatile o ad una memoria non-volatile.

Lâ€™apparato di generazione 1 comprende inoltre unâ€™unitÃ di elaborazione 11 operativamente associata allâ€™interfaccia di comunicazione 10 e, preferibilmente, alle citate prime e seconde aree di memoria M1, M2.

Lâ€™unitÃ di elaborazione 11 provvede a generare in uscita un flusso video codificato CVS che, nonostante presenti complessivamente unâ€™occupazione di memoria significativamente minore rispetto al flusso stereoscopico di ingresso VIN e possa quindi essere trasmesso impiegando minori risorse di banda, contiene tutte le informazioni essenziali affinchÃ© i contenuti del flusso iniziale possano essere fedelmente riprodotti.

Scendendo in maggiore dettaglio, lâ€™unitÃ di elaborazione 11 Ã ̈ configurata per determinare almeno una prima immagine L1 della prima sequenza di ingresso L.

Preferibilmente tale prima immagine L1 viene selezionata tra le immagini appartenenti alla prima sequenza di ingresso L.

Si noti che, nel presente contesto e nelle successive rivendicazioni, con â€œprima immagineâ€ non viene designata necessariamente lâ€™immagine iniziale della prima sequenza in ingresso L, ma semplicemente una delle immagini ricevute dallâ€™unitÃ di elaborazione 11 tramite lâ€™interfaccia di comunicazione 10. La medesima osservazione vale anche sia per la â€œprima immagineâ€ della seconda sequenza di ingresso R, sia per lâ€™espressione â€œseconda immagineâ€ , che verranno menzionate nel seguito.

Lâ€™unitÃ di elaborazione 11 Ã ̈ inoltre configurata per determinare una prima mappa differenziale D1.

La prima mappa D1 puÃ² essere selezionata tra le mappe ricevute in ingresso tramite la citata interfaccia di comunicazione 10.

La prima mappa D1 Ã ̈ tale che, combinando la stessa con la prima immagine L1 della prima sequenza di ingresso L, Ã ̈ possibile ricostruire sostanzialmente una prima immagine R1 della seconda sequenza di ingresso R. Come detto, tale ricostruzione puÃ² non essere completa.

Lâ€™unitÃ di elaborazione 11 Ã ̈ inoltre configurata per determinare una seconda immagine R2 della seconda sequenza di ingresso R.

La seconda immagine R2 della seconda sequenza di ingresso puÃ² essere selezionata tra le immagini della seconda sequenza di ingresso R.

Lâ€™unitÃ di elaborazione 11 Ã ̈ inoltre configurata per determinare una seconda mappa D2.

La seconda mappa D2 (che puÃ² essere, per esempio, una mappa di profonditÃ o una mappa di disparitÃ ) Ã ̈ tale che, combinando la stessa con la seconda immagine R2 della seconda sequenza di ingresso R si possa sostanzialmente ricostruire una seconda immagine L2 della prima sequenza di ingresso L.

Preferibilmente la seconda immagine L2 e la seconda immagine R2 sono associate ad un medesimo riferimento temporale.

Preferibilmente, le seconde immagini L2, R2 sono temporalmente successive e temporalmente adiacenti, rispettivamente, alle prime immagini L1, R1.

Lâ€™unitÃ di elaborazione 11 puÃ² quindi predisporre in uscita il flusso video codificato CVS; questâ€™ultimo comprende almeno: la prima immagine L1 della prima sequenza in ingresso L, la prima mappa D1, la seconda immagine R2 della seconda sequenza in ingresso R e la seconda mappa D2.

In questo modo, il flusso video codificato CVS puÃ² consentire una fruizione del flusso video stereoscopico iniziale VIN evitando che questâ€™ultimo venga archiviato e/o trasmesso integralmente.

Il flusso video codificato CVS puÃ² essere trasmesso in broadcast, per esempio per una fruizione tramite apparecchi televisivi in grado di decodificare il flusso video codificato CVS, oppure associati ad idonei decoder esterni predisposti a tale decodifica.

Il flusso video codificato CVS puÃ² anche essere memorizzato su un opportuno supporto magnetico e/o ottico e/o elettronico. Tale supporto puÃ² poi essere associato ad un decodificatore per permettere una fruizione dei contenuti del flusso video immagazzinato.

Come sopra accennato, non sempre impiegando la prima immagine L1 della prima sequenza di ingresso L e la rispettiva mappa D1 (o, analogamente, la seconda immagine R2 della seconda sequenza di ingresso R e la rispettiva seconda mappa D2) Ã ̈ possibile ricostruire interamente la prima immagine R1 della seconda sequenza di ingresso R (o la seconda immagine L2 della prima sequenza in ingresso L).

Possono infatti verificarsi le cosiddette â€œocclusioniâ€ , cioÃ ̈ pixel o gruppi di pixel, rappresentativi di parti di sfondo (background) e/o di oggetti, presenti soltanto in una delle due viste. Questi pixel sono presenti in particolare sui bordi degli oggetti della scena, soprattutto in presenza di oggetti relativamente vicini, sovrapposti ed in movimento. In altre parole, la prima immagine R1 della seconda sequenza di ingresso R puÃ² contenere dei pixel e/o delle aree che non hanno corrispondenza nella prima immagine L1 della prima sequenza di ingresso L e che quindi non possono essere ricostruite impiegando solamente L1 e D1.

Un discorso identico vale per la ricostruzione della seconda immagine L2 della prima sequenza di ingresso L a partire da R2 e D2.

Per evitare questo inconveniente, che in pratica si traduce in una riproduzione incompleta di alcune immagini, ed in una corrispondente riduzione della qualitÃ di fruizione del flusso video, Ã ̈ previsto che lâ€™unitÃ di elaborazione 11 individui, in funzione della prima immagine L1 della prima sequenza in ingresso L, e della corrispondente prima mappa D1, uno o piÃ¹ pixel occlusi. Vengono quindi determinati, in funzione di una o piÃ¹ immagini della seconda sequenza di ingresso R, dati descrittivi di uno o piÃ¹ pixel di sostituzione da sostituire a detti uno o piÃ¹ pixel occlusi.

In una forma di realizzazione, per individuare i pixel occlusi, lâ€™unitÃ di elaborazione 11 puÃ² combinare tra loro la prima immagine L1 della prima sequenza di ingresso L con la prima mappa D1, ottenendo una rispettiva combinazione. Confrontando tale combinazione, che potrÃ essere simile ma non del tutto identica alla prima immagine R1 della seconda sequenza di ingresso R, proprio con la prima immagine R1 della seconda sequenza di ingresso R, lâ€™unitÃ di elaborazione 11 individua i pixel occlusi ed i relativi pixel di sostituzione.

In una forma di realizzazione, i dati descrittivi dei pixel di sostituzione possono essere determinati in funzione di una o piÃ¹ immagini appartenenti alla seconda sequenza di ingresso R diverse da (cioÃ ̈ altre rispetto a) detta prima immagine R1.

Preferibilmente, tali dati descrittivi possono essere determinati in funzione di unâ€™immagine temporalmente adiacente e temporalmente precedente a detta prima immagine R1.

A titolo esemplificativo, puÃ² essere utilizzata lâ€™immagine immediatamente precedente, nella seconda sequenza di ingresso R, alla prima immagine R1.

Preferibilmente vengono individuati determinati pixel di sostituzione che non possono essere sintetizzati in funzione solo di unâ€™immagine precedente e/o di unâ€™immagine successiva a detta corrispondente immagine R1 appartenenti detta seconda sequenza di ingresso R. In pratica lâ€™unitÃ di elaborazione 11 provvede ad identificare quei pixel occlusi che non potranno essere ricostruiti dal decoder sulla base della sola immagine precedente e/o della sola immagine successiva rispetto allâ€™immagine da ricostruire.

Lâ€™unitÃ di elaborazione 11 determina quindi dati principali descrittivi di tali determinati pixel di sostituzione.

I dati principali vengono vantaggiosamente inseriti nel flusso video codificato CVS, cosÃ¬ da poter essere poi impiegati in fase di decodifica.

In una forma di realizzazione, i dati principali possono comprendere vettori di movimento (motion vectors) associati ai pixel occlusi.

Tali vettori di movimento sono di per sÃ© noti e previsti da alcuni standard di codifica video (ad esempio H264/AVC). Ãˆ tuttavia previsto che possano essere impiegati degli appositi parametri - anche non coincidenti con quelli definiti negli standard di codifica video correnti - che descrivono il movimento dei pixel occlusi per migliorare la loro ricostruzione al momento della decodifica.

A titolo esemplificativo, i citati parametri descrittivi dei pixel di sostituzione possono essere ottenuti per mezzo di un sistema di view synthesis utilizzando le sole informazioni presenti nella mappa di profonditÃ per identificare le zone occluse.

Come sopra accennato, la prima immagine R1 della prima sequenza in ingresso R puÃ² essere utilizzata per stimare il valore dei pixel occlusi: una parte di questi pixel puÃ² essere ricavata dallâ€™immagine precedente appartenente alla medesima sequenza R, mentre i restanti, che riguardano in particolar modo zone di movimento, vengono ricercati tra le immagini precedenti e le immagini successive (rispetto alla prima immagine R1) appartenenti alla seconda sequenza R.

Per quanto riguarda lâ€™immagine (sia essa della prima o della seconda sequenza di ingresso L, R) che deve essere codificata e che, secondo la sequenza temporale con cui le immagini sono ordinate, Ã ̈ antecedente a tutte le altre, non ci potranno essere immagini ad essa precedenti che potranno essere utilizzate per la stima delle occlusioni e la determinazione dei relativi pixel di sostituzione. In questo caso particolare, potranno essere vantaggiosamente utilizzate una o piÃ¹ delle immagini successive. In un esempio di esecuzione, potrÃ essere utilizzata lâ€™immagine ad essa adiacente e temporalmente immediatamente successiva.

Come sarÃ piÃ¹ chiaro in seguito, i pixel di sostituzione determinabili tramite le immagini precedenti e/o successive a quella da codificare possono essere calcolati dal decoder senza che nel flusso video codificato CVS vengano inseriti dati specifici identificativi e descrittivi di tali pixel di sostituzione.

CiÃ² che vantaggiosamente puÃ² essere inserito nel flusso video codificato CVS sono i citati dati principali, che permettono di determinare i pixel di sostituzione non determinabili tramite la sola immagine precedente e/o la sola immagine successiva a quella in questione.

Si noti che, poichÃ© i pixel occlusi che non possono essere ricavati dal frame precedente (o successivo) costituiscono tipicamente solo una piccola percentuale del totale, il carico aggiuntivo (overhead) di informazioni da inviare dovuto alla presenza dei vettori di movimento Ã ̈ normalmente trascurabile o comunque molto ridotto rispetto a quello necessario in caso di assenza di questa caratteristica.

Quanto sopra descritto con riferimento allâ€™individuazione delle informazioni utili alla ricostruzione della prima immagine R1 della seconda sequenza di ingresso R si applica in maniera del tutto analoga alla sintesi della seconda immagine L2 della prima sequenza di ingresso L.

Si noti che quanto sopra descritto con riferimento alle sole prime e seconde immagini L1, L2, R1, R2 puÃ² essere realizzato in pratica con un numero ben maggiore di immagini, cosÃ¬ da formare flussi video di filmati, film, e cosÃ¬ via.

Lâ€™interfaccia di comunicazione 10 puÃ² infatti ricevere una sequenza di ingresso L comprendente un numero ben maggiore di immagini. In particolare la prima sequenza di ingresso L comprende una prima pluralitÃ Li di immagini ciascuna delle quali Ã ̈ associata ad un rispettivo primo riferimento temporale TLi, che ne identifica la posizione allâ€™interno della prima sequenza di ingresso L.

La prima pluralitÃ di immagini Li comprende la sopra citata prima immagine L1.

La prima sequenza di ingresso L puÃ² comprendere inoltre immagini alternate alle immagini di detta prima pluralitÃ Li, cioÃ ̈ immagini associate a riferimenti temporali (che, come sarÃ piÃ¹ chiaro in seguito, saranno identificati come TRi) alternati ai primi riferimenti temporali TLi.

La seconda sequenza di ingresso R ricevuta dallâ€™interfaccia di comunicazione 10 comprende una seconda pluralitÃ Ri di immagini ciascuna associata ad un rispettivo secondo riferimento temporale TRi, che ne identifica la posizione allâ€™interno della seconda sequenza di ingresso R.

La seconda pluralitÃ di immagini Ri comprende la sopra citata seconda immagine R2.

La seconda sequenza di ingresso R puÃ² comprendere inoltre immagini alternate alle immagini di detta seconda pluralitÃ Ri, cioÃ ̈ immagini associate a riferimenti temporali alternati ai secondi riferimenti temporali TRi. In pratica, tali ulteriori immagini della seconda sequenza di ingresso R sono associate ai sopra citati primi riferimenti temporali TLi.

Vantaggiosamente i primi riferimenti temporali TLi sono temporalmente alternati ai secondi riferimenti temporali TRi. In altri termini, nella forma di esecuzione preferita, le immagini della prima pluralitÃ Li sono temporalmente alternate alle immagini della seconda pluralitÃ Ri.

Preferibilmente la prima sequenza di ingresso L Ã ̈ archiviata nella prima area di memoria M1, e la seconda sequenza di ingresso R Ã ̈ archiviata nella seconda area di memoria M2.

Lâ€™interfaccia di comunicazione 10 Ã ̈ configurata per ricevere una prima pluralitÃ di mappe D1i facente parte del flusso in ingresso Vin.

Le mappe della prima pluralitÃ di mappe D1i sono preferibilmente mappe di profonditÃ o mappe di disparitÃ .

Le mappe della prima pluralitÃ di mappe D1i sono tali che, combinando ciascuna di tali mappe con la rispettiva immagine di detta prima pluralitÃ Li, si ottenga sostanzialmente (a meno di occlusioni o altri fenomeni analoghi) la corrispondente immagine della seconda sequenza di ingresso R.

La prima pluralitÃ di mappe D1i comprende la summenzionata prima mappa D1.

Lâ€™interfaccia di comunicazione 10 Ã ̈ inoltre configurata per ricevere una seconda pluralitÃ di mappe D2i facente parte del flusso in ingresso Vin.

Le mappe della seconda pluralitÃ di mappe D2i sono preferibilmente mappe di profonditÃ o mappe di disparitÃ .

Le mappe della seconda pluralitÃ di mappe D2i sono tali che, combinando ciascuna di tali mappe con la rispettiva immagine di detta seconda pluralitÃ Ri, si ottenga sostanzialmente (a meno di occlusioni o altri fenomeni analoghi) la corrispondente immagine della prima sequenza di ingresso L.

La seconda pluralitÃ di mappe D2i comprende la summenzionata seconda mappa D2.

Lâ€™unitÃ di elaborazione 11 Ã ̈ quindi configurata per operare sulle immagini della prima pluralitÃ Li, sulle immagini della seconda pluralitÃ Ri e sulle rispettive mappe D1i, D2i secondo la stessa tecnica sopra descritta con riferimento alla prima immagine L1 della prima sequenza di ingresso L, alla prima mappa D1, alla seconda immagine R2 della seconda sequenza di ingresso R ed alla seconda mappa D2.

Lâ€™unitÃ di elaborazione 11 Ã ̈ configurata per inserire nel flusso video codificato CVS la prima pluralitÃ di immagini Li, la prima pluralitÃ di mappe D1i, la seconda pluralitÃ di immagini Ri e la seconda pluralitÃ di mappe D2i.

Il flusso video codificato CVS contiene quindi, per ciascun istante temporale, unâ€™immagine della prima pluralitÃ Li associata alla rispettiva prima mappa D1i (primi riferimenti temporali TLi), oppure unâ€™immagine della seconda pluralitÃ Ri associata alla rispettiva seconda mappa D2i (secondi riferimenti temporali TRi).

Preferibilmente, lâ€™unitÃ di elaborazione 11 Ã ̈ configurata per associare, ad una o piÃ¹ delle mappe della prima e/o della seconda pluralitÃ D1i, D2i, dati descrittivi di pixel di sostituzione. Tali dati descrittivi possono essere vantaggiosamente determinati tramite le tecniche sopra descritte.

In particolare, i dati descrittivi possono essere costituiti dai summenzionati dati principali.

Lâ€™interfaccia di ingresso 10, lâ€™unitÃ di elaborazione 11 e preferibilmente la prima e/o la seconda area di memoria M1, M2 formano un generatore, facente parte dellâ€™apparato di generazione 1 ed indicato con il numero di riferimento 3 in figura 1.

Vantaggiosamente Ã ̈ prevista una pre-elaborazione delle immagini inizialmente fornite allâ€™apparato di generazione 1, particolarmente nel caso in cui le due viste rappresentate dalle due sequenze in ingresso presentino differenze marcate in termini di colorimetria e/o luminanza. In tale circostanza, infatti, la visualizzazione del flusso video decodificato potrebbe risultare fastidiosa in virtÃ¹ dellâ€™alternanza di immagini con caratteristiche cosÃ¬ diverse tra loro.

A questo scopo lâ€™apparato di generazione 1 puÃ² opzionalmente essere provvisto di un modulo di preelaborazione 12, predisposto a monte dellâ€™unitÃ di elaborazione 11.

Il modulo di pre-elaborazione 12 opera basandosi sulla prima sequenza di ingresso L e su una sequenza iniziale R0.

La sequenza iniziale R0 contiene una pluralitÃ di immagini R0i rappresentative della seconda vista del flusso stereoscopico in ingresso; ciascuna di tali immagini Ã ̈ associata ad una corrispondente immagine della prima sequenza di ingresso L.

In pratica la prima sequenza di ingresso L e la sequenza iniziale R0 sono le sequenze originariamente ricevute dallâ€™apparato 1.

Il modulo di pre-elaborazione 12 provvede a confrontare una o piÃ¹ immagini R0i della sequenza iniziale R0 con le corrispondenti immagini della prima sequenza di ingresso L, cioÃ ̈ con immagini della prima sequenza di ingresso L associate ai medesimi riferimenti temporali delle immagini R0i della sequenza iniziale R0.

In funzione di tali confronti, vengono ricavate le immagini facenti parte della summenzionata seconda sequenza di ingresso R.

In maggiore dettaglio, in funzione di ciascun confronto viene generata una corrispondente mappa Di; combinando poi le immagini della prima sequenza di ingresso L con le rispettive mappe Di vengono ricostruite le immagini della seconda sequenza di ingresso R.

Preferibilmente, nella ricostruzione delle immagini della seconda sequenza di ingresso R viene tenuto conto anche delle eventuali occlusioni, che impediscono una ricostruzione completa a partire dalle immagini della prima sequenza di ingresso L e dalle relative mappe D1. I pixel di sostituzione da impiegare per tali occlusioni possono essere determinati, secondo tecniche di per sÃ© note, in funzione di immagini della sequenza iniziale R0. A titolo esemplificativo, possono essere utilizzati gli algoritmi sopra descritti con riferimento alla generazione del flusso video codificato CVS.

La Figura 2 rappresenta in via esemplificativa un flusso video stereoscopico che segue lâ€™approccio proposto secondo la presente invenzione. In tale rappresentazione i tempi crescenti vanno da sinistra verso destra. Nel caso di Figura 2 al tempo t1 viene trasmesso al codificatore il quadro L1 ed in parallelo la mappa di profonditÃ D1, mentre al tempo t2 segue R2 con la mappa D2, e cosÃ¬ via.

I tempi t1, t3,... sono compresi nei sopra citati primi riferimenti temporali TLi; i tempi t2, t4,... sono compresi nei sopra citati secondi riferimenti temporali TRi.

Si suppone che siano noti al generatore le sequenze dei quadri alternati comprendenti le immagini della vista sinistra (Left View) e destra (Right View), nonchÃ© le relative mappe (di disparitÃ o di profonditÃ ); a titolo esemplificativo tali mappe sono presentate come mappe di profonditÃ della vista sinistra rispetto alla destra (Depth Left) e della vista destra rispetto alla sinistra (Right Depth).

In generale le sequenze delle immagini associate alla vista sinistra e a quella destra si ottengono in tempo reale tramite appositi strumenti di cattura (telecamere) durante una ripresa stereoscopica, oppure off-line tramite tecniche e strumenti di calcolo mutuati dalla computer graphics. Le mappe di disparitÃ /profonditÃ possono essere calcolate con una qualsiasi tecnica nota a partire dalle immagini delle due viste e/o dalla conoscenza delle condizioni di ripresa delle immagini, oppure generate artificialmente da opportuni strumenti di calcolo.

La Figura 3 illustra in via esemplificativa lo schema a blocchi di una forma di realizzazione di un generatore 3 di flusso video stereoscopico secondo lâ€™invenzione.

Tale generatore 3 genera il flusso schematicamente rappresentato in Figura 2.

Come detto si suppone che al generatore vengano fornite sia le immagini delle sequenza di ingresso L, R, sia le relative mappe .

Un apposito selettore di vista View selector provvede ad alternare i quadri a partire da quelli che compongono le due viste in ingresso, per esempio iniziando dalla vista sinistra. In tal caso vengono selezionati nellâ€™ordine le immagini di vista L1, R2, L3, R4, eccetera, per i periodi temporali t1, t2, t3, t4, eccetera, ottenendo un flusso stereoscopico secondo la parte superiore della Figura 2. Un secondo selettore di mappa, che funziona in modo coordinato col primo, seleziona alternatamente la mappa della vista destra rispetto alla vista sinistra, e la mappa della vista sinistra rispetto alla destra. In particolare la prima mappa D(L->R) contiene le informazioni che lâ€™immagine destra R, dellâ€™istante di quadro interessato, presenta rispetto alla corrispondente immagine della vista sinistra L, mentre la mappa D(R->L) contiene le informazioni dellâ€™immagine sinistra L, dellâ€™istante di quadro interessato, rispetto alla corrispondente immagine dellâ€™altra vista R. Supponendo di partire dalla vista sinistra, viene cosÃ¬ generato in uscita al selettore un flusso di dati costituito, nellâ€™ordine, dalla sequenza D1(L1->R1), D2(R2->L2), D3(L3->R3), D4(R4->L4), eccetera, come raffigurato nella parte inferiore di Figura 2.

Le mappe D1, D3, â€¦ appartengono alla sopra citata prima pluralitÃ di mappe D1i. Le mappe D2, D4, â€¦ appartengono alla sopra citata seconda pluralitÃ di mappe D2i.

Le due sequenze delle immagini di vista e mappe alternate vengono codificate rispettivamente da un codificatore di vista View encoder e da un codificatore di mappa Depth encoder che possono funzionare in modo cooperativo tenendo conto delle informazioni contenute allâ€™ingresso dellâ€™altro codificatore e anche delle tecniche di codifica da esso adottate.

I due codificatori possono essere di tipo noto; per esempio essi possono adottare standard di codifica video noti quali MPEG-2, MPEG-4 AVC, VC-1, eccetera, cosÃ¬ da utilizzare strumenti o dispositivi giÃ esistenti per la compressione delle immagini. Alternativamente essi possono funzionare secondo sistemi di codifica futuri ancora in corso di standardizzazione, quali MPEG-4 AVC/SVC/MVC con le opportune estensioni necessarie ad includere le mappe di profonditÃ , HEVC e relative estensioni.

I due flussi Encoded view stream e Encoded depth stream composti rispettivamente da viste e mappe alternate, entrambi compressi, uscenti dai due codificatori, vengono fusi nel flusso video codificato CVS stereoscopico da un dispositivo multiplatore Multiplexer, che provvede ad effettuare una conversione parallelo-serie dei due flussi entranti.

Il flusso video codificato CVS potrÃ eventualmente essere composto con altri flussi informativi quali flussi audio e/o dati (sottotitoli, metadati, ecc.) e memorizzato in un dispositivo di memorizzazione per una successiva riproduzione in un sistema progettato per consentirne la visualizzazione oppure essere trasmesso secondo lo stato dellâ€™arte via cavo, etere, satellite, IP (Internet Protocol), e cosÃ¬ via.

Si noti che lo schema di Figura 3 Ã ̈ del tutto esemplificativo e costituisce uno dei possibili modi di realizzare un generatore di flussi stereoscopici secondo lâ€™invenzione. Infatti, si puÃ² alternativamente prevedere la presenza di un multiplatore a valle dei due selettori di vista e di mappa che provvede ad effettuare la conversione parallelo-serie dei due flussi di vista e di mappa in un unico flusso. Questo flusso unificato alternato viene codificato da un unico codificatore di vista e mappa che genera il flusso video codificato CVS di Figura 3.

La Figura 9 mostra uno schema a blocchi di una possibile forma di realizzazione di un apparato di generazione 1â€™ che implementa la sintesi di una delle due sequenze di ingresso.

Lâ€™apparato di generazione 1â€™ Ã ̈ simile allâ€™apparato 1 mostrato in Figura 1a: la differenza sostanziale riguarda il fatto che lâ€™apparato 1 di Figura 1 riceve in ingresso solamente le sequenze L, R0 e genera autonomamente le mappe D, mentre lâ€™apparato 1â€™ di Figura 9 riceve in ingresso sia le sequenze L, R0, sia le mappe D.

Il blocco â€œView selectorâ€ di Figura 3 Ã ̈ stato sostituito con il blocco â€œView synthesis and View Selectorâ€ , in Figura 9. Questâ€™ultimo presenta tre ingressi: la vista sinistra, la vista destra e la mappa di profonditÃ uscente dal blocco Depth Selector di selezione della mappa di profonditÃ .

Gli ingressi vengono processati in modo che una delle due viste (per esempio la destra) venga sintetizzata a partire dalla mappa di profonditÃ e dallâ€™altra vista e poi trasmessa al posto dellâ€™originale, mentre lâ€™altra (per esempio la sinistra) viene inviata in forma originale. In questo modo si riduce la differenza di luminanza e colorimetria presente nei frame adiacenti. La sintesi viene effettuata utilizzando in prima battuta le informazioni di disparitÃ presenti nella mappa di profonditÃ , e lâ€™altra vista; le occlusioni invece, dopo essere state identificate, vengono ricavate dalla stessa vista stereoscopica originale. Si tratta in sostanza di una procedura simile a quella utilizzata dallâ€™apparato di ricostruzione per ricavare i quadri della vista mancante a partire da quelli ricevuti.

Le Figure 10a-10d mostrano i passi necessari per la sintesi; in particolare le Figure 10a e 10b si riferiscono al caso in cui venga presa come riferimento la vista sinistra, mentre le Figure 10c e 10d si riferiscono al caso in cui venga presa come riferimento la vista destra.

Le Figure 10a e 10c mostrano il primo passo dellâ€™algoritmo di sintesi per lâ€™i-esimo frame del flusso; dalla vista Li e dalla mappa di profonditÃ Di(Li->Ri) viene calcolata la vista R0i<*>tramite un blocco View Synthesis di tipo noto che puÃ² anche essere lo stesso utilizzato in fase di ricostruzione. I quadri R0i<*>contengono alcuni pixel incogniti in corrispondenza delle regioni occluse che non sono ricavabili dallâ€™algoritmo di View Synthesis. Contrariamente a quanto avviene in ricostruzione (Figure 11b e 11d, che saranno descritte in seguito), in lato generazione la corrispondente vista originale R0i Ã ̈ disponibile, per cui la si puÃ² sfruttare direttamente per ricavare i pixel incogniti, per esempio ricopiando da R0i in R0i<*>i valori dei pixel occlusi individuati dallâ€™algoritmo di sintesi di vista, ottenendo in tal modo una vista ricostruita virtuale Ri, che sarÃ impiegata per formare la seconda sequenza R delle due sequenze L,R componenti il flusso stereoscopico uscente dal blocco View Synthesis and View Selector. Questa procedura puÃ² essere vantaggiosamente eseguita per tutti i frame della sequenza video.

Nel caso in cui si prendesse come riferimento la vista destra, verrebbero eseguite le medesime fasi a partire dalle sequenze R, L0, calcolando le viste incomplete L0i<*>e, da queste, le viste ricostruite virtuali Li da impiegare nella generazione del flusso stereoscopico uscente dal blocco View Synthesis and View Selector (Figure 10c e 10d).

Come detto, il flusso video codificato CVS puÃ² essere trasmesso e/o memorizzato su un opportuno supporto di archiviazione, affinchÃ© possa essere poi fornito ad un apparato in grado di ricostruire il flusso video iniziale cosÃ¬ da permettere una fruizione dello stesso.

Tale apparato per la ricostruzione di un flusso video, o apparato di decodifica, Ã ̈ indicato con il riferimento numerico 2 nelle unite Figure.

Lâ€™apparato di ricostruzione 2 (Figura 1b) comprende innanzitutto unâ€™interfaccia di ingresso 20 per ricevere in ingresso un flusso video codificato CVS.

Tale flusso video codificato CVS presenta la struttura sopra descritta. In sintesi, il flusso video codificato CVS comprende almeno: una prima immagine L1 di una prima sequenza di ingresso L, una prima mappa D1 associata a tale prima immagine L1, una seconda immagine R2 di una seconda sequenza di ingresso R ed una seconda mappa D2 associata a tale seconda immagine R2.

Lâ€™apparato di ricostruzione 2 comprende inoltre un modulo operativo 21 configurato per eseguire, in generale, fasi speculari a quelle sopra descritte con riferimento alla fase di generazione del flusso video.

In particolare, il modulo operativo 21 provvede a ricostruire una prima immagine R1 della seconda sequenza di ingresso R in funzione della prima immagine L1 della prima sequenza di ingresso L e della prima mappa D1 ad essa associata; viene ottenuta in questo modo una prima immagine ricostruita R1â€™.

Il modulo operativo 21 ricostruisce inoltre una seconda immagine L2 della prima sequenza di ingresso L in funzione della seconda immagine R2 della seconda sequenza di ingresso R e della seconda mappa D2 ad essa associata; viene ottenuta in questo modo una seconda immagine ricostruita L2â€™.

A seguito delle fasi qui sopra descritte, il modulo operativo 21 puÃ² quindi predisporre in uscita un flusso video decodificato DVS stereoscopico; tale flusso video decodificato DVS comprende:

- una prima sequenza di uscita Lâ€™ che comprende la prima immagine L1 della prima sequenza di ingresso L e la seconda immagine ricostruita L2â€™, e

- una seconda sequenza di uscita Râ€™ che comprende la prima immagine ricostruita R1â€™ e la seconda immagine R2 della seconda sequenza di ingresso R. In particolare, nella prima sequenza di uscita Lâ€™ la seconda immagine ricostruita L2â€™ Ã ̈ temporalmente successiva e temporalmente adiacente alla prima immagine L1 della prima sequenza di ingresso L e, nella seconda sequenza di uscita Râ€™, la seconda immagine R2 della seconda sequenza di ingresso R Ã ̈ temporalmente successiva e temporalmente adiacente alla prima immagine ricostruita R1â€™.

La prima e seconda sequenza di uscita Lâ€™, Râ€™ sono rappresentative rispettivamente di una prima e di una seconda vista del flusso video decodificato DVS stereoscopico.

Pertanto, associando lâ€™apparato di ricostruzione 2 ad un opportuno dispositivo di visualizzazione, come ad esempio un apparecchio televisivo dotato di funzionalitÃ di visualizzazione 3D, sarÃ possibile visualizzare il flusso video decodificato DVS dando allâ€™utente la corretta rappresentazione della profonditÃ dei contenuti di tale flusso.

Come detto, preferibilmente il flusso video codificato CVS ricevuto dallâ€™apparato di ricostruzione 2 comprende, in generale, una prima pluralitÃ di immagini Li appartenenti alla prima sequenza di ingresso L, una prima pluralitÃ di mappe D1i ciascuna associata ad una rispettiva immagine di detta prima pluralitÃ di immagini Li, una seconda pluralitÃ di immagini Ri appartenenti alla seconda sequenza di ingresso R, ed una seconda pluralitÃ di mappe D2i ciascuna associata ad una rispettiva immagine della seconda pluralitÃ di immagini Ri.

Con riferimento a quanto giÃ descritto relativamente allâ€™apparato di generazione 1, la prima pluralitÃ di immagini Li comprende la prima immagine L1 della prima sequenza di ingresso L, la prima pluralitÃ di mappe D1i comprende la prima mappa D1, la seconda pluralitÃ di immagini Ri comprende la seconda immagine R2 della seconda sequenza di ingresso R, e la seconda pluralitÃ di mappe D2i comprende la seconda mappa D2.

Preferibilmente ciascuna immagine Li della prima pluralitÃ Ã ̈ associata ad un rispettivo primo riferimento temporale TLi, e ciascuna immagine Ri della seconda pluralitÃ Ã ̈ associata ad un rispettivo secondo riferimento temporale TRi.

Vantaggiosamente i primi riferimenti temporali TLi sono temporalmente alternati ai secondi riferimenti temporali TRi.

In pratica, le immagini della prima pluralitÃ di immagini Li sono temporalmente alternate alle immagini della seconda pluralitÃ Ri.

Una volta che lâ€™interfaccia di ingresso 20 ha ricevuto tale flusso video codificato CVS, il modulo operativo 21 provvede ad operare sulle immagini facenti parte di tale flusso nella stessa maniera sopra descritta con riferimento alla prima immagine L1 ed alla seconda immagine R2, cosÃ¬ da ricostruire le immagini mancanti e generare il flusso video decodificato DVS in uscita.

In particolare, il modulo operativo 21 Ã ̈ configurato per ricostruire immagini della seconda sequenza di ingresso R in funzione della prima pluralitÃ di immagini Li e della prima pluralitÃ di mappe D1i, ottenendo corrispondenti prime immagini ricostruite Riâ€™.

Il modulo operativo 21 provvede inoltre a ricostruire immagini della prima sequenza in ingresso L in funzione della seconda pluralitÃ di immagini Ri e della seconda pluralitÃ di mappe D2i, ottenendo corrispondenti seconde immagini ricostruite Liâ€™.

Il flusso video decodificato DVS in uscita comprenderÃ quindi:

- una prima sequenza di uscita Lâ€™ che comprende la prima pluralitÃ di immagini Li e le seconde immagini ricostruite Liâ€™, e

- una seconda sequenza di uscita Râ€™ che comprende la seconda pluralitÃ di immagini Ri e le prime immagini ricostruite Riâ€™.

Il modulo operativo 21 Ã ̈ preferibilmente configurato per gestire la presenza di uno o piÃ¹ pixel occlusi che, ad esempio, possono impedire una ricostruzione completa, in funzione della prima immagine L1 della prima sequenza di ingresso L e della relativa prima mappa D1, della prima immagine ricostruita R1â€™.

In particolare, in funzione della prima immagine L1 della prima sequenza di ingresso L e della relativa prima mappa D1, il modulo operativo 21 individua uno o piÃ¹ pixel occlusi rispetto alla corrispondente prima immagine R1 della seconda sequenza di ingresso R. Il modulo operativo 21 provvede quindi a determinare, in funzione di una o piÃ¹ determinate immagini della seconda sequenza di ingresso R, uno o piÃ¹ pixel di sostituzione da sostituire a detti uno o piÃ¹ pixel occlusi.

In maggiore dettaglio, le immagini della seconda sequenza di ingresso R utilizzate dal modulo operativo 21 per determinare tali pixel di sostituzione sono immagini appartenenti alla citata seconda pluralitÃ di immagini Ri comprese nel flusso video codificato CVS.

Preferibilmente si considera lâ€™immagine immediatamente precedente a quella da ricostruire. In aggiunta o in alternativa puÃ² essere utilizzata quella successiva. Per lâ€™immagine iniziale, cioÃ ̈ quellâ€™immagine che non ha per definizione unâ€™immagine precedente, viene necessariamente impiegata lâ€™immagine successiva.

Questa operazione puÃ² essere eseguita per ciascuna delle immagini da ricostruire, appartengano esse alla prima o seconda sequenza di uscita Lâ€™, Râ€™.

Vantaggiosamente il flusso video codificato CVS puÃ² comprendere dati descrittivi di pixel di sostituzione da impiegare in taluni casi nella ricostruzione delle immagini mancanti.

Come sopra descritto, tali dati descrittivi sono inseriti in fase di codifica laddove le sole immagini e mappe a disposizione del decoder non sarebbero sufficienti ad una ricostruzione completa e soddisfacente delle immagini mancanti.

A titolo esemplificativo, i dati descrittivi di pixel di sostituzione, che preferibilmente possono comprendere o essere costituiti dai citati dati principali, possono comprendere vettori di movimento (motion vectors).

Il modulo operativo 21 Ã ̈ quindi configurato per rilevare nel flusso video codificato CVS, qualora siano presenti, i dati descrittivi di pixel di sostituzione, e per utilizzare gli stessi per la ricostruzione delle porzioni occluse.

Le Figure 11a-11d mostrano schematicamente come possano essere ricostruite a ogni passo â€œiâ€ maggiore di 1 le viste mancanti incomplete Li<*>, Ri<*>, cioÃ ̈ le viste ricostruite in cui sono ancora presenti delle occlusioni, e come da queste si possano poi ricostruire le viste mancanti complete Liâ€™, Riâ€™, cioÃ ̈ le viste in cui le occlusioni sono state sostituite, a partire dai quadri effettivamente ricevuti. Le Figure 11a e 11c esemplificano quanto giÃ illustrato per la ricostruzione delle viste mancanti incomplete Li<*>, Ri<*>; le Figure 11b e 11d illustrano un possibile modo di ricostruire le viste mancanti complete Liâ€™, Riâ€™ a partire da quelle incomplete Li<*>, Ri<*>, costellate dai buchi composti da pixel occlusi ignoti. Il modo piÃ¹ semplice di procedere Ã ̈ quello di sfruttare i pixel corrispondenti o adiacenti a quelli occlusi presenti nel quadro di vista immediatamente precedente a quello mancante, che viene preferibilmente sempre trasmesso o memorizzato, ed Ã ̈ quindi noto al dispositivo ricostruttore, che lo ha memorizzato nel buffer al passo precedente. Fa eccezione unicamente la prima vista mancante che non Ã ̈ preceduta da alcuna altra vista: per questo caso si puÃ², per esempio, utilizzare la vista immediatamente successiva.

La Figura 4 rappresenta lo schema a blocchi di un ricostruttore di flusso stereoscopico o apparato di ricostruzione 2 secondo lâ€™invenzione. Al suo ingresso Ã ̈ presente il flusso video codificato CVS alternato e compresso del tipo di quello presente in uscita al generatore di Figura 3. Nel caso desiderabile di memorizzazione e/o trasmissione senza errori i due flussi stereoscopici sono esattamente uguali, altrimenti differiranno solo per quegli errori digitali indesiderati introdotti dalle operazioni effettuate a valle del generatore e a monte del ricostruttore. Il flusso viene introdotto nello stadio iniziale del ricostruttore detto Front-end stage costituito da un demultiplatore (Demultiplexer) che effettua lâ€™operazione inversa del Multiplexer del generatore scomponendo il flusso dâ€™ingresso nei due flussi Encoded view stream ed Encoded depth stream che erano presenti allâ€™ingresso di tale Multiplexer. Il primo flusso contiene la sequenza compressa e alternata delle immagini delle due viste; essa viene decodificata da un apposito decodificatore di vista View Decoder. Il decodificatore produce in uscita la sequenza View Left/Right comprendente le immagini alternate della vista sinistra e destra decodificate. Analogamente la sequenza delle mappe compresse alternate Encoded depth stream presente sulla linea di uscita inferiore del Demultiplexer viene processata dal decodificatore Depth Decoder che produce in uscita la sequenza Depth Left/Right delle mappe alternate decodificate.

I due decodificatori video possono essere di tipo noto, quale per esempio MPEG-2 o MPEG-4 AVC, o di quelli futuri in corso di standardizzazione quali MPEG-4 AVC/SVC/MVC e HEVC con lâ€™estensione delle mappe di profonditÃ , oppure essere una loro versione modificata ottimizzata per trattare i flussi video presenti al loro ingresso. I due decodificatori operano in sinergia in modo coordinato e possono eventualmente scambiarsi segnali di controllo e dati per sfruttare informazioni di temporizzazione e di contenuto video dei flussi atti a garantirne il corretto funzionamento e una decodifica ottimale, sulla base del sistema di compressione adottato per la generazione dello stream complesso.

Anche in lato ricostruzione valgono le stesse considerazioni fatte per la codifica in lato generazione: alternativamente allo schema proposto in Figura 4 puÃ² essere impiegato come Front-end stage un unico blocco decodificatore che provvede a decodificare il flusso video codificato CVS presente in ingresso e a produrre in uscita i due flussi View Left/Right e Depth Left/Right comprendenti rispettivamente le immagini di vista e le mappe alternate e decodificate. Lo stadio di ingresso Front-end stage puÃ² comprendere quindi un unico dispositivo decodificatore video che provvede, a seconda dei casi, a demultiplare lâ€™unico flusso di ingresso o a trattare i due flussi di ingresso non demultiplati per fornire in uscita i due flussi separati.

Successivamente questi due flussi vengono elaborati da un blocco di sintesi di vista e riempimento delle occlusioni View synthesis and occlusion filling, facente parte del citato modulo operativo 21, che si occupa di generare la vista mancante, ossia la vista non trasmessa, utilizzando dove possibile le informazioni contenute nella mappa . Le parti non ricostruibili attraverso la mappa vengono ottenute sfruttando la particolare configurazione alternata del flusso ricevuto secondo la tecnica sopra descritta.

In uscita al blocco View synthesis and occlusion filling si ottengono le due sequenze relative alla vista di sinistra (Left View) e a quella di destra (Right View), che possono cosÃ¬ essere fornite ad un apparato di visualizzazione per la loro resa tridimensionale (o anche solo bidimensionale) secondo una qualsiasi tecnica nota, quale ad esempio la tecnica line interleave oppure frame alternate.

Nel caso si voglia visualizzare un video tridimensionale in modalitÃ 2D si puÃ² procedere in diversi modi.

In una prima soluzione si puÃ² utilizzare il blocco di View synthesis and occlusion filling per ricostruire la vista mancante come avviene per il caso tridimensionale, lasciando al dispositivo di visualizzazione lâ€™operazione di scarto di tutte le immagini destre o sinistre non necessarie per la visione 2D. In tal caso il frame rate risultante del contenuto video riprodotto in 2D Ã ̈ pari a quello originario presente in lato generazione. In sostanza viene effettuata una rigenerazione completa del flusso 3D secondo lo schema funzionale rappresentato in Figura 4a e un dispositivo di visualizzazione posto a valle del rigeneratore 3D scarta tutti i quadri relativi a una delle viste.

Come seconda soluzione vengono utilizzati i soli quadri trasmessi per una delle due viste e si visualizza il video ad un frame rate dimezzato rispetto alla prima soluzione, come mostrato in via esemplificativa in un rigeneratore di flusso 3D riconfigurabile mostrato in Figura 4c, qualora sia attiva la modalitÃ di visualizzazione 2D. In tale Figura i blocchi disattivati e i segnali assenti vengono mostrati con linea tratteggiata. Un modulo di controllo 2D/3D coordina e gestisce il funzionamento dei decoder e del blocco di sintesi vista e gestione delle occlusioni. Ad esempio se il frame rate del flusso video Ã ̈ pari a 50 fps (frame per secondo) e si prende come riferimento la vista sinistra (Left), vengono scartati allâ€™uscita del demultiplexer tutti i quadri appartenenti alle mappe , nonchÃ© i quadri relativi alla vista destra utilizzando unâ€™informazione che potrebbe essere di tipo temporale o proveniente dal flusso di trasporto. In uscita verrÃ visualizzato un video con i quadri appartenenti alla vista sinistra ad un frame rate pari a 25 fps, senza che il blocco View synthesis and occlusion filling effettui alcuna operazione e senza ricostruire alcun quadro della vista destra o sinistra.

Questa seconda soluzione permette di semplificare notevolmente le operazioni in lato rigenerazione in quanto non sono piÃ¹ necessari i passi di ricostruzione dei quadri della vista mancante e relative occlusioni.

La Figura 4b rappresenta la modalitÃ di funzionamento del rigeneratore di Figura 4c quando Ã ̈ attiva la visualizzazione 3D: in tal caso il modulo di controllo della visualizzazione 2D/3D fa in modo che i blocchi funzionali ivi presenti lavorino cosÃ¬ da operare come descritto per il rigeneratore di Figura 4a, ottenendo in uscita lo stesso tipo di sequenza video stereoscopica rappresentabile in modalitÃ tridimensionale.

La Figura 5a mostra la struttura iterativa del procedimento che viene ripetuto ciclicamente per ogni coppia di frame ricevuti per un certo istante temporale ti, mentre la Figura 5b dettaglia i singoli passi effettuati per la ricostruzione del quadro i-esimo (facente parte delle immagini Liâ€™ o Riâ€™) non trasmesso e quindi non ricevuto dallâ€™apparato rigeneratore.

La Figura 6 dettaglia come vengono ricostruiti i frame mancanti a partire da quelli effettivamente presenti in ingresso nel corso della procedura di ricostruzione dei quadri delle due viste. Per maggior chiarezza i quadri presenti in ingresso al ricostruttore sono raffigurati senza trama, mentre quelli ricostruiti presentano una trama rettangolare.

Tornando alla Figura 5b, con il primo passo si verifica se la coppia di quadri in ingresso L1 e D1 Ã ̈ la prima della sequenza video perchÃ© in tal caso Ã ̈ preferibile attendere la ricezione della coppia successiva prima di poter procedere alla ricostruzione completa, occlusioni incluse, del primo quadro della vista mancante, non senza prima aver memorizzare il primo frame di vista ricevuto e la relativa mappa di profonditÃ . Nel caso mostrato in Figura 6 si tratta di L1 e D1(L1->R1).

Il controllo successivo verifica se il frame (di riferimento) ricevuto appartiene alla vista destra o sinistra: nel primo caso viene ricostruito il frame sinistro a partire dal frame sinistro immediatamente precedente e dalla relativa mappa di profonditÃ , mentre il frame destro viene memorizzato in un buffer per poter essere utilizzato durante la ricostruzione del frame destro successivo, come ipotizzato in Figura 6 per i quadri relativi ai tempi t2 e t4; nel secondo caso viene ricostruito il frame destro e il frame sinistro viene salvato in un buffer per poter essere utilizzato durante la ricostruzione del frame sinistro successivo, come ipotizzato in Figura 6 per i quadri relativi ai tempi t3 e t5. A questo punto i valori relativi al frame di riferimento e mappa di profonditÃ associata vengono utilizzati sia per calcolare i valori di disparitÃ necessari alla ricostruzione dellâ€™altra vista, sia per individuare i pixel appartenenti alle zone occluse, mentre i valori di questi pixel vengono ricavati diversamente nella successiva fase di gestione delle occlusioni di Figura 5b.

Infatti, i frame della vista di destra e di sinistra cosÃ¬ ricostruiti non sono completi in quanto il blocco di sintesi View synthesis che li genera non Ã ̈ in grado di rigenerare i valori dei pixel occlusi presenti, ma rileva soltanto la loro presenza. Per maggiore chiarezza espositiva questi quadri di vista incompleti destri e sinistri vengono genericamente denominati rispettivamente Rx e Lx. Le frecce prive di riempimento di Figura 6 indicano lâ€™uso del frame da cui sono originati ai fini del calcolo di Rx e Lx del frame su cui puntano, mentre quelle annerite lâ€™uso del frame da cui provengono ai fini del calcolo dei pixel occlusi nel frame puntato.

Questo modo di ricavare i pixel occlusi nelle viste mancanti Ã ̈ particolarmente semplice da realizzare, in quanto richiede la memorizzazione di un solo quadro per ogni passo della procedura di ricostruzione e tiene conto di pixel appartenenti a uno o a due quadri al massimo.

Esso rappresenta comunque solo una delle molteplici soluzioni possibili: infatti si puÃ² tener conto anche di pixel appartenenti a molteplici quadri di vista precedenti e/o successivi a quello da ricostruire.

In questâ€™ultimo caso, Ã ̈ necessaria la memorizzazione contemporanea di piÃ¹ frame in modo da selezionare i pixel dei frame di vista adiacenti che meglio approssimano le occlusioni nel frame da ricostruire. Nel caso in cui lâ€™algoritmo non riesca ad identificare i suddetti pixel si puÃ² ricorrere a tecniche di riempimento di occlusioni come per esempio lâ€™inpainting in modo da ottenere la massima qualitÃ possibile della vista ricostruita.

Successivamente viene applicato un filtro per la riduzione del rumore legato alla ricostruzione (detto filtro di de-noising) di tipo giÃ noto: durante le prove effettuate dalla richiedente si Ã ̈ rilevato particolarmente efficace lâ€™utilizzo di un bilateral filter come filtro di de-noising in quanto consente di preservare i contorni.

Al termine delle operazioni effettuate per il frame corrente si verifica se esistono ancora quadri da elaborare: in caso affermativo si cessano le operazioni, mentre in caso negativo si procede alla lettura della coppia di quadri relativi al tempo successivo i+1-esimo.

Lâ€™invenzione esposta puÃ² essere estesa al caso con piÃ¹ di due viste sfruttandone la modularitÃ a seconda dei requisiti in essere. A tale proposito si propongono due forme di realizzazione che esemplificano quanto esposto, facendo riferimento al flusso tridimensionale con piÃ¹ di due viste presente in uscita a un generatore di flussi video in modo analogo a quanto rappresentato schematicamente nella Figura 2.

In una forma di realizzazione, descritta in Figura 7, si mantiene il requisito della retro compatibilitÃ 2D, in quanto lâ€™invenzione viene applicata a partire dalla vista numero 3, mentre le prime due viste originarie View1 e View2 vengono trattate secondo lo stato dellâ€™arte degli algoritmi esistenti. Invece la coppia di viste numero 3 e 4 originarie viene elaborata secondo lâ€™invenzione nella stessa maniera in cui Ã ̈ elaborata la coppia di sequenze L, R sopra descritte. Lo stesso procedimento puÃ² essere applicato alle rimanenti viste presenti dopo averle opportunamente accoppiate, per esempio alle viste numero 5 e 6, alla settima e ottava, e cosÃ¬ via fino a esaurimento delle viste presenti nel sistema. Ovviamente le coppie di viste originarie del sistema a piÃ¹ di due viste vengono ricostruite in lato rigenerazione in modo analogo a quanto giÃ esposto precedentemente per il flusso video stereoscopico composto da vista sinistra e vista destra.

In una differente forma di realizzazione, mostrata in Figura 8, che invece non richiede il requisito della retro compatibilitÃ 2D, lâ€™algoritmo Ã ̈ applicato a partire giÃ dalla prima coppia di viste.

Nel caso in cui il numero di viste sia dispari, la vista spaiata viene trattata secondo lo stato dellâ€™arte degli algoritmi esistenti, mantenendo in questo caso il requisito della retro compatibilitÃ 2D.

Si noti che gli apparati ed i moduli sopra descritti possono essere realizzati tramite hardware dedicato, oppure tramite hardware general purpose opportunamente programmato per eseguire le varie funzioni sopra descritte.

Lâ€™invenzione infatti riguarda anche un software di generazione di un flusso video, comprendente le istruzioni necessarie allâ€™esecuzione delle operazioni dellâ€™apparato di generazione 1, e ad un software di ricostruzione di un flusso video, comprendente le istruzioni necessarie allâ€™esecuzione delle operazioni dellâ€™apparato di ricostruzione 2.

Va notato inoltre che la suddivisione in moduli o blocchi funzionali degli apparati sopra descritti Ã ̈ da considerarsi puramente formale e finalizzata ad una chiara esposizione delle funzionalitÃ dellâ€™invenzione. Tale suddivisione, peraltro, non rispecchia necessariamente la struttura hardware dei dispositivi descritti.

Lâ€™invenzione consegue importanti vantaggi.

Innanzitutto, la tecnica di generazione secondo la presente invenzione permette di codificare il flusso video iniziale riducendone in maniera significativa le dimensioni impedendo, al contempo, che vengano perse informazioni essenziali per una completa ed affidabile ricostruzione dello stesso.

In particolare il flusso video codificato puÃ² essere archiviato impiegando supporti di archiviazione di capacitÃ limitata.

Inoltre, il flusso video codificato puÃ² essere trasmesso e ricevuto occupando risorse di rete limitate rispetto a un corrispondente flusso 3D Full HD, proprio in virtÃ¹ delle ridotte dimensioni del flusso codificato.

Inoltre il flusso video stereoscopico codificato puÃ² essere facilmente adattato a essere rappresentato anche in modalitÃ 2D secondo due diverse modalitÃ , con diversa qualitÃ e complessitÃ computazionale.

La tecnica di generazione e ricostruzione del flusso video tridimensionale secondo la presente invenzione puÃ² essere applicato non solo a un sistema di ricetrasmissione o archiviazione-riproduzione 3D stereoscopico, ma anche a corrispondenti sistemi 3D a piÃ¹ di due viste.

In aggiunta a quanto sopra, il flusso decodificato presenta una sostanziale identitÃ con il flusso iniziale (cioÃ ̈ con il flusso non ancora codificato) e permette una fruizione di elevata qualitÃ di contenuti video 3D.

Claims

RIVENDICAZIONI 1. Apparato per la generazione di un flusso video, comprendente: - unâ€™interfaccia di comunicazione (10) per ricevere in ingresso: una o piÃ¹ immagini di una prima sequenza di ingresso (L) di immagini rappresentative di una prima vista di un flusso stereoscopico in ingresso (VIN); una o piÃ¹ immagini una seconda sequenza di ingresso (R) di immagini, ciascuna corrispondente ad una rispettiva immagine di detta prima sequenza di ingresso (L), le immagini di detta seconda sequenza di ingresso (R) essendo rappresentative di una seconda vista di detto flusso stereoscopico in ingresso (VIN); una o piÃ¹ mappe che permettono, a partire da una o piÃ¹ immagini di detta prima sequenza di ingresso (L), di ricostruire sostanzialmente corrispondenti immagini di detta seconda sequenza di ingresso (R); una o piÃ¹ mappe che permettono, a partire da una o piÃ¹ immagini di detta seconda sequenza di ingresso (R), di ricostruire sostanzialmente corrispondenti immagini di detta prima sequenza di ingresso (L); - unâ€™unitÃ di elaborazione (11) associata a detta interfaccia di comunicazione (10) e configurata per: ïƒ ̃ determinare una prima immagine (L1) di detta prima sequenza di ingresso (L); ïƒ ̃ determinare una prima mappa (D1) in modo che una prima immagine (R1) di detta seconda sequenza di ingresso (R) sia sostanzialmente ricostruibile combinando la prima immagine (L1) di detta prima sequenza di ingresso (L) con detta prima mappa (D1); ïƒ ̃ determinare una seconda immagine (R2) di detta seconda sequenza di ingresso (R); ïƒ ̃ determinare una seconda mappa (D2) in modo che una seconda immagine (L2) di detta prima sequenza di ingresso (L) sia sostanzialmente ricostruibile combinando la seconda immagine (R2) di detta seconda sequenza di ingresso (R) con detta seconda mappa (D2); ïƒ ̃ predisporre in uscita un flusso video codificato (CVS) comprendente almeno la prima immagine (L1) di detta prima sequenza di ingresso (L), la prima mappa (D1), la seconda immagine (R2) di detta seconda sequenza di ingresso (R) e la seconda mappa (D2).
2. Apparato secondo la rivendicazione 1 in cui la seconda immagine (L2) di detta prima sequenza di ingresso (L) e la seconda immagine (R2) di detta seconda sequenza di ingresso sono temporalmente successive e temporalmente adiacenti, rispettivamente, alla prima immagine (L1) di detta prima sequenza di ingresso (L) ed alla prima immagine (R1) di detta seconda sequenza di ingresso (R).
3. Apparato secondo la rivendicazione 1 o 2 in cui detta interfaccia di comunicazione (10) Ã ̈ configurata per ricevere: - una prima pluralitÃ di immagini (Li) di detta prima sequenza di ingresso (L) comprendente detta prima immagine (L1) di detta prima sequenza di ingresso (L), ciascuna immagine (Li) di detta prima pluralitÃ essendo associata ad un rispettivo primo riferimento temporale (TLi); - una seconda pluralitÃ di immagini (Ri) di detta seconda sequenza di ingresso (R) comprendente detta seconda immagine (R2) di detta seconda sequenza di ingresso (R), ciascuna immagine (Ri) di detta seconda pluralitÃ essendo associata ad un rispettivo secondo riferimento temporale (TRi), detti primi riferimenti temporali (TLi) essendo temporalmente alternati a detti secondi riferimenti temporali (TRi); - una prima pluralitÃ di mappe (D1i), ciascuna di dette corrispondenti immagini appartenenti a detta seconda sequenza di ingresso (R) essendo sostanzialmente ricostruibile combinando ciascuna delle immagini di detta prima pluralitÃ di immagini (Li) con una rispettiva delle mappe di detta prima pluralitÃ (D1i) di mappe ; - una seconda pluralitÃ di mappe (D2i) in funzione di detta seconda pluralitÃ di confronti, ciascuna di dette corrispondenti immagini appartenenti a detta prima sequenza di ingresso (L) essendo sostanzialmente ricostruibile combinando ciascuna delle immagini di detta seconda pluralitÃ di immagini (Ri) con una rispettiva delle mappe di detta seconda pluralitÃ (D2i) di mappe ; detta unitÃ di elaborazione (11) essendo configurata per generare detto flusso video codificato (CVS) incorporando nello stesso detta prima pluralitÃ di immagini (Li), detta prima pluralitÃ di mappe (D1i), detta seconda pluralitÃ di immagini (Ri) e detta seconda pluralitÃ di mappe (D2i).
4. Apparato secondo una qualsiasi delle rivendicazioni precedenti in cui detta unitÃ di elaborazione (11) Ã ̈ configurata per: - individuare, in funzione della prima immagine (L1) di detta prima sequenza di ingresso (L) e della corrispondente prima mappa (D1), uno o piÃ¹ pixel occlusi; - determinare, in funzione di una o piÃ¹ immagini di detta seconda sequenza di ingresso (R), dati descrittivi di uno o piÃ¹ pixel di sostituzione da sostituire a detti uno o piÃ¹ pixel occlusi; - incorporare detti dati descrittivi in detto flusso video codificato (CVS).
5. Apparato secondo la rivendicazione 4 in cui detta unitÃ di elaborazione (11) Ã ̈ configurata per: - individuare determinati pixel di sostituzione che non possono essere definiti in funzione solo di unâ€™immagine precedente e/o di unâ€™immagine successiva a detta corrispondente immagine (R1) appartenenti a detta seconda sequenza di ingresso (R); - determinare dati principali descrittivi di detti determinati pixel di sostituzione; - eseguire lâ€™incorporazione di detti dati descrittivi in detto flusso video codificato (CVS) incorporando detti dati principali in detto flusso video codificato (CVS).
6. Apparato secondo la rivendicazione 4 o 5 in cui detti dati rappresentativi di pixel di sostituzione, e preferibilmente detti dati principali, comprendono vettori di movimento (motion vectors) associati a detti pixel occlusi.
7. Apparato secondo una qualsiasi delle rivendicazioni precedenti comprendente inoltre un modulo di pre-elaborazione (12) configurato per: - ricevere una sequenza iniziale (R0) comprendente una pluralitÃ di immagini (R0i) rappresentative della seconda vista di detto flusso stereoscopico in ingresso, ciascuna associata ad una corrispondente immagine di detta prima sequenza di ingresso (L); - confrontare una o piÃ¹ immagini (R0i) di detta sequenza iniziale (R0) con le corrispondenti immagini di detta prima sequenza di ingresso (L); - generare, in funzione di ciascun confronto, una corrispondente immagine di detta seconda sequenza di ingresso (R).
8. Apparato secondo la rivendicazione 7 in cui detto modulo di pre-elaborazione (12) Ã ̈ configurato per: - determinare una mappa (Di) in funzione di ciascun confronto tra detta una o piÃ¹ immagini di detta sequenza iniziale (R0) e la corrispondente immagine di detta prima sequenza di ingresso (L); detta corrispondente immagine di detta seconda sequenza di ingresso (R) essendo generata in funzione di una combinazione tra detta corrispondente immagine di detta prima sequenza (L) e detta mappa (Di).
9. Apparato per la ricostruzione di un flusso video comprendente: - unâ€™interfaccia di ingresso (20) per ricevere un flusso video codificato (CVS) comprendente almeno una prima immagine (L1) di una prima sequenza di ingresso (L), una prima mappa (D1) associata a detta prima immagine (L1) di detta prima sequenza di ingresso (L), una seconda immagine (R2) di una seconda sequenza di ingresso (R) ed una seconda mappa (D2) associata a detta seconda immagine (R2) di detta seconda sequenza di ingresso (R); - un modulo operativo (21) configurato per: ïƒ ̃ ricostruire una prima immagine (R1) di detta seconda sequenza di ingresso (R) in funzione di detta prima immagine (L1) di detta prima sequenza di ingresso (L) e di detta prima mappa (D1), ottenendo una prima immagine ricostruita (R1â€™); ïƒ ̃ ricostruire una seconda immagine (L2) di detta prima sequenza di ingresso (L) in funzione di detta seconda immagine (R2) di detta seconda sequenza di ingresso (R) e di detta seconda mappa (D2), ottenendo una seconda immagine ricostruita (L2â€™); ïƒ ̃ predisporre in uscita un flusso video decodificato (DVS) stereoscopico comprendente una prima sequenza di uscita (Lâ€™) includente la prima immagine (L1) di detta prima sequenza di ingresso (L) e detta seconda immagine ricostruita (L2â€™), ed una seconda sequenza di uscita (Râ€™) includente detta prima immagine ricostruita (R1â€™) e la seconda immagine (R2) di detta seconda sequenza di ingresso (R), dette prima e seconda sequenza di uscita (Lâ€™, Râ€™) essendo rappresentative rispettivamente di una prima e di una seconda vista di detto flusso video decodificato (DVS) stereoscopico.
10. Apparato secondo la rivendicazione 9 in cui: - in detta prima sequenza di uscita (Lâ€™), la seconda immagine ricostruita (L2â€™) Ã ̈ temporalmente successiva e temporalmente adiacente alla prima immagine (L1) di detta prima sequenza di ingresso (L); - in detta seconda sequenza di uscita (Râ€™), la seconda immagine (R2) di detta seconda sequenza di ingresso (R) Ã ̈ temporalmente successiva e temporalmente adiacente a detta prima immagine ricostruita (R1â€™).
11. Apparato secondo la rivendicazione 9 o 10 in cui detto flusso video codificato (CVS) comprende una prima pluralitÃ di immagini (Li) appartenenti ad una prima sequenza di ingresso (L) di immagini rappresentative di una prima vista di un flusso stereoscopico, una prima pluralitÃ di mappe (D1i) ciascuna associata ad una rispettiva immagine di detta prima pluralitÃ di immagini (Li), una seconda pluralitÃ di immagini (Ri) appartenenti ad una seconda sequenza di ingresso (R) di immagini rappresentative di una seconda vista di detto flusso stereoscopico, ed una seconda pluralitÃ di mappe (D2i) ciascuna associata ad una rispettiva immagine di detta seconda pluralitÃ di immagini (Ri), in cui detta prima pluralitÃ di immagini (Li) comprende la prima immagine (L1) di detta prima sequenza di ingresso (L), detta prima pluralitÃ di mappe comprende detta prima mappa (D1), detta seconda pluralitÃ di immagini (Ri) comprende la seconda immagine (R2) di detta seconda sequenza di ingresso (R) e detta seconda pluralitÃ di mappe (D2i) comprende detta seconda mappa (D2), in cui ciascuna immagine (Li) di detta prima pluralitÃ Ã ̈ associata ad un rispettivo primo riferimento temporale (TLi), in cui ciascuna immagine (Ri) di detta seconda pluralitÃ Ã ̈ associata ad un rispettivo secondo riferimento temporale (TRi), detti primi riferimenti temporali (TLi) essendo temporalmente alternati a detti secondi riferimenti temporali (TRi), detto modulo operativo (21) essendo configurato per: - ricostruire immagini di detta seconda sequenza di ingresso (R) in funzione di detta prima pluralitÃ di immagini (Li) e di detta prima pluralitÃ di mappe (D1i), ottenendo corrispondenti prime immagini ricostruite (Riâ€™); - ricostruire immagini di detta prima sequenza in ingresso (L) in funzione di detta seconda pluralitÃ di immagini (Ri) e di detta seconda pluralitÃ di mappe (D2i), ottenendo corrispondenti seconde immagini ricostruite (Liâ€™); detto flusso video decodificato (DVS) comprendendo: - una prima sequenza di uscita (Lâ€™) includente detta prima pluralitÃ di immagini (Li) e dette seconde immagini ricostruite (Liâ€™), e - una seconda sequenza di uscita (Râ€™) includente detta seconda pluralitÃ di immagini (Ri) e dette prime immagini ricostruite (Riâ€™).
12. Apparato secondo una qualsiasi delle rivendicazioni da 9 a 11 in cui detto modulo operativo (21) Ã ̈ configurato per: - individuare, in funzione della prima immagine (L1) di detta prima sequenza di ingresso (L) e della corrispondente prima mappa (D1), uno o piÃ¹ pixel occlusi rispetto alla corrispondente prima immagine (R1) di detta seconda sequenza di ingresso (R); - determinare, in funzione di una o piÃ¹ determinate immagini di detta seconda sequenza di ingresso (R), uno o piÃ¹ pixel di sostituzione da sostituire a detti uno o piÃ¹ pixel occlusi in detta prima immagine (R1) di detta seconda sequenza di ingresso (R).
13. Apparato secondo la rivendicazione 12 in cui dette determinate immagini appartengono a detta seconda pluralitÃ di immagini (Ri).
14. Apparato secondo la rivendicazione 12 o 13 in cui detto flusso video codificato (CVS) comprende dati descrittivi di uno o piÃ¹ pixel di sostituzione, detto modulo operativo (21) essendo configurato per determinare detto uno o piÃ¹ pixel di sostituzione in funzione di detti dati descrittivi, in cui detti dati descrittivi preferibilmente comprendono dati principali rappresentativi di pixel di sostituzione che non possono essere determinati in funzione solo di unâ€™immagine precedente e/o unâ€™immagine successiva a detta prima immagine (R1) appartenenti a detta seconda sequenza di ingresso (R).
15. Apparato secondo la rivendicazione 14 in cui detti dati rappresentativi di pixel di sostituzione, e preferibilmente detti dati principali, comprendono vettori di movimento (motion vectors) associati a detti pixel occlusi.
16. Metodo per la generazione di un flusso video, comprendente: - predisporre una prima sequenza di ingresso (L) di immagini rappresentative di una prima vista di un flusso stereoscopico in ingresso; - predisporre una seconda sequenza di ingresso (R) di corrispondenti immagini rappresentative di una seconda vista di detto flusso stereoscopico in ingresso; - predisporre una o piÃ¹ mappe che permettono, a partire da una o piÃ¹ immagini di detta prima sequenza di ingresso (L), di ricostruire sostanzialmente corrispondenti immagini di detta seconda sequenza di ingresso (R); - predisporre una o piÃ¹ mappe che permettono, a partire da una o piÃ¹ immagini di detta seconda sequenza di ingresso (R), di ricostruire sostanzialmente corrispondenti immagini di detta prima sequenza di ingresso (L); - determinare una prima immagine (L1) di detta prima sequenza di ingresso (L); - determinare una prima mappa (D1) in modo che una prima immagine (R1) di detta seconda sequenza di ingresso (R) sia sostanzialmente ricostruibile combinando la prima immagine (L1) di detta prima sequenza di ingresso (L) con detta prima mappa (D1); - determinare una seconda immagine (R2) di detta seconda sequenza di ingresso (R); - determinare una seconda mappa (D2) tale che una seconda immagine (L2) di detta prima sequenza di ingresso (L) sia sostanzialmente ricostruibile combinando la seconda immagine (R2) di detta seconda sequenza di ingresso (R) con detta seconda mappa (D2); - predisporre in uscita un flusso video codificato comprendente almeno la prima immagine (L1) di detta prima sequenza di ingresso (L), la prima mappa (D1), la seconda immagine (R2) di detta seconda sequenza di ingresso (R) e la seconda mappa (D2).
17. Metodo secondo la rivendicazione 16 in cui la seconda immagine (L2) di detta prima sequenza di ingresso (L) e la seconda immagine (R2) di detta seconda sequenza di ingresso (R) sono temporalmente successive e temporalmente adiacenti, rispettivamente, alla prima immagine (L1) di detta prima sequenza di ingresso (L) ed alla prima immagine (R1) di detta seconda sequenza di ingresso (R).
18. Metodo secondo la rivendicazione 16 o 17 comprendente: - determinare una prima pluralitÃ di immagini (Li) di detta prima sequenza (L) comprendente detta prima immagine (L1) di detta prima sequenza di ingresso (L), ciascuna immagine (Li) di detta prima pluralitÃ essendo associata ad un rispettivo primo riferimento temporale (TLi); - determinare una prima pluralitÃ di mappe (D1i) tali che, combinando ciascuna delle immagini di detta prima pluralitÃ (Li) con una rispettiva mappa di detta prima pluralitÃ di mappe (D1i), si ottenga sostanzialmente una corrispondente immagine di detta seconda sequenza di ingresso (R); - determinare una seconda pluralitÃ di immagini (Ri) di detta seconda sequenza di ingresso (R) comprendente detta seconda immagine (R2) di detta seconda sequenza di ingresso (R), ciascuna immagine (Ri) di detta seconda pluralitÃ essendo associata ad un rispettivo secondo riferimento temporale (TRi), detti primi riferimenti temporali (TLi) essendo temporalmente alternati a detti secondi riferimenti temporali (TRi); - determinare una seconda pluralitÃ di mappe (D2i) tali che, combinando ciascuna delle immagini di detta seconda pluralitÃ (Ri) con una rispettiva mappa di detta seconda pluralitÃ di mappe (D2i), si ottenga sostanzialmente una corrispondente immagine di detta prima sequenza di ingresso (L); in cui detto flusso video codificato (CVS) comprende detta prima pluralitÃ di immagini (Li), detta prima pluralitÃ di mappe (D1i), detta seconda pluralitÃ di immagini (Li) e detta seconda pluralitÃ di mappe (D2i).
19. Metodo secondo una qualsiasi delle rivendicazioni da 16 a 18 comprendente: - individuare, in funzione della prima immagine (L1) di detta prima sequenza di ingresso (L) e della corrispondente prima mappa (D1), uno o piÃ¹ pixel occlusi; - determinare, in funzione di una o piÃ¹ immagini di detta seconda sequenza di ingresso (R), dati descrittivi di uno o piÃ¹ pixel di sostituzione da sostituire a detti uno o piÃ¹ pixel occlusi; - incorporare detti dati descrittivi in detto flusso video codificato (CVS).
20. Metodo secondo la rivendicazione 19 comprendente: - individuare determinati pixel di sostituzione che non possono essere definiti in funzione solo di unâ€™immagine precedente e/o di unâ€™immagine successiva a detta corrispondente immagine (R1) appartenenti detta seconda sequenza di ingresso (R); - determinare dati principali descrittivi di detti determinati pixel di sostituzione; in cui incorporare detti dati descrittivi in detto flusso video codificato (CVS) comprende, e preferibilmente consiste in, incorporare detti dati principali in detto flusso video codificato (CVS).
21. Metodo secondo la rivendicazione 19 o 20 in cui detti dati rappresentativi di pixel di sostituzione, e preferibilmente detti dati principali, comprendono vettori di movimento (motion vectors) associati a detti pixel occlusi.
22. Metodo secondo una qualsiasi delle rivendicazioni da 16 a 21 in cui predisporre detta seconda sequenza di ingresso (R) comprende: - predisporre una sequenza iniziale (R0) comprendente una pluralitÃ di immagini (R0i) ciascuna associata ad una corrispondente immagine di detta prima sequenza di ingresso (L); - confrontare una o piÃ¹ immagini (R0i) di detta sequenza iniziale (R0) con le corrispondenti immagini di detta prima sequenza di ingresso (L); - generare, in funzione di ciascun confronto, una corrispondente immagine di detta seconda sequenza di ingresso (R).
23. Metodo secondo la rivendicazione 22 in cui confrontare dette una o piÃ¹ immagini di detta sequenza iniziale (R0) con le corrispondenti immagini di detta prima sequenza di ingresso (L) comprende: - determinare una mappa (Di) in funzione di ciascun confronto tra una di dette una o piÃ¹ immagini di detta sequenza iniziale (R0) e la corrispondente immagine di detta prima sequenza (L); detta corrispondente immagine di detta seconda sequenza di ingresso (R) essendo generata in funzione di una combinazione tra detta corrispondente immagine di detta prima sequenza di ingresso (L) e detta mappa (Di).
24. Metodo per la ricostruzione di un flusso video comprendente: - ricevere in ingresso un flusso video codificato (CVS) comprendente almeno una prima immagine (L1) di una prima sequenza di ingresso (L), una prima mappa (D1) associata a detta prima immagine (L1) di detta prima sequenza di ingresso (L), una seconda immagine (R2) di una seconda sequenza di ingresso (R) ed una seconda mappa (D2) associata a detta seconda immagine (R2) di detta seconda sequenza di ingresso (R); - ricostruire una prima immagine (R1) di detta seconda sequenza di ingresso (R) in funzione di detta prima immagine (L1) di detta prima sequenza di ingresso (L) e di detta prima mappa (D1), ottenendo una prima immagine ricostruita (R1â€™); - ricostruire una seconda immagine (L2) di detta prima sequenza di ingresso (L) in funzione di detta seconda immagine (R2) di detta seconda sequenza di ingresso (R) e di detta seconda mappa (D2), ottenendo una seconda immagine ricostruita (L2â€™); - predisporre in uscita un flusso video decodificato (DVS) stereoscopico comprendente una prima sequenza di uscita (Lâ€™) includente la prima immagine (L1) di detta prima sequenza di ingresso (L) e detta seconda immagine ricostruita (L2â€™), ed una seconda sequenza di uscita (Râ€™) includente detta prima immagine ricostruita (R1â€™) e la seconda immagine (R2) di detta seconda sequenza di ingresso (R), dette prima e seconda sequenza di uscita (Lâ€™, Râ€™) essendo rappresentative rispettivamente di una prima e di una seconda vista di detto flusso video decodificato (DVS) stereoscopico.
25. Metodo secondo la rivendicazione 24 in cui: - in detta prima sequenza di uscita (Lâ€™), la seconda immagine ricostruita (L2â€™) Ã ̈ temporalmente successiva e temporalmente adiacente alla prima immagine (L1) di detta prima sequenza di ingresso (L); - in detta seconda sequenza di uscita (Râ€™), la seconda immagine (R2) di detta seconda sequenza di ingresso (R) Ã ̈ temporalmente successiva e temporalmente adiacenti a detta prima immagine ricostruita (R1â€™).
26. Metodo secondo la rivendicazione 24 o 25 in cui detto flusso video codificato (CVS) comprende una prima pluralitÃ di immagini (Li) appartenenti ad una prima sequenza di ingresso (L) di immagini rappresentative di una prima vista di un flusso stereoscopico, una prima pluralitÃ di mappe (D1i) ciascuna associata ad una rispettiva immagine di detta prima pluralitÃ di immagini (Li), una seconda pluralitÃ di immagini (Ri) appartenenti ad una seconda sequenza di ingresso (R) di immagini rappresentative di una seconda vista di detto flusso stereoscopico ed una seconda pluralitÃ di mappe (D2i) ciascuna associata ad una rispettiva immagine di detta seconda pluralitÃ di immagini (Ri), in cui detta prima pluralitÃ di immagini (Li) comprende la prima immagine (L1) di detta prima sequenza di ingresso (L), detta prima pluralitÃ di mappe comprende detta prima mappa (D1), detta seconda pluralitÃ di immagini (Ri) comprende la seconda immagine (R2) di detta seconda sequenza di ingresso (R) e detta seconda pluralitÃ di mappe (D2i) comprende detta seconda mappa (D2), in cui ciascuna immagine (Li) di detta prima pluralitÃ Ã ̈ associata ad un rispettivo primo riferimento temporale (TLi), in cui ciascuna immagine (Ri) di detta seconda pluralitÃ Ã ̈ associata ad un rispettivo secondo riferimento temporale (TRi), detti primi riferimenti temporali (TLi) essendo temporalmente alternati a detti secondi riferimenti temporali (TRi), detto metodo comprendendo: - ricostruire immagini di detta seconda sequenza di ingresso (R) in funzione di detta prima pluralitÃ di immagini (Li) e di detta prima pluralitÃ di mappe (D1i), ottenendo corrispondenti prime immagini ricostruite (R1â€™); - ricostruire immagini di detta prima sequenza in ingresso (L) in funzione di detta seconda pluralitÃ di immagini (Ri) e di detta seconda pluralitÃ di mappi (D2i), ottenendo corrispondenti seconde immagini ricostruite (L2â€™); detto flusso video decodificato (DVS) comprendendo: - una prima sequenza di uscita (Lâ€™) includente detta prima pluralitÃ di immagini (Li) e dette seconde immagini ricostruite (L2â€™), e - una seconda sequenza di uscita (Râ€™) includente detta seconda pluralitÃ di immagini (Ri) e dette prime immagini ricostruite (R1â€™).
27. Metodo secondo una qualsiasi delle rivendicazioni da 24 a 26 comprendente: - individuare, in funzione della prima immagine (L1) di detta prima sequenza di ingresso (L) e della corrispondente prima mappa (D1), uno o piÃ¹ pixel occlusi rispetto alla corrispondente prima immagine (R1) di detta seconda sequenza di ingresso (R); - determinare, in funzione di una o piÃ¹ determinate immagini di detta seconda sequenza di ingresso (R), uno o piÃ¹ pixel di sostituzione da sostituire a detti uno o piÃ¹ pixel occlusi in detta prima immagine (R1) di detta seconda sequenza di ingresso (R).
28. Metodo secondo la rivendicazione 27 in cui dette determinate immagini appartengono a detta seconda pluralitÃ di immagini (Ri).
29. Metodo secondo la rivendicazione 27 o 28 in cui detto flusso video codificato (CVS) comprende dati descrittivi di uno o piÃ¹ pixel di sostituzione, detti uno o piÃ¹ pixel di sostituzione essendo determinati in funzione di detti dati descrittivi, in cui detti dati descrittivi preferibilmente comprendono dati principali rappresentativi di pixel di sostituzione che non possono essere determinati in funzione solo di unâ€™immagine precedente e/o unâ€™immagine successiva a detta prima immagine (R1) appartenenti a detta seconda sequenza di ingresso (R).
30. Metodo secondo la rivendicazione 29 in cui detti dati rappresentativi di pixel di sostituzione, e preferibilmente detti dati principali, comprendono vettori di movimento (motion vectors) associati a detti pixel occlusi.
31. Prodotto software per la generazione di un flusso video comprendente istruzioni che, quando eseguite da un elaboratore, provocano lo svolgimento del metodo secondo una qualsiasi delle rivendicazioni da 16 a 23.
32. Prodotto software per la ricostruzione di un flusso video comprendente istruzioni che, quando eseguite da un elaboratore, provocano lo svolgimento del metodo secondo una qualsiasi delle rivendicazioni da 24 a 30.
33. Segnale elettromagnetico incorporante un flusso video codificato, detto flusso video codificato comprendendo: - almeno una prima immagine (L1) di una prima sequenza di ingresso (L), una prima mappa (D1), una seconda immagine (R2) di una seconda sequenza di ingresso (R) e una seconda mappa (D2), in cui detta prima mappa (D1) Ã ̈ realizzata in modo che, combinando la stessa con la prima immagine (L1) di detta prima sequenza di ingresso (L) si ottenga sostanzialmente una prima immagine (R1) di detta seconda sequenza di ingresso (R), in cui detta seconda mappa (D2) Ã ̈ realizzata in modo che, combinando la stessa con la seconda immagine (R2) di detta seconda sequenza di ingresso (R) si ottenga sostanzialmente una seconda immagine (L2) di detta prima sequenza di ingresso (L).
34. Segnale elettromagnetico secondo la rivendicazione 33 in cui detto flusso video codificato (CVS) comprende: - una prima pluralitÃ di immagini (Li) di detta prima sequenza di ingresso (L) comprendente detta prima immagine (L1) di detta prima sequenza di ingresso (L), ciascuna immagine (Li) di detta prima pluralitÃ essendo associata ad un rispettivo primo riferimento temporale (TLi); - una seconda pluralitÃ di immagini (Ri) di detta seconda sequenza di ingresso (R) comprendente detta seconda immagine (R2) di detta seconda sequenza di ingresso (R), ciascuna immagine (Ri) di detta seconda pluralitÃ essendo associata ad un rispettivo secondo riferimento temporale (TRi), detti primi riferimenti temporali (TLi) essendo temporalmente alternati a detti secondi riferimenti temporali (TRi); - una prima pluralitÃ di mappe (D1i) realizzate in modo tale che, combinando ciascuna di esse con una corrispondente immagine (Li) di detta prima pluralitÃ si ottiene sostanzialmente una immagine di detta seconda sequenza di ingresso (R) associata ad uno di detti primi riferimenti temporali (TLi); - una seconda pluralitÃ di mappe (D2i) realizzate in modo tale che, combinando ciascuna di esse con una corrispondente immagine (Ri) di detta seconda pluralitÃ si ottiene sostanzialmente una immagine di detta prima sequenza di ingresso (L) associata ad uno di detti secondi riferimenti temporali (TRi).
35. Segnale elettromagnetico secondo la rivendicazione 33 o 34 comprendente inoltre dati descrittivi di uno o piÃ¹ pixel di sostituzione per una sostituzione di corrispondenti uno o piÃ¹ pixel occlusi per la ricostruzione di detta prima immagine (R1) di detto seconda sequenza di ingresso (R) in funzione della prima immagine (L1) di detta prima sequenza di ingresso (L) e di detta prima mappa (D1). ***********