ITTO20121073A1 - Apparato e metodo per la generazione e la ricostruzione di un flusso video - Google Patents

Apparato e metodo per la generazione e la ricostruzione di un flusso video Download PDF

Info

Publication number
ITTO20121073A1
ITTO20121073A1 IT001073A ITTO20121073A ITTO20121073A1 IT TO20121073 A1 ITTO20121073 A1 IT TO20121073A1 IT 001073 A IT001073 A IT 001073A IT TO20121073 A ITTO20121073 A IT TO20121073A IT TO20121073 A1 ITTO20121073 A1 IT TO20121073A1
Authority
IT
Italy
Prior art keywords
image
input sequence
images
sequence
map
Prior art date
Application number
IT001073A
Other languages
English (en)
Inventor
Maria Giovanna Cucca
Original Assignee
Rai Radiotelevisione Italiana
S I Sv El Societa Italiana Per Lo Sviluppo Dell
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rai Radiotelevisione Italiana, S I Sv El Societa Italiana Per Lo Sviluppo Dell filed Critical Rai Radiotelevisione Italiana
Priority to IT001073A priority Critical patent/ITTO20121073A1/it
Priority to EP13824382.9A priority patent/EP2932711B1/en
Priority to US14/648,200 priority patent/US20150312547A1/en
Priority to PCT/IB2013/060856 priority patent/WO2014091445A1/en
Priority to KR1020157018185A priority patent/KR20150095765A/ko
Priority to CN201380064990.9A priority patent/CN104838648B/zh
Priority to TW102146300A priority patent/TWI539790B/zh
Publication of ITTO20121073A1 publication Critical patent/ITTO20121073A1/it

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/167Synchronising or controlling image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/553Motion estimation dealing with occlusions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Description

“APPARATO E METODO PER LA GENERAZIONE E LA RICOSTRUZIONE DI UN FLUSSO VIDEOâ€
DESCRIZIONE
[CAMPO DELL’INVENZIONE]
La presente invenzione si riferisce ad un apparato, un metodo ed un prodotto software per la generazione di un flusso video.
La presente invenzione si riferisce altresì ad un apparato, un metodo ed un prodotto software per la ricostruzione di un flusso video.
La presente invenzione si riferisce inoltre ad un segnale elettromagnetico incorporante un flusso video generato tramite detto apparato, metodo o prodotto software per la generazione di un flusso video.
[ARTE NOTA]
La diffusione della tecnologia 3D, dopo essere stata esclusiva protagonista nelle sale cinematografiche, sta prendendo sempre più piede anche nel campo televisivo come televisione HD stereoscopica basata sull’utilizzo di una coppia di viste, quella destra e quella sinistra, che rappresentano quanto percepito rispettivamente dall’occhio destro e dall’occhio sinistro nella visione binoculare.
La tecnica più semplice per la distribuzione del segnale stereoscopico consiste nella trasmissione sia della vista destra, sia di quella sinistra (cosiddetto simulcast), raddoppiando però in tal modo la banda utilizzata. Tale aumento della banda impiegata risulta quantomai indesiderato, dal momento che attualmente le risorse di frequenza per le trasmissioni TV sono ormai estremamente limitate.
Per sopperire a tale inconveniente à ̈ possibile ricorrere ad approcci alternativi tra i quali il 2D plus stereoscopic metadata (2D più metadati stereoscopici), che consentono una visualizzazione Full HD del video stereoscopico, dove per “2D†si intende una delle due viste, e per “stereoscopic metadata†si intendono le informazioni addizionali che consentono di rappresentare l’altra vista sfruttando la correlazione tra le due viste.
La definizione 2D plus stereoscopic metadata include diversi approcci, ciascuno dei quali utilizza dei metadati differenti per ottenere la vista che non viene trasmessa integralmente:
a) 2D plus Difference: viene calcolata e trasmessa la differenza tra le due viste;
b) 2D plus Depth / Disparity: viene calcolata e trasmessa la mappa di profondità o disparità ottenuta a partire dalle due viste;
c) 2D plus Depth, Occlusion and Transparency (DOT): vengono calcolate e trasmesse, oltre alla mappa di profondità, le parti non ricostruibili tramite quest’ultima.
Esistono diversi approcci per la trasmissione della TV 3D che si differenziano per quanto concerne il bit-rate necessario alla codifica delle viste; i più noti si basano su arrangiamenti spaziali delle due viste stereoscopiche (formati Side-by-side, Top-and-Bottom, etc.), sfruttamento della correlazione tra le viste (Multiview Video Coding o MVC – Stereo High Profile), utilizzo della mappa di profondità (depth map) e di quella delle occlusioni (occlusion map).
Side-by-side e Top-and-Bottom consentono di riutilizzare l’esistente infrastruttura HDTV, ma non permettono una visualizzazione Full HD per entrambi gli occhi, in quanto le due viste sono collocate spazialmente all’interno di un frame HDTV, con conseguente dimezzamento orizzontale o verticale della risoluzione nativa.
Il Multiview Video Coding (MVC) consente la fruizione di un contenuto Full HD per entrambi gli occhi in quanto viene trasmessa la coppia stereoscopica sfruttando la correlazione tra le viste, ma non consente un’efficienza di compressione significativa rispetto al simulcast.
L’approccio 2D plus Depth, come detto, prevede la trasmissione di una vista (segnale 2D, ad esempio la vista sinistra) e della mappa di profondità calcolata a partire dalle due viste.
La mappa di profondità (depth map) rappresenta, in scala di grigi, le informazioni che forniscono la disparità tra le due viste, ovvero la distanza a cui i pixel della vista considerata (da ricostruire in lato rigenerazione) si trovano rispetto a quella di riferimento (cioà ̈ quella trasmessa integralmente). La conversione tra disparità e profondità avviene mediante un’opportuna trasformazione che dipende dai parametri intrinseci delle videocamere, dalla distanza tra le due videocamere, dalla distanza dei piani di scena più lontano e più vicino alle videocamere. La ricostruzione di una delle due viste può avvenire utilizzando diverse tecniche:
1) spostando i pixel di un valore pari alla disparità, ottenuta dalla mappa di profondità, a partire dalla vista presa come riferimento;
2) utilizzando algoritmi cosiddetti di 3D warping e reverse 3D warping per la proiezione delle coordinate spaziali reali dei pixel su quelli della vista sintetizzate tramite opportune matrici. Tali matrici sono ricavate dai parametri che definiscono la posizione e l’orientamento della camera rispetto al sistema reale. La qualità della vista ricostruita à ̈ strettamente legata alla qualità della mappa di profondità.
La vista così ricostruita non à ̈ però completa a causa delle cosiddette occlusioni, ossia parti dello sfondo (background) e/o oggetti presenti soltanto in una delle due viste. Per correggere questo problema diventa necessario quindi trasmettere anche una mappa delle occlusioni, allo scopo di coprire i pixel non ricostruiti. Utilizzando questo metodo si ha però un’occupazione di banda complessiva risultante compresa tra il 180% e il 220% rispetto ad un flusso 2D Full HD a pari risoluzione e frequenza di quadro, rendendo molto onerosa la trasmissione e/o la memorizzazione di un segnale 3D realizzato in questo modo.
[SINTESI DELL’INVENZIONE]
Scopo della presente invenzione à ̈ quello di presentare un metodo, un apparato ed un prodotto software che risolvano alcuni dei problemi dell’arte nota.
In particolare scopo dell’invenzione à ̈ mettere a disposizione un metodo, un apparato ed un prodotto software che permettano di generare un flusso video stereoscopico, nonché un apparato, un metodo ed un prodotto software che permettano di ricostruire un flusso video stereoscopico, che siano in grado di limitare in maniera significativa l’occupazione di banda in fase di trasmissione/ricezione, e l’occupazione di spazi di memoria in fase di archiviazione, senza al contempo ridurre la qualità del flusso video stesso.
Ulteriore scopo dell’invenzione à ̈ quello di indicare un metodo, un apparato e un software di elaborazione di un flusso video tridimensionale che sia altamente scalabile rispetto alla complessità richiesta specie in lato ricostruzione, per cui à ̈ facilmente possibile ricostruire un medesimo flusso video stereoscopico 3D entrante in modalità 2D con una semplicissima modificazione alla modalità di funzionamento dell’apparato ricostruttore.
Ulteriore scopo dell’invenzione à ̈ quello di indicare un metodo, un apparato e un software di generazione e ricostruzione di un flusso video tridimensionale che sia facilmente estendibile dal caso di un flusso video stereoscopico comprendente due viste a sistemi cosiddetti “multiview†che impiegano un numero di viste maggiore di due.
Questi ed altri scopi ancora sono sostanzialmente raggiunti da un metodo, un apparato e da un prodotto software di generazione, nonché da un apparato, un metodo ed un prodotto software di ricostruzione, secondo quanto descritto nelle unite rivendicazioni.
[BREVE DESCRIZIONE DEI DISEGNI]
Ulteriori scopi e vantaggi della presente invenzione appariranno maggiormente dalla descrizione dettagliata di una forma di esecuzione preferita e non esclusiva dell’invenzione stessa. Tale descrizione à ̈ fornita qui di seguito con riferimento agli uniti disegni, anch’essi aventi scopo puramente esemplificativo e pertanto non limitativo, in cui:
− la Figura 1a mostra uno schema a blocchi di un apparato di generazione secondo la presente invenzione;
− la Figura 1b mostra uno schema a blocchi di un apparato di ricostruzione secondo la presente invenzione;
− la Figura 2 mostra schematicamente un flusso video impiegato nell’ambito della presente invenzione;
− la Figura 3 mostra uno schema a blocchi di una possibile forma di esecuzione di un generatore secondo l’invenzione;
− la Figura 4a mostra uno schema a blocchi di una possibile forma di esecuzione di un apparato di ricostruzione secondo l’invenzione;
− le Figure 4b-4c mostrano schematicamente due modalità operative dell’apparato di Figura 4a;
− le Figure 5a-5b mostrano diagrammi di flusso rappresentativi del metodo di ricostruzione secondo la presente invenzione;
− la Figura 6 mostra schematicamente relazioni intercorrenti tra immagini utilizzate ed immagini ricostruite nel metodo di ricostruzione secondo la presente invenzione;
− la Figura 7 mostra una applicazione dell’invenzione al caso di più di due viste con retro-compatibilità 2D;
− la Figura 8 mostra una applicazione dell’invenzione al caso di più di due viste senza retro-compatibilità 2D; − la Figura 9 mostra uno schema a blocchi di una possibile forma di esecuzione di un apparato di generazione secondo l’invenzione;
− le Figure 10a-10d mostrano schematicamente fasi di sintesi di immagini, impiegate in un apparato ed in un metodo secondo l’invenzione;
− le Figure 11a-11d mostrano schematicamente fasi di ricostruzione di immagini, impiegate in un apparato ed in un metodo secondo l’invenzione;.
[DESCRIZIONE DETTAGLIATA]
Con riferimento alle unite Figure, con 1 e 2 sono stati complessivamente indicati, rispettivamente, un apparato di generazione per la generazione di un flusso video ed un apparato di ricostruzione per la ricostruzione di un flusso video.
Si noti che, nel presente contesto, i termini “immagine†, “quadro†e “frame†saranno considerati tra loro sinonimi e potranno quindi essere utilizzati in maniera intercambiabile, mentre il termine “mappa†indica indifferentemente una mappa di disparità o di profondità.
L’apparato di generazione 1 (Figura 1a) comprende innanzitutto un’interfaccia di comunicazione 10 configurata per ricevere in ingresso un flusso video stereoscopico, che sarà indicato come flusso stereoscopico di ingresso VIN, comprendente due distinte sequenze di immagini: una prima sequenza di ingresso L di immagini rappresentative di una prima vista di tale flusso stereoscopico, ed una seconda sequenza di ingresso R di immagini rappresentative di una seconda vista di detto flusso stereoscopico.
La prima sequenza di ingresso L e la seconda sequenza di ingresso R, quando riprodotte tramite un opportuno apparato di riproduzione (come ad esempio un televisore con predisposizione 3D) permettono di visualizzare contenuti in modo che l’utente abbia la percezione della profondità alla quale i vari elementi rappresentati si trovano, dando quindi la sensazione di una rappresentazione tridimensionale di tali contenuti.
A titolo esemplificativo, la prima sequenza di ingresso L può essere relativa alla vista sinistra del flusso stereoscopico, mentre la seconda sequenza di ingresso R può essere relativa alla vista destra di tale flusso. Va tuttavia notato che l’invenzione può essere attuata anche nella situazione diametralmente opposta, in cui la prima sequenza L à ̈ rappresentativa della vista destra e la seconda sequenza R à ̈ rappresentativa della vista sinistra.
In particolare l’interfaccia di comunicazione 10 riceve in ingresso una o più immagini della prima sequenza di ingresso L, ed una o più immagini della seconda sequenza di ingresso R.
Le immagini della prima sequenza di ingresso L possono essere archiviate, ad esempio, in una prima area di memoria M1; le immagini della seconda sequenza di ingresso R possono essere archiviate, ad esempio, in una seconda area di memoria M2.
La prima e/o la seconda area di memoria M1, M2 possono appartenere ad una memoria non-volatile, in cui la prima e/o la seconda sequenza di ingresso L, R possono essere archiviate in maniera stabile, fino ad un successivo comando di cancellazione, oppure ad una memoria volatile, in cui la prima e/o la seconda sequenza di ingresso L, R, o loro parti, sono archiviate solo per il tempo strettamente necessario all’elaborazione delle stesse.
L’interfaccia di comunicazione 10 riceve in ingresso una o più mappe che permettono, a partire da una o più delle immagini della prima sequenza di ingresso L, di ricostruire sostanzialmente corrispondenti immagini della seconda sequenza di ingresso R.
In pratica, combinando tra loro una determinata immagine della prima sequenza di ingresso L ed una corrispondente di dette mappe, à ̈ possibile ottenere sostanzialmente la rispettiva immagine appartenente alla seconda sequenza di ingresso R, cioà ̈ l’immagine della seconda sequenza di ingresso R associata al medesimo riferimento temporale dell’immagine della prima sequenza di ingresso L.
Come sarà più chiaro in seguito, tale ricostruzione potrà non essere completa, a causa delle cosiddette “occlusioni†.
L’interfaccia di comunicazione 10 riceve in ingresso una o più mappe D che permettono, a partire da una o più delle immagini della seconda sequenza di ingresso R, e rispettivamente della prima sequenza di ingresso L, di ricostruire sostanzialmente corrispondenti immagini della prima sequenza di ingresso L, e rispettivamente della seconda sequenza di ingresso R. Anche queste ricostruzioni potrebbero non essere complete, per i motivi già esposti sopra.
Le mappe possono essere mappe di profondità oppure mappe di disparità. Tali mappe possono essere generate tramite tecniche di per sé note, che non verranno qui descritte in dettaglio. Si noti tuttavia che, ai fini dell’implementazione della presente invenzione, possono essere impiegate sia mappe di profondità, sia mappe di disparità. Questa osservazione si riferisce non solo alle mappe menzionate qui sopra, ma anche alle altre “mappe †che sono citate nella presente descrizione e nelle successive rivendicazioni.
In una forma di realizzazione, l’apparato 1 può essere predisposto a ricevere in ingresso solamente la prima e la seconda sequenza di ingresso L, R, ed a calcolare in maniera autonoma le mappe necessarie. L’opportuno modulo di calcolo che genera le mappe in questa forma di realizzazione, provvede poi a fornire in ingresso all’interfaccia di comunicazione 10 le mappe generate, così che le stesse possano essere processate dall’unità di elaborazione 11 per la creazione del flusso video codificato CVS.
Vantaggiosamente le mappe possono essere archiviate in un opportuno registro di memoria, appartenente ad una memoria volatile o ad una memoria non-volatile.
L’apparato di generazione 1 comprende inoltre un’unità di elaborazione 11 operativamente associata all’interfaccia di comunicazione 10 e, preferibilmente, alle citate prime e seconde aree di memoria M1, M2.
L’unità di elaborazione 11 provvede a generare in uscita un flusso video codificato CVS che, nonostante presenti complessivamente un’occupazione di memoria significativamente minore rispetto al flusso stereoscopico di ingresso VIN e possa quindi essere trasmesso impiegando minori risorse di banda, contiene tutte le informazioni essenziali affinché i contenuti del flusso iniziale possano essere fedelmente riprodotti.
Scendendo in maggiore dettaglio, l’unità di elaborazione 11 à ̈ configurata per determinare almeno una prima immagine L1 della prima sequenza di ingresso L.
Preferibilmente tale prima immagine L1 viene selezionata tra le immagini appartenenti alla prima sequenza di ingresso L.
Si noti che, nel presente contesto e nelle successive rivendicazioni, con “prima immagine†non viene designata necessariamente l’immagine iniziale della prima sequenza in ingresso L, ma semplicemente una delle immagini ricevute dall’unità di elaborazione 11 tramite l’interfaccia di comunicazione 10. La medesima osservazione vale anche sia per la “prima immagine†della seconda sequenza di ingresso R, sia per l’espressione “seconda immagine†, che verranno menzionate nel seguito.
L’unità di elaborazione 11 à ̈ inoltre configurata per determinare una prima mappa differenziale D1.
La prima mappa D1 può essere selezionata tra le mappe ricevute in ingresso tramite la citata interfaccia di comunicazione 10.
La prima mappa D1 à ̈ tale che, combinando la stessa con la prima immagine L1 della prima sequenza di ingresso L, à ̈ possibile ricostruire sostanzialmente una prima immagine R1 della seconda sequenza di ingresso R. Come detto, tale ricostruzione può non essere completa.
L’unità di elaborazione 11 à ̈ inoltre configurata per determinare una seconda immagine R2 della seconda sequenza di ingresso R.
La seconda immagine R2 della seconda sequenza di ingresso può essere selezionata tra le immagini della seconda sequenza di ingresso R.
L’unità di elaborazione 11 à ̈ inoltre configurata per determinare una seconda mappa D2.
La seconda mappa D2 (che può essere, per esempio, una mappa di profondità o una mappa di disparità) à ̈ tale che, combinando la stessa con la seconda immagine R2 della seconda sequenza di ingresso R si possa sostanzialmente ricostruire una seconda immagine L2 della prima sequenza di ingresso L.
Preferibilmente la seconda immagine L2 e la seconda immagine R2 sono associate ad un medesimo riferimento temporale.
Preferibilmente, le seconde immagini L2, R2 sono temporalmente successive e temporalmente adiacenti, rispettivamente, alle prime immagini L1, R1.
L’unità di elaborazione 11 può quindi predisporre in uscita il flusso video codificato CVS; quest’ultimo comprende almeno: la prima immagine L1 della prima sequenza in ingresso L, la prima mappa D1, la seconda immagine R2 della seconda sequenza in ingresso R e la seconda mappa D2.
In questo modo, il flusso video codificato CVS può consentire una fruizione del flusso video stereoscopico iniziale VIN evitando che quest’ultimo venga archiviato e/o trasmesso integralmente.
Il flusso video codificato CVS può essere trasmesso in broadcast, per esempio per una fruizione tramite apparecchi televisivi in grado di decodificare il flusso video codificato CVS, oppure associati ad idonei decoder esterni predisposti a tale decodifica.
Il flusso video codificato CVS può anche essere memorizzato su un opportuno supporto magnetico e/o ottico e/o elettronico. Tale supporto può poi essere associato ad un decodificatore per permettere una fruizione dei contenuti del flusso video immagazzinato.
Come sopra accennato, non sempre impiegando la prima immagine L1 della prima sequenza di ingresso L e la rispettiva mappa D1 (o, analogamente, la seconda immagine R2 della seconda sequenza di ingresso R e la rispettiva seconda mappa D2) Ã ̈ possibile ricostruire interamente la prima immagine R1 della seconda sequenza di ingresso R (o la seconda immagine L2 della prima sequenza in ingresso L).
Possono infatti verificarsi le cosiddette “occlusioni†, cioà ̈ pixel o gruppi di pixel, rappresentativi di parti di sfondo (background) e/o di oggetti, presenti soltanto in una delle due viste. Questi pixel sono presenti in particolare sui bordi degli oggetti della scena, soprattutto in presenza di oggetti relativamente vicini, sovrapposti ed in movimento. In altre parole, la prima immagine R1 della seconda sequenza di ingresso R può contenere dei pixel e/o delle aree che non hanno corrispondenza nella prima immagine L1 della prima sequenza di ingresso L e che quindi non possono essere ricostruite impiegando solamente L1 e D1.
Un discorso identico vale per la ricostruzione della seconda immagine L2 della prima sequenza di ingresso L a partire da R2 e D2.
Per evitare questo inconveniente, che in pratica si traduce in una riproduzione incompleta di alcune immagini, ed in una corrispondente riduzione della qualità di fruizione del flusso video, à ̈ previsto che l’unità di elaborazione 11 individui, in funzione della prima immagine L1 della prima sequenza in ingresso L, e della corrispondente prima mappa D1, uno o più pixel occlusi. Vengono quindi determinati, in funzione di una o più immagini della seconda sequenza di ingresso R, dati descrittivi di uno o più pixel di sostituzione da sostituire a detti uno o più pixel occlusi.
In una forma di realizzazione, per individuare i pixel occlusi, l’unità di elaborazione 11 può combinare tra loro la prima immagine L1 della prima sequenza di ingresso L con la prima mappa D1, ottenendo una rispettiva combinazione. Confrontando tale combinazione, che potrà essere simile ma non del tutto identica alla prima immagine R1 della seconda sequenza di ingresso R, proprio con la prima immagine R1 della seconda sequenza di ingresso R, l’unità di elaborazione 11 individua i pixel occlusi ed i relativi pixel di sostituzione.
In una forma di realizzazione, i dati descrittivi dei pixel di sostituzione possono essere determinati in funzione di una o più immagini appartenenti alla seconda sequenza di ingresso R diverse da (cioà ̈ altre rispetto a) detta prima immagine R1.
Preferibilmente, tali dati descrittivi possono essere determinati in funzione di un’immagine temporalmente adiacente e temporalmente precedente a detta prima immagine R1.
A titolo esemplificativo, può essere utilizzata l’immagine immediatamente precedente, nella seconda sequenza di ingresso R, alla prima immagine R1.
Preferibilmente vengono individuati determinati pixel di sostituzione che non possono essere sintetizzati in funzione solo di un’immagine precedente e/o di un’immagine successiva a detta corrispondente immagine R1 appartenenti detta seconda sequenza di ingresso R. In pratica l’unità di elaborazione 11 provvede ad identificare quei pixel occlusi che non potranno essere ricostruiti dal decoder sulla base della sola immagine precedente e/o della sola immagine successiva rispetto all’immagine da ricostruire.
L’unità di elaborazione 11 determina quindi dati principali descrittivi di tali determinati pixel di sostituzione.
I dati principali vengono vantaggiosamente inseriti nel flusso video codificato CVS, così da poter essere poi impiegati in fase di decodifica.
In una forma di realizzazione, i dati principali possono comprendere vettori di movimento (motion vectors) associati ai pixel occlusi.
Tali vettori di movimento sono di per sé noti e previsti da alcuni standard di codifica video (ad esempio H264/AVC). È tuttavia previsto che possano essere impiegati degli appositi parametri - anche non coincidenti con quelli definiti negli standard di codifica video correnti - che descrivono il movimento dei pixel occlusi per migliorare la loro ricostruzione al momento della decodifica.
A titolo esemplificativo, i citati parametri descrittivi dei pixel di sostituzione possono essere ottenuti per mezzo di un sistema di view synthesis utilizzando le sole informazioni presenti nella mappa di profondità per identificare le zone occluse.
Come sopra accennato, la prima immagine R1 della prima sequenza in ingresso R può essere utilizzata per stimare il valore dei pixel occlusi: una parte di questi pixel può essere ricavata dall’immagine precedente appartenente alla medesima sequenza R, mentre i restanti, che riguardano in particolar modo zone di movimento, vengono ricercati tra le immagini precedenti e le immagini successive (rispetto alla prima immagine R1) appartenenti alla seconda sequenza R.
Per quanto riguarda l’immagine (sia essa della prima o della seconda sequenza di ingresso L, R) che deve essere codificata e che, secondo la sequenza temporale con cui le immagini sono ordinate, à ̈ antecedente a tutte le altre, non ci potranno essere immagini ad essa precedenti che potranno essere utilizzate per la stima delle occlusioni e la determinazione dei relativi pixel di sostituzione. In questo caso particolare, potranno essere vantaggiosamente utilizzate una o più delle immagini successive. In un esempio di esecuzione, potrà essere utilizzata l’immagine ad essa adiacente e temporalmente immediatamente successiva.
Come sarà più chiaro in seguito, i pixel di sostituzione determinabili tramite le immagini precedenti e/o successive a quella da codificare possono essere calcolati dal decoder senza che nel flusso video codificato CVS vengano inseriti dati specifici identificativi e descrittivi di tali pixel di sostituzione.
Ciò che vantaggiosamente può essere inserito nel flusso video codificato CVS sono i citati dati principali, che permettono di determinare i pixel di sostituzione non determinabili tramite la sola immagine precedente e/o la sola immagine successiva a quella in questione.
Si noti che, poiché i pixel occlusi che non possono essere ricavati dal frame precedente (o successivo) costituiscono tipicamente solo una piccola percentuale del totale, il carico aggiuntivo (overhead) di informazioni da inviare dovuto alla presenza dei vettori di movimento à ̈ normalmente trascurabile o comunque molto ridotto rispetto a quello necessario in caso di assenza di questa caratteristica.
Quanto sopra descritto con riferimento all’individuazione delle informazioni utili alla ricostruzione della prima immagine R1 della seconda sequenza di ingresso R si applica in maniera del tutto analoga alla sintesi della seconda immagine L2 della prima sequenza di ingresso L.
Si noti che quanto sopra descritto con riferimento alle sole prime e seconde immagini L1, L2, R1, R2 può essere realizzato in pratica con un numero ben maggiore di immagini, così da formare flussi video di filmati, film, e così via.
L’interfaccia di comunicazione 10 può infatti ricevere una sequenza di ingresso L comprendente un numero ben maggiore di immagini. In particolare la prima sequenza di ingresso L comprende una prima pluralità Li di immagini ciascuna delle quali à ̈ associata ad un rispettivo primo riferimento temporale TLi, che ne identifica la posizione all’interno della prima sequenza di ingresso L.
La prima pluralità di immagini Li comprende la sopra citata prima immagine L1.
La prima sequenza di ingresso L può comprendere inoltre immagini alternate alle immagini di detta prima pluralità Li, cioà ̈ immagini associate a riferimenti temporali (che, come sarà più chiaro in seguito, saranno identificati come TRi) alternati ai primi riferimenti temporali TLi.
La seconda sequenza di ingresso R ricevuta dall’interfaccia di comunicazione 10 comprende una seconda pluralità Ri di immagini ciascuna associata ad un rispettivo secondo riferimento temporale TRi, che ne identifica la posizione all’interno della seconda sequenza di ingresso R.
La seconda pluralità di immagini Ri comprende la sopra citata seconda immagine R2.
La seconda sequenza di ingresso R può comprendere inoltre immagini alternate alle immagini di detta seconda pluralità Ri, cioà ̈ immagini associate a riferimenti temporali alternati ai secondi riferimenti temporali TRi. In pratica, tali ulteriori immagini della seconda sequenza di ingresso R sono associate ai sopra citati primi riferimenti temporali TLi.
Vantaggiosamente i primi riferimenti temporali TLi sono temporalmente alternati ai secondi riferimenti temporali TRi. In altri termini, nella forma di esecuzione preferita, le immagini della prima pluralità Li sono temporalmente alternate alle immagini della seconda pluralità Ri.
Preferibilmente la prima sequenza di ingresso L Ã ̈ archiviata nella prima area di memoria M1, e la seconda sequenza di ingresso R Ã ̈ archiviata nella seconda area di memoria M2.
L’interfaccia di comunicazione 10 à ̈ configurata per ricevere una prima pluralità di mappe D1i facente parte del flusso in ingresso Vin.
Le mappe della prima pluralità di mappe D1i sono preferibilmente mappe di profondità o mappe di disparità.
Le mappe della prima pluralità di mappe D1i sono tali che, combinando ciascuna di tali mappe con la rispettiva immagine di detta prima pluralità Li, si ottenga sostanzialmente (a meno di occlusioni o altri fenomeni analoghi) la corrispondente immagine della seconda sequenza di ingresso R.
La prima pluralità di mappe D1i comprende la summenzionata prima mappa D1.
L’interfaccia di comunicazione 10 à ̈ inoltre configurata per ricevere una seconda pluralità di mappe D2i facente parte del flusso in ingresso Vin.
Le mappe della seconda pluralità di mappe D2i sono preferibilmente mappe di profondità o mappe di disparità.
Le mappe della seconda pluralità di mappe D2i sono tali che, combinando ciascuna di tali mappe con la rispettiva immagine di detta seconda pluralità Ri, si ottenga sostanzialmente (a meno di occlusioni o altri fenomeni analoghi) la corrispondente immagine della prima sequenza di ingresso L.
La seconda pluralità di mappe D2i comprende la summenzionata seconda mappa D2.
L’unità di elaborazione 11 à ̈ quindi configurata per operare sulle immagini della prima pluralità Li, sulle immagini della seconda pluralità Ri e sulle rispettive mappe D1i, D2i secondo la stessa tecnica sopra descritta con riferimento alla prima immagine L1 della prima sequenza di ingresso L, alla prima mappa D1, alla seconda immagine R2 della seconda sequenza di ingresso R ed alla seconda mappa D2.
L’unità di elaborazione 11 à ̈ configurata per inserire nel flusso video codificato CVS la prima pluralità di immagini Li, la prima pluralità di mappe D1i, la seconda pluralità di immagini Ri e la seconda pluralità di mappe D2i.
Il flusso video codificato CVS contiene quindi, per ciascun istante temporale, un’immagine della prima pluralità Li associata alla rispettiva prima mappa D1i (primi riferimenti temporali TLi), oppure un’immagine della seconda pluralità Ri associata alla rispettiva seconda mappa D2i (secondi riferimenti temporali TRi).
Preferibilmente, l’unità di elaborazione 11 à ̈ configurata per associare, ad una o più delle mappe della prima e/o della seconda pluralità D1i, D2i, dati descrittivi di pixel di sostituzione. Tali dati descrittivi possono essere vantaggiosamente determinati tramite le tecniche sopra descritte.
In particolare, i dati descrittivi possono essere costituiti dai summenzionati dati principali.
L’interfaccia di ingresso 10, l’unità di elaborazione 11 e preferibilmente la prima e/o la seconda area di memoria M1, M2 formano un generatore, facente parte dell’apparato di generazione 1 ed indicato con il numero di riferimento 3 in figura 1.
Vantaggiosamente à ̈ prevista una pre-elaborazione delle immagini inizialmente fornite all’apparato di generazione 1, particolarmente nel caso in cui le due viste rappresentate dalle due sequenze in ingresso presentino differenze marcate in termini di colorimetria e/o luminanza. In tale circostanza, infatti, la visualizzazione del flusso video decodificato potrebbe risultare fastidiosa in virtù dell’alternanza di immagini con caratteristiche così diverse tra loro.
A questo scopo l’apparato di generazione 1 può opzionalmente essere provvisto di un modulo di preelaborazione 12, predisposto a monte dell’unità di elaborazione 11.
Il modulo di pre-elaborazione 12 opera basandosi sulla prima sequenza di ingresso L e su una sequenza iniziale R0.
La sequenza iniziale R0 contiene una pluralità di immagini R0i rappresentative della seconda vista del flusso stereoscopico in ingresso; ciascuna di tali immagini à ̈ associata ad una corrispondente immagine della prima sequenza di ingresso L.
In pratica la prima sequenza di ingresso L e la sequenza iniziale R0 sono le sequenze originariamente ricevute dall’apparato 1.
Il modulo di pre-elaborazione 12 provvede a confrontare una o più immagini R0i della sequenza iniziale R0 con le corrispondenti immagini della prima sequenza di ingresso L, cioà ̈ con immagini della prima sequenza di ingresso L associate ai medesimi riferimenti temporali delle immagini R0i della sequenza iniziale R0.
In funzione di tali confronti, vengono ricavate le immagini facenti parte della summenzionata seconda sequenza di ingresso R.
In maggiore dettaglio, in funzione di ciascun confronto viene generata una corrispondente mappa Di; combinando poi le immagini della prima sequenza di ingresso L con le rispettive mappe Di vengono ricostruite le immagini della seconda sequenza di ingresso R.
Preferibilmente, nella ricostruzione delle immagini della seconda sequenza di ingresso R viene tenuto conto anche delle eventuali occlusioni, che impediscono una ricostruzione completa a partire dalle immagini della prima sequenza di ingresso L e dalle relative mappe D1. I pixel di sostituzione da impiegare per tali occlusioni possono essere determinati, secondo tecniche di per sé note, in funzione di immagini della sequenza iniziale R0. A titolo esemplificativo, possono essere utilizzati gli algoritmi sopra descritti con riferimento alla generazione del flusso video codificato CVS.
La Figura 2 rappresenta in via esemplificativa un flusso video stereoscopico che segue l’approccio proposto secondo la presente invenzione. In tale rappresentazione i tempi crescenti vanno da sinistra verso destra. Nel caso di Figura 2 al tempo t1 viene trasmesso al codificatore il quadro L1 ed in parallelo la mappa di profondità D1, mentre al tempo t2 segue R2 con la mappa D2, e così via.
I tempi t1, t3,... sono compresi nei sopra citati primi riferimenti temporali TLi; i tempi t2, t4,... sono compresi nei sopra citati secondi riferimenti temporali TRi.
Si suppone che siano noti al generatore le sequenze dei quadri alternati comprendenti le immagini della vista sinistra (Left View) e destra (Right View), nonché le relative mappe (di disparità o di profondità); a titolo esemplificativo tali mappe sono presentate come mappe di profondità della vista sinistra rispetto alla destra (Depth Left) e della vista destra rispetto alla sinistra (Right Depth).
In generale le sequenze delle immagini associate alla vista sinistra e a quella destra si ottengono in tempo reale tramite appositi strumenti di cattura (telecamere) durante una ripresa stereoscopica, oppure off-line tramite tecniche e strumenti di calcolo mutuati dalla computer graphics. Le mappe di disparità/profondità possono essere calcolate con una qualsiasi tecnica nota a partire dalle immagini delle due viste e/o dalla conoscenza delle condizioni di ripresa delle immagini, oppure generate artificialmente da opportuni strumenti di calcolo.
La Figura 3 illustra in via esemplificativa lo schema a blocchi di una forma di realizzazione di un generatore 3 di flusso video stereoscopico secondo l’invenzione.
Tale generatore 3 genera il flusso schematicamente rappresentato in Figura 2.
Come detto si suppone che al generatore vengano fornite sia le immagini delle sequenza di ingresso L, R, sia le relative mappe .
Un apposito selettore di vista View selector provvede ad alternare i quadri a partire da quelli che compongono le due viste in ingresso, per esempio iniziando dalla vista sinistra. In tal caso vengono selezionati nell’ordine le immagini di vista L1, R2, L3, R4, eccetera, per i periodi temporali t1, t2, t3, t4, eccetera, ottenendo un flusso stereoscopico secondo la parte superiore della Figura 2. Un secondo selettore di mappa, che funziona in modo coordinato col primo, seleziona alternatamente la mappa della vista destra rispetto alla vista sinistra, e la mappa della vista sinistra rispetto alla destra. In particolare la prima mappa D(L->R) contiene le informazioni che l’immagine destra R, dell’istante di quadro interessato, presenta rispetto alla corrispondente immagine della vista sinistra L, mentre la mappa D(R->L) contiene le informazioni dell’immagine sinistra L, dell’istante di quadro interessato, rispetto alla corrispondente immagine dell’altra vista R. Supponendo di partire dalla vista sinistra, viene così generato in uscita al selettore un flusso di dati costituito, nell’ordine, dalla sequenza D1(L1->R1), D2(R2->L2), D3(L3->R3), D4(R4->L4), eccetera, come raffigurato nella parte inferiore di Figura 2.
Le mappe D1, D3, … appartengono alla sopra citata prima pluralità di mappe D1i. Le mappe D2, D4, … appartengono alla sopra citata seconda pluralità di mappe D2i.
Le due sequenze delle immagini di vista e mappe alternate vengono codificate rispettivamente da un codificatore di vista View encoder e da un codificatore di mappa Depth encoder che possono funzionare in modo cooperativo tenendo conto delle informazioni contenute all’ingresso dell’altro codificatore e anche delle tecniche di codifica da esso adottate.
I due codificatori possono essere di tipo noto; per esempio essi possono adottare standard di codifica video noti quali MPEG-2, MPEG-4 AVC, VC-1, eccetera, così da utilizzare strumenti o dispositivi già esistenti per la compressione delle immagini. Alternativamente essi possono funzionare secondo sistemi di codifica futuri ancora in corso di standardizzazione, quali MPEG-4 AVC/SVC/MVC con le opportune estensioni necessarie ad includere le mappe di profondità, HEVC e relative estensioni.
I due flussi Encoded view stream e Encoded depth stream composti rispettivamente da viste e mappe alternate, entrambi compressi, uscenti dai due codificatori, vengono fusi nel flusso video codificato CVS stereoscopico da un dispositivo multiplatore Multiplexer, che provvede ad effettuare una conversione parallelo-serie dei due flussi entranti.
Il flusso video codificato CVS potrà eventualmente essere composto con altri flussi informativi quali flussi audio e/o dati (sottotitoli, metadati, ecc.) e memorizzato in un dispositivo di memorizzazione per una successiva riproduzione in un sistema progettato per consentirne la visualizzazione oppure essere trasmesso secondo lo stato dell’arte via cavo, etere, satellite, IP (Internet Protocol), e così via.
Si noti che lo schema di Figura 3 à ̈ del tutto esemplificativo e costituisce uno dei possibili modi di realizzare un generatore di flussi stereoscopici secondo l’invenzione. Infatti, si può alternativamente prevedere la presenza di un multiplatore a valle dei due selettori di vista e di mappa che provvede ad effettuare la conversione parallelo-serie dei due flussi di vista e di mappa in un unico flusso. Questo flusso unificato alternato viene codificato da un unico codificatore di vista e mappa che genera il flusso video codificato CVS di Figura 3.
La Figura 9 mostra uno schema a blocchi di una possibile forma di realizzazione di un apparato di generazione 1’ che implementa la sintesi di una delle due sequenze di ingresso.
L’apparato di generazione 1’ à ̈ simile all’apparato 1 mostrato in Figura 1a: la differenza sostanziale riguarda il fatto che l’apparato 1 di Figura 1 riceve in ingresso solamente le sequenze L, R0 e genera autonomamente le mappe D, mentre l’apparato 1’ di Figura 9 riceve in ingresso sia le sequenze L, R0, sia le mappe D.
Il blocco “View selector†di Figura 3 à ̈ stato sostituito con il blocco “View synthesis and View Selector†, in Figura 9. Quest’ultimo presenta tre ingressi: la vista sinistra, la vista destra e la mappa di profondità uscente dal blocco Depth Selector di selezione della mappa di profondità.
Gli ingressi vengono processati in modo che una delle due viste (per esempio la destra) venga sintetizzata a partire dalla mappa di profondità e dall’altra vista e poi trasmessa al posto dell’originale, mentre l’altra (per esempio la sinistra) viene inviata in forma originale. In questo modo si riduce la differenza di luminanza e colorimetria presente nei frame adiacenti. La sintesi viene effettuata utilizzando in prima battuta le informazioni di disparità presenti nella mappa di profondità, e l’altra vista; le occlusioni invece, dopo essere state identificate, vengono ricavate dalla stessa vista stereoscopica originale. Si tratta in sostanza di una procedura simile a quella utilizzata dall’apparato di ricostruzione per ricavare i quadri della vista mancante a partire da quelli ricevuti.
Le Figure 10a-10d mostrano i passi necessari per la sintesi; in particolare le Figure 10a e 10b si riferiscono al caso in cui venga presa come riferimento la vista sinistra, mentre le Figure 10c e 10d si riferiscono al caso in cui venga presa come riferimento la vista destra.
Le Figure 10a e 10c mostrano il primo passo dell’algoritmo di sintesi per l’i-esimo frame del flusso; dalla vista Li e dalla mappa di profondità Di(Li->Ri) viene calcolata la vista R0i<*>tramite un blocco View Synthesis di tipo noto che può anche essere lo stesso utilizzato in fase di ricostruzione. I quadri R0i<*>contengono alcuni pixel incogniti in corrispondenza delle regioni occluse che non sono ricavabili dall’algoritmo di View Synthesis. Contrariamente a quanto avviene in ricostruzione (Figure 11b e 11d, che saranno descritte in seguito), in lato generazione la corrispondente vista originale R0i à ̈ disponibile, per cui la si può sfruttare direttamente per ricavare i pixel incogniti, per esempio ricopiando da R0i in R0i<*>i valori dei pixel occlusi individuati dall’algoritmo di sintesi di vista, ottenendo in tal modo una vista ricostruita virtuale Ri, che sarà impiegata per formare la seconda sequenza R delle due sequenze L,R componenti il flusso stereoscopico uscente dal blocco View Synthesis and View Selector. Questa procedura può essere vantaggiosamente eseguita per tutti i frame della sequenza video.
Nel caso in cui si prendesse come riferimento la vista destra, verrebbero eseguite le medesime fasi a partire dalle sequenze R, L0, calcolando le viste incomplete L0i<*>e, da queste, le viste ricostruite virtuali Li da impiegare nella generazione del flusso stereoscopico uscente dal blocco View Synthesis and View Selector (Figure 10c e 10d).
Come detto, il flusso video codificato CVS può essere trasmesso e/o memorizzato su un opportuno supporto di archiviazione, affinché possa essere poi fornito ad un apparato in grado di ricostruire il flusso video iniziale così da permettere una fruizione dello stesso.
Tale apparato per la ricostruzione di un flusso video, o apparato di decodifica, Ã ̈ indicato con il riferimento numerico 2 nelle unite Figure.
L’apparato di ricostruzione 2 (Figura 1b) comprende innanzitutto un’interfaccia di ingresso 20 per ricevere in ingresso un flusso video codificato CVS.
Tale flusso video codificato CVS presenta la struttura sopra descritta. In sintesi, il flusso video codificato CVS comprende almeno: una prima immagine L1 di una prima sequenza di ingresso L, una prima mappa D1 associata a tale prima immagine L1, una seconda immagine R2 di una seconda sequenza di ingresso R ed una seconda mappa D2 associata a tale seconda immagine R2.
L’apparato di ricostruzione 2 comprende inoltre un modulo operativo 21 configurato per eseguire, in generale, fasi speculari a quelle sopra descritte con riferimento alla fase di generazione del flusso video.
In particolare, il modulo operativo 21 provvede a ricostruire una prima immagine R1 della seconda sequenza di ingresso R in funzione della prima immagine L1 della prima sequenza di ingresso L e della prima mappa D1 ad essa associata; viene ottenuta in questo modo una prima immagine ricostruita R1’.
Il modulo operativo 21 ricostruisce inoltre una seconda immagine L2 della prima sequenza di ingresso L in funzione della seconda immagine R2 della seconda sequenza di ingresso R e della seconda mappa D2 ad essa associata; viene ottenuta in questo modo una seconda immagine ricostruita L2’.
A seguito delle fasi qui sopra descritte, il modulo operativo 21 può quindi predisporre in uscita un flusso video decodificato DVS stereoscopico; tale flusso video decodificato DVS comprende:
- una prima sequenza di uscita L’ che comprende la prima immagine L1 della prima sequenza di ingresso L e la seconda immagine ricostruita L2’, e
- una seconda sequenza di uscita R’ che comprende la prima immagine ricostruita R1’ e la seconda immagine R2 della seconda sequenza di ingresso R. In particolare, nella prima sequenza di uscita L’ la seconda immagine ricostruita L2’ à ̈ temporalmente successiva e temporalmente adiacente alla prima immagine L1 della prima sequenza di ingresso L e, nella seconda sequenza di uscita R’, la seconda immagine R2 della seconda sequenza di ingresso R à ̈ temporalmente successiva e temporalmente adiacente alla prima immagine ricostruita R1’.
La prima e seconda sequenza di uscita L’, R’ sono rappresentative rispettivamente di una prima e di una seconda vista del flusso video decodificato DVS stereoscopico.
Pertanto, associando l’apparato di ricostruzione 2 ad un opportuno dispositivo di visualizzazione, come ad esempio un apparecchio televisivo dotato di funzionalità di visualizzazione 3D, sarà possibile visualizzare il flusso video decodificato DVS dando all’utente la corretta rappresentazione della profondità dei contenuti di tale flusso.
Come detto, preferibilmente il flusso video codificato CVS ricevuto dall’apparato di ricostruzione 2 comprende, in generale, una prima pluralità di immagini Li appartenenti alla prima sequenza di ingresso L, una prima pluralità di mappe D1i ciascuna associata ad una rispettiva immagine di detta prima pluralità di immagini Li, una seconda pluralità di immagini Ri appartenenti alla seconda sequenza di ingresso R, ed una seconda pluralità di mappe D2i ciascuna associata ad una rispettiva immagine della seconda pluralità di immagini Ri.
Con riferimento a quanto già descritto relativamente all’apparato di generazione 1, la prima pluralità di immagini Li comprende la prima immagine L1 della prima sequenza di ingresso L, la prima pluralità di mappe D1i comprende la prima mappa D1, la seconda pluralità di immagini Ri comprende la seconda immagine R2 della seconda sequenza di ingresso R, e la seconda pluralità di mappe D2i comprende la seconda mappa D2.
Preferibilmente ciascuna immagine Li della prima pluralità à ̈ associata ad un rispettivo primo riferimento temporale TLi, e ciascuna immagine Ri della seconda pluralità à ̈ associata ad un rispettivo secondo riferimento temporale TRi.
Vantaggiosamente i primi riferimenti temporali TLi sono temporalmente alternati ai secondi riferimenti temporali TRi.
In pratica, le immagini della prima pluralità di immagini Li sono temporalmente alternate alle immagini della seconda pluralità Ri.
Una volta che l’interfaccia di ingresso 20 ha ricevuto tale flusso video codificato CVS, il modulo operativo 21 provvede ad operare sulle immagini facenti parte di tale flusso nella stessa maniera sopra descritta con riferimento alla prima immagine L1 ed alla seconda immagine R2, così da ricostruire le immagini mancanti e generare il flusso video decodificato DVS in uscita.
In particolare, il modulo operativo 21 à ̈ configurato per ricostruire immagini della seconda sequenza di ingresso R in funzione della prima pluralità di immagini Li e della prima pluralità di mappe D1i, ottenendo corrispondenti prime immagini ricostruite Ri’.
Il modulo operativo 21 provvede inoltre a ricostruire immagini della prima sequenza in ingresso L in funzione della seconda pluralità di immagini Ri e della seconda pluralità di mappe D2i, ottenendo corrispondenti seconde immagini ricostruite Li’.
Il flusso video decodificato DVS in uscita comprenderà quindi:
- una prima sequenza di uscita L’ che comprende la prima pluralità di immagini Li e le seconde immagini ricostruite Li’, e
- una seconda sequenza di uscita R’ che comprende la seconda pluralità di immagini Ri e le prime immagini ricostruite Ri’.
La prima e seconda sequenza di uscita L’, R’ sono rappresentative rispettivamente di una prima e di una seconda vista del flusso video decodificato DVS stereoscopico.
Il modulo operativo 21 à ̈ preferibilmente configurato per gestire la presenza di uno o più pixel occlusi che, ad esempio, possono impedire una ricostruzione completa, in funzione della prima immagine L1 della prima sequenza di ingresso L e della relativa prima mappa D1, della prima immagine ricostruita R1’.
In particolare, in funzione della prima immagine L1 della prima sequenza di ingresso L e della relativa prima mappa D1, il modulo operativo 21 individua uno o più pixel occlusi rispetto alla corrispondente prima immagine R1 della seconda sequenza di ingresso R. Il modulo operativo 21 provvede quindi a determinare, in funzione di una o più determinate immagini della seconda sequenza di ingresso R, uno o più pixel di sostituzione da sostituire a detti uno o più pixel occlusi.
In maggiore dettaglio, le immagini della seconda sequenza di ingresso R utilizzate dal modulo operativo 21 per determinare tali pixel di sostituzione sono immagini appartenenti alla citata seconda pluralità di immagini Ri comprese nel flusso video codificato CVS.
Preferibilmente si considera l’immagine immediatamente precedente a quella da ricostruire. In aggiunta o in alternativa può essere utilizzata quella successiva. Per l’immagine iniziale, cioà ̈ quell’immagine che non ha per definizione un’immagine precedente, viene necessariamente impiegata l’immagine successiva.
Questa operazione può essere eseguita per ciascuna delle immagini da ricostruire, appartengano esse alla prima o seconda sequenza di uscita L’, R’.
Vantaggiosamente il flusso video codificato CVS può comprendere dati descrittivi di pixel di sostituzione da impiegare in taluni casi nella ricostruzione delle immagini mancanti.
Come sopra descritto, tali dati descrittivi sono inseriti in fase di codifica laddove le sole immagini e mappe a disposizione del decoder non sarebbero sufficienti ad una ricostruzione completa e soddisfacente delle immagini mancanti.
A titolo esemplificativo, i dati descrittivi di pixel di sostituzione, che preferibilmente possono comprendere o essere costituiti dai citati dati principali, possono comprendere vettori di movimento (motion vectors).
Il modulo operativo 21 Ã ̈ quindi configurato per rilevare nel flusso video codificato CVS, qualora siano presenti, i dati descrittivi di pixel di sostituzione, e per utilizzare gli stessi per la ricostruzione delle porzioni occluse.
Le Figure 11a-11d mostrano schematicamente come possano essere ricostruite a ogni passo “i†maggiore di 1 le viste mancanti incomplete Li<*>, Ri<*>, cioà ̈ le viste ricostruite in cui sono ancora presenti delle occlusioni, e come da queste si possano poi ricostruire le viste mancanti complete Li’, Ri’, cioà ̈ le viste in cui le occlusioni sono state sostituite, a partire dai quadri effettivamente ricevuti. Le Figure 11a e 11c esemplificano quanto già illustrato per la ricostruzione delle viste mancanti incomplete Li<*>, Ri<*>; le Figure 11b e 11d illustrano un possibile modo di ricostruire le viste mancanti complete Li’, Ri’ a partire da quelle incomplete Li<*>, Ri<*>, costellate dai buchi composti da pixel occlusi ignoti. Il modo più semplice di procedere à ̈ quello di sfruttare i pixel corrispondenti o adiacenti a quelli occlusi presenti nel quadro di vista immediatamente precedente a quello mancante, che viene preferibilmente sempre trasmesso o memorizzato, ed à ̈ quindi noto al dispositivo ricostruttore, che lo ha memorizzato nel buffer al passo precedente. Fa eccezione unicamente la prima vista mancante che non à ̈ preceduta da alcuna altra vista: per questo caso si può, per esempio, utilizzare la vista immediatamente successiva.
La Figura 4 rappresenta lo schema a blocchi di un ricostruttore di flusso stereoscopico o apparato di ricostruzione 2 secondo l’invenzione. Al suo ingresso à ̈ presente il flusso video codificato CVS alternato e compresso del tipo di quello presente in uscita al generatore di Figura 3. Nel caso desiderabile di memorizzazione e/o trasmissione senza errori i due flussi stereoscopici sono esattamente uguali, altrimenti differiranno solo per quegli errori digitali indesiderati introdotti dalle operazioni effettuate a valle del generatore e a monte del ricostruttore. Il flusso viene introdotto nello stadio iniziale del ricostruttore detto Front-end stage costituito da un demultiplatore (Demultiplexer) che effettua l’operazione inversa del Multiplexer del generatore scomponendo il flusso d’ingresso nei due flussi Encoded view stream ed Encoded depth stream che erano presenti all’ingresso di tale Multiplexer. Il primo flusso contiene la sequenza compressa e alternata delle immagini delle due viste; essa viene decodificata da un apposito decodificatore di vista View Decoder. Il decodificatore produce in uscita la sequenza View Left/Right comprendente le immagini alternate della vista sinistra e destra decodificate. Analogamente la sequenza delle mappe compresse alternate Encoded depth stream presente sulla linea di uscita inferiore del Demultiplexer viene processata dal decodificatore Depth Decoder che produce in uscita la sequenza Depth Left/Right delle mappe alternate decodificate.
I due decodificatori video possono essere di tipo noto, quale per esempio MPEG-2 o MPEG-4 AVC, o di quelli futuri in corso di standardizzazione quali MPEG-4 AVC/SVC/MVC e HEVC con l’estensione delle mappe di profondità, oppure essere una loro versione modificata ottimizzata per trattare i flussi video presenti al loro ingresso. I due decodificatori operano in sinergia in modo coordinato e possono eventualmente scambiarsi segnali di controllo e dati per sfruttare informazioni di temporizzazione e di contenuto video dei flussi atti a garantirne il corretto funzionamento e una decodifica ottimale, sulla base del sistema di compressione adottato per la generazione dello stream complesso.
Anche in lato ricostruzione valgono le stesse considerazioni fatte per la codifica in lato generazione: alternativamente allo schema proposto in Figura 4 può essere impiegato come Front-end stage un unico blocco decodificatore che provvede a decodificare il flusso video codificato CVS presente in ingresso e a produrre in uscita i due flussi View Left/Right e Depth Left/Right comprendenti rispettivamente le immagini di vista e le mappe alternate e decodificate. Lo stadio di ingresso Front-end stage può comprendere quindi un unico dispositivo decodificatore video che provvede, a seconda dei casi, a demultiplare l’unico flusso di ingresso o a trattare i due flussi di ingresso non demultiplati per fornire in uscita i due flussi separati.
Successivamente questi due flussi vengono elaborati da un blocco di sintesi di vista e riempimento delle occlusioni View synthesis and occlusion filling, facente parte del citato modulo operativo 21, che si occupa di generare la vista mancante, ossia la vista non trasmessa, utilizzando dove possibile le informazioni contenute nella mappa . Le parti non ricostruibili attraverso la mappa vengono ottenute sfruttando la particolare configurazione alternata del flusso ricevuto secondo la tecnica sopra descritta.
In uscita al blocco View synthesis and occlusion filling si ottengono le due sequenze relative alla vista di sinistra (Left View) e a quella di destra (Right View), che possono così essere fornite ad un apparato di visualizzazione per la loro resa tridimensionale (o anche solo bidimensionale) secondo una qualsiasi tecnica nota, quale ad esempio la tecnica line interleave oppure frame alternate.
Nel caso si voglia visualizzare un video tridimensionale in modalità 2D si può procedere in diversi modi.
In una prima soluzione si può utilizzare il blocco di View synthesis and occlusion filling per ricostruire la vista mancante come avviene per il caso tridimensionale, lasciando al dispositivo di visualizzazione l’operazione di scarto di tutte le immagini destre o sinistre non necessarie per la visione 2D. In tal caso il frame rate risultante del contenuto video riprodotto in 2D à ̈ pari a quello originario presente in lato generazione. In sostanza viene effettuata una rigenerazione completa del flusso 3D secondo lo schema funzionale rappresentato in Figura 4a e un dispositivo di visualizzazione posto a valle del rigeneratore 3D scarta tutti i quadri relativi a una delle viste.
Come seconda soluzione vengono utilizzati i soli quadri trasmessi per una delle due viste e si visualizza il video ad un frame rate dimezzato rispetto alla prima soluzione, come mostrato in via esemplificativa in un rigeneratore di flusso 3D riconfigurabile mostrato in Figura 4c, qualora sia attiva la modalità di visualizzazione 2D. In tale Figura i blocchi disattivati e i segnali assenti vengono mostrati con linea tratteggiata. Un modulo di controllo 2D/3D coordina e gestisce il funzionamento dei decoder e del blocco di sintesi vista e gestione delle occlusioni. Ad esempio se il frame rate del flusso video à ̈ pari a 50 fps (frame per secondo) e si prende come riferimento la vista sinistra (Left), vengono scartati all’uscita del demultiplexer tutti i quadri appartenenti alle mappe , nonché i quadri relativi alla vista destra utilizzando un’informazione che potrebbe essere di tipo temporale o proveniente dal flusso di trasporto. In uscita verrà visualizzato un video con i quadri appartenenti alla vista sinistra ad un frame rate pari a 25 fps, senza che il blocco View synthesis and occlusion filling effettui alcuna operazione e senza ricostruire alcun quadro della vista destra o sinistra.
Questa seconda soluzione permette di semplificare notevolmente le operazioni in lato rigenerazione in quanto non sono più necessari i passi di ricostruzione dei quadri della vista mancante e relative occlusioni.
La Figura 4b rappresenta la modalità di funzionamento del rigeneratore di Figura 4c quando à ̈ attiva la visualizzazione 3D: in tal caso il modulo di controllo della visualizzazione 2D/3D fa in modo che i blocchi funzionali ivi presenti lavorino così da operare come descritto per il rigeneratore di Figura 4a, ottenendo in uscita lo stesso tipo di sequenza video stereoscopica rappresentabile in modalità tridimensionale.
La Figura 5a mostra la struttura iterativa del procedimento che viene ripetuto ciclicamente per ogni coppia di frame ricevuti per un certo istante temporale ti, mentre la Figura 5b dettaglia i singoli passi effettuati per la ricostruzione del quadro i-esimo (facente parte delle immagini Li’ o Ri’) non trasmesso e quindi non ricevuto dall’apparato rigeneratore.
La Figura 6 dettaglia come vengono ricostruiti i frame mancanti a partire da quelli effettivamente presenti in ingresso nel corso della procedura di ricostruzione dei quadri delle due viste. Per maggior chiarezza i quadri presenti in ingresso al ricostruttore sono raffigurati senza trama, mentre quelli ricostruiti presentano una trama rettangolare.
Tornando alla Figura 5b, con il primo passo si verifica se la coppia di quadri in ingresso L1 e D1 à ̈ la prima della sequenza video perché in tal caso à ̈ preferibile attendere la ricezione della coppia successiva prima di poter procedere alla ricostruzione completa, occlusioni incluse, del primo quadro della vista mancante, non senza prima aver memorizzare il primo frame di vista ricevuto e la relativa mappa di profondità. Nel caso mostrato in Figura 6 si tratta di L1 e D1(L1->R1).
Il controllo successivo verifica se il frame (di riferimento) ricevuto appartiene alla vista destra o sinistra: nel primo caso viene ricostruito il frame sinistro a partire dal frame sinistro immediatamente precedente e dalla relativa mappa di profondità, mentre il frame destro viene memorizzato in un buffer per poter essere utilizzato durante la ricostruzione del frame destro successivo, come ipotizzato in Figura 6 per i quadri relativi ai tempi t2 e t4; nel secondo caso viene ricostruito il frame destro e il frame sinistro viene salvato in un buffer per poter essere utilizzato durante la ricostruzione del frame sinistro successivo, come ipotizzato in Figura 6 per i quadri relativi ai tempi t3 e t5. A questo punto i valori relativi al frame di riferimento e mappa di profondità associata vengono utilizzati sia per calcolare i valori di disparità necessari alla ricostruzione dell’altra vista, sia per individuare i pixel appartenenti alle zone occluse, mentre i valori di questi pixel vengono ricavati diversamente nella successiva fase di gestione delle occlusioni di Figura 5b.
Infatti, i frame della vista di destra e di sinistra così ricostruiti non sono completi in quanto il blocco di sintesi View synthesis che li genera non à ̈ in grado di rigenerare i valori dei pixel occlusi presenti, ma rileva soltanto la loro presenza. Per maggiore chiarezza espositiva questi quadri di vista incompleti destri e sinistri vengono genericamente denominati rispettivamente Rx e Lx. Le frecce prive di riempimento di Figura 6 indicano l’uso del frame da cui sono originati ai fini del calcolo di Rx e Lx del frame su cui puntano, mentre quelle annerite l’uso del frame da cui provengono ai fini del calcolo dei pixel occlusi nel frame puntato.
Questo modo di ricavare i pixel occlusi nelle viste mancanti à ̈ particolarmente semplice da realizzare, in quanto richiede la memorizzazione di un solo quadro per ogni passo della procedura di ricostruzione e tiene conto di pixel appartenenti a uno o a due quadri al massimo.
Esso rappresenta comunque solo una delle molteplici soluzioni possibili: infatti si può tener conto anche di pixel appartenenti a molteplici quadri di vista precedenti e/o successivi a quello da ricostruire.
In quest’ultimo caso, à ̈ necessaria la memorizzazione contemporanea di più frame in modo da selezionare i pixel dei frame di vista adiacenti che meglio approssimano le occlusioni nel frame da ricostruire. Nel caso in cui l’algoritmo non riesca ad identificare i suddetti pixel si può ricorrere a tecniche di riempimento di occlusioni come per esempio l’inpainting in modo da ottenere la massima qualità possibile della vista ricostruita.
Successivamente viene applicato un filtro per la riduzione del rumore legato alla ricostruzione (detto filtro di de-noising) di tipo già noto: durante le prove effettuate dalla richiedente si à ̈ rilevato particolarmente efficace l’utilizzo di un bilateral filter come filtro di de-noising in quanto consente di preservare i contorni.
Al termine delle operazioni effettuate per il frame corrente si verifica se esistono ancora quadri da elaborare: in caso affermativo si cessano le operazioni, mentre in caso negativo si procede alla lettura della coppia di quadri relativi al tempo successivo i+1-esimo.
L’invenzione esposta può essere estesa al caso con più di due viste sfruttandone la modularità a seconda dei requisiti in essere. A tale proposito si propongono due forme di realizzazione che esemplificano quanto esposto, facendo riferimento al flusso tridimensionale con più di due viste presente in uscita a un generatore di flussi video in modo analogo a quanto rappresentato schematicamente nella Figura 2.
In una forma di realizzazione, descritta in Figura 7, si mantiene il requisito della retro compatibilità 2D, in quanto l’invenzione viene applicata a partire dalla vista numero 3, mentre le prime due viste originarie View1 e View2 vengono trattate secondo lo stato dell’arte degli algoritmi esistenti. Invece la coppia di viste numero 3 e 4 originarie viene elaborata secondo l’invenzione nella stessa maniera in cui à ̈ elaborata la coppia di sequenze L, R sopra descritte. Lo stesso procedimento può essere applicato alle rimanenti viste presenti dopo averle opportunamente accoppiate, per esempio alle viste numero 5 e 6, alla settima e ottava, e così via fino a esaurimento delle viste presenti nel sistema. Ovviamente le coppie di viste originarie del sistema a più di due viste vengono ricostruite in lato rigenerazione in modo analogo a quanto già esposto precedentemente per il flusso video stereoscopico composto da vista sinistra e vista destra.
In una differente forma di realizzazione, mostrata in Figura 8, che invece non richiede il requisito della retro compatibilità 2D, l’algoritmo à ̈ applicato a partire già dalla prima coppia di viste.
Nel caso in cui il numero di viste sia dispari, la vista spaiata viene trattata secondo lo stato dell’arte degli algoritmi esistenti, mantenendo in questo caso il requisito della retro compatibilità 2D.
Si noti che gli apparati ed i moduli sopra descritti possono essere realizzati tramite hardware dedicato, oppure tramite hardware general purpose opportunamente programmato per eseguire le varie funzioni sopra descritte.
L’invenzione infatti riguarda anche un software di generazione di un flusso video, comprendente le istruzioni necessarie all’esecuzione delle operazioni dell’apparato di generazione 1, e ad un software di ricostruzione di un flusso video, comprendente le istruzioni necessarie all’esecuzione delle operazioni dell’apparato di ricostruzione 2.
Va notato inoltre che la suddivisione in moduli o blocchi funzionali degli apparati sopra descritti à ̈ da considerarsi puramente formale e finalizzata ad una chiara esposizione delle funzionalità dell’invenzione. Tale suddivisione, peraltro, non rispecchia necessariamente la struttura hardware dei dispositivi descritti.
L’invenzione consegue importanti vantaggi.
Innanzitutto, la tecnica di generazione secondo la presente invenzione permette di codificare il flusso video iniziale riducendone in maniera significativa le dimensioni impedendo, al contempo, che vengano perse informazioni essenziali per una completa ed affidabile ricostruzione dello stesso.
In particolare il flusso video codificato può essere archiviato impiegando supporti di archiviazione di capacità limitata.
Inoltre, il flusso video codificato può essere trasmesso e ricevuto occupando risorse di rete limitate rispetto a un corrispondente flusso 3D Full HD, proprio in virtù delle ridotte dimensioni del flusso codificato.
Inoltre il flusso video stereoscopico codificato può essere facilmente adattato a essere rappresentato anche in modalità 2D secondo due diverse modalità, con diversa qualità e complessità computazionale.
La tecnica di generazione e ricostruzione del flusso video tridimensionale secondo la presente invenzione può essere applicato non solo a un sistema di ricetrasmissione o archiviazione-riproduzione 3D stereoscopico, ma anche a corrispondenti sistemi 3D a più di due viste.
In aggiunta a quanto sopra, il flusso decodificato presenta una sostanziale identità con il flusso iniziale (cioà ̈ con il flusso non ancora codificato) e permette una fruizione di elevata qualità di contenuti video 3D.

Claims (35)

  1. RIVENDICAZIONI 1. Apparato per la generazione di un flusso video, comprendente: - un’interfaccia di comunicazione (10) per ricevere in ingresso: una o più immagini di una prima sequenza di ingresso (L) di immagini rappresentative di una prima vista di un flusso stereoscopico in ingresso (VIN); una o più immagini una seconda sequenza di ingresso (R) di immagini, ciascuna corrispondente ad una rispettiva immagine di detta prima sequenza di ingresso (L), le immagini di detta seconda sequenza di ingresso (R) essendo rappresentative di una seconda vista di detto flusso stereoscopico in ingresso (VIN); una o più mappe che permettono, a partire da una o più immagini di detta prima sequenza di ingresso (L), di ricostruire sostanzialmente corrispondenti immagini di detta seconda sequenza di ingresso (R); una o più mappe che permettono, a partire da una o più immagini di detta seconda sequenza di ingresso (R), di ricostruire sostanzialmente corrispondenti immagini di detta prima sequenza di ingresso (L); - un’unità di elaborazione (11) associata a detta interfaccia di comunicazione (10) e configurata per: ïƒ ̃ determinare una prima immagine (L1) di detta prima sequenza di ingresso (L); ïƒ ̃ determinare una prima mappa (D1) in modo che una prima immagine (R1) di detta seconda sequenza di ingresso (R) sia sostanzialmente ricostruibile combinando la prima immagine (L1) di detta prima sequenza di ingresso (L) con detta prima mappa (D1); ïƒ ̃ determinare una seconda immagine (R2) di detta seconda sequenza di ingresso (R); ïƒ ̃ determinare una seconda mappa (D2) in modo che una seconda immagine (L2) di detta prima sequenza di ingresso (L) sia sostanzialmente ricostruibile combinando la seconda immagine (R2) di detta seconda sequenza di ingresso (R) con detta seconda mappa (D2); ïƒ ̃ predisporre in uscita un flusso video codificato (CVS) comprendente almeno la prima immagine (L1) di detta prima sequenza di ingresso (L), la prima mappa (D1), la seconda immagine (R2) di detta seconda sequenza di ingresso (R) e la seconda mappa (D2).
  2. 2. Apparato secondo la rivendicazione 1 in cui la seconda immagine (L2) di detta prima sequenza di ingresso (L) e la seconda immagine (R2) di detta seconda sequenza di ingresso sono temporalmente successive e temporalmente adiacenti, rispettivamente, alla prima immagine (L1) di detta prima sequenza di ingresso (L) ed alla prima immagine (R1) di detta seconda sequenza di ingresso (R).
  3. 3. Apparato secondo la rivendicazione 1 o 2 in cui detta interfaccia di comunicazione (10) à ̈ configurata per ricevere: - una prima pluralità di immagini (Li) di detta prima sequenza di ingresso (L) comprendente detta prima immagine (L1) di detta prima sequenza di ingresso (L), ciascuna immagine (Li) di detta prima pluralità essendo associata ad un rispettivo primo riferimento temporale (TLi); - una seconda pluralità di immagini (Ri) di detta seconda sequenza di ingresso (R) comprendente detta seconda immagine (R2) di detta seconda sequenza di ingresso (R), ciascuna immagine (Ri) di detta seconda pluralità essendo associata ad un rispettivo secondo riferimento temporale (TRi), detti primi riferimenti temporali (TLi) essendo temporalmente alternati a detti secondi riferimenti temporali (TRi); - una prima pluralità di mappe (D1i), ciascuna di dette corrispondenti immagini appartenenti a detta seconda sequenza di ingresso (R) essendo sostanzialmente ricostruibile combinando ciascuna delle immagini di detta prima pluralità di immagini (Li) con una rispettiva delle mappe di detta prima pluralità (D1i) di mappe ; - una seconda pluralità di mappe (D2i) in funzione di detta seconda pluralità di confronti, ciascuna di dette corrispondenti immagini appartenenti a detta prima sequenza di ingresso (L) essendo sostanzialmente ricostruibile combinando ciascuna delle immagini di detta seconda pluralità di immagini (Ri) con una rispettiva delle mappe di detta seconda pluralità (D2i) di mappe ; detta unità di elaborazione (11) essendo configurata per generare detto flusso video codificato (CVS) incorporando nello stesso detta prima pluralità di immagini (Li), detta prima pluralità di mappe (D1i), detta seconda pluralità di immagini (Ri) e detta seconda pluralità di mappe (D2i).
  4. 4. Apparato secondo una qualsiasi delle rivendicazioni precedenti in cui detta unità di elaborazione (11) à ̈ configurata per: - individuare, in funzione della prima immagine (L1) di detta prima sequenza di ingresso (L) e della corrispondente prima mappa (D1), uno o più pixel occlusi; - determinare, in funzione di una o più immagini di detta seconda sequenza di ingresso (R), dati descrittivi di uno o più pixel di sostituzione da sostituire a detti uno o più pixel occlusi; - incorporare detti dati descrittivi in detto flusso video codificato (CVS).
  5. 5. Apparato secondo la rivendicazione 4 in cui detta unità di elaborazione (11) à ̈ configurata per: - individuare determinati pixel di sostituzione che non possono essere definiti in funzione solo di un’immagine precedente e/o di un’immagine successiva a detta corrispondente immagine (R1) appartenenti a detta seconda sequenza di ingresso (R); - determinare dati principali descrittivi di detti determinati pixel di sostituzione; - eseguire l’incorporazione di detti dati descrittivi in detto flusso video codificato (CVS) incorporando detti dati principali in detto flusso video codificato (CVS).
  6. 6. Apparato secondo la rivendicazione 4 o 5 in cui detti dati rappresentativi di pixel di sostituzione, e preferibilmente detti dati principali, comprendono vettori di movimento (motion vectors) associati a detti pixel occlusi.
  7. 7. Apparato secondo una qualsiasi delle rivendicazioni precedenti comprendente inoltre un modulo di pre-elaborazione (12) configurato per: - ricevere una sequenza iniziale (R0) comprendente una pluralità di immagini (R0i) rappresentative della seconda vista di detto flusso stereoscopico in ingresso, ciascuna associata ad una corrispondente immagine di detta prima sequenza di ingresso (L); - confrontare una o più immagini (R0i) di detta sequenza iniziale (R0) con le corrispondenti immagini di detta prima sequenza di ingresso (L); - generare, in funzione di ciascun confronto, una corrispondente immagine di detta seconda sequenza di ingresso (R).
  8. 8. Apparato secondo la rivendicazione 7 in cui detto modulo di pre-elaborazione (12) à ̈ configurato per: - determinare una mappa (Di) in funzione di ciascun confronto tra detta una o più immagini di detta sequenza iniziale (R0) e la corrispondente immagine di detta prima sequenza di ingresso (L); detta corrispondente immagine di detta seconda sequenza di ingresso (R) essendo generata in funzione di una combinazione tra detta corrispondente immagine di detta prima sequenza (L) e detta mappa (Di).
  9. 9. Apparato per la ricostruzione di un flusso video comprendente: - un’interfaccia di ingresso (20) per ricevere un flusso video codificato (CVS) comprendente almeno una prima immagine (L1) di una prima sequenza di ingresso (L), una prima mappa (D1) associata a detta prima immagine (L1) di detta prima sequenza di ingresso (L), una seconda immagine (R2) di una seconda sequenza di ingresso (R) ed una seconda mappa (D2) associata a detta seconda immagine (R2) di detta seconda sequenza di ingresso (R); - un modulo operativo (21) configurato per: ïƒ ̃ ricostruire una prima immagine (R1) di detta seconda sequenza di ingresso (R) in funzione di detta prima immagine (L1) di detta prima sequenza di ingresso (L) e di detta prima mappa (D1), ottenendo una prima immagine ricostruita (R1’); ïƒ ̃ ricostruire una seconda immagine (L2) di detta prima sequenza di ingresso (L) in funzione di detta seconda immagine (R2) di detta seconda sequenza di ingresso (R) e di detta seconda mappa (D2), ottenendo una seconda immagine ricostruita (L2’); ïƒ ̃ predisporre in uscita un flusso video decodificato (DVS) stereoscopico comprendente una prima sequenza di uscita (L’) includente la prima immagine (L1) di detta prima sequenza di ingresso (L) e detta seconda immagine ricostruita (L2’), ed una seconda sequenza di uscita (R’) includente detta prima immagine ricostruita (R1’) e la seconda immagine (R2) di detta seconda sequenza di ingresso (R), dette prima e seconda sequenza di uscita (L’, R’) essendo rappresentative rispettivamente di una prima e di una seconda vista di detto flusso video decodificato (DVS) stereoscopico.
  10. 10. Apparato secondo la rivendicazione 9 in cui: - in detta prima sequenza di uscita (L’), la seconda immagine ricostruita (L2’) à ̈ temporalmente successiva e temporalmente adiacente alla prima immagine (L1) di detta prima sequenza di ingresso (L); - in detta seconda sequenza di uscita (R’), la seconda immagine (R2) di detta seconda sequenza di ingresso (R) à ̈ temporalmente successiva e temporalmente adiacente a detta prima immagine ricostruita (R1’).
  11. 11. Apparato secondo la rivendicazione 9 o 10 in cui detto flusso video codificato (CVS) comprende una prima pluralità di immagini (Li) appartenenti ad una prima sequenza di ingresso (L) di immagini rappresentative di una prima vista di un flusso stereoscopico, una prima pluralità di mappe (D1i) ciascuna associata ad una rispettiva immagine di detta prima pluralità di immagini (Li), una seconda pluralità di immagini (Ri) appartenenti ad una seconda sequenza di ingresso (R) di immagini rappresentative di una seconda vista di detto flusso stereoscopico, ed una seconda pluralità di mappe (D2i) ciascuna associata ad una rispettiva immagine di detta seconda pluralità di immagini (Ri), in cui detta prima pluralità di immagini (Li) comprende la prima immagine (L1) di detta prima sequenza di ingresso (L), detta prima pluralità di mappe comprende detta prima mappa (D1), detta seconda pluralità di immagini (Ri) comprende la seconda immagine (R2) di detta seconda sequenza di ingresso (R) e detta seconda pluralità di mappe (D2i) comprende detta seconda mappa (D2), in cui ciascuna immagine (Li) di detta prima pluralità à ̈ associata ad un rispettivo primo riferimento temporale (TLi), in cui ciascuna immagine (Ri) di detta seconda pluralità à ̈ associata ad un rispettivo secondo riferimento temporale (TRi), detti primi riferimenti temporali (TLi) essendo temporalmente alternati a detti secondi riferimenti temporali (TRi), detto modulo operativo (21) essendo configurato per: - ricostruire immagini di detta seconda sequenza di ingresso (R) in funzione di detta prima pluralità di immagini (Li) e di detta prima pluralità di mappe (D1i), ottenendo corrispondenti prime immagini ricostruite (Ri’); - ricostruire immagini di detta prima sequenza in ingresso (L) in funzione di detta seconda pluralità di immagini (Ri) e di detta seconda pluralità di mappe (D2i), ottenendo corrispondenti seconde immagini ricostruite (Li’); detto flusso video decodificato (DVS) comprendendo: - una prima sequenza di uscita (L’) includente detta prima pluralità di immagini (Li) e dette seconde immagini ricostruite (Li’), e - una seconda sequenza di uscita (R’) includente detta seconda pluralità di immagini (Ri) e dette prime immagini ricostruite (Ri’).
  12. 12. Apparato secondo una qualsiasi delle rivendicazioni da 9 a 11 in cui detto modulo operativo (21) à ̈ configurato per: - individuare, in funzione della prima immagine (L1) di detta prima sequenza di ingresso (L) e della corrispondente prima mappa (D1), uno o più pixel occlusi rispetto alla corrispondente prima immagine (R1) di detta seconda sequenza di ingresso (R); - determinare, in funzione di una o più determinate immagini di detta seconda sequenza di ingresso (R), uno o più pixel di sostituzione da sostituire a detti uno o più pixel occlusi in detta prima immagine (R1) di detta seconda sequenza di ingresso (R).
  13. 13. Apparato secondo la rivendicazione 12 in cui dette determinate immagini appartengono a detta seconda pluralità di immagini (Ri).
  14. 14. Apparato secondo la rivendicazione 12 o 13 in cui detto flusso video codificato (CVS) comprende dati descrittivi di uno o più pixel di sostituzione, detto modulo operativo (21) essendo configurato per determinare detto uno o più pixel di sostituzione in funzione di detti dati descrittivi, in cui detti dati descrittivi preferibilmente comprendono dati principali rappresentativi di pixel di sostituzione che non possono essere determinati in funzione solo di un’immagine precedente e/o un’immagine successiva a detta prima immagine (R1) appartenenti a detta seconda sequenza di ingresso (R).
  15. 15. Apparato secondo la rivendicazione 14 in cui detti dati rappresentativi di pixel di sostituzione, e preferibilmente detti dati principali, comprendono vettori di movimento (motion vectors) associati a detti pixel occlusi.
  16. 16. Metodo per la generazione di un flusso video, comprendente: - predisporre una prima sequenza di ingresso (L) di immagini rappresentative di una prima vista di un flusso stereoscopico in ingresso; - predisporre una seconda sequenza di ingresso (R) di corrispondenti immagini rappresentative di una seconda vista di detto flusso stereoscopico in ingresso; - predisporre una o più mappe che permettono, a partire da una o più immagini di detta prima sequenza di ingresso (L), di ricostruire sostanzialmente corrispondenti immagini di detta seconda sequenza di ingresso (R); - predisporre una o più mappe che permettono, a partire da una o più immagini di detta seconda sequenza di ingresso (R), di ricostruire sostanzialmente corrispondenti immagini di detta prima sequenza di ingresso (L); - determinare una prima immagine (L1) di detta prima sequenza di ingresso (L); - determinare una prima mappa (D1) in modo che una prima immagine (R1) di detta seconda sequenza di ingresso (R) sia sostanzialmente ricostruibile combinando la prima immagine (L1) di detta prima sequenza di ingresso (L) con detta prima mappa (D1); - determinare una seconda immagine (R2) di detta seconda sequenza di ingresso (R); - determinare una seconda mappa (D2) tale che una seconda immagine (L2) di detta prima sequenza di ingresso (L) sia sostanzialmente ricostruibile combinando la seconda immagine (R2) di detta seconda sequenza di ingresso (R) con detta seconda mappa (D2); - predisporre in uscita un flusso video codificato comprendente almeno la prima immagine (L1) di detta prima sequenza di ingresso (L), la prima mappa (D1), la seconda immagine (R2) di detta seconda sequenza di ingresso (R) e la seconda mappa (D2).
  17. 17. Metodo secondo la rivendicazione 16 in cui la seconda immagine (L2) di detta prima sequenza di ingresso (L) e la seconda immagine (R2) di detta seconda sequenza di ingresso (R) sono temporalmente successive e temporalmente adiacenti, rispettivamente, alla prima immagine (L1) di detta prima sequenza di ingresso (L) ed alla prima immagine (R1) di detta seconda sequenza di ingresso (R).
  18. 18. Metodo secondo la rivendicazione 16 o 17 comprendente: - determinare una prima pluralità di immagini (Li) di detta prima sequenza (L) comprendente detta prima immagine (L1) di detta prima sequenza di ingresso (L), ciascuna immagine (Li) di detta prima pluralità essendo associata ad un rispettivo primo riferimento temporale (TLi); - determinare una prima pluralità di mappe (D1i) tali che, combinando ciascuna delle immagini di detta prima pluralità (Li) con una rispettiva mappa di detta prima pluralità di mappe (D1i), si ottenga sostanzialmente una corrispondente immagine di detta seconda sequenza di ingresso (R); - determinare una seconda pluralità di immagini (Ri) di detta seconda sequenza di ingresso (R) comprendente detta seconda immagine (R2) di detta seconda sequenza di ingresso (R), ciascuna immagine (Ri) di detta seconda pluralità essendo associata ad un rispettivo secondo riferimento temporale (TRi), detti primi riferimenti temporali (TLi) essendo temporalmente alternati a detti secondi riferimenti temporali (TRi); - determinare una seconda pluralità di mappe (D2i) tali che, combinando ciascuna delle immagini di detta seconda pluralità (Ri) con una rispettiva mappa di detta seconda pluralità di mappe (D2i), si ottenga sostanzialmente una corrispondente immagine di detta prima sequenza di ingresso (L); in cui detto flusso video codificato (CVS) comprende detta prima pluralità di immagini (Li), detta prima pluralità di mappe (D1i), detta seconda pluralità di immagini (Li) e detta seconda pluralità di mappe (D2i).
  19. 19. Metodo secondo una qualsiasi delle rivendicazioni da 16 a 18 comprendente: - individuare, in funzione della prima immagine (L1) di detta prima sequenza di ingresso (L) e della corrispondente prima mappa (D1), uno o più pixel occlusi; - determinare, in funzione di una o più immagini di detta seconda sequenza di ingresso (R), dati descrittivi di uno o più pixel di sostituzione da sostituire a detti uno o più pixel occlusi; - incorporare detti dati descrittivi in detto flusso video codificato (CVS).
  20. 20. Metodo secondo la rivendicazione 19 comprendente: - individuare determinati pixel di sostituzione che non possono essere definiti in funzione solo di un’immagine precedente e/o di un’immagine successiva a detta corrispondente immagine (R1) appartenenti detta seconda sequenza di ingresso (R); - determinare dati principali descrittivi di detti determinati pixel di sostituzione; in cui incorporare detti dati descrittivi in detto flusso video codificato (CVS) comprende, e preferibilmente consiste in, incorporare detti dati principali in detto flusso video codificato (CVS).
  21. 21. Metodo secondo la rivendicazione 19 o 20 in cui detti dati rappresentativi di pixel di sostituzione, e preferibilmente detti dati principali, comprendono vettori di movimento (motion vectors) associati a detti pixel occlusi.
  22. 22. Metodo secondo una qualsiasi delle rivendicazioni da 16 a 21 in cui predisporre detta seconda sequenza di ingresso (R) comprende: - predisporre una sequenza iniziale (R0) comprendente una pluralità di immagini (R0i) ciascuna associata ad una corrispondente immagine di detta prima sequenza di ingresso (L); - confrontare una o più immagini (R0i) di detta sequenza iniziale (R0) con le corrispondenti immagini di detta prima sequenza di ingresso (L); - generare, in funzione di ciascun confronto, una corrispondente immagine di detta seconda sequenza di ingresso (R).
  23. 23. Metodo secondo la rivendicazione 22 in cui confrontare dette una o più immagini di detta sequenza iniziale (R0) con le corrispondenti immagini di detta prima sequenza di ingresso (L) comprende: - determinare una mappa (Di) in funzione di ciascun confronto tra una di dette una o più immagini di detta sequenza iniziale (R0) e la corrispondente immagine di detta prima sequenza (L); detta corrispondente immagine di detta seconda sequenza di ingresso (R) essendo generata in funzione di una combinazione tra detta corrispondente immagine di detta prima sequenza di ingresso (L) e detta mappa (Di).
  24. 24. Metodo per la ricostruzione di un flusso video comprendente: - ricevere in ingresso un flusso video codificato (CVS) comprendente almeno una prima immagine (L1) di una prima sequenza di ingresso (L), una prima mappa (D1) associata a detta prima immagine (L1) di detta prima sequenza di ingresso (L), una seconda immagine (R2) di una seconda sequenza di ingresso (R) ed una seconda mappa (D2) associata a detta seconda immagine (R2) di detta seconda sequenza di ingresso (R); - ricostruire una prima immagine (R1) di detta seconda sequenza di ingresso (R) in funzione di detta prima immagine (L1) di detta prima sequenza di ingresso (L) e di detta prima mappa (D1), ottenendo una prima immagine ricostruita (R1’); - ricostruire una seconda immagine (L2) di detta prima sequenza di ingresso (L) in funzione di detta seconda immagine (R2) di detta seconda sequenza di ingresso (R) e di detta seconda mappa (D2), ottenendo una seconda immagine ricostruita (L2’); - predisporre in uscita un flusso video decodificato (DVS) stereoscopico comprendente una prima sequenza di uscita (L’) includente la prima immagine (L1) di detta prima sequenza di ingresso (L) e detta seconda immagine ricostruita (L2’), ed una seconda sequenza di uscita (R’) includente detta prima immagine ricostruita (R1’) e la seconda immagine (R2) di detta seconda sequenza di ingresso (R), dette prima e seconda sequenza di uscita (L’, R’) essendo rappresentative rispettivamente di una prima e di una seconda vista di detto flusso video decodificato (DVS) stereoscopico.
  25. 25. Metodo secondo la rivendicazione 24 in cui: - in detta prima sequenza di uscita (L’), la seconda immagine ricostruita (L2’) à ̈ temporalmente successiva e temporalmente adiacente alla prima immagine (L1) di detta prima sequenza di ingresso (L); - in detta seconda sequenza di uscita (R’), la seconda immagine (R2) di detta seconda sequenza di ingresso (R) à ̈ temporalmente successiva e temporalmente adiacenti a detta prima immagine ricostruita (R1’).
  26. 26. Metodo secondo la rivendicazione 24 o 25 in cui detto flusso video codificato (CVS) comprende una prima pluralità di immagini (Li) appartenenti ad una prima sequenza di ingresso (L) di immagini rappresentative di una prima vista di un flusso stereoscopico, una prima pluralità di mappe (D1i) ciascuna associata ad una rispettiva immagine di detta prima pluralità di immagini (Li), una seconda pluralità di immagini (Ri) appartenenti ad una seconda sequenza di ingresso (R) di immagini rappresentative di una seconda vista di detto flusso stereoscopico ed una seconda pluralità di mappe (D2i) ciascuna associata ad una rispettiva immagine di detta seconda pluralità di immagini (Ri), in cui detta prima pluralità di immagini (Li) comprende la prima immagine (L1) di detta prima sequenza di ingresso (L), detta prima pluralità di mappe comprende detta prima mappa (D1), detta seconda pluralità di immagini (Ri) comprende la seconda immagine (R2) di detta seconda sequenza di ingresso (R) e detta seconda pluralità di mappe (D2i) comprende detta seconda mappa (D2), in cui ciascuna immagine (Li) di detta prima pluralità à ̈ associata ad un rispettivo primo riferimento temporale (TLi), in cui ciascuna immagine (Ri) di detta seconda pluralità à ̈ associata ad un rispettivo secondo riferimento temporale (TRi), detti primi riferimenti temporali (TLi) essendo temporalmente alternati a detti secondi riferimenti temporali (TRi), detto metodo comprendendo: - ricostruire immagini di detta seconda sequenza di ingresso (R) in funzione di detta prima pluralità di immagini (Li) e di detta prima pluralità di mappe (D1i), ottenendo corrispondenti prime immagini ricostruite (R1’); - ricostruire immagini di detta prima sequenza in ingresso (L) in funzione di detta seconda pluralità di immagini (Ri) e di detta seconda pluralità di mappi (D2i), ottenendo corrispondenti seconde immagini ricostruite (L2’); detto flusso video decodificato (DVS) comprendendo: - una prima sequenza di uscita (L’) includente detta prima pluralità di immagini (Li) e dette seconde immagini ricostruite (L2’), e - una seconda sequenza di uscita (R’) includente detta seconda pluralità di immagini (Ri) e dette prime immagini ricostruite (R1’).
  27. 27. Metodo secondo una qualsiasi delle rivendicazioni da 24 a 26 comprendente: - individuare, in funzione della prima immagine (L1) di detta prima sequenza di ingresso (L) e della corrispondente prima mappa (D1), uno o più pixel occlusi rispetto alla corrispondente prima immagine (R1) di detta seconda sequenza di ingresso (R); - determinare, in funzione di una o più determinate immagini di detta seconda sequenza di ingresso (R), uno o più pixel di sostituzione da sostituire a detti uno o più pixel occlusi in detta prima immagine (R1) di detta seconda sequenza di ingresso (R).
  28. 28. Metodo secondo la rivendicazione 27 in cui dette determinate immagini appartengono a detta seconda pluralità di immagini (Ri).
  29. 29. Metodo secondo la rivendicazione 27 o 28 in cui detto flusso video codificato (CVS) comprende dati descrittivi di uno o più pixel di sostituzione, detti uno o più pixel di sostituzione essendo determinati in funzione di detti dati descrittivi, in cui detti dati descrittivi preferibilmente comprendono dati principali rappresentativi di pixel di sostituzione che non possono essere determinati in funzione solo di un’immagine precedente e/o un’immagine successiva a detta prima immagine (R1) appartenenti a detta seconda sequenza di ingresso (R).
  30. 30. Metodo secondo la rivendicazione 29 in cui detti dati rappresentativi di pixel di sostituzione, e preferibilmente detti dati principali, comprendono vettori di movimento (motion vectors) associati a detti pixel occlusi.
  31. 31. Prodotto software per la generazione di un flusso video comprendente istruzioni che, quando eseguite da un elaboratore, provocano lo svolgimento del metodo secondo una qualsiasi delle rivendicazioni da 16 a 23.
  32. 32. Prodotto software per la ricostruzione di un flusso video comprendente istruzioni che, quando eseguite da un elaboratore, provocano lo svolgimento del metodo secondo una qualsiasi delle rivendicazioni da 24 a 30.
  33. 33. Segnale elettromagnetico incorporante un flusso video codificato, detto flusso video codificato comprendendo: - almeno una prima immagine (L1) di una prima sequenza di ingresso (L), una prima mappa (D1), una seconda immagine (R2) di una seconda sequenza di ingresso (R) e una seconda mappa (D2), in cui detta prima mappa (D1) Ã ̈ realizzata in modo che, combinando la stessa con la prima immagine (L1) di detta prima sequenza di ingresso (L) si ottenga sostanzialmente una prima immagine (R1) di detta seconda sequenza di ingresso (R), in cui detta seconda mappa (D2) Ã ̈ realizzata in modo che, combinando la stessa con la seconda immagine (R2) di detta seconda sequenza di ingresso (R) si ottenga sostanzialmente una seconda immagine (L2) di detta prima sequenza di ingresso (L).
  34. 34. Segnale elettromagnetico secondo la rivendicazione 33 in cui detto flusso video codificato (CVS) comprende: - una prima pluralità di immagini (Li) di detta prima sequenza di ingresso (L) comprendente detta prima immagine (L1) di detta prima sequenza di ingresso (L), ciascuna immagine (Li) di detta prima pluralità essendo associata ad un rispettivo primo riferimento temporale (TLi); - una seconda pluralità di immagini (Ri) di detta seconda sequenza di ingresso (R) comprendente detta seconda immagine (R2) di detta seconda sequenza di ingresso (R), ciascuna immagine (Ri) di detta seconda pluralità essendo associata ad un rispettivo secondo riferimento temporale (TRi), detti primi riferimenti temporali (TLi) essendo temporalmente alternati a detti secondi riferimenti temporali (TRi); - una prima pluralità di mappe (D1i) realizzate in modo tale che, combinando ciascuna di esse con una corrispondente immagine (Li) di detta prima pluralità si ottiene sostanzialmente una immagine di detta seconda sequenza di ingresso (R) associata ad uno di detti primi riferimenti temporali (TLi); - una seconda pluralità di mappe (D2i) realizzate in modo tale che, combinando ciascuna di esse con una corrispondente immagine (Ri) di detta seconda pluralità si ottiene sostanzialmente una immagine di detta prima sequenza di ingresso (L) associata ad uno di detti secondi riferimenti temporali (TRi).
  35. 35. Segnale elettromagnetico secondo la rivendicazione 33 o 34 comprendente inoltre dati descrittivi di uno o più pixel di sostituzione per una sostituzione di corrispondenti uno o più pixel occlusi per la ricostruzione di detta prima immagine (R1) di detto seconda sequenza di ingresso (R) in funzione della prima immagine (L1) di detta prima sequenza di ingresso (L) e di detta prima mappa (D1). ***********
IT001073A 2012-12-13 2012-12-13 Apparato e metodo per la generazione e la ricostruzione di un flusso video ITTO20121073A1 (it)

Priority Applications (7)

Application Number Priority Date Filing Date Title
IT001073A ITTO20121073A1 (it) 2012-12-13 2012-12-13 Apparato e metodo per la generazione e la ricostruzione di un flusso video
EP13824382.9A EP2932711B1 (en) 2012-12-13 2013-12-12 Apparatus and method for generating and rebuilding a video stream
US14/648,200 US20150312547A1 (en) 2012-12-13 2013-12-12 Apparatus and method for generating and rebuilding a video stream
PCT/IB2013/060856 WO2014091445A1 (en) 2012-12-13 2013-12-12 Apparatus and method for generating and rebuilding a video stream
KR1020157018185A KR20150095765A (ko) 2012-12-13 2013-12-12 비디오 스트림을 생성 및 재조직하기 위한 장치 및 방법
CN201380064990.9A CN104838648B (zh) 2012-12-13 2013-12-12 用于创建和重建视频流的装置和方法
TW102146300A TWI539790B (zh) 2012-12-13 2013-12-13 用於產生及重建一視訊串流之裝置、方法與軟體產品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT001073A ITTO20121073A1 (it) 2012-12-13 2012-12-13 Apparato e metodo per la generazione e la ricostruzione di un flusso video

Publications (1)

Publication Number Publication Date
ITTO20121073A1 true ITTO20121073A1 (it) 2014-06-14

Family

ID=47683945

Family Applications (1)

Application Number Title Priority Date Filing Date
IT001073A ITTO20121073A1 (it) 2012-12-13 2012-12-13 Apparato e metodo per la generazione e la ricostruzione di un flusso video

Country Status (7)

Country Link
US (1) US20150312547A1 (it)
EP (1) EP2932711B1 (it)
KR (1) KR20150095765A (it)
CN (1) CN104838648B (it)
IT (1) ITTO20121073A1 (it)
TW (1) TWI539790B (it)
WO (1) WO2014091445A1 (it)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN2013CH05313A (it) * 2013-11-18 2015-05-29 Nokia Corp
US10194163B2 (en) 2014-05-22 2019-01-29 Brain Corporation Apparatus and methods for real time estimation of differential motion in live video
US9713982B2 (en) 2014-05-22 2017-07-25 Brain Corporation Apparatus and methods for robotic operation using video imagery
US9939253B2 (en) * 2014-05-22 2018-04-10 Brain Corporation Apparatus and methods for distance estimation using multiple image sensors
US10057593B2 (en) * 2014-07-08 2018-08-21 Brain Corporation Apparatus and methods for distance estimation using stereo imagery
US10055850B2 (en) 2014-09-19 2018-08-21 Brain Corporation Salient features tracking apparatus and methods using visual initialization
US10362290B2 (en) 2015-02-17 2019-07-23 Nextvr Inc. Methods and apparatus for processing content based on viewing information and/or communicating content
KR102493754B1 (ko) 2015-02-17 2023-02-01 네버마인드 캐피탈 엘엘씨 감축된 해상도 이미지들을 생성 및 이용하고 및/또는 재생 또는 컨텐트 분배 디바이스에 이러한 이미지들을 통신하기 위한 방법들 및 장치
US10197664B2 (en) 2015-07-20 2019-02-05 Brain Corporation Apparatus and methods for detection of objects using broadband signals
EP3857517A4 (en) * 2018-09-27 2022-06-29 Snap Inc. Three dimensional scene inpainting using stereo extraction

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006137000A1 (en) * 2005-06-23 2006-12-28 Koninklijke Philips Electronics N.V. Combined exchange of image and related data
WO2010010077A2 (en) * 2008-07-21 2010-01-28 Thomson Licensing Coding device for 3d video signals
WO2010037512A1 (en) * 2008-10-02 2010-04-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Intermediate view synthesis and multi-view data signal extraction
US20120293504A1 (en) * 2011-05-19 2012-11-22 Electronics And Telecommunications Research Institute System and method for transmitting three-dimensional image information using difference information

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007047736A2 (en) * 2005-10-19 2007-04-26 Thomson Licensing Multi-view video coding using scalable video coding
WO2007063465A2 (en) * 2005-11-30 2007-06-07 Nxp B.V. Motion vector field correction
KR101484487B1 (ko) * 2007-10-11 2015-01-28 코닌클리케 필립스 엔.브이. 깊이-맵을 프로세싱하는 방법 및 디바이스
WO2011078883A1 (en) * 2009-12-24 2011-06-30 Trumbull Ventures Llc Method and apparatus for photographing and projecting moving images in three dimensions
WO2011080907A1 (ja) * 2009-12-28 2011-07-07 パナソニック株式会社 表示装置と方法、記録媒体、送信装置と方法、及び再生装置と方法
GB2478156A (en) * 2010-02-26 2011-08-31 Sony Corp Method and apparatus for generating a disparity map for stereoscopic images

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006137000A1 (en) * 2005-06-23 2006-12-28 Koninklijke Philips Electronics N.V. Combined exchange of image and related data
WO2010010077A2 (en) * 2008-07-21 2010-01-28 Thomson Licensing Coding device for 3d video signals
WO2010037512A1 (en) * 2008-10-02 2010-04-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Intermediate view synthesis and multi-view data signal extraction
US20120293504A1 (en) * 2011-05-19 2012-11-22 Electronics And Telecommunications Research Institute System and method for transmitting three-dimensional image information using difference information

Also Published As

Publication number Publication date
EP2932711B1 (en) 2017-02-08
TW201440484A (zh) 2014-10-16
US20150312547A1 (en) 2015-10-29
CN104838648B (zh) 2017-06-13
TWI539790B (zh) 2016-06-21
KR20150095765A (ko) 2015-08-21
EP2932711A1 (en) 2015-10-21
CN104838648A (zh) 2015-08-12
WO2014091445A1 (en) 2014-06-19

Similar Documents

Publication Publication Date Title
ITTO20121073A1 (it) Apparato e metodo per la generazione e la ricostruzione di un flusso video
US11044454B2 (en) Systems and methods for multi-layered frame compatible video delivery
JP6633694B2 (ja) 多視点信号コーデック
KR100523052B1 (ko) 다중 디스플레이 방식을 지원하는 다시점 동영상의 객체 기반 부호화 장치 및 그 방법과 그를 이용한 객체 기반 송수신 시스템 및 그 방법
US8270482B2 (en) Method and apparatus for encoding and decoding multi-view video to provide uniform picture quality
US9961347B2 (en) Method and apparatus for bi-prediction of illumination compensation
US20090190662A1 (en) Method and apparatus for encoding and decoding multiview video
KR100375708B1 (ko) 3차원 입체영상을 위한 다시점 비디오 시스템 및영상제조방법
US20070041443A1 (en) Method and apparatus for encoding multiview video
US9615078B2 (en) Multi-view video encoding/decoding apparatus and method
EP1982518A1 (en) Processing multiview video
US20100002764A1 (en) Method For Encoding An Extended-Channel Video Data Subset Of A Stereoscopic Video Data Set, And A Stereo Video Encoding Apparatus For Implementing The Same
JP2015525997A5 (it)
JP2015525997A (ja) 3dビデオ符号化におけるビュー間候補導出の方法と装置
EP1917814A1 (en) Method and apparatus for encoding multiview video
KR100704938B1 (ko) 스테레오스코픽 영상의 부호화/복호화 방법 및 장치
WO2013146636A1 (ja) 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法およびプログラム
KR101856104B1 (ko) 영상 제공 장치 및 방법, 그리고 영상 재생 장치 및 방법
Senoh et al. Simple multi-view coding with depth map
US20140301455A1 (en) Encoding/decoding device and method using virtual view synthesis and prediction
KR20120084628A (ko) 다시점 영상 부호화/복호화 장치 및 방법
Maiti et al. Smart 3D video coding
Tehrani et al. Synthesis Error COmpeNsateD Multiview Video plus Depth for representation of multiview video
Anantrasirichai et al. Multi-View Image Coding with Wavelet Lifting Scheme.
Ye et al. New approach to stereo video coding for auto-stereo display system