-
Die
vorliegende Erfindung bezieht sich auf Coder und/oder Decoder (Codecs)
für Videosignale und insbesondere auf ein Konzept zur Reduktion
einer Verzögerungszeit bis zu einer Wiedergabe eines Inhalts
eines decodierten Videosignals nach einem Kanalwechsel bzw. nach
einem Einschalten eines Wiedergabegeräts.
-
Videokompressionsstandards,
wie beispielsweise MPEG-1, MPEG-2, MPEG-4, H.263 und H.264, verwenden
zwei Arten von codierten Videobildern. Zum einen werden unabhängig
bzw. in sich abgeschlossene codierte Bilder bzw. Frames, so genannte
intra-codierte Frames oder I-Frames, verwendet und zum anderen werden
prädiktiv codierte Bilder bzw. Frames, so genannte inter-codierte
Frames oder P-Frames, verwendet. P-Frames benötigen jeweils
Daten von anderen, wie z. B. vorhergehend codierten, Frames für
eine korrekte Decodierung, da diese Daten zur Prädiktion
des aktuellen Frames herangezogen werden, so dass für das
aktuelle Frame lediglich der Prädiktionsfehler kodiert
werden muss. I-Frames können hingegen unabhängig
von vorhergehenden Frames decodiert werden, allerdings benötigen
sie eine um Einiges höhere Datenmenge als P-Frames.
-
Bei
der Decodierung eines codierten Videosignals decodiert ein Decoder
also zuerst einen I-Frame, woraufhin der Decoder die auf den I-Frame
folgenden und davon abhängigen P-Frames decodieren kann.
-
Für
eine Übertragung eines codierten Videosignals ist zum einen
eine geringe Anzahl von I-Frames wünschenswert. Auf der
anderen Seite werden die I-Frames für einen so genannten
Random Access (wahlfreien Zugriff) benötigt. Das heißt, es
soll möglich sein, mit einer Decodierung des codierten
Videosignals bzw. Video-Bitstroms irgendwo inmitten des Video-Bitstroms
zu beginnen. Ferner kann aufgrund eines Übertragungsfehlers
ein erneutes Einsynchronisieren in den codierten Datenstrom erforderlich sein,
wozu auf das nächste I-Frame gewartet werden muss. Es sei
darauf hingewiesen, dass in dem Videokompressionsstandard H.264
zwischen IDR-(IDR = Instantaneous Decoder Refresh) und I-Frames
unterschieden wird. Wahlfreier Zugriff wird dabei durch IDR-Frames
ermöglicht. Trotzdem wird im Folgenden der Übersichtlichkeit
halber der Begriff I-Frame verwendet.
-
Typischerweise
wird ein Videosignal in so genannte GoPs (GoP = Group of Pictures)
aufgeteilt, wobei eine GoP einen führenden I-Frame und
darauf folgende P-Frames bis zum nächsten I-Frame umfasst,
wobei der nächste I-Frame dann der erste Frame der nächsten
GoP ist. Mit einer Decodierung kann mit Empfang eines I-Frames zu
Beginn einer jeden GoP begonnen werden und sämtliche Bilder
einer GoP können unabhängig von vorhergehenden
GoPs decodiert werden.
-
Bei
einem Rundfunk von Videosignalen auf verschiedenen Rundfunkkanälen
kann ein Nutzer zu jeder beliebigen Zeit auf einen beliebigen Kanal schalten.
Um die Verzögerungszeit bis zur Wiedergabe der auf dem
Kanal ersten vollständig empfangenen GoP kurz zu halten,
sollten I-Frames in relativ kurzen zeitlichen Abständen
in dem Videosignal aufeinander folgen, d. h. eine kurze GoP-Länge
ist wünschenswert. DVB (DVB = Digital Video Broadcasting) verwendet
beispielsweise einen I-Frame jede halbe Sekunde. Je länger
ein zeitlicher Wiederholabstand zwischen zwei aufeinander folgenden
I-Frames ist, desto länger muss der Benutzer nach einen
Kanalwechsel bis zu einer Wiedergabe des decodierten Videosignals
warten.
-
Bei
immer mehr Anwendungen ist es vorteilhaft, wenn beispielsweise per
Rundfunk ausgestrahlte Videosignale mit Geräten unterschiedlicher
Leistungsfähigkeit decodiert werden können. Gerade
bei Rundfunkszenarien ist es denkbar, dass es Nutzer mit Geräten
mit vergleichsweise geringer Leistungsfähigkeit gibt, wie
beispielsweise PDAs (PDA = Personal Digital Assistant) oder Mobiltelefone,
und Konsumenten mit beispielsweise stationären Endgeräten mit
einer vergleichsweise hohen Leistungsfähigkeit. In einem
solchen Szenario ist eine schnelle Adaption einer übertragenen
Videosignal-Bitrate an sehr unterschiedlichen Übertragungsbandbreiten
vorteilhaft.
-
Eine
Decodierung unterschiedlicher Qualitätsniveaus von ein
und demselben Videosignal wird durch eine skalierbare Videocodierung
(SVC = Scalable Video Coding) ermöglicht. Dabei werden
im einfachsten Fall ein Basissignal in einer Basisschicht (Base
Layer) und ein verbessertes Signal in einer Verbesserungsschicht
(Enhancement Layer) codiert. Senderseitig wird beispielsweise also
nur ein einziger Bitstrom generiert, aus dem jedoch Bildsequenzen geringerer
Qualität im Hinblick auf beispielsweise Bitgenauigkeit,
räumlicher Auflösung oder zeitlicher Auflösung
bzw. Bildwiederholrate decodiert werden können. Bei SVC
können Redundanzen zwischen den verschiedenen Schichten
durch zusätzliche Zwischenschichtprädiktionskonzepte
ausgenutzt werden, die beispielsweise Prädiktionsmechanismen
für Bewegungsparameter und Texturdaten aufweisen. Damit
kann beispielsweise ein Empfänger für Videostreaming-Applikationen
entscheiden, welche Auflösungsqualität er empfangen
möchte. Im Falle variierender Terminaleigenschaften decodiert
ein Empfänger nur den relevanten Teil des Videosignals,
der für ihn darstellbar ist. Im Bereich mobiler Applikationen mit
zeitlich stark schwankenden Kanaleigenschaften ergibt sich die Möglichkeit
einer sehr schnellen Adaption.
-
Bei
SVC kann grundsätzlich zwischen SNR-(Signal to Noise Ratio), örtlicher
und zeitlicher Skalierbarkeit unterschieden werden. Allen Skalierverfahren
ist gemeinsam, dass durch Variation bestimmter Parameter die gleiche
Bildse quenz bei verschiedenen Bitraten codiert wird. Im Fall der SNR-Skalierung
werden beispielsweise durch Variation einer Quantisierung unterschiedliche
Qualitätsstufen und Bitraten erzielt. Örtliche
Skalierbarkeit beschreibt Verfahren, die eine Bildsequenz mit unterschiedlichen
Ortsauflösungen, d. h. Bildgrößen bzw. Anzahl
von Pixeln pro Bild, codieren. Bei zeitlicher Skalierbarkeit werden
Bildsequenzen mit unterschiedlichen Bildfrequenzen zur Verfügung
gestellt. Es sei darauf hingewiesen, dass durchaus beliebige Kombinationen
der drei Arten möglich sind.
-
Neben
SVC existiert ein weiterer Ansatz, das so genannte Simulcasting,
wobei eine Mehrzahl von Bitströmen mit unterschiedlich
parametrisierten parallelen und unabhängig voneinander
arbeitenden Codecs generiert wird.
-
SVC
hat, verglichen mit Simulcasting, eine bessere Codiereffizienz,
d. h. eine Gesamtbitrate des gesamten SVC-Datenstroms aus Basisschicht
und Verbesserungsschicht(en) ist geringer als eine Summe der Einzelbitraten
von Simulcast-Bitströmen, wenn beide Alternativen die gleiche
Qualität liefern.
-
Zur
Reduktion von Wiedergabeverzögerungen nach einem Kanalwechsel
wurden bereits einige Möglichkeiten gezeigt. Die
WO 2004/114667 beschreibt
ein Simulcast-Verfahren mit einem mit geringer Bitrate encodierten
Videosignal mit einem geringeren zeitlichen Wiederholabstand von
intra-codierten Bildern (I-Frames), als ein mit einer höheren
Bitrate codierten Videostrom. Ein Nachteil dieses Ansatzes besteht
in der zusätzlichen Bitrate für den Bitstrom mit
der geringeren Qualität. Des Weiteren werden empfängerseitig
zwei Decoder benötigt, falls der Übergang von
der niedrigen Qualitätsstufe zu der höheren, oder
umgekehrt nahtlos erfolgen soll.
-
Die
Veröffentlichung
EP
1523190 A1 beschreibt ein Verfahren für einen
schnellen Kanalwechsel, wobei Teile einer Video sequenz in einem Server
gespeichert werden. Beispielsweise wird ein zuletzt übertragener
I-Frame in dem Server gespeichert. Wechselt ein Benutzer den Kanal,
so sendet der Server den zu dem neuen Kanal gespeicherten zuletzt übertragenen
I-Frame und übermittelt danach den aktuellen I-Frame. Ein
Nachteil dieser Vorgehensweise besteht in einer erhöhten
Komplexität des Gesamtsystems durch zusätzliche
Server. Außerdem ist es nur für Systeme mit einem
Rückkanal von Benutzer zu Server anwendbar.
-
Wünschenswert
wäre hingegen ein Konzept zur Ermöglichung eines
schnellen Kanalwechsels, d. h. eines Kanalwechsels mit geringer
Bildwiedergabeverzögerungszeit nach dem Kanalwechsel auf
Basis von skalierbarer Videocodierung.
-
Die
Aufgabe der vorliegenden Erfindung besteht somit darin, ein verbessertes
Konzept für einen schnellen Kanalwechsel unter Verwendung
von skalierbarer Videocodierung bereitzustellen.
-
Diese
Aufgabe wird durch ein qualitätsskalierbares Videosignal
gemäß Patentanspruch 1, einen Codierer mit den
Merkmalen des Patentanspruchs 8, einem Decodierer gemäß Patentanspruch 14
und ein Verfahren gemäß Patentanspruch 15 gelöst.
-
Der
vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass zur Ermöglichung
eines schnellen Kanalwechsels ein Videosignal derart skalierbar
codiert werden kann, dass ein qualitativ niedriges Basissignal einer
Basisschicht einen kurzen zeitlichen Wiederholabstand von intra-codierten
Bildern bzw. I-Frames aufweist, wohingegen der zeitliche Wiederholabstand
von intra-codierten Bildern bzw. I-Frames eines qualitativ besseren
Verbesserungssignals einer Verbesserungsschicht größer
ist als der zeitliche Wiederholabstand der I-Frames der Basisschicht. P-Frames
der qualitativ höherwertigeren Verbesserungsschicht sind
abhängig von der Basisschicht und von vorhergehenden Bildern
der Verbes serungsschicht. Nur zu bestimmten Zeitpunkten, mit einem zeitlichen
Abstand größer als der zeitliche Abstand zwischen
zwei intra-codierten Bildern der Basisschicht, ist die Verbesserungsschicht
ausschließlich abhängig von der Basisschicht.
-
Ausführungsbeispiele
der vorliegenden Erfindung ermöglichen einen schnellen
Kanalwechsel zwischen verschiedenen Kanälen komprimierter
Videosignale. Dazu werden in der Basisschicht eines skalierbar codierten
Videosignals I-Frames mit einem geringen zeitlichen Abstand zueinander
eingefügt. Gemäß Ausführungsbeispielen
ist der zeitliche Abstand zweier aufeinander folgender I-Frames
in dem Basissignal der Basisschicht kleiner als 0,5 Sekunden und
bevorzugt kleiner als 0,2 Sekunden. Zwischen zwei I-Frames des Basissignals
werden in der Basisschicht P-Bilder durch prädiktive Codierung
eingefügt. Das Basissignal der Basisschicht kann decodierseitig
aus sich alleine heraus decodiert werden, d. h. es sind keine weiteren
Seiteninformationen zur Decodierung des Basissignals nötig.
-
Die
qualitativ höherwertigere Verbesserungsschicht wird coderseitig
basierend auf einem ursprünglichen zu codierenden unkomprimierten
Videosignal und basierend auf von der Basisschicht bereitgestellten
Seiteninformationen codiert. Dabei werden redundante Bildinformationen
zwischen der qualitativ niedrigen Basisschicht und der der qualitativ höheren
Verbesserungsschicht in dem Verbesserungssignal nicht noch einmal
codiert, sondern lediglich Differenzinformationen zwischen den Schichten. Um
decoderseitig das qualitativ höherwertigere Verbesserungssignal
der Verbesserungsschicht decodieren zu können, ist es notwendig,
vorher das Basissignal zu decodieren, um die zur Decodierung des Verbesserungssignals
notwendigen Seiteninformationen aus dem Basissignal zu erhalten.
Gemäß Ausführungsbeispielen werden I-Frames
in der Verbesserungsschicht mit einer geringeren Frequenz als in der
Basisschicht codiert.
-
Bei
einem Wechsel zwischen zwei Videokanälen kann das decodierte
Videosignal des neuen Kanals wiedergegeben werden, sobald ein I-Frame des
Basissignals empfangen und decodiert wird. Dabei wird bis zum Empfang
eines I-Frames des Verbesserungssignals das decodierte Videosignal
lediglich mit der Bildqualität der Basisschicht wiedergegeben.
Da ein Abstand zwischen dem I-Frame des Basissignals und dem darauf
folgenden I-Frame des Verbesserungssignals in der Regel klein ist
und das menschliche visuelle Wahrnehmungssystem eine gewisse Zeit
benötigt, um sich auf ein neues Bild einzustellen, ist
die Wiedergabe des Videosignals mit der geringeren Qualität
des Basissignals für die kurze Zeit bis zum Empfangen des
I-Frames des Verbesserungssignals kaum wahrnehmbar. Sobald nach
dem Kanalwechsel der erste I-Frame des Verbesserungssignals empfangen
wird, kann die Wiedergabe mit verbesserter Qualität erfolgen.
-
Ein
Vorteil der vorliegenden Erfindung besteht darin, dass ein schneller
Kanalwechsel mit effizient skalierbar codierten Videosignalen ermöglicht wird.
Empfängerseitig wird dazu lediglich ein Decodierer für
skalierbar codierte Videosignale benötigt.
-
Aufgrund
der skalierbaren Codierung ist ein qualitätsmäßig
sanfter Übergang von der Basisschicht zu der Verbesserungsschicht
möglich.
-
Bevorzugte
Ausführungsbeispiele der vorliegenden Erfindung werden
nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen näher
erläutert. Es zeigen:
-
1 eine
Darstellung zur Erläuterung von Prädiktionsabhängigkeiten
zwischen einzelnen Bildern eines Basissignals und eines Verbesserungssignals
gemäß Ausführungsbeispielen der vorliegenden
Erfindung;
-
2 eine
prinzipielle Darstellung von GoPs der Basis- und Verbesserungsschicht
gemäß Ausführungsbeispielen der vorliegenden
Erfindung;
-
3 eine
prinzipielle Darstellung einer Bildwiedergabequalität nach
einem Kanalwechsel gemäß Ausführungsbeispielen
der vorliegenden Erfindung;
-
4 ein
schematisches Blockdiagramm eines Codierers zum qualitätsskalierbaren
Codieren gemäß einem ersten Ausführungsbeispiel
der vorliegenden Erfindung;
-
5 ein
zu dem in 4 dargestellten Codierer passenden
Decodierer gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung;
-
6 ein
schematisches Blockdiagramm eines Codierers zum qualitätsskalierbaren
Codieren gemäß einem weiteren Ausführungsbeispiel
der vorliegenden Erfindung; und
-
7 ein
Decodierer passend zu dem in 6 gezeigten
Codierer gemäß einem weiteren Ausführungsbeispiel
der vorliegenden Erfindung.
-
Bezüglich
der nachfolgenden Beschreibung sollte beachtet werden, dass bei
den unterschiedlichen Ausführungsbeispielen gleich oder
gleichwirkende Funktionselemente gleiche Bezugszeichen aufweisen
und somit die Beschreibungen dieser Funktionselemente in verschiedenen
im Nachfolgenden dargestellten Ausführungsbeispielen untereinander
austauschbar sind.
-
1 zeigt
schematisch einen Ausschnitt eines qualitätsskalierbaren
Videosignals 100 mit einem unter Verwendung zeitlicher
Prädiktion codierten Basissignal 102 und einem unter
Verwendung zeitlicher Prädiktion codierten Verbesserungssignal 104.
-
Das
Basissignal weist intra-codierte Bilder bzw. I-Frames 106 und
prädiktiv codierte Bilder bzw. P-Frames 108 auf.
-
Das
Verbesserungssignal 104 weist ebenso intra-codierte Bilder
bzw. I-Frames 110 und prädiktiv codierte Bilder
bzw. P-Frames 112 auf.
-
Eine
Folge aus einem I-Frame 106, 110 und den bis zum
nächsten I-Frame folgenden P-Frames 108, 112 bezeichnet
man, wie im Vorhergehenden bereits beschrieben wurde, im Allgemeinen
als GoP. Das Basissignal 102 weist eine zeitliche und/oder örtliche
und/oder SNR-mäßige Basisqualität auf.
Das heißt, eine Bildgröße und/oder Bildwiederholrate
ist in dem Basissignal 102 geringer als in dem Verbesserungssignal 104.
Des Weiteren kann eine Quantisierung von Transformationskoeffizienten
im Basissignal 102 gröber sein, d. h. weniger
Bits aufweisen, als im Verbesserungssignal 104.
-
Die
I-Frames 106 des Basissignals, 102 weisen einen
ersten zeitlichen Wiederholabstand T1 auf. Gemäß Ausführungsbeispielen
weisen die I-Frames 110 des Verbesserungssignals 104,
aus dem in Kombination mit dem Basissignal 102 das qualitätsskalierbare
Signal mit einer verbesserten Qualität rekonstruierbar
ist, einen zweiten zeitlichen Wiederholabstand T2 auf.
Dabei ist bei Ausführungsbeispielen der vorliegenden Erfindung
der erste zeitliche Wiederholabstand T1 kleiner
als der zweite zeitliche Wiederholabstand T2.
Gemäß einem Ausführungsbeispiel der vorliegenden
Erfindung ist der erste zeitliche Wiederholabstand T1 kleiner
als 0,5 s und bevorzugt kleiner als 0,2 s, wobei das Verhältnis
T2/T1 gemäß Ausführungsbeispielen
größer oder gleich zwei ist.
-
Durch
die in 1 eingezeichneten Pfeile 114 sind Prädiktionsabhängigkeiten
zwischen einzelnen Bildern des Basissignals 102 und Bildern
des Verbesserungssignals 104 dargestellt. Fallen zeitlich zwei
I-Frames 106, 110 des Basissignals und des Verbesserungssignals
aufeinander, so ist der I-Frame 110 des Verbesserungssignals 104 in
diesem Zeitpunkt ausschließlich abhängig von dem
I-Frame 106 des Basissignals 102. Ein auf den
I-Frame 106 folgender P-Frame 108 des Basissignals 102 ist
von dem vorhergehenden I-Frame 106 abhängig. Ein
auf einem P-Frame 108 folgender weiterer P-Frame 108 ist
von dem vorhergehenden P-Frame abhängig. P-Frames der Basisschicht
bzw. des Basissignals 102 sind also jeweils von dem vorhergehenden
Bild bzw. Frame abhängig. Ein auf einen P-Frame 108 folgender
I-Frame 106 ist von dem vorhergehenden P-Frame 108 unabhängig.
-
In
der Verbesserungsschicht bzw. bei dem Verbesserungssignal 104 weisen
sämtliche Bilder bzw. Frames eine Abhängigkeit
von dem Basissignal 102 auf. I-Frames 110 des
Verbesserungssignals 104 sind dabei nur abhängig
von einem zeitlich entsprechenden Frame (I-Frame 106 oder
P-Frame 108) des Basissignals 102, und P-Frames 112 des Verbesserungssignals 104 sind
sowohl abhängig von dem jeweils vorausgehenden Bild des
Verbesserungssignals 104 als auch von dem zeitlich korrespondierenden
Bild des Basissignals 102. Zur Codierung bzw. Decodierung
des Verbesserungssignals 104 basierend auf dem Basissignal 102 werden
Redundanzen zwischen dem qualitativ niederwertigen Basissignal 102 und
dem qualitativ höherwertigeren Verbesserungssignal 104 ausgenutzt.
Daher sind in dem Verbesserungssignal 104 quasi nur Differenzen zwischen
Basissignal 102 und verbessertem Signal 104 codiert.
-
Aus 1 ist
zu erkennen, dass die zeitliche Wiederholrate 1/T1 von
I-Frames 106 des Basissignals 102 größer
ist als die Wiederholrate 1/T2 von I-Frames 110 des
Verbesserungssignals 104. Dieser Sachverhalt ist zum besseren
Verständnis noch einmal in 2 gezeigt.
-
2 zeigt
ein qualitätsskalierbares Informationssignal 100 gemäß einem
Ausführungsbeispiel der vorliegenden Erfindung.
-
Das
qualitätsskalierbare Informationssignal 100 weist
ein Basissignal 102 mit I-Frames 106 und P-Frames 108 auf,
wobei die I-Frames 106 einen ersten zeitlichen Wiederholabstand
T1 aufweisen. In dem in 2 gezeigten
Beispiel bilden jeweils ein I-Frame 106 und drei darauf
folgende P-Frames 108 eine GoP 202 des Basissignals 102.
Das Verbesserungssignal 104 weist I-Frames 110 und
P-Frames 112 mit einer gegenüber dem Basissignal
verbesserten Qualität auf. Zwei aufeinander folgende I-Frames 110 haben
einen zweiten zeitlichen Wiederholabstand T2.
In dem in 2 gezeigten Beispiel weist eine GoP 204 des
Verbesserungssignals jeweils einen I-Frame 110 und elf
darauf folgende P-Frames 112 auf. Eine GoP-Länge
der Basisschicht 102 beträgt vier Frames, wohingegen
die GoP-Länge in der Verbesserungsschicht 104 zwölf
Frames beträgt. In anderen Worten ausgedrückt
ist in dem in 2 gezeigten Beispiel jeder vierte
Frame des Basissignals 102 ein I-Frame 106, wohingegen
nur jeder zwölfte Frame des Verbesserungssignals 104 ein
I-Frame 110 ist. Das heißt, der erste zeitliche
Wiederholabstand T1 ist in dem vorliegenden
Beispiel um den Faktor 3 kleiner als der zweite zeitliche Wiederholabstand
T2.
-
Gemäß Ausführungsbeispielen
der vorliegenden Erfindung ist der erste zeitliche Wiederholabstand
T1 kleiner als 0,5 Sekunden und bevorzugt
kleiner als 0,2 Sekunden, um einen schnellen Programm- bzw. Kanalwechsel
zu ermöglichen. Beispielsweise kann der erste zeitliche
Wiederholabstand T1 weniger oder gleich
der Hälfte des zweiten zeitlichen Wiederholabstands T2 betragen.
-
Ein
Empfänger, der das in 2 beispielhaft gezeigte
skalierbare Videosignal 100 empfängt, kann das
Videosignal 100 decodieren und wiedergeben, sobald ein
I-Frame 106 des Basissignals 102 empfangen wird.
Dieser Zusammenhang wird im Nachfolgenden anhand von 3 detaillierter
erläutert.
-
Angenommen,
ein Empfänger vollzieht einen Kanalwechsel zum Zeitpunkt
Tchange und empfängt somit den
skalierbaren Video-Stream 100 ab dem Zeitpunkt Tchange. Bis zum Empfang des nächsten
I-Frames 106 des Basissignals 102 ab dem Zeitpunkt Tchange werden die mit Bezugszeichen 1308 gekennzeichneten
P-Frames des Basissignals 102 und empfangene P-Frames 112 des
Verbesserungssignals 104 vom Decoder nicht betrachtet.
Ab dem Zeitpunkt Tdisp,1, zu dem der dem
Kanalwechselzeitpunkt Tchange am nächsten
liegende I-Frame 106 des Basissignals 102 empfangen
wird, kann die Basisschicht bzw. das Basissignal 102 des
Videosignals 100 decodiert und mit der entsprechenden Basisqualität
wiedergegeben werden. Eine Wiedergabe des Videosignals 100 mit
voller Qualität ist zum Zeitpunkt Tdisp,1 noch
nicht möglich, da ein zur Decodierung der Verbesserungsschicht
bzw. des Verbesserungssignals 104 notweniges I-Frame 110 seit
dem Kanalwechsel zum Zeitpunkt Tchange nicht
empfangen wurde. Erst zu einem Zeitpunkt Tdisp,2,
bei dem zusätzlich zu dem I-Frame 106 des Basissignals 102 ein
I-Frame 110 des Verbesserungssignals 104 empfangen wird,
ist eine Wiedergabe des Videosignals 100 in voller Wiedergabequalität
möglich. Im Allgemeinen wird der Zeitraum (Tdisp,2–Tdisp,1) klein sein, so dass einem Betrachter
die Wiedergabe des Videosignals 100 mit Basisqualität
in diesem kurzen Zeitraum kaum auffällt.
-
Wie
im Vorhergehenden bereits erläutert wurde, ist zur Wiedergabe
des Videosignals 100 mit verbesserter Qualität
stets die Decodierung des Basissignals 102 notwendig. In
dem Verbesserungssignal 104 sind Informationen codiert,
um von dem Basissignal 102 mit Basisqualität zu
der verbesserten Qualität zu gelangen.
-
Obwohl
in den im Vorhergehenden beschriebenen 1–3 in
der Basisschicht 102 zwischen den I-Frames 106 P-Frames 108 gezeigt
waren, soll an dieser Stelle darauf hingewiesen werden, dass das
Basissignal 102 gemäß Ausführungsbeispielen
auch ausschließlich I-Frames 106 aufweisen kann.
Dies könnte beispielsweise dann der Fall sein, wenn sehr
hohe Kanalwechselgeschwindigkeiten gefordert sind.
-
Nachdem
im Vorhergehenden anhand der 1–3 der
prinzipielle Aufbau eines skalierbaren Videosignals gemäß Ausführungsbeispiel
der vorliegenden Erfindung näher beschrieben wurde, sollen
im Nachfolgenden anhand der 4–7 Encoder
und Decoder zur Codierung und Decodierung von skalierbaren Informations-
bzw. Videosignalen näher erläutert werden.
-
4 zeigt
eine schematische Darstellung eines Codierers 400 zum Codieren
eines skalierbaren Videosignals 100.
-
Der
Codierer 400 weist einen Einrichtung 410 zum Codieren
eines Basissignals 102 mit einer Basisqualität
auf, wobei aus dem Basissignal allein heraus das qualitätsskalierbare
Informationssignal 100 mit einer Basisqualität
rekonstruierbar ist. Dabei weist das Basissignal 102 einen
ersten zeitlichen Wiederholabstand T1 von
intra-codierten Bildern bzw. I-Frames auf. Ferner umfasst der Codierer 400 eine Einrichtung 420 zum
Codieren eines Verbesserungssignals 104, aus dem in Kombination
mit dem Basissignal 102 das skalierbare Signal 100 mit
einer verbesserten Qualität rekonstruierbar ist. Das Verbesserungssignals 104 weist
einen zweiten zeitlichen Wiederholabstand T2 von
intracodierten Bildern bzw. I-Frames auf, wobei der erste zeitliche
Wiederholabstand T1 zu dem zweiten zeitlichen
Wiederholabstand T2 unterschiedlich, insbesondere
kleiner ist.
-
Gemäß einem
Ausführungsbeispiel weist der Codierer 400 ferner
eine Einrichtung 430 zum Herunterskalieren eines Codierereingangssignals 440 auf. Gemäß Ausführungsbeispielen
kann es sich bei der Einrichtung 430 zum Herunterskalieren
um eine Einrichtung zum örtlichen Herunterskalieren von
Bildinformationen des Videoeingangssignals 440 handeln.
-
Dabei
meint örtliches Herunterskalieren eine Verringerung der
Bildauflösung. Beispielsweise kann eine CIF-Auflösung
von 352×288 Pixeln auf eine QCIF-Auflösung von
176×144 Pixeln reduziert werden.
-
Gemäß weiteren
Ausführungsbeispielen kann es sich bei der Einrichtung 430 um
eine Einrichtung zum zeitlichen Herunterskalieren handeln. Dabei
bedeutet eine zeitliche Herunterskalierung eine Verringerung der
Bildwiederholfrequenz von beispielsweise 30 fps (fps = frames per
second) auf 15 fps.
-
Die
Einrichtung 410 codiert das herunterskalierte Eingangssignal 440 beispielsweise
konform zu einem der eingangs genannten Videokompressionsstandards,
woraufhin am Ausgang der Einrichtung 410 das codierte Basissignal 102 mit
der Basisqualität anliegt.
-
Aus
dem Eingangssignal 440 und zusätzlichen Zwischenschicht-
bzw. Seiteninformationen 450, welche von der Einrichtung 410 bereitgestellt werden,
wird das Verbesserungssignal 104 codiert. Bei den Zwischenschichtinformationen 450 kann
es sich beispielsweise um Prädiktionsinformationen, insbesondere
Intra-Bild-Prädiktionsinformationen, Bewegungs-Prädiktionsinformationen
oder sonstige verbleibende Informationen (Residual Information) handeln.
-
Ein
Multiplexer 460 multiplext das Basissignal 102 mit
dem Verbesserungssignal 104 vor einer gemeinsamen Übertragung
zu dem skalierbaren Videosignal 100.
-
5 zeigt
einen Decodierer 500 zum Rekonstruieren eines mit einem
Codierer 400 gemäß 4 codierten
skalierbaren Videosignals 100, das ein unter Verwendung
zeitlicher Prädiktion codiertes Basissignal 102 mit
einer Basisqualität und ein unter Verwendung zeitlicher
Prädiktion codiertes Verbesserungssignal 104 aufweist.
Aus dem Basissignal 102 ist aus sich allein heraus das
skalierbare Videosignal mit einer Basisqualität rekonstruierbar.
Es weist einen ersten zeitlichen Wiederholabstand T1 von
intra-codierten Bildern auf. Aus dem Verbesserungssignal 104 ist
in Kombination mit dem Basissignal 102 das qualitätsskalierbare
Signal mit einer verbesserten Qualität rekonstruierbar.
Es weist einen zweiten zeitlichen Wiederholabstand T2 von
intra-codierten Bildern auf, wobei der erste zeitliche Wiederholabstand
T1 zu dem zweiten zeitlichen Wiederholabstand
T2 unterschiedlich, insbesondere kleiner
ist, d. h. T1 < T2.
-
Der
Decoder 500 ist ausgebildet, um das skalierbare Videosignal 100 mit
verbesserter Qualität aus einer Kombination des Verbesserungssignals 104 mit
dem Basissignal 102 zu rekonstruieren und zu Beginn eines
Empfangs das skalierbare Videosignal 100 so lange mit der
Basisqualität auszugeben, bis ein erstes intra-codiertes
Bild des Verbesserungssignals 104 empfangbar ist und dann
das skalierbare Videosignal mit der verbesserten Qualität
auszugeben.
-
Dazu
weist der Decodierer 500 eine Einrichtung 510 zum
Decodieren des Basissignals 104 mit der Basisqualität
auf, wobei die Einrichtung 510 mit einer Einrichtung 520 zum
Decodieren des Verbesserungssignals gekoppelt ist. Dabei sind die
Einrichtungen 510 und 520 jeweils den in 4 gezeigten Einrichtungen 410 und 420 angepasst,
d. h. die Einrichtungen 510 und 520 decodieren
das, was von den Einrichtungen 410 und 420 jeweils
codiert wurde. Handelt es sich beispielsweise bei der Einrichtung 410 um
einen H.264-Encoder, so wird die Einrichtung 510 einen
H.264-Decodierer aufweisen. Die Einrichtung 510 stellt
dabei der Einrichtung 520 wieder die decodierte Zwischenschichtinformation 450 zur
Verfügung.
-
Gemäß einem
Ausführungsbeispiel kann es sich bei den in 4 und 5 gezeigten
Codierern bzw. Decodierern um standardkonforme Vorrichtungen gemäß der
Scalable-Video-Coding-Erweiterung des H.264/MGEG4-AVC-Standards
handeln.
-
Eine
weitere mögliche Ausführungsform eines Codierers
zum Codieren eines qualitätsskalierbaren Videosignals 100 ist
in 6 gezeigt.
-
Im
Gegensatz zu dem Codierer 400 weist der in 6 gezeigte
Codierer 600 am Ausgang der Einrichtung 410 zum
Codieren des Basissignals 102 eine Einrichtung 610 auf,
welche das Basissignal 102 in der Basisqualität
decodiert und mittels einer zu der Herunterskalierung der Einrichtung 430 inversen Skalierung
hochskaliert und das auf eine zeitliche und/oder örtliche
Auflösung des Eingangssignals 440 hochskalierte
Signal am Ausgang der Einrichtung 610 von dem Eingangssignal 440 abzieht,
um ein resultierendes Differenzsignal mit einer Einrichtung 620 zum
Codieren des Verbesserungssignals 104 zu codieren. Das
Verbesserungssignal 104 und das Basissignal 102 werden
durch den Multiplexer 460 zu dem skalierbaren Videosignal 100 gemultiplext.
-
Auch
in dem in 6 gezeigten Beispiel kann es
sich bei den Skalierungen in den Einrichtung 430 und 610 beispielsweise
um örtliche und/oder zeitliche Skalierungen handeln.
-
Ein
zu dem in 6 gezeigten Codierer komplementärer
Decodierer ist schematisch in 7 gezeigt.
-
Nachdem
das qualitätsskalierbare Videosignal 100 von dem
Demultiplexer 505 in das Basissignal 102 und das
Verbesserungssignal 104 aufgetrennt worden ist, kann mit
einem Decodierer 510 zur Decodierung des Basissignals 102 das
skalierbare Videosignal mit einer Basisqualität wiedergegeben werden.
Das am Ausgang des Decodierers 510 anliegende decodierte
Videosignal mit der Basisqualität wird durch eine Einrichtung 720 invers
zu der Herunterskalierung durch die Einrichtung 430 hoch
skaliert. Das am Ausgang der Einrichtung 720 anliegende hochskalierte
Signal wird daraufhin mit einem am Ausgang eines Decodierers 710 für
das Verbesserungssignal anliegenden Differenzsignal kombiniert um
das skalierbare Informationssignal mit einer verbesserten Qualität
wiedergeben zu können.
-
Geringe
Datenraten des skalierbaren Videosignals können mit Ausführungsbeispielen
der vorliegenden Erfindung erzielt werden, indem I-Frames 110 in
dem Verbesserungssignal 104 weniger häufig gesendet
werden als in herkömmlichen Systemen für skalierbare
Videocodierung. Häufiger gesendete I-Frames 106 des
Basissignals 102 mit Basisqualität weisen nur
geringe Datenmengen auf.
-
I-Frames 106 des
Basissignals 102 können so häufig wie
gewünscht gesendet werden, und müssen dabei auch
keinem vordefinierten Muster folgen. I-Frames 106 können
beispielsweise bei Szenenwechseln eingesetzt werden. Dasselbe gilt
für I-Frames 110 des Verbesserungssignals 104.
-
Gemäß Ausführungsbeispielen
können Bilder im Basissignal auch unterschiedliche Auflösungen
aufweisen.
-
Ein
qualitätsskalierbares Videosignal 100 gemäß Ausführungsbeispielen
kann zur Übertragung von Videos über einen Übertragungskanal
in einem Multikanalsignal eingesetzt werden. Dabei weist das Multikanalsignal
eine Mehrzahl von qualitätsskalierbaren Videosignalen 100 auf,
wobei jedem qualitätsskalierbaren Videosignal 100 ein Übertragungskanal zugeordnet
ist. Bei einem Kanalwechsel von einem ersten Übertragungskanal
auf einen zweiten Übertragungskanal wird durch den ersten
zeitlichen Wiederholabstand T1 von intracodierten
Bildern 106 des Basissignals 102 ein schneller
Kanalwechsel bzw. eine schnelle Bildwiedergabe nach dem Kanalwechsel
innerhalb des ersten zeitlichen Wiederholabstands T1 ermöglicht.
-
Ohne
Einschränkung der Allgemeinheit, besteht eine typische
Anwendung in der Übertragung des komprimierten, qualitätsskalierbaren
Videosignals 100 bzw. des Multikanalsignals über
einen Übertragungskanal mit sehr hoher Zuverlässig keit,
so dass hohe Anforderungen für Fernsehdienste ("weniger
als eine sichtbare Störung pro Stunde") erfüllt sind.
Diese hohe Zuverlässigkeit kann Einerseits durch einen
von Grund aus gutartigen Übertragungskanal resultieren,
wie z. B. bei leitungsgebundener Übertragung, bei der das
Signal nur mit relativ wenig Störung beaufschlagt wird
und Bitfehlerraten von kleiner 10–9 resultieren,
welche dann kaum eine Rolle spielen. Andererseits kann ein weniger
gutartiger Übertragungskanal durch geeignete Kanalcodierung die
erforderliche Zuverlässigkeit erreichen. Hierzu wird ein
Kanalcode mit Coderate r = k/n verwendet, wobei k eine Anzahl von
Nutzbits eines zu übertragenden Datenwortes vor der Kanalcodierung
und n (mit n > k)
eine Anzahl von Bits eines Codewortes nach der Kanalcodierung bedeutet.
Die Coderate r liegt somit stets zwischen 0 und 1 und kann für
das Basissignal 102 und das Verbesserungssignal 104 gleich
oder aber auch unterschiedlich sein. Die resultierende Bitfehlerrate
nach einer Fehlerkorrektur unter Ausnutzung des Kanalcodes (die
sog. Restfehlerwahrscheinlichkeit) sollte für Fernsehanwendungen etwa
10–9 betragen. Bei Paketübertragung über
z. B. IP (IP = Internet Protocol) resultiert hieraus eine entsprechende
Anforderung für die Paketfehlerwahrscheinlichkeit von 10–6. Übertragungskanäle
mit dieser Zuverlässigkeit (evtl. nach Fehlerkorrektur
durch Kanalcodierung) entsprechen typischen Anwendungsszenarien
für die beschriebenen Ausführungsbeispiele.
-
Gemäß Ausführungsbeispielen
sind Codierer ausgebildet, um aus einer Mehrzahl von qualitätsskalierbaren
Videosignalen 100 ein Multikanalsignal zu bilden und ggf.
mit einem Kanalcode zu versehen. Dementsprechend sind gemäß Ausführungsbeispielen
Decoder ausgebildet, um aus einem Multikanalsignal eine Mehrzahl
von qualitätsskalierbaren Videosignalen 100 zu
decodieren, und von Kanal zu Kanal wechseln zu können.
-
Der
Einfachheit halber wurde in dieser Spezifikation lediglich von einer
Basisschicht und einer Verbesserungsschicht gesprochen. Es sei darauf hingewiesen,
dass einer ersten Verbesserungsschicht 104 oberhalb der
Basisschicht 102 hierarchisch weitere Verbesserungsschichten über
der ersten Verbesserungsschicht folgen können. Somit sind Ausführungsbeispiele
der vorliegenden Erfindung in keiner Weise auf lediglich eine Basisschicht
mit einer einzigen Verbesserungsschicht beschränkt. Ferner sei
abschließend noch mal darauf hingewiesen, dass das Verbesserungssignal 104 einen
Prädiktionsrest zu einer Rekonstruktion des Basissignals
darstellen kann. Alternativ, zusätzlich bzw. parallel für
unterschiedliche Makroblöcke der Bilder, kann das Verbesserungssignal 104 mit
Bewegungsparametern des Basissignals als Prädiktor für
Bewegungsparameter des Verbesserungssignals kodiert sein. Auf ähnlich
Weise kann alternativ, zusätzlich bzw. parallel für
unterschiedliche Makroblöcke der Bilder das Verbesserungssignal 104 mit
einem Prädiktionsrest des Basissignals als Prädiktor
für einen Prädiktionsrest des Verbesserungssignals
kodiert sein.
-
Abschließend
soll darauf hingewiesen werden, dass Ausführungsbeispiele
der vorliegenden Erfindung nicht auf die jeweiligen Bauteile der
Vorrichtungen oder die erläuterten Vorgehensweisen beschränkt
sind, da diese Bauteile und Verfahren variieren können.
Die hier verwendeten Begriffe sind lediglich dafür bestimmt,
besondere Ausführungsformen zu beschreiben und werden nicht
einschränkend verwendet. Wenn in der Beschreibung und in den
Ansprüchen die Einzahl oder unbestimmte Artikel verwendet
werden, beziehen sich diese auf die Mehrzahl dieser Elemente, so
lange nicht der Gesamtzusammenhang eindeutig etwas anderes deutlich
macht. Dasselbe gilt in umgekehrter Richtung.
-
Abhängig
von den Gegebenheiten können die erfindungsgemäßen
Verfahren in Hardware oder in Software implementiert werden. Die
Implementierung kann auf einem digitalen Speichermedium, insbesondere
einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen
erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken
können, dass das entsprechende Verfahren ausgeführt
wird. Allgemein besteht die Erfindung somit auch in einem Computerprogrammprodukt
mit einem auf einem maschinenlesbaren Träger gespeicherten
Programmcode zur Durchführung des erfindungsgemäßen
Verfahrens, wenn das Computerprogrammprodukt auf einem Rechner abläuft.
In anderen Worten ausgedrückt, ist die vorliegende Erfindung
somit auch ein Computerprogramm mit einem Programmcode zur Durchführung
des Verfahrens, wenn das Computerprogramm auf einem Computer abläuft.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- - WO 2004/114667 [0012]
- - EP 1523190 A1 [0013]