-
Die
vorliegende Erfindung betrifft ein Videosignal-Codierverfahren und
eine Videosignal-Codiervorrichtung, insbesondere ein Verfahren und
eine Vorrichtung zum Erzeugen von Farbart-Forminformation einer
Video-Objektebene (VOP; Video Object Plane) in einem Videosignal.
-
In
digitalen Videosystemen, beispielsweise beim Videotelefon und in
Telekonferenz-Systemen, wird eine große Menge an digitalen Daten
dazu benötigt,
jedes Video-Vollbildsignal zu definieren, weil das Video-Vollbildsignal
eine Sequenz von digitalen Daten umfasst, die als Pixelwerte bezeichnet
werden. Da allerdings die verfügbare
Frequenzbandbreite eines herkömmlichen Übertragungskanals
begrenzt ist, ist es, um die wesentliche Menge der digitalen Daten über den
Kanal übertragen
zu können, notwendig,
das Volumen der Daten durch Einsatz unterschiedlicher Datenkompressionsmethoden
zu komprimieren oder zu reduzieren, insbesondere dann, wenn es um
solche Video-Signalcodierer mit geringer Bitrate geht, wie es bei
dem Videotelefon oder bei Telekonferenz-Systemen der Fall ist. Eine solche
Methode zum Codieren von Videosignalen für ein Codiersystem geringer
Bitrate ist die objektorientierte Analyse-Synthese-Codiermethode,
bei der ein Eingangs-Videobild in Objekte unterteilt wird und drei Mengen
von Parametern zum Definieren der Bewegungs-, Kontur- und Pixeldaten
jedes Objekts durch verschiedene Codierungskanäle verarbeitet werden.
-
Ein
Beispiel für
ein derartiges objektorientiertes Codierschema ist das so genante
MPEG (Moving Picture Experts Group) Phase 4 (MPEG-4), welches so
ausgelegt ist, dass eine audiovisuelle Codierungsnorm geschaffen
wird, um eine inhaltsbasierte Interaktivität ebenso zuzulassen wie eine
verbesserte Codierungseffizienz und/oder eine universelle Zugänglichkeit
bei Anwendungen wie der Kommunikation mit niedriger Bitrate, interaktiver
Multimedia (zum Beispiel Spiele, interaktives TV etc.) sowie Bereichsüberwachung
(vergleiche zum Beispiel MPEG-4 Video Verification Model Version
2.0, International Organisation for Standardisation, ISO/IEC JTC1/SC29/WG 11
N1260, März
1996).
-
Gemäß der MPEG-4
wird ein Eingangs-Videobild unterteilt in mehrere Video-Objektebenen (VOP;
Video Objekt Planes), die Einheiten in einem Bitstrom entsprechen,
auf die der Benutzer zugreifen und die der Benutzer manipulieren
kann. Eine VOP lässt
sich referenzieren als ein Objekt und darstellen durch ein begrenzendes
Rechteck, dessen Breite und Höhe
die kleinsten Vielfachen von 16 Pixel (eine Makroblock-Größe) sein
können,
und dessen Größe jedes
Objekt derart umfasst, dass der Codierer das Eingangs-Videobild
auf VOP-zu-VOP-Basis, das heißt,
Objekt-zu-Objekt-Basis verarbeitet.
-
Das
heißt:
Jede VOP wird dargestellt mithilfe eines begrenzenden Rechtecks,
die Phasendifferenz zwischen den Daten der Leuchtdichte oder Luminanz (Y)
und der Farbart oder Chrominanz (U, V) des begrenzenden Rechtecks
muss entsprechend dem in 1 gezeigten 4:2:0-Format eingerichtet
sein, wobei die Leuchtdichte- und die Farbartdaten durch Symbole
X bzw. O dargestellt werden. Insbesondere sollten in einem absoluten
(Rahmen) Koordinatensystem, wie es in 2 dargestellt
ist, die Koordinaten links oben in einem begrenzenden Rechteck 10 zunächst auf
die nächsten
geraden Zahlen, zum Beispiel (2n, 2m), die nicht größer als
die Koordinaten oben links sind (zum Beispiel 2n + 1, 2m + 1) des engsten
Rechtecks 20, welches ein Objekt 30 umgibt, gerundet
werden, wobei n und m ganze Zahlen sind. Die untere rechte Ecke
des umgebenden Dreiecks 10 wird dann derart ausgeweitet,
dass die Breite und die Höhe
des umgebenden Rechtecks die kleinsten vielfachen von 16 Pixel sind.
Dementsprechend sind die Koordinaten links oben in dem umgebenden Rechteck
von den Farbartdaten jene der Leuchtdichtedaten, dividiert durch
zwei.
-
Eine
VOP, wie sie in MPEG-4 offenbart ist, enthält Forminformation und Farbinformation,
bestehend aus Leuchtdichte- und Farbartdaten, wobei die Forminformation
beispielsweise durch eine binäre Maske
dargestellt wird und sich auf die Leuchtdichtedaten bezieht. Innerhalb
der binären
Maske wird ein binärer
Wert, zum Beispiel 0 dazu verwendet, ein Pixel zu bezeichnen, welches
sich außerhalb
des Objekts innerhalb der VOP befindet, während ein anderer Binärwert, zum
Beispiel 1, dazu dient, ein Pixel innerhalb des Objekts anzugeben,
wie dies in 3 gezeigt ist. Die Leuchtdichtedaten
in der VOP werden also basierend auf der binären Maske verarbeitet, auf die
als Leuchtdichte-Forminformation Bezug genommen werden kann, um
dadurch verfügbare
Leuchtdichtedaten für
die Codierung und die Übertragung zu
einem Sender auszuwählen.
-
Weil
allerdings jeweils ein Farbart-Datenwert zu vier Leuchtdichte-Datenwert
in dem 4:2:0-Format gemäß 1 gehört, muss
die Farbart-Forminformation so generiert werden, dass verfügbare Farbartdaten
ausgewählt
werden, die das Objekt innerhalb der VOP effektiv repräsentieren.
-
Soryani
M. et al.: "Segmented
Coding of Digital Image Sequences" IEEE Proceedings 1, Solid-State, Electron
Devices, GB Institution of Electrical Engineers, Stevenage, Vol.
139, Nr. 2, Teil 02, 1. April 1992 (1992-04-01), Seiten 212–218, XP000288732,
ISSN: 0956-3776 zeigt Algorithmen, die auf einer Zonenkontur-Segmentierung von
Bildern zur Anwendung bei der Codierung mit niedriger Bitrate von
einfarbigen und mehrfarbigen Videotelefonbild-Sequenzen basieren.
Eine gesteuerte Verbindungszonen-Wachstumsmethode dient zum Unterteilen
eines Bilds in homogene Zonen mit deutlichen Konturen, die anschließend codiert
und gesendet werden. Um niedrige Bitraten zu erreichen, wie sie zur Übertragung
von Videotelefonbildern der ISDN erforderlich sind, sind Bewegungs-Kompensationsmethoden
einbezogen worden.
-
Ein
Hauptziel der Erfindung besteht darin, ein Verfahren und eine Vorrichtung
zum Erzeugen von Farbart-Forminformation anzugeben, die in der Lage
sind, ein Objekt in einer VOP effektiv darzustellen.
-
Erfindungsgemäß wird eine
Vorrichtung zum Codieren von Farbdichtedaten basierend auf Leuchtdichte-Forminformation
in Form einer Matrix geschaffen, wobei jedes Element in der Matrix
dargestellt wird durch einen von zwei verschiedenen logischen Werten,
die eine Außenseite
und eine Innenseite eines Objekts in einer Video-Objektebene (VOP)
repräsentieren,
wobei die Vorrichtung gekennzeichnet ist durch: Eine Einrichtung
zum Codieren der Leuchtdichte-Forminformation; eine Einrichtung
zum Decodieren der codierten Leuchtdichte-Forminformation, um dadurch
Leuchtdichte-Forminformation zu generieren; eine Einrichtung zum
Erzeugen von Farbart-Forminformation unter Verwendung der Leuchtdichte-Forminformation;
eine Einrichtung zum Erzeugen rekonstruierter Farbart-Forminformation basierend
auf der rekonstruierten Leuchtdichte-Forminformation; eine Einrichtung
zum Maskieren der Farbartdaten ansprechend auf die Farbart-Forminformation
und zum Ausfüllen
der maskierten Farbartdaten; eine Einrichtung zum Auswählen der
aufgefüllten Farbartdaten,
die das Innere des Objekts re präsentieren,
ansprechend auf die rekonstruierte Farbart-Forminformation und eine
Einrichtung zum Codieren der ausgewählten aufgefüllten Farbartdaten,
um dadurch codierte Farbartdaten zu produzieren.
-
Die
obigen sowie weitere Ziele und Merkmale der Erfindung ergeben sich
aus der nachfolgenden Beschreibung bevorzugter Ausführungsformen
in Verbindung mit den begleitenden Zeichnungen. Es zeigen:
-
1 Positionen
von Leuchtdichte- und Farbartdaten im 4:2:0-Format;
-
2 ein
anschauliches Diagramm zum Darstellen einer durch ein umgebendes
Rechteck dargestellten VOP;
-
3 Leuchtdichte-Forminformation
in Form einer Binärmaske;
-
4 ein
Blockdiagramm einer Vorrichtung zum Codieren einer VOP in einem
Videosignal;
-
5A eine
beispielhaft rekonstruierte Leuchtdichte-Forminformation; und
-
5B eine
beispielhaft rekonstruierte Farbart-Forminformation.
-
4 zeigt
ein Blockdiagramm einer erfindungsgemäßen Vorrichtung zum Codieren
einer VOP zu einem Videosignal.
-
VOP-Daten
einschließlich
Farbinformation, bestehend aus Leuchtdichte- und Farbartdaten und Leuchtdichte-Forminformation,
dargestellt beispielsweise durch eine binäre Maske, werden in einen Codierer 50 als
Eingangssignal eingegeben. Von den VOP-Daten werden die Leuchtdichte-
und die Farbartdaten einem Leuchtdichte-Auffüllblock 220 bzw. einem
Farbart-Auffüllblock 440 zugeführt, und die
Leuchtdichte-Forminformation, die die Verteilung verfügbarer Leuchtdichtedaten
für ein
Objekt in der VOP beschreibt, wird an den Leuchtdichte-Auffüllblock 220,
einen Farbart-Formerzeugungsblock 420 und einen Formcodierblock 100 parallel
zugeleitet.
-
Der
Formcodierblock 100 codiert die Leuchtdichte-Forminformation
mithilfe bekannter Codiermethoden, beispielsweise Quadtree (vergleiche
zum Beispiel MPEG-4 Video Verfication Model Version 2.0, International
Organisation for Standardisation, ISO/IEC JTC1/SC29/WG 11 N1260,
März 1996),
um sie über
den (nicht gezeigten) Sender als codierte Forminformation zu senden,
das heißt,
als codierte Leuchtdichte-Forminformation, und er liefert außerdem die
codierte Leuchtdichte-Forminformation an einen Form-Decodierblock 200.
-
In
dem Form-Decodierblock 200 innerhalb des Codierers 50 wird
die codierte Leuchtdichte-Forminformation zu rekonstruierter Leuchtdichte-Forminformation
decodiert. Diese rekonstruierte Leuchtdichte-Forminformation wird
an einen Leuchtdichte-Auswahlblock 240 und einen Block 400 für eine rekonstruierte
Farbart-Formerzeugung gegeben.
-
Der
Leuchtdichte-Auffüllblock 220 führt einen
Leuchtdichtedaten-Auffüllprozess
durch, beispielsweise eine wiederholte Auffüllmethode basierend auf der
Leuchtdichte-Forminformation, welche die Form des Objekts in der
VOP darstellt. Die aufgefüllten
Leuchtdichtedaten werden dann zu dem Leuchtdichte-Auswahlblock 240 übertragen.
-
Im
Leuchtdichte-Auswahlblock 240 wird die rekonstruierte Leuchtdichte-Forminformation
von dem Formdecodierblock 200 aufgeteilt in eine Mehrzahl
von Unterblöcken,
von denen jeder M × N
Pixel mit M und N als ganze Zahlen enthält, wobei die Anzahl binärer Werte "1" in jedem der Unterblöcke gezählt wird.
Wenn mindestens ein binärer
Wert "1" in einem Unterblock
existiert, werden die dem Unterblock entsprechenden aufgefüllten Leuchtdichtedaten
für die
Codierung des Blocks ausgewählt,
und wenn kein binärer
Wert "1" in einem Unterblock
existiert, wird der Unterblock übersprungen,
um die Menge der Übertragungsdaten
zu verringern. Nur die ausgewählten
Daten in dem oben beschriebenen Vorgang werden an den Leuchtdichtecodierblock 300 ausgegeben.
-
Der
Leuchtdichtecodierblock 300 codiert die aufgefüllten Leuchtdichtedaten
aus dem Leuchtdichte-Auswahlblock 240 Unterblock für Unterblock,
wobei jeder Un terblock M × N
Pixel enthält
und zwar unter Anwendung bekannter Codiermethoden, beispielsweise
DCT, Quantisierung, VLC (Codierung mit variabler Länge) oder
dergleichen. Das Ergebnis des Codiervorgangs, das sind die codierten
Leuchtdichtedaten, wird an einen (nicht gezeigten) Sender ausgegeben,
um von diesem gesendet zu werden.
-
Der
Farbart-Formerzeugungsblock 420 erzeugt Farbart-Forminformation
auf der Grundlage der Leuchtdichte-Forminformation. Der Farbart-Formerzeugungsblock 420 unterteilt
gemäß einer
bevorzugten Ausführungsform
der Erfindung zunächst
die Leuchtdichte-Forminformation in mehrere Abtastblöcke, wobei
jeder Abtastblock 2 × 2
Pixel enthält,
und berechnet einen Mittelwert der in jedem Abtastblock enthaltenen
Binärwerte,
um für
jeden Abtastblock einen Farbartwert zu bestimmen, wobei entweder
die Binärwerte "1" oder die Binärwerte "0" verwendet werden,
abhängig
davon, welcher Wert dem gemittelten Wert näher kommt, um so den Farbartwert
zu bilden. Wenn allerdings der gemittelte Wert 0,5 beträgt, wird
der binäre
Wert "1" als Farbartwert
gewählt.
Anschließend
wird die Farbart-Forminformation in Matrixform erhalten, wobei jeder
Abtastblock durch seinen Farbartwert dargestellt wird.
-
In ähnlicher
Weise erzeugt der Block 400 für rekonstruierte Farbart-Formerzeugung
rekonstruierte Farbart-Forminformation basierend auf der von dem
Formdecodierblock 200 kommenden rekonstruierten Leuchtdichte-Forminformation.
Das heißt,
wie in den 5A und 5B dargestellt
ist, wird der Farbartwert für
einen Abtastblock LB1 auf "0" festgelegt, weil
der Mittelwert der binären
Werte des Abtastblocks LB1 0,25 beträgt, was näher bei 0 als bei 1 ist. Andererseits
ergibt der Farbartwert des Abtastblocks LB2 den binären Wert
1, weil der Mittelwert der Binärwerte
des Abtastblocks LB2 0,5 beträgt.
Folglich haben die Unterblöcke
CB1 und CB2 in der Farbart-Forminformation gemäß 5B entsprechend
den Abtastblöcken
LB1 und LB2 die Binärwerte
0 bzw. 1.
-
In
einer weiteren bevorzugten Ausführungsform
der Erfindung zählt
zum Erzeugen der Farbart-Forminformation der Farbart-Formerzeugungsblock 420 die
Anzahl binärer
Werte "1 ", die in einem Abtastblock
enthalten sind, wählt
den binären Wert "1" als den Farbartwert für den Abtastblock
aus, wenn nicht weniger als zwei Binärwerte "1" in
dem Abtastblock vorhanden sind, und wählt andernfalls den Binärwert "0". Der Block 400 für die rekonstruierte
Farbart-Formerzeugung führt
außerdem
den gleichen Prozess basierend auf der rekonstruierten Leuchtdichte-Forminformation
durch.
-
Durch
die obigen beiden Verfahren gewonnene Farbartwerte sind ungeachtet
ihrer scheinbaren Differenzen gleich. Außerdem sind die Prozesse, die von
dem Farbart-Formerzeugungsblock 420 einerseits und dem
Block 400 für
rekonstruierte Farbart-Formerzeugung, andererseits, durchgeführt werden,
einander identisch, ausgenommen die verschiedenen Eingaben, das
heißt,
in ersterem Fall die Leuchtdichte-Forminformation und in letzterem
Fall die rekonstruierte Leuchtdichte-Information.
-
Die
Farbart-Forminformation und die rekonstruierte Farbart-Forminformation,
die im Block 420 bzw. im Block 400 erzeugt werden,
werden dem Farbart-Auffüllblock 440 bzw.
dem Farbart-Auswahlblock 460 zugeleitet.
-
Der
Farbart-Auffüllblock 400 führt einen Farbart-Datenauffüllvorgang
basierend auf der Farbart-Forminformation durch, die von dem Block 420 für Farbart-Formerzeugung produziert
wird und zwar in der gleiche Weise, wie dies in dem Leuchtdichte-Auffüllblock 220 geschieht.
Die aufgefüllten Farbartdaten
werden dem Farbart-Auswahlblock 460 zugeleitet.
-
Der
Farbart-Auswahlblock 460 unterteilt die rekonstruierte
Farbart-Forminformation aus dem Block 400 für rekonstruierte
Farbart-Formerzeugung in mehrere Unterblöcke, wobei ein Unterblock P × Q Farbartwerte
mit P und Q als ganze Zahlen enthält, er zählt die Anzahl von Binärwerten "1", die in jedem der Unterblöcke enthalten
ist, und er wählt
die aufgefüllten
Farbartdaten in der gleichen Weise aus, wie dies in dem Leuchtdichte-Auffüllblock 220 geschieht,
um die Menge von Übertragungsdaten
zu verringern. Die ausgewählten
Farbartdaten werden an den Farbartcodierblock 500 gegeben.
-
Der
Farbartcodierblock 500 codiert die von dem Farbart-Auswahlblock 460 gelieferten
Daten von Unterblock zu Unterblock, wobei jeder Unterblock P × Q Farbartdaten
enthält,
was mithilfe eines bekannten Codierverfahrens geschieht, beispielsweise
DCT, Quantisierung, VLC etc.
-
Die
codierten Leuchtdichte- und die codierten Farbartdaten aus den Leuchtdichte-
bzw. Farbartcodierblöcken 300 bzw. 500 werden über den
(nicht gezeigten) Sender als codierte Farbinformation übertragen.
-
In
dem oben geschilderten Zusammenhang dient die Verwendung der rekonstruierten
Leuchtdichte-Forminformation bei der Auswahl der Leuchtdichte und
die Farbartdaten dienen zur Erzielung des gleichen Ergebnisses wie
in einem Decodierer (nicht dargestellt).
-
Während die
vorliegende Erfindung nur in Verbindung mit gewissen bevorzugten
Ausführungsformen
beschrieben wurde, sind weitere Modifikationen und Abwandlungen
ohne Abweichung vom Schutzumfang der Erfindung gemäß den beigefügten Ansprüchen möglich.