DE69636277T2

DE69636277T2 - Verfahren und Vorrichtung zur Erzeugung von Farbart-Forminformation einer Video-Objektebene in einem Videosignal

Info

Publication number: DE69636277T2
Application number: DE1996636277
Authority: DE
Inventors: Video Research Center Jong-Il Jung-gu Kim
Original assignee: Daewoo Electronics Co Ltd
Current assignee: WiniaDaewoo Co Ltd
Priority date: 1996-05-10
Filing date: 1996-08-23
Publication date: 2007-05-24
Anticipated expiration: 2016-08-24
Also published as: DE69636277D1; IN189469B; CN1106766C; EP0806871B1; JP2006352901A; KR970078682A; JPH09307929A; CN1165456A; EP0806871A2; EP0806871A3; US5822460A; KR100209412B1; JP4357506B2

Description

Die vorliegende Erfindung betrifft ein Videosignal-Codierverfahren und eine Videosignal-Codiervorrichtung, insbesondere ein Verfahren und eine Vorrichtung zum Erzeugen von Farbart-Forminformation einer Video-Objektebene (VOP; Video Object Plane) in einem Videosignal.
In digitalen Videosystemen, beispielsweise beim Videotelefon und in Telekonferenz-Systemen, wird eine große Menge an digitalen Daten dazu benötigt, jedes Video-Vollbildsignal zu definieren, weil das Video-Vollbildsignal eine Sequenz von digitalen Daten umfasst, die als Pixelwerte bezeichnet werden. Da allerdings die verfügbare Frequenzbandbreite eines herkömmlichen Übertragungskanals begrenzt ist, ist es, um die wesentliche Menge der digitalen Daten über den Kanal übertragen zu können, notwendig, das Volumen der Daten durch Einsatz unterschiedlicher Datenkompressionsmethoden zu komprimieren oder zu reduzieren, insbesondere dann, wenn es um solche Video-Signalcodierer mit geringer Bitrate geht, wie es bei dem Videotelefon oder bei Telekonferenz-Systemen der Fall ist. Eine solche Methode zum Codieren von Videosignalen für ein Codiersystem geringer Bitrate ist die objektorientierte Analyse-Synthese-Codiermethode, bei der ein Eingangs-Videobild in Objekte unterteilt wird und drei Mengen von Parametern zum Definieren der Bewegungs-, Kontur- und Pixeldaten jedes Objekts durch verschiedene Codierungskanäle verarbeitet werden.
Ein Beispiel für ein derartiges objektorientiertes Codierschema ist das so genante MPEG (Moving Picture Experts Group) Phase 4 (MPEG-4), welches so ausgelegt ist, dass eine audiovisuelle Codierungsnorm geschaffen wird, um eine inhaltsbasierte Interaktivität ebenso zuzulassen wie eine verbesserte Codierungseffizienz und/oder eine universelle Zugänglichkeit bei Anwendungen wie der Kommunikation mit niedriger Bitrate, interaktiver Multimedia (zum Beispiel Spiele, interaktives TV etc.) sowie Bereichsüberwachung (vergleiche zum Beispiel MPEG-4 Video Verification Model Version 2.0, International Organisation for Standardisation, ISO/IEC JTC1/SC29/WG 11 N1260, März 1996).
Gemäß der MPEG-4 wird ein Eingangs-Videobild unterteilt in mehrere Video-Objektebenen (VOP; Video Objekt Planes), die Einheiten in einem Bitstrom entsprechen, auf die der Benutzer zugreifen und die der Benutzer manipulieren kann. Eine VOP lässt sich referenzieren als ein Objekt und darstellen durch ein begrenzendes Rechteck, dessen Breite und Höhe die kleinsten Vielfachen von 16 Pixel (eine Makroblock-Größe) sein können, und dessen Größe jedes Objekt derart umfasst, dass der Codierer das Eingangs-Videobild auf VOP-zu-VOP-Basis, das heißt, Objekt-zu-Objekt-Basis verarbeitet.
Das heißt: Jede VOP wird dargestellt mithilfe eines begrenzenden Rechtecks, die Phasendifferenz zwischen den Daten der Leuchtdichte oder Luminanz (Y) und der Farbart oder Chrominanz (U, V) des begrenzenden Rechtecks muss entsprechend dem in 1 gezeigten 4:2:0-Format eingerichtet sein, wobei die Leuchtdichte- und die Farbartdaten durch Symbole X bzw. O dargestellt werden. Insbesondere sollten in einem absoluten (Rahmen) Koordinatensystem, wie es in 2 dargestellt ist, die Koordinaten links oben in einem begrenzenden Rechteck 10 zunächst auf die nächsten geraden Zahlen, zum Beispiel (2n, 2m), die nicht größer als die Koordinaten oben links sind (zum Beispiel 2n + 1, 2m + 1) des engsten Rechtecks 20, welches ein Objekt 30 umgibt, gerundet werden, wobei n und m ganze Zahlen sind. Die untere rechte Ecke des umgebenden Dreiecks 10 wird dann derart ausgeweitet, dass die Breite und die Höhe des umgebenden Rechtecks die kleinsten vielfachen von 16 Pixel sind. Dementsprechend sind die Koordinaten links oben in dem umgebenden Rechteck von den Farbartdaten jene der Leuchtdichtedaten, dividiert durch zwei.
Eine VOP, wie sie in MPEG-4 offenbart ist, enthält Forminformation und Farbinformation, bestehend aus Leuchtdichte- und Farbartdaten, wobei die Forminformation beispielsweise durch eine binäre Maske dargestellt wird und sich auf die Leuchtdichtedaten bezieht. Innerhalb der binären Maske wird ein binärer Wert, zum Beispiel 0 dazu verwendet, ein Pixel zu bezeichnen, welches sich außerhalb des Objekts innerhalb der VOP befindet, während ein anderer Binärwert, zum Beispiel 1, dazu dient, ein Pixel innerhalb des Objekts anzugeben, wie dies in 3 gezeigt ist. Die Leuchtdichtedaten in der VOP werden also basierend auf der binären Maske verarbeitet, auf die als Leuchtdichte-Forminformation Bezug genommen werden kann, um dadurch verfügbare Leuchtdichtedaten für die Codierung und die Übertragung zu einem Sender auszuwählen.
Weil allerdings jeweils ein Farbart-Datenwert zu vier Leuchtdichte-Datenwert in dem 4:2:0-Format gemäß 1 gehört, muss die Farbart-Forminformation so generiert werden, dass verfügbare Farbartdaten ausgewählt werden, die das Objekt innerhalb der VOP effektiv repräsentieren.
Soryani M. et al.: "Segmented Coding of Digital Image Sequences" IEEE Proceedings 1, Solid-State, Electron Devices, GB Institution of Electrical Engineers, Stevenage, Vol. 139, Nr. 2, Teil 02, 1. April 1992 (1992-04-01), Seiten 212–218, XP000288732, ISSN: 0956-3776 zeigt Algorithmen, die auf einer Zonenkontur-Segmentierung von Bildern zur Anwendung bei der Codierung mit niedriger Bitrate von einfarbigen und mehrfarbigen Videotelefonbild-Sequenzen basieren. Eine gesteuerte Verbindungszonen-Wachstumsmethode dient zum Unterteilen eines Bilds in homogene Zonen mit deutlichen Konturen, die anschließend codiert und gesendet werden. Um niedrige Bitraten zu erreichen, wie sie zur Übertragung von Videotelefonbildern der ISDN erforderlich sind, sind Bewegungs-Kompensationsmethoden einbezogen worden.
Ein Hauptziel der Erfindung besteht darin, ein Verfahren und eine Vorrichtung zum Erzeugen von Farbart-Forminformation anzugeben, die in der Lage sind, ein Objekt in einer VOP effektiv darzustellen.
Erfindungsgemäß wird eine Vorrichtung zum Codieren von Farbdichtedaten basierend auf Leuchtdichte-Forminformation in Form einer Matrix geschaffen, wobei jedes Element in der Matrix dargestellt wird durch einen von zwei verschiedenen logischen Werten, die eine Außenseite und eine Innenseite eines Objekts in einer Video-Objektebene (VOP) repräsentieren, wobei die Vorrichtung gekennzeichnet ist durch: Eine Einrichtung zum Codieren der Leuchtdichte-Forminformation; eine Einrichtung zum Decodieren der codierten Leuchtdichte-Forminformation, um dadurch Leuchtdichte-Forminformation zu generieren; eine Einrichtung zum Erzeugen von Farbart-Forminformation unter Verwendung der Leuchtdichte-Forminformation; eine Einrichtung zum Erzeugen rekonstruierter Farbart-Forminformation basierend auf der rekonstruierten Leuchtdichte-Forminformation; eine Einrichtung zum Maskieren der Farbartdaten ansprechend auf die Farbart-Forminformation und zum Ausfüllen der maskierten Farbartdaten; eine Einrichtung zum Auswählen der aufgefüllten Farbartdaten, die das Innere des Objekts re präsentieren, ansprechend auf die rekonstruierte Farbart-Forminformation und eine Einrichtung zum Codieren der ausgewählten aufgefüllten Farbartdaten, um dadurch codierte Farbartdaten zu produzieren.
Die obigen sowie weitere Ziele und Merkmale der Erfindung ergeben sich aus der nachfolgenden Beschreibung bevorzugter Ausführungsformen in Verbindung mit den begleitenden Zeichnungen. Es zeigen:
1 Positionen von Leuchtdichte- und Farbartdaten im 4:2:0-Format;
2 ein anschauliches Diagramm zum Darstellen einer durch ein umgebendes Rechteck dargestellten VOP;
3 Leuchtdichte-Forminformation in Form einer Binärmaske;
4 ein Blockdiagramm einer Vorrichtung zum Codieren einer VOP in einem Videosignal;
5A eine beispielhaft rekonstruierte Leuchtdichte-Forminformation; und
5B eine beispielhaft rekonstruierte Farbart-Forminformation.
4 zeigt ein Blockdiagramm einer erfindungsgemäßen Vorrichtung zum Codieren einer VOP zu einem Videosignal.
VOP-Daten einschließlich Farbinformation, bestehend aus Leuchtdichte- und Farbartdaten und Leuchtdichte-Forminformation, dargestellt beispielsweise durch eine binäre Maske, werden in einen Codierer 50 als Eingangssignal eingegeben. Von den VOP-Daten werden die Leuchtdichte- und die Farbartdaten einem Leuchtdichte-Auffüllblock 220 bzw. einem Farbart-Auffüllblock 440 zugeführt, und die Leuchtdichte-Forminformation, die die Verteilung verfügbarer Leuchtdichtedaten für ein Objekt in der VOP beschreibt, wird an den Leuchtdichte-Auffüllblock 220, einen Farbart-Formerzeugungsblock 420 und einen Formcodierblock 100 parallel zugeleitet.
Der Formcodierblock 100 codiert die Leuchtdichte-Forminformation mithilfe bekannter Codiermethoden, beispielsweise Quadtree (vergleiche zum Beispiel MPEG-4 Video Verfication Model Version 2.0, International Organisation for Standardisation, ISO/IEC JTC1/SC29/WG 11 N1260, März 1996), um sie über den (nicht gezeigten) Sender als codierte Forminformation zu senden, das heißt, als codierte Leuchtdichte-Forminformation, und er liefert außerdem die codierte Leuchtdichte-Forminformation an einen Form-Decodierblock 200.
In dem Form-Decodierblock 200 innerhalb des Codierers 50 wird die codierte Leuchtdichte-Forminformation zu rekonstruierter Leuchtdichte-Forminformation decodiert. Diese rekonstruierte Leuchtdichte-Forminformation wird an einen Leuchtdichte-Auswahlblock 240 und einen Block 400 für eine rekonstruierte Farbart-Formerzeugung gegeben.
Der Leuchtdichte-Auffüllblock 220 führt einen Leuchtdichtedaten-Auffüllprozess durch, beispielsweise eine wiederholte Auffüllmethode basierend auf der Leuchtdichte-Forminformation, welche die Form des Objekts in der VOP darstellt. Die aufgefüllten Leuchtdichtedaten werden dann zu dem Leuchtdichte-Auswahlblock 240 übertragen.
Im Leuchtdichte-Auswahlblock 240 wird die rekonstruierte Leuchtdichte-Forminformation von dem Formdecodierblock 200 aufgeteilt in eine Mehrzahl von Unterblöcken, von denen jeder M × N Pixel mit M und N als ganze Zahlen enthält, wobei die Anzahl binärer Werte "1" in jedem der Unterblöcke gezählt wird. Wenn mindestens ein binärer Wert "1" in einem Unterblock existiert, werden die dem Unterblock entsprechenden aufgefüllten Leuchtdichtedaten für die Codierung des Blocks ausgewählt, und wenn kein binärer Wert "1" in einem Unterblock existiert, wird der Unterblock übersprungen, um die Menge der Übertragungsdaten zu verringern. Nur die ausgewählten Daten in dem oben beschriebenen Vorgang werden an den Leuchtdichtecodierblock 300 ausgegeben.
Der Leuchtdichtecodierblock 300 codiert die aufgefüllten Leuchtdichtedaten aus dem Leuchtdichte-Auswahlblock 240 Unterblock für Unterblock, wobei jeder Un terblock M × N Pixel enthält und zwar unter Anwendung bekannter Codiermethoden, beispielsweise DCT, Quantisierung, VLC (Codierung mit variabler Länge) oder dergleichen. Das Ergebnis des Codiervorgangs, das sind die codierten Leuchtdichtedaten, wird an einen (nicht gezeigten) Sender ausgegeben, um von diesem gesendet zu werden.
Der Farbart-Formerzeugungsblock 420 erzeugt Farbart-Forminformation auf der Grundlage der Leuchtdichte-Forminformation. Der Farbart-Formerzeugungsblock 420 unterteilt gemäß einer bevorzugten Ausführungsform der Erfindung zunächst die Leuchtdichte-Forminformation in mehrere Abtastblöcke, wobei jeder Abtastblock 2 × 2 Pixel enthält, und berechnet einen Mittelwert der in jedem Abtastblock enthaltenen Binärwerte, um für jeden Abtastblock einen Farbartwert zu bestimmen, wobei entweder die Binärwerte "1" oder die Binärwerte "0" verwendet werden, abhängig davon, welcher Wert dem gemittelten Wert näher kommt, um so den Farbartwert zu bilden. Wenn allerdings der gemittelte Wert 0,5 beträgt, wird der binäre Wert "1" als Farbartwert gewählt. Anschließend wird die Farbart-Forminformation in Matrixform erhalten, wobei jeder Abtastblock durch seinen Farbartwert dargestellt wird.
In ähnlicher Weise erzeugt der Block 400 für rekonstruierte Farbart-Formerzeugung rekonstruierte Farbart-Forminformation basierend auf der von dem Formdecodierblock 200 kommenden rekonstruierten Leuchtdichte-Forminformation. Das heißt, wie in den 5A und 5B dargestellt ist, wird der Farbartwert für einen Abtastblock LB1 auf "0" festgelegt, weil der Mittelwert der binären Werte des Abtastblocks LB1 0,25 beträgt, was näher bei 0 als bei 1 ist. Andererseits ergibt der Farbartwert des Abtastblocks LB2 den binären Wert 1, weil der Mittelwert der Binärwerte des Abtastblocks LB2 0,5 beträgt. Folglich haben die Unterblöcke CB1 und CB2 in der Farbart-Forminformation gemäß 5B entsprechend den Abtastblöcken LB1 und LB2 die Binärwerte 0 bzw. 1.
In einer weiteren bevorzugten Ausführungsform der Erfindung zählt zum Erzeugen der Farbart-Forminformation der Farbart-Formerzeugungsblock 420 die Anzahl binärer Werte "1 ", die in einem Abtastblock enthalten sind, wählt den binären Wert "1" als den Farbartwert für den Abtastblock aus, wenn nicht weniger als zwei Binärwerte "1" in dem Abtastblock vorhanden sind, und wählt andernfalls den Binärwert "0". Der Block 400 für die rekonstruierte Farbart-Formerzeugung führt außerdem den gleichen Prozess basierend auf der rekonstruierten Leuchtdichte-Forminformation durch.
Durch die obigen beiden Verfahren gewonnene Farbartwerte sind ungeachtet ihrer scheinbaren Differenzen gleich. Außerdem sind die Prozesse, die von dem Farbart-Formerzeugungsblock 420 einerseits und dem Block 400 für rekonstruierte Farbart-Formerzeugung, andererseits, durchgeführt werden, einander identisch, ausgenommen die verschiedenen Eingaben, das heißt, in ersterem Fall die Leuchtdichte-Forminformation und in letzterem Fall die rekonstruierte Leuchtdichte-Information.
Die Farbart-Forminformation und die rekonstruierte Farbart-Forminformation, die im Block 420 bzw. im Block 400 erzeugt werden, werden dem Farbart-Auffüllblock 440 bzw. dem Farbart-Auswahlblock 460 zugeleitet.
Der Farbart-Auffüllblock 400 führt einen Farbart-Datenauffüllvorgang basierend auf der Farbart-Forminformation durch, die von dem Block 420 für Farbart-Formerzeugung produziert wird und zwar in der gleiche Weise, wie dies in dem Leuchtdichte-Auffüllblock 220 geschieht. Die aufgefüllten Farbartdaten werden dem Farbart-Auswahlblock 460 zugeleitet.
Der Farbart-Auswahlblock 460 unterteilt die rekonstruierte Farbart-Forminformation aus dem Block 400 für rekonstruierte Farbart-Formerzeugung in mehrere Unterblöcke, wobei ein Unterblock P × Q Farbartwerte mit P und Q als ganze Zahlen enthält, er zählt die Anzahl von Binärwerten "1", die in jedem der Unterblöcke enthalten ist, und er wählt die aufgefüllten Farbartdaten in der gleichen Weise aus, wie dies in dem Leuchtdichte-Auffüllblock 220 geschieht, um die Menge von Übertragungsdaten zu verringern. Die ausgewählten Farbartdaten werden an den Farbartcodierblock 500 gegeben.
Der Farbartcodierblock 500 codiert die von dem Farbart-Auswahlblock 460 gelieferten Daten von Unterblock zu Unterblock, wobei jeder Unterblock P × Q Farbartdaten enthält, was mithilfe eines bekannten Codierverfahrens geschieht, beispielsweise DCT, Quantisierung, VLC etc.
Die codierten Leuchtdichte- und die codierten Farbartdaten aus den Leuchtdichte- bzw. Farbartcodierblöcken 300 bzw. 500 werden über den (nicht gezeigten) Sender als codierte Farbinformation übertragen.
In dem oben geschilderten Zusammenhang dient die Verwendung der rekonstruierten Leuchtdichte-Forminformation bei der Auswahl der Leuchtdichte und die Farbartdaten dienen zur Erzielung des gleichen Ergebnisses wie in einem Decodierer (nicht dargestellt).
Während die vorliegende Erfindung nur in Verbindung mit gewissen bevorzugten Ausführungsformen beschrieben wurde, sind weitere Modifikationen und Abwandlungen ohne Abweichung vom Schutzumfang der Erfindung gemäß den beigefügten Ansprüchen möglich.

Claims

Vorrichtung zum Codieren von Farbartdaten basierend auf Leuchtdichte-Forminformation in Form einer Matrix, wobei jedes Element innerhalb der Matrix dargestellt wird durch einen von zwei verschiedenen logischen Werten, die eine Außenseite und eine Innenseite eines Objekts in einer Video-Objektebene (VOP) repräsentieren, gekennzeichnet durch: Eine Einrichtung (100) zum Codieren der Leuchtdichte-Forminformation; eine Einrichtung (200) zum Decodieren der codierten Leuchtdichte-Forminformation, um dadurch Leuchtdichte-Forminformation zu generieren; eine Einrichtung (420) zum Erzeugen von Farbart-Forminformation unter Verwendung der Leuchtdichte-Forminformation; eine Einrichtung (400) zum Erzeugen rekonstruierter Farbart-Forminformation basierend auf der rekonstruierten Leuchtdichte-Forminformation; eine Einrichtung (440) zum Maskieren der Farbartdaten ansprechend auf die Farbart-Forminformation und zum Ausfüllen der maskierten Farbartdaten; eine Einrichtung (460) zum Auswählen der aufgefüllten Farbartdaten, die das Innere des Objekts repräsentieren, ansprechend auf die rekonstruierte Farbart-Forminformation; und eine Einrichtung (300) zum Codieren der ausgewählten aufgefüllten Farbartdaten, um dadurch codierte Farbartdaten zu produzieren.
Vorrichtung nach Anspruch 1, bei der die Farbart-Forminformations-Erzeugungseinrichtung (420) enthält: Eine Einrichtung zum Unterteilen der Leuchtdichte-Forminformation in eine Mehrzahl von Abtastblöcken, von denen jeder K × L Elemente mit K und L als positiven ganzen Zahlen enthält; eine Einrichtung zum Bestimmen eines Farbartwerts basierend auf sämtlichen logischen Werten jedes der Abtastblöcke; und eine Einrichtung zum Produzieren der Farbart-Forminformation in der Form einer Matrix, basierend auf den Farbartwerten für sämtliche der Abtastblöcke.
Vorrichtung nach Anspruch 2, bei der die Einrichtung zum Produzieren rekonstruierter Farbart-Forminformation (200) basierend auf der rekonstruierten Leuchtdichte-Forminformation, die rekonstruierte Farbart-Forminformation in ähnlicher Weise bestimmt, wie dies die Einrichtung (420) zum Generieren von Farbart-Forminformation tut.
Vorrichtung nach Anspruch 3, bei der die Auswahleinrichtung (460) enthält: Eine Einrichtung zum Aufteilen der rekonstruierten Farbart-Forminformation in eine Mehrzahl von Unterblöcken, die jeweils P × Q Pixel mit P und Q als positiven ganzen Zahlen enthalten; eine Einrichtung zum Zählen logischer Werte, die das Innere des Objekts in jedem der Unterblöcke repräsentieren; eine Einrichtung zum Auswählen der dem Unterblock entsprechenden aufgefüllten Leuchtdichtedaten, wenn mindestens ein logischer Wert existiert, der das Innere des Objekts in einem Unterblock repräsentiert.
Vorrichtung nach Anspruch 4, bei der die Einrichtung (420) zum Bestimmen des Farbartwerts enthält: Eine Einrichtung zum Bestimmen eines Mittelwerts durch Mitteln sämtlicher logischer Werte in jedem der Abtastblöcke; und eine Einrichtung zum Auswählen eines der beiden verschiedenen logischen Werte, der dem Mittelwert näher kommt, als Farbartwert.
Vorrichtung nach Anspruch 5, bei der der Farbartwert dann, wenn der Mittelwert gleich dem halben Wert einer Summe der beiden unterschiedlichen logischen Werte entspricht, so gewählt wird, dass er dem logischen Wert entspricht, der das Innere des Objekts in der VOP repräsentiert.
Vorrichtung nach Anspruch 4, bei der die Einrichtung (420) zum Bestimmen des Farbartwerts enthält: Eine Einrichtung zum Zählen der Anzahl des Auftretens jedes der logischen Werte in jedem der Abtastblöcke; und eine Einrichtung zum Auswählen eines der beiden logischen Werte, dessen Anzahl des Auftretens größer ist als die des anderen Werts, als Farbartwert.
Vorrichtung nach Anspruch 7, bei der der Farbartwert dann, wenn die Anzahl des Auftretens der beiden verschiedenen logischen Werte identisch ist, als derjenige logische Wert gewählt wird, der das Innere des Objekts in der VOP repräsentiert.