DE69725186T2 - Sprite-gestütztes videocodiersystem - Google Patents

Sprite-gestütztes videocodiersystem Download PDF

Info

Publication number
DE69725186T2
DE69725186T2 DE69725186T DE69725186T DE69725186T2 DE 69725186 T2 DE69725186 T2 DE 69725186T2 DE 69725186 T DE69725186 T DE 69725186T DE 69725186 T DE69725186 T DE 69725186T DE 69725186 T2 DE69725186 T2 DE 69725186T2
Authority
DE
Germany
Prior art keywords
mosaic
areas
image
background
foreground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69725186T
Other languages
English (en)
Other versions
DE69725186D1 (de
Inventor
Jean Regis CRINON
Ibrahim Muhammed SEZAN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Application granted granted Critical
Publication of DE69725186D1 publication Critical patent/DE69725186D1/de
Publication of DE69725186T2 publication Critical patent/DE69725186T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

  • Gebiet der Erfindung
  • Diese Erfindung bezieht sich auf einen Mechanismus, mit dem ein Sprite (auch Mosaik genannt) sowohl in einem Codierer als auch einem Decodierer automatisch gebildet wird, der in einer getrennten Form/Textur-Codierumgebung, wie beispielsweise der MPEG-4-Umgebung arbeitet. Wir erläutern ebenfalls Anwendungen, die diese Technologie benutzen wird.
  • Hintergrund der Erfindung
  • Ein Mosaikbild (die Begriffe Mosaik und Sprite werden austauschbar verwendet) wird aus Bildern eines bestimmten Szenenobjekts über mehrere Video-Frames gebildet. Beispielsweise wird ein Mosaik der Hintergrundszene im Fall einer schwenkenden Kamera zu einem Panoramabild des Hintergrunds führen.
  • Bei MPEG-4-Standardisierungsaktivitäten werden zwei Hauptarten von Sprites und Sprite-basierter Codierung definiert. Die erste Art wird offline statisches Sprite genannt. Ein offline statisches Sprite ist ein Panoramabild, das verwendet wird, um eine Sequenz von Schnappschüssen des gleichen Videoobjekts (wie beispielsweise des Hintergrunds) zu erzeugen. Jeder einzelne Schnappschuss wird erzeugt, indem einfach ein Warping von Abschnitten des Mosaiksinhalts durchgeführt und indem er den Videopuffer kopiert wird wobei der aktuelle Video-Frame rekonstruiert wird. Statische Sprites werden offline gebildet und als Seiteninformation übertragen. Beispiele des Bildens und Warping eines Sprite sind aus "WANG J Y A ET Al: 'REPRESENTING MOVING IMAGES WITH LAYERS' IEEE TRANSACTIONS ON IMAGE PROCESSING, Band 3, Nr. 5, 1. September 1994, Seiten 625 bis 638, XP000476836" und aus "IRANI M ET AL: 'Video Compression using mosaic representations' SIGNAL PROCESSING. IMAGE COMMUNICATION, Band 4, Nr. 7, November 1995, Seiten 529 bis 552, XP004047098" bekannt.
  • Die zweite Art von Mosaik wird online dynamisches Sprite genannt. Online dynamische Sprites werden bei der prädikativen Codierung eines Videoobjekts verwendet. Eine Prädiktion jedes Schnappschusses des Videoobjekts in einer Sequenz wird durch Warping eines Abschnitts des dynamischen Sprites erhalten. Das Restsignal wird codiert und verwendet, um das Mosaik in dem Codierer und Decodierer gleichzeitig zu aktualisieren. Der Inhalt eines dynamischen Mosaiks kann fortwährend aktualisiert werden, um die neueste Videoobjektinformation zu enthalten. Im Gegensatz zu statischen Sprites werden dynamische Sprites gleichzeitig in dem Codierer und Decodierer online gebildet. Folglich muss keine zusätzliche Information übertragen werden.
  • Zusammenfassung der Erfindung
  • Wir haben eine Syntax für MPEG-4 beschrieben, die eine vereinheitlichte Syntax für offline statische Sprite- und online dynamische Sprite-basierte Codierung bereitstellte. Unsere Syntax ermöglicht ebenfalls neue Betriebsarten, die wir als "dynamisches offline Sprite-basiertes Codieren" bezeichnen, wobei prädiktives Codieren auf der Grundlage eines offline Sprite (im Gegensatz zum direkten Kopieren des verzogenen (warped) Sprite, wie in dem Fall von offline statischen Sprites) und "online statisches Sprite-basierte Codieren" durchgeführt wird, wobei der Codierer und der Decodierer die weitere Bildung des Sprites anhalten und es als ein statisches Sprite verwenden, egal ob es teilweise oder vollständig fertig gestellt ist.
  • Sowohl offline statisches als auch online dynamisches Sprite-basiertes Codieren erfordert ein Aufbauen eines Sprite. Im erstgenannten Fall wird das Sprite vor der Übertragung gebildet. Im letztgenannten Fall wird das Sprite online während der Übertragung gebildet. Bisher wurde von MPEG-4 angenommen, dass der Umriss (die Segmentierung) des Objekts, für das das Sprite zu bilden ist, a priori bei jedem Zeitpunkt bekannt ist. Obwohl dies bei bestimmten Anwendungen, insbesondere bei der Postproduktion oder der Inhalterzeugung mittels Blaustanztechniken, zutrifft, sollte eine automatische Segmentierung im Allgemeinen ein integraler Teil der Spritebildung sein. Es besteht daher ein Bedarf nach Sprite-basierten Codiersystemen, bei denen die Spritebildung keine a priori Kenntnis der Szenensegmentierung erfordert.
  • Bei dieser Offenbarung beschreiben wir ein Sprite-basiertes Codiersystem (Codierer und Decodierer), wobei die Spritebildung und die Segmentierung des Spriteobjekts automatisch ist, und bei der Spritebildung sowie auch dem Codierprozess integriert ist.
  • Wir nehmen an, dass das Spriteobjekt von dem Rest der Videoobjekte auf der Grundlage seiner Bewegung unterschieden werden kann. Wir nehmen an, dass sich das Spriteobjekt gemäß der dominante Komponenten der Szenenbewegung bewegt, die gewöhnlicherweise auf der Kamerabewegung oder dem Zoom beruht. Folglich benutzt unser System die dominante Bewegung, die Fachleuten bekannt ist.
  • Unser System ist für einen Videoobjekt-basierten Codierrahmen, wie beispielsweise dem MPEG-4-Rahmen geeignet, wobei Form und Textur einzelner Videoobjekte getrennt codiert werden. Die in dem beschriebenen System integrierte automatische Segmentierung identifiziert die Form und Textur des Spriteobjekts.
  • Es gibt verschiedene mögliche Anwendungen der Erfindung: Bei Anwendungen mit sehr niedrigen Bitraten kann die Codierung von Video-Frames hinsichtlich darin befindlicher Videoobjekte kostspielig sein, da die Form derartiger Objekte einen bedeutenden Anteil des begrenzten Bit-Budgets verbrauchen kann. In derartigen Fällen kann unser System auf das Framebasiertes Codieren zurückfallen, wobei die automatische Segmentierung nur verwendet wird, um eine bessere Schätzung der dominanten Bewegung zur Spritebildung und der dominanten bewegungskompensierten Prädiktion verwendet wird, wie es in dem Abschnitt "Vorgänge" hier später beschrieben wird.
  • Das beschriebene Codiersystem weist Merkmale auf, die es für Anwendungen geeignet macht, bei denen sich die Kameraansicht häufig verändern kann, wie beispielsweise bei einer Videokonferenz mit mehreren Kameras oder einer Talkshow, die mit mehr als einer Kamera erfasst wird. Unser System kann auf die Bildung mehrerer Sprites und auf die Verwendung dieser Kamera nach Bedarf angewendet werden. Beispielsweise werden, wenn die Kamera zwischen zwei Teilnehmern vor zwei unterschiedlichen Hintergründen vor- und zurückgeht, werden zwei Hintergrund-Sprites gebildet und nach Bedarf verwendet. Genauer gesagt wird, wenn der Hintergrund A sichtbar ist, die Bildung des Sprite für den Hintergrund B und seine Verwendung beim Codieren ausgesetzt, bis der Hintergrund B erneut erscheint. Die Verwendung mehrerer Sprites auf diese Art und Weise ist innerhalb des MPEG-4-Rahmens möglich, wie es in dem Abschnitt "Vorgänge" beschrieben wird.
  • Das offenbarte System erzeugt ein Sprite während des Codierprozesses, wie es hier später beschrieben wird. Das resultierende Sprite kann jedoch anschließend nach dem Codieren als ein repräsentatives Bild des komprimierten Videoausschnitt verwendet werden. Seine Merkmale können verwendet werden, um die Merkmale des Videoausschnitt zu identifizieren, die dann bei der Merkmal-basierten (oder Inhalt-basierten) Speicherung und Wiedergewinnung des Videoausschnitt verwendet werden können. Folglich liefert die Sprite-basierte Codierung eine natürliche Anpassung für das Belegen einer Videobibliothek von Bit-Strömen, wobei während des Codierprozesses erzeugte Sprite-Bilder als repräsentative Bilder der Videoausschnitte wirken. In der Tat können die Mosaike ebenfalls unter Verwendung eines Standbildcodierverfahrens codiert werden. Ein derartiges Videobibliotheksystem wird in 5 dargestellt.
  • Auf eine ähnliche Art und Weise können eine oder mehrere Ereignislisten einem Hintergrund-Sprite zugeordnet sein. Eine mögliche Wahl für eine Ereignisliste ist der Satz von aufeinander folgenden Positionen eines oder mehrerer Scheitelpunkte, die zu jedem Vordergrundobjekt gehören. Eine derartige Liste kann dann verwendet werden, um ein repräsentatives Token-Bild der Vordergrundobjektposition in dem Sprite zu erzeugen. Aufeinander folgende Positionen jedes Scheitelpunkts könnten entweder durch eine gerade Linie verknüpft werden oder eine verschiedene Farbe gemeinsam nutzen. Die aufeinander folgenden Positionen des Scheitelpunkts können statisch (alle aufeinander folgenden Positionen im gleichen Sprite) oder dynamisch (Scheitel-Positionen, die aufeinander folgend im Takt gezeigt werden) gezeigt werden. Ein Scheitelpunkt kann hier ausgewählt werden, um jedem kennzeichnenden Merkmal des Vordergrundobjekts, wie beispielsweise dem Schwerpunkt oder einen hervorspringenden Punkt in der Form des Objekts, zu entsprechen. Im letztgenannten Fall und wenn mehrere Scheitelpunkte gleichzeitig verwendet werden, könnten die Scheitelpunkte gemäß einer hierarchischen Beschreibung der Objektform angeordnet sein. Mit dieser Technik hat ein Benutzer oder eine Präsentationsschnittstelle die Freiheit, zwischen groben bis feineren Formen zu wählen, um fortlaufende Vordergrundobjektpositionen in dem Hintergrund-Sprite zu zeigen. Dieses Konzept kann bei einem Videobibliotheksystem verwendet werden, um Inhalt basierend auf Bewegungscharakteristika des Vordergrunds wiederzugewinnen.
  • Der automatische Sprite-Bildungsabschnitt des beschriebenen Systems kann in einem offline Modus bei einer Videokonferenzanwendung verwendet werden, wobei das offline Sprite vor der Übertragung gebildet wird. Die Darstellung eines derartigen Systems ist in 6 gezeigt. Das beschriebene System kann ebenfalls ein Sprite erzeugen, das eine höhere räumliche Auflösung als die ursprünglichen Bilder aufweist.
  • Kurzbeschreibungen der Zeichnungen
  • 1 veranschaulicht die Schritte, die bei dem Verfahren der Erfindung zur Zeit t – 1 verwendet werden.
  • 2 veranschaulicht die Schritte, die bei dem Verfahren der Erfindung zur Zeit t bis t + 1 verwendet werden.
  • 3 veranschaulicht die Schritte, die bei dem Verfahren der Erfindung zur Zeit t1 bis t + 2 verwendet werden.
  • 4 ist ein Blockdiagramm des Verfahrens der Erfindung.
  • 5 ist ein Blockdiagramm des Systems der Erfindung.
  • 6 stellt das System und das Verfahren der Erfindung dar, wie es bei einem Videokonferenzsystem verwendet wird.
  • 7 stellt dar, wie aufeinander folgende Abschnitte eines Vordergrundobjekts in einem Mosaik erfindungsgemäß dargestellt werden können.
  • Ausführliche Beschreibung der bevorzugten Ausführungsformen
  • Das beschriebene Verfahren ist ausgestaltet, um fortlaufend zu lernen, den Vordergrund von dem Hintergrund zu trennen, während ein Hintergrundmosaik zur gleichen Zeit gebildet wird. Schritte 1 bis 10 werden wiederholt, bis der Aufbau des Hintergrunds abgeschlossen ist oder bis er abgebrochen wird.
  • Annahmen
  • Die Notationen sind wie folgt:
    I(s,t) bezeichnet den Inhalt eines Video-Frame bei der räumlichen Position s und zur Zeit t.
  • Wt←(t–1) (I(s, t – 1)) bezeichnet einen Warping-Operator, der das Bild zur Zeit (t – 1) in die Zeit t abbildet. Für eine vorgegebene Pixelposition s0 in einem Videopuffer zur Zeit t wird dieser Warping-Vorgang durch Kopieren des Pixelwertes an der entsprechenden Position s im Frame (t – 1) durchgeführt. Die Korrespondenz zwischen der Position s0 und der Position s wird durch eine besondere und gut definierte Transformation, wie beispielsweise einer affine oder perspektivischen Transformation, aufgebaut.
  • Figure 00080001
    (s, t) ist ein Indikatorpuffer, beispielsweise für eine Größe x, der entweder 1 oder 2 Bit tief für jede räumliche Position s sein kann.
  • Thresh ist ein Schwellenwert. Die Operationen ≤ Thresh und > Thresh sind symbolisch und können komplexe Schwellenwertoperationen darstellen.
  • Die Größe (je Farbkomponente) des aktuellen Bild-Frame I(s, t) ist Mt × Nt, und die Größe des vorher komprimierten/dekomprimierten Frame nach dem Warping Wt←(t–1)(C–1C{I(s, t – 1)}) ist derart, das es in ein rechteckiges Array von Mt–i × Nt–i Pixeln eingeschrieben werden kann.
  • Das Sprite M(s, t) ist ein Bildintensitäts(Textur)-Puffer der Größe Mm × Nm je Farbkomponente. Das Feld
    Figure 00090001
    (s, t) ist ein Einkomponentenfeld der gleichen Größe.
  • Die Bildung des Sprite wird zur Zeit t gestartet. Das Bild I (s, t – 1) wurde bereits komprimiert und dekomprimiert und ist sowohl beim Codierer als auch beim Decodierer verfügbar.
  • Bei den folgenden Schritten wird angenommen, dass der Bildinhalt einen Hintergrund- und einen Vordergrundteil (oder VO) aufweist und ein Mosaik des Hintergrunds gebildet ist.
  • Schritt 1: Initialisierung
  • Mit Bezug nun auf 1 bis 3 werden die Ergebnisse der Schritte des in dem vorhergehenden Abschnitt beschriebenen Verfahrens dargestellt. 1 veranschaulicht Schritte 0 bis 11 von der Zeit t – 1, dem Moment, wenn die Mosaikbildung initiiert wird, zu der Zeit t, wenn ein neuer Video-Frame oder ein neues Videofeld erfasst wurde. 2 und 3 veranschaulichen Schritte 2 bis 11 von der Zeit t bis t + 1 bzw. der Zeit t + 1 bis t + 2. An der oberen linken Ecke in jeder dieser (A) ist der neuerfasste Video-Frame gezeigt, der mit dem vorhergehenden Video-Frame (nächstes Bildfeld zu der rechten) (B) verglichen wird, sobald er komprimiert/dekomprimiert und verzogen (warped) wurde (Schritt 2). Schritt 3 wird durch das am weitesten rechts befindliche Bildfeld (C) in der ersten Reihe jeder Figur veranschaulicht. Dieses Feld zeigt den Bereich, wo die Inhaltsänderung erfasst wurde. Der Status des Mosaikpuffers ist in dem am weitesten links befindlichen Bildfeld in der zweiten Reihe (D) gezeigt. Dieser Puffer wird verwendet, um die neuen Hintergrundbereiche zu identifizieren, wie es bei Schritt 4 beschrieben ist. Diese Bereiche entsprechen Regionen, bei denen der Hintergrund bis jetzt nicht bekannt war. Die Vordergrundidentifikation wird durch das das am weitesten rechts befindliche Bild in der zweiten Reihe (F) veranschaulicht. Diesem Bild zugeordneten Operationen werden bei Schritt 5 beschrieben, die die Abbildungsänderung, das Mosaik und die neuen Hintergrundbereiche verwenden, um den Vordergrund zu definieren. Schritte 6 und 7 des Verfahrens werden durch die beiden am weitesten links befindliche Bildfelder in der dritten Reihe (G, H) veranschaulicht. Hier kommt die Hintergrundinformation von der komprimierten/dekomprimierten Vordergrundinformation, die bei dem vorhergehenden Schritt erhalten wurde. Schließlich wird der Mosaikaktualisierungsprozess durch das untere rechte Bildfeld (I) veranschaulicht. Dieser Prozess findet bei den Schritten 8, 9, 10 und 11 des Verfahrens statt.
  • Das binäre Feld
    Figure 00100001
    (s, t) wird auf 0 für jede Position s in dem Puffer initialisiert, was bedeutet, dass der Inhalt des Mosaiks an diesen Positionen unbekannt ist.
  • Der Inhalt des Mosaikpuffers M (s, t) wird auf 0 initialisiert.
  • Die Warping-Parameter von dem aktuellen Video-Frame I(s, t – 1) zu dem Mosaik werden initialisiert, um Wt0←(t–1)( ) zu sein, wobei t0 hier eine beliebige fiktive Zeit darstellt. Dieses anfängliche Warping ist bedeutsam, da es einen Weg vorsieht, um die "Auflösung" oder den "Zeitbezug" zu spezifizieren, die/der verwendet wird, um das Mosaik zu bilden. Mögliche Anwendungen dieses anfänglichen Abbildung bestehen darin, ein Mosaik mit einer superräumlichen Auflösung oder der Auswahl einer optimalen Zeit t0 zu erstellen, die das durch das Verfahren eingeführte Verzerrung minimiert. Diese anfänglichen Warping-Parameter werden an den Decodierer übertragen.
  • Schritt 2: Erfassung
  • Das Bild I(s, t) wird erfasst, und die Vorwärts-Warping-Parameter zum Abbilden des Bildes I(s,t – 1) auf I(s, t) werden berechnet. Die Anzahl von Warping-Parametern sowie auch das Verfahren zum Schätzen dieser Parameter werden hier nicht spezifiziert. Ein dominanter Bewegungsschätzungsalgorithmus, wie beispielsweise derjenige, der in [4] angegeben wird, kann verwendet werden. Die Warping-Parameter werden mit den aktuellen Warping-Parametern aufgebaut, was zu der Abbildung Wt←t0( ) führt. Diese Parameter werden an den Decodierer übertragen.
  • Schritt 3: Änderung im Inhalt zwischen einem vorher codierten/decodierten Frame und dem aktuellem Frame erfassen.
    • i) Initialisierung eines großen Puffers der Größe Mb × Nb, der größer als das Bild (Mb > Mt, Nb > Nt) und möglicherweise so groß wie das Mosaik ist. Der Puffer ist an jeder Position 2 Bit tief. Der Puffer wird auf 3 initialisiert, um einen unbekannten Status anzugeben.
      Figure 00120001
    • ii) (Bewegungskompensierte) Szenenänderungen über gemeinsame Bildunterstützung berechnen. Die Kennung 0 allen Positionen geben, bei denen die Änderung im Inhalt als klein angesehen wird. Die Kennung 1a den Positionen geben, bei denen die erfasste Änderung groß ist. Um Regionen homogener zu machen, zusätzliche Operationen (z. B. morphologische Operationen) implementieren, die die Kennung entweder von 1a auf 0 zurücksetzen oder die Kennung von 0 auf 1a setzen. Mit 0 gekennzeichnete Regionen werden typischerweise als Teil des Hintergrundvideoobjekts betrachtet und als Teil dieses codiert, während mit 1a gekennzeichnet Regionen typischerweise als Teil des Vordergrundvideoobjekts codiert werden.
      Figure 00120002
      wobei Treschange einen vordefinierten Schwellenwert bezeichnet.
    • iii) Neue Bildregionen, bei denen die Unterstützung eines Bildes zur Zeit t nicht mit der Unterstützung eines Bildes zur Zeit t (t – 1) überlappt, als
      Figure 00120003
      kennzeichnen.
  • Schritt 4: Neue Hintergrundbereiche identifizieren
  • Ein neuer Hintergrundbereich wird erfasst, wenn es keine Änderung im Bildinhalt in den letzten beiden Video-Frames gegeben hat. Der entsprechende Bereich in dem Mosaik muss ebenfalls angeben, dass der Hintergrund bei dieser Position unbekannt ist. Der resultierende neue Hintergrundbereich wird an allen benachbarten Regionen angefügt, wo der Hintergrund bekannt ist. Wie es bei späteren Schritten ersichtlich wird, muss die Aufnahme neuer Hintergrunddaten in das Mosaik gemäß der komprimierten/dekomprimierten Hintergrundforminformation durchgeführt werden, um jegliche Verschiebung zwischen dem Codierer und Decodierer zu vermeiden.
  • Figure 00130001
  • Hier bedeutet der Indikatorwert 0, dass der Hintergrund unbekannt ist.
  • Schritt 5: Vordergrund/Hintergrundsegmentierung durchführen
  • Zuerst seien Regionen betrachtet, bei denen der Hintergrund bekannt ist
    Figure 00130002
    (s, t – 1) = 1). Eine Schwellenwertbildung durchführen, um den Vordergrund von dem Hintergrund zu unterscheiden (Fall (i)). Für Regionen, bei denen der Hintergrund nicht bekannt ist, als Vordergrund alle Regionen kennzeichnen, bei denen Änderungen aufgetreten sind (bei Schritt 3 definierte Kennung 1a und 1b) (Fälle (iii) und (iv)).
  • Fall (ii) stellt neue Hintergrundbereiche dar, die von der Teilnahme am Vordergrund ausgeschlossen sind.
    Figure 00140001
    wobei Threshfg ein vordefinierter Schwellenwert ist, der hier verwendet wird, um Vordergrund vom Hintergrund zu abzusondern.
  • Figure 00140002
  • In den Fällen (iii) und (iv) wird eine Unterklassifizierung der als 1 gekennzeichnete Regionen in einer der beiden Regionen 1a oder 1b für den alleinigen Zweck verwendet, dem Codierer die Flexibilität bereitzustellen, unterschiedlichen Makroblock-Auswahlregeln folgen zu können.
  • Beispielsweise könnten als 1a gekennzeichnete Regionen vorzugsweise mit Inter-Frame-Makroblöcken codiert werden, da diese Regionen über gemeinsame Bildunterstützung auftreten. Andererseits könnten mit 1b gekennzeichnete Regionen vorzugsweise mit Intra-Frame-Makroblöcken codiert sein, da diese Regionen keine gemeinsame Unterstützung mit dem vorhergehenden Frame teilen.
  • Schritt 6: Komprimieren/Dekomprimieren von Form und Textur des Vordergrunds
  • Den herkömmlichen (I, P oder B-VOP) Prädiktionsmodus verwenden, um als 1a und 1b gekennzeichnete Vordergrundregionen zu codieren. In dem Fall von P oder B-VOPs können einzelne Makroblöcke entweder die Inter-Frame-Prädiktion oder die Intra-Frame-Codierung verwenden. Die den mit 1b gekennzeichneten Regionen entsprechenden Pixel (neu offenbarter, im Mosaik nicht dargestellter Hintergrund) werden bevorzugt als Intra-Makroblöcke codiert. Die Form des Vordergrunds wird komprimiert und ebenfalls übertragen. Sobald dekomprimiert, wird diese Form von dem Codierer und Decodierer verwendet, um den Inhalt des Mosaiks zu aktualisieren. Dieser Prozess kann mittels des MPEG-4 VM 5.0[3] durchgeführt werden.
  • Schritt 7: Hintergrundform Erhalten
  • Hintergrundform aus der komprimierten/de komprimierten Vordergrundform erhalten. Die Komprimierung/Dekomprimierung ist hier notwendig, um sicherzustellen, dass der Codierer und der Decodierer die gleiche Forminformation teilen.
    Figure 00160001
    wobei C–1C{ } eine Formcodierung/Decodierung bezeichnet, die beispielsweise durchgeführt werden kann, wie es in (3) beschrieben ist.
  • Schritt 8: Neue Hintergrundtextur im Mosaik initialisieren
  • Regionen identifizieren, bei denen ein neuer Hintergrund aufgetreten ist, und Mosaik mit in vorhergehenden Video-Frame gefundenen Inhalt initialisieren (Zeit (t – 1)). Es sei bemerkt, dass das Feld
    Figure 00160002
    (s, t) hier nicht verwendet werden kann, da diese Information dem Decodierer unbekannt ist.
  • Figure 00160003
  • Schritt 9: Hintergrundtexturreste aus der Mosaik-Prädiktion berechnen
  • Falls
    Figure 00170001
    (s, t) = = 1, das Differenzsignal durch Verwenden von Mosaikinhalt als Prädiktor berechnen. Das resultierende ΔI(s, t) wird verwendet, um das Differenzsignal über den gesamten Makroblock zu berechnen, bei dem das Pixel (s, t) lokalisiert ist. Dieses Differenzsignal wird mit herkömmlichen Differenzsignalen verglichen, die durch Verwenden einer Prädiktion von dem vorhergehenden und dem nächsten Video-Frame (P oder B-Prädiktionsmodus) erzeugt wurden. Die Makroblockart wird gemäß dem besten Prädiktionsmodus ausgewählt. Das Restsignal wird zusammen mit der komprimierten Hintergrundform an den Decodierer übertragen, wie es in [2] beschrieben ist.
  • ΔI(s, t) = I(s, t) – Wt←t0(M' (s, t – 1))
  • Schritt 10: Hintergrundform im Mosaik aktualisieren
  • Die Mosaikabbildung aktualisieren, um die Form des neuen Hintergrundes aufzunehmen.
  • Figure 00170002
  • Schritt 11: Mosaik aktualisieren
  • Den Inhalt des Mosaiks in Regionen aktualisieren, die dem neuen oder nicht abgedeckten Hintergrund im Frame t entsprechen.
  • Figure 00180001
  • Die Auswahl des Wertes des Mischparameters α(0 < α < 1) bei der obigen Gleichung ist anwendungsabhängig.
  • Das oben beschriebene Verfahren bildet das Mosaik mit Bezug auf die Zeit t0, die ein Zeitpunkt in der Vergangenheit, die aktuelle Zeit oder ein zukünftiger Zeitpunkt sein kann. Es ist problemlos, die obigen Gleichungen für den Fall umzuschreiben, bei dem das Mosaik kontinuierlich zu dem aktuellen Zeitpunkt t verzogen (warped) ist.
  • In 4 wird ein Blockdiagramm des Verfahrens dargestellt. Der Zweck dieser Zeichnung besteht darin, die Abhängigkeiten bei den verschiedenen Komponenten und Größen hervorzuheben, die von dem Verfahren der Erfindung verwendet werden. Sie hebt ebenfalls die verschiedenen Warping- und Nicht-Warping-Stufen hervor, die notwendig sind, um aufeinander folgende Videofelder auszurichten.
  • 5 zeigt ein Blockdiagramm des digitalen Videodatenbanksystems, das das Verfahren der aktuellen Erfindung verwendet.
  • 6 zeigt ein Blockdiagramm eines Videokonferenzsystems, das ein offline gebildetes Hintergrund-Sprite als dynamisches Sprite während der Übertragung verwendet.
  • 7 zeigt ein Beispiel, wie aufeinander folgende Positionen eines Vordergrundobjekts (hier ein Auto) in einem Mosaik dargestellt werden können, indem die fortlaufenden Positionen eines oder mehrerer hervorspringender Punkte (V) aufgetragen werden, die zu der Form des Vordergrundes gehören. Die Farbe der Scheitelpunkte wird von t0 zu t0 + 1 und von t0 + 1 zu t0 + 2 geändert, um jede Verwechslung zu vermeiden. Bei diesem Beispiel werden die Scheitelpunkte in dem Mosaik statistisch gezeigt, und sie erfassen nur eine Ebene der Formbeschreibung.
  • Vorgänge der verschiedenen Ausführungsformen
  • Ein Mosaik-basiertes Videokonferenz- und Videophone-System.
  • Mit Bezug nun auf 5 und 6 kann das Kommunikationsprotokoll eine Konfigurationsphase (Zeit einstellbar) aufweisen, währenddessen ein online Hintergrundmosaik gebildet wird. Während dieses Zeitraums verwendet jedes Videophone die kleinen Verschiebungen des Kopfes und der Schulter, um ein Hintergrundmosaik zu bilden. Die Verschiebungen des Vordergrundes können freiwillig (System führt Benutzer) oder nicht (keine Verstärkung in dem Codierungswirkungsgrad, wenn sich der Vordergrund nicht bewegt) sein. In diesem Fall wird das oben beschriebene Verfahren verwendet, um das Hintergrundmosaik zu bilden. Während normaler Videoübertragung wird das Mosaik als ein dynamisches Sprite verwendet, und der Mischfaktor wird auf 0 eingestellt, um jede Aktualisierung zu verhindern. In diesem Fall können Makroblockarten dynamisch oder statisch sein. Bei einem extremen Fall sind alle Makroblöcke Makroblöcke von der statischen Art, was bedeutet, dass das Hintergrundmosaik als ein statisches Sprite verwendet wird. Bei einem weiteren extremen Fall sind alle Makroblöcke von der dynamischen Art, und das Mosaik wird als ein dynamisches (prädiktives) Sprite verwendet. Dieser letztere Fall erfordert eine höhere Datenübertragungsbandbreite. Alternativ kann ein Mosaik der Hintergrundszene vor der Übertragung gebildet und dann als statisches oder ein dynamisches Sprite während der normalen Übertragungssitzung verwendet werden.
  • Eine Mosaik-basierte Videodatenbank
  • Das obige Verfahren kann beim Belegen und Durchsuchen einer Datenbank von Video-Bitströmen, d. h. einer Datenbank von komprimierten Bitströmen, verwendet werden. Bei einem derartigen System werden Videoausschnitte unter Verwendung des obigen Verfahrens komprimiert. Das Ergebnis ist ein komprimierter Bitstrom und ein während des Codierprozesses erzeugtes Mosaik. Das Mosaikbild kann als ein repräsentatives Bild des Videoausschnitt-Bitstroms verwendet werden, und seine Merkmale können beim Indizieren und Wiedergewinnen des zu diesem Videoausschnitt gehörenden Bitstroms verwendet werden.
  • Außerdem kann eine Bewegungs-Trajektorie des Vordergrunds auf dem Mosaik überlagert werden, um dem Benutzer eine grobe Beschreibung der Vordergrundbewegung in der Sequenz zu liefern. Die Trajektorie eines Vordergrundobjekts kann durch einen Satz von Punkten dargestellt werden, wobei jeder die Position eines besonderen Merkmals des Vordergrundobjektes bei einem gegebenen Moment darstellt. Die Merkmalpunkte können hervorstehende Scheitelpunkte der Objektform sein. Eine hierarchische Beschreibung der Objektform würde den zusätzlichen Vorteil bringen, es der Datenbankschnittstelle zu ermöglichen, grobe bis feine Formumrisse in dem Mosaik zu überlagern. Aufeinander folgende Scheitelpunktpositionen können zusammen in dem gleichen Hintergrundmosaik gezeigt oder könnten fortlaufend in Takt mit der gleichen Mosaikunterstützung angezeigt werden. Es sei bemerkt, dass dieser Gedanke den zusätzlichen Nutzen vorsieht, eine bewegungsbasierten Wiederherstellung zu ermöglichen, da die Bewegung des Vordergrunds im Mosaikbezugsraum dargestellt wird.
  • Mit Bezug nun auf 7 ist das Hintergrundmosaik aus Gras, Himmel, Sonne und Baum zusammengesetzt. Das Vordergrundobjekt ist ein Auto, das einer beschleunigten Bewegung unterworfen wird und sich von links nach rechts bewegt. Die Form des Autos ist in schwarz gezeigt. Acht Scheitelpunkte "V" wurden ausgewählt, um diese Form darzustellen. 7 zeigt, dass fortlaufende Positionen des Autos in dem Mosaik durch einfaches Auftragen der Scheitelpunkte an ihren aufeinander folgenden Positionen dargestellt werden können. Die Farbe der Scheitelpunkte wird von t0 bis t0 + 1 und von t0 + 1 bis t0 + 2 geändert, um jede mögliche Verwechslung zu vermeiden. Bei diesem Beispiel sind die Scheitelpunkte in dem Mosaik statistisch gezeigt, und sie erfassen nur eine Ebene der Formbeschreibung. Schließlich kann das Mosaik als ein Ikon verwendet werden. Durch Klicken auf das Mosaikikon, würde der Benutzer eine Wiedergabe der Sequenz auslösen.
  • Unterstützung von mehreren Mosaiken bei Anwendungen mit häufigen Szenenänderungen
  • In dem Fall, bei dem die Videosequenz schnelle und häufige Änderungen von einer Szene zu einer anderen aufweist, wie es der Fall bei Videokonferenzanwendungen sein kann, ist es wünschenswert, zwei oder mehr (abhängig davon, wie viele unabhängige Szenen es gibt) Mosaike gleichzeitig zu bilden. Mehr als ein Mosaik zwingt jedoch das System nicht, die Bildung eines neuen Mosaiks jedes Mal erneut zu initiieren, wenn ein Szenenschnitt auftritt. Bei diesem Rahmen wird ein Mosaik nur verwendet und aktualisiert, wenn die codierten Video-Frames einen ähnlichen Inhalt gemeinsam nutzen. Es sei bemerkt, dass mehr als ein Mosaik auf einmal aktualisiert werden kann, da sich Mosaike überlappen können.
  • Optimales Darstellungsfeld
  • Die beliebige Abbildung W(t–1)←t0( ), die am Anfang des Verfahrens verwendet wurde, kann verwendet werden, um die optimale räumliche Darstellungsdomäne für das Mosaik darzustellen, wobei Verzerrung und Artefakte minimiert werden. Obwohl dies an diesem Punkt ein offenen Problem ist, das eine weitere Untersuchung von unserer Seite erfordert, gibt es wenig Zweifel, das die Möglichkeit existiert, eine optimale Mosaikdarstellung zu finden, bei der Zweideutigkeiten (Parallaxenprobleme) und/oder Verzerrung gemäß einem vorbestimmten Kriterium minimiert werden.
  • Verbesserte Auflösung
  • Auf die gleiche Art und Weise kann die beliebige Abbildung W(t–1)←t0( ) einen Vergrößerungsfaktor aufweisen, der die Wirkung eines Bildens eines Mosaiks aufweist, dessen Auflösung möglicherweise 2, 3 oder N mal größer als die Auflösung der Video-Frames ist, die verwendet werden, um es zu bilden. Der beliebige feste Vergrößerungsfaktor liefert einen Mechanismus, mit dem anteilmäßige Warping- Verschiebungen über aufeinander folgende Video-Frames als ganzzahlige Verschiebungen in dem Mosaik aufgezeichnet werden. Je größer der Vergrößerungsfaktor ist, desto länger muss die Sequenz sein, bevor das Mosaik fertiggestellt werden kann (es sind mehr Pixelpositionen aufzufüllen). Der MPEG-4-Rahmen ermöglicht die Implementierung eines derartigen Schemas.
  • Wir bezeichnen diese beliebige Abbildung mit Wres( ). Im linearen Fall ist dieser Operator die Identitätsmatrix multipliziert mit einem konstanten Skalar größer als 1. Dieser Skalierungsfaktor definiert den für das Mosaik verwendeten Vergrößerungsfaktor. Die bei Schritt 11 gezeigte Mosaikaktualisierungsgleichung kann wie folgt umgeschrieben werden:
    Figure 00230001
  • Diese Gleichung zeigt, dass das Mosaik bei der festen Zeit t0 gebildet wird, die die dem ersten Video-Frame entsprechende Zeit, die dem letzten Frame entsprechende Zeit oder irgendeine Zeit dazwischen sein kann. In diesem Fall wird die beliebige Abbildung Wres( ) immer mit der Warping-Transformation Wt0←t aufgebaut. Wenn das Mosaik kontinuierlich zu dem aktuellen Video-Frame hin verzogen (warped) ist, muss die Aktualisierungsgleichung wie folgt neu geschrieben werden:
    Figure 00230002
  • Die obige Gleichung zeigt, dass die beliebige Abbildung Wres( ) nicht länger mit dem Frame-Frame-Warping-Operator Wt←(t–1) aufgebaut ist, sondern anstatt auf die komprimierten/dekomprimierten Reste angewendet wird. Beim MPEG-4 kann der beliebige Operator Wres( ) mit einer geeigneten Erweiterung der Syntax als der erste Satz von Warping-Parametern übertragen werden, die gegenwärtig nur eine Positionierung des ersten Video-Frame in dem Mosaikpuffer über eine Translationsverschiebung unterstützen.
  • Codierung von Videosequenzen bei sehr niedrigen Bitraten.
    • – Bei Anwendungen mit sehr niedrigen Bitraten kann die Übertragung von Forminformation zu einem unerwünschten Zusatzaufwand werden. Das oben beschriebene Verfahren kann immer noch arbeiten, wenn die Übertragung der Forminformation abgeschaltet wird. Dies wird erreicht, indem die Hintergrundform bei jedem Pixel auf 1 (Schritt 7) und der Mischfaktor α auf 1 (Schritt 11) eingestellt werden. Die letztgenannte Einstellung garantiert, dass das Mosaik immer die neuste Videoinformation anzeigen wird, was in dieser Situation eine Notwendigkeit ist, da der Vordergrund in dem Mosaik enthalten ist. In dieser Situation können die Makroblöcke entweder von der Intra-, Inter-, statischen Sprite- oder dynamischen Sprite-Art sein. Das Sprite wird als ein statisches Sprite verwendet, wenn alle Makroblöcke von der statischen Art sind. Dies ist die wahrscheinlichste Situation für eine Anwendung mit einer sehr niedriger Bitrate, da in diesem Fall kein Rest übertragen wird. Das Sprite wird als ein dynamisches Sprite verwendet, wenn alle Makroblöcke von der dynamischen Art sind.

Claims (10)

  1. Verfahren zum Aufbauen in einer Codierumgebung eines Mosaiks, das eine Zusammensetzung von mehreren Bildern darstellt, mit: Erzeugen eines Mosaiks aus einem ersten Bild; Segmentieren eines zweiten Bildes in Hintergrundbereiche und Vordergrundbereiche durch Identifizieren von Änderungen zwischen dem verformten (warped) zweiten Bild und dem Mosaik; Aktualisieren des Mosaiks nur mit den segmentierten Hintergrundbereichen des zweiten Bildes, wobei das Verfahren umfasst: a) Identifizieren von Bereichen, die sich zwischen dem ersten und zweiten Bild verändert haben; b) Segmentieren von Hintergrundbereichen in dem zweiten Bild, wobei zugeordnete Bereiche in einem aktuellen Mosaik unbekannt sind, und wobei es keine identifizierten Änderungen in den zugeordneten Bereichen der ersten und zweiten Bilder gegeben hat; c) Segmentieren von Hintergrundbereichen in dem zweiten Bild, wo es keine identifizierten Änderungen zwischen dem zweiten Bild und den zugeordneten Bereichen in dem aktuellen Mosaik gegeben hat; d) Segmentieren von Vordergrundbereichen in dem zweiten Bild, wo es keine Änderungen zwischen dem zweiten Bild und den zugeordneten Bereichen in dem aktuellen Mosaik gegeben hat; e) Segmentieren von Vordergrundbereichen in dem zweiten Bild, wo es identifizierte Änderungen zwischen ersten Bild und dem zweiten Bild gegeben hat und zugeordnete Bereiche in dem aktuellen Mosaik unbekannt sind; und f) Segmentieren von Vordergrundbereichen in dem zweiten Bild, wo es identifizierte Bereiche gegeben hat, die nur in dem zweiten Bild existieren, und zugeordnete Bereiche in dem aktuellen Mosaik unbekannt sind.
  2. Verfahren gemäß Anspruch 1, bei dem die zugeordneten Bereiche in dem Mosaik hergeleitet werden, indem zuerst das Mosaik verformt und dann die gleichen Pixelstellen in dem zweiten Bild und dem verformten Mosaik verglichen werden.
  3. Verfahren gemäß Anspruch 1 mit einem Markieren von Hintergrund- und Vordergrundbereichen in dem zweiten Bild gemäß den segmentierten Bereichen.
  4. Verfahren gemäß Anspruch 3 mit: Darstellen der Hintergrundbereiche in dem zweiten Bild durch Codieren und Decodieren der die Vordergrundbereiche identifizierenden Forminformation; und Markieren aller Nicht-Vordergrundbereiche des decodierten zweiten Bildes als Hintergrundbereiche.
  5. Verfahren gemäß Anspruch 1 mit: Bestimmen der Unterschiede zwischen den Hintergrundbereichen in dem zweiten Bild und zugeordneten Bereichen in dem Mosaik; und Verwenden der decodierten Unterschiede, um das Mosaik zu aktualisieren.
  6. Verfahren gemäß Anspruch 5 mit einem Übertragen der codierten Unterschiede über ein Übertragungsmedium an einen Decodierer; und Verwenden der codierten Unterschiede in den Hintergrundbereichen, um ein zweites Mosaik in dem Decodierer zu aktualisieren.
  7. Verfahren gemäß Anspruch 1, mit Anwenden eines Mischfaktors, der eine Menge des Mosaiks selektiv verändert, das mit dem zugeordneten Hintergrundbereich des zweiten Bildes aktualisiert wurde.
  8. Verfahren gemäß Anspruch 7 mit dem Folgenden: Durchführen einer Konfigurationsphase, wobei ein Hintergrundmosaik offline aufgebaut wird; Einstellen des Mischfaktors auf Null, um zu verhindern, dass das Mosaik für eine vorgegebene Zeitspanne nach der Konfigurationsphase aktualisiert wird; und Verwenden des Mosaiks während der vorgegebenen Zeitspanne, um übertragene Bilddaten zu codieren und zu decodieren.
  9. Verfahren gemäß Anspruch 1 mit: Einstellen des gesamten zweiten Bildes auf einen einzigen Hintergrundbereich, um zu vermeiden, Forminformation senden zu müssen; Einstellen des Mischfaktors, um immer Daten aufzunehmen, die das decodierte zweite Bild darstellen.
  10. Verfahren gemäß Anspruch 1 mit einem Auswählen einer festen Anfangsverformungstransformation zum Optimieren von Betrachtungsbedingungen und Mosaikqualität.
DE69725186T 1996-12-30 1997-12-25 Sprite-gestütztes videocodiersystem Expired - Lifetime DE69725186T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3455896P 1996-12-30 1996-12-30
US34558 1996-12-30
PCT/JP1997/004814 WO1998029834A1 (en) 1996-12-30 1997-12-25 Sprite-based video coding system

Publications (2)

Publication Number Publication Date
DE69725186D1 DE69725186D1 (de) 2003-10-30
DE69725186T2 true DE69725186T2 (de) 2004-06-17

Family

ID=21877179

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69725186T Expired - Lifetime DE69725186T2 (de) 1996-12-30 1997-12-25 Sprite-gestütztes videocodiersystem

Country Status (5)

Country Link
US (2) US6205260B1 (de)
EP (1) EP1042736B1 (de)
JP (2) JP2001507541A (de)
DE (1) DE69725186T2 (de)
WO (1) WO1998029834A1 (de)

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1010318A4 (de) 1997-02-14 2001-01-31 Univ Columbia Objektbasierter audiovisueller terminal und datenstromstruktur
US6404813B1 (en) 1997-03-27 2002-06-11 At&T Corp. Bidirectionally predicted pictures or video object planes for efficient and flexible video coding
US6249613B1 (en) * 1997-03-31 2001-06-19 Sharp Laboratories Of America, Inc. Mosaic generation and sprite-based coding with automatic foreground and background separation
US6633611B2 (en) * 1997-04-24 2003-10-14 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for region-based moving image encoding and decoding
US7295752B1 (en) 1997-08-14 2007-11-13 Virage, Inc. Video cataloger system with audio track extraction
US6360234B2 (en) 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
DE19746611A1 (de) * 1997-10-22 1999-04-29 Bosch Gmbh Robert Verfahren zur Verbesserung der Konturcodierung von Bildsequenzen sowie Anwendung
US7199836B1 (en) * 1998-02-13 2007-04-03 The Trustees Of Columbia University In The City Of New York Object-based audio-visual terminal and bitstream structure
CN1150769C (zh) * 1998-08-05 2004-05-19 皇家菲利浦电子有限公司 静态图象产生方法和装置
US6633685B1 (en) * 1998-08-05 2003-10-14 Canon Kabushiki Kaisha Method, apparatus, and storage media for image processing
US6833865B1 (en) 1998-09-01 2004-12-21 Virage, Inc. Embedded metadata engines in digital capture devices
BR9914105B1 (pt) 1998-09-29 2012-02-07 processo e disposição para o processamento de uma imagem digitalizada com pontos de imagem.
US6573905B1 (en) * 1999-11-09 2003-06-03 Broadcom Corporation Video and graphics system with parallel processing of graphics windows
US7446774B1 (en) * 1998-11-09 2008-11-04 Broadcom Corporation Video and graphics system with an integrated system bridge controller
US6768774B1 (en) * 1998-11-09 2004-07-27 Broadcom Corporation Video and graphics system with video scaling
US6661422B1 (en) 1998-11-09 2003-12-09 Broadcom Corporation Video and graphics system with MPEG specific data transfer commands
WO2000028518A2 (en) 1998-11-09 2000-05-18 Broadcom Corporation Graphics display system
US7982740B2 (en) 1998-11-09 2011-07-19 Broadcom Corporation Low resolution graphics mode support using window descriptors
US6636222B1 (en) 1999-11-09 2003-10-21 Broadcom Corporation Video and graphics system with an MPEG video decoder for concurrent multi-row decoding
US6853385B1 (en) * 1999-11-09 2005-02-08 Broadcom Corporation Video, audio and graphics decode, composite and display system
US6798420B1 (en) 1998-11-09 2004-09-28 Broadcom Corporation Video and graphics system with a single-port RAM
US6873723B1 (en) * 1999-06-30 2005-03-29 Intel Corporation Segmenting three-dimensional video images using stereo
US6556704B1 (en) * 1999-08-25 2003-04-29 Eastman Kodak Company Method for forming a depth image from digital image data
JP4224748B2 (ja) * 1999-09-13 2009-02-18 ソニー株式会社 画像符号化装置および画像符号化方法、画像復号装置および画像復号方法、記録媒体、並びに画像処理装置
EP2278549A1 (de) 1999-09-24 2011-01-26 Nippon Telegraph And Telephone Corporation Verfahren und Vorrichtung zur Extraktion der Segmentierungsmaske
US9668011B2 (en) * 2001-02-05 2017-05-30 Avago Technologies General Ip (Singapore) Pte. Ltd. Single chip set-top box system
US6538656B1 (en) 1999-11-09 2003-03-25 Broadcom Corporation Video and graphics system with a data transport processor
US8913667B2 (en) * 1999-11-09 2014-12-16 Broadcom Corporation Video decoding system having a programmable variable-length decoder
US6466618B1 (en) 1999-11-19 2002-10-15 Sharp Laboratories Of America, Inc. Resolution improvement for multiple images
WO2001078395A1 (en) * 2000-04-06 2001-10-18 Koninklijke Philips Electronics N.V. Object-conditional access system
US7260564B1 (en) * 2000-04-07 2007-08-21 Virage, Inc. Network video guide and spidering
US7962948B1 (en) 2000-04-07 2011-06-14 Virage, Inc. Video-enabled community building
US8171509B1 (en) 2000-04-07 2012-05-01 Virage, Inc. System and method for applying a database to video multimedia
US7222163B1 (en) * 2000-04-07 2007-05-22 Virage, Inc. System and method for hosting of video content over a network
DE50103996D1 (de) 2000-04-14 2004-11-11 Siemens Ag Verfahren und vorrichtung zum speichern und bearbeiten von bildinformation zeitlich aufeinanderfolgender bilder
US6973130B1 (en) 2000-04-25 2005-12-06 Wee Susie J Compressed video signal including information for independently coded regions
US6507618B1 (en) * 2000-04-25 2003-01-14 Hewlett-Packard Company Compressed video signal including independently coded regions
US6970510B1 (en) 2000-04-25 2005-11-29 Wee Susie J Method for downstream editing of compressed video
US6553150B1 (en) 2000-04-25 2003-04-22 Hewlett-Packard Development Co., Lp Image sequence compression featuring independently coded regions
US7084877B1 (en) * 2000-06-06 2006-08-01 General Instrument Corporation Global motion estimation for sprite generation
US6826292B1 (en) * 2000-06-23 2004-11-30 Sarnoff Corporation Method and apparatus for tracking moving objects in a sequence of two-dimensional images using a dynamic layered representation
WO2002043399A2 (en) * 2000-11-23 2002-05-30 Koninklijke Philips Electronics N.V. Videocoding method and corresponding encoder
US7321624B1 (en) * 2001-03-16 2008-01-22 Objectvideo, Inc. Bit-rate allocation system for object-based video encoding
US6771843B1 (en) * 2001-05-11 2004-08-03 Lsi Logic Corporation Data timeline management using snapshot volumes
JP4596220B2 (ja) * 2001-06-26 2010-12-08 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム
JP2003018604A (ja) * 2001-07-04 2003-01-17 Matsushita Electric Ind Co Ltd 画像信号符号化方法、画像信号符号化装置および記録媒体
FR2828055B1 (fr) * 2001-07-27 2003-11-28 Thomson Licensing Sa Procede et dispositif de codage d'une mosaique d'images
JP2003047012A (ja) * 2001-08-01 2003-02-14 Mega Chips Corp 動画像圧縮方法、及びプログラム
US7050500B2 (en) * 2001-08-23 2006-05-23 Sharp Laboratories Of America, Inc. Method and apparatus for motion vector coding with global motion parameters
FR2829635A1 (fr) * 2001-09-07 2003-03-14 Cit Alcatel Procede de compression d'images d'animations
US20030058932A1 (en) * 2001-09-24 2003-03-27 Koninklijke Philips Electronics N.V. Viseme based video coding
US6921593B2 (en) * 2001-09-28 2005-07-26 Hewlett-Packard Development Company, L.P. Fuel additives for fuel cell
US7227896B2 (en) * 2001-10-04 2007-06-05 Sharp Laboratories Of America, Inc. Method and apparatus for global motion estimation
NL1019365C2 (nl) * 2001-11-14 2003-05-15 Tno Bepaling van een beweging van een achtergrond in een reeks beelden.
US20030105880A1 (en) * 2001-12-04 2003-06-05 Koninklijke Philips Electronics N.V. Distributed processing, storage, and transmision of multimedia information
US7602848B2 (en) * 2002-03-26 2009-10-13 General Instrument Corporation Methods and apparatus for efficient global motion compensation encoding and associated decoding
US7085323B2 (en) * 2002-04-03 2006-08-01 Stmicroelectronics, Inc. Enhanced resolution video construction method and apparatus
JP2004030122A (ja) * 2002-06-25 2004-01-29 Fujitsu Ltd 図面検索支援装置および図面検索方法
WO2004008316A2 (en) * 2002-07-11 2004-01-22 Raytheon Company System and method for asynchronous storage and playback of a system state
US7436406B2 (en) * 2002-07-12 2008-10-14 Raytheon Company Scene graph based display for desktop applications
FR2843252A1 (fr) * 2002-07-30 2004-02-06 Thomson Licensing Sa Procede de compression de donnees numeriques d'une sequence video comportant des plans alternes
US7085434B2 (en) * 2002-10-01 2006-08-01 International Business Machines Corporation Sprite recognition in animated sequences
US7113185B2 (en) * 2002-11-14 2006-09-26 Microsoft Corporation System and method for automatically learning flexible sprites in video layers
EP1599998B1 (de) 2003-02-11 2011-04-06 NDS Limited Vorrichtung und verfahren zur handhabung interaktiver anwendungen in rundfunknetzen
US7667710B2 (en) 2003-04-25 2010-02-23 Broadcom Corporation Graphics display system with line buffer control scheme
US8638846B1 (en) * 2003-06-23 2014-01-28 At&T Intellectual Property Ii, L.P. Systems and methods for encoding and decoding video streams
US8063916B2 (en) * 2003-10-22 2011-11-22 Broadcom Corporation Graphics layer reduction for video composition
TWI246338B (en) * 2004-04-09 2005-12-21 Asustek Comp Inc A hybrid model sprite generator and a method to form a sprite
US7982738B2 (en) * 2004-12-01 2011-07-19 Microsoft Corporation Interactive montages of sprites for indexing and summarizing video
US9661376B2 (en) * 2005-07-13 2017-05-23 Polycom, Inc. Video error concealment method
US7602984B2 (en) * 2005-09-28 2009-10-13 Novell, Inc. Adaptive method and system for encoding digital images for the internet
US8565525B2 (en) * 2005-12-30 2013-10-22 Telecom Italia S.P.A. Edge comparison in segmentation of video sequences
US7477258B2 (en) * 2006-04-26 2009-01-13 International Business Machines Corporation Method and apparatus for a fast graphic rendering realization methodology using programmable sprite control
GB2441365B (en) * 2006-09-04 2009-10-07 Nds Ltd Displaying video data
US8300936B2 (en) * 2007-04-03 2012-10-30 Flashfoto, Inc. System and method for improving display of tuned multi-scaled regions of an image with local and global control
WO2008136933A1 (en) * 2007-05-07 2008-11-13 Thomson Licensing Method and apparatus for processing video sequences
US20090058863A1 (en) * 2007-09-04 2009-03-05 Apple Inc. Image animation with transitional images
KR20090062049A (ko) * 2007-12-12 2009-06-17 삼성전자주식회사 영상 데이터 압축 전처리 방법 및 이를 이용한 영상 데이터압축 방법과, 영상 데이터 압축 시스템
US8682029B2 (en) 2007-12-14 2014-03-25 Flashfoto, Inc. Rule-based segmentation for objects with frontal view in color images
JP2010011075A (ja) * 2008-06-26 2010-01-14 Toshiba Corp 動画像符号化及び動画像復号化の方法及び装置
US8670615B2 (en) * 2009-09-30 2014-03-11 Flashfoto, Inc. Refinement of segmentation markup
US9311567B2 (en) 2010-05-10 2016-04-12 Kuang-chih Lee Manifold learning and matting
US20120173577A1 (en) * 2010-12-30 2012-07-05 Pelco Inc. Searching recorded video
US9681125B2 (en) 2011-12-29 2017-06-13 Pelco, Inc Method and system for video coding with noise filtering
WO2014133868A1 (en) * 2013-03-01 2014-09-04 Gentex Corporation Vehicle imaging system and method for categorizing objects using relative motion analysis
JP6049024B2 (ja) * 2014-08-11 2016-12-21 株式会社チャオ 画像伝送装置、画像伝送方法および画像伝送プログラム
WO2019009750A1 (en) 2017-07-05 2019-01-10 Huawei Technologies Co., Ltd APPARATUS AND METHOD FOR PANORAMIC VIDEO CODING
JP7070082B2 (ja) * 2018-05-18 2022-05-18 株式会社デンソー 車載カメラ
CN114240954B (zh) * 2021-12-16 2022-07-08 推想医疗科技股份有限公司 网络模型的训练方法及装置、图像分割方法及装置
CN114554220B (zh) * 2022-01-13 2023-07-28 北京信息科技大学 一种基于抽象特征的固定场景视频超限压缩与解码方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06101018B2 (ja) * 1991-08-29 1994-12-12 インターナショナル・ビジネス・マシーンズ・コーポレイション 動画像データベースの検索
JPH05282380A (ja) * 1992-03-31 1993-10-29 Nippon Telegr & Teleph Corp <Ntt> 動画像検索方法
US5649032A (en) * 1994-11-14 1997-07-15 David Sarnoff Research Center, Inc. System for automatically aligning images to form a mosaic image
KR100186979B1 (ko) * 1994-12-28 1999-05-01 김주용 영상데이터의 물체별 배경 정보 부호화 방법 및 장치
JPH08194714A (ja) * 1995-01-13 1996-07-30 Matsushita Electric Ind Co Ltd 圧縮動画像の検索方法および装置
US6181867B1 (en) * 1995-06-07 2001-01-30 Intervu, Inc. Video storage and retrieval system
US5963664A (en) * 1995-06-22 1999-10-05 Sarnoff Corporation Method and system for image combination using a parallax-based technique
US5896176A (en) * 1995-10-27 1999-04-20 Texas Instruments Incorporated Content-based video compression
US5782642A (en) * 1995-12-19 1998-07-21 Goren; Michael Interactive video and audio display system network interactive monitor module interface
US5692063A (en) * 1996-01-19 1997-11-25 Microsoft Corporation Method and system for unrestricted motion estimation for video
US5778098A (en) * 1996-03-22 1998-07-07 Microsoft Corporation Sprite coding
US6037988A (en) * 1996-03-22 2000-03-14 Microsoft Corp Method for generating sprites for object-based coding sytems using masks and rounding average
US5943445A (en) * 1996-12-19 1999-08-24 Digital Equipment Corporation Dynamic sprites for encoding video data
US5956026A (en) * 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video

Also Published As

Publication number Publication date
WO1998029834A1 (en) 1998-07-09
EP1042736A1 (de) 2000-10-11
JP2004260840A (ja) 2004-09-16
JP2001507541A (ja) 2001-06-05
US6205260B1 (en) 2001-03-20
DE69725186D1 (de) 2003-10-30
US6259828B1 (en) 2001-07-10
EP1042736B1 (de) 2003-09-24

Similar Documents

Publication Publication Date Title
DE69725186T2 (de) Sprite-gestütztes videocodiersystem
DE69733007T2 (de) Vorrichtung zur codierung und decodierung von bewegtbildern
DE69908562T2 (de) Bewegungsvektorenextrapolation zur transkodierung von videosequenzen
DE69628467T2 (de) Videokodierung- und dekodierungsvorrichtung
DE69839100T2 (de) Verbesserte Videokodierung unter Verwendung von adaptiven Blockparametern für kodierte/unkodierte Blöcke
DE69836473T2 (de) Bewegungsschätzung und bewegungskompensierte interpolation
DE69730713T2 (de) Bildkoder und -dekoder
DE69032437T2 (de) Bewegungseinschätzer
DE69629137T2 (de) Bildkodierungsgerät und Bilddekodierungsgerät
DE69937462T2 (de) Effiziente macroblockheaderkodierung zur videokompression
DE69636277T2 (de) Verfahren und Vorrichtung zur Erzeugung von Farbart-Forminformation einer Video-Objektebene in einem Videosignal
DE69813230T2 (de) Verfahren zur markierung eines komprimierten digitalvideosignals
DE69530908T2 (de) Verfahren und Vorrichtung zur Bildkodierung
DE69937816T2 (de) Datenverarbeitungsgerät und Verfahren
DE602004008763T2 (de) Videotranskodierung
DE102013015821B4 (de) System und Verfahren zur Verbesserung der Videokodierung unter Verwendung von Inhaltsinformation
DE69919205T2 (de) Verfahren und gerät für die mpeg-bildkodierung von eingefügten bildern
EP1371229B1 (de) Verfahren zur komprimierung und dekomprimierung von videodaten
DE19739266A1 (de) Verfahren und Vorrichtung zum Kodieren binärer Formen
DE602005000425T2 (de) Verfahren und Anordnung zur Erzeugung von Kandidatenvektoren für Bildinterpolierungssysteme, die Bewegungsabschätzung und -kompensation verwenden
DE69915843T2 (de) Teilbandkodierung/-dekodierung
DE69729438T2 (de) Verfahren und Gerät zur prädiktiven Kodierung der Objektinformation von Videosignalen
DE19744859B4 (de) Verfahren zum Codieren eines binären Formsignals
EP1177690B1 (de) Verfahren und anordnungen zur rechnergestützten bewegungskompensation eines digitalisierten bildes sowie computerprogramm-erzeugnisse und computerlesbare speichermedien
DE69737711T2 (de) Verfahren und Vorrichtung zur Kodierung einer Objektkontur unter Verwendung ihrer Zeitkorrelation

Legal Events

Date Code Title Description
8364 No opposition during term of opposition