-
HINTERGRUND
DER ERFINDUNG
-
GEBIET DER
ERFINDUNG
-
Diese Erfindung bezieht sich auf
Verfahren zur Erfassung von Szenenblendvorgängen zum Indexieren von Videosignalfolgen
der Typen, die z. B. bei Rundfunksignalen für Fernsehen hoher Auflösung (HDTV)
und anderen Videoverteilungssystemen wie sie bei Internet-Videodiensten getroffen
werden, gefunden werden.
-
BESCHREIBUNG
DES STANDES DER TECHNIK
-
Grundlegende Verfahren zum Verdichten
der Bandbreite von digitalen Farbvideosignalen wurden von der Motion
Picture Experts Group (MPEG) angewendet.
-
Die MPEG-Standards erzielen hohe
Datenverdichtungsraten durch Entwickeln von Informationen für ein Vollbild
des Bildes nur jeweils so häufig. Die
Gesamt bild-Vollbilder oder intracodierte Bilder werden als "I-Vollbilder" bezeichnet und enthalten
die gesamten Vollbildinformationen unabhängig von irgendwelchen anderen
Vollbildern. B-Vollbilder und P-Vollbilder sind zwischen den I-Vollbildern
codiert und speichern nur Bilddifferenzen mit Bezug auf die Bezugsanker-Vollbilder.
-
Typischerweise ist jedes Vollbild
einer Videofolge in kleinere Blöcke
aus Pixeldaten unterteilt, und jeder Block ist einer diskreten Kosinustransformations(DCT)-Funktion
unterzogen, um die statistisch abhängigen Raumdomänen-Bildelemente
(Pixel) in unabhängige
Frequenzdomänen-DCT-Koeffizienten umzuwandeln.
-
Jeweilige 8 × 8-Blöcke von Pixeln werden der diskreten
Kosinustransformation (DCT) unterzogen, um das codierte Signal zu
erhalten. Die sich ergebenden Koeffizienten werden typischerweise
der adaptiven Quantisierung unterzogen und werden dann mit Runlänge und
variabler Länge
codiert. Somit enthalten die Blöcke
aus übertragenen
Daten typischerweise weniger als eine 8 × 8-Matrix aus Codewörtern. Makroblöcke aus
Intra-Vollbild-codierten Daten
(I-Vollbilder) enthalten auch Informationen wie den verwendeten
Pegel der Quantisierung, eine Makroblockadresse oder einen Ortsanzeiger
und einen Makroblocktyp, wobei die letztgenannten Informationen
als "Vorsatz"- oder "Kopf"-Informationen bezeichnet werden.
-
Die entsprechend der P- oder B-Inter-Vollbild-Codierung codierten
Datenblöcke
bestehen ebenfalls aus Matrizen von diskreten Kosinuskoeffizienten.
In diesem Fall jedoch stellen die Koeffizienten Reste oder Differenzen
zwischen einer vorhergesagten 8 × 8-Pixelmatrix und der tatsächlichen
8 × 8-Pixelmatrix dar.
Diese Koeffizienten werden ebenfalls der Quantisierung und Codierung
mit Runlänge
und variabler Länge
unterzogen. In der Vollbildfolge werden I- und P-Vollbilder als Ankervollbilder bezeichnet. Jedes
P-Vollbild ist aus
dem zuletzt auftretenden Ankervollbild vorhergesagt. Jedes P-Vollbild
ist von einem oder beiden der Ankervollbilder vorhergesagt, zwischen
denen es sich befindet. Der vorhersagende Codiervorgang bedingt
die Erzeugung von Versetzungsvektoren, die anzeigen, welcher Block
eines Ankervollbildes am stärksten
mit dem Block des vorhergesagten Vollbildes, das gegenwärtig codiert wird, übereinstimmt.
Die Pixeldaten des übereinstimmenden
Blocks in dem Ankervollbild werden auf einer Pixel-für-Pixel-Basis
von dem Block des gegenwärtig
codierten Vollbildes subtrahiert, um die Reste zu entwickeln. Die
transformierten Reste und die Vektoren bilden die codierten Daten
für die
Vorhersagevollbilder. Wie bei Intra-Vollbild-codierten Vollbildern enthalten
die Makroblöcke
Quantisierungs-, Adressen- und Typeninformationen.
-
Die Ergebnisse sind gewöhnlich energiekonzentriert,
so dass nur einige wenige der Koeffizienten in einem Block den Hauptteil
der Bildinformationen enthalten. Die Koeffizienten werden in einer
bekannten Weise quantisiert, um den dynamischen Bereich der Koeffizienten
wirksam zu begrenzen, und die Ergebnisse werden dann mit Runlänge und
variabler Länge
codiert für
die Abgabe zu einem Übertragungsmedium.
-
Das so genannte MPEG-4-Format wird
beschrieben in "MPEG-4
Video Verification Model Version 5.0", verteilt von der Adhoc Group on MPEG-4 Video
VM Editing an ihre Mitglieder unter der Bezeichnung ISO/IEC JTC1/SC29/WG11
MPEG 96/N1469, November 1996. Das MPEG-4-Videocodierformat erzeugt
einen variablen Bitratenstrom bei dem Codierer von Vollbild zu Vollbild
(wie es der Fall mit früheren
Schemen war). Da der der variable Bitratenstrom über einen Kanal mit fester
Rate übertrage
wird, wird ein Kanalpuffer verwendet, um den Bitstrom zu vergleichmäßigen. Um
einen Über-
oder Unterlauf des Puffers zu verhindern, wird eine Ratensteuerung
des Codiervorgangs angewendet.
-
Mit dem Erscheinen neuer digitaler
Videodienste wie über
das Internet verteiltem Video besteht eine zunehmende Notwendigkeit
für Signalverarbeitungstechniken,
Szenenänderungen
und andere Eigenschaften in den Videofolgen zu identifizieren. Die
Identifikation von Szenenänderungen,
ob sie abrupt oder allmählich
sind, ist nützlich
für die
Zwecke des Indexierens, was z. B. einen schnellen und einfachen
Bildabruf und eine Szeneanalyse erleichtert.
-
In der Zukunft sollte erwartet werden,
dass eine beträchtliche
Menge an digitalem Videomaterial in der vorbeschriebenen Form von
verdichteten oder codierten Daten vorliegt. Die Handhabung der Videofolgeinformationen
in ihrer verdichteten Form, anstatt in ihrer gedehnten oder decodierten
Form, erlaubt, wenn möglich, üblicherweise
eine schnellere Verarbeitung aufgrund der Verringerung der Datengröße und des
Vermeidens von Transformationen. Es ist vorteilhaft, Verfahren und
Techniken zu entwickeln, die die direkte Behandlung verdichteter
Daten ermöglichen
anstatt eine Dekompression des gesamten Vollbildes vorzunehmen,
bevor eine andere Verarbeitung durchgeführt wird.
-
Es ist bekannt, dass, wenn ein Block
(Makroblock) eine Kantengrenze eines Objekts enthält, die Energie
in diesem Block nach der Transformation, wie durch die DCT-Koeffizienten
dargestellt, einen relativ großen
Gleichstromkoeffizienten (obere linke Ecke) der Matrix) und zufällig verteilte
Wechselstromkoeffizienten über
die Matrix enthält.
Ein Block ohne Kante ist andererseits üblicherweise durch einen ähnlich großen Gleichstromkoeffizienten
(obere linke Ecke) und wenige (z. B. zwei) benachbarte Wechselstromkoeffizienten,
die wesentlich größer als
andere mit diesem Block assoziierte Koeffizienten sind, gekennzeichnet.
Diese Information bezieht sich auf Bildänderungen in der räumlichen
Domäne
und, wenn sie mit Bilddifferenzinformationen kombiniert sind, die
durch Vergleichen aufeinander folgender Vollbilder (d.h., zeitliche
Differenzen) erhalten wurden, sind Faktoren zum Unterscheiden eines
Videoobjekts (VO) von einem anderen verfügbar. Wenn nur die Gleichstromwerte
der Makroblöcke
verwendet werden, ist ein sich ergebendes Bild eine verschwommene
Version des ursprünglichen
Bildes, das viel von dem Inhalt des Originals zurückhält.
-
Frühere Arbeiten mit der Indexierung
von verdichteten Videosignalen haben zumeist die Gleichstromkoeffizienten-Extraktion
hervorgehoben. In einem Papier mit dem Titel "Rapid Scene Analysis on Compressed Video", IEEE Transactions
on Circuits and Systems for Video Technology, Band 5, Nr. 6, Dezember
1995, Seiten 533– 544,
beschreiben Yeo und Liu einen Weg für eine Szenenänderungserfassung
in der verdichteten MPEG-2-Videodomäne und betrachten
frühere
Versuche bei der Erfassung von Szenenänderungen auf der Grundlage
von Folgen von ganzen (unverdichteten) Bilddaten sowie verschiedene
Verarbeitungstechniken mit verdichteten Videodaten von anderen.
Yeo und Liu haben die Verwendung von räumlich reduzierten Versionen
der ursprünglichen
Bilder, so genannten Gleichstrombildern, und Gleichstromfolgen,
die aus verdichteten Videodaten herausgezogen wurden, eingeführt, um Szenenanalysevorgänge zu vereinfachen.
Ihr Gleichstrombild besteht aus Pixeln, die der Durchschnittswert
der Pixel in einem Block des ursprünglichen Bildes sind, und die
Gleichstromfolge ist die Kombination der sich ergebenden verringerten
Anzahl von Pixeln des Gleichstrombildes.
-
Won et al beschreiben in einem in
Proc. SPIE Conf. on Storage and Retrieval for Image and Video Databases,
Januar 1998, veröffentlichten
Papier ein Verfahren zum Herausziehen von Merkmalen aus verdichteten
MPEG-2-Videosignalen
durch Einsetzen für
die Gleichstromkoeffizienten verwendeten Bits für die Lokalisierung von Kanten
in den Vollbildern. Jedoch ist ihre Arbeit nur auf I-Vollbilder
beschränkt.
Kobla et al beschreiben ein Verfahren in denselben Proceedings,
das die Gleichstrombild-Extraktion von Yeo et al anwendet, um Videopfade
zu bilden, die die Videoclips charakterisieren. Feng at al (IEEE
International Conference on Image Processing, Band II, Seiten 821–824, 16.–19. September 1996),
durch die der Anspruch 1 die zweiteilige Form erhalten hat, verwenden
die Bitzuweisung über
die Makroblöcke
von MPEG-2-Vollbildern,
um abrupte Szenenänderungen
zu erfassen, ohne Gleichstrombilder herauszuziehen. Die Technik
von Feng et al ist rechenmäßig die
einfachste, da sie keine bedeutende Rechnung zusätzlich zu der, die für das Parsing des
verdichteten Bitstroms erforderlich ist, benötigt.
-
Gemäß einer verwandten Erfindung
der gegenwärtigen
Erfinder, die beschrieben ist in der europäischen Patentanmeldung
EP 1021042 (Veröffentlichungsdatum
19.07.2000) dem Titel "METHODS
OF SCENE CHANGE DETECTION AND FADE DETECTION FOR INDEXING OF VIDEO
SEQUEN CES", und
die gleichzeitig mit dieser Anmeldung eingereicht wurde, wurden
rechenmäßig einfache
Verfahren gefunden, die Kombination von bestimmten Aspekten des
Weges von Feng et al und des Weges von Yeo et al verwenden, um eine
genaue und einfache Erfassung abrupter Szenenwechsel zu erhalten.
Die vorliegenden Erfinder haben auch Techniken untersucht, die von
Bitzuweisungsinformationen Gebrauch machen, um Merkmale der Videofolge
herauszuziehen.
-
Frühere Arbeiten von Anderen hinsichtlich der
Erfassung einer allmählichen
Szenenänderung haben
verschiedene Techniken angewendet, wie die Berücksichtigung der Kantenwechsel-Bruchteile,
einen Zwillingsvergleichsweg, eine auf Blockanpassung basierende
Bewegungskompensationsschätzung,
die Erfassung von Plateaus in einer verzögerten Vollbild-Differenzmetrik
und ein auf einem Videoaufbereitungsmodell basierender Weg. Von
diesen arbeitet nur der Weg der Erfassung von Plateaus in der verdichteten
Domäne.
-
Es ist festzustellen, dass die auf
der Gleichstrombild-Extraktion basierende Technik gut für I-Vollbilder ist, da
die Extraktion der Gleichstromwerte aus I-Bildern relativ einfach
ist. Jedoch ist für P-Vollbilder
eine zusätzliche
Berechnung typischerweise nicht erforderlich.
-
Wie in der gleichzeitig eingereichten
Anmeldung beschrieben ist, haben die vorliegenden Erfinder, nachdem
ein vermuteter Szenen/Objekt-Wechsel in einer Gruppe von aufeinander
folgenden Vollbildern/Objekten durch Verwendung einer auf einer Gleichstrombild-Extraktion beruhenden
Technik genau lokalisiert wurde, die Anwendung einer angemessenen,
auf einer Bitzuweisung beruhenden Technik und/oder einer abgemes senen
Gleichstrom-Restkoeffizienten-Verarbeitungstechnik
auf P-Vollbildinformationen in der Nähe der vermuteten Änderungsinformationen
bestimmt, um schnell und genau den Schnittpunkt zu lokalisieren.
Dieses kombinierte Verfahren ist entweder auf MPEG-2-Folgen oder MPEG-4-Mehrobjektfolgen
anwendbar.
-
Gemäß der vorliegenden Erfindung
weist ein weiterhin vereinfachtes Verfahren der Verarbeitung digitaler
bilddarstellender Videodaten in verdichteter Form auf: Herausziehen
aus einer Folge von digitalen bilddarstellenden Videodaten in verdichteter Form,
die zumindest I-Vollbilder und P-Vollbilder, die zwischen den I-Vollbildern
auftreten, aufweist, der den Gleichstromkoeffizienten von P-Vollbildern
zugewiesenen Bits, um allmähliche
Einblend- und Ausblend-Szenenänderungen
zu erfassen. Insbesondere wird das Auftreten von allmählichen
Szenenänderungen
erfasste durch Bestimmen der Anzahl von positiven und negativen
Gleichstrom-Restkoeffizienten in jedem der abgerufenen P-Vollbilder
oberhalb eines Schwellenwertes, um das Einblenden und Ausblenden
zu lokalisieren.
-
Auf diese Weise können zeitliche Segmentierungsmarkierungen
erzeugt werden, die mit der Eingangsvideosequenz assoziiert sind,
um die besonderen Szenenänderungen
durch Blendvorgänge der
Videofolge zu lokalisieren und zu identifizieren.
-
Eine spezifische bevorzugte Anordnung
der Einblend/Ausblend-Szenenänderungs-Erfassungsschritte
wird nun im Einzelnen beschrieben. Es ist festzustellen, dass es
eine erheblich Gelegenheit für die
Variation von Einzelheiten dieser Schritte gibt, ohne die allgemeineren
Aspekte der vorliegenden Erfindung zu verlassen. Detaillierte Verfahrensschritte sind
jedoch nachstehend angezeigt, um dem Fachmann einen Hinweis auf
die möglichen
Variationen zu geben.
-
Erfassung
von Blendvorgängen
unter Verwendung von Änderungen
der zum Codieren von Gleichstromkomponenten von Resten verwendeten
Bits
-
Es wurde beobachtet, dass, wenn eine
allmähliche
Szenenänderung
vorliegt, jeder Block des Bildes ein Gleichstrom-Korrekturglied
enthält,
da das Bild von einem vollständig
schwarzen Vollbild her eingeblendet oder zu einem vollständig schwarzen
Vollbild hin ausgeblendet wird. Unter Berücksichtigung hiervon wurde
gefunden, dass Bitzuweisungsprofile für Gleichstromkomponenten von
Restblöcken
einen Hinweis für
die Erfassung von Blendvorgängen
liefern. Gemäß der vorliegenden
Erfindung umfasst ein verfahren zur Erfassung von Blendvorgängen die
folgenden Schritte.
- 1. Für jedes P-Vollbild werden die
Anzahl von Blöcken
mit negativen Gleichstromkomponenten sowie die Anzahl von Blöcken mit
positiven Gleichstromkomponenten gezählt. Für den MPEG-2- sowie für den MPEG-4-Fall
kann dieser Schritt leicht aus dem VLC-Parsing durchgeführt werden,
da jeder Nicht-Null-Gleichstromkomponente eine von null abweichende
Anzahl von Bits und ein Vorzeichenbit, das anzeigt, ob die Komponente positiv
oder negativ ist, zugewiesen werden. Null-Gleichstromkomponenten werden durch
die Runlängen-Information
angezeigt und können
somit leicht gelöscht
werden.
- 2. Die Charakteristik der beiden vorstehend erhaltenen Zahlen
gegenüber
der Vollbildanzahl wird be stimmt.
- 3. Es wird ein Ausblenden erklärt, wenn die Anzahl von negativen Übergängen in
einer Folge von P-Vollbildern,
die sich über
ein gewöhnliches Blendintervall
erstrecken, so wie es in der gegenwärtigen Videopraxis angewendet
wird (z. B. in der Größe von angenähert einer
Sekunde) stetig gleich oder größer als
60% der Gesamtzahl von Nicht-Null-Übergängen ist. Umgekehrt wird ein Einblenden
erklärt,
wenn die Anzahl von positiven Übergängen die
vorgenannte Schwelle trifft. Es wurde beobachtet, dass ein Blendintervall
angenähert
fünfzehnt
bis fünfundvierzig
Vollbildern entspricht, und typischerweise etwa fünfundzwanzig oder
dreißig
Vollbildern bei den gegenwärtigen Rundfunktechniken
(etwa eine Sekunde).
-
Diese Erfassungstechnik für Blendvorgänge macht
sich die von dem Codierer durchgeführte Bewegungssuche zunutze.
Sie misst die für
das Codieren der Gleichstromdifferenz zwischen einem besonderen
Makroblock und seiner engsten Übereinstimmung
in dem vorhergehenden Vollbild benötigte Rate.
-
Somit können gemäß der vorliegenden Erfindung
Einblend- und Ausblend-Szenenänderungen erfasst
werden, obgleich in etwas zeitaufwendigerer und ungenauerer Weise
als in dem Fall der gleichzeitig anhängigen Anmeldung, durch Vergleich
der jeweiligen Anzahl von positiven und negativen Gleichstromkomponenten
für alle
P-Vollbilder, mit oder ohne zuerst I-Vollbilder in der in der gleichzeitig
anhängigen
Anmeldung offenbarten Weise zu untersuchen. Insbesondere werden
für jedes
P-Vollbild die Anzahl von Blöcken
mit negativen Gleichstromkomponenten sowie die Anzahl von Blöcken mit
positiven Gleichstromkomponenten gezählt. Es wird ein Ausblendvorgang
erklärt,
wenn die Anzahl von negativen Übergängen größer als
oder gleich 60% der Gesamtzahl der Nicht-Null-Übergänge über eine Folge von Vollbildern
entsprechend zumindest einem Hauptteil eines üblichen Blendintervalls ist.
Umgekehrt wird ein Einblendvorgang erklärt, wenn die Anzahl von positiven Übergängen den
Schwellenwert über
eine ähnlich
angemessene Anzahl von Vollbildern trifft. Wieder kann ein Gleitfenster
verwendet werden.
-
Während
die Erfindung anhand eines bevorzugten Ausführungsbeispiels beschrieben
wurde, können
verschiedene Modifikationen angewendet werden, ohne den Bereich
der Erfindung zu verlassen, die in den folgenden Ansprüchen definiert
ist.