DE69912084T2

DE69912084T2 - Verfahren zur Erkennung von Szenenüberblendungen zur Indexierung von Videosequenzen

Info

Publication number: DE69912084T2
Application number: DE69912084T
Authority: DE
Inventors: Huifang Sun; Hiroshi Ito; Tommy C. Poon; Ajay Divakaran
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-01-14
Filing date: 1999-11-03
Publication date: 2004-07-22
Anticipated expiration: 2019-11-04
Also published as: DE69912084D1; EP1021041A3; JP2000217121A; EP1021041A2; HK1029699A1; JP3571974B2; ATE252305T1; US6327390B1; EP1021041B1

Description

HINTERGRUND DER ERFINDUNG
GEBIET DER ERFINDUNG
Diese Erfindung bezieht sich auf Verfahren zur Erfassung von Szenenblendvorgängen zum Indexieren von Videosignalfolgen der Typen, die z. B. bei Rundfunksignalen für Fernsehen hoher Auflösung (HDTV) und anderen Videoverteilungssystemen wie sie bei Internet-Videodiensten getroffen werden, gefunden werden.
BESCHREIBUNG DES STANDES DER TECHNIK
Grundlegende Verfahren zum Verdichten der Bandbreite von digitalen Farbvideosignalen wurden von der Motion Picture Experts Group (MPEG) angewendet.
Die MPEG-Standards erzielen hohe Datenverdichtungsraten durch Entwickeln von Informationen für ein Vollbild des Bildes nur jeweils so häufig. Die Gesamt bild-Vollbilder oder intracodierte Bilder werden als "I-Vollbilder" bezeichnet und enthalten die gesamten Vollbildinformationen unabhängig von irgendwelchen anderen Vollbildern. B-Vollbilder und P-Vollbilder sind zwischen den I-Vollbildern codiert und speichern nur Bilddifferenzen mit Bezug auf die Bezugsanker-Vollbilder.
Typischerweise ist jedes Vollbild einer Videofolge in kleinere Blöcke aus Pixeldaten unterteilt, und jeder Block ist einer diskreten Kosinustransformations(DCT)-Funktion unterzogen, um die statistisch abhängigen Raumdomänen-Bildelemente (Pixel) in unabhängige Frequenzdomänen-DCT-Koeffizienten umzuwandeln.
Jeweilige 8 × 8-Blöcke von Pixeln werden der diskreten Kosinustransformation (DCT) unterzogen, um das codierte Signal zu erhalten. Die sich ergebenden Koeffizienten werden typischerweise der adaptiven Quantisierung unterzogen und werden dann mit Runlänge und variabler Länge codiert. Somit enthalten die Blöcke aus übertragenen Daten typischerweise weniger als eine 8 × 8-Matrix aus Codewörtern. Makroblöcke aus Intra-Vollbild-codierten Daten (I-Vollbilder) enthalten auch Informationen wie den verwendeten Pegel der Quantisierung, eine Makroblockadresse oder einen Ortsanzeiger und einen Makroblocktyp, wobei die letztgenannten Informationen als "Vorsatz"- oder "Kopf"-Informationen bezeichnet werden.
Die entsprechend der P- oder B-Inter-Vollbild-Codierung codierten Datenblöcke bestehen ebenfalls aus Matrizen von diskreten Kosinuskoeffizienten. In diesem Fall jedoch stellen die Koeffizienten Reste oder Differenzen zwischen einer vorhergesagten 8 × 8-Pixelmatrix und der tatsächlichen 8 × 8-Pixelmatrix dar. Diese Koeffizienten werden ebenfalls der Quantisierung und Codierung mit Runlänge und variabler Länge unterzogen. In der Vollbildfolge werden I- und P-Vollbilder als Ankervollbilder bezeichnet. Jedes P-Vollbild ist aus dem zuletzt auftretenden Ankervollbild vorhergesagt. Jedes P-Vollbild ist von einem oder beiden der Ankervollbilder vorhergesagt, zwischen denen es sich befindet. Der vorhersagende Codiervorgang bedingt die Erzeugung von Versetzungsvektoren, die anzeigen, welcher Block eines Ankervollbildes am stärksten mit dem Block des vorhergesagten Vollbildes, das gegenwärtig codiert wird, übereinstimmt. Die Pixeldaten des übereinstimmenden Blocks in dem Ankervollbild werden auf einer Pixel-für-Pixel-Basis von dem Block des gegenwärtig codierten Vollbildes subtrahiert, um die Reste zu entwickeln. Die transformierten Reste und die Vektoren bilden die codierten Daten für die Vorhersagevollbilder. Wie bei Intra-Vollbild-codierten Vollbildern enthalten die Makroblöcke Quantisierungs-, Adressen- und Typeninformationen.
Die Ergebnisse sind gewöhnlich energiekonzentriert, so dass nur einige wenige der Koeffizienten in einem Block den Hauptteil der Bildinformationen enthalten. Die Koeffizienten werden in einer bekannten Weise quantisiert, um den dynamischen Bereich der Koeffizienten wirksam zu begrenzen, und die Ergebnisse werden dann mit Runlänge und variabler Länge codiert für die Abgabe zu einem Übertragungsmedium.
Das so genannte MPEG-4-Format wird beschrieben in "MPEG-4 Video Verification Model Version 5.0", verteilt von der Adhoc Group on MPEG-4 Video VM Editing an ihre Mitglieder unter der Bezeichnung ISO/IEC JTC1/SC29/WG11 MPEG 96/N1469, November 1996. Das MPEG-4-Videocodierformat erzeugt einen variablen Bitratenstrom bei dem Codierer von Vollbild zu Vollbild (wie es der Fall mit früheren Schemen war). Da der der variable Bitratenstrom über einen Kanal mit fester Rate übertrage wird, wird ein Kanalpuffer verwendet, um den Bitstrom zu vergleichmäßigen. Um einen Über- oder Unterlauf des Puffers zu verhindern, wird eine Ratensteuerung des Codiervorgangs angewendet.
Mit dem Erscheinen neuer digitaler Videodienste wie über das Internet verteiltem Video besteht eine zunehmende Notwendigkeit für Signalverarbeitungstechniken, Szenenänderungen und andere Eigenschaften in den Videofolgen zu identifizieren. Die Identifikation von Szenenänderungen, ob sie abrupt oder allmählich sind, ist nützlich für die Zwecke des Indexierens, was z. B. einen schnellen und einfachen Bildabruf und eine Szeneanalyse erleichtert.
In der Zukunft sollte erwartet werden, dass eine beträchtliche Menge an digitalem Videomaterial in der vorbeschriebenen Form von verdichteten oder codierten Daten vorliegt. Die Handhabung der Videofolgeinformationen in ihrer verdichteten Form, anstatt in ihrer gedehnten oder decodierten Form, erlaubt, wenn möglich, üblicherweise eine schnellere Verarbeitung aufgrund der Verringerung der Datengröße und des Vermeidens von Transformationen. Es ist vorteilhaft, Verfahren und Techniken zu entwickeln, die die direkte Behandlung verdichteter Daten ermöglichen anstatt eine Dekompression des gesamten Vollbildes vorzunehmen, bevor eine andere Verarbeitung durchgeführt wird.
Es ist bekannt, dass, wenn ein Block (Makroblock) eine Kantengrenze eines Objekts enthält, die Energie in diesem Block nach der Transformation, wie durch die DCT-Koeffizienten dargestellt, einen relativ großen Gleichstromkoeffizienten (obere linke Ecke) der Matrix) und zufällig verteilte Wechselstromkoeffizienten über die Matrix enthält. Ein Block ohne Kante ist andererseits üblicherweise durch einen ähnlich großen Gleichstromkoeffizienten (obere linke Ecke) und wenige (z. B. zwei) benachbarte Wechselstromkoeffizienten, die wesentlich größer als andere mit diesem Block assoziierte Koeffizienten sind, gekennzeichnet. Diese Information bezieht sich auf Bildänderungen in der räumlichen Domäne und, wenn sie mit Bilddifferenzinformationen kombiniert sind, die durch Vergleichen aufeinander folgender Vollbilder (d.h., zeitliche Differenzen) erhalten wurden, sind Faktoren zum Unterscheiden eines Videoobjekts (VO) von einem anderen verfügbar. Wenn nur die Gleichstromwerte der Makroblöcke verwendet werden, ist ein sich ergebendes Bild eine verschwommene Version des ursprünglichen Bildes, das viel von dem Inhalt des Originals zurückhält.
Frühere Arbeiten mit der Indexierung von verdichteten Videosignalen haben zumeist die Gleichstromkoeffizienten-Extraktion hervorgehoben. In einem Papier mit dem Titel "Rapid Scene Analysis on Compressed Video", IEEE Transactions on Circuits and Systems for Video Technology, Band 5, Nr. 6, Dezember 1995, Seiten 533– 544, beschreiben Yeo und Liu einen Weg für eine Szenenänderungserfassung in der verdichteten MPEG-2-Videodomäne und betrachten frühere Versuche bei der Erfassung von Szenenänderungen auf der Grundlage von Folgen von ganzen (unverdichteten) Bilddaten sowie verschiedene Verarbeitungstechniken mit verdichteten Videodaten von anderen. Yeo und Liu haben die Verwendung von räumlich reduzierten Versionen der ursprünglichen Bilder, so genannten Gleichstrombildern, und Gleichstromfolgen, die aus verdichteten Videodaten herausgezogen wurden, eingeführt, um Szenenanalysevorgänge zu vereinfachen. Ihr Gleichstrombild besteht aus Pixeln, die der Durchschnittswert der Pixel in einem Block des ursprünglichen Bildes sind, und die Gleichstromfolge ist die Kombination der sich ergebenden verringerten Anzahl von Pixeln des Gleichstrombildes.
Won et al beschreiben in einem in Proc. SPIE Conf. on Storage and Retrieval for Image and Video Databases, Januar 1998, veröffentlichten Papier ein Verfahren zum Herausziehen von Merkmalen aus verdichteten MPEG-2-Videosignalen durch Einsetzen für die Gleichstromkoeffizienten verwendeten Bits für die Lokalisierung von Kanten in den Vollbildern. Jedoch ist ihre Arbeit nur auf I-Vollbilder beschränkt. Kobla et al beschreiben ein Verfahren in denselben Proceedings, das die Gleichstrombild-Extraktion von Yeo et al anwendet, um Videopfade zu bilden, die die Videoclips charakterisieren. Feng at al (IEEE International Conference on Image Processing, Band II, Seiten 821–824, 16.–19. September 1996), durch die der Anspruch 1 die zweiteilige Form erhalten hat, verwenden die Bitzuweisung über die Makroblöcke von MPEG-2-Vollbildern, um abrupte Szenenänderungen zu erfassen, ohne Gleichstrombilder herauszuziehen. Die Technik von Feng et al ist rechenmäßig die einfachste, da sie keine bedeutende Rechnung zusätzlich zu der, die für das Parsing des verdichteten Bitstroms erforderlich ist, benötigt.
Gemäß einer verwandten Erfindung der gegenwärtigen Erfinder, die beschrieben ist in der europäischen Patentanmeldung EP 1021042 (Veröffentlichungsdatum 19.07.2000) dem Titel "METHODS OF SCENE CHANGE DETECTION AND FADE DETECTION FOR INDEXING OF VIDEO SEQUEN CES", und die gleichzeitig mit dieser Anmeldung eingereicht wurde, wurden rechenmäßig einfache Verfahren gefunden, die Kombination von bestimmten Aspekten des Weges von Feng et al und des Weges von Yeo et al verwenden, um eine genaue und einfache Erfassung abrupter Szenenwechsel zu erhalten. Die vorliegenden Erfinder haben auch Techniken untersucht, die von Bitzuweisungsinformationen Gebrauch machen, um Merkmale der Videofolge herauszuziehen.
Frühere Arbeiten von Anderen hinsichtlich der Erfassung einer allmählichen Szenenänderung haben verschiedene Techniken angewendet, wie die Berücksichtigung der Kantenwechsel-Bruchteile, einen Zwillingsvergleichsweg, eine auf Blockanpassung basierende Bewegungskompensationsschätzung, die Erfassung von Plateaus in einer verzögerten Vollbild-Differenzmetrik und ein auf einem Videoaufbereitungsmodell basierender Weg. Von diesen arbeitet nur der Weg der Erfassung von Plateaus in der verdichteten Domäne.
Es ist festzustellen, dass die auf der Gleichstrombild-Extraktion basierende Technik gut für I-Vollbilder ist, da die Extraktion der Gleichstromwerte aus I-Bildern relativ einfach ist. Jedoch ist für P-Vollbilder eine zusätzliche Berechnung typischerweise nicht erforderlich.
Wie in der gleichzeitig eingereichten Anmeldung beschrieben ist, haben die vorliegenden Erfinder, nachdem ein vermuteter Szenen/Objekt-Wechsel in einer Gruppe von aufeinander folgenden Vollbildern/Objekten durch Verwendung einer auf einer Gleichstrombild-Extraktion beruhenden Technik genau lokalisiert wurde, die Anwendung einer angemessenen, auf einer Bitzuweisung beruhenden Technik und/oder einer abgemes senen Gleichstrom-Restkoeffizienten-Verarbeitungstechnik auf P-Vollbildinformationen in der Nähe der vermuteten Änderungsinformationen bestimmt, um schnell und genau den Schnittpunkt zu lokalisieren. Dieses kombinierte Verfahren ist entweder auf MPEG-2-Folgen oder MPEG-4-Mehrobjektfolgen anwendbar.
Gemäß der vorliegenden Erfindung weist ein weiterhin vereinfachtes Verfahren der Verarbeitung digitaler bilddarstellender Videodaten in verdichteter Form auf: Herausziehen aus einer Folge von digitalen bilddarstellenden Videodaten in verdichteter Form, die zumindest I-Vollbilder und P-Vollbilder, die zwischen den I-Vollbildern auftreten, aufweist, der den Gleichstromkoeffizienten von P-Vollbildern zugewiesenen Bits, um allmähliche Einblend- und Ausblend-Szenenänderungen zu erfassen. Insbesondere wird das Auftreten von allmählichen Szenenänderungen erfasste durch Bestimmen der Anzahl von positiven und negativen Gleichstrom-Restkoeffizienten in jedem der abgerufenen P-Vollbilder oberhalb eines Schwellenwertes, um das Einblenden und Ausblenden zu lokalisieren.
Auf diese Weise können zeitliche Segmentierungsmarkierungen erzeugt werden, die mit der Eingangsvideosequenz assoziiert sind, um die besonderen Szenenänderungen durch Blendvorgänge der Videofolge zu lokalisieren und zu identifizieren.
Eine spezifische bevorzugte Anordnung der Einblend/Ausblend-Szenenänderungs-Erfassungsschritte wird nun im Einzelnen beschrieben. Es ist festzustellen, dass es eine erheblich Gelegenheit für die Variation von Einzelheiten dieser Schritte gibt, ohne die allgemeineren Aspekte der vorliegenden Erfindung zu verlassen. Detaillierte Verfahrensschritte sind jedoch nachstehend angezeigt, um dem Fachmann einen Hinweis auf die möglichen Variationen zu geben.
Erfassung von Blendvorgängen unter Verwendung von Änderungen der zum Codieren von Gleichstromkomponenten von Resten verwendeten Bits
Es wurde beobachtet, dass, wenn eine allmähliche Szenenänderung vorliegt, jeder Block des Bildes ein Gleichstrom-Korrekturglied enthält, da das Bild von einem vollständig schwarzen Vollbild her eingeblendet oder zu einem vollständig schwarzen Vollbild hin ausgeblendet wird. Unter Berücksichtigung hiervon wurde gefunden, dass Bitzuweisungsprofile für Gleichstromkomponenten von Restblöcken einen Hinweis für die Erfassung von Blendvorgängen liefern. Gemäß der vorliegenden Erfindung umfasst ein verfahren zur Erfassung von Blendvorgängen die folgenden Schritte.

1. Für jedes P-Vollbild werden die Anzahl von Blöcken mit negativen Gleichstromkomponenten sowie die Anzahl von Blöcken mit positiven Gleichstromkomponenten gezählt. Für den MPEG-2- sowie für den MPEG-4-Fall kann dieser Schritt leicht aus dem VLC-Parsing durchgeführt werden, da jeder Nicht-Null-Gleichstromkomponente eine von null abweichende Anzahl von Bits und ein Vorzeichenbit, das anzeigt, ob die Komponente positiv oder negativ ist, zugewiesen werden. Null-Gleichstromkomponenten werden durch die Runlängen-Information angezeigt und können somit leicht gelöscht werden.
2. Die Charakteristik der beiden vorstehend erhaltenen Zahlen gegenüber der Vollbildanzahl wird be stimmt.
3. Es wird ein Ausblenden erklärt, wenn die Anzahl von negativen Übergängen in einer Folge von P-Vollbildern, die sich über ein gewöhnliches Blendintervall erstrecken, so wie es in der gegenwärtigen Videopraxis angewendet wird (z. B. in der Größe von angenähert einer Sekunde) stetig gleich oder größer als 60% der Gesamtzahl von Nicht-Null-Übergängen ist. Umgekehrt wird ein Einblenden erklärt, wenn die Anzahl von positiven Übergängen die vorgenannte Schwelle trifft. Es wurde beobachtet, dass ein Blendintervall angenähert fünfzehnt bis fünfundvierzig Vollbildern entspricht, und typischerweise etwa fünfundzwanzig oder dreißig Vollbildern bei den gegenwärtigen Rundfunktechniken (etwa eine Sekunde).

Diese Erfassungstechnik für Blendvorgänge macht sich die von dem Codierer durchgeführte Bewegungssuche zunutze. Sie misst die für das Codieren der Gleichstromdifferenz zwischen einem besonderen Makroblock und seiner engsten Übereinstimmung in dem vorhergehenden Vollbild benötigte Rate.
Somit können gemäß der vorliegenden Erfindung Einblend- und Ausblend-Szenenänderungen erfasst werden, obgleich in etwas zeitaufwendigerer und ungenauerer Weise als in dem Fall der gleichzeitig anhängigen Anmeldung, durch Vergleich der jeweiligen Anzahl von positiven und negativen Gleichstromkomponenten für alle P-Vollbilder, mit oder ohne zuerst I-Vollbilder in der in der gleichzeitig anhängigen Anmeldung offenbarten Weise zu untersuchen. Insbesondere werden für jedes P-Vollbild die Anzahl von Blöcken mit negativen Gleichstromkomponenten sowie die Anzahl von Blöcken mit positiven Gleichstromkomponenten gezählt. Es wird ein Ausblendvorgang erklärt, wenn die Anzahl von negativen Übergängen größer als oder gleich 60% der Gesamtzahl der Nicht-Null-Übergänge über eine Folge von Vollbildern entsprechend zumindest einem Hauptteil eines üblichen Blendintervalls ist. Umgekehrt wird ein Einblendvorgang erklärt, wenn die Anzahl von positiven Übergängen den Schwellenwert über eine ähnlich angemessene Anzahl von Vollbildern trifft. Wieder kann ein Gleitfenster verwendet werden.
Während die Erfindung anhand eines bevorzugten Ausführungsbeispiels beschrieben wurde, können verschiedene Modifikationen angewendet werden, ohne den Bereich der Erfindung zu verlassen, die in den folgenden Ansprüchen definiert ist.

Claims

Verfahren zum Verarbeiten digitaler bilddarstellender Videodaten in verdichteter Form, welches die Schritte aufweist: Herausziehen jeder Subfolge aus P-Vollbildern entsprechend einer Gruppe von Bildern aus einer Folge von digitalen bilddarstellenden Videodaten in verdichteter Form, die zumindest I-Vollbilder und zwischen den I-Vollbildern auftretende P- Vollbilder aufweist, gekennzeichnet durch Verarbeiten der Daten in verdichteter Form für jedes Vollbild in der Subfolge, um entsprechende Gleichstrom-Restkoeffizienten, die Vorzeicheninformationen enthalten, für jedes der P-Vollbilder herauszuziehen, und Bestimmen der Anzahl von positiven und negativen Gleichstrom-Restkoeffizienten in den abgerufenen P-Vollbildern, die einen Schwellenwert überschreiten, um Einblend- bzw. Ausblend-Szenenwechsel zu lokalisieren.
Verfahren zum Verarbeiten digitaler bilddarstellender Videodaten in verdichteter Form nach Anspruch 1, bei dem: der Schritt des Bestimmens weist das Zählen der Anzahl von Blöcken mit positiven Gleichstromkomponenten und der Anzahl von Blöcken mit negativen Gleichstromkomponenten in jedem der P-Vollbilder auf, Bestimmen, welcher Zählwert größer ist, und Bewahren des Vorzeichens des größeren für jedes der P-Vollbilder, Identifizieren jedes P-Vollbildes, bei dem der größere Zählwert gleich der oder mehr als eine vorbestimmte Mehrheit von von null abweichenden Gleichstromkomponenten in diesem Vollbild ist, Identifizieren jeder Gruppe von Bildern, in der die Gleichstromkomponenten eines bestimmten Vorzeichens gleichmäßig diejenigen des entgegengesetzten Vorzeichens überschreiten, Bezeichnen eines Einblend-Szenenwechsels, wenn der größere Zählwert in jeder der identifizierten Gruppen von Bildern mit einem positiven Vorzeichen assoziiert ist, Bezeichnen eines Ausblend-Szenenwechsels, wenn der größere Zählwert in jeder der identifizierten Gruppe von Bildern mit einem negativen Vorzeichen assoziiert ist.
Verfahren zum Verarbeiten digitaler bilddarstellender Videodaten in verdichteter Form nach Anspruch 2, bei dem: der Schritt des Identifizierens jedes P-Vollbildes weist weiterhin das Identifizieren jedes P-Vollbildes auf, bei dem der größere Zählwert gleich oder mehr als 60 Prozent der von null abweichenden Gleichstromkomponenten in diesem Vollbild ist.
Verfahren nach Anspruch 2, bei dem: der Schritt des Identifizierens jeder Gruppe von Bildern weist das Identifizieren jeder derartigen Gruppe von Bildern auf, bei der die Gleichstromkomponenten eines Vorzeichens diejenigen des entgegengesetzten Vorzeichens in allen P-Vollbildern entsprechend einem Zeitintervall, das im Wesentlichen gleich einer Abschwächungsfolge ist, überschreiten.
Verfahren nach Anspruch 3, bei dem: der Schritt des Identifizierens jeder Gruppe von Bildern weist das Identifizieren jeder derartigen Gruppe von Bildern auf, bei denen die Gleichstromkomponenten eines Vorzeichens diejenigen des entgegengesetzten Vorzeichens in allen P-Vollbildern während eines Zeitintervalls in der Größenordnung von einer Sekunde überschreiten.
Verfahren nach Anspruch 1, bei dem: der Schritt des Bestimmens der Anzahl von positiven und negativen Gleichstrom-Restkoeffizienten in den abgerufenen P-Vollbildern, die einen Schwellenwert überschreiten, weist das Identifizieren jeder Gruppe von Bildern, in denen die Gleichstromkomponenten eines Vorzeichens die Anzahl von Gleichstromkomponenten des entgegengesetzten Vorzeichens um zumindest einen vorbestimmten Wert überschreiten, auf.