DE69513541T2

DE69513541T2 - Verfahren zum Detektieren von durch Kamarabewegungen verursachte Szenenänderungen

Info

Publication number: DE69513541T2
Application number: DE69513541T
Authority: DE
Inventors: Behzad Shahraray
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1994-02-04
Filing date: 1995-01-26
Publication date: 2000-07-06
Anticipated expiration: 2015-01-27
Also published as: SG43690A1; DE69513541D1; KR100333993B1; JPH07226877A; EP0666687B1; CA2135938C; KR950033633A; EP0666687A2; US6211912B1; HK1004508A1; EP0666687A3; CA2135938A1; JP3554595B2

Description

Die Erfindung betrifft Verfahren zum Bewerten von Szenenänderungen in visuelle Information tragenden Rahmen.
Videoprogramme werden im Wesentlichen aus einer Programmübersetzung unterschiedlicher Videosegmente gebildet, die als Kameraeinstellung, Einstellung oder "Shots" in der Film- und Videoindustrie bekannt sind. Jede Kameraeinstellung besteht aus einer Folge von Rahmen (d. h. Bildern), die während eines fortlaufenden (ununterbrochenen) Betriebsintervalls von einer einzigen Kamera erzeugt werden. Bei bewegten Bildern oder Filmen ist ein Shot zum Beispiel eine fortlaufende Reihe von Rahmen, die auf einem Film aufgezeichnet sind, der von einer einzelnen Kamera erzeugt wird, und zwar in der Zeit vom Beginn der Aufnahme bis zum Ende der Aufnahme.
Bei Fernseh-Life-Übertragungen beinhaltet ein Shot die Bilder, die auf dem Bildschirm gesehen werden, und zwar von dem Zeitpunkt an, wenn eine einzelne Kamera über den Äther sendet, bis sie durch eine andere Kamera ersetzt wird.
Die Kameraeinstellungen oder Shots können entweder in einem Abruptmode (d. h. butt-edit oder Schalter), in dem der Rand oder die Grenze zwischen zwei aufeinanderfolgenden Kameraeinstellungen (als "cut" bekannt) eindeutig definiert ist, oder durch einen oder viele andere Editierungsmoden, z. B. Überblendung oder ineinander verschwimmen, was einen allmählichen Übergang von einer Kameraeinstellung zur nächsten ergibt, ineinander übergehen. Der verwendete bestimmte Übergangsmode wird im wesentlichen vom Aufnahmeleiter ausgewählt, um einen Anhaltspunkt für die Änderungen hinsichtlich Zeit und Raum bereitzustellen, die dem Betrachter helfen, den fortschreitenden Ereignissen zu folgen.
Es existieren bekannte automatische Videoindizierungsverfahren, die abrupte Übergänge zwischen verschiedenen Kameraeinstsllungen detektieren. Ein Beispiel eines derartigen Verfahrens, das sowohl abrupte als auch allmähliche Übergänge detektieren kann, ist in der Patentanmeldung 08/171,136 vom 21. Dezember 1993 mit dem Titel "Method and Apparatus for Detecting Abrupt and Gradual Scene Changes In Image Sequences" offenbart worden, auf dessen Inhalte hierin Bezug genommen und deren Inhalt durch Bezugnahme auch zum Gegenstand dieser Offenbarung gemacht wird. In Zusammenhang mit der automatischen Videoprogrammindizierung werden diese abrupten Übergänge oftmals als "Szenen" und die detektierten Grenzen (d. h. cuts) als "Szenengrenzen" bezeichnet. Eine "Szene" wird jedoch gemeinhin als Rahmenfolge mit eng verwandten Inhalten betrachtet, die im wesentlichen ähnliche Informationen übermitteln. Wenn die Videoprogramme nur aus "still shots" oder stehenden Kameraeinstellungen (d. h. Kameraeinstellungen, bei denen die Kamera bewegungslos ist) bestehen, beinhaltet jede Kameraeinstellung nur eine einzige Szene. Jedoch setzen sich im Allgemeinen Videoprogramme nicht nur aus still shots sondern auch aus sich bewegenden Kameraeinstellungen "moving shots" zusammen (d. h. Kameraeinstellungen, bei denen die Kamera Einwirkungen wie Verschwenkung, Verkippung und Vergrößerung unterliegt). Folglich können sich aufgrund der Kamerabewegung die Inhalte einer Reihe von Rahmen über einer einzelnen Kameraeinstellung beträchtlich ändern, wodurch mehr als eine Szene in einer gegebenen Kameraeinstellung vorhanden ist. Da die Grenzen zwischen unterschiedlichen Kameraeinstellungen Szenengrenzen sind, können die Grenzen nur eine Teilmenge aller Szenengrenzen sein, die in einem Videoprogramm vorkommen, da die Kamerabewegung interne Szenenänderungen erzeugen kann.
Bekannte Szenenänderungsdetektionsverfahren sind unzureichend, da sie nur Szenenänderungen detektieren können, die an der Grenze zwischen zwei Kameraeinstellungen auftreten, aber keine Szenenänderungen, die während einer einzigen Kameraeinstellung auftreten.
GB-A-158 324 betrifft ein Verfahren zum Detektieren von Szenenänderungen bei visueller Information. Die Bildinformation wird Linie für Linie bearbeitet und synchron abgetastet. Die mittleren Beleuchtungswerte der Liniengruppen werden mit denen der entsprechenden Gruppen in dem folgenden Feld oder Rahmen verglichen. Wenn ein wesentlicher Sprung in den unterschiedlichen Werten gefunden wird, wird ein Szenenänderungsimpuls emittiert.
EP-A-0 378 393 betrifft eine dynamische Bildeditoreinrichtung, die sich automatisch zu den Anfangsrahmen der Szenen bewegt. Charakteristische Daten werden gemessen. Benachbarte Rahmen werden verglichen, um die Änderung hinsichtlich der charakteristischen Daten zwischen den Rahmen festzustellen. Wenn der Unterschied einen Schwellenwertpegel überschreitet, wird eine Szenengrenze festgestellt.
Gemäß der vorliegenden Erfindung wird ein Verfahren bereitgestellt, wie es in Anspruch 1 beansprucht wird. Ein Verfahren ist zum Bestimmen von durch eine Kamera induzierte Szenenänderungen in einer Folge von visuellen Informationen tragenden Rahmen, die eine einzelne Kameraeinstellung darstellen, entwickelt worden. Bei einem Beispiel dieses Verfahrens wird eine durch eine Kamera induzierte Bewegung zwischen jedem aus einer Vielzahl von Rahmenpaaren innerhalb einer einzelnen Kameraeinstellung festgestellt. Die durch die Kamera induzierte Bewegung für jedes dieser Rahmenpaare wird in wenigstens eine erste Komponente zerlegt. Die Werte der ersten Komponente für jedes der Rahmenpaare werden summiert, um ein erstes kumulatives Signal zu bilden. Eine Szenenänderungen wird angezeigt, wenn das erste kumulative Signal ein bestimmtes Entscheidungskriterium trifft.
Bei einem bestimmten Beispiel der Erfindung stellt die erste Komponente, in welche die Kamerabewegung zerlegt wird, entweder eine Bildverschwenkung eine Bildverkippung oder eine Bildgrößenänderung dar. Bei einem weiteren Beispiel der Erfindung wird die Kamerabewegung in alle drei dieser Komponenten zerlegt.
Bei einem weiteren Beispiel der Erfindung wird ein Signal erzeugt, das die durch die Kamera induzierte Bewegung zwischen jedem der Vielzahl der Rahmenpaare innerhalb einer einzelnen Kameraeinstellung darstellt. Eine Vielzahl der Signale wird für eine Vielzahl von Rahmenpaaren summiert, um ein erstes kumulatives Signal zu erzeugen. Eine Szenenänderung wird angezeigt, wenn das erste kumulative Signal ein bestimmtes Entscheidungskriterium erreicht.
Bei einem weiteren Beispiel der Erfindung arbeitet das Verfahren der Erfindung in Verbindung mit einem bekannten Verfahren, z. B. einem Blockausgleich zum Detektieren abrupter und allmählicher Übergänge zwischen Kameraeinstellungen. Das bekannte Verfahren wird zum Finden des Anfangs jeder Kameraeinstellung verwendet, die als Beginn einer neuen Szene bezeichnet wird. Jedes bekannte Verfahren kann dann zum Extrahieren der Bildnachführung, der Bildverkippung und der Bildgrößenänderung verwendet werden, die zwischen aufeinanderfolgenden Rahmen innerhalb der Kameraeinstellung auftreten. Für jede der Kameraoperationen, nämlich Bildnachführung, Bildverkippung und Bildgrößenänderung, werden die zwischen den aufeinanderfolgenden Rahmen berechneten Werte zum Erzeugen zweier Signale verwendet:
1) ein fortlaufendes Signal, das den kumulativen Wert der Kameraoperation seit dem Beginn der neuen Szene darstellt, und
2) ein binäres Signal, das eine ununterbrochene Aktivierung der Kamera für den gegebenen Betrieb anzeigt.
Eine Szenenänderung wird angezeigt, und zwar immer dann, wenn:
1) die Höhe des kumulativen Wertes für einen der Betriebszustände einen vorbestimmten Schwellenwert übersteigt, oder
2) eine fortlaufende Betriebsperiode für eine der Operationen (d. h. Nachführung, Verkippung oder Vergrößerung) endet, (wie durch das binäre Signal angezeigt) und der entsprechende kumulative Wert eine Höhe aufweist, der wenigstens so groß ist, wie der andere vorbestimmte Schwellenwert.

Beschreibung der Zeichnungen

Es zeigen:
Fig. 1 ein Blockschaltbild eines Beispiels eines kamerainduzierten Szenenänderungsdetektors, der eine Videoquelle und eine Applikationsschnittstelle umfaßt,
Fig. 2 ein Flußdiagramm, das ein Beispiel des erfindungsgemäßen Verfahrens darstellt, das an einer einzelnen Kameraeinstellung arbeitet,
Fig. 3 ein Flußdiagramm, das ein Beispiel der Erfindung darstellt, die in Verbindung mit einem Kameraeinstellungsgrenzendetektor arbeitet, um Szenenänderungen an Einstellungsgrenzen und internen Kameraeinstellungsorten zu detektieren,
Fig. 4 ein Flußdiagramm, das ein Beispiel der detaillierten Schritte darstellt, die bei der Detektion der durch die Kamera induzierten Szenenänderungen involviert sind,
Fig. 5 ein Flußdiagramm, das ein Beispiel für die zusätzlichen detaillierten Schritte darstellt, die bei der Detektion der Szenenänderung involviert sind, die auf der Nachführung basieren,
Fig. 6 ein Flußdiagramm, das die detaillierten Schritte zum Erzeugen eines einzelnen aktiven Nachführsignals von nicht beabstandeten aktiven Intervallen darstellt,
Fig. 7 jeweils ein Beispiel einer Wellenform für das Bildnachführsignal, das zugeordnete aktive Nachführsignal vor und nach der Verarbeitung, um die dicht beabstandeten aktiven Intervalle zusammenfließen zu lassen, und das kumulative Nachführsignal, wobei das Ergebnis eine Szenenänderung am Ende eines aktiven Intervalls ist,
Fig. 8 jeweils ein Beispiel des Bildnachführsignals während eines andauernden Nachführbetriebes, des zugeordneten aktiven Nachführsignals vor und nachdem die dicht beabstandeten aktiven Intervalle zusammenfließen und das kumulative Nachführsignal, alle über den Verlauf von vier Szenenänderungen, von denen drei während des aktiven Intervalls auftreten.

Detaillierte Beschreibung

Fig. 1 zeigt das Blockschaltbild eines Szenenänderungsdetektors 2 gemäß einem Ausführungsbeispiel dieser Erfindung. Der Detektor 2 umfaßt einen A/D-Bildwandler 3, einen Bildprozessor 4 und einen digitalen Rechner 7. Der Bildprozessor 4 umfaßt einen Bildspeicher 6 zum Halten digitalisierter Bilder aktueller und vorhergehender Rahmen und zum Speichern von Zwischenergebnissen, die durch den Bildprozessor 4 erzeugt werden. Der Bildprozessor 4 umfaßt ferner einen Prozessor S. um die in dem Bildspeicher 6 beinhalteten Bilder zu verarbeiten. Bei einer alternativen Ausführungsform der Erfindung führt der digitale Rechner 7 die Aufgaben des Bildprozessors 4 aus, wodurch der Bedarf nach einem separaten Bildprozessor 4 entfällt. Wie nachstehend beschrieben, kann der Szenenänderungsdetektor 2 sowohl Grenzen zwischen Kameraeinstellungen als auch interne Kameraeinstellungsszenengrenzen erkennen.
Das Verfahren der Erfindung arbeitet an einzelnen Kameraeinstellungen innerhalb eines Videoprogramms. Bevor jedoch solche internen Einstellungsszenenänderungen detektiert werden können, muß das Videoprogramm zuerst in einzelne Kameraeinstellungen mittels einem bekannten Verfahren segmentiert werden. Wenn die einzelnen shots dargestellt worden sind, können die internen Einstellungsszenenänderungen innerhalb jeder Kameraeinstellung durch das erfindungsgemäße Verfahren, wie in Fig. 2 gezeigt, detektiert werden. Es sei bemerkt, daß eine Einstellungsgrenze an sich eine Szenenänderung darstellt.
Die mittels einem Beispiel dieser Erfindung ausgeführten Schritte werden in Fig. 2 gezeigt. Am Anfang einer Kameraeinstellung oder Shot (die auch der Anfang einer neuen Szene ist), wird der durch die Kamera induzierte Szenenänderungsdetektor in Schritt 210 initialisiert.
Aufeinanderfolgende Rahmen innerhalb der Kameraeinstellung werden in Schritt 240 digitalisiert und das Verfahren der durch die Kamera induzierten Szenenänderungsdetektion wird zum Detektieren interner Einstellungsszenenänderungen in Schritt 250 verwendet. Das Ausgangssignal aus Schritt 250 wird in Schritt 260 nach dem Vorhandensein einer Szenenänderung geprüft. Wenn eine Szenenänderung festgestellt worden ist, wird eine geeignete Maßnahme in Schritt 270 vorgenommen. Die bestimmte durchgeführte Maßnahme ist eine Funktion der Applikation, für welche die Szenenänderungsdetektion verwendet wird. Das Verfahren der Erfindung kann in Verbindung mit jeder gewünschten Applikation verwendet werden. Einige Beispiele werden nachstehend aufgezeigt. Der Detektor für die internen Einstellungsszenenänderungen wird dann initialisiert, um den Vorgang zu wiederholen. Die zuvor beschriebenen Schritte werden solange wiederholt, bis alle Rahmen innerhalb der Einstellung bearbeitet worden sind. Falls keine Szenenänderung festgestellt worden ist, geht der Vorgang weiter, ohne daß der Detektor für die interne Einstellungsszenenänderung wieder initialisiert wird.
Bei einem weiteren Erfindungsbeispiel werden sowohl die Detektion der Kameraeinstellungsgrenzen und der internen Einstellungsszenenänderungen zusammen am Videoprogramm ausgeführt, wie in Fig. 3 gezeigt. In diesem Fall wird der Initialisierungsschritt 310 sowohl am Anfang als auch nach der Detektion jeder Szenenänderung durchgeführt. Die Rahmen werden aufeinanderfolgend in Schritt 340 digitalisiert. Die digitalisierten Rahmen werden zuerst nach dem Vorhandensein einer Einstellungsgrenze in Schritt 350 durch Verwendung eines bekannten Einstellungsgrenzendetektionsverfahrens, z. B. das vorstehend offenbarte Verfahren, überprüft. Das Ergebnis wird in Schritt 360 geprüft. Wenn eine Kameraeinstellungsgrenze (die auch eine Szenengrenze ist) ermittelt wird, wird Schritt 380 ausgeführt und der Vorgang beginnend mit Schritt 310 wiederholt. Wenn keine Einstellungsgrenze ermittelt worden ist, wird Schritt 250 ausgeführt, um beliebige interne Einstellungsszenenänderungen zu detektieren. Das Ergebnis dieses Schrittes wird in Schritt 370 geprüft. Wenn eine interne Einstellungsszenenänderung ermittelt wurde, wird der Schritt 380 ausgeführt und der Vorgang, beginnend mit Schritt 310, wiederholt. Wenn keine interne Einstellungsszenenänderung festgestellt worden ist, wird der Vorgang, beginnend mit Schritt 320, wiederholt, wodurch die Reinitialisierung des Detektors für die internen Einstellungsänderungen vermieden wird. Der Vorgang wird in Schritt 330 abgeschlossen, wenn Schritt 320 anzeigt, daß der letzte Programmrahmen erreicht worden ist.
Das in Schritt 250 ausgeführte Verfahren zum Detektieren von internen Einstellungsszenenänderungen wird im Einzelnen nachstehend beschrieben. Da die in Schritt 250 verwendeten Detektionskriterien von den Kameraoperationen abhängen, werden Beispiele unterschiedlicher Kameraoperationen oder -betriebe und die Zwecke, für die diese verwendet werden, zuerst erörtert. Die Effekte dieser Kameraoperationen an den Rahmen und die zum Erkennen dieser Effekte verwendeten Detektionskriterien werden danach erläutert.

Kameraoperationen

Videoprogramme setzen sich im Allgemeinen aus zwei unterschiedlichen Kameraeinstellungsarten zusammen. Ein Einstellungstyp ergibt sich, wenn sich die Kamera nicht bewegt und die Linse nicht vergrößert oder verkleinert. Diese Einstellungsart ist als ruhende Kameraeinstellung oder "still shot" bekannt. Der andere Einstellungstyp ergibt sich, wenn die Kamera entweder bewegt wird, vergrößert bzw. verkleinert oder beides gleichzeitig geschieht. Diese Kameraeinstellungen sind als bewegte Einstellungen oder "moving shots" bekannt.
Die Kamerabewegung und Größenänderung bzw. zoomen wird gemeinhin als "Kameraoperationen" oder "Kamerabewegungen" bezeichnet.
Kameraoperationen können wie folgt klassifiziert werden. Eine Nachführung oder "pan" ist eine horizontale Schwenkung der Kamera (d. h. um eine vertikale Achse) nach links oder rechts. Eine Verkippung oder "tilt" ist eine vertikale Schwenkung der Kamera (d. h. um die horizontale Achse) nach oben oder unten. Ein Kameravorschub oder "Dollying" ist eine Kamerabewegung entlang der optischen Achse der Kamera entweder zu einem Objekt oder von diesem weg. Eine Nachführung oder "Tracking", wie es hier benutzt wird, betrifft die Bewegung der Kamera innerhalb einer Ebene senkrecht zu ihrer optischen Achse. Natürlich ist eine Parallelverschiebung der Kamera eine Kombination aus Kameravorschub und Nachführung. "Zoomen" ist der Effekt, der durch Verändern des Brennpunktes einer Zoomlinse bewirkt wird, der dem Effekt, der durch den Kameravorschub bewirkt wird, ähnlich ist. Jeder der vorstehenden Kameraoperationen kann als Komponente der tatsächlichen Bewegung, die die Kamera ausführt, betrachtet werden.

Zweck der Kameraoperationen

Typischerweise wird eine Kamera während der Aufnahme nicht bewegt, sofern es ein klares Ziel gibt. Bei einem gut geführten Videoprogramm wird jede Kameraoperation aus gutem Grund durchgeführt. So kann zum Beispiel eine Nachführ- oder Kippbewegung ausgeführt werden, um "der Aktion zu folgen", wenn sich das Objekt von einer Seite des Bildes zur anderen bewegt. Das Nachführen oder Kippen kann auch für eine "Assoziation" verwendet werden, um die Ansicht zwischen zwei unterschiedlichen Objekten durch Nachführen und/oder Kippen von einem Objekt zum anderen zu überbrücken. Das nachführen und Kippen kann ferner für eine "Orientierung" verwendet werden, um ein großes Objekt zu zeigen, das nicht in einen Rahmen paßt (möglicherweise selbst in der vollständig verkleinerten Stellung), wobei die Kamera bewegt wird, um das ganze Objekt über mehrere Rahmen aufzuzeichnen. Ähnlich wie bei der "Orientierung" kann das Nachführen und Kippen für eine "Exploration" verwendet werden, bei der ausgewählte Details einer Szene in einer Großaufnahme gezeigt werden. Beispiele der Assoziation, Orientierung und Exploration werden in einem Aufsatz von Stasheff E., und Bretz R. "The Television Programm: Its Direction and Production", 4. Ausgabe, Hill and Wang publishers, New York, 1968 offenbart. Das Nachführen oder "Tracking" kann zum Erreichen von Ergebnissen verwendet werden, die ähnlich dem Nachführen oder "pan" und dem Kippen oder "tilt" sind (jedoch nicht exakt die gleichen sind). Das Nachführen (Tracking) kann zum Ansehen eines Objektes mit vollen 360º verwendet werden. Eine Leistung des Tracking, welche nicht durch gemeinsame Nutzung von Drehbewegungen aus Nachführung (pan) und Kippen (tilt) benutzt wird, ist eine verbesserte Tiefenschärfe. Dies tritt auf, wenn die Kamera nachgeführt wird, da die Objekte, die sich näher an der Kamera befinden, sich scheinbar schneller bewegen als die, die weiter weg sind.
Das Zoomen dient für vielerlei Zwecke. Ein Heranzoomen erzeugt eine Großaufnahme eines Objekts, um Details darzustellen, die in einem weiteren Feld nicht sichtbar sind. Eine Kameraeinstellung kann damit beginnen, daß die Zoomlinse auf Weitwinkel gestellt ist, wodurch eine kleine Ansicht des Objekts oder mehrere Objekte erzeugt wird, dann wird herangezoomt, um eine vergrößerte Ansicht eines bestimmten Objekts zu erhalten, während die anderen Objekte ausgeschlossen sind. Eine langsame Zoomoperation, die eine merkliche Größenänderung involviert, bewirkt eine fortlaufende Vergrößerung oder Verkleinerung der Objekte und somit des beobachtbaren Details, während ein zusätzliches Zuführen von Information die relative Position des Objekts in der Szene betrachtet. Ein Wegzoomen kann dazu verwendet werden, eine Ansicht der Objektumgebungen darzustellen oder um andere Objekte in der Szene zu umfassen.
Das Zoomen und der Vorschub ändern beide das Sichtfeld und die Größe. Während der Grad der Größe, der durch den Kameravorschub bewirkt wird, von dem Abstand zwischen der Kamera und dem Objekt abhängt, ist der Grad der Vergrößerung, der durch das Zoomen erreicht wird, unabhängig vom Abstand und nur eine Funktion der Änderung der Brennweite der Linse. Wirkungen der Kameraoperationen auf das Bild Jede der vorstehend erörterten Kameraoperationen hat einen eindeutigen Einfluß auf die durch die Kamera erzeugten Rahmen. Während für Erörterungszwecke nur die Bewegung der Kamera betrachtet wird, ist die Gesamtbewegung eine Zusammensetzung sowohl aus der Kamerabewegung als auch aus der Objektbewegung. Die Verfahren, die zum Extrahieren der Kamerabewegung verwendet werden, sind in der Lage, zwischen der Kamerabewegung und der Objektbewegung zu unterscheiden. Eine Nachführoperation der Kamera bewirkt eine horizontale Verschiebung in dem Bild. Alle stehenden Objekte (und der Hintergrund) bewegen sich um den gleichen Betrag ohne Rücksicht auf ihre relative Positionen hinsichtlich der Kamera. Diese horizontale Verschiebung des Bildes wird als Bildverschiebung ("image pan") bezeichnet. Als Ergebnis der Bildverschiebung verläßt ein Teil der Bildinhalte den linken oder rechten Rand und neue Inhalte treten von der rechten Seite bzw. der linken Seite ein.
Eine Kamerakippoperation bewirkt eine vertikale Verschiebung im Bild. Wie im Falle der Nachführung werden die stehenden Objekte um den gleichen Betrag bewegt. Diese Verschiebung des Bildes wird als Bildverkippung ("image tilt") bezeichnet. Als Ergebnis der Bildverkippung verläßt ein Teil des Bildes den oberen oder unteren Rand und ein neues Bild tritt im unteren Rand bzw. oberen Rand ein.
Eine Kameranachführung (Tracking) entlang einer horizontalen Linie bewirkt, daß die Objekte im Bild horizontal verschoben sind. Jedoch werden, nicht wie bei der Kameranachführung (pan) die Objekte, die näher an der Kamera sind, mehr verschoben als die, die weiter weg von der Kamera sind. Der Unterschied hinsichtlich der Verschiebung der Objekte ist gering, wenn der Unterschied hinsichtlich dem Abstand von den Objekten zur Kamera gering ist. Für die Zwecke dieser Erfindung wird das horizontale Nachführen (Tracking) auf die gleiche Weise wie das Nachführen der Kamera (pan) behandelt und ihre Effekte auf das Bild werden allesamt als Bildnachführung ("image pan") bezeichnet. Auf die gleiche Weise ergibt eine Nachführung entlang einer vertikalen Linie eine Bildverkippung ("image tilt"). Eine Nachführung (Tracking) der Kamera entlang einer diagonalen Linie (oder einer Kurve) ergibt sowohl eine Bildnachführung (image pan) als auch eine Bildverkippung (image tilt).
Ein Zoomen bewirkt eine Änderung der Objektgröße in dem Bild. Wenn herangezoomt wird, steigt die Größe an. Dies wird mittels einer ersichtlichen radialen Bewegung der Objekte aus der Bildmitte ersichtlich, wobei möglicherweise einige der Objekte das Bild verlassen. Ein Wegzoomen bewirkt einen Effekt, der entgegengesetzt zu dem Effekt beim Heranzoomen ist und kann bewirken, daß neue Objekte im Bild erscheinen. Die Größenänderung der Objekte, die sich aus dem Zoomen oder dem Kameravorschub ergeben, wird als Bildvergrößerung ("image zoom") bezeichnet.

Detektionskriterien

Die Kriterien zum Detektieren der durch die Kamerabewegung induzierten Szenenänderungen basieren auf den Zielen, daß die Kamerabewegungen und ihre Effekte auf das Bild erreicht werden sollen. Für die Ziele der Erfindung werden die Kamerabewegungen in zwei unterschiedliche Kategorieren unterteilt, wie nachstehend, basierend auf den Zielen, die sie erreichen sollen, aufgezeigt wird.
Die erste Kategorie von Kamerabewegungen umfaßt die Kameraoperationen, bei denen nur das Endergebnis signifikant ist. Beispielsweise werden oftmals eine Nachführung und/oder Verkippung oder eine Nachführung (Tracking) verwendet, um der Bewegung eines Objektes zu folgen und somit, wenn das Objekt anhält, die Kamera aufhört sich zu bewegen. In diesem Fall ist nur das Endergebnis der Kamerabewegung wichtig. Ein anderes Beispiel tritt auf, wenn ein Nachführen oder ein Verkippen für eine "Assoziation" verwendet wird. In diesem Fall spielt die Kamerabewegung eine Rolle, und zwar ähnlich der eines allmählichen Übergangs (z. B. Überblenden) zwischen zwei benachbarten Kameraeinstellungen, wobei das Ende der Kameraoperation der Anfang einer neuen Szene ist. Noch ein weiteres Beispiel kommt vor, wenn ein Heranzoomen verwendet wird, um eine Nahaufnahme eines Objektes (z. B. eine Hotelpforte) zu erreichen, die anfangs in der Szene erscheint, um so ein Detail (z. B. die Zimmernummer) erkennbar zu machen.
Die zweite Kategorie von Kamerabewegungen besteht aus den Operationen, bei denen Änderungen bei den visuellen Inhalten des Bildes signifikant sind, die auftreten, während die Kameraoperation fortdauert. Diese Kamerabewegungen umfassen große Nachführ- und Verkippungsbewegungen für "Orientierungs- oder Explorations"-zwecke, wie vorstehend erörtert. Diese Kategorie umfaßt auch langsames Zoomen, bei dem eine merkliche Änderung der Größe vorhanden ist. Während in diesen Fällen die Inhalte der benachbarten Rahmen sehr ähnlich sind, können Rahmen, die weiter weg sind, hinsichtlich des Inhaltes beträchtlich unterschiedlich sein, da eine große Nachführung, Verkippung oder Vergrößerung Objekte aus dem Sichtfeld der Kamera ausschließen können, die am Anfang vorhanden waren, und neue Objekte erscheinen lassen können, die am Anfang nicht vorhanden waren. Eine derartige zusammenhangsgemäße Änderung kann viele Male während einer einzigen Kameraeinstellung vorkommen und kann sogar mehrere Male während einer kontinuierlichen Kameraoperation vorkommen.
Es sei bemerkt, daß sich die beiden Kategorien der Kamerabewegungen, wie sie vorstehend erörtert wurden, nicht gegenseitig ausschließen. Das heißt, manchmal werden Kameraoperationen verwendet, bei denen sowohl die Änderungen im Rahmeninhalt während der Kamerabewegung als auch am Ende der Kamerabewegung merklich sind. Folglich sind die beiden vorstehend aufgezeigten Kategorien von Kamerabewegungen, die Kriterien zum Detektieren der durch die Kamerabewegung induzierten Szenenänderungen innerhalb einer Kameraeinstellung wie folgt.
Szenenänderungen, die durch die erste Kategorie der Kamerabewegung erzeugt werden, werden auf folgende Weise detektiert. Für jede der Bildnachführ-, Bildverkippungs- und Bildvergrößerungsoperationen werden Zeitintervalle (wie in den Rahmen gemessen) gefunden, über die die Operation weiterhin aktiv ist. Eine Szenenänderung wird detektiert, wenn zwei Kriterien zutreffen, nämlich:
1) das aktive Intervall ist beendet (d. h. die Kamerabewegung wird angehalten), und
2) das kumulative Ergebnis der gegebenen Operation seit Beginn der aktuellen Szene hat einen vorbestimmten Schwellenwert erreicht oder überstiegen.
Das erste Kriterium detektiert das Ende einer Kameraoperation. Das zweite Kriterium soll verhindern, daß eine Szenenänderung erzeugt wird, wenn eine Kameraoperation auftritt, dessen Nettoergebnis nicht ausreichend signifikant ist, um eine Szenenänderung abzugleichen. Ein Beispiel einer derartigen unmerklichen Operation tritt auf, wenn die Kamera wiederholt nach links und rechts nachgeführt wird, sogar als Ergebnis von Flimmern oder um geringe seitliche Bewegungen des Objektes auszugleichen. Wenn diese Kameraoperation endet, ist die Nettomenge der Bildnachführung gering und erzeugt folglich keine Szenenänderung.
Szenenänderungen, die durch die zweite Kategorie der Kamerabewegung erzeugt werden, werden wie folgt detektiert. Für jede der Operationen der Bildnachführung, Bildverkippung und Bildvergrößerung wird das kumulative Ergebnis der gegebenen Operation seit Beginn der aktuellen Szene gegenüber einem vorbestimmten Schwellenwert (der auf gleiche Weise für jede unterschiedliche Operation unterschiedlich ist) verglichen. Eine Szenenänderung wird angezeigt, wenn das kumulative Ergebnis für diese Operation für ihren jeweiligen vorbestimmten Schwellenwert erreicht oder übersteigt. Anders als die vorstehende erste Kategorie kann in diesem Fall eine Szenenänderung erzeugt werden, während die Operation noch läuft. Die vorbestimmten Schwellenwerte, die für die zweite Kategorie der Kamerabewegungen verwendet werden, sind typischerweise beträchtlich größer als die, die für die erste Kategorie verwendet werden. Diese Schwellenwerte bestimmten die Größe einer Änderung über den Verlauf einer großen Kameraoperation (oder einer Serie kleiner Operationen), die erforderlich ist, um neue Inhalte in das Bild einzugeben. Wenn zum Beispiel eine Kameranachführung für eine Exploration oder Orientierung ausgeführt wird, kann ein kumulativer Bildnachführwert, der in etwa gleich der Breite des Bildes ist, die Originialinhalte des Bildes ergeben, die herausgeschoben wurden und neue Inhalte ergeben, die hineingeschoben wurden. In diesem Fall, wenn der Bildnachführschwellenwert so ausgewählt ist, daß er gleich ist oder in etwa der Breite des Bildes entspricht, wird eine neue Szene an dem geeigneten Punkt detektiert.

Detektierungsverfahren

Fig. 4 ist ein Flußdiagramm, das ein Beispiel detaillierter Schritte zeigt, die in dem Szenenänderungsdetektionsschritt 250, der durch die Kamera induziert wird, involviert sein kann. Zuerst werden in Schritt 400 die Werte der Bildnachführung, der Bildverkippung und der Bildvergrößerung unter Einsatz des aktuellen Rahmens und des vorhergehenden Rahmens bestimmt. Dieses kann auch mittels einer zeitweise mittels geringerer Abtastfrequenz abgetasteten Version des Videoprogramms ausgeführt werden. Diese Werte können durch eine Blockabstimmung bestimmt werden, um die Bewegungsvektoren an einer Vielzahl von Punkten in dem Bild zu finden. Die Bewegungsvektorenansammlung wird weiter verarbeitet, um zwischen Objektbewegung und Kamerabewegung zu unterscheiden und die Kamerabewegung in Nachführ-, Kipp- und Zoomkomponenten zu unterteilen. Derartige Verfahren sind bekannt und werden z. B. in einem Aufsatz von Umori, K., et al. in "Automatic Image Stabilizing System by Full-Digital Signal Processing" in IEEE-Transactions on Consumer Electronics, Band 36, Nr. 3, Seiten 510 bis 519, August 1990, und in Akutsu A., et al., "Video Indexing Using Motion Vectors", Proc. SPIE Conf. Visual Communications and Image Processing (VCIP'92), Band 1818, Seiten 1522 bis 1530 offenbart. Umori et al. bezieht sich auf die Kamerabildstabilisierung und stellt ein Echtzeitsystem für die Bewegungsbewertung, die Unterscheidung zwischen Objektbewegung und Kamerabewegung und die Messung der Bildnachführung und Bildverkippung vor. Akutsu et al. offenbart ein Verfahren zum Bewerten von Kameraoperationen, die eine Blockanpassung und Hough-Transformationen kombiniert mit Kameraeinstellungsdetektion, um eine neue Bildikone zu erzeugen, welche die Kameraoperation während einer einzelnen Kameraeinstellung darstellt. Wie vorhergehend bemerkt, können sich die unterschiedlichen Objekte in der Szene verschieden weit zwischen den aufeinanderfolgenden Rahmen bewegen, wenn die Kamerabewegung einen Vorschub oder ein Nachführen (Tracking) umfaßt. In einem solchen Fall ist es die Bewegung des dominantesten Objektes (in prozentualem Ausdruck des Gesamtbildes, das es belegt), welches von Interesse ist. Diese dominante Bewegung kann mittels den vorstehend erwähnten Verfahren bestimmt werden.
In Schritt 410 wird die durch die Kamera induzierte Bewegung zwischen zwei Rahmen in Bildnachführ-, Bildverkippungs- und Bildvergrößerungskomponenten zerlegt (wenn sie nicht bereits als einzelne Komponenten berechnet wurden). Die für jede dieser Komponenten berechneten Werte erzeugen drei zeitdiskrete Signale, die als augenblickliche Nachführung (Instantaneous Pan, IP), augenblickliche Verkippung (Instantaneous Tilt, IT) bzw. augenblickliche Größenänderung (Instantaneous Zoom, 1Z) bezeichnet werden. Der Satz dreier augenblicklicher Signale wird unabhängig dazu benutzt, zwei zusätzliche Signalsätze in den Schritten 420, 430 und 440 zu erzeugen. Ein Satz besteht aus drei kumulativen Signalen, die jeweils Werte aufweisen, die gleich der Summe der Werte eines der drei augenblicklichen Signale sind, beginnend mit dem Wert des augenblicklichen Signals am Beginn der aktuellen Szene. Diese Signale werden als kumulatives Nachführsignal (Cumulative Pan, CP), kumulatives Verkippungssignal (Cumulative Tilt, CT) bzw. kumulatives Größenänderungssignal (Cumulative Zoom, CZ) bezeichnet. Der zweite Signalsatz besteht aus drei binären Signalen (d. h. Signale, die jeweils nur zwei Werte annehmen), jedes entspricht einer der drei Komponenten der Kamerabewegung (d. h. Nachführung, Verkippung und Größenveränderung). Diese Signale werden auf Null gesetzt, wenn die entsprechende Bewegung nicht erfassbar (d. h. aktiv) ist, und werden auf Eins gesetzt, wenn die Bewegung erfassbar ist. Diese Signale werden als aktives Nachführsignal (Pan Active, PA), aktives Verkippungssignal (Tilt Active, TA) bzw. aktives Größenänderungs- oder Zoomsignal (Zoom Active, ZA) bezeichnet. Bei einigen Beispielen der Erfindung können weitere Schritte vorgenommen werden, wenn PA-, TA- und ZA-Signale erzeugt werden, um kurze nicht aktive Intervalle zu vermeiden, die zwischen zwei aktive Intervalle fallen können, so daß die beiden aktiven Intervalle zu einem größeren aktiven Intervall verschmelzen.
Das Detektionsverfahren dieser Erfindung kann drei unabhängige Schritte umfassen, die jeweils einer der drei Komponenten der Kamerabewegung entsprechen. In Fig. 4 werden diese Schritte als Bildnachführung 420, Bildverkippung 430 und Bildgrößeneinstellung 440 gezeigt. Die Unterschritte, die in einer auf Nachführung, Verkippung und Zoom basierende Szenenänderungsdetektion involviert sind, sind im Wesentlichen alle gleich, mit der Ausnahme, daß die Schwellenwertparameter von einem zum anderen unterschiedlich sein können. Demgemäß ist es ausreichend, nur die Schritte im Einzelnen zu diskutieren, die in die auf Nachführung basierende Detektion involviert sind, demgemäß werden die Unterschiede zwischen dieser und den verbleibenden zwei Komponenten hervorgehoben.
Die Details des Bildnachführschritts 420 in Fig. 4 werden im Einzelnen in Fig. 5 gezeigt. Zuerst wird ein neuer Wert des kumulativen Nachführsignals (CP) in Schritt 500 aus seinem vorhergehenden Wert durch Hinzufügen des neuen Wertes des augenblicklichen Nachführsignals erzeugt. Dieser kumulative Wert wird sowohl zu Beginn des Verfahrens in den Schritten 210 und 310 initialisiert als auch nachdem eine Szenenänderung detektiert worden ist. Es sei bemerkt, daß das CP-Signal sowohl positive als auch negative Werte annehmen kann, abhängig von der Richtung der Nachführung. Demgemäß kann das CP-Signal sowohl positiv als auch negativ sein und seine Höhe kann, nachdem der neue IP-Wert hinzugefügt worden ist, ansteigen oder fallen.
In Schritt 510 wird das IP-Signal dazu verwendet, einen neuen Wert des aktiven Nachführsignals (PA) zu erzeugen. Dieses Signal hat den Wert Null während des Intervalls, in welchem die Nachführoperation inaktiv ist, und einen Wert Eins während des aktiven Intervalls. Wie vorstehend erwähnt, können zusätzliche Schritte ausgeführt werden, um dicht beabstandete aktive Intervalle in einzelne Intervalle verschmelzen zu lassen und um das Ende derartiger Intervalle zu erfassen. Die Einzelheiten des aktiven Nachführschritts 510 werden in Fig. 6 gezeigt und werden nachstehend erörtert. In Schritt 520 wird die Höhe des CP-Signals mit einem vorbestimmten Schwellenwert Tp1 verglichen. Wenn die Höhe des CP-Signals Tp1 erreicht oder überschritten hat, wird eine Szenenänderung angezeigt, die zur zweiten Kategorie der Kamerabewegungen gehört. In diesem Fall wird der Wert des PA- Signals nicht verwendet. Das CP-Signal kann den Schwellenwert erreichen oder diesen übersteigen aufgrund eines aktiven Nachführintervalls oder mehrerer diskreter aktiver Intervalle, die während der aktuellen Szene vorkommen.
Wenn keine Szenenänderung, die zur zweiten Kategorie der Kamerabewegung gehört, detektiert worden ist, prüft das Verfahren in Schritt 530, ob das Ende eines aktiven Nachführintervalls durch Schritt 510 angezeigt worden ist. Wenn dem so ist, wird die Höhe des CP-Signals mit einem vorbestimmten Schwellenwert Tp2 in Schritt 540 verglichen. Wenn der Schwellenwert erreicht oder überschritten worden ist, wird eine die zur ersten Kategorie der Kamerabewegungen gehörende Szenenänderung angezeigt. Schritt 540 wird verwendet, um zu verhindern, daß diese aktiven Nachführintervalle mit unwesentlichem Nettoergebnis eine Szenenänderung anzeigen. Beispiele von derartigen unwesentlichen Kameraoperationen sind vorstehend erörtert worden.
Fig. 6 zeigt die Einzelheiten des aktiven Nachfühtschritts 510. Der aktuelle Wert des IP-Signals wird dazu verwendet, einen neuen Wert für das PA-Signal in den Schritten 600, 610 und 620 zu erzeugen. Ein Wert des IP- Signals (positiv oder negativ), der nicht Null ist, zeigt eine Nachführaktivität an und man erhält einen Wert von Eins für das PA-Signal, wohingegen ein Wert Null für das IP-Signal einen PA-Wert von Null ergibt. Unter einigen Umständen, wenn Rauschen oder andere Faktoren bewirken können, daß das IP- Signal geringe Werte aber nicht Null aufweist, wenn sich die Kamera nicht bewegt, kann der Schritt 600 so modifiziert werden, daß er die Höhe des IP-Signals gegenüber einem kleinen Wert von nicht Null überprüft, um die Aktivität oder Inaktivität der Nachführoperation zu bestimmen.
Als nächstes wird das PA-Signal weiter verarbeitet, um eng beabstandete aktive Intervalle miteinander zu verschmelzen und um das Ende derartiger Intervalle zu detektieren. Der neue Wert des PA-Signals wird in Schritt 630 überprüft. Wenn das PA-Signal nicht Null ist, wird ein als PA Zähler bezeichneter Zähler auf einen ganzzahligen Wert Np (größer als Eins) in Schritt 640 gesetzt. Dieser Zähler wird in den Schritten 210 und 310 auf Null gesetzt. Der Wert Np bestimmt die maximale Größe des inaktiven Bereichs (d. h. PA = 0), der gefüllt ist, um zwei aufeinanderfolgende aktive Bereiche zu verschmelzen. Wenn das PA-Signal Null ist, wird der Schritt 640 nicht ausgeführt. Der PA Zähler wird dann in Schritt 650 (um Eins) verringert und das Ergebnis in Schritt 660 überprüft. Ein positiver Zählerwert zeigt an, daß entweder das PA-Signal zur Zeit auf Eins gesetzt ist, oder daß es wenigstens einmal in den vorhergehenden Np- Rahmenzeiten auf Eins gesetzt worden ist. Dies hat ein Setzen des PA-Signals auf Eins zur Folge (wenn es nicht bereits in Schritt 610 auf Eins gesetzt wurde), wodurch eng beabstandete aktive Intervalle miteinander verschmelzen. Ein negativer Wert des PA Zählers zeigt an, daß der Zähler vor Schritt 650 Null war. Dies bewirkt, daß der Zähler in Schritt 670 wieder auf Null gesetzt wird und setzt in Schritt 695 das PA-Signal gleich Null. Ein Wert von Null für den Zähler in Schritt 660 zeigt an, daß der Zähler einen Wert von Eins vor dem Schritt 660 hatte. Dies zeigt das Ende eines aktiven Intervalls in Schritt 680 an. Bei der Vervollständigung des aktiven Nachführschritts 510 wird ein aktueller (verarbeiteter) Wert für das PA-Signal erzeugt und das Ende eines aktiven Nachführintervalls wird, falls vorhanden, erfaßt.
Fig. 7 zeigt Beispiele typischer Wellenformen für das augenblickliche Nachführsignal und die daraus abgeleiteten Signale in zwei unterschiedlichen Bereichen - bezeichnet mit I (links) und II (rechts), die jeweils unterschiedliche Situationen darstellen. Der Bereich I zeigt das IP-Signal 700 für eine fortlaufende Nachführoperation, die in einer Richtung auftritt. An zwei Punkten 702 entlang des Signals geht das IP-Signal für eine sehr kurze Zeit auf Null. Diese Punkte 702 werden entweder durch das Fehlen eines guten Rahmens zur Verarbeitung an diesen Punkten oder durch die Operation bewirkt, die für einen sehr kurzen Zeitraum vor einer Wiederaufnahme zum Stehen kommt. Das zugeordnete PA- Signal 710 weist zwei inaktive Intervalle auf, die sich aus den Punkten 702 ergeben. Diese inaktiven Intervalle haben zwei Übergänge 712 von Eins auf Null, die mit den Punkten 702 verwandt sind, und haben ein Ende des Intervalls 713. Bei der Verarbeitung des PA-Signals, um 720 zu erzeugen, sind die kurzen inaktiven Intervalle eliminiert worden. Das Ende des aktiven Nachführintervalls 723 entspricht dem Ende des Intervalls 713 und ist aufgrund der Verarbeitung hinsichtlich 713 etwas verschoben. Das CP-Signal 730, das am Beginn der Szene einen Wert von Null aufweist, ist die Summe der IP- Werte. Am Ende des aktiven Nachführintervalls 723 hat das CP- Signal 730 den Tp2-Schwellenwert 735 überschritten. Dies ergibt eine Szenenänderung, die angezeigt wird, und die Reinitialisierung des Detektors, der das CP-Signal (und auch andere kumulative und aktive Signale und Zähler) bei 733 auf Null zurücksetzt. Die rechte Seite der Fig. 7 (Bereich II) zeigt ein IP-Signal 700, das sich aus dem Kameraflackern (d. h. kleine schnelle Bewegung nach links und rechts) ergibt, welches negative und positive Intervalle aufweist. Das verarbeitete PA-Signal 720 weist einen Punkt 724 auf, der dem Ende des aktiven Nachführintervalls entspricht. In diesem Fall hat jedoch das CP-Signal, das aufgrund der Richtungsumkehr der Nachführbewegung fluktuiert einen Wert, der unter den Tp2-Schwellenwert 730 fällt, wodurch eine falsche Detektion vermieden wird.
Fig. 8 zeigt ein Beispiel typischer Wellenformen in einer Situation, in welcher Szenenänderungen, die sowohl zur ersten als auch zur zweiten Kategorie gehören, detektiert werden. Das IP-Signal 700 zeigt in diesem Fall eine Nachführoperation, die für eine lange Zeitdauer gehalten wird. Dies spiegelt sich in dem verarbeiteten PA-Signal 720 wieder, die ein langes aktives Intervall aufweist, das bei 823 endet. Das CP-Signal erreicht den Tp1-Schwellenwert das erste Mal während der aktiven Periode an einem Punkt, der mit 833 bezeichnet wird. Dies ergibt eine Szenenänderung (die in die zweite Kategorie fällt). Das CP-Signal wird an diesem Punkt auf Null zurückgesetzt, um nochmals mit dem Akkumulieren der IP-Werte zu beginnen. Der Tp1-Schwellenwert wird zum zweiten und dritten Male bei 834 bzw. 835 erreicht, wodurch sich zwei weitere zu detektierende Szenenänderungen und das Rücksetzen des CP-Signals auf Null ergeben.
Schließlich hat am Ende des aktiven Intervalls 823 das CP- Signal den Tp2-Schwellenwert überschritten, wodurch sich eine weitere zu detektierende Szenenänderung bei 836 ergibt, die in die erste Kategorie der Kamerabewegungen fällt.
Auf Verkippung basierende Szenenänderungsdetektion Bis auf den Unterschied in ihrer Bewegungsrichtung sind die Verkippung und die Nachführung gleich. Demgemäß sind die Detektionsschritte, die auf der Nachführung und die Verkippung basieren im Wesentlichen gleich, mit der Ausnahme, daß sie jeweils andere Schwellenwerte aufweisen können. Diese Schritte werden unabhängig voneinander durchgeführt.
Auf Größenänderung basierende Szenenänderungsdetektion Die Effekte der Kamera-Größeneinstellung (oder Vorschub) am Bild sind von denen der Nachführung und Verkippung verschieden. Die vorstehend etablierten Kriterien für die beiden Kategorien interner Einstellungsszenenänderungen, die dazu verwendet werden, Szenenänderungen zu finden, die auf der Nachführung und der Verkippung basieren, gelten auf gleiche Weise für die Größenänderung (Zoom). Im Falle der Bildgrößenänderung oder Zoom müssen jedoch zusätzliche Schritte vor der Berechnung des augenblicklichen Zoomsignals (IZ) und des kumulativen Zoomsignals (CZ) ausgeführt werden. Die Gründe für diesen Unterschied werden nachstehend erörtert.
Die Nachführung und Verkippung bewirken, daß das Bild eine Schiebung in der horizontalen und vertikalen Richtung durchläuft. Diese Schiebung, wenn sie zwischen zwei Rahmen gemessen wird, ist positiv, wenn die Nachführ- (oder Kipp-)bewegung zwischen den Rahmen in einer Richtung liegen und negativ, wenn sie in gegenüberliegenden Richtungen ausgeführt werden. Deshalb löschen sich Nachführ- (oder Kipp-)bewegungen gleicher Stärke, jedoch in entgegengesetzten Richtungen, die über mehrere Rahmen ausgeführt werden, einander aus, wenn die kumulative Nachführ- (oder Kipp-) signale berechnet werden, wodurch sich eine Nettobewegung von Null seit dem Beginn der aktuellen Szene ergibt. Mit anderen Worten, die Nachführung und die Verkippung sind zusätzliche Komponenten. Der Bildzoom zwischen zwei Rahmen ist jedoch eine Multiplikatorkomponente. Man betrachte beispielsweise drei aufeinanderfolgende Rahmen während einer Zoomoperation. Wenn die Vergrößerung des Rahmens 2 doppelt so groß ist wie die des Rahmens 1 und die Vergrößerung des Rahmens 3 1,25 mal so groß ist wie die des Rahmens 2, beträgt die Vergrößerung des Rahmens 3 hinsichtlich des Rahmens 1 gleich 2, multipliziert mit 1,25, was 2,5 ergibt. Demgemäß kann das Verfahren dieser Erfindung für den Bildzoom angewendet werden, und zwar durch Setzen des jeweiligen augenblicklichen Zoomsignalwertes (1Z) gleich dem Logarithmus der relativen Vergrößerung zwischen dem aktuellen Rahmen und dem vorhergehenden Rahmen. Dies ergibt einen Wert von Null für das IZ-Signal, wenn die Vergrößerung die gleiche bleibt (das heißt, die relative Vergrößerung ist gleich Eins, wodurch der Logarithmus gleich Null wird). Wenn die Vergrößerung ansteigt (das heißt, ein Vergrößerungsfaktor größer Eins) ist der Logarithmus positiv, und bei einer Verkleinerung wird der Logarithmus negativ. Folglich werden das aktive Zoomsignal (ZA) und das kumulative Zoomsignal (CZ) in der gleichen Weise berechnet, wie bei der vorstehend erörterten auf die Nachführung basierenden Bewegung, bis auf die Notwendigkeit des zusätzlichen Schrittes der Berechnung des Logarithmus, um das IZ-Signal zu erzeugen.
Die vorstehende Erörterung behandelt jede der Nachführungs-, Kipp- und Zoomkomponenten der durch die Kamera induzierten Bewegung unabhängig voneinander. Das schließt jedoch nicht die Anwendung der Detektionskriterien aus, die bei dieser Erfindung für manche Kombinationen dieser Komponenten aufgezeigt werden. Zum Beispiel können die Nachführ- und die Kippkomponente miteinander kombiniert werden, um einen Bewegungsvektor zu erzeugen, wobei die Höhe des sich ergebenden Vektors in dem Detektionsverfahren verwendet werden kann.

Anwendungen

Es ist bekannt, daß Einstellungsgrenzen- Detektionsverfahren verwendet werden können, um Indizes für Videoprogramme zu erzeugen. Derartige Indizes können dazu verwendet werden, einzelnen Kameraeinstellungen aus dem Videoprogramm selektiv wieder aufzufinden. Die Erfindung stellt ein zweites Indexniveau durch Erzeugen von Indizes für einzelne Szenen innerhalb der Einstellungen bereit. Durch Bereitstellen beider dieser Indizesniveaus ist ein selektiveres Videoihformations-Wiedergewinnungssystem möglich. Ferner sind andere Anwendungen des Verfahrens dieser Erfindung über die Indexierung hinaus möglich, einige dieser Anwendungen werden nachstehend erörtert.
Eine Folge typischer Rahmen aus der ursprünglichen Rahmenfolge kann durch Zurückhalten eines einzelnen Rahmens von jeder der Szenen erzeugt werden (wie in Form von Kameraeinstellungsgrenzen und Szenengrenzen innerhalb der Kameraeinstellungen definiert). Diese Folge beinhaltet diese Rahmen, für welche die Inhalte der Originalfolge (z. B. ein Videoprogramm) eine merkliche Änderung durchlaufen hat. Der zeitliche Abstand zwischen aufeinanderfolgenden typischen Rahmen ist eine Funktion der Änderungsrate im Inhalt der Rahmen in der Originalfolge, die zwischen den beiden aufeinanderfolgenden typischen Rahmen angeordnet sind. Das heißt, mehrere typische oder repräsentative Bilder werden zurückgehalten, wenn die Inhalte sich schnell ändern und weniger werden zurückgehalten, wenn sich die Inhalte weniger schnell ändern. Bei der Signalverarbeitungsdauer kann diese Situation als eine nicht gleichförmige Wiederabtastung (oder Abtastung mit geringerer Abtastfrequenz) des Videoprogramms von einer gleichförmig abgetasteten Quelle (z. B. das Videoprogramm) betrachtet werden, das eine große Anzahl von gleichmäßig beabstandeten Abtastungen (z. B. 30 Rahmen pro Sekunde bei einem NTSC-Video) zu einer viel kleineren Anzahl von Abtastungen aufweist. Diese kleinere Abtastungsrate umfaßt insgesamt die meisten der visuellen Informationen, die in dem Originalvideoprogramm enthalten sind. Deshalb kann der Satz der repräsentativen Bilder, der durch das Verfahren dieser Erfindung erzeugt wird, als eine zusammengefaßte Version des Originalvideoprogramms betrachtet werden. Der Satz stehender Bilder, der auf diese Weise erhalten wird, kann unter Einsatz einer beliebigen Anzahl von Bildkomprimierungstechniken (z. B. JPEG) komprimiert werden, um die Anforderung an die Speicherung und Übertragung zu vermindern.
Die Kriterien, die zum Bestimmen bestimmter typischer, festzuhaltender Bilder verwendet werden, hängen im Allgemeinen von den Kriterien ab, die dazu benutzt werden, zu bestimmen, was eine Änderung hinsichtlich der Inhalte eines Videosegments ausmacht und welcher Typ von Änderungen prägnant zu sein scheint. Die bestimmten, verwendeten Kriterien unterscheiden sich in Abhängigkeit von dem Grund für das Festhalten typischer Rahmen. Während zum Beispiel feine Einzelheiten, z. B. Änderungen im Gesichtsausdruck einer Person als wichtig angesehen werden können, kann bei einigen Anwendungen die Erfassung derartiger Änderungen vertretbarer Weise ein Niveau von Ausgereiftheit involviert, das mit einer bestimmten Bildtechnik nicht ausführbar ist. Jedoch ergeben die durch das Verfahren dieser Erfindung aufgezeigten Kriterien ein ausgefeiltes und praktisches Verfahren zum Erfassen der meisten zusammenhängenden Änderungen in einem Videoprogramm. Während die Information, die in diesem typischen Rahmen enthalten ist, selbst nicht vollständig sein kann, wenn diese Rahmen beispielsweise als visuelle Komponente in Multimediadaten verwendet werden, stellt die Kombination eine reiche Informationsquelle bereit. Der Potentialverlust einiger visueller Informationen als Ergebnis der verringerten Abtastung wird oftmals begründet durch die substantiellen Reduktionen der Speicher- und Übertragungsanforderungen.
Eine Anzahl beispielhafter Anwendungen dieser Erfindung, die Multimedia-Videoprogramme involvieren, werden nachstehend erörtert. Beispielsweise kann der Satz typischer Bilder, die durch diese Erfindung erhalten werden, möglicherweise in komprimierter Form, in Verbindung mit Audio und/oder Text (auch in komprimierter Form) verwendet werden, um ein dichtes Multimediaprogramm in einem Computer oder einer Arbeitsstation zu speichern. Eine derartige komprimierte Version des Originalprogrammes kann wiedergewonnen werden und auf einem Computer dargestellt werden, wobei die typischen Rahmen auf dem Computerbildschirm unterstützt durch den Audioteil erscheinen, der über Lautsprecher in richtiger Synchronisation mit den Rahmen übertragen wird. Die typischen Rahmen, die auf dem Computer gespeichert sind, können auch als Index benutzt werden, um das Programm auf einen beliebig gewünschten Punkt vor- oder zurückzuspulen. Auf die digital gespeicherte, komprimierte Multimediaversion des Videoprogramms kann auf einfache Weise an einem entfernten Ort mittels einer anderen Arbeitsstation zugegriffen werden. Eine komprimierte Multimediaversion eines Live- Videoprogramms kann in Echtzeit für eine Übertragung zu einem entfernten Ort über eine bandbegrenzte Übertragungsleitung erzeugt werden. Dies stellt einem entfernten Benutzer den Zugriff auf eine Live-Übertragung über eine Telefonleitung mittels einem Videotelefon oder einem Computer bereit, das bzw. der stehende Bilder anzeigen kann und den Tonteil abspielen kann.
Das auf den Inhalt bezogene Abtasten von Videoprogrammen oder Videosegmenten kann ferner durch Bilddatenbanken und Videodatenbanken ausgeführt werden. Bilddatenbanken bestehen aus einer Sammlung von Rahmen oder Bildern, an denen auf den Inhalt basierende Anfragen ausgeführt werden können. Das Antworten auf Anfragen durch Extrahierung von Information von den Bildern involviert oftmals die Ausführung von Bildverarbeitung und Interpretation an einem großen Segment der Bilder in der Datenbank. Die hohen computerbezogenen Kosten der Bildverarbeitung und die Interpretationsoperationen zwingt zu Grenzen hinsichtlich der Anzahl der Bilder, die verarbeitet werden können. Folglich verbietet sich das Ausführen derartiger Operationen an einer Sammlung von Videosegmenten durch Bearbeitung jedes Rahmens wegen der großen Anzahl der in einem Videosegment enthaltenen Rahmen. Durch Verwendung des neuerlichen Abtastverfahrens der Erfindung, basierend auf den Inhalt, kann jedes Videosegment auf eine geringere Anzahl von Bildern reduziert werden, wobei auf den Inhalt basierende Anfragen realistischer ausgeführt werden können.

Claims

1. Verfahren zum Detektieren von Szenenänderungen in visuelle Information tragenden Rahmen, mit folgenden Schritten:

rahmencharakteristische Daten werden bewertet und eine Szenenänderungsmeldung wird bereitgestellt, wenn bestimmte Entscheidungskriterien erfüllt sind, dadurch gekennzeichnet,

daß das Verfahren durch eine Kamera induzierte Szenenänderungen in einer Folge der visuelle Information tragenden Rahmen erfaßt, die ein Einzelbild darstellen, und folgende Schritte umfaßt:

a) die charakteristischen Daten werden erzeugt (400), wobei die Daten ein Signal mit wenigstens einer Signalkomponente umfassen, die eine durch eine Kamera veranlaßte Bewegung zwischen einer Vielzahl von Rahmenpaaren innerhalb einer einzelnen Einstellung der Kamera darstellen;

b) die jeweiligen Werte von der wenigstens einen Signalkomponente werden für die jeweiligen Rahmenpaare addiert (410-440), um wenigstens ein kumulatives Signal zu bilden; und

c) ein Meldesignal wird erzeugt (420-440, 370), das eine Szenenänderung meldet, wenn das wenigsten eine kumulative Signal ein bestimmtes Entscheidungskriterium erfüllt.

2. Verfahren nach Anspruch 1, umfassend den Schritt des Zerlegens des Signals mit der wenigstens einen Signalkomponente, welches die durch die Kamera induzierte Bewegung zwischen jedem der Vielzahl von Rahmenpaaren innerhalb einer einzelnen Kameraeinstellung darstellt, in wenigstens eine Signalkomponente.

3. Verfahren nach Anspruch 2, bei welchem wenigstens eine Signalkomponente Komponenten aufweist, die Werte einer Bildnachführung, eine Bildverkippung und eine Bildvergrößerung darstellen, um ein Bildnachführsignal, ein Bildteilverkippungssignal bzw. ein Bildvergrößerungssignal zu erzeugen, und bei welchem wenigstens ein kumulative Signal ein kumulatives Bildverschwenk-, kumulatives Bildverkippungs- und/oder kumulatives Bildvergrößerungssignal ist.