-
Die Erfindung betrifft Verfahren zum Bewerten von
Szenenänderungen in visuelle Information tragenden Rahmen.
-
Videoprogramme werden im Wesentlichen aus einer
Programmübersetzung unterschiedlicher Videosegmente gebildet,
die als Kameraeinstellung, Einstellung oder "Shots" in der
Film- und Videoindustrie bekannt sind. Jede Kameraeinstellung
besteht aus einer Folge von Rahmen (d. h. Bildern), die
während eines fortlaufenden (ununterbrochenen)
Betriebsintervalls von einer einzigen Kamera erzeugt werden.
Bei bewegten Bildern oder Filmen ist ein Shot zum Beispiel
eine fortlaufende Reihe von Rahmen, die auf einem Film
aufgezeichnet sind, der von einer einzelnen Kamera erzeugt
wird, und zwar in der Zeit vom Beginn der Aufnahme bis zum
Ende der Aufnahme.
-
Bei Fernseh-Life-Übertragungen beinhaltet ein Shot die
Bilder, die auf dem Bildschirm gesehen werden, und zwar von
dem Zeitpunkt an, wenn eine einzelne Kamera über den Äther
sendet, bis sie durch eine andere Kamera ersetzt wird.
-
Die Kameraeinstellungen oder Shots können entweder in
einem Abruptmode (d. h. butt-edit oder Schalter), in dem der
Rand oder die Grenze zwischen zwei aufeinanderfolgenden
Kameraeinstellungen (als "cut" bekannt) eindeutig definiert
ist, oder durch einen oder viele andere Editierungsmoden,
z. B. Überblendung oder ineinander verschwimmen, was einen
allmählichen Übergang von einer Kameraeinstellung zur
nächsten ergibt, ineinander übergehen. Der verwendete
bestimmte Übergangsmode wird im wesentlichen vom
Aufnahmeleiter ausgewählt, um einen Anhaltspunkt für die
Änderungen hinsichtlich Zeit und Raum bereitzustellen, die
dem Betrachter helfen, den fortschreitenden Ereignissen zu
folgen.
-
Es existieren bekannte automatische
Videoindizierungsverfahren, die abrupte Übergänge zwischen
verschiedenen Kameraeinstsllungen detektieren. Ein Beispiel
eines derartigen Verfahrens, das sowohl abrupte als auch
allmähliche Übergänge detektieren kann, ist in der
Patentanmeldung 08/171,136 vom 21. Dezember 1993 mit dem
Titel "Method and Apparatus for Detecting Abrupt and Gradual
Scene Changes In Image Sequences" offenbart worden, auf
dessen Inhalte hierin Bezug genommen und deren Inhalt durch
Bezugnahme auch zum Gegenstand dieser Offenbarung gemacht
wird. In Zusammenhang mit der automatischen
Videoprogrammindizierung werden diese abrupten Übergänge
oftmals als "Szenen" und die detektierten Grenzen (d. h. cuts)
als "Szenengrenzen" bezeichnet. Eine "Szene" wird jedoch
gemeinhin als Rahmenfolge mit eng verwandten Inhalten
betrachtet, die im wesentlichen ähnliche Informationen
übermitteln. Wenn die Videoprogramme nur aus "still shots"
oder stehenden Kameraeinstellungen (d. h. Kameraeinstellungen,
bei denen die Kamera bewegungslos ist) bestehen, beinhaltet
jede Kameraeinstellung nur eine einzige Szene. Jedoch setzen
sich im Allgemeinen Videoprogramme nicht nur aus still shots
sondern auch aus sich bewegenden Kameraeinstellungen "moving
shots" zusammen (d. h. Kameraeinstellungen, bei denen die
Kamera Einwirkungen wie Verschwenkung, Verkippung und
Vergrößerung unterliegt). Folglich können sich aufgrund der
Kamerabewegung die Inhalte einer Reihe von Rahmen über einer
einzelnen Kameraeinstellung beträchtlich ändern, wodurch mehr
als eine Szene in einer gegebenen Kameraeinstellung vorhanden
ist. Da die Grenzen zwischen unterschiedlichen
Kameraeinstellungen Szenengrenzen sind, können die Grenzen
nur eine Teilmenge aller Szenengrenzen sein, die in einem
Videoprogramm vorkommen, da die Kamerabewegung interne
Szenenänderungen erzeugen kann.
-
Bekannte Szenenänderungsdetektionsverfahren sind
unzureichend, da sie nur Szenenänderungen detektieren können,
die an der Grenze zwischen zwei Kameraeinstellungen
auftreten, aber keine Szenenänderungen, die während einer
einzigen Kameraeinstellung auftreten.
-
GB-A-158 324 betrifft ein Verfahren zum Detektieren von
Szenenänderungen bei visueller Information. Die
Bildinformation wird Linie für Linie bearbeitet und synchron
abgetastet. Die mittleren Beleuchtungswerte der Liniengruppen
werden mit denen der entsprechenden Gruppen in dem folgenden
Feld oder Rahmen verglichen. Wenn ein wesentlicher Sprung in
den unterschiedlichen Werten gefunden wird, wird ein
Szenenänderungsimpuls emittiert.
-
EP-A-0 378 393 betrifft eine dynamische
Bildeditoreinrichtung, die sich automatisch zu den
Anfangsrahmen der Szenen bewegt. Charakteristische Daten
werden gemessen. Benachbarte Rahmen werden verglichen, um die
Änderung hinsichtlich der charakteristischen Daten zwischen
den Rahmen festzustellen. Wenn der Unterschied einen
Schwellenwertpegel überschreitet, wird eine Szenengrenze
festgestellt.
-
Gemäß der vorliegenden Erfindung wird ein Verfahren
bereitgestellt, wie es in Anspruch 1 beansprucht wird.
Ein Verfahren ist zum Bestimmen von durch eine Kamera
induzierte Szenenänderungen in einer Folge von visuellen
Informationen tragenden Rahmen, die eine einzelne
Kameraeinstellung darstellen, entwickelt worden. Bei einem
Beispiel dieses Verfahrens wird eine durch eine Kamera
induzierte Bewegung zwischen jedem aus einer Vielzahl von
Rahmenpaaren innerhalb einer einzelnen Kameraeinstellung
festgestellt. Die durch die Kamera induzierte Bewegung für
jedes dieser Rahmenpaare wird in wenigstens eine erste
Komponente zerlegt. Die Werte der ersten Komponente für jedes
der Rahmenpaare werden summiert, um ein erstes kumulatives
Signal zu bilden. Eine Szenenänderungen wird angezeigt, wenn
das erste kumulative Signal ein bestimmtes
Entscheidungskriterium trifft.
-
Bei einem bestimmten Beispiel der Erfindung stellt die
erste Komponente, in welche die Kamerabewegung zerlegt wird,
entweder eine Bildverschwenkung eine Bildverkippung oder eine
Bildgrößenänderung dar. Bei einem weiteren Beispiel der
Erfindung wird die Kamerabewegung in alle drei dieser
Komponenten zerlegt.
-
Bei einem weiteren Beispiel der Erfindung wird ein
Signal erzeugt, das die durch die Kamera induzierte Bewegung
zwischen jedem der Vielzahl der Rahmenpaare innerhalb einer
einzelnen Kameraeinstellung darstellt. Eine Vielzahl der
Signale wird für eine Vielzahl von Rahmenpaaren summiert, um
ein erstes kumulatives Signal zu erzeugen. Eine
Szenenänderung wird angezeigt, wenn das erste kumulative
Signal ein bestimmtes Entscheidungskriterium erreicht.
-
Bei einem weiteren Beispiel der Erfindung arbeitet das
Verfahren der Erfindung in Verbindung mit einem bekannten
Verfahren, z. B. einem Blockausgleich zum Detektieren abrupter
und allmählicher Übergänge zwischen Kameraeinstellungen. Das
bekannte Verfahren wird zum Finden des Anfangs jeder
Kameraeinstellung verwendet, die als Beginn einer neuen Szene
bezeichnet wird. Jedes bekannte Verfahren kann dann zum
Extrahieren der Bildnachführung, der Bildverkippung und der
Bildgrößenänderung verwendet werden, die zwischen
aufeinanderfolgenden Rahmen innerhalb der Kameraeinstellung
auftreten. Für jede der Kameraoperationen, nämlich
Bildnachführung, Bildverkippung und Bildgrößenänderung,
werden die zwischen den aufeinanderfolgenden Rahmen
berechneten Werte zum Erzeugen zweier Signale verwendet:
-
1) ein fortlaufendes Signal, das den kumulativen Wert der
Kameraoperation seit dem Beginn der neuen Szene darstellt,
und
-
2) ein binäres Signal, das eine ununterbrochene Aktivierung
der Kamera für den gegebenen Betrieb anzeigt.
-
Eine Szenenänderung wird angezeigt, und zwar immer dann,
wenn:
-
1) die Höhe des kumulativen Wertes für einen der
Betriebszustände einen vorbestimmten Schwellenwert
übersteigt, oder
-
2) eine fortlaufende Betriebsperiode für eine der Operationen
(d. h. Nachführung, Verkippung oder Vergrößerung) endet, (wie
durch das binäre Signal angezeigt) und der entsprechende
kumulative Wert eine Höhe aufweist, der wenigstens so groß
ist, wie der andere vorbestimmte Schwellenwert.
Beschreibung der Zeichnungen
-
Es zeigen:
-
Fig. 1 ein Blockschaltbild eines Beispiels eines
kamerainduzierten Szenenänderungsdetektors, der
eine Videoquelle und eine
Applikationsschnittstelle umfaßt,
-
Fig. 2 ein Flußdiagramm, das ein Beispiel des
erfindungsgemäßen Verfahrens darstellt, das an
einer einzelnen Kameraeinstellung arbeitet,
-
Fig. 3 ein Flußdiagramm, das ein Beispiel der Erfindung
darstellt, die in Verbindung mit einem
Kameraeinstellungsgrenzendetektor arbeitet, um
Szenenänderungen an Einstellungsgrenzen und
internen Kameraeinstellungsorten zu detektieren,
-
Fig. 4 ein Flußdiagramm, das ein Beispiel der
detaillierten Schritte darstellt, die bei der
Detektion der durch die Kamera induzierten
Szenenänderungen involviert sind,
-
Fig. 5 ein Flußdiagramm, das ein Beispiel für die
zusätzlichen detaillierten Schritte darstellt, die
bei der Detektion der Szenenänderung involviert
sind, die auf der Nachführung basieren,
-
Fig. 6 ein Flußdiagramm, das die detaillierten Schritte
zum Erzeugen eines einzelnen aktiven
Nachführsignals von nicht beabstandeten aktiven
Intervallen darstellt,
-
Fig. 7 jeweils ein Beispiel einer Wellenform für das
Bildnachführsignal, das zugeordnete aktive
Nachführsignal vor und nach der Verarbeitung, um
die dicht beabstandeten aktiven Intervalle
zusammenfließen zu lassen, und das kumulative
Nachführsignal, wobei das Ergebnis eine
Szenenänderung am Ende eines aktiven Intervalls
ist,
-
Fig. 8 jeweils ein Beispiel des Bildnachführsignals
während eines andauernden Nachführbetriebes, des
zugeordneten aktiven Nachführsignals vor und
nachdem die dicht beabstandeten aktiven Intervalle
zusammenfließen und das kumulative Nachführsignal,
alle über den Verlauf von vier Szenenänderungen,
von denen drei während des aktiven Intervalls
auftreten.
Detaillierte Beschreibung
-
Fig. 1 zeigt das Blockschaltbild eines
Szenenänderungsdetektors 2 gemäß einem Ausführungsbeispiel
dieser Erfindung. Der Detektor 2 umfaßt einen A/D-Bildwandler
3, einen Bildprozessor 4 und einen digitalen Rechner 7. Der
Bildprozessor 4 umfaßt einen Bildspeicher 6 zum Halten
digitalisierter Bilder aktueller und vorhergehender Rahmen
und zum Speichern von Zwischenergebnissen, die durch den
Bildprozessor 4 erzeugt werden. Der Bildprozessor 4 umfaßt
ferner einen Prozessor S. um die in dem Bildspeicher 6
beinhalteten Bilder zu verarbeiten. Bei einer alternativen
Ausführungsform der Erfindung führt der digitale Rechner 7
die Aufgaben des Bildprozessors 4 aus, wodurch der Bedarf
nach einem separaten Bildprozessor 4 entfällt. Wie
nachstehend beschrieben, kann der Szenenänderungsdetektor 2
sowohl Grenzen zwischen Kameraeinstellungen als auch interne
Kameraeinstellungsszenengrenzen erkennen.
-
Das Verfahren der Erfindung arbeitet an einzelnen
Kameraeinstellungen innerhalb eines Videoprogramms. Bevor
jedoch solche internen Einstellungsszenenänderungen
detektiert werden können, muß das Videoprogramm zuerst in
einzelne Kameraeinstellungen mittels einem bekannten
Verfahren segmentiert werden. Wenn die einzelnen shots
dargestellt worden sind, können die internen
Einstellungsszenenänderungen innerhalb jeder
Kameraeinstellung durch das erfindungsgemäße Verfahren, wie
in Fig. 2 gezeigt, detektiert werden. Es sei bemerkt, daß
eine Einstellungsgrenze an sich eine Szenenänderung
darstellt.
-
Die mittels einem Beispiel dieser Erfindung ausgeführten
Schritte werden in Fig. 2 gezeigt. Am Anfang einer
Kameraeinstellung oder Shot (die auch der Anfang einer neuen
Szene ist), wird der durch die Kamera induzierte
Szenenänderungsdetektor in Schritt 210 initialisiert.
-
Aufeinanderfolgende Rahmen innerhalb der Kameraeinstellung
werden in Schritt 240 digitalisiert und das Verfahren der
durch die Kamera induzierten Szenenänderungsdetektion wird
zum Detektieren interner Einstellungsszenenänderungen in
Schritt 250 verwendet. Das Ausgangssignal aus Schritt 250
wird in Schritt 260 nach dem Vorhandensein einer
Szenenänderung geprüft. Wenn eine Szenenänderung festgestellt
worden ist, wird eine geeignete Maßnahme in Schritt 270
vorgenommen. Die bestimmte durchgeführte Maßnahme ist eine
Funktion der Applikation, für welche die
Szenenänderungsdetektion verwendet wird. Das Verfahren der
Erfindung kann in Verbindung mit jeder gewünschten
Applikation verwendet werden. Einige Beispiele werden
nachstehend aufgezeigt. Der Detektor für die internen
Einstellungsszenenänderungen wird dann initialisiert, um den
Vorgang zu wiederholen. Die zuvor beschriebenen Schritte
werden solange wiederholt, bis alle Rahmen innerhalb der
Einstellung bearbeitet worden sind. Falls keine
Szenenänderung festgestellt worden ist, geht der Vorgang
weiter, ohne daß der Detektor für die interne
Einstellungsszenenänderung wieder initialisiert wird.
-
Bei einem weiteren Erfindungsbeispiel werden sowohl die
Detektion der Kameraeinstellungsgrenzen und der internen
Einstellungsszenenänderungen zusammen am Videoprogramm
ausgeführt, wie in Fig. 3 gezeigt. In diesem Fall wird der
Initialisierungsschritt 310 sowohl am Anfang als auch nach
der Detektion jeder Szenenänderung durchgeführt. Die Rahmen
werden aufeinanderfolgend in Schritt 340 digitalisiert. Die
digitalisierten Rahmen werden zuerst nach dem Vorhandensein
einer Einstellungsgrenze in Schritt 350 durch Verwendung
eines bekannten Einstellungsgrenzendetektionsverfahrens, z. B.
das vorstehend offenbarte Verfahren, überprüft. Das Ergebnis
wird in Schritt 360 geprüft. Wenn eine
Kameraeinstellungsgrenze (die auch eine Szenengrenze ist)
ermittelt wird, wird Schritt 380 ausgeführt und der Vorgang
beginnend mit Schritt 310 wiederholt. Wenn keine
Einstellungsgrenze ermittelt worden ist, wird Schritt 250
ausgeführt, um beliebige interne Einstellungsszenenänderungen
zu detektieren. Das Ergebnis dieses Schrittes wird in Schritt
370 geprüft. Wenn eine interne Einstellungsszenenänderung
ermittelt wurde, wird der Schritt 380 ausgeführt und der
Vorgang, beginnend mit Schritt 310, wiederholt. Wenn keine
interne Einstellungsszenenänderung festgestellt worden ist,
wird der Vorgang, beginnend mit Schritt 320, wiederholt,
wodurch die Reinitialisierung des Detektors für die internen
Einstellungsänderungen vermieden wird. Der Vorgang wird in
Schritt 330 abgeschlossen, wenn Schritt 320 anzeigt, daß der
letzte Programmrahmen erreicht worden ist.
-
Das in Schritt 250 ausgeführte Verfahren zum Detektieren
von internen Einstellungsszenenänderungen wird im Einzelnen
nachstehend beschrieben. Da die in Schritt 250 verwendeten
Detektionskriterien von den Kameraoperationen abhängen,
werden Beispiele unterschiedlicher Kameraoperationen oder
-betriebe und die Zwecke, für die diese verwendet werden,
zuerst erörtert. Die Effekte dieser Kameraoperationen an den
Rahmen und die zum Erkennen dieser Effekte verwendeten
Detektionskriterien werden danach erläutert.
Kameraoperationen
-
Videoprogramme setzen sich im Allgemeinen aus zwei
unterschiedlichen Kameraeinstellungsarten zusammen. Ein
Einstellungstyp ergibt sich, wenn sich die Kamera nicht
bewegt und die Linse nicht vergrößert oder verkleinert. Diese
Einstellungsart ist als ruhende Kameraeinstellung oder "still
shot" bekannt. Der andere Einstellungstyp ergibt sich, wenn
die Kamera entweder bewegt wird, vergrößert bzw. verkleinert
oder beides gleichzeitig geschieht. Diese Kameraeinstellungen
sind als bewegte Einstellungen oder "moving shots" bekannt.
-
Die Kamerabewegung und Größenänderung bzw. zoomen wird
gemeinhin als "Kameraoperationen" oder "Kamerabewegungen"
bezeichnet.
-
Kameraoperationen können wie folgt klassifiziert werden.
Eine Nachführung oder "pan" ist eine horizontale Schwenkung
der Kamera (d. h. um eine vertikale Achse) nach links oder
rechts. Eine Verkippung oder "tilt" ist eine vertikale
Schwenkung der Kamera (d. h. um die horizontale Achse) nach
oben oder unten. Ein Kameravorschub oder "Dollying" ist eine
Kamerabewegung entlang der optischen Achse der Kamera
entweder zu einem Objekt oder von diesem weg. Eine
Nachführung oder "Tracking", wie es hier benutzt wird,
betrifft die Bewegung der Kamera innerhalb einer Ebene
senkrecht zu ihrer optischen Achse. Natürlich ist eine
Parallelverschiebung der Kamera eine Kombination aus
Kameravorschub und Nachführung. "Zoomen" ist der Effekt, der
durch Verändern des Brennpunktes einer Zoomlinse bewirkt
wird, der dem Effekt, der durch den Kameravorschub bewirkt
wird, ähnlich ist. Jeder der vorstehenden Kameraoperationen
kann als Komponente der tatsächlichen Bewegung, die die
Kamera ausführt, betrachtet werden.
Zweck der Kameraoperationen
-
Typischerweise wird eine Kamera während der Aufnahme
nicht bewegt, sofern es ein klares Ziel gibt. Bei einem gut
geführten Videoprogramm wird jede Kameraoperation aus gutem
Grund durchgeführt. So kann zum Beispiel eine Nachführ- oder
Kippbewegung ausgeführt werden, um "der Aktion zu folgen",
wenn sich das Objekt von einer Seite des Bildes zur anderen
bewegt. Das Nachführen oder Kippen kann auch für eine
"Assoziation" verwendet werden, um die Ansicht zwischen zwei
unterschiedlichen Objekten durch Nachführen und/oder Kippen
von einem Objekt zum anderen zu überbrücken. Das nachführen
und Kippen kann ferner für eine "Orientierung" verwendet
werden, um ein großes Objekt zu zeigen, das nicht in einen
Rahmen paßt (möglicherweise selbst in der vollständig
verkleinerten Stellung), wobei die Kamera bewegt wird, um das
ganze Objekt über mehrere Rahmen aufzuzeichnen. Ähnlich wie
bei der "Orientierung" kann das Nachführen und Kippen für
eine "Exploration" verwendet werden, bei der ausgewählte
Details einer Szene in einer Großaufnahme gezeigt werden.
Beispiele der Assoziation, Orientierung und Exploration
werden in einem Aufsatz von Stasheff E., und Bretz R. "The
Television Programm: Its Direction and Production", 4.
Ausgabe, Hill and Wang publishers, New York, 1968 offenbart.
Das Nachführen oder "Tracking" kann zum Erreichen von
Ergebnissen verwendet werden, die ähnlich dem Nachführen oder
"pan" und dem Kippen oder "tilt" sind (jedoch nicht exakt die
gleichen sind). Das Nachführen (Tracking) kann zum Ansehen
eines Objektes mit vollen 360º verwendet werden. Eine
Leistung des Tracking, welche nicht durch gemeinsame Nutzung
von Drehbewegungen aus Nachführung (pan) und Kippen (tilt)
benutzt wird, ist eine verbesserte Tiefenschärfe. Dies tritt
auf, wenn die Kamera nachgeführt wird, da die Objekte, die
sich näher an der Kamera befinden, sich scheinbar schneller
bewegen als die, die weiter weg sind.
-
Das Zoomen dient für vielerlei Zwecke. Ein Heranzoomen
erzeugt eine Großaufnahme eines Objekts, um Details
darzustellen, die in einem weiteren Feld nicht sichtbar sind.
Eine Kameraeinstellung kann damit beginnen, daß die Zoomlinse
auf Weitwinkel gestellt ist, wodurch eine kleine Ansicht des
Objekts oder mehrere Objekte erzeugt wird, dann wird
herangezoomt, um eine vergrößerte Ansicht eines bestimmten
Objekts zu erhalten, während die anderen Objekte
ausgeschlossen sind. Eine langsame Zoomoperation, die eine
merkliche Größenänderung involviert, bewirkt eine
fortlaufende Vergrößerung oder Verkleinerung der Objekte und
somit des beobachtbaren Details, während ein zusätzliches
Zuführen von Information die relative Position des Objekts in
der Szene betrachtet. Ein Wegzoomen kann dazu verwendet
werden, eine Ansicht der Objektumgebungen darzustellen oder
um andere Objekte in der Szene zu umfassen.
-
Das Zoomen und der Vorschub ändern beide das Sichtfeld
und die Größe. Während der Grad der Größe, der durch den
Kameravorschub bewirkt wird, von dem Abstand zwischen der
Kamera und dem Objekt abhängt, ist der Grad der Vergrößerung,
der durch das Zoomen erreicht wird, unabhängig vom Abstand
und nur eine Funktion der Änderung der Brennweite der Linse.
Wirkungen der Kameraoperationen auf das Bild
Jede der vorstehend erörterten Kameraoperationen hat
einen eindeutigen Einfluß auf die durch die Kamera erzeugten
Rahmen. Während für Erörterungszwecke nur die Bewegung der
Kamera betrachtet wird, ist die Gesamtbewegung eine
Zusammensetzung sowohl aus der Kamerabewegung als auch aus
der Objektbewegung. Die Verfahren, die zum Extrahieren der
Kamerabewegung verwendet werden, sind in der Lage, zwischen
der Kamerabewegung und der Objektbewegung zu unterscheiden.
Eine Nachführoperation der Kamera bewirkt eine
horizontale Verschiebung in dem Bild. Alle stehenden Objekte
(und der Hintergrund) bewegen sich um den gleichen Betrag
ohne Rücksicht auf ihre relative Positionen hinsichtlich der
Kamera. Diese horizontale Verschiebung des Bildes wird als
Bildverschiebung ("image pan") bezeichnet. Als Ergebnis der
Bildverschiebung verläßt ein Teil der Bildinhalte den linken
oder rechten Rand und neue Inhalte treten von der rechten
Seite bzw. der linken Seite ein.
-
Eine Kamerakippoperation bewirkt eine vertikale
Verschiebung im Bild. Wie im Falle der Nachführung werden die
stehenden Objekte um den gleichen Betrag bewegt. Diese
Verschiebung des Bildes wird als Bildverkippung ("image
tilt") bezeichnet. Als Ergebnis der Bildverkippung verläßt
ein Teil des Bildes den oberen oder unteren Rand und ein
neues Bild tritt im unteren Rand bzw. oberen Rand ein.
-
Eine Kameranachführung (Tracking) entlang einer
horizontalen Linie bewirkt, daß die Objekte im Bild
horizontal verschoben sind. Jedoch werden, nicht wie bei der
Kameranachführung (pan) die Objekte, die näher an der Kamera
sind, mehr verschoben als die, die weiter weg von der Kamera
sind. Der Unterschied hinsichtlich der Verschiebung der
Objekte ist gering, wenn der Unterschied hinsichtlich dem
Abstand von den Objekten zur Kamera gering ist. Für die
Zwecke dieser Erfindung wird das horizontale Nachführen
(Tracking) auf die gleiche Weise wie das Nachführen der
Kamera (pan) behandelt und ihre Effekte auf das Bild werden
allesamt als Bildnachführung ("image pan") bezeichnet. Auf
die gleiche Weise ergibt eine Nachführung entlang einer
vertikalen Linie eine Bildverkippung ("image tilt"). Eine
Nachführung (Tracking) der Kamera entlang einer diagonalen
Linie (oder einer Kurve) ergibt sowohl eine Bildnachführung
(image pan) als auch eine Bildverkippung (image tilt).
-
Ein Zoomen bewirkt eine Änderung der Objektgröße in dem
Bild. Wenn herangezoomt wird, steigt die Größe an. Dies wird
mittels einer ersichtlichen radialen Bewegung der Objekte aus
der Bildmitte ersichtlich, wobei möglicherweise einige der
Objekte das Bild verlassen. Ein Wegzoomen bewirkt einen
Effekt, der entgegengesetzt zu dem Effekt beim Heranzoomen
ist und kann bewirken, daß neue Objekte im Bild erscheinen.
Die Größenänderung der Objekte, die sich aus dem Zoomen oder
dem Kameravorschub ergeben, wird als Bildvergrößerung ("image
zoom") bezeichnet.
Detektionskriterien
-
Die Kriterien zum Detektieren der durch die
Kamerabewegung induzierten Szenenänderungen basieren auf den
Zielen, daß die Kamerabewegungen und ihre Effekte auf das
Bild erreicht werden sollen. Für die Ziele der Erfindung
werden die Kamerabewegungen in zwei unterschiedliche
Kategorieren unterteilt, wie nachstehend, basierend auf den
Zielen, die sie erreichen sollen, aufgezeigt wird.
-
Die erste Kategorie von Kamerabewegungen umfaßt die
Kameraoperationen, bei denen nur das Endergebnis signifikant
ist. Beispielsweise werden oftmals eine Nachführung und/oder
Verkippung oder eine Nachführung (Tracking) verwendet, um der
Bewegung eines Objektes zu folgen und somit, wenn das Objekt
anhält, die Kamera aufhört sich zu bewegen. In diesem Fall
ist nur das Endergebnis der Kamerabewegung wichtig. Ein
anderes Beispiel tritt auf, wenn ein Nachführen oder ein
Verkippen für eine "Assoziation" verwendet wird. In diesem
Fall spielt die Kamerabewegung eine Rolle, und zwar ähnlich
der eines allmählichen Übergangs (z. B. Überblenden) zwischen
zwei benachbarten Kameraeinstellungen, wobei das Ende der
Kameraoperation der Anfang einer neuen Szene ist. Noch ein
weiteres Beispiel kommt vor, wenn ein Heranzoomen verwendet
wird, um eine Nahaufnahme eines Objektes (z. B. eine
Hotelpforte) zu erreichen, die anfangs in der Szene
erscheint, um so ein Detail (z. B. die Zimmernummer) erkennbar
zu machen.
-
Die zweite Kategorie von Kamerabewegungen besteht aus
den Operationen, bei denen Änderungen bei den visuellen
Inhalten des Bildes signifikant sind, die auftreten, während
die Kameraoperation fortdauert. Diese Kamerabewegungen
umfassen große Nachführ- und Verkippungsbewegungen für
"Orientierungs- oder Explorations"-zwecke, wie vorstehend
erörtert. Diese Kategorie umfaßt auch langsames Zoomen, bei
dem eine merkliche Änderung der Größe vorhanden ist. Während
in diesen Fällen die Inhalte der benachbarten Rahmen sehr
ähnlich sind, können Rahmen, die weiter weg sind,
hinsichtlich des Inhaltes beträchtlich unterschiedlich sein,
da eine große Nachführung, Verkippung oder Vergrößerung
Objekte aus dem Sichtfeld der Kamera ausschließen können, die
am Anfang vorhanden waren, und neue Objekte erscheinen lassen
können, die am Anfang nicht vorhanden waren. Eine derartige
zusammenhangsgemäße Änderung kann viele Male während einer
einzigen Kameraeinstellung vorkommen und kann sogar mehrere
Male während einer kontinuierlichen Kameraoperation
vorkommen.
-
Es sei bemerkt, daß sich die beiden Kategorien der
Kamerabewegungen, wie sie vorstehend erörtert wurden, nicht
gegenseitig ausschließen. Das heißt, manchmal werden
Kameraoperationen verwendet, bei denen sowohl die Änderungen
im Rahmeninhalt während der Kamerabewegung als auch am Ende
der Kamerabewegung merklich sind. Folglich sind die beiden
vorstehend aufgezeigten Kategorien von Kamerabewegungen, die
Kriterien zum Detektieren der durch die Kamerabewegung
induzierten Szenenänderungen innerhalb einer
Kameraeinstellung wie folgt.
-
Szenenänderungen, die durch die erste Kategorie der
Kamerabewegung erzeugt werden, werden auf folgende Weise
detektiert. Für jede der Bildnachführ-, Bildverkippungs- und
Bildvergrößerungsoperationen werden Zeitintervalle (wie in
den Rahmen gemessen) gefunden, über die die Operation
weiterhin aktiv ist. Eine Szenenänderung wird detektiert,
wenn zwei Kriterien zutreffen, nämlich:
-
1) das aktive Intervall ist beendet (d. h. die Kamerabewegung
wird angehalten), und
-
2) das kumulative Ergebnis der gegebenen Operation seit
Beginn der aktuellen Szene hat einen vorbestimmten
Schwellenwert erreicht oder überstiegen.
-
Das erste Kriterium detektiert das Ende einer
Kameraoperation. Das zweite Kriterium soll verhindern, daß
eine Szenenänderung erzeugt wird, wenn eine Kameraoperation
auftritt, dessen Nettoergebnis nicht ausreichend signifikant
ist, um eine Szenenänderung abzugleichen. Ein Beispiel einer
derartigen unmerklichen Operation tritt auf, wenn die Kamera
wiederholt nach links und rechts nachgeführt wird, sogar als
Ergebnis von Flimmern oder um geringe seitliche Bewegungen
des Objektes auszugleichen. Wenn diese Kameraoperation endet,
ist die Nettomenge der Bildnachführung gering und erzeugt
folglich keine Szenenänderung.
-
Szenenänderungen, die durch die zweite Kategorie der
Kamerabewegung erzeugt werden, werden wie folgt detektiert.
Für jede der Operationen der Bildnachführung, Bildverkippung
und Bildvergrößerung wird das kumulative Ergebnis der
gegebenen Operation seit Beginn der aktuellen Szene gegenüber
einem vorbestimmten Schwellenwert (der auf gleiche Weise für
jede unterschiedliche Operation unterschiedlich ist)
verglichen. Eine Szenenänderung wird angezeigt, wenn das
kumulative Ergebnis für diese Operation für ihren jeweiligen
vorbestimmten Schwellenwert erreicht oder übersteigt. Anders
als die vorstehende erste Kategorie kann in diesem Fall eine
Szenenänderung erzeugt werden, während die Operation noch
läuft. Die vorbestimmten Schwellenwerte, die für die zweite
Kategorie der Kamerabewegungen verwendet werden, sind
typischerweise beträchtlich größer als die, die für die erste
Kategorie verwendet werden. Diese Schwellenwerte bestimmten
die Größe einer Änderung über den Verlauf einer großen
Kameraoperation (oder einer Serie kleiner Operationen), die
erforderlich ist, um neue Inhalte in das Bild einzugeben.
Wenn zum Beispiel eine Kameranachführung für eine Exploration
oder Orientierung ausgeführt wird, kann ein kumulativer
Bildnachführwert, der in etwa gleich der Breite des Bildes
ist, die Originialinhalte des Bildes ergeben, die
herausgeschoben wurden und neue Inhalte ergeben, die
hineingeschoben wurden. In diesem Fall, wenn der
Bildnachführschwellenwert so ausgewählt ist, daß er gleich
ist oder in etwa der Breite des Bildes entspricht, wird eine
neue Szene an dem geeigneten Punkt detektiert.
Detektierungsverfahren
-
Fig. 4 ist ein Flußdiagramm, das ein Beispiel
detaillierter Schritte zeigt, die in dem
Szenenänderungsdetektionsschritt 250, der durch die Kamera
induziert wird, involviert sein kann. Zuerst werden in
Schritt 400 die Werte der Bildnachführung, der Bildverkippung
und der Bildvergrößerung unter Einsatz des aktuellen Rahmens
und des vorhergehenden Rahmens bestimmt. Dieses kann auch
mittels einer zeitweise mittels geringerer Abtastfrequenz
abgetasteten Version des Videoprogramms ausgeführt werden.
Diese Werte können durch eine Blockabstimmung bestimmt
werden, um die Bewegungsvektoren an einer Vielzahl von
Punkten in dem Bild zu finden. Die
Bewegungsvektorenansammlung wird weiter verarbeitet, um
zwischen Objektbewegung und Kamerabewegung zu unterscheiden
und die Kamerabewegung in Nachführ-, Kipp- und
Zoomkomponenten zu unterteilen. Derartige Verfahren sind
bekannt und werden z. B. in einem Aufsatz von Umori, K., et
al. in "Automatic Image Stabilizing System by Full-Digital
Signal Processing" in IEEE-Transactions on Consumer
Electronics, Band 36, Nr. 3, Seiten 510 bis 519, August 1990,
und in Akutsu A., et al., "Video Indexing Using Motion
Vectors", Proc. SPIE Conf. Visual Communications and Image
Processing (VCIP'92), Band 1818, Seiten 1522 bis 1530
offenbart. Umori et al. bezieht sich auf die
Kamerabildstabilisierung und stellt ein Echtzeitsystem für
die Bewegungsbewertung, die Unterscheidung zwischen
Objektbewegung und Kamerabewegung und die Messung der
Bildnachführung und Bildverkippung vor. Akutsu et al.
offenbart ein Verfahren zum Bewerten von Kameraoperationen,
die eine Blockanpassung und Hough-Transformationen kombiniert
mit Kameraeinstellungsdetektion, um eine neue Bildikone zu
erzeugen, welche die Kameraoperation während einer einzelnen
Kameraeinstellung darstellt. Wie vorhergehend bemerkt, können
sich die unterschiedlichen Objekte in der Szene verschieden
weit zwischen den aufeinanderfolgenden Rahmen bewegen, wenn
die Kamerabewegung einen Vorschub oder ein Nachführen
(Tracking) umfaßt. In einem solchen Fall ist es die Bewegung
des dominantesten Objektes (in prozentualem Ausdruck des
Gesamtbildes, das es belegt), welches von Interesse ist.
Diese dominante Bewegung kann mittels den vorstehend
erwähnten Verfahren bestimmt werden.
-
In Schritt 410 wird die durch die Kamera induzierte
Bewegung zwischen zwei Rahmen in Bildnachführ-,
Bildverkippungs- und Bildvergrößerungskomponenten zerlegt
(wenn sie nicht bereits als einzelne Komponenten berechnet
wurden). Die für jede dieser Komponenten berechneten Werte
erzeugen drei zeitdiskrete Signale, die als augenblickliche
Nachführung (Instantaneous Pan, IP), augenblickliche
Verkippung (Instantaneous Tilt, IT) bzw. augenblickliche
Größenänderung (Instantaneous Zoom, 1Z) bezeichnet werden.
Der Satz dreier augenblicklicher Signale wird unabhängig dazu
benutzt, zwei zusätzliche Signalsätze in den Schritten 420,
430 und 440 zu erzeugen. Ein Satz besteht aus drei
kumulativen Signalen, die jeweils Werte aufweisen, die gleich
der Summe der Werte eines der drei augenblicklichen Signale
sind, beginnend mit dem Wert des augenblicklichen Signals am
Beginn der aktuellen Szene. Diese Signale werden als
kumulatives Nachführsignal (Cumulative Pan, CP), kumulatives
Verkippungssignal (Cumulative Tilt, CT) bzw. kumulatives
Größenänderungssignal (Cumulative Zoom, CZ) bezeichnet. Der
zweite Signalsatz besteht aus drei binären Signalen (d. h.
Signale, die jeweils nur zwei Werte annehmen), jedes
entspricht einer der drei Komponenten der Kamerabewegung
(d. h. Nachführung, Verkippung und Größenveränderung). Diese
Signale werden auf Null gesetzt, wenn die entsprechende
Bewegung nicht erfassbar (d. h. aktiv) ist, und werden auf
Eins gesetzt, wenn die Bewegung erfassbar ist. Diese Signale
werden als aktives Nachführsignal (Pan Active, PA), aktives
Verkippungssignal (Tilt Active, TA) bzw. aktives
Größenänderungs- oder Zoomsignal (Zoom Active, ZA)
bezeichnet. Bei einigen Beispielen der Erfindung können
weitere Schritte vorgenommen werden, wenn PA-, TA- und
ZA-Signale erzeugt werden, um kurze nicht aktive Intervalle
zu vermeiden, die zwischen zwei aktive Intervalle fallen
können, so daß die beiden aktiven Intervalle zu einem
größeren aktiven Intervall verschmelzen.
-
Das Detektionsverfahren dieser Erfindung kann drei
unabhängige Schritte umfassen, die jeweils einer der drei
Komponenten der Kamerabewegung entsprechen. In Fig. 4 werden
diese Schritte als Bildnachführung 420, Bildverkippung 430
und Bildgrößeneinstellung 440 gezeigt. Die Unterschritte, die
in einer auf Nachführung, Verkippung und Zoom basierende
Szenenänderungsdetektion involviert sind, sind im
Wesentlichen alle gleich, mit der Ausnahme, daß die
Schwellenwertparameter von einem zum anderen unterschiedlich
sein können. Demgemäß ist es ausreichend, nur die Schritte im
Einzelnen zu diskutieren, die in die auf Nachführung
basierende Detektion involviert sind, demgemäß werden die
Unterschiede zwischen dieser und den verbleibenden zwei
Komponenten hervorgehoben.
-
Die Details des Bildnachführschritts 420 in Fig. 4
werden im Einzelnen in Fig. 5 gezeigt. Zuerst wird ein neuer
Wert des kumulativen Nachführsignals (CP) in Schritt 500 aus
seinem vorhergehenden Wert durch Hinzufügen des neuen Wertes
des augenblicklichen Nachführsignals erzeugt. Dieser
kumulative Wert wird sowohl zu Beginn des Verfahrens in den
Schritten 210 und 310 initialisiert als auch nachdem eine
Szenenänderung detektiert worden ist. Es sei bemerkt, daß das
CP-Signal sowohl positive als auch negative Werte annehmen
kann, abhängig von der Richtung der Nachführung. Demgemäß
kann das CP-Signal sowohl positiv als auch negativ sein und
seine Höhe kann, nachdem der neue IP-Wert hinzugefügt worden
ist, ansteigen oder fallen.
-
In Schritt 510 wird das IP-Signal dazu verwendet, einen
neuen Wert des aktiven Nachführsignals (PA) zu erzeugen.
Dieses Signal hat den Wert Null während des Intervalls, in
welchem die Nachführoperation inaktiv ist, und einen Wert
Eins während des aktiven Intervalls. Wie vorstehend erwähnt,
können zusätzliche Schritte ausgeführt werden, um dicht
beabstandete aktive Intervalle in einzelne Intervalle
verschmelzen zu lassen und um das Ende derartiger Intervalle
zu erfassen. Die Einzelheiten des aktiven Nachführschritts
510 werden in Fig. 6 gezeigt und werden nachstehend erörtert.
In Schritt 520 wird die Höhe des CP-Signals mit einem
vorbestimmten Schwellenwert Tp1 verglichen. Wenn die Höhe des
CP-Signals Tp1 erreicht oder überschritten hat, wird eine
Szenenänderung angezeigt, die zur zweiten Kategorie der
Kamerabewegungen gehört. In diesem Fall wird der Wert des PA-
Signals nicht verwendet. Das CP-Signal kann den Schwellenwert
erreichen oder diesen übersteigen aufgrund eines aktiven
Nachführintervalls oder mehrerer diskreter aktiver
Intervalle, die während der aktuellen Szene vorkommen.
-
Wenn keine Szenenänderung, die zur zweiten Kategorie der
Kamerabewegung gehört, detektiert worden ist, prüft das
Verfahren in Schritt 530, ob das Ende eines aktiven
Nachführintervalls durch Schritt 510 angezeigt worden ist.
Wenn dem so ist, wird die Höhe des CP-Signals mit einem
vorbestimmten Schwellenwert Tp2 in Schritt 540 verglichen.
Wenn der Schwellenwert erreicht oder überschritten worden
ist, wird eine die zur ersten Kategorie der Kamerabewegungen
gehörende Szenenänderung angezeigt. Schritt 540 wird
verwendet, um zu verhindern, daß diese aktiven
Nachführintervalle mit unwesentlichem Nettoergebnis eine
Szenenänderung anzeigen. Beispiele von derartigen
unwesentlichen Kameraoperationen sind vorstehend erörtert
worden.
-
Fig. 6 zeigt die Einzelheiten des aktiven
Nachfühtschritts 510. Der aktuelle Wert des IP-Signals wird
dazu verwendet, einen neuen Wert für das PA-Signal in den
Schritten 600, 610 und 620 zu erzeugen. Ein Wert des IP-
Signals (positiv oder negativ), der nicht Null ist, zeigt
eine Nachführaktivität an und man erhält einen Wert von Eins
für das PA-Signal, wohingegen ein Wert Null für das IP-Signal
einen PA-Wert von Null ergibt. Unter einigen Umständen, wenn
Rauschen oder andere Faktoren bewirken können, daß das IP-
Signal geringe Werte aber nicht Null aufweist, wenn sich die
Kamera nicht bewegt, kann der Schritt 600 so modifiziert
werden, daß er die Höhe des IP-Signals gegenüber einem
kleinen Wert von nicht Null überprüft, um die Aktivität oder
Inaktivität der Nachführoperation zu bestimmen.
-
Als nächstes wird das PA-Signal weiter verarbeitet, um
eng beabstandete aktive Intervalle miteinander zu
verschmelzen und um das Ende derartiger Intervalle zu
detektieren. Der neue Wert des PA-Signals wird in Schritt 630
überprüft. Wenn das PA-Signal nicht Null ist, wird ein als
PA
Zähler bezeichneter Zähler auf einen ganzzahligen Wert Np
(größer als Eins) in Schritt 640 gesetzt. Dieser Zähler wird
in den Schritten 210 und 310 auf Null gesetzt. Der Wert Np
bestimmt die maximale Größe des inaktiven Bereichs (d. h.
PA = 0), der gefüllt ist, um zwei aufeinanderfolgende aktive
Bereiche zu verschmelzen. Wenn das PA-Signal Null ist, wird
der Schritt 640 nicht ausgeführt. Der PA Zähler wird dann in
Schritt 650 (um Eins) verringert und das Ergebnis in Schritt
660 überprüft. Ein positiver Zählerwert zeigt an, daß
entweder das PA-Signal zur Zeit auf Eins gesetzt ist, oder
daß es wenigstens einmal in den vorhergehenden Np-
Rahmenzeiten auf Eins gesetzt worden ist. Dies hat ein Setzen
des PA-Signals auf Eins zur Folge (wenn es nicht bereits in
Schritt 610 auf Eins gesetzt wurde), wodurch eng beabstandete
aktive Intervalle miteinander verschmelzen. Ein negativer
Wert des PA Zählers zeigt an, daß der Zähler vor Schritt 650
Null war. Dies bewirkt, daß der Zähler in Schritt 670 wieder
auf Null gesetzt wird und setzt in Schritt 695 das PA-Signal
gleich Null. Ein Wert von Null für den Zähler in Schritt 660
zeigt an, daß der Zähler einen Wert von Eins vor dem Schritt
660 hatte. Dies zeigt das Ende eines aktiven Intervalls in
Schritt 680 an. Bei der Vervollständigung des aktiven
Nachführschritts 510 wird ein aktueller (verarbeiteter) Wert
für das PA-Signal erzeugt und das Ende eines aktiven
Nachführintervalls wird, falls vorhanden, erfaßt.
-
Fig. 7 zeigt Beispiele typischer Wellenformen für das
augenblickliche Nachführsignal und die daraus abgeleiteten
Signale in zwei unterschiedlichen Bereichen - bezeichnet mit
I (links) und II (rechts), die jeweils unterschiedliche
Situationen darstellen. Der Bereich I zeigt das IP-Signal 700
für eine fortlaufende Nachführoperation, die in einer
Richtung auftritt. An zwei Punkten 702 entlang des Signals
geht das IP-Signal für eine sehr kurze Zeit auf Null. Diese
Punkte 702 werden entweder durch das Fehlen eines guten
Rahmens zur Verarbeitung an diesen Punkten oder durch die
Operation bewirkt, die für einen sehr kurzen Zeitraum vor
einer Wiederaufnahme zum Stehen kommt. Das zugeordnete PA-
Signal 710 weist zwei inaktive Intervalle auf, die sich aus
den Punkten 702 ergeben. Diese inaktiven Intervalle haben
zwei Übergänge 712 von Eins auf Null, die mit den Punkten 702
verwandt sind, und haben ein Ende des Intervalls 713. Bei der
Verarbeitung des PA-Signals, um 720 zu erzeugen, sind die
kurzen inaktiven Intervalle eliminiert worden. Das Ende des
aktiven Nachführintervalls 723 entspricht dem Ende des
Intervalls 713 und ist aufgrund der Verarbeitung hinsichtlich
713 etwas verschoben. Das CP-Signal 730, das am Beginn der
Szene einen Wert von Null aufweist, ist die Summe der IP-
Werte. Am Ende des aktiven Nachführintervalls 723 hat das CP-
Signal 730 den Tp2-Schwellenwert 735 überschritten. Dies
ergibt eine Szenenänderung, die angezeigt wird, und die
Reinitialisierung des Detektors, der das CP-Signal (und auch
andere kumulative und aktive Signale und Zähler) bei 733 auf
Null zurücksetzt. Die rechte Seite der Fig. 7 (Bereich II)
zeigt ein IP-Signal 700, das sich aus dem Kameraflackern
(d. h. kleine schnelle Bewegung nach links und rechts) ergibt,
welches negative und positive Intervalle aufweist. Das
verarbeitete PA-Signal 720 weist einen Punkt 724 auf, der dem
Ende des aktiven Nachführintervalls entspricht. In diesem
Fall hat jedoch das CP-Signal, das aufgrund der
Richtungsumkehr der Nachführbewegung fluktuiert einen Wert,
der unter den Tp2-Schwellenwert 730 fällt, wodurch eine
falsche Detektion vermieden wird.
-
Fig. 8 zeigt ein Beispiel typischer Wellenformen in
einer Situation, in welcher Szenenänderungen, die sowohl zur
ersten als auch zur zweiten Kategorie gehören, detektiert
werden. Das IP-Signal 700 zeigt in diesem Fall eine
Nachführoperation, die für eine lange Zeitdauer gehalten
wird. Dies spiegelt sich in dem verarbeiteten PA-Signal 720
wieder, die ein langes aktives Intervall aufweist, das bei
823 endet. Das CP-Signal erreicht den Tp1-Schwellenwert das
erste Mal während der aktiven Periode an einem Punkt, der mit
833 bezeichnet wird. Dies ergibt eine Szenenänderung (die in
die zweite Kategorie fällt). Das CP-Signal wird an diesem
Punkt auf Null zurückgesetzt, um nochmals mit dem
Akkumulieren der IP-Werte zu beginnen. Der Tp1-Schwellenwert
wird zum zweiten und dritten Male bei 834 bzw. 835 erreicht,
wodurch sich zwei weitere zu detektierende Szenenänderungen
und das Rücksetzen des CP-Signals auf Null ergeben.
-
Schließlich hat am Ende des aktiven Intervalls 823 das CP-
Signal den Tp2-Schwellenwert überschritten, wodurch sich eine
weitere zu detektierende Szenenänderung bei 836 ergibt, die
in die erste Kategorie der Kamerabewegungen fällt.
-
Auf Verkippung basierende Szenenänderungsdetektion
Bis auf den Unterschied in ihrer Bewegungsrichtung sind
die Verkippung und die Nachführung gleich. Demgemäß sind die
Detektionsschritte, die auf der Nachführung und die
Verkippung basieren im Wesentlichen gleich, mit der Ausnahme,
daß sie jeweils andere Schwellenwerte aufweisen können. Diese
Schritte werden unabhängig voneinander durchgeführt.
-
Auf Größenänderung basierende Szenenänderungsdetektion
Die Effekte der Kamera-Größeneinstellung (oder Vorschub)
am Bild sind von denen der Nachführung und Verkippung
verschieden. Die vorstehend etablierten Kriterien für die
beiden Kategorien interner Einstellungsszenenänderungen, die
dazu verwendet werden, Szenenänderungen zu finden, die auf
der Nachführung und der Verkippung basieren, gelten auf
gleiche Weise für die Größenänderung (Zoom). Im Falle der
Bildgrößenänderung oder Zoom müssen jedoch zusätzliche
Schritte vor der Berechnung des augenblicklichen Zoomsignals
(IZ) und des kumulativen Zoomsignals (CZ) ausgeführt werden.
Die Gründe für diesen Unterschied werden nachstehend
erörtert.
-
Die Nachführung und Verkippung bewirken, daß das Bild
eine Schiebung in der horizontalen und vertikalen Richtung
durchläuft. Diese Schiebung, wenn sie zwischen zwei Rahmen
gemessen wird, ist positiv, wenn die Nachführ- (oder
Kipp-)bewegung zwischen den Rahmen in einer Richtung liegen
und negativ, wenn sie in gegenüberliegenden Richtungen
ausgeführt werden. Deshalb löschen sich Nachführ- (oder
Kipp-)bewegungen gleicher Stärke, jedoch in entgegengesetzten
Richtungen, die über mehrere Rahmen ausgeführt werden,
einander aus, wenn die kumulative Nachführ- (oder Kipp-)
signale berechnet werden, wodurch sich eine Nettobewegung von
Null seit dem Beginn der aktuellen Szene ergibt. Mit anderen
Worten, die Nachführung und die Verkippung sind zusätzliche
Komponenten. Der Bildzoom zwischen zwei Rahmen ist jedoch
eine Multiplikatorkomponente. Man betrachte beispielsweise
drei aufeinanderfolgende Rahmen während einer Zoomoperation.
Wenn die Vergrößerung des Rahmens 2 doppelt so groß ist wie
die des Rahmens 1 und die Vergrößerung des Rahmens 3 1,25
mal so groß ist wie die des Rahmens 2, beträgt die
Vergrößerung des Rahmens 3 hinsichtlich des Rahmens 1 gleich
2, multipliziert mit 1,25, was 2,5 ergibt. Demgemäß kann das
Verfahren dieser Erfindung für den Bildzoom angewendet
werden, und zwar durch Setzen des jeweiligen augenblicklichen
Zoomsignalwertes (1Z) gleich dem Logarithmus der relativen
Vergrößerung zwischen dem aktuellen Rahmen und dem
vorhergehenden Rahmen. Dies ergibt einen Wert von Null für
das IZ-Signal, wenn die Vergrößerung die gleiche bleibt (das
heißt, die relative Vergrößerung ist gleich Eins, wodurch der
Logarithmus gleich Null wird). Wenn die Vergrößerung ansteigt
(das heißt, ein Vergrößerungsfaktor größer Eins) ist der
Logarithmus positiv, und bei einer Verkleinerung wird der
Logarithmus negativ. Folglich werden das aktive Zoomsignal
(ZA) und das kumulative Zoomsignal (CZ) in der gleichen Weise
berechnet, wie bei der vorstehend erörterten auf die
Nachführung basierenden Bewegung, bis auf die Notwendigkeit
des zusätzlichen Schrittes der Berechnung des Logarithmus, um
das IZ-Signal zu erzeugen.
-
Die vorstehende Erörterung behandelt jede der
Nachführungs-, Kipp- und Zoomkomponenten der durch die Kamera
induzierten Bewegung unabhängig voneinander. Das schließt
jedoch nicht die Anwendung der Detektionskriterien aus, die
bei dieser Erfindung für manche Kombinationen dieser
Komponenten aufgezeigt werden. Zum Beispiel können die
Nachführ- und die Kippkomponente miteinander kombiniert
werden, um einen Bewegungsvektor zu erzeugen, wobei die Höhe
des sich ergebenden Vektors in dem Detektionsverfahren
verwendet werden kann.
Anwendungen
-
Es ist bekannt, daß Einstellungsgrenzen-
Detektionsverfahren verwendet werden können, um Indizes für
Videoprogramme zu erzeugen. Derartige Indizes können dazu
verwendet werden, einzelnen Kameraeinstellungen aus dem
Videoprogramm selektiv wieder aufzufinden. Die Erfindung
stellt ein zweites Indexniveau durch Erzeugen von Indizes für
einzelne Szenen innerhalb der Einstellungen bereit. Durch
Bereitstellen beider dieser Indizesniveaus ist ein
selektiveres Videoihformations-Wiedergewinnungssystem
möglich. Ferner sind andere Anwendungen des Verfahrens dieser
Erfindung über die Indexierung hinaus möglich, einige dieser
Anwendungen werden nachstehend erörtert.
-
Eine Folge typischer Rahmen aus der ursprünglichen
Rahmenfolge kann durch Zurückhalten eines einzelnen Rahmens
von jeder der Szenen erzeugt werden (wie in Form von
Kameraeinstellungsgrenzen und Szenengrenzen innerhalb der
Kameraeinstellungen definiert). Diese Folge beinhaltet diese
Rahmen, für welche die Inhalte der Originalfolge (z. B. ein
Videoprogramm) eine merkliche Änderung durchlaufen hat. Der
zeitliche Abstand zwischen aufeinanderfolgenden typischen
Rahmen ist eine Funktion der Änderungsrate im Inhalt der
Rahmen in der Originalfolge, die zwischen den beiden
aufeinanderfolgenden typischen Rahmen angeordnet sind. Das
heißt, mehrere typische oder repräsentative Bilder werden
zurückgehalten, wenn die Inhalte sich schnell ändern und
weniger werden zurückgehalten, wenn sich die Inhalte weniger
schnell ändern. Bei der Signalverarbeitungsdauer kann diese
Situation als eine nicht gleichförmige Wiederabtastung (oder
Abtastung mit geringerer Abtastfrequenz) des Videoprogramms
von einer gleichförmig abgetasteten Quelle (z. B. das
Videoprogramm) betrachtet werden, das eine große Anzahl von
gleichmäßig beabstandeten Abtastungen (z. B. 30 Rahmen pro
Sekunde bei einem NTSC-Video) zu einer viel kleineren Anzahl
von Abtastungen aufweist. Diese kleinere Abtastungsrate
umfaßt insgesamt die meisten der visuellen Informationen, die
in dem Originalvideoprogramm enthalten sind. Deshalb kann der
Satz der repräsentativen Bilder, der durch das Verfahren
dieser Erfindung erzeugt wird, als eine zusammengefaßte
Version des Originalvideoprogramms betrachtet werden. Der
Satz stehender Bilder, der auf diese Weise erhalten wird,
kann unter Einsatz einer beliebigen Anzahl von
Bildkomprimierungstechniken (z. B. JPEG) komprimiert werden,
um die Anforderung an die Speicherung und Übertragung zu
vermindern.
-
Die Kriterien, die zum Bestimmen bestimmter typischer,
festzuhaltender Bilder verwendet werden, hängen im
Allgemeinen von den Kriterien ab, die dazu benutzt werden, zu
bestimmen, was eine Änderung hinsichtlich der Inhalte eines
Videosegments ausmacht und welcher Typ von Änderungen
prägnant zu sein scheint. Die bestimmten, verwendeten
Kriterien unterscheiden sich in Abhängigkeit von dem Grund
für das Festhalten typischer Rahmen. Während zum Beispiel
feine Einzelheiten, z. B. Änderungen im Gesichtsausdruck einer
Person als wichtig angesehen werden können, kann bei einigen
Anwendungen die Erfassung derartiger Änderungen vertretbarer
Weise ein Niveau von Ausgereiftheit involviert, das mit einer
bestimmten Bildtechnik nicht ausführbar ist. Jedoch ergeben
die durch das Verfahren dieser Erfindung aufgezeigten
Kriterien ein ausgefeiltes und praktisches Verfahren zum
Erfassen der meisten zusammenhängenden Änderungen in einem
Videoprogramm. Während die Information, die in diesem
typischen Rahmen enthalten ist, selbst nicht vollständig sein
kann, wenn diese Rahmen beispielsweise als visuelle
Komponente in Multimediadaten verwendet werden, stellt die
Kombination eine reiche Informationsquelle bereit. Der
Potentialverlust einiger visueller Informationen als Ergebnis
der verringerten Abtastung wird oftmals begründet durch die
substantiellen Reduktionen der Speicher- und
Übertragungsanforderungen.
-
Eine Anzahl beispielhafter Anwendungen dieser Erfindung,
die Multimedia-Videoprogramme involvieren, werden nachstehend
erörtert. Beispielsweise kann der Satz typischer Bilder, die
durch diese Erfindung erhalten werden, möglicherweise in
komprimierter Form, in Verbindung mit Audio und/oder Text
(auch in komprimierter Form) verwendet werden, um ein dichtes
Multimediaprogramm in einem Computer oder einer
Arbeitsstation zu speichern. Eine derartige komprimierte
Version des Originalprogrammes kann wiedergewonnen werden und
auf einem Computer dargestellt werden, wobei die typischen
Rahmen auf dem Computerbildschirm unterstützt durch den
Audioteil erscheinen, der über Lautsprecher in richtiger
Synchronisation mit den Rahmen übertragen wird. Die typischen
Rahmen, die auf dem Computer gespeichert sind, können auch
als Index benutzt werden, um das Programm auf einen beliebig
gewünschten Punkt vor- oder zurückzuspulen. Auf die digital
gespeicherte, komprimierte Multimediaversion des
Videoprogramms kann auf einfache Weise an einem entfernten
Ort mittels einer anderen Arbeitsstation zugegriffen werden.
Eine komprimierte Multimediaversion eines Live-
Videoprogramms kann in Echtzeit für eine Übertragung zu einem
entfernten Ort über eine bandbegrenzte Übertragungsleitung
erzeugt werden. Dies stellt einem entfernten Benutzer den
Zugriff auf eine Live-Übertragung über eine Telefonleitung
mittels einem Videotelefon oder einem Computer bereit, das
bzw. der stehende Bilder anzeigen kann und den Tonteil
abspielen kann.
-
Das auf den Inhalt bezogene Abtasten von Videoprogrammen
oder Videosegmenten kann ferner durch Bilddatenbanken und
Videodatenbanken ausgeführt werden. Bilddatenbanken bestehen
aus einer Sammlung von Rahmen oder Bildern, an denen auf den
Inhalt basierende Anfragen ausgeführt werden können. Das
Antworten auf Anfragen durch Extrahierung von Information von
den Bildern involviert oftmals die Ausführung von
Bildverarbeitung und Interpretation an einem großen Segment
der Bilder in der Datenbank. Die hohen computerbezogenen
Kosten der Bildverarbeitung und die
Interpretationsoperationen zwingt zu Grenzen hinsichtlich der
Anzahl der Bilder, die verarbeitet werden können. Folglich
verbietet sich das Ausführen derartiger Operationen an einer
Sammlung von Videosegmenten durch Bearbeitung jedes Rahmens
wegen der großen Anzahl der in einem Videosegment enthaltenen
Rahmen. Durch Verwendung des neuerlichen Abtastverfahrens der
Erfindung, basierend auf den Inhalt, kann jedes Videosegment
auf eine geringere Anzahl von Bildern reduziert werden, wobei
auf den Inhalt basierende Anfragen realistischer ausgeführt
werden können.