-
Stand der Technik
-
Die
Erfindung betrifft eine Bildverarbeitungsvorrichtung zur Durchführung einer
Objektsegmentierung, wobei die Objektsegmentierung durch Vergleich
eines Kamerabildes und eines Szenenreferenzbildes einer Beobachtungsszene
durchführbar ist
und/oder durchgeführt
wird, mit einer Lernvorrichtung zur Erzeugung des Szenenreferenzbildes,
ein Überwachungssystem,
welches die Bildverarbeitungsvorrichtung sowie eine Mehrzahl von
Schnittstellen zur Anbindung von Beobachtungskameras umfasst, ein
Verfahren zur Erzeugung eines Szenenreferenzbildes einer Beobachtungsszene
sowie ein entsprechendes Computerprogramm.
-
Videoüberwachungssysteme
werden in einer Vielzahl von Applikationen eingesetzt, um weiträumige Bereiche
zu überwachen.
Derartige Videoüberwachungssysteme
umfassen gewöhnlich
eine Mehrzahl von fest installierten Kameras, die relevante Beobachtungsszenen
aufnehmen, sowie eine Überwachungszentrale,
in der die Videosequenzen der Kameras zusammengeführt werden.
Zur Auswertung der zusammengeführten
Videodaten wird oftmals Überwachungspersonal
eingesetzt. Bekanntermaßen
ist die Überwachungstätigkeit
des Überwachungspersonals
sehr ermüdend,
so dass die Möglichkeit
nicht auszuschließen
ist, dass wichtige Ereignisse in den Beobachtungsszenen übersehen
werden. Aus diesem Grund ist werden ebenfalls hinlänglich bekannte
Bildverarbeitungs-Algorithmen zur automatisierten Auswertung der
Videosequenzen eingesetzt.
-
Ein
oftmals eingesetzter Verfahrensschritt der automatisierten Auswertung
ist die Objektsegmentierung, wobei bewegte Objekte in den Videosequenzen
extrahiert werden. Zur Durchführung
der Objektsegmentierung wird meist ein so genanntes Szenenreferenzbild
erzeugt, welches den statischen oder quasi-statischen Szenenhintergrund
der jeweiligen Beobachtungsszene repräsentiert. Für die Objektsegmentierung werden
dann die Bildunterschiede zwischen einem aktuellen Kamerabild und
diesem Szenenreferenzbild ausgewertet. Die Erzeugung des Szenenreferenzbildes
erfolgt dabei in der Regel durch die Auswertung von Videosequenzen,
die über mehrere
Minuten aufgenommen wurden.
-
Ein
derartiger Stand der Technik wird beispielsweise in dem wissenschaftlichen
Artikel von K. Toyama, J. Krumm, B. Brumitt, B. Meyers:
Wallflower: Principals and practice of Background Maintenance. ICCV
1999, Corfu, Greece, offenbart.
-
Offenbarung der Erfindung
-
Die
Erfindung betrifft eine Bildverarbeitungsvorrichtung mit den Merkmalen
des Anspruchs 1, ein Überwachungssystem
mit den Merkmalen des Anspruchs 8, ein Verfahren mit den Merkmalen
des Anspruchs 10 sowie ein Computerprogramm mit den Merkmalen des
Anspruchs 11. Vorteilhafte oder bevorzugte Ausführungsformen ergeben sich aus
den Unteransprüchen
oder der nachfolgenden Beschreibung.
-
Die
vorgeschlagene Bildverarbeitungsvorrichtung erlaubt eine digitale
Bildverarbeitung und ist insbesondere programmtechnisch und/oder
schaltungstechnisch zur Durchführung
einer Objektsegmentierung ausgebildet, wobei die Objektsegmentierung
durch Vergleich eines Kamerabildes und eines Szenenreferenzbildes
einer Beobachtungsszene erfolgt.
-
Das
Kamerabild ist dabei Teil einer Videosequenz, die von einer Beobachtungskamera
aufgenommen wird beziehungsweise wurde, welche auf eine Beobachtungsszene
gerichtet ist. Bei der Beobachtungsszene kann es sich um eine Straße, eine Kreuzung,
einen Raum, einen Platz beispielsweise in einer Stadt, in einem öffentlichem
Gebäude,
in einer Schule, in einer Universität oder ähnlichem handeln. Bevorzugt
ist die Beobachtungskamera fest installiert, also stationär angeordnet.
Ebenfalls bevorzugt wird unter Beobachtungsszene die Gesamtheit
der mit der Beobachtungskamera aufgenommenen Umgebung verstanden.
-
Das
Szenenreferenzbild modelliert den statischen und/oder quasi-statischen
Szenenhintergrund und/oder -vordergrund. Zur Erzeugung des Szenenreferenzbildes
ist eine Lernvorrichtung vorgesehen, die beispielsweise als Recheneinheit
oder Computer ausgebildet ist. Bei der Objektsegmentierung werden durch
einen Vergleich, zum Beispiel unter Verwendung einer Differenzbildung,
von einem aktuellen Kamerabild und dem Szenenreferenzbild bewegte
Objekte vom Szenenhintergrund getrennt.
-
Erfindungsgemäß wird vorgeschlagen,
dass die Lernvorrichtung zur Erzeugung des Szenenreferenzbildes
durch Auswertung einer Mittelfristbeobachtung und/oder Langfristbeobachtung
der Beobachtungsszene ausgebildet ist.
-
Dabei
geht die Erfindung von dem Gedanken aus, dass in den bekannten Videoüberwachungssystemen
stets nur sehr kurze Zeitfenster betrachtet werden und somit mittel-
oder langfristige Beobachtung nicht verwendet werden. Es bleibt
damit die Tatsache ungenutzt, dass eine Beobachtungskamera die selbe
Szene eine lange Zeit beobachtet und somit viel über die Szene lernen kann.
Die Erfindung erlaubt somit die Erstellung eines Langzeitmodells
der Beobachtungsszene, wobei das Erlernen des Langzeitmodells bevorzugt
auf Basis robuster Statistiken erfolgt und dabei ausgenutzt wird,
dass eine typische Beobachtungskamera immer dieselbe Beobachtungsszene über mehrere
Jahre hinweg überwacht. Die
Erfindung ist dabei nicht auf eine bestimmte Beobachtungsszene beschränkt und
ist sowohl im Außen-
als auch im Innenbereich einsetzbar.
-
Gemäß der Alternative
a der Erfindung wird vorgeschlagen, dass die Mittelfristbeobachtung und/oder
Langfristbeobachtung über
einen Zeitraum von länger
als einen Tag, vorzugsweise länger
als mehrere Tage, z.B. 3 Tage, insbesondere länger als eine Woche erfolgt.
-
Gemäß der Alternative
b der Erfindung erfolgt die Mittelfristbeobachtung und/oder die
Langfristbeobachtung über
einen Zeitraum, der mehrere Zustände
der Beobachtungsszene umfasst.
-
Hierbei
wird berücksichtigt,
dass die aus dem Stand der Technik bekannten Verfahren zur Objektsegmentierung
oder allgemeiner zur Trennung der bewegten Objekte vom Hintergrund
funktionieren, solange es sich um einen einfachen Szenenhintergrund
handelt, bei dem sich relevante Beobachtungsobjekte immer zwischen
der Beobachtungskamera und dem Szenenhintergrund bewegen. Liegt ein
komplexeres Überwachungsszenario
vor, in dem Beobachtungsobjekt von der Beobachtungskamera ausgesehen
zeitweise durch statische Szenenobjekte verdeckt werden (zum Beispiel
Säulen,
Werbetafeln, etc.), ergeben sich bei den aus dem Stand der Technik
bekannten Verfahren oftmals Probleme. Das gleiche gilt für sich häufig bewegende
Objekte im Szenenhintergrund (Blätter
im Wind, flatternde Monitore, Vorhänge, Wasseroberflächen) und
weitere Störquellen,
die die bekannten Verfahren nachhaltig stören. Weitere Probleme bei den
bekannten Verfahren werden durch Schatten an statischen und quasi statischen
Objekten begründet.
Unter statischen und quasi statischen Objekten werden Objekte verstanden,
die dem Szenenhintergrund zugeordnet werden. Sie umfassen insbesondere
auch Schatten, die durch den Szenenhintergrund vorhandene Objekte, beispielsweise
Häuser
oder Bäume
entstehen. Die Kenntnis derartiger Störobjekte, wie sie soeben beschrieben
wurden, insbesondere der Schattenregionen kann verwendet werden,
um Ergebnisse der Objektsegmentierung und damit die Ergebnisse eines nachgeschalteten
Objekt-Tracking zu stabilisieren (zum Beispiel, indem ein mitbewegter
Schatten eliminiert wird) oder die Empfindlichkeit der Detektion
zu variieren, da die Schattenregionen einen geringeren Kontrast
aufweisen.
-
Bei
einer bevorzugten Weiterbildung der Erfindung ist die Lernvorrichtung
zur Erstellung eines Szenenmodells der Beobachtungsszene ausgebildet,
wobei das Szenenmodell die Basis zur Erzeugung des Szenenreferenzbildes
bildet. Das Szenenmodell ist bevorzugt als Modellwelt ausgebildet,
die insbesondere durch die Fusion der Informationen von statischen
Objekten, Störbereichen,
statischen bzw. quasi-statischen Schattenregionen sowie typischen
Trajektorien und/oder Ein- beziehungsweise Ausgängen gebildet wird. Anders
ausgedrückt
wird das Szenenmodell als Kulissenbild realisiert.
-
Das
Szenenmodell umfasst beispielsweise statische Objekte in der Beobachtungsszene,
beispielsweise eine Litfasssäule,
die so angeordnet ist, dass ein bewegtes Objekt sich gegebenenfalls
einen Zeitraum hinter dem statischen Objekt versteckt. Der Vorteil
des Szenenmodells liegt insbesondere darin, dass bei einem Objekt-Tracking
das zeitweilig verdeckte, bewegte Objekt nicht verloren wird, sondern abgewartet
werden kann, bis das bewegte Objekt wieder in der Beobachtungsszene
sichtbar ist. Die Erkennung der statischen Objekte dient insbesondere
dazu, eine Objektkennzeichnung eines verfolgten Objektes beizubehalten,
insbesondere bzw. selbst wenn es komplett von einem statischen Objekt
verdeckt wird. Die Aufnahme von Störbereichen in dem Szenenmodell
(Blattbewegungen, flackernde Monitore, Vorhänge, Wasseroberflächen) erlaubt
eine angepasste Behandlung dieser Bereiche, so dass die Objektsegmentierung
nicht nachhaltig gestört
wird, indem in den Störbereichen
Vordergrundobjekte (bewegte Objekte) erkannt werden. Auch die Kenntnis statischer
oder quasi-statischer
Schattenregionen kann vorteilhaft bei dem Objekt-Tracking und der
Objektsegmentierung verwendet werden, so dass diese Verfahren stabilisiert
werden können.
-
Dabei
ist die Lernvorrichtung derart ausgebildet, dass in einem ersten
Schritt die Eigenschaften der Beobachtungsszene gelernt werden,
wobei sich dieser Schritt ohne weiteres auch über mehrere Wochen erstrecken
kann. Nach dem initialen Erlernen des Szenenmodells werden die gewonnen
Daten, also das Szenenmodell, auch zum Zweck der Videoüberwachung
verwendet, um beispielsweise abnormales Verhalten zu erkennen oder
das Objekt-Tracking zu verbessern. Insbesondere ist die Lernvorrichtung
zur kontinuierlichen Weiterentwicklung ausgebildet, um sich auf
neue Eigenschaften der Beobachtungsszene anzupassen.
-
Bei
einer bevorzugten Ausbildung der Erfindung umfasst das Szenenmodell
trajektorien-basierte Objekte und/oder bild-basierte Objekte.
-
Dabei
werden die trajektorien-basierten Objekte insbesondere durch Auswertung
der Trajektorien der bewegten Objekte ermittelt. Die trajektorien-basierten
Objekte sind insbesondere als Pfade, Wege, Straßen, Ein- oder Ausgänge und/oder
statische Objekte ausgebildet. Dabei bezeichnen Ein- beziehungsweise
Ausgänge
diejenigen Bildbereiche, bei denen die bewegten Objekte in der Beobach tungsszene
erstmalig auftreten bzw. aus der Beobachtungsszene endgültig verschwinden.
Statische Objekte werden insbesondere dadurch erkannt, dass die
bewegten Objekte zeitweilig hinter den statischen Objekten verborgen
sind.
-
Bei
den bild-basierten Objekten handelt es sich bevorzugt um Hintergrundobjekte,
die trajektoren-unabhängig
detektiert werden. Die Detektion erfolgt insbesondere durch Auswertung
des zeitlichen Verhaltens interessierender Bereiche bzw. der bild-basierten
Objekte. Insbesondere sind die bild-basierten Objekte als Störbereiche,
spiegelnde Bereiche und/oder Schattenbereiche ausgebildet.
-
Bei
einer Weiterbildung der Erfindung ist das Szenenmodell als multimodales
Szenenmodell ausgebildet, wobei die einzelnen Modi des multimodalen Szenenmodells
durch die unterschiedlichen Zustände
der Beobachtungsszene unterscheidbar sind. Die Verwendung des multimodalen
Szenenmodells wird hiermit auch nur in Verbindung des Oberbegriffs
des Anspruchs 1 sowie optional mit den weiteren genannten Merkmalen
des Anspruchs 1 sowie der nachfolgenden Unteransprüche in beliebiger
Kombination offenbart. Die unterschiedlichen Zustände der
Beobachtungsszene sind bevorzugt als regelmäßig oder periodisch auftretende
Zustände
ausgebildet, wobei der periodische zeitliche Abstand bzw. die Periodendauer
der Zustände
vorzugsweise mindestens mehrere Stunden umfasst. Die unterschiedlichen
Zustände
betreffen insbesondere ein wechselndes Verhaltensmuster der bewegten
Objekte. So kann beispielsweise ein erster Zustand die Beobachtungsszene
durch Beobachtung an einem Werktag und einer zweiter Zustand der
Beobachtungsszene durch Beobachtung am Wochenende erhalten werden.
Jeder dieser beiden Zustände
bildet einen separaten Modus des multimodalen Szenenmodells. Weitere Zustände können auch
das Verhalten der bewegten Objekte an einem Vormittag oder an einem
Nachmittag während
des Tages oder während
der Nacht betreffen.
-
Weitere
Zustände
der Beobachtungsszene werden bevorzugt durch regelmäßig oder
periodisch wiederkehrende Charakteristika der bild-basierten Objekte
erzeugt. Die unterschiedlichen Zustände werden beispielsweise durch
eine unterschiedliche Beleuchtung, insbesondere Sonnenstand oder künstliche
Beleuchtung, oder unterschiedliche Umgebungsbedingungen, insbesondere
Wetter, gebildet. Auch unterschiedliche Zustände, die durch eine Mischform
der genannten Zustände
der Beobachtungsszene gebildet werden, sind vorteilhaft einsetzbar.
Des Weiteren können
sich die Zustände
der Beobachtungsszene alternativ oder ergänzend hinsichtlich einer oder
mehrerer der nachfolgenden Parameter unterscheiden: Uhrzeit, Datum,
relative Position und/oder Ausrichtung einer Beobachtungskamera, absolute
Position und/oder Ausrichtung einer Beobachtungskamera, Wetterbedingungen,
Beleuchtungsbedingungen, Wochentag, Jahreszeit, Mondphase etc. Jede
der genannten unterschiedlichen Zustände der Beobachtungsszene kann
einen einzelnen Modus innerhalb des multimodalen Szenenmodells bilden.
-
Der
Vorteil eines derart aufgebauten multimodalen Szenenmodells liegt
darin, dass die Objektsegmentierung und/oder das Objekt-Tracking
wesentlich verbessert, insbesondere stabilisiert werden kann, da
der Vergleich zwischen einem aktuellem Kamerabild und dem Szenenreferenzhintergrund
realitätsnäher und
damit genauer durchführbar
ist.
-
Ein
weiterer Gegenstand der Erfindung betrifft ein Überwachungssystem mit den Merkmalen des
Anspruchs 8, wobei das Überwachungssystem die
soeben beschriebene Bildverarbeitungsvorrichtung und ergänzend eine
Mehrzahl von Schnittstellen zur Anbindung von Beobachtungskameras
umfasst. Die Schnittstellen können
dabei direkt mit den Beobachtungskameras verbindbar und/oder verbunden sein.
Alternativ ist das Überwachungssystem
mit den Beobachtungskameras über
ein kabelgestütztes und/oder
kabelloses Netzwerk, insbesondere Internet, verbunden. Auch eine
Zwischenschaltung von Speichereinrichtungen zur Speicherung der
Videodaten, insbesondere Videorecorder, ist möglich.
-
Das
erfindungsgemäße Überwachungssystem
ist gekennzeichnet durch eine Auswerteeinrichtung, die zur Bildung
von Nachbarschaftsbeziehungen zwischen den Beobachtungskameras unter
Verwendung der trajektorien-basierten Objekte insbesondere programmtechnisch
und/oder schaltungstechnisch ausgebildet ist.
-
Diesem
weiteren Aspekt der Erfindung liegt die Überlegung zugrunde, dass es
bei Überwachungssystemen
mit Kameranetzwerken nötig
ist, die geographische oder örtliche
Anordnung der Kameras insbesondere relativ zueinander zu bestimmen
und in das Überwachungssystem
einzuspeisen bevor eine Übergabe von
verfolgten (getrackten) Beobachtungsobjekten zwischen den einzelnen
Beobachtungskameras stattfinden kann.
-
Die
Nachbarschaftsbeziehung zwischen den Beobachtungskameras wird bevorzugt über Auswertung
der mittels Langfristbeobachtung und/oder Mittelfristbeobachtung
erlernten Ein- und/oder Ausgänge
bestimmt. Damit birgt die Erfindung den Vorteil, dass mittels der
Ein- beziehungsweise Ausgängen Aussagen über die
Position der Beobachtungskamera in einem Kameranetzwerk getroffen
werden können
beziehungsweise die verfolgten (getrackten) Objekte an die jeweils
an die benachbarten Beobachtungskameras übergeben werden können.
-
Ein
weiterer Gegenstand der Erfindung betrifft ein Verfahren zur Erzeugung
eines Szenenreferenzbildes einer Beobachtungsszene mit den Merkmalen
des Anspruchs 10. Bei den beanspruchten Verfahren, welches für eine Objektsegmentierung
in der Bildverarbeitung ausgebildet ist und vorzugsweise unter Verwendung
einer Bildbearbeitungsvorrichtung und/oder eines Überwachungssystems
wie eben beschreiben beziehungsweise in den vorhergehenden Ansprüchen beansprucht,
durchgeführt
wird. Bei dem Verfahren wird das Szenenreferenzbild über eine
Auswertung der Langfristbeobachtung und/oder einer Mittelfristbeobachtung
der Beobachtungsszene erzeugt, wobei die Beobachtung über einen
Zeitraum länger
als einen Tag, vorzugsweise länger
als mehrere Tage, insbesondere länger
als eine Woche und/oder über
einen Zeitraum, der mehrere Zustände der
Beobachtungsszene umfasst, erfolgt.
-
Insbesondere
umfasst das Verfahren einen ersten Schritt, wobei aus den Trajektorien
optional zusätzlich
deren Klassifikation trajektorien-basierte Objekte für ein multimodales
Szenenmodell erzeugt werden. Vorzugsweise wird in einem zweiten
Schritt der Bildhintergrund, also unter Vernachlässigung und/oder Eliminierung
der bewegten Objekte, ausgewertet, so dass bild-basierte Objekte
erlernt werden. In einem weiteren Schritt werden die derart erkannten
beziehungsweise gelernten Objekte zu einem Szenenmodell zusammengeführt. Optional
werden in einem weiteren Schritt Zusatzinformationen, wie zum Beispiel
Uhrzeit, Datum, Kompass, Längengrad,
Daten von Lagesensoren etc. verwendet, um verschiedene Zustände der
Beobachtungsszene zu definieren und ein multimodales Szenenmodell
zu bilden, wobei jedem Modus des multimodalen Szenenmodells ein Zustand
der Beobachtungsszene zugeordnet wird. In einem weiteren Schritt
werden aktuelle Videosequenzen der Beobachtungskameras unter Verwendung
des multimodalen Szenenmodells ausgewertet und auf diese Weise Beobachtungsobjekte in
den aktuellen Videosequenzen verfolgt.
-
Eine
Verbesserung des multimodalen Szenenmodells und/oder der Objektsegmentierung und/oder
des Objekt-Trackings wird optional dadurch erreicht, dass Kamerabilder
von unterschiedlichen Zuständen
beziehungsweise Szenen von unterschiedlichen Moden des multimodalen
Szenenmodells miteinander verglichen werden. Beispielsweise können Datenbereiche
erkannt werden, indem Kamerabilder einer Beobachtungsszene mit und
ohne Schatten, also zum Beispiel zu verschiedenen Uhrzeiten, miteinander
verglichen werden.
-
Ein
weiterer Gegenstand der Erfindung betrifft ein Computerprogramm
mit Programmcodemitteln mit den Merkmalen des Anspruchs 11.
-
Kurze Beschreibung der Zeichnungen
-
Weitere
Merkmalen, Vorteile oder Wirkungen der Erfindung ergeben sich aus
der nachfolgenden Beschreibung sowie der angehängten Zeichnung eines bevorzugten
Ausführungsbeispiels.
Dabei zeigt:
-
1 ein
schematisches Blockschaltbild eines Ausführungsbeispiels eines erfindungsgemäßen Überwachungssystems,
welches ein Ausführungsbeispiel
einer erfindungsgemäßen Bildverarbeitungsvorrichtung
umfasst;
-
2 eine
schematische Darstellung des erfindungsgemäßen Verfahrens, insbesondere
unter Verwendung der in der 1 gezeigten
Bildverarbeitungsvorrichtung beziehungsweise des Überwachungssystems.
-
Ausführungsform(en)
der Erfindung
-
Die 1 zeigt
in einer schematischen Blockdarstellung ein Überwachungssystem 1,
welches über
ein Netzwerk 2 mit einer Vielzahl von Beobachtungskameras 3 verbunden
ist. Die Beobachtungskameras 3 sind beispielsweise stationär angebrachte Überwachungskameras
in bekannter Bauweise. Das Netzwerk 2 ist kabelgestützt oder
kabellos ausgebildet, zur Übertragung
kann auch das Internet verwendet werden. Über das Netzwerk 2 werden
Videodatenströme
bzw. Videosequenzen der Beobachtungskameras 3 an eine Bildverarbeitungseinrichtung 4 geführt. Optional
sind in dem Netzwerk 2 auch Videorecorder zur Zwischenspeicherung
der Videodatenströme
vorgesehen. Nach Übergabe
der Videodatenströme
der Beobachtungskamera 3 über eine Schnittstelle 5 teilt
sich der Videodatenstrom auf und führt einerseits zu einer Lernvorrichtung 6 und andererseits
zu einem Analysemodul 7.
-
Die
Lernvorrichtung 6 dient zur Erzeugung eines Szenenreferenzbildes,
welches über
eine Verbindungsleitung 8 von der Lernvorrichtung 6 an
das Analysemodul 7 übergeben
wird. Zur Erzeugung des Szenenreferenzbildes werden die Videodatenströme in einem
Bildauswertemodul 9 als Teil der Lernvorrichtung 6 untersucht.
Dabei werden in einem ersten Block 10 trajektorien-basierte
Objekte und parallel dazu in einem zweiten Block 11 bild-basierte
Objekte extrahiert.
-
Die
Extraktion der trajektorien-basierten Objekte, wie zum Beispiel
Pfade, Wege, Straßen,
Ein-, Ausgänge
und statische Objekte, innerhalb des ersten Blocks 10 stützt sich
im Wesentlichen auf extrahierte Metadaten der Beobachtungsszene,
insbesondere auf die Trajektorien der bewegten Objekte und deren
Klassifikation. Durch Auswertung einer genügend großen Anzahl an Trajektorien
(idealerweise mehrere tausend) kann eine statistisch robuste Aussage über häufige Pfade
getroffen werden. Optional wird bei der Erlernung der typischen
Pfade (Trajektorien) in der Beobachtungsszene beispielsweise die Zeit,
insbesondere Tageszeit oder Wochentag, für eine Klassifikation berücksichtigt.
Aus den Trajektoren lässt
sich beispielsweise ablesen, an welchen Positionen im Überwachungsbild
statische Objekte in der Szene befinden, da in diesen Regionen die
Trajektorien unterbrochen sind und damit ist ein Hinweis auf ein
statisches Hindernis gegeben ist. Etwaige Ein- und Ausgänge können ebenso
aus dieser Datenbasis extrahiert werden, indem der Beginn und das
Ende jeder Trajektorie erfasst werden und diese Daten geclustert
werden. Bei einer optionalen Ausbildung der Erfindung können mittels
der Ein- oder Ausgänge
Aussagen über
die Position der Beobachtungskameras 3 in einem Kameranetzwerk
getroffen werden bezie hungsweise die getrackten Objekte an die jeweils
benachbartes Beobachtungskamera 3 übergeben werden.
-
Die
Extraktion der bild-basierten Objekte, also zum Beispiel Störbereiche
(Blattbewegungen, flackernde Monitore, Vorhänge, Wasseroberflächen, etc),
spiegelnde Bereiche (gekrümmte
Oberflächen, Fenster-
oder Autoscheiben) oder statische Schattenbereiche, erfolgt in dem
zweiten Block 11 über eine
Auswertung der Videodatenströme
und zwar insbesondere ohne Berücksichtigung
der Trajektorien der bewegten Objekte. Insbesondere erfolgt eine statistische
Auswertung der zeitlichen Signaländerungen
in verschiedenen Regionen des Bildes und der anschließenden Klassifikation
der entsprechenden Regionen. Beispielsweise zeichnen sich Störbereiche
durch hohes Rauschen aus, wobei dieses Rauschen zudem meist periodisch
und damit erkennbar ist. Die spiegelnden Bereiche sind ebenso durch Rauschen
gekennzeichnet. Im Gegensatz zu den Störbereichen nimmt aber bei den
spiegelnden Bereiche die Lumineszenz stark zu, die Region ist sehr hell,
etwa wenn die Sonne direkt auf eine Scheibe strahlt. Die statischen
Schattenbereiche charakterisieren die Beleuchtung der Beobachtungsszene
zu verschiedenen Zeitpunkten. Diese Information wird über die
Auswertung der Beobachtungsszene über einzelne Tage gewonnen,
sowie optional durch die Daten aus einem Kompass und die Längen- und Breitengrade
des Kamerastandorts ergänzt.
Ein Vergleich einer Kameraaufnahme mit einer Aufnahme der selben
Szene ohne Schatten (zum Beispiel um 12 Uhr mittags) kann zur Detektion
der statischen Schattenbereiche verwendet werden.
-
Es
soll hierbei unterstrichen werden, dass die vorgestellten Methoden
zur Gewinnung der nötigen
Daten und der Extraktion der Objekte nur beispielhaft sind. Weitere
Methoden zu Verfahren die zur Objektextraktion verwendet werden
können,
befinden sich zum Beispiel in den nachfolgenden wissenschaftlichen
Artikeln: D. Makris, T. Ellis: Learning semantic scene models
from observing activity in visual surveillance; IEEE 2005 oder D.
Makris, T. Ellis, J. Black: Bridging the gaps between cameras; Kingston
University 2005 oder R. Bowden, P. KaewTraKulPong:
Towards automated wide area visual surveillance: tracking objects
between spatially-separated uncalibrated views; IEEE 2005,
deren Offenbarung via Referenzierung vollständig in die vorliegende Beschreibung übernommen
wird.
-
Die
Daten über
die extrahierten Objekte werden über
eine Datenleitung an einen Datenspeicher 12 übergeben,
der ein multimodales Szenenmodell verwaltet. Diese multimodale Szenenmodell
weist für jeden
Zustand der Überwachungsszene
ein eigenes Modell, insbesondere im Sinne einer Modell- oder Kulissenwelt
auf. Insbesondere kann das multimodale Szenenmodell als virtuelle
Welt ausgebildet sein. Die verschiedenen Moden des multimodalen
Szenenmodells beziehen sich dabei auf verschiedene Zustände der
Beobachtungsszene, wobei die Zustände sich durch das Bewegungsmuster
der bewegten Objekte und/oder Umgebungsbedingungen der Beobachtungsszene
unterscheiden können.
-
Auf
Anforderung des Analysenmoduls 7 wird ein relevantes Szenenreferenzbild über die
Verbindungsleitung 8 von der Bildverarbeitungsvorrichtung 4 beziehungsweise
dem Datenspeicher 12 an das Analysemodul 7 übergeben.
Ein relevantes Szenenreferenzbild wird dabei dadurch gekennzeichnet, dass
es aus einem Modus des multimodalen Szenenmodells gebildet ist,
der dem Zustand der Beobachtungsszene entspricht, der von dem aktuell
in dem Analysemodul 7 zu analysierenden Videodatenstrom dargestellt
ist.
-
In
dem Analysemodul 7 wird in bekannter Weise das übergebene
Szenenreferenzbild mit den einzelnen Kamerabildern der Videodatenströme verglichen
und eine Objektsegmentierung in einem Modul zur Objektsegmentierung 13 durchgeführt. Die Ergebnisse
der Objektsegmentierung werden an ein Modul zum Objekt-Tracking 14 übergegeben,
welches ebenfalls in bekannter Weise eine Objektverfolgung durchführt. In
einem Bewertungsmodul 15 werden die verfolgten (getrackten)
Objekte dann analysiert. Dies kann optional ebenfalls unter Verwendung von
Daten aus dem Datenspeicher 12 erfolgen, indem beispielsweise
untersucht wird, ob ein bestimmtes Bewegungsmuster für einen
bestimmten Zustand der Beobachtungsszene beziehungsweise einem bestimmten
Modus des multimodalen Szenenmodells normal oder nicht ist. So ist
beispielsweise die Bewegung in einer Beobachtungsszene Werktags
normal, am Wochenende entgegen abnormal. Die in dem Analysemodul 7 erzeugten
Ergebnisse werden als Metadaten zusammen mit den Videodatenströmen über einen
Ausgang 16 zur Weiterleitung, Auswertung und Verwendung
ausgegeben.
-
Die 2 zeigt
in einer schematischen Darstellung den Verlauf eines Ausführungsbeispiels
des erfindungsgemäßen Verfahrens,
insbesondere unter Verwendung des Überwachungssystems 1 in 1.
-
In
einem ersten Schritt werden über
Beobachtungskameras 3 Aufnahmen von relevanten Beobachtungsbereichen
erstellt. Die dabei erzeugten Videodatenströmen werden in einem zweiten
Schritt über
eine Objektdetektion, eine Klassifikation der detektierten Objekte
sowie ein Objekt-Tracking ausgewertet. Die in diesem Schritt erzielten
Ergebnisse werden als Bilder und Metadaten in einem dritten Schritt
gesammelt und im Rahmen einer Langzeitbeobachtung, die über mehr
als einen Tag erfolgt, ausgewertet. In diesem Schritt werden die
Charakteristika der Beobachtungsszene erlernt und zu einem multimodalen
Szenenmodell zusammengeführt.
Das multimodale Szenenmodell bildet somit ein Langzeitmodell, welches
auch durchaus mehrere Wochen Lernzeit benötigt. Das Verfahren stützt sich
dabei bevorzugt nicht ausschließlich
auf die Videodatenströme,
sondern optional auf weitere Zusatzinformationen, wie etwa die Uhrzeit
und das Datum oder die Lägen-
und Breitengrade des Standorts der Beobachtungskamera. Im Langzeitmodell
werden alle Informationen fusioniert um das multimodale Langzeitmodell
zu erhalten. Bevorzugt erfolgt das Erlernen des Langzeitmodells
vollautomatisch. Durch Verwendung des Langzeitmodells beziehungsweise
des multimodalen Szenenmodells werden die bei der Überwachung
eingesetzten Segmentierungs- und/oder Trackingalgorithmen stabilisiert.
Zusätzlich
wird es möglich,
durch Verwendung des multimodalen Szenenmodells abnormales Verhalten
von Beobachtungsobjekten zu erkennen.