DE102007024868A1

DE102007024868A1 - Bildverarbeitungsvorrichtung, Überwachungssystem, Verfahren zur Erzeugung eines Szenenreferenzbildes sowie Computerprogramm

Info

Publication number: DE102007024868A1
Application number: DE102007024868A
Authority: DE
Inventors: Wolfgang Niem; Stefan Mueller-Schneiders; Marcel Merkel
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2006-07-21
Filing date: 2007-05-29
Publication date: 2008-01-24
Also published as: GB0714295D0; GB2440444A; GB2440444B; US20080019566A1; US8285044B2

Abstract

Videoüberwachungssysteme werden in einer Vielzahl von Applikationen eingesetzt, um weiträumige Bereiche zu überwachen. Derartige Videoüberwachungssysteme umfassen gewöhnlich eine Mehrzahl von fest installierten Kameras, die relevante Beobachtungsszenen aufnehmen, sowie eine Überwachungszentrale, in der die Videosequenzen der Kameras zusammengeführt werden. Zur Auswertung der zusammengeführten Videodaten wird oftmals Überwachungspersonal eingesetzt. Bekanntermaßen ist die Überwachungstätigkeit des Überwachungspersonals sehr ermüdend, so dass die Möglichkeit nicht auszuschließen ist, dass wichtige Ereignisse in den Beobachtungsszenen übersehen werden. Aus diesem Grund werden ebenfalls hinlänglich bekannte Bildverarbeitungs-Algorithmen zur automatisierten Auswertung der Videosequenzen eingesetzt. Es wird eine Bildverarbeitungsvorrichtung 4 zur Durchführung einer Objektsegmentierung, wobei die Objektsegmentierung durch Vergleich eines Kamerabildes und eines Szenenreferenzbildes einer Beobachtungsszene durchführbar ist und/oder durchgeführt wird, mit einer Lernvorrichtung 6 zur Erzeugung des Szenenreferenzbildes vorgeschlagen, wobei die Lernvorrichtung 6 zur Erzeugung des Szenenreferenzbildes durch Auswertung einer Mittelfristbeobachtung und/oder Langfristbeobachtung der Beobachtungsszene ausgebildet ist, a) die über einen Zeitraum von länger als einem Tag, vorzugsweise länger als mehrere Tage, insbesondere länger als 1 Woche und/oder b) die über einen Zeitraum, der ...

Description

Stand der Technik
Die Erfindung betrifft eine Bildverarbeitungsvorrichtung zur Durchführung einer Objektsegmentierung, wobei die Objektsegmentierung durch Vergleich eines Kamerabildes und eines Szenenreferenzbildes einer Beobachtungsszene durchführbar ist und/oder durchgeführt wird, mit einer Lernvorrichtung zur Erzeugung des Szenenreferenzbildes, ein Überwachungssystem, welches die Bildverarbeitungsvorrichtung sowie eine Mehrzahl von Schnittstellen zur Anbindung von Beobachtungskameras umfasst, ein Verfahren zur Erzeugung eines Szenenreferenzbildes einer Beobachtungsszene sowie ein entsprechendes Computerprogramm.
Videoüberwachungssysteme werden in einer Vielzahl von Applikationen eingesetzt, um weiträumige Bereiche zu überwachen. Derartige Videoüberwachungssysteme umfassen gewöhnlich eine Mehrzahl von fest installierten Kameras, die relevante Beobachtungsszenen aufnehmen, sowie eine Überwachungszentrale, in der die Videosequenzen der Kameras zusammengeführt werden. Zur Auswertung der zusammengeführten Videodaten wird oftmals Überwachungspersonal eingesetzt. Bekanntermaßen ist die Überwachungstätigkeit des Überwachungspersonals sehr ermüdend, so dass die Möglichkeit nicht auszuschließen ist, dass wichtige Ereignisse in den Beobachtungsszenen übersehen werden. Aus diesem Grund ist werden ebenfalls hinlänglich bekannte Bildverarbeitungs-Algorithmen zur automatisierten Auswertung der Videosequenzen eingesetzt.
Ein oftmals eingesetzter Verfahrensschritt der automatisierten Auswertung ist die Objektsegmentierung, wobei bewegte Objekte in den Videosequenzen extrahiert werden. Zur Durchführung der Objektsegmentierung wird meist ein so genanntes Szenenreferenzbild erzeugt, welches den statischen oder quasi-statischen Szenenhintergrund der jeweiligen Beobachtungsszene repräsentiert. Für die Objektsegmentierung werden dann die Bildunterschiede zwischen einem aktuellen Kamerabild und diesem Szenenreferenzbild ausgewertet. Die Erzeugung des Szenenreferenzbildes erfolgt dabei in der Regel durch die Auswertung von Videosequenzen, die über mehrere Minuten aufgenommen wurden.
Ein derartiger Stand der Technik wird beispielsweise in dem wissenschaftlichen Artikel von K. Toyama, J. Krumm, B. Brumitt, B. Meyers: Wallflower: Principals and practice of Background Maintenance. ICCV 1999, Corfu, Greece, offenbart.
Offenbarung der Erfindung
Die Erfindung betrifft eine Bildverarbeitungsvorrichtung mit den Merkmalen des Anspruchs 1, ein Überwachungssystem mit den Merkmalen des Anspruchs 8, ein Verfahren mit den Merkmalen des Anspruchs 10 sowie ein Computerprogramm mit den Merkmalen des Anspruchs 11. Vorteilhafte oder bevorzugte Ausführungsformen ergeben sich aus den Unteransprüchen oder der nachfolgenden Beschreibung.
Die vorgeschlagene Bildverarbeitungsvorrichtung erlaubt eine digitale Bildverarbeitung und ist insbesondere programmtechnisch und/oder schaltungstechnisch zur Durchführung einer Objektsegmentierung ausgebildet, wobei die Objektsegmentierung durch Vergleich eines Kamerabildes und eines Szenenreferenzbildes einer Beobachtungsszene erfolgt.
Das Kamerabild ist dabei Teil einer Videosequenz, die von einer Beobachtungskamera aufgenommen wird beziehungsweise wurde, welche auf eine Beobachtungsszene gerichtet ist. Bei der Beobachtungsszene kann es sich um eine Straße, eine Kreuzung, einen Raum, einen Platz beispielsweise in einer Stadt, in einem öffentlichem Gebäude, in einer Schule, in einer Universität oder ähnlichem handeln. Bevorzugt ist die Beobachtungskamera fest installiert, also stationär angeordnet. Ebenfalls bevorzugt wird unter Beobachtungsszene die Gesamtheit der mit der Beobachtungskamera aufgenommenen Umgebung verstanden.
Das Szenenreferenzbild modelliert den statischen und/oder quasi-statischen Szenenhintergrund und/oder -vordergrund. Zur Erzeugung des Szenenreferenzbildes ist eine Lernvorrichtung vorgesehen, die beispielsweise als Recheneinheit oder Computer ausgebildet ist. Bei der Objektsegmentierung werden durch einen Vergleich, zum Beispiel unter Verwendung einer Differenzbildung, von einem aktuellen Kamerabild und dem Szenenreferenzbild bewegte Objekte vom Szenenhintergrund getrennt.
Erfindungsgemäß wird vorgeschlagen, dass die Lernvorrichtung zur Erzeugung des Szenenreferenzbildes durch Auswertung einer Mittelfristbeobachtung und/oder Langfristbeobachtung der Beobachtungsszene ausgebildet ist.
Dabei geht die Erfindung von dem Gedanken aus, dass in den bekannten Videoüberwachungssystemen stets nur sehr kurze Zeitfenster betrachtet werden und somit mittel- oder langfristige Beobachtung nicht verwendet werden. Es bleibt damit die Tatsache ungenutzt, dass eine Beobachtungskamera die selbe Szene eine lange Zeit beobachtet und somit viel über die Szene lernen kann. Die Erfindung erlaubt somit die Erstellung eines Langzeitmodells der Beobachtungsszene, wobei das Erlernen des Langzeitmodells bevorzugt auf Basis robuster Statistiken erfolgt und dabei ausgenutzt wird, dass eine typische Beobachtungskamera immer dieselbe Beobachtungsszene über mehrere Jahre hinweg überwacht. Die Erfindung ist dabei nicht auf eine bestimmte Beobachtungsszene beschränkt und ist sowohl im Außen- als auch im Innenbereich einsetzbar.
Gemäß der Alternative a der Erfindung wird vorgeschlagen, dass die Mittelfristbeobachtung und/oder Langfristbeobachtung über einen Zeitraum von länger als einen Tag, vorzugsweise länger als mehrere Tage, z.B. 3 Tage, insbesondere länger als eine Woche erfolgt.
Gemäß der Alternative b der Erfindung erfolgt die Mittelfristbeobachtung und/oder die Langfristbeobachtung über einen Zeitraum, der mehrere Zustände der Beobachtungsszene umfasst.
Hierbei wird berücksichtigt, dass die aus dem Stand der Technik bekannten Verfahren zur Objektsegmentierung oder allgemeiner zur Trennung der bewegten Objekte vom Hintergrund funktionieren, solange es sich um einen einfachen Szenenhintergrund handelt, bei dem sich relevante Beobachtungsobjekte immer zwischen der Beobachtungskamera und dem Szenenhintergrund bewegen. Liegt ein komplexeres Überwachungsszenario vor, in dem Beobachtungsobjekt von der Beobachtungskamera ausgesehen zeitweise durch statische Szenenobjekte verdeckt werden (zum Beispiel Säulen, Werbetafeln, etc.), ergeben sich bei den aus dem Stand der Technik bekannten Verfahren oftmals Probleme. Das gleiche gilt für sich häufig bewegende Objekte im Szenenhintergrund (Blätter im Wind, flatternde Monitore, Vorhänge, Wasseroberflächen) und weitere Störquellen, die die bekannten Verfahren nachhaltig stören. Weitere Probleme bei den bekannten Verfahren werden durch Schatten an statischen und quasi statischen Objekten begründet. Unter statischen und quasi statischen Objekten werden Objekte verstanden, die dem Szenenhintergrund zugeordnet werden. Sie umfassen insbesondere auch Schatten, die durch den Szenenhintergrund vorhandene Objekte, beispielsweise Häuser oder Bäume entstehen. Die Kenntnis derartiger Störobjekte, wie sie soeben beschrieben wurden, insbesondere der Schattenregionen kann verwendet werden, um Ergebnisse der Objektsegmentierung und damit die Ergebnisse eines nachgeschalteten Objekt-Tracking zu stabilisieren (zum Beispiel, indem ein mitbewegter Schatten eliminiert wird) oder die Empfindlichkeit der Detektion zu variieren, da die Schattenregionen einen geringeren Kontrast aufweisen.
Bei einer bevorzugten Weiterbildung der Erfindung ist die Lernvorrichtung zur Erstellung eines Szenenmodells der Beobachtungsszene ausgebildet, wobei das Szenenmodell die Basis zur Erzeugung des Szenenreferenzbildes bildet. Das Szenenmodell ist bevorzugt als Modellwelt ausgebildet, die insbesondere durch die Fusion der Informationen von statischen Objekten, Störbereichen, statischen bzw. quasi-statischen Schattenregionen sowie typischen Trajektorien und/oder Ein- beziehungsweise Ausgängen gebildet wird. Anders ausgedrückt wird das Szenenmodell als Kulissenbild realisiert.
Das Szenenmodell umfasst beispielsweise statische Objekte in der Beobachtungsszene, beispielsweise eine Litfasssäule, die so angeordnet ist, dass ein bewegtes Objekt sich gegebenenfalls einen Zeitraum hinter dem statischen Objekt versteckt. Der Vorteil des Szenenmodells liegt insbesondere darin, dass bei einem Objekt-Tracking das zeitweilig verdeckte, bewegte Objekt nicht verloren wird, sondern abgewartet werden kann, bis das bewegte Objekt wieder in der Beobachtungsszene sichtbar ist. Die Erkennung der statischen Objekte dient insbesondere dazu, eine Objektkennzeichnung eines verfolgten Objektes beizubehalten, insbesondere bzw. selbst wenn es komplett von einem statischen Objekt verdeckt wird. Die Aufnahme von Störbereichen in dem Szenenmodell (Blattbewegungen, flackernde Monitore, Vorhänge, Wasseroberflächen) erlaubt eine angepasste Behandlung dieser Bereiche, so dass die Objektsegmentierung nicht nachhaltig gestört wird, indem in den Störbereichen Vordergrundobjekte (bewegte Objekte) erkannt werden. Auch die Kenntnis statischer oder quasi-statischer Schattenregionen kann vorteilhaft bei dem Objekt-Tracking und der Objektsegmentierung verwendet werden, so dass diese Verfahren stabilisiert werden können.
Dabei ist die Lernvorrichtung derart ausgebildet, dass in einem ersten Schritt die Eigenschaften der Beobachtungsszene gelernt werden, wobei sich dieser Schritt ohne weiteres auch über mehrere Wochen erstrecken kann. Nach dem initialen Erlernen des Szenenmodells werden die gewonnen Daten, also das Szenenmodell, auch zum Zweck der Videoüberwachung verwendet, um beispielsweise abnormales Verhalten zu erkennen oder das Objekt-Tracking zu verbessern. Insbesondere ist die Lernvorrichtung zur kontinuierlichen Weiterentwicklung ausgebildet, um sich auf neue Eigenschaften der Beobachtungsszene anzupassen.
Bei einer bevorzugten Ausbildung der Erfindung umfasst das Szenenmodell trajektorien-basierte Objekte und/oder bild-basierte Objekte.
Dabei werden die trajektorien-basierten Objekte insbesondere durch Auswertung der Trajektorien der bewegten Objekte ermittelt. Die trajektorien-basierten Objekte sind insbesondere als Pfade, Wege, Straßen, Ein- oder Ausgänge und/oder statische Objekte ausgebildet. Dabei bezeichnen Ein- beziehungsweise Ausgänge diejenigen Bildbereiche, bei denen die bewegten Objekte in der Beobach tungsszene erstmalig auftreten bzw. aus der Beobachtungsszene endgültig verschwinden. Statische Objekte werden insbesondere dadurch erkannt, dass die bewegten Objekte zeitweilig hinter den statischen Objekten verborgen sind.
Bei den bild-basierten Objekten handelt es sich bevorzugt um Hintergrundobjekte, die trajektoren-unabhängig detektiert werden. Die Detektion erfolgt insbesondere durch Auswertung des zeitlichen Verhaltens interessierender Bereiche bzw. der bild-basierten Objekte. Insbesondere sind die bild-basierten Objekte als Störbereiche, spiegelnde Bereiche und/oder Schattenbereiche ausgebildet.
Bei einer Weiterbildung der Erfindung ist das Szenenmodell als multimodales Szenenmodell ausgebildet, wobei die einzelnen Modi des multimodalen Szenenmodells durch die unterschiedlichen Zustände der Beobachtungsszene unterscheidbar sind. Die Verwendung des multimodalen Szenenmodells wird hiermit auch nur in Verbindung des Oberbegriffs des Anspruchs 1 sowie optional mit den weiteren genannten Merkmalen des Anspruchs 1 sowie der nachfolgenden Unteransprüche in beliebiger Kombination offenbart. Die unterschiedlichen Zustände der Beobachtungsszene sind bevorzugt als regelmäßig oder periodisch auftretende Zustände ausgebildet, wobei der periodische zeitliche Abstand bzw. die Periodendauer der Zustände vorzugsweise mindestens mehrere Stunden umfasst. Die unterschiedlichen Zustände betreffen insbesondere ein wechselndes Verhaltensmuster der bewegten Objekte. So kann beispielsweise ein erster Zustand die Beobachtungsszene durch Beobachtung an einem Werktag und einer zweiter Zustand der Beobachtungsszene durch Beobachtung am Wochenende erhalten werden. Jeder dieser beiden Zustände bildet einen separaten Modus des multimodalen Szenenmodells. Weitere Zustände können auch das Verhalten der bewegten Objekte an einem Vormittag oder an einem Nachmittag während des Tages oder während der Nacht betreffen.
Weitere Zustände der Beobachtungsszene werden bevorzugt durch regelmäßig oder periodisch wiederkehrende Charakteristika der bild-basierten Objekte erzeugt. Die unterschiedlichen Zustände werden beispielsweise durch eine unterschiedliche Beleuchtung, insbesondere Sonnenstand oder künstliche Beleuchtung, oder unterschiedliche Umgebungsbedingungen, insbesondere Wetter, gebildet. Auch unterschiedliche Zustände, die durch eine Mischform der genannten Zustände der Beobachtungsszene gebildet werden, sind vorteilhaft einsetzbar. Des Weiteren können sich die Zustände der Beobachtungsszene alternativ oder ergänzend hinsichtlich einer oder mehrerer der nachfolgenden Parameter unterscheiden: Uhrzeit, Datum, relative Position und/oder Ausrichtung einer Beobachtungskamera, absolute Position und/oder Ausrichtung einer Beobachtungskamera, Wetterbedingungen, Beleuchtungsbedingungen, Wochentag, Jahreszeit, Mondphase etc. Jede der genannten unterschiedlichen Zustände der Beobachtungsszene kann einen einzelnen Modus innerhalb des multimodalen Szenenmodells bilden.
Der Vorteil eines derart aufgebauten multimodalen Szenenmodells liegt darin, dass die Objektsegmentierung und/oder das Objekt-Tracking wesentlich verbessert, insbesondere stabilisiert werden kann, da der Vergleich zwischen einem aktuellem Kamerabild und dem Szenenreferenzhintergrund realitätsnäher und damit genauer durchführbar ist.
Ein weiterer Gegenstand der Erfindung betrifft ein Überwachungssystem mit den Merkmalen des Anspruchs 8, wobei das Überwachungssystem die soeben beschriebene Bildverarbeitungsvorrichtung und ergänzend eine Mehrzahl von Schnittstellen zur Anbindung von Beobachtungskameras umfasst. Die Schnittstellen können dabei direkt mit den Beobachtungskameras verbindbar und/oder verbunden sein. Alternativ ist das Überwachungssystem mit den Beobachtungskameras über ein kabelgestütztes und/oder kabelloses Netzwerk, insbesondere Internet, verbunden. Auch eine Zwischenschaltung von Speichereinrichtungen zur Speicherung der Videodaten, insbesondere Videorecorder, ist möglich.
Das erfindungsgemäße Überwachungssystem ist gekennzeichnet durch eine Auswerteeinrichtung, die zur Bildung von Nachbarschaftsbeziehungen zwischen den Beobachtungskameras unter Verwendung der trajektorien-basierten Objekte insbesondere programmtechnisch und/oder schaltungstechnisch ausgebildet ist.
Diesem weiteren Aspekt der Erfindung liegt die Überlegung zugrunde, dass es bei Überwachungssystemen mit Kameranetzwerken nötig ist, die geographische oder örtliche Anordnung der Kameras insbesondere relativ zueinander zu bestimmen und in das Überwachungssystem einzuspeisen bevor eine Übergabe von verfolgten (getrackten) Beobachtungsobjekten zwischen den einzelnen Beobachtungskameras stattfinden kann.
Die Nachbarschaftsbeziehung zwischen den Beobachtungskameras wird bevorzugt über Auswertung der mittels Langfristbeobachtung und/oder Mittelfristbeobachtung erlernten Ein- und/oder Ausgänge bestimmt. Damit birgt die Erfindung den Vorteil, dass mittels der Ein- beziehungsweise Ausgängen Aussagen über die Position der Beobachtungskamera in einem Kameranetzwerk getroffen werden können beziehungsweise die verfolgten (getrackten) Objekte an die jeweils an die benachbarten Beobachtungskameras übergeben werden können.
Ein weiterer Gegenstand der Erfindung betrifft ein Verfahren zur Erzeugung eines Szenenreferenzbildes einer Beobachtungsszene mit den Merkmalen des Anspruchs 10. Bei den beanspruchten Verfahren, welches für eine Objektsegmentierung in der Bildverarbeitung ausgebildet ist und vorzugsweise unter Verwendung einer Bildbearbeitungsvorrichtung und/oder eines Überwachungssystems wie eben beschreiben beziehungsweise in den vorhergehenden Ansprüchen beansprucht, durchgeführt wird. Bei dem Verfahren wird das Szenenreferenzbild über eine Auswertung der Langfristbeobachtung und/oder einer Mittelfristbeobachtung der Beobachtungsszene erzeugt, wobei die Beobachtung über einen Zeitraum länger als einen Tag, vorzugsweise länger als mehrere Tage, insbesondere länger als eine Woche und/oder über einen Zeitraum, der mehrere Zustände der Beobachtungsszene umfasst, erfolgt.
Insbesondere umfasst das Verfahren einen ersten Schritt, wobei aus den Trajektorien optional zusätzlich deren Klassifikation trajektorien-basierte Objekte für ein multimodales Szenenmodell erzeugt werden. Vorzugsweise wird in einem zweiten Schritt der Bildhintergrund, also unter Vernachlässigung und/oder Eliminierung der bewegten Objekte, ausgewertet, so dass bild-basierte Objekte erlernt werden. In einem weiteren Schritt werden die derart erkannten beziehungsweise gelernten Objekte zu einem Szenenmodell zusammengeführt. Optional werden in einem weiteren Schritt Zusatzinformationen, wie zum Beispiel Uhrzeit, Datum, Kompass, Längengrad, Daten von Lagesensoren etc. verwendet, um verschiedene Zustände der Beobachtungsszene zu definieren und ein multimodales Szenenmodell zu bilden, wobei jedem Modus des multimodalen Szenenmodells ein Zustand der Beobachtungsszene zugeordnet wird. In einem weiteren Schritt werden aktuelle Videosequenzen der Beobachtungskameras unter Verwendung des multimodalen Szenenmodells ausgewertet und auf diese Weise Beobachtungsobjekte in den aktuellen Videosequenzen verfolgt.
Eine Verbesserung des multimodalen Szenenmodells und/oder der Objektsegmentierung und/oder des Objekt-Trackings wird optional dadurch erreicht, dass Kamerabilder von unterschiedlichen Zuständen beziehungsweise Szenen von unterschiedlichen Moden des multimodalen Szenenmodells miteinander verglichen werden. Beispielsweise können Datenbereiche erkannt werden, indem Kamerabilder einer Beobachtungsszene mit und ohne Schatten, also zum Beispiel zu verschiedenen Uhrzeiten, miteinander verglichen werden.
Ein weiterer Gegenstand der Erfindung betrifft ein Computerprogramm mit Programmcodemitteln mit den Merkmalen des Anspruchs 11.
Kurze Beschreibung der Zeichnungen
Weitere Merkmalen, Vorteile oder Wirkungen der Erfindung ergeben sich aus der nachfolgenden Beschreibung sowie der angehängten Zeichnung eines bevorzugten Ausführungsbeispiels. Dabei zeigt:
1 ein schematisches Blockschaltbild eines Ausführungsbeispiels eines erfindungsgemäßen Überwachungssystems, welches ein Ausführungsbeispiel einer erfindungsgemäßen Bildverarbeitungsvorrichtung umfasst;
2 eine schematische Darstellung des erfindungsgemäßen Verfahrens, insbesondere unter Verwendung der in der 1 gezeigten Bildverarbeitungsvorrichtung beziehungsweise des Überwachungssystems.
Ausführungsform(en) der Erfindung
Die 1 zeigt in einer schematischen Blockdarstellung ein Überwachungssystem 1, welches über ein Netzwerk 2 mit einer Vielzahl von Beobachtungskameras 3 verbunden ist. Die Beobachtungskameras 3 sind beispielsweise stationär angebrachte Überwachungskameras in bekannter Bauweise. Das Netzwerk 2 ist kabelgestützt oder kabellos ausgebildet, zur Übertragung kann auch das Internet verwendet werden. Über das Netzwerk 2 werden Videodatenströme bzw. Videosequenzen der Beobachtungskameras 3 an eine Bildverarbeitungseinrichtung 4 geführt. Optional sind in dem Netzwerk 2 auch Videorecorder zur Zwischenspeicherung der Videodatenströme vorgesehen. Nach Übergabe der Videodatenströme der Beobachtungskamera 3 über eine Schnittstelle 5 teilt sich der Videodatenstrom auf und führt einerseits zu einer Lernvorrichtung 6 und andererseits zu einem Analysemodul 7.
Die Lernvorrichtung 6 dient zur Erzeugung eines Szenenreferenzbildes, welches über eine Verbindungsleitung 8 von der Lernvorrichtung 6 an das Analysemodul 7 übergeben wird. Zur Erzeugung des Szenenreferenzbildes werden die Videodatenströme in einem Bildauswertemodul 9 als Teil der Lernvorrichtung 6 untersucht. Dabei werden in einem ersten Block 10 trajektorien-basierte Objekte und parallel dazu in einem zweiten Block 11 bild-basierte Objekte extrahiert.
Die Extraktion der trajektorien-basierten Objekte, wie zum Beispiel Pfade, Wege, Straßen, Ein-, Ausgänge und statische Objekte, innerhalb des ersten Blocks 10 stützt sich im Wesentlichen auf extrahierte Metadaten der Beobachtungsszene, insbesondere auf die Trajektorien der bewegten Objekte und deren Klassifikation. Durch Auswertung einer genügend großen Anzahl an Trajektorien (idealerweise mehrere tausend) kann eine statistisch robuste Aussage über häufige Pfade getroffen werden. Optional wird bei der Erlernung der typischen Pfade (Trajektorien) in der Beobachtungsszene beispielsweise die Zeit, insbesondere Tageszeit oder Wochentag, für eine Klassifikation berücksichtigt. Aus den Trajektoren lässt sich beispielsweise ablesen, an welchen Positionen im Überwachungsbild statische Objekte in der Szene befinden, da in diesen Regionen die Trajektorien unterbrochen sind und damit ist ein Hinweis auf ein statisches Hindernis gegeben ist. Etwaige Ein- und Ausgänge können ebenso aus dieser Datenbasis extrahiert werden, indem der Beginn und das Ende jeder Trajektorie erfasst werden und diese Daten geclustert werden. Bei einer optionalen Ausbildung der Erfindung können mittels der Ein- oder Ausgänge Aussagen über die Position der Beobachtungskameras 3 in einem Kameranetzwerk getroffen werden bezie hungsweise die getrackten Objekte an die jeweils benachbartes Beobachtungskamera 3 übergeben werden.
Die Extraktion der bild-basierten Objekte, also zum Beispiel Störbereiche (Blattbewegungen, flackernde Monitore, Vorhänge, Wasseroberflächen, etc), spiegelnde Bereiche (gekrümmte Oberflächen, Fenster- oder Autoscheiben) oder statische Schattenbereiche, erfolgt in dem zweiten Block 11 über eine Auswertung der Videodatenströme und zwar insbesondere ohne Berücksichtigung der Trajektorien der bewegten Objekte. Insbesondere erfolgt eine statistische Auswertung der zeitlichen Signaländerungen in verschiedenen Regionen des Bildes und der anschließenden Klassifikation der entsprechenden Regionen. Beispielsweise zeichnen sich Störbereiche durch hohes Rauschen aus, wobei dieses Rauschen zudem meist periodisch und damit erkennbar ist. Die spiegelnden Bereiche sind ebenso durch Rauschen gekennzeichnet. Im Gegensatz zu den Störbereichen nimmt aber bei den spiegelnden Bereiche die Lumineszenz stark zu, die Region ist sehr hell, etwa wenn die Sonne direkt auf eine Scheibe strahlt. Die statischen Schattenbereiche charakterisieren die Beleuchtung der Beobachtungsszene zu verschiedenen Zeitpunkten. Diese Information wird über die Auswertung der Beobachtungsszene über einzelne Tage gewonnen, sowie optional durch die Daten aus einem Kompass und die Längen- und Breitengrade des Kamerastandorts ergänzt. Ein Vergleich einer Kameraaufnahme mit einer Aufnahme der selben Szene ohne Schatten (zum Beispiel um 12 Uhr mittags) kann zur Detektion der statischen Schattenbereiche verwendet werden.
Es soll hierbei unterstrichen werden, dass die vorgestellten Methoden zur Gewinnung der nötigen Daten und der Extraktion der Objekte nur beispielhaft sind. Weitere Methoden zu Verfahren die zur Objektextraktion verwendet werden können, befinden sich zum Beispiel in den nachfolgenden wissenschaftlichen Artikeln: D. Makris, T. Ellis: Learning semantic scene models from observing activity in visual surveillance; IEEE 2005 oder D. Makris, T. Ellis, J. Black: Bridging the gaps between cameras; Kingston University 2005 oder R. Bowden, P. KaewTraKulPong: Towards automated wide area visual surveillance: tracking objects between spatially-separated uncalibrated views; IEEE 2005, deren Offenbarung via Referenzierung vollständig in die vorliegende Beschreibung übernommen wird.
Die Daten über die extrahierten Objekte werden über eine Datenleitung an einen Datenspeicher 12 übergeben, der ein multimodales Szenenmodell verwaltet. Diese multimodale Szenenmodell weist für jeden Zustand der Überwachungsszene ein eigenes Modell, insbesondere im Sinne einer Modell- oder Kulissenwelt auf. Insbesondere kann das multimodale Szenenmodell als virtuelle Welt ausgebildet sein. Die verschiedenen Moden des multimodalen Szenenmodells beziehen sich dabei auf verschiedene Zustände der Beobachtungsszene, wobei die Zustände sich durch das Bewegungsmuster der bewegten Objekte und/oder Umgebungsbedingungen der Beobachtungsszene unterscheiden können.
Auf Anforderung des Analysenmoduls 7 wird ein relevantes Szenenreferenzbild über die Verbindungsleitung 8 von der Bildverarbeitungsvorrichtung 4 beziehungsweise dem Datenspeicher 12 an das Analysemodul 7 übergeben. Ein relevantes Szenenreferenzbild wird dabei dadurch gekennzeichnet, dass es aus einem Modus des multimodalen Szenenmodells gebildet ist, der dem Zustand der Beobachtungsszene entspricht, der von dem aktuell in dem Analysemodul 7 zu analysierenden Videodatenstrom dargestellt ist.
In dem Analysemodul 7 wird in bekannter Weise das übergebene Szenenreferenzbild mit den einzelnen Kamerabildern der Videodatenströme verglichen und eine Objektsegmentierung in einem Modul zur Objektsegmentierung 13 durchgeführt. Die Ergebnisse der Objektsegmentierung werden an ein Modul zum Objekt-Tracking 14 übergegeben, welches ebenfalls in bekannter Weise eine Objektverfolgung durchführt. In einem Bewertungsmodul 15 werden die verfolgten (getrackten) Objekte dann analysiert. Dies kann optional ebenfalls unter Verwendung von Daten aus dem Datenspeicher 12 erfolgen, indem beispielsweise untersucht wird, ob ein bestimmtes Bewegungsmuster für einen bestimmten Zustand der Beobachtungsszene beziehungsweise einem bestimmten Modus des multimodalen Szenenmodells normal oder nicht ist. So ist beispielsweise die Bewegung in einer Beobachtungsszene Werktags normal, am Wochenende entgegen abnormal. Die in dem Analysemodul 7 erzeugten Ergebnisse werden als Metadaten zusammen mit den Videodatenströmen über einen Ausgang 16 zur Weiterleitung, Auswertung und Verwendung ausgegeben.
Die 2 zeigt in einer schematischen Darstellung den Verlauf eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens, insbesondere unter Verwendung des Überwachungssystems 1 in 1.
In einem ersten Schritt werden über Beobachtungskameras 3 Aufnahmen von relevanten Beobachtungsbereichen erstellt. Die dabei erzeugten Videodatenströmen werden in einem zweiten Schritt über eine Objektdetektion, eine Klassifikation der detektierten Objekte sowie ein Objekt-Tracking ausgewertet. Die in diesem Schritt erzielten Ergebnisse werden als Bilder und Metadaten in einem dritten Schritt gesammelt und im Rahmen einer Langzeitbeobachtung, die über mehr als einen Tag erfolgt, ausgewertet. In diesem Schritt werden die Charakteristika der Beobachtungsszene erlernt und zu einem multimodalen Szenenmodell zusammengeführt. Das multimodale Szenenmodell bildet somit ein Langzeitmodell, welches auch durchaus mehrere Wochen Lernzeit benötigt. Das Verfahren stützt sich dabei bevorzugt nicht ausschließlich auf die Videodatenströme, sondern optional auf weitere Zusatzinformationen, wie etwa die Uhrzeit und das Datum oder die Lägen- und Breitengrade des Standorts der Beobachtungskamera. Im Langzeitmodell werden alle Informationen fusioniert um das multimodale Langzeitmodell zu erhalten. Bevorzugt erfolgt das Erlernen des Langzeitmodells vollautomatisch. Durch Verwendung des Langzeitmodells beziehungsweise des multimodalen Szenenmodells werden die bei der Überwachung eingesetzten Segmentierungs- und/oder Trackingalgorithmen stabilisiert. Zusätzlich wird es möglich, durch Verwendung des multimodalen Szenenmodells abnormales Verhalten von Beobachtungsobjekten zu erkennen.

Claims

Bildverarbeitungsvorrichtung (4) zur Durchführung einer Objektsegmentierung, wobei die Objektsegmentierung durch Vergleich eines Kamerabildes und eines Szenenreferenzbildes einer Beobachtungsszene durchführbar ist und/oder durchgeführt wird, mit einer Lernvorrichtung (6) zur Erzeugung des Szenenreferenzbildes, dadurch gekennzeichnet, dass die Lernvorrichtung (6) zur Erzeugung des Szenenreferenzbildes durch Auswertung einer Mittelfristbeobachtung und/oder Langfristbeobachtung der Beobachtungsszene ausgebildet ist, a) die über einen Zeitraum von länger als einem Tag, vorzugsweise länger als mehrere Tage, insbesondere länger als 1 Woche, und/oder b) die über einen Zeitraum, der mehrere Zustände der Beobachtungsszene umfasst, ausgebildet ist.
Bildverarbeitungsvorrichtung (4) nach Anspruch 1, dadurch gekennzeichnet, dass die Lernvorrichtung (6) zur Erstellung eines Szenenmodells der Beobachtungsszene ausgebildet ist.
Bildverarbeitungsvorrichtung (4) nach Anspruch 2, dadurch gekennzeichnet, dass das Szenenmodell trajektorien-basierte Objekte und/oder bild-basierte Objekte umfasst.
Bildverarbeitungsvorrichtung (4) nach Anspruch 3, dadurch gekennzeichnet, dass die trajektorien-basierten Objekte als Pfade, Wege, Straßen, Ein- oder Ausgänge und/oder statische Objekte ausgebildet sind.
Bildverarbeitungsvorrichtung (4) nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass die bild-basierten Objekte als Störbereiche, spiegelnde Bereiche und/oder Schattenbereiche ausgebildet sind.
Bildverarbeitungsvorrichtung (4) nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass das Szenenmodell als multimodales Szenenmodel ausgebildet ist, wobei die einzelnen Modi des multimodalen Szenenmodells durch die unterschiedlichen Zustände der Beobachtungsszene unterscheidbar sind.
Bildverarbeitungsvorrichtung (4) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass sich die Zustände der Beobachtungsszene hinsichtlich einer oder mehrere der nachfolgenden Parameter unterscheiden: Uhrzeit, Tageszeit, Datum, relative Position und/oder Ausrichtung einer Beobachtungskamera, absolute Position und/oder Ausrichtung einer Beobachtungskamera, Wetterbedingungen, Beleuchtungsbedingungen, Wochentag, Jahreszeit, Mondphase etc.
Überwachungssystem (1) umfassend die Bildverarbeitungsvorrichtung (4) nach einem der vorhergehenden Ansprüche sowie eine Mehrzahl von Schnittstellen (5) zur Anbindung von Beobachtungskameras (3), gekennzeichnet durch eine Auswerteeinrichtung, die zur Bildung von Nachbarschaftsbeziehungen zwischen den Beobachtungskameras unter Verwendung der trajektorien-basierte Objekte ausgebildet ist.
Überwachungssystem nach Anspruch 8, dadurch gekennzeichnet, dass die trajektorien-basierte Objekte als Ein- und/oder Ausgänge realisiert sind.
Verfahren zur Erzeugung eines Szenenreferenzbilds einer Beobachtungsszene für eine Objektsegmentierung in der Bildverarbeitung, wobei das Szenenreferenzbild über eine Auswertung von einer Mittelfristbeobachtung und/oder Langfristbeobachtung der Beobachtungsszene erzeugt wird, die a) über einen Zeitraum von länger als einem Tag, vorzugsweise länger als mehrere Tage, insbesondere länger als 1 Woche, und/oder b) die über einen Zeitraum, der mehrere Zustände der Beobachtungsszene umfasst, erfolgt.
Computerprogramm mit Programmcode-Mitteln, um alle Schritte des Verfahrens nach Anspruch 10 durchzuführen, wenn das Programm auf einem Computer und/oder einer Vorrichtung (4; 1) von jedem Beliebigen der Ansprüche 1 bis 9 ausgeführt wird.