-
Die
Erfindung betrifft eine Kamera zum Verfolgen von Objekten mit einer
Bildsensoreinheit zum Erzeugen von Bilddaten und einer Verarbeitungseinheit
zum Verarbeiten der von der Bildsensoreinheit an die Verarbeitungseinheit übergebenen
Bilddaten. Die Erfindung betrifft auch ein Multikamerasystem mit wenigstens
zwei Kameras sowie ein Verfahren zum Verarbeiten von Bilddaten in
einer Kamera zum Verfolgen von Objekten.
-
Trackinganwendungen,
die auf einem Netz von verteilten Kameras aufbauen, werden in heutiger Zeit
immer gefragter, sowohl im Bereich Sicherheitstechnik zur Überwachung
von Flughäfen,
Bahnhöfen, Museen
oder öffentlichen
Plätzen,
wie auch im Bereich der industriellen Bildverarbeitung bei Fertigungsstraßen und
sichtgeführten
Robotern. Traditionelle zentralisierte Ansätze weisen hier zahlreiche Nachteile
auf. So übertragen
heutige Systeme typischerweise den kompletten rohen Bildstrom des
Kamerasensors über
teure und entfernungsbeschränkte
Verbindungen zu einem zentralen Rechner und müssen dort dann alle verarbeitet
werden. Die Kameras werden somit typischerweise nur als ein fache Sensoren
angesehen und die Verarbeitung erfolgt erst nach aufwendiger Übertragung
des rohen Videostromes. Dieses Konzept stößt bei Multikamerasystemen
und Kameras mit hohen Auflösungen und/oder
Frameraten schnell an Grenzen.
-
Der
Erfindung liegt somit das Problem zugrunde, eine Objektverfolgung
durch Kameras bereitzustellen, die in der Lage ist, mit mehreren
Kameras und bandbreitenbeschränkten
Netzwerken zu arbeiten.
-
Erfindungsgemäß ist hierzu
eine Kamera zum Verfolgen von Objekten, mit einer Bildsensoreinheit
zum Erzeugen von Bilddaten und einer Verarbeitungseinheit zum Verarbeiten
der von der Bildsensoreinheit an die Verarbeitungseinheit übergebenen Bilddaten
vorgesehen, bei der die Verarbeitungseinheit eine ROI-Auswahleinheit
zum Auswählen
von für die
Objektverfolgung interessanten Bildbereichen und eine Tracking-Einheit aufweist,
um Trackingdaten von zu verfolgenden Objekten anhand der Bilddaten
zu ermitteln.
-
Erfindungsgemäß erfolgt
die Verarbeitung der Bilddaten somit bereits in der Kamera, so dass nicht
der komplette, rohe Videostrom in voller Auflösung zu einer externen Verarbeitungseinheit übertragen
werden muss. Stattdessen werden lediglich die sich ergebenden Trackingdaten übertragen.
Darüber hinaus
werden durch die Verwendung der Region of Interest (ROI)-Auswahleinheit
die zu verarbeitenden Bilddaten bereits in ihrer Menge stark begrenzt,
so dass die Verarbeitung der Daten in Echtzeit erfolgen kann, was
bei Trackinganwendungen von großer
Bedeutung ist. Da somit nur die resultierenden Daten von der Kamera übertragen
werden müssen,
wird die Verwendung von Standardnetzwerkverbindungen überhaupt
erst möglich.
Zur Berechnung der Trackingdaten ist darüber hinaus kein externer Rechner erforderlich,
da dies bereits innerhalb der Kamera erledigt wird. Ein gegebenenfalls
dennoch vor handener zentraler Rechner kann dann für übergeordnete
Aufgaben verwendet werden.
-
In
Weiterbildung der Erfindung sind an einem Signalausgang der Kamera
die Trackingdaten ausgebbar, wobei die Trackingdaten gegenüber der
von der Bildsensoreinheit erzeugten Menge an Bilddaten eine wesentlich
verringerte Datenmenge aufweisen, insbesondere etwa um den Faktor
1000 verringert.
-
Zu
dieser erfindungsgemäßen erheblichen Verringerung
der zu übertragenden
Datenmenge trägt
zum einen das Auswählen
von für
die Objektverfolgung interessanten Bildbereichen und zum anderen
die Berechnung der Trackingdaten innerhalb der Kamera bei. Ein Kamerabild
in VGA-Auflösung
benötigt
etwa ein Drittel der 100 Mbit/s Standard-Ethernetbandbreite, wobei dies ohne
Heranziehung des sogenannten Bayer-Mosaics erreicht wird, ansonsten wird
die dreifache Bandbreite benötigt.
Gemäß der Erfindung
wird hingegen eine Reduktion auf wenige hundert Kilobit pro Sekunde
ermöglicht,
da lediglich die Übergebnisse übertragen
werden. Da der rohe Videostrom gemäß der Erfindung nicht mehr
durch die Bandbreite der Verbindung nach außen beschränkt ist, können bei der erfindungsgemäßen Kamera
Sensoren mit sehr hoher örtlicher
und seitlicher Auflösung
verwendet werden. Zwei Gründe
sind hierfür
verantwortlich: Zum Einen ist aufgrund der Nähe der Verarbeitungseinheit
direkt am Sensor eine höhere Übertragungsgeschwindigkeit
technisch viel einfacher realisierbar als außerhalb der Kamera, zum Anderen
wird, wie bereits erwähnt
wurde, durch die ROI-Auswahleinheit
das aktuelle Kamerabild nur an ausgewählten und sich beispielsweise
dynamisch ändernden
Regionen ausgewertet. Hierzu sind Region-of-Interest-(ROI)-fähige Kamerasensoren,
wie etwa CMOS-Sensoren
erforderlich.
-
In
Weiterbildung der Erfindung sind die Trackingdaten in Form einer
insbesondere approximierten Wahrscheinlichkeitsdichtefunktion bereitgestellt. Vorteilhafterweise
ist die Wahrscheinlichkeitsdichtefunktion durch mehrere Stützstellen
approximiert.
-
Mittels
einer insbesondere approximierten Wahrscheinlichkeitsdichtefunktion
werden die für eine
Trackinganwendung ausschließlich
interessierenden Zieldaten, wie beispielsweise Position und Geschwindigkeit
eines zu verfolgenden Objektes, berechnet und dann von der Kamera
ausgegeben. Die Approximation der Wahrscheinlichkeitsdichtefunktion durch
mehrere Stützstellen,
deren Position und Anzahl gegebenenfalls adaptiv veränderbar
ist, wird eine deutliche Reduktion des durchzuführenden Rechenaufwands erreicht.
Dennoch hat sich gezeigt, dass eine für Trackinganwendungen ausreichende Präzision erreicht
werden kann.
-
In
Weiterbildung der Erfindung sind in der Verarbeitungseinheit Parallelverarbeitungsmittel
zum parallelen Verarbeiten der Stützstellen der Wahrscheinlichkeitsdichtefunktion
und hiervon abhängender
Daten vor gesehen.
-
Auf
diese Weise kann eine sehr schnelle Verarbeitung auch zahlreicher
Stützstellen
erfolgen. Beispielsweise werden für hundert Stützstellen
hundert identische Hardware-Schaltkreise vorgesehen. Dadurch macht
es die Erfindung möglich,
Tracking-Verfolgungen mit hoher Präzision in Echtzeit zu realisieren.
-
In
Weiterbildung der Erfindung implementiert die Tracking-Einheit einen
sogenannten Particle-Filter, bei dem eine Wahrscheinlichkeitsdichtefunktion anhand
eines Approximationsschrittes auf Basis von Stützstellen, eines Vorhersageschrittes
und eines Messungsschrittes angenähert wird. Im Approximationsschritt
wird die Wahrscheinlichkeitsdichtefunktion abgetastet und so neue
Stützstellen
zur Approximation des Zustand vektors X bestimmt. Im Vorhersageschritt
wird ein neuer Zustandsvektor X eines zu verfolgenden Objekts anhand
alter Messungen und eines alten Zustandsvektors sowie unter Berücksichtigung
eines hinterlegten Bewegungsmodells ermittelt und im Messungsschritt
wird der neue Zustandsvektor X unter Berücksichtigung einer neuen Messung gewichtet.
-
Die
Verwendung eines sogenannten Particle-Filters in der Tracking-Einheit erlaubt eine
schnelle Verarbeitung auch großer
Bilddatenmengen und dennoch wird eine hohe Präzision der Objektverfolgung
erreicht.
-
In
Weiterbildung der Erfindung übergibt
die Tracking-Einheit Trackingdaten von zu verfolgenden Objekten,
insbesondere ein Vorhersagevergleichsobjekt, an die ROI-Auswahleinheit,
um in Abhängigkeit
der Trackingdaten die für
die Verarbeitung interessanten Bildbereiche auszuwählen.
-
Indem
die interessanten Bildbereiche anhand von Trackingdaten ausgewählt werden,
kann mit hoher Wahrscheinlichkeit sichergestellt werden, dass nur
relevante Bildbereiche ausgewertet werden. Beispielsweise kann anhand
der Trackingdaten auf ein Vergleichsobjekt des zu verfolgenden Objektes zurückgerechnet
werden und auf Basis dieses Vergleichsobjektes wird dann entschieden,
welche Bildbereiche aus dem aktuellen Kamerabild ausgewählt werden
sollen. Bei einem zu verfolgenden Objekt, das sich mit konstanter
Geschwindigkeit bewegt, würde
das Vergleichsobjekt somit der Abbildung in der letzten Kameraaufnahme
entsprechen, lediglich seine Position wäre demgegenüber verschoben.
-
In
Weiterbildung der Erfindung wird das Vorhersagevergleichsobjekt
mittels eines hinterlegten parametrischen Modells erzeugt, das adaptiv
anpassbar ist.
-
Bei
komplizierteren zu verfolgenden Objekten können dadurch beispielsweise
Veränderungen des
Objekts berücksichtigt
werden, beispielsweise Drehungen eines menschlichen Kopfes, die
aus ein und derselben Richtung zu völlig anderen Ansichten des
Kopfes führen.
Wesentlich ist dabei, dass die adaptive Anpassung nur dann vorgenommen
wird, wenn man sicher ist, dass man auch das zu verfolgende Objekt
vor sich hat. Beispielsweise darf eine Anpassung des hinterlegten
parametrischen Modells dann nicht erfolgen, wenn über das
gesamte Kamerabild lediglich geringe Wahrscheinlichkeitswerte ermittelt
werden. Würde
nämlich
in diesem Fall der Ort mit der höchsten
Wahrscheinlichkeit zur Aktualisierung des Bewegungsmodells verwendet
werden, obwohl das zu verfolgende Objekt sich gar nicht mehr im
Bildbereich befindet, würde
das Bewegungsmodell so angepasst, dass ein nachfolgendes erneutes Auffinden
des zu verfolgenden Objekts nicht mehr möglich wäre. Bei der adaptiven Anpassung
des Bewegungsmodells muss somit darauf geachtet werden, dass Wahrscheinlichkeitswerte
nicht nur relativ, sondern auch absolut bewertet werden.
-
In
Weiterbildung der Erfindung werden in der Verarbeitungseinheit die
Bilddaten des von der ROI-Auswahleinheit ausgewählten Bildbereichs in ein Farbhistogramm
umgesetzt und die Tracking-Einheit ermittelt die Trackingdaten auf
Basis des Farbhistogramms.
-
Die
Verwendung eines Farbhistogramms hat Vorteile bezüglich der
Robustheit der Verarbeitungsalgorithmen in Bezug auf Drehungen,
teilweise Verdeckung und Verformung. Beispielsweise wird der HSV-Farbraum
(HUE-Saturation-Value) verwendet, der Vorteile gegenüber rot,
grün, blau
bietet. Alternativ kann auch der RGB-Farbraum (rot, grün, blau) oder
der CMY (Cyan-Magenta-Yellow) eingesetzt werden.
-
In
Weiterbildung der Erfindung steuert die ROI-Auswahleinheit die Bildsensoreinheit
in Abhängigkeit
der Trackingdaten so an, dass von der Bildsensoreinheit nur noch
diejenigen Bilddaten zur Verarbeitungseinheit übertragen werden, die den von der
ROI-Auswahleinheit ausgewählten
interessanten Bildbereichen entsprechen.
-
Erfindungsgemäß kann somit
die Bandbreite vom Sensor zur Verarbeitungshardware deutlich reduziert
werden, indem nur die Kombination von Bildbereichen überhaupt
zur Verarbeitung übertragen wird,
die für
den Trackingalgorithmus notwendig ist. Dies geschieht unabhängig von
der physikalischen Auflösung
des Sensors. Diese interessierenden Regionen werden dabei von Frame
zu Frame dynamisch generiert und zum Sensor übertragen. Der Sensor muss
natürlich
einen solchen direkten Zugriff auf Bildbereiche ermöglichen,
dies ist aber bei heutigen CMOS-Sensoren der Fall.
-
In
Weiterbildung der Erfindung sind die Bildsensoreinheit und die Verarbeitungseinheit
in einem gemeinsamen Gehäuse
integriert.
-
Dadurch
wird es möglich,
die Bildsensoreinheit und die Verarbeitungseinheit räumlich nahe
zueinander unterzubringen und darüber hinaus auch gegen Umwelteinflüsse zu schützen. Da
die Anforderungen an eine externe Verbindung der Kameras in Bezug
auf die Bandbreite sehr gering sind, bestehen dadurch nur wenig
Einschränkungen
bei der Positionierung der Kameras. Dies gilt insbesondere dann, wenn
mehrere Kameras mittels eines drahtlosen Netzwerks miteinander in
Kommunikation stehen.
-
In
Weiterbildung der Erfindung weist die Verarbeitungseinheit eine
Netzwerkeinheit auf.
-
Die
erfindungsgemäße Kamera
kann dadurch problemlos in ein Netzwerk, beispielsweise auch ein
kabelloses Netzwerk, eingebunden werden. Dass dies überhaupt
möglich
ist, liegt an der bei der Erfindung sehr geringen Bandbreite, die
für eine Übertragung
der in der Kamera berechneten Ergebnisse nach außen erforderlich ist.
-
In
Weiterbildung der Erfindung sind eine Steuereinheit und Einstellmittel
vorgesehen, um in Abhängigkeit
der Trackingdaten Einstellparameter der Kamera, insbesondere Ausrichtung,
Bildausschnitt und Vergrößerung,
zu verändern.
-
Da
die Kamera die Trackingdaten selbst berechnet, kann eine Steuereinheit
in der Kamera dann auch das Nachführen der Kamera vornehmen.
Ganz wesentlich ist, dass hierzu keine Signalübertragung nach außen erforderlich
ist. Der Ausfall eines Netzwerks, an das die Kamera angeschlossen
ist, ist von außen
somit nicht feststellbar. Selbst wenn also überhaupt keine Verbindung mehr
von der Kamera zu einer zentralen Auswertestation besteht, wird
durch das noch erfolgende Nachführen
der Kamera der Eindruck einer fortlaufenden Überwachung aufrechterhalten.
-
Das
der Erfindung zugrundeliegende Problem wird auch durch ein Verfahren
zum Verarbeiten von Bilddaten in einer Kamera zum Verfolgen von Objekten
gelöst,
bei dem folgende Schritte vorgesehen sind:
- – Übertragen
von Bilddaten von einer Bildsensoreinheit zu einer Verarbeitungseinheit
der Kamera,
- – Erzeugen
von Trackingdaten zu verfolgender Objekte in der Verarbeitungseinheit
unter Verwendung probabilistischer Verfahren und
- – Auswählen von
Bereichen der Bilddaten in Abhängigkeit
der Trackingdaten, so dass nur Bilddaten ausgewählt werden, bei denen eine
erhöhte Wahrscheinlichkeit
dafür besteht,
dass sie Informationen über
zu verfolgende Objekte enthalten.
-
Mit
dem erfindungsgemäßen Verfahren
wird es möglich,
lediglich noch die Ergebnisdaten einer Objektverfolgung von der
Kamera aus nach außen
zu übertragen,
so dass bereits dadurch die nach außen erforderliche Übertragungsbandbreite
wesentlich verringert ist. Darüber
hinaus werden auch nur diejenigen Bilddaten für die Verarbeitung ausgewählt, die mit
erhöhter
Wahrscheinlichkeit Informationen über zu verfolgende Objekte
enthalten, beispielsweise mittels einer Rückkopplung der Trackingdaten
auf eine Auswahleinheit. Dadurch wird die Möglichkeit geschaffen, eine
Objektverfolgung mittels Kameras auch bei hoher örtlicher und zeitlicher Auflösung in Echtzeit
zu realisieren.
-
In
Weiterbildung der Erfindung enthält
der Schritt des Auswählens
von Bereichen der Bilddaten das Ansteuern der Bildsensoreinheit
in einer Weise, dass nur noch Bilddaten von der Bildsensoreinheit zur
Verarbeitungseinheit übertragen
werden, bei denen eine erhöhte
Wahrscheinlichkeit dafür
besteht, dass sie Informationen über
zu verfolgende Objekte enthalten.
-
Dadurch
kann die Menge der von der Bildsensoreinheit zu übertragenden Bilddaten deutlich
verringert werden.
-
In
Weiterbildung der Erfindung enthält
der Schritt des Erzeugens von Trackingdaten das Approximieren einer
Wahrscheinlichkeitsdichtefunktion mittels mehrerer Stützstellen.
-
Auf
diese Weise kann der Rechenaufwand zur Erzeugung der Trackingdaten
wesentlich verringert werden. Darüber hinaus können Schaltkreise
zur Verarbeitung der einzelnen Stützstellen in Hardware oder
Software parallel ausgeführt
werden, so dass auch eine sehr schnelle Erzeugung der Trackingdaten
möglich
ist.
-
In
Weiterbildung der Erfindung enthält
der Schritt des Erzeugens von Trackingdaten das Erzeugen von Bilddaten
eines Vergleichsobjekts anhand einer Wahrscheinlichkeitsdichtefunktion
der zu verfolgenden Objekte und wenigstens einen hinterlegten parametrischen
Modells der zu verfolgenden Objekte.
-
Auf
diese Weise können
die errechneten Trackingergebnisse wieder in Bilddaten umgesetzt
werden und diese Bilddaten eines Vergleichsobjekts können dann
mit dem aktuellen Kamerabild verglichen werden, um die Qualität der Trackingergebnisse
zu bewerten und die gegebenenfalls anzupassen. Darüber hinaus
können
die Bilddaten des Vergleichsobjekts dazu verwendet werden, lediglich
diejenigen Bilddaten mittels der Auswahleinheit auszuwählen, die
im Wesentlichen dem Bildausschnitt des Vergleichsobjektes entsprechen.
-
Das
der Erfindung zugrundeliegende Problem wird auch durch ein Multikamerasystem
mit wenigstens zwei erfindungsgemäßen Kameras gelöst, bei
dem jede Kamera eine Netzwerkeinheit aufweist und die wenigstens
zwei Kameras über
ein Netzwerk, insbesondere Ethernet oder WLAN, miteinander in Verbindung
stehen.
-
Da
die erfindungsgemäßen Kameras
lediglich eine geringe Bandbreite zur Übertragung der Trackingergebnisse
nach außen
benötigen,
können
Multikamerasysteme mit den erfindungsgemäßen Kameras auf Basis von Standardnetzwerkanwendungen realisiert
werden. Dies ist beispielsweise auch mit drahtlosen Netzwerkverbindungen
möglich.
Die Kommunikation über
das Netzwerk kann dabei selbstverständlich bidirektional erfolgen.
Die Kameras können
nicht nur die Ergebnisdaten ausgeben, sondern über das Netzwerk beispielsweise
auch Informationen über
zu verfolgende Objekte oder Ansteuersignale zur Einstellung und
Ausrichtung der Kameraoptik erhalten.
-
In
Weiterbildung der Erfindung ist die Verarbeitungseinheit wenigstens
einer der Kameras zum Verarbeiten von Trackingdaten einer anderen
Kamera ausgelegt.
-
Auf
diese Weise kann ein zu verfolgendes Objekt beispielsweise von einer
Kamera zur nächsten übergeben
werden.
-
In
Weiterbildung der Erfindung ist im Netzwerk eine zentrale Verarbeitungseinheit
zum Auswerten der von den wenigstens zwei Kameras übertragenen
Trackingdaten vorgesehen.
-
Mit
einer zentralen Verarbeitungseinheit können dann weitere, die Trackingdaten
nutzende Auswertungen vorgenommen werden. Beispielsweise können typische
Bewegungsabläufe
zur Objekterkennung oder zum Erkennen von Notfallsituationen genutzt
werden.
-
Weitere
Merkmale und Vorteile der Erfindung ergeben sich aus den Ansprüchen im
Zusammenhang mit der nachfolgenden Beschreibung bevorzugter Ausführungsformen
der Erfindung. im Zusammenhang mit den Zeichnungen. In den Zeichnungen zeigen:
-
1 eine
schematische Darstellung einer erfindungsgemäßen Kamera zur Objektverfolgung,
-
2 eine
schematische Darstellung eines erfindungsgemäßen Multikamerasystems,
-
3 ein
Blockschaltbild einer bevorzugten Ausführungsform der erfindungsgemäßen Kamera,
-
4 eine
schematische Darstellung eines erfindungsgemäßen Multikamerasystems in einer Anwendung
bei der Strandüberwachung
und
-
5 eine
schematische Darstellung einer weiteren Ausführungsform einer erfindungsgemäßen Kamera.
-
Die
Darstellung der 1 zeigt eine erfindungsgemäße Kamera
zur Objektverfolgung 10, die in einem gemeinsamen Gehäuse eine
Bildsensoreinheit 12 und eine Verarbeitungseinheit 14 aufweist. Die
Bildsensoreinheit 12 ist beispielsweise als CMOS-Sensor
ausgebildet und liefert Bilddaten an die Verarbeitungseinheit 14.
In der Verarbeitungseinheit 14 werden Trackingdaten erzeugt,
die ein zu verfolgendes Objekt wenigstens in Bezug auf Position und
Geschwindigkeit und beispielsweise auch bezüglich Form, Farbe und dergleichen
charakterisieren. Die Verarbeitungseinheit 14 weist hierzu
eine sogenannte Tracking-Einheit auf, in der die Trackingdaten erzeugt
werden. Weiterhin weist die Verarbeitungseinheit 14 eine
Region of Interest (ROI)-Auswahleinheit auf, mit der die Bildsensoreinheit 12 so angesteuert
werden kann, dass lediglich die Bildbereiche zur Verarbeitungseinheit 14 übertragen
werden, die für
die Objektverfolgung von Interesse sind. Dies sind beispielsweise
sich dynamisch ändernde Bildbereiche,
wobei die ROI-Auswahleinheit die Bildbereiche auch unter Berücksichtigung
der Trackingdaten auswählt.
Von der Bildsensoreinheit 12 zur Verarbeitungseinheit 14 werden
somit nur diejenigen Bildbereiche übertragen, bei denen eine große Wahrscheinlichkeit
dafür besteht,
dass sie Informationen über
das zu verfolgende Objekt liefern können.
-
Die
Kombination eines ROI-Auswahlverfahrens und der Erzeugung der Trackingdaten
innerhalb der Kamera 10 selbst ermöglicht es, dass die Ergebnisausgabe
der Kamera 10, symbolisiert durch einen Doppelpfeil 16,
lediglich eine sehr geringe Bandbreite benötigt und dass diese Er gebnisübertragung über ein
Standardnetzwerk erfolgen kann. Darüber hinaus kann die Erzeugung
der Trackingdaten innerhalb der Kamera 10 so schnell erfolgen,
dass Echtzeitanwendungen realisierbar sind. Der Aufbau der Kamera 10 wird
nachstehend noch detaillierter erläutert.
-
2 zeigt
ein Multikamerasystem mit mehreren erfindungsgemäßen Kameras 10a, 10b, 10c. Jeder
der Kameras 10a, 10b und 10c ist identisch
zur Kamera 10 der 1 aufgebaut.
Die Kameras 10a, 10b, 10c stehen über ein
Netzwerk 18 miteinander in Verbindung. Ein Datenaustausch
mit dem Netzwerk 18 kann dabei bidirektional erfolgen,
so dass Trackingdaten eines zu verfolgenden Objekts beispielsweise
von der Kamera 10a an die Kamera 10b übergeben
werden können,
wenn das zu verfolgende Objekt den Erfassungsbereich der Kamera 10a verlässt. In
gleicher Weise können
die Trackingdaten von der Kamera 10a auch an die Kamera 10c übergeben werden
und abhängig
davon, in welchen Erfassungsbereich ein zu verfolgendes Objekt wechselt,
kann dann die jeweils das zu verfolgende Objekt erkennende Kamera
weiter Trackingergebnisse ausgeben.
-
In
dem Blockschaltbild der 3 ist der Aufbau der Kamera 10 der 1 detaillierter
dargestellt. Die Bildsensoreinheit 12 erzeugt Bilddaten
und liefert diese an die Verarbeitungseinheit 14, wobei
die Verarbeitungseinheit 14 in 3 lediglich
mittels eines gestrichelten Umrisses angedeutet ist. Die Bilddaten von
der Bildsensoreinheit 12 werden zunächst an eine ROI-Auswahleinheit 20 übergeben,
die die Bilddaten aber zunächst
lediglich durchschleift oder in einem Cache so zwischenspeichert,
dass die doppelte oder mehrfache Übertragung von einander überlappenden
Bildbereichen vermieden wird. Die Aufgabe der ROI-Auswahleinheit 20 liegt
darin, die Bildsensoreinheit 12 so anzusteuern, dass lediglich
die für
die weitere Verarbeitung interessanten Bildbereiche weitergeleitet
werden. Wie die ROI-Einheit 20 diese interessierenden Bildbereiche
ermittelt, wird nachfolgend noch erläutert. Wenn die ROI-Einheit 20 keine Zwischenspeicherfunktion
erfüllt,
kann die Bildsensoreinheit 12 die Bilddaten auch unter
Umgehung der ROI-Einheit 20 weitergeben.
-
Bei
der Bezugsziffer 22 stehen somit Bilddaten von Bildbereichen
zur Verfügung,
bei denen eine große
Wahrscheinlichkeit dafür
besteht, dass sie Informationen über
die zu verfolgenden Objekte enthalten.
-
Diese
Bilddaten werden an einen Filter 24 übergeben, der optional vorhanden
ist und der dann bei 26 die gefilterten Daten bereitstellt.
Der Filter 24 kann beispielsweise die Bilddaten aus 22 in
ein Farbhistogramm im HSV-Farbraum (HUE-Saturation Value) umsetzen.
Alternativ kann der Filter 24 auch ein Farbhistogramm im
RGB-Farbraum (rot grün
blau) umsetzen. Die Umsetzung in Farbhistogramme hat den Vorteil,
dass die Robustheit der nachfolgenden Auswerteverfahren deutlich
erhöht
wird, beispielsweise gegenüber
Drehungen und/oder Formänderungen
eines zu verfolgenden Objektes.
-
Die
gefilterten Bilddaten 26 werden dann einer Vergleichseinheit 28 zugeführt, in
der eine Vergleichsmessung durchgeführt wird und die dem zu verfolgenden
Objekt entsprechenden Bilddaten 26 mit in gleicher Weise
aufbereiteten Daten eines Vergleichsobjekts verglichen werden. Die
dadurch erhaltenen Gewichte aller Stützstellen müssen dann noch normiert werden.
Die Vergleichseinheit 28 gibt dann eine approximierte Wahrscheinlichkeitsdichtefunktion 30 aus,
die gleichzeitig die zentrale Ausgabe der Kamera 10 darstellt.
Die mittels mehrerer Stützstellen
effizient approximierte Wahrscheinlichkeitsdichtefunktion 30 stellt
das Ergebnis der Tracking-Einheit dar und erfordert lediglich eine
geringe Bandbreite zur Übertragung über ein
Netzwerk. Die approximierte Wahrscheinlichkeitsdichtefunktion 30 kann
dann über
eine Netzwerk-E/A-Einheit 32 ausgegeben
werden und weiteren Einheiten zugeführt werden, die auf Basis dieses
Ergebnisses weitere Verarbeitungsschritte vornehmen.
-
Beispielsweise
wird in einer Einheit 34 ein Maximum-Likelihood-Zustand, d.h. der
Zustand, indem die Wahrscheinlichkeitsdichtefunktion maximal ist,
berechnet. Bei der vorliegenden Approximation durch Stützstellen
bedeutet dies, dass die Stützstelle mit
dem höchsten
Gewicht herangezogen wird. Weiterhin kann in der Einheit 34 ein
Erwartungswert berechnet werden. Die Einheit 34 kann das
Ergebnis ihrer Auswertung ebenfalls über die Netzwerk-E/A-Einheit 32 auf
ein Netzwerk ausgeben. Eine Steuerungseinheit 36 verwendet
die Wahrscheinlichkeitsdichtefunktion 30 für Steuerungsanwendungen.
Hierzu erzeugt die Steuerungseinheit 36 Steuersignale für eine sogenannte
Pan-Tilt-Einheit,
auf der die Kamera 10 montiert ist. Mittels dieser Pan-Tilt-Einheit kann die
Kamera 10 einem zu verfolgenden Objekt nachgeführt werden.
Alternativ können
die Steuersignale der Steuereinheit 36 auch an eine Robotersteuerung oder
CNC-Maschinensteuerung ausgegeben werden.
-
Weitere
Einheiten 38, die die Wahrscheinlichkeitsdichtefunktion 30 für weiterführende Verarbeitungen
verwenden, erzeugen beispielsweise Kommandos zur Weiterreichung
von Personen/Objekten in einen Multikamerasystem, wenn eine Person
das Sichtfeld von einer Kamera zur nächsten durchläuft. Diesbezüglich ist
zu bemerken, dass die Initialisierung eines Zielobjekts grundsätzlich durch Präsentieren
vor der Kamera und Eintrainieren geschieht. Es ist aber auch möglich, und
für Überwachungsanwendungen
sinnvoll, die Initialisierung des Zielobjekts durch Triggern auf
das erste Objekt zu bewirken, das sich bewegt. Als Bewegung wird
dabei interpretiert, wenn eine Differenz zum vorherigen Kamerabild
oder zu mehreren vorhergehenden Kamerabildern größer als ein vordefinierter
Schwellwert ist. Die Einheiten 34, 36 und 38 können ihre
jeweiligen Ergebnisse über
die Netzwerk-E/A-Einheit auf ein Netzwerk oder, falls kein Netzwerk
vorhanden ist, auf eine Signalleitung ausgeben.
-
Die
Wahrscheinlichkeitsdichtefunktion 30 wird auch einer sogenannten
Update-Einheit 40 zugeführt,
in der ein Zeitindex der gerade berechneten Wahrscheinlichkeitsdichtefunktion
um eins verringert wird, um die gerade berechnete Wahrscheinlichkeitsdichtefunktion
nicht mehr als aktuellen Wert, sondern als jüngsten alten Wert einzustufen.
Die Update-Einheit 40 ist
damit die erste Station einer Rückkopplungsschleife
innerhalb der Tracking-Einheit 21.
-
In
dieser Rückkopplungsschleife
wird zum einen eine Vorhersage getroffen, wie die Wahrscheinlichkeitsdichtefunktion
voraussichtlich beim nächsten
Zeitschritt aussieht und basierend auf dieser Vorhersage wird noch
ein Vergleichsobjekt erzeugt, das dann, wie bereits beschrieben,
in der Vergleichseinheit 28 mit dem aktuell erfassten Objekt verglichen
wird. Darüber
hinaus wird in dieser Rückkopplungsschleife
auch eine Gewichtung der einzelnen Stützstellen vorgenommen und basierend
auf dieser Gewichtung wird entschieden, ob eine Neuverteilung der
Stützstellen
für den
nächsten
Durchlauf der Schleife erforderlich ist.
-
Bei 42 liegt
somit eine Wahrscheinlichkeitsdichtefunktion vor, die sich zunächst von
der Wahrscheinlichkeitsdichtefunktion 30 nur durch ihren
um eins verringerten Zeitindex unterscheidet. Bei 42 kann
aber auch die bereits beschriebene Abtastung der approximierten
Wahrscheinlichkeitsdichtefunktion anhand der Gewichtung der einzelnen
Stützstellen
vorgenommen werden.
-
Diese
Wahrscheinlichkeitsdichtefunktion aus 42 wird zur Vorhersage
mit einem Bewegungsmodell 44 verknüpft, das bei der dargestellten
Ausführungsform
ebenfalls in Form einer Wahrscheinlichkeitsdichtefunktion vorliegt.
Im einfachsten Fall, d.h. bei Bewegung mit konstanter Geschwindigkeit
in eine Richtung würde
die Verknüpfung
der Wahrscheinlichkeitsdichtefunktion aus 42 mit dem Bewegungsmodell
aus 44 ledig lich eine Koordinatenverschiebung verursachen.
Die Verknüpfung
des Bewegungsmodells aus 44 mit der Wahrscheinlichkeitsdichtefunktion
aus 42 findet in einer Vorhersageeinheit 46 statt. Innerhalb
der Vorhersageeinheit 46 wird eine Faltung des Bewegungsmodells
mit der Wahrscheinlichkeitsdichtefunktion vorgenommen, wie in der
unterhalb der Einheit 46 zu findenden Gleichung ausgeführt ist.
-
Im
Approximationsschritt zwischen 42 und 46 wird
anhand der Gewichtung der Stützstellen
eine neue Stützstellenverteilung
erzeugt, wobei Stützstellen
mit hohem Gewicht bei der letzten Iteration eine der Gewichtung
entsprechende Anzahl Nachfolger bekommen, die aber zunächst alle
noch an derselben Position angeordnet sind. In der Vorhersage bei 46 wird
die Position der neuen Stützstellen
gestreut, nach Anwenden des Bewegungsmodells. Per neuer Stützstelle
ist das Bewegungsmodel nur einmal anzuwenden, erst dann wird die
Position gestreut. Stützstellen
mit niedriger Gewichtung erhalten keinen Nachfolger.
-
Als
Ergebnis der Vorhersage in der Einheit 46 wird bei 48 eine
neue Wahrscheinlichkeitsdichtefunktion ausgegeben, die entsprechend
eine vorhergesagte Position basierend auf dem bisher vorhandenen
Wissen repräsentiert.
-
Um
nun einen Vergleich dieser Vorhersage bei 48 mit den von
der Bildsensoreinheit 12 erfassten Bilddaten durchführen zu
können,
wird die Vorhersage der Wahrscheinlichkeitsdichtefunktion aus 48 in einer
Rendereinheit 50 mit einem parametrischen Modell aus 52 verknüpft. Der
Renderschritt in der Rendereinheit 50 erzeugt die Bilddaten
eines Vergleichsobjekts. Im einfachsten Fall eines sich linear mit
konstanter Geschwindigkeit bewegten Objektes würden die Bilddaten des Vergleichsobjekts
somit der um eine gewisse Strecke verschobenen Objekt entsprechen.
-
Das
parametrische Modell aus 52 kann dabei abhängig von äußeren Umständen adaptiert
werden. Dies ist beispielsweise dann von Bedeutung, wenn Objekte
mit komplizierter Geometrie verfolgt werden sollen, deren Form sich
eventuell sogar ändert
oder deren Projektion in Abhängigkeit
einer Drehstellung sich verändert.
Bei der Adaption des parametrischen Modells in 52 ist aber
darauf zu achten, dass eine Adaption lediglich dann vorgenommen
wird, wenn mit großer
Wahrscheinlichkeit feststeht, dass es auch das zu verfolgende Objekt
ist, welches nun sein Aussehen geändert hat. Beispielsweise darf
nicht bei jedem Schritt die Umgebung einer Stützstelle der Wahrscheinlichkeitsdichtefunktion
mit der relativ gesehen höchsten
Gewichtung zur Adaption herangezogen werden. Wenn sich nämlich das
zu verfolgende Objekt gar nicht mehr im betrachteten Bildausschnitt
befindet, würde
eine dann durchgeführte
Adaption dazu führen,
dass das parametrische Modell in einer Weise geändert wird, dass ein Wiedererkennen des
zu verfolgenden Objekts nicht möglich
ist. Abhilfe kann aber beispielsweise dadurch geschaffen werden,
dass die Umgebung einer Stützstelle
mit der relativ höchsten
Gewichtung zusätzlich
auf ihre absolute Gewichtung geprüft wird und oberhalb einer
definierten Gewichtung, wenn also mit großer Sicherheit davon ausgegangen
werden kann, dass es sich um das zu verfolgende Objekt handelt,
wird die Umgebung dieser Stützstelle
zur Adaption herangezogen.
-
Als
Modell kann eine Bildregion (ROI) des Zielobjektes dienen. Alternativ
kann als Modell 52 auch eine sogenannte AAM-Umsetzung (Active
Appearance Model) erfolgen, wobei dieses nicht starre und optional
texturierte Modell, insbesondere bei Formänderungen, von Vorteil ist.
Auch ein dreidimensionales AAM ist möglich. Wie bereits ausgeführt wurde,
kann der Filter 24 auch vollständig entfallen. Ebenso ist
möglich,
als Modell ein Konturbasiertes Verfahren zu verwenden, wo durch
den Zustand die Form der Kontur festgelegt wird, etwa mit Splines.
-
Als
Ergebnis des Renderschritts in 50 stehen bei 54 somit
Bilddaten eines Vergleichsobjekts zur Verfügung. Diese Bilddaten des Vergleichsobjekts bei 54 sollen
nun mit den bei 22 vorliegenden, aktuell aufgenommenen
Bilddaten verglichen werden. Um eine Vergleichbarkeit der Bilddaten
des Vergleichsobjekts mit den aktuell aufgenommenen Bilddaten zu gewährleisten,
werden diese Bilddaten aus 54 der gleichen Filterung unterzogen
wie die Bilddaten aus 22, so dass entsprechend eine zur
Filtereinheit 24 identische Filtereinheit 56 vorgesehen
ist und bei 58 dann die gefilterten Bilddaten des Vergleichsobjekts vorliegen.
Wie bereits beschrieben wurde, wird dann in der Vergleichseinheit 28 ein
Vergleich der Bilddaten des von der Bildsensoreinheit 12 aktuell
aufgenommenen zu verfolgenden Objekts und die Bilddaten des Vergleichsobjekts
auch aus 58 miteinander verglichen. Entsprechend der unterhalb
der Vergleichseinheit 28 dargestellten Gleichung entspricht die
Vergleichsmessung einer Gewichtung des neuen Zustandes Xt gemäß der neuen
Messung zt. Wie bereits ausgeführt wurde,
ergibt sich als Ergebnis der Vergleichsmessung in der Vergleichseinheit 28 die Wahrscheinlichkeitsdichtefunktion 30.
-
Im
speziellen Fall, wenn mit Farbhistogrammen gearbeitet wird, reicht
es aus, die bereits gefilterte Repräsentation als Modell zu speichern,
da hier das Ergebnis der Filterung immer gleich und nicht vom Zustand
Xt abhängig
ist. So kann direkt an 58 das Modell eingesetzt werden. Somit braucht
es nicht für
jede Stützstelle
in jeder Iteration über
die Schritte 52-50-54-56-58 berechnet
werden. Die Schritte 52-50-54 dienen
so nur noch der ROI-Bestimmung. Auf diese Weise kann der relativ
teure Filterschritt 56 so eingespart werden. Eine Adaption
des Modells in 58 ist dadurch möglich, dass die gefilterte
Repräsentation
der aktuellen Bilddaten der Stützstelle
mit dem höchsten
Gewicht in 26 gemischt werden mit der gefilterten Repräsentation
des Modells in 58.
-
Darüber hinaus
werden die Bilddaten des Vergleichsobjekts bei 54 auch
der ROI-Auswahleinheit 20 zugeführt. Die ROI-Einheit 20 steuert
dann die Bildsensoreinheit 12 so an, dass lediglich diejenigen Bildregionen
(Region of Interest) angefordert werden, die den Bildregionen der
Bilddaten des Vergleichsobjekts aus 54 entsprechen. Dadurch
wird die Datenmenge, die von der Bildsensoreinheit 12 ausgegeben
werden muss, wesentlich reduziert. Darüber hinaus implementiert die
ROI-Auswahleinheit 20 ein
Zwischenspeicherverfahren, um einen Überlapp von interessierenden
Bildbereichen (ROIs) derselben Iteration einzusparen, so dass auch überlappende Bereiche
verschiedener interessierender Bildbereiche lediglich einmal übertragen
werden müssen.
-
In
der ROI-Einheit 20 wird somit ausgehend von dem Vergleichsobjekt,
das durch den Zustand Xt induziert ist,
die Bildregion (ROI) bestimmt, die tatsächlich nur benötigt wird,
um diesen Zustand, also diese Hypothese, die sich in dem Vergleichsobjekt manifestiert,
zu bewerten. Dies wird technisch für jede Stützstelle oder sample Xt (i) durchgeführt.
-
Anhand
der Darstellung der 3 ist zu erkennen, dass die
erfindungsgemäße Kamera
und das implementierte Verfahren in hohem Maße für eine Parallelverarbeitung
geeignet ist. So müssen
lediglich zur Bestimmung der Wahrscheinlichkeitsdichtefunktion 30,
bzw. zur Bestimmung der Approximation der Wahrscheinlichkeitsdichtefunktion
durch mehrere Stützstellen,
alle Stützstellen
zusammengeführt
und normiert werden. Die übrigen
erläuterten Berechnungsschritte
können
für jede
Stützstelle
getrennt durchgeführt
werden und sind beispielsweise auch in paralleler Hardware realisierbar.
Die erfindungsgemäße Kamera
und das erfindungsgemäße Verfahren
sind dadurch für
Echtzeitanwendungen in besonderem Maß geeignet.
-
Die
Erfindung kann auch für
Kameras mit mehr als einem Sensorelement angewendet werden. Beispielsweise
ist eine Stereokamera mög lich
oder auch die Kombination aus einem gewöhnlichen Bildsensor und einem
Wärmebildsensor.
Eine solche Kombination ist vor allem für Überwachungsanwendungen von
Interesse. Eine Fusion der Ergebnisse von den beiden unterschiedlichen
Sensoren würde dann
beispielsweise in 3 in der Einheit 38 durchgeführt.
-
Die
Darstellung der 4 zeigt ein erfindungsgemäßes Multikamerasystem
in schematischer Darstellung in einem möglichen Anwendungsszenario.
Heutzutage werden Badeabschnitte am Meer oder an einem See von Rettungsschwimmern überwacht,
um verletzte oder erschöpfte
Personen vor dem Ertrinken zu retten. Durch ein Multikamerasystem
mit Kameras 60a, 60b, 60c, 60d und 60e wird ein
Badeabschnitt überwacht.
Die Kameras 60a, 60b, 60c, 60d und 60e sind
mittels eines nicht dargestellten drahtlosen Netzwerks miteinander
verbunden. Die Kameras sind an einem Pier 62 sowie an Rettungstürmen 64, 66 montiert.
Mittels eines geeigneten Überwachungsalgorithmus,
beispielsweise realisiert in der Einheit 38 der 3,
soll überwacht werden,
ob eine kritische Situation vorliegt, ob etwa ein Schwimmer 68 in
Schwierigkeiten ist. Dies kann etwa dadurch geschehen, dass Bewegungsabläufe erfasst
und abgeprüft
werden sowie durch bilanzartige Überprüfung der
Gesamtanzahl der Personen im Wasser. Bei Veränderungen der Gesamtanzahl
der Personen im Wasser, die zeitlich länger anhalten, kann dann beispielsweise
ein Alarm ausgelöst
werden. Rettungsschwimmer und Rettungsfahrzeuge sollen dabei ebenfalls
mit drahtlosen, netzwerkfähigen
Geräten
ausgestattet sein, beispielsweise PDAs (personal digital assistant)
oder Laptops mit Netzwerkanschluss. Ganz wesentlich für diese
Anwendung der Erfindung ist es dabei, dass die erfindungsgemäßen Kameras
lediglich die Ergebnisdaten ausgeben und daher an ebenfalls im Netzwerk
befindliche Anzeigegeräte,
nur geringe Anforderung bezüglich
der Rechenkapazität
stellen. Daher ist es mit dem erfindungsgemäßen Multikamerasystem möglich, die
Ergebnisse aller Kameras 60a, 60b, 60c, 60d und 60e auf
einem externen Gerät
mit geringer Rechen leistung anzuzeigen, beispielsweise einem sogenannten PDA. Über dasselbe
Netzwerk kann dann selbstverständlich
auch eine Kommunikation zwischen den Rettungsschwimmern stattfinden.
Neben Rettungsschwimmern könnte
beispielsweise auch ein Surfer 70, dessen Surfbrett eine
netzwerkfähige
Anzeigeeinheit hat, über
die Gefahrensituation informiert werden. Über das Netzwerk können die
Kameras 60a, 60b, 60c, 60d und 60e selbstverständlich auch
neu ausgerichtet, programmiert, konfiguriert und parametriert werden.
Darüber
hinaus können
die Kameras 60a, 60b, 60c, 60d und 60e auch
mit einem nichtlokalen Netzwerk, beispielsweise dem Internet, verbunden
sein.
-
Eine
weitere mögliche
Anwendung der erfindungsgemäßen Kameras
liegt in einer sogenannten Indoor-Navigation mit einem Mobiltelefon.
Die Kamera ist dabei Bestandteil eines modernen Mobiltelefons. Optional
weist das Mobiltelefon weitere Sensoren, wie Inertial-, Trägheits-,
und Lagesensoren auf. Das Mobiltelefon weist darüber hinaus eine Recheneinheit
auf, in der ein Lokalisierungsalgorithmus realisiert ist. Betritt
man beispielsweise einen Flughafen, so wird eine dreidimensionale
Karte des Flughafens zusammen mit zusätzlichen symbolischen Aspekten, beispielsweise
Terminalbezeichnungen, Restaurants und dergleichen, auf das Mobiltelefon übertragen. Der
Zustand des Gesamtsystems Xt bezeichnet
in dieser Ausführung
die Position innerhalb des Gebäudes.
Beim Herumlaufen mit dem entsprechend ausgerüsteten Mobiltelefon werden
fortlaufend Bildsequenzen aufgenommen. Das probabilistische Trackingverfahren
erlaubt dann, dass sich durch diese Messungen letztlich eine aktuelle
Position herauskristallisiert, die dann, beispielsweise auf der
3D-Karte, ausgegeben werden kann.
-
In
der schematischen Darstellung der 5 ist eine
weitere Ausführungsform
einer erfindungsgemäßen Kamera 70 dargestellt.
Die Kamera 70 ist an und für sich identisch zu den bereits
beschriebenen Ausführungsformen
aufgebaut, im Erfassungsbereich einer Bildsensoreinheit 72 ist
aber ein Panoramaspiegel 74 angeordnet. Dieser Panoramaspiegel 74 ist
im Abstand von der Bildsensoreinheit 72 angeordnet und
ermöglicht
eine omnidirektionale Sicht für das
Tracking, das heißt
es kann in alle Richtungen gleichzeitig verfolgt werden. Die erfassten
Bildregionen sind entsprechend zu verzerren („warping") unter Verwendung bekannter Kalibrierungstechniken.
-
Weitere
Aspekte und Merkmale der Erfindung ergeben sich aus der folgenden
wissenschaftlichen Abhandlung, die darüber hinaus auch realisierte
Beispiele beschreibt.