DE102007000449A1

DE102007000449A1 - Vorrichtung und Verfahren zur automatischen Zaehlung von Objekten auf beweglichem oder bewegtem Untergrund

Info

Publication number: DE102007000449A1
Application number: DE102007000449A
Authority: DE
Inventors: Ivo Dr. Keller
Original assignee: VIS A PIX GmbH; Vis-A-Pix GmbH
Current assignee: VIS A PIX GmbH; Vis-A-Pix GmbH
Priority date: 2006-08-17
Filing date: 2007-08-17
Publication date: 2008-03-27

Abstract

Um ein System sowie ein Verfahren zur automatischen Zählung von Objekten auf beweglichem oder bewegtem Untergrund auf der Grundlage mindestens einer von mindestens einem Sensor zur Erfassung von elektromagnetischer Strahlung und zur Erfassung von Bildsequenzen erzeugten Bildsequenz so weiterzubilden, dass das System sowie das Verfahren universell einsetzbar sind, so dass eine Anpassung auf unterschiedliche Anwendungsbereiche ohne viel Aufwand möglich ist, wird vorgeschlagen, dass ein statistisches Modell der dynamischen Komponente der Szenerie im Erfassungsbereich des Sensors und/oder ein statistisches Modell der Abbildungen von mindestens einer zu detektierenden Objektart in der Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.

Description

Stand der Technik
Technisches Gebiet
Die vorliegende Erfindung betrifft im Allgemeinen Bildverarbeitungssysteme und im Spezielleren Systeme, die für die Gewinnung und für die Verarbeitung von Informationen über das Vorhandensein und gegebenenfalls über die Art von Objekten in einem überwachten Bereich eingesetzt werden, wobei mindestens ein Teil des überwachten Bereichs über eine dynamische Komponente verfügt.
Die vorliegende Erfindung betrifft speziell ein System zur automatischen Zählung von Objekten auf beweglichem oder bewegten Untergrund, aufweisend mindestens einen Sensor zur Erfassung von elektromagnetischer Strahlung und zur Erzeugung von Bildsequenzen, mindestens eine Speichereinheit und mindestens eine Analyseeinheit.
Die vorliegende Erfindung betrifft des Weiteren ein Verfahren zur automatischen Zählung von Objekten auf beweglichem oder bewegten Untergrund auf der Grundlage mindestens einer von mindestens einem Sensor zur Erfassung von elektromagnetischer Strahlung und zur Erfassung von Bildsequenzen erzeugten Bildsequenz.
Stand der Technik
Für viele Anwendungsbereiche ist nicht nur die Anzahl von Menschen, sondern auch die Anzahl von Tieren und Gegenständen von Bedeutung. Bei Fahrzeugen unterschiedlichster Art wie bei Bussen, Fähren, Zügen darf das maximale Ladegewicht nicht überschritten werden. Das manuelle Zählen von Fahrgästen, Hunden, Fahrrädern und Gepäckstücken, die zum Bespiel auf eine Fähre aufgeladen werden, ist sehr mühselig und arbeitskraftintensiv, so dass hier eine automatisierte Lösung gesucht wird.
Der Einsatz von konventionellen videobasierten Zählsystemen ist nur dann sinnvoll, wenn die installierten Kameras ausschließlich das Fahrzeuginnere aufnehmen. Wird die Außensicht mitbeobachtet, um zum Beispiel die Anzahl der noch nicht eingestiegenen Fahrgäste zu ermitteln, erhält das System bei der Bewegung des Fahrzeugs Bilder, deren Hintergrund sich ändert.
Ähnliche Situationen entstehen, wenn zumindest Teile des eingesehenen Bereichs mechanisch bewegt werden: Bei einer Fähre oder einem Bus kann zum Beispiel die Aufladerampe ausgefahren und wieder eingefahren werden. Es kann auch eine bewegliche Brücke beobachtet werden usw.
Eine Überwachung der Beförderung von Gütern auf Förderbändern, Fließbändern, Warentransportbändern und ähnlichen Fördermitteln ist ein weiteres wichtiges Anwendungsgebiet der Erfindung. Ein anderes Beispiel der Systemausführung ist das Zählen von Objekten wie Autos oder anderen abzählbaren Güterstücken, die sich auf einer Zugplattform bzw. in einem offenen Waggon befinden. Zum Beispiel für den Fall, dass der Zug unter einer Brücke fährt und dass eine Videokamera auf der Brücke befestigt ist.
Es sind bereits mehrere kommerzielle Systeme erhältlich, die sich mit dem Zählen von Personen beschäftigen, darunter auch videobasierte Systeme. Diese werden unter Anderem in den Druckschriften WO 94/27408 A1 , WO 01/52545 A1 , US 5 973 732 oder US 2006/0067456 A1 aus dem Stand der Technik beschrieben.
Der Vorteil dieser Systeme im Vergleich zu konventionellen Zählgeräten, die zum Beispiel die am Geländer oder unter dem Bodenbelag angebrachten Sensoren nutzen, ist die Möglichkeit der Bestimmung der Bewegungsrichtung von Personen. In den genannten Druckschriften aus dem Stand der Technik werden allerdings keine Mittel zur Analyse von Menschenströmen auf beweglichen Untergründen wie auf Fahrtreppen beschrieben.
In vielen videobasierten Zählsystemen, wie zum Beispiel gemäß der Druckschrift WO 2004/053791 A2 oder gemäß der Druckschrift FR 2 739 208 A1 aus dem Stand der Technik, wird im Rahmen der Bildanalyse das aktuelle Bild mit einem Referenzbild, dem so genannten Hintergrundbild, verglichen, so dass die Unterscheidung zwischen den Objekten und der Szenerie des überwachten Bereichs aus der Differenzbildung zwischen den zwei Bildern geschieht.
Diese Vorgehensweise kann aber für einen beweglichen Untergrund wie für eine Fahrtreppe oder einen Fahrsteig nicht übernommen werden. Aus diesem Grunde wird es in vielen Anwendungen versucht, das Problem eines beweglichen Untergrunds zu umgehen.
So beschreibt die Druckschrift JP 2000 053 361 A1 aus dem Stand der Technik ein videobasiertes Gerät zur Fahrgastbeobachtung für Fahrtreppen. Der Überwachungsbereich hier ist aber nicht die dynamische Fahrtreppe selbst, sondern der statische Eingangsbereich. Somit kann die Ermittlung der sich der Fahrtreppe nähernden Personen wie oben beschrieben aus dem Vergleich des aktuellen Bilds mit einem Hintergrundbild geschehen.
Mit der Ermittlung von Zählinformation auf Fahrtreppen selbst beschäftigen sich die Druckschriften EP 1 013 599 A1 sowie JP 10 236 757 A aus dem Stand der Technik.
Die Druckschrift EP 1 013 599 A1 beschreibt eine Sicherheitseinrichtung in der Form einer Überwachungseinrichtung für eine Installation an einer Fahrtreppe oder einem Fahrsteig zwecks Erkennung von Personen und/oder Gegenständen im Überwachungsbereich.
Das System weist im Wesentlichen Sensoren und eine Auswerteeinrichtung auf, wobei die Überwachungseinrichtung als ein von der zu überwachenden Fahrtreppe oder dem zu überwachenden Fahrsteig distanziertes und mechanisch unabhängiges Bildsensorsystem aufgebaut ist. Das System setzt den Einsatz von mehreren Sensoren voraus, so dass sich die Installations- und Wartungskosten im Vergleich zu Ein-Sensor-Systemen erhöhen, gleichzeitig erhöhen sich auch die Anforderungen an das die Bildsequenzen verarbeitende Analyseeinheit, da die Rechenlast bei mehreren Videoströmen größer wird.
Die Druckschrift EP 1 013 599 A1 beschreibt nur allgemeine Prinzipien der Überwachung und bietet keine effektiven Lösungsvorschläge zur Verarbeitung von beweglichem Untergrund an. Dem vorgeschlagenen Bildanalyseprogramm liegt das Prinzip des einfachen Vergleichs von digitalen Bilddaten eines einzigen Musterbilds mit jenen des aktuellen Bilds zugrunde. Dabei wird nicht klar, wie der sich ständig ändernde Hintergrund bei der Bildanalyse berücksichtigt wird.
Die japanische Patentanmeldung JP 10 236 757 A offenbart ein System zu einer entfernten Überwachung von Fahrtreppen. Das System ist so ausgebildet, dass mehrere Kameras verwendet werden und die Verarbeitung der Bildsequenzen der Kameras getrennt geschieht; jeder Bildsequenz wird ein einzelner Verarbeitungssensor zugeordnet.
Diese Vorgehensweise bringt zum ersten den Nachteil einer Kostenerhöhung für die Anschaffung von zusätzlichen Hardwareeinheiten, zum zweiten würde eine gemeinsame Verarbeitung der Sequenzen die Möglichkeit bieten, die durch Schatten, Beleuchtungsänderungen, Verunreinigungen und dergleichen verursachten Fehler zu minimieren.
Eine Erhöhung der Störungsrobustheit durch die Verwendung von stereoskopischen Kameras bieten Systeme, die in den Druckschriften EP 1 013 599 A1 , EP 1 419 988 A1 oder JP 10 334 207 A aus dem Stand der Technik beschrieben werden.
Der Hauptnachteil dieser Systeme sind die hohen Kosten für die Anschaffung, Installation und Wartung von stereoskopischen Systemen im Vergleich zu Ein-Kamera-Systemen. Die Notwendigkeit der Verarbeitung von zwei Bildsequenzen für jeden überwachten Bereich erhöht die Anforderungen an die Verarbeitungshardware.
Aufgabe der Erfindung
Ausgehend von den vorstehend dargelegten Nachteilen und Unzulänglichkeiten sowie unter Würdigung des umrissenen Stands der Technik liegt der vorliegenden Erfindung die Aufgabe zugrunde, ein bildbasiertes robustes kostensparendes System zur automatischen Zählung von Objekten bei Überwachungsbereichen mit mindestens einer beweglicher Komponente, wie mit beweglichem Untergrund, sowie ein entsprechendes Verfahren bereit zu stellen, wobei das System sowie das Verfahren universell einsetzbar sein sollen, so dass eine Anpassung auf unterschiedliche Anwendungsbereiche ohne viel Aufwand möglich ist.
Darstellung der vorliegenden Erfindung: Lösung, Vorteile
Diese Aufgabe wird durch ein System mit den im Anspruch 1 angegebenen Merkmalen sowie durch ein Verfahren mit den im Anspruch 28 angegebenen Merkmalen gelöst. Vorteilhafte Ausgestaltungen und zweckmäßige Weiterbildungen der vorliegenden Erfindung sind in den jeweiligen Unteransprüchen gekennzeichnet.
Das System gemäß der vorliegenden Erfindung weist mindestens einen Sensor zur Erfassung von elektromagnetischer Strahlung und zur Erzeugung von Bildsequenzen, mindestens eine Analyseeinheit sowie mindestens eine Speichereinheit auf. Die Einheiten sind so ausgebildet, dass ein statistisches Modell der dynamischen Komponente der Szenerie im Erfassungsbereich des Sensors und/oder ein statistisches Modell der Abbildungen von mindestens einer zu detektierenden Objektart in der Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
Das statistische Modell kann sich sowohl auf die lokalen Pixeleigenschaften beziehen als auch die Eigenschaften von Pixelgruppen beschreiben. Diese Eigenschaften können zum Beispiel die Farb-, die Kanten-, die Textur-, und die Helligkeitsverteilungen sowie dreidimensionale, geometrische und Bewegungsinformationen sein.
Das statistische Modell der Szenerie im Erfassungsbereich des Sensors kann ortsgebunden oder eigenschaftsgebunden aufgebaut sein und aus einem oder mehreren Bildern der aktuellen Bildsequenz gewonnen werden. Bei der ortsgebundenen Vorgehensweise ist eine Bildsegmentierung notwendig. Bei der eigenschaftsgebundenen Vorgehensweise können die Merkmalsvektoren aus einigen Trainingssequenzen extrahiert werden, die der aktuellen Sequenz ähnlich sind.
Wenn eine Bildsegmentierung notwendig ist, kann diese in der Initialisierungsphase des Verfahrens durchgeführt werden. Diese Bildsegmentierung kann nach einer geometrischen Vorschrift ablaufen, wobei jedes Segment ein oder mehrere Pixel enthält. Die Pixel werden gegebenenfalls blockweise oder auch in Kacheln beliebiger Form überlappend oder nichtüberlappend gruppiert. Die den Bildsegmenten entsprechenden Merkmalsvektoren werden extrahiert und dem statistischen Modell zugeordnet.
Die so ermittelten Informationen über die Eigenschaften von Pixeln und/oder Pixelgruppen können direkt bei der Bildanalyse zwecks Unterscheidung zwischen den Hintergrundbereichen und den Vordergrundbereichen verwendet werden oder auch einer automatischen Klassenbildung dienen, zum Beispiel mit Selbstorganisierenden Karten, was der eigenschaftsgebundenen Vorgehensweise entspricht. Die Bildbereiche können auch manuell zu unterschiedlichen Klassen zugeordnet werden.
Für die theoretischen Grundlagen der Klassifizierung mit Selbstorganisierenden Karten wird hier das Buch von Günter Bachelier "Einführung in Selbstorganisierende Karten" empfohlen, das im Tectum-Verlag Marburg im Jahre 1998 erschienen ist.
Bei der Bildung von Merkmalssätzen für die statistischen Modelle kann sowohl bei der ortsgebundenen als auch bei der eigenschaftsgebundenen Vorgehensweise ein Merkmalssatz aus einem oder mehreren Merkmalsvektoren für die Charakterisierung einzelner Eigenschaften bestehen. Insbesondere bei der Charakterisierung von größeren Bildbereichen ist es sinnvoll, mehrere Merkmalsvektoren für die Beschreibung von einzelnen Eigenschaften zu generieren.
Die Auswahl von Merkmalsvektoren kann zum Beispiel mit Hilfe sogenannter Support Vectors Machines (SVM) durchgeführt werden. Das Training von Support Vectors Machines kann über eine manuelle Zuordnung von Bildregionen zu den Klassen, die die entsprechenden Hintergrundbereiche und Objektarten charakterisieren, gestaltet werden, sowie durch eine nachfolgende Extraktion von geeigneten (die Klassen unterscheidenden) Merkmalsvektoren.
Für eine theoretische Einführung in die Klassifikationsmethoden mit Support Vectors Machines wird es hier auf das Buch "The Elements of Statistical Learning. Data Mining, Inference, and Prediction" von den Autoren Trevor Hastie, Robert Tibshirani, Jerome Friedman, auf die Seiten 371 bis 406 verwiesen. Das Buch ist in erster Auflage in "Springer Series in Statistics" im Springer-Verlag im Jahre 2001 in Kanada erschienen.
Da das Lernen und die Klassifizierung mit Support Vectors Machines einen hohen Bedarf an Trainingsdaten sowie einen hohen zeitlichen Aufwand erfordert, kann auch eine einfachere Vorgehensweise gewählt werden. So kann man zum Beispiel bei der ortsgebundenen Vorgehensweise eine maximale Anzahl von charakteristischen Merkmalsvektoren für jedes statistische Modell festlegen.
Ein für den Kameraaufbau typisches Video einige Sekunden aufnehmen, die Bilder analysieren und die Merkmalsvektoren extrahieren lassen. Über einen Vergleich der für ein Segment extrahierten Merkmalsvektoren zwischen einander und über das Berechnen von Ähnlichkeitswerten können die Merkmalsvektoren in unterschiedliche Unterklassen eingeteilt werden.
In jeder Klasse kann ein Mittelwert über die zugehörigen Merkmalsvektoren gebildet werden und als Mustermerkmalsvektor im statistischen Modell festgehalten werden.
Zusätzlich kann für jede Klasse die Auftrittswahrscheinlichkeit berechnet werden, so dass diese Informationen auch im statistischen Modell gespeichert und bei einem Vergleich mit den aus dem aktuellen Bild extrahierten Merkmalsvektoren verwendet werden.
Die Klassifizierungsentscheidung wird für den Fall, wenn nur das statische Modell des Hintergrunds vorhanden ist, bei der Überschreitung eines Ähnlichkeitsschwellenwerts getroffen. Der Schwellenwert wird manuell gesetzt oder mit den Methoden der Neuronalen Netze vom System gelernt.
Die als Vordergrund klassifizierten Pixelregionen werden mit Hilfe von weiteren Objekterkennungstechniken wie der Farbsegmentierung, dem Konturenvergleich, dem Tracking und den aus dem Tracking ermittelten Bewegungsinformationen unter Berücksichtigung von Kalibrierungsinformationen analysiert.
Die so gewonnenen Hypothesen über die Art, das Vorhandensein und gegebenenfalls die Anzahl von Objekten können direkt oder nach einer Verifizierung durch die Verarbeitung von weiteren Bildern der Bildsequenz als Zählinformationen ausgegeben werden.
Wenn die zu detektierenden Objektarten analog zum Hintergrund statistisch modelliert werden, kann die Klassifizierungsentscheidung über den Vergleich mit den entsprechenden Modellen getroffen werden. So können zum Beispiel einzelne Pixel und/oder Pixelgruppen nicht nur den Klassen "Hintergrund" und "Vordergrund", sondern auch den Klassen "Hintergrund" und "Mensch", "Fahrrad", "Auto" usw. zugeordnet werden.
Die Unterscheidungsergebnisse werden bei der Weiterverarbeitung der Daten mit Hilfe von Kalibrierungsinformationen für das Bestimmen des Vorhandenseins und gegebenenfalls der Anzahl zu detektierender Menschen oder Objekte verwendet.
Im Weiteren werden einige Ausführungsbeispiele näher beschrieben, die unabhängig voneinander oder in Kombination miteinander realisiert werden können:
Bei einem optionalen Lösungsvorschlag kann sich das Hintergrundmodell auf die texturellen Eigenschaften von Regionen im Erfassungsbereich des Sensors beziehen.
Die texturellen Eigenschaften von Oberflächen sind eine wichtige und zuverlässige Informationsquelle für die Probleme der Muster- und der Objekterkennung, insbesondere bei Nahaufnahmen von Objekten. Die Situation mit einer einzigen Kamera, die einen Teil der Fahrtreppe oder eines Fahrsteigs von oben beobachtet und etwa in der Höhe von etwa drei Meter angebracht ist, ist prädestiniert für solche Texturvergleiche.
Die Texturen einer Fahrtreppe oder eines Fahrsteigs mit ihren regelmäßigen Strukturen wie Kanten und Rillen unterscheiden sich deutlich von den Texturen, die die Abbildungen eines Menschen, eines Fahrrads, eines Tiers oder eines Gepäckstücks in der Bildsequenz charakterisieren. Ähnlich ausgeprägte Texturmuster können die Warentransportbänder und die industriellen Förderbänder haben.
Die Textureigenschaften der Wasseroberfläche sind charakteristisch und lassen eine robuste Unterscheidung zwischen dem Wasser und den sich auf der Wasseroberfläche befindlichen Objekten bei Nahaufnahmen zu.
Die Beschreibung von Texturen kann zum Beispiel über die Texturhistogramme und die Fouriercharakteristika gestaltet werden. Für die theoretischen Grundlagen der Bildanalyse mit den texturbasierten Techniken wird hier auf die Seiten 455 bis 467 des Buchs "Digitale Bildverarbeitung" von Bernd Jähne verwiesen, das in sechster überarbeitender und erweiterter Auflage im Jahre 2005 im Springer-Verlag Berlin Heidelberg erschienen ist.
Eine Einführung in die Bildanalyse mit der Extraktion von Fouriercharakteristika und anderen Bildtransformationen gibt das Lehrbuch "Bildverarbeitung in der Praxis" von Rainer Steinbrecher, erschienen in erster Auflage im Jahre 1993 im Oldenbourg Verlag, Wien, ISBN 3-486-22372-0 und in zweiter Auflage als elektronische Version unter http://www.rst-software.de/dbv/DBV-Buch1.pdf verfügbar (vgl. Seiten 81 bis 111 der elektronischer Ausgabe).
Wenn nur das statistische texturbasierte Modell des Hintergrunds aufgestellt worden war und die texturellen Eigenschaften der zu detektierenden Objekte gar nicht betrachtet wurden, findet im ersten Schritt eine Zuordnung von Pixeln des aktuellen Bilds zum Vordergrund oder Hintergrund statt. Dies geschieht nach einem Vergleich der extrahierten Merkmalsvektoren mit Mustermerkmalsvektoren des statistischen Modells und unter Berücksichtigung der Auftrittswahrscheinlichkeiten.
Die als Vordergrund klassifizierten Pixel stellen somit die Abbildungen von Objekten dar, die nicht fest zur Szenerie gehören. Aus diesen Pixelregionen werden im zweiten Schritt wie oben beschrieben mit Hilfe von weiterführenden Objekterkennungstechniken Hypothesen über die Art, das Vorhandensein und gegebenenfalls die Anzahl von Objekten extrahiert.
Wenn nicht nur die Hintergrundbereiche, sondern auch die zu detektierenden Objektarten texturbasiert untersucht wurden, können Hypothesen über die Art der zu detektierenden Objekte bereits im ersten Schritt aufgestellt werden. So können die Wahrscheinlichkeitsbilder für jede zu detektierende Objektart generiert werden, so dass im zweiten Schritt mit Hilfe von Kalibrierungsinformationen die aufgestellten Hypothesen verifiziert werden.
Bei einem alternativen oder ergänzenden optionalen Lösungsvorschlag kann ein Bewegungsmodell für den beweglichen Untergrund und für die statischen Hintergrundbereiche im Erfassungsbereich des Sensors aufgestellt und bei der Bildanalyse verwendet werden.
Dieses Bewegungsmodell kann zum Beispiel Informationen darüber beinhalten, wie der mittlere Bewegungsvektor im beweglichen Teil des Untergrunds aussieht, welche Teilbereiche statisch sind, wie groß die Beschleunigungen in der Anfangsphase und in der Endphase der Bewegung sind usw.
Da die Abbildungen der Szenerie und somit der Bewegungsvektoren in der Bildsequenz perspektivisch verzerrt sind, ist es für eine Erhöhung der Genauigkeit der Berechnungen zu empfehlen, das Bild nach einer geometrischen Vorschrift zu segmentieren und die beschriebenen Bewegungsinformationen für die einzelnen Segmente zu schätzen.
Die Berechnung von Bewegungsinformationen auf Fahrtreppen und Fahrsteigen wird insofern im Vergleich zu einer nicht kontrollierten Umgebung leichter, dass die Bewegungsgeschwindigkeit und die Bewegungsrichtung einer Fahrtreppe oder eines Fahrsteigs standardisiert und bekannt sind bzw. vom System gelernt werden können.
Diese Daten können für eine Vorhersage der Bewegungsvektoren verwendet werden und gegebenenfalls aufwändige Berechnungen für eine Suche in anderen Bewegungsrichtungen ersparen.
Für eine Fahrtreppe kann sogar vereinfacht angenommen werden, dass diese sich immer gleichmäßig und mit einer konstanten Geschwindigkeit in eine bestimmte Richtung bewegt. So werden die Verwirblungen der Bewegungsvektoren und gegebenenfalls der Texturen, die durch das Ankommen und sich Fortbewegen mit der Fahrtreppe von Personen und den mitgeführten Objekten verursacht werden, als solche erkannt.
Die Bewegungsanalyse kann über eine Schätzung der Korrespondenzen zwischen den Bildern einer Bildsequenz realisiert werden. Für eine Einführung in die theoretischen Grundlagen der Korrespondenzanalyse sei hier auf die Seiten 133 bis 169 des Buchs "Stereoanalyse und Bildsynthese" von Herr Oliver Schreer verwiesen; das Buch ist in erster Auflage im Springer-Verlag in Berlin im Jahre 2005 erschienen.
Die so ermittelten Daten werden mit dem Bewegungsmodell des Hintergrunds verglichen, so dass es zwischen den Pixel und Pixelgruppen, die sich dem Modell annährend ähnlich verhalten, und allen anderen unterschieden werden kann.
Bei einem Kameraaufbau von oben zum Beispiel, der für die Überwachungskameras typisch ist, kann zur Menschenerkennung die Tatsache ausgenutzt werden, dass sich der Kopf einer Person in Mittel etwa 1,65 Meter höher im Vergleich zu der zugehörigen Stufe der Fahrtreppe befindet.
Die Bewegungsvektoren des Kopfs und der Stufe sind dann zwar in der Realität annähernd gleich, bei einer Abbildung der Bewegung in die Bildsequenz führt die perspektivische Verzerrung aber dazu, dass der Bewegungsvektor des Kopfs kleiner als der Bewegungsvektor der Stufe ist.
Wenn eine Person nicht an der Stufe stehen bleibt, sondern sich auf der Fahrtreppe bewegt, sind die mittleren Bewegungsgeschwindigkeiten für gewöhnlich viel höher als die der Fahrtreppe, so dass es auch durch die perspektivische Projektion nicht ausgeglichen werden kann und Auffälligkeiten im Grauwertfluss detektiert werden.
Die Entscheidung, ob die Abweichung von dem Bewegungsmodell des Hintergrunds groß genug war, um die Pixel nicht zum Hintergrund zählen zu können, wird gemäß einem oder mehreren Schwellentwerten getroffen. Die so ermittelten Bereiche mit einer Objektbewegung können in Verbindung mit Kalibrierungsinformationen direkt für die Ermittlung von Zählinformationen verwendet werden.
Bei einem weiteren alternativen oder ergänzenden optionalen Lösungsvorschlag können bei der Bildanalyse dreidimensionale Informationen extrahiert werden, vorzugsweise mit den Techniken der Formgewinnung aus der Bewegung.
Wenn eine zumindest grobe Schätzung von dreidimensionalen Informationen möglich ist, können diese Informationen dazu verwendet werden, zu erkennen, wie groß und von welcher Gestalt die eine Veränderung im Erfassungsbereich des Sensors verursachten Objekte sind und wo sie in den Weltkoordinaten befinden. So kann zum Beispiel zwischen den Verunreinigungen und einem vergessenen Koffer an dem Förderband der Fahrtreppe unterschieden werden.
Der Schwierigkeitsgrad der Berechnung hängt bei diesen Techniken stark mit der Art der Bewegung im Erfassungsbereich des Sensors zusammen. Bei Fahrtreppen kann aber vereinfacht sowohl eine gleichmäßige Bewegung der Fahrtreppe mit einer annährend konstanten Geschwindigkeit als auch eine davon möglicherweise abweichende, aber durch eine maximale Geschwindigkeit eingeschränkte Bewegung von Personen und von mitgeführten Objekten angenommen werden, so dass eine relativ robuste Tiefenschätzung möglich ist.
Insbesondere ist dieser Ansatz für die Situationen geeignet, bei denen anzunehmen ist, dass die relative Bewegung eines Objekts zum beweglichen Untergrund immer bekannt ist, wie es zum Beispiel bei Förderbändern, Fließbändern und Warentransportbändern der Fall ist.
Aus den Bewegungsdaten werden in diesem Falle mit Hilfe von Kalibrierungsdaten durch eine einfache Triangulation Informationen darüber gewonnen, wie weit die den Bildpixeln entsprechende Weltpunkte von der Kameraebene entfernt sind.
Somit können Tiefenkarten generiert werden, die nach einer Verarbeitung Hypothesen über die Anzahl, die Größe und teilweise die Gestalt von Objekten im Erfassungsbereich des Sensors liefern. Über einen Vergleich mit entsprechenden Objektmodellen können diese Hypothesen verifiziert werden.
Für eine theoretische Einführung in die Techniken der Formgewinnung aus der Bewegung wird hier auf das "Tutorial an 3D Modeling from Images" von Marc Pollefeys verwiesen. Die Vorlesungsunterlagen sind für die Katholieke Universiteit in Dublin, Ireland, erarbeitet worden und seit dem 26. Juni 2000 unter http://cmp.felk.cvut.cz/cmp/courses/dzo/resources/ttorial-pollefeys-eccv/tutorialECCV.html im Internet verfügbar.
Bei einem weiteren alternativen oder ergänzenden optionalen Lösungsvorschlag können bei der Bildanalyse die geometrischen Eigenschaften, wie die dominierenden Kantenrichtungen in dynamischen Bereichen des Hintergrunds sowie deren Stärke im Bild, ermittelt werden, so dass diese Informationen in Verbindung mit Farb- und Helligkeitsverteilungen das statistische Modell des Hintergrunds bilden.
Bei der Analyse eines aktuellen Bilds werden im ersten Schritt durch eine konventionelle Differenzbildung Unterschiede in der Helligkeit und der Farbe von Pixeln ermittelt, so dass ein Differenzbild entsteht. Im zweiten Schritt werden aus dem Differenzbild alle Bereiche gelöscht, die der Ausrichtung und der Stärke der dominierenden Kanten entsprechen. Die so gewonnenen Informationen über die Bildbereiche, die nicht dem Hintergrund entsprechen, werden mit den Methoden der Objekterkennung wie oben beschrieben ausgewertet.
Alternativ oder in Verbindung zu Kantenbeschreibung können Formbeschreibungen verwendet werden. Somit können die statistischen Modelle der einzelnen Objektarten aus Kantenhistogrammen und Form-(Kontur-)mustern zusammengesetzt werden.
Die Modelle beschreiben somit sowohl die lokalen auf ein spezielles Kameraaufbau und eine spezielle Bildsequenz bezogenen als auch die globalen für eine Mehrzahl von unterschiedlichen Kameraaufbauten und Bildsequenzen gültigen Eigenschaften der Abbildungen einzelner Objektarten.
Für die theoretischen Grundlagen der Bildanalyse mit den kantenbasierten Techniken wird hier auf die Seiten 345 bis 372 des Buchs "Digitale Bildverarbeitung" von Bernd Jähne, in sechster überarbeitender und erweiterter Auflage im Jahre 2005 im Springer-Verlag Berlin Heidelberg erschienen, verwiesen. Die formbasierten Techniken werden im genannten Lehrbuch auf den Seiten 543 bis 562 beschrieben.
Wenn sich die Farb- und/oder Helligkeitsverteilungen eines beweglichen Untergrunds stark von den Farb- und Helligkeitsverteilungen der zu detektierenden Objekte unterscheiden, ist auch ein reiner farb- und/oder helligkeitsbasierter Ansatz für die Unterscheidung zwischen dem Vordergrund und dem Hintergrund möglich. Dies ist zum Beispiel bei farblich ausgeprägten Booten im Vergleich zum Wasser oder bei nicht-grauen Gütern auf einem grauen Förderband der Fall.
Bei den oben beschriebenen Lösungsvorschlägen wird als Sensor zur Erfassung von elektromagnetischer Strahlung und zur Erzeugung von Bildsequenzen vorzugsweise eine Videokamera eingesetzt. Es kann sich aber auch um andere Sensorenarten handelt, wie zum Beispiel um eine Infrarot- oder eine Thermografiekamera.
Die so erzeugten Bildsequenzen liefern Informationen über die Temperaturvergleiche im Erfassungsbereich des Sensors, so dass die statistischen Modelle entsprechend angepasst werden.
So können zum Beispiel die statistischen Temperaturmodelle von Menschen, Tieren, Gegenständen aus unterschiedlichen Materialien wie Gepäckstücken und Stufen einer Fahrtreppe bei verschiedenen Außentemperaturen aufgestellt und bei der Bildanalyse verwendet werden.
Um die Robustheit des Systems zu erhöhen, können statistische Modelle unterschiedlicher Art parallel aufgestellt und verwendet werden. Die allgemeine Vorgehensweise ändert sich dahingehend, dass die Entscheidungsfunktionen eine gegebenenfalls gewichtete Kombination von Wahrscheinlichkeitswerten verarbeitet, die aus dem Vergleich der aus dem aktuellen Bild extrahierten Merkmalsvektoren mit den statistischen Modellen gewonnen wurden.
Eine weitere Möglichkeit für die Erhöhung der Systemrobustheit besteht darin, mehrere Kameras mit sich nicht überlappenden oder teilweise überlappenden Überwachungsbereichen zu verwenden. Die Bilddaten selbst und/oder die vorläufigen Analyseergebnisse werden mit Hilfe von Kalibrierungsdaten in ein gemeinsames Koordinatensystem abgebildet.
Wenn sich die Erfassungsbereiche zumindest teilweise überlappen, können aus den Daten mit stereobasierten Methoden zumindest für die gemeinsamen Bereiche Tiefeninformationen gewonnen und zur Objekterkennung wie oben beschrieben verwendet werden.
Auch bei einer Nichtüberlappung der Bereiche können die Bilddaten gemeinsam verarbeitet werden, was insbesondere für Tracking-Anwendungen sinnvoll ist. Ein Objekt kann nur in bestimmten Bildbereichen (Türen, Fenster, Eingänge) "entstehen" und "verschwinden" und existiert zwangsläufig zwischen den einzelnen Bildaufnahmen einer Bildsequenz und in den nicht von Kameras einsehbaren Regionen zwischen den Überwachungsbereichen.
Aus diesem Grunde ist eine Verifizierung von Zähl- und/oder Tracking-Informationen unter Berücksichtigung von diesen Einschränkungen möglich. Wenn die Analyse einzelner Bildsequenzen getrennt abläuft und nur die Analyseergebnisse in das gemeinsame Koordinatensystem abgebildet werden, werden diese durch diese Abbildung verifiziert.
Die wie beschrieben gewonnenen Zähl- und Tracking-Informationen können vielfältig verwendet werden: Zum Beispiel zu einer Überprüfung der Funktionalitäten und zur Steuerung der Fahrbänder/-Treppen/-Steige selbst und/oder der Steuerung von Beleuchtung, Lüftung in der Umgebung dieser Fördermittel und dergleichen.
Das System kann aber bei einer Anpassung der Speichereinheit und der Analyseeinheit dazu verwendet werden, allgemeine Aufgaben der Sicherheitsüberwachung auszuführen. So kann auf vergessene Gegenstände und liegende Personen sowie ungewöhnliche Bewegungen von Personen auf einer Fahrtreppe oder einer Fahrsteig verwiesen werden, eine Rauchentstehung detektiert werden und so weiter.
Die vorgeschlagene Erfindung wird so ausgeführt, dass ein statistisches Modell der dynamischen Komponente der Szenerie im Erfassungsbereich des Sensors aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
Als wichtige Anwendungsgebiete sind zum Beispiel die Systeme zum Zählen von Menschen auf Fahrtreppen und Fahrsteigen, von Gegenständen auf Förderbändern, von Menschen und/oder Gegenständen auf der Wasseroberfläche und dergleichen zu nennen.
Eine Fahrtreppe, die umgangssprachlich auch oft als Rolltreppe bezeichnet wird, ist ein Personenbeförderungsmittel, bei dem sich bewegende Metallsegmente Treppenstufen bilden. Ein Fahrsteig ist ein Personenbeförderungsmittel ähnlich einer Fahrtreppe, bei dem allerdings die Metallsegmente keine Treppenstufen, sondern ein glattes Band bilden.
Unter Objekten werden hier Menschen, Tiere und Gegenstände beliebiger Natur verstanden. Die durch ein statistisches Modell modellierte Abbildung der Szenerie im Erfassungsbereich des Sensors für den Fall, dass keine zu detektierenden Objekte im Bild sichtbar sind, wird als Hintergrund bezeichnet. Die Abbildung der nicht zum Hintergrund gehörenden Objekte in die Bildsequenz wird im Weiteren Vordergrund genannt.
Unter Kalibrierung wird eine Schätzung der Kameraparameter verstanden. Die Kameraparameter können die Position und die Ausrichtung der Kamera sowie die internen Eigenschaften des Sensors wie die Brennweite, den Brennpunkt und die Skalierungsfaktoren beschreiben.
Die allgemeine Vorgehensweise bei einer Kamerakalibrierung wird im Buch "Stereoanalyse und Bildsynthese" von Herrn Oliver Schreer auf den Seiten 55 bis 62 hinreichend beschrieben. Das Buch ist in der ersten Auflage im Springer-Verlag in Berlin im Jahre 2005 erschienen.
Die Analyse von Bildinformationen zwecks Zählens von Personen und gegebenenfalls einer nachfolgenden Beurteilung deren Verhaltens ist eine wichtige Anwendung der Bildverarbeitung und gewinnt immer mehr an Bedeutung. Das Zählen von Personen, die öffentlich zugängliche Bereiche wie Einkaufszentren, Flughäfen, Bahnhöfe und dergleichen betreten oder verlassen, bietet signifikante Informationen für die Verwaltung dieser Bereiche und für die Steuerung von Menschenströmen.
Besonders wertvolle und robuste Informationen über die Menschenströme können beim Ermitteln der Zählinformationen auf Fahrtreppen und Fahrsteigen unterschiedlicher Art gewonnen werden: Die Bewegungsrichtung der Personen auf der Fahrtreppe oder einem Fahrsteig ist durch die Bewegung des Untergrunds festgelegt.
Menschen kehren auf Fahrtreppen oder Fahrsteigen in der Regel nicht um, so dass die Messergebnissen dadurch nicht verfälscht werden. Ein weiterer Vorteil besteht darin, dass die Messergebnisse direkt an einer Fördereinrichtung zu einer Steuerung dieser sowie zu einer Steuerung der Beleuchtung und der Lüftung in der Umgebung der Fördereinrichtung verwendet werden können.
Wichtige Anwendungsgebiete der Erfindung eröffnen sich auch für das Zählen von Personen in beweglichen Kabinen, die von außen zumindest teilweise einsehbar sind. Dies ist zum Beispiel bei Seilbahnen sowie bei einigen Arten von Personenaufzügen der Fall.
Der Einsatz von konventionellen videobasierten Zählsystemen ist nur dann sinnvoll, wenn die installierten Kameras ausschließlich das Fahrzeuginnere aufnehmen. Wird die Außensicht mitbeobachtet, um zum Beispiel die Anzahl der noch nicht eingestiegenen Fahrgäste zu ermitteln, beobachtet das System bei jedem Anhalten des Fahrzeugs, wie etwa des Busses, der Eisenbahn, des Omnibusses, der Schwebebahn, der Straßenbahn, der Tram oder des Zugs, ein anderes Stück des Bürgersteigs oder der Fahrbahn.
Diese können zwar ähnliche Eigenschaften aufweisen, wie die Textur- oder die Farbverteilung, weisen aber auch Unterschiede auf. Somit hat die Szenerie im Erfassungsbereich des Sensors eine dynamische Komponente. Die konventionelle Bildung eines Hintergrundbilds dadurch, dass mehrere Bilder über eine Zeitspanne gemittelt werden, ist nicht möglich; die eingesehene Fläche (Bürgersteig oder Fahrbahn) ist für gewöhnlich mit wartenden Menschen besetzt.
Bei der vorliegenden Erfindung wird ein statistisches Modell dieser dynamischen Komponente mit einer der beschriebenen Methoden aufgestellt und bei der Bildanalyse verwendet.
Die bildbasierte Zählung der in ein Fahrzeug einsteigenden und/oder aus einem Fahrzeug aussteigenden Personen kann durch ein sinnvolles Anbringen der Kamera stark vereinfacht werden. Kameras im Innenbereich eines Fahrzeugs können grundsätzlich nur so hoch angebracht werden, wie es die Deckenhöhe des Fahrzeugs erlaubt.
Die Bildanalyse bei einer relativ niedrig über den Eingang angebrachten Kamera wird somit durch die gegenseitigen Verdeckungen von Personen im Bild, durch den relativ kleinen Erfassungsbereich sowie durch die starken Linsenverzerrungen erschwert.
Zusätzlich kommt das Problem der Spiegelungen an der Glasscheibe hinzu. So wird ein Anbringen der Kamera oder der Kameras im Außenbereich des Fahrzeugs vorgeschlagen. Insbesondere bei den zweistöckigen Fahrzeugen ist der Höhenunterschied zwischen der Anbringhöhe in dem Innenraum und der Anbringhöhe in dem Außenraum für die Erhöhung der Qualität der Bildanalyse ausschlaggebend. Gleichzeitig kann die Kamerakalibrierung dadurch vereinfacht werden, dass sich alle Fahrgäste auf einer Ebene befinden.
Zusätzliche Vorteile bringt das Anbringen der Kameras im Außenbereich des Fahrzeugs, wie etwa des Busses, der Eisenbahn, des Omnibusses, der Schwebebahn, der Straßenbahn, der Tram oder des Zugs, insoweit, als so die Möglichkeit geschaffen wird, den Erfassungsbereich der Kamera zu vergrößern und weitere Aufgaben wie zum Beispiel Sicherheitsaufgaben an das Bildanalysesystem zumindest teilweise zu übergeben.
Das System kann außer der reinen Zählung der Personen in Einstiegs- und Ausstiegsbereichen gleichzeitig auch zum Beispiel ermitteln, ob es dem Ausstiegsbereich Objekte mit einer großen (über einen Schwellenwert liegenden) Geschwindigkeit nähern.
So kann zum Beispiel die Annäherung eines Fahrrads, eines Autos, einer Straßenbahn dem Ausstiegsbereich ermittelt und die Fahrgäste über die Gefahr informiert werden. Es sind auch Fälle denkbar (Ein- und Aussteigen direkt an der Fahrbahn), bei denen es sinnvoll ist, beim Ermitteln einer potentiell gefährlichen Situation die Türsteuerung bis zum Entfernen der Objekte aus dem überwachten Bereich zu blockieren oder nur nach einer Freigabe durch den Fahrer freizugeben.
Bei der ersten Ausführungsart der Erfindung wird die Kamera beziehungsweise werden die Kameras mit einer Halterung fest an der Außenfläche des Fahrzeugs angebracht, und zwar über den Eingängen und/oder den Ausgängen. Die Kameras werden so aufgehängt, dass sie vor Wettereinflüssen geschützt sind.
Die Anbringhöhe und die genaue Ausrichtung der Kameras werden über die feste Halterung festgelegt, wobei man diese Daten für einen Fahrzeugtyp und eine Halterungsart einmalig bestimmen und im Bildanalysesystem als Kalibrierungsparameter fest integrieren kann.
Die Anbringhöhe und die Halterungslänge werden durch die gesetzlichen Bestimmungen sowie durch die sicherheitstechnischen Vorschriften eingeschränkt; andere Verkehrsteilnehmer dürfen nicht behindert werden.
Um die Fehlerrobustheit des Systems zu erhöhen, ist es sinnvoll, die Bildanalyse zu Zählzwecken nur bei einem stehenden Fahrzeug durchzuführen und bei einem fahrenden Fahrzeug anzuhalten.
Das Starten der Bildanalyse zwecks Zählens kann durch die Türsteuerung angesteuert werden.
Alternativ oder ergänzend kann das Starten der Bildanalyse zwecks Zählens programmtechnisch durch das Analyseprogramm selbst angesteuert werden. Dies kann zum Beispiel so realisiert werden, dass man beim Ankommen eines neuen Bilds das aktuelle Bild mit dem Vorgängerbild vergleicht und die mittlere Helligkeitsänderung und/oder Texturänderung über das Bild ermittelt. Bei einem fahrenden Fahrzeug ändert sich die Situation im Erfassungsbereich der Kamera zwischen den zwei Aufnahmezeitpunkten (einige Millisekunden) stärker, als bei einem haltenden oder stehenden Fahrzeug.
So können Schwellenwerte der Heilligkeitsänderung und/oder der Texturänderung für die systemtechnische Erkennung der Haltesituation aus Erfahrungsdaten ermittelt werden. Beim Unterschreiten des Schwellenwerts entscheidet das System auf das "Fahrzeug hat angehalten" und beginnt mit der Bildanalyse zum Zwecke des Personenzählens.
Parallel wird die mittlere Helligkeitsveränderung zwischen den Bildern weiterhin ermittelt. Bei Überschreiten eines Schwellenwerts entscheidet das System auf "Fahrzeug fährt" und unterbricht die Bildanalyse zu Zählzwecken bis zur nächsten Haltesituation.
Alternativ kann das Halten des Fahrzeugs zum Beispiel dadurch erkannt werden, dass man die Eigenbewegung der Kamera und des Fahrzeugs aus der Schätzung des optischen Flusses zwischen den nacheinander kommenden Bildern ermittelt und beim Unterschreiten einer Mindestgeschwindigkeit den Haltvorgang detektiert.
Bei einer sehr einfachen und robusten Ausführung des Systems wird zumindest eine Kamera so angebracht, dass zumindest eine Fahrzeugtür zumindest teilweise in den Erfassungsbereich der Kamera fällt. Die diese bestimmte Fahrzeugtür charakterisierenden Eigenschaften wie Farb-, Helligkeits-, Kantenverteilungen können ermittelt und zusammen mit der Beschreibung der Lage der Tür im Erfassungsbereich der Kamera in Bildkoordinaten in der Speichereinheit gespeichert werden.
Das aktuell aufgenommene Bild wird systematisch daraufhin untersucht, ob sich der die Tür enthaltene Bereich verändert hat. Das Öffnen der Fahrzeugtür und somit das Anhalten des Fahrzeugs werden aus der Bildveränderung an der entsprechenden Stelle im Bild detektiert. Der Zählvorgang wird nach dem Erkennen des Anhaltens des Fahrzeugs gestartet. Das Verfahren kann dadurch vereinfacht werden, dass Türen durch spezielle Farben oder optische Muster markiert werden.
Diese Daten brauchen dann für einen Fahrzeugtyp und ein Verkehrsunternehmen nur einmal bestimmt werden und zusammen mit den Kalibrierungsdaten in der Speichereinheit gespeichert werden.
Die Notwendigkeit, dem System für jede Kamera manuell "vorzusagen", wo sich der Türbereich im Bild befindet, entfällt somit. Die Bildanalyseeinheit sucht selbst nach den Bereichen im Bild, die den gespeicherten Muster und Farben entsprechen. Die genauen Bildkoordinaten müssen weder bekannt noch gegeben sein.
Bei der zweiten Ausführungsart der Erfindung wird die Kamera beziehungsweise werden die Kameras mit einer mechanisch beweglichen Halterung so angebracht, dass die Kameras aus- und eingefahren werden können.
So kann eine Beeinträchtigung der Aerodynamik des Fahrzeugs vermieden werden und an die Robustheit der Kameras und des Aufbaus insgesamt gegenüber mechanischen Einflüssen brauchen nicht so hohe Anforderungen gestellt werden, wie es bei fest angebrachten Kameras der Fall wäre.
Das Aus- und Einfahren der Kamera beziehungsweise der Kameras und das Starten der Bildanalyse können durch die Vorrichtung der Türsteuerung gesteuert werden.
Kurze Beschreibung der Zeichnungen
Wie bereits vorstehend erörtert, gibt es verschiedene Möglichkeiten, die Lehre der vorliegenden Erfindung in vorteilhafter Weise auszugestalten und weiterzubilden. Hierzu wird einerseits auf die dem Anspruch 1 sowie dem Anspruch 28 jeweils nachgeordneten Ansprüche verwiesen, andererseits werden weitere Ausgestaltungen, Merkmale und Vorteile der vorliegenden Erfindung nachstehend anhand des durch 1 veranschaulichten Ausführungsbeispiels näher erläutert.
Es zeigt:
1 in schematischer Darstellung ein erstes Ausführungsbeispiel des erfindungsgemäßen Systems, das nach dem erfindungsgemäßen Verfahren arbeitet.
Bester Weg zur Ausführung der vorliegenden Erfindung
Das beschriebene System kann wie in 1 abgebildet ausgeführt werden, wobei als 2 die Segmentierungseinheit, als 3 die Einheit zur Extraktion von Merkmalsvektoren, als 4 die Vergleichseinheit, als 5 die Einheit zur Speicherung des statistischen Modells, als 6 die Zähleinheit und als 7 die Einheit zur Speicherung von Kalibrierungsinformationen bezeichnet werden.
Beim entsprechenden Verfahren werden die Daten 1, die die rohen Bilddaten oder die mit anderen Methoden grob in Vordergrund und Hintergrund eingeteilten Bilddaten sein können, in der Segmentierungseinheit 2 nach einer geometrischen Vorschrift oder eigenschaftsgebunden in einzelne Segmente eingeteilt. Diese Segmente können einen bis mehrere Tausend Pixel aufweisen.
Im nächsten Schritt des Verfahrens werden in der Einheit 3 die Merkmalsvektoren für die einzelnen Segmente extrahiert. Diese werden im nächsten Schritt in der Einheit 4 mit den in der Einheit 5 gespeicherten Mustermerkmalsvektoren des statistischen Modells des Hintergrunds bzw. auch noch den Mustermerkmalsvektoren der statistischen Modelle einzelnen zu detektierenden Objektarten verglichen.
Bei einer besonders vorteilhaften Ausführung des Systems entstehen in der Einheit 4 so Wahrscheinlichkeitskarten für den Hintergrund und Vordergrund bzw. sogar für den Hintergrund und einzelne Objektarten, die dann in der Einheit 6 unter Berücksichtigung von Kalibrierungsinformationen 7 direkt zu Informationen 8 über die Art und die Anzahl von den zu detektierenden Objekten im Erfassungsbereich des Sensors führen.

1: Bilddaten
2: Segmentierungseinheit
3: Einheit zur Extraktion von Merkmalsvektoren
4: Vergleichseinheit
5: Einheit zur Speicherung des statistischen Modells
6: Zähleinheit
7: Einheit zur Speicherung von Kalibrierungsinformationen
8: Informationen über die Art und die Anzahl zu detektierender Objekte

Claims

System zur automatischen Zählung von Objekten auf beweglichem oder bewegten Untergrund, aufweisend mindestens einen Sensor zur Erfassung von elektromagnetischer Strahlung und zur Erzeugung von Bildsequenzen, mindestens eine Speichereinheit und mindestens eine Analyseeinheit, dadurch gekennzeichnet, dass die Einheiten so ausgeführt sind, dass ein statistisches Modell der dynamischen Komponente der Szenerie im Erfassungsbereich des Sensors und/oder ein statistisches Modell der Abbildungen von mindestens einer zu detektierenden Objektart in der Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet werden.
System gemäß Anspruch 1, dadurch gekennzeichnet, dass der bewegte Untergrund eine Fahrtreppe oder ein Fahrsteig oder eine Kombination aus beiden ist.
System gemäß Anspruch 1 oder 2, dadurch gekennzeichnet, dass der bewegte Untergrund ein Fließband, ein Förderband, ein Warentransportband oder eine gegeneinander bewegliche Elemente aufweisende Transporteinrichtung ist.
System gemäß mindestens einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der bewegliche Untergrund eine Rampe oder eine bewegliche Brücke ist.
System gemäß mindestens einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass sich zu detektierende Objekte auf einer beweglichen Plattform oder in einer bewegten Kabine befinden.
System gemäß mindestens einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass sich die zu detektierenden Objekte auf der Wasseroberfläche befinden.
System gemäß mindestens einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass es sich bei dem beweglichen Hintergrund um statische Bereiche der Oberfläche eines Landverkehrswegs wie einer Straße oder eines Schienenverkehrswegs handelt, wobei diese Bereiche von einer auf oder in einem bewegten Fahrzeug installierten Kamera zu unterschiedlichen Zeitpunkten aufgenommen werden.
System gemäß mindestens einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass es sich bei der dynamischen Komponente der Szenerie im Erfassungsbereich des Sensors um eine Kombination von Merkmalen gemäß mindestens zwei der Ansprüche 2 bis 7 handelt.
System gemäß mindestens einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass es bei dem statistischen Modell um die Beschreibung von texturellen Eigenschaften handelt.
System gemäß mindestens einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass es sich bei dem statistischen Modell um ein Bewegungsmodell handelt.
System gemäß mindestens einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass es bei dem statistischen Modell um die Beschreibung von dreidimensionalen Eigenschaften handelt.
System gemäß mindestens einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass es bei dem statistischen Modell um die Beschreibung von geometrischen Eigenschaften wie Kanten und Konturen handelt.
System gemäß mindestens einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass es bei dem statistischen Modell um die Beschreibung von Farbeigenschaften handelt.
System gemäß mindestens einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, dass es bei dem statistischen Modell um die Beschreibung von Helligkeitseigenschaften handelt.
System gemäß mindestens einem der Ansprüche 1 bis 14, dadurch gekennzeichnet, dass es sich bei dem statistischen Modell um ein Temperaturmodell handelt.
System gemäß mindestens einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, dass es sich bei dem statistischen Modell um eine Kombination von Merkmalen gemäß mindestens zwei der Ansprüche 9 bis 15 handelt.
System gemäß mindestens einem der Ansprüche 1 bis 16, dadurch gekennzeichnet, dass die dominierende Kantenrichtung der dynamischen Komponente der Szenerie im Erfassungsbereich des Sensors aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
System gemäß mindestens einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass zwei oder mehr Sensoren zur Erfassung der elektromagnetischer Strahlung und zur Generierung von Bildsequenzen verwendet werden.
System gemäß mindestens einem der Ansprüche 1 bis 18, dadurch gekennzeichnet, dass die Bilddaten (1) aus zwei oder mehr Bildsequenzen in ein gemeinsames Koordinatensystem abgebildet werden.
System gemäß Anspruch 18 oder 19, dadurch gekennzeichnet, dass die Ergebnisse der Analyse von Bilddaten (1) aus zwei oder mehr Bildsequenzen in ein gemeinsames Koordinatensystem abgebildet werden.
System gemäß mindestens einem der Ansprüche 1 bis 20, dadurch gekennzeichnet, dass ein statistisches Modell der Abbildungen von Menschen in eine Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
System gemäß mindestens einem der Ansprüche 1 bis 21, dadurch gekennzeichnet, dass ein statistisches Modell der Abbildungen von Fahrrädern in eine Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
System gemäß mindestens einem der Ansprüche 1 bis 22, dadurch gekennzeichnet, dass ein statistisches Modell der Abbildungen von Gepäckstücken in eine Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
System gemäß mindestens einem der Ansprüche 1 bis 23, dadurch gekennzeichnet, dass ein statistisches Modell der Abbildungen von Autos in eine Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
System gemäß mindestens einem der Ansprüche 1 bis 24, dadurch gekennzeichnet, dass der Sensor zur Erfassung von elektromagnetischer Strahlung und zur Erzeugung von Bildsequenzen eine Videokamera ist.
System gemäß mindestens einem der Ansprüche 1 bis 25, dadurch gekennzeichnet, dass der Sensor zur Erfassung von elektromagnetischer Strahlung und zur Erzeugung von Bildsequenzen eine Infrarot- oder eine Thermografiekamera ist.
System gemäß mindestens einem der Ansprüche 1 bis 26, dadurch gekennzeichnet, dass als Sensoren zur Erfassung von elektromagnetischer Strahlung und zur Erzeugung von Bildsequenzen sowohl Video- als auch Infrarot- oder Thermografiekameras verwendet werden.
Verfahren zur automatischen Zählung von Objekten auf beweglichem oder bewegten Untergrund auf der Grundlage mindestens einer von mindestens einem Sensor zur Erfassung von elektromagnetischer Strahlung und zur Erfassung von Bildsequenzen erzeugten Bildsequenz, dadurch gekennzeichnet, dass ein statistisches Modell der dynamischen Komponente der Szenerie im Erfassungsbereich des Sensors und/oder ein statistisches Modell der Abbildungen von mindestens einer zu detektierenden Objektart in der Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
Verfahren gemäß Anspruch 28, dadurch gekennzeichnet, dass ein statistisches Modell der Abbildungen von mindestens einer zu detektierenden Objektart in der Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
Verfahren gemäß Anspruch 28 oder 29, dadurch gekennzeichnet, dass eine Kalibrierung des Sensors zwecks Ermittlung der Sensorparameter wie die räumliche Position, die Ausrichtung, die Brennweite, der Brennpunkt und die Skalierungsfaktoren durchgeführt wird.
Verfahren gemäß mindestens einem der Ansprüche 28 bis 30, dadurch gekennzeichnet, dass eine Kalibrierung von zwei oder mehreren Sensoren zwecks Ermittlung der Abbildungen zwischen zwei oder mehreren Bildsequenzen und/oder der Abbildungen in ein gemeinsames Kalibrierungssystem durchgeführt wird.
Verfahren gemäß mindestens einem der Ansprüche 28 bis 31, dadurch gekennzeichnet, dass es sich bei der dynamischen Komponente der Szenerie im Erfassungsbereich des Sensors um mindestens ein Merkmal gemäß mindestens einem der Ansprüche 2 bis 7 handelt.
Verfahren gemäß mindestens einem der Ansprüche 28 bis 32, dadurch gekennzeichnet, dass ein statistisches Modell der Abbildungen von Menschen in eine Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
Verfahren gemäß mindestens einem der Ansprüche 28 bis 33, dadurch gekennzeichnet, dass ein statistisches Modell der Abbildungen von Fahrrädern in eine Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
Verfahren gemäß mindestens einem der Ansprüche 28 bis 34, dadurch gekennzeichnet, dass ein statistisches Modell der Abbildungen von Gepäckstücken in eine Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
Verfahren gemäß mindestens einem der Ansprüche 28 bis 35, dadurch gekennzeichnet, dass ein statistisches Modell der Abbildungen von Autos in eine Bildsequenz aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
Verfahren gemäß mindestens einem der Ansprüche 28 bis 36, dadurch gekennzeichnet, dass es sich bei dem statistischen Modell um mindestens ein Merkmal gemäß mindestens einem der Ansprüche 9 bis 15 handelt.
Verfahren gemäß mindestens einem der Ansprüche 28 bis 37, dadurch gekennzeichnet, dass bei der Erzeugung von statistischen Modellen nach die Methoden der statistischen Mustererkennung wie die Selbstorganisierenden Karten und/oder die Support Vectors Machines eingesetzt werden.
Verfahren gemäß mindestens einem der Ansprüche 28 bis 38, dadurch gekennzeichnet, dass bei der Erzeugung von statistischen Modellen die Methoden der Stereobildverarbeitung und/oder die Methoden der Formgewinnung aus der Bewegung eingesetzt werden.
Verfahren gemäß mindestens einem der Ansprüche 28 bis 39, dadurch gekennzeichnet, dass die dominierende Kantenrichtung der dynamischen Komponente der Szenerie im Erfassungsbereich des Sensors aufgestellt und bei der Analyse zumindest eines Bilds der Bildsequenz verwendet wird.
Verfahren gemäß mindestens einem der Ansprüche 28 bis 40, dadurch gekennzeichnet, dass die Bilddaten (1) selbst und/oder die Ergebnisse der Analyse von Bilddaten (1) aus zwei oder mehr Bildsequenzen in ein gemeinsames Koordinatensystem abgebildet werden.