DE102007050568A1

DE102007050568A1 - Verfahren und Einrichtung zur Objekterkennung in einem Bild

Info

Publication number: DE102007050568A1
Application number: DE102007050568A
Authority: DE
Inventors: Stefan Dr. Lüke; Edgar Semann; Bernt Schiele; Christian Wojek
Original assignee: Continental Teves AG and Co OHG
Current assignee: Continental Teves AG and Co OHG
Priority date: 2007-08-04
Filing date: 2007-10-23
Publication date: 2009-02-05
Also published as: WO2009019250A3; US20110243376A1; WO2009019250A2

Abstract

Die Erfindung betrifft zum Erkennen eines Objekts einer vorgegebenen Objektkategorie in einem Bild. Bei dem Verfahren ist es vorgesehen, dass - wenigstens zwei Detektoren vorgesehen sind, die jeweils zur Erkennung eines Objekts der vorgegebenen Objektkategorie mit einer vorgegebenen Objektgröße eingerichtet sind, wobei sich Objektgrößen für die Detektoren unterscheiden, - das Bild mittels der Detektoren ausgewertet wird, um zu prüfen, ob sich ein Objekt der vorgegebenen Objektkategorie in dem Bild befindet, - ein Objekt der vorgegebenen Objektkategorie in dem Bild erkannt wird, wenn anhand der Auswertung des Bildes mittels wenigstens eines der Detektoren festgestellt wird, dass sich ein Objekt der vorgegebenen Objektkategorie in dem Bild befindet. Ferner betrifft die Erfindung ein zur Durchführung des Verfahrens geeignetes System zum Erkennen eines Objekts einer vorgegebenen Objektkategorie in einem Bild.

Description

Technisches Gebiet
Die Erfindung betrifft ein Verfahren zum Erkennen eines Objekts einer vorgegebenen Objektkategorie in einem Bild. Ferner betrifft die Erfindung ein zur Durchführung des Verfahrens geeignetes System zum Erkennen eines Objekts einer vorgegebenen Objektkategorie in einem Bild.
Hintergrund der Erfindung
Aus Navneet Dalal, "Finding People in Images and Videos", Dissertation, Institut National Polytechnique de Grenoble/INRIA Rhöne-Alpes, Juli 2006 geht ein Verfahren zur Erkennung von Personen in Bildern hervor. Bei dem Verfahren wird ein Detektor, der auf einem Fenster einer vorgegebenen Größe basiert, dazu trainiert, Personen in einem entsprechenden Bildausschnitt zu erkennen. Das Detektorfenster wird bei mehreren Skalierungen jeweils über das Bild bewegt, um Personen zu erkennen. Dann werden mehrfache Detektionsereignisse für eine einzelne Person fusioniert. Dadurch, dass das Bild in mehreren Skalierungen ausgewertet wird, wird erreicht, dass Personen unterschiedlicher Größe erkannt werden können, denn eine Person wird in der Regel in einer Skalierung erkannt, in der ihr Abbild in etwa so groß ist, wie das Detektorfenster.
Es wurde jedoch festgestellt, dass bei dem Verfahren die Erkennungsleistung für Objekte unterschiedlicher Größe variiert und sich insbesondere in Bezug auf kleine Objekte, d. h. Objekte, die weiter von dem zur Bilderfassung eingesetzten Kamerasensor entfernt sind, verringert. In einigen Anwendungen ist jedoch insbesondere die Erkennung kleiner Objekte von erheblicher Bedeutung.
Ein Beispiel hierfür ist die Erkennung von entgegenkommenden Fahrzeugen in Bildern, die mittels einer Onboardkamera eines Kraftfahrzeugs erfasst werden. Durch eine Erkennung derartiger Fahrzeuge und die Bestimmung ihrer Positionen und Geschwindigkeiten können mögliche Kollisionen vorausberechnet und geeignete Maßnahmen zur Verhinderung der Kollisionen oder zum Schutz der Insassen des Kraftfahrzeugs eingeleitet werden. Insbesondere kollisionsvermeidende Maßnahmen sollten dabei möglichst frühzeitig eingeleitet werden, um wirkungsvoll zu sein. Hierzu ist es erforderlich, ein entgegenkommendes Fahrzeug bereits dann zu erkennen, wenn es noch weit von der Onboardkamera entfernt ist, und sein Fahrverhalten auszuwerten.
Darstellung der Erfindung
Daher ist eine Aufgabe der vorliegenden Erfindung, insbesondere die Erkennungsleistung für kleinere Objekte zu verbessern.
Erfindungsgemäß wird diese Aufgabe durch ein Verfahren mit den Merkmalen des Patentanspruchs 1 und durch ein System mit den Merkmalen des Patentanspruchs 25 gelöst.
Demgemäß wird ein Verfahren der eingangs genannten Art so durchgeführt, dass

– wenigstens zwei Detektoren vorgesehen sind, die jeweils zur Erkennung eines Objekts der vorgegebenen Objektkategorie mit einer vorgegebenen Objektgröße eingerichtet sind, wobei sich Fenstergrößen der fensterbasierten Objektdetektoren unterscheiden,
– das Bild mittels der Detektoren ausgewertet wird, um zu prüfen, ob sich ein Objekt der vorgegebenen Objektkategorie an einer bestimmten Stelle in dem Bild befindet,
– ein Objekt der vorgegebenen Objektkategorie an einer bestimmten Stelle in dem Bild erkannt wird, wenn anhand der Auswertung des Bildes mittels wenigstens eines der Detektoren festgestellt wird, dass sich ein Objekt der vorgegebenen Objektkategorie an dieser Stelle in dem Bild befindet.

Ferner wird ein System zum Erkennen eines Objekts einer vorgegebenen Objektkategorie in einem Bild bereitgestellt. Das System umfasst,

– wenigstens zwei Detektoren, die jeweils zur Erkennung eines Objekts der vorgegebenen Objektkategorie mit einer vorgegebenen Objektgröße eingerichtet sind, wobei sich die Objektgrößen für die Detektoren unterscheiden, und
– eine Auswerteeinrichtung, die dazu ausgebildet ist, eine Erkennung eines Objekts der vorgegebenen Objektkategorie innerhalb des Bildes festzustellen, wenn anhand der Aus wertung des Bildes mittels wenigstens eines der Detektoren festgestellt wird, dass sich ein Objekt der vorgegebenen Objektkategorie in dem Bild befindet.

Die Erfindung beinhaltet die Idee, mehrere Detektoren bereitzustellen, die jeweils zur Erkennung von Objekten in einem bestimmten Größenbereich ausgebildet sind. Hierdurch wird erreicht, dass über den gesamten Größenbereich, in dem Objekte in den auszuwertenden Bildern auftreten, im Wesentlichen gleichbleibend gute Erkennungsleistungen erreicht werden. Die Erfindung basiert dabei auf der Erkenntnis, dass ein Detektor die beste Erkennungsleistung in Bezug auf Objekte zeigt, die eine Größe haben, die der Größe der Objekte entspricht, die für das Training des Detektors herangezogen werden.
Insbesondere wurde dabei festgestellt, dass die Erkennungsleistung eines einzigen Detektors zur Erkennung von Objekten sämtlicher auftretender Größen, wie er aus dem Stand der Technik bekannt ist, für kleine Objekte im Vergleich zu mittleren und großen Objekten überproportional gering ist. Der Grund hierfür ist vermutlich, dass mit einer bestimmten Größe eines Objekts in einem Bild ein bestimmtes Maß an abgebildeten Details des Objekts einhergeht. Trainiert man einen Detektor für die Erkennung von Objekten, dann wird das Maß an Details bei dem Trainingsverfahren berücksichtigt. Dies führt dazu, dass Objekte, deren Detaillierung wesentlich geringer ist, wie es insbesondere bei kleinen Objekten der Fall ist, weniger gut erkannt werden. Die Erfindung ermöglicht es, insbesondere einen Detektor einzusetzen, der speziell für die Erkennung kleiner Objekte eingerichtet ist, so dass die Erkennungsleistung in Bezug auf die Präzision vor allem für kleine Objekte signifikant erhöht werden kann.
Bei den Bildern handelt es sich im Rahmen der Erfindung insbesondere um digitalisierte Bilder, die eine bestimmte Anzahl so genannter Pixel umfassen. Unter einer Größe eines Objekts bzw. eines Bildes wird daher im Rahmen der Erfindung insbesondere die horizontale und vertikale Ausdehnung des Objekts bzw. Bildes innerhalb der Bildebene gemessen in der Anzahl von Pixeln des Bildes verstanden, d. h. ein Bild hat eine "Größe" von n_x×n_y Pixeln, wobei n_x die Anzahl der Pixel in horizontaler Ausdehnung und n_y die Anzahl der Pixel in vertikaler Ausdehnung angibt. Die horizontale Ausdehnung entspricht dabei der x-Richtung und die vertikale Ausdehnung der y-Richtung.
In einer Ausgestaltung des Verfahrens und des Systems ist es vorgesehen, dass jeder Detektor wenigstens einen von einem Detektorfenster überdeckten Ausschnitt des Bildes auswertet, wobei die Größe der Detektorfenster der Detektoren an die für den Detektor vorgesehene Objektgröße angepasst ist.
Der Größenbereich, an den ein Detektor angepasst ist, hängt dabei insbesondere von der Größe des Detektorfensters ab, insbesondere von der Größe der Objekte, die von dem Detektorfenster vollständig überdeckt werden können. Somit weist diese Ausgestaltung den Vorteil auf, dass die Anpassung des Detektors an eine Objektgröße insbesondere anhand der Wahl der Größe des Detektorfensters erfolgt, in dem eine Bildauswertung mittels des Detektors vorgenommen wird.
Eine weitere Ausgestaltung des Verfahrens und des Systems sieht vor, dass jeder Detektor Auswertungen von Bildausschnitten, die von dem Detektorfenster des Detektors überdeckt werden, an einer Mehrzahl von Positionen des Detektorfensters in dem Bild vornimmt, wobei die Positionen einen vorgegebenen Abstand voneinander haben.
Hierdurch wird vorteilhaft erreicht, dass Objekte an beliebigen Positionen innerhalb des Bildes erkannt werden können. An einer bestimmten Position erfolgt die Erkennung dabei dann, wenn die Auswertung eines Bildausschnitts vorgenommen wird, der das Objekt überdeckt.
Ferner zeichnet sich eine Ausführungsform des Verfahrens und des Systems dadurch aus, dass das Bild in einer Mehrzahl von Skalierungen ausgewertet wird, wobei in jeder Skalierung des Bildes jeder Detektor Auswertungen von Bildausschnitten, die von dem Detektorfenster des Detektors überdeckt werden, an einer Mehrzahl von Positionen des Detektorfensters in dem Bild vornimmt.
Unter Skalierung wird dabei im Rahmen der Erfindung eine Änderung des Abbildungsmaßstabs des Bildinhalts verstanden, insbesondere ein Änderung der Zahl der Pixel des Bildes. Hat das ursprüngliche Bild n_x×n_y Pixel, so hat das skalierte Bild beispielsweise (n_x/s)×(n_y/s) Pixel, wobei s ein Skalierungsfaktor ist. Werden die Bildinhalte bei der Skalierung verkleinert, kann dies beispielsweise durch eine Zusammenfassung der Bildinformationen mehrerer Pixel zu einem einzigen erreicht werden, die etwa durch bilineare Interpolation vorgenommen werden kann.
Ein Objekt, das innerhalb des Bildes eine bestimmte Größe hat, wird dabei mittels eines der Detektoren erkannt, wenn das Bild in einer Skalierung ausgewertet wird, in der das Objekt eine Größe hat, die in etwa der Größe des Detektorfensters des Detektors entspricht. Die Ausführungsform hat somit den Vorteil, dass Objekte beliebiger Größe innerhalb des Bildes erkannt werden können.
In diesem Zusammenhang wurde auch festgestellt, dass die Erkennungsleistung auch bei einer Auswertung des Bildes in mehreren Skalierungen durch den Einsatz mehrerer Detektoren, die jeweils an einen bestimmten Größenbereich der Objekte angepasst sind, verbessert werden kann. Dies wird darauf zurückgeführt, dass – wie zuvor erwähnt – die Größe eines Objekts innerhalb des Bildes mit einem bestimmten Maß an Detaillierung des Objekts einhergeht, das sich durch eine Skalierung des Bildes nicht verändert. Somit kann das Bild zwar so skaliert werden, dass ein kleines Objekt das Detektorfenster eines an die Erkennung großer Objekte angepassten Detektors im Wesentlichen vollständig ausfüllt, aufgrund der geringen Detaillierung des Objekts ist dieser Detektor möglicherweise dennoch nicht in der Lage, das Objekt zu erkennen.
Eine Ausgestaltung des Verfahrens und des Systems beinhaltet ferner, dass wenigstens ein erster Detektor dazu eingerichtet ist, Bildinformationen bei der Auswertung eines von dem Detektorfenster des ersten Detektors überdeckten Bildausschnitts zu berücksichtigen, die sich in dem Bildausschnitt in einer ersten Umgebung eines Objekts der vorgegebenen Objektkategorie befinden.
Es wurde festgestellt, dass die Erkennungsleistung der einzelnen Detektoren durch die Berücksichtigung derartiger Kontextinformationen verbessert werden kann. Dies wird darauf zurückgeführt, dass ein Detektor dazu in der Lage ist, zu lernen, dass die zu erkennenden Objekte im Allgemeinen innerhalb von definierten Kontexten auftreten und die Wahrscheinlichkeit für das Vorhandensein eines Objekts geringer ist, wenn ein derartiger Kontext nicht vorliegt.
Einen Hinweis auf die Art eines Objekts gibt insbesondere der Untergrund, auf dem sich das reale Objekt befindet, der innerhalb eines Bildes unterhalb des Objekts angeordnet ist, so dass zumindest dieser Kontextbereich berücksichtigt werden kann. Eine weitere Verbesserung lässt sich erzielen, wenn die vollständige Umgebung des Objekts innerhalb des Bildes als Kontextbereich berücksichtigt wird.
Daher ist es in einer Ausführungsform des Verfahrens und des Systems vorgesehen, dass die Umgebung einen sich unterhalb des Objekts befindlichen Teil des Bildausschnitts umfasst und/oder dass die Umgebung das Objekt vollständig umgibt.
Es hat sich gezeigt, dass die Erkennungsleistung durch die Berücksichtigung von Kontextinformationen insbesondere in Bezug auf die Erkennung von kleinen Objekten gesteigert werden kann. Es ist daher vorteilhaft, in Bezug auf die Erkennung kleiner Objekte einen größeren Kontextbereich zu berücksichtigen als in Bezug auf die Erkennung großer Objekte.
Aus diesem Grund beinhaltet eine Weiterbildung des Verfahrens und des Systems, dass wenigstens ein weiterer Detektor dazu eingerichtet ist, Bildinformationen bei der Auswertung eines von dem Detektorfenster des weiteren Detektors überdeckten Bildausschnitts zu berücksichtigen, die sich in dem Bildausschnitt in einer zweiten Umgebung eines Objekts der vorgegebenen Objektkategorie befinden, wobei der weitere Detektor zur Erkennung von kleineren Objekten ausgebildet ist als der erste Detektor und wobei der Anteil der zweiten Umgebung an dem von dem Detektorfenster des weiteren Detektors überdeckten Bildausschnitt größer ist als der Anteil der ersten Umgebung an dem von dem Detektorfenster des ersten Detektors überdeckten Bildausschnitt.
Darüber hinaus zeichnet sich eine Ausgestaltung des Verfahrens und des Systems dadurch aus, dass die Auswertung eines Bildausschnitts, der von einem Detektorfenster eines Detektors überdeckt wird, die Berechnung eines Deskriptors umfasst, wobei der Deskriptor einem Klassifizierer zugeführt wird, der ermittelt, ob sich ein Objekt der vorgegebenen Objektkategorie in dem Bildausschnitt befindet.
Bei einem Deskriptor handelt es sich vorteilhaft um einen Satz von Merkmalen eines Bildausschnitts, der vorzugsweise in Form eines Vektors berechnet wird, der auch als Deskriptorvektor oder Merkmalsvektor bezeichnet wird. Dieser Vektor kann dem Klassifizierer des Detektors zugeführt werden, um anhand der Merkmale zu ermitteln, ob ein Objekt der vorgegebenen Objektkategorie in dem Bildausschnitt enthalten ist.
Eine Weiterbildung des Verfahrens und des Systems sieht dabei vor, dass die Berechnung des Deskriptors eine Gammakompression des Bildes umfasst.
Durch eine derartige Gammakompression lassen sich insbesondere Unterschiede in der Belichtung verschiedener Bildbereiche und zwischen verschiedenen Bildern ausgleichen. Insbesondere kann hierzu die Gammakompression ausgeführt werden, indem die Wurzel der Intensität der Pixel des Bildes berechnet wird, die ein Maß für die Helligkeit des Pixels bzw. die Lichtstärke des Pixels ist. Bei Farbbildern wird die Berechnung dabei für jeden Farbkanal vorgenommen. Alternativ zur Berechnung der Wurzel der Intensitäten können selbstverständlich auch andere Kompressionsverfahren eingesetzt werden.
Zudem sieht eine Ausgestaltung des Verfahrens und des Systems vor, dass die Berechnung des Deskriptors die Berechnung von Intensitätsgradienten innerhalb des Bildes und die Erstellung eines Histogramms für die Intensitätsgradienten nach Maßgabe der Orientierung der Intensitätsgradienten umfasst.
Derartige Histogramme eignen sich besonders gut zur Quantifizierung von Merkmalen des Bildes, die zur Objekterkennung herangezogen werden können, da sie insbesondere die Kanten innerhalb des Bildes und somit die Umrisse und Struktur von Objekten wiedergeben, die in den Bildern enthalten sind.
Bei einer Weiterbildung des Verfahrens und des Systems ist es vorgesehen, dass der Bildausschnitt in mehrere Zellen unterteilt wird, die jeweils mehrere Pixel des Bildaus schnitts umfassen, wobei für jede Zelle ein Histogramm erstellt wird, in das die in Bezug auf die Pixel der Zelle berechneten Intensitätsgradienten aufgenommen werden und dass mehrere Zellen jeweils zu einem Block zusammengefasst werden, wobei eine Zelle mehreren Blöcken zugeordnet ist, und dass die Histogramme blockweise zusammengefasst und normiert werden, wobei sich der Deskriptor durch eine Kombination der blockweise zusammengefassten und normierten Deskriptoren ergibt.
Hierdurch werden so genannte HOG-Deskriptoren berechnet (HOG: Histogramme orientierter Gradienten), die sich für die Objekterkennung als vorteilhaft erwiesen haben. Gleichfalls können im Rahmen der Erfindung jedoch auch andere Deskriptoren eingesetzt werden.
Insbesondere können dabei im Hinblick auf die Erkennung von Objekten unterschiedlicher Größe unterschiedliche Typen von Deskriptoren vorteilhaft sein.
Daher beinhaltet eine Ausgestaltung des Verfahrens und des Systems, dass für verschiedene Detektoren unterschiedliche Typen von Deskriptoren eingesetzt werden.
Ferner ist es in Ausgestaltungen des Verfahrens und des Systems vorgesehen, dass es sich bei dem Klassifizierer um eine Support Vector Machine handelt. Andere Klassifizierer wie zum Beispiel das AdaBoost-Verfahren sind ebenfalls möglich.
Diese Klassifizierer haben sich für die Objekterkennung als besonders vorteilhaft erwiesen. Falls eine Support Vector Machine als Klassifizierer eingesetzt wird, dann kann diese beispielsweise als eine lineare Support Vector Machine, insbesondere als eine weich klassifizierende Support Vector Machine, ausgebildet sein. Diese Klassifizierer erlauben eine hohe Geschwindigkeit bei der Auswertung der Bilder bzw. beanspruchen eine relativ geringe Rechenleistung.
Wie auch bei den Deskriptoren können dabei im Hinblick auf die Erkennung von Objekten unterschiedlicher Größe unterschiedliche Typen von Klassifizierern vorteilhaft sein.
Aus diesem Grund sieht eine Ausgestaltung des Verfahrens und des Systems vor, dass für verschiedene Detektoren unterschiedliche Typen von Klassifizierern eingesetzt werden.
Insbesondere aufgrund des Einsatzes mehrerer Detektoren und aufgrund einer Auswertung eines Bildes, bei der Bildausschnitte, die von den Detektorfenstern der eingesetzten Detektoren überdeckt werden, an einer Mehrzahl von Positionen der Detektorfenster betrachtet werden, sowie aufgrund einer Auswertung des Bildes in mehreren Skalierungen, wird ein in dem Bild enthaltenes Objekt in der Regel mehrfach erkannt.
Daher sieht eine Weiterbildung des Verfahrens und des Systems vor, dass ein einzelnes Objekt der vorgegebenen Objektkategorie innerhalb des Bildes mehrfach erkannt wird, wobei die mehrfachen Detektionsereignisse für das Objekt zu einem einzigen Detektionsereignis zusammengeführt werden.
Eine verbundene Ausgestaltung des Verfahrens und des Systems zeichnet sich dadurch aus, dass eine Häufigkeitsverteilung von bei der Auswertung des Bildes auftretenden De tektionsereignissen ausgewertet wird, wobei wenigstens ein lokales Maximum der Häufigkeitsverteilung ermittelt wird, welches einem Objekt zugeordnet wird.
Aufgrund einer derartigen statistischen Auswertung der Detektionsereignisse kann vorteilhaft eine besonders zuverlässige Zusammenführung der einzelnen Detektionsereignisse für ein Objekt vorgenommen werden.
Ferner beinhaltet eine verbundene Weiterbildung des Verfahrens und des Systems, dass das lokale Maximum der Häufigkeitsverteilung mittels eines Mean-Shift-Verfahrens bestimmt wird.
Vorteilhaft erlaubt es ein Mean-Shift-Verfahren, die lokalen Maxima zuverlässig und einfach aufzufinden. Insbesondere stellt ein Mean-Shift-Verfahren in der Regel keine zu hohen Anforderungen an die erforderliche Rechenkapazität.
Eine Ausführungsform des Verfahrens und des Systems ist dadurch gekennzeichnet, dass ein bei der Auswertung des Bildes auftretendes Detektionsereignis innerhalb der Häufigkeitsverteilung nach Maßgabe der Positionen des Detektorfensters, in der das Objekt erkannt worden ist, und nach Maßgabe der Skalierung des Bildes berücksichtigt wird, in der das Objekt erkannt worden ist.
Vorteilhaft ergibt sich die Position des erkannten Objekts innerhalb des Bildes dabei aus der Position des Detektorfensters, in der das Objekt innerhalb des Detektorfensters erkannt worden ist. Ferner ergibt sich aus der Skalierung des Bildes in der das Objekt erkannt worden ist unter Be rücksichtigung der Größe des Bildes und des Detektorfensters die Größe des erkannten Objekts.
Der genannte Zusammenhang zwischen der Skalierung und der Objektgröße gilt dabei für eine feste Fenstergröße. Wenn mehrere Detektoren mit Detektorfenstern unterschiedlicher Größe eingesetzt werden, gilt der Zusammenhang somit nicht allgemein, sondern nur speziell für einen Detektor.
Bei einer Ausgestaltung des Verfahrens und des Systems ist daher vorgesehen, dass für jeden Detektor eine Häufigkeitsverteilung der Detektionsereignisse ausgewertet wird, wobei ein lokales Maximum der für einen Detektor ausgewerteten Häufigkeitsverteilung einer Objekthypothese dieses Detektors entspricht, und wobei gemäß eines Übereinstimmungskriteriums übereinstimmende Objekthypothesen mehrerer Detektoren zu einem Erkennungsergebnis für ein Objekt zusammengeführt werden.
Eine verbundene Ausgestaltung des Verfahrens und des Systems sieht vor, dass aus einer für ein lokales Maximum der für einen Detektor ausgewerteten Häufigkeitsverteilung bestimmten Skalierung, der Größe des Detektorfensters dieses Detektors und der Größe des Bildes die Größe des Objekts bestimmt wird, das der Objekthypothese dieses Detektors entspricht.
Alternativ beinhaltet eine Ausführungsform des Verfahrens und des Systems, dass die Skalierung des Bildes in Bezug auf die Größe des Detektorfensters eines ausgewählten Detektors ergibt, nach deren Maßgabe ein Detektionsereignis in der Häufigkeitsverteilung berücksichtigt wird, durch ei nen Faktor angepasst wird, der sich aus der relativen Größe des Detektorfensters ergibt, in dem das Objekt erkannt worden ist, wobei aus einer für ein lokales Maximum der Häufigkeitsverteilung bestimmten Skalierung, der Größe des Detektorfensters des ausgewählten Detektors und der Größe des Bildes die Größe des Objekts bestimmt wird, das dem lokalen Maximum zugeordnet wird.
Bei dieser Ausführungsform werden die Unterschiede in den Größen der Detektorfenster vorteilhaft durch einen Faktor ausgeglichen, der sich aus der relativen Größe des Detektorfensters, in dem das Objekt erkannt worden ist, in Bezug auf die Größe des Detektorfensters eines ausgewählten Detektors ergibt. Bei letzterem kann es sich um einen beliebigen, aber fest gewählten eingesetzten Detektor handeln.
Eine weitere Ausführungsform des Verfahrens und des Systems ist dadurch gekennzeichnet, dass die vorgegebene Objektkategorie in Frontansicht abgebildete Kraftfahrzeuge, insbesondere PKW, umfasst.
Zudem zeichnet sich eine Ausgestaltung des Verfahrens und des Systems dadurch aus, dass das Bild mittels eines Kamerasensors erfasst wird, der an einem Fahrzeug angeordnet und in Vorwärtsrichtung des Fahrzeugs ausgerichtet ist.
Es wird ferner ein Computerprogrammprodukt bereitgestellt, welches ein Computerprogramm umfasst, das Befehle zur Ausführung eines Verfahrens der zuvor beschriebenen Art aufweist.
Die zuvor genannten und weitere Vorteile, Besonderheiten und zweckmäßige Ausgestaltungen der Erfindung werden auch anhand der Ausführungsbeispiele deutlich, die nachfolgend unter Bezugnahme auf die Figuren beschrieben werden.
Kurze Beschreibung der Figuren
Von den Figuren zeigt
1 eine schematische Blockdarstellung eines Systems zur Erkennung von Objekten in Bildern, die mittels eines Kamerasensors aufgenommen werden,
2a eine schematische Darstellung eines Kontextbereichs in der Umgebung eines Objekts in einer ersten Anordnung und
2b eine schematische Darstellung eines Kontextbereichs in der Umgebung eines Objekts in einer weiteren Anordnung.
Darstellung von Ausführungsbeispielen der Erfindung
In 1 ist ein System 101 zur Erkennung von Objekten einer vorgegebenen Objektkategorie dargestellt. Das System beinhaltet einen Kamerasensor 102, der einen CCD-Chip (CCD: Charged Coupled Device) zur Erfassung von digitalen Bildern mit einer vorgegebenen Auflösung. Die Bilder werden einer Bildverarbeitungseinrichtung 103 zugeführt, die dazu ausgeführt ist, Objekte der vorgegebenen Objektkategorie innerhalb der Bilder zu erkennen. Die Ausgabe der Bildverarbeitungseinrichtung 103 umfasst die Positionen und vorzugswei se die Umrandungen der innerhalb der Bilder erkannten Objekte der vorgegebenen Objektkategorie und kann zur Weiterverarbeitung einer weiteren Einrichtung 104 übergeben werden. Als Objektkategorie kann insbesondere eine Basiskategorie vorgegeben werden, deren Mitglieder vorzugsweise im Wesentlichen übereinstimmende Merkmale aufweisen, die dazu geeignet sind, sie von Mitgliedern andere Basiskategorien zu unterscheiden. Beispiele für derartige Basiskategorien sind etwa PKWs in einer bestimmten Ansicht, wie etwa der Front-, Heck- oder Seitenansicht, menschliche Gesichter, aufrecht stehende Personen oder dergleichen.
In einer beispielhaften Ausgestaltung kann das System 101 in einem Kraftfahrzeug angeordnet sein, um Objekte im Umfeld des Fahrzeugs zu erfassen und deren Positionen zu ermitteln. Insbesondere kann es dabei vorgesehen sein, dass der Kamerasensor 102 einen in Fahrzeugvorwärtsrichtung weisenden Erfassungsbereich hat und es sich bei der vorgegebenen Objektkategorie um weitere Kraftfahrzeuge handelt, die in Front- und/oder Heckansicht in den von dem Kamerasensor erfassten Bildern erscheinen. In dieser Ausgestaltung kann anhand der Position und Umrisse der Fahrzeuge innerhalb der Bilder die relative Position der Fahrzeuge in Bezug auf das eigene Kraftfahrzeug ermittelt werden. Diese Daten können beispielsweise in einem Sicherheitssystem des Kraftfahrzeugs herangezogen werden, um das Risiko für eine Kollision mit einem weiteren Verkehrtsteilnehmer zu ermitteln und ggf. Sicherheitsmittel des Kraftfahrzeugs anzusteuern. Das Sicherheitssystem entspricht in dieser Ausgestaltung somit der zuvor erwähnten Einrichtung 104 zur Weiterverarbeitung der Positionsdaten der erkannten Objekte.
In der Bildverarbeitungseinrichtung 103 wird ein von dem Kamerasensor erfasstes Bild eingelesen und nach einer Vorverarbeitung in dem Block 106 mithilfe von mehreren Detektoren 105a, 105b, 105c ausgewertet, von denen in 1 beispielhaft drei Detektoren dargestellt sind. Die Detektoren 105a, 105b, 105c basieren jeweils auf einem Deskriptor und einem auf den Deskriptor angewendeten Klassifizierer, wobei in der schematischen Blockdarstellung in 1 die Berechnung der Deskriptoren in den Blöcken 107a, 107b und 107c erfolgt. Die Klassifizierer sind schematisch anhand der Blöcke 108a, 108b und 108c dargestellt.
Bei einem Deskriptor handelt es sich um einen Satz von Merkmalen eines Bildausschnitts, der vorzugsweise in Form eines Vektors berechnet wird, der auch als Deskriptorvektor oder Merkmalsvektor bezeichnet wird. Die Klassifizierer 108a, 108b, 108c ermitteln anhand des Deskriptors, ob ein Objekt der vorgegebenen Kategorie – im Folgenden auch kurz: Objekt – in dem Bildausschnitt enthalten ist. Dabei kann mittels des Klassifizierers 108a, 108b, 108c eine Konfidenz oder Wahrscheinlichkeit für das Vorhandensein des Objekts ermittelt oder eine Entscheidung darüber getroffen werden, ob ein Objekt in dem Bildausschnitt enthalten ist oder nicht. Im letztgenannten Fall handelt sich um einen binären Klassifizierer 108a, 108b, 108c.
Mittels der Detektoren 105a, 105b, 105c werden einzelne Objekte innerhalb eines Bildes in der Regel mehrfach erkannt. Daher werden die Detektionsereignisse für ein Objekt vorzugsweise zusammengeführt, um das Erkennungsergebnis zu ermitteln. Dieser Vorgang wird im Folgenden auch als Fusion der Detektionsergebnisse bezeichnet und in der Auswerteein richtung 109 des Systems 101 ausgeführt, der die Detektionsergebnisse der Detektoren 105a, 105b, 105c zugeführt werden.
Jeder Detektor 105a, 105b, 105c wird dazu eingerichtet, Objekte der vorgegebenen Kategorie zu erkennen, die innerhalb eines auszuwertenden Bildes eine Größe in einem vorgegebenen Bereich haben. Die Größenbereiche der verschiedenen Detektoren 105a, 105b, 105c werden dabei so gewählt, dass in Kombination der Detektoren 105a, 105b, 105c der gesamte Größenbereich abgedeckt ist, in dem Objekte innerhalb des auszuwertenden Bildmaterials auftreten. Ferner überlappen die Größenbereiche. Die Varianz der Objektgrößen in einem mittels des Kamerasensors 102 aufgenommenen Bild entsteht aufgrund unterschiedlicher Entfernungen der realen Objekte zu dem Kamerasensor 102. So wurde beispielsweise festgestellt, dass Fahrzeugfronten entgegenkommender Fahrzeuge in den Bildern eines typischen Onboardkamerasensors eines Kraftfahrzeugs mit einer Auflösung von 752×480 Pixeln je nach Entfernung von dem Kamerasensor 102 Breiten zwischen 10 und 200 Pixeln aufweisen. Durch den Einsatz mehrerer Detektoren 105a, 105b, 105c wird eine hohe Erkennungsleistung im gesamten auftretenden Größenbereich der Objekte gewährleistet.
Die einzelnen Detektoren 105a, 105b, 105c führen eine Auswertung der Bilddaten jeweils in einem Detektorfenster aus, welches einen Ausschnitt des Bildes überdeckt. Die Größe der Detektorfenster ist dabei nach Maßgabe der Größenbereiche gewählt, in denen die Detektoren 105a, 105b, 105c Objekte erkennen sollen. Somit unterscheiden sich die Größen der Detektorfenster der einzelnen Detektoren 105a, 105b, 105c in der Regel voneinander. Zur Auswertung des gesamten Bildes werden Auswertungen durch jeden Detektor 105a, 105b, 105c an mehreren Positionen des Detektorfensters und in mehreren Skalierungen des Bildes vorgenommen. In jeder Skalierung "gleiten" die Detektorfenster dabei über das Bild und an jeder Position des Detektorfensters wird jeweils ein Deskriptorvektor für den von dem Fenster überdeckten Bildausschnitt berechnet. Dies kann für die vorgesehenen Positionen sukzessive durchgeführt werden, zur Beschleunigung der Auswertung kann die Auswertung jedoch auch an mehreren Positionen der Detektorfenster parallel vorgenommen werden.
In einer Ausgestaltung wird zumindest innerhalb eines der eingesetzten Detektoren 105a, 105b, 105c ein Deskriptor auf der Basis von Histogrammen orientierter Gradienten (HOG) berechnet, der auch als HOG-Deskriptor bezeichnet wird. Die Berechnung des HOG-Deskriptors wird in ähnlicher Weise durchgeführt, wie in der eingangs bereits genannten Veröffentlichung "Finding People in Images and Videos" von Navneet Dalal beschrieben:
Zunächst wird in einer ersten Stufe vorzugsweise eine Gamma- bzw. Farbnormierung des Bildes durchgeführt, die sich als vorteilhaft herausgestellt hat. Diese Normierung kann in einem Schritt für das gesamte Bild durchgeführt und daher von dem Vorverarbeitungsblock 106 vorgenommen werden. In einer Ausführung wird durch Wurzelbildung eine Gammakompression für jeden Farbkanal durchgeführt, wobei die Bilder vorzugsweise im RGB-Format vorliegen, in dem jeweils ein Farbkanal für die Primärfarben Rot, Grün und Blau vorgesehen ist. Bei der vorgesehenen Kompression wird an jedem Bildpixel für jeden Farbkanal die Wurzel der Intensität be rechnet und bei der nachfolgenden Verarbeitung des Bildes anstelle der eigentlichen Intensität verwendet ("√RGB-Kompression"). Hierdurch werden schwache Gradienten in schwach belichteten Bereichen des Bildes verstärkt, so dass insbesondere Belichtungsunterschiede innerhalb des Bildes und zwischen verschiedenen Bildern ausgeglichen werden. Ferner wird erreicht, dass das Photonenrauschen, welches zu Bildstörungen führt, nach der Wurzelbildung näherungsweise gleichmäßig ist und somit bei der nachfolgenden Gradientenbildung höchstens zu einer geringen Verfälschung führt. Grund hierfür ist, dass das Photonenrauschen proportional zur Wurzel der Intensität eines Bildpixels ist. Bildet man die Wurzel der Gesamtintensität ("eigentliche" J Intensität plus Photonenrauschen k√J) gilt:
In der nächsten Stufe, die innerhalb der Detektoren 105a, 105b, 105c ausgeführt werden kann, werden für den jeweils auszuwertenden, von dem Detektorfenster überdeckten Bildausschnitt Gradienten der Intensitäten berechnet. Anhand der Gradientenbildung werden insbesondere Konturen innerhalb des Bildes bestimmt. Bei Farbbildern und insbesondere bei Bildern im RGB-Format werden vorzugsweise für jeden Bildpixel Gradienten für jeden Farbkanal bestimmt, wobei derjenige Gradient mit dem größten Betrag bzw. der größten Norm für die weitere Verarbeitung verwendet wird.
Die Berechnung der Gradienten erfolgt für jeden Farbkanal durch Faltung mittels einer Ableitungsmaske. Dabei kann etwa die eindimensionale Maske [–1, 0, 1] bzw. [–1, 0, 1]^T zur Gradientenberechnung entlang der x- und der y-Achse verwendet werden. Aufgrund dieser Maske ergibt sich für ein Bildpixel i, j der Gradient in x-Richtung bezüglich eines Farbkanals durch Gx(i, j) = Ĩ(i + 1, j) – Ĩ(i – 1, j)und in y-Richtung durch Gy(i, j) = Ĩ(i, j + 1) – Ĩ(i, j – 1),wobei Ĩ(i, j) die Intensität eines Farbkanals des Bildpixels (i, j) des komprimierten Bildes bezeichnet. Bei Verwendung der zuvor beschriebenen Wurzelkompression gilt somit Ĩ(i, j) = √I(i, j), wobei I(i, j) die Intensität eines Farbkanals an dem Pixel (i, j) bezeichnet. Aufgrund der verwendeten Maske ist der Gradient G →(i, j) bezüglich des Bildpixels (i, j) zentriert. Um bei Verwendung dieser Maske auch Gradienten für die Pixel am Rand des Bildausschnitts berechnen zu können, wird für die Berechnung der Gradienten vorzugsweise ein Randbereich von 2 Pixeln um den Bildausschnitt herum berücksichtigt.
Alternativ zu der zuvor beschriebenen Maske können gleichfalls auch andere Masken eingesetzt werden. Insbesondere kann die Gradientenberechnung dabei auch in verschiedenen Detektoren 105a, 105b, 105c in unterschiedlicher Weise vorgenommen werden.
Aus den berechneten Komponenten G_x und G_y werden der Betrag G des Gradienten und die Richtung θ berechnet, wobei für den Betrag gilt
und für die Richtung bzw. Orientierung
Zur weiteren Berechnung des HOG-Deskriptors wird der auszuwertende Bildausschnitt mittels eines Gitters in Regionen eingeteilt, die als "Zellen" bezeichnet werden und jeweils eine vorgegebene Anzahl und Anordnung von Bildpixeln umfassen. In einer Ausgestaltung werden dabei rechteckige, insbesondere quadratische Zellen vorgesehen, die beispielsweise zwischen 2×2 und 10×10 Bildpixel umfassen. Als besonders vorteilhaft im Hinblick auf die Erkennung von Fahrzeugen in Frontansicht haben sich insbesondere Zellen mit 4×4 Bildpixel erwiesen. Kleinere Zellen erbrachten in den durchgeführten Experimenten keine wesentliche Verbesserung, größere Zellen führten jedoch zu einer Verschlechterung der Ergebnisse.
In einer vierten Stufe der Berechnung der HOG-Deskriptoren wird für jede Zelle des auszuwertenden Bildausschnitts ein Orientierungshistogramm der Gradienten bestimmt, wobei die Gradienten den Klassen des Histogramms einer Zelle entsprechend ihrer Richtung mit einem Gewicht zugeordnet werden, das dem Betrag des Gradienten entspricht. Dabei erfolgt eine lineare Interpolation. Ferner werden die Gradienten entsprechend des Bildpixels, auf das sie zentriert sind, den Zellen bzw. den Histogrammen der Zellen zugeordnet. Hierbei erfolgt eine Interpolation bezüglich der x- und y-Richtung. D. h., ein Gradient, der in einem Bildpixel einer bestimmten Zelle zentriert ist, liefert auch einen Beitrag zu den Histogrammen der benachbarten Zellen. Eine Interpolation wird somit bezüglich der x- und y-Komponente des Bildpixels, in dem der Gradient zentriert ist, und bezüglich der Orientierung des Gradienten vorgenommen, so dass sich eine trilineare Interpolation ergibt, die im Folgenden näher erläutert wird:
Mit h(i, j, θ) sei dabei der Wert der um die Orientierung θ zentrierten Klasse des Histogramms für die Zelle bezeichnet wird, in deren Zentrum der Bildpixel (i, j) liegt. Falls die Zelle eine gerade Anzahl von Pixeln in Horizontal- bzw. Vertikalausdehnung aufweist, dann werden in einer Ausführung die Koordinaten des Pixels links bzw. unterhalb von der Mitte als Zentrum der Zelle angesehen. Somit hat beispielsweise eine Zelle mit 4×4 Pixeln das Zentrum (2, 2), sofern dem linken unteren Pixel die Koordinaten (1, 1) zugeordnet sind. Wenn nun für ein Tupel (i, j, θ), bestehend aus einem Bildpixel (i, j) und der Orientierung θ eines in dem Bildpixel zentrierten Gradienten gilt, dass (1) i₁ ≤ i < i₂, (2) j₁ ≤ j < j₂ und (3) θ₁ ≤ θ < θ₂, dann geht der in dem Bildpixel (i, j) zentrierte Gradient mit dem Betrag G und der Orientierung θ mit folgenden Werten in die "umliegenden" Histogrammklassen ein:
Mit b_x ist dabei die Anzahl von Pixeln in horizontaler Ausdehnung einer Zelle und mit b_y die Anzahl von Pixeln in vertikaler Ausdehnung einer Zelle bezeichnet, so dass eine Zelle in obiger Notation b_x×b_yBildpixel umfasst. Mit b_θ ist die Breite einer Klasse der Orientierungshistogramme einer Zelle bezeichnet.
In einer Ausführungsform, die sich insbesondere im Hinblick auf die Erkennung von einem Fahrzeug in Frontansicht als vorteilhaft herausgestellt hat, umfassen die Histogramme der Zellen 18 Klassen mit einer Breite von 20° in dem Winkelbereich von 0 bis 360°. Bei dem folgenden Beispiel wird von einem Block mit 2×2 Zellen ausgegangen, die jeweils 4×4 Pixel umfassen, wobei das untere linke Bildpixel des Blocks die Koordinaten (1, 1) und das obere rechte Bildpixel des Blocks entsprechend die Koordinaten (8, 8) besitzt. Hat der Gradient, der in dem markierten Bildpixel mit den Koordinaten (3, 3) zentriert ist, den Betrag G, und schließt er einen Winkel von 85° mit der Horizontalen ein, so werden für diesen Gradienten beispielsweise folgende Werte in die Histogramme der Zellen aufgenommen: In das Histogramm der unteren linken Zelle mit dem Zentrum (2, 2) ein Wert von G·9/16·1/4 in die um 70° zentrierte Klasse und ein Wert von G·9/16·3/4 in die um 90° zentrierte Klasse, in die Histogramme der oberen linken und der unteren rechten Zelle mit den Zentren (2, 6) bzw. (6, 2) jeweils ein Wert von G·3/16·1/4 in die um 70° zentrierte Histogrammklasse und ein Wert von G·3/16·3/4 in die um 90° zentrierte Histogrammklas se und in das Histogramm in der rechten oberen Zelle mit dem Zentrum (6, 6) ein Wert von G·1/16·1/4 in die um 70° zentrierte Klasse und ein Wert von G·1/16·3/4 in die um 90° zentrierte Klasse. Die beiden genannten, um 70° und 90° zentrierten Klassen sind dabei Wertebereichen mit 60° ≤ θ < 80° und mit 80° ≤ θ < 100° zugeordnet.
Nach der Bestimmung der Histogramme für die Zellen des Bildausschnitts werden die Zellen zur Berechnung des HOG-Deskriptors für diesen Bildausschnitt in einander überlappenden Blöcken zusammengefasst, so dass jede Zelle mehreren Blöcken zugeordnet wird. Bei Verwendung von Zellen mit jeweils 4×4 Pixel, hat es sich dabei in einer Ausführungsform in Bezug auf die Erkennung von Fahrzeugen in Frontansicht als vorteilhaft erwiesen, Blöcke mit 8×8 Pixeln bzw. 2×2 Zellen zu verwenden. die einen in horizontaler und vertikaler Richtung Abstand von einer Zelle haben. In dieser Ausführungsform besteht also eine 4-fache Überdeckung der Zellen, die sich nicht am Rand des Bildausschnitts befinden.
Innerhalb der Blöcke wird dann eine Normierung der Histogramme der Zellen der Blöcke vorgenommen. Für die Normierung innerhalb eines Blocks werden die Histogramme der einzelnen Zellen des Blocks zu einem Vektor zusammengefasst. Dieser Vektor wird dann unter Verwendung einer vorgegebenen Norm normiert, was auch als Blocknormierung bezeichnet wird. Insbesondere hat es sich dabei im Hinblick auf die Erkennung von Fahrzeugen in Frontansicht die Verwendung der L1-Norm als zweckmäßig erwiesen, wobei als normierter Ausdruck die Wurzel aus der L1-Normierung verwendet wird. Dieses Normierungsschema wird im Folgenden auch als L₁-Normierung bezeichnet.
Bei der folgenden Erläuterung der Blocknormierung wird davon ausgegangen, dass es sich bei dem Vektor v_i = [v_i,1, ...,v_i,n] um die Vektordarstellung des n Klassen umfassenden Histogramms einer bestimmten Zelle i eines Blocks mit m Zellen handelt, wobei in dem Vektor v_i jede Komponente den Wert einer Klasse des Histogramms der Zelle i repräsentiert. Zur Durchführung der Blocknormierung wird zunächst ein Deskriptorvektor v = [v₁, ..., v_m] für den Block bestimmt. Bei Verwendung der L₁-Normierung ist der normierte Deskriptorvektor des Blocks dann gegeben durch
wobei mit ∥v∥ die L1-Norm des Vektors v bezeichnet ist, die gegeben ist durch
ε ist eine Normierungskonstante, durch deren Einfügung eine Division durch Null verhindert wird. Weiterhin dient diese auch zur Regularisierung. Das heißt durch eine entsprechend große Wahl von ε wird einer allzu großen Verstärkung von schwachen Gradienten im homogenen Umfeld vorgebeugt. Alternativ zu der L₁-Normierung kann die Blocknormierung beispielsweise auch unter Verwendung einer reinen L1-Normierung mit v = v/(∥v∥₁ + ε) oder unter Verwendung der L2-Norm mit
durchgeführt werden, wobei gilt:
Der resultierende Deskriptorvektor bzw. Merkmalsvektor für den auszuwertenden Bildausschnitt ergibt sich nachfolgend durch eine Kombination der normierten Deskriptorvektoren der einzelnen Blöcke des Bildausschnitts. Umfasst der Bildausschnitt p Blöcke, für die jeweils ein normierter Desktriptorvektor v _i ermittelt worden ist, dann ist der resultierende Deskriptorvektor für den Bildausschnitt bezüglich eines Farbkanals somit durch gegeben. Aufgrund der Blocknormierung unter Verwendung sich überlappender Blöcke sind die Werte des Histogramms einer Zelle mehrmals in dem endgültigen Deskriptorvektor enthalten, wodurch die Erkennungsleistung – wie sich gezeigt hat – verbessert wird.
Alternativ zu den zuvor beschriebenen HOG-Deskriptoren können im Rahmen der Erfindung gleichfalls auch andere Deskriptoren in einem oder mehreren Detektoren 105a, 105b, 105c herangezogen werden. Beispiele hierfür sind etwa SIFT-Deskriptoren, die beschrieben werden in D. G. Lowe, "Object Recognition from local scale-invariant features", Proceedings of the 7th International Conference an Computer Vision, Kerkyra, Griechenland, 1999, Seiten 1150–1157, oder auf Haar-Wavelets basierende Deskriptoren, die beispielsweise in C. P. Papageorgiou et al., "A general framework for abject detection", Proceedings of the 6th International Conference an Computer Vision, Bombay, Indien, 1998, Seiten 555–562, und in C. P. Papageorgiou, T. Poggio, "A trainable system for object detection", International Journal of Computer Vision, Volume 38 (1), Juni 2000, Seiten 15–33, beschrieben werden. Weitere Beispiele für Deskriptoren, die im Rahmen der Erfindung einsetzbar sind, sind etwa auf Sha pelet-Merkmalen basierende Deskriptoren, wie sie in P. Sabzmeydani und G. Mori, "Detecting Pedestrians by Learning Shapelet Features", Computer Vision and Pattern Recognition, 2007, IEEE-Konferenz 17.–22. Juni 2007, Seiten 1–8.
Die Auswertung des Deskriptorvektors eines Bildausschnitts erfolgt, wie zuvor bereits erwähnt, in den Detektoren 105a, 105b, 105c jeweils mittels eines Klassifizierers 108a, 108b, 108c. Bei den Klassifizierern 108a, 108b, 108c handelt es sich in einer vorteilhaften Ausgestaltung um binäre Klassifizierer, die aufgrund einer Auswertung des Deskriptorvektors entscheiden, ob ein Objekt der vorgegebenen Kategorie in dem betrachteten Bildausschnitt enthalten ist oder nicht.
In einer Ausführungsform sind einige oder alle Klassifizierer 108a, 108b, 108c als eine Support Vector Machine (SVM) ausgestaltet, insbesondere als lineare SVM-Klassifizierer bzw. als weiche lineare SVM-Klassifizierer.
Ein linearer SVM-Klassifizierer verwendet eine Hyperebene, welche positive und negative Punkte einer linear in zwei Klassen trennbaren Menge von Punkten voneinander abgrenzt. Die Hyperebene umfasst die Punkte y ∊ Rⁿ, für die gilt w·y + b = 0 (w ∊ Rⁿ, b ∊ R), und der Abstand eines Punktes x_i von der Hyperebene ist gegeben durch
Die Hyperebene wird anhand von Trainingspunkten in einer dem Fachmann grundsätzlich bekannten Weise durch einen Optimierungsalgorithmus ermittelt. Dabei wird die Hyperebene derart bestimmt, dass die Trainingspunkte, die der Hyper ebene am nächsten liegen, einen maximalen Abstand von der Hyperebene haben. Diese Punkte werden auch als Stützpunkte bzw. Stützvektoren (Support Vectors) bezeichnet. Da die Hyperebene die zwei Klassen von Punkten trennt, gibt das Vorzeichen sgn(d_i) des Abstands eines Punktes von der Ebene an, zu welcher Klasse der Punkt gehört. Ist die Hyperebene bekannt, kann somit ein neuer Punkt durch Berechnung seines Abstands von der Hyperebene klassifiziert werden.
Wenn eine Menge in zwei Klassen trennbar ist, dann gilt für ein w ∊ Rⁿ und ein b ∊ R λi(w·xi + b) ≥ 1, i = 1, ..., Nfür alle N Punkte der Menge, wobei y_i ∊ {–1, 1} die Klassenzugehörigkeit des Punktes x_i angibt. Zusammen mit der vorherigen Gleichung ergibt sich daraus, dass λ_id_i ≥ 1/∥w∥ gilt und dass 1/∥w∥ somit der kleinstmögliche Abstand eines Punktes von der Hyperebene ist. Durch das Optimierungsverfahren ist somit eine Hyperebene zu ermitteln, bei der ∥w∥ bzw. 1/2w·w maximal ist unter der Bedingung, dass für alle Punkte der Menge λ_i(w·x_i + b) ≥ 1 gilt.
In einer weiteren Ausgestaltung sind ein oder mehrere Klassifizierer 108a, 108b, 108c als weiche SVM-Klassifizierer ausgebildet. Hierbei werden falsche Klassifizierungen weniger Punkte toleriert, um die Effizienz zu erhöhen. Es gilt dabei für ein w ∊ Rⁿ und ein b ∊ R λi(w·xi + b) ≥ 1 – ξi, i = 1, ..., Nfür alle N Punkte der Menge, wobei y_i ∊ {–1, 1} die Klassenzugehörigkeit des Punktes x_i angibt und ξ_i ein diesem Punkt zugeordneter nicht negativer Parameter ist. Die gesuchte Hyperebene ergibt sich in diesem Fall aus der Lösung des Optimierungsproblems, dass
unter der Bedingung maximal ist, dass λ_i(w·x_i + b) ≥ 1 – ξ_i gilt. C ist dabei ein vorgegebener Regularisierungsparameter, der das Verhalten des weichen SVM-Klassifizierers beeinflusst. Bei großen Werten von C besteht dabei nur eine sehr geringe Anzahl von falsch klassifizierten Punkten, während sich bei kleinem C ein größerer maximaler Abstand der nächstliegenden Punkte von der trennenden Hyperebene ergibt. Der Parameter C kann beispielsweise Werte zwischen 0,001 und 0,1, vorzugsweise einen Wert von 0,1 annehmen.
In einer weiteren Ausführungsform kann als Alternative zu dem SVM-Klassifizierer für einen oder mehrere Detektoren 105a, 105b, 105c auch ein Klassifizierer 108a; 108b; 108c eingerichtet werden, der auf einem AdaBoost-Verfahren basiert (AdaBoost steht für Adaptive Boosting). AdaBoost-Verfahren sind beispielsweise in J. Friedman et al., "Additive Logisitic Regression: A statistical View of Boosting", The Annals of Statistics, 2000, Vol 28, No. 2, Seiten 337–407 beschrieben. Sie sehen vor, dass auf der Basis von Trainingsdaten ein "starker" Klassifizierer aus einer Mehrzahl von "schwachen" Klassifizierern erzeugt wird. Die schwachen Klassifizierer gehen dabei mit unterschiedlichen Gewichten in den starken Klassifizierer ein, wobei die Gewichte in einem Trainingsverfahren anhand der Trainingsdaten ermittelt werden. Die schwachen Klassifizierer sehen dabei beispielsweise den Vergleich einzelner Bildmerkmale, d. h. einzelner Komponenten des Merkmalsvektors oder einer Gruppe von Komponenten des Merkmalsvektors mit vorgegebenen Schwellenwerten vor.
Die für das Training der Detektoren 105a, 105b, 105c bzw. der Klassifizierer 108a, 108b, 108c verwendeten Trainingsdaten umfassen positive Trainingsbilder, die ein zu erkennendes Objekt enthalten und negative Trainingsbilder, die kein zu erkennendes Objekt enthalten. Im Rahmen des Trainingsverfahrens werden die Klassifizierer 108a, 108b, 108c dazu ausgebildet, diese beiden Klassen von Trainingsbildern zu unterscheiden.
Die positiven Trainingsbilder haben die Größe des Detektorfensters des zu trainierenden Detektors 105a, 105b, 105c und werden in einer Ausführungsform im Wesentlichen jeweils vollständig durch ein Objekt der vorgegebenen Objektkategorie ausgefüllt. Dabei können die positiven Trainingsbilder beispielsweise generiert werden, indem Objekte nach Augenmaß aus vorhandenen Bildern ausgeschnitten werden. Hierzu kann mittels eines Bildbearbeitungsprogramms manuell ein Rahmen erstellt werden, der die Objekte gerade einschließt, und der Inhalt des Rahmens ausgeschnitten werden. Dabei können die verwendeten Bilder bereits so aufgenommen werden, dass die Objekte die dem Detektorfenster entsprechende Größe haben. In der Regel wird dies jedoch nicht der Fall sein, so dass die Bildausschnitte auf die Größe des Detektorfensters skaliert werden, um die positiven Trainingsbilder zu erzeugen. Im Rahmen des Trainingsverfahrens für einen Detektor 105a, 105b, 105c mit einem Detektorfenster von 20×20 Pixeln wird dabei beispielsweise ein positives Trainingsbild mit einer ursprünglichen Größe von 40×40 Pixeln auf eine Größe von 20×20 Pixel skaliert.
Die negativen Trainingsbilder haben ebenfalls die Größe der Detektorfenster, werden jedoch zufällig aus vorhandenem Bildmaterial ausgeschnitten und enthalten keine Objekte der vorgegebenen Objektkategorie.
In einer weiteren Ausführungsform werden ein oder mehrere Detektoren 105a, 105b, 105c dazu trainiert, neben dem Objekt selbst auch Informationen über den Kontext auszuwerten, in dem sich das Objekt innerhalb eines Bildes befindet. Es wurde festgestellt, dass sich hierdurch insbesondere die Erkennungsleistung bei kleinen Objekten verbessern lässt. Dies lässt sich damit erklären, dass insbesondere kleinere Objekte weniger Details innerhalb des Bildmaterials aufweisen, die zur Erkennung des Objekts herangezogen werden können, was durch die Berücksichtigung von Kontextinformationen ausgeglichen werden kann. Dabei wird davon ausgegangen, dass ein Detektor 105a, 105b, 105c bzw. ein Klassifizierer 108a, 108b, 108c dazu in der Lage ist, zu lernen, dass die zu erkennenden Objekte im Allgemeinen innerhalb von definierten Kontexten auftreten. So befindet sich innerhalb eines Bildes in der Regel unter einem Fahrzeug ein Fahrbahnuntergrund, der beispielsweise von einem Wald oder einem Himmel unterschieden werden kann, der sich in der Regel nicht unterhalb eines Fahrzeugs befindet.
Die Berücksichtigung von Kontextinformationen erfolgt anhand von Zellen, die innerhalb der Trainingsbilder und der auszuwertenden Bildausschnitte um das Objekt herum angeordnet sind. Die Anzahl der Zellen kann dabei beispielsweise so gewählt werden, dass der Kontext bis zu 80% eines Detektorfensters umfasst, und das Objekt selbst lediglich 20%. Ferner kommen verschiedene Anordnungen dieser Zellen in Frage. So können die zusätzlichen Zellen ein Objekt beispielsweise vollständig umgeben, oder sie können das Objekt nur teilweise umgeben. Sofern letzteres der Fall ist, hat es sich insbesondere bei der Erkennung von Fahrzeugen als zweckmäßig erwiesen, dass zumindest ein Kontextbereich unterhalb der Fahrzeuge berücksichtigt wird. Hierbei handelt es sich, wie zuvor erwähnt, um den Untergrund, auf dem sich die realen Fahrzeuge befinden, welcher von einem Kontext unterschieden werden kann, der in der Regel nicht unterhalb eines Fahrzeugs zu finden ist.
In den 2a und 2b sind jeweils für ein Bildausschnitt bzw. ein Detektorfenster mit 8×10 bzw. 10×10 Bildpixeln schematisch beispielhafte Anordnungen von Kontextinformationen enthaltenen Zellen des Bildausschnitt in Bezug auf ein sechseckiges Objekt 200 dargestellt. Jede Zelle ist dabei in den Figuren als ein Kästchen dargestellt, und schraffierte Kästchen entsprechen Zellen, die Kontextinformation enthalten. Bei der in der 2a dargestellten Anordnung ist der Kontextbereich nur unterhalb des sechseckigen Objekts 200 angeordnet. Bei der in der 2b dargestellten Anordnung wird das sechseckige Objekt vollständig von dem Kontextbereich umgeben. In beiden Fällen hat der Kontextbereich eine Breite von 2 Zellen.
Sofern von einem Detektor 105a, 105b, 105c Kontextinformationen berücksichtigt werden sollen, werden die positiven Trainingsbilder so gewählt, dass sie neben den Objekten Zellen mit Kontextinformationen in einer vorgegebenen Anzahl und Anordnung umfassen. Hierzu können Trainingsbilder in der Größe des Detektorfensters des zu trainierenden Detektors 105a, 105b, 105c beispielsweise so aus vorhandenem Bildmaterial ausgeschnitten werden, dass neben den Objekten ein Randbereich in der vorgegebenen Anordnung und mit der vorgegebenen Breite verbleibt.
Im Rahmen des Trainingsverfahrens werden zunächst die von dem zu trainierenden Detektor 105a, 105b, 105c verwendeten Deskriptoren für die positiven und negativen Trainingsbilder berechnet. Dann wird das Training des von dem Detektor 105a, 105b, 105c verwendeten Klassifizierers 108a, 108b, 108c anhand der Deskriptorvektoren vorgenommen, welche die Trainingspunkte der Klassifizierer 108a, 108b, 108c darstellen. Im Falle eines SVM-Klassifizierers wird dabei aus den positiven und negativen Trainingspunkten anhand eines Optimierungsverfahrens die zuvor beschriebene Hyperebene berechnet. Im Fall eines AdaBoost-Klassifizierers werden die Gewichte der schwachen Klassifizierer anhand der positiven und negativen Trainingspunkte bestimmt.
Darüber hinaus erfolgt das Training der Detektoren 105a, 105b, 105c bzw. der Klassifizierer 108a, 108b, 108c vorzugsweise zweistufig. In der ersten Stufe wird der Detektor 105a, 105b, 105c mit einem beliebigen Satz von positiven und negativen Trainingsbeispielen trainiert. Dann werden dem in der ersten Stufe trainierten Detektor 105a, 105b, 105c weitere negative Trainingsbeispiele zugeführt. Hierbei werden die so genannten harten Beispiele extrahiert, d. h. die negativen Trainingsbeispiele, in denen der Detektor 105a, 105b, 105c eines der vorgegebenen Objekte erkennt. In einer zweiten Stufe wird der Detektor 105a, 105b, 105c dann unter Verwendung der in der ersten Stufe verwendeten Trainingsdaten und der harten Beispiele trainiert. Hierdurch ergibt sich der endgültige Detektor 105a, 105b, 105c, der zur Erkennung von Objekten der vorgegebenen Klasse eingesetzt werden kann.
Wie zuvor bereits erwähnt, werden zur Erkennung von Objekten innerhalb eines von dem Kamerasensors 102 erfassten Bildes von jedem Detektor 105a, 105b, 105c Bildausschnitte in der Größe des jeweiligen Detektorfensters ausgewertet. Dies geschieht an einer Mehrzahl von Positionen, die das gesamte Bild überdecken. Benachbarte Positionen haben einen vorgegebenen Abstand in horizontaler und vertikaler Richtung, der im Folgenden auch als Schrittweite bezeichnet wird. Die Schrittweite hat beispielsweise einen Wert zwischen 1 Pixel und 10 Pixel, vorzugsweise 2 Pixel. An jeder Position wird für den von dem Detektorfenster überdeckten Bildausschnitt in der zuvor beschriebenen Weise ein Deskriptorvektor berechnet und dem Klassifizierer 108a, 108b, 108c des entsprechenden Detektors 105a, 105b, 105c zugeführt, um festzustellen, ob in dem überdeckten Bildausschnitt ein Objekt der vorgegebenen Objektklasse enthalten ist. Ferner erfolgt die Auswertung bei mehreren Skalierungen des Bildes. Ausgehend von einer Größe des ursprünglichen Bildes von n_x×n_y Pixeln hat ein skaliertes Bild (s·n_x)×(s·n_y) Pixel. Vorzugsweise wird das Bild dabei schrittweise verkleinert (d. h., die verwendeten Skalierungen sind kleiner als 1). Die kleinste Skalierung bei der Auswertung mittels eines bestimmten Detektors 105a, 105b, 105c ist die, bei der das Detektorfenster das Bild noch vollständig überdeckt. In jeder vorgesehenen Skalierung wird das Bild an den vorgesehenen, definiert beabstandeten Positionen des Detektorfensters ausgewertet. Die Anzahl der möglichen Positionen verringert sich dabei mit zunehmender Verkleinerung des Bildes, bis bei der kleinsten Skalierung nur noch eine Reihe oder Spalte von Positionen auszuwerten sind.
Die Skalierungen unterscheiden sich durch einen vorgegebenen Faktor S. Dabei ergibt sich die folgende Skalierung s_i+1 jeweils aufgrund einer Division der Skalierung durch S (d. h., s_i+1 = s_i/S), so dass s_n = 1/Sⁿ gilt. Begonnen wird in der Ursprungsgröße des Bildes, d. h. es ist s₀ = 1. Der Skalierungsfaktor S liegt beispielsweise zwischen 1 und 1,3, vorzugsweise bei 1,05. Geht man von einem Bild mit 752×480 Pixeln aus, dann werden im Rahmen der Auswertungen somit skalierte Bilder mit (752×480 Pixel)/1,05 = 716×457 Pixel, (752×480 Pixel)/(1,05)² = 682×435 Pixeln, (752×480 Pixel)/(1,05)³ = 649×415 Pixel usw. ausgewertet. Für die Auswertung mittels eines 40×40-Detektors ist das kleinste skalierte Bild, welches noch vollständig von dem Detektorfenster überdeckt wird, beispielsweise das Bild mit (752×480 Pixel)/(1,05)⁵¹ = 60×40 Pixel.
In einer Ausführungsform gleiten die Detektorfenster über das Bild und an jeder vorgesehenen Position wird jeweils der Deskriptor berechnet und mittels des Klassifizierers 108a, 108b, 108c ausgewertet. Um die Geschwindigkeit zu steigern, erfolgt jedoch vorzugsweise eine parallele Berechnung der Deskriptoren an einer Mehrzahl von Positionen des Detektorfensters.
Aufgrund der Mehrzahl der Positionen des Detektorfensters und der Skalierungen des Bildes, die bei der Auswertung des Bildes berücksichtigt werden, wird ein einzelnes Objekt in der Regel mehrmals erkannt. Dabei kann ein Objekt von einem Detektor 105a, 105b, 105c an mehrere Positionen des Detek torfensters und/oder in mehreren Skalierungen des Bildes erkannt werden. Ferner kann ein Objekt von mehreren Detektoren 105a, 105b, 105c erkannt werden. Es ist daher erforderlich, die Mehrzahl der Detektionsereignisse, die bei der Auswertung in Bezug auf ein einziges Objekt stattgefunden haben, auf eine einzelne Erkennung des Objekts an einer bestimmten Position innerhalb des Bildes und mit einer bestimmten Größe zu reduzieren, um ein "Endergebnis" für die Erkennung des Objekts zu erhalten. Dieser als Fusion bezeichnet Vorgang wird in der Auswerteeinrichtung 109 ausgeführt.
In einer Ausgestaltung basiert die Fusion auf der Untersuchung einer Häufigkeit, mit der Detektionsereignisse an einer bestimmten Position des Bildes und in einer bestimmten Skalierung des Bildes auftreten. Die lokalen Maxima der Häufigkeitsverteilung entsprechen den Objekten innerhalb des Bildes. Diese Verteilung entspricht einer Wahrscheinlichkeitsdichte, die mittels eines Kerndichteschätzers approximiert werden kann. Die lokalen Maxima, d. h. die Modi der Wahrscheinlichkeitsdichtefunktion, werden in einer Ausführungsform vorteilhaft anhand eines Mean-Shift-Verfahrens ermittelt, wie es in der zuvor genannten Veröffentlichung von N. Dalal und in ähnlicher Weise auch in D. Commaniciu, P. Meer, "Mean Shift: A Robust Approach Toward Feature Space Analysis", IEEE Transactions an Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, Mai 2002, beschrieben ist.
In einer Ausführungsform wird die Auswertung zunächst für jeden Detektor 105a, 105b, 105c getrennt durchgeführt. Dabei werden die N Detektionsereignisse, die mittels eines Detektors 105a, 105b, 105c ermittelt worden sind, als Punkte y_i = (x_i, y_i, s_i) in einem dreidimensionalen Raum interpretiert. Die Dimensionen umfassen die Position (x_i, y_i) des Objekts sowie die Skalierung s_i des ausgewerteten Bildes, in der das Objekt erkannt worden ist. Die Position (x_i, y_i) des Objekts entspricht dabei beispielsweise dem mittleren Pixel des Detektorfensters, in dem das Objekt erkannt worden ist. Anhand der Skalierung lässt sich unter Berücksichtigung der Größe des Detektorfensters und der Ausdehnung der von dem Detektor 105a, 105b, 105c berücksichtigten Kontextinformationen sowie der Größe des Bildes die Größe des Objekts innerhalb des Bildes ermitteln. Um die Größe des Objekts innerhalb des Bildes zu ermitteln, muss die Größe des Detektorfensters dabei mit der Skalierung multipliziert werden, die an dem Maximum vorliegt. Handelt es sich beispielsweise um ein Bild mit 200×200 Pixeln und einen Detektor 105a, 105b, 105c mit einem Fenster von 50×50 Pixeln und wurde für das Maximum ein Skalierungsfaktor von 2 festgestellt, dann entspricht das Maximum einem Detektionsereignis bei der Auswertung des auf 100×100 Pixel skalierten Bildes. Innerhalb des ursprünglichen Bildes hat das Objekt somit eine Größe von 100×100 Pixel.
Die zuvor genannte Wahrscheinlichkeitsdichte an einem Punkt y dieses Raums lässt sich durch
approximieren, wobei D²[y, y_i, H]:= (y – y_i)^TH –1 / i(y – y_i) der Mahalanobis-Abstand zwischen y und y_i und H die so genannte Kovarianz- bzw. Bandbreitematrix ist. Anstelle des Mahalanobis-Abstands kann jedoch gleichfalls auch ein Abstand ver wendet werden, der aufgrund einer anderen Norm, wie beispielsweise der euklidischen Norm, berechnet wird.
Der Ausdruck t(d_i) entspricht einer Gewichtung des Detektionsereignisses i und berücksichtigt, mit welcher Zuverlässigkeit das Objekt erkannt worden ist. Bei Verwendung eines SVM-Klassifizierers kann die Gewichtung beispielsweise in Abhängigkeit von dem Abstand d_i des Deskriptorvektors von der Hyperebene bestimmt werden. In einer Ausführungsform ist die Gewichtung nur dann ungleich null, wenn der Abstand d_i des Deskriptorvektors von der Hyperebene größer als ein Schwellenwert c ist. Ist dies der Fall, kann beispielsweise ein Gewichtungsfaktor t(d_i) = d_i – c verwendet werden.
Die Kovarianzmatrizen H_i geben die Unsicherheit der Punkte y_i an. In einer Ausgestaltung sind die Kovarianzmatrizen diagonal und durch Hi = diag((exp(si)σx)2,(exp(si)σy)2,(σs)2 gegeben. Die Größen σ_x, σ_y und σ_s sind vorgegebene Glättungsparameter. Aufgrund der Exponentialfunktionen vergrößert sich die Unsicherheit in der Position der Detektionsereignisse mit zunehmendem Faktor s_i, d. h. mit einer verringerten Auflösung der Bilder. Dies entspricht der Intuition, nach der sich die Genauigkeit bei der Bestimmung der Positionen der Objekte in diesem Fall verringert.
Zur Vereinfachung des folgenden Ausdrucks wird die Abkürzung
eingeführt. Unter Verwendung dieser Abkürzung ist der so genannte Mean-Shift-Vektor an dem Punkt y gegeben durch
mit
. Die Mean-Shift-Vektoren sind proportional zu dem Gradienten ∇f der Wahrscheinlichkeitsdichte und definieren damit einen Pfad zu einem lokalen Maximum der Wahrscheinlichkeitsdichte. Aufgrund der Multiplikation des Gradienten mit 1/ ^ / f·H_h wird der Gradient dabei derart normiert, dass der Pfad in dem lokalen Maximum konvergiert.
Insbesondere werden zur Ermittlung eines lokalen Maximums, ausgehend von einem Startpunkt Y₀ rekursiv die Punkte Y_k+1 = Y_k + m(Y_k), berechnet. Dabei lässt sich zeigen, dass die Folge dieser Punkte gegen ein lokales Maximum konvergiert. Somit werden die Punkte solange berechnet, bis Y_k+1 gleich oder im Wesentlichen gleich Y_k ist. Ist dies der Fall, entspricht Y_k ₊₁ bzw. Y_k einem gesuchten lokalen Maximum der Wahrscheinlichkeitsdichte. Um alle lokalen Maxima der Wahrscheinlichkeitsdichte zu ermitteln, wird das Verfahren ausgehend von allen Detektionsereignissen y_i ausgeführt, die mittels eines Detektors 105a, 105b, 105c ermittelt worden sind.
Wie zuvor erwähnt, wird die vorherige Auswertung für jeden eingesetzten Detektor 105a, 105b, 105c separat durchgeführt, um für jeden Detektor 105a, 105b, 105c die Positionen und Größen der erkannten Objekte zu bestimmen. Nachfolgend werden die Ergebnisse der Auswertung, die für die verschiedenen Detektoren 105a, 105b, 105c ermittelt worden sind, zusammengeführt. Dabei können von den verschiedenen Detektoren 105a, 105b, 105c erkannte überlappende Objekt hypothesen gemäß einem vorgegebenen Übereinstimmungskriteriums als ein einziges Objekt gewertet werden. Insbesondere kann das Matchingkriterium vorsehen, dass sich die Objekthypothesen gegenseitig zu wenigstens 50% überlappen müssen, d. h., dass das erste Objekt das zweite zu 50% überlappen muss und das zweite Objekt das erste zu 50% überlappen muss, und dass der Abstand zwischen den Objekthypothesen höchstens 50% der Breite des Objekts beträgt.
In einer weiteren Ausgestaltung werden die Detektionsereignisse von allen eingesetzten Detektoren 105a, 105b, 105c gemeinsam innerhalb der ausgewerteten Wahrscheinlichkeitsdichte berücksichtigt. Hierzu werden jedoch die Skalierungen des Bildes an die Detektoren 105a, 105b, 105c angepasst, in denen die Detektionsereignisse jeweils ermittelt worden sind. Insbesondere erfolgt dabei eine "Normierung" auf die Größe eines Detektorfensters. Werden beispielsweise ein erster Detektor 105a, 105b, 105c mit einem Detektorfenster von 20×20 Pixeln und ein zweiter Detektor 105a, 105b, 105c mit einem Detektorfenster von 40×40 Pixeln eingesetzt, und erfolgt eine Normierung auf die Größe des Detektorfensters des ersten Detektors 105a, 105b, 105c, so gehen die Detektionsereignisse, die in dem zweiten Detektor 105a, 105b, 105c ermittelt worden sind, mit einem um den Faktor 2 vergrößerten Skalierungsfaktor s_i in die Wahrscheinlichkeitsdichte ein. Hierdurch kann aus dem Skalierungsfaktor, der für das lokale Maximum der Wahrscheinlichkeitsdichte ermittelt wird, unter Berücksichtigung der Größe des Bildes direkt auf die Größe des Objekts geschlossen werden.
Wie zuvor erwähnt, eignet sich das Erkennungssystem 101 insbesondere für einen Einsatz in einem Kraftfahrzeug, um entgegenkommende Fahrzeuge zu erkennen und deren Position und Größe zu ermitteln. Aus der Größe kann dann, bei Annahme einer vorgegebenen realen Größe der entgegenkommenden Fahrzeuge unter Berücksichtigung der Abbildungseigenschaften des Kamerasensors 102 die Entfernung zu den entgegenkommenden Fahrzeugen bestimmt werden. Aus einem Vergleich der Entfernungen, die in unterschiedlichen Zeitpunkten ermittelt worden sind, kann die Relativgeschwindigkeit eines entgegenkommenden Fahrzeugs in Bezug auf den Kamerasensor 102 bzw. das eigene Fahrzeug ermittelt werden.
In einer bereits genannten Ausgestaltung, liefert der Kamerasensor dabei Bilder mit einer Größe von 752×480 Pixeln, in denen die Frontansichten entgegenkommender Fahrzeug eine Breite zwischen 10 und 200 Pixeln aufweisen. Zur Erkennung der Frontansichten von Fahrzeugen in den Bildern des Kamerasensors 102 hat sich ein Bildverarbeitungssystem mit drei Detektoren 105a, 105b, 105c als vorteilhaft erwiesen, die Detektorfenster mit 20×20 Pixeln, 32×32 Pixeln und 40×40 Pixeln aufweisen. In Bezug auf den 40×40-Dektor hat es sich ferner als vorteilhaft erwiesen, dass dieser Kontextinformationen berücksichtigt, die in einem das Objekt vollständig umgebenden Randbereich von der Breite einer Zelle enthalten sind. Für den 20×20-Detektor und den 32×32-Detektor hat es sich als vorteilhaft für die Erkennungsleistung erwiesen, wenn diese Kontextinformationen berücksichtigen, die sich in einem das Objekt umgebenden Randbereich mit der Breite einer Zelle enthalten sind.
Die Erfindung ist jedoch nicht auf die zuvor genannten Ausgestaltungen des Objekterkennungssystems 101 beschränkt. Insbesondere erkennt der Fachmann, dass die Erfindung nicht auf die Erkennung von entgegenkommenden Fahrzeugen beschränkt ist, sondern in ähnlicher Weise zur Erkennung Objekte beliebiger Objektkategorien eingesetzt werden kann. Die Ausgestaltung des Erkennungssystems 101, d. h. insbesondere die Anzahl der eingesetzten Detektoren und deren Ausgestaltung, wird dabei vorzugsweise an den vorgesehenen Einsatzzweck angepasst. So ergibt sich beispielsweise die Anzahl der eingesetzten Detektoren 105a, 105b, 105c insbesondere aus dem Bereich, in dem die Größen der zu erkennenden Objekte innerhalb der auszuwertenden Bilder variieren.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

- Navneet Dalal, "Finding People in Images and Videos", Dissertation, Institut National Polytechnique de Grenoble/INRIA Rhöne-Alpes, Juli 2006 [0002]
- D. G. Lowe, "Object Recognition from local scale-invariant features", Proceedings of the 7th International Conference an Computer Vision, Kerkyra, Griechenland, 1999, Seiten 1150–1157 [0082]
- C. P. Papageorgiou et al., "A general framework for abject detection", Proceedings of the 6th International Conference an Computer Vision, Bombay, Indien, 1998, Seiten 555–562 [0082]
- C. P. Papageorgiou, T. Poggio, "A trainable system for object detection", International Journal of Computer Vision, Volume 38 (1), Juni 2000, Seiten 15–33 [0082]
- P. Sabzmeydani und G. Mori, "Detecting Pedestrians by Learning Shapelet Features", Computer Vision and Pattern Recognition, 2007, IEEE-Konferenz 17.–22. Juni 2007, Seiten 1–8 [0082]
- J. Friedman et al., "Additive Logisitic Regression: A statistical View of Boosting", The Annals of Statistics, 2000, Vol 28, No. 2, Seiten 337–407 [0089]
- D. Commaniciu, P. Meer, "Mean Shift: A Robust Approach Toward Feature Space Analysis", IEEE Transactions an Pattern Analysis and Machine Intelligence, Vol. 24, No. 5, Mai 2002 [0103]

Claims

Verfahren zum Erkennen eines Objekts einer vorgegebenen Objektkategorie in einem Bild, bei dem – wenigstens zwei Detektoren (105a; 105b; 105c) vorgesehen sind, die jeweils zur Erkennung eines Objekts der vorgegebenen Objektkategorie mit einer vorgegebenen Objektgröße eingerichtet sind, wobei sich Fenstergrößen der fensterbasierten Detektoren (105a; 105b; 105c) unterscheiden, – das Bild mittels der Detektoren (105a; 105b; 105c) ausgewertet wird, um zu prüfen, ob sich ein Objekt der vorgegebenen Objektkategorie an einer bestimmten Stelle in dem Bild befindet, – ein Objekt der vorgegebenen Objektkategorie an einer bestimmten Stelle in dem Bild erkannt wird, wenn anhand der Auswertung des Bildes mittels wenigstens eines der Detektoren (105a; 105b; 105c) festgestellt wird, dass sich ein Objekt der vorgegebenen Objektkategorie in dem Bild befindet.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass jeder Detektor (105a; 105b; 105c) wenigstens einen von dem Detektorfenster überdeckten Ausschnitt des Bildes auswertet, wobei die Größe der Detektorfenster der Detektoren (105a; 105b; 105c) an die für den Detektor (105a; 105b; 105c) vorgesehene Objektgröße angepasst ist.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass jeder Detektor (105a; 105b; 105c) Auswertungen von Bildausschnitten, die von dem Detektorfenster des Detektors (105a; 105b; 105c) überdeckt werden, an einer Mehrzahl von Positionen des Detektorfensters in dem Bild vornimmt, wobei die Positionen einen vorgegebenen Abstand voneinander haben.
Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass das Bild in einer Mehrzahl von Skalierungen ausgewertet wird, wobei in jeder Skalierung des Bildes jeder Detektor (105a; 105b; 105c) Auswertungen von Bildausschnitten, die von dem Detektorfenster des Detektors (105a; 105b; 105c) überdeckt werden, an einer Mehrzahl von Positionen des Detektorfensters in dem Bild vornimmt.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass wenigstens ein erster Detektor (105a; 105b; 105c) dazu eingerichtet ist, Bildinformationen bei der Auswertung eines von dem Detektorfenster des ersten Detektors (105a; 105b; 105c) überdeckten Bildausschnitts zu berücksichtigen, die sich in dem Bildausschnitt in einer Umgebung eines Objekts der vorgegebenen Objektkategorie befinden.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass die Umgebung einen sich unterhalb des Objekts befindlichen Teil des Bildausschnitts umfasst und/oder dass die Umgebung das Objekt vollständig umgibt.
Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass wenigstens ein weiterer Detektor (105a; 105b; 105c) dazu eingerichtet ist, Bildinformationen bei der Auswertung eines von dem Detektorfenster des weiteren Detektors (105a; 105b; 105c) überdeckten Bildausschnitts zu berücksichtigen, die sich in dem Bildausschnitt in einer zweiten Umgebung eines Objekts der vorgegebenen Objektkategorie befinden, wobei der weitere Detektor (105a; 105b; 105c) zur Erkennung von kleineren Objekten ausgebildet ist als der erste Detektor (105a; 105b; 105c) und wobei der Anteil der zweiten Umgebung an dem von dem Detektorfenster des weiteren Detektors (105a; 105b; 105c) überdeckten Bildausschnitt größer ist als der Anteil der ersten Umgebung an dem von dem Detektorfenster des ersten Detektors (105a; 105b; 105c) überdeckten Bildausschnitt.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass die Auswertung eines Bildausschnitts, der von einem Detektorfenster eines Detektors (105a; 105b; 105c) überdeckt wird, die Berechnung eines Deskriptors umfasst, wobei der Deskriptor einem Klassifizierer (108a; 108b; 108c) zugeführt wird, der ermittelt, ob sich ein Objekt der vorgegebenen Objektkategorie in dem Bildausschnitt befindet.
Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Berechnung des Deskriptors eine Gammakompression des Bildes umfasst.
Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass die Berechnung des Deskriptors die Berechnung von Intensitätsgradienten innerhalb des Bildes und die Erstellung eines Histogramms für die Intensitätsgradienten nach Maßgabe der Orientierung der Intensitätsgradienten umfasst.
Verfahren nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass der Bildausschnitt in mehrere Zellen unterteilt wird, die jeweils mehrere Pixel des Bildausschnitts umfassen, wobei für jede Zelle ein Histogramm erstellt wird, in das die in Bezug auf die Pixel der Zelle berechneten Intensitätsgradienten aufgenommen werden und dass mehrere Zellen jeweils zu einem Block zusammengefasst werden, wobei eine Zelle mehreren Blöcken zugeordnet ist, und dass die Histogramme blockweise zusammengefasst und normiert werden, wobei sich der Deskriptor durch eine Kombination der blockweise zusammengefassten und normierten Deskriptoren ergibt.
Verfahren nach einem der Ansprüche 8 bis 11, dadurch gekennzeichnet, dass für verschiedene Detektoren (105a; 105b; 105c) unterschiedliche Typen von Deskriptoren eingesetzt werden.
Verfahren nach einem der Ansprüche 8 bis 12, dadurch gekennzeichnet, dass es sich bei dem Klassifizierer (108a; 108b; 108c) um eine Support Vector Machine handelt oder der Klassifizierer (108a; 108b; 108c) auf einem AdaBoost-Verfahren basiert.
Verfahren nach einem der Ansprüche 8 bis 13, dadurch gekennzeichnet, dass für verschiedene Detektoren (105a; 105b; 105c) unterschiedliche Typen von Klassifizierern (108a; 108b; 108c) eingesetzt werden.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass ein einzelnes Objekt der vorgegebenen Objektkategorie innerhalb des Bildes mehrfach erkannt wird, wobei die mehrfachen Detektionsereignisse für das Objekt zu einem einzigen Detektionsereignis zusammengeführt werden.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass eine Häufigkeitsverteilung von bei der Auswertung des Bildes auftretenden Detektionsereignissen ausgewertet wird, wobei wenigstens ein lokales Maximum der Häufigkeitsverteilung ermittelt wird, welches einem Objekt zugeordnet wird.
Verfahren nach Anspruch 16, dadurch gekennzeichnet, dass das lokale Maximum der Häufigkeitsverteilung mittels eines Mean-Shift-Verfahrens bestimmt wird.
Verfahren nach Anspruch 16 oder 17, dadurch gekennzeichnet, dass ein bei der Auswertung des Bildes auftretendes Detektionsereignis innerhalb der Häufigkeitsverteilung nach Maßgabe der Positionen des Detektorfensters, in dem das Objekt erkannt worden ist, und nach Maßgabe der Skalierung des Bildes berücksichtigt wird, in der das Objekt erkannt worden ist.
Verfahren nach einem der Ansprüche 16 bis 18, dadurch gekennzeichnet, dass für jeden Detektor (105a; 105b; 105c) eine Häufigkeitsverteilung der Detektionsereignisse ausgewertet wird, wobei ein lokales Maximum der für einen Detektor (105a; 105b; 105c) ausgewerteten Häufigkeitsverteilung einer Objekthypothese dieses Detektors (105a; 105b; 105c) entspricht, und wobei gemäß eines Übereinstimmungskriteriums übereinstimmende Objekthypothesen mehrerer Detektoren (105a; 105b; 105c) zu einem Erkennungsergebnis für ein Objekt zusammengeführt werden.
Verfahren nach Anspruch 19, dadurch gekennzeichnet, dass aus einer für ein lokales Maximum der für einen Detektor (105a; 105b; 105c) ausgewerteten Häufigkeitsverteilung bestimmten Skalierung, der Größe des Detektorfensters dieses Detektors (105a; 105b; 105c) und der Größe des Bildes die Größe des Objekts bestimmt wird, das der Objekthypothese dieses Detektors (105a; 105b; 105c) entspricht.
Verfahren nach Anspruch 18, dadurch gekennzeichnet, dass die Skalierung des Bildes, nach deren Maßgabe ein Detektionsereignis in der Häufigkeitsverteilung berücksichtigt wird, durch einen Faktor angepasst wird, der sich aus der relativen Größe des Detektorfensters ergibt, in dem das Objekt erkannt worden ist, in Bezug auf die Größe des Detektorfensters eines ausgewählten Detektors (105a; 105b; 105c) ergibt, wobei aus einer für ein lokales Maximum der Häufigkeitsverteilung bestimmten Skalierung, der Größe des Detektorfensters des ausgewählten Detektors (105a; 105b; 105c) und der Größe des Bildes die Größe des Objekts be stimmt wird, das dem lokalen Maximum zugeordnet wird.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass die vorgegebene Objektkategorie in Frontansicht abgebildete Kraftfahrzeuge, insbesondere PKW, umfasst.
Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass das Bild mittels eines Kamerasensors erfasst wird, der an einem Fahrzeug angeordnet und in Vorwärtsrichtung des Fahrzeugs ausgerichtet ist.
Computerprogrammprodukt, umfassend ein Computerprogramm, das Befehle zur Ausführung eines Verfahrens nach einem der vorangegangenen Ansprüche auf einem Prozessor aufweist.
System zum Erkennen eines Objekts einer vorgegebenen Objektkategorie in einem Bild, umfassend – wenigstens zwei Detektoren (105a; 105b; 105c), die jeweils zur Erkennung eines Objekts der vorgegebenen Objektkategorie mit einer vorgegebenen Objektgröße eingerichtet sind, wobei sich die Objektgrößen für die Detektoren (105a; 105b; 105c) unterscheiden, und – eine Auswerteeinrichtung (109), die dazu ausgebildet ist, eine Erkennung eines Objekts der vorgegebenen Objektkategorie innerhalb des Bildes festzustellen, wenn anhand der Auswertung des Bildes mittels wenigstens eines der Detektoren (105a; 105b; 105c) festgestellt wird, dass sich ein Objekt der vorgegebenen Objektkategorie in dem Bildes befindet.