-
Die vorliegende Erfindung betrifft eine Bildverarbeitungsvorrichtung, die Bilder verarbeitet, welche von einer Stereokamera aufgenommen wurden, und ein Objekt detektiert.
-
Allgemein ist es bei der Detektion eines Objekts durch Bilderkennung nicht einfach, ein rauchgraues Objekt wie beispielsweise Dampf oder Rauch bei einem Feuer, das nur geringe Änderungen in der Helligkeit oder Lichttextur hat, zu detektieren. Daher sind verschiedenartige Techniken vorgeschlagen worden, rauchgraue Objekte, die auf einem Bild wiedergegeben sind, zu erkennen.
-
Beispielsweise offenbart die
japanische Patentanmeldung Nr. 2004-30225 eine Technik zum Erkennen weißen Rauches durch Auflösen eines Farbbildes in R, G und B Komponenten, Erhalten von Farbtonbildern von Farbkomponentenbildern und Erhalten einer Schnittmenge der Farbkomponentenbilder und Farbtonbilder. Zudem wird mit der in der
japanischen Patentanmeldung Nr. 2004-30225 offenbarten Technik die Detektionsgenauigkeit verbessert durch Extrahieren eines Unterschiedes zwischen einem aktuellen Bild und einem Bild, das eine Zeit Δt vor dem aktuellen Bild aufgenommen wurde, um ein Objekt wie beispielsweise eine Wolke zu unterscheiden, die den gleichen Grad an Helligkeit wie weißer Rauch hat.
-
Die in der
japanischen Patentanmeldung Nr. 2004-30225 offenbarte Technik ist jedoch nicht auf monochromatische Bilder anwendbar und kann durch die Umgebung beeinflusst werden. Zudem, wenn eine Kamera auf einem beweglichen Körper montiert ist wie beispielsweise einem Fahrzeug oder einem mobilen Zimmerroboter, bewegt sich die Kamera selbst und ist daher durch einen Hintergrund beeinflusst, wodurch sie Schwierigkeiten dahingehend hat, Rauch präzise zu detektieren.
-
Im Hinblick auf das Vorstehende liegt der vorliegenden Erfindung damit die Aufgabe zugrunde, eine Bildverarbeitungsvorrichtung bereitzustellen, die ein rauchgraues Objekt präzise detektieren kann durch Eliminieren eines Einflusses eines Hintergrunds.
-
Zur Lösung dieser Aufgabe wird gemäß eines Aspektes der vorliegenden Erfindung eine Bildverarbeitungsvorrichtung bereitgestellt, die ein von einer Stereokamera aufgenommenes Bild verarbeitet und ein Objekt detektiert, wobei die Bildverarbeitungsvorrichtung aufweist: eine Zielobjektbereichspezifizierungseinheit, die Entfernungsdaten verwendet, welche durch Durchführen von Abgleichsverarbeitung des aufgenommenen Bildes durch die Stereokamera erhalten werden, und einen Bildbereich, in dem ein Objekt zu detektieren ist, als einen ein Objekt in einer gleichen Entfernung umgebenden Zielobjektbereich spezifiziert, eine Merkmalbetragextraktionseinheit, die eine räumliche Filterverarbeitung des Zielobjektbereichs durchführt und einen Bildmerkmalbetrag extrahiert, und eine Rauchdeterminierungseinheit, die festlegt, ob oder ob nicht ein Objekt in dem Zielobjektbereich ein rauchfarbiges Objekt ist, basierend auf dem Bildmerkmalbetrag in dem Zielobjektbereich.
-
Die Erfindung wird im Vorliegenden weiter erläutert anhand eines Ausführungsbeispiels unter Bezug auf die Zeichnungen, in denen
-
1 ein Schaubild einer Basiskonfiguration einer Bildverarbeitungsvorrichtung ist,
-
2 ein funktionales Blockschaubild zum Detektieren weißen Rauches ist,
-
3 eine beispielhafte Ansicht eines Zielobjektbereiches ist,
-
4A eine beispielhafte Ansicht ist, die ein Bild eines Objektes, das nicht Rauch ist, zeigt und 4B eine beispielhafte Ansicht ist, die ein Filterbild hiervon zeigt,
-
5A eine beispielhafte Ansicht ist, die ein Bild von Rauch zeigt, und 5B eine beispielhafte Ansicht ist, die ein Filterbild hiervon zeigt,
-
6A ein Histogramm der Kantenstärke eines anderen Objektes als Rauch zeigt und 6B eine kumulative Frequenz hiervon zeigt, und
-
7A ein Histogramm der Kantenstärke eines Bildes von Rauch zeigt und 7B eine kumulative Frequenz hiervon zeigt.
-
Ein Ausführungsbeispiel der vorliegenden Erfindung wird nun beschrieben unter Bezug auf die Zeichnungen.
-
Eine in 1 dargestellte Bildverarbeitungsvorrichtung 1 ist an einem beweglichen Körper, wie beispielsweise einem Fahrzeug oder einem mobilen Zimmerroboter angebracht. Die Bildverarbeitungsvorrichtung 1 erkennt ein Objekt durch dreidimensionale Bilderkennung und überträgt ein Erkennungsergebnis an eine nicht dargestellte Steuervorrichtung zur Ausführung verschiedenartiger Steuerungen. Die Basiskonfiguration dieser Bildverarbeitungsvorrichtung 1 beinhaltet eine Stereokamera 2 mit mehreren Kameras, eine Bildverarbeitungssteuerungseinrichtung 10, die von der Stereokamera 2 aufgenommene Bilder verarbeitet, und eine Erkennungsverarbeitungssteuerungseinrichtung 20, die ein Objekt erkennt, basierend auf Information von der Bildverarbeitungssteuerungseinrichtung 10.
-
Bei dem vorliegenden Ausführungsbeispiel weist die Stereokamera 2 zwei Kameras 2a und 2b mit Halbleiterbildelementen auf wie CCDs und CMOSs. Die Kameras 2a und 2b sind horizontal angeordnet, um eine parallele Stereoausrichtung zu erreichen, in der die Kamera 2a als Referenzkamera verwendet wird und die Kamera 2b als eine Vergleichskamera verwendet wird. Das heißt, die Kameras 2a und 2b sind horizontal so angeordnet, dass ihre optischen Achsen parallel zueinander sind mit einer vorbestimmten Basislänge (optisches Achsenintervall) dazwischen, und dass eine horizontale Abtastrichtung mit einer Epipolarlinie übereinstimmt.
-
Ein Paar Stereobilder, das von der Stereokamera 2 aufgenommen wurde, wird eingegeben und verarbeitet in der Bildverarbeitungssteuerungseinrichtung 10, um dreidimensionale Abstandinformationen zu berechnen. Die Bildverarbeitungssteuerungseinrichtung 10 sucht nach korrespondierenden Positionen eines identischen Objekts, reflektiert in einem Referenzbild, aufgenommen mittels der Referenzkamera 2a, und einem Vergleichsbild, aufgenommen von der Vergleichskamera 2b, um einen Verschiebungsbetrag der entsprechenden Positionen zwischen den Bildern als eine Disparität zu berechnen.
-
Die korrespondierenden Positionen zwischen dem Referenzbild und dem Vergleichsbild werden bestimmt durch Auswerten einer Korrelation zwischen den Bildern unter Verwendung beispielsweise eines bekannten Bereichsuchverfahrens. Genauer gesagt, ein kleiner Bereich (Block von 8×8 Pixel, beispielsweise) wird um einen bestimmten Punkt in dem Referenzbild bestimmt und ein kleiner Bereich der gleichen Größe wird um einen bestimmten Punkt des Vergleichsbildes bereitgestellt. Die Korrelation zwischen den Blöcken wird berechnet durch Verschieben der Blöcke auf dem Vergleichsbild zum Suchen der korrespondierenden Position. Unter Verwendung einer Summe von absoluter Differenz (SAD) eines Pixelwertes (allgemein, eines Helligkeitswertes jedes Pixels) zwischen einem Block auf dem Referenzbild und einem Block auf dem Vergleichsbild für eine evaluierte Funktion in dieser Korrelationsberechnung, wird ein Pixelverschiebungsbetrag in der horizontalen Richtung zwischen den Blöcken, der einen minimalen SAD-Wert bereitstellt, als eine Disparität zwischen den Blöcken verwendet.
-
Die Bildverarbeitungssteuerungseinrichtung 10 weist auch eine Funktion auf bezüglich des Steuerns einer Verschlussgeschwindigkeit jeder der Kameras 2a und 2b, wobei geometrische und optische Positionsverschiebungen zwischen den Kameras korrigiert werden und ein Helligkeitsabgleich zwischen den Bildern korrigiert wird.
-
Die Erkennungsverarbeitungssteuerungseinrichtung 20 konvertiert Werte der Bilder in einem zweidimensionalen Koordinatensystem in Werte in einem dreidimensionalen Koordinatensystem in einem realen Raum, basierend auf Positionsinformationen in den Bildern und Disparitätsinformationen, die von der Bildverarbeitungssteuerungseinrichtung 10 detektiert werden. Darüber hinaus führt die Erkennungsverarbeitungssteuerungseinrichtung 20 eine Objekterkennung durch durch Bestimmen von Daten an einer Position über einer Straßenoberfläche oder einer Bodenoberfläche, basierend auf Parametern wie zum Beispiel Befestigungsstellen und Winkeln der Kameras als Daten eines dreidimensionalen Objektes und Extrahieren der Daten.
-
Ziele der Objekterkennung bei dieser Erkennungsverarbeitungssteuerungseinrichtung 20 sind nicht nur feste oder flüssige Objekte, sondern auch eine Masse von Partikeln (rauchförmige Objekte), die im Raum schweben. Daher, wie in 2 gezeigt, weist die Erkennungsverarbeitungssteuerungseinrichtung 20 eine Zielobjektbereichspezifizierungseinheit 20a auf, eine Merkmalbetragextraktionseinheit 20b und eine Rauchdeterminierungseinheit 20c als Funktionen zum Ermöglichen der Erkennung von rauchförmigen Objekten.
-
Kurz gesagt, die Zielobjektbereichspezifizierungseinheit 20a spezifiziert einen Bereich eines Objekts, das ein Detektionsziel durch Eliminieren des Einflusses des Hintergrundes ist. Die Merkmalbetragextraktionseinheit 20b extrahiert einen Bildmerkmalbetrag zum Erkennen eines rauchförmigen Objekts in einem Zielobjektbereich. Die Rauchdeterminierungseinheit 20c bestimmt, ob das Objekt in dem Zielobjektbereich ein rauchförmiges Objekt ist oder ein Objekt anderer Art, basierend auf dem extrahierten Bildmerkmalbetrag.
-
Genauer gesagt, ein Zielobjektbereich wird spezifiziert wie folgt. Zuerst, als Vorverarbeitung, werden Daten kleiner Bereiche an Stellen oberhalb einer Straßenoberfläche oder einer Bodenfläche einer Gruppierung unterzogen, in der kleine Bereiche mit dreidimensionalen Abständen innerhalb eines vorbestimmten Grenzwerts bestimmt werden als ein identisches Objekt (Gruppierungsaufbereitung). Wenn die Gruppierungsaufbereitung aller kleinen Bereiche beendet ist, wird eine Gruppe als ein Objekt angesehen und ein durchschnittlicher Wert von Abständen von allen kleinen Bereichen, die zu der Gruppe gehören, wird als ein Abstand des Objektes angesehen.
-
Des Weiteren wird eine Gruppe, die als das identische Objekt angesehen wird, mit einem minimalen Wert und einem maximalen Wert in einer Bildkoordinate (horizontale und vertikale Richtungen) eingekreist und spezifiziert als ein Zielobjektbereich, in dem das Detektionszielobjekt reflektiert ist. 3 zeigt ein Beispiel des Zielobjektbereichs, in dem ein Detektionszielobjekt weißer Rauch ist, und eine Datengruppe (weißer Rauch) WS in einem gruppierten Bild ist eingekreist in einer rechtwinkligen Form an Enden in der horizontalen Richtung und vertikalen Richtung und der eingekreiste Bereich R wird spezifiziert als der Zielobjektbereich. In dem vorliegenden Ausführungsbeispiel wird der Zielobjektbereich als das Referenzbild gewählt.
-
Wenn der Zielobjektbereich spezifiziert ist, wird der Bildmerkmalbetrag des Zielobjektbereiches extrahiert. Daraufhin, basierend auf dem extrahierten Bildmerkmalbetrag, wird festgestellt, ob das in dem Bereich reflektierte Objekt Rauch ist oder ein Objekt anderer Art. Im Folgenden wird ein Fall beschrieben, als ein Beispiel, wo weißer Rauch ein detektiertes Ziel ist, das ein rauchförmiges Objekt ist.
-
Weißer Rauch hat die im Folgenden beschriebenen Merkmale und, indem diese Merkmale in Betracht gezogen werden, ist es möglich, zu bestimmen, ob das Objekt in dem Zielobjektbereich weißer Rauch ist oder nicht. Diese Merkmale können durch Anwenden eines räumlichen Filters auf den Zielobjektbereich extrahiert werden und weißer Rauch wird bestimmt unter Verwendung des extrahierten Bildmerkmalbetrages.
- – Die Lichtdurchlässigkeit oder der Kontrast nimmt ab.
- – Der Helligkeitswert konvergiert auf einen bestimmten Wert.
- – Der Bereich einer Helligkeitsverteilung verengt sich und die Dispersion von Helligkeit wird gering.
- – Der Durchschnittswert von Helligkeit wechselt von einem normalen Zustand, bei dem kein Rauch ist.
- – Der Summenbetrag von Rändern in einem Bereich nimmt ab.
-
Integralfilter wie beispielsweise ein Sobel-Filter oder ein Laplace-Filter zum Extrahieren von Rändern beziehungsweise Kanten und ein statistischer Filter zum Extrahieren von Werten wie beispielsweise einem Maximalwert, einem Minimalwert, einem Durchschnittswert, einer Dispersion und einem Moduswert werden verwendet als räumliche Filter, die auf den Zielobjektbereich anzuwenden sind. Der Merkmalbetrag wie beispielsweise ein Helligkeitsmoduswert oder ein Durchschnittswert der Kantenstärke in einem Bereich, extrahiert unter Verwendung dieser räumlichen Filter, kann klassifiziert werden in eines von einem Attribut des weißen Rauches oder einem Attribut eines anderen Objektes als weißen Rauches durch Durchführung von Clusterbildung oder Schwellenwertentscheidung in einem Merkmalsraum, wodurch es möglich ist, weißen Rauch präzise zu detektieren.
-
Des Weiteren ist weißer Rauch, der als ein Objekt detektiert wird, Rauch, der eine hohe Temperatur hat und nach oben steigt und sich daher leicht vertikal erstreckt. Demzufolge ist es möglich, den Einfluss des Hintergrundes zu eliminieren durch Abschneiden (Clipping) eines Bereichs (Zielobjektbereich), der weißen Rauch umgibt, unter Verwendung von Distanzdaten, die von Bildern der Stereokamera 2 mit den zwei horizontal angeordneten Kameras 2a und 2b erhalten werden, und Extrahieren des Merkmalbetrags, der zu dem weißen Rauch in dem Bereich gehört. Als ein Ergebnis hiervon kann weißer Rauch präzise detektiert werden.
-
Weißer Rauch und ein Objekt, das nicht weißer Rauch ist, können klassifiziert werden durch Teilen des Merkmalraums unter Verwendung einer bekannten Lernmaschine wie beispielsweise einer Unterstützungsvektormaschine (SVM) oder durch Teilen des Merkmalraums unter Verwendung eines Grenzwerts. Die erstere Divisionsmethode kann eine Verarbeitungszeit erhöhen, abhängig von der Kapazität der Erkennungsverarbeitungssteuerungseinrichtung 20, während die letztgenannte Divisionsmethode Hochgeschwindigkeitsverarbeitung durchführen kann mit einem relativ einfachen Verfahren. In dem vorliegenden Ausführungsbeispiel wird ein Beispiel beschrieben, bei dem ein Histogramm erzeugt wird aus dem absoluten Wert oder Durchschnittswert der Kantenstärke des Zielobjektbereichs und weißer Rauch und ein Objekt, das nicht weißer Rauch ist, klassifiziert werden basierend auf dem Histogramm unter Verwendung eines Grenzwerts.
-
Gemäß Klassifikation basierend auf Grenzwertentscheidung wird ein räumlicher Integralfilter, der eine Maske von 3 × 3 verwendet, auf jedes Pixel des Zielobjektbereiches angewandt, um ein Filterbild zu erhalten, das die Kanten des Bildes extrahiert, wie in den 4A bis 5B gezeigt. Wenn der räumliche Integralfilter auf das Bild eines Objekts A, das nicht weißer Rauch ist, wie in 4A gezeigt, angewandt wird, wird ein Filterbild (Kantenbild) A' erhalten, das in 4B gezeigt ist. Wenn der räumliche Integralfilter auf ein Bild von weißem Rauch B, das in 5A gezeigt ist, angewandt wird, wird ein Filterbild B' erhalten, das in 5B gezeigt ist. Das Filterbild B' von weißem Rauch B, das in 5B gezeigt ist, hat eine Kante, die heller ist als das Filterbild A' des normalen Objekts A, das in 4B gezeigt ist. Eine gestrichelte Linie in 5B zeigt an, dass die Kante hell ist.
-
Wenn das Filterbild erhalten wird, wird das Histogramm des absoluten Wertes oder Durchschnittswertes der Kantenstärke (des Grades des Helligkeitsgradienten) des Bildes erzeugt. Um den Einfluss von Rauschen des Bildes zu vermeiden, wird das Histogramm nur für Pixel erzeugt, die eine Kantenstärke gleich oder größer aufweisen als ein vorbestimmter Wert (beispielsweise werden Pixel mit der Kantenstärke < 3 als Rauschen angesehen und ausgeschlossen). Des Weiteren, wenn die Kantenstärke EN, deren kumulative Frequenz akkumulierender Frequenzen von einer oberen Klasse gleich ist oder höher als N% von dem Gesamten, gleich ist oder kleiner als ein Grenzwert S. wird das Objekt in dem Zielobjektbereich bestimmt als weißer Rauch.
-
Wenn beispielsweise ein Histogramm der Kantenstärke erzeugt wird von dem Filterbild des in 4B gezeigten Objektes A, das nicht weißer Rauch ist, wird ein Histogramm erhalten, das in 6A gezeigt ist. Wenn ein Histogramm der Kantenstärke erzeugt wird von dem Filterbild von weißem Rauch B in 5B, wird ein Histogramm erhalten, das in 7A gezeigt ist. Des Weiteren, wenn das Verhältnis zwischen den Kantenstärken und der kumulativen Frequenz, in der Frequenzen sequenziell addiert werden von einer oberen Klasse, berechnet wird für jedes der Histogramme, werden die Verhältnisse erhalten, die in den 6B und 7B gezeigt sind.
-
Beispielsweise werden Kantenstärken mit der kumulativen Frequenz gleich oder größer als 10% des Gesamten in den 6B und 7B berechnet. Kantenstärke E10A in 6B, wo die kumulative Frequenz 10% oder mehr ist im Fall des Objekts A, das kein weißer Rauch ist, ist offensichtlich größer dargestellt als Kantenstärke E10B, die in 7B gezeigt ist, wo die kumulative Frequenz 10% oder mehr ist in dem Fall des weißen Rauches B. Dementsprechend ist es möglich, zu bestimmen, ob ein Objekt weißer Rauch ist oder nicht, indem der Grenzwert S auf einen ungefähren Wert wie beispielsweise E10A > S > E10B gesetzt wird.
-
In diesem Falle kann eine Mehrzahl von Grenzwerten von Kantenstärken an Stelle eines Grenzwertes gesetzt werden und gespeichert werden in einer Tabelle gemäß der Helligkeit eines Bildes. Genauer gesagt, durch Berechnen eines Durchschnittswertes eines Helligkeitswertes aller Pixel in einem Zielobjektbereich und Setzen einer Vielzahl von Grenzwerten von Kantenstärken gemäß der durchschnittlichen Helligkeit ist es möglich, mit den Änderungen der Belichtungsumgebung umzugehen.
-
Somit wird bei dem vorliegenden Ausführungsbeispiel, wenn ein rauchartiges Objekt detektiert wird durch Bilderkennung unter Verwendung einer Stereokamera, ein Detektionsbereich spezifiziert, der auf ein Objekt in dem selben Abstand zielt, so dass es möglich ist, räumliche Merkmale zu extrahieren, aus denen Hintergrundinformationen ausgeschlossen werden und entschieden wird, ob ein Objekt ein rauchartiges Objekt ist oder nicht. Darüber hinaus muss einer zeitlichen Änderung eines Bildes nicht gefolgt werden, so dass es möglich ist, eine präzise Entscheidung durchzuführen selbst dann, wenn eine Kamera auf einen sich bewegenden Körper angebracht ist und sich bewegt.
-
Hierbei kann ein Entscheidungsergebnis stabilisiert werden unter Verwendung eines räumlichen Filters und eines zeitlichen Filters in Kombination. Wenn beispielsweise entschieden wird, dass Rauch 1 ist, und ein anderes Objekt als Rauch mit 0 bezeichnet wird, kann entschieden werden, dass, wenn ein Tiefpassfilter verwendet wird und, beispielsweise das Entscheidungsergebnis größer ist als 0,5, das Objekt Rauch ist.
-
ZUSAMMENFASSUNG DER OFFENBARUNG
-
Eine Bildverarbeitungsvorrichtung, die eine Basiskonfiguration verwendet mit einer Bildverarbeitungssteuerungseinrichtung, die von einer Stereokamera aufgenommenen Bilder verarbeitet, und eine Erkennungsverarbeitungssteuerungseinrichtung, die ein Objekt erkennt, basierend auf Information von der Bildverarbeitungssteuerungseinrichtung, verfügt über eine Zielobjektbereichspezifizierungseinheit 20a, eine Merkmalbetragextraktionseinheit 20b und eine Rauchdeterminierungseinheit 20c mit der Funktion des Ermöglichens einer Erkennung von rauchartigen Objekten. Die Zielobjektbereichspezifizierungseinheit 20a spezifiziert einen Bereich eines Objekts, das ein Detektionsziel ist, durch Auslöschen des Einflusses des Hintergrundes, die Merkmalbetragextraktionseinheit 20b extrahiert einen Bildmerkmalbetrag zum Erkennen eines rauchförmigen Objektes in einem Zielobjektbereich und die Rauchdeterminierungseinheit 20c entscheidet, ob das Objekt in dem Zielobjektbereich ein rauchförmiges Objekt ist oder ein Objekt, das kein rauchförmiges Objekt ist, basierend auf dem extrahierten Bildmerkmalbetrag.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- JP 2004-30225 [0003, 0003, 0004]