-
Die Erfindung betrifft ein Verfahren zur Umgebungsrepräsentation, bei dem jeweils zwei Bilder einer Umgebung aufgenommen werden und mittels Stereobildverarbeitung ein Disparitätsbild ermittelt wird.
-
Aus der
DE 10 2009 009 047 A1 ist ein Verfahren zur Objektdetektion bekannt, bei dem jeweils zwei Bilder einer Umgebung aufgenommen und mittels Stereobildverarbeitung ein Disparitätsbild ermittelt wird. Das Disparitätsbild wird auch als Entfernungsbild bezeichnet. Aus den ermittelten Disparitäten wird eine Tiefenkarte der Umgebung bestimmt, in der eine Freiraumbegrenzungslinie identifiziert wird, die einen hindernisfreien Bereich der Umgebung umgrenzt. Außerhalb und entlang der Freiraumbegrenzungslinie wird die Tiefenkarte segmentiert, indem Segmente einer geeigneten Breite aus Pixeln gleicher oder ähnlicher Entfernung zu einer Bildebene gebildet werden. Eine Höhe jedes Segments wird als Teil eines außerhalb des hindernisfreien Bereichs befindlichen Objekts geschätzt, so dass jedes Segment durch die zweidimensionale Position seines Fußpunkts, gegeben durch Entfernung und Winkel zur Fahrzeuglängsachse, und seine Höhe charakterisiert wird. Das Disparitätsbild und die Tiefenkarte beschreiben und repräsentieren die Umgebung dreidimensional.
-
Der Erfindung liegt die Aufgabe zu Grunde, ein gegenüber dem Stand der Technik verbessertes Verfahren zur Umgebungsrepräsentation anzugeben.
-
Die Aufgabe wird erfindungsgemäß mit einem Verfahren gelöst, welches die im Anspruch 1 angegebenen Merkmale aufweist.
-
Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
-
In einem Verfahren zur Umgebungsrepräsentation werden jeweils zwei Bilder einer Umgebung aufgenommen und mittels Stereobildverarbeitung wird ein Disparitätsbild ermittelt.
-
Erfindungsgemäß wird im Disparitätsbild ein hindernisfreier Freiraum identifiziert, indem jeder Bildpunkt des Disparitätsbilds in Abhängigkeit von Disparitätswerten des jeweiligen Bildpunkts entweder einer hindernisfreien Bodenoberfläche oder einem von mehreren Segmenten zugewiesen wird. Dabei werden Segmente gleicher Breite aus Bildpunkten gleicher oder ähnlicher Entfernung zu einer Ebene gebildet, wobei anhand eines Segments oder mehrerer Segmente ein außerhalb des Freiraums befindliches Objekt in der Umgebung modelliert wird.
-
Die durch das Disparitätsbild beschriebene dreidimensionale Umgebung wird durch den hindernisfreien Freiraum approximiert. Der Freiraum ist beispielsweise ein befahrbarer Bereich, der jedoch nicht zwingend planar sein muss. Der Freiraum wird begrenzt durch die stabartigen Segmente, die in ihrer Gesamtheit die den Freiraum umgebenden Objekte modellieren. Diese Segmente stehen im einfachsten Fall auf dem Boden und approximieren eine mittlere Höhe des Objekts im Bereich des jeweiligen Segments. Objekte mit variabler Höhe, beispielsweise Radfahrer von der Seite, werden so durch eine stückweise konstante Höhenfunktion beschrieben.
-
Die Segmente, welche auch als Stixel bezeichnet werden, stellen eine kompakte und robuste Repräsentation der Objekte dar und erfordern nur ein begrenztes Datenvolumen. Zu jedem Stixel sind Ort und Höhe gespeichert. Diese Repräsentation eignet sich in besonders vorteilhafter Weise für gegebenenfalls nachfolgende Schritte, wie eine Objektbildung und eine Szeneninterpretation. Die Stixel-Repräsentation stellt eine ideale Schnittstelle zwischen applikationsunabhängiger Stereoanalyse und applikationsspezifischen Auswertungen dar.
-
Die erfindungsgemäße Identifizierung des hindernisfreien Freiraums direkt aus dem Disparitätsbild ermöglicht es in besonders vorteilhafter Weise gegenüber dem Stand der Technik, dass eine zusätzliche Ermittlung einer Tiefenkarte zur Ermittlung des Freiraums nicht erforderlich ist. Somit ist ein Verarbeitungsaufwand verringert und verarbeitungsrelevante Ressourcen können eingespart werden. Weiterhin kann aufgrund der Identifizierung des Freiraums direkt aus dem Disparitätsbild eine optimale Repräsentation durch globale Optimierung anhand eines flexibel definierbaren Fehlermaßes ermittelt werden.
-
Weiterhin resultiert daraus, dass jeder Bildpunkt entweder der hindernisfreien Bodenoberfläche oder einem Segment zugeordnet wird, dass mehrere Objekte in einer Bildspalte oder einem Bildstreifen zugelassen werden, so dass die Repräsentation der Umgebung vollständig ohne Fehlstellen erfolgt. Somit ist es auch möglich, Objekte „in zweiter Reihe” zu repräsentieren. Mit anderen Worten: Da nicht nur das „wahrscheinlichste” Objekt gesucht wird, sondern alle Objekte berücksichtigt werden, besteht nicht die Gefahr, dass große Hintergrundobjekte kleinere und möglicherweise bedeutende Objekte im Disparitätsbild verdecken.
-
Auch wird durch das erfindungsgemäße Verfahren in seiner Gesamtheit eine Auftrittswahrscheinlichkeit von falsch positiven Stixeln signifikant reduziert und eine effektive Reichweite der Stereoanalyse, d. h. der Stereobildverarbeitung signifikant erhöht. Die Erhöhung liegt insbesondere in einem Bereich von 50% bis 100%. Ist eine Erhöhung der effektiven Reichweite nicht erforderlich, ist es in besonders vorteilhafter Weise möglich, dass eine Basisbreite zwischen den die zwei Bilder erfassenden Bilderfassungseinheiten verringerbar ist, so dass geringere Einbauräume erforderlich sind und Designvorteile erzielt werden können.
-
Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert.
-
Dabei zeigen:
-
1 schematisch eine zweidimensionale Darstellung einer Umgebung eines Fahrzeugs mit einem hindernisfreien Freiraum und einer Anzahl von Segmenten zur Modellierung von Objekten in der Umgebung nach dem Stand der Technik und
-
2 schematisch eine zweidimensionale Darstellung einer Umgebung eines Fahrzeugs mit einem hindernisfreien Freiraum und einer Anzahl von Segmenten zur Modellierung von Objekten in der Umgebung nach dem erfindungsgemäßen Verfahren.
-
Einander entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen versehen.
-
In 1 ist eine zweidimensionale Darstellung einer Umgebung U eines nicht gezeigten Fahrzeugs mit einem hindernisfreien Freiraum F und einer Anzahl von Segmenten S1 bis Sm zur Modellierung von Objekten O1 bis Ok in der Umgebung U nach dem Stand der Technik dargestellt.
-
Die Segmente S1 bis Sm, auch als Stixel bezeichnet, modellieren die Objekte O1 bis Ok, welche den definierten hindernisfreien Freiraum F begrenzen. Zur Erstellung der gezeigten Darstellung kommt ein aus der
DE 10 2009 009 047 A1 bekanntes Verfahren zur Objektdetektion zum Einsatz.
-
Dabei werden zunächst jeweils zwei Bilder der Umgebung U aufgenommen und mittels Stereobildverarbeitung wird ein Disparitätsbild ermittelt. Aus den ermittelten Disparitäten wird eine Tiefenkarte der Umgebung U bestimmt.
-
Es wird eine nicht näher dargestellte Freiraumbegrenzungslinie identifiziert, die den hindernisfreien Freiraum F der Umgebung U umgrenzt. Außerhalb und entlang der Freiraumbegrenzungslinie wird die Tiefenkarte segmentiert, indem die Segmente S1 bis Sm mit einer vorgegebenen Breite aus Bildpunkten, auch als Pixel bezeichnet, gleicher oder ähnlicher Entfernung zu einer Bildebene einer Bilderfassungserfassungseinheit oder mehrerer Bilderfassungseinheiten gebildet werden. Die Bilderfassungseinheiten sind Kameras.
-
Eine Approximation der gefundenen Freiraumbegrenzungslinie in die Segmente S1 bis Sm mit beliebig vorgegebener Breite, welche stabartig ausgebildet sind, liefert eine Entfernung der Segmente S1 bis Sm. Bei bekannter Orientierung der Bilderfassungseinheit zur Umgebung U, wie im dargestellten Beispiel einer Straße vor einem Fahrzeug, an dem die Bilderfassungseinheit angeordnet ist, und bekanntem dreidimensionalen Verlauf ergibt sich ein jeweiliger Fußpunkt der Segmente S1 bis Sm im Bild.
-
Anschließend wird eine Höhe jedes Segments S1 bis Sm geschätzt, so dass jedes Segment S1 bis Sm durch eine zweidimensionale Position eines Fußpunkts und seine Höhe charakterisiert wird.
-
Die Schätzung der Höhe erfolgt in einer dynamischem Programmierung mittels histogrammbasierter Auswertung aller dreidimensionalen Punkte im Bereich des jeweiligen Segments S1 bis Sm.
-
Bereiche, die keine Segmente S1 bis Sm aufweisen, sind solche, in denen von der Freiraumanalyse keine Objekte O1 bis Ok gefunden wurden.
-
Nachteilig ist, dass keine Segmente S1 bis Sm generiert werden, wenn kleine oder weiter entfernte Objekte O1 bis Ok bei der Analyse der Tiefenkarte nicht erfasst werden. Dies resultiert daraus, dass kleine Objekte O1 bis Ok mit einer geringen Zahl von Disparitäts-Messwerten nur eine geringe Signalstärke liefern durch das Rauschen überdeckt werden. Deshalb nimmt die Detektionswahrscheinlichkeit der Objekte O1 bis Ok mit der Entfernung ab und es entstehen „Löcher” in der so genannten Stixel-Welt, da nicht jeder Bildpunkt zugeordnet werden kann.
-
Falls es in einer Spalte der Tiefenkarte bei entsprechendem Blickwinkel mehrere Objekte O1 bis Ok gibt, entscheidet sich der Algorithmus für das nächstliegende der Objekte O1 bis Ok. Um eine Robustheit gegenüber Störungen zu erzielen, wird eine Evidenz der konkurrierenden Zellen mit bewertet. Dabei ist maximal ein Segment S1 bis Sm pro Spalte des Disparitätsbilds möglich, so dass in nachteiliger Weise eine Beschränkung auf eine Ebene pro Spalte vorliegt. In seltenen, aber in der Praxis relevanten Fällen kann beispielsweise ein Haus einen vor diesem befindlichen Zaun maskieren, so dass dieser nicht detektiert werden kann und somit nicht mehr sichtbar ist. Da nur das nächstliegende Objekt O1 bis Ok repräsentiert wird, können teilverdeckte Objekte O1 bis Ok, wie beispielsweise hinter einem Fahrzeug befindliche Fußgänger, nicht repräsentiert werden.
-
Weiterhin müssen die Segmente S1 bis Sm auf der Bodenoberfläche B stehen. Das kann bei mit der Höhe ausladenden Objekten zu falschen Interpretationen führen.
-
Zudem können Störungen in der Tiefenkarte zu falsch positiven Segmenten S1 bis Sm führen.
-
2 zeigt eine zweidimensionale Darstellung der gleichen Umgebung U wie in 1 mit einem hindernisfreien Freiraum F und einer Anzahl von Segmenten S1 1 bis Sn u zur Modellierung der Objekte O1 bis Ok in der Umgebung U nach dem erfindungsgemäßen Verfahren.
-
Im Unterschied zu dem aus dem Stand der Technik bekannten Verfahren nach
1 gemäß der
DE 10 2009 009 047 A1 wird gemäß des erfindungsgemäßen Verfahrens der Schritt über die Tiefenkarte nicht mehr benötigt.
-
Es werden zwar ebenfalls zunächst jeweils zwei Bilder der Umgebung U mittels der Bilderfassungseinheiten aufgenommen und mittels Stereobildverarbeitung wird ein Disparitätsbild ermittelt. Die Bilderfassungseinheiten sind Kameras, können jedoch auch als Photomischdetektor, dreidimensionale Kamera, Lidar und/oder Radar ausgebildet sein. Beispielsweise kann zur Stereobildverarbeitung das in „H. Hirschmüller: Accurate and efficient stereo processing by semi-global matching and mutual information. CVPR 2005, San Diego, CA. Volume 2. (June 2005), pp. 807–814” beschriebene Verfahren verwendet werden.
-
Jedoch wird der hindernisfreie Freiraum F direkt im Disparitätsbild identifiziert, indem jeder Bildpunkt des Disparitätsbilds in Abhängigkeit von Disparitätswerten des jeweiligen Bildpunkts entweder der hindernisfreien Bodenoberfläche B oder einem von mehreren Segmenten S1 1 bis Sn u zugewiesen wird. Die zugrunde liegende geometrische Annahme ist, dass in der Regel eine Tiefenstaffelung der Objekte O1 bis Ok in mehreren Ebenen E1 bis En existiert. Das heißt, es besteht die Möglichkeit, dass in einer Spalte des Disparitätsbilds mehrere Objekte O1 bis Ok dargestellt sein können. Um diese Tiefenstaffelung darstellen zu können, werden je nach Anzahl der Ebenen E1 bis En in der jeweiligen Spalte mehrere Segmente S1 1 bis Sn u in der betreffenden Spalte des Disparitätsbilds übereinander angeordnet. Dabei gibt der Index n eine Segmentnummer in der jeweiligen Spalte des Disparitätsbilds an und der Index u, der so genannte Bildspaltenindex, die Nummer der jeweiligen Spalte im Disparitätsbild. Im dargestellten Ausführungsbeispiel ist das Disparitätsbild in drei Ebenen E1 bis E3 unterteilt.
-
Der Freiraum F wird dabei von den die Objekte O1 bis Ok modellierenden Segmenten S1 1 bis Sn u begrenzt. Da jeder Bildpunkt zugeordnet wird, entstehen keine „Löcher” in der so genannten Stixel-Welt. Das heißt, wie im dargestellten Ausführungsbeispiel gezeigt, können alle Objekte O1 bis Ok in der Umgebung U repräsentiert werden, wobei eine effektive Reichweite der Stereobildverarbeitung signifikant erhöht wird, so dass auch weiter entfernte Objekte O1 bis Ok erfasst werden können.
-
Hierbei werden die Segmente S1 1 bis Sn u gleicher Breite aus Bildpunkten gleicher oder ähnlicher Entfernung zu einer Bildebene der Bilderfassungseinheit, mittels welcher die Bilder erfasst werden, gebildet. Mittels der Segmente S1 1 bis Sn u werden wiederum die Objekte O1 bis Ok außerhalb des Freiraums F modelliert. Jedes Segment S1 1 bis Sn u wird dabei durch eine zweidimensionale Position eines Fußpunkts und seine Höhe charakterisiert. Die Segmente S1 1 bis Sn u in nicht näher dargestellter Weise zusätzlich oder alternativ zu der gezeigten vertikalen Anordnung auch horizontal angeordnet sein.
-
Bei der dargestellten Anordnung mehrerer Segmente S1 1 bis Sn u in einer Spalte übereinander ist eine besonders genaue Analyse einer Unterkante und Oberkante des jeweiligen Segments S1 1 bis Sn u erforderlich. Das heißt, neben den vertikalen Grenzen der Segmente S1 1 bis Sn u werden auch deren horizontale Grenzen bestimmt.
-
Die horizontalen und vertikalen Grenzen der Segmente S1 1 bis Sn u werden mittels mathematischer Optimierung eines Energiefunktionals aus den Disparitätswerten der Bildpunkte bestimmt. Dabei wird vorzugsweise ein quadratisches Energiefunktional verwendet. Dies ist jedoch nicht zwingend erforderlich.
-
Besonders bevorzugt wird zur mathematischen Optimierung eine dynamische Programmierung verwendet, wobei bei der dynamischen Programmierung benachbarte Spalten unabhängig voneinander bestimmt werden. Aufgrund der voneinander unabhängigen Bestimmung der Segmente S1 1 bis Sn u handelt es sich um ein eindimensionales Problem, welches mittels der dynamischen Programmierung besonders effizient gelöst werden kann. Die dynamische Programmierung wird beispielsweise gemäß „David Gallup, Marc Pollefeys and Jan-Michael Frahm: 3d reconstruction using an n-layer heightmap; In: Proc. DAGM, pages 1–10, September 2010” durchgeführt.
-
Um eine besonders aussagekräftige Repräsentation der Umgebung U zu erzeugen, werden den Segmenten S1 1 bis Sn u vielfältige Attribute zugeordnet. Hierzu werden in dem zu optimierenden Funktional Bewegungsinformationen, die Zugehörigkeit zu bestimmten Objektklassen, Grauwertinformationen und Farbinformationen des jeweiligen Bildpunktes berücksichtigt. Weiterhin wird eine Zugehörigkeit der Segmente S1 1 bis Sn u zu einem oder mehreren Objekten O1 bis Ok bestimmt und die Segmente S1 1 bis Sn u werden mit Informationen über ihre Zugehörigkeit versehen.
-
Die Bewegungsinformationen, welche eine Bewegung im Raum wiedergeben, werden vorzugsweise durch Integration eines optischen Flusses des jeweiligen Bildpunkts ermittelt und jedem Segment S
1 1 bis S
n u als Bewegungsvektor zugeordnet, wobei hierzu mehrere Disparitätsbilder sequentiell ermittelt und verarbeitet werden und der optische Fluss aus Veränderungen in aufeinanderfolgenden Disparitätsbildern ermittelt wird. Somit lässt sich für jedes der Segmente S
1 1 bis S
n u eine reale Bewegung schätzen. Entsprechende Verfahren sind z. B. aus Arbeiten zur 6D-Vision, welche in der
DE 10 2005 008 131 A1 veröffentlicht sind, bekannt. Diese Bewegungsinformation vereinfacht werter die Gruppierung zu Objekten O1 bis Ok, da auf kompatible Bewegungen geprüft werden kann.
-
Aufgrund der Kenntnis und der Möglichkeit der Verarbeitung von Bewegungsinformationen können auch bewegte Szenen repräsentiert werden und beispielsweise zur Prognose einer zu erwartenden Bewegung der Objekte O1 bis Ok verwendet werden. Diese Art von Bewegungsverfolgung ist auch als Tracking bekannt. Dabei wird zur Bestimmung der Bewegung der Segmente S1 1 bis Sn u eine Fahrzeug-Eigenbewegung ermittelt und zur Kompensation herangezogen. Die Kompaktheit und Robustheit der Segmente S1 bis Sm resultiert aus der Integration vieler Bildpunkte im Bereich des jeweiligen Segments S1 1 bis Sn u und – bei Verwendung des Trackings – aus der zusätzlichen Integration über die Zeit.
-
Die Position eines Fußpunkts des jeweiligen Segments S1 1 bis Sn u, die Höhe und die Bewegungsinformation des Segments S1 1 bis Sn u werden vorzugsweise mittels des so genannten Scene Flow ermittelt. Beim Scene Flow handelt es sich um eine Klasse von Verfahren, die aus mindestens zwei aufeinander folgenden Stereobildpaaren versucht, für möglichst jeden Bildpunkt eine korrekte Bewegung im Raum und seine dreidimensionale Position zu ermitteln.
-
Die Segmente S1 1 bis Sn u besitzen eindeutige Nachbarschaftsbeziehungen, wodurch sie sich sehr einfach zu Objekten O1 bis Ok gruppieren lassen. Im einfachsten Fall sind zu jedem Segment S1 1 bis Sn u nur Entfernung und Höhe zu übertragen, bei bekannter Breite des Segments S1 1 bis Sn u ergibt sich ein Winkel, d. h. die Spalten im Bild, aus einem Index.
-
Die dargestellte Stixel-Welt, welche eine so genannte Multi-Layer-Stixel-Welt ist, repräsentiert die geometrische Situation in der Umgebung U und eignet sich in besonderer Weise auch für weitere Verarbeitungsschritte.
-
Dabei können auf der Basis der identifizierten Segmente S1 1 bis Sn u Informationen für ein Fahrerassistenzsystem in einem Fahrzeug generiert werden, an welchem die Bilderfassungseinheiten zur Aufnahme der Bilder angeordnet sind.
-
Beispielsweise ist eine Anwendung zur Aufmerksamkeitssteuerung oder zur Planung bei automatisiert bewegten Fahrzeugen anhand des ermittelten Freiraums F möglich.
-
Auch kann eine verbleibende Zeit bis zur Kollision des Fahrzeugs mit einem durch die Segmente S1 1 bis Sn u repräsentierten Objekt O1 bis Ok geschätzt werden. Weiterhin kann ein Fahrkorridor in den hindernisfreien Freiraum F gelegt werden, der vom Fahrzeug benutzt werden soll, wobei ein seitlicher Abstand mindestens eines der Objekte O1 bis Ok zum Fahrkorridor ermittelt wird.
-
Ebenso werden kritische, insbesondere bewegte Objekte O1 bis Ok zur Unterstützung eines Abbiegeassistenzsystems, einer automatischen Fahrlichtschaltung, eines Fußgängerschutzsystems und eines Notbremssystems identifiziert.
-
Zudem werden Informationen weiterer Sensoren mit den Informationen zur Unterstützung des Fahrerassistenzsystems, die den Segmenten S1 1 bis Sn u zugeordnet sind, im Rahmen einer Sensorfusion kombiniert. Insbesondere kommen hierfür aktive Sensoren, wie zum Beispiel ein Lidar, in Frage.
- B
- Bodenoberfläche
- E1
- Ebene
- E2
- Ebene
- E3
- Ebene
- F
- Freiraum
- O1 bis Ok
- Objekt
- S1 bis Sm
- Segment
- S1 1 bis Sn u
- Segment
- U
- Umgebung
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 102009009047 A1 [0002, 0019, 0031]
- DE 102005008131 A1 [0040]
-
Zitierte Nicht-Patentliteratur
-
- H. Hirschmüller: Accurate and efficient stereo processing by semi-global matching and mutual information. CVPR 2005, San Diego, CA. Volume 2. (June 2005), pp. 807–814 [0032]
- David Gallup, Marc Pollefeys and Jan-Michael Frahm: 3d reconstruction using an n-layer heightmap; In: Proc. DAGM, pages 1–10, September 2010 [0038]