DE102018109680A1

DE102018109680A1 - Verfahren zum Unterscheiden von Fahrbahnmarkierungen und Bordsteinen durch parallele zweidimensionale und dreidimensionale Auswertung; Steuereinrichtung; Fahrassistenzsystem; sowie Computerprogrammprodukt

Info

Publication number: DE102018109680A1
Application number: DE102018109680.1A
Authority: DE
Inventors: Ganesh Sistu; Senthil Kumar Yogamani; Jonathan Horgan
Original assignee: Connaught Electronics Ltd
Current assignee: Connaught Electronics Ltd
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2019-10-24

Abstract

Die Erfindung betrifft ein Verfahren zum Unterscheiden von Fahrbahnmarkierungen (7) und Bordsteinen (8) in einer Umgebung (U) eines Kraftfahrzeugs (1) mit einem Kamerasystem (2) des Kraftfahrzeugs (1). Durch die folgenden Schritte wird diese Unterscheidung mit verbesserter Genauigkeit zu ermöglicht:- Bereitstellen zweier Bilder (4) der Umgebung (U) durch das Kamerasystem (2) des Kraftfahrzeugs (1), wobei sich eine jeweilige Perspektive der zwei Bilder (4) unterscheidet,- Bestimmen zumindest eines zweidimensionalen Merkmals (42) zumindest in einem (5) der zwei Bilder (4), wobei das zumindest eine zweidimensionale Merkmal (42) ein Objekt (6) in der Umgebung (U) des Kraftfahrzeugs (1) repräsentiert,- Auswerten des zumindest einen zweidimensionalen Merkmals (42) mittels eines künstlichen neuronalen Netzes (33),- Extrahieren einer Tiefeninformation aus den zwei Bildern (4) der Umgebung (U), und- Klassifizieren des Objekts (6) in der Umgebung entweder als Fahrbahnmarkierung (7) oder als Bordstein (8) sowohl anhand eines Ergebnisses (40) beim Auswerten des zweidimensionalen Merkmals (42) als auch anhand der Tiefeninformation.

Description

Die Erfindung betrifft ein Verfahren zum Unterscheiden von Fahrbahnmarkierungen und Bordsteinen in einer Umgebung eines Kraftfahrzeugs mit einem Kamerasystem des Kraftfahrzeugs, wobei zumindest zwei Bilder der Umgebung bereitgestellt werden, die mit dem Kamerasystem aufgenommen werden, wobei sich eine jeweilige Perspektive der zumindest zwei Bilder unterscheidet. Die Erfindung betrifft außerdem eine Steuereinrichtung zum Beurteilen von Objekten in einer Umgebung eines Kraftfahrzeugs und ein Fahrerassistenzsystem mit einer solchen Steuereinrichtung sowie ein Computerprog ram m produ kt.
Aus dem Stand der Technik bekannt ist es, eine Umgebung eines Kraftfahrzeugs mittels einer oder mehrerer Kameras zu erfassen. Beispielsweise werden Bilder der Umgebung erfasst und auf in der Umgebung befindliche Objekte hin ausgewertet. Beispiele hierfür sind Kameras an der Front und/oder am Heck des Fahrzeugs, welche einen dem Fahrzeug vorausliegenden oder rückwärtigen Bereich erfassen. Informationen, insbesondere über Objekte in der Umgebung des Kraftfahrzeugs, können einem Fahrerassistenzsystem des Kraftfahrzeugs bereitgestellt werden. Beispiele für Objekte, welche erfasst werden können sind unter anderem Fahrbahnmarkierungen, Bordsteine beziehungsweise Randsteine, Fußgänger, andere Verkehrsteilnehmer oder jegliche Art von Hindernissen in der Umgebung des Kraftfahrzeugs.
Ein zentrales Problem bei der Erfassung der Umgebung des Kraftfahrzeugs stellt dabei die Unterscheidung von Fahrbahnmarkierungen und Bordsteinen dar. Fahrbahnmarkierungen sowie Bordsteine können aufgrund ähnlicher Merkmale oftmals nur schwer voneinander unterschieden werden.
Um eine verbesserte Unterscheidung von Fahrbahnmarkierungen und Bordsteinen zu ermöglichen, offenbart die US 2016/0104047 A1 ein Verfahren, bei welchem anhand zweier Bilder einer Umgebung des Kraftfahrzeugs ein Bordstein erkannt werden kann. Hierbei werden in zwei nacheinander aufgenommenen Top-View-Bildern Linien erkannt und für diese ein optischer Fluss zwischen den beiden nacheinander aufgenommenen Bildern berechnet. Anhand dieses optischen Flusses können Bordsteine und Fahrbahnmarkierungen unterschieden werden.
Es ist Aufgabe der vorliegenden Erfindung, eine Unterscheidung von Fahrbahnmarkierungen und Bordsteinen in einer Umgebung eines Kraftfahrzeugs mit verbesserter Genauigkeit zu ermöglichen.
Diese Aufgabe wird erfindungsgemäß gelöst durch die Gegenstände der unabhängigen Patentansprüche. Vorteilhafte Ausführungsformen mit zweckmäßigen Weiterbildungen sind Gegenstand der Unteransprüche.
Die Erfindung beruht auf einem Verfahren zum Unterscheiden von Fahrbahnmarkierungen und Bordsteinen beziehungsweise Randsteinen in einer Umgebung eines Kraftfahrzeugs mit einem Kamerasystem des Kraftfahrzeugs. Dabei liegen dem Verfahren die folgenden Schritte zugrunde:

Bereitstellen zweier Bilder der Umgebung durch das Kamerasystem des Kraftfahrzeugs, wobei sich eine jeweilige Perspektive der zwei Bilder unterscheidet, Bestimmen zumindest eines zweidimensionalen Merkmals zumindest in einem der zwei Bilder, wobei das zumindest eine zweidimensionale Merkmal ein Objekt in der Umgebung des Kraftfahrzeugs repräsentiert, Auswerten des zumindest einen zweidimensionalen Merkmals mittels eines künstlichen neuronalen Netzes, Extrahieren einer Tiefeninformation aus den zwei Bildern der Umgebung und Klassifizieren des Objekts in der Umgebung entweder als Fahrbahnmarkierung oder als Bordstein sowohl anhand eines Ergebnisses beim Auswerten des zweidimensionalen Merkmals als auch anhand der Tiefeninformation.

Insbesondere handelt es sich bei den zwei Bildern der Umgebung um einen sogenannten Front-View, also eine Darstellung eines dem Kraftfahrzeug vorausliegenden Bereichs. Somit kann die jeweilige Perspektive der zwei Bilder gemäß einer Fahrtrichtung des Kraftfahrzeugs ausgerichtet sein. Ein Erfassungsbereich des Kamerasystems kann im Wesentlichen einen dem Kraftfahrzeug in Fahrtrichtung vorausliegenden Bereich der Umgebung umfassen. Mit anderen Worten wird anhand der zwei Bilder der Umgebung vorteilhafterweise ein dem Kraftfahrzeug vorausliegender Bereich der Umgebung erfasst.
Das zweidimensionale Merkmal ist insbesondere ein Merkmal in der zweidimensionalen Bildebene des jeweiligen Bildes. In der Bildebene können Merkmale nur zweidimensional bestimmt und ausgewertet werden. Zweidimensional bedeutet dabei insbesondere, dass eine Ausdehnung beziehungsweise eine Auswertung des Merkmals nur bezüglich zwei unabhängiger (also insbesondere rechtwinkliger) Raumrichtung vorliegt. Diese zwei Raumrichtungen (beispielsweise definiert durch eine x-Achse sowie eine y-Achse) können die Bildebene des jeweiligen Bildes aufspannen. Mit anderen Worten liegen diese beiden Raumrichtungen (insbesondere x-Achse und y-Achse) in der Bildebene des jeweiligen Bildes. Eine dritte Raumrichtung (beispielsweise definiert durch eine z-Achse), welche unabhängig von den zuvor genannten Achsen (x-Achse und y-Achse) ist und insbesondere rechtwinklig zu diesen verläuft, kann in einem einzelnen der zwei Bilder der Umgebung nicht repräsentiert sein, da diese zweidimensional sind und daher einzeln keine Information betreffend der dritten Raumrichtung aufweisen.
Diese Information betreffend die dritte Raumrichtung (z-Achse) wird vorliegend als die Tiefeninformation bezeichnet. Die Tiefeninformation kann Abstände und Längenverhältnisse bezogen auf die dritte Raumrichtung (z-Achse) beinhalten. Die dritte Raumrichtung (z-Achse) verläuft insbesondere parallel zu einer Erfassungsrichtung der jeweiligen Kamera durch welche das jeweilige Bild erfasst beziehungsweise aufgenommen wird. Mit anderen Worten beschreibt die Tiefeninformation auf abstrakte oder konkrete Weise den Abstand von Bildinhalten oder Merkmalen von der Kamera. Die Tiefeninformation kann aus den zwei Bildern der Umgebung extrahiert werden, da diese eine jeweils unterschiedliche Perspektive auf die Umgebung aufweisen. Somit ist jedes der zwei Bilder für sich genommen zweidimensional und ohne die Tiefeninformation. Werden die zwei Bilder jedoch gemeinsam ausgewertet, kann die Tiefeninformation aus diesen extrahiert werden.
Als Objekte im Sinne der vorliegenden Erfindung gelten insbesondere eine Fahrbahnmarkierung und/oder ein Bordstein. Mit anderen Worten werden zweidimensionale Merkmale in dem zumindest einen der zwei Bilder bestimmt, welche eine Fahrbahnmarkierung und/oder einen Bordstein repräsentieren. Diese zweidimensionalen Merkmale werden durch ein künstliches neuronales Netz dahingehend ausgewertet, ob diese zweidimensionalen Merkmale eine Fahrbahnmarkierung oder einen Bordstein repräsentieren. Das künstliche neuronale Netz kann zuvor anhand von Trainingsdaten angelernt werden beziehungsweise angelernt worden sein. Die Trainingsdaten können eine Vielzahl an Bildern von Fahrbahnmarkierungen und/oder Bordsteinen umfassen, welche von ihrer Art und Perspektive den zwei Bildern der Umgebung, welche durch das Kamerasystem bereitgestellt werden, nachempfunden sind. In den Bildern der Trainingsdaten sind Fahrbahnmarkierungen und Bordsteine, beispielsweise durch einen Nutzer oder Hersteller einer Steuereinrichtung beziehungsweise eines Fahrassistenzsystems oder eines Kraftfahrzeugs mit einem solchen Fahrassistenzsystem, bereits markiert. Somit kann das künstliche neuronale Netz bei dem Vorgang des Anlernens lernen, anhand der zweidimensionalen Merkmale Fahrbahnmarkierungen und/oder Bordsteine zu erkennen, und insbesondere diese voneinander zu unterscheiden. Zum Verbessern der Genauigkeit beim Anlernen, können falsch zugeordnete zweidimensionale (oder in nachfolgend beschriebenen Ausführungsformen auch falsch zugeordnete dreidimensionale) Merkmale, welche fehlerhaft erkannt werden, zum weiteren Anlernen genutzt werden. Dieses Vorgehen wird auch als Hard Negative Mining, zu Deutsch in etwa Nutzung falscher Zuordnungen, bezeichnet.
Das Bestimmen des zumindest einen zweidimensionalen Merkmals in dem zumindest einen der zwei Bilder kann durch eine Erkennungseinheit beziehungsweise einen Eingangsteil des künstlichen neuronalen Netzes erfolgen. Ein solcher Eingangsteil des künstlichen neuronalen Netzes wird auch mit dem Fachbegriff CNN-Encoder bezeichnet. Diese Erkennungseinheit beziehungsweise dieser Eingangsteil kann dazu ausgebildet sein, das zumindest eine zweidimensionale Merkmal in dem zumindest einen der zwei Bilder zu bestimmen. Zusätzlich kann der Eingangsteil beziehungsweise die Erkennungseinheit das zumindest eine zweidimensionale Merkmal für die Auswertung durch das künstliche neuronale Netz aufbereiten. Das zumindest eine zweidimensionale Merkmal kann durch semantische Segmentierung auf Pixelebene bestimmt werden. Insbesondere segmentiert die Erkennungseinheit beziehungsweise der Eingangsteil das eine der Bilder semantisch, also durch Untersuchen eines Bedeutungsgehalts der jeweiligen Pixel des zumindest einen der Bilder.
Es ist ausreichend, nur eines der beiden Bilder der Umgebung zweidimensional auszuwerten. Es kann jedoch, beispielsweise zum Auswerten redundanter Informationen, vorgesehen sein, dass beide der zwei Bilder der Umgebung zweidimensional ausgewertet werden. In diesem Fall werden insbesondere beide Bilder der Umgebung unabhängig voneinander durch das künstliche neuronale Netz auf Basis jeweiliger zweidimensionaler Merkmale ausgewertet.
Anschließend wird das Objekt in der Umgebung entweder als Fahrbahnmarkierung oder als Bordstein klassifiziert beziehungsweise klassiert. Das Klassifizieren beziehungsweise Klassieren des Objekts erfolgt anhand des Ergebnisses beim Auswerten des zweidimensionalen Merkmals und anhand der Tiefeninformation. Mit anderen Worten wird das Objekt abhängig von dem Ergebnis beim Auswerten des zweidimensionalen Merkmals durch das künstliche neuronale Netz und abhängig von der Tiefeninformation klassifiziert beziehungsweise klassiert. Somit erfolgt das Klassifizieren des Objekts einerseits anhand einer zweidimensionalen Information (Ergebnis des Auswertens des zumindest einen zweidimensionalen Merkmals) und anhand einer dreidimensionalen Information (Tiefeninformation). Auf diese Weise können Fahrbahnmarkierungen und Bordsteine besonders gut unterschieden werden, da Fahrbahnmarkierungen flach sind und demgegenüber Bordsteine eine Erhöhung gegenüber einem Fahrbahnniveau einer Fahrbahn auf dem sich das Kraftfahrzeug befindet, aufweisen.
Gemäß einer Weiterbildung ist vorgesehen, dass als die Tiefeninformation zumindest ein dreidimensionales Merkmal bestimmt wird, wobei das zumindest eine dreidimensionale Merkmal das Objekt in der Umgebung des Kraftfahrzeugs repräsentiert. Außerdem ist vorgesehen, dass das zumindest eine dreidimensionale Merkmal ebenfalls mittels des künstlichen neuronalen Netzes ausgewertet wird. Das dreidimensionale Merkmal ist analog zu dem zweidimensionalen Merkmal zu verstehen, wobei das dreidimensionale Merkmal zusätzlich eine Ausdehnung gemäß der dritten Raumrichtung (z-Achse) aufweist. Das dreidimensionale Merkmal kann aus den zwei Bildern der Umgebung gemeinsam extrahiert werden. Dabei kann in einem Zwischenschritt eine dreidimensionale Karte beziehungsweise eine Abstandskarte der Umgebung aus den zwei Bildern erzeugt werden. Das dreidimensionale Merkmal kann beispielsweise anhand von Gradienten und/oder Kanten in der dreidimensionalen Karte der Umgebung beziehungsweise in der Abstandskarte bestimmt werden. Zum Bestimmen des zumindest einen dreidimensionalen Merkmals kann eine weitere Erkennungseinheit beziehungsweise ein weiterer Eingangsteil des künstlichen neuronalen Netzes, auch weiterer CNN-Encoder genannt, vorgesehen sein. Durch diese weitere Erkennungseinheit beziehungsweise den weiteren Eingangsteil kann das zumindest eine dreidimensionale Merkmal bestimmt werden. Zusätzlich kann das zumindest eine dreidimensionale Merkmal für die Auswertung durch das künstliche neuronale Netz aufbereitet werden.
In diesem Fall ist das künstliche neuronale Netz beziehungsweise wird das künstliche neuronale Netz zuvor anhand weiterer Trainingsdaten angelernt, welche Paarungen zweier Bilder der Umgebung, welche den zwei Bildern der Umgebung nachempfunden sind, enthalten. In diesen Paarungen können die Fahrbahnmarkierungen die Bordsteine, beispielsweise durch den oben genannten Nutzer oder Hersteller, bereits markiert sein. Auf diese Weise kann das künstliche neuronale Netz darauf angelernt sein beziehungsweise werden, anhand des zumindest einen dreidimensionalen Merkmals Fahrbahnmarkierungen und/oder Bordsteine zu erkennen und diese insbesondere zu unterscheiden. Dadurch, dass das zumindest eine zweidimensionale Merkmal und das zumindest einen dreidimensionale Merkmal mittels des künstlichen neuronalen Netzes gemeinsam ausgewertet werden, können Fahrbahnmarkierungen und Bordsteine besonders gut unterschieden werden. Außerdem profitiert sowohl die Auswertung des zumindest einen zweidimensionalen Merkmals als auch die Auswertung des zumindest einen dreidimensionalen Merkmals von der hohen Anpassungsfähigkeit und Lernfähigkeit des künstlichen neuronalen Netzes.
Gemäß einer Weiterbildung ist vorgesehen, dass das zumindest eine zweidimensionale Merkmal und das zumindest eine dreidimensionale Merkmal gemeinsam mittels des künstlichen neuronalen Netzes ausgewertet werden. Mit anderen Worten wird das zumindest eine zweidimensionale Merkmal und das zumindest eine dreidimensionale Merkmal durch das künstliche neuronale Netz gemeinsam ausgewertet. Auf diese Weise kann die Genauigkeit beim Unterscheiden von Fahrbahnmarkierungen und Bordsteinen weiter verbessert werden, da eine besonders frühe Fusion der unterschiedlichen Bildinformationen, also der zweidimensionalen Merkmale und dreidimensionale Merkmale, gewährleistet ist. Mit anderen Worten wird das zumindest eine zweidimensionale Merkmal und das zumindest eine dreidimensionale Merkmal in einem besonders frühen Verarbeitungsschritt, nämlich hier vor dem Auswerten mittels des künstlichen neuronalen Netzes, zusammengeführt.
Gemäß einer Weiterbildung ist vorgesehen, dass die Abstandskarte als die Tiefeninformation bestimmt wird. Die Abstandskarte kann einen Abstand von Bereichen der Umgebung, und somit auch des Objekts, von einer Kameraebene des Kamerasystems angeben. Dabei kann die Abstandskarte aus den zwei Bildern der Umgebung gebildet werden. Die Abstandskarte kann bezüglich zweier Raumrichtungen (beispielsweise x-Achse und y-Achse) parallel zu den zumindest zwei Bildern der Umgebung ausgerichtet sein. Im Gegensatz zu den zwei Bildern der Umgebung weist die Abstandskarte jedoch zusätzlich eine Ausdehnung in die dritte Raumrichtung (z-Achse) auf. Die Tiefeninformation ist somit durch die Ausdehnung der Abstandskarte in die dritte Raumrichtung (z-Achse) bereitgestellt. Die Ausdehnung der Abstandskarte in die z-Achse kann beispielsweise dadurch bereitgestellt sein, dass jedem Pixel der Abstandskarte ein jeweiliger Abstandswert zugeordnet ist, der einen Abstand des durch den jeweiligen Pixel repräsentierten Teils der Umgebung von einem Bezugspunkt des Kamerasystems angibt. Dieser Bezugspunkt kann beispielsweise durch die Position einer Kamera des Kamerasystems definiert sein. Die Pixel der Abstandskarte können gemäß eines Gitters, welches durch die ersten beiden Raumrichtungen (x-Achse und y-Achse) aufgespannt ist beziehungsweise definiert ist, angeordnet sein. Mit anderen Worten kann das Gitter der Bildebene einem der ersten zwei Bilder entsprechen. Dadurch, dass die Abstandskarte bestimmt wird, ist auf besonders effektive und einfache Weise eine dreidimensionale Karte zumindest eines Teils der Umgebung bereitgestellt.
Gemäß einer Weiterbildung ist vorgesehen, dass mittels maschinellen Sehens, insbesondere unter Ausnutzung mathematischer Algorithmen, eine Repräsentation des Objekts in der Abstandskarte gesucht, insbesondere bestimmt, wird. Mit anderen Worten wird in der Abstandskarte durch maschinelles Sehen, auch mit dem englischen Fachbegriff Computervision bezeichnet, eine Repräsentation des Objekts gesucht. Als Repräsentation des Objekts wird insbesondere ein Muster in der Abstandskarte bezeichnet, welches das Objekt in der Umgebung repräsentiert. Mit anderen Worten wird in der Abstandskarte ein Muster gesucht, welches für das Objekt charakteristisch ist. Insbesondere können hierzu Gradienten, Linien und geometrische Formen in der Abstandskarte gesucht werden, welche jeweils einem vorbestimmten Muster entsprechen. Als maschinelles Sehen, auch als Bild verstehen oder Computervision bezeichnet, wird die computergestützte Lösung von Aufgabenstellungen, die sich an den Fähigkeiten des menschlichen visuellen Systems orientieren, bezeichnet. Hierbei ist dem Fachmann bekannt, dass sich die Bildauswertung durch maschinelles Sehen grundlegend von der Bildauswertung mittels künstlicher neuronaler Netze unterscheidet. Während letztere Methode auf Basis großer Datensätze (Trainingsdaten) angelernt wird, wird im Rahmen des maschinellen Sehens bevorzugt unter Ausnutzung der mathematischen Algorithmen und anhand von Mustererkennung optische Information aus dem zugrundeliegenden Bild/Abbild erfasst. Beispiele für derartige mathematische Algorithmen als Werkzeuge für das maschinelle Sehen sind Hafttransformation, Kontrastanalyse, optischer Fluss, Sobel-Operator, Wavelets, Gauß-Laplace-Pyramide, und ähnliche Verfahren beispielsweise zur Kontrastanalyse, Bewegungsextraktion und Kantenerkennung. Durch die Mustererkennung beziehungsweise vorbestimmte Muster, die gesucht werden, ist hierbei großes Vorwissen über die zu erkennenden Objekte nötig. Durch die Verknüpfung von maschinellem Sehen und künstlichem neuronalen Netz kann die Unterscheidung von Fahrbahnmarkierungen besonders robust und dennoch besonders leicht an unterschiedliche Einsatzszenarien anpassbar gestaltet sein.
Gemäß einer Weiterbildung ist vorgesehen, dass das Klassifizieren des Objekts zusätzlich auf Basis des Suchens der Repräsentation erfolgt. Mit anderen Worten erfolgt das Klassifizieren des Objekts einerseits auf Basis des Ergebnisses beim Auswerten des zweidimensionalen Merkmals durch das künstliche neuronale Netz und andererseits auf Basis des Suchens der Repräsentation. Beispielsweise werden beim Suchen der Repräsentation des Objekts zumindest ein vorbestimmtes Muster für einen Randstein und zumindest ein vorbestimmtes Muster für eine Fahrbahnmarkierung in der Abstandskarte gesucht. Das zumindest eine vorbestimmte Muster für den Randstein kann entsprechend eines typischen Erscheinungsbildes eines Randsteins in der Abstandskarte vorgegeben sein. Das zumindest eine vorgegebene Muster für eine Fahrbahnmarkierung kann anhand eines typischen Erscheinungsbildes einer Fahrbahnmarkierung in der Abstandskarte vorgegeben sein. Je nachdem ob beim Suchen der Repräsentation des Objekts das vorbestimmte Muster einer Fahrbahnmarkierung oder eines Bordsteins gefunden wird, kann das Objekt entweder als Fahrbahnmarkierung oder als Bordstein klassifiziert werden.
Gemäß einer Weiterbildung ist vorgesehen, dass das Klassifizieren des Objekts mittels des künstlichen neuronalen Netzes und des maschinellen Sehens zunächst unabhängig voneinander erfolgt und jeweilige Ergebnisse des Klassifizierens anschließend, insbesondere wahrscheinlichkeitsbasiert, fusioniert werden. Mit anderen Worten erfolgt die Auswertung der zwei Bilder basierend auf zweidimensionaler Informationen, nämlich dem zumindest einen zweidimensionalen Merkmal, und dreidimensionale Informationen, nämlich der Tiefeninformation, größtenteils getrennt voneinander. Die jeweiligen Ergebnisse (also das Ergebnis des Auswertens des zumindest einen zweidimensionalen Merkmals und das Ergebnis beim Auswerten der Tiefeninformation, insbesondere das Ergebnis beim Suchen der Repräsentation des Objekts) werden anschließend, insbesondere wahrscheinlichkeitsbasiert, fusioniert. Die wahrscheinlichkeitsbasierte Fusion kann auf Basis eines Konfidenzniveaus der jeweiligen Ergebnisse erfolgen. Mit anderen Worten wird sowohl beim Auswerten des zweidimensionalen Merkmals durch das künstliche neuronale Netz als auch beim Suchen der Repräsentation des Objekts beziehungsweise beim Suchen eines der vorbestimmten Muster ein jeweiliges Konfidenzniveau für das jeweilige Ergebnis berechnet werden. Das jeweilige Konfidenzniveau kann angeben, mit welcher Wahrscheinlichkeit das jeweilige Ergebnis zutreffend ist. Mit anderen Worten kann das Konfidenzniveau angeben, wie zuverlässig das jeweilige Ergebnis ermittelt werden konnte. Dieses Konfidenzniveau kann beim Fusionieren der unterschiedlichen Ergebnisse im Rahmen der wahrscheinlichkeitsbasierten Fusion genutzt werden. Beispielsweise wird im Rahmen der wahrscheinlichkeitsbasierten Fusion eines der Ergebnisse höher gewichtet als das andere der Ergebnisse, wenn dessen Konfidenzniveau höher ist, also das Ergebnis zuverlässiger ermittelt werden konnte. Auf diese Weise kann die Unterscheidung zwischen Bordstein und Fahrbahnmarkierung noch zuverlässiger und robuster gewährleistet werden. Außerdem können die unterschiedlichen Auswertungszweige (künstliches neuronales Netz und maschinelles Sehen) unkompliziert jeweils unabhängig voneinander weiterentwickelt werden.
Gemäß einer Weiterbildung ist vorgesehen, dass das Klassifizieren des Objekts anhand des künstlichen neuronalen Netzes ausschließlich auf zweidimensionaler Ebene und das Klassifizieren des Objekts auf Basis des maschinellen Sehens ausschließlich auf dreidimensionaler Ebene erfolgt. Mit anderen Worten werden durch das künstliche neuronale Netz ausschließlich zweidimensionale Merkmale ausgewertet. Zudem erfolgt das Klassifizieren des Objekts auf Basis des maschinellen Sehens ausschließlich unter Berücksichtigung der Tiefeninformation. In manchen Ausführungsformen erfolgt das Klassifizieren des Objekts auf Basis des maschinellen Sehens ausschließlich anhand der Abstandskarte. Hierbei wird der Erkenntnis Rechnung getragen, dass sich das künstliche neuronale Netz besonders gut zum Auswerten der zweidimensionalen Merkmale eignet und sich demgegenüber das maschinelle Sehen besonders gut zum Auswerten der Tiefeninformation eignet.
Gemäß einer Weiterbildung werden die beiden Bilder der Umgebung mittels derselben Kamera des Kraftfahrzeugs zeitlich versetzt erfasst. Mit anderen Worten werden die zwei Bilder durch dieselbe Kamera des Kamerasystems erfasst, wobei sich aufgrund der Fahrt des Kraftfahrzeugs diese Kamera beim Erfassen der beiden Bilder in einer jeweils unterschiedlichen Position befindet. Dabei handelt es sich um ein Verfahren, welches auch als Motion-Stereo, zu Deutsch Bewegungs-Stereo, bezeichnet wird. Die zwei Bilder der Umgebung können in diesem Beispiel insbesondere durch Bewegungsdaten des Kraftfahrzeugs bezüglich ihrer jeweiligen Perspektive in Verbindung gesetzt werden. Dabei können die Bewegungsdaten des Kraftfahrzeugs durch Odometrie mit der jeweiligen Perspektive der zwei Bilder in Verbindung gesetzt werden. In anderen Ausführungsformen der Erfindung weist das Kamerasystem des Kraftfahrzeugs zwei Kameras auf, wobei ein erstes der zwei Bilder durch eine erste der zwei Kameras und ein zweites der zwei Bilder durch eine zweite der zwei Kameras erfasst werden. In diesem Fall können die zwei Bilder insbesondere zeitgleich erfasst werden. Die zwei Kameras können beide einen Erfassungsbereich aufweisen, der dem Kraftfahrzeug im Wesentlichen in Fahrtrichtung vorausliegt. Die unterschiedliche Perspektive der zwei Bilder wird in diesem Fall durch die unterschiedliche Position der Kameras am Kraftfahrzeug gewährleistet.
Ein zweiter Aspekt der Erfindung betrifft eine Steuereinrichtung zum Unterscheiden von Fahrbahnmarkierungen und Bordsteinen in einer Umgebung eines Kraftfahrzeugs anhand von Bildern eines Kamerasystems des Kraftfahrzeugs mit einer Empfangseinheit zum Bereitstellen zweier Bilder der Umgebung aus dem Kamerasystem des Kraftfahrzeugs, wobei sich eine jeweilige Perspektive der zwei Bilder unterscheidet, und mit einer Erkennungseinheit zum Bestimmen zumindest eines zweidimensionalen Merkmals in zumindest einem der zwei Bilder, wobei das zumindest eine zweidimensionale Merkmal ein Objekt in der Umgebung des Kraftfahrzeugs repräsentiert, und einem künstlichen neuronalen Netz zum Auswerten des zumindest einen zweidimensionalen Merkmals, und einer Extraktionseinheit zum Extrahieren einer Tiefeninformation aus den zwei Bildern der Umgebung, und einer Klassierungseinheit zum Klassifizieren beziehungsweise Klassieren des Objekts in der Umgebung entweder als Fahrbahnmarkierung oder als Bordstein sowohl anhand eines Ergebnisses beim Auswerten des zweidimensionalen Merkmals als auch anhand der Tiefeninformation. Bei der Erkennungseinheit kann es sich um einen Eingangsteil des künstlichen neuronalen Netzes handeln, welcher auch mit dem englischsprachigen Fachbegriff CNN-Encoder bezeichnet wird. Bei der Extraktionseinheit zum Extrahieren der Tiefeninformation kann es sich um einen weiteren Eingangsteil des künstlichen neuronalen Netzes handeln. Dieser weitere Eingangsteil des künstlichen neuronalen Netzes kann dazu ausgebildet sein, zumindest ein dreidimensionales Merkmal in den zwei Bildern zu bestimmen, wobei das zumindest eine dreidimensionale Merkmal das Objekt in der Umgebung repräsentiert, In diesem Fall kann das künstliche neuronale Netz zusätzlich zum Auswerten des zumindest einen dreidimensionalen Merkmals ausgebildet sein. Alternativ handelt es sich bei der Extraktionseinheit zum Extrahieren der Tiefeninformation um eine Auswertungseinheit zum maschinellen Sehen. Beide Ausführungsformen sind im Rahmen des zuvor erläuterten Verfahrens bereits beschrieben, weshalb an dieser Stelle auf eine erneute Beschreibung verzichtet wird. Alle vorteilhaften Weiterbildungen und Merkmale des erfindungsgemäßen Verfahrens gelten analog auch für die erfindungsgemäße Steuereinrichtung. Vorteilhafterweise ist die Steuereinrichtung dazu eingerichtet, ein Verfahren nach einer oder mehrerer der im Vorherigen beschriebenen Ausführungsformen durchzuführen.
Ein weiterer Aspekt der Erfindung betrifft ein Fahrassistenzsystem mit einem Kamerasystem, welches zumindest eine Kamera zum Erfassen zweier Bilder der Umgebung sowie die oben genannte Steuereinrichtung aufweist. Das Fahrassistenzsystem kann an einem Kraftfahrzeug angeordnet sein. Somit gehört auch ein Kraftfahrzeug mit einem solchen Fahrassistenzsystem zur vorliegenden Erfindung. Die Merkmale des erfindungsgemäßen Verfahrens und der erfindungsgemäßen Steuereinrichtung gelten somit analog auch für das Fahrassistenzsystem und das Kraftfahrzeug.
Ein weiterer Aspekt der Erfindung betrifft ein Computerprogrammprodukt mit Programmcodemitteln, welche in einem computerlesbaren Medium gespeichert sind, um das Verfahren zum Unterscheiden von Fahrbahnmarkierungen und Bordsteinen nach einer oder mehreren Ausführungsformen des oben beschriebenen Verfahrens durchzuführen, wenn das Computerprogrammprodukt auf einem Prozessor einer elektronischen Steuereinrichtung abgearbeitet wird. Zur Erfindung gehört somit auch ein computerlesbares Medium, insbesondere in Form einer computerlesbaren Diskette, CD, DVD, Speicherkarte, USB-Speichereinheit, oder ähnlichen, in dem Programmcodemittel gespeichert sind, um das Verfahren zum Unterscheiden von Fahrbahnmarkierungen und Bordsteinen nach einer oder mehrerer der oben genannten Ausführungsformen durchzuführen, wenn die Programmcodemittel in einen Speicher einer elektronischen Steuerungseinheit geladen und auf einem Prozessor der elektronischen Steuerungseinheit abgearbeitet werden.
Weitere Merkmale der Erfindung ergeben sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren alleine gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen verwendbar, ohne den Rahmen der Erfindung zu verlassen. Es sind somit auch Ausführungen von der Erfindung als umfasst und offenbart anzusehen, die in den Figuren nicht explizit gezeigt und erläutert sind, jedoch durch separierte Merkmalskombinationen aus den erläuterten Ausführungen hervorgehen und erzeugbar sind. Es sind auch Ausführungen und Merkmalskombinationen als offenbart anzusehen, die somit nicht alle Merkmale eines ursprünglich formulierten unabhängigen Anspruchs aufweisen. Es sind darüber hinaus Ausführungen und Merkmalskombinationen, insbesondere durch die oben dargelegten Ausführungen, als offenbart anzusehen, die über die in den Rückbezügen der Ansprüche dargelegten Merkmalskombinationen hinausgehen oder abweichen.
Dabei zeigen:

1 in einer schematischen Draufsicht ein Kraftfahrzeug in dessen Umgebung sich eine Fahrbahnmarkierung und ein Bordstein befinden, welche durch ein Kamerasystem des Kraftfahrzeugs erfasst werden;
2 in einem Blockdiagramm eine erste Ausführungsform einer Rechenstruktur für das vorliegende Verfahren; und
3 in einem Blockdiagramm eine zweite Ausführungsform einer Rechenstruktur für das vorliegende Verfahren.

1 zeigt ein Kraftfahrzeug 1, welches entsprechend einer Fahrtrichtung 11 eine Fahrbahn 12 befährt. Ein Kamerasystem 2 des Kraftfahrzeugs 1 weist vorliegend eine Kamera 20 zum Erfassen von Bildern 4 der Umgebung U auf. Eine Erfassungsrichtung 22 der Kamera 20 ist dabei im Wesentlichen parallel zu der Fahrtrichtung 11 des Kraftfahrzeugs 1 ausgerichtet. Dadurch erfasst die Kamera 20 einen dem Kraftfahrzeug 1 in Fahrtrichtung 11 vorausliegenden Bereich einer Umgebung U des Kraftfahrzeugs 1. Die Kamera 20 kann daher auch als Frontkamera bezeichnet werden. Derartige Frontkameras sind aus dem Stand der Technik bekannt. Das Kamerasystem 2 beziehungsweise die Kamera 20 ist Teil eines Fahrassistenzsystems 10 des Kraftfahrzeugs 1. Das Fahrassistenzsystem 10 umfasst weiterhin eine Steuereinrichtung 3. Die Steuereinrichtung 3 ist in mehrere Funktionseinheiten untergliedert. Konkret umfasst die Steuereinrichtung 3 vorliegend eine Empfangseinheit 31 zum Empfangen und/oder Bereitstellen von Bildern 4 der Umgebung U aus dem Kamerasystem 2 beziehungsweise der Kamera 20, eine Erkennungseinheit 32, ein künstliches neuronales Netz 33, eine Extraktionseinheit 34 sowie eine Klassierungseinheit 35. Die Funktion der einzelnen Funktionseinheiten wird im Folgenden noch genauer erläutert.
In der Umgebung U befinden sich Objekte 6, vorliegend eine Fahrbahnmarkierung 7 sowie Bordstein 8. Das Fahrassistenzsystem 10 beziehungsweise die Steuereinrichtung 3 ist dazu ausgebildet, Bordsteine 8 und Fahrbahnmarkierungen 7 zu unterscheiden. Dies ist insbesondere daher wichtig, da sowohl Fahrbahnmarkierungen 7 als auch Bordsteine 8 jeweils langgestreckte Objekte 6, welche im Rahmen einer Bildauswertung leicht verwechselt werden können. Das Fahrassistenzsystem 10 erkennt somit Objekte 6, vorliegend Fahrbahnmarkierungen 7 und Bordsteine 8, in der Umgebung U. Außerdem ist die Steuereinrichtung 3 beziehungsweise das Fahrassistenzsystem 10 dazu ausgebildet, Fahrbahnmarkierungen 7 und Bordsteine 8 zu unterscheiden. Derart gewonnene Daten können weiteren Fahrassistenzsystemen des Kraftfahrzeugs 1 bereitgestellt werden. Auf Basis dieser gewonnenen Daten über Objekte 6 können beispielsweise Fahrerassistenzfunktionen bereitgestellt werden. Beispiele für Fahrerassistenzfunktionen sind Spurhalteassistent, Autopilot beziehungsweise autonome Steuerung des Kraftfahrzeugs 1 sowie Assistenten zur Vermeidung einer Kollision.
Die 2 und 3 zeigen jeweils beispielhaft eine Ausführungsform einer Rechenstruktur zum Durchführen eines Verfahrens zum Unterscheiden von Fahrbahnmarkierungen 7 und Bordsteinen 8. Die in den 2 und 3 beispielhaft dargestellten Rechenstrukturen können in der Steuereinrichtung 3 des Kraftfahrzeugs 1 realisiert beziehungsweise programmiert sein. Beiden Ausführungsformen ist zu eigen, dass zwei Bilder 4 der Umgebung U durch die Empfangseinheit 31 der Steuereinrichtung 3 aus der Kamera 20 beziehungsweise aus dem Kamerasystem 2 empfangen werden. In den zwei Bildern 4 ist die Umgebung U in einer jeweils unterschiedlichen Perspektive erfasst. Mit anderen Worten weisen die zwei Bilder 4 eine jeweilige Darstellung der Umgebung U aus einer jeweils unterschiedlichen Perspektive auf. Die unterschiedliche Perspektive der zwei Bilder 4 kommt vorliegend durch eine Bewegung des Kraftfahrzeugs 1 in Fahrtrichtung 11 zustande. Durch die Bewegung des Kraftfahrzeugs 1 verändert die Kamera 20 ihre Position bezüglich der Umgebung U, wodurch sich die jeweilige Perspektive der zeitversetzt aufgenommenen Bilder 4 unterscheidet. Dieses Verfahren wird auch als Bewegungs-Stereo beziehungsweise Motion-Stereo bezeichnet.
Bei den beiden Ausführungsformen gemäß 2 und 3 ist jeweils vorgesehen, dass die zwei Bilder 4 gemeinsam auf dreidimensionaler Ebene ausgewertet werden und ein Bild 5, welches vorzugsweise eines der zwei Bilder 4 ist, auf zweidimensionaler Ebene ausgewertet wird. Mit anderen Worten wird eines der zwei Bilder 4 als das Bild 5 zweidimensional ausgewertet. Die Auswertung auf zweidimensionaler Ebene des Bildes 5 erfolgt in beiden Ausführungsformen gemäß 2 und 3 mittels des künstlichen neuronalen Netzes 33. In manchen Ausführungsformen der Erfindung können auch beide Bilder 4 unabhängig beziehungsweise redundant als jeweiliges Bild 5 auf zweidimensionaler Ebene ausgewertet werden. Dies ist jedoch nicht zwangsläufig nötig. Zum Sparen von Rechenkapazitäten wird vorliegend nur eines der beiden Bilder 4 als das Bild 5 zweidimensional ausgewertet.
Zunächst soll die Ausführungsform gemäß 2 beschrieben werden. Der dieser Ausführungsform zugrundeliegende Ansatz kann als späte Fusion bezeichnet werden, da die Auswertung auf zweidimensionaler Ebene und dreidimensionaler Ebene getrennt voneinander erfolgt und erst in einem letzten Schritt die jeweiligen Ergebnisse 40, 47 fusioniert werden. Durch die Erkennungseinheit 32 wird in dem Bild 5 zumindest ein zweidimensionales Merkmal 42 bestimmt. Die Erkennungseinheit 32 ist insbesondere als Eingangsteil des künstlichen neuronalen Netzes 33 ausgeführt. Insbesondere handelt es sich bei der Erkennungseinheit 32 um einen sogenannten CNN (Convolutional Neural Network)-Encoder, also Encoder für ein künstliches neuronales Netz. Durch die Erkennungseinheit 32 und das künstliche neuronale Netz 33 wird das Bild 5 semantisch segmentiert. Dabei werden zweidimensionale Merkmale 42, welche in der Erkennungseinheit 32 bestimmt werden, zu Segmenten zusammengefasst. Die semantische Segmentation erfolgt vorzugsweise auf Pixelebene. Mit anderen Worten wird das Bild 5 auf Pixelebene semantisch segmentiert. Dabei werden semantisch zusammengehörige Bereiche des Bildes 5 anhand der zweidimensionalen Bildinformation des Bildes 5 in Segmenten zusammengefasst. Im Rahmen dieser semantischen Segmentation können Fahrbahnmarkierungen 7 und Bordsteine 8 erkannt werden. Da die Fahrbahnmarkierungen 7 und die Bordsteine 8 jedoch oftmals keine unterscheidungskräftigen Kennzeichen aufweisen ist es oftmals schwierig, diese zu unterscheiden. Das künstliche neuronale Netz gibt als Ergebnis 40 der Auswertung der zweidimensionalen Merkmale 42 eine semantische Karte aus. Die Klassierungseinheit 35 klassiert beziehungsweise klassifiziert die Objekte 6 anhand des Ergebnisses 40, insbesondere der semantischen Karte, entweder als Fahrbahnmarkierung 7 oder als Bordstein 8.
Um eine verbesserte Unterscheidung zwischen Fahrbahnmarkierungen 7 und Bordstein 8 zu ermöglichen, wird vorliegend zusätzlich eine Tiefeninformation aus den zwei Bildern 4 bereitgestellt. Die Tiefeninformation ist in den Bildern 4 aufgrund deren unterschiedlicher Perspektive enthalten. In dem Ausführungsbeispiel gemäß 2 wird als die Tiefeninformation eine Abstandskarte 41 bestimmt. Die Abstandskarte 41 kann jedem Pixel der Abstandskarte 41 einen jeweiligen Abstand von der Kameraebene 21 zuordnen. Die Abstandskarte 41 beinhaltet somit jeweilige Abstände von Bereichen der Umgebung U, welche durch die Abstandskarte 41 (und somit auch durch die Bilder 4) repräsentiert werden. Mit anderen Worten ordnet die Abstandskarte 41 den durch die repräsentierten Bereiche der Umgebung U pixelweise einen jeweiligen Abstandswert zu. Dieser Abstandswert ist dabei insbesondere parallel zu der Erfassungsrichtung 22 der Kamera 20 zu verstehen. Mit anderen Worten geben die jeweiligen Abstandswerte der Abstandskarte 41 den jeweiligen Abstand des jeweiligen Bereichs der Umgebung U von der Kameraebene 21 parallel zu der Erfassungsrichtung 22 an.
Mittels maschinellen Sehens kann unter Auswertung mathematischer Methoden eine Repräsentation des Objekts 6 in der Abstandskarte 41 gesucht werden. Beispielsweise kann hierzu eine Segmentierung basierend auf den Abstandswerten der Abstandskarte 41 vorgesehen sein. Mit anderen Worten werden zusammenhängende Bereiche von Pixeln mit gleichen oder ähnlichen Entfernungswerten in einem Segment zusammengefasst. Entfernungswerte können beispielsweise genau dann als ähnlich gelten, wenn sie maximal um einen vorbestimmten Grenzwert voneinander oder von einem gemeinsamen Mittelwert abweichen. Basierend auf dieser Segmentierungsmethode kann die Abstandskarte 41 zu einer segmentierten Abstandskarte weiterverarbeitet werden. Beispielsweise wird in der Abstandskarte 41 oder in der segmentierten Abstandskarte nach einer Repräsentation des Objekts 6 gesucht. Insbesondere wird dann eine Repräsentation in der Abstandskarte 41 oder segmentierten Abstandskarte erkannt, wenn ein vorbestimmtes Muster in der Abstandskarte 41 beziehungsweise der segmentierten Abstandskarte erkannt wird. Beispielsweise ist zumindest ein vorbestimmtes Muster für eine Fahrbahnmarkierung 7 und/oder zumindest ein vorbestimmtes Muster für einen Bordstein 8 vorgegeben. Wird eines dieser vorbestimmten Muster erkannt, gilt eine Repräsentation des Objekts 6 als erkannt. Beispielsweise können Fahrbahnmarkierungen 7 als flach gelten. In diesem Fall ist kein vorbestimmtes Muster für eine Fahrbahnmarkierung 7 vorgesehen. Fahrbahnmarkierungen 7 können in diesem Beispiel nur anhand der Abstandskarte 41 beziehungsweise der segmentierten Abstandskarte nicht erkannt werden. In diesem Fall kann anhand der Abstandskarte 41 beziehungsweise der segmentierten Abstandskarte nur eine Repräsentation eines Bordsteins 8 als Objekt 6 erkannt werden. Unabhängig von der genauen Ausführung können Fahrbahnmarkierungen 7 und Bordsteine 8 anhand der Abstandskarte 41 beziehungsweise der segmentierten Abstandskarte besonders gut unterschieden werden.
In der Klassierungseinheit 35 wird das Ergebnis 40 beim Auswerten durch das künstliche neuronale Netz 33 sowie das Ergebnis 47 beim Auswerten der Abstandskarte 41 zum Klassifizieren beziehungsweise Klassieren des Objekts 6 entweder als Fahrbahnmarkierung 7 oder Bordstein 8 herangezogen. Dabei kann durch die Klassierungseinheit 35 ein wahrscheinlichkeitsbasierter Fusionsansatz vorgesehen sein. Mit anderen Worten werden das Ergebnis 40 sowie das Ergebnis 47 beim Auswerten der Abstandskarte 41 zum Klassifizieren des Objekts 6 wahrscheinlichkeitsbasiert fusioniert. Beispielsweise wird beim Auswerten durch das künstliche neuronale Netz 33 sowie beim Auswerten der Abstandskarte 41 ein jeweiliges Konfidenzniveau bestimmt. Das Konfidenzniveau kann eine Qualität der Auswertung angeben. Beim Fusionieren beziehungsweise Klassifizieren kann dasjenige der Ergebnisse 40, 47 höher gewichtet werden, dessen Konfidenzniveau höher ist. Ein höheres Konfidenzniveau gibt dabei eine höhere Qualität bei der jeweiligen Auswertung beziehungsweise eine höhere Wahrscheinlichkeit für die Richtigkeit des jeweiligen Ergebnisses 40, 47 an.
Bei der Ausführungsform gemäß 3 ist die Extraktionseinheit 34 als weiterer Eingangsteil für das künstliche neuronale Netz 33 ausgebildet. Mit anderen Worten ist die Extraktionseinheit 34 als weiterer CNN-Encoder ausgeführt. Durch die Extraktionseinheit 34 beziehungsweise den weiteren CNN-Encoder wird zumindest ein dreidimensionales Merkmal 43 aus den Bildern 4 der Umgebung U bestimmt. Für das Bestimmen des zumindest einen dreidimensionalen Merkmals 43 können die Bilder 4 zunächst im Rahmen einer dreidimensionalen Auswertung 37 perspektivisch ausgewertet werden. Erst durch diese dreidimensionale Auswertung 37 kann die Tiefeninformation, vorliegend das zumindest eine dreidimensionale Merkmal 43, aus den zwei Bildern 4 extrahiert beziehungsweise bestimmt werden. Im Rahmen der dreidimensionalen Auswertung 37 kann auch eine Abstandskarte erzeugt werden, welche analog zu der Abstandskarte 41 zu verstehen ist. In diesem Fall kann das zumindest eine dreidimensionale Merkmal 43 aus der im Rahmen der dreidimensionalen Auswertung 37 erstellten Abstandskarte bestimmt beziehungsweise extrahiert werden.
Sowohl zweidimensionale Merkmale 42 als auch dreidimensionale Merkmale 43 können im Rahmen semantischer Segmentierung bestimmt werden. Insbesondere sind im Ausführungsbeispiel gemäß 3 semantische Segmentierungen auf zweidimensionaler Ebene und dreidimensionaler Ebene durchgehend mittels eines lernenden Systems, nämlich durch das künstliche neuronale Netz 33, vorgesehen. In diesem Beispiel erfolgt das Anlernen des künstlichen neuronalen Netzes 33 nicht nur anhand der zweidimensionalen Merkmale 42, sondern auch anhand einer Tiefeninformation, nämlich anhand des zumindest einen dreidimensionalen Merkmals 43. Auf diese Weise kann ein lernender Algorithmus des künstlichen neuronalen Netzes 33 lernen, zweidimensionale Merkmale 42 sowie dreidimensionale Merkmale 43 miteinander zu verknüpfen.
Im Rahmen einer Verknüpfung 45 der zweidimensionalen Merkmale 42 und dreidimensionalen Merkmale 43 müssen die jeweiligen Ausgabewerte der beiden CNN-Encoder (vorliegend der Erkennungseinheit 32 und der Extraktionseinheit 34) normalisiert werden. Diese Normalisierung wird vorliegend als Teil eines Anlernprozesses des künstlichen neuronalen Netzes 33 durchgeführt. Im Rahmen dieser Normalisierung werden die zweidimensionalen Merkmale 42 und die dreidimensionalen Merkmale 43 relativ zueinander gewichtet. Diese Gewichtung kann während einer Anwendung des Verfahrens in Echtzeit angepasst werden. Beispielsweise erfolgt die Gewichtung anhand jeweiliger Konfidenzniveaus, welche für die zweidimensionalen Merkmale 42 und die dreidimensionalen Merkmale 43 ermittelt werden. Anschließend können die zweidimensionalen Merkmale 42 und die dreidimensionalen Merkmale 43 als zusammengefasste Merkmale 38 durch das künstliche neuronale Netzes 33 ausgewertet werden.
Die gesamte lernfähige Pipeline, welche durch die beiden CNN-Encoder (Erkennungseinheit 32 und Extraktionseinheit 34) bis hin zum Ausgang des künstlichen neuronalen Netzes 33 gegeben ist, kann durchgehend (also End-to-End) angelernt werden. Dabei werden jeweilige Trainingsdaten, welche Paarungen an Bildern, welche analog zu den zwei Bildern 4 aufgebaut sind, umfassen, zum Anlernen herangezogen. In den Trainingsdaten können jeweilige Fahrbahnmarkierungen und Bordsteine markiert sein. Außerdem können Bereiche der Bilder der Trainingsdaten markiert sein, welcher weder eine Fahrbahnmarkierung noch einen Bordstein umfassen (sogenannte Negatives). In weiterer Ausgestaltung können Trainingsdaten durch die lernfähige Pipeline ausgewertet werden und falsch klassifizierte Objekte zum weiteren Anlernen korrekt markiert werden. Falsch klassifizierte Objekte sind insbesondere falsch positiv erkannte Fahrbahnmarkierungen beziehungsweise Bordsteine. Dieses Vorgehen wird auch als Hard Negative Mining, in etwa Nutzung falscher Zuordnungen, bezeichnet.
Insgesamt zeigen die beiden Ausführungsbeispiele, wie eine Verknüpfung der Auswertung von Bildern zum Unterscheiden von Fahrbahnmarkierungen 7 und Bordsteinen 8 auf zweidimensionaler Ebene und auf dreidimensionaler Ebene möglich ist. Insbesondere ist dadurch gezeigt, wie eine Genauigkeit in der Unterscheidung von Fahrbahnmarkierungen und Bordsteinen verbessert werden kann. Position und Art des Objekts 6 (Fahrbahnmarkierung 7 oder Bordstein 8), wird als Ergebnis 36, insbesondere für eine Fahrerassistenzfunktion des Kraftfahrzeugs 1, bereitgestellt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 2016/0104047 A1 [0004]

Claims

Verfahren zum Unterscheiden von Fahrbahnmarkierungen (7) und Bordsteinen (8) in einer Umgebung (U) eines Kraftfahrzeugs (1) mit einem Kamerasystem (2) des Kraftfahrzeugs (1), mit den Schritten: - Bereitstellen zweier Bilder (4) der Umgebung (U) durch das Kamerasystem (2) des Kraftfahrzeugs (1), wobei sich eine jeweilige Perspektive der zwei Bilder (4) unterscheidet, - Bestimmen zumindest eines zweidimensionalen Merkmals (42) zumindest in einem (5) der zwei Bilder (4), wobei das zumindest eine zweidimensionale Merkmal (42) ein Objekt (6) in der Umgebung (U) des Kraftfahrzeugs (1) repräsentiert, - Auswerten des zumindest einen zweidimensionalen Merkmals (42) mittels eines künstlichen neuronalen Netzes (33), - Extrahieren einer Tiefeninformation (41, 43) aus den zwei Bildern (4) der Umgebung (U), und - Klassifizieren des Objekts (6) in der Umgebung entweder als Fahrbahnmarkierung (7) oder als Bordstein (8) sowohl anhand eines Ergebnisses (40) beim Auswerten des zweidimensionalen Merkmals (42) als auch anhand der Tiefeninformation(41, 43).
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass - als die Tiefeninformation zumindest ein dreidimensionales Merkmal (43) bestimmt wird, wobei das zumindest eine dreidimensionale Merkmal (43) das Objekt (6) in der Umgebung (U) des Kraftfahrzeugs (1) repräsentiert, und - das zumindest eine dreidimensionale Merkmal (43) ebenfalls mittels des künstlichen neuronalen Netzes (33) ausgewertet wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das zumindest eine zweidimensionale Merkmal (42) und das zumindest eine dreidimensionale Merkmal (43) gemeinsam (38) mittels des künstlichen neuronalen Netzes (33) ausgewertet werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Abstandskarte (41) als die Tiefeninformation bestimmt wird.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass mittels maschinellen Sehens, insbesondere unter Ausnutzung mathematischer Algorithmen, eine Repräsentation des Objekts (6) in der Abstandskarte (41) gesucht, insbesondere bestimmt, wird.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass das Klassifizieren des Objekts (6) zusätzlich auf Basis des Suchens der Repräsentation erfolgt.
Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass das Klassifizieren des Objekts (6) mittels des künstlichen neuronalen Netzes (33) und des maschinellen Sehens zunächst unabhängig voneinander erfolgt und jeweilige Ergebnisse (40, 47) des Klassifizierens anschließend, insbesondere wahrscheinlichkeitsbasiert, fusioniert werden.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass das Klassifizieren des Objekts (6) anhand des künstlichen neuronalen Netzes (33) ausschließlich auf zweidimensionaler Ebene und das Klassifizieren des Objekts (6) auf Basis des maschinellen Sehens ausschließlich auf dreidimensionaler Ebene erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die beiden Bilder (4) der Umgebung (U) mittels derselben Kamera (20) des Kraftfahrzeugs (1) zeitlich versetzt erfasst werden.
Steuereinrichtung (3) zum Unterscheiden von Fahrbahnmarkierungen (7) und Bordsteinen (8) in einer Umgebung (U) eines Kraftfahrzeugs (1) anhand von Bildern (4) eines Kamerasystems (2) des Kraftfahrzeugs (1) mit - einer Empfangseinheit (31) zum Bereitstellen zweier Bildes der Umgebung (U) aus dem Kamerasystem (2) des Kraftfahrzeugs (1), wobei sich eine jeweilige Perspektive der zwei Bilder (4) unterscheidet, - einer Erkennungseinheit (32) zum Bestimmen zumindest eines zweidimensionalen Merkmals (42) in zumindest einem (5) der zwei Bilder (4), wobei das zumindest eine zweidimensionale Merkmal (42) ein Objekt in der Umgebung des Kraftfahrzeugs repräsentiert, - einem künstlichen neuronalen Netz (33) zum Auswerten des zumindest einen zweidimensionalen Merkmals (42), - einer Extraktionseinheit (34) zum Extrahieren einer Tiefeninformation (41, 43) aus den zwei Bildern (4) der Umgebung, und - einer Klassierungseinheit (35) zum Klassifizieren des Objekts in der Umgebung entweder als Fahrbahnmarkierung oder als Bordstein sowohl anhand eines Ergebnisses (40) beim Auswerten des zweidimensionalen Merkmals als auch anhand der Tiefeninformation (41, 43).
Fahrerassistenzsystem (10) mit - einem Kamerasystem (2), welches zumindest eine Kamera (20) zum Erfassen zweier Bilder (4) der Umgebung (U) aufweist, und - einer Steuereinrichtung (3) nach Anspruch 10.
Computerprogrammprodukt mit Programmcodemitteln, welche in einem computerlesbaren Medium gespeichert sind, um das Verfahren zum Unterscheiden von Fahrbahnmarkierungen (7) und Bordsteinen (8) nach einem der vorhergehenden Ansprüche 1 bis 10 durchzuführen, wenn das Computerprogrammprodukt auf einem Prozessor einer elektronischen Steuereinrichtung (3) abgearbeitet wird.