DE102016220079B4

DE102016220079B4 - Verfahren zur Ermittlung von Entfernungsdaten

Info

Publication number: DE102016220079B4
Application number: DE102016220079.8A
Authority: DE
Inventors: Gordon Taft
Original assignee: Audi AG
Current assignee: Audi AG
Priority date: 2016-10-14
Filing date: 2016-10-14
Publication date: 2023-04-06
Anticipated expiration: 2036-10-15
Also published as: DE102016220079A1

Abstract

Verfahren zur Ermittlung von eine Entfernung zu wenigstens einem durch eine Kamera (6) erfassten Objekt beschreibenden Entfernungsdaten, wobei durch die Kamera (6) wenigstens ein Bild des Objekts erfasst wird, wonach in Abhängigkeit der Bilddaten des Bildes die Entfernungsdaten ermittelt werden, wobei die Bilddaten zweidimensionale Bilddaten sind, wobei die Entfernungsdaten ausschließlich aus den Bilddaten genau eines Bildes der Kamera (6) ermittelt werden, wobei die Entfernungsdaten durch Anwenden einer Ermittlungsfunktion auf die Bilddaten oder auf aus den Bilddaten ermittelte Verarbeitungsdaten ermittelt werden, wobei die Ermittlungsfunktion durch mehrere Verarbeitungsparameter parametrisiert wird, die ermittelt werden, indem die Ermittlungsfunktion durch mehrere Trainingsdatensätze (1) im Rahmen eines Maschinenlernens trainiert wird, wobei die Kamera (6) an einem Kraftfahrzeug (5) angeordnet ist, dadurch gekennzeichnet, dass in Abhängigkeit der Entfernungsdaten eine Fahrzeugeinrichtung (8) des Kraftfahrzeugs zur Ausgabe eines Fahrhinweises an einen Fahrer und/oder zur Durchführung eines Fahreingriffs angesteuert wird, wobei hierbei die Entfernungsdaten mit Daten aus anderen Informationsquellen fusioniert oder durch diese validiert werden.

Description

Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Anspruchs 1. Daneben betrifft die Erfindung ein Kraftfahrzeug.
In Kraftfahrzeugen können eine Vielzahl von Fahrerassistenzsystemen vorgesehen sein, die einen Fahrer bei der Führung des Kraftfahrzeugs unterstützen, indem sie ihm Hinweise geben oder in den Fahrbetrieb eingreifen. Für die Funktionsfähigkeit dieser Fahrerassistenzsysteme sowie für ein assistiertes beziehungsweise automatisiertes Fahren, dessen Bedeutung voraussichtlich zukünftig zunehmen wird, ist es wesentlich, möglichst detaillierte Informationen über das Kraftfahrzeugumfeld zu erfassen. Zugleich sollen diese Informationen mit möglichst geringem technischen Aufwand erfasst werden. Hierzu können beispielsweise Kameras genutzt werden, die das Umfeld des Kraftfahrzeugs erfassen.
Nachteilig an einer Umfelderfassung durch Kameras ist es, dass übliche Kameras keine Entfernungsinformationen zu erfassten Objekten bereitstellen. Gerade die Entfernung zu Objekten, beispielsweise zu anderen Verkehrsteilnehmern, kann jedoch für Fahrerassistenzsysteme oder Systeme zur automatisierten Führung von Kraftfahrzeugen hoch relevant sein.
Um entsprechende Entfernungsinformationen zu erhalten sind verschiedene Ansätze bekannt. So ist es beispielsweise möglich, die das Umfeld erfassenden Kameras durch weitere Sensoren, beispielsweise Ultraschallsensoren und/oder Radarsensoren, zu ergänzen, die Entfernungen zu Objekten erfassen können. Ergänzend oder alternativ ist es möglich, statt üblichen Kameras bilderfassende Systeme zu nutzen, die zugleich Entfernungsinformationen bereitstellen, beispielsweise bildgebende Laserscanner oder Time-of-Flight-Kameras. Soll eine hohe Winkelauflösung erreicht werden, sind entsprechende Sensorsysteme jedoch technisch aufwendig.
Ein weiterer Ansatz zur Erfassung von Entfernungsinformationen ist es, mehrere Kameras mit überlappenden Aufnahmebereichen zu nutzen und mit Hilfe eines Stereokopiesystems Entfernungen zu den erfassten Objekten zu ermitteln. Ein derartiger Ansatz wird beispielsweise in der Druckschrift DE 43 08 776 A1 genutzt. Hierbei wird eine feste Region außerhalb eines Fahrzeugs mittels eines optischen Stereokopiesystems abgebildet und durch eine Bildverarbeitungsvorrichtung werden Distanzverteilungen über das gesamte Bild berechnet.
Ein ähnliches Vorgehen lehrt auch die Druckschrift DE 10 2008 061 749 A1 . Der optisch zu erfassende Umgebungsbereich wird in dieser Druckschrift mittels mehr als einer Kamera aufgenommen. In einem Überdeckungsbereich wird ein stereoskopisches Auswerteverfahren genutzt.
Problematisch bei derartigen stereo-basierten Bildverarbeitungsverfahren ist es, dass die genutzten Digitalkameras eine begrenzte Auflösung aufweisen, womit typischerweise nur für einen Nahbereich bis zu maximal 50 Metern eine ausreichend genaue Entfernungsschätzung erreicht werden kann. Soll das Verfahren zur Entfernungsschätzung in Kraftfahrzeugen genutzt werden, ist aufgrund des erforderlichen Bremsweges eine entsprechende Auswertung typischerweise nur bis zu einer Maximalgeschwindigkeit von 60 bis 70 km/h möglich. Zudem ist es bei der Nutzung von Stereokameras nachteilig, dass für diese eine pixelgenaue Kalibration erforderlich ist, die aufgrund von Vibrationen und Temperaturschwankungen kaum über längere Zeiträume stabil gehalten werden kann.
Ein weiterer Ansatz zur Gewinnung von Abstandsinformationen sind sogenannte „structure from motion“-Techniken, bei denen zeitlich aufeinanderfolgend zweidimensionale Ansichten aufgenommen werden, aus denen ein 3D-Modell berechnet wird. Einen derartigen Ansatz offenbart beispielsweise die Druckschrift DE 10 2009 012 435 A1 . Es werden Bildsequenzen mit einer einzigen Rückblickfischaugenkamera erfasst und unter Verwendung von Punktkorrespondenzen zwischen diesen Bildern wird eine 3D-Information gewonnen. Nachteilig an diesem Ansatz ist es, dass aufgrund der begrenzten Kameraauflösung der 3D-Modulierungsbereich auf einige dutzend Meter Entfernung eingeschränkt ist. Zudem ist es häufig nicht möglich, zuverlässige Entfernungsinformationen für bewegte Objekte, beispielsweise andere Verkehrsteilnehmer, zu ermitteln.
Weiterhin ist ein Verfahren zur Ermittlung von Tiefeninformationen aus zweidimensionalen Bildern unter Nutzung eines neuralen Netzwerkes bekannt aus dem Artikel F. Liu, C. Shen, G. Lin, I. Reid: Learning Depth from Single Monocular Images Using Deep Convolutional Neural Fields. arXiv: 1502.07411 v6 [cs.CV], 25 Nov 2015. Preprint-Dokumentenserver Cornell University Library.
Ein Verfahren zur Erkennung von Hindernissen für autonome Systeme, die sich mit relativ hohen Geschwindigkeiten bewegen, wobei eine Abstandsermittlung mit Hilfe eines neuronalen Netzes und anhand eines Bildes einer Kamera durchgeführt wird, ist bekannt aus dem Artikel M. Mancini, G. Constante, P. Valigi, T.A. Ciarfuglia: Fast Robust Monocular Depth Estimation for Obstacle Detection with Fully Convolutional Networks. arXiv: 1607.06349v1 [cs.RO], 21 Jul 2016. Preprint-Dokumentenserver Cornell University Library.
Der Erfindung liegt demnach die Aufgabe zugrunde, ein Verfahren zur Ermittlung von Entfernungsdaten anzugeben, das auch bei einfacher genutzter Sensorik Entfernungsabschätzungen auch für entfernte und/oder bewegte Objekte ermöglicht.
Die Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst.
Erfindungsgemäß wird vorgeschlagen, die Entfernung zu zumindest einem durch die Kamera erfassten Objekt mit Hilfe der Ermittlungsfunktion zu ermitteln, die durch Maschinenlernen trainiert wurde. Beispielsweise kann ein neuronales Netzwerk genutzt werden. Die Verarbeitungsparameter wirken somit als ein kognitives Gedächtnis der trainierten Ermittlungsfunktion. Ein großer Vorteil der Nutzung von Verfahren des Maschinenlernens ist es, dass es nicht erforderlich ist, manuell bestimmte Verarbeitungsregeln vorzugeben, um eine oder mehrere Entfernungen aus den Bilddaten zu ermitteln. Verfahren des Maschinenlernens, insbesondere neuronale Netzwerke, können im Rahmen der Bildverarbeitung ähnliche Ergebnisse erzielen, wie das menschliche Gehirn. Hierbei ist es bekannt, dass menschliche Betrachter auch aus zweidimensionalen Bildern oder bei Nutzung nur eines Auges relativ und absolute Entfernungen zu erkannten Objekten abschätzen können. Hierbei werden intuitiv relative Größen, Verdeckungen, Schattenwürfe und Ähnliches ausgewertet.
Der Erfindung liegt die Idee zugrunde, dass durch ein Maschinenlernen eine ähnliche „Intuition“ für eine Ermittlungsfunktion trainierbar ist. Entsprechende Verarbeitungsparameter, die eine Entfernungsabschätzung aus zweidimensionalen Bilddaten ermöglichen, können automatisch im Rahmen des Maschinenlernens erlernt werden. Das vorgeschlagene Verfahren zur Ermittlung von Entfernungsdaten ist in einer Vielzahl von Anwendungsbereichen einsetzbar. Besonders vorteilhaft ist es jedoch nutzbar, um in Kraftfahrzeugen Daten für Fahrerassistenzsysteme beziehungsweise für Systeme zum Durchführen autonomer Fahrmanöver bereitzustellen.
Die Entfernungsdaten können für jeden Bildpunkt der Bilddaten oder für mehrere Gruppen der Bildpunkte eine jeweilige Entfernung zu einem jeweiligen durch den Bildpunkt oder die Gruppe abgebildeten Objekte beschreiben. Somit kann letztlich ein ähnliches Entfernungsbild bereitgestellt werden, wie es bei einer Nutzung von aufwendigeren Sensoren, beispielsweise von Laserscannern oder Time-of-Flight-Kameras, möglich wäre. Die Gruppen von Bildpunkten können insbesondere jeweils benachbarte Bildpunkte, beispielsweise eine rechteckige Gruppe von Bildpunkten, umfassen.
Die Trainingsdatensätze können jeweils ein Eingangsbild und ein Entfernungsreferenzbild umfassen, wobei im Rahmen des Maschinenlernens ein Maß für die Abweichung von Verarbeitungsbildern, die durch Anwenden der Ermittlungsfunktion auf das Eingangsbild eines jeweiligen Trainingsdatensatzes ermittelt werden, von den jeweiligen Entfernungsreferenzbildern minimiert wird. Als Maß für die Abweichung zwischen dem jeweiligen Verarbeitungsbild und dem Entfernungsreferenzbild kann eine Kostenfunktion definiert werden. Diese kann von mehreren Einzelabweichungen abhängen, die für die einzelnen Bildpunkte beziehungsweise für Gruppen dieser Bildpunkte der einzelnen Verarbeitungsbilder berechnet werden. Vorzugsweise weisen das Verarbeitungsbild und das Referenzbild eine gleiche Bildauflösung auf, womit die Einzelabweichungen jeweils bildpunktbasiert berechnet werden können. Die entsprechende Einzelabweichung kann hierbei jeweils den Unterschied zwischen der für den jeweiligen Bildpunkt im Entfernungsreferenzbild gespeicherten Entfernung und der für diesen Bildpunkt im Verarbeitungsbild ermittelten Entfernung angeben. Die Kostenfunktion kann in Abhängigkeit dieser Einzelabweichungen in Form einer Metrik beziehungsweise Norm berechnet werden. Beispielsweise kann eine 1-Norm, eine sogenannte Manhattan-Norm, oder eine 2-Norm, eine sogenannte Euklidische-Norm, verwendet werden. Bei einer 1-Norm werden die einzelnen Einzelabweichungen addiert, um zur Kostenfunktion zu gelangen. Bei einer 2-Norm werden die Quadrate der Einzelabweichungen summiert und die Kostenfunktion wird als Wurzel dieser Summe berechnet.
Die Minimierung der Kostenfunktion kann durch eine Variation der Verarbeitungsparameter erfolgen. Dieser Ansatz ist aus dem Bereich der neuronalen Netzwerke bekannt und wird dort Fehlerrückführung oder Backpropagation of Error genannt. Allgemein können Gradientenverfahren genutzt werden, bei denen eine Ableitung der Kostenfunktion beziehungsweise des Maßes für die Abweichung bezüglich der Verarbeitungsparameter berechnet wird, um eine Variationsrichtung für die Verarbeitungsparameter zu ermitteln. Hierbei handelt es sich um einen bekannten Optimierungsansatz, der nicht im Detail erläutert werden soll.
Als Trainingsdatensätze können insbesondere Trainingsdatensätze genutzt werden, die durch eine bildgebende Sensorik erfasst wurden, die zu jedem Bildpunkt neben Bilddaten zusätzliche Entfernungsdaten liefert. Beispielsweise können zumindest Teile der Trainingsdatensätze durch Time-of-Flight-Kameras erfasst werden, wobei das Eingangsbild die jeweiligen Intensitäten für alle Bildpunkte umfasst und das Entfernungsreferenzbild die Entfernungen. Ergänzend oder alternativ können entsprechende Trainingsdatensätze durch einen Laserscanner bereitgestellt werden. Es ist auch möglich, zumindest Teile der Trainingsdatensätze durch kombinierte Sensoreinrichtungen zu erfassen, die beispielsweise eine Radarsensorik mit hoher Winkelauflösung und wenigstens eine Kamera umfassen, wobei durch einen Kalibriervorgang die einzelnen Bildpunkte der Kamera zu einzelnen Erfassungswinkeln des Radarsensors zugeordnet sind oder Ähnliches. Ergänzend oder alternativ können auch synthetische Trainingsdatensätze genutzt werden, bei denen von einem 3D-Modell ausgegangen wird und aus diesem ein Eingangsbild und ein Entfernungsreferenzbild für die entsprechende 3D-Szene berechnet werden.
Das Training der Ermittlungsfunktion durch solche Trainingsdatensätze ermöglicht es, Eigenschaften der relativ aufwendigen, zur Ermittlung der Trainingsdatensätze genutzten Sensorik auf eine technisch sehr einfache Ermittlung der Entfernungen mit Hilfe einer Kamera und der Ermittlungsfunktion zu übertragen. Wird somit im Rahmen der Ermittlung der Trainingsdatensätze eine Sensorik genutzt, die eine sehr genaue Entfernungsbestimmung beziehungsweise eine Entfernungsbestimmung über große Reichweiten ermöglicht, so sind die Vorteile dieser Sensorik durch das Training der Ermittlungsfunktion zumindest teilweise auch dann nutzbar, wenn die tatsächliche Datenerfassung durch eine relativ einfache Kamera erfolgt.
Im Rahmen der Erfindung wurde festgestellt, dass es vorteilhaft ist, einen Verarbeitungsalgorithmus zu nutzen, der mehrere in einer Verarbeitungsreihenfolge geordnete Verarbeitungsschichten aufweist, wobei in jeder dieser Verarbeitungsschichten wenigstens eine Teilfunktion ausgeführt wird, die jeweils durch wenigstens einen der Verarbeitungsparameter parametrisiert wird, wobei die wenigstens eine Teilfunktion der ersten Verarbeitungsschicht von zumindest einem jeweiligen Teil der Bilddaten abhängt, wobei die jeweilige wenigstens eine Teilfunktion der in der Verarbeitungsreihenfolge folgenden Verarbeitungsschichten von dem wenigstens einen Verarbeitungsergebnis der wenigstens einen Teilfunktion in der jeweiligen unmittelbar vorangehenden Verarbeitungsschicht abhängt. Vorzugsweise weist jede der Verarbeitungsschichten mehrere der Teilalgorithmen auf. Vorzugsweise hängt von jedem Bildpunkt der Bilddaten beziehungsweise der Verarbeitungsdaten wenigstens einer der Teilalgorithmen, vorzugsweise mehrere Teilalgorithmen, der ersten Verarbeitungsschicht ab. Die Teilalgorithmen einer letzten Verarbeitungsschicht können jeweils als Ausgabewert einen oder mehrere Bildpunkte der Entfernungsdaten ausgeben.
Bei zumindest Teilen der Teilalgorithmen kann es sich um nicht lineare Funktionen handeln, wobei als Eingangswert der nicht linearen Funktion insbesondere eine gewichtete Summe mehrerer Verarbeitungsergebnisse der unmittelbar vorangehenden Verarbeitungsschicht verwendet werden kann. Der Verarbeitungsalgorithmus kann beispielsweise wenigstens drei, fünf oder sieben Verarbeitungsschichten aufweisen. Als Verarbeitungsalgorithmus können beispielsweise sogenannte „Deep Learning“-Algorithmen verwendet werden. Diese nutzen einen tiefen Graphen mit mehreren Verarbeitungsschichten, die sich jeweils aus mehreren linearen oder nicht linearen Transformationen zusammensetzen.
Vorzugsweise wird als Verarbeitungsalgorithmus ein künstliches neuronales Netz, beispielsweise ein Convolutional Neural Network, verwendet. Vorzugsweise wird im erfindungsgemäßen Verfahren ein entsprechendes neuronales Netzwerk nicht genutzt, um ein einzelnes Klassifikationsergebnis zu ermitteln, sondern es wird eine Vielzahl von Ausgabewerten generiert, nämlich verschiedene Entfernungen für verschiedene Bildpunkte beziehungsweise Bildbereiche. Das neuronale Netz wirkt somit als eine Art Filter auf die Bilddaten beziehungsweise die Verarbeitungsdaten, um ein Ergebnisbild zu generieren.
Verschiedene Arten des Maschinenlernens nutzen verschiedene Arten der Wissensrepräsentation. Bei sogenannten symbolischen Systemen ist das erlernte Wissen explizit in Form von Regeln erkennbar. Bei subsymbolischen Systemen, beispielsweise bei neuronalen Netzwerken, wird zwar ein bestimmtes Verhalten der Ermittlungsfunktion antrainiert, das entsprechende Wissen in Form der Verarbeitungsparameter liegt jedoch in der Regel nicht so vor, dass es leicht interpretiert werden kann. Dies führt unter anderem dazu, dass eine einmal trainierte Ermittlungsfunktion stets Daten in einem gleichen Eingabeformat benötigt. Es ist daher im erfindungsgemäßen Verfahren möglich, die Ermittlungsfunktion nicht direkt auf Bilddaten anzuwenden, sondern auf Verarbeitungsdaten, die aus diesen ermittelt wurden. Hierdurch kann beispielsweise eine Abstraktionsschicht implementiert werden, um eine einmal trainierte Ermittlungsfunktion, das heißt einen bestimmten Satz von Verarbeitungsparametern, für unterschiedliche Kameras, beispielsweise Schwarz-Weiß- und Farbkameras und/oder Kameras mit unterschiedlicher Bildauflösung, zu nutzen. Die Vorverarbeitung zu Verarbeitungsdaten kann ausschließlich der Formatkonvertierung dienen, prinzipiell sind jedoch auch komplexere Vorverarbeitungen, beispielsweise eine Vektorisierung der Bilddaten, möglich.
Es ist im erfindungsgemäßen Verfahren vorgesehen, dass die Bilddaten zweidimensionale Bilddaten sind, wobei die Entfernungsdaten ausschließlich aus den Bilddaten der Kamera ermittelt werden. Erfindungsgemäß werden die Entfernungsdaten ausschließlich aus Bilddaten genau eines Bildes der Kamera ermittelt. Die erfindungsgemäße Nutzung einer durch Maschinenlernen parametrisierten Ermittlungsfunktion kann somit sehr schnell und mit einfacher Sensorik Entfernungen zu Objekten ermitteln.
Das erfindungsgemäße Verfahren ist mit besonderem Vorteil in Kraftfahrzeugen nutzbar. Es ist erfindungsgemäß vorgesehen, dass die Kamera an einem Kraftfahrzeug angeordnet ist, wobei in Abhängigkeit der Entfernungsdaten eine Fahrzeugeinrichtung des Kraftfahrzeugs zur Ausgabe eines Fahrhinweises an einen Fahrer und/oder zur Durchführung eines Fahreingriffs angesteuert wird. Die Ansteuerung der Fahrzeugeinrichtung kann insbesondere ausschließlich bei Erfüllung einer die Entfernungsdaten auswertenden Entfernungsbedingung erfolgen. Ergänzend ist es möglich, dass die Ansteuerung von einer Objektklassifikation der im Kraftfahrzeugumfeld erfassten Objekte abhängt.
Es ist jedoch auch möglich, wenigstens eine Fahrzeugeinrichtung in wenigstens einem Betriebsmodus des Kraftfahrzeugs kontinuierlich oder wiederholt auf eine Art und Weise anzusteuern, die von den Entfernungsdaten abhängt. Beispielsweise kann ein Abstand zu bestimmten Objekten im Umfeld des Kraftfahrzeugs optisch oder akustisch an einen Fahrer ausgegeben werden, eine Längsführung, beispielsweise durch einen Abstandsassistenten, kann von den Entfernungsdaten abhängen oder Ähnliches. Es ist hierbei möglich, dass die Ansteuerung der Fahrzeugeinrichtung ausschließlich in Abhängigkeit der Entfernungsdaten erfolgt. Erfindungsgemäß werden die Entfernungsdaten jedoch mit Daten aus anderen Informationsquellen fusioniert oder durch diese validiert. Als Informationsquellen können beispielsweise weitere Sensoren des Kraftfahrzeugs und/oder über Funkverbindungen, beispielsweise eine Car-2-Car-Kommunikation, empfangene Daten dienen.
Neben dem erfindungsgemäßen Verfahren betrifft die Erfindung ein Kraftfahrzeug mit einer Kamera und einer Verarbeitungseinrichtung, wobei durch die Verarbeitungseinrichtung Bilddaten der Kamera gemäß dem erfindungsgemäßen Verfahren auswertbar sind, wobei in Abhängigkeit der Entfernungsdaten eine Fahrzeugeinrichtung des Kraftfahrzeugs zur Ausgabe eines Fahrhinweises an einen Fahrer und/oder zur Durchführung eines Fahreingriffs ansteuerbar ist. Die Verarbeitungseinrichtung kann zudem eines oder mehrere Fahrerassistenzsysteme implementieren und/oder zur autonomen Führung des Kraftfahrzeugs ausgebildet sein. Hierzu ist durch die Verarbeitungseinrichtung wenigstens eine Fahrzeugeinrichtung des Kraftfahrzeugs ansteuerbar, beispielsweise eine Anzeigeeinrichtung, eine Ausgabeeinrichtung für akustische Informationen und/oder ein Aktor für Fahreingriffe.
Weitere Vorteile und Einzelheiten der Erfindung ergeben sich aus den folgenden Ausführungsbeispielen und den zugehörigen Zeichnungen. Hierbei zeigen:

1 ein Ablaufdiagramm eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens, und
2 ein Ausführungsbeispiel eines erfindungsgemäßen Kraftfahrzeugs.

1 zeigt ein Ablaufdiagramm eines Verfahrens zur Ermittlung von eine Entfernung zu wenigstens einem durch eine Kamera erfassten Objekt beschreibenden Entfernungsdaten. In dem Verfahren werden durch eine Kamera Bilddaten eines Bildes erfasst. Dies erfolgt durch eine Kamera 6, die wie in 2 gezeigt ist, an einem Kraftfahrzeug 5 angeordnet ist. Durch Anwenden einer Ermittlungsfunktion werden Entfernungsdaten ermittelt, die vorzugsweise zu jedem Bildpunkt eine Entfernung des erfassten Objekts beschreiben. Die Ermittlungsfunktion ist durch eine Vielzahl von Verarbeitungsparametern parametrisiert, die durch ein Verfahren des Maschinenlernens anhand von Trainingsdatensätzen erlernt wurden.
Das in 1 dargestellte Verfahren zerfällt somit letztlich in zwei Verfahrensabschnitte. Im ersten Verfahrensabschnitt von Schritt S1 bis Schritt S7 wird die Ermittlungsfunktion parametrisiert und die entsprechend parametrisierte Ermittlungsfunktion beziehungsweise die Parameter für eine bereits vorhandene Ermittlungsfunktion werden in der Verarbeitungseinrichtung 7 des Kraftfahrzeugs 5 gespeichert. Anschließend können die Schritte S8 bis S10, in denen diese parametrisierte Ermittlungsfunktion im Rahmen des Fahrbetriebs des Kraftfahrzeugs 5 zur Entfernungsermittlung eingesetzt werden kann, im Kraftfahrzeug 5 durchgeführt werden.
Um die Ermittlungsfunktion zu trainieren werden zunächst in Schritt S1 eine Vielzahl von Trainingsdatensätzen 1 bereitgestellt. Diese umfassen jeweils ein Eingangsbild 2 und ein Entfernungsreferenzbild 3. Die Trainingsdatensätze 1 können auf vielfältige Weise ermittelt werden. Beispielsweise kann eine Time-of-Flight-Kamera genutzt werden, die für eine Vielzahl von Bildpunkten jeweils eine Information über eine erfasste Lichtintensität und über eine Lichtlaufzeit bereitstellt. Die Lichtintensitäten können als Bilddaten des Eingangsbildes 2 genutzt werden. Die Laufzeiten beziehungsweise aus den Laufzeiten ermittelte Entfernungen können als Bilddaten des Entfernungsreferenzbildes 3 genutzt werden.
Alternativ oder zusätzlich können Trainingsdatensätze 1, beispielsweise auch durch bildgebende Laserscanner, erfasst werden. Das Vorgehen hierbei entspricht dem Vorgehen für eine Time-of-Flight-Kamera. Es ist auch möglich, zumindest Teile der Trainingsdatensätze 1 durch Sensoreinrichtungen zu erfassen, die Sensordaten verschiedener Sensoren fusionieren, um das Eingangsbild und das Entfernungsreferenzbild bereitzustellen. Beispielsweise können die Entfernungsdaten des Entfernungsreferenzbildes durch einen winkelauflösenden Radardetektor erfasst werden. Ergänzend kann eine Kamera genutzt werden, deren Erfassungsbereich relativ zu dem Erfassungsbereich des Radardetektors kalibriert ist, um das zugehörige Eingangsbild zu ermitteln. Auch in diesem Fall können einzelnen Bildpunkten des Eingangsbildes definierte Entfernungen des Entfernungsreferenzbildes zugeordnet werden.
Letztlich ist es auch möglich, zumindest Teile der Trainingsdatensätze 1 synthetisch zu erzeugen. Hierzu können beispielsweise 3D-Modelle eines bestimmten Umfeldes bereitgestellt werden und es kann wenigstens eine virtuelle Datenerfassung in diesem Modell durchgeführt werden, durch die Bilddaten für das Eingangsbild und Entfernungen für das Entfernungsreferenzbild erfasst werden.
In Schritt S2 wird für jeden der Trainingsdatensätze 1 jeweils die Ermittlungsfunktion auf das Eingangsbild 2 angewandt. Bei der Ermittlungsfunktion kann es sich beispielsweise um ein neuronales Netzwerk oder eine statistische Datenmodellierung handeln, das beziehungsweise die trainiert werden soll. Hierbei können zu Beginn des Trainings im Wesentlichen beliebige Anfangswerte für die Verarbeitungsparameter der Ermittlungsfunktion genutzt werden. In späteren Wiederholungen werden iterativ angepasste Verarbeitungsparameter genutzt, wobei diese Anpassung später erläutert wird.
Durch Anwenden der Ermittlungsfunktion auf die Eingangsbilder steht in Schritt S3 für jeden der Trainingsdatensätze 1 ein jeweiliges Verarbeitungsbild 4 bereit. Dieses wird in Schritt S4 mit dem Entfernungsreferenzbild 3 des zugehörigen Trainingsdatensatzes 1 verglichen, um ein Maß für die Unterschiede zwischen dem jeweiligen Verarbeitungsbild 4 und dem jeweiligen Entfernungsreferenzbild 3, also eine Kostenfunktion, zu ermitteln. Das Maß für den Unterschied kann hierbei Unterschiede der Entfernung für die jeweiligen Bildpunkte als Unterschiedsgrößen auswerten. Die verschiedenen Unterschiedsgrößen können als Abweichungen betrachtet werden, für die ein Maß für die Gesamtabweichung berechnet wird. Dies kann in Form von einer 1-Norm, auch Manhattan-Norm genannt, also einer Summe der Unterschiedsgrößen, oder einer 2-Norm, auch Euklidische-Norm genannt, bei der eine Quadratwurzel der Summe der Quadrate der Unterschiedsgrößen berechnet wird, erfolgen. Insbesondere erfolgt die Summation hierbei über die Bildpunkte aller Trainingsdatensätze.
In Schritt S5 wird ermittelt, ob die Parameteroptimierung konvergiert. Hierzu kann beispielsweise überprüft werden, ob der Unterschied der in aufeinanderfolgenden Durchläufen in Schritt S4 ermittelten Kostenfunktionen einen Grenzwert unterschreitet. Ist dies nicht der Fall, so werden in Schritt S6 die Verarbeitungsparameter angepasst und die Schritte S2 bis S5 werden anschließend mit den angepassten Verarbeitungsparametern wiederholt.
Zur Anpassung der Verarbeitungsparameter kann ein Gradientenverfahren genutzt werden. Hierzu kann eine Ableitung der in Schritt S4 berechneten Kostenfunktion nach den Verarbeitungsparametern berechnet werden, um eine Variationsrichtung zu ermitteln, für die die Kostenfunktion sinkt, vorzugsweise die Richtung des steilsten Abstiegs.
Wurde in Schritt S5 ermittelt, dass das Optimierungsverfahren bereits konvergiert ist, so werden die zuletzt in Schritt S2 genutzten Verarbeitungsparameter im Schritt S7 als gelernte beziehungsweise endgültige Verarbeitungsparameter festgelegt. Soll der Verarbeitungsalgorithmus beispielsweise in einer Vielzahl von Kraftfahrzeugen genutzt werden, können die Schritte S1 bis S6 zumindest für all diejenigen Kraftfahrzeuge, die austauschbar nutzbare Kameras 6 aufweisen, gemeinsam durchgeführt werden. In Schritt S7 kann die Ermittlungsfunktion für alle diese Kraftfahrzeuge durch die ermittelten Verarbeitungsparameter parametrisiert werden. Die Nutzung der entsprechend parametrisierten Ermittlungsfunktion erfolgt in den Schritten S8 bis S10. Diese werden im Folgenden für ein Beispiel beschrieben, in dem diese Schritte in dem Kraftfahrzeug 5 durchgeführt werden. Selbstverständlich sind auch andere Anwendungsfälle möglich.
Im Schritt S7 wird durch die Kamera 6 des Kraftfahrzeugs 5 ein Bild des vorderen Umfelds des Kraftfahrzeugs 5 erfasst. Im Schritt S9 wird anschließend die durch die zuvor ermittelten Verarbeitungsparameter parametrisierte Ermittlungsfunktion auf die Bilddaten dieses Bildes angewandt. Hierdurch wird ein Entfernungsbild berechnet, das als Entfernungsdaten für jeden Bildpunkt der ursprünglichen Bilddaten eine jeweilige Entfernung zu einem jeweiligen durch diesen Bildpunkt abgebildeten Objekt beschreibt. Da die Ermittlungsfunktion durch die Trainingsdatensätze 1 gezielt dazu trainiert wurde, Entfernungen aus Bilddaten einer Kamera zu bestimmen, können bei einem ausreichenden Training entsprechende Entfernungen mit hoher Robustheit und hoher Genauigkeit ermittelt werden. In Weiterbildungen des erläuterten Verfahrens wäre es möglich, die durch die Ermittlungsfunktion ermittelten Entfernungen durch über weitere Sensoren des Kraftfahrzeugs 5 erfasste Sensordaten oder andere vom Kraftfahrzeug 5 empfangene Daten zu verifizieren.
Die Entfernungsdaten werden anschließend in Schritt S10 weiterverarbeitet, beispielsweise um Entfernungen und/oder Relativbewegungen zu weiteren Verkehrsteilnehmern zu ermitteln, ein dreidimensionales Umgebungsmodell für das Kraftfahrzeug 5 zu generieren oder Ähnliches. In Abhängigkeit des Verarbeitungsergebnisses wird eine Fahrzeugeinrichtung 8 angesteuert, um dem Fahrer einen Fahrhinweis zu geben und/oder in den Fahrbetrieb einzugreifen. Beispielsweise können auf einer Anzeigeeinrichtung, insbesondere in Form eines Head-up-Displays, Abstandsinformationen zu weiteren Verkehrsteilnehmern eingeblendet werden oder es kann wenigstens ein Aktor als Fahrzeugeinrichtung 8 angesteuert werden, um das Kraftfahrzeug 5 im Rahmen einer automatischen Abstandsregelung zu beschleunigen oder zu bremsen.

Claims

Verfahren zur Ermittlung von eine Entfernung zu wenigstens einem durch eine Kamera (6) erfassten Objekt beschreibenden Entfernungsdaten, wobei durch die Kamera (6) wenigstens ein Bild des Objekts erfasst wird, wonach in Abhängigkeit der Bilddaten des Bildes die Entfernungsdaten ermittelt werden, wobei die Bilddaten zweidimensionale Bilddaten sind, wobei die Entfernungsdaten ausschließlich aus den Bilddaten genau eines Bildes der Kamera (6) ermittelt werden, wobei die Entfernungsdaten durch Anwenden einer Ermittlungsfunktion auf die Bilddaten oder auf aus den Bilddaten ermittelte Verarbeitungsdaten ermittelt werden, wobei die Ermittlungsfunktion durch mehrere Verarbeitungsparameter parametrisiert wird, die ermittelt werden, indem die Ermittlungsfunktion durch mehrere Trainingsdatensätze (1) im Rahmen eines Maschinenlernens trainiert wird, wobei die Kamera (6) an einem Kraftfahrzeug (5) angeordnet ist, dadurch gekennzeichnet, dass in Abhängigkeit der Entfernungsdaten eine Fahrzeugeinrichtung (8) des Kraftfahrzeugs zur Ausgabe eines Fahrhinweises an einen Fahrer und/oder zur Durchführung eines Fahreingriffs angesteuert wird, wobei hierbei die Entfernungsdaten mit Daten aus anderen Informationsquellen fusioniert oder durch diese validiert werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Entfernungsdaten für jeden Bildpunkt der Bilddaten oder für mehrere Gruppen der Bildpunkte eine jeweilige Entfernung zu einem jeweiligen durch den Bildpunkt oder die Gruppe abgebildeten Objekt beschreiben.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Trainingsdatensätze (1) jeweils ein Eingangsbild (2) und ein Entfernungsreferenzbild (3) umfassen, wobei im Rahmen des Maschinenlernens ein Maß für die Abweichung von Verarbeitungsbildern (4), die durch Anwenden der Ermittlungsfunktion auf das Eingangsbild (2) eines jeweiligen Trainingsdatensatzes (1) ermittelt werden, von den jeweiligen Entfernungsreferenzbildern (3) minimiert wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Ermittlungsfunktion mehrere in einer Verarbeitungsreihenfolge geordnete Verarbeitungsschichten aufweist, wobei in jeder dieser Verarbeitungsschichten wenigstens eine Teilfunktion ausgeführt wird, die jeweils durch wenigstens einen der Verarbeitungsparameter parametrisiert wird, wobei die wenigstens eine Teilfunktion der ersten Verarbeitungsschicht von zumindest einem jeweiligen Teil der Bilddaten abhängt, wobei die jeweilige wenigstens eine Teilfunktion der in der Verarbeitungsreihenfolge folgenden Verarbeitungsschichten von dem wenigstens einen Verarbeitungsergebnis der wenigstens einen Teilfunktion in der jeweiligen unmittelbar vorangehenden Verarbeitungsschicht abhängt.
Kraftfahrzeug (5) mit einer Kamera (6) und einer Verarbeitungseinrichtung (7), dadurch gekennzeichnet, dass durch die Verarbeitungseinrichtung (7) Bilddaten der Kamera (6) gemäß dem Verfahren nach einem der vorangehenden Ansprüche auswertbar sind, wobei in Abhängigkeit der Entfernungsdaten eine Fahrzeugeinrichtung (8) des Kraftfahrzeugs (5) zur Ausgabe eines Fahrhinweises an einen Fahrer und/oder zur Durchführung eines Fahreingriffs ansteuerbar ist, wobei hierbei die Entfernungsdaten mit Daten aus anderen Informationsquellen fusioniert oder durch diese validiert werden.