DE102018103817A1

DE102018103817A1 - Freiraumdetektion unter verwendung einer monokularen kamera und von deep learning

Info

Publication number: DE102018103817A1
Application number: DE102018103817.8A
Authority: DE
Inventors: Mohsen Lakehal-ayat; Matthew Chong; Alexandru Mihai Gurghian
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2017-02-23
Filing date: 2018-02-20
Publication date: 2018-08-23
Also published as: GB2561448A; RU2018106485A; CN108470147A; US20180239969A1; GB201802777D0

Abstract

Gemäß einer Ausführungsform beinhaltet ein Verfahren zum Detektieren von Freiraum nahe einem Fahrzeug Erhalten eines Bildes für eine Region nahe einem Fahrzeug. Das Verfahren beinhaltet Generieren auf Grundlage des Bildes einer Vielzahl von Ausgaben, die jeweils eine Höhe für eine Bildspalte des Bildes angeben, in dem sich eine Grenze einer fahrbaren Region befindet. Das Verfahren beinhaltet ferner Auswählen einer Fahrtrichtung oder eines Fahrmanövers für das Fahrzeug, um innerhalb der fahrbaren Region zu bleiben, auf Grundlage der Vielzahl von Ausgaben.

Description

TECHNISCHES GEBIET
Die Offenbarung betrifft im Allgemeinen Verfahren, Systeme und Vorrichtungen zur Freiraumdetektion und betrifft insbesondere Verfahren, Systeme und Vorrichtungen zur Freiraumdetektion unter Verwendung eines monokularen Kamerabildes und von Deep Learning.
ALLGEMEINER STAND DER TECHNIK
Automobile stellen einen erheblichen Teil des Transports für gewerbliche, behördliche und private Einrichtungen bereit. Autonome Fahrzeuge und Fahrassistenzsysteme werden gegenwärtig entwickelt und eingesetzt, um Sicherheit bereitzustellen, eine Menge von erforderlicher Benutzereingabe zu verringern oder eine Benutzerbeteiligung sogar gänzlich zu eliminieren. Zum Beispiel können einige Fahrassistenzsysteme, wie beispielsweise Unfallvermeidungssysteme, die Fahrt, Positionen und eine Geschwindigkeit des Fahrzeugs und anderer Objekte überwachen, während ein Mensch fährt. Wenn das System detektiert, dass ein Unfall oder Zusammenstoß unmittelbar bevorsteht, kann das Unfallvermeidungssystem eingreifen und eine Bremse betätigen, das Fahrzeug lenken oder andere Ausweich- oder Sicherheitsmanöver durchführen. Als ein anderes Beispiel können autonome Fahrzeuge ein Fahrzeug mit wenig oder keiner Benutzereingabe fahren und navigieren. Genaue und schnelle Detektion von fahrbaren Oberflächen oder Regionen ist oftmals notwendig, um automatisierten Fahrsystemen oder Fahrassistenzsysteme zu ermöglichen, Straßen und Fahrstrecken sicher zu navigieren.
Figurenliste
Nicht einschränkende und nicht erschöpfende Umsetzungen der vorliegenden Offenbarung werden in Bezug auf die folgenden Figuren beschrieben, wobei sich in den verschiedenen Ansichten gleiche Bezugszeichen auf gleiche Teile beziehen, sofern nicht anderweitig angegeben. Vorteile der vorliegenden Offenbarung können unter Bezugnahme auf die folgende Beschreibung und beigefügten Zeichnungen besser nachvollzogen werden, in welchen Folgendes gilt:

1 ist ein schematisches Blockdiagramm, das eine Umsetzung eines Fahrzeugsteuersystems veranschaulicht, welches ein automatisiertes Fahr-/Assistenzsystem beinhaltet;
2 veranschaulicht ein Raster zum Diskretisieren eines Bildes gemäß einer Umsetzung;
3, 4 und 5 veranschaulichen erfasste Bilder mit überlagerten Markierungen, die diskretisierte Stellen einer fahrbaren Oberflächengrenze widerspiegeln, gemäß einer Umsetzung;
6, 7, 8, 9, 10 und 11 veranschaulichen eine Grenzlinie, die abgeleitete Grenzmarkierungen verbinden, gemäß einer Ausführungsform.
12 ist eine schematische Darstellung eines Ablaufdiagramms, das den Informationsfluss durch ein neuronales Netzwerk zur Freiraum- oder fahrbaren Oberflächendetektion gemäß einer Umsetzung veranschaulicht;
13 ist ein schematisches Blockdiagramm, das Komponenten einer fahrbaren Region gemäß einer Umsetzung veranschaulicht;
14 ist eine schematische Darstellung eines Ablaufdiagramms, das ein Verfahren zur Freiraumdetektion gemäß einer Umsetzung veranschaulicht; und
15 ist ein schematisches Blockdiagramm, das ein Rechensystem gemäß einer Umsetzung veranschaulicht.

DETAILLIERTE BESCHREIBUNG
Die Lokalisierung von fahrbaren Oberflächen oder Regionen ist ein wichtiger Teil zum Ermöglichen und Verbessern des Betriebs von autonomen Fahrzeugen oder Fahrerassistenzmerkmalen. Zum Beispiel muss ein Fahrzeug genau wissen, wo sich Hindernisse oder fahrbare Oberflächen befinden, um sicher zu navigieren. Jedoch stellt das Schätzen der fahrbaren Oberfläche eine Herausforderung dar, wenn keine Tiefen- oder frühere Karteninformationen verfügbar sind, und einfache Farbschwellenwertbildungslösungen bringen keine robusten Lösungen hervor.
Der Anmelder hat Systeme, Verfahren und Vorrichtungen zur Freiraumdetektion entwickelt. In einer Ausführungsform kann die Freiraumdetektion mithilfe eines einzelnen Kamerabildes durchgeführt werden. Zum Beispiel kann die Freiraumdetektion, wie hierin offenbart, für ein gegebenes Kamerabild angeben, wie weit ein Fahrzeug innerhalb jeder Bildsäule fahren kann, bevor es auf ein Hindernis trifft oder eine fahrbare Oberfläche verlässt. Gemäß einer Ausführungsform beinhaltet ein System zum Detektieren von Freiraum nahe einem Fahrzeug eine Sensorkomponente, eine Freiraumkomponente und eine Manöverkomponente. Die Sensorkomponente ist dazu konfiguriert, ein Bild für eine Region nahe einem Fahrzeug zu erhalten. Die Freiraumkomponente ist dazu konfiguriert, auf Grundlage des Bildes eine Vielzahl von Ausgaben zu generieren, die jeweils eine Höhe für eine Bildspalte des Bildes angeben, in dem sich eine Grenze einer fahrbaren Region befindet. Die Manöverkomponente ist dazu konfiguriert, eine Fahrtrichtung oder ein Fahrmanöver für das Fahrzeug auf Grundlage der Vielzahl von Ausgaben auszuwählen, um innerhalb der fahrbaren Region zu bleiben. Weitere Ausführungsformen und Beispiele werden in Bezug auf die nachstehenden Figuren erörtert.
Nun wird auf die Figuren Bezug genommen, wobei 1 ein beispielhaftes Fahrzeugsteuersystem 100 veranschaulicht, das zur automatischen Lokalisierung eines Fahrzeugs verwendet werden kann. Ein automatisiertes Fahr-/Assistenzsystem 102 kann verwendet werden, um den Betrieb eines Fahrzeugs zu automatisieren oder zu steuern oder einen menschlichen Fahrer zu unterstützen. Das automatisierte Fahr-/Assistenzsystem 102 kann zum Beispiel eines oder mehrere von Bremsung, Lenkung, Beschleunigung, Licht, Alarmen, Fahrerbenachrichtigungen, Radio und/oder beliebigen weiteren Hilfssystemen des Fahrzeugs steuern. In einem anderen Beispiel ist das automatisierte Fahr-/Assistenzsystem 102 unter Umständen nicht in der Lage, jegliche Steuerung des Fahrens (z. B. der Lenkung, Beschleunigung oder Bremsung) bereitzustellen, kann jedoch Benachrichtigungen und Warnmeldungen bereitstellen, um einen menschlichen Fahrer darin zu unterstützen, sicher zu fahren. Das automatisierte Fahr-/Assistenzsystem 102 kann ein neuronales Netzwerk oder ein anderes Modell oder einen anderen Algorithmus zum Detektieren oder Lokalisieren von Objekten basierend auf Wahrnehmungsdaten verwenden, die durch einen oder mehrere Sensoren gesammelt wurden.
Es versteht sich, dass die Ausführungsform aus 1 lediglich als Beispiel dient. Andere Ausführungsformen können weniger oder zusätzliche Komponenten beinhalten, ohne vom Schutzumfang der Offenbarung abzuweichen. Zusätzlich können veranschaulichte Komponenten ohne Beschränkung kombiniert oder in anderen Komponenten enthalten sein. Das Fahrzeugsteuersystem 100 beinhaltet ebenfalls ein/e oder mehrere Sensorsysteme/-vorrichtungen zum Detektieren eines Vorhandenseins von Objekten in der Nähe oder innerhalb eines Sensorbereichs eines Stammfahrzeugs (z. B. eines Fahrzeugs, welches das Fahrzeugsteuersystem 100 beinhaltet). Das Fahrzeugsteuersystem 100 kann zum Beispiel ein oder mehrere Radarsysteme 106, ein oder mehrere LIDAR-Systeme 108, ein oder mehrere Kamerasysteme 110, ein globales Positionsbestimmungssystem (global positioning system - GPS) 112 und/oder ein oder mehrere Ultraschallsysteme 114 beinhalten. Das Fahrzeugsteuersystem 100 kann einen Datenspeicher 116 zum Speichern relevanter oder nützlicher Daten zur Navigation und Sicherheit beinhalten, wie etwa Kartendaten, Fahrverlauf oder sonstige Daten. Das Fahrzeugsteuersystem 100 kann zudem einen Sendeempfänger 118 zur drahtlosen Kommunikation mit einem mobilen oder drahtlosen Netzwerk, anderen Fahrzeugen, Infrastruktur oder einem beliebigen anderen Kommunikationssystem beinhalten. Das Fahrzeugsteuersystem 100 kann Fahrzeugsteuerungsaktoren 120 beinhalten, um verschiedene Aspekte des Fahrens des Fahrzeugs zu steuern, wie beispielsweise Elektromotoren, Schalter oder andere Aktoren, um die Bremsung, Beschleunigung, Lenkung oder dergleichen zu steuern. Das Fahrzeugsteuersystem 100 kann außerdem eine(n) oder mehrere Anzeigen 122, Lautsprecher 124 oder andere Vorrichtungen beinhalten, sodass einem menschlichen Fahrer oder Fahrgast Benachrichtigungen bereitgestellt werden können. Eine Anzeige 122 kann eine Frontanzeige, eine Anzeige oder eine Angabe am Armaturenbrett, einen Bildschirm oder eine beliebige andere visuelle Angabe beinhalten, die von einem Fahrer oder einem Fahrgast eines Fahrzeugs gesehen werden kann. Die Lautsprecher 124 können einen oder mehrere Lautsprecher eines Soundsystems eines Fahrzeugs beinhalten oder können einen für die Fahrerbenachrichtigung vorgesehenen Lautsprecher beinhalten.
In einer Ausführungsform ist das automatisierte Fahr-/Assistenzsystem 102 dazu konfiguriert, das Fahren oder Navigieren eines Stammfahrzeugs zu steuern. Beispielsweise kann das automatisierte Fahr-/Assistenzsystem 102 die Fahrzeugsteuerungsaktoren 120 steuern, um eine Strecke auf einer Straße, einem Parkplatz, einer Einfahrt oder an einem anderen Ort zu fahren. Beispielsweise kann das automatisierte Fahr-/Assistenzsystem 102 eine Strecke basierend auf durch eine beliebige der Komponenten 106-118 bereitgestellten Informationen oder Wahrnehmungsdaten bestimmen. Die Sensorsysteme/-vorrichtungen 106-110 und 114 können verwendet werden, um Echtzeitsensordaten zu erhalten, sodass das automatisierte Fahr-/Assistenzsystem 102 in Echtzeit einen Fahrer unterstützen oder ein Fahrzeug führen kann.
In einer Ausführungsform beinhaltet das Fahrzeugsteuersystem 100 eine fahrbare Regionskomponente 104, die Freiraum auf Grundlage von Kamerabildern detektiert. In einer Ausführungsform detektiert die fahrbare Regionskomponente 104 Freiraum auf Grundlage eines monokularen Kamerabildes unter Verwendung eines neuronalen Faltungsnetzwerks (CNN) genau. Das CNN kann das gesamte Bild als eine Eingabe empfangen (mit Skalieren oder Zuschneiden, um mit der Eingabegröße des CNN übereinzustimmen) und für eine spezifische Anzahl an Spalten schätzen, wie weit ein Fahrzeug entlang dieser Bildspalte fahren kann, ohne die fahrbare Oberfläche zu missachten oder auf Hindernisse zu treffen. In einer Ausführungsform „schlussfolgert“ das CNN unmittelbar in Bezug auf das vollständige Eingabebild und wird nicht als eine lokale Straßen-/Nicht-Straßen-Klassifiziervorrichtung angewandt. Insbesondere empfängt und verarbeitet das CNN jeden Pixel des Eingabebildes gemeinsam, nicht als Teil getrennter Kästen oder Abschnitte des Bildes, was zu einer intelligenteren Grenzdetektion führen kann.
In einer Ausführungsform wird das Bild entlang der Breite und Höhe diskretisiert. 2 ist ein Raster 200, das veranschaulicht, wie ein Bild diskretisiert werden kann. Das Raster 200 beinhaltet Zellen 202 oder Kästen innerhalb von 19 Spalten und 25 Reihen. In einer Ausführungsform ist bei einem Bild mit der Größe 475x125 jede Spalte 25 Pixel breit und jede Reihe ist 5 Pixel hoch. Diese Diskretisierung dient lediglich als ein Beispiel für eine Ausführungsform und nicht als Einschränkung aller Ausführungsformen. In anderen Ausführungsformen kann die Anzahl an Spalten und Reihen zur Diskretisierung nach Bedarf variieren. Zum Beispiel kann die Anzahl an Spalten auf Grundlage einer gewünschten horizontalen Auflösung zur Freiraumdetektion angepasst werden und die Anzahl an Reihen kann auf Grundlage der vertikalen Auflösung zur Freiraumdetektion angepasst werden. 3-5 veranschaulichen erfasst Bilder mit überlagerten Markierungen, die die Diskretisierung auf Grundlage des Rasters 200 aus 2 widerspiegeln. 3 ist ein Bild 300, dass eine beispielhafte Vorderansicht veranschaulicht, die von einem Bildsensor eines Fahrzeugs erfasst werden kann. Das Bild 300 ist der Darstellung nach mit Markierungen 302 für jede Bildspalte überlagert (durch gepunktete Linien 304 begrenzt). Die Markierungen 302 können eine Grenze zwischen einer fahrbaren Oberfläche (d. h. Freiraum oder fahrbarer Freiraum) unterhalb der Markierung 302 und nicht fahrbare Oberfläche oder Hindernis über oder an der Markierung 302 für jede spezifische Bildspalte angeben. Zum Beispiel kann es sich bei der Region unterhalb der Markierung 302 um fahrbare Oberfläche handeln, wo das Fahrzeug fahren kann, ohne eine Fahrfläche zu verlassen oder auf ein Objekt, ein Hindernis, eine Person oder dergleichen zu treffen. 4 ist ein anderes Bild 400, das eine beispielhafte Vorderansicht mit überlagerten Markierungen 402 veranschaulicht, die eine Grenze für eine fahrbare Oberfläche angeben. 5 ist noch ein anderes Bild 500, das eine beispielhafte Vorderansicht mit überlagerten Markierungen 502 veranschaulicht, die eine Grenze für eine fahrbare Oberfläche angeben.
Ein Ziel in mindestens einem vorgeschlagenen Algorithmus besteht darin, das Bild im diskretisierten Raum zu finden, zu dem ein Fahrzeug fahren kann, ohne die Freiraum-/Kein-Hindernis-Beschränkung zu missachten. In einer Ausführungsform kann ein System oder Verfahren ein neuronales Faltungsnetzwerk (CNN) verwenden, um das Problem zu lösen.
In einer Ausführungsform kann das Problem folgendermaßen formalisiert werden: Der fahrbare Abstand innerhalb der Spalte i ∈ [1,19] wird durch die Zufallsvariable X_i ∈ [0,25] modelliert. Das Ziel besteht darin, die hintere Verteilung P(X_i = k | I) für ein gegebenes Bild I zu schätzen. Ein neuronales Netzwerk zum Schätzen der Wahrscheinlichkeitsverteilung kann auf Grundlage der gemeinsam verwendeten AlexNet-Architektur als ein Merkmalsextrahierer ausgelegt sein. Eine Kreuzentropie-Verlustfunktion wird auf jede Spalte einzeln angewandt und der endgültige Netzwerkverlust wird durch Mittelwertbildung der einzelnen Verlustfunktionen konstruiert. Formel wird der endgültige Netzwerkverlust L mithilfe der Gleichung 1 erhalten: $L = \frac{1}{N} \sum_{i = 1}^{19} \sum_{k = 0}^{25} P_{G T} (X_{i} = k | I) l o g P_{N N} (X_{i} = k | I)$
wobei P_gt(X = j|I) die Grundwahrheit ist, die anhand der Trainingsdaten bereitgestellt wird (z. B. den kreisförmigen Markierungen 302, 402, 502 in den 3-5), und wobei P_nn(X = j|I) die aktuelle Netzwerkausgabe für das Bild ist. Die Verlustfunktion wird auf die Oberseite der endgültigen vollständig verbundenen Schicht angewandt. Beim Testen läuft das Netzwerk in Echtzeit auf NVIDIA Drive PX1® mit einer Störungszeit von 15 Millisekunden. Dieser Ansatz erreicht die in den 6-11 dargestellten Ergebnisse. Es ist anzumerken, dass diese Störungen von fahrbaren Oberflächengrenzen auf Grundlage eines einzelnen Bildes ohne ein entsprechendes Stereobild oder ein vorheriges oder nachfolgendes Bild erfolgen. Da jeweils nur ein einzelnes Bild verarbeitet wird, können Reduzierungen der erforderlichen Verarbeitungsleistung und Verarbeitungszeit erreicht werden. Außerdem kann eine gute Leistung beim Detektieren von Freiraum ohne teure Sensoren, wie etwa Stereokameras oder LIDAR-Sensoren, erreicht werden.
6-11 veranschaulichen Ergebnisse, die während des Testens erhalten wurden. In 6 veranschaulicht die durchgezogene Linie 602 eine Grenzlinie, die die abgeleiteten Grenzmarkierungen verbindet. Die Region unter der durchgezogenen Linie 602 wird als fahrbare Oberfläche abgeleitet. In 7 veranschaulicht die durchgezogene Linie 702 eine Grenzlinie, die die abgeleiteten Grenzmarkierungen verbindet. In 8 veranschaulicht die durchgezogene Linie 802 eine Grenzlinie, die die abgeleiteten Grenzmarkierungen verbindet. In 9 veranschaulicht die durchgezogene Linie 902 eine Grenzlinie, die die abgeleiteten Grenzmarkierungen verbindet. In 10 veranschaulicht die durchgezogene Linie 1002 eine Grenzlinie, die die abgeleiteten Grenzmarkierungen verbindet. In 11 veranschaulicht die durchgezogene Linie 1102 eine Grenzlinie, die die abgeleiteten Grenzmarkierungen verbindet.
12 ist schematisches Blockdiagramm 1200, das den Informationsfluss durch ein neuronales Netzwerk zur Freiraum- oder fahrbaren Oberflächendetektion gemäß einer Ausführungsform veranschaulicht. Der Informationsfluss wird in Bezug auf ein CNN 1202, eine oder mehrere Transformationsschichten 1204 und eine oder mehrere Ausgabeschichten 1206 gezeigt, die als Teil einer fahrbaren Regionskomponente oder eines anderen Systems, wie etwa der fahrbaren Regionskomponente 104 oder des automatisierten Fahr-/Assistenzsystems 102 aus 1, enthalten oder zugänglich sein können. Die fahrbare Regionskomponente 104 kann ein Kamerabild empfangen. Das Kamerabild kann ein Bild von einer monokularen Kamera oder von einem beliebigen anderen Typ von Kamera sein, wo das erfasste Bild getrennt von anderen Bildern analysiert werden kann. Das CNN 1202, die Transformationsschichten 1204 und/oder die Ausgabeschichten 1206 können eine spezifische Anzahl an Bildspalten (i) und Bildreihen (j) annehmen oder auf Grundlage dieser trainiert worden sein. Zum Beispiel können Trainingsdaten auf Grundlage der angenommenen Anzahl an Spalten (i) und Reihen (j) beschriftet worden sein und als Trainingsdaten während des Trainierens des CNN 1202, der Transformationsschichten 1204 und/oder der Ausgabeschichten 1206 verwendet worden sein. In einer Ausführungsform veranlasst die im Training verwendete Diskretisierung das CNN 1202, die Transformationsschichten 1204 und/oder die Ausgabeschichten 1206 dazu, auf Grundlage der gleichen Diskretisierung während der Verwendung zu betreiben.
Das CNN 1202 kann ein neuronales Netzwerk mit einer oder mehreren Faltungsschichten beinhalten. In einer Ausführungsform beinhaltet eine Faltungsschicht eine Vielzahl von Knoten, die Eingaben von jeder der Vielzahl von Knoten von einer vorherigen Schicht nimmt und einer Vielzahl von Knoten einer nachfolgenden Schicht Ausgabe bereitstellt. Das Kamerabild kann komprimiert, zugeschnitten werden oder dergleichen, um mit den Dimensionen des CNN 1202 übereinzustimmen. Zum Beispiel kann das CNN 1202 eine feste Anzahl an Eingaben aufweisen. In einer Ausführungsform beinhaltet das CNN 1202 eine Eingabeschicht und fünf oder mehr Faltungsschichten. Die Anzahl an Schichten kann auf Grundlage der Bildgröße (z. B. in Pixeln), der optimalen Klassifizierungsfähigkeiten oder dergleichen erheblich variieren. Das CNN 1202 verarbeitet die Eingaben und stellt den Transformationsschichten 1204 eine Vielzahl von Ausgaben bereit. Die Transformationsschichten 1204 können den Ausgabeschichten 1206 Abbildung von dem CNN 1202 bereitstellen. Zum Beispiel können die Transformationsschichten 1204 die Ausgabe des CNN 1202 einfach in einer Form abbilden, die von den Ausgabeschichten 1206 verarbeitet werden kann.
In einer Ausführungsform können die Ausgabeschichten 1206 eine Anzahl an Knoten beinhalten, die mit der Anzahl an Bildspalten (i), die während des Trainings verwendet wurden, sowie einer Anzahl an Ausgaben I übereinstimmen. Die Ausgabeschichten 1206 können I Ausgabewerte ausgeben, die einen Wert aufweisen, der aus J Bildreihen ausgewählt wurde. Jede der I Ausgaben kann einen ganzzahligen Wert beinhalten, der einen Abstand (der den diskretisierten Reihen entspricht) von der Unterseite des Bildes, wo die erste nicht fahrbare Oberfläche oder Nicht-Freiraumstelle detektiert wird, angibt. Zum Beispiel kann jede Ausgabe eine Stelle angeben, die den Markierungen 302, 402, 502 der FIG. 3-5 für jedes entsprechende Bild entspricht. Jede Ausgabe kann ein ganzzahliger oder kontinuierlicher Wert zwischen 0 und J sein, wobei J die Anzahl an diskretisierten Reihen ist. Auf Grundlage dieser Markierungen kann ein Fahrzeugsteuersystem 100 oder ein anderes System einen Abstand zwischen einer derzeitigen Stelle des Fahrzeugs und der fahrbaren Oberflächengrenze bestimmen. Zum Beispiel kann das Fahrzeugsteuersystem 100 ableiten, dass es mindestens zu einer Stelle fahren kann, die der diskretisierten Reihe in dieser spezifischen Bildsäule entspricht, bevor eine fahrbare Oberfläche verlassen oder auf ein Objekt getroffen wird. Der Abstand zur Markierung kann auf Grundlage eines Winkels der Kamera, die das Bild, die Krümmung des Straßenbelags oder dergleichen erhalten hat, berechnet werden.
Die hierin offenbarten Ausführungsformen ermöglichen die Detektion von Freiraum vor einem Fahrzeug ohne Verwendung von Tiefenabbildungen, wie etwa denen, die von LIDAR, RADAR oder Stereokameras erfasst werden. Eine einzelne monokulare Kamera kann verwendet werden, um ein Bild eines Pfades oder Raums vor dem Fahrzeug zu erfassen. Das Bild, das von der monokularen Kamera erfasst wurde, wird als Eingabe in ein CNN verarbeitet. Das CNN diskretisiert das gesamte erfasste Bild entlang der Breite und Höhe und teilt es gleichmäßig in Spalten/Segmente. Der Algorithmus wird verwendet, um einen Abstand im diskretisierten Bild zu finden, bis zu dem das Fahrzeug in jeder/jedem Spalte/Segment fahren kann, ohne Freiraum-/Kein-Hindernis-Beschränkungen zu missachten. Ein neuronales Netzwerk zum Schätzen der Wahrscheinlichkeitsverteilung kann AlexNet-Architektur als ein Merkmalsextrahierer mit einer Ausgabeschicht verwenden, die eine Ausgabe für jede Bildspalte bereitstellt. Eine Kreuzentropie-Verlustfunktion kann für jede Spalte einzeln verwendet werden und der endgültige Netzwerkverlust wird durch Mittelwertbildung der einzelnen Verlustfunktionen konstruiert werden.
Das CNN 1202, die Transformationsschichten 1204 und/oder die Ausgabeschichten 1206 werden vor der Live-Verwendung oder der Verwendung bei der Produktion trainiert. In einer Ausführungsform kann ein neuronales Netzwerk, das das CNN 1202, die Transformationsschichten 1204 und/oder die Ausgabeschichten 1206 beinhaltet, mithilfe von Trainingsdaten trainiert werden, die ein Bild mit entsprechenden Werten für jede Bildspalte als Beschriftungen beinhalten. Zum Beispiel können die Beschriftungsdaten 19 Werte jeweils mit einem Wert beinhalten, der eine Höhe (in diskretisierten Reihen) von der Unterseite des Bildes angibt. Eine Vielzahl von bekannten Trainingsalgorithmen, wie etwa Rückausbreitungsalgorithmus, können verwendet werden, um das neuronale Netzwerk zu schulen, um genaue Ausgaben bereitzustellen. Sobald ein ausreichendes Genauigkeitsniveau erhalten wurde, kann das neuronale Netzwerk innerhalb eines Fahrzeugs zur Freiraumdetektion während des Fahrens oder des Fahrzeugbetriebs genutzt werden.
Unter Bezugnahme auf 13 ist ein schematisches Blockdiagramm gezeigt, das Komponenten einer fahrbaren Regionskomponente 104 gemäß einer Ausführungsform veranschaulicht. Die fahrbare Regionskomponente 104 kann einen Betrag an Freiraum zwischen der aktuellen Stelle eines Fahrzeugs und einer oder mehreren Richtungen vor einem, hinter einem oder um ein Fahrzeug gemäß einer beliebigen der hierin erörterten Ausführungsformen oder Funktionalitäten bestimmen. Die fahrbare Regionskomponente 104 beinhaltet eine Sensorkomponente 1302, eine Freiraumkomponente 1304 und eine Manöverkomponente 1306. Die Komponenten 1302-1306 dienen lediglich zur Veranschaulichung und es kann sein, dass nicht alle in allen Ausführungsformen enthalten sind. Tatsächlich können einige Ausführungsformen lediglich eine oder eine beliebige Kombination aus zwei oder mehreren der Komponenten 1302-1306 beinhalten. Zum Beispiel können einige der Komponenten außerhalb oder getrennt von der fahrbaren Regionskomponente 104 liegen.
Die Sensorkomponente 1302 dient dazu, Sensordaten von einem oder mehreren Sensoren von einem System zu erhalten. Zum Beispiel kann die Sensorkomponente 1302 ein Bild für eine Region nahe einem Fahrzeug erhalten. Das Bild kann ein Bild von einer monokularen Kamera sein. Die Sensorkomponente 1302 kann ein Bild mithilfe einer Nicht-Stereokamera oder einer anderen einfachen Kamera erfassen. Da einige Ausführungsformen Freiraumdetektion ohne Stereo- oder Videokameras durchführen können, können Kameras mit kostengünstigen Sensoren verwendet werden.
Die Freiraumkomponente 1304 ist dazu konfiguriert, auf Grundlage des Bildes eine Vielzahl von Ausgaben zu generieren, die jeweils eine Höhe für eine Bildspalte des Bildes angeben, in dem sich eine Grenze einer fahrbaren Region befindet. Die Freiraumkomponente 1304 kann ein neuronales Netzwerk beinhalten oder verwenden, um die Vielzahl von Ausgaben zu generieren. Das neuronale Netzwerk kann ein CNN und eine Ausgabeschicht beinhalten. Die Ausgabeschicht kann die Vielzahl von Ausgaben ausgeben und/oder generieren. In einer Ausführungsform ist die Freiraumkomponente dazu konfiguriert, jeden Pixel des Bildes als Eingabe für das CNN zu empfangen. Bei dem Bild kann es sich um eine skalierte, zugeschnittene oder komprimiere Version handeln, um mit den Dimensionen einer Eingabeschicht des neuronalen Netzwerks übereinzustimmen.
Die Höhe oder Ausgabe des neuronalen Netzwerks kann eine diskretisierte Höhe angeben, die einer Anzahl an diskretisierten Reihen des Bildes entspricht. Zum Beispiel kann die Anzahl an diskretisierten Reihen des Bildes geringer sein als die Anzahl an Pixelreihen des Bildes. Das Verarbeiten des Bildes auf Grundlage von diskretisierten Reihen und/oder Spalten kann die Leistung erheblich verbessern, sowohl hinsichtlich der Genauigkeit und Geschwindigkeit beim Training und bei der Produktion, da eine Beschriftung oder Grenze pro Pixel nicht benötigt wird. Zum Beispiel kann ein Verhältnis vom Pixel zur diskretisierten Reihe 2 zu 1 oder mehr, 3 zu 1 oder mehr, 4 zu 1 oder mehr, 5 zu 1 oder mehr oder dergleichen betragen. Als ein weiteres Beispiel kann das Verhältnis vom Pixel zur diskretisierten Spalte 2 zu 1 oder mehr, 3 zu 1 oder mehr, 4 zu 1 oder mehr, 5 zu 1 oder mehr, 10 zu 1 oder mehr, 15 zu 1 oder mehr, 20 zu 1 oder mehr, 25 zu 1 oder mehr oder dergleichen betragen. In Ausführungsformen, in denen die Anzahl an Bildspalten geringer ist als die Anzahl an horizontalen Pixelspalten (oder Reihen) des Bildes, kommt es zu erheblichen Verarbeitungseinsparungen, da Ausgaben nur für eine geringe Anzahl an Spalten benötigt wird. Außerdem, wenn die Ausgabe einen diskreten Wert aufweist, der geringer als die Anzahl an Pixelreihen ist, werden auch Recheneinsparungen erreicht. Diese Leistungsvorteile können sowohl während der Verwendung im Training als auch bei der Produktion erreicht werden.
In einer Ausführungsform beinhaltet das neuronale Netzwerk ein neuronales Netzwerk, das auf Grundlage von Trainingsdaten trainiert wird, die auf Grundlage eines diskretisierten Formats beschriftet wurden. Zum Beispiel können die Trainingsdaten eine Vielzahl von Bildern einer Fahrumgebung beinhalten. Die Trainingsdaten können außerdem Beschriftungsdaten beinhalten, die für jedes Bild angegeben werden. Die Beschriftungsdaten können eine diskretisierte Höhe für jede diskretisierte Bildspalte jeder der Vielzahl von Bildern beinhalten, die einen Wert für eine diskretisierte Reihe beinhaltet, in der sich eine Grenze für eine fahrbare Region befindet. Zum Beispiel können die Bilddaten eines der Bilder aus den 3-5 und Beschriftungsdaten, einschließlich 19 Werten, beinhalten, wobei jeder der 19 Werte eine ganze Zahl im Bereich von 0-25 beinhalten kann, um die Reihe anzugeben, in der sich eine Grenze, eine nicht fahrbare Oberfläche, ein Objekt oder dergleichen befindet. Zum Beispiel können die 19 Werte ganze Zahlen beinhalten, die die Höhe jeder der Markierungen 302, 402, 502 für jedes Bild angeben. Auf Grundlage dieser Daten kann das neuronale Netzwerk trainiert werden.
Die Manöverkomponente 1306 wählt eine Fahrtrichtung oder ein Fahrmanöver für das Fahrzeug auf Grundlage der Vielzahl von Ausgaben, die von der Freiraumkomponente 1304 generiert wurde, aus, um innerhalb der fahrbaren Region zu bleiben. Das Fahrmanöver kann ein beliebiges Fahrzeugmanöver beinhalten, wie etwa Bremsen, Beschleunigung, Kurvenfahren oder ein anderes Manöver. Zum Beispiel kann die Manöverkomponente 1306 einen Abstand von einer aktuellen Stelle bestimmen, zu der das Fahrzeug in jeder Bildsäule fahren kann, bevor es an einer Grenze einer Fahroberfläche ankommt. Da die Ausgaben in Echtzeit generiert werden können, kann die Manöverkomponente 1306 jüngste Veränderungen oder Informationen, die von der Freiraumkomponente 1304 generiert werden, berücksichtigen.
Somit kann das Bremsen, um Objekten, Bordsteinen oder anderen nicht fahrbaren Oberflächen auszuweichen, mit sehr geringer Verarbeitungsleistung und kostengünstigen Sensoren ermöglicht werden.
14 ist eine schematische Darstellung eines Ablaufdiagramms, das ein Verfahren 1400 zum Bestimmen einer Stelle einer Grenze einer fahrbaren Region oder Oberfläche veranschaulicht. Das Verfahren 1400 kann von einer fahrbaren Regionskomponente oder einem Fahrzeugsteuersystem, wie etwa der fahrbaren Regionskomponente 104 aus 1 oder 13 oder dem Fahrzeugsteuersystem 100 aus 1, durchgeführt werden.
Das Verfahren 1400 beginnt und eine Sensorkomponente 1302 erhält 1402 ein Bild für eine Region nahe einem Fahrzeug. Eine Freiraumkomponente 1304 generiert 1404 auf Grundlage des Bildes eine Vielzahl von Ausgaben zu generieren, die jeweils eine Höhe für eine Bildspalte des Bildes angeben, in dem sich eine Grenze einer fahrbaren Region befindet. Eine Manöverkomponente 1306 wählt 1406 auf Grundlage der Vielzahl von Ausgaben eine Fahrtrichtung oder ein Fahrmanöver für das Fahrzeug aus, um innerhalb der fahrbaren Region zu bleiben.
Nun wird unter Bezugnahme auf 15 ein Blockdiagramm einer beispielhaften Rechenvorrichtung 1500 veranschaulicht. Die Rechenvorrichtung 1500 kann verwendet werden, um verschiedene Verfahren, wie etwa die hierin erörterten, auszuführen. In einer Ausführungsform kann die Rechenvorrichtung 1500 als eine fahrbare Regionskomponente 104, ein automatisiertes Fahr-/Assistenzsystem 102, ein Fahrzeugsteuersystem 100 oder dergleichen dienen. Die Rechenvorrichtung 1500 kann verschiedene Überwachungsfunktionen, wie hierin erörtert, durchführen und kann eine oder mehrere Anwendungsprogramme, wie etwa die hierin beschriebenen Anwendungsprogramme oder Funktionalitäten, ausführen. Die Rechenvorrichtung 1500 kann eine beliebige aus einer Reihe von Rechenvorrichtungen, wie beispielsweise ein Desktop-Computer, ein eingebauter Computer, ein Fahrzeugsteuersystem, ein Notebook-Computer, ein Server-Computer, ein tragbarer Computer, Tablet-Computer und dergleichen, sein.
Die Rechenvorrichtung 1500 beinhaltet einen oder mehrere Prozessor(en) 1502, eine oder mehrere Speichervorrichtung(en) 1504, eine oder mehrere Schnittstelle(n) 1506, eine oder mehrere Massenspeichervorrichtung(en) 1508, eine oder mehrere Ein-/Ausgabe(E/A)-Vorrichtung(en) 1510 und eine Anzeigevorrichtung 1530, die alle an einen Bus 1512 gekoppelt sind. Der/Die Prozessor(en) 1502 beinhaltet/beinhalten eine(n) oder mehrere Prozessoren oder Steuerungen, der/die in der/den Speichervorrichtung(en) 1504 und/oder der/den Massenspeichervorrichtung(en) 1508 gespeicherte Anweisungen ausführen. Der/Die Prozessor(en) 1502 kann/können zudem verschiedene Arten von computerlesbaren Medien beinhalten, wie etwa Cache-Speicher.
Die Speichervorrichtung(en) 1504 beinhaltet/beinhalten verschiedene computerlesbare Medien, wie etwa flüchtigen Speicher (z. B. Direktzugriffsspeicher (random access memory-RAM) 1514) und/oder nicht flüchtigen Speicher (z. B. Festwertspeicher (read-only memory - ROM) 1516). Die Speichervorrichtung(en) 1504 kann/können zudem wiederbeschreibbaren ROM beinhalten, wie etwa Flash-Speicher.
Die Massenspeichervorrichtung(en) 1508 beinhaltet/beinhalten verschiedene computerlesbare Medien, wie etwa Magnetbänder, Magnetplatten, optische Platten, Festkörperspeicher (z. B. Flash-Speicher) und so weiter. Wie in 15 gezeigt, ist eine besondere Massenspeichervorrichtung ein Festplattenlaufwerk 1524. Zudem können verschiedene Laufwerke in der/den Massenspeichervorrichtung(en) 1508 enthalten sein, um ein Auslesen aus und/oder Schreiben auf die verschiedenen computerlesbaren Medien zu ermöglichen. Die Massenspeichervorrichtung(en) 1508 beinhaltet/beinhalten entfernbare Medien 1526 und/oder nicht entfernbare Medien.
Die E/A-Vorrichtung(en) 1510 beinhaltet/beinhalten verschiedene Vorrichtungen, die es ermöglichen, dass Daten und/oder andere Informationen in die Rechenvorrichtung 1500 eingegeben oder daraus abgerufen werden. (Eine) Beispielhafte E/A-Vorrichtung(en) 1510 beinhaltet/beinhalten Cursorsteuervorrichtungen, Tastaturen, Tastenfelder, Mikrofone, Monitore oder andere Anzeigevorrichtungen, Lautsprecher, Drucker, Netzschnittstellenkarten, Modems und dergleichen.
Die Anzeigevorrichtung 1530 beinhaltet eine beliebige Art von Vorrichtung, die dazu in der Lage ist, einem oder mehreren Benutzern der Rechenvorrichtung 1500 Informationen anzuzeigen. Zu Beispielen für eine Anzeigevorrichtung 1530 gehören ein Monitor, ein Anzeigeendgerät, eine Videoprojektionsvorrichtung und dergleichen.
Die Schnittstelle(n) 1506 beinhaltet/beinhalten verschiedene Schnittstellen, die es der Rechenvorrichtung 1500 ermöglichen, mit anderen Systemen, Vorrichtungen oder Rechenumgebungen zu interagieren. (Eine) Beispielhafte Schnittstelle(n) 1506 kann/können eine beliebige Anzahl von unterschiedlichen Netzwerkschnittstellen 1520, wie beispielsweise Schnittstellen zu lokalen Netzen (LANs), Großraumnetzen (WANs), drahtlosen Netzen und dem Internet, beinhalten. Zu (einer) andere(n) Schnittstelle(n) gehören eine Benutzerschnittstelle 1518 und eine Peripherievorrichtungsschnittstelle 1522. Die Schnittstelle(n) 1506 kann/können ebenfalls eine oder mehrere Benutzerschnittstellenelemente 1518 beinhalten. Die Schnittstelle(n) 1506 kann/können ebenfalls eine oder mehrere periphere Schnittstellen, wie etwa Schnittstellen für Drucker, Zeigevorrichtungen (Mäuse, Touchpad oder eine beliebige geeignete Benutzerschnittstelle, die dem Durchschnittsfachmann jetzt bekannt ist oder später entdeckt wird), Tastaturen und dergleichen, beinhalten.
Der Bus 1512 ermöglicht es dem/den Prozessor(en) 1502, der/den Speichervorrichtung(en) 1504, der/den Schnittstelle(n) 1506, der/den Massenspeichervorrichtung(en) 1508 und der/den E/A-Vorrichtung(en) 1510 miteinander sowie mit anderen Vorrichtungen oder Komponenten, die an den Bus 1512 gekoppelt sind, zu kommunizieren. Der Bus 1512 stellt eine oder mehrere von verschiedenen Arten von Busstrukturen dar, wie beispielsweise einen Systembus, PCI-Bus, IEEE-Bus, USB-Bus und so weiter.
Zum Zwecke der Veranschaulichung sind Programme und andere ausführbare Programmkomponenten hierin als diskrete Blöcke gezeigt, auch wenn es sich versteht, dass sich derartige Programme und Komponenten zu verschiedenen Zeitpunkten in unterschiedlichen Speicherkomponenten der Rechenvorrichtung 1500 befinden können, und werden durch den/die Prozessor(en) 1502 ausgeführt. Alternativ können die hierin beschriebenen Systeme und Vorgänge in Hardware oder einer Kombination aus Hardware, Software und/oder Firmware umgesetzt sein. Ein oder mehrere anwendungsspezifische integrierte Schaltkreise (application specific integrated circuits - ASICs) kann/können zum Beispiel programmiert sein, um eines oder mehrere der hierin beschriebenen Systeme und Verfahren durchzuführen.
Beispiele
Die folgenden Beispiele betreffen weitere Ausführungsformen.
Beispiel 1 ist ein Verfahren zum Detektieren von Freiraum nahe einem Fahrzeug. Das Verfahren beinhaltet Erhalten eines Bildes für eine Region nahe einem Fahrzeug. Das Verfahren beinhaltet Generieren auf Grundlage des Bildes einer Vielzahl von Ausgaben, die jeweils eine Höhe für eine Bildspalte des Bildes angeben, in dem sich eine Grenze einer fahrbaren Region befindet. Das Verfahren beinhaltet Auswählen einer Fahrtrichtung oder eines Fahrmanövers für das Fahrzeug, um innerhalb der fahrbaren Region zu bleiben, auf Grundlage der Vielzahl von Ausgaben.
In Beispiel 2 beinhaltet das Verfahren aus Beispiel 1 ferner Verarbeiten des Bildes mithilfe eines CNN und einer Ausgabeschicht, wobei Generieren der Vielzahl von Ausgaben Generieren mithilfe der Ausgabeschicht beinhaltet.
In Beispiel 3 beinhaltet das Verfahren aus Beispiel 2 ferner Bereitstellen jedes Pixels des Bildes als Eingabe für das CNN, wobei das Bild eine skalierte oder zugeschnittene Version beinhaltet, um mit den Dimensionen einer Eingabeschicht des CNN übereinzustimmen.
In Beispiel 4 beinhaltet das CNN wie in einem beliebigen der Beispiele 2-3 ein CNN, das auf Grundlage von Trainingsdaten trainiert wird, die eine Vielzahl von Bildern einer Fahrumgebung und Beschriftungsdaten beinhalten. Die Beschriftungsdaten geben eine diskretisierte Höhe für jede diskretisierte Bildspalte jeder der Vielzahl von Bildern an, wobei die diskretisierte Höhe einen Wert für eine diskretisierte Reihe beinhaltet, in der sich eine Grenze für eine fahrbare Region befindet.
In Beispiel 5 beinhaltet das Verfahren aus Beispiel 4 Trainieren des CNN.
In Beispiel 6 beinhaltet das Generieren der Vielzahl von Ausgaben, die jeweils die Höhe wie in einem beliebigen der Beispiele 1-5 angeben, Generieren einer diskretisierten Höhe, die einer Anzahl an diskretisierten Reihen des Bildes entspricht, wobei die Anzahl an diskretisierten Reihen des Bildes geringer ist als die Anzahl an Pixelreihen des Bildes.
In Beispiel 7 ist die Anzahl an Bildspalten wie in einem beliebigen der Beispiele 1-6 geringer als die Anzahl an Pixelspalten des Bildes.
Beispiel 8 ist ein computerlesbares Speichermedium, das Anweisungen speichert, die, wenn sie durch einen oder mehrere Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen, ein Verfahren wie in einem beliebigen der Beispiele 1-7 umzusetzen. Beispiel 9 ist ein System oder eine Vorrichtung, das/die Mittel zum Umsetzen eines Verfahrens oder Realisieren eines Systems oder einer Vorrichtung in einem beliebigen der Beispiele 1-8 beinhaltet.
In der vorstehenden Offenbarung wurde auf die beigefügten Zeichnungen Bezug genommen, die einen Teil davon bilden und in denen zur Veranschaulichung konkrete Umsetzungen gezeigt sind, in denen die Offenbarung ausgeführt sein kann. Es versteht sich, dass andere Umsetzungen verwendet werden können und strukturelle Änderungen vorgenommen werden können, ohne vom Umfang der vorliegenden Offenbarung abzuweichen. Bezugnahmen in der Beschreibung auf „eine Ausführungsform“, „ein Ausführungsbeispiel“ usw. geben an, dass die beschriebene Ausführungsform ein(e) bestimmte(s) Merkmal, Struktur oder Eigenschaft beinhalten kann, doch es muss nicht notwendigerweise jede Ausführungsform diese(s) bestimmte Merkmal, Struktur oder Eigenschaft beinhalten. Darüber hinaus beziehen sich derartige Formulierungen nicht unbedingt auf dieselbe Ausführungsform. Ferner sei darauf hingewiesen, dass, wenn ein(e) bestimmte(s) Merkmal, Struktur oder Eigenschaft in Verbindung mit einer Ausführungsform beschrieben wird, es im Bereich des Fachwissens des Fachmanns liegt, ein(e) derartige(s) Merkmal, Struktur oder Eigenschaft in Verbindung mit anderen Ausführungsformen zu bewirken, ob dies nun ausdrücklich beschrieben ist oder nicht. Umsetzungen der hierin offenbarten Systeme, Vorrichtungen und Verfahren können einen Spezial- oder Universalcomputer umfassen oder verwenden, der Computerhardware beinhaltet, wie etwa zum Beispiel einen oder mehrere Prozessoren und einen oder mehrere Systemspeicher, wie hierin erörtert. Umsetzungen innerhalb des Umfangs der vorliegenden Offenbarung können außerdem physische und andere computerlesbare Medien zum Transportieren oder Speichern von computerausführbaren Anweisungen und/oder Datenstrukturen beinhalten. Bei derartigen computerlesbaren Medien kann es sich um beliebige verfügbare Medien handeln, auf die durch ein Universal- oder Spezialcomputersystem zugegriffen werden kann. Bei computerlesbaren Medien, auf denen computerausführbare Anweisungen gespeichert werden, handelt es sich um Computerspeichermedien (-vorrichtungen). Bei computerlesbaren Medien, die computerausführbare Anweisungen transportieren, handelt es sich um Übertragungsmedien. Daher können Umsetzungen der Offenbarung beispielsweise und nicht einschränkend mindestens zwei deutlich unterschiedliche Arten von computerlesbaren Medien umfassen: Computerspeichermedien (-vorrichtungen) und Übertragungsmedien. Computerspeichermedien (-vorrichtungen) beinhalten RAM, ROM, EEPROM, CD-ROM, Festkörperlaufwerke (solid state drives - SSDs) (z. B. basierend auf RAM), Flash-Speicher, Phasenänderungsspeicher (phase-change memory - PCM), andere Speicherarten, andere optische Plattenspeicher, Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder ein beliebiges anderes Medium, das verwendet werden kann, um die gewünschten Programmcodemittel in Form von computerausführbaren Anweisungen oder Datenstrukturen zu speichern, und auf das durch einen Universal- oder Spezialcomputer zugegriffen werden kann.
Eine Umsetzung der hierin offenbarten Vorrichtungen, Systeme und Verfahren kann über ein Computernetzwerk kommunizieren. Ein „Netzwerk“ ist als eine oder mehrere Datenverbindungen definiert, die den Transport elektronischer Daten zwischen Computersystemen und/oder Modulen und/oder anderen elektronischen Vorrichtungen ermöglichen. Wenn Informationen über ein Netzwerk oder eine andere (entweder festverdrahtete, drahtlose oder eine Kombination aus festverdrahteter oder drahtloser) Kommunikationsverbindung auf einen Computer übertragen oder diesem bereitgestellt werden, sieht der Computer die Verbindung korrekt als Übertragungsmedium an. Übertragungsmedien können ein Netzwerk und/oder Datenverbindungen beinhalten, die verwendet werden können, um gewünschte Programmcodemittel in der Form von computerausführbaren Anweisungen oder Datenstrukturen zu übertragen und auf die durch einen Universal- oder Spezialcomputer zugegriffen werden kann. Kombinationen aus den Vorstehenden sollten ebenfalls im Umfang computerlesbarer Medien enthalten sein.
Computerausführbare Anweisungen umfassen zum Beispiel Anweisungen und Daten, die bei Ausführung an einem Prozessor einen Universalcomputer, Spezialcomputer oder eine Spezialverarbeitungsvorrichtung dazu veranlassen, eine bestimmte Funktion oder Gruppe von Funktionen auszuführen. Die computerausführbaren Anweisungen können zum Beispiel Binärdateien, Zwischenformatanweisungen, wie etwa Assemblersprache, oder auch Quellcode sein. Obwohl der Gegenstand in für Strukturmerkmale und/oder methodische Handlungen spezifischer Sprache beschrieben wurde, versteht es sich, dass der in den beigefügten Patentansprüchen definierte Gegenstand nicht notwendigerweise auf die vorstehend beschriebenen Merkmale oder Handlungen beschränkt ist. Die beschriebenen Merkmale und Handlungen werden vielmehr als beispielhafte Formen der Umsetzung der Patentansprüche offenbart.
Für den Fachmann versteht es sich, dass die Offenbarung in Netzwerkcomputerumgebungen mithilfe vieler Arten von Computersystemkonfigurationen angewendet werden kann, die einen Armaturenbrett-Fahrzeugcomputer, PCs, Desktop-Computer, Laptops, Nachrichtenprozessoren, Handgeräte, Multiprozessorsysteme, Unterhaltungselektronik auf Mikroprozessorbasis oder programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Großcomputer, Mobiltelefone, PDAs, Tablets, Pager, Router, Switches, verschiedene Speichervorrichtungen und dergleichen beinhalten. Die Offenbarung kann zudem in Umgebungen mit verteilten Systemen angewendet werden, in denen sowohl lokale Computersysteme als auch entfernte Computersysteme, die durch ein Netzwerk (entweder durch festverdrahtete Datenverbindungen, drahtlose Datenverbindungen oder durch eine Kombination aus festverdrahteten und drahtlosen Datenverbindungen) verbunden sind, Aufgaben ausführen. In einer Umgebung mit verteilten Systemen können sich Programmmodule sowohl in lokalen Speichervorrichtungen als auch in Fernspeichervorrichtungen befinden.
Ferner können die hierin beschriebenen Funktionen gegebenenfalls in einem oder mehreren der Folgenden ausgeführt werden: Hardware, Software, Firmware, digitale Komponenten oder analoge Komponenten. Beispielsweise können ein oder mehrere anwendungsspezifische integrierte Schaltkreise (Application Specific Integrated Circuits - ASICs) so programmiert sein, dass sie eines bzw. einen oder mehrere der hierin beschriebenen Systeme und Vorgänge ausführen. Bestimmte Ausdrücke werden in der gesamten Beschreibung und den Patentansprüchen verwendet, um auf bestimmte Systemkomponenten Bezug zu nehmen. Die Begriffe „Module“ und „Komponenten“ werden in den Bezeichnungen von bestimmten Komponenten verwendet, um ihre Umsetzungsunabhängigkeit in Software, Hardware, Schaltungen, Sensoren und dergleichen wiederzugeben. Der Fachmann wird verstehen, dass auf Komponenten durch unterschiedliche Bezeichnungen Bezug genommen werden kann. In dieser Schrift soll nicht zwischen Komponenten unterschieden werden, die sich dem Namen nach unterscheiden, nicht jedoch von der Funktion her.
Es ist anzumerken, dass die vorstehend erörterten Sensorausführungsformen Computerhardware, -software, -firmware oder eine beliebige Kombination daraus umfassen können, um mindestens einen Teil ihrer Funktionen auszuführen. Ein Sensor kann zum Beispiel Computercode beinhalten, der dazu konfiguriert ist, in einem oder mehreren Prozessoren ausgeführt zu werden, und kann eine Hardware-Logikschaltung/elektrische Schaltung beinhalten, die durch den Computercode gesteuert wird. Diese beispielhaften Vorrichtungen sind hierin zum Zwecke der Veranschaulichung bereitgestellt und sollen nicht einschränkend sein. Ausführungsformen der vorliegenden Offenbarung können in weiteren Arten von Vorrichtungen umgesetzt werden, wie es dem einschlägigen Fachmann bekannt ist. Mindestens einige Ausführungsformen der Offenbarung wurden Computerprogrammprodukten zugeführt, die eine solche Logik (z. B. in Form von Software) umfassen, die auf einem beliebigen computernutzbaren Medium gespeichert ist. Solche Software veranlasst bei Ausführung in einer oder mehreren Datenverarbeitungsvorrichtungen eine Vorrichtung dazu, wie hierin beschrieben zu arbeiten.
Während vorstehend verschiedene Ausführungsformen der vorliegenden Offenbarung beschrieben wurden, versteht es sich, dass diese lediglich als Beispiele und nicht als Einschränkung dienen. Für den einschlägigen Fachmann wird ersichtlich, dass verschiedene Änderungen in Form und Detail daran vorgenommen werden können, ohne vom Geist und Umfang der Offenbarung abzuweichen. Daher sollen die Breite und der Umfang der vorliegenden Offenbarung durch keines der vorstehend beschriebenen Ausführungsbeispiele eingeschränkt werden, sondern sollen lediglich in Übereinstimmung mit den folgenden Patentansprüchen und ihren Äquivalenten definiert sein. Die vorstehende Beschreibung wurde zum Zwecke der Veranschaulichung und Beschreibung dargelegt. Sie erhebt keinerlei Anspruch auf Vollständigkeit und soll die Offenbarung nicht auf die konkrete offenbarte Form beschränken. Viele Modifikationen und Variationen sind in Anbetracht der vorstehenden Lehren möglich. Ferner ist anzumerken, dass beliebige oder alle der vorangehend genannten alternativen Umsetzungen in einer beliebigen gewünschten Kombination verwendet werden können, um zusätzliche Hybridumsetzungen der Offenbarung zu bilden.
Ferner soll die Offenbarung, auch wenn spezifische Umsetzungen der Offenbarung beschrieben und dargestellt wurden, nicht auf die somit beschriebenen und dargestellten spezifischen Formen oder Anordnungen der Teile beschränkt werden. Der Umfang der Offenbarung ist durch die hieran beigefügten Patentansprüche, jegliche zukünftigen hier beantragten Patentansprüche und in verschiedenen Anwendungen und deren Äquivalenten zu definieren.

Claims

Verfahren zum Detektieren von Freiraum nahe einem Fahrzeug, wobei das Verfahren Folgendes umfasst: Erhalten eines Bildes für eine Region nahe einem Fahrzeug; Generieren auf Grundlage des Bildes einer Vielzahl von Ausgaben, die jeweils eine Höhe für eine Bildspalte des Bildes angeben, in dem sich eine Grenze einer fahrbaren Region befindet; und Auswählen einer Fahrtrichtung oder eines Fahrmanövers für das Fahrzeug, um innerhalb der fahrbaren Region zu bleiben, auf Grundlage der Vielzahl von Ausgaben.
Verfahren nach Anspruch 1, wobei eines oder mehrere von: dem Verfahren ferner Verarbeiten des Bildes mithilfe eines neuronalen Faltungsnetzwerks (CNN) und einer Ausgabeschicht umfasst, wobei Generieren der Vielzahl von Ausgaben Generieren mithilfe der Ausgabeschicht umfasst; Generieren der Vielzahl von Ausgaben, die jeweils die Höhe angeben, Generieren einer diskretisierten Höhe umfasst, die einer Anzahl von diskretisierten Reihen des Bildes entspricht, wobei die Anzahl an diskretisierten Reihen des Bildes geringer ist als die Anzahl an Pixelreihen des Bildes; oder wobei die Anzahl an Bildspalten geringer ist als die Anzahl an Pixelspalten des Bildes.
Verfahren nach Anspruch 2, ferner umfassend Bereitstellen jedes Pixels des Bildes als Eingabe für das CNN, wobei das Bild eine skalierte oder zugeschnittene Version umfasst, um mit den Dimensionen einer Eingabeschicht des CNN übereinzustimmen.
Verfahren nach einem der Ansprüche 2-3, wobei das CNN ein CNN umfasst, das auf Grundlage von Trainingsdaten trainiert ist, umfassend: eine Vielzahl von Bildern einer Fahrumgebung; und Beschriftungsdaten, die eine diskretisierte Höhe für jede diskretisierte Bildspalte jeder der Vielzahl von Bildern angeben, wobei die diskretisierte Höhe einen Wert für eine diskretisierte Reihe beinhaltet, in der sich eine Grenze für eine fahrbare Region befindet.
Verfahren nach Anspruch 4, ferner umfassend Trainieren des CNN.
System zum Detektieren von Freiraum nahe einem Fahrzeug, wobei das System Folgendes umfasst: eine Sensorkomponente, die dazu konfiguriert ist, ein Bild für eine Region nahe einem Fahrzeug zu erhalten; eine Freiraumkomponente, die dazu konfiguriert ist, auf Grundlage des Bildes eine Vielzahl von Ausgaben zu generieren, die jeweils eine Höhe für eine Bildspalte des Bildes angeben, in dem sich eine Grenze einer fahrbaren Region befindet; und eine Manöverkomponente, die dazu konfiguriert ist, eine Fahrtrichtung oder ein Fahrmanöver für das Fahrzeug auszuwählen, um innerhalb der fahrbaren Region zu bleiben, auf Grundlage der Vielzahl von Ausgaben.
System nach Anspruch 6, wobei eines oder mehrere von: der Freiraumkomponente das Bild mithilfe eines neuronalen Faltungsnetzwerks (CNN) und einer Ausgabeschicht verarbeitet, wobei die Ausgabeschicht die Vielzahl von Ausgaben generiert; der Höhe eine diskretisierte Höhe angibt, die einer Anzahl von diskretisierten Reihen des Bildes entspricht, wobei die Anzahl an diskretisierten Reihen des Bildes geringer ist als die Anzahl an Pixelreihen des Bildes; oder die Anzahl an Bildspalten geringer ist als die Anzahl an horizontalen Pixelspalten des Bildes.
System nach Anspruch 7, wobei die Freiraumkomponente dazu konfiguriert ist, jeden Pixel des Bildes als Eingabe für das CNN zu empfangen, wobei das Bild eine skalierte oder zugeschnittene Version umfasst, um mit den Dimensionen einer Eingabeschicht übereinzustimmen.
System nach einem der Ansprüche 7-8, wobei das CNN ein CNN umfasst, das auf Grundlage von Trainingsdaten trainiert ist, umfassend: eine Vielzahl von Bildern einer Fahrumgebung; und Beschriftungsdaten, die eine diskretisierte Höhe für jede diskretisierte Bildspalte jeder der Vielzahl von Bildern angeben, wobei die diskretisierte Höhe einen Wert für eine diskretisierte Reihe beinhaltet, in der sich eine Grenze für eine fahrbare Region befindet.
Nicht transitorische computerlesbare Speichermedien, auf welchen Anweisungen gespeichert sind, die, wenn sie durch einen oder mehrere Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Erhalten eines Bildes für eine Region nahe einem Fahrzeug; Generieren auf Grundlage des Bildes einer Vielzahl von Ausgaben, die jeweils eine Höhe für eine Bildspalte des Bildes angeben, in dem sich eine Grenze einer fahrbaren Region befindet; und Auswählen einer Fahrtrichtung oder eines Fahrmanövers für das Fahrzeug, um innerhalb der fahrbaren Region zu bleiben, auf Grundlage der Vielzahl von Ausgaben.
Computerlesbare Speichermedien nach Anspruch 10, wobei die eine oder mehreren Anweisungen den einen oder die mehreren Prozessoren dazu veranlassen, das Bild mithilfe eines neuronalen Faltungsnetzwerks (CNN) und einer Ausgabeschicht zu verarbeiten, wobei die Anweisungen den einen oder die mehreren Prozessoren dazu veranlassen, die Vielzahl von Ausgaben mithilfe der Ausgabeschicht zu generieren.
Computerlesbare Speichermedien nach Anspruch 11, wobei die eine oder mehreren Anweisungen ferner den einen oder die mehreren Prozessoren dazu veranlassen, jeden Pixel des Bildes als Eingabe für das CNN bereitzustellen, wobei das Bild eine skalierte oder zugeschnittene Version umfasst, um mit den Abmessungen einer Eingabeschicht des CNN übereinzustimmen.
Computerlesbare Speichermedien nach Anspruch 11, wobei CNN ein CNN umfasst, das auf Grundlage von Trainingsdaten trainiert ist, umfassend: eine Vielzahl von Bildern einer Fahrumgebung; und Beschriftungsdaten, die eine diskretisierte Höhe für jede diskretisierte Bildspalte jeder der Vielzahl von Bildern angeben, wobei die diskretisierte Höhe einen Wert für eine diskretisierte Reihe beinhaltet, in der sich eine Grenze für eine fahrbare Region befindet, wobei die Beschriftungsdaten der Vielzahl von Ausgaben entsprechen.
Computerlesbare Speichermedien nach Anspruch 13, wobei die eine oder mehreren Anweisungen ferner den einen oder die mehreren Prozessoren dazu veranlassen, das CNN zu trainieren.
Computerlesbare Speichermedien nach Anspruch 14, wobei eines oder mehrere von: der einen oder den mehreren Anweisungen den einen oder die mehreren Prozessoren dazu veranlassen, die Vielzahl von Ausgaben, die jeweils die Höhe angeben, durch Generieren einer diskretisierten Höhe zu generieren, die einer Anzahl von diskretisierten Reihen des Bildes entspricht, wobei die Anzahl an diskretisierten Reihen des Bildes geringer ist als die Anzahl an Pixelreihen des Bildes; oder die Anzahl an Bildspalten geringer als die Anzahl an Pixelspalten des Bildes.