DE102019119162A1

DE102019119162A1 - Posenschätzung

Info

Publication number: DE102019119162A1
Application number: DE102019119162.9A
Authority: DE
Inventors: Leda Daehler; Gintaras Vincent Puskorius; Grautham Sholingar
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2018-07-16
Filing date: 2019-07-15
Publication date: 2020-01-16
Also published as: US20200020117A1; CN110726399A

Abstract

Diese Offenbarung stellt eine Posenschätzung bereit.Ein Rechensystem kann ein Bild basierend auf einer Breite, einer Höhe und eines Standorts eines ersten Fahrzeugs auf dem Bild zuschneiden. Das Rechensystem kann eine Pose des ersten Fahrzeugs basierend auf der Eingabe des zugeschnittenen Bildes und der Breite, der Höhe und des Standorts des ersten Fahrzeugs in ein tiefes neuronales Netzwerk schätzen. Das Rechensystem kann dann ein zweites Fahrzeug basierend auf der geschätzten Pose betreiben.

Description

TECHNISCHES GEBIET
Die Offenbarung betrifft im Allgemeinen Fahrzeugsensoren und insbesondere das Schätzen einer Fahrzeugpose.
STAND DER TECHNIK
Fahrzeuge können ausgestattet sein, um sowohl in einem autonomen als auch in einem insassengesteuerten Modus betrieben zu werden. Fahrzeuge können mit Rechenvorrichtungen, Netzwerken, Sensoren und Steuerungen ausgestattet sein, um Informationen in Bezug auf die Umgebung des Fahrzeugs zu erhalten und das Fahrzeug auf Grundlage der Informationen zu steuern. Das sichere und komfortable Steuern des Fahrzeugs kann vom Erhalt genauer und rechtzeitiger Informationen in Bezug auf die Umgebung des Fahrzeugs abhängen. Fahrzeugsensoren können Daten bezüglich zurückzulegenden Routen und zu vermeidenden Objekten in der Umgebung des Fahrzeugs bereitstellen. Ein sicherer und effizienter Betrieb des Fahrzeugs kann von einem Erhalt genauer und aktueller Informationen in Bezug auf Routen und Objekte in der Umgebung eines Fahrzeugs abhängen, während das Fahrzeug auf einer Fahrbahn betrieben wird. Es gibt vorhandene Mechanismen zum Erkennen von Objekten, die ein Kollisionsrisiko darstellen und/oder bei der Planung eines Fahrzeugwegs entlang einer Strecke berücksichtigt werden sollten. Es gibt jedoch Raum für Verbesserungen der Technologien zur Objektidentifizierung und -bewertung.
KURZDARSTELLUNG
Eine Rechenvorrichtung in einem Fahrzeug kann so programmiert werden, dass sie Daten bezüglich der äußeren Umgebung eines Fahrzeugs erfasst und die Daten verwendet, um Verläufe zu bestimmen, die zum Betreiben des Fahrzeugs in autonomen und halbautonomen Modi verwendet werden sollen. Die Rechenvorrichtung kann Verkehrsobjekte in einer Umgebung um ein Fahrzeug herum detektieren und verfolgen, wobei ein Verkehrsobjekt als starres oder halbstarres dreidimensionales (3D) festes Objekt definiert ist, das den physischen Raum in der realen Welt um ein Fahrzeug einnimmt. Beispiele für Verkehrsobjekte beinhalten Fahrzeuge und Fußgänger usw., wie nachstehend in Bezug auf 2 erörtert. Das Detektieren und Verfolgen von Verkehrsobjekten kann das Bestimmen einer Vielzahl von Schätzungen des Standorts eines Verkehrsobjekts in Bezug auf das Fahrzeug beinhalten, um die Bewegung zu bestimmen und dadurch zukünftige Standorte von Verkehrsobjekten vorherzusagen und dadurch der Rechenvorrichtung zu ermöglichen, einen Weg zu bestimmen, über den das Fahrzeug fährt, der eine Kollision oder ein anderes unerwünschtes Ereignis, das ein Verkehrsobjekt einbezieht, vermeidet. Die Rechenvorrichtung kann einen Lidar-Sensor verwenden, wie nachstehend in Bezug auf 1 erörtert, um Entfernungen zu Verkehrsobjekten in einer Fahrzeugumgebung zu bestimmen, es kann jedoch eine Vielzahl von Lidar-Datenabtastungen im Laufe der Zeit erforderlich sein, um einen Verlauf für das Verkehrsobjekt zu schätzen und einen zukünftigen Standort vorhersagen. Hierin erörterte Techniken können einen 3D-Standort und eine 3D-Ausrichtung, wie in Bezug auf 2 unten definiert, in realen Weltkoordinaten für Verkehrsobj ekte in einer Fahrzeugumgebung schätzen und dadurch einer Rechenvorrichtung ermöglichen, einen zukünftigen Standort für ein Verkehrsobjekt basierend auf einem Farbvideobild der Fahrzeugumgebung vorherzusagen.
Hierin wird ein Verfahren offenbart, beinhaltend das Zuschneiden eines Bildes basierend auf einer Breite, Höhe und Mitte eines ersten Fahrzeugs auf dem Bild, um ein Bildfeld zu bestimmen, Schätzen einer 3D-Pose des ersten Fahrzeugs basierend auf der Eingabe des Bildfelds und der Breite, Höhe und Mitte des ersten Fahrzeugs in ein tiefes neuronales Netzwerk und Betreiben eines zweiten Fahrzeugs basierend auf der geschätzten 3D-Pose. Die geschätzte 3D-Pose kann eine geschätzte 3D-Position, ein geschätztes Rollen, ein geschätztes Nicken und ein geschätztes Gieren des ersten Fahrzeugs in Bezug auf ein 3D-Koordinatensystem beinhalten. Die Breite, Höhe und Mitte des Bildfeldes des ersten Fahrzeugs kann basierend auf dem Bestimmen von Objekten auf dem Bild basierend auf dem Segmentieren des Bildes bestimmt werden. Das Bestimmen der Breite, Höhe und Mitte des ersten Fahrzeugs kann auf dem Bestimmen eines rechteckigen Begrenzungsrahmens auf dem segmentierten Bild basieren. Das Bestimmen des Bildfelds kann auf dem Zuschneiden und Ändern der Größe von Bilddaten aus dem rechteckigen Begrenzungsrahmen basieren, um einer empirisch bestimmten Höhe und Breite zu entsprechen. Das tiefe neuronale Netzwerk kann eine Vielzahl von Faltungsschichten eines neuronalen Netzwerks zum Verarbeiten des zugeschnittenen Bildes, eine erste Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks zum Verarbeiten der Höhe, der Breite und des Standorts des ersten Fahrzeugs und eine zweite Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks beinhalten, um die Ausgabe von den Faltungsschichten des neuronalen Netzwerks und den ersten vollständig verbundenen Schichten eines neuronalen Netzwerks zu kombinieren, um die geschätzte Pose zu bestimmen.
Das Bestimmen einer geschätzten 3D-Pose des ersten Fahrzeugs kann auf der Eingabe der Breite, Höhe und Mitte des Bildfelds des ersten Fahrzeugs in das tiefe neuronale Netzwerk basieren, um ein geschätztes Rollen, ein geschätztes Nicken und ein geschätztes Gieren zu bestimmen. Eine geschätzte 3D-Pose des ersten Fahrzeugs kann bestimmt werden, wobei das tiefe neuronale Netzwerk eine dritte Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks beinhaltet, um die Höhe, Breite und Mitte des ersten Fahrzeugbildfelds zu verarbeiten, um eine 3D-Position zu bestimmen. Das tiefe neuronale Netzwerk kann trainiert werden, um die 3D-Pose basierend auf einem Bildfeld, einer Breite, einer Höhe und einer Mitte eines ersten Fahrzeugs und einer Grundwahrheit in Bezug auf die 3D-Pose eines ersten Fahrzeugs basierend auf simulierten Bilddaten zu schätzen. Die Grundwahrheit in Bezug auf die 3D-Pose des ersten Fahrzeugs kann eine 3D-Position, ein Rollen, ein Nicken und ein Gieren in Bezug auf ein 3D-Koordinatensystem beinhalten. Das tiefe neuronale Netzwerk kann trainiert werden, um die 3D-Pose basierend auf einem Bildfeld, einer Breite, einer Höhe und einer Mitte eines ersten Fahrzeugs und einer Grundwahrheit in Bezug auf die 3D-Pose eines ersten Fahrzeugs basierend auf aufgezeichneten Bilddaten und einer erfassten Grundwahrheit zu schätzen. Die aufgezeichneten Bilddaten können von in dem zweiten Fahrzeug enthaltenen Videosensoren aufgezeichnet werden. Die den aufgezeichneten Bilddaten entsprechende Grundwahrheit kann basierend auf der Photogrammetrie bestimmt werden. Die Photogrammetrie kann auf der Bestimmung einer Abmessung eines Fahrzeugs basierend auf der Fahrzeugmarke und dem Fahrzeugmodell basieren.
Ferner ist ein computerlesbares Medium offenbart, auf dem Programmanweisungen zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte gespeichert sind. Ferner wird ein Computer offenbart, der zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte programmiert ist, einschließlich einer Computervorrichtung, die programmiert ist, um ein Bild basierend auf einer Breite, einer Höhe und einer Mitte eines ersten Fahrzeugs auf dem Bild zuzuschneiden, um ein Bildfeld zu bestimmen, eine 3D-Pose des ersten Fahrzeugs basierend auf der Eingabe des Bildfelds und der Breite, der Höhe und der Mitte des ersten Fahrzeugs in ein tiefes neuronales Netzwerk zu schätzen und ein zweites Fahrzeug basierend auf der geschätzten 3D-Pose zu betreiben. Die geschätzte 3D-Pose kann eine geschätzte 3D-Position, ein geschätztes Rollen, ein geschätztes Nicken und ein geschätztes Gieren des ersten Fahrzeugs in Bezug auf ein 3D-Koordinatensystem beinhalten. Die Breite, Höhe und Mitte des Bildfeldes des ersten Fahrzeugs kann basierend auf dem Bestimmen von Objekten auf dem Bild basierend auf dem Segmentieren des Bildes bestimmt werden. Das Bestimmen der Breite, Höhe und Mitte des ersten Fahrzeugs kann auf dem Bestimmen eines rechteckigen Begrenzungsrahmens auf dem segmentierten Bild basieren. Das Bestimmen des Bildfelds kann auf dem Zuschneiden und Ändern der Größe von Bilddaten aus dem rechteckigen Begrenzungsrahmen basieren, um einer empirisch bestimmten Höhe und Breite zu entsprechen. Das tiefe neuronale Netzwerk kann eine Vielzahl von Faltungsschichten eines neuronalen Netzwerks zum Verarbeiten des zugeschnittenen Bildes, eine erste Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks zum Verarbeiten der Höhe, der Breite und des Standorts des ersten Fahrzeugs und eine zweite Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks beinhalten, um die Ausgabe von den Faltungsschichten des neuronalen Netzwerks und den ersten vollständig verbundenen Schichten eines neuronalen Netzwerks zu kombinieren, um die geschätzte Pose zu bestimmen.
Die Computervorrichtung kann ferner programmiert sein, um eine geschätzte 3D-Pose des ersten Fahrzeugs basierend auf der Breite, der Höhe und der Mitte des Bildfelds des ersten Fahrzeugs in das tiefe neuronale Netzwerk zu bestimmen, um ein geschätztes Rollen, ein geschätztes Nicken und ein geschätztes Gieren zu bestimmen. Eine geschätzte 3D-Pose des ersten Fahrzeugs kann bestimmt werden, wobei das tiefe neuronale Netzwerk eine dritte Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks beinhaltet, um die Höhe, Breite und Mitte des ersten Fahrzeugbildfelds zu verarbeiten, um eine 3D-Position zu bestimmen. Das tiefe neuronale Netzwerk kann trainiert werden, um die 3D-Pose basierend auf einem Bildfeld, einer Breite, einer Höhe und einer Mitte eines ersten Fahrzeugs und einer Grundwahrheit in Bezug auf die 3D-Pose eines ersten Fahrzeugs basierend auf simulierten Bilddaten zu schätzen. Die Grundwahrheit in Bezug auf die 3D-Pose des ersten Fahrzeugs kann eine 3D-Position, ein Rollen, ein Nicken und ein Gieren in Bezug auf ein 3D-Koordinatensystem beinhalten. Das tiefe neuronale Netzwerk kann trainiert werden, um die 3D-Pose basierend auf einem Bildfeld, einer Breite, einer Höhe und einer Mitte eines ersten Fahrzeugs und einer Grundwahrheit in Bezug auf die 3D-Pose eines ersten Fahrzeugs basierend auf aufgezeichneten Bilddaten und einer erfassten Grundwahrheit zu schätzen. Die aufgezeichneten Bilddaten können von in dem zweiten Fahrzeug enthaltenen Videosensoren aufgezeichnet werden. Die den aufgezeichneten Bilddaten entsprechende Grundwahrheit kann basierend auf der Photogrammetrie bestimmt werden. Die Photogrammetrie kann auf der Bestimmung einer Abmessung eines Fahrzeugs basierend auf der Fahrzeugmarke und dem Fahrzeugmodell basieren.
Figurenliste

1 ist ein Blockdiagramm eines beispielhaften Fahrzeugs.
2 ist eine Ansicht eines beispielhaften Bildes einer Verkehrsszene.
3 ist eine Ansicht eines beispielhaften Bilds einer Verkehrsszene.
4 ist eine Ansicht eines beispielhaften tiefen neuronalen Netzwerks.
5 ist ein Ablaufdiagramm eines beispielhaften Prozesses zum Schätzen der Fahrzeugpose basierend auf einem zugeschnittenen Bild.

DETAILLIERTE BESCHREIBUNG
1 ist ein Diagramm eines Fahrzeuginformationssystems 100, das ein Fahrzeug 110 beinhaltet, das in einem autonomen („autonom“ ohne Beifügung bedeutet in dieser Offenbarung „vollautonom“) und in insassengesteuerten (auch als nicht autonom bezeichneten) Modus betrieben werden kann. Das Fahrzeug 110 beinhaltet zudem eine oder mehrere Rechenvorrichtungen 115 zum Durchführen von Berechnungen zum Steuern des Fahrzeug 110 während des autonomen Betriebs. Die Rechenvorrichtung 115 kann von den Sensoren 116 Informationen in Bezug auf den Betrieb des Fahrzeugs empfangen. Die Rechenvorrichtung 115 kann das Fahrzeug 110 in einem autonomen Modus, einem halbautonomen Modus oder einem nicht autonomen Modus betreiben. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als einer definiert, bei dem jedes von Antrieb, Bremsung und Lenkung des Fahrzeugs 110 durch die Rechenvorrichtung gesteuert wird; in einem halbautonomen Modus steuert die Rechenvorrichtung 115 eines oder zwei von Antrieb, Bremsung und Lenkung des Fahrzeugs 110; in einem nicht autonomen Modus steuert ein menschlicher Bediener den Antrieb, die Bremsung und die Lenkung des Fahrzeugs.
Die Rechenvorrichtung 115 beinhaltet einen Prozessor und einen Speicher, wie sie bekannt sind. Ferner beinhaltet der Speicher eine oder mehrere Arten computerlesbarer Medien und speichert Anweisungen, die durch den Prozessor ausführbar sind, um verschiedene Vorgänge durchzuführen, einschließlich der hier offenbarten. Beispielsweise kann die Rechenvorrichtung 115 eine Programmierung beinhalten, um eines oder mehrere von Bremsen, Antrieb (z. B. Beschleunigungssteuerung in dem Fahrzeug 110 durch Steuern von einem oder mehreren von einer Brennkraftmaschine, einem Elektromotor, Hybridmotor usw.), Lenkung, Klimaregelung, Innen- und/oder Außenleuchten usw. des Fahrzeugs zu betreiben sowie um zu bestimmen, ob und wann die Rechenvorrichtung 115 im Gegensatz zu einem menschlichen Fahrer derartige Vorgänge steuern soll.
Die Rechenvorrichtung 115 kann mehr als eine Rechenvorrichtung, z. B. Steuerungen oder dergleichen, die in dem Fahrzeug 110 zum Überwachen und/oder Steuern verschiedener Fahrzeugkomponenten enthalten sind, z.B. eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113, eine Lenksteuerung 114 usw., beinhalten oder z.B. über einen Fahrzeugkommunikationsbus, wie weiter unten beschrieben, kommunikativ mit dieser (diesen) gekoppelt sein. Die Rechenvorrichtung 115 ist im Allgemeinen zur Kommunikation an einem Fahrzeugkommunikationsnetzwerk angeordnet, das z. B. einen Bus in dem Fahrzeug 110, wie etwa ein Controller Area Network (CAN) oder dergleichen, beinhaltet; das Netzwerk des Fahrzeugs 110 kann zusätzlich oder alternativ drahtgebundene oder drahtlose Kommunikationsmechanismen, wie sie bekannt sind, beinhalten, z. B. Ethernet oder andere Kommunikati onsprotokoll e.
Über das Fahrzeugnetzwerk kann die Rechenvorrichtung 115 Nachrichten an verschiedene Vorrichtungen in dem Fahrzeug übertragen und/oder Nachrichten von den verschiedenen Vorrichtungen, z. B. Steuerungen, Aktoren, Sensoren usw., einschließlich der Sensoren 116, empfangen. Alternativ oder zusätzlich kann in Fällen, in denen die Rechenvorrichtung 115 tatsächlich mehrere Vorrichtungen umfasst, das Fahrzeugkommunikationsnetzwerk für Kommunikationen zwischen Vorrichtungen verwendet werden, die in dieser Offenbarung als die Rechenvorrichtung 115 dargestellt sind. Ferner können, wie nachfolgend erwähnt, verschiedene Steuerungen oder Erfassungselemente der Rechenvorrichtung 115, wie etwa die Sensoren 116, Daten über das Fahrzeugkommunikationsnetzwerk bereitstellen.
Zusätzlich kann die Rechenvorrichtung 115 dazu konfiguriert sein, über ein Netzwerk 130, das, wie nachstehend beschrieben, Hardware, Firmware und Software beinhaltet, die es der Rechenvorrichtung 115 ermöglichen, über ein Netzwerk 130, wie etwa drahtloses Internet (Wi-Fi) oder Mobilfunknetzwerke, mit einem entfernten Servercomputer 120 zu kommunizieren, durch eine Fahrzeug-zu-Infrastruktur-Schnittstelle (V-zu-I-Schnittstelle) 111 mit einem entfernten Servercomputer 120, z. B. einem Cloud-Server, zu kommunizieren. Die V-zu-I-Schnittstelle 111 kann dementsprechend Prozessoren, Speicher, Sendeempfänger usw. beinhalten, die dazu konfiguriert sind, verschiedene drahtgebundene und/oder drahtlose Netzwerktechnologien verwenden, z. B. Mobilfunk-, BLUETOOTH®- und drahtgebundene und/oder drahtlose Paketnetzwerke, zu nutzen. Die Rechenvorrichtung 115 kann dazu konfiguriert sein, mit anderen Fahrzeugen 110 durch eine V-zu-I-Schnittstelle 111 unter Verwendung von Fahrzeug-zu-Fahrzeug(vehicle-to-vehicle - V-zu-V)-Netzwerken zu kommunizieren, z. B. gemäß dedizierten Nahbereichskommunikationen (dedicated short range communications - DSRC) und/oder dergleichen, die z. B. auf einer Ad-hoc-Grundlage unter nahegelegenen Fahrzeugen 110 oder durch infrastrukturbasierte Netzwerke gebildet werden. Die Rechenvorrichtung 115 beinhaltet zudem nichtflüchtigen Speicher, wie er bekannt ist. Die Rechenvorrichtung 115 kann Informationen protokollieren, indem sie die Informationen zum späteren Abrufen und Übertragen über das Fahrzeugkommunikationsnetzwerk und eine Fahrzeug-zu-Infrastruktur(vehicle to infrastructure - V-zu-I)-Schnittstelle 111 an einen Servercomputer 120 oder eine mobile Benutzervorrichtung 160 auf einem nichtflüchtigen Speicher speichert.
Wie bereits erwähnt, ist in Anweisungen, die auf dem Speicher gespeichert sind und durch den Prozessor der Rechenvorrichtung 115 ausführbar sind, im Allgemeinen eine Programmierung zum Betreiben einer oder mehrerer Komponenten des Fahrzeugs 110, z. B. Bremsen, Lenken, Antrieb usw., ohne Eingreifen eines menschlichen Fahrers beinhaltet. Unter Verwendung von in der Rechenvorrichtung 115 empfangenen Daten, z. B. der Sensordaten von den Sensoren 116, dem Servercomputer 120 usw., kann die Rechenvorrichtung 115 ohne einen Fahrer zum Betreiben des Fahrzeugs 110 verschiedene Bestimmungen vornehmen und/oder verschiedene Komponenten und/oder Vorgänge des Fahrzeugs 110 steuern. Beispielsweise kann die Rechenvorrichtung 115 eine Programmierung zum Regeln des Betriebsverhaltens des Fahrzeugs 110 (d. h. physikalische Manifestationen des Betriebs des Fahrzeugs 110) wie etwa Geschwindigkeit, Beschleunigung, Abbremsung, Lenken usw. sowie des taktischen Verhaltens (d. h. Steuerung des Betriebsverhaltens auf eine Weise, die typischerweise eine sichere und effiziente Überquerung einer Route erreichen sollen) beinhalten, wie etwa eine Entfernung zwischen Fahrzeugen und/oder eine Zeit zwischen Fahrzeugen, Spurwechsel, Mindestdistanz zwischen Fahrzeugen, Mindestzeit für Pfadquerung bei Linksabbiegung, Ankunftszeit an einer bestimmten Position und Mindestankunftszeit an einer Kreuzung (ohne Ampel) zum Überqueren der Kreuzung.
Im hier verwendeten Sinne beinhaltet der Ausdruck „Steuerungen“ Rechenvorrichtungen, die typischerweise zum Steuern eines konkreten Fahrzeugteilsystems programmiert sind. Zu Beispielen gehören eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113 und eine Lenksteuerung 114. Eine Steuerung ist typischerweise eine elektronische Steuereinheit (electronic control unit - ECU), wie sie bekannt ist, und möglicherweise zusätzliche Programmierung wie hierin beschrieben beinhalten. Die Steuerungen können kommunikativ mit der Rechenvorrichtung 115 verbunden sein und Anweisungen davon empfangen, um das Teilsystem gemäß den Anweisungen zu betätigen. Beispielsweise kann die Bremssteuerung 113 Anweisungen zum Betreiben der Bremsen des Fahrzeugs 110 von der Rechenvorrichtung 115 empfangen.
Die eine oder mehreren Steuerungen 112, 113, 114 für das Fahrzeug 110 können bekannte elektronische Steuereinheiten (electronic control units - ECUs) oder dergleichen beinhalten, die als nicht einschränkende Beispiele eine oder mehrere Antriebsstrangsteuerungen 112, eine oder mehrere Bremssteuerungen 113 und eine oder mehrere Lenksteuerungen 114 beinhalten. Jede der Steuerungen 112, 113, 114 kann jeweilige Prozessoren und Speicher und einen oder mehrere Aktoren beinhalten. Die Steuerungen 112, 113, 114 können mit einem Kommunikationsbus des Fahrzeugs 110, wie etwa einem CAN(Controller Area Network)-Bus oder einem LIN(Local Interconnect Network)-Bus, programmiert und verbunden sein, um Anweisungen von dem Computer 115 zu empfangen und Aktoren auf Grundlage der Anweisungen zu steuern.
Die Sensoren 116 können eine Vielzahl von Vorrichtungen beinhalten, die für die Bereitstellung von Daten über den Fahrzeugkommunikationsbus bekannt sind. Beispielsweise kann ein Radar, das z. B. an einem vorderen Stoßfänger (nicht gezeigt) des Fahrzeugs 110 befestigt ist, einen Abstand des Fahrzeugs 110 zu einem nächsten Fahrzeug vor dem Fahrzeug 110 bereitstellen oder ein GPS(Global Positioning System)-Sensor, der in dem Fahrzeug 110 angeordnet ist, kann geographische Koordinaten des Fahrzeugs 110 bereitstellen. Der Abstand (Die Abstände), der (die) durch das Radar und/oder andere Sensoren 116 bereitgestellt wird (werden), und/oder die geographischen Koordinaten, die durch den GPS-Sensor bereitgestellt werden, können von der Rechenvorrichtung 115 verwendet werden, um das Fahrzeug 110 autonom oder halb autonom zu betreiben.
Das Fahrzeug 110 ist im Allgemeinen ein halbautonomes Landfahrzeug 110 und/oder ein Autonomie-fähiges Fahrzeug 110, das drei oder mehr Räder aufweist, z. B. ein PKW, ein Kleinlaster usw. Das Fahrzeug 110 beinhaltet einen oder mehrere Sensoren 116, die V-zu-I-Schnittstelle 111, die Rechenvorrichtung 115 und eine oder mehrere Steuerungen 112, 113, 114. Die Sensoren 116 können Daten in Bezug auf das Fahrzeug 110 und die Umgebung, in der das Fahrzeug 110 betrieben wird, sammeln. Beispielhaft und nicht einschränkend können die Sensoren 116 z. B. Höhenmesser, Kameras, LIDAR, Radar, Ultraschallsensoren, Infrarotsensoren, Drucksensoren, Beschleunigungsmesser, Gyroskope, Temperatursensoren, Drucksensoren, Hallsensoren, optische Sensoren, Spannungssensoren, Stromsensoren, mechanische Sensoren wie etwa Schalter usw. beinhalten. Die Sensoren 116 können verwendet werden, um die Umgebung zu erfassen, in der das Fahrzeug 110 betrieben wird, z. B. können die Sensoren 116 Phänomene wie etwa Wetterbedingungen (Niederschlag, äußere Umgebungstemperatur usw.), die Neigung einer Straße, den Standort einer Straße (z. B. unter Verwendung von Straßenrändern, Spurmarkierungen usw.) oder Standorte von Zielobjekten wie etwa Nachbarfahrzeugen 110 erfassen. Die Sensoren 116 können ferner verwendet werden, um Daten, einschließlich dynamischer Daten des Fahrzeugs 110, die sich auf Vorgänge des Fahrzeugs 110 beziehen, wie etwa Geschwindigkeit, Gierrate, Lenkwinkel, Motordrehzahl, Bremsdruck, Öldruck, den auf die Steuerungen 112, 113, 114 in dem Fahrzeug 110 angewandten Leistungspegel, Konnektivität zwischen Komponenten und deine genaue und rechtzeitige Leistung von Komponenten des Fahrzeugs 110, zu sammeln.
2 ist eine Ansicht eines beispielhaften Farbbildes 200 einer Verkehrsszene, das in Schwarzweiß gerendert ist, um 37 CFR § 1,84(a)(1) zu entsprechen. Das Farbbild 200 kann von einem in einem Fahrzeug 110 enthaltenen Videosensor 116 erfasst werden. Der Videosensor 116 kann Farbvideodaten erfassen und die Farbvideodaten an die Rechenvorrichtung 115 übertragen, die die Farbvideodaten in einem nichtflüchtigen Speicher speichern kann, wo sie von der Rechenvorrichtung 115 abgerufen und verarbeitet werden können. Wie vorstehend in Bezug auf 1 erörtert, kann die Rechenvorrichtung 115 so programmiert sein, dass sie das Fahrzeug 110 teilweise basierend auf Farbvideodaten von einem Videosensor 116 betreibt. Die Rechenvorrichtung 115 kann so programmiert sein, dass sie Verkehrsobjekte auf dem Farbbild 200 einschließlich des anderen Fahrzeugs 202 und der Fahrbahn 204 erkennt. Beispielsweise kann ein tiefes neuronales Netzwerk (deep neural network - DNN) programmiert sein, um Verkehrsobjekte wie Fahrzeuge, Fußgänger, Schranken, Verkehrssignale, Verkehrsmarkierungen, Straßen, Pflanzen, Gelände und Gebäude zu segmentieren und zu kategorisieren. Die Anwendung von DNNs zur Segmentierung von Verkehrsobjekten in Farbvideodaten ist Gegenstand aktueller akademischer und industrieller Forschung. Akademische Forschungsgruppen und einige kommerzielle Einheiten haben Bibliotheken und Toolkits entwickelt, mit denen DNNs für Bildsegmentierungsaufgaben, einschließlich der Segmentierung von Verkehrsobjekten, entwickelt werden können. Zum Beispiel ist Caffe eine Faltungsbibliothek für neuronale Netzwerke, die vom Berkeley Vision and Learning Center, University of California, Berkeley, Berkeley, Kalifornien 94720, erstellt wurde und zum Entwickeln einer Verkehrsobjektsegmentierungs-DNN verwendet werden kann.
Die Bildsegmentierung ist ein Bildverarbeitungsprozess, bei dem ein eingegebenes Farbbild in verbundene Bereiche segmentiert wird. Ein DNN kann trainiert werden, um ein eingegebenes Farbbild in verbundene Bereiche zu segmentieren, indem eine Vielzahl von Farbbildern zusammen mit „Grundwahrheits“-Daten eingegeben wird. Grundwahrheit ist definiert als Information oder Daten, die eine reale Bedingung oder einen realen Zustand spezifizieren, die bzw. der Bilddaten zugeordnet ist. Zum Beispiel können auf einem Bild einer Verkehrsszene Grundwahrheitsdaten Informationen über Verkehrsobjekte enthalten, die in dem Farbbild enthalten sind, wie zum Beispiel Fläche und Entfernung und Richtung von dem Farbvideosensor 116 zu einem Fahrzeug in dem Sichtfeld. Grundwahrheitsdaten können unabhängig von dem Farbbild erfasst werden, beispielsweise durch direkte Beobachtung oder Messung oder durch Verarbeitung, die unabhängig von der DNN-Verarbeitung ist. Grundwahrheitsdaten können verwendet werden, um dem DNN während des Trainings Feedback zu geben, korrekte Ergebnisse zu belohnen und schlechte Ergebnisse zu bestrafen. Durch das Durchführen einer Vielzahl von Versuchen bei einer Vielzahl von unterschiedlichen DNN-Parametern und Bewerten der Ergebnisse mit Grundwahrheitsdaten kann ein DNN trainiert werden, um bei der Eingabe von Farbbilddaten korrekte Ergebnisse auszugeben. Die verbundenen Regionen können beispielsweise minimalen und maximalen Flächen unterliegen. Die verbundenen Regionen können kategorisiert werden, indem jede verbundene Region mit einer von einer Reihe verschiedener Kategorien gekennzeichnet wird, die Verkehrsobjekten entsprechen. Die Kategorien können vom DNN basierend auf der Größe, der Form und des Standorts der Verkehrsobjekte im Farbbild 200 ausgewählt werden. Ein DNN kann beispielsweise verschiedene Kategorien für verschiedene Fahrzeugmarken und -modelle enthalten.
Das Trainieren einer DNN zum Bestimmen einer 3D-Pose eines Fahrzeugs in einem eingegebenen Farbbild 200 kann aufgezeichnete Farbbilder 200 mit entsprechender Grundwahrheit in Bezug auf die reellen 3D-Pose einer Vielzahl von Fahrzeugen erfordern. Die Grundwahrheit kann als Entfernung oder Reichweite und Richtung von einem Farbvideosensor 116 ausgedrückt werden. In einigen Beispielen kann die Computervorrichtung 115 eine Entfernung oder Reichweite von dem Farbvideosensor 116 zu einem Verkehrsobjekt in dem Farbbild 200 durch Photogrammetrie bestimmen (d. h. Techniken, wie sie zum Durchführen von Messungen von Fotografien oder Bildern bekannt sind). Die Photogrammetrie kann Informationen bezüglich eines Sichtfelds, einschließlich Vergrößerung, Standorte und dreidimensionaler (3D) Richtung der optischen Achse einer Linse eines Farbvideosensors 116 mit Informationen bezüglich der realen Größe eines Verkehrsobjekts kombinieren, um die Entfernung und Richtung von einer Linse eines Farbvideosensors 116 zu einem Verkehrsobjekt zu schätzen. Zum Beispiel können Informationen bezüglich der realen Höhe des anderen Fahrzeugs 202 mit Höheninformationen des Farbbilds 200 in Pixeln eines Verkehrsobjekts kombiniert werden, das dem anderen Fahrzeug 202 zugeordnet ist, und basierend auf der Vergrößerung und 3D-Richtung der Linse einen Abstand und eine Richtung zu dem anderen Fahrzeug 202 in Bezug auf das Fahrzeug 110 bestimmen.
Die Bestimmung von Entfernungen und Richtungen anhand der Photogrammetrie hängt von der Bestimmung des Standorts und der Pose von Verkehrsobjekten ab. Verkehrsobjekte werden als starre 3D-Objekte (Fahrzeuge usw.) oder halbstarre 3D-Objekte (Fußgänger usw.) angenommen; daher kann die Position und Ausrichtung von Verkehrsobjekten im realen 3D-Raum durch sechs Freiheitsgrade um ein dreiachsiges Koordinatensystem beschrieben werden. Unter der Annahme eines x,y,z-Dreiachsen-Koordinatensystems mit einem definierten Ursprung kann die 3D-Standort als Verschiebung vom Ursprung in x,y,z-Koordinaten definiert werden und die Pose kann als Winkeldrehung (Rollen, Nicken und Gieren) um die x-, y-, und z-Achsen. Standort und Pose können jeweils die Position und Ausrichtung (z. B. Winkel in Bezug auf jede der x-, y- und z -Achsen, möglicherweise ausgedrückt, z. B. in Bezug auf ein Fahrzeug, als Rollen, Nicken und Gieren) von Verkehrsobjekten im 3D-Raum der realen Welt beschreiben. Schätzungen von Rollen, Nicken und Gieren für ein Verkehrsobjekt werden als vorhergesagte Ausrichtung bezeichnet. Eine mit einem 3D-Standort kombinierte Ausrichtung wird hierin als 3D-Pose bezeichnet, und eine mit einem vorhergesagten 3D-Standort kombinierte vorhergesagte Ausrichtung wird hierin als vorhergesagte 3D-Pose bezeichnet.
Die Photogrammetrie kann zum Beispiel den Standort eines Datenpunkts auf einem Farbbild 200 und basierend auf Informationen bezüglich des Sichtfelds des Farbvideosensors 116, der das Farbbild 200 erfasst hat, und einer Schätzung der Entfernung von einem 3D-Punkt im Farbvideosensor zum Datenpunkt im realen 3D-Raum bestimmen. Beispielsweise kann die Entfernung vom 3D-Punkt im Farbvideosensor zum Datenpunkt im realen 3D-Raum unter Verwendung von a-priori-Informationen bezüglich des Datenpunkts geschätzt werden. Beispielsweise kann angenommen werden, dass der Datenpunkt in einem kategorisierten Verkehrsobjekt enthalten ist, das z. B. gemäß herkömmlichen Objekterkennungs- und/oder Klassifizierungstechniken von der Rechenvorrichtung 115 aus Daten eines oder mehrerer Sensoren 116 identifiziert wurde. Die Verkehrsobjektkategorie kann von der Rechenvorrichtung 115 verwendet werden, um a-priori-Informationen bezüglich der realen (d. h. tatsächlichen) Größe des Verkehrsobjekts abzurufen. Eine reale Größe eines Verkehrsobjekts kann als die Größe einer messbaren Abmessung definiert werden, z. B. Gesamthöhe, -länge oder -breite. Zum Beispiel werden Personenkraftwagen mit Standardabmessungen hergestellt. Ein Bild einer Marke und eines Modells eines Personenkraftwagens kann von der Rechenvorrichtung 115 unter Verwendung von Bildverarbeitungstechniken und basierend auf messbaren Abmessungen dieses Fahrzeugs in realen Einheiten, beispielsweise Millimetern, erkannt werden, die aus einer in der Rechenvorrichtung 115 gespeicherten Liste von messbaren Fahrzeugabmessungen abgerufen werden können. Die Größe der messbaren Abmessung, wie sie in Pixeln in dem Farbbild gemessen wird, kann mit einer Größe der messbaren Abmessung in realen Einheiten verglichen werden, um eine Entfernung des Verkehrsobjekts von dem Farbvideosensor 116 basierend auf der Vergrößerung einer Linse in dem Farbvideosensor 116 und einen Standort der messbaren Abmessung in Bezug auf einen Schnittpunkt einer in der Linse enthaltenen optischen Achse und einer in einem Farbvideosensor 116 enthaltenen Bildsensorebene zu bestimmen. A-priori-Informationen bezüglich einer messbaren Abmessung können mit gemessenen Standorten und Größen von Verkehrsobjekten in dem Farbbild 200 und Informationen bezüglich der Vergrößerung der Linse des Farbvideosensors 116 auf diese Weise kombiniert werden, um eine reale 3D-Entfernung von dem Farbvideosensor zu dem kategorisierten Verkehrsobjekt zu schätzen.
In einigen Beispielen kann die Rechenvorrichtung eine Entfernung oder Reichweite von einem Farbvideosensor 116 zu einem Verkehrsobjekt in dem Farbbild 200 durch Erfassen und Verarbeiten von Informationen von einem Lidarsensor 116 bestimmen. Wie vorstehend in Bezug auf 1 erörtert, kann ein Lidarsensor 116 eine Punktwolke von Datenpunkten erfassen, die Standorte von Oberflächen im 3D-Raum darstellen. Ein Standort des anderen Fahrzeugs 302 in Bezug auf das Fahrzeug 110 kann bestimmt werden, indem ein geschätzter 3D-Standort eines 3D-Lidar-Datenpunkts, der als mit dem anderen Fahrzeug 302 assoziiert bestimmt wurde, in das Farbbild 300 basierend auf dem Sichtfeld des Farbbildsensors 116 projiziert wird. Ein 3D-Lidardatenpunkt kann als mit dem anderen Fahrzeug assoziiert bestimmt werden, indem die Sichtfelder des Farbbildsensors 116 und des Lidarsensors 116 verglichen werden.
3 ist ein beispielhaftes Farbbild 300 einer Verkehrsszene, die in Schwarzweiß gerendert ist. Die Rechenvorrichtung 115 kann so programmiert sein, dass sie Verkehrsobjekte in dem Farbbild 300 einschließlich des anderen Fahrzeugs 302 und der Fahrbahn 304 erkennt, wie vorstehend in Bezug auf 2 erläutert. Basierend auf Verkehrsobjektdaten, die mit dem anderen Fahrzeug 302 assoziiert sind, kann ein rechteckiger Begrenzungsrahmen 306 um das andere Fahrzeug 302 herum konstruiert werden.
Der Begrenzungsrahmen 306 kann basierend auf segmentierten Verkehrsobjektdaten aus Farbbilddaten 300 konstruiert werden. Basierend auf dem Bestimmen eines Verkehrsobjekts mit der Kategorie „Fahrzeug“ an einem Standort in dem Farbbild 300 in Übereinstimmung mit dem anderen Fahrzeug 302 kann die Rechenvorrichtung 115 einen Begrenzungsrahmen konstruieren, indem die kleinste rechteckige Form bestimmt wird, die Bildpixel in einem verbundenen Bereich des Farbbilds 300 enthält, die der Bestimmung nach zu der Kategorie „Fahrzeug“ gehören, wobei die Seiten des Begrenzungsrahmens so beschränkt sind, dass sie parallel zu den Seiten (oben, unten, links, rechts) des Farbbilds 300 sind. Der Begrenzungsrahmen 306 wird durch Kontextinformationen beschrieben, die eine Mitte beinhalten, die als x-, y-Koordinaten in Pixeln relativ zu einem Ursprung, einer Breite in Pixeln und einer Höhe in Pixeln ausgedrückt wird. Die x-, y-Koordinaten einer Mitte können die Mitte des Begrenzungsrahmens sein. Die Höhe und Breite des Begrenzungsrahmens kann durch die maximalen und minimalen x- und maximalen und minimalen y-Koordinaten der Pixel im verbundenen Bereich bestimmt werden.
Das Farbbild 300 kann basierend auf dem Begrenzungsrahmen 306 zugeschnitten werden. Beim Zuschneiden werden alle Pixel des Farbbildes 300, die sich nicht innerhalb des Begrenzungsrahmens 306 befinden, verworfen. Das Farbbild 300 enthält dann nur die Pixel innerhalb des Begrenzungsrahmens 306. Da der Begrenzungsrahmen 306 viel weniger Pixel als das ursprüngliche nicht zugeschnittene Farbbild 300 beinhaltet, kann die Verarbeitung des zugeschnittenen Farbbildes 300 um ein Vielfaches schneller sein, wodurch die Verarbeitung in Bezug auf die Vorhersage einer 3D-Pose verbessert wird.
Das zugeschnittene Farbbild 300 und die Kontextinformationen bezüglich des Standorts und der Größe des zugeschnittenen Farbbildes 300 in Bezug auf das ursprüngliche, nicht zugeschnittene Farbbild 300 können in ein DNN eingegeben werden, das in Bezug auf 4 unten beschrieben ist, um eine Posenvorhersage zu bestimmen, d. h. geschätztes Rollen, Nicken und Gieren für das andere Fahrzeug 302. Eine Posenvorhersage kann von der Rechenvorrichtung 115 verwendet werden, um eine Bewegung für das andere Fahrzeug 302 vorherzusagen und dadurch die Rechenvorrichtung 115 beim sicheren und effizienten Betreiben des Fahrzeugs 110 zu unterstützen, indem Kollisionen und Beinahe-Kollisionen vermieden werden und ein kürzester Weg im Einklang mit einem sicheren Betrieb zurückgelegt wird.
4 ist eine Ansicht eines beispielhaften Posenvorhersage-DNN 400, d. h. eines maschinellen Lernprogramms, das trainiert werden kann, um die vorhergesagte Ausrichtung 420 und die vorhergesagte Position 424 als Reaktion auf ein eingegebenes Farbbild 402 auszugeben. Eine vorhergesagte Ausrichtung 420 und eine vorhergesagte Position 424 sind eine Vorhersage oder Schätzung einer realen 3D-Pose (Standort, Rollen, Nicken und Gieren), wie vorstehend in Bezug auf 2 definiert, die aus der Analyse eines Bildes eines anderen Fahrzeugs, das in dem eingegebenen Farbvideobild 402 enthalten ist, vorhergesagt wurde. Das DNN 400 kann eine Standortvorhersage 424 als Reaktion auf ein eingegebenes Farbbild 402 ausgeben. Eine Standortvorhersage ist ein realer 3D-Standort (x, y, z), wie vorstehend in Bezug auf 2 definiert, vorhergesagt aus einem Bild des anderen Fahrzeugs, das in dem eingegebenen Farbvideobild 402 enthalten ist. Das DNN 400 kann basierend auf einer Vielzahl von eingegebenen Farbbildern trainiert werden, die die Grundwahrheit beinhalten, die den realen 3D-Standort und die Pose von Fahrzeugen spezifiziert, die in den eingegebenen Farbbildern enthalten sind. Das Trainieren des DNN 400 beinhaltet das Eingeben eines Farbbildes 402 und das Zurückverbreiten einer daraus resultierenden ausgegebenen Posenvorhersage 420, die mit der einem eingegebenen Farbbild 402 zugeordneten Grundwahrheit verglichen werden soll.
Wie vorstehend definiert, kann die Grundwahrheit die korrekte reale 3D-Pose für das in dem Farbbild 402 abgebildete Fahrzeug sein, die in Bezug auf einen in dem Fahrzeug 110 enthaltenen Farbvideosensor 116 bestimmt wurde. Grundwahrheitsinformationen können von einer Quelle unabhängig vom Farbbild 402 erhalten werden. Beispielsweise kann die 3D-Pose eines anderen Fahrzeugs in Bezug auf einen Farbvideosensor 116 physikalisch gemessen werden und dann kann ein Farbbild 402 des anderen Fahrzeugs erfasst werden und die Grundwahrheit und das erfasste Bild können zum Trainieren des DNN 400 verwendet werden. In anderen Beispielen können simulierte Daten verwendet werden, um ein Farbbild 402 zu erzeugen. In diesem Beispiel wird die 3D-Pose in ein Simulationsprogramm eingegeben. Simulierte Daten können von Softwareprogrammen erstellt werden, die Videospielsoftwareprogrammen ähneln, die ausgegebene Videobilder fotorealistisch wiedergeben können, z. B. sehen die ausgegebenen Videobilder wie Fotos von realen Szenen aus.
Durch das Vergleichen der Ergebnisse der DNN-400-Verarbeitung mit der Grundwahrheit und durch positives oder negatives Belohnen des Prozesses kann das Verhalten des DNN 400 nach wiederholten Versuchen beeinflusst oder trainiert werden, um korrekte Antworten in Bezug auf die Grundwahrheit bereitzustellen, wenn entsprechende Farbbilder 402 für eine Vielzahl von verschiedenen Farbbildern 402 eingegeben werden. Das Trainieren des DNN 400 auf diese Weise trainiert den Block 408 des neuronalen Faltungsnetzwerks (CNN) der neuronalen Netzwerkkomponente und den Block 412 der Prozesszuschnittspose (process crop pose - PCP), um die korrekten Bildmerkmale 414 bzw. die korrekten Posenmerkmale 416 als Eingabe auszugeben, um den Block 418 des Bildposen-CIP als Reaktion auf das eingegebene Farbbild 402 zu kombinieren, ohne explizit eine Grundwahrheit für diese Zwischenmerkmale bereitstellen zu müssen. Die Grundwahrheit in Bezug auf die Ausrichtungsvorhersage 420 und die Standortvorhersage 424 wird mit der Kombination 422 aus dem Block der Bildpose (CIP) und dem Block des Prozesszuschnittstandorts (process crop location - PCL) verglichen, um das DNN 400 zu trainieren.
Als erster Schritt bei der Verarbeitung eines Farbbildes 402 mit DNN 400 kann die Rechenvorrichtung 115 ein Farbbild 402 in den Zuschnitt- und Füllblock (C&P-Block) 404 eingeben, in dem ein Farbvideobild 402 zugeschnitten, in der Größe verändert und aufgefüllt wird. Ein Farbbild 402 kann zugeschnitten werden, indem ein Begrenzungsrahmen bestimmt wird, der einem Bild eines Fahrzeugs zugeordnet ist, und alle Pixel außerhalb des Begrenzungsrahmens verworfen werden, wie vorstehend in Bezug auf 3 erläutert. Das daraus resultierende zugeschnittene Farbbild kann eine Höhe und Breite in Pixeln aufweisen, die sich von einer vom CNN-Block 408 erforderlichen eingegebenen Höhe und Breite unterscheidet. Um dies zu beheben, kann die Größe des zugeschnittenen Farbbilds durch Vergrößern oder Verkleinern des zugeschnittenen Farbbilds geändert werden, bis die Höhe und Breite oder das zugeschnittene Farbbild gleich einer vom CNN-Block 408 geforderten eingegebenen Höhe und Breite ist, beispielsweise 100x100 Pixel. Das zugeschnittene Farbbild kann durch Replizieren von Pixeln vergrößert und durch Abtasten von Pixeln verkleinert werden. Räumliche Filter können angewendet werden, während das zugeschnittene Farbbild vergrößert und verkleinert wird, um die Genauigkeit zu verbessern. Das zugeschnittene Farbbild kann auch aufgefüllt werden, indem Zeilen und Spalten von Pixeln entlang des oberen, unteren, linken und rechten Randes des zugeschnittenen und hinsichtlich der Größe veränderten Farbbildes hinzugefügt werden, um die Genauigkeit der durch den CNN-Block 408 ausgeführten Faltungsvorgänge zu verbessern. Das zugeschnittene, verkleinerte und aufgefüllte Farbbild 406 wird an den CNN-Block 408 ausgegeben.
Der CNN-Block 408 verarbeitet das zugeschnittene, hinsichtlich der Größe veränderte und aufgefüllte Farbbild 406, indem das eingegebene zugeschnittene, hinsichtlich der Größe veränderte und aufgefüllte Farbbild 406 nacheinander mit einer Vielzahl von Faltungsschichten unter Verwendung einer Vielzahl von Faltungskernen gefaltet und anschließend gebündelt wird, wobei die Zwischenergebnisse, die von einer Faltungsschicht ausgegeben werden, hinsichtlich der Auflösung räumlich reduziert werden können, indem zusammenhängende benachbarte Pixel, beispielsweise 2x2 benachbarte Pixel, gemäß einer Regel zu einem einzigen Pixel kombiniert werden, beispielsweise durch Bestimmen eines Maximums oder eines Mittelwerts der benachbarten Pixel. Zwischenergebnisse einer Faltungsschicht können auch räumlich vergrößert werden, indem beispielsweise Informationen von zuvor bestimmten Faltungsschichten mit höherer Auflösung über Auslassungsbedingungen einbezogen werden. Der CNN-Block 408 kann trainiert werden, indem Sequenzen von Faltungskernen bestimmt werden, die von den Faltungsschichten des CNN-Blocks 408 verwendet werden sollen, und zwar basierend auf dem Vergleich der Ergebnisse des DNN 400 mit der Grundwahrheit hinsichtlich der Ausrichtung und des Standorts des Fahrzeugs. Der CNN-Block 408 gibt die Bildmerkmale 414 an den CIP-Block 418 aus, wo sie mit den Posenmerkmalen 416 kombiniert werden, die vom PCP-Block 412 ausgegeben werden, um ausgegebene Ausrichtungsvorhersagen 420 zu bilden.
Wieder bei dem C&P-Block 404 gibt der C&P-Block 404 Zuschnittinformationen 410 basierend auf dem eingegebenen Farbbild 402 an den PCP-Block 412 und den PCL-Block 422 aus. Die Zuschnittinformationen beinhalten die ursprüngliche Höhe und Breite des zugeschnittenen Farbbilds in Pixeln und die x-, y -Koordinaten der Mitte des zugeschnittenen Farbbilds in Bezug auf den Ursprung des Koordinatensystems des Farbbilds 402 in Pixeln. Der PCP-Block 412 gibt die Zuschnittinformationen 410 in eine Vielzahl vollständig verbundener Schichten eines neuronalen Netzwerks ein, die die Zuschnittinformationen 410 verarbeiten, um Ausrichtungsmerkmale 416 zu bilden, die an den CIP 418 ausgegeben werden. Zur Trainingszeit können Parameter, die als Koeffizienten in Gleichungen enthalten sind, die in PCP 412 enthalten sind und Werte in vollständig verbundenen Schichten kombinieren, die ausgegebene Ausrichtungsmerkmale 416 bilden, angepasst oder eingestellt werden, um zu bewirken, dass PCP 412 gewünschte Werte basierend auf der Grundwahrheit ausgibt. Parallel dazu gibt die PCL 422 die Zuschnittinformationen ein und bestimmt einen realen 3D-Standort für das Fahrzeug, das in dem zugeschnittenen, verkleinerten und aufgefüllten Farbbild 406 dargestellt ist, um als Standortvorhersage 424 ausgegeben zu werden, die x-, y- und z-Koordinaten beinhaltet, die eine Schätzung des realen 3D-Standorts des Fahrzeugs, das in dem eingegebenen Farbbild 402 dargestellt ist, darstellen. PCL 422 kann trainiert werden, indem Parameter angepasst oder eingestellt werden, die als Koeffizienten in Gleichungen enthalten sind, die in PCL 422 enthalten sind, und die Werte in vollständig verbundenen Schichten kombinieren, und zwar als Reaktion auf dem basierend auf der Grundwahrheit eingegebenen zugeschnittenen Bild.
Der CIP-Block 418 gibt Bildmerkmale 414 und Ausrichtungsmerkmale 416 in eine Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks ein, um eine Ausrichtungsvorhersage 420 zu bestimmen. Die Ausrichtungsvorhersage 420 ist eine Schätzung der Ausrichtung eines Fahrzeugs, das in dem eingegebenen Farbbild 402 dargestellt ist, ausgedrückt als Rollen, Nicken und Gieren in Grad um die Achsen eines Kamera-3D-Koordinatensystems, wie vorstehend in Bezug auf 2 beschrieben. Zur Trainingszeit können Parameter, die als Koeffizienten in Gleichungen enthalten sind, die im CIP-Block 418 enthalten sind und Werte in vollständig verbundenen Schichten kombinieren, die ausgegebene Ausrichtungsvorhersagen 420 bilden, angepasst oder eingestellt werden, um zu bewirken, dass CIP 418 gewünschte Werte basierend auf der Grundwahrheit ausgibt. Eine Ausrichtungsvorhersage 420 und eine Standortvorhersage 424 können kombiniert werden, um eine vorhergesagte 3D-Pose für ein Fahrzeug zu bilden und die 3D-Pose zur Speicherung und zum Abruf zur Verwendung beim Betreiben des Fahrzeugs 110 an die Rechenvorrichtung 115 auszugeben. Beispielsweise können Informationen bezüglich des Standorts und der Pose eines Fahrzeugs in einem Sichtfeld eines in dem Fahrzeug 110 enthaltenen Videosensors 116 verwendet werden, um das Fahrzeug 110 so zu betreiben, dass Kollisionen oder Beinahe-Kollisionen mit einem Fahrzeug in dem Sichtfeld vermieden werden.
Das DNN 400 kann basierend auf aufgezeichneten eingegebenen Farbvideobildern 402 und der entsprechenden Grundwahrheit in Bezug auf die 3D-Pose von Fahrzeugen trainiert werden, die in den eingegebenen Farbvideobildern 402 enthalten sind. Eingegebene Farbvideobilder 402 und entsprechende Grundwahrheit können durch Aufzeichnen von realen Szenen und Messen der 3D-Pose erhalten werden, beispielsweise können hierin erörterten Techniken auch eingegebene Farbvideobilder 402 und entsprechende Grundwahrheit bezüglich der 3D-Pose von Fahrzeugen erhalten, die in Farbvideobildern enthalten sind, und zwar basierend auf Computersimulationen. Eine Rechenvorrichtung kann Farbvideobilder basierend auf digitalen Daten, die Oberflächen und Objekte auf fotorealistische Weise beschreiben, rendern, um reale Wetter- und Lichtbedingungen für eine Vielzahl von Standorten und Posen von Fahrzeugen je nach Jahreszeit und Tageszeit nachzuahmen. Da die Farbvideobilder 402 synthetisch sein können, ist die 3D-Pose von enthaltenen Fahrzeugen in den digitalen Daten enthalten, sodass die Grundwahrheit genau bekannt ist, und zwar ohne Messfehler, wie dies mit realen Daten möglich ist. In realen Daten enthaltene Fehler können in den simulierten Daten enthalten sein, indem der Begrenzungsrahmen 306 absichtlich angepasst wird, indem er beispielsweise für zusätzliches Training skaliert oder verschoben wird.
Die Rechenvorrichtung 115 kann das Fahrzeug 110 basierend auf einer mehrstufigen Steuerprozesshierarchie betreiben, wobei eine Vielzahl von zusammenwirkenden, unabhängigen Steuerprozessen Informationen bezüglich des Fahrzeugs 110 und seiner Umgebung einschließlich realer Verkehrsobjekte erstellen und austauschen, um das Fahrzeug 110 von seinem aktuellen Standort aus zu einem Ziel sicher zu betreiben, wobei der sichere Betrieb des Fahrzeugs 110 das Vermeiden von Kollisionen und Beinahe-Kollisionen beinhaltet. Die hierin erörterten beispielhaften Techniken ermöglichen verbesserte Steuerprozesse zum Bestimmen von Informationen bezüglich des Betriebs des Fahrzeugs 110, nämlich der vorhergesagten 3D-Pose, einschließlich der Ausrichtung (Rollen, Nicken und Gieren) und des Standorts (x, y und z) eines Verkehrsobjekts (eines Fahrzeugs) in der realen Umgebung des Fahrzeugs 110. Andere Steuerprozesse können ein Ziel in realen Koordinaten basierend auf Fahrzeugstandortinformationen und Kartendaten bestimmen. Weitere Steuerprozesse können einen vorhergesagten Polynomweg basierend auf Quer- und Längsbeschleunigungsgrenzen und empirisch bestimmten Mindestentfernungen zum Vermeiden von Verkehrsobjekten bestimmen, die von noch weiteren Steuerprozessen verwendet werden können, um das Fahrzeug 110 zu dem bestimmten Ziel zu betreiben. Noch weitere Steuerprozesse bestimmen Steuersignale, die an die Steuerungen 112, 113, 114 gesendet werden müssen, um das Fahrzeug 110 zu betreiben, indem das Lenken, Bremsen und der Antriebsstrang basierend auf dem Betrieb des Fahrzeugs 110 gesteuert werden, um entlang des vorhergesagten Polynomwegs zu fahren.
Hierin beschriebene Techniken zum Bestimmen einer vorhergesagten 3D-Pose für ein Fahrzeug, das in einem Farbvideobild enthalten ist, können in eine mehrstufige Steuerprozesshierarchie aufgenommen werden, indem Informationen zur vorhergesagten 3D-Pose vom DNN 400 an einen Steuerprozess ausgegeben werden, der auf der Rechenvorrichtung 115 ausgeführt wird, die eine vorhergesagte Fahrzeugbewegung basierend auf der 3D-Pose in Bezug auf Fahrzeug 110 und eine Fahrbahn, die Karteninformationen beinhaltet, bestimmt. Das Vorhersagen der Bewegung für Fahrzeuge in einem Sichtfeld eines Farbvideosensors 116 kann es der Rechenvorrichtung 115 ermöglichen, einen Weg zu bestimmen, der durch eine Polynomwegfunktion dargestellt wird, die von der Rechenvorrichtung 115 verwendet werden kann, um das Fahrzeug 110 so zu betreiben, dass es einen autonomen und halbautonomen Betrieb sicher erreicht, indem Standorte von anderen Fahrzeugen vorhergesagt werden und der Polynomweg entsprechend geplant wird. Beispielsweise kann die Rechenvorrichtung 115 das Fahrzeug 110 betreiben, um halbautonome Aufgaben durchzuführen, einschließlich Fahrerassistenzaufgaben wie Spurwechselmanöver, Tempomat und Parken usw.
Das Ausführen von Fahrerassistenzaufgaben wie Spurwechselmanövern, Tempomat und Parken usw. kann das Betreiben des Fahrzeugs 110 durch Bestimmen eines Polynomwegs und das Betreiben des Fahrzeugs 110 entlang des Polynomwegs durch Anwenden einer Quer- und Längsbeschleunigung durch Steuern von Lenk-, Brems- und Antriebsstrangkomponenten des Fahrzeugs 110 beinhalten. Für die Ausführung von Fahrerassistenzaufgaben kann es erforderlich sein, die Geschwindigkeit des Fahrzeugs 110 zu modifizieren, um die Mindestentfernung zwischen Fahrzeugen einzuhalten oder die Geschwindigkeiten an andere Fahrzeuge anzupassen, um beispielsweise während eines Spurwechselmanövers mit dem Verkehr zu verschmelzen. Das Vorhersagen von Bewegung und Standort für andere Fahrzeuge in einem Sichtfeld von Sensoren 116, die in dem Fahrzeug 110 enthalten sind, basierend auf dem Bestimmen einer anderen Pose und eines anderen Standorts des Fahrzeugs in realen Koordinaten kann in die Polynomwegplanung durch die Rechenvorrichtung 115 einbezogen werden. Das Einbeziehen von vorhergesagter Pose und vorhergesagtem Standort in die Polynomwegplanung kann ermöglichen, dass die Rechenvorrichtung 115 das Fahrzeug 110 betreibt, um Fahrzeugassistenzaufgaben sicher auszuführen.
5 ist ein Ablaufdiagramm, das in Bezug auf die 1-4 beschrieben wurde, eines beispielhaften Prozesses 500 zum Betreiben eines zweiten Fahrzeugs 110 basierend auf der Vorhersage einer geschätzten 3D-Pose für ein erstes Fahrzeug. Der Prozess 500 kann durch einen Prozessor der Rechenvorrichtung 115 umgesetzt werden, indem beispielsweise Informationen von den Sensoren 116 als Eingabe herangezogen und Befehle ausgeführt und Steuersignale über die Steuerungen 112, 113, 114 gesendet werden. Der Prozess 500 wird hierin so beschrieben, dass er mehrere Schritte umfasst, die in der offenbarten angegebenen Reihenfolge ausgeführt werden. Andere Umsetzungen sind möglich, bei denen der Prozess 500 weniger Schritte beinhaltet und/oder die offenbarten Schritte in anderen Reihenfolgen beinhaltet.
Der Prozess 500 beginnt bei Schritt 502, bei dem eine in einem zweiten Fahrzeug 110 enthaltene Rechenvorrichtung 115 ein Farbbild 402, das eine Darstellung eines ersten Fahrzeugs beinhaltet, zuschneidet, hinsichtlich der Größe ändert und auffüllt. Wie in Bezug auf die 3 und 4 oben erörtert, wird das Farbbild 402 so zugeschnitten, dass es nur das Bild des ersten Fahrzeugs beinhaltet, hinsichtlich der Größe geändert, um einer eingegebenen Größe zu entsprechen, die vom DNN 400 gefordert wird, und aufgefüllt, um bei der Faltung durch CNN 408 zu unterstützen.
Bei Schritt 504 gibt die Rechenvorrichtung 115 die zugeschnittenen, hinsichtlich der Größe geänderten und aufgefüllten Bilddaten in das CNN 408 ein, wobei das CNN 408 die eingegebenen zugeschnittenen, hinsichtlich der Größe geänderten und aufgefüllten Farbbilddaten verarbeitet, um Bildmerkmale 414 zu bilden, die an das CIP 418 ausgegeben werden, wie vorstehend in Bezug auf 4 erörtert.
Bei Schritt 506 gibt die Rechenvorrichtung 115 Zuschnittdaten, einschließlich Höhe, Breite und Mitte des zugeschnittenen Farbbildes, in den PCP-Block 412 ein, in dem die Zuschnittdaten von einer Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks verarbeitet werden, um Posenmerkmale 416 zu bestimmen, die eine 3D-Ausrichtung beschreiben, die dem anderen Fahrzeug zugeordnet ist, das in dem eingegebenen Farbvideo 402 dargestellt wird.
Bei Schritt 508 gibt die Rechenvorrichtung 115 Bildmerkmale 414 und Stellungsmerkmale 416 in den CIP-Block 418 ein, in dem eine Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks die eingegebenen Bildmerkmale 414 und Posenmerkmale 416 verarbeiten, um eine Ausrichtungsvorhersage 420 zu bestimmen und auszugeben, die die Ausrichtung eines Fahrzeugs beschreibt, das in dem eingegebenen Farbbild 402 dargestellt ist, und zwar in Grad von Rollen, Nicken und Gieren in Bezug auf ein 3D-Koordinatensystem des Farbvideosensors 116. Die Rechenvorrichtung gibt auch Zuschnittinformationen 410 in den PCL-Block 422 ein, der arbeitet, um Informationen 410 zuzuschneiden, um einen vorhergesagten 3D-Standort 424 zu bilden. Der vorhergesagte 3D-Standort 424 und die vorhergesagte Ausrichtung 420 können kombiniert werden, um eine vorhergesagte 3D-Pose zu bilden.
Bei Schritt 510 betreibt die Rechenvorrichtung 115 ein Fahrzeug 110 basierend auf der bei Schritt 508 ausgegebenen 3D-Posenvorhersage. Beispielsweise kann die Rechenvorrichtung 115 die 3D-Posenvorhersage verwenden, um die Bewegung eines Fahrzeugs im Sichtfeld eines im Fahrzeug 110 enthaltenen Farbvideosensors 116 vorherzusagen. Die Rechenvorrichtung 115 verwendet den Standort und die vorhergesagte Bewegung des Fahrzeugs im Sichtfeld des Farbvideosensors 116 in Programmen, die beispielsweise Polynomwege für Fahrerassistenzaufgaben planen. Die Bestimmung eines Polynomwegs, dem das Fahrzeug 110 folgen muss, um eine Fahrerassistenzaufgabe einschließlich Spurwechselmanövern, Tempomat oder Parken zu erfüllen, kann teilweise auf der vorhergesagten Bewegung von Fahrzeugen im Sichtfeld des Farbvideosensors 116 basieren. Das Vorhersagen der Bewegung von Fahrzeugen in einem Sichtfeld eines Farbvideosensors 116 kann ermöglichen, dass die Rechenvorrichtung 115 das Fahrzeug 110 so betreibt, dass eine Kollision oder eine Beinahe-Kollision mit einem anderen Fahrzeug vermieden wird, während Fahrerassistenzaufgaben ausgeführt werden, wie vorstehend in Bezug auf 4 erörtert.
Rechenvorrichtungen, wie etwa die hier erörterten, beinhalten im Allgemeinen jeweils Befehle, die durch eine oder mehrere Rechenvorrichtungen, wie etwa die vorstehend genannten, und zum Ausführen von Blöcken oder Schritten von vorstehend beschriebenen Prozessen ausführbar sind. Die vorstehend erörterten Prozessblöcke können z. B. als computerausführbare Befehle ausgeführt sein.
Computerausführbare Befehle können von Computerprogrammen zusammengestellt oder interpretiert werden, die unter Verwendung einer Vielzahl von Programmiersprachen und/oder -technologien erstellt wurden, einschließlich unter anderem, entweder allein oder in Kombination, Java™, C, C++, Visual Basic, Java Script, Perl, HTML usw. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Befehle, z. B. von einem Speicher, einem computerlesbaren Medium usw., und führt diese Befehle aus, wodurch er ein oder mehrere Prozesse durchführt, einschließlich eines oder mehrerer der hier beschriebenen Prozesse. Derartige Befehle und andere Daten können in Dateien gespeichert und unter Verwendung vielfältiger computerlesbarer Medien übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw., gespeichert sind.
Ein computerlesbares Medium beinhaltet jedes beliebige Medium, das am Bereitstellen von Daten (z. B. Befehlen) beteiligt ist, die durch einen Computer gelesen werden können. Ein derartiges Medium kann viele Formen annehmen, einschließlich, unter anderem, nichtflüchtiger Medien, flüchtiger Medien usw. Nichtflüchtige Medien beinhalten beispielsweise optische oder magnetische Platten und sonstige Dauerspeicher. Flüchtige Medien schließen einen dynamischen Direktzugriffsspeicher (dynamic random access memory - DRAM) ein, der üblicherweise einen Hauptspeicher darstellt. Gängige Formen computerlesbarer Medien beinhalten beispielsweise eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, einen RAM, einen PROM, einen EPROM, einen FLASH-EEPROM, einen beliebiger anderer Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das durch einen Computer ausgelesen werden kann.
Allen in den Ansprüchen verwendeten Ausdrücken soll deren allgemeine und gewöhnliche Bedeutung zukommen, wie sie vom Fachmann aufgefasst wird, es sei denn, es wird ausdrücklich das Gegenteil angegeben. Insbesondere ist die Verwendung der Singularartikel wie etwa „ein“, „eine“, „der“, „die“, „das“ usw. dahingehend auszulegen, dass ein oder mehrere der aufgeführten Elemente genannt werden, es sei denn, ein Patentanspruch enthält ausdrücklich eine gegenteilige Einschränkung.
Der Ausdruck „beispielhaft“ wird hier in dem Sinne verwendet, dass er ein Beispiel angibt; z. B. sollte ein Verweis auf eine „beispielhafte Vorrichtung“ einfach als Bezugnahme auf ein Beispiel für eine Vorrichtung gelesen werden.
Das einen Wert oder ein Ergebnis modifizierende Adverb „annähernd“ bedeutet, dass eine Form, eine Struktur, eine Messung, ein Wert, eine Bestimmung, eine Berechnung usw. von einer/einem genau beschriebenen Geometrie, Weg, Messung, Wert, Bestimmung, Berechnung usw. aufgrund von Mängeln hinsichtlich Materialien, Bearbeitung, Herstellung, Sensormessungen, Berechnungen, Bearbeitungszeit, Kommunikationszeit usw. abweichen kann.
In den Zeichnungen kennzeichnen die gleichen Bezugszeichen die gleichen Elemente. Ferner könnten einige oder alle dieser Elemente geändert werden. Hinsichtlich der hier beschriebenen Medien, Prozesse, Systeme, Verfahren etc. versteht es sich, dass, obwohl die Schritte derartiger Prozesse etc. zwar als gemäß einer bestimmten Abfolge erfolgend beschrieben worden sind, derartige Prozesse durchgeführt werden könnten, wobei die beschriebenen Schritte in einer anderen Reihenfolge als der hierin beschriebenen Reihenfolge durchgeführt werden. Es versteht sich außerdem, dass bestimmte Schritte gleichzeitig durchgeführt, andere Schritte hinzugefügt oder bestimmte hierin beschriebene Schritte weggelassen werden könnten. Anders ausgedrückt, dienen die vorliegenden Beschreibungen von Prozessen der Veranschaulichung bestimmter Ausführungsformen und sollten keinesfalls dahingehend ausgelegt werden, dass sie die beanspruchte Erfindung einschränken.
Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren das Zuschneiden eines Bildes basierend auf einer Breite, Höhe und Mitte eines ersten Fahrzeugs auf dem Bild, um ein Bildfeld zu bestimmen; Schätzen einer 3D-Pose des ersten Fahrzeugs basierend auf der Eingabe des Bildfelds und der Breite, Höhe und Mitte des ersten Fahrzeugs in ein tiefes neuronales Netzwerk; und Betreiben eines zweiten Fahrzeugs basierend auf der geschätzten 3D-Pose.
Gemäß einer Ausführungsform beinhaltet die geschätzte 3D-Pose eine geschätzte 3D-Position, ein geschätztes Rollen, ein geschätztes Nicken und ein geschätztes Gieren des ersten Fahrzeugs in Bezug auf ein 3D-Koordinatensystem.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Bestimmen der Breite, Höhe und Mitte des Bildfelds des ersten Fahrzeugs basierend auf dem Bestimmen von Objekten auf dem Bild basierend auf dem Segmentieren des Bildes.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Bestimmen der Breite, Höhe und Mitte des ersten Fahrzeugs basierend auf dem Bestimmen eines rechteckigen Begrenzungsrahmens auf dem segmentierten Bild.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Bestimmen des Bildfelds basierend auf dem Zuschneiden und Ändern der Größe von Bilddaten aus dem rechteckigen Begrenzungsrahmen, um einer empirisch bestimmten Höhe und Breite zu entsprechen.
Gemäß einer Ausführungsform beinhaltet das tiefe neuronale Netzwerk eine Vielzahl von Faltungsschichten eines neuronalen Netzwerks zum Verarbeiten des zugeschnittenen Bildes, eine erste Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks zum Verarbeiten der Höhe, der Breite und des Standorts des ersten Fahrzeugs und eine zweite Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks, um die Ausgabe von den Faltungsschichten des neuronalen Netzwerks und den ersten vollständig verbundenen Schichten eines neuronalen Netzwerks zu kombinieren, um die geschätzte Pose zu bestimmen.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Bestimmen einer geschätzten 3D-Pose des ersten Fahrzeugs basierend auf der Eingabe der Breite, Höhe und Mitte des Bildfelds des ersten Fahrzeugs in das tiefe neuronale Netzwerk, um ein geschätztes Rollen, ein geschätztes Nicken und ein geschätztes Gieren zu bestimmen.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Bestimmen einer geschätzten 3D-Pose des ersten Fahrzeugs, wobei das tiefe neuronale Netzwerk eine dritte Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks beinhaltet, um die Höhe, Breite und Mitte des ersten Fahrzeugbildfelds zu verarbeiten, um eine 3D-Position zu bestimmen.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Trainieren des tiefen neuronalen Netzwerks, um die 3D-Pose basierend auf einem Bildfeld, einer Breite, einer Höhe und einer Mitte eines ersten Fahrzeugs und einer Grundwahrheit in Bezug auf die 3D-Pose eines ersten Fahrzeugs basierend auf simulierten Bilddaten zu schätzen.
Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das Folgendes aufweist: einen Prozessor; und einen Speicher, wobei der Speicher Anweisungen beinhaltet, die vom Prozessor zu Folgendem auszuführen sind: Zuschneiden eines Bildes basierend auf einer Breite, Höhe und Mitte eines ersten Fahrzeugs auf dem Bild, um ein Bildfeld zu bestimmen; Schätzen einer 3D-Pose des ersten Fahrzeugs basierend auf der Eingabe des Bildfelds und der Breite, Höhe und Mitte des ersten Fahrzeugs in ein tiefes neuronales Netzwerk; und Betreiben eines zweiten Fahrzeugs basierend auf der geschätzten 3D-Pose.
Gemäß einer Ausführungsform beinhaltet die geschätzte Pose eine geschätzte 3D-Position, ein geschätztes Rollen, ein geschätztes Nicken und ein geschätztes Gieren des ersten Fahrzeugs in Bezug auf ein 3D-Koordinatensystem.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Bestimmen der Breite, Höhe und Mitte des Bildfelds des ersten Fahrzeugs basierend auf dem Bestimmen von Objekten auf dem Bild basierend auf dem Segmentieren des Bildes.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Bestimmen der Breite, Höhe und Mitte des ersten Fahrzeugs basierend auf dem Bestimmen eines rechteckigen Begrenzungsrahmens auf dem segmentierten Bild.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Bestimmen des Bildfelds basierend auf dem Zuschneiden und Ändern der Größe von Bilddaten aus dem rechteckigen Begrenzungsrahmen, um einer empirisch bestimmten Höhe und Breite zu entsprechen.
Gemäß einer Ausführungsform beinhaltet das tiefe neuronale Netzwerk eine Vielzahl von Faltungsschichten eines neuronalen Netzwerks zum Verarbeiten des zugeschnittenen Bildes, eine erste Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks zum Verarbeiten der Höhe, der Breite und der Mitte des ersten Fahrzeugs und eine zweite Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks, um die Ausgabe von den Faltungsschichten des neuronalen Netzwerks und den ersten vollständig verbundenen Schichten eines neuronalen Netzwerks zu kombinieren, um die geschätzte Pose zu bestimmen.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Bestimmen einer geschätzten 3D-Pose des ersten Fahrzeugs basierend auf der Eingabe der Breite, Höhe und Mitte des Bildfelds des ersten Fahrzeugs in das tiefe neuronale Netzwerk, um ein geschätztes Rollen, ein geschätztes Nicken und ein geschätztes Gieren zu bestimmen.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Bestimmen einer geschätzten 3D-Pose des ersten Fahrzeugs, wobei das tiefe neuronale Netzwerk eine dritte Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks beinhaltet, um die Höhe, Breite und Mitte des ersten Fahrzeugbildfelds zu verarbeiten, um eine 3D-Position zu bestimmen.
Gemäß einer Ausführungsform ist die vorstehende Erfindung ferner gekennzeichnet durch Trainieren des tiefen neuronalen Netzwerks, um die 3D-Pose basierend auf einem Bildfeld, einer Breite, einer Höhe und einer Mitte eines ersten Fahrzeugs und einer Grundwahrheit in Bezug auf die 3D-Pose eines ersten Fahrzeugs basierend auf simulierten Bilddaten zu schätzen.
Gemäß der vorliegenden Erfindung wird ein System bereitgestellt, das Folgendes aufweist: Mittel zum Steuern der Lenkung, Bremsung und des Antriebsstrangs des zweiten Fahrzeugs; Mittel zum Zuschneiden eines Bildes basierend auf einer Breite, Höhe und Mitte eines ersten Fahrzeugs, um ein Bildfeld zu bestimmen; Schätzen einer 3D-Pose des ersten Fahrzeugs basierend auf der Eingabe des Bildfelds und der Breite, Höhe und Mitte des ersten Fahrzeugs in ein erstes tiefes neuronales Netzwerk; und Betreiben eines zweiten Fahrzeugs basierend auf der geschätzten 3D-Position des ersten Fahrzeugs durch Anweisen der Mittel zum Steuern des Lenkens, Bremsens und Antriebsstrangs des zweiten Fahrzeugs.
Gemäß einer Ausführungsform beinhaltet die geschätzte Pose eine geschätzte 3D-Position, ein geschätztes Rollen, ein geschätztes Nicken und ein geschätztes Gieren des ersten Fahrzeugs in Bezug auf ein 3D-Koordinatensystem.

Claims

Verfahren, umfassend: Zuschneiden eines Bildes basierend auf einer Breite, Höhe und Mitte eines ersten Fahrzeugs auf dem Bild, um ein Bildfeld zu bestimmen; Schätzen einer 3D-Pose des ersten Fahrzeugs basierend auf der Eingabe des Bildfelds und der Breite, Höhe und Mitte des ersten Fahrzeugs in ein tiefes neuronales Netzwerk; und Betreiben eines zweiten Fahrzeugs basierend auf der geschätzten 3D-Pose.
Verfahren nach Anspruch 1, wobei die geschätzte 3D-Pose eine geschätzte 3D-Position, ein geschätztes Rollen, ein geschätztes Nicken und ein geschätztes Gieren des ersten Fahrzeugs in Bezug auf ein 3D-Koordinatensystem beinhaltet.
Verfahren nach Anspruch 1, ferner umfassend das Bestimmen der Breite, Höhe und Mitte des Bildfelds des ersten Fahrzeugs basierend auf dem Bestimmen von Objekten auf dem Bild basierend auf dem Segmentieren des Bildes.
Verfahren nach Anspruch 3, ferner umfassend das Bestimmen der Breite, Höhe und Mitte des ersten Fahrzeugs basierend auf dem Bestimmen eines rechteckigen Begrenzungsrahmens auf dem segmentierten Bild.
Verfahren nach Anspruch 4, ferner umfassend das Bestimmen des Bildfelds basierend auf dem Zuschneiden und Ändern der Größe von Bilddaten aus dem rechteckigen Begrenzungsrahmen, um einer empirisch bestimmten Höhe und Breite zu entsprechen.
Verfahren nach Anspruch 1, wobei das tiefe neuronale Netzwerk eine Vielzahl von Faltungsschichten eines neuronalen Netzwerks zum Verarbeiten des zugeschnittenen Bildes, eine erste Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks zum Verarbeiten der Höhe, der Breite und des Standorts des ersten Fahrzeugs und eine zweite Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks beinhaltet, um die Ausgabe von den Faltungsschichten des neuronalen Netzwerks und den ersten vollständig verbundenen Schichten eines neuronalen Netzwerks zu kombinieren, um die geschätzte Pose zu bestimmen.
Verfahren nach Anspruch 6, ferner umfassend das Bestimmen einer geschätzten 3D-Pose des ersten Fahrzeugs basierend auf der Eingabe der Breite, Höhe und Mitte des Bildfelds des ersten Fahrzeugs in das tiefe neuronale Netzwerk, um ein geschätztes Rollen, ein geschätztes Nicken und ein geschätztes Gieren zu bestimmen.
Verfahren nach Anspruch 7, ferner umfassend das Bestimmen einer geschätzten 3D-Pose des ersten Fahrzeugs, wobei das tiefe neuronale Netzwerk eine dritte Vielzahl von vollständig verbundenen Schichten eines neuronalen Netzwerks beinhaltet, um die Höhe, Breite und Mitte des ersten Fahrzeugbildfelds zu verarbeiten, um eine 3D-Position zu bestimmen.
Verfahren nach Anspruch 1, ferner umfassend das Trainieren des tiefen neuronalen Netzwerks, um die 3D-Pose basierend auf einem Bildfeld, einer Breite, einer Höhe und einer Mitte eines ersten Fahrzeugs und einer Grundwahrheit in Bezug auf die 3D-Pose eines ersten Fahrzeugs basierend auf simulierten Bilddaten zu schätzen.
Verfahren nach Anspruch 9, wobei die Grundwahrheit in Bezug auf die 3D-Pose des ersten Fahrzeugs eine 3D-Position, ein Rollen, ein Nicken und ein Gieren in Bezug auf ein 3D-Koordinatensystem beinhaltet.
Verfahren nach Anspruch 1, ferner umfassend das Trainieren des tiefen neuronalen Netzwerks, um die 3D-Pose basierend auf einem Bildfeld, einer Breite, einer Höhe und einer Mitte eines ersten Fahrzeugs und einer Grundwahrheit in Bezug auf die 3D-Pose eines ersten Fahrzeugs basierend auf aufgezeichneten Bilddaten und einer erfassten Grundwahrheit zu schätzen.
Verfahren nach Anspruch 11, wobei die aufgezeichneten Bilddaten von in dem zweiten Fahrzeug enthaltenen Videosensoren aufgezeichnet werden.
Verfahren nach Anspruch 12, wobei die den aufgezeichneten Bilddaten entsprechende Grundwahrheit basierend auf der Photogrammetrie bestimmt wird.
Verfahren nach Anspruch 13, wobei die Photogrammetrie auf der Bestimmung einer Abmessung eines Fahrzeugs basierend auf der Fahrzeugmarke und dem Fahrzeugmodell basiert.
System, umfassend einen Computer, der programmiert ist, um die Verfahren nach einem der Ansprüche 1-14 auszuführen.