DE102022132671A1

DE102022132671A1 - Einzelne und sensorübergreifende Objektverfolgung unter Verwendung von Merkmalsdeskriptor-Abbildung in autonomen Systemen und Anwendungen

Info

Publication number: DE102022132671A1
Application number: DE102022132671.3A
Authority: DE
Inventors: Mehmet K. Kocamaz; Ke Xu; Sangmin Oh; Junghyun Kwon
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2021-12-15
Filing date: 2022-12-08
Publication date: 2023-06-15
Also published as: US20230186640A1; CN116263688A; JP2023088849A

Abstract

In verschiedenen Beispielen kann die Live-Wahrnehmung von Sensoren eines Fahrzeugs genutzt werden, um Objektverfolgungswege für das Fahrzeug zu erzeugen, um die Navigationssteuerung in Echtzeit oder nahezu in Echtzeit zu erleichtern. Beispielsweise kann ein tiefes neuronales Netzwerk (DNN) trainiert werden, verschiedene Ausgaben zu berechnen - wie Merkmalsdeskriptor-Abbildungen, die Merkmalsdeskriptor-Vektoren enthalten, die den Objekten im Sichtfeld eines Sensors oder mehrerer Sensoren entsprechen. Die Ausgaben können decodiert und/oder anderweitig nachbearbeitet werden, um die Objektverfolgung zu rekonstruieren und vorgeschlagene oder potentielle Wege für die Navigation des Fahrzeugs zu bestimmen.

Description

Hintergrund
Autonome Fahrsysteme und fortschrittliche Fahrerassistenzsysteme (ADAS) können Sensoren wie Kameras, LIDAR-Sensoren, RADAR-Sensoren und/oder Ähnliches verwenden, um verschiedene Aufgaben zu erfüllen - wie Objekterkennung, Objektverfolgung, Spurhaltung, Spurwechsel, Spurzuweisung, Kamerakalibrierung, Abbiegen, Wegplanung und/oder Lokalisierung. Damit autonome und ADAS-Systeme beispielsweise selbstständig und effizient arbeiten können, muss ein Verständnis der Umgebung der Maschine erreicht werden. Dieses Verständnis kann Informationen über die Standorte von Objekten und den Weg oder die Bahn von Objekten umfassen, und diese Informationen können von einer Maschine bei der Wegplanung oder bei Steuerungsentscheidungen verwendet werden - etwa bei der Frage, welchem Weg oder welcher Flugbahn sie folgen soll.
Beispielsweise sind Informationen über die Position und den Weg von Objekten in der Umgebung einer autonomen oder halbautonomen Maschine wichtig, wenn es darum geht, den Weg der Maschine zu planen, Objekten auszuweichen und/oder Steuerungsentscheidungen zu treffen - beispielsweise, wo anzuhalten ist, welcher Weg zu wählen ist, um eine Kreuzung sicher zu überqueren, wo sich andere Fahrzeuge oder Fußgänger befinden könnten und/oder Ähnliches.
Herkömmliche Objektverfolgungssysteme verwenden entweder Bewegungsmodelle oder auf Faltungs-DNN basierende Modelle, die beide stark auf Objektdetektoren beruhen. Beispielsweise verwenden einige Bewegungsmodelle Schlüsselpunkte (wie einen Scale Invariant Feature Transform (SIFT) Algorithmus und/oder einen Kanade-Lucas-Tomasi (KLT) Feature Tracker) innerhalb einer begrenzten Form als Merkmalsdeskriptoren. Der Bewegungsmodell-Ansatz versucht, die aktuellen Positionen der Begrenzungsform anhand früherer Schlüsselpunktpositionen und eines vordefinierten Bewegungsmodells vorherzusagen, und die Verfolgung wird durch die Berechnung des Intersection Over Union (IOU)-Scores zwischen den vom Bewegungsmodell vorhergesagten Positionen der Begrenzungsform und den vom Objektdetektor vorhergesagten Positionen erreicht. Einfache Schlüsselpunkte sind jedoch oft nicht in der Lage, die semantischen Merkmale einzelner Objekte auf hoher Ebene zu erfassen. Mit anderen Worten: Die Objektverfolgung mit Hilfe von Bewegungsmodellen hängt in hohem Maße von der Kontinuität und Sichtbarkeit der Schlüsselpunkte ab. Infolgedessen führen Änderungen des Kamerastandpunkts und Teilbeobachtungen häufig zum Scheitern der Verfolgung.
Ebenso versagen Bewegungsmodelle, wenn Objektbewegungen nicht dem vordefinierten Bewegungsmodell folgen - z. B. treten häufig Verfolgungsfehler auf, wenn Objekte nahe beieinander liegen oder sich in entgegengesetzten Richtungen kreuzen. Wenn beispielsweise eine Gruppe von Personen eine Straße in entgegengesetzte Richtungen überquert, können die Bewegungsmodelle den Weg der einzelnen Personen nicht genau verfolgen, da einige Akteure andere verdecken. Diese Bewegungsmodelle stützen sich häufig auf manuell eingestellte Schwellenwerte, wie z. B. die Mindestanzahl von Schlüsselpunkten und Vertrauensschwellen, die für verschiedene Straßenbedingungen und Szenarien neu eingestellt werden müssen.
Neuere Ansätze, die auf Faltungs-DNN-basierten Modellen basieren, nutzen die Merkmalskodierungsleistung des DNN, um Objekte zu verfolgen. Im Allgemeinen werden diese DNN-basierten Modelle zunächst als Teil einer Objekterkennungspipeline trainiert, und dann wird ein handelsüblicher Abgleich- oder Assoziationsalgorithmus für die Verfolgung nach der Erkennung verwendet. Allerdings sind weder die DNN-Merkmale noch der Assoziationsalgorithmus für die Objektverfolgung optimiert, was häufig zu Verwechslungen bei der Objektidentifizierung führt - wenn sich beispielsweise die Wege zweier Objekte kreuzen, kann die Verfolgung jeden Akteur mit dem anderen verwechseln. Außerdem ist das Extrahieren und Zwischenspeichern von DNN-Merkmalen für jedes erkannte Objekt sehr rechenintensiv und daher für die Verfolgung einer großen Anzahl von Objekten nicht geeignet.
Zusammenfassung
Ausführungsformen der vorliegenden Offenbarung betreffen die Objektverfolgung unter Verwendung von gelernten Merkmalsvektoren für Einzel- und Multisensoranwendungen. Es werden Systeme und Verfahren offenbart, die Ausgaben von verschiedenen Sensoren einer Maschine nutzen, um Objekte im Blickfeld eines einzelnen Sensors oder über mehrere Sensoren hinweg unter Verwendung eines vektorbasierten Merkmalsdeskriptors zu verfolgen. Darüber hinaus sind Systeme und Verfahren offenbart, die die Ausgaben verschiedener Sensoren nutzen, um eine Maschine mit künstlicher Intelligenz unter Verwendung von Vektor-Triplets zu trainieren. Beispielsweise kann im Gegensatz zu herkömmlichen Systemen, wie den oben beschriebenen, ein DNN direkt für die Objektverfolgung mit Merkmalsdeskriptoren auf Pixelebene trainiert werden. Infolgedessen kann das DNN-basierte Modell Objekte innerhalb eines einzelnen Sensors - oder über mehrere Sensoren zur gleichen Zeit - verfolgen, selbst wenn das Objekt nur teilweise beobachtet wird, verdeckt ist, Wege kreuzt und/oder ähnliches. Die Objektverfolgungsdaten aus der Einzelsensorverfolgung und/oder der sensorübergreifenden Verfolgung können von einer oder mehreren nachgelagerten Komponenten der Ego-Maschine verwendet werden, wie z. B. einem Weltmodellmanager, einem Wegplaner, einer Steuerkomponente, einer Lokalisierungskomponente, einer Hindernisvermeidungskomponente, einer Betätigungskomponente und/oder dergleichen, um eine oder mehrere Operationen zur Steuerung der Ego-Maschine durch eine Umgebung durchzuführen.
Figurenliste
Die vorliegenden Systeme und Verfahren zum Erlernen von Merkmalsvektoren für die Objektverfolgung mit einem oder mehreren Sensoren werden im Folgenden unter Bezugnahme auf die beigefügten Zeichnungsfiguren detailliert beschrieben:

1 zeigt ein Datenflussdiagramm, das einen beispielhaften Trainingsprozess für das Training von maschinellen Lernmodellen zur Berechnung von Merkmalsdeskriptor-Abbildungen gemäß einigen Ausführungsformen der vorliegenden Offenbarung veranschaulicht;
2A zeigt eine beispielhafte Visualisierung einer Instanz von Sensordaten gemäß einigen Ausführungsformen der vorliegenden Offenbarung;
2B zeigt eine beispielhafte Visualisierung von Annotationen, die verwendet werden, um Ground-Truth-Daten zu erzeugen, die einer Instanz von Sensordaten entsprechen, gemäß einigen Ausführungsformen der vorliegenden Offenbarung;
2C-2D zeigen beispielhafte Merkmalsdeskriptor-Vektorabbildungen, die den Trainingsdaten für ein neuronales Netz entsprechen, gemäß einigen Ausführungsformen der vorliegenden Offenbarung;
3A-3B zeigen beispielsweise positive, negative und Ankerproben von Merkmalsdeskriptor-Vektorabbildungen gemäß einigen Ausführungsformen der vorliegenden Offenbarung;
4A-4B zeigen Flussdiagramme von beispielhaften Verfahren zum Trainieren eines maschinellen Lernmodells, um ein Objekt zu verfolgen, gemäß einigen Ausführungsformen der vorliegenden Offenbarung;
5 zeigt ein Datenflussdiagramm, das einen beispielhaften Prozess zur Verfolgung von Objekten unter Verwendung von maschinellen Lernmodellen gemäß einigen Ausführungsformen der vorliegenden Offenbarung veranschaulicht;
6A-6C zeigen beispielhafte Merkmalsdeskriptor-Abbildungen gemäß einigen Ausführungsformen der vorliegenden Offenbarung;
7 zeigt ein Flussdiagramm eines beispielhaften Verfahrens zur Verfolgung von Objekten unter Verwendung eines maschinellen Lernmodells gemäß einigen Ausführungsformen der vorliegenden Offenbarung;
8A ist eine Darstellen eines beispielhaften autonomen Fahrzeugs gemäß einigen Ausführungsformen der vorliegenden Offenbarung;
8B ist ein Beispiel für Kamerapositionen und Sichtfelder für das autonome Fahrzeug der 8A, gemäß einigen Ausführungsformen der vorliegenden Offenbarung;
8C ist ein Blockdiagramm einer beispielhaften Systemarchitektur für das beispielhafte autonome Fahrzeug von 8A, gemäß einigen Ausführungsformen der vorliegenden Offenbarung;
8D ist ein Systemdiagramm für die Kommunikation zwischen Cloudbasierten Server(n) und dem autonomen Fahrzeug der 8A, gemäß einigen Ausführungsformen der vorliegenden Offenbarung;
9 ist ein Blockdiagramm einer beispielhaften Rechenvorrichtung, die zur Verwendung beim Implementieren einiger Ausführungsformen der vorliegenden Offenbarung geeignet ist; und
10 ist ein Blockdiagramm eines beispielhaften Datenzentrums, das zur Verwendung beim Implementieren einiger Ausführungsformen der vorliegenden Offenbarung geeignet ist.

Detaillierte Beschreibung
Es werden Systeme und Verfahren offenbart, die sich auf gelernte Merkmalsvektoren für die Objektverfolgung mit einem oder mehreren Sensoren beziehen. Obwohl die vorliegende Offenbarung in Bezug auf ein beispielhaftes autonomes Fahrzeug 800 (hier alternativ als „Fahrzeug 800“ oder „Ego-Fahrzeug 800“ bezeichnet, von dem ein Beispiel in Bezug auf die 8A-8D beschrieben ist), ist dies nicht als Einschränkung zu verstehen. Beispielsweise können die hierin beschriebenen Systeme und Verfahren ohne Einschränkung von nicht-autonomen Fahrzeugen, halbautonomen Fahrzeugen (z. B. in einem oder mehreren fortschrittlichen Fahrerassistenzsystemen (ADAS)), gelenkten und ungelenkten Robotern oder Roboterplattformen, Lagerfahrzeugen, Geländefahrzeugen, Fahrzeugen, die mit einem oder mehreren Anhängern gekoppelt sind, Luftschiffen, Booten, Shuttles, Notarzteinsatzfahrzeugen, Motorrädern, elektrischen oder motorisierten Fahrrädern, Flugzeugen, Baufahrzeugen, Unterwasserfahrzeugen, Drohnen und/oder anderen Fahrzeugtypen verwendet werden. Obwohl die vorliegende Offenbarung in Bezug auf die Verfolgung von Objekten über mehrere Sensoren und/oder über die Zeit beschrieben wird, ist dies nicht als Einschränkung zu verstehen, und die hierin beschriebenen Systeme und Verfahren können in den Bereichen erweiterte Realität, virtuelle Realität, gemischte Realität, Robotik, Sicherheit und Überwachung, autonome oder halbautonome Maschinenanwendungen und/oder in jedem anderen Technologiebereich verwendet werden, in dem die Verfolgung von Objekten über mehrere Sensoren und/oder über die Zeit verwendet werden kann.
Wie hier beschrieben und im Gegensatz zu herkömmlichen Ansätzen der Objektverfolgung bieten die aktuellen Systeme und Methoden Techniken zur Verfolgung eines Objekts unter Verwendung von Ausgaben von Sensoren (z. B. Kameras, RADAR, Sensoren, LIDAR usw.) einer Maschine in Echtzeit oder nahezu in Echtzeit. Um dies zu erreichen, verwendet das System Ground-Truth-Vektor-Triplets zum Trainieren des DNN. Im Allgemeinen werden dem DNN-Trainingsdaten als Eingabe zur Verfügung gestellt, und das DNN verwendet die Trainingsdaten, um Deskriptor-Abbildungen zu erzeugen, die eindimensionale (1D) Vektormerkmaldeskriptoren zumindest für Pixel enthalten, die mit Objekten verbunden sind. Die Trainingsdaten können so ausgewählt werden, dass sie ein Multivektor-Triplet enthalten, einschließlich eines Ankervektors (z. B. verbunden mit einem ersten Pixel, von dem bekannt ist, dass es einem Objekt entspricht), eines positiven Vektors (z. B. verbunden mit einem zweiten Pixel, von dem bekannt ist, dass es dem Objekt entspricht) und eines negativen Vektors (z. B. verbunden mit einem dritten Pixel, von dem bekannt ist, dass es einem anderen Objekt als dem Objekt entspricht). Wenn das DNN die Ausgangsmerkmalsvektoren unter Verwendung der Trainingsdaten berechnet, können diese bekannten Anker-, Positiv- und Negativvektoren als Grundwahrheit verwendet werden, um den DNN so zu trainieren, dass der Abstand zwischen dem Positivvektor und dem Ankervektor minimiert und der Abstand zwischen dem Ankervektor und dem Negativvektor maximiert wird. Auf diese Weise kann das DNN darauf trainiert werden, ähnliche oder identische Merkmalsvektor-Deskriptoren für ein und dasselbe Objekt und unterschiedliche Merkmalsvektoren für verschiedene Objekte zu berechnen.
Insbesondere können die Ground-Truth-Vektor-Triplets mit Hilfe eines Objekterkennungsalgorithmus ausgewählt werden, der Objekte in einem Bild (oder einer anderen Sensordatendarstellung des Raums) mit Begrenzungsformen markiert. In einigen Fällen werden Spuren, die kürzer als eine vorgegebene Mindestspurlänge sind, entfernt. Die vorgegebene Mindestspurlänge kann basierend auf der Objektklasse (z. B. Fahrzeug oder Fußgänger) variieren. Darüber hinaus können in einigen Fällen die letzten 30 Bilder einer Datensequenz (z. B. eines Videos) gefiltert werden, um die Genauigkeit der Ground-Truth-Daten zu verbessern, indem Fehler bei der Objekterkennung eliminiert werden. Um den Trainingsaufwand zu verringern, können in einigen Fällen Datensequenzen, die länger als ein vorgegebener Schwellenwert sind, alle n Bilder abgetastet werden, um die Länge der Datensequenz zu reduzieren. Bahn-IDs können dann jeder Begrenzungsform zugewiesen werden - z. B. kann jedem Pixel innerhalb derselben Begrenzungsform derselbe Bahn-ID-Wert zugewiesen werden, und Hintergrundpixeln (z. B. Pixeln, die nicht von einer Begrenzungsform abgedeckt werden) können Werte von Null (0) zugewiesen werden. Während des Trainings werden alle Merkmalsvektoren innerhalb einer bestimmten Begrenzungsform (z. B. mit der gleichen Bahn-ID) als positive Muster betrachtet, während alle Merkmalsvektoren, die zu anderen Objekten gehören, als negative Muster gelten.
Vektor-Triplet können aus Merkmalsdeskriptor-Abbildungen über Raum und/oder Zeit erstellt werden. Beispielsweise können bei der Verfolgung mit einem einzigen Sensor mindestens zwei Deskriptor-Abbildungen (Deskriptor-Abbildung 1 bei t_1-k und Deskriptor-Abbildung 2 bei t₁) verwendet werden, um ein Vektor-Triplet zu erstellen. Die positive Stichprobe kann ein oder mehrere Vektoren der positiven Stichprobe (z. B. Vektoren innerhalb einer Begrenzungsform mit derselben Bahn-ID) aus Deskriptor-Abbildung 1 sein, und die negative Stichprobe kann ein oder mehrere Vektoren der negativen Stichprobe (z. B. Vektoren innerhalb einer anderen Begrenzungsform) aus Deskriptor-Abbildung 1 sein. Der Anker kann ein oder mehrere Vektoren aus dem positiven Muster der Deskriptor-Abbildung 2 sein.
In ähnlicher Weise können Vektor-Triplet für das Training des DNN für die sensorübergreifende Verfolgung erzeugt werden - z. B. im selben Zeitschritt. In einem solchen Beispiel kann die positive Stichprobe ein oder mehrere Vektoren aus der positiven Stichprobe (z. B. Vektoren innerhalb einer Begrenzungsform mit der gleichen Bahn-ID) aus einer ersten Sensor-Deskriptor-Abbildung sein, und die negative Stichprobe kann ein oder mehrere Vektoren aus der negativen Stichprobe (z. B. Vektoren innerhalb einer anderen Begrenzungsform) aus der ersten Sensor-Deskriptor-Abbildung sein. Der Anker kann ein oder mehrere Vektoren aus dem positiven Muster einer zweiten Sensordeskriptor-Abbildung sein.
Für ein gegebenes Triplet kann eine Triplet-Verlustfunktion verwendet werden, um den Abstand zwischen dem Anker-Merkmalsdeskriptor und dem positiven Merkmalsdeskriptor zu minimieren (z. B. den Abstand „d“ zwischen Anker „a“ und positivem „p“). Anders ausgedrückt, der Triplet-Verlust minimiert d (a, p). In ähnlicher Weise kann die Triplet-Verlustfunktion den Abstand zwischen dem Anker und dem Negativ minimieren (z. B. minimiert d (a, n)). Diese Verlustfunktion kann somit dazu führen, dass das DNN nützliche Merkmalsdeskriptoren im Einbettungsraum lernt, so dass Merkmale desselben Objekts über Raum und/oder Zeit hinweg näher beieinander liegen, während Merkmale unterschiedlicher Objekte weiter entfernt sind. Um zu verhindern, dass das DNN triviale (alle Nullen) Merkmalsvektoren erlernt, kann ein Toleranzwert zum maximalen Randverlust hinzugefügt werden. Darüber hinaus kann der Triplet-Verlust auf Pixelebene berechnet werden, damit das DNN auch dann nützliche Merkmalsdeskriptoren lernt, wenn die Grunddaten Objekte enthalten, die teilweise verdeckt sind.
Vorteilhaft ist, dass die Verwendung von Vektor-Triplets das DNN-Training unter Verwendung mehrerer Mining-Optionen erleichtert. Im Allgemeinen gibt es drei Arten von Triplets: leichte Triplets, harte Triplets und halbharte Triplets. In einer oder mehreren Ausführungsformen haben einfache Triplets einen Triplet-Verlust von 0, harte Triplets sind Triplets, bei denen die negative Probe näher am Anker liegt als die positive Probe, und halbharte Triplets sind Triplets, bei denen die negative Probe nicht näher am Anker liegt als die positive, aber dennoch einen positiven Verlust aufweist. Um das Training zu beschleunigen und die Unterscheidungskraft des DNN zu erhöhen, können beim Training nur halbharte und harte Triplets verwendet werden. In einigen Aspekten können jedoch auch leichte, halbharte und harte Triplets beim Training verwendet werden. Darüber hinaus erleichtert die Verwendung von Vektor-Triplets das Epochen- oder Batch-Mining. Beispielsweise können die Vektoren und Begrenzungsformen für den gesamten Trainingssatz berechnet werden, bevor das DNN auf den epochalen Triplets trainiert wird. Alternativ kann auch ein Batch-All- oder ein Batch-Hard-Ansatz für das Triplet-Mining implementiert werden. Beim Batch-All-Triplet-Mining werden alle gültigen Triplets für einen bestimmten Batch ausgewählt, der Verlust bei den harten und halbharten Triplets wird gemittelt, und die einfachen Triplets werden ignoriert. Bei der Suche nach harten Triplets werden für jeden Anker das härteste positive und das härteste negative Triplet aus dem Stapel ausgewählt, und die Verlustfunktion für das härteste Triplet wird nur für dieses Triplet berechnet.
Das Training eines DNN zur Verfolgung von Objekten mit Hilfe von Vektor-Triplets erleichtert die Integration des Einsatzes mit minimalem Speicherbedarf. Beispielsweise kann das trainierte oder eingesetzte DNN in herkömmliche Ego-Maschinensysteme mit minimalen nachgelagerten Auswirkungen integriert werden, indem eine Konvertierung von der Pixelebene in die Ebene der begrenzten Formen verwendet wird. Beispielsweise können während des Einsatzes die Merkmalsdeskriptoren auf Pixelebene in Merkmalsdeskriptoren auf Ebene der Begrenzungsform umgewandelt werden, indem der Durchschnitt aller Merkmalsdeskriptoren auf Pixelebene innerhalb einer bestimmten Begrenzungsform gebildet wird. Der Durchschnittswert kann dann als Merkmalsdeskriptor auf der Ebene der Begrenzungsform zugewiesen werden, und dieser Merkmalsdeskriptor auf der Ebene der Begrenzungsform kann für alle Bilder (z. B. von demselben Sensor oder von verschiedenen Sensoren) verwendet werden, um ein entsprechendes Objekt zu verfolgen.
Vergleichsweise einfache Nachbearbeitungsschritte können die Objektverfolgung mit einem oder mehreren Sensoren erleichtern. Für Anwendungen bei der Verfolgung von Objekten mit nur einem Sensor verarbeitet das DNN aufeinanderfolgende Bilder (z. B. tx, tx-1, tx-2, tx-3 usw.) getrennt und erzeugt die Merkmalsdeskriptoren auf der Ebene der Begrenzungsformen für die erkannten Objekte wie oben beschrieben. Die Objektassoziationswerte können zwischen jedem Begrenzungsform-Merkmalsdeskriptor berechnet werden, und die Unterschiede in den Merkmalsdeskriptoren können berechnet werden, um ein und dasselbe Objekt über mehrere Bilder hinweg zu identifizieren. Beispielsweise kann, wenn der Abstand zwischen den Merkmalsdeskriptoren kleiner als ein Schwellenwert ist, bestimmt werden, dass die Begrenzungsformen in den verschiedenen Bildern demselben Objekt entsprechen. In einigen Aspekten ist der Objektassoziationswert der Kosinusabstand zwischen jedem Begrenzungsform-Merkmaldeskriptor. In einigen Ausführungsformen kann für die Verfolgung die beste Übereinstimmung mit einem KNN-Algorithmus gefunden werden.
Bezugnehmend auf 1 ist 1 ein beispielhafter Datenfluss, der einen beispielhaften Prozess 100 für das Training eines DNN zur Verfolgung von Objekten unter Verwendung von Ausgaben von einem oder mehreren Sensoren einer Maschine gemäß einigen Ausführungsformen der vorliegenden Offenbarung illustriert. Es sollte verstanden werden, dass diese und andere hier beschriebene Anordnungen nur als Beispiele dargestellt werden. Andere Anordnungen und Elemente (z. B. Maschinen, Schnittstellen, Funktionen, Anordnungen, Gruppierungen von Funktionen usw.) können zusätzlich zu oder anstelle der gezeigten verwendet werden, und einige Elemente können ganz weggelassen werden. Außerdem sind viele der hier beschriebenen Elemente funktionale Einheiten, die als einzelne oder verteilte Komponenten oder in Verbindung mit anderen Komponenten und in jeder geeigneten Kombination und an jedem geeigneten Ort implementiert werden können. Verschiedene hier beschriebene Funktionen, die von Einheiten ausgeführt werden, können von Hardware, Firmware und/oder Software ausgeführt werden. Beispielsweise können verschiedene Funktionen von einem Prozessor ausgeführt werden, der im Speicher gespeicherte Anweisungen ausführt. In einigen Ausführungsformen können die hierin beschriebenen Systeme, Methoden und Prozesse unter Verwendung ähnlicher Komponenten, Merkmale und/oder Funktionen wie die des autonomen Beispielfahrzeugs 800 der 8A-8D, dem Beispiel-Rechengerät 900 von 9 und/oder dem Beispiel-Datenzentrum 1000 von 10.
Auf einer hohen Ebene kann der Prozess 100 ein oder mehrere maschinelle(s) Lernmodell(e) 104 beinhalten, die eine oder mehrere Eingaben, wie z. B. Sensordaten 102, empfangen und eine oder mehrere Ausgaben, wie z. B. eine Ausgabe (z. B. Merkmalsdeskriptor-Abbildung(en) 106), erzeugen. Im Zusammenhang mit dem Training können die Sensordaten 102 als Trainingsdaten bezeichnet werden. Obwohl die Sensordaten 102 in erster Linie in Bezug auf Bilddaten erörtert werden, die für Bilder repräsentativ sind, soll dies nicht einschränkend sein, und die Sensordaten 102 können andere Arten von Sensordaten umfassen, die für die Objekterkennung und/oder Objektverfolgung verwendet werden, wie z.B. LIDAR-Daten, SONAR-Daten, RADAR-Daten und/oder dergleichen - z.B. wie sie von einem oder mehreren Sensoren des Fahrzeugs 800 erzeugt werden, wie in Bezug auf die Figuren SA-8D beschrieben.
Der Prozess 100 kann die Erzeugung und/oder den Empfang von Sensordaten 102 von einem oder mehreren Sensoren umfassen. Die Sensordaten 102 können, als nicht einschränkendes Beispiel, von einem oder mehreren Sensoren einer Maschine (z.B. Fahrzeug 800 der 8A-8D) empfangen werden. Die Sensordaten 102 können von der Ego-Maschine 800 und innerhalb des Prozesses 100 verwendet werden, um Objekte über Frames und/oder über Sensoren hinweg zu verfolgen. Die Sensordaten 102 können ohne Einschränkung Sensordaten 102 von beliebigen Sensoren des Fahrzeugs umfassen, beispielsweise und unter Bezugnahme auf die 8A-8C, GNSS-Sensor(en) 858 (z.B. Global Positioning System-Sensor(en)), RADAR-Sensor(en) 860, Ultraschallsensor(en) 862, LIDAR-Sensor(en) 864, IMU-Sensor(en) 866 (z.B., Beschleunigungsmesser, Gyroskop(e), Magnetkompass(e), Magnetometer usw.), Mikrofon(e) 876, Stereokamera(s) 868, Weitwinkelkamera(s) 870 (z. B., Fischaugenkameras), Infrarotkamera(s) 872, Surround-Kamera(s) 874 (z. B. 360-Grad-Kameras), Fern- und/oder Mittelbereichskamera(s) 878, Geschwindigkeitssensor(en) 844 (z. B. zur Messung der Geschwindigkeit des Fahrzeugs 800) und/oder andere Sensortypen. Als weiteres Beispiel können die Sensordaten 102 virtuelle Sensordaten enthalten, die von einer beliebigen Anzahl von Sensoren eines virtuellen Fahrzeugs oder eines anderen virtuellen Objekts erzeugt werden. In einem solchen Beispiel können die virtuellen Sensoren einem virtuellen Fahrzeug oder einem anderen virtuellen Objekt in einer simulierten Umgebung entsprechen (z. B. zum Testen, Trainieren und/oder Validieren der Leistung eines neuronalen Netzes), und die virtuellen Sensordaten können Sensordaten darstellen, die von den virtuellen Sensoren in der simulierten oder virtuellen Umgebung erfasst werden. Durch die Verwendung der virtuellen Sensordaten kann das hier beschriebene maschinelle Lernmodell bzw. können die hier beschriebenen maschinellen Lernmodelle 104 unter Verwendung simulierter Daten in einer simulierten Umgebung getestet, trainiert und/oder validiert werden, was das Testen extremerer Szenarien außerhalb einer realen Umgebung ermöglichen kann, in der solche Tests weniger sicher sein können.
In einigen Ausführungsformen können die Sensordaten 102 Bilddaten, die ein oder mehrere Bilder darstellen, Bilddaten, die ein Video darstellen (z. B. Schnappschüsse von Videos), und/oder Sensordaten, die Darstellungen von Sensorfeldern von Sensoren darstellen (z. B. Tiefenabbildungen für LIDAR-Sensoren, ein Wertediagramm für Ultraschallsensoren usw.), enthalten. Wenn die Sensordaten 102 Bilddaten enthalten, kann jede Art von Bilddatenformat verwendet werden, beispielsweise und ohne Einschränkung komprimierte Bilder wie in den Formaten Joint Photographic Experts Group (JPEG) oder Luminanz/Chrominanz (YUV), komprimierte Bilder als Frames, die aus einem komprimierten Videoformat wie H.264/Advanced Video Coding (AVC) oder H.265/High Efficiency Video Coding (HEVC), Rohbilder, die beispielsweise von einem Red Clear Blue (RCCB), Red Clear (RCCC) oder einer anderen Art von Bildsensor stammen, und/oder andere Formate. Darüber hinaus können die Sensordaten 102 in einigen Beispielen innerhalb des Prozesses 100 ohne jegliche Vorverarbeitung verwendet werden (z. B. in einem rohen oder erfassten Format), während die Sensordaten 102 in anderen Beispielen einer Vorverarbeitung unterzogen werden können (z. B. Rauschausgleich, Demosaicing, Skalierung, Zuschneiden, Vergrößerung, Weißabgleich, Tonkurvenanpassung usw., z. B. unter Verwendung eines Sensordaten-Vorprozessors (nicht gezeigt)). Wie hier verwendet, können sich die Sensordaten 102 auf unverarbeitete Sensordaten, vorverarbeitete Sensordaten oder eine Kombination davon beziehen.
Die für das Training verwendeten Sensordaten 102 können Originalbilder (z. B. wie von einem oder mehreren Bildsensoren erfasst), abwärts abgetastete Bilder, aufwärts abgetastete Bilder, beschnittene Bilder oder Bilder mit Interessenbereich (ROI), anderweitig vergrößerte Bilder und/oder eine Kombination davon umfassen. Das/die maschinelle(n) Lernmodell(e) 104 kann/können unter Verwendung der Bilder (und/oder anderer Sensordaten 102) sowie der entsprechenden Ground-Truth-Daten (z. B. Bahn-ID-Abbildung(en) 118) trainiert werden. Die Ground-Truth-Daten (z. B. Bahn-ID-Abbildung(en) 118) können Annotationen, Beschriftungen, Masken, Abbildungen und/oder Ähnliches enthalten. Beispielsweise können in einigen Ausführungsformen die Ground-Truth-Daten Spurenabbildungen enthalten. Ein Codierer 116 kann die Objekterkennung 108 und Annotationen verwenden, um die Ground-Truth-Daten zu kodieren (z. B. Bahn-ID-Abbildung(en) 120). In einigen Ausführungsformen kann die Objekterkennung 108 Begrenzungsform(en) 110 und Bahn-ID-Kennzeichnung(en) 114 enthalten.
In Bezug auf die Objekterkennung 108 und die Annotationen 112 können die Objekterkennung 108 und die Annotationen 112 in einem Zeichenprogramm (z. B. einem Annotationsprogramm), einem CAD-Programm (Computer Aided Design), einem Kennzeichnungsprogramm, einem anderen Programmtyp, der für die Erzeugung der Annotationen 112 und/oder anderer Daten der Grundwahrheit (z. B. Bahn-ID-Abbildung(en) 118) geeignet ist, erzeugt werden und/oder in einigen Beispielen von Hand gezeichnet werden. In jedem Beispiel können die Objekterkennung 108, die Annotationen 112 und/oder die Ground-Truth-Daten (z. B. Bahn-ID-Abbildung(en) 118) synthetisch erzeugt (z. B. aus Computermodellen oder Renderings erzeugt), real erzeugt (z. B. aus realen Daten entworfen und erzeugt), maschinell automatisiert (z. B. unter Verwendung von Objekterkennung und - verfolgung, um Merkmale aus Daten zu extrahieren und dann Beschriftungen zu erzeugen), von Menschen beschriftet (z. B. legt der Kennzeichner oder Annotationsexperte die Position der Beschriftungen fest) und/oder eine Kombination davon sein. Die Objekterkennung 108 kann die Kennzeichnung von Objekten mit einer oder mehreren Begrenzungsformen 110 umfassen, die den interessierenden Objekten in den Sensordaten 102 entsprechen. In einigen Beispielen können die Begrenzungsformen durch einen Satz von Liniensegmenten definiert werden, die die Pixel umgeben, die einem Objekt in den Sensordaten 102 entsprechen. Die Liniensegmente können gerade oder gekrümmt sein. Die Bahn-ID-Kennzeichnung(en) 114 kann/können ein Wert sein, der die Identifizierung zwischen jedem gekennzeichneten Element und jedem anderen gekennzeichneten Element erleichtert. Beispielsweise kann ein Bahn-ID-Etikett 114 für jedes Objekt, jede Begrenzungsform und/oder jedes Pixel innerhalb einer Begrenzungsform in den Sensordaten erzeugt werden. In einigen Ausführungsformen wird das Bahn-ID-Label für ein bestimmtes Objekt der Begrenzungsform zugewiesen, die dem Objekt entspricht. In ähnlicher Weise kann die Bahn-ID-Bezeichnung für eine bestimmte Begrenzungsform in einigen Ausführungsformen jedem Pixel innerhalb der Begrenzungsform zugewiesen werden. Darüber hinaus kann ein Standard- oder Null-Bahn-ID-Label Bereiche der Sensordaten definieren, die nicht mit einem Objekt verbunden sind. Beispielsweise können Hintergrundmerkmale in den Sensordaten mit einem Bahn-ID-Label von Null (0) gekennzeichnet werden.
In den 2A-2D sind beispielhafte Annotationen dargestellt, die auf Sensordaten zur Verwendung bei der Erzeugung von Grundwahrheiten für das Training eines maschinellen Lernmodells zur Verfolgung von Objekten gemäß einigen Ausführungsformen der vorliegenden Offenbarung angewendet werden. 2A veranschaulicht beispielsweise ein Bild 200A, das verwendet werden kann, um Ground-Truth-Daten gemäß dem Trainingsverfahren 100 von 1 zu erzeugen. 2B veranschaulicht ein Beispiel für Annotationen, die auf Sensordaten angewendet werden, um ein maschinelles Lernmodell zur Verfolgung von Objekten zu trainieren. Obwohl die Bilder 200A und 200B als unterschiedliche Bilder dargestellt sind, wird diese Unterscheidung vorgenommen, um die Beschreibung besonders relevanter Merkmale zu erleichtern. Mit anderen Worten: Die in Bild 200B dargestellten Annotationen (z. B. Begrenzungsformen) können in einigen Aspekten auch in Bild 200A enthalten sein.
Objekte in einem Bild (z. B. die Objekte 202, 204, 206, 208 und 210) können mit Begrenzungsformen (z. B. die Begrenzungsformen 222, 224, 226, 228 und 230 in 2B) und Bahn-ID-Etiketten (z. B. die Bahn-ID-Etiketten 232, 234, 236, 238 und 240) versehen werden. Beispielsweise kann das Objekt 202 durch eine Begrenzungsform 222 begrenzt und mit der Bahn-ID 232 gekennzeichnet sein. In ähnlicher Weise kann das Objekt 204 mit einer Begrenzungsform 224 versehen und mit der Bahn-ID 234 beschriftet sein, das Objekt 206 kann mit einer Begrenzungsform 226 versehen und mit der Bahn-ID 236 beschriftet sein, das Objekt 208 kann mit einer Begrenzungsform 228 versehen und mit der Bahn-ID 236 beschriftet sein, das Objekt 208 kann mit einer Begrenzungsform 228 versehen und mit der Bahn-ID 238 beschriftet sein, und das Objekt 210 kann mit einer Begrenzungsform 230 versehen und mit der Bahn-ID 240 beschriftet sein. Zusätzlich können in einigen Aspekten die Begrenzungsformen, Objekte und/oder Pixel mit Objektklassifizierungen (z. B. Fahrzeug, Fußgänger, Radfahrer usw.) versehen werden.
Wiederum Bezug nehmend auf 1 kann der Encoder 116 so konfiguriert sein, dass er die Ground-Truth-informationen, die der Bahn eines Objekts durch Zeit und/oder Raum entsprechen, unter Verwendung der Anmerkung(en) 110 kodiert. Beispielsweise kann, wie hierin beschrieben, ein Satz von Sensordaten mit Annotationen 112 versehen werden. Nach der Beschriftung kann der Datensatz vom Codierer kodiert werden, um die Ground-Truth-Daten (z. B. Bahn-ID-Abbildung(en) 118) zu erzeugen, die Bahn-ID-Abbildung(en) 118 enthalten können. Da die räumliche Auflösung der Sensordaten 102, die auf das/die maschinelle(n) Lernmodell(e) 104 angewendet werden, unterschiedlich sein kann - z. B. größer als, kleiner als usw. - als die räumliche Ausgabeauflösung, die den Vorhersagen des maschinellen Lernmodells 104 entspricht, können die Ground-Truth-Informationen in verschiedenen Formaten kodiert werden. Beispielsweise können Objekte, die während der Annotation identifiziert werden, durch eine Datensequenz (z. B. einen Satz von Sensordaten) verfolgt werden, um eine Objektspurlänge (z. B. die Anzahl der Frames) für ein annotiertes Objekt zu bestimmen. Basierend auf der Objektspur kann eine Datensequenz während der Kodierung gefiltert werden. Beispielsweise werden Objektspuren, die kürzer als eine vorgegebene Mindestspurlänge sind, während der Kodierung entfernt. Die vorgegebene Mindestspurlänge kann basierend auf der Objektklasse (z. B. Fahrzeug oder Fußgänger) variieren.
Zusätzlich kann während der Kodierung eine Filterung und/oder Abtastung der Sensordaten 102 erfolgen. Beispielsweise können die letzten 30 Bilder einer Datensequenz (z. B. eines Videos) gefiltert werden, um die Genauigkeit der Ground-Truth-Daten durch die Beseitigung von Objekterkennungsfehlern zu verbessern. Beispielsweise können zur Verringerung des Trainingsaufwands Datenfolgen, die länger als ein vorgegebener Schwellenwert sind, alle n Bilder abgetastet werden, um die Länge der Datenfolge zu reduzieren.
Darüber hinaus kann jedes Pixel innerhalb derselben Begrenzungsform mit einer Bahn-ID kodiert werden, die der Bahn-ID der Begrenzungsform entspricht. In 2C und 2D sind beispielsweise zwei kodierte Beispiele von Bildern dargestellt, die zum Trainieren eines DNN verwendet werden können. In einigen Aspekten können Bild 200C und Bild 200D Bilder darstellen, die von demselben Sensor zu unterschiedlichen Zeiten (z. B. tx, tx-1) aufgenommen werden. In einigen Aspekten können Bild 200C und Bild 200D Bilder darstellen, die von verschiedenen Sensoren zur gleichen Zeit aufgenommen werden (z. B. Sensor 1 und Sensor 2).
2C zeigt ein erstes kodiertes Bild 200C mit erkannten Objekten, die durch Begrenzungsformen 242 und 244 begrenzt sind. Wie oben beschrieben, können die Begrenzungsformen 242 und 244 jeweils eine Bahn-ID-Anmerkung aufweisen. Während der Kodierung kann jedes Pixel (z. B. v1, v2, v9, v10, v17, v18) innerhalb der Begrenzungsform 242 mit der der Begrenzungsform 242 zugeordneten Bahn-ID kodiert werden. Beispielsweise kann das Pixel 248 mit der gleichen Bahn-ID wie die Begrenzungsform 242 kodiert werden. In ähnlicher Weise kann jedes Pixel innerhalb der Begrenzungsform 244 mit der Bahn-ID kodiert werden, die der Begrenzungsform 244 zugeordnet ist. Beispielsweise kann Pixel 250 mit der gleichen Bahn-ID wie die Begrenzungsform 244 kodiert werden. In einigen Fällen kann Hintergrundpixeln (z. B. Pixeln, die nicht von einer begrenzten Form wie Pixel 246 abgedeckt werden) eine gemeinsame Bahn-ID zugewiesen werden (z. B. ein Bahn-ID-Wert von Null (0)).
2D zeigt ein zweites kodiertes Bild 200D mit erkannten Objekten, die durch Begrenzungsformen 262 und 264 begrenzt sind. Während der Kodierung kann jedes Pixel (z. B. v8, v9, v16, v17, v24, v25) innerhalb der Begrenzungsform 262 mit der der Begrenzungsform 262 zugeordneten Bahn-ID kodiert werden. Wie oben erwähnt, können in einigen Aspekten die Begrenzungsform 242 und die Begrenzungsform 262 dasselbe Objekt in Bildern begrenzen, die zu unterschiedlichen Zeiten aufgenommen werden. In einigen Fällen können die Begrenzungsform 242 und die Begrenzungsform 262 dasselbe Objekt begrenzen, das von verschiedenen Sensoren zur gleichen Zeit erfasst wurde. Daher kann die Bahn-ID, die für die Pixel innerhalb der Begrenzungsform 242 und innerhalb der begrenzten Form 262 kodiert ist, dieselbe Bahn-ID sein.
Auf 1 zurückkommend: Sobald die Ground-Truth-Daten (z. B. Bahn-ID-Abbildung(en) 118) für jede Instanz der Sensordaten 102 (z. B. für jedes Bild, bei dem die Sensordaten 102 Bilddaten enthalten) erzeugt werden. Beispielsweise kann der Codierer 116 eine Vielzahl von kommentierten Bildern (z. B. Bild 200C und Bild 200D) kodieren, um eine Bahn-ID-Abbildung 118 zu erzeugen. Die Bahn-ID-Abbildung kann somit eine Reihe von diskreten Darstellungen von Sensordaten enthalten. In einigen Ausführungsformen kann die Serie diskrete Darstellungen der Sensordaten über die Zeit und/oder diskrete Darstellungen der Sensordaten über mehrere Sensoren enthalten. Darüber hinaus enthalten die Bahn-ID-Abbildungen die Ground Truth der Objektidentifizierung (z. B. über Bahn-ID-Werte) durch die diskreten Darstellungen der Sensordaten. Das maschinelle Lernmodelle(n) 104 kann unter Verwendung der Ground-Truth-Daten (z. B. der Bahn-ID-Abbildung(en) 118) trainiert werden. Beispielsweise kann das maschinelle Lernmodell(e) 104 Merkmalsdeskriptor-Abbildung(en) 106 erzeugen, und die Ausgabe kann mit den Ground-Truth-Daten verglichen werden, die den jeweiligen Instanzen der Sensordaten 102 entsprechen. Beispielsweise kann/können das/die maschinelle(n) Lernmodell(e) 104 die ausgegebenen Merkmalsdeskriptor-Abbildungen 106 erzeugen (die Merkmalsvektoren enthalten können, die jedem Pixel bei der Ausgabeauflösung entsprechen), und die Merkmalsvektoren aus den Merkmalsdeskriptor-Abbildungen 106 können unter Verwendung der Bahn-IDs verglichen werden, die denselben Pixeln aus den Bahn-ID-Abbildungen 118 entsprechen. Wenn also ein Merkmalsvektor, der zwei Pixeln entspricht, unterschiedlich ist, aber die beiden Pixel bekanntermaßen demselben Objekt entsprechen, basierend auf den Bahn-IDs, kann/können die Verlustfunktion(en) 126 diese Ausgabe bestrafen, um zu bewirken, dass das/die maschinelle(n) Lernmodell(e) 104 lernt/lernen, ähnlichere (z. B. dieselben) Merkmalsvektoren für Pixel zu berechnen, die demselben Objekt entsprechen. Ähnlich verhält es sich mit Pixeln, die verschiedenen Objekten entsprechen: Wenn die Merkmalsvektoren ähnlich sind, aber die Ground-Truth-Daten (z.B. Bahn-ID-Abbildung(en) 118) darauf hinweisen, dass die Pixel verschiedenen Objekten entsprechen, kann das maschinelle Lernmodell (die maschinellen Lernmodelle) 104 bestraft werden. Als solches kann die Rückmeldung der Verlustfunktion(en) 126 verwendet werden, um die Parameter (z. B. Gewichte und Biases) des maschinellen Lernmodells 104 im Hinblick auf die Ground-Truth-Daten (z. B. Bahn-ID-Abbildung(en) 118) zu aktualisieren, bis das/die maschinelle(n) Lernmodell(e) 104 zu einer akzeptablen oder wünschenswerten Genauigkeit konvergiert/konvergieren. Mit Hilfe dieses Prozesses kann das (die) maschinelle(n) Lernmodell(e) 104 so trainiert werden, dass es (sie) die Ausgabe (z. B. die Merkmalsdeskriptor-Abbildung(en) 106) aus den Sensordaten 102 unter Verwendung der Verlustfunktion(en) 126 und der Ground-Truth-Daten (z. B. die Bahn-ID-Abbildung(en) 118) genau vorhersagen kann (können).
Das (die) maschinelle(n) Lernmodell(e) 104 kann (können) die Sensordaten 102 verwenden, um die Ausgabe (z. B. Merkmalsdeskriptor-Abbildung(en) 106) zu berechnen, die schließlich auf einen Decoder oder eine oder mehrere andere Nachverarbeitungskomponenten (die hier zumindest in Bezug auf 5 ausführlicher beschrieben sind) angewendet werden kann (können), um Objektverfolgungsinformationen zu erzeugen. Obwohl hier Beispiele in Bezug auf die Verwendung von tiefen neuronalen Netzen (DNNs) und insbesondere von Faltungsneuronalen Netzen (CNNs) als maschinelles Lernmodell(e) 104 (z. B. in Bezug auf 1 und 5) beschrieben werden, soll dies keine Einschränkung darstellen. Beispielsweise und ohne Einschränkung kann (können) das (die) maschinelle(n) Lernmodell(e) 104 jede Art von maschinellem Lernmodell umfassen, wie z. B. ein maschinelles Lernmodell (maschinelle Lernmodelle) unter Verwendung von linearer Regression, logistischer Regression, Entscheidungsbäumen, Support Vector Machines (SVM), Naive Bayes, k-nearest neighbor (Knn), K-Mittel-Clustering, Random Forest, Dimensionalitätsreduktionsalgorithmen, Gradient-Boosting-Algorithmen, neuronalen Netzen (z. B., Autoencoder, Faltungsalgorithmen, rekurrente Algorithmen, Perzeptronen, Long/Short Term Memory (LSTM), Hopfield, Boltzmann, Deep Belief, Deconvolutional, Generative Adversarial, Liquid State Machine usw.), Algorithmen für das maschinelle Sehen und/oder andere Arten von maschinellen Lernmodellen.
Beispielsweise kann das (die) maschinelle(n) Lernmodell(e) 104 eine beliebige Anzahl von Schichten umfassen, wenn das (die) maschinelle(n) Lernmodell(e) 104 ein CNN umfasst (umfassen). Eine oder mehrere der Schichten können eine Eingabeschicht enthalten. Die Eingabeschicht kann Werte enthalten, die mit den Sensordaten 102 verbunden sind (z. B. vor oder nach der Nachbearbeitung). Handelt es sich bei den Sensordaten 102 beispielsweise um ein Bild, kann die Eingabeschicht Werte enthalten, die die rohen Pixelwerte des Bildes bzw. der Bilder als Volumen darstellen (z. B. eine Breite, eine Höhe und Farbkanäle (z. B. RGB), wie 32 x 32 x 3).
Eine oder mehrere Schichten können Faltungsschichten enthalten. Die Faltungsschichten können die Ausgabe von Neuronen berechnen, die mit lokalen Regionen in einer Eingabeschicht verbunden sind, wobei jedes Neuron ein Punktprodukt zwischen seinen Gewichten und einer kleinen Region berechnet, mit der es im Eingabevolumen verbunden ist. Das Ergebnis der Faltungsschichten kann ein weiteres Volumen sein, dessen Dimensionen auf der Anzahl der angewandten Filter basieren (z. B. die Breite, die Höhe und die Anzahl der Filter, wie z. B. 32 x 32 x 12, wenn 12 die Anzahl der Filter wäre).
Eine oder mehrere der Schichten können eine gleichgerichtete lineare Einheit (ReLU-Schicht) enthalten. Die ReLU-Schicht(en) kann/können eine elementweise Aktivierungsfunktion anwenden, wie beispielsweise max (0, x), Schwellenwert bei Null. Das sich ergebende Volumen einer ReLU-Schicht kann mit dem Volumen des Eingangs der ReLU-Schicht übereinstimmen.
Eine oder mehrere der Schichten können eine Pooling-Schicht enthalten. Die Pooling-Schicht kann eine Abwärtsabtastung entlang der räumlichen Dimensionen (z. B. der Höhe und der Breite) durchführen, was zu einem kleineren Volumen als der Eingabe der Pooling-Schicht führen kann (z. B. 16 x 16 x 12 von dem 32 x 32 x 12 Eingabevolumen).
Eine oder mehrere der Schichten können eine oder mehrere vollständig verknüpfte Schicht(en) umfassen. Jedes Neuron in der/den vollverknüpften Schicht(en) kann mit jedem der Neuronen im vorherigen Volumen verbunden sein. Die vollständig verknüpfte Schicht kann Klassenbewertungen berechnen, und das resultierende Volumen kann 1 x 1 x Anzahl der Klassen sein. In einigen Beispielen kann der CNN eine voll verbundene Schicht(en) enthalten, so dass die Ausgabe einer oder mehrerer der Schichten des CNN als Eingabe für eine voll verbundene Schicht(en) des CNN bereitgestellt werden kann. In einigen Beispielen können ein oder mehrere Faltungsströme durch das (die) maschinelle(n) Lernmodell(e) 104 implementiert werden, und einige oder alle der Faltungsströme können eine oder mehrere vollständig verbundene Schicht(en) enthalten.
In einigen nicht-einschränkenden Ausführungsformen können die maschinellen Lernmodelle 104 eine Reihe von Faltungsschichten und Max-Pooling-Schichten umfassen, um die Extraktion von Bildmerkmalen zu erleichtern, gefolgt von mehrskaligen erweiterten Faltungsschichten und Up-Sampling-Schichten, um die Extraktion globaler Kontextmerkmale zu erleichtern.
Obwohl hier Eingabeschichten, Faltungsschichten, Pooling-Schichten, ReLU-Schichten und vollständig verknüpfte Schichten in Bezug auf das/die maschinelle(n) Lernmodell(e) 104 erörtert werden, ist dies nicht als Einschränkung zu verstehen. Beispielsweise können zusätzliche oder alternative Schichten in dem/den maschinellen Lernmodell(en) 104 verwendet werden, wie Normalisierungsschichten, SoftMax-Schichten und/oder andere Schichttypen.
In Ausführungsformen, in denen das/die maschinelle(n) Lernmodell(e) 104 ein CNN umfasst/umfassen, können je nach Ausführungsform unterschiedliche Reihenfolgen und Anzahlen der Schichten des CNN verwendet werden. Mit anderen Worten, die Reihenfolge und Anzahl der Schichten des/der maschinellen Lernmodelle(s) 104 ist nicht auf eine bestimmte Architektur beschränkt.
Darüber hinaus können einige der Schichten Parameter (z. B. Gewichte und/oder Verzerrungen) enthalten, wie z. B. die Faltungsschichten und die vollständig verknüpften Schichten, während andere nicht dazu gehören, wie z. B. die ReLU-Schichten und Pooling-Schichten. In einigen Beispielen können die Parameter von dem/den maschinellen Lemmodell(en) 104 während des Trainings gelernt werden. Darüber hinaus können einige der Schichten zusätzliche Hyperparameter enthalten (z. B. Lernrate, Schrittweite, Epochen usw.), wie z. B. die Faltungsschichten, die vollständig verknüpften Schichten und die Pooling-Schichten, während andere Schichten, wie z. B. die ReLU-Schichten, dies nicht tun. Die Parameter und Hyper-Parameter sind nicht beschränkt und können je nach Ausführungsform unterschiedlich sein.
Der Prozess 100 umfasst Tuplet-Mining 120. Das Tuplet-Mining 120 kann das Erzeugen von Vektor-Triplet(s) 122 aus den Trainingsdaten beinhalten. Vektor-Triplet(s) 122 können aus Merkmalsdeskriptor-Abbildungen (z. B. Merkmalsdeskriptor-Abbildung(en) 106 und/oder Bahn-ID-Abbildung(en) 118) über Raum und/oder Zeit gewonnen werden. Beispielsweise können in Szenarien der Verfolgung mit einem einzigen Sensor mindestens zwei Deskriptor-Abbildungen (z. B., wenn Merkmalsdeskriptor-Abbildungen aus Sensordaten erzeugt werden, die von einem einzigen Sensor erfasst werden, kann die DeskriptorAbbildung 200C t_1-k und die DeskriptorAbbildung 200D t₁ darstellen) verwendet werden, um ein Vektor-Triplet zu erstellen. Ein Vektor-Triplet kann ein positives Muster, ein negatives Muster und einen Anker enthalten. Die positive Probe kann ein oder mehrere Vektoren aus der positiven Probe (z. B. ein Vektor innerhalb einer Begrenzungsform mit der gleichen Bahn-ID) aus der Deskriptor-Abbildung 200C sein, und die negative Probe kann ein oder mehrere Vektoren aus der negativen Probe (z. B. Vektoren innerhalb einer anderen Begrenzungsform) aus der Deskriptor-Abbildung 200C sein. Der Anker kann ein oder mehrere Vektoren aus dem positiven Muster der Deskriptor-Abbildung 200D sein.
In einem anderen Beispiel können Vektor-Triplet für das Training des DNN für die sensorübergreifende Verfolgung generiert werden - z. B. in einem einzigen Zeitschritt. In einem solchen Beispiel (z. B., wenn Merkmalsdeskriptor-Abbildungen 200C und 200D von verschiedenen Sensoren erzeugt werden) kann die positive Probe ein oder mehrere Vektoren des positiven Objekts (z. B. Vektoren innerhalb einer Begrenzungsform 242) aus einer Deskriptor-Abbildung 200C eines ersten Sensors sein, und die negative Probe kann ein oder mehrere Vektoren der negativen Probe (z. B. Vektoren innerhalb der Begrenzungsform 244) aus der Deskriptor-Abbildung 200C des ersten Sensors sein. Der Anker kann ein oder mehrere Vektoren aus der begrenzten Form 262 einer zweiten Sensor-Deskriptor-Abbildung 200D sein.
Anders ausgedrückt, kann ein Vektor-Triplet in einigen Aspekten einen vektorbasierten Merkmalsdeskriptor auf Pixelebene enthalten, der von einem maschinellen Lernmodell für ein positives Objekt zu mindestens zwei Zeitpunkten und/oder von zwei Sensoren (z. B. der positiven Probe und dem Anker) identifiziert wurde. Das Vektor-Triplet kann auch einen vektorbasierten Merkmalsdeskriptor auf Pixelebene enthalten, der von dem maschinellen Lernmodell für ein negatives Objekt zu mindestens einem Zeitpunkt und/oder von einem Sensor (z. B. der negativen Probe) identifiziert wurde.
Ein Vektor-Triplet kann auf verschiedene Weise gewonnen oder erzeugt werden. Beispielsweise können, um auf 1 zurückzukommen, Sensordaten 102 als Eingabe für das/die maschinelle(n) Lernmodell(e) 104 bereitgestellt werden. Das (die) maschinelle(n) Lernmodell(e) 104 kann (können) die Merkmalsdeskriptor-Abbildung(en) 106 ausgeben. In einem Fall, in dem die Sensordaten ein Bild oder eine Reihe von Bildern sind, kann die Merkmalsdeskriptor-Abbildung(en) 106 eindimensionale (1D) Vektoren enthalten, die für jedes Pixel in einem Bild (bei der Ausgangsauflösung des/der maschinellen Lernmodells/Maschinellen Lernmodelle 104) erzeugt werden. Da die räumliche Auflösung der Sensordaten 102, die auf das/die maschinelle(n) Lernmodell(e) 104 angewandt wird/werden, unterschiedlich sein kann - z. B. größer als, kleiner als, etc. - die räumliche Ausgangsauflösung, die den Vorhersagen des/der maschinellen Lernmodelle(s) 104 entspricht, kann eine Merkmalsdeskriptor-Abbildung in verschiedenen Formaten kodiert werden. In einigen Aspekten wird jeder Vektor (z.B. v_n), der einem Pixel innerhalb einer Begrenzungsform in einer entsprechenden Bahn-ID-Abbildung zugeordnet ist, die einem ersten Objekt (z.B. Objekt 202) zugeordnet ist, als positive Vektoren zugewiesen. In einigen Aspekten werden alle Vektoren, die mit einem Pixel innerhalb einer Begrenzungsform in einer entsprechenden Bahn-ID-Abbildung, die mit einem zweiten Objekt verbunden ist, verbunden sind, als negative Vektoren zugewiesen. Darüber hinaus werden in einigen Aspekten alle Vektoren, die mit einem Pixel innerhalb einer Begrenzungsform in einer zweiten entsprechenden Bahn-ID-Abbildung, die mit dem ersten Objekt verbunden ist, verbunden sind, als Ankervektoren zugewiesen.
Vektor-Triplet können aus Merkmalsdeskriptor-Abbildungen über Raum und/oder Zeit erstellt werden. Beispielsweise können die positiven Vektoren (p), die negativen Vektoren (n) und die Ankervektoren (a) kombiniert werden, um einen Satz von Vektor-Triplets zu bilden. Für ein gegebenes Triplet kann eine Triplet-Verlustfunktion verwendet werden, um den Abstand zwischen dem Anker-Merkmalsdeskriptor und dem positiven Merkmalsdeskriptor zu minimieren (z. B. den Abstand „d“ zwischen Anker „a“ und positivem „p“). Anders ausgedrückt, der Triplet-Verlust minimiert d (a, p). In ähnlicher Weise kann die Triplet-Verlustfunktion den Abstand zwischen dem Anker und dem Negativ minimieren (z. B. minimiert d (a, n)). In einigen Ausführungsformen kann ein Toleranzwert zu dem maximalen Randverlust hinzugefügt werden. Beispielsweise kann die Verlustfunktion 124 in einem Pseudofunktionsausdruck die Verlustfunktion der nachstehenden Formel (1) enthalten: $L = m a x (d, (a, p) - d (a, n) + m a r g i n,0)$
Als solches kann das Feedback der Verlustfunktion(en) 126 verwendet werden, um die Parameter (z. B. Gewichte und Verzerrungen) des/der maschinellen Lernmodells/Maschinenlernmodelle 104 im Hinblick auf die Basisdaten (z. B. Bahn-ID-Abbildung(en) 118) zu aktualisieren, bis das/die maschinelle(n) Lernmodell(e) 104 zu einer akzeptablen oder wünschenswerten Genauigkeit konvergiert/konvergieren. Unter Verwendung des Prozesses 100 kann das (die) maschinelle(n) Lernmodell(e) 104 trainiert werden, um die Ausgabe (z. B. Merkmalsdeskriptor-Abbildung(en) 106) (und/oder zugehörige Klassifizierungen) aus den Sensordaten 102 unter Verwendung der Verlustfunktion(en) 124, des (der) Vektor-Triplet(s) 122 und der Ground-Truth-Daten (z. B. Bahn-ID-Abbildung(en) 118) genau vorherzusagen.
Wie bereits erwähnt, gibt es im Allgemeinen drei Arten von Triplets: leichte Triplets, harte Triplets und halbharte Triplets. Einfache Triplets haben einen Triplet-Verlust von Null (0), harte Triplets sind Triplets, bei denen die negative Probe näher am Anker liegt als die positive Probe, und halbharte Triplets sind Triplets, bei denen die negative Probe nicht näher am Anker liegt als die positive, aber dennoch einen positiven Verlust aufweist. In einigen Ausführungsformen können halbharte und harte Triplets während des Trainings als Rückmeldung von der/den Verlustfunktion(en) 126 verwendet werden, um die Parameter des/der maschinellen Lernmodells/Maschinenmodelle 104 zu aktualisieren. In einigen Ausführungsformen können leichte, halbharte und harte Triplets während des Trainings in einigen Aspekten verwendet werden.
Zusätzlich können Vektor-Triplets mittels Epochen- oder Batch-Mining ermittelt werden. Beispielsweise können beim Epochen-Mining Vektor-Triplets 122 für jede Merkmalsdeskriptor-Abbildung 106 basierend auf der/den Bahn-ID-Abbildung(en) 120 für eine Epoche erzeugt werden. Das Feedback der Verlustfunktion für jedes Triplet für die Epoche kann zur Aktualisierung der Parameter verwendet werden. Beispielsweise kann beim Batch-Mining von Vektor-Triplets 122 eine Teilmenge einer Epoche stapelweise verarbeitet werden, und die Rückmeldung der Verlustfunktion(en) 124 für jedes Triplet des Stapels kann zur Aktualisierung der Parameter des/der maschinellen Lernmodells/e 104 verwendet werden. Eine weitere Teilmenge der Epoche kann gestapelt werden, und das Feedback kann unter Verwendung der aktualisierten Parameter des/der maschinellen Lernmodelle(s) 104 erzeugt werden. Die Vektor-Triplets 122 aus der zweiten Teilmenge und die Rückmeldung in Form der Verlustfunktion(en) 124 für jedes Triplet des Stapels können zur Aktualisierung der Parameter des/der maschinellen Lernmodells/Maschinenmodelle 104 verwendet werden. Dieser Batch-Mining-Ansatz kann in einem Batch-All- oder Batch-Hard-Kontext verwendet werden.
Sich kurz 3A zuwendend und unter fortgesetzter Bezugnahme auf 1 wird beispielsweise eine beispielhafte Merkmalsdeskriptor-Abbildung 300A gemäß einigen hier beschriebenen Aspekten dargestellt. Die Merkmalsdeskriptor-Abbildung 300A enthält positive Vektoren (z. B. v0, v1, v8, v9, v16 und v17) und negative Vektoren (z. B. v13, v14, v15, v21, v22, v23, v29, v30 und v31). Die Merkmalsdeskriptor-Abbildung 300A enthält auch eine erste Begrenzungsform 302 und eine zweite Begrenzungsform 304. Sich kurz 3B zuwendend und unter fortgesetzter Bezugnahme auf 1 wird eine beispielhafte Merkmalsdeskriptor-Abbildung 300B gemäß einigen hierin beschriebenen Aspekten dargestellt. Die Merkmalsdeskriptor-Abbildung 300B enthält positive Vektoren (z. B. v9, v10, v17, v18, v25 und v26) und negative Vektoren (z. B. v5, v6, v7, v13, v14, v15, v21, v22 und v23). Insbesondere enthält die Merkmalsdeskriptor-Abbildung 300B positive Vektoren, die von demselben Objekt zu einem anderen Zeitpunkt erzeugt und/oder von einem anderen Sensor erfasst werden als die positiven Vektoren der Merkmalsdeskriptor-Abbildung 300A. Dementsprechend kann für das Vektor-Triplet-Mining gesagt werden, dass die Merkmalsdeskriptor-Abbildung 300B Ankervektoren enthält (z. B. v9, v10, v17, v18, v25 und v26).
Beim Batch-All-Triplet-Mining werden alle gültigen Triplets für einen bestimmten Batch ausgewählt. Beispielsweise umfasst ein gültiges Triplet mit einem Anker v9 aus der Merkmalsdeskriptor-Abbildung 300B jeden positiven Vektor (z. B. v0, v1, v8, v9, v16 und v17) aus der Merkmalsdeskriptor-Abbildung 300A und jeden negativen Vektor entweder aus der Merkmalsdeskriptor-Abbildung 300A oder 300B. In einigen Ausführungsformen wird der Verlust für jedes gültige Triplet bestimmt. Die harten und halbharten Triplets können in einigen Ausführungsformen gemittelt werden, und die leichten Triplets werden ignoriert. Beim Batch Hard Triplet Mining werden das härteste positive und das härteste negative Triplet aus dem Batch für jeden Anker ausgewählt und die Triplet-Verlustfunktion wird nur für das härteste Triplet berechnet.
Darüber hinaus wird ein Fachmann verstehen, dass die in den 2C, 2D, 3A, 3B, 6A und 6B dargestellten Begrenzungsformen und Pixel nur illustrativ sind. Wie dargestellt, sind die Pixel nicht von den Begrenzungsformen eingeschlossen. Mit anderen Worten, es wird anerkannt, dass sich ein Teil der Pixel über die in den 2C, 2D, 3A, 3B, 6A und 6B dargestellten Begrenzungsformen hinaus erstreckt. Dies soll jedoch nicht zu einer widersprüchlichen Interpretation der Figs und der entsprechenden Beschreibungen führen. Vielmehr soll die Darstellung der Begrenzungsformen und Pixelgrenzen dazu dienen, jedes Merkmal klar zu unterscheiden und gleichzeitig Informationen innerhalb der Grenzen der Figs zu vermitteln.
Bezugnehmend auf die 4A und 4B weist jeder Block des hier beschriebenen Verfahrens 400 und des Verfahrens 420 einen Rechenprozess auf, der mit einer beliebigen Kombination aus Hardware, Firmware und/oder Software durchgeführt werden kann. Beispielsweise können verschiedene Funktionen von einem Prozessor ausgeführt werden, der im Speicher gespeicherte Anweisungen ausführt. Die Verfahren 400 und 420 können auch als computerverwendbare Anweisungen auf Computerspeichermedien gespeichert sein. Die Methoden 400 und 420 können durch eine eigenständige Anwendung, einen Dienst oder einen gehosteten Dienst (eigenständig oder in Kombination mit einem anderen gehosteten Dienst) oder ein Plug-in für ein anderes Produkt bereitgestellt werden, um nur einige zu nennen. Darüber hinaus werden das Verfahren 400 und das Verfahren 420 beispielhaft in Bezug auf den Prozess 100 von 1 beschrieben. Verfahren 400 und Verfahren 420 können jedoch zusätzlich oder alternativ von einem beliebigen System oder einer beliebigen Kombination von Systemen ausgeführt werden, einschließlich, aber nicht beschränkt auf die hier beschriebenen Systeme.
4A ist ein beispielhaftes Flussdiagramm, das ein Verfahren 400 zum Trainieren eines neuronalen Netzes zur Verfolgung eines Objekts gemäß einigen Ausführungsformen der vorliegenden Offenbarung zeigt. Das Verfahren 400 umfasst im Block B402 den Empfang von Sensordaten. Beispielsweise können die Sensordaten 102 erzeugt und/oder empfangen werden, wobei die Sensordaten 102 Bilddaten enthalten, die Bilder darstellen, die den Ort von Objekten zu verschiedenen Zeiten und/oder von verschiedenen Sensoren darstellen.
Das Verfahren 400 umfasst in Block B404 den Empfang erster Daten, die Annotationen darstellen, die Begrenzungsformen entsprechen, die mit Objekten verbunden sind, die durch die Sensordaten dargestellt werden, und zweiter Daten, die Bahn-ID-Kennungen der Begrenzungsformen entsprechen. Beispielsweise können Daten, die für die Objekterkennung 110 und Annotationen 112 repräsentativ sind, erzeugt und/oder empfangen werden.
Das Verfahren 400 umfasst in Block B406 das Codieren der Bahn-ID-Labels, die mit jeder Begrenzungsform verbunden sind, für jedes Pixel, das durch die Begrenzungsform begrenzt wird. Beispielsweise kann der Codierer 116 die Pixel mit Bahn-ID-Kennzeichnung(en) in die Bahn-ID-Abbildung(en) 120 kodieren, um sie als Ground-Truth-Daten (z. B. Bahn-ID-Abbildung(en) 118) zu verwenden, um das/die maschinelle(n) Lernmodell(e) 104 zu trainieren.
Das Verfahren 400 umfasst in Block B408 das Mining eines Multi-Vektor-Triplets aus der/den Merkmalsdeskriptor-Abbildung(en). Beispielsweise kann ein Vektor-Triplet 122 basierend auf der (den) Bahn-ID-Abbildung(en) 120 und der (den) Merkmalsdeskriptor-Abbildung(en) 106 ermittelt werden. Ein Vektor-Triplet kann einer von drei Typen sein: leichte Triplets, harte Triplets und halbharte Triplets. Ein einfaches Triplet hat einen Verlust von Null (0), harte Triplets sind Triplets
Das Verfahren 400 umfasst in Block 410 das Trainieren eines neuronalen Netzes unter Verwendung der Merkmalsdeskriptor-Abbildung(en) als Ground-Truth-Daten. Beispielsweise kann/können die Bahn-ID-Abbildung(en) 120 zusammen mit dem/den Vektor-Triplet(n) 122 als Ground-Truth-Daten verwendet werden, um das/die maschinelle(n) Lernmodell(e) zum Verfolgen von Objekten zu trainieren.
4B ist ein weiteres beispielhaftes Flussdiagramm, das ein Verfahren 420 zum Trainieren eines neuronalen Netzes zur Verfolgung eines Objekts gemäß einigen Ausführungsformen der vorliegenden Offenbarung zeigt. Das Verfahren 420 umfasst im Block B422 das Kennzeichnen einer ersten Begrenzungsform eines ersten Frames und einer zweiten Begrenzungsform eines zweiten Frames als einem Objekt entsprechend, unter Verwendung von Trainingsdaten. Beispielsweise kann die Objekterkennung 108 die Sensordaten 102 mit Begrenzungsformen 110 kennzeichnen.
Das Verfahren 420 umfasst in Block B424 das Bestimmen eines oder mehrerer erster Merkmalsdeskriptoren, die ersten Punkten innerhalb der ersten Begrenzungsform des ersten Bildes entsprechen, und eines oder mehrerer zweiter Merkmalsdeskriptoren, die zweiten Punkten innerhalb der zweiten Begrenzungsform des zweiten Bildes entsprechen, unter Verwendung eines tiefen neuronalen Netzes. Beispielsweise kann das Tuplet-Mining 120 verwendet werden, um ein Positiv und ein Negativ eines Vektor-Triplets 122 basierend auf der/den Merkmalsdeskriptor-Abbildung(en) 106 und der/den entsprechenden Bahn-ID-Abbildung(en) 118 zu erzeugen.
Das Verfahren 420 umfasst in Block B426 das Bestimmen eines ersten Merkmalsdeskriptors des einen oder der mehreren ersten Merkmalsdeskriptoren, der einem Ankerpunkt der ersten Punkte entspricht. Beispielsweise kann das Tuplet Mining 120 verwendet werden, um einen Ankerpunkt eines Vektor-Triplets 122 basierend auf der/den Merkmalsdeskriptor-Abbildung(en) 106 und der/den entsprechenden Bahn-ID-Abbildung(en) 118 zu erzeugen.
Das Verfahren 420 umfasst in Block B428 das Vergleichen des ersten Merkmalsdeskriptors mit einem zweiten Merkmalsdeskriptor, der einem zweiten Punkt der zweiten Punkte entspricht, unter Verwendung einer Verlustfunktion. Beispielsweise kann die Verlustfunktion 124 verwendet werden, um die Merkmalsdeskriptoren eines Vektor-Triplets 122 zu vergleichen.
Das Verfahren 420 umfasst in Block B430 das Aktualisieren eines oder mehrerer Parameter des tiefen neuronalen Netzes, das zumindest teilweise auf dem Vergleich basiert. Beispielsweise kann die Ausgabe der Verlustfunktion 124 verwendet werden, um einen oder mehrere Parameter eines maschinellen Lemmodells(e) 104 zu aktualisieren
5 ist ein Datenflussdiagramm, das einen beispielhaften Prozess 500 zur Erzeugung von Objektverfolgungsdaten unter Verwendung von Ausgaben von Sensoren eines Fahrzeugs in Echtzeit oder nahezu in Echtzeit gemäß einigen Ausführungsformen der vorliegenden Offenbarung darstellt. Es sollte verstanden werden, dass diese und andere hier beschriebene Anordnungen nur als Beispiele dargestellt werden. Andere Anordnungen und Elemente (z. B. Maschinen, Schnittstellen, Funktionen, Anordnungen, Gruppierungen von Funktionen usw.) können zusätzlich zu den gezeigten oder anstelle von ihnen verwendet werden, und einige Elemente können ganz weggelassen werden. Außerdem sind viele der hier beschriebenen Elemente funktionale Einheiten, die als einzelne oder verteilte Komponenten oder in Verbindung mit anderen Komponenten und in jeder geeigneten Kombination und an jedem geeigneten Ort implementiert werden können. Verschiedene hier beschriebene Funktionen, die von Einheiten ausgeführt werden, können von Hardware, Firmware und/oder Software ausgeführt werden. Beispielsweise können verschiedene Funktionen von einem Prozessor ausgeführt werden, der im Speicher gespeicherte Anweisungen ausführt. In einigen Ausführungsformen können die hierin beschriebenen Systeme, Methoden und Prozesse unter Verwendung ähnlicher Komponenten, Merkmale und/oder Funktionen wie die des autonomen Beispielfahrzeugs 800 der 8A-8D, dem Beispiel-Rechengerät 900 von 9 und/oder dem Beispiel-Datenzentrum 1000 von 10. Während die verfolgten Objekte in erster Linie in Bezug auf 5 beschrieben werden, handelt es sich um Fahrzeuge, was jedoch nicht als einschränkend zu verstehen ist und lediglich als Beispiel dient.
Die Sensordaten 102 können denen ähnlich sein, die hier zumindest in Bezug auf 1 beschrieben sind. Während des Einsatzes können die Sensordaten 102 auf das maschinelle Lernmodell(e) 104 angewendet werden, das gemäß dem Verfahren 100 trainiert worden ist, um beispielsweise eine Merkmalsdeskriptor-Abbildung(en) 106 unter Verwendung der Trainingssensordaten 102 zu berechnen. Als solche kann das maschinelle Lernmodell(e) 104 eine oder mehrere Merkmalsdeskriptor-Abbildung(en) 106 ausgeben - oder regressieren -, wie zumindest in Bezug auf die Merkmalsdeskriptor-Abbildung(en) 108 in 1 ausführlicher beschrieben.
Die Merkmalsdeskriptor-Abbildung(en) 106 kann/können auf einen Decoder 502 angewendet werden, um dekodierte Ausgabe(n) 504 zu erzeugen. In einigen Beispielen kann der Decoder 502 einen oder mehrere Nachbearbeitungsalgorithmen (z. B. zeitliche Glättung, Kurvenanpassung, Filterung usw.) verwenden, um die decodierte(n) Ausgabe(n) 504 zu berechnen. Beispielsweise kann der Decoder 502 die Merkmalsdeskriptor-Abbildung(en) 106 verwenden, um ein Objekt über die Zeit und/oder über mehrere Sensoren hinweg zu verfolgen, was wiederum verwendet werden kann, um Steuerbefehle für eine Ego-Maschine zu erzeugen, z. B. durch die Steuerkomponente 508. Die dekodierten Ausgaben können Objekt-IDs, Merkmalsvektoren auf Pixelebene, Merkmalsvektoren auf Ebene der Begrenzungsformen und/oder andere Informationen enthalten, die einem erkannten Objekt entsprechen (z. B. Begrenzungsformen, die Objekten entsprechen, die verwendet werden können, um Visualisierungen des Objekts über die Zeit und/oder über Sensoren hinweg zur Fehlersuche zu erzeugen usw.).
In einigen Ausführungsformen können eine oder mehrere der Ausgaben mit einer ersten räumlichen Auflösung (z. B. einer heruntergetasteten räumlichen Auflösung) erzeugt werden, die sich von einer zweiten räumlichen Auflösung unterscheidet, die den Sensordaten 102 entspricht. Als solches kann der Decoder 502 die Daten aus der ersten räumlichen Auflösung der Ausgaben dekodieren und die Daten auf die zweite räumliche Auflösung der Sensordaten 102 projizieren oder diesen zuordnen (z. B. unter Verwendung der Merkmalsdeskriptor-Abbildung(en) 106, wie hier beschrieben). Dadurch kann die Verarbeitungsgeschwindigkeit des/der maschinellen Lernmodelle(s) 104 erhöht werden, während gleichzeitig Rechenressourcen für andere Aufgaben des Systems geschont werden. Darüber hinaus kann durch die Erhöhung der Verarbeitungsgeschwindigkeiten die Laufzeit des Systems verkürzt werden, wodurch der Einsatz des Prozesses 500 innerhalb des Systems (z. B. des Fahrzeugs 800) in Echtzeit oder nahezu in Echtzeit möglich wird.
Zusätzlich oder alternativ können die Ausgaben verwendet werden, um die Objektverfolgung mit vergleichsweise minimalen nachgeschalteten Auswirkungen zu erleichtern, wodurch Rechenressourcen für andere Aufgaben des Systems geschont werden können. Beispielsweise können in einigen Ausführungsformen Merkmalsdeskriptoren auf Pixelebene während der Nachbearbeitung 504 in Merkmalsdeskriptoren auf Ebene der Begrenzungsform umgewandelt werden. Die Nachbearbeitung 504 kann die Mittelung der Merkmalsdeskriptoren auf Pixelebene innerhalb einer bestimmten Begrenzungsform der Merkmalsdeskriptor-Abbildung(en) 106 beinhalten. Der durchschnittliche Merkmalsdeskriptor kann dann als Merkmalsdeskriptor auf Ebene der Begrenzungsform zugewiesen werden. Der Merkmalsdeskriptor auf Ebene der Begrenzungsform kann über mehrere Bilder hinweg (von demselben Sensor oder von verschiedenen Sensoren) verwendet werden, um ein entsprechendes Objekt zu verfolgen.
Beispielsweise können mit Bezug auf 6A für die Merkmalsdeskriptor-Abbildung 600 die Merkmalsdeskriptor-Vektoren auf Pixelebene (z.B. v0, v1, v8, v9, v16 und v17), die mit einer ersten Begrenzungsform (z.B. Begrenzungsform 602, wie mit dem Objekterkennungsmodul 510 berechnet) verbunden sind, gemittelt werden, und der resultierende Merkmalsdeskriptor-Vektor kann als Objektmerkmalsdeskriptor-Vektor zugewiesen werden. In ähnlicher Weise können die Merkmalsdeskriptoren auf Pixelebene (z.B. v13, v14, v15, v21, v22, v23, v29, v30 und v31), die einer zweiten Begrenzungsform (z.B. Begrenzungsform 604) zugeordnet sind, gemittelt werden, und der resultierende Merkmalsdeskriptor-Vektor kann als Objektmerkmalsdeskriptor-Vektor zugewiesen werden. In Ausführungsformen können die Begrenzungsformen, die Objekten entsprechen, unter Verwendung des Objekterkennungsmoduls 510 berechnet werden, das einen Computer-Vision-Algorithmus, ein maschinelles Lernmodell, ein neuronales Netzwerk (z. B. ein neuronales Faltungsnetzwerk) und/oder einen anderen Algorithmustyp umfassen kann, der Begrenzungsformpositionen berechnet. In einigen Ausführungsformen kann das Objekterkennungsmodul 510 in das/die maschinelle(n) Lernmodell(e) 104 integriert sein - z. B. kann/können das/die maschinelle(n) Lernmodell(e) 104 die vorhergesagte Merkmalsdeskriptor-Abbildung 106 zusätzlich zu den Positionen der Begrenzungsformen berechnen.
Zusätzlich oder alternativ kann die Nachbearbeitung 504 eine Verfolgungsausgabe 506 erzeugen, um die Verfolgung eines Objekts über die Zeit und/oder die Sensoren hinweg zu erleichtern. Beispielsweise kann das maschinelle Lernmodell (die maschinellen Lernmodelle) 104 in einigen Anwendungen der Einzelsensorverfolgung über einen zeitlichen Bereich aufeinanderfolgende Einzelbilder getrennt verarbeiten und Merkmalsdeskriptor-Abbildungen (z. B. Merkmalsdeskriptor-Abbildungen 610, 620, 630 und 640) erzeugen, die die Merkmalsdeskriptoren der Begrenzungsformebene für erkannte Objekte wie oben beschrieben enthalten. Objektassoziationswerte können zwischen jedem Begrenzungsform-Level-Merkmalsdeskriptor der zeitlichen Reihe erzeugt werden. Beispielsweise können Objektassoziationswerte zwischen jeder Kombination von Begrenzungsform-Level-Merkmalsdeskriptoren 612, 614, 622, 624, 632, 634, 642 und 644 unter Verwendung eines Kosinusabstandes zwischen den Vektoren erzeugt werden. Die Unterschiede in den Merkmalsdeskriptoren können berechnet werden, und die besten Übereinstimmungen können über die zeitlichen Reihen hinweg als dasselbe Objekt identifiziert werden. Beispielsweise kann zu Verfolgungszwecken die beste Übereinstimmung mit Hilfe eines KNN-Algorithmus (K nearest neighbor) ermittelt werden.
Zusätzlich oder alternativ kann in einigen Ausführungsformen der Begrenzungsform-Level-Merkmaldeskriptor für jedes Objekt (z. B. 612, 622 und 632) gemittelt werden, um die Bahn des Objekts durch die Zeitreihe zuzuordnen. Die Begrenzungsform-Level-Merkmalsdeskriptoren (z.B. 642) der jüngsten Merkmalsdeskriptor-Abbildung (z.B. Merkmalsdeskriptor-Abbildung 640) können mit jedem gemittelten Merkmalsdeskriptor der Spuren verglichen werden. Die beste Übereinstimmung zwischen dem jüngsten Merkmalsdeskriptor und dem gemittelten Merkmalsdeskriptor wird derselben Objektspur zugewiesen.
In ähnlicher Weise kann das maschinelle Lernmodell (die maschinellen Lernmodelle) 104 in einigen Anwendungen der sensorübergreifenden Verfolgung Bilder verarbeiten, die von jedem Sensor getrennt erzeugt werden, und Merkmalsdeskriptor-Abbildungen (z. B. Merkmalsdeskriptor-Abbildungen 650, 660, 670 und 680) erzeugen, die die Merkmalsdeskriptoren auf der Ebene der Begrenzungsform für erkannte Objekte enthalten, wie oben beschrieben. Objektassoziationswerte können zwischen jedem Begrenzungsform-Level-Merkmalsdeskriptor der Multisensorserie erzeugt werden. Beispielsweise können Objektassoziationswerte zwischen jeder Kombination von Begrenzungsform-Level-Merkmalsdeskriptoren 652, 654, 662, 664, 672, 674, 682 und 684 unter Verwendung eines Kosinusabstandes zwischen den Vektoren erzeugt werden. Die Unterschiede in den Merkmalsdeskriptoren können berechnet werden, und die besten Übereinstimmungen können über die zeitlichen Reihen hinweg als dasselbe Objekt identifiziert werden. Beispielsweise kann für die Verfolgung die beste Übereinstimmung mit einem KNN-Algorithmus (K nearest neighbor) ermittelt werden.
Zusätzlich oder alternativ können die Feature-Deskriptoren auf der Ebene der Begrenzungsformen für jedes Objekt (z. B. 652, 662 und 672) über die Sensoren gemittelt und in einigen Ausführungsformen für die Bahn des Objekts zugeordnet werden. Die Begrenzungsform-Level-Merkmalsdeskriptoren (z. B. 682) der Merkmalsdeskriptor-Abbildung eines anderen Sensors (z. B. Merkmalsdeskriptor-Abbildung 680) können mit jedem gemittelten Merkmalsdeskriptor der Spuren verglichen werden. Die beste Übereinstimmung zwischen dem jüngsten Merkmalsdeskriptor und dem gemittelten Merkmalsdeskriptor wird derselben Objektspur zugeordnet.
Dementsprechend können die Sensordaten 102 als Eingabe für maschinelle Lernmodelle verwendet werden. Das (die) maschinelle(n) Lernmodell(e) kann (können) den in den Sensordaten vorhandenen Objekten eine Identität zuweisen und die Identität verwenden, um die Objekte über mehrere Sensoren und/oder über die Zeit zu verfolgen. Die Verfolgungsausgabe 506 kann an eine Steuerkomponente 508 einer autonomen Maschine (z. B. einer Ego-Maschine) übermittelt werden. Diese Daten können von der Steuerkomponente 508 verwendet werden, um beispielsweise zu bremsen, zu beschleunigen, den Weg durch Lenkeingabe zu ändern oder jede andere Steueroperation durchzuführen, zu der die autonome Maschine in der Lage ist.
Jeder Block des hier beschriebenen Verfahrens 700 weist einen Rechenprozess auf, der mit einer beliebigen Kombination aus Hardware, Firmware und/oder Software durchgeführt werden kann (siehe 7). Beispielsweise können verschiedene Funktionen von einem Prozessor ausgeführt werden, der im Speicher gespeicherte Anweisungen ausführt. Das Verfahren 700 kann auch in Form von computerverwendbaren Anweisungen, die auf Computerspeichermedien gespeichert sind, verkörpert sein. Die Methode 700 kann als eigenständige Anwendung, als Dienst oder gehosteter Dienst (eigenständig oder in Kombination mit einem anderen gehosteten Dienst) oder als Plug-in für ein anderes Produkt bereitgestellt werden, um nur einige Beispiele zu nennen. Darüber hinaus wird das Verfahren 700 beispielhaft anhand des Prozesses 500 von 5 beschrieben. Dieses Verfahren 700 kann jedoch zusätzlich oder alternativ von einem beliebigen System oder einer beliebigen Kombination von Systemen ausgeführt werden, einschließlich, aber nicht beschränkt auf die hier beschriebenen Systeme.
7 ist ein Flussdiagramm, das ein Verfahren 700 zur Erkennung und Verfolgung eines Objekts gemäß einigen Ausführungsformen der vorliegenden Offenbarung zeigt. Obwohl nicht dargestellt, empfangen einige Ausführungsformen des Verfahrens 700 Sensordaten und wenden die Sensordaten auf ein neuronales Netz an. Beispielsweise können die Sensordaten 102, die ein Bild von Objekten in einem Sichtfeld von mindestens einem Sensor des Fahrzeugs 800 darstellen, auf das/die maschinelle(n) Lernmodell(e) 104 angewendet werden.
Das Verfahren 700 umfasst in Block B702 das Berechnen einer ersten Merkmalsabbildung, die für einen oder mehrere Merkmalsdeskriptoren repräsentativ ist, unter Verwendung des neuronalen Netzes und zumindest teilweise basierend auf den Sensordaten einer Ego-Maschine. Beispielsweise kann das maschinelle Lernmodell(e) 104 eine Ausgabe(n) berechnen, die eine oder mehrere Merkmalsdeskriptor-Abbildungen 106 enthalten.
Das Verfahren 700 umfasst im Block B704 das Verknüpfen eines ersten Merkmalsdeskriptors mit einem ersten Objekt, zumindest teilweise basierend auf dem einen oder den mehreren ersten Merkmalsdeskriptoren. Beispielsweise kann der Decoder 502 die Merkmalsdeskriptor-Abbildung(en) 106 dekodieren, um für jedes in den Sensordaten detektierte Objekt Merkmalsdeskriptor-Vektoren auf der Ebene der Begrenzungsform zu bestimmen. Der Decoder 502 kann basierend auf einem berechneten Durchschnitt von Merkmalsdeskriptoren auf Pixelebene einen Merkmalsdeskriptor-Vektor für die Begrenzungsform bestimmen.
Das Verfahren 700 umfasst in Block B706 die Berechnung einer zweiten Merkmalsabbildung unter Verwendung des tiefen neuronalen Netzes und zumindest teilweise basierend auf zweiten Sensordaten, die mit einem oder mehreren Sensoren der Ego-Maschine erzeugt werden, einer zweiten Merkmalsabbildung, die einen oder mehrere zweite Merkmalsdeskriptoren darstellt. Beispielsweise kann/können das/die maschinelle(n) Lernmodell(e) 104 Ausgabe(n) berechnen, die eine oder mehrere zweite Merkmalsdeskriptor-Abbildungen 106 enthalten.
Das Verfahren 700 umfasst im Block B708 das Verknüpfen eines zweiten Merkmalsdeskriptors mit einem zweiten Objekt, zumindest teilweise basierend auf dem einen oder den mehreren zweiten Merkmalsdeskriptoren. Beispielsweise kann der Decoder 502 die Merkmalsdeskriptor-Abbildung(en) 106 dekodieren, um für jedes in den Sensordaten erfasste Objekt Merkmalsdeskriptor-Vektoren auf der Ebene der begrenzten Form zu bestimmen. Der Decoder 502 kann basierend auf einem berechneten Durchschnitt von Merkmalsdeskriptoren auf Pixelebene einen Merkmalsdeskriptor-Vektor für die Begrenzungsform bestimmen.
Das Verfahren 700 umfasst bei B710 die Bestimmung, dass das erste Objekt und das zweite Objekt dasselbe Objekt sind. Beispielsweise kann der Decoder 502 basierend auf einer berechneten Objektassoziationsbewertung die beste Übereinstimmung zwischen den Merkmalsdeskriptoren der Begrenzungsformebene bestimmen. Die besten Übereinstimmungen zwischen den Begrenzungsformen können in der Verfolgungsausgabe 506 als dasselbe Objekt über Sensoren und/oder Zeit hinweg identifiziert werden.
Das Verfahren 700 umfasst in Block B712 das Durchführen einer oder mehrerer Operationen durch das Fahrzeug basierend auf der Feststellung, dass das erste Objekt und das zweite Objekt dasselbe Objekt sind. Beispielsweise können die Steuerkomponenten 508 das Fahrzeug 800 veranlassen, eine oder mehrere Operationen basierend auf vorgeschlagenen Wegen durchzuführen, die auf der Grundlage der Verfolgungsausgabe 506 bestimmt werden.
Beispielhaftes autonomes Fahrzeug
8A ist eine Darstellung eines beispielhaften autonomen Fahrzeugs 800 gemäß einigen Ausführungsformen der vorliegenden Offenbarung. Das autonome Fahrzeug 800 (hier alternativ als „Fahrzeug 800“ bezeichnet) kann ohne Einschränkung ein Personenfahrzeug, wie z. B. einen Pkw, einen Lkw, einen Bus, ein First-Responder-Fahrzeug, einen Shuttle, ein elektrisches oder motorisiertes Fahrrad, ein Motorrad, ein Feuerwehrauto, ein Polizeifahrzeug, einen Krankenwagen, ein Boot, ein Baufahrzeug, ein Unterwasserfahrzeug, eine Drohne, ein an einen Anhänger gekoppeltes Fahrzeug und/oder eine andere Art von Fahrzeug (z. B., das unbemannt ist und/oder einen oder mehrere Fahrgäste aufnimmt) umfassen. Autonome Fahrzeuge werden im Allgemeinen in Form von Automatisierungsstufen beschrieben, die von der National Highway Traffic Safety Administration (NHTSA), einer Abteilung des US-Verkehrsministeriums, und der Society of Automotive Engineers (SAE) „Taxonomy and Definitions for Terms Related to Driving Automation Systems for On-Road Motor Vehicles“ (Standard Nr. J3016-201806, veröffentlicht am 15. Juni 2018, Standard Nr. J3016-201609, veröffentlicht am 30. September 2016, sowie frühere und zukünftige Versionen dieses Standards) definiert werden. Das Fahrzeug 800 kann in der Lage sein, Funktionen gemäß einer oder mehreren der Stufen 3 bis 5 der autonomen Fahrstufen zu erfüllen. Das Fahrzeug 800 kann Funktionen gemäß einem oder mehreren der Level 1 - Level 5 der autonomen Fahrstufen aufweisen. Beispielsweise kann das Fahrzeug 800 je nach Ausführungsform Fahrerassistenz (Stufe 1), Teilautomatisierung (Stufe 2), bedingte Automatisierung (Stufe 3), hohe Automatisierung (Stufe 4) und/oder vollständige Automatisierung (Stufe 5) bieten. Der Begriff „autonom“, wie er hier verwendet wird, kann jede und/oder alle Arten von Autonomie für das Fahrzeug 800 oder eine andere Maschine umfassen, wie z. B. vollständig autonom, hochgradig autonom, bedingt autonom, teilautonom, unterstützende Autonomie, teilautonom, primär autonom oder eine andere Bezeichnung.
Das Fahrzeug 800 kann Komponenten wie ein Fahrgestell, eine Fahrzeugkarosserie, Räder (z. B. 2, 4, 6, 8, 18 usw.), Reifen, Achsen und andere Komponenten eines Fahrzeugs umfassen. Das Fahrzeug 800 kann ein Antriebssystem 850 umfassen, wie z. B. einen Verbrennungsmotor, ein Hybrid-Elektrokraftwerk, einen reinen Elektromotor und/oder einen anderen Antriebssystemtyp. Das Antriebssystem 850 kann mit einem Antriebsstrang des Fahrzeugs 800 verbunden sein, der ein Getriebe umfassen kann, um den Antrieb des Fahrzeugs 800 zu ermöglichen. Das Antriebssystem 850 kann in Reaktion auf den Empfang von Signalen von der Drosselklappe/Beschleunigungsvorrichtung 852 gesteuert werden.
Ein Lenksystem 854, das ein Lenkrad umfassen kann, kann verwendet werden, um das Fahrzeug 800 zu lenken (z. B. entlang eines gewünschten Weges oder einer Route), wenn das Antriebssystem 850 in Betrieb ist (z. B. wenn das Fahrzeug in Bewegung ist). Das Lenksystem 854 kann Signale von einem Lenkaktor 856 empfangen. Das Lenkrad kann optional für die vollständige Automatisierung (Stufe 5) eingesetzt werden.
Das Bremssensorsystem 846 kann verwendet werden, um die Fahrzeugbremsen als Reaktion auf den Empfang von Signalen von den Bremsaktoren 848 und/oder Bremssensoren zu betätigen.
Controller 836, die ein oder mehrere System-on-Chips (SoCs) 804 (8C) und/oder GPU(s) enthalten können, können Signale (z. B. repräsentativ für Befehle) an eine oder mehrere Komponenten und/oder Systeme des Fahrzeugs 800 senden. Beispielsweise kann können die Controller Signale zur Betätigung der Fahrzeugbremsen über einen oder mehrere Bremsaktoren 848, zur Betätigung des Lenksystems 854 über einen oder mehrere Lenkaktuatoren 856 und zur Betätigung des Antriebssystems 850 über einen oder mehrere Drossel-/Gaspedal 852 senden. Die Controller 836 können eine oder mehrere fahrzeuginterne (z. B. integrierte) Rechenvorrichtungen (z. B. Supercomputer) umfassen, die Sensorsignale verarbeiten und Betriebsbefehle ausgeben (z. B. Signale, die Befehle darstellen), um autonomes Fahren zu ermöglichen und/oder einen menschlichen Fahrer beim Führen des Fahrzeugs 800 zu unterstützen. Die Controller 836 können einen ersten Controller 836 für autonome Fahrfunktionen, einen zweiten Controller 836 für funktionale Sicherheitsfunktionen, einen dritten Controller 836 für Funktionen der künstlichen Intelligenz (z. B. Computer-Vision), einen vierten Controller 836 für Infotainment-Funktionen, einen fünften Controller 836 für Redundanz unter Notfallbedingungen und/oder andere Controller umfassen. In einigen Beispielen kann ein einziger Controller 836 zwei oder mehr der oben genannten Funktionen übernehmen, zwei oder mehr Controller 836 können eine einzige Funktion übernehmen und/oder eine beliebige Kombination davon.
Die Controller 836 können die Signale zur Steuerung einer oder mehrerer Komponenten und/oder Systeme des Fahrzeugs 800 als Reaktion auf Sensordaten bereitstellen, die von einem oder mehreren Sensoren (z. B. Sensoreingaben) empfangen werden. Die Sensordaten können beispielsweise und ohne Einschränkung von (einem) Sensor(en) des globalen Navigationssatellitensystems 858 (z.B. Global Positioning System-Sensor(en)), RADAR-Sensor(en) 860, Ultraschallsensor(en) 862, LIDAR-Sensor(en) 864, Trägheitsmesseinheit (IMU)-Sensor(en) 866 (z.B., Beschleunigungsmesser, Gyroskop(e), Magnetkompass(e), Magnetometer usw.), Mikrofon(e) 896, Stereokamera(s) 868, Weitwinkelkamera(s) 870 (z. B., Fischaugenkameras), Infrarotkamera(s) 872, Surround-Kamera(s) 874 (z. B. 360-Grad-Kameras), Fern- und/oder Mittelbereichskamera(s) 898, Geschwindigkeitssensor(en) 844 (z. B. zur Messung der Geschwindigkeit des Fahrzeugs 800), Vibrationssensor(en) 842, Lenksensor(en) 840, Bremssensor(en) (z. B. als Teil des Bremssensorsystems 846) und/oder andere Sensortypen.
Ein oder mehrere Controller 836 können Eingaben (z. B. in Form von Eingabedaten) von einem Kombiinstrument 832 des Fahrzeugs 800 empfangen und Ausgaben (z. B. in Form von Ausgabedaten, Anzeigedaten usw.) über eine Anzeige 834 der Mensch-Maschine-Schnittstelle (HMI), einen akustischen Melder, einen Lautsprecher und/oder über andere Komponenten des Fahrzeugs 800 bereitstellen. Die Ausgaben können Informationen wie Fahrzeuggeschwindigkeit, Drehzahl, Zeit, Kartendaten (z. B. die HD-Karte 822 von 8C), Standortdaten (z. B. der Standort des Fahrzeugs 800, z. B. auf einer Karte), Richtung, Standort anderer Fahrzeuge (z. B. ein Belegungsraster), Informationen über Objekte und den Status von Objekten, wie von den Controllern 836 wahrgenommen, usw. umfassen. Beispielsweise kann die HMI-Anzeige 834 Informationen über das Vorhandensein eines oder mehrerer Objekte (z. B. ein Straßenschild, ein Warnschild, eine sich ändernde Ampel usw.) und/oder Informationen über Fahrmanöver anzeigen, die das Fahrzeug durchgeführt hat, gerade durchführt oder durchführen wird (z. B. jetzt die Spur wechseln, in zwei Meilen die Ausfahrt 34B nehmen usw.).
Das Fahrzeug 800 umfasst außerdem eine Netzwerkschnittstelle 824, die eine oder mehrere drahtlose Antenne(n) 826 und/oder Modem(e) zur Kommunikation über ein oder mehrere Netzwerke verwenden kann. Beispielsweise kann die Netzwerkschnittstelle 824 in der Lage sein, über LTE, WCDMA, UMTS, GSM, CDMA2000, etc. zu kommunizieren. Die drahtlose(n) Antenne(n) 826 kann/können auch die Kommunikation zwischen Objekten in der Umgebung (z. B. Fahrzeuge, mobile Geräte usw.) über lokale Netzwerke wie Bluetooth, Bluetooth LE, Z-Wave, ZigBee usw. und/oder Low Power Wide Area Networks (LPWANs) wie LoRaWAN, SigFox usw. ermöglichen.
8B ist ein Beispiel für Kamerapositionen und Sichtfelder für das autonome Fahrzeug 800 von 8A, gemäß einigen Ausführungsformen der vorliegenden Offenbarung. Die Kameras und die jeweiligen Sichtfelder sind ein Ausführungsbeispiel und nicht als Einschränkung zu verstehen. Beispielsweise können zusätzliche und/oder alternative Kameras enthalten sein und/oder die Kameras können sich an verschiedenen Stellen des Fahrzeugs 800 befinden.
Die Kameratypen für die Kameras können unter anderem Digitalkameras sein, die für die Verwendung mit den Komponenten und/oder Systemen des Fahrzeugs 800 angepasst werden können. Die Kamera(s) kann/können mit der Sicherheitsstufe B (ASIL) und/oder einer anderen ASIL betrieben werden. Die Kameratypen können je nach Ausführungsform eine beliebige Bildaufnahmerate aufweisen, z. B. 60 Bilder pro Sekunde (fps), 120 fps, 240 fps usw. Die Kameras können einen Rollblendenverschluss, globalen Blendenverschluss, einen anderen Verschlusstyp oder eine Kombination davon verwenden. In einigen Beispielen kann die Farbfilteranordnung eine Rot-Klar-Klar-Klar-Farbfilteranordnung (RCCC), eine Rot-Klar-Klar-Blau-Farbfilteranordnung (RCCB), eine Rot-Blau-Grün-Klar-Farbfilteranordnung (RBGC), eine Foveon X3-Farbfilteranordnung, eine Bayer-Sensor-Farbfilteranordnung (RGGB), eine Monochromsensor-Farbfilteranordnung und/oder eine andere Art von Farbfilteranordnung umfassen. In einigen Ausführungsformen können Kameras mit klaren Pixeln, wie z. B. Kameras mit einer RCCC-, einer RCCB- und/oder einer RBGC-Farbfilteranordnung, verwendet werden, um die Lichtempfindlichkeit zu erhöhen.
In einigen Beispielen können eine oder mehrere der Kameras verwendet werden, um erweiterte Fahrerassistenzsysteme (ADAS) auszuführen (z. B. als Teil einer redundanten oder ausfallsicheren Konstruktion). Beispielsweise kann eine Multifunktions-Monokamera installiert werden, um Funktionen wie Spurhalteassistent, Verkehrszeichenassistent und intelligente Scheinwerfersteuerung bereitzustellen. Eine oder mehrere der Kameras (z. B. alle Kameras) können gleichzeitig Bilddaten (z. B. Video) aufzeichnen und liefern.
Eine oder mehrere Kameras können in einer Montagevorrichtung, z. B. einer kundenspezifischen (3-D-gedruckten) Vorrichtung, montiert werden, um Streulicht und Reflexionen aus dem Fahrzeuginneren (z. B. Reflexionen vom Armaturenbrett, die sich in den Windschutzscheibenspiegeln spiegeln) auszuschalten, die die Bilddatenerfassung der Kamera beeinträchtigen könnten. Bei der Montage von Außenspiegeln können die Außenspiegel kundenspezifisch in 3D gedruckt werden, so dass die Kameramontageplatte der Form des Außenspiegels entspricht. In einigen Beispielen kann die Kamera bzw. können die Kameras in den Außenspiegel integriert werden. Bei Seitenkameras können die Kameras auch in die vier Säulen an jeder Ecke der Kabine integriert werden.
Kameras mit einem Sichtfeld, das Teile der Umgebung vor dem Fahrzeug 800 einschließt (z. B. nach vorne gerichtete Kameras), können für die Umgebungsansicht verwendet werden, um dabei zu helfen, nach vorne gerichtete Wege und Hindernisse zu identifizieren, sowie mit Hilfe eines oder mehrerer Controller 836 und/oder Steuer-SoCs Informationen bereitzustellen, die für die Erstellung eines Belegungsgitters und/oder die Bestimmung der bevorzugten Fahrzeugwege entscheidend sind. Nach vorne gerichtete Kameras können verwendet werden, um viele der gleichen ADAS-Funktionen wie LIDAR auszuführen, einschließlich Notbremsung, Fußgängererkennung und Kollisionsvermeidung. Nach vorne gerichtete Kameras können auch für ADAS-Funktionen und -Systeme wie Spurverlassenswarnung (LDW), autonome Geschwindigkeitsregelung (ACC) und/oder andere Funktionen wie Verkehrszeichenerkennung verwendet werden.
In einer nach vorne gerichteten Konfiguration kann eine Vielzahl von Kameras verwendet werden, beispielsweise eine monokulare Kameraplattform mit einem CMOS (Komplementär-Metalloxid-Halbleiter) Farbbildgeber. Ein weiteres Beispiel sind eine oder mehrere Weitwinkelkameras 870, die zur Wahrnehmung von Objekten verwendet werden können, die von der Peripherie her ins Blickfeld kommen (z. B. Fußgänger, kreuzende Fahrzeuge oder Fahrräder). Obwohl in 8B nur eine Weitwinkelkamera dargestellt ist, kann das Fahrzeug 800 mit einer beliebigen Anzahl von Weitwinkelkameras 870 ausgestattet sein. Darüber hinaus kann/können eine oder mehrere Kameras mit großer Reichweite 898 (z. B. ein Stereokamerapaar mit großer Reichweite) für die tiefenbasierte Objekterkennung verwendet werden, insbesondere für Objekte, für die ein neuronales Netz noch nicht trainiert wurde. Die Weitbereichskamera(s) 898 kann/können auch zur Objekterkennung und -klassifizierung sowie zur grundlegenden Objektverfolgung eingesetzt werden. Beispielsweise kann/können die Weitbereichskamera(s) 898 Sensordaten 102 erzeugen.
Eine oder mehrere Stereokameras 868 können auch in einer nach vorne gerichteten Konfiguration enthalten sein. Die Stereokamera(s) 868 kann/können eine integrierte Steuereinheit aufweisen, die eine skalierbare Verarbeitungseinheit aufweist, die eine programmierbare Logik (FPGA) und einen Multi-Core-Mikroprozessor mit integrierter CAN- oder Ethernet-Schnittstelle auf einem einzigen Chip bereitstellen kann. Mit einer solchen Einheit kann eine 3D-Karte der Fahrzeugumgebung erstellt werden, einschließlich einer Entfernungsschätzung für alle Punkte im Bild. Eine alternative Stereokamera(s) 868 kann einen oder mehrere kompakte Stereosicht-Sensoren mit zwei Kameraobjektiven (je eines links und rechts) und einen Bildverarbeitungschip umfassen, der die Entfernung zwischen dem Fahrzeug und dem Zielobjekt messen und die erzeugten Informationen (z. B. Metadaten) zur Aktivierung der autonomen Notbrems- und Spurhaltewarnfunktionen verwenden kann. Zusätzlich oder alternativ zu den hier beschriebenen Stereokameras können auch andere Typen von Stereokameras (868) verwendet werden.
Kameras mit einem Sichtfeld, das Teile der Umgebung seitlich des Fahrzeugs 800 einschließt (z. B. Seitenkameras), können für die Umgebungsansicht verwendet werden und Informationen liefern, die zur Erstellung und Aktualisierung des Belegungsrasters sowie zur Erzeugung von Kollisionswarnungen bei Seitenaufprall verwendet werden. Beispielsweise kann/können die Surround-Kamera(s) 874 (z. B. vier Surround-Kameras 874 wie in 8B dargestellt) am Fahrzeug 800 positioniert werden. Die Surround-Kamera(s) 874 kann/können Weitwinkelkamera(s) 870, Fischaugenkamera(s), 360-Grad-Kamera(s) und/oder Ähnliches umfassen. Beispielsweise können vier Fischaugenkameras an der Vorderseite, am Heck und an den Seiten des Fahrzeugs angebracht sein. In einer alternativen Anordnung kann das Fahrzeug drei Surround-Kameras 874 (z. B. links, rechts und hinten) verwenden und eine oder mehrere andere Kamera(s) (z. B. eine nach vorne gerichtete Kamera) als vierte Surround-Kamera nutzen.
Kameras mit einem Sichtfeld, das Teile der Umgebung hinter dem Fahrzeug 800 einschließt (z. B. Rückfahrkameras), können für die Einparkhilfe, die Umgebungsansicht, Heckkollisionswarnungen und die Erstellung und Aktualisierung des Belegungsrasters verwendet werden. Es kann eine Vielzahl von Kameras verwendet werden, einschließlich, aber nicht beschränkt auf Kameras, die auch als nach vorne gerichtete Kamera(s) geeignet sind (z. B. Fern- und/oder Mittelbereichskamera(s) 898, Stereokamera(s) 868, Infrarotkamera(s) 872 usw.), wie hier beschrieben.
Es versteht sich, dass Fernkamera(s) 898, Surround-Kamera(s) 874, Stereokamera(s) 868, Infrarotkamera(s) 872 oder jeder andere Sensor Sensordaten 102 erzeugen kann, die als Eingabe für maschinelle Lernmodelle bereitgestellt werden können (z. B. maschinelle Lernmodelle 104, die in Bezug auf die 1 und 5 beschrieben).
8C ist ein Blockdiagramm einer beispielhaften Systemarchitektur für das beispielhafte autonome Fahrzeug 800 von 8A, gemäß einigen Ausführungsformen der vorliegenden Offenbarung. Es sollte verstanden werden, dass diese und andere hier beschriebene Anordnungen nur als Beispiele dargestellt werden. Andere Anordnungen und Elemente (z. B. Maschinen, Schnittstellen, Funktionen, Anordnungen, Gruppierungen von Funktionen usw.) können zusätzlich zu oder anstelle der dargestellten verwendet werden, und einige Elemente können ganz weggelassen werden. Außerdem sind viele der hier beschriebenen Elemente funktionale Einheiten, die als einzelne oder verteilte Komponenten oder in Verbindung mit anderen Komponenten und in jeder geeigneten Kombination und an jedem geeigneten Ort implementiert werden können. Verschiedene hier beschriebene Funktionen, die von Einheiten ausgeführt werden, können von Hardware, Firmware und/oder Software ausgeführt werden. Beispielsweise können verschiedene Funktionen von einem Prozessor ausgeführt werden, der im Speicher gespeicherte Anweisungen ausführt.
Alle Komponenten, Merkmale und Systeme des Fahrzeugs 800 in 8C sind als über den Bus 802 verbunden dargestellt. Der Bus 802 kann eine Controller Area Network (CAN)-Datenschnittstelle (hier alternativ als „CAN-Bus“ bezeichnet) umfassen. Ein CAN-Bus kann ein Netzwerk innerhalb des Fahrzeugs 800 sein, das zur Unterstützung der Steuerung verschiedener Merkmale und Funktionen des Fahrzeugs 800 verwendet wird, wie z. B. Betätigung von Bremsen, Beschleunigung, Bremsen, Lenkung, Scheibenwischern usw. Ein CAN-Bus kann so konfiguriert sein, dass er Dutzende oder sogar Hunderte von Knoten hat, jeder mit seiner eigenen eindeutigen Kennung (z. B. einer CAN-ID). Der CAN-Bus kann ausgelesen werden, um den Lenkradwinkel, die Fahrgeschwindigkeit, die Motordrehzahl (RPM), die Tastenpositionen und/oder andere Fahrzeugstatusanzeigen zu ermitteln. Der CAN-Bus kann ASIL B-konform sein.
Obwohl der Bus 802 hier als CAN-Bus beschrieben wird, ist dies nicht als Einschränkung zu verstehen. Beispielsweise können zusätzlich oder alternativ zum CAN-Bus auch FlexRay und/oder Ethernet verwendet werden. Auch wenn der Bus 802 durch eine einzige Leitung dargestellt wird, ist dies nicht als Einschränkung zu verstehen. Beispielsweise kann es eine beliebige Anzahl von Bussen 802 geben, die einen oder mehrere CAN-Busse, einen oder mehrere FlexRay-Busse, einen oder mehrere Ethernet-Busse und/oder einen oder mehrere andere Arten von Bussen mit einem anderen Protokoll umfassen können. In einigen Beispielen können zwei oder mehr Busse 802 verwendet werden, um unterschiedliche Funktionen auszuführen, und/oder sie können zur Redundanz verwendet werden. Beispielsweise kann ein erster Bus 802 für die Kollisionsvermeidungsfunktionalität und ein zweiter Bus 802 für die Betätigungssteuerung verwendet werden. In jedem Beispiel kann jeder Bus 802 mit jeder der Komponenten des Fahrzeugs 800 kommunizieren, und zwei oder mehr Busse 802 können mit denselben Komponenten kommunizieren. In einigen Beispielen kann jeder SoC 804, jeder Controller 836 und/oder jeder Computer innerhalb des Fahrzeugs Zugriff auf dieselben Eingangsdaten haben (z. B. Eingaben von Sensoren des Fahrzeugs 800) und mit einem gemeinsamen Bus, wie dem CAN-Bus, verbunden sein.
Das Fahrzeug 800 kann ein oder mehrere Controller 836 enthalten, wie sie hier in Bezug auf 8A beschrieben sind. Die Controller 836 können für eine Vielzahl von Funktionen verwendet werden. Die Controller 836 können mit verschiedenen anderen Komponenten und Systemen des Fahrzeugs 800 gekoppelt werden und können zur Steuerung des Fahrzeugs 800, zur künstlichen Intelligenz des Fahrzeugs 800, zum Infotainment des Fahrzeugs 800 und/oder ähnlichem verwendet werden.
Das Fahrzeug 800 kann ein oder mehrere System(e) auf einem Chip (SoC) 804 enthalten. Der SoC 804 kann CPU(s) 806, GPU(s) 808, Prozessor(en) 810, Cache(s) 812, Beschleuniger 814, Datenspeicher 816 und/oder andere nicht dargestellte Komponenten und Merkmale umfassen. Der/die SoC(s) 804 kann/können zur Steuerung des Fahrzeugs 800 in einer Vielzahl von Plattformen und Systemen verwendet werden. Beispielsweise kann/können der/die SoC(s) 804 in einem System (z. B. dem System des Fahrzeugs 800) mit einer HD-Karte 822 kombiniert werden, die über eine Netzwerkschnittstelle 824 von einem oder mehreren Servern (z. B. dem/den Server(n) 878 von 8D) Kartenauffrischungen und/oder -aktualisierungen erhalten kann.
Die CPU(s) 806 kann/können einen CPU-Cluster oder CPU-Komplex (hier auch als „CCPLEX“ bezeichnet) umfassen. Die CPU(s) 806 kann/können mehrere Kerne und/oder L2-Caches enthalten. Beispielsweise können in einigen Ausführungsformen die CPU(s) 806 acht Kerne in einer kohärenten Multiprozessorkonfiguration umfassen. In einigen Ausführungsformen kann (können) die CPU(s) 806 vier Dual-Core-Cluster umfassen, wobei jeder Cluster über einen dedizierten L2-Cache verfügt (z. B. einen 2 MB L2-Cache). Die CPU(s) 806 (z. B. der CCPLEX) kann so konfiguriert sein, dass sie den gleichzeitigen Clusterbetrieb unterstützt, so dass jede Kombination der Cluster der CPU(s) 806 zu jedem Zeitpunkt aktiv sein kann.
Die CPU(s) 806 kann/können Energieverwaltungsfunktionen implementieren, die eines oder mehrere der folgenden Merkmale umfassen: einzelne Hardwareblöcke können im Leerlauf automatisch taktgesteuert werden, um dynamische Energie zu sparen; jeder Kerntakt kann gesteuert werden, wenn der Kern aufgrund der Ausführung von WFI/WFE-Befehlen nicht aktiv Befehle ausführt; jeder Kern kann unabhängig stromgesteuert werden; jeder Kerncluster kann unabhängig taktgesteuert werden, wenn alle Kerne taktgesteuert oder stromgesteuert sind; und/oder jeder Kerncluster kann unabhängig stromgesteuert werden, wenn alle Kerne stromgesteuert sind. Die CPU(s) 806 kann/können darüber hinaus einen erweiterten Algorithmus zur Verwaltung von Energiezuständen implementieren, bei dem zulässige Energiezustände und erwartete Aufwachzeiten festgelegt werden und die Hardware/der Mikrocode den besten Energiezustand für den Kern, den Cluster und CCPLEX bestimmt. Die Prozessorkerne können vereinfachte Sequenzen für den Eintritt in den Energiezustand in Software unterstützen, wobei die Arbeit an den Mikrocode ausgelagert wird.
Die GPU(s) 808 kann/können eine integrierte GPU (hier auch als „iGPU“ bezeichnet) umfassen. Die GPU(s) 808 kann/können programmierbar und für parallele Arbeitslasten effizient sein. Die GPU(s) 808 kann/können in einigen Beispielen einen erweiterten Tensor-Befehlssatz verwenden. Die GPU(s) 808 kann/können einen oder mehrere Streaming-Mikroprozessoren enthalten, wobei jeder Streaming-Mikroprozessor einen L1-Cache (z. B. einen L1-Cache mit mindestens 96 KB Speicherkapazität) enthalten kann und zwei oder mehr der Streaming-Mikroprozessoren einen L2-Cache (z. B. einen L2-Cache mit 512 KB Speicherkapazität) gemeinsam nutzen können. In einigen Ausführungsformen können die GPU(s) 808 mindestens acht Streaming-Mikroprozessoren umfassen. Die GPU(s) 808 kann/können Anwendungsprogrammierschnittstelle(n) (API(s)) für Berechnungen verwenden. Darüber hinaus können die GPU(s) 808 eine oder mehrere parallele Rechenplattformen und/oder Programmiermodelle (z. B. CUDA von NVIDIA) verwenden.
Die GPU(s) 808 808 kann/können für die beste Leistung in Automobil- und eingebetteten Anwendungsfällen optimiert werden. Beispielsweise können die GPU(s) 808 auf einem Fin-Feldeffekttransistor (FinFET) hergestellt werden. Dies ist jedoch nicht als Einschränkung zu verstehen, und die GPU(s) 808 können auch mit anderen Halbleiterfertigungsverfahren hergestellt werden. Jeder Streaming-Mikroprozessor kann eine Anzahl von gemischt-präzisen Rechenkernen enthalten, die in mehrere Blöcke unterteilt sind. Beispielsweise können 64 PF32-Kerne und 32 PF64-Kerne in vier Verarbeitungsblöcke unterteilt werden. In einem solchen Beispiel können jedem Verarbeitungsblock 16 FP32-Kerne, 8 FP64-Kerne, 16 INT32-Kerne, zwei NVIDIA TENSOR COREs mit gemischter Präzision für Deep-Learning-Matrixarithmetik, ein L0-Befehlscache, ein Warp-Scheduler, eine Dispatch-Einheit und/oder eine 64-KB-Registerdatei zugewiesen werden. Darüber hinaus können die Streaming-Mikroprozessoren unabhängige parallele Ganzzahl- und Gleitkommadatenpfade enthalten, um eine effiziente Ausführung von Arbeitslasten mit einer Mischung aus Berechnungen und Adressierungsberechnungen zu ermöglichen. Die Streaming-Mikroprozessoren können eine unabhängige Thread-Planungsfunktion enthalten, um eine feinere Synchronisierung und Zusammenarbeit zwischen parallelen Threads zu ermöglichen. Die Streaming-Mikroprozessoren können einen kombinierten L1-Datencache und eine gemeinsame Speichereinheit enthalten, um die Leistung zu verbessern und gleichzeitig die Programmierung zu vereinfachen.
Die GPU(s) 808 808 kann/können einen Speicher mit hoher Bandbreite (HBM) und/oder ein 16-GB-HBM2-Speicher-Subsystem umfassen, um in einigen Beispielen eine Spitzen-Speicherbandbreite von etwa 900 GB/Sekunde bereitzustellen. In einigen Beispielen kann zusätzlich oder alternativ zum HBM-Speicher ein synchroner Grafik-Direktzugriffsspeicher (SGRAM) verwendet werden, beispielsweise ein synchroner Grafik-Doppeldatenraten-Direktzugriffsspeicher vom Typ 5 (GDDR5).
Die GPU(s) 808 kann/können eine Unified-Memory-Technologie mit Zugriffszählern enthalten, um eine genauere Migration von Speicherseiten zu dem Prozessor zu ermöglichen, der am häufigsten auf sie zugreift, wodurch die Effizienz von Speicherbereichen verbessert wird, die von den Prozessoren gemeinsam genutzt werden. In einigen Beispielen kann die Unterstützung von Adressübersetzungsdiensten (ATS) verwendet werden, damit die GPU(s) 808 direkt auf die Seitentabellen der CPU(s) 806 zugreifen können. In solchen Beispielen kann, wenn die Speicherverwaltungseinheit (MMU) der GPU(s) 808 einen Fehler feststellt, eine Adressübersetzungsanforderung an die CPU(s) 806 übermittelt werden. Als Reaktion darauf kann die CPU(s) 806 in ihren Seitentabellen nach der virtuell-physikalischen Zuordnung für die Adresse suchen und die Übersetzung an die GPU(s) 808 zurückübertragen. So kann die Unified-Memory-Technologie einen einzigen, einheitlichen virtuellen Adressraum für den Speicher sowohl der CPU(s) 806 als auch der GPU(s) 808 ermöglichen und dadurch die Programmierung der GPU(s) 808 und die Portierung von Anwendungen auf die GPU(s) 808 vereinfachen.
Darüber hinaus kann die GPU(s) 808 einen Zugriffszähler enthalten, der die Häufigkeit des Zugriffs der GPU(s) 808 auf den Speicher anderer Prozessoren verfolgt. Der Zugriffszähler kann dazu beitragen, dass Speicherseiten in den physikalischen Speicher desjenigen Prozessors verschoben werden, der am häufigsten auf die Seiten zugreift.
Der/die SoC(s) 804 kann/können eine beliebige Anzahl von Cache(s) 812 enthalten, einschließlich der hier beschriebenen. Beispielsweise kann der/die Cache(s) 812 einen L3-Cache enthalten, der sowohl für die CPU(s) 806 als auch für die GPU(s) 808 verfügbar ist (z. B. der sowohl mit der/den CPU(s) 806 als auch mit der/den GPU(s) 808 verbunden ist). Der/die Cache(s) 812 kann/können einen Write-Back-Cache enthalten, der die Zustände von Zeilen verfolgen kann, z. B. durch Verwendung eines Cache-Kohärenzprotokolls (z. B. MEI, MESI, MSI usw.). Der L3-Cache kann je nach Ausführungsform 4 MB oder mehr umfassen, obwohl auch kleinere Cache-Größen verwendet werden können.
Der/die SoC(s) 804 kann/können eine arithmetische Logikeinheit(en) (ALU(s)) enthalten, die bei der Durchführung von Verarbeitungen in Bezug auf eine der verschiedenen Aufgaben oder Operationen des Fahrzeugs 800 - wie z. B. die Verarbeitung von DNNs - genutzt werden kann. Darüber hinaus kann/können der/die SoC(s) 804 eine Gleitkommaeinheit(en) (FPU(s)) - oder andere mathematische Coprozessoren oder numerische Coprozessor-Typen - zur Durchführung mathematischer Operationen innerhalb des Systems enthalten. Beispielsweise können die SoC(s) 104 eine oder mehrere FPUs enthalten, die als Ausführungseinheiten in eine CPU(s) 806 und/oder GPU(s) 808 integriert sind.
Der/die SoC(s) 804 kann/können einen oder mehrere Beschleuniger 814 enthalten (z. B. Hardware-Beschleuniger, Software-Beschleuniger oder eine Kombination davon). Beispielsweise können die SoC(s) 804 einen Hardware-Beschleunigungscluster enthalten, der optimierte Hardware-Beschleuniger und/oder einen großen On-Chip-Speicher umfassen kann. Der große On-Chip-Speicher (z. B. 4 MB SRAM) kann den Hardware-Beschleunigungscluster in die Lage versetzen, neuronale Netzwerke und andere Berechnungen zu beschleunigen. Der Hardware-Beschleunigungscluster kann zur Ergänzung der GPU(s) 808 und zur Entlastung einiger Aufgaben der GPU(s) 808 verwendet werden (z. B. um mehr Zyklen der GPU(s) 808 für die Durchführung anderer Aufgaben freizugeben). Beispielsweise kann/können der/die Beschleuniger 814 für gezielte Arbeitslasten (z. B. Wahrnehmung, Faltungsneuronale Netze (CNNs) usw.) verwendet werden, die stabil genug sind, um für eine Beschleunigung geeignet zu sein. Der hier verwendete Begriff „CNN“ kann alle Arten von CNNs umfassen, einschließlich regionenbasierter oder regionaler neuronaler Faltungsnetze (RCNNs) und schneller RCNNs (z. B. für die Objekterkennung).
Der/die Beschleuniger 814 (z. B. der Hardware-Beschleunigungscluster) kann/können einen Deep-Learning-Beschleuniger (DLA) enthalten. Der/die DLA(s) kann/können eine oder mehrere Tensor Processing Units (TPUs) umfassen, die so konfiguriert sein können, dass sie zusätzliche zehn Billionen Operationen pro Sekunde für Deep-Learning-Anwendungen und Inferenz bereitstellen. Bei den TPUs kann es sich um Beschleuniger handeln, die für die Ausführung von Bildverarbeitungsfunktionen (z. B. für CNNs, RCNNs usw.) konfiguriert und optimiert sind. Die DLA(s) kann/können darüber hinaus für einen bestimmten Satz neuronaler Netzwerktypen und Gleitkommaoperationen sowie für die Inferenz optimiert sein. Das Design der DLA(s) kann mehr Leistung pro Millimeter bieten als eine Allzweck-GPU und übertrifft die Leistung einer CPU bei weitem. Die TPU(s) kann/können mehrere Funktionen ausführen, einschließlich einer Einzelinstanz-Faltungsfunktion, die beispielsweise INT8-, INT 16- und FP16-Datentypen sowohl für Merkmale als auch für Gewichte unterstützt, sowie Postprozessorfunktionen.
Die DLA(s) können schnell und effizient neuronale Netze, insbesondere CNNs, auf verarbeiteten oder unverarbeiteten Daten für eine Vielzahl von Funktionen ausführen, darunter beispielsweise und ohne Einschränkung: ein CNN für die Identifizierung und Erkennung von Objekten unter Verwendung von Daten von Kamerasensoren; ein CNN für die Abstandsschätzung unter Verwendung von Daten von Kamerasensoren; ein CNN für die Erkennung und Identifizierung von Einsatzfahrzeugen und die Erkennung unter Verwendung von Daten von Mikrofonen; ein CNN für die Gesichtserkennung und die Identifizierung von Fahrzeugbesitzern unter Verwendung von Daten von Kamerasensoren; und/oder ein CNN für sicherheitsbezogene Ereignisse.
Die DLA(s) können jede Funktion der GPU(s) 808 ausführen, und durch die Verwendung eines Inferenzbeschleunigers kann ein Entwickler beispielsweise entweder die DLA(s) oder die GPU(s) 808 für eine beliebige Funktion einsetzen. Beispielsweise kann der Entwickler die Verarbeitung von CNNs und Gleitkommaoperationen auf die DLA(s) konzentrieren und andere Funktionen der GPU(s) 808 und/oder anderen Beschleunigern 814 überlassen.
Der/die Beschleuniger 814 (z. B. der Hardware-Beschleunigungscluster) kann/können einen programmierbaren Vision-Beschleuniger (PVA) umfassen, der hier alternativ auch als Computer-Vision-Beschleuniger bezeichnet werden kann. Der/die PVA(s) kann/können zur Beschleunigung von Computer-Vision-Algorithmen für fortschrittliche Fahrerassistenzsysteme (ADAS), autonomes Fahren und/oder Augmented-Reality- (AR) und/oder Virtual-Reality- (VR) Anwendungen entwickelt und konfiguriert werden. Die PVA(s) können ein Gleichgewicht zwischen Leistung und Flexibilität bieten. Beispielsweise kann jeder PVA eine beliebige Anzahl von RISC-Kernen (Computer mit reduziertem Befehlssatz), direkten Speicherzugriff (DMA) und/oder eine beliebige Anzahl von Vektorprozessoren umfassen.
Die RISC-Kerne können mit Bildsensoren (z. B. den Bildsensoren einer der hier beschriebenen Kameras), Bildsignalprozessoren und/oder dergleichen zusammenwirken. Jeder der RISC-Kerne kann eine beliebige Menge an Speicher enthalten. Die RISC-Kerne können je nach Ausführungsform eine beliebige Anzahl von Protokollen verwenden. In einigen Beispielen können die RISC-Kerne ein Echtzeitbetriebssystem (RTOS) ausführen. Die RISC-Kerne können mit einem oder mehreren integrierten Schaltungen, anwendungsspezifischen integrierten Schaltungen (ASICs) und/oder Speicherbausteinen implementiert werden. Beispielsweise können die RISC-Kerne einen Befehls-Cache und/oder ein eng gekoppeltes RAM enthalten.
Der DMA kann es Komponenten der PVA(s) ermöglichen, unabhängig von der/den CPU(s) 806 auf den Systemspeicher zuzugreifen. Der DMA kann eine beliebige Anzahl von Funktionen unterstützen, die zur Optimierung des PVA verwendet werden, einschließlich, aber nicht beschränkt auf die Unterstützung von mehrdimensionaler Adressierung und/oder zirkulärer Adressierung. In einigen Beispielen kann der DMA bis zu sechs oder mehr Dimensionen der Adressierung unterstützen, die Blockbreite, Blockhöhe, Blocktiefe, horizontale Blockabstufung, vertikale Blockabstufung und/oder Tiefenabstufung umfassen können.
Bei den Vektorprozessoren kann es sich um programmierbare Prozessoren handeln, die so konzipiert sein können, dass sie die Programmierung von Computer-Vision-Algorithmen effizient und flexibel ausführen und Signalverarbeitungsfunktionen bereitstellen. In einigen Beispielen kann der PVA einen PVA-Kern und zwei Vektorverarbeitungs-Subsystem-Partitionen umfassen. Der PVA-Kern kann ein Prozessor-Subsystem, DMA-Engine(s) (z.B. zwei DMA-Engines) und/oder andere Peripheriegeräte umfassen. Das Vektorverarbeitungs-Teilsystem kann als primäre Verarbeitungseinheit des PVA fungieren und eine Vektorverarbeitungseinheit (VPU), einen Befehlscache und/oder einen Vektorspeicher (z. B. VMEM) umfassen. Ein VPU-Kern kann einen digitalen Signalprozessor enthalten, beispielsweise einen digitalen Signalprozessor mit einer einzigen Anweisung und mehreren Daten (SIMD) und sehr langen Anweisungsworten (VLIW). Die Kombination von SIMD und VLIW kann den Durchsatz und die Geschwindigkeit erhöhen.
Jeder der Vektorprozessoren kann einen Befehls-Cache enthalten und mit einem dedizierten Speicher gekoppelt sein. Folglich kann in einigen Beispielen jeder der Vektorprozessoren so konfiguriert sein, dass er unabhängig von den anderen Vektorprozessoren arbeitet. In anderen Beispielen können die Vektorprozessoren, die in einem bestimmten PVA enthalten sind, so konfiguriert sein, dass sie Datenparallelität verwenden. Beispielsweise kann in einigen Ausführungsformen die Mehrzahl der in einem einzigen PVA enthaltenen Vektorprozessoren denselben Computer-Vision-Algorithmus ausführen, jedoch für unterschiedliche Bereiche eines Bildes. In anderen Beispielen können die in einem bestimmten PVA enthaltenen Vektorprozessoren gleichzeitig verschiedene Computer-Vision-Algorithmen für dasselbe Bild oder sogar verschiedene Algorithmen für aufeinander folgende Bilder oder Teile eines Bildes ausführen. Unter anderem kann eine beliebige Anzahl von PVAs im Hardware-Beschleunigungscluster enthalten sein und eine beliebige Anzahl von Vektorprozessoren in jeder der PVAs. Darüber hinaus können die PVA(s) einen zusätzlichen Fehlerkorrekturcode (ECC) Speicher enthalten, um die Sicherheit des Gesamtsystems zu erhöhen.
Der (die) Beschleuniger 814 (z. B. der Hardware-Beschleunigungscluster) kann (können) ein Computer-Vision-Netzwerk auf dem Chip und SRAM enthalten, um ein SRAM mit hoher Bandbreite und niedriger Latenz für den (die) Beschleuniger 814 bereitzustellen. In einigen Beispielen kann der On-Chip-Speicher mindestens 4 MB SRAM umfassen, der beispielsweise und ohne Einschränkung aus acht feldkonfigurierbaren Speicherblöcken besteht, auf die sowohl der PVA als auch die DLA zugreifen können. Jedes Paar von Speicherblöcken kann eine APB-Schnittstelle (Advanced Peripheral Bus), Konfigurationsschaltungen, einen Controller und einen Multiplexer umfassen. Es kann jeder beliebige Speichertyp verwendet werden. Der PVA und die DLA können auf den Speicher über ein Backbone zugreifen, das dem PVA und der DLA einen Hochgeschwindigkeitszugriff auf den Speicher ermöglicht. Das Backbone kann ein Computer-Vision-Netzwerk auf dem Chip umfassen, das den PVA und die DLA mit dem Speicher verbindet (z. B. unter Verwendung des APB).
Das Computer-Vision-Netz auf dem Chip kann eine Schnittstelle enthalten, die vor der Übertragung von Steuersignalen/Adressen/Daten feststellt, dass sowohl der PVA als auch die DLA einsatzbereite und gültige Signale liefern. Eine solche Schnittstelle kann getrennte Phasen und getrennte Kanäle für die Übertragung von Steuersignalen/Adressen/Daten sowie eine Burst-Kommunikation für die kontinuierliche Datenübertragung vorsehen. Diese Art von Schnittstelle kann den Normen ISO 26262 oder IEC 61508 entsprechen, obwohl auch andere Normen und Protokolle verwendet werden können.
In einigen Beispielen können die SoC(s) 804 einen Echtzeit-Raytracing-Hardwarebeschleuniger enthalten, wie er in der US-Patentanmeldung Nr. 16/101,232 beschrieben ist, die am 10. August 2018 eingereicht wurde. Der Echtzeit-Raytracing-Hardwarebeschleuniger kann verwendet werden, um schnell und effizient die Positionen und Ausdehnungen von Objekten (z. B. innerhalb eines Weltmodells) zu bestimmen, um Echtzeit-Visualisierungssimulationen zu erzeugen, für die RADAR-Signalinterpretation, für die Schallausbreitungssynthese und/oder -analyse, für die Simulation von SONAR-Systemen, für die allgemeine Wellenausbreitungssimulation, für den Vergleich mit LIDAR-Daten zum Zweck der Lokalisierung und/oder für andere Funktionen und/oder für andere Zwecke. In einigen Ausführungsformen können eine oder mehrere Tree Traversal Units (TTUs) für die Ausführung einer oder mehrerer Operationen im Zusammenhang mit der Strahlenverfolgung verwendet werden.
Der/die Beschleuniger 814 (z. B. der Hardware-Beschleuniger-Cluster) kann/können für das autonome Fahren auf vielfältige Weise eingesetzt werden. Der PVA kann ein programmierbarer Bildverarbeitungsbeschleuniger sein, der für wichtige Verarbeitungsschritte in ADAS und autonomen Fahrzeugen verwendet werden kann. Die Fähigkeiten der PVA eignen sich gut für algorithmische Bereiche, die eine vorhersehbare Verarbeitung bei geringem Stromverbrauch und geringer Latenzzeit erfordern. Mit anderen Worten: Die PVA eignet sich gut für halbdichte oder dichte reguläre Berechnungen, selbst bei kleinen Datensätzen, die vorhersehbare Laufzeiten mit geringer Latenz und geringem Stromverbrauch erfordern. Im Zusammenhang mit Plattformen für autonome Fahrzeuge sind die PVAs daher für die Ausführung klassischer Computer-Vision-Algorithmen konzipiert, da sie bei der Objekterkennung und der Verarbeitung ganzzahliger mathematischer Daten effizient sind.
Beispielsweise wird gemäß einer Ausführungsform der Technologie der PVA zur Durchführung von Computer-Stereovision verwendet. In einigen Beispielen kann ein auf semiglobaler Anpassung basierender Algorithmus verwendet werden, obwohl dies nicht als Einschränkung gedacht ist. Viele Anwendungen für das autonome Fahren der Stufen 3 bis 5 erfordern eine fliegende Bewegungsabschätzung/Stereoabgleich (z. B. Struktur aus Bewegung, Fußgängererkennung, Fahrspurerkennung usw.). Der PVA kann eine Computer-Stereosichtfunktion auf der Grundlage von Eingaben von zwei monokularen Kameras ausführen.
In einigen Beispielen kann der PVA verwendet werden, um einen dichten optischen Fluss durchzuführen. Entsprechend der Verarbeitung von RADAR-Rohdaten (z. B. unter Verwendung einer 4D-Fast-Fourier-Transformation), um verarbeitete RADAR-Daten zu erhalten. In anderen Beispielen wird der PVA für die Flugzeittiefenverarbeitung verwendet, indem beispielsweise Flugzeit-Rohdaten verarbeitet werden, um verarbeitete Flugzeitdaten zu erhalten.
Mit dem DLA kann jede Art von Netz zur Verbesserung der Kontrolle und der Fahrsicherheit betrieben werden, beispielsweise ein neuronales Netz, das für jede Objekterkennung einen Vertrauenswert ausgibt. Ein solcher Konfidenzwert kann als Wahrscheinlichkeit oder als relative „Gewichtung“ der einzelnen Erkennungen im Vergleich zu anderen Erkennungen interpretiert werden. Dieser Konfidenzwert ermöglicht es dem System, weitere Entscheidungen darüber zu treffen, welche Erkennungen als echte positive Erkennungen und welche als falsch-positive Erkennungen betrachtet werden sollten. Beispielsweise kann das System einen Schwellenwert für die Konfidenz festlegen und nur die Erkennungen, die diesen Schwellenwert überschreiten, als echte positive Erkennungen betrachten. Bei einem automatischen Notbremssystem (AEB) würden falsch positive Erkennungen dazu führen, dass das Fahrzeug automatisch eine Notbremsung durchführt, was natürlich unerwünscht ist. Daher sollten nur die sichersten Erkennungen als Auslöser für AEB in Betracht gezogen werden. Die DLA kann ein neuronales Netz zur Regression des Vertrauenswertes einsetzen. Das neuronale Netz kann als Eingabe zumindest eine Teilmenge von Parametern verwenden, wie z. B. die Abmessungen des Begrenzungsrahmens, die (z. B. von einem anderen Teilsystem) erhaltene Schätzung der Bodenebene, die Ausgabe des IMU-Sensors 866, die mit der Ausrichtung des Fahrzeugs 800 korreliert, die Entfernung, die Schätzungen der 3D-Position des Objekts, die vom neuronalen Netz und/oder anderen Sensoren (z. B. LIDAR-Sensor(en) 864 oder RADAR-Sensor(en) 860) erhalten werden, und andere.
Der/die SoC(s) 804 kann/können Datenspeicher 816 (z. B. Speicher) enthalten. Bei dem/den Datenspeicher(n) 816 kann es sich um einen On-Chip-Speicher des/der SoC(s) 804 handeln, der neuronale Netze speichern kann, die auf der GPU und/oder der DLA ausgeführt werden sollen. In einigen Beispielen kann die Kapazität des/der Datenspeicher(s) 816 groß genug sein, um mehrere Instanzen von neuronalen Netzen zur Redundanz und Sicherheit zu speichern. Der/die Datenspeicher 812 kann/können L2 oder L3 Cache(s) 812 aufweisen. Ein Verweis auf den/die Datenspeicher 816 kann einen Verweis auf den Speicher beinhalten, der mit dem PVA, DLA und/oder anderen Beschleunigern 814 verbunden ist, wie hier beschrieben.
Der/die SoC(s) 804 kann/können einen oder mehrere Prozessor(en) 810 (z. B. eingebettete Prozessoren) enthalten. Der/die Prozessor(en) 810 kann/können einen Boot- und Energieverwaltungsprozessor enthalten, der ein dedizierter Prozessor und ein Subsystem sein kann, um die Boot-Energie- und Verwaltungsfunktionen und die damit verbundene Sicherheitsdurchsetzung zu handhaben. Der Boot- und Energieverwaltungsprozessor kann Teil der Bootsequenz des/der SoC(s) 804 sein und kann Laufzeit-Energieverwaltungsdienste bereitstellen. Der Boot-Energieversorgungs- und -Verwaltungsprozessor kann Takt- und Spannungsprogrammierung, Unterstützung bei Systemübergängen in einen Zustand mit niedriger Leistung, Verwaltung von SoC(s) 804-Temperaturen und Temperatursensoren und/oder Verwaltung der SoC(s) 804-Energieversorgungszustände bereitstellen. Jeder Temperatursensor kann als Ringoszillator implementiert werden, dessen Ausgangsfrequenz proportional zur Temperatur ist, und der/die SoC(s) 804 kann/können die Ringoszillatoren verwenden, um die Temperaturen der CPU(s) 806, GPU(s) 808 und/oder des/der Beschleuniger(s) 814 zu erfassen. Wenn festgestellt wird, dass die Temperaturen einen Schwellenwert überschreiten, kann der Boot- und Energieverwaltungsprozessor in eine Temperaturfehlerroutine eintreten und den/die SoC(s) 804 in einen Zustand mit geringerer Leistung versetzen und/oder das Fahrzeug 800 in einen Chauffeur-zu-sicherem-Halt-Modus versetzen (z. B. das Fahrzeug 800 zu einem sicheren Halt bringen).
Der (die) Prozessor(en) 810 kann (können) außerdem eine Reihe eingebetteter Prozessoren enthalten, die als Audioverarbeitungsmodul dienen können. Bei der Audioverarbeitungs-Engine kann es sich um ein Audio-Subsystem handeln, das eine vollständige Hardware-Unterstützung für Mehrkanal-Audio über mehrere Schnittstellen sowie eine breite und flexible Palette von Audio-I/O-Schnittstellen ermöglicht. In einigen Beispielen ist die Audioverarbeitungs-Engine ein dedizierter Prozessorkern mit einem digitalen Signalprozessor mit dediziertem RAM.
Der (die) Prozessor(en) 810 kann (können) außerdem eine ständig eingeschaltete Prozessor-Engine enthalten, die die notwendigen Hardware-Funktionen zur Unterstützung der Sensorverwaltung mit geringem Stromverbrauch und des Aufwachens von Anwendungsfällen bereitstellen kann. Die ständig eingeschaltete Prozessor-Engine kann einen Prozessorkern, einen eng gekoppelten Arbeitsspeicher, unterstützende Peripheriegeräte (z. B. Zeitgeber und Interrupt-Controller), verschiedene I/O-Controller-Peripheriegeräte und Routing-Logik umfassen.
Der (die) Prozessor(en) 810 kann (können) außerdem eine Sicherheits-Cluster-Engine enthalten, die ein spezielles Prozessor-Subsystem für das Sicherheitsmanagement von Automobilanwendungen umfasst. Die Safety-Cluster-Engine kann zwei oder mehr Prozessorkerne, einen eng gekoppelten Arbeitsspeicher, unterstützende Peripheriegeräte (z. B. Timer, einen Interrupt-Controller usw.) und/oder Routing-Logik umfassen. In einem Sicherheitsmodus können die zwei oder mehr Kerne in einem Lockstep-Modus arbeiten und als ein einziger Kern mit einer Vergleichslogik zur Erkennung von Unterschieden zwischen ihren Operationen fungieren.
Der/die Prozessor(en) 810 kann/können außerdem eine Echtzeit-Kamera-Engine enthalten, die ein dediziertes Prozessor-Subsystem für das Echtzeit-Kameramanagement umfassen kann.
Der (die) Prozessor(en) 810 kann (können) außerdem einen Signalprozessor mit hohem Dynamikbereich enthalten, der einen Bildsignalprozessor umfassen kann, der eine Hardware-Engine ist, die Teil der Kameraverarbeitungspipeline ist.
Der/die Prozessor(en) 810 kann/können einen Videobild-Compositor enthalten, der ein Verarbeitungsblock sein kann (z. B. auf einem Mikroprozessor implementiert), der Videonachbearbeitungsfunktionen implementiert, die von einer Videowiedergabeanwendung benötigt werden, um das endgültige Bild für das Player-Fenster zu erzeugen. Der Videobild-Compositor kann eine Linsenverzerrungskorrektur an der (den) Weitwinkelkamera(s) 870, der (den) Surround-Kamera(s) 874 und/oder an den Kamerasensoren für die Überwachung in der Kabine vornehmen. Der kabineninterne Überwachungskamerasensor wird vorzugsweise von einem neuronalen Netz überwacht, das auf einer anderen Instanz des Advanced SoC läuft und so konfiguriert ist, dass es Ereignisse in der Kabine erkennt und entsprechend reagiert. Ein System in der Kabine kann Lippenlesen durchführen, um den Mobilfunkdienst zu aktivieren und einen Anruf zu tätigen, E-Mails zu diktieren, den Zielort des Fahrzeugs zu ändern, das Infotainmentsystem und die Einstellungen des Fahrzeugs zu aktivieren oder zu ändern oder sprachgesteuertes Surfen im Internet zu ermöglichen. Bestimmte Funktionen stehen dem Fahrer nur zur Verfügung, wenn das Fahrzeug in einem autonomen Modus betrieben wird, und sind ansonsten deaktiviert.
Der Videobild-Compositor kann eine verbesserte zeitliche Rauschunterdrückung sowohl zur räumlichen als auch zur zeitlichen Rauschunterdrückung enthalten. Beispielsweise gewichtet die Rauschunterdrückung bei Bewegung in einem Video die räumlichen Informationen entsprechend und verringert das Gewicht der Informationen, die von benachbarten Frames geliefert werden. Wenn ein Bild oder ein Teil eines Bildes keine Bewegung enthält, kann die vom Video-Compositor durchgeführte zeitliche Rauschunterdrückung Informationen aus dem vorherigen Bild verwenden, um das Rauschen im aktuellen Bild zu reduzieren.
Der Videobild-Compositor kann auch so konfiguriert sein, dass er eine Stereoentzerrung der eingegebenen Stereoobjektivbilder durchführt. Der Videobild-Compositor kann außerdem für die Gestaltung der Benutzeroberfläche verwendet werden, wenn der Desktop des Betriebssystems in Gebrauch ist und die GPU(s) 808 nicht ständig neue Oberflächen rendern muss. Selbst wenn die GPU(s) 808 808 eingeschaltet ist/sind und aktiv 3D-Rendering betreibt/betreiben, kann der Videobild-Compositor verwendet werden, um den/die GPU(s) 808 zu entlasten und so die Leistung und Reaktionsfähigkeit zu verbessern.
Der/die SoC(s) 804 kann/können außerdem eine serielle MIPI-Kameraschnittstelle zum Empfang von Video und Eingaben von Kameras, eine Hochgeschwindigkeitsschnittstelle und/oder einen Videoeingabeblock enthalten, der für Kamera- und verwandte Pixeleingabefunktionen verwendet werden kann. Der/die SoC(s) 804 kann/können außerdem einen oder mehrere Eingangs-/Ausgangs-Controller enthalten, die durch Software gesteuert werden können und für den Empfang von I/O-Signalen verwendet werden können, die keiner bestimmten Rolle zugeordnet sind.
Der/die SoC(s) 804 kann/können außerdem eine breite Palette von Peripherieschnittstellen enthalten, um die Kommunikation mit Peripheriegeräten, Audiocodecs, Energieverwaltung und/oder anderen Geräten zu ermöglichen. Der/die SoC(s) 804 kann/können zur Verarbeitung von Daten von Kameras (z. B. über Gigabit Multimedia Serial Link und Ethernet), Sensoren (z. B. LIDAR-Sensor(en) 864, RADAR-Sensor(en) 860 usw., die über Ethernet angeschlossen werden können), Daten vom Bus 802 (z. B. Geschwindigkeit des Fahrzeugs 800, Lenkradposition usw.), Daten von GNSS-Sensor(en) 858 (z. B. über Ethernet oder CAN-Bus angeschlossen) verwendet werden. Der/die SoC(s) 804 kann/können darüber hinaus dedizierte Hochleistungs-Massenspeicher-Controller enthalten, die ihre eigenen DMA-Engines enthalten können und die dazu verwendet werden können, die CPU(s) 806 von routinemäßigen Datenverwaltungsaufgaben zu entlasten.
Der/die SoC(s) 804 kann/können eine End-to-End-Plattform mit einer flexiblen Architektur sein, die die Automatisierungsstufen 3 bis 5 abdeckt und dadurch eine umfassende funktionale Sicherheitsarchitektur bietet, die Computer-Vision- und ADAS-Techniken für Diversität und Redundanz nutzt und eine Plattform für einen flexiblen, zuverlässigen Fahrsoftware-Stack zusammen mit Deep-Learning-Tools bereitstellt. Die SoC(s) 804 können schneller, zuverlässiger und sogar energie- und platzsparender sein als herkömmliche Systeme. Beispielsweise kann der/die Beschleuniger 814 in Kombination mit der/den CPU(s) 806, der/den GPU(s) 808 und dem/den Datenspeicher(n) 816 eine schnelle, effiziente Plattform für autonome Fahrzeuge der Stufe 3-5 bilden.
Die Technologie bietet somit Fähigkeiten und Funktionen, die mit herkömmlichen Systemen nicht erreicht werden können. Beispielsweise können Computer-Vision-Algorithmen auf CPUs ausgeführt werden, die mit Hilfe von Hochsprachen wie der Programmiersprache C so konfiguriert werden können, dass sie eine Vielzahl von Verarbeitungsalgorithmen für eine Vielzahl von visuellen Daten ausführen können. Allerdings sind CPUs oft nicht in der Lage, die Leistungsanforderungen vieler Bildverarbeitungsanwendungen zu erfüllen, beispielsweise in Bezug auf die Ausführungszeit und den Stromverbrauch. Insbesondere sind viele CPUs nicht in der Lage, komplexe Objekterkennungsalgorithmen in Echtzeit auszuführen, was eine Voraussetzung für fahrzeuginterne ADAS-Anwendungen und eine Voraussetzung für praktische autonome Fahrzeuge der Stufe 3-5 ist.
Im Gegensatz zu herkömmlichen Systemen ermöglicht die hier beschriebene Technologie durch die Bereitstellung eines CPU-Komplexes, eines GPU-Komplexes und eines Hardware-Beschleunigungs-Clusters die gleichzeitige und/oder aufeinanderfolgende Ausführung mehrerer neuronaler Netze und die Kombination der Ergebnisse, um autonome Fahrfunktionen der Stufe 3-5 zu ermöglichen. Beispielsweise kann ein CNN, das auf dem DLA oder der dGPU (z. B. die GPU(s) 820) ausgeführt wird, eine Text- und Worterkennung umfassen, die es dem Supercomputer ermöglicht, Verkehrszeichen zu lesen und zu verstehen, einschließlich Zeichen, für die das neuronale Netz nicht speziell trainiert wurde. Die DLA kann ferner ein neuronales Netz enthalten, das in der Lage ist, das Zeichen zu identifizieren, zu interpretieren und ein semantisches Verständnis zu liefern und dieses semantische Verständnis an die auf dem CPU-Komplex laufenden Wegplanungsmodule weiterzuleiten.
Beispielsweise können mehrere neuronale Netze gleichzeitig betrieben werden, wie es für das Fahren der Stufen 3, 4 oder 5 erforderlich ist. Beispielsweise kann ein Warnschild mit der Aufschrift „Vorsicht: Blinkende Lichter weisen auf Glatteis hin“ zusammen mit einem elektrischen Licht von mehreren neuronalen Netzen unabhängig oder gemeinsam interpretiert werden. Das Schild selbst kann von einem ersten eingesetzten neuronalen Netz (z. B. einem trainierten neuronalen Netz) als Verkehrsschild identifiziert werden, der Text „Blinkende Lichter deuten auf Eisglätte hin“ kann von einem zweiten eingesetzten neuronalen Netz interpretiert werden, das die (vorzugsweise auf dem CPU-Komplex ausgeführte) Wegplanungssoftware des Fahrzeugs darüber informiert, dass Eisglätte vorliegt, wenn blinkende Lichter erkannt werden. Das Blinklicht kann durch den Betrieb eines dritten neuronalen Netzes über mehrere Frames hinweg identifiziert werden, das die Wegplanungssoftware des Fahrzeugs über das Vorhandensein (oder Fehlen) von Blinklichtern informiert. Alle drei neuronalen Netze können gleichzeitig laufen, z. B. innerhalb der DLA und/oder auf der/den GPU(s) 808.
In einigen Beispielen kann ein CNN zur Gesichtserkennung und Identifizierung des Fahrzeugbesitzers Daten von Kamerasensoren verwenden, um die Anwesenheit eines autorisierten Fahrers und/oder Besitzers des Fahrzeugs 800 zu erkennen. Die ständig eingeschaltete Sensorverarbeitungs-Engine kann verwendet werden, um das Fahrzeug zu entriegeln, wenn der Besitzer sich der Fahrertür nähert und die Lichter einschaltet, und um im Sicherheitsmodus das Fahrzeug zu deaktivieren, wenn der Besitzer das Fahrzeug verlässt. Auf diese Weise sorgen die SoC(s) 804 für Sicherheit gegen Diebstahl und/oder Carjacking.
In einem anderen Beispiel kann ein CNN zur Erkennung und Identifizierung von Einsatzfahrzeugen Daten von Mikrofonen 896 verwenden, um Sirenen von Einsatzfahrzeugen zu erkennen und zu identifizieren. Im Gegensatz zu herkömmlichen Systemen, die allgemeine Klassifikatoren zur Erkennung von Sirenen und zur manuellen Extraktion von Merkmalen verwenden, nutzen die SoC(s) 804 das CNN zur Klassifizierung von Umwelt- und Stadtgeräuschen sowie zur Klassifizierung visueller Daten. In einer bevorzugten Ausführungsform wird der CNN, der auf dem DLA läuft, darauf trainiert, die relative Annäherungsgeschwindigkeit des Einsatzfahrzeugs zu erkennen (z. B. durch Verwendung des Dopplereffekts). Das CNN kann auch so trainiert werden, dass es Einsatzfahrzeuge erkennt, die für den lokalen Bereich, in dem das Fahrzeug eingesetzt wird, spezifisch sind, wie von GNSS-Sensor(en) 858 ermittelt. So wird beispielsweise bei einem Einsatz in Europa das CNN versuchen, europäische Sirenen zu erkennen, und bei einem Einsatz in den Vereinigten Staaten wird das CNN versuchen, nur nordamerikanische Sirenen zu erkennen. Sobald ein Einsatzfahrzeug erkannt wird, kann ein Steuerprogramm verwendet werden, um eine Sicherheitsroutine für Einsatzfahrzeuge auszuführen, das Fahrzeug zu verlangsamen, an den Straßenrand zu fahren, das Fahrzeug zu parken und/oder das Fahrzeug mit Hilfe der Ultraschallsensoren 862 im Leerlauf laufen zu lassen, bis das/die Einsatzfahrzeug(e) vorbeifahren.
Das Fahrzeug kann eine oder mehrere CPU(s) 818 (z. B. diskrete CPU(s) oder dCPU(s)) enthalten, die über eine Hochgeschwindigkeitsverbindung (z. B. PCIe) mit dem/den SoC(s) 804 gekoppelt sein können. Die CPU(s) 818 kann/können beispielsweise einen X86-Prozessor enthalten. Die CPU(s) 818 kann/können verwendet werden, um eine Vielzahl von Funktionen auszuführen, einschließlich der Schlichtung potentiell inkonsistenter Ergebnisse zwischen ADAS-Sensoren und dem/den SoC(s) 804 und/oder der Überwachung des Status und des Zustands der Controller 836 und/oder des Infotainment-SoC 830, beispielsweise.
Das Fahrzeug 800 kann eine oder mehrere GPU(s) 820 (z.B. diskrete GPU(s) oder dGPU(s)) enthalten, die über eine Hochgeschwindigkeitsverbindung (z.B. NVIDIAs NVLINK) mit dem/den SoC(s) 804 gekoppelt sein können. Die GPU(s) 820 kann/können zusätzliche Funktionen der künstlichen Intelligenz bereitstellen, z. B. durch die Ausführung redundanter und/oder unterschiedlicher neuronaler Netze, und kann/können zum Trainieren und/oder Aktualisieren neuronaler Netze basierend auf Eingaben (z. B. Sensordaten) von Sensoren des Fahrzeugs 800 verwendet werden.
Das Fahrzeug 800 kann ferner die Netzwerkschnittstelle 824 enthalten, die eine oder mehrere drahtlose Antennen 826 (z. B. eine oder mehrere drahtlose Antennen für verschiedene Kommunikationsprotokolle, wie eine Mobilfunkantenne, eine Bluetooth-Antenne usw.) enthalten kann. Die Netzwerkschnittstelle 824 kann verwendet werden, um eine drahtlose Verbindung über das Internet mit der Cloud (z. B. mit dem/den Server(n) 878 und/oder anderen Netzwerkgeräten), mit anderen Fahrzeugen und/oder mit Datenverarbeitungsgeräten (z. B. Client-Geräten von Fahrgästen) zu ermöglichen. Zur Kommunikation mit anderen Fahrzeugen kann eine direkte Verbindung zwischen den beiden Fahrzeugen und/oder eine indirekte Verbindung hergestellt werden (z. B. über Netzwerke und das Internet). Direkte Verbindungen können über eine Fahrzeug-zu-Fahrzeug-Kommunikationsverbindung hergestellt werden. Die Fahrzeug-zu-Fahrzeug-Kommunikationsverbindung kann dem Fahrzeug 800 Informationen über Fahrzeuge in der Nähe des Fahrzeugs 800 liefern (z. B. Fahrzeuge vor, neben und/oder hinter dem Fahrzeug 800). Diese Funktion kann Teil einer kooperativen adaptiven Geschwindigkeitsregelungsfunktion des Fahrzeugs 800 sein.
Die Netzwerkschnittstelle 824 kann einen SoC enthalten, der Modulations- und Demodulationsfunktionen bereitstellt und es den Controllern 836 ermöglicht, über drahtlose Netzwerke zu kommunizieren. Die Netzwerkschnittstelle 824 kann ein Funkfrequenz-Frontend für die Aufwärtskonvertierung von Basisband auf Funkfrequenz und die Abwärtskonvertierung von Funkfrequenz auf Basisband enthalten. Die Frequenzumwandlungen können mit bekannten Verfahren und/oder mit Superheterodyn-Verfahren durchgeführt werden. In einigen Beispielen kann die Hochfrequenz-Front-End-Funktionalität durch einen separaten Chip bereitgestellt werden. Die Netzwerkschnittstelle kann drahtlose Funktionen für die Kommunikation über LTE, WCDMA, UMTS, GSM, CDMA2000, Bluetooth, Bluetooth LE, Wi-Fi, Z-Wave, ZigBee, LoRaWAN und/oder andere drahtlose Protokolle enthalten.
Das Fahrzeug 800 kann ferner einen oder mehrere Datenspeicher 828 umfassen, die außerhalb des Chips (z. B. außerhalb der SoC(s) 804) gespeichert werden können. Der/die Datenspeicher 828 kann/können ein oder mehrere Speicherelemente wie RAM, SRAM, DRAM, VRAM, Flash, Festplatten und/oder andere Komponenten und/oder Geräte umfassen, die mindestens ein Datenbit speichern können.
Das Fahrzeug 800 kann außerdem GNSS-Sensor(en) 858 enthalten. Der/die GNSS-Sensor(en) 858 (z. B. GPS, unterstützte GPS-Sensoren, Differential-GPS-Sensoren (DGPS) usw.) unterstützt/unterstützen die Kartierung, die Wahrnehmung, die Erstellung von Belegungsrastern und/oder die Wegplanungsfunktionen. Es kann eine beliebige Anzahl von GNSS-Sensoren 858 verwendet werden, beispielsweise und ohne Einschränkung ein GPS, das einen USB-Anschluss mit einer Ethernet-zu-Seriell (RS-232)-Brücke verwendet.
Das Fahrzeug 800 kann außerdem RADAR-Sensor(en) 860 enthalten. Der/die RADAR-Sensor(en) 860 kann/können vom Fahrzeug 800 für die Fahrzeugerkennung über große Entfernungen verwendet werden, selbst bei Dunkelheit und/oder schlechten Wetterbedingungen. Der/die RADAR-Sensor(en) 860 kann/können den CAN-Bus und/oder den Bus 802 (z. B. zur Übertragung von Daten, die von dem/den RADAR-Sensor(en) 860 erzeugt werden) zur Steuerung und zum Zugriff auf Objektverfolgungsdaten verwenden, wobei in einigen Beispielen der Zugriff auf Rohdaten über Ethernet erfolgt. Es kann eine Vielzahl von RADAR-Sensortypen verwendet werden. Beispielsweise und ohne Einschränkung kann der RADAR-Sensor (bzw. können die RADAR-Sensoren) 860 für den Einsatz von Front-, Heck- und Seiten-RADAR geeignet sein. In einigen Beispielen werden Puls-Doppler-RADAR-Sensoren verwendet.
Der/die RADAR-Sensor(en) 860 kann/können unterschiedliche Konfigurationen aufweisen, wie z. B. große Reichweite mit engem Sichtfeld, kurze Reichweite mit breitem Sichtfeld, seitliche Abdeckung kurzer Reichweite usw. In einigen Beispielen kann RADAR mit großer Reichweite für die adaptive Geschwindigkeitsregelung verwendet werden. Die RADAR-Systeme mit großer Reichweite können ein breites Sichtfeld bieten, das durch zwei oder mehr unabhängige Abtastungen, z. B. innerhalb einer Reichweite von 250 m, realisiert wird. Der/die RADAR-Sensor(en) 860 kann/können helfen, zwischen statischen und sich bewegenden Objekten zu unterscheiden, und kann/können von ADAS-Systemen für Notbremsassistenten und Vorwärtskollisionswarnungen verwendet werden. Zu den RADAR-Langstreckensensoren können monostatische multimodale RADAR mit mehreren (z. B. sechs oder mehr) festen RADAR-Antennen und einer Hochgeschwindigkeits-CAN- und FlexRay-Schnittstelle gehören. In einem Beispiel mit sechs Antennen können die mittleren vier Antennen ein fokussiertes Strahlenmuster erzeugen, das dazu dient, die Umgebung des Fahrzeugs bei höheren Geschwindigkeiten mit minimalen Störungen durch den Verkehr auf den angrenzenden Fahrspuren zu erfassen. Die beiden anderen Antennen können das Sichtfeld erweitern, so dass Fahrzeuge, die in die Fahrspur 800 des Fahrzeugs einfahren oder diese verlassen, schnell erfasst werden können. In einigen Fällen können die Sensordaten 102 Daten enthalten, die von RADAR-Sensoren 860 erzeugt werden.
RADAR-Systeme mit mittlerer Reichweite können beispielsweise eine Reichweite von bis zu 860 m (vorne) oder 80 m (hinten) und ein Sichtfeld von bis zu 42 Grad (vorne) oder 850 Grad (hinten) aufweisen. Zu den RADAR-Systemen mit geringer Reichweite können unter anderem RADAR-Sensoren gehören, die an beiden Enden des hinteren Stoßfängers angebracht werden. Wenn ein solches RADAR-Sensorsystem an beiden Enden des hinteren Stoßfängers angebracht ist, kann es zwei Strahlen erzeugen, die den toten Winkel hinter und neben dem Fahrzeug ständig überwachen.
RADAR-Systeme mit geringer Reichweite können in einem ADAS-System zur Erkennung des toten Winkels und/oder als Spurwechselassistent eingesetzt werden.
Das Fahrzeug 800 kann außerdem einen oder mehrere Ultraschallsensoren 862 enthalten. Der/die Ultraschallsensor(en) 862, der/die vorne, hinten und/oder an den Seiten des Fahrzeugs 800 angebracht sein kann/können, kann/können zur Einparkhilfe und/oder zur Erstellung und Aktualisierung eines Belegungsrasters verwendet werden. Es kann eine Vielzahl von Ultraschallsensoren 862 verwendet werden, und unterschiedliche Ultraschallsensoren 862 können für unterschiedliche Erfassungsbereiche (z. B. 2,5 m, 4 m) eingesetzt werden. Der/die Ultraschallsensor(en) 862 kann/können bei funktionalen Sicherheitsstufen von ASIL B arbeiten. In einigen Aspekten können die Sensordaten 102 Daten enthalten, die von dem/den Ultraschallsensor(en) 862 erzeugt werden.
Das Fahrzeug 800 kann LIDAR-Sensor(en) 864 enthalten. Der/die LIDAR-Sensor(en) 864 kann/können für Objekt- und Fußgängererkennung, Notbremsung, Kollisionsvermeidung und/oder andere Funktionen verwendet werden. Der/die LIDAR-Sensor(en) 864 kann/können der funktionalen Sicherheitsstufe ASIL B entsprechen. In einigen Beispielen kann das Fahrzeug 800 mehrere LIDAR-Sensoren 864 (z. B. zwei, vier, sechs usw.) enthalten, die Ethernet verwenden können (z. B. zur Bereitstellung von Daten an einen Gigabit-Ethernet-Switch).
In einigen Beispielen kann der/die LIDAR-Sensor(en) 864 in der Lage sein, eine Liste von Objekten und deren Entfernungen für ein 360-Grad-Sichtfeld zu liefern. Im Handel erhältliche LIDAR-Sensoren 864 können eine Reichweite von etwa 800 m haben, mit einer Genauigkeit von 2 cm bis 3 cm, und beispielsweise eine Ethernet-Verbindung mit 800 Mbit/s unterstützen. In einigen Beispielen können ein oder mehrere nicht vorspringende LIDAR-Sensoren 864 verwendet werden. In solchen Beispielen kann/können der/die LIDAR-Sensor(en) 864 als kleines Gerät implementiert werden, das in die Front, das Heck, die Seiten und/oder die Ecken des Fahrzeugs 800 eingebettet werden kann. Der/die LIDAR-Sensor(en) 864 kann/können in solchen Beispielen ein horizontales Sichtfeld von bis zu 120 Grad und ein vertikales Sichtfeld von bis zu 35 Grad mit einer Reichweite von 200 m selbst bei Objekten mit geringer Reflektivität bieten. Der/die frontmontierte(n) LIDAR-Sensor(en) 864 kann/können für ein horizontales Sichtfeld zwischen 45 Grad und 135 Grad konfiguriert werden.
In einigen Beispielen können auch LIDAR-Technologien wie 3D-Flash-LIDAR eingesetzt werden. 3D-Blitz-LIDAR verwendet einen Laserblitz als Übertragungsquelle, um die Umgebung des Fahrzeugs bis zu einer Entfernung von etwa 200 m zu beleuchten. Eine Flash-LIDAR-Einheit umfasst einen Rezeptor, der die Laufzeit des Laserpulses und das reflektierte Licht auf jedem Pixel aufzeichnet, was wiederum der Entfernung zwischen dem Fahrzeug und den Objekten entspricht. Mit Flash-LIDAR lassen sich mit jedem Laserblitz hochpräzise und verzerrungsfreie Bilder der Umgebung erzeugen. In einigen Beispielen können vier Flash-LIDAR-Sensoren eingesetzt werden, einer an jeder Seite des Fahrzeugs 800. Zu den verfügbaren 3D-Blitz-LIDAR-Systemen gehört eine 3D-Star-Array-LIDAR-Festkörperkamera, die außer einem Gebläse keine beweglichen Teile aufweist (z. B. ein nicht scannendes LIDAR-Gerät). Das Flash-LIDAR-Gerät kann einen 5-Nanosekunden-Laserimpuls der Klasse I (augensicher) pro Bild verwenden und das reflektierte Laserlicht in Form von 3D-Entfernungspunktwolken und gemeinsam registrierten Intensitätsdaten erfassen. Durch die Verwendung von Flash-LIDAR und weil Flash-LIDAR ein Festkörpergerät ohne bewegliche Teile ist, kann der/die LIDAR-Sensor(en) 864 weniger anfällig für Bewegungsunschärfe, Vibrationen und/oder Stöße sein. In einigen Aspekten können die Sensordaten 102 von LIDAR-Sensor(en) 864 erzeugte Daten enthalten.
Das Fahrzeug kann außerdem einen oder mehrere IMU-Sensoren 866 enthalten. Der/die IMU-Sensor(en) 866 kann/können in einigen Beispielen in der Mitte der Hinterachse des Fahrzeugs 800 angeordnet sein. Der (die) IMU-Sensor(en) 866 kann (können) beispielsweise und ohne Einschränkung einen (mehrere) Beschleunigungsmesser, einen (mehrere) Magnetometer, ein (mehrere) Gyroskop(e), einen (mehrere) Magnetkompass(e) und/oder andere Sensortypen umfassen. In einigen Beispielen, beispielsweise bei sechsachsigen Anwendungen, kann/können der/die IMU-Sensor(en) 866 Beschleunigungsmesser und Gyroskope umfassen, während bei neunachsigen Anwendungen der/die IMU-Sensor(en) 866 Beschleunigungsmesser, Gyroskope und Magnetometer umfassen können.
In einigen Ausführungsformen kann/können der/die IMU-Sensor(en) 866 als ein miniaturisiertes, hochleistungsfähiges GPS-gestütztes Trägheitsnavigationssystem (GPS/INS) implementiert werden, das mikroelektromechanische Trägheitssensoren (MEMS), einen hochempfindlichen GPS-Empfänger und fortschrittliche Kalman-Filteralgorithmen kombiniert, um Schätzungen von Position, Geschwindigkeit und Lage zu liefern. So kann in einigen Beispielen der/die IMU-Sensor(en) 866 das Fahrzeug 800 in die Lage versetzen, den Kurs zu schätzen, ohne dass Eingaben von einem Magnetsensor erforderlich sind, indem die Geschwindigkeitsänderungen von GPS direkt beobachtet und mit dem/den IMU-Sensor(en) 866 korreliert werden. In einigen Beispielen können der/die IMU-Sensor(en) 866 und der/die GNSS-Sensor(en) 858 in einer einzigen integrierten Einheit kombiniert werden.
Das Fahrzeug kann Mikrofon(e) 896 enthalten, die im und/oder um das Fahrzeug 800 herum angebracht sind. Das/die Mikrofon(e) 896 kann/können u. a. zur Erkennung und Identifizierung von Einsatzfahrzeugen verwendet werden.
Das Fahrzeug kann ferner eine beliebige Anzahl von Kameratypen enthalten, einschließlich Stereokamera(s) 868, Weitwinkelkamera(s) 870, Infrarotkamera(s) 872, Surround-Kamera(s) 874, Fern- und/oder Mittelbereichskamera(s) 898 und/oder andere Kameratypen. Die Kameras können verwendet werden, um Bilddaten rund um den gesamten Umfang des Fahrzeugs 800 zu erfassen. Die verwendeten Kameratypen hängen von den Ausführungsformen und Anforderungen für das Fahrzeug 800 ab, und es kann eine beliebige Kombination von Kameratypen verwendet werden, um die erforderliche Abdeckung um das Fahrzeug 800 herum zu gewährleisten. Darüber hinaus kann die Anzahl der Kameras je nach Ausführungsform unterschiedlich sein. Beispielsweise kann das Fahrzeug sechs Kameras, sieben Kameras, zehn Kameras, zwölf Kameras und/oder eine andere Anzahl von Kameras umfassen. Die Kameras können, beispielsweise und ohne Einschränkung, Gigabit Multimedia Serial Link (GMSL) und/oder Gigabit Ethernet unterstützen. Jede der Kameras wird hierin in Bezug auf 8A und 8B ausführlicher beschrieben.
Das Fahrzeug 800 kann außerdem einen oder mehrere Schwingungssensoren 842 enthalten. Der/die Schwingungssensor(en) 842 kann/können Schwingungen von Komponenten des Fahrzeugs, wie z. B. der Achse(n), messen. Beispielsweise können Änderungen der Schwingungen eine Änderung der Straßenoberfläche anzeigen. Werden beispielsweise zwei oder mehr Schwingungssensoren 842 verwendet, können die Unterschiede zwischen den Schwingungen zur Bestimmung der Reibung oder des Schlupfes der Fahrbahnoberfläche herangezogen werden (z. B., wenn der Unterschied in den Schwingungen zwischen einer angetriebenen Achse und einer frei drehenden Achse besteht).
Das Fahrzeug 800 kann ein ADAS-System 838 enthalten. Das ADAS-System 838 kann in einigen Beispielen einen SoC enthalten. Das ADAS-System 838 kann einen autonomen/adaptiven/automatischen Geschwindigkeitsregler (ACC), einen kooperativen adaptiven Geschwindigkeitsregler (CACC), eine Auffahrwarnung (FCW), eine automatische Notbremsung (AEB), eine Spurverlassenswarnung (LDW), einen Spurhalteassistenten (LKA), einen Toter-Winkel-Warner (BSW), einen Querverkehrswarner (RCTW), ein Kollisionswarnsystem (CWS), eine Spurenzentrierung (LC) und/oder andere Merkmale und Funktionen umfassen.
Die ACC-Systeme können RADAR-Sensor(en) 860, LIDAR-Sensor(en) 864 und/oder eine Kamera(en) verwenden. Die ACC-Systeme können einen ACC in Längsrichtung und/oder einen ACC in Querrichtung umfassen. Der ACC in Längsrichtung überwacht und steuert den Abstand zu dem unmittelbar vor dem Fahrzeug 800 befindlichen Fahrzeug und passt die Fahrzeuggeschwindigkeit automatisch an, um einen sicheren Abstand zu vorausfahrenden Fahrzeugen einzuhalten. Der seitliche ACC sorgt für die Einhaltung des Abstands und weist das Fahrzeug 800 bei Bedarf an, die Spur zu wechseln. Lateral ACC ist mit anderen ADAS-Anwendungen wie LCA und CWS verwandt.
CACC verwendet Informationen von anderen Fahrzeugen, die über die Netzwerkschnittstelle 824 und/oder die Funkantenne(n) 826 von anderen Fahrzeugen über eine drahtlose Verbindung oder indirekt über eine Netzwerkverbindung (z. B. über das Internet) empfangen werden können. Direkte Verbindungen können durch eine Fahrzeug-zu-Fahrzeug-Kommunikationsverbindung (V2V) bereitgestellt werden, während indirekte Verbindungen eine Infrastruktur-zu-Fahrzeug-Kommunikationsverbindung (I2V) sein können. Im Allgemeinen liefert das V2V-Kommunikationskonzept Informationen über die unmittelbar vorausfahrenden Fahrzeuge (z. B. Fahrzeuge, die sich unmittelbar vor dem Fahrzeug 800 und auf derselben Fahrspur wie dieses befinden), während das I2V-Kommunikationskonzept Informationen über den weiter vorausfahrenden Verkehr liefert. CACC-Systeme können sowohl I2V- als auch V2V-Informationsquellen enthalten. Angesichts der Informationen über die Fahrzeuge vor dem Fahrzeug 800 kann CACC zuverlässiger sein und hat das Potenzial, den Verkehrsfluss zu verbessern und Staus auf der Straße zu reduzieren.
FCW-Systeme sind so konzipiert, dass sie den Fahrer vor einer Gefahr warnen, so dass er korrigierend eingreifen kann. FCW-Systeme verwenden eine nach vorne gerichtete Kamera und/oder RADAR-Sensor(en) 860, die mit einem speziellen Prozessor, DSP, FPGA und/oder ASIC gekoppelt sind, der elektrisch mit der Rückmeldung an den Fahrer verbunden ist, z. B. mit einem Display, einem Lautsprecher und/oder einer vibrierenden Komponente. FCW-Systeme können eine Warnung ausgeben, z. B. in Form eines Tons, einer optischen Warnung, einer Vibration und/oder eines schnellen Bremsimpulses.
AEB-Systeme erkennen einen drohenden Zusammenstoß mit einem anderen Fahrzeug oder einem anderen Objekt und können automatisch die Bremsen betätigen, wenn der Fahrer nicht innerhalb eines bestimmten Zeit- oder Entfernungsparameters korrigierend eingreift. AEB-Systeme können nach vorne gerichtete Kamera(s) und/oder RADAR-Sensor(en) 860 verwenden, die mit einem speziellen Prozessor, DSP, FPGA und/oder ASIC gekoppelt sind. Wenn das AEB-System eine Gefahr erkennt, warnt es in der Regel zunächst den Fahrer, damit er Korrekturmaßnahmen ergreift, um die Kollision zu vermeiden. Wenn der Fahrer keine Korrekturmaßnahmen ergreift, kann das AEB-System automatisch die Bremsen betätigen, um die Auswirkungen der vorhergesagten Kollision zu verhindern oder zumindest abzuschwächen. AEB-Systeme können Techniken wie die dynamische Bremsunterstützung und/oder das Bremsen bei einem bevorstehenden Zusammenstoß umfassen.
LDW-Systeme warnen den Fahrer durch optische, akustische und/oder taktile Signale, z. B. durch Vibrationen am Lenkrad oder am Sitz, wenn das Fahrzeug 800 die Fahrbahnmarkierungen überfährt. Ein LDW-System wird nicht aktiviert, wenn der Fahrer durch Betätigen des Blinkers ein beabsichtigtes Verlassen der Fahrspur anzeigt. LDW-Systeme können nach vorne gerichtete Kameras verwenden, die mit einem speziellen Prozessor, DSP, FPGA und/oder ASIC gekoppelt sind, der elektrisch mit dem Fahrerfeedback gekoppelt ist, z. B. mit einer Anzeige, einem Lautsprecher und/oder einer vibrierenden Komponente.
LKA-Systeme sind eine Variante von LDW-Systemen. LKA-Systeme sorgen für einen Lenkeingriff oder eine Bremsung, um das Fahrzeug 800 zu korrigieren, wenn das Fahrzeug 800 beginnt, die Fahrspur zu verlassen.
BSW-Systeme erkennen und warnen den Fahrer vor Fahrzeugen im toten Winkel des Fahrzeugs. BSW-Systeme können ein optisches, akustisches und/oder taktiles Warnsignal ausgeben, um darauf hinzuweisen, dass das Zusammenführen oder Wechseln der Fahrspur unsicher ist. Das System kann eine zusätzliche Warnung ausgeben, wenn der Fahrer einen Blinker betätigt. BSW-Systeme können nach hinten gerichtete Kamera(s) und/oder RADAR-Sensor(en) 860 verwenden, die mit einem speziellen Prozessor, DSP, FPGA und/oder ASIC gekoppelt sind, der elektrisch mit dem Fahrerfeedback gekoppelt ist, z. B. mit einem Display, einem Lautsprecher und/oder einer vibrierenden Komponente.
RCTW-Systeme können eine optische, akustische und/oder taktile Benachrichtigung ausgeben, wenn beim Rückwärtsfahren des Fahrzeugs 800 ein Objekt außerhalb des Bereichs der Heckkamera erkannt wird. Einige RCTW-Systeme umfassen AEB, um sicherzustellen, dass die Fahrzeugbremsen betätigt werden, um einen Unfall zu vermeiden. RCTW-Systeme können einen oder mehrere nach hinten gerichtete RADAR-Sensoren 860 verwenden, die mit einem dedizierten Prozessor, DSP, FPGA und/oder ASIC gekoppelt sind, der elektrisch mit dem Fahrerfeedback gekoppelt ist, z. B. mit einer Anzeige, einem Lautsprecher und/oder einer vibrierenden Komponente.
Bei herkömmlichen ADAS-Systemen kann es zu falsch-positiven Ergebnissen kommen, die für den Fahrer ärgerlich und ablenkend sein können, aber in der Regel nicht katastrophal sind, weil die ADAS-Systeme den Fahrer warnen und ihm die Möglichkeit geben, zu entscheiden, ob wirklich ein Sicherheitszustand vorliegt und entsprechend zu handeln. In einem autonomen Fahrzeug 800 muss das Fahrzeug 800 jedoch im Falle widersprüchlicher Ergebnisse selbst entscheiden, ob es das Ergebnis eines primären Computers oder eines sekundären Computers (z. B. eines ersten Controllers 836 oder eines zweiten Controllers 836) beachtet. Beispielsweise kann in einigen Ausführungsformen das ADAS-System 838 ein Backup- und/oder Sekundärcomputer sein, der Wahrnehmungsinformationen an ein Rationalitätsmodul des Backup-Computers liefert. Der Rationalitätsmonitor des Backup-Computers kann eine redundante Software auf Hardwarekomponenten ausführen, um Fehler in der Wahrnehmung und bei dynamischen Fahraufgaben zu erkennen. Die Ausgaben des ADAS-Systems 838 können an eine Überwachungs-MCU weitergeleitet werden. Wenn die Ausgaben des Primärrechners und des Sekundärrechners kollidieren, muss die Überwachungs-MCU bestimmen, wie der Konflikt gelöst werden kann, um einen sicheren Betrieb zu gewährleisten.
In einigen Beispielen kann der Primärcomputer so konfiguriert sein, dass er der Überwachungs-MCU einen Konfidenzwert liefert, der die Konfidenz des Primärcomputers in das gewählte Ergebnis angibt. Übersteigt der Vertrauenswert einen Schwellenwert, kann die Überwachungs-MCU der Anweisung des Primärcomputers folgen, unabhängig davon, ob der Sekundärcomputer ein widersprüchliches oder inkonsistentes Ergebnis liefert. Erreicht der Konfidenzwert den Schwellenwert nicht und geben der primäre und der sekundäre Computer unterschiedliche Ergebnisse an (z. B. den Konflikt), kann die Überwachungs-MCU zwischen den Computern vermitteln, um das geeignete Ergebnis zu bestimmen.
Die Überwachungs-MCU kann konfiguriert sein, ein neuronales Netz(e) auszuführen, das so trainiert und konfiguriert ist, dass es basierend auf den Ausgaben des Primärcomputers und des Sekundärcomputers die Bedingungen bestimmt, unter denen der Sekundärcomputer Fehlalarme auslöst. So kann das neuronale Netz(e) in der Überwachungs-MCU lernen, wann der Ausgabe des Sekundärcomputers vertraut werden kann und wann nicht. Handelt es sich beispielsweise bei dem sekundären Computer um ein RADAR-basiertes FCW-System, kann ein neuronales Netz in der Überwachungs-MCU lernen, wann das FCW-System metallische Objekte identifiziert, die in Wirklichkeit keine Gefahr darstellen, wie etwa ein Abflussgitter oder ein Schachtdeckel, der einen Alarm auslöst. Wenn der Sekundärcomputer ein kamerabasiertes LDW-System ist, kann ein neuronales Netz in der Überwachungs-MCU lernen, das LDW-System zu übergehen, wenn Radfahrer oder Fußgänger vorhanden sind und ein Verlassen der Fahrspur tatsächlich das sicherste Manöver ist. In Ausführungsformen, in denen ein neuronales Netz bzw. neuronale Netze auf der Überwachungs-MCU laufen, kann die Überwachungs-MCU mindestens einen DLA oder einen Grafikprozessor enthalten, der für den Betrieb des neuronalen Netzes bzw. der neuronalen Netze mit zugehörigem Speicher geeignet ist. In bevorzugten Ausführungsformen kann die Überwachungs-MCU das aufweisen und/oder als eine Komponente des/der SoC(s) 804 enthalten sein.
In anderen Beispielen kann das ADAS-System 838 einen sekundären Computer enthalten, der die ADAS-Funktionen unter Verwendung herkömmlicher Regeln der Computer Vision ausführt. Der sekundäre Computer kann also klassische Regeln der Computer Vision verwenden (wenn-dann), und das Vorhandensein eines neuronalen Netzes in der Überwachungs-MCU kann die Zuverlässigkeit, Sicherheit und Leistung verbessern. Beispielsweise wird das Gesamtsystem durch die unterschiedliche Implementierung und die absichtliche Nichtidentität fehlertoleranter, insbesondere gegenüber Fehlern, die durch Softwarefunktionen (oder Software-Hardware-Schnittstellen) verursacht werden. Wenn beispielsweise ein Softwarefehler in der auf dem Primärcomputer laufenden Software auftritt und der nicht identische Softwarecode auf dem Sekundärcomputer das gleiche Gesamtergebnis liefert, kann die Überwachungs-MCU mit größerer Sicherheit davon ausgehen, dass das Gesamtergebnis korrekt ist und der Fehler in der Software oder Hardware des Primärcomputers keinen wesentlichen Fehler verursacht.
In einigen Beispielen kann die Ausgabe des ADAS-Systems 838 in den Wahrnehmungsblock des Primärrechners und/oder in den Block für dynamische Fahraufgaben des Primärrechners eingespeist werden. Wenn beispielsweise das ADAS-System 838 eine Warnung vor einem Aufprall aufgrund eines unmittelbar vorausfahrenden Objekts anzeigt, kann der Wahrnehmungsblock diese Information bei der Identifizierung von Objekten verwenden. In anderen Beispielen kann der Sekundärcomputer über ein eigenes neuronales Netz verfügen, das trainiert ist und somit das Risiko von Fehlalarmen verringert, wie hier beschrieben.
Das Fahrzeug 800 kann außerdem das Infotainment-SoC 830 (z. B. ein bordeigenes Infotainment-System (IVI)) enthalten. Obwohl das Infotainment-System als SoC dargestellt und beschrieben wird, muss es nicht unbedingt ein SoC sein, sondern kann auch zwei oder mehr diskrete Komponenten umfassen. Das Infotainment-SoC 830 kann eine Kombination aus Hardware und Software enthalten, die zur Bereitstellung von Audio (z. B. Musik, einem persönlichen digitalen Assistenten, Navigationsanweisungen, Nachrichten, Radio usw.), Video (z. B. Fernsehen, Filme, Streaming usw.), Telefon (z. B. Freisprechen), Netzwerkkonnektivität (z. B., LTE, Wi-Fi usw.) und/oder Informationsdienste (z. B. Navigationssysteme, Einparkhilfe hinten, ein Radiodatensystem, fahrzeugbezogene Informationen wie Kraftstoffstand, zurückgelegte Gesamtstrecke, Bremskraftstoffstand, Ölstand, Tür öffnen/schließen, Luftfilterinformationen usw.) an das Fahrzeug 800. Beispielsweise kann der Infotainment-SoC 830 Radios, Plattenspieler, Navigationssysteme, Videoplayer, USB- und Bluetooth-Konnektivität, Carputer, In-Car-Entertainment, Wi-Fi, Audiobedienelemente am Lenkrad, Freisprecheinrichtung, ein Heads-up-Display (HUD), ein HMI-Display 834, ein Telematikgerät, ein Bedienfeld (z. B. zur Steuerung und/oder Interaktion mit verschiedenen Komponenten, Funktionen und/oder Systemen) und/oder andere Komponenten umfassen. Der Infotainment-SoC 830 kann ferner verwendet werden, um einem oder mehreren Nutzern des Fahrzeugs Informationen (z. B. visuell und/oder akustisch) bereitzustellen, wie z. B. Informationen aus dem ADAS-System 838, Informationen zum autonomen Fahren wie geplante Fahrzeugmanöver, Trajektorien, Umgebungsinformationen (z. B. Kreuzungsinformationen, Fahrzeuginformationen, Straßeninformationen usw.) und/oder andere Informationen.
Der Infotainment-SoC 830 kann GPU-Funktionalität enthalten. Der Infotainment-SoC 830 kann über den Bus 802 (z. B. CAN-Bus, Ethernet usw.) mit anderen Geräten, Systemen und/oder Komponenten des Fahrzeugs 800 kommunizieren. In einigen Beispielen kann der Infotainment-SoC 830 mit einer Überwachungs-MCU gekoppelt sein, so dass die GPU des Infotainment-Systems einige Selbstfahrfunktionen ausführen kann, falls die primären Controller 836 (z. B. die primären und/oder Backup-Computer des Fahrzeugs 800) ausfallen. In einem solchen Beispiel kann der Infotainment-SoC 830 das Fahrzeug 800, wie hier beschrieben, in einen Chauffeurmodus bis zum sicheren Anhalten versetzen.
Das Fahrzeug 800 kann ferner ein Kombiinstrument 832 (z. B. ein digitales Armaturenbrett, ein elektronisches Kombiinstrument, eine digitale Instrumententafel usw.) enthalten. Das Kombiinstrument 832 kann ein Controller und/oder einen Supercomputer (z. B. ein diskretes Controller oder einen Supercomputer) enthalten. Das Kombiinstrument 832 kann eine Reihe von Instrumenten enthalten, wie z. B. Tachometer, Kraftstoffstand, Öldruck, Drehzahlmesser, Kilometerzähler, Blinker, Schaltstellungsanzeige, Sicherheitsgurt-Warnleuchte(n), Parkbrems-Warnleuchte(n), Motor-Fehlfunktionsleuchte(n), Informationen über das Airbag-System (SRS), Beleuchtungssteuerungen, Steuerungen für Sicherheitssysteme, Navigationsinformationen usw. In einigen Beispielen können die Informationen vom Infotainment-SoC 830 und dem Kombiinstrument 832 angezeigt und/oder gemeinsam genutzt werden. Mit anderen Worten: Das Kombiinstrument 832 kann Teil des Infotainment-SoC 830 sein oder umgekehrt.
8D ist ein Systemdiagramm für die Kommunikation zwischen dem/den cloudbasierten Server(n) und dem autonomen Beispielfahrzeug 800 der 8A, gemäß einigen Ausführungsformen der vorliegenden Offenbarung. Das System 876 kann den/die Server 878, das/die Netzwerk(e) 890 und die Fahrzeuge, einschließlich des Fahrzeugs 800, umfassen. Der (die) Server 878 kann (können) eine Vielzahl von GPUs 884(A)-884(H) (hier zusammenfassend als GPUs 884 bezeichnet), PCIe-Switches 882(A)-882(H) (hier zusammenfassend als PCIe-Switches 882 bezeichnet) und/oder CPUs 880(A)-880(B) (hier zusammenfassend als CPUs 880 bezeichnet) umfassen. Die GPUs 884, die CPUs 880 und die PCIe-Switches können über Hochgeschwindigkeits-Interconnect miteinander verbunden werden, beispielsweise über die von NVIDIA entwickelten NVLink-Schnittstellen 888 und/oder PCIe-Verbindungen 886. In einigen Beispielen sind die GPUs 884 über NVLink und/oder NVSwitch SoC und die GPUs 884 und die PCIe-Switches 882 über PCIe-Interconnects verbunden. Obwohl acht GPUs 884, zwei CPUs 880 und zwei PCIe-Switches abgebildet sind, ist dies nicht als Einschränkung zu verstehen. Je nach Ausführungsform kann jeder der Server 878 eine beliebige Anzahl von GPUs 884, CPUs 880 und/oder PCIe-Switches umfassen. Beispielsweise können die Server 878 jeweils acht, sechzehn, zweiunddreißig und/oder mehr GPUs 884 enthalten.
Der (die) Server 878 kann (können) über das (die) Netzwerk(e) 890 und von den Fahrzeugen Bilddaten empfangen, die für Bilder repräsentativ sind, die unerwartete oder veränderte Straßenzustände zeigen, z. B. kürzlich begonnene Straßenarbeiten. Der (die) Server 878 kann (können) über das (die) Netzwerk(e) 890 und an die Fahrzeuge neuronale Netze 892, aktualisierte neuronale Netze 892 und/oder Karteninformationen 894, einschließlich Informationen über Verkehrs- und Straßenbedingungen, übertragen. Die Aktualisierungen der Karteninformationen 894 können Aktualisierungen für die HD-Karte 822 enthalten, z. B. Informationen über Baustellen, Schlaglöcher, Umleitungen, Überschwemmungen und/oder andere Hindernisse. In einigen Beispielen können die neuronalen Netze 892, die aktualisierten neuronalen Netze 892 und/oder die Karteninformationen 894 aus neuem Training und/oder Erfahrungen resultieren, die in Daten dargestellt sind, die von einer beliebigen Anzahl von Fahrzeugen in der Umgebung empfangen werden, und/oder auf einem Training basieren, das in einem Datenzentrum durchgeführt wurde (z. B. unter Verwendung des/der Server(s) 878 und/oder anderer Server).
Der/die Server 878 kann/können verwendet werden, um maschinelle Lernmodelle (z. B. neuronale Netze) basierend auf Trainingsdaten zu trainieren. Die Trainingsdaten können von den Fahrzeugen und/oder in einer Simulation (z. B. mit einer Spiel-Engine) erzeugt werden. In einigen Beispielen werden die Trainingsdaten mit Tags versehen (z. B. wenn das neuronale Netz vom überwachten Lernen profitiert) und/oder einer anderen Vorverarbeitung unterzogen, während in anderen Beispielen die Trainingsdaten nicht mit Tags versehen und/oder vorverarbeitet werden (z. B. wenn das neuronale Netz kein überwachtes Lernen benötigt). Das Training kann nach einer oder mehreren Klassen von maschinellen Lerntechniken durchgeführt werden, einschließlich, aber nicht beschränkt auf Klassen wie: überwachtes Training, halbüberwachtes Training, unüberwachtes Training, selbstlernendes Lernen, Verstärkungs lernen, föderiertes Lernen, Transferlernen, Merkmalslernen (einschließlich Hauptkomponenten- und Clusteranalysen), multilineares Unterraumlemen, vielfältiges Lernen, Repräsentationslemen (einschließlich Lernen mit Ersatzwörterbüchern), regelbasiertes maschinelles Lernen, Anomalieerkennung und alle Varianten oder Kombinationen davon. Sobald die maschinellen Lernmodelle trainiert sind, können die maschinellen Lernmodelle von den Fahrzeugen verwendet werden (z. B. durch Übertragung an die Fahrzeuge über das/die Netzwerk(e) 890 und/oder die maschinellen Lernmodelle können von dem/den Server(n) 878 zur Fernüberwachung der Fahrzeuge verwendet werden.
In einigen Beispielen kann der Server 878 Daten von den Fahrzeugen empfangen und die Daten auf aktuelle neuronale Netze in Echtzeit anwenden, um intelligente Schlussfolgerungen in Echtzeit zu ziehen. Der/die Server 878 kann/können Deep-Learning-Supercomputer und/oder dedizierte KI-Computer umfassen, die von GPUs 884 angetrieben werden, wie z. B. die von NVIDIA entwickelten DGX- und DGX-Station-Maschinen. In einigen Beispielen können die Server 878 jedoch auch Deep-Learning-Infrastrukturen umfassen, die nur CPU-betriebene Rechenzentren verwenden.
Die Deep-Learning-Infrastruktur des/der Server(s) 878 kann zur schnellem Inferenz in Echtzeit fähig sein und kann diese Fähigkeit nutzen, um den Zustand der Prozessoren, der Software und/oder der zugehörigen Hardware im Fahrzeug 800 zu bewerten und zu überprüfen. Beispielsweise kann die Deep-Learning-Infrastruktur regelmäßige Aktualisierungen vom Fahrzeug 800 erhalten, wie etwa eine Bildsequenz und/oder Objekte, die das Fahrzeug 800 in dieser Bildsequenz lokalisiert hat (z. B. über Computer Vision und/oder andere maschinelle Objektklassifizierungstechniken). Die Deep-Learning-Infrastruktur kann ihr eigenes neuronales Netz laufen lassen, um die Objekte zu identifizieren und sie mit den vom Fahrzeug 800 identifizierten Objekten zu vergleichen. Wenn die Ergebnisse nicht übereinstimmen und die Infrastruktur zu dem Schluss kommt, dass die KI im Fahrzeug 800 eine Fehlfunktion aufweist, kann der/die Server 878 ein Signal an das Fahrzeug 800 senden, das einen ausfallsicheren Computer des Fahrzeugs 800 anweist, die Kontrolle zu übernehmen, die Fahrgäste zu benachrichtigen und ein sicheres Parkmanöver durchzuführen.
Zur Inferenz kann der/die Server 878 die GPU(s) 884 und einen oder mehrere programmierbare Inferenzbeschleuniger (z. B. TensorRT von NVIDIA) enthalten. Die Kombination von GPU-gesteuerten Servern und Inferenzbeschleunigung kann eine Reaktionsfähigkeit in Echtzeit ermöglichen. In anderen Beispielen, beispielsweise wenn die Leistung weniger kritisch ist, können Server mit CPUs, FPGAs und anderen Prozessoren zur Inferenz verwendet werden.
Beispielhafte Rechenvorrichtung
9 ist ein Blockdiagramm einer beispielhaften Rechenvorrichtung(en) 900, die zur Verwendung bei der Implementierung einiger Ausführungsformen der vorliegenden Offenbarung geeignet ist. Die Rechenvorrichtung 900 kann ein Interconnect-System 902 umfassen, das direkt oder indirekt die folgenden Vorrichtungen koppelt: Speicher 904, eine oder mehrere Zentraleinheiten (CPUs) 906, eine oder mehrere Grafikverarbeitungseinheiten (GPUs) 908, eine Kommunikationsschnittstelle 910, Ein-/Ausgabe (I/O) Ports 912, Ein-/Ausgabekomponenten 914, eine Stromversorgung 916, eine oder mehrere Präsentationskomponenten 918 (z. B. Display(s)) und eine oder mehrere Logikeinheiten 920. In mindestens einer Ausführungsform kann das (die) Computergerät(e) 900 eine oder mehrere virtuelle Maschinen (VMs) aufweisen, und/oder jede der Komponenten davon kann virtuelle Komponenten aufweisen (z. B. virtuelle Hardwarekomponenten). Als nicht einschränkende Beispiele können eine oder mehrere der GPUs 908 eine oder mehrere vGPUs aufweisen, eine oder mehrere der CPUs 906 können eine oder mehrere vCPUs aufweisen, und/oder eine oder mehrere der Logikeinheiten 920 können eine oder mehrere virtuelle Logikeinheiten aufweisen. So kann eine Rechenvorrichtung 900 diskrete Komponenten (z. B. eine vollständige GPU, die der Rechenvorrichtung 900 zugeordnet ist), virtuelle Komponenten (z. B. einen Teil einer GPU, die der Rechenvorrichtung 900 zugeordnet ist) oder eine Kombination davon umfassen.
Obwohl die verschiedenen Blöcke in 9 als über das Interconnect-System 902 mit Leitungen verbunden dargestellt sind, ist dies nicht als Einschränkung gedacht und dient nur der Übersichtlichkeit. Beispielsweise kann in einigen Ausführungsformen eine Präsentationskomponente 918, wie ein Anzeigegerät, als I/O-Komponente 914 betrachtet werden (z. B. wenn die Anzeige ein Touchscreen ist). Als weiteres Beispiel können die CPUs 906 und/oder GPUs 908 Speicher enthalten (z. B. kann der Speicher 904 zusätzlich zum Speicher der GPUs 908, der CPUs 906 und/oder anderer Komponenten ein Speichergerät darstellen). Mit anderen Worten, die Rechnereinrichtung von 9 ist lediglich illustrativ. Es wird nicht zwischen Kategorien wie „Workstation“, „Server“, „Laptop“, „Desktop“, „Tablet“, „Client-Gerät“, „mobiles Gerät“, „tragbares Gerät“, „Spielkonsole“, „elektronische Steuereinheit (ECU)“, „Virtual-Reality-System“ und/oder anderen Geräte- oder Systemtypen unterschieden, da sie alle in den Anwendungsbereich der Rechenvorrichtung von 9 fallen.
Das Interconnect-System 902 kann eine oder mehrere Verbindungen oder Busse darstellen, wie z. B. einen Adressbus, einen Datenbus, einen Steuerbus oder eine Kombination davon. Das Interconnect-System 902 kann einen oder mehrere Bus- oder Verbindungstypen umfassen, z. B. einen ISA-Bus (Industry Standard Architecture), einen EISA-Bus (Extended Industry Standard Architecture), einen VESA-Bus (Video Electronics Standards Association), einen PCI-Bus (Peripheral Component Interconnect), einen PCIe-Bus (Peripheral Component Interconnect Express) und/oder eine andere Art von Bus oder Verbindung. In einigen Ausführungsformen gibt es direkte Verbindungen zwischen den Komponenten. Beispielsweise kann die CPU 906 direkt mit dem Speicher 904 verbunden sein. Ferner kann die CPU 906 direkt mit der GPU 908 verbunden sein. Bei einer direkten oder Punkt-zu-Punkt-Verbindung zwischen Komponenten kann das Interconnect-System 902 eine PCIe-Verbindung enthalten, um die Verbindung herzustellen. In diesen Beispielen muss ein PCI-Bus nicht in der Recheneinheit 900 enthalten sein.
Der Speicher 904 kann aus einer Vielzahl von computerlesbaren Medien bestehen. Bei den computerlesbaren Medien kann es sich um alle verfügbaren Medien handeln, auf die die Rechenvorrichtung 900 zugreifen kann. Die computerlesbaren Medien können sowohl flüchtige als auch nicht-flüchtige Medien sowie austauschbare und nicht-entfernbare Medien umfassen. Beispielsweise können die computerlesbaren Medien Computerspeichermedien und Kommunikationsmedien aufweisen, ohne darauf beschränkt zu sein.
Die Computerspeichermedien können sowohl flüchtige als auch nichtflüchtige Medien und/oder entfernbare und nicht entfernbare Medien umfassen, die in einem beliebigen Verfahren oder einer beliebigen Technologie zur Speicherung von Informationen wie computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen und/oder anderen Datentypen implementiert sind. Beispielsweise kann der Speicher 904 computerlesbare Anweisungen speichern (z. B., die ein oder mehrere Programme und/oder ein oder mehrere Programmelemente, wie ein Betriebssystem, darstellen). Zu den Computerspeichermedien können unter anderem RAM, ROM, EEPROM, Flash-Speicher oder andere Speichertechnologien, CD-ROM, Digital Versatile Disks (DVD) oder andere optische Plattenspeicher, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder jedes andere Medium gehören, das zur Speicherung der gewünschten Informationen verwendet werden kann und auf das die Rechenvorrichtung 900 zugreifen kann. Wie hierin verwendet, weist ein Computerspeichermedium nicht per se Signale auf.
Die Computerspeichermedien können computerlesbare Befehle, Datenstrukturen, Programmmodule und/oder andere Datentypen in einem modulierten Datensignal wie z. B. einer Trägerwelle oder einem anderen Transportmechanismus verkörpern und umfassen beliebige Informationsübertragungsmedien. Der Begriff „moduliertes Datensignal“ kann sich auf ein Signal beziehen, bei dem eine oder mehrere seiner Eigenschaften so eingestellt oder verändert sind, dass Informationen in dem Signal kodiert werden. Beispielsweise können die Computerspeichermedien verdrahtete Medien, wie ein verdrahtetes Netzwerk oder eine Direktverbindung, und drahtlose Medien, wie akustische, RF-, Infrarot- und andere drahtlose Medien, umfassen. Kombinationen der oben genannten Medien sollten ebenfalls in den Bereich der computerlesbaren Medien fallen.
Die CPU(s) 906 kann/können so konfiguriert sein, dass sie zumindest einige der computerlesbaren Anweisungen ausführen, um eine oder mehrere Komponenten des Computergeräts 900 zu steuern und eines oder mehrere der hierin beschriebenen Verfahren und/oder Prozesse durchzuführen. Die CPU(s) 906 kann/können jeweils einen oder mehrere Kerne (z. B. einen, zwei, vier, acht, achtundzwanzig, zweiundsiebzig usw.) umfassen, die in der Lage sind, eine Vielzahl von Software-Threads gleichzeitig zu verarbeiten. Die CPU(s) 906 kann/können jeden Prozessortyp umfassen und je nach Art des implementierten Computergeräts 900 unterschiedliche Prozessortypen umfassen (z. B. Prozessoren mit weniger Kernen für mobile Geräte und Prozessoren mit mehr Kernen für Server). Beispielsweise kann der Prozessor je nach Art des Rechengeräts 900 ein Advanced RISC Machines (ARM)-Prozessor sein, der mit Reduced Instruction Set Computing (RISC) arbeitet, oder ein x86-Prozessor, der mit Complex Instruction Set Computing (CISC) arbeitet. Die Recheneinheit 900 kann eine oder mehrere CPUs 906 zusätzlich zu einem oder mehreren Mikroprozessoren oder zusätzlichen Coprozessoren, wie z. B. mathematischen Coprozessoren, enthalten.
Zusätzlich zu oder alternativ zu der/den CPU(s) 906 kann/können die GPU(s) 908 so konfiguriert sein, dass sie zumindest einige der computerlesbaren Anweisungen ausführen, um eine oder mehrere Komponenten des Computergeräts 900 zu steuern, um eines oder mehrere der hier beschriebenen Verfahren und/oder Prozesse durchzuführen. Eine oder mehrere der GPU(s) 908 können eine integrierte GPU sein (z.B. mit einer oder mehreren der CPU(s) 906 und/oder eine oder mehrere der GPU(s) 908 können eine diskrete GPU sein. In Ausführungsformen kann eine oder mehrere der GPU(s) 908 ein Coprozessor einer oder mehrerer der CPU(s) 906 sein. Der/die Grafikprozessor(en) 908 kann/können von der Rechenvorrichtung 900 zum Rendern von Grafiken (z. B. 3D-Grafiken) oder zur Durchführung von allgemeinen Berechnungen verwendet werden. Beispielsweise kann/können die GPU(s) 908 für General-Purpose-Computing auf GPUs (GPGPU) verwendet werden. Die GPU(s) 908 kann/können Hunderte oder Tausende von Kernen umfassen, die in der Lage sind, Hunderte oder Tausende von Software-Threads gleichzeitig zu verarbeiten. Die GPU(s) 908 kann/können als Reaktion auf Rendering-Befehle (z. B. Rendering-Befehle von der/den CPU(s) 906, die über eine Host-Schnittstelle empfangen werden) Pixeldaten für Ausgabebilder erzeugen. Die GPU(s) 908 kann/können einen Grafikspeicher, z. B. einen Anzeigespeicher, zum Speichern von Pixeldaten oder anderen geeigneten Daten, z. B. GPGPU-Daten, enthalten. Der Anzeigespeicher kann als Teil des Speichers 904 enthalten sein. Die GPU(s) 908 kann/können zwei oder mehr GPUs umfassen, die parallel arbeiten (z. B. über eine Verbindung). Die Verbindung kann die GPUs direkt verbinden (z. B. mit NVLINK) oder die GPUs über einen Switch verbinden (z. B. mit NVSwitch). Wenn sie miteinander kombiniert werden, kann jede GPU 908 Pixeldaten oder GPGPU-Daten für verschiedene Teile einer Ausgabe oder für verschiedene Ausgaben erzeugen (z. B. eine erste GPU für ein erstes Bild und eine zweite GPU für ein zweites Bild). Jede GPU kann ihren eigenen Speicher haben oder sich den Speicher mit anderen GPUs teilen.
Zusätzlich zu oder alternativ zu der (den) CPU(s) 906 und/oder der (den) GPU(s) 908 kann (können) die Logikeinheit(en) 920 so konfiguriert sein, dass sie zumindest einige der computerlesbaren Anweisungen ausführen, um eine oder mehrere Komponenten des Computergeräts 900 zu steuern, um eines oder mehrere der hier beschriebenen Verfahren und/oder Prozesse durchzuführen. In Ausführungsformen können die CPU(s) 906, die GPU(s) 908 und/oder die Logikeinheit(en) 920 diskret oder gemeinsam eine beliebige Kombination der Verfahren, Prozesse und/oder Teile davon ausführen. Eine oder mehrere der Logikeinheiten 920 können Teil einer oder mehrerer der CPU(s) 906 und/oder der GPU(s) 908 sein und/oder eine oder mehrere der Logikeinheiten 920 können diskrete Komponenten sein oder anderweitig außerhalb der CPU(s) 906 und/oder der GPU(s) 908 liegen. In Ausführungsformen kann eine oder mehrere der Logikeinheiten 920 ein Coprozessor einer oder mehrerer der CPU(s) 906 und/oder einer oder mehrerer der GPU(s) 908 sein.
Beispiele für die logische(n) Einheit(en) 920 umfassen einen oder mehrere Rechenkerne und/oder Komponenten davon, wie Datenverarbeitungseinheiten (DPUs), Tensorkerne (TCs), Tensorverarbeitungseinheiten (TPUs), Pixel Visual Cores (PVCs), Vision Processing Units (VPUs), Grafikverarbeitungscluster (GPCs), Texturverarbeitungscluster (TPCs), Streaming-Multiprozessoren (SMs), Tree Traversierung Units (TTUs), Artificial Intelligence Accelerators (AIAs), Deep Learning Accelerators (DLAs), Arithmetik-LogikEinheiten (ALUs), anwendungsspezifische integrierte Schaltungen (ASICs), Fließkomma-Einheiten (FPUs), Input/Output (I/O)-Elemente, Peripheral Component Interconnect (PCI)- oder Peripheral Component Interconnect Express (PCIe)-Elemente und/oder dergleichen.
Die Kommunikationsschnittstelle 910 kann einen oder mehrere Empfänger, Sender und/oder Transceiver enthalten, die es der Rechenvorrichtung 900 ermöglichen, mit anderen Computergeräten über ein elektronisches Kommunikationsnetzwerk zu kommunizieren, einschließlich drahtgebundener und/oder drahtloser Kommunikation. Die Kommunikationsschnittstelle 910 kann Komponenten und Funktionen enthalten, die die Kommunikation über eine Reihe verschiedener Netzwerke ermöglichen, wie z. B. drahtlose Netzwerke (z. B. Wi-Fi, Z-Wave, Bluetooth, Bluetooth LE, ZigBee usw.), drahtgebundene Netzwerke (z. B. Kommunikation über Ethernet oder InfiniBand), Weitverkehrsnetzwerke mit geringer Leistung (z. B. LoRaWAN, SigFox usw.) und/oder das Internet. In einer oder mehreren Ausführungsformen können die Logikeinheit(en) 920 und/oder die Kommunikationsschnittstelle 910 eine oder mehrere Datenverarbeitungseinheiten (DPUs) enthalten, um über ein Netzwerk und/oder über das Interconnect-System 902 empfangene Daten direkt an eine oder mehrere GPU(s) 908 (z. B. einen Speicher) zu übertragen.
Die I/O-Ports 912 können es ermöglichen, dass die Rechenvorrichtung 900 logisch mit anderen Geräten gekoppelt wird, einschließlich der I/O-Komponenten 914, der Präsentationskomponente(n) 918 und/oder anderer Komponenten, von denen einige in die Rechenvorrichtung 900 eingebaut (z. B. integriert) sein können. Illustrative I/O-Komponenten 914 umfassen ein Mikrofon, eine Maus, eine Tastatur, einen Joystick, ein Gamepad, einen Gamecontroller, eine Satellitenschüssel, einen Scanner, einen Drucker, ein drahtloses Gerät usw. Die I/O-Komponenten 914 können eine natürliche Benutzerschnittstelle (NUI) bereitstellen, die Luftgesten, Sprache oder andere physiologische Eingaben eines Benutzers verarbeitet. In einigen Fällen können die Eingaben zur weiteren Verarbeitung an ein geeignetes Netzwerkelement übertragen werden. Eine NUI kann eine beliebige Kombination aus Spracherkennung, Stifterkennung, Gesichtserkennung, biometrischer Erkennung, Gestenerkennung sowohl auf dem Bildschirm als auch neben dem Bildschirm, Luftgesten, Kopf- und Augenverfolgung und Berührungserkennung (wie unten ausführlicher beschrieben) in Verbindung mit einer Anzeige des Computergeräts 900 implementieren. Die Rechenvorrichtung 900 kann Tiefenkameras, wie z. B. stereoskopische Kamerasysteme, Infrarotkamerasysteme, RGB-Kamerasysteme, Touchscreen-Technologie und Kombinationen davon, zur Gestenerkennung und -erfassung enthalten. Zusätzlich kann die Rechenvorrichtung 900 Beschleunigungsmesser oder Gyroskope (z. B. als Teil einer Trägheitsmesseinheit (IMU)) enthalten, die die Erkennung von Bewegungen ermöglichen. In einigen Beispielen kann die Ausgabe der Beschleunigungsmesser oder Gyroskope von der Rechenvorrichtung 900 verwendet werden, um immersive Augmented Reality oder Virtual Reality darzustellen.
Die Stromversorgung 916 kann eine fest verdrahtete Stromversorgung, eine Batteriestromversorgung oder eine Kombination davon sein. Die Stromversorgung 916 kann die Rechenvorrichtung 900 mit Strom versorgen, um den Betrieb der Komponenten des Computergeräts 900 zu ermöglichen.
Die Präsentationskomponente(n) 918 kann (können) eine Anzeige (z. B. einen Monitor, einen Touchscreen, einen Fernsehbildschirm, ein Head-up-Display (HUD), andere Anzeigetypen oder eine Kombination davon), Lautsprecher und/oder andere Präsentationskomponenten umfassen. Die Präsentationskomponente(n) 918 kann/können Daten von anderen Komponenten (z. B. der/den GPU(s) 908, der/den CPU(s) 906, DPUs usw.) empfangen und die Daten ausgeben (z. B. als Bild, Video, Ton usw.).
Beispielhaftes Datenzentrum
10 zeigt ein beispielhaftes Datenzentrum 1000, das in mindestens einer Ausführungsform der vorliegenden Offenbarung verwendet werden kann. Das Datenzentrum 1000 kann eine Datenzentrum-Infrastrukturschicht 1010, eine Framework-Schicht 1020, eine Softwareschicht 1030 und/oder eine Anwendungsschicht 1040 umfassen.
Wie in 10 dargestellt, kann die Infrastrukturschicht 1010 des Datenzentrums einen Ressourcen-Orchestrator 1012, gruppierte Rechenressourcen 1014 und Knotenrechenressourcen („Knoten-C.R.s“) 1016(1)-1016(N) umfassen, wobei „N“ eine beliebige ganze, positive Zahl darstellt. In mindestens einer Ausführungsform können die Knoten-C.R.s 1016(1)-1016(N) eine beliebige Anzahl von Zentraleinheiten (CPUs) oder anderen Prozessoren (einschließlich DPUs, Beschleunigern, feldprogrammierbaren Gate-Arrays (FPGAs), Grafikprozessoren oder Grafikverarbeitungseinheiten (GPUs) usw.), Speichergeräten (z. B., dynamischer Festwertspeicher), Speichergeräte (z. B. Festkörper- oder Festplattenlaufwerke), Netzwerk-Eingabe-/Ausgabegeräte (NW I/O), Netzwerk-Switches, virtuelle Maschinen (VMs), Stromversorgungsmodule und/oder Kühlmodule, usw. In einigen Ausführungsformen können ein oder mehrere Knoten-C.R.s unter den Knoten-C.R.s 1016(1)-1016(N) einem Server entsprechen, der über eine oder mehrere der oben erwähnten Rechenressourcen verfügt. Darüber hinaus können in einigen Ausführungsformen die Knoten C.R.s 1016(1)-10161(N) eine oder mehrere virtuelle Komponenten enthalten, wie z. B. vGPUs, vCPUs und/oder dergleichen, und/oder einer oder mehrere der Knoten C.R.s 1016(1)-1016(N) können einer virtuellen Maschine (VM) entsprechen.
In mindestens einer Ausführungsform können die gruppierten Rechenressourcen 1014 separate Gruppierungen von Knoten-CRs 1016 umfassen, die in einem oder mehreren Racks (nicht dargestellt) oder in vielen Racks in Datenzentren an verschiedenen geografischen Standorten (ebenfalls nicht dargestellt) untergebracht sind. Getrennte Gruppierungen von Knoten-C.R.s 1016 innerhalb gruppierter Rechenressourcen 1014 können gruppierte Rechen-, Netzwerk-, Speicher- oder Speicherressourcen umfassen, die zur Unterstützung einer oder mehrerer Arbeitslasten konfiguriert oder zugewiesen werden können. In mindestens einer Ausführungsform können mehrere Knoten-CRs 1016 mit CPUs, GPUs, DPUs und/oder anderen Prozessoren in einem oder mehreren Racks gruppiert werden, um Rechenressourcen zur Unterstützung einer oder mehrerer Arbeitslasten bereitzustellen. Das eine oder die mehreren Racks können auch eine beliebige Anzahl von Stromversorgungsmodulen, Kühlmodulen und/oder Netzwerk-Switches in beliebiger Kombination enthalten.
Der Ressourcen-Orchestrator 1012 kann einen oder mehrere Knoten-CRs 1016(1)-1016(N) und/oder gruppierte Rechenressourcen 1014 konfigurieren oder anderweitig steuern. In mindestens einer Ausführungsform kann der Ressourcen-Orchestrator 1012 eine Software-Design-Infrastruktur (SDI)-Verwaltungseinheit für das Datenzentrum 1000 umfassen. Der Ressourcen-Orchestrator 1012 kann Hardware, Software oder eine Kombination davon umfassen.
In mindestens einer Ausführungsform, wie in 10 gezeigt, kann die Framework-Schicht 1020 einen Job Scheduler 1032, einen Konfigurationsmanager 1034, einen Ressourcenmanager 1036 und/oder ein verteiltes Dateisystem 1038 enthalten. Die Framework-Schicht 1020 kann ein Framework zur Unterstützung der Software 1032 der Softwareschicht 1030 und/oder einer oder mehrerer Anwendung(en) 1042 der Anwendungsschicht 1040 enthalten. Die Software 1032 oder die Anwendung(en) 1042 können jeweils webbasierte Dienstsoftware oder Anwendungen umfassen, wie sie von Amazon Web Services, Google Cloud und Microsoft Azure bereitgestellt werden. Bei der Framework-Schicht 1020 kann es sich um eine Art von freiem und quelloffenem Software-Webanwendungs-Framework wie Apache Spark™ (im Folgenden „Spark“) handeln, das ein verteiltes Dateisystem 1038 für die Verarbeitung großer Datenmengen (z. B. „Big Data“) nutzen kann, ohne darauf beschränkt zu sein. In mindestens einer Ausführungsform kann der Job Scheduler 1032 einen Spark-Treiber enthalten, um die Planung von Arbeitslasten zu erleichtern, die von verschiedenen Schichten des Datenzentrums 1000 unterstützt werden. Der Konfigurationsmanager 1034 kann in der Lage sein, verschiedene Schichten wie die Softwareschicht 1030 und die Framework-Schicht 1020 einschließlich Spark und das verteilte Dateisystem 1038 zu konfigurieren, um die Verarbeitung großer Datenmengen zu unterstützen. Der Ressourcenmanager 1036 kann in der Lage sein, geclusterte oder gruppierte Computerressourcen zu verwalten, die zur Unterstützung des verteilten Dateisystems 1038 und des Job Schedulers 1032 zugeordnet sind. In mindestens einer Ausführungsform können geclusterte oder gruppierte Rechenressourcen gruppierte Rechenressourcen 1014 auf der Infrastrukturschicht 1010 des Datenzentrums umfassen. Der Ressourcenmanager 1036 kann sich mit dem Ressourcen-Orchestrator 1012 abstimmen, um diese zugeordneten oder zugewiesenen Computerressourcen zu verwalten.
In mindestens einer Ausführungsform kann die in der Softwareschicht 1030 enthaltene Software 1032 Software enthalten, die von mindestens Teilen der Knoten C.R.s 1016(1)-1016(N), der gruppierten Rechenressourcen 1014 und/oder des verteilten Dateisystems 1038 der Framework-Schicht 1020 verwendet wird. Eine oder mehrere Arten von Software können u. a. Internet-Suchsoftware, E-Mail-Virenscan-Software, Datenbanksoftware und Software für Streaming-Videoinhalte umfassen.
In mindestens einer Ausführungsform kann (können) die in der Anwendungsschicht 1040 enthaltene(n) Anwendung(en) 1042 eine oder mehrere Arten von Anwendungen umfassen, die von mindestens Teilen der Knoten C.R.s 1016(1)-1016(N), gruppierten Rechenressourcen 1014 und/oder dem verteilten Dateisystem 1038 der Framework-Schicht 1020 verwendet werden. Eine oder mehrere Arten von Anwendungen können eine beliebige Anzahl von Genomanwendungen, kognitiven Berechnungen und Anwendungen für maschinelles Lernen umfassen, einschließlich Trainings- oder Inferenzsoftware, Framework-Software für maschinelles Lernen (z. B. PyTorch, TensorFlow, Caffe usw.) und/oder andere Anwendungen für maschinelles Lernen, die in Verbindung mit einer oder mehreren Ausführungsformen verwendet werden, sind jedoch nicht darauf beschränkt.
In mindestens einer Ausführungsform können der Konfigurationsmanager 1034, der Ressourcenmanager 1036 und der Ressourcen-Orchestrator 1012 eine beliebige Anzahl und Art von selbstmodifizierenden Aktionen implementieren, die auf einer beliebigen Menge und Art von Daten basieren, die auf jede technisch machbare Weise erfasst werden. Selbstmodifizierende Aktionen können einen Datenzentrumsbetreiber des Datenzentrums 1000 davon entlasten, möglicherweise schlechte Konfigurationsentscheidungen zu treffen und möglicherweise nicht ausgelastete und/oder schlecht funktionierende Teile eines Datenzentrums zu vermeiden.
Das Datenzentrum 1000 kann Werkzeuge, Dienste, Software oder andere Ressourcen enthalten, um ein oder mehrere maschinelle Lernmodelle zu trainieren oder Informationen unter Verwendung eines oder mehrerer maschineller Lernmodelle gemäß einer oder mehrerer hierin beschriebener Ausführungsformen vorherzusagen oder abzuleiten. Beispielsweise kann ein maschinelles Lernmodell bzw. können maschinelle Lernmodelle trainiert werden, indem Gewichtsparameter gemäß einer neuronalen Netzwerkarchitektur unter Verwendung von Software und/oder Rechenressourcen berechnet werden, die oben in Bezug auf das Datenzentrum 1000 beschrieben wurden. In mindestens einer Ausführungsform können trainierte oder eingesetzte maschinelle Lernmodelle, die einem oder mehreren neuronalen Netzen entsprechen, verwendet werden, um Informationen abzuleiten oder vorherzusagen, wobei die oben beschriebenen Ressourcen in Bezug auf das Datenzentrum 1000 verwendet werden, indem Gewichtungsparameter verwendet werden, die durch eine oder mehrere Trainingstechniken berechnet werden, wie z. B., aber nicht beschränkt auf die hier beschriebenen.
In mindestens einer Ausführungsform kann das Datenzentrum 1000 CPUs, anwendungsspezifische integrierte Schaltungen (ASICs), GPUs, FPGAs und/oder andere Hardware (oder entsprechende virtuelle Rechenressourcen) verwenden, um mit den oben beschriebenen Ressourcen ein Training und/oder eine Inferenz durchzuführen. Darüber hinaus können eine oder mehrere der oben beschriebenen Software- und/oder Hardwareressourcen als Dienst konfiguriert werden, um Benutzern das Training oder die Inferenz von Informationen zu ermöglichen, wie z. B. Bilderkennung, Spracherkennung oder andere Dienste der künstlichen Intelligenz.
Beispielhafte Netzwerkumgebungen
Netzwerkumgebungen, die zur Verwendung bei der Implementierung von Ausführungsformen der Offenbarung geeignet sind, können ein oder mehrere Client-Geräte, Server, Network Attached Storage (NAS), andere Backend-Geräte und/oder andere Gerätetypen umfassen. Die Client-Geräte, Server und/oder anderen Gerätetypen (z. B. jedes Gerät) können auf einer oder mehreren Instanzen des/der Computergeräts/e 900 von 9 implementiert werden - z. B. kann jedes Gerät ähnliche Komponenten, Merkmale und/oder Funktionalität des/der Computergeräts/e 900 enthalten. Wenn Backend-Geräte (z. B. Server, NAS usw.) implementiert sind, können die Backend-Geräte außerdem Teil eines Datenzentrums 1000 sein, dessen Beispiel hier in Bezug auf 10 näher beschrieben wird.
Die Komponenten einer Netzwerkumgebung können über ein oder mehrere Netzwerke miteinander kommunizieren, die drahtgebunden, drahtlos oder beides sein können. Das Netz kann mehrere Netze oder ein Netz von Netzen umfassen. Beispielsweise kann das Netzwerk ein oder mehrere Wide Area Networks (WANs), ein oder mehrere Local Area Networks (LANs), ein oder mehrere öffentliche Netzwerke wie das Internet und/oder ein öffentliches Telefonnetz (PSTN) und/oder ein oder mehrere private Netzwerke umfassen. Wenn das Netz ein drahtloses Telekommunikationsnetz umfasst, können Komponenten wie eine Basisstation, ein Kommunikationsturm oder sogar Zugangspunkte (sowie andere Komponenten) eine drahtlose Verbindung ermöglichen.
Zu den kompatiblen Netzwerkumgebungen gehören eine oder mehrere Peer-to-Peer-Netzwerkumgebungen - in diesem Fall kann ein Server nicht in eine Netzwerkumgebung eingebunden sein - und eine oder mehrere Client-Server-Netzwerkumgebungen - in diesem Fall können ein oder mehrere Server in eine Netzwerkumgebung eingebunden sein. In Peer-to-Peer-Netzwerkumgebungen kann die hier beschriebene Funktionalität in Bezug auf einen oder mehrere Server auf einer beliebigen Anzahl von Client-Geräten implementiert werden.
In mindestens einer Ausführungsform kann eine Netzumgebung eine oder mehrere Cloud-basierte Netzumgebungen, eine verteilte Rechenumgebung, eine Kombination davon usw. umfassen. Eine Cloud-basierte Netzwerkumgebung kann eine Framework-Schicht, einen Job Scheduler, einen Ressourcenmanager und ein verteiltes Dateisystem umfassen, die auf einem oder mehreren Servern implementiert sind, die einen oder mehrere Kernnetzwerkserver und/oder Edge-Server umfassen können. Eine Framework-Schicht kann ein Framework zur Unterstützung von Software einer Softwareschicht und/oder einer oder mehrerer Anwendungen einer Anwendungsschicht umfassen. Die Software oder die Anwendung(en) können jeweils webbasierte Dienstsoftware oder Anwendungen umfassen. In Ausführungsformen können ein oder mehrere Client-Geräte die webbasierte Dienstsoftware oder Anwendungen nutzen (z. B. durch Zugriff auf die Dienstsoftware und/oder Anwendungen über eine oder mehrere Anwendungsprogrammierschnittstellen (APIs)). Bei der Framework-Schicht kann es sich um eine Art von freiem und quelloffenem Software-Webanwendungs-Framework handeln, das z. B. ein verteiltes Dateisystem für die Verarbeitung großer Datenmengen (z. B. „Big Data“) verwendet, ohne darauf beschränkt zu sein.
Eine Cloud-basierte Netzwerkumgebung kann Cloud-Computing und/oder Cloud-Speicher bereitstellen, die eine beliebige Kombination der hier beschriebenen Rechen- und/oder Datenspeicherfunktionen (oder einen oder mehrere Teile davon) ausführen. Jede dieser verschiedenen Funktionen kann über mehrere Standorte von zentralen oder Kernservern (z. B. von einem oder mehreren Datenzentren, die über einen Staat, eine Region, ein Land, den Globus usw. verteilt sein können) verteilt sein. Befindet sich eine Verbindung zu einem Benutzer (z. B. einem Client-Gerät) relativ nahe an einem oder mehreren Edge-Servern, kann ein Kernserver zumindest einen Teil der Funktionalität dem oder den Edge-Servern zuweisen. Eine Cloud-basierte Netzwerkumgebung kann privat (z. B. auf eine einzelne Organisation beschränkt), öffentlich (z. B. für viele Organisationen verfügbar) und/oder eine Kombination davon (z. B. eine hybride Cloud-Umgebung) sein.
Das (die) Client-Gerät(e) kann (können) zumindest einige der Komponenten, Merkmale und Funktionen des (der) hier in Bezug auf 9 beschriebenen Beispiel-Computergeräts (-geräte) 900 enthalten. Ein Client-Gerät kann beispielsweise ein Personal Computer (PC), ein Laptop, ein mobiles Gerät, ein Smartphone, ein Tablet-Computer, eine Smartwatch, ein tragbarer Computer, ein Personal Digital Assistant (PDA), ein MP3-Player, ein Virtual-Reality-Headset, ein Global Positioning System (GPS) oder ein Gerät, ein Videoplayer, eine Videokamera, ein Überwachungsgerät oder -system, ein Fahrzeug ein Boot, ein fliegendes Schiff, eine virtuelle Maschine, eine Drohne, ein Roboter, ein tragbares Kommunikationsgerät, ein Krankenhausgerät, ein Spielgerät oder -system, ein Unterhaltungssystem, ein Fahrzeugcomputersystem, einen eingebetteten Systemcontroller, eine Fernbedienung, ein Gerät, ein Unterhaltungselektronikgerät, eine Workstation, ein Edge-Gerät, eine beliebige Kombination dieser beschriebenen Geräte oder jedes andere geeignete Gerät.
Die Offenbarung kann im allgemeinen Kontext von Computercode oder maschinell verwendbaren Anweisungen, einschließlich von computerausführbaren Anweisungen wie Programmmodulen, beschrieben werden, die von einem Computer oder einer anderen Maschine, z. B. einem persönlichen Datenassistenten oder einem anderen Handheld-Gerät, ausgeführt werden. Im Allgemeinen beziehen sich Programmmodule, einschließlich Routinen, Programme, Objekte, Komponenten, Datenstrukturen usw., auf Code, der bestimmte Aufgaben ausführt oder bestimmte abstrakte Datentypen implementiert. Die Offenbarung kann in einer Vielzahl von Systemkonfigurationen angewendet werden, einschließlich Handheld-Geräten, Unterhaltungselektronik, Allzweckcomputern, spezielleren Rechenvorrichtungen usw. Die Offenbarung kann auch in verteilten Computerumgebungen angewendet werden, in denen Aufgaben von ferngesteuerten Geräten ausgeführt werden, die über ein Kommunikationsnetz verbunden sind.
Wenn hier von „und/oder“ in Bezug auf zwei oder mehr Elemente die Rede ist, sollte dies so verstanden werden, dass nur ein Element oder eine Kombination von Elementen gemeint ist. Beispielsweise kann „Element A, Element B und/oder Element C“ nur Element A, nur Element B, nur Element C, Element A und Element B, Element A und Element C, Element B und Element C oder die Elemente A, B und C umfassen. Darüber hinaus kann „mindestens eines der Elemente A oder B“ mindestens eines der Elemente A, mindestens eines der Elemente B oder mindestens eines der Elemente A und mindestens eines der Elemente B einschließen.
Der Gegenstand der vorliegenden Offenbarung wird hier mit einer Genauigkeit beschrieben, die den gesetzlichen Anforderungen entspricht. Die Beschreibung selbst soll jedoch den Umfang dieser Offenbarung nicht einschränken. Vielmehr haben die Erfinder in Betracht gezogen, dass der beanspruchte Gegenstand auch auf andere Weise verkörpert werden könnte, um verschiedene Schritte oder Kombinationen von Schritten, die den in diesem Dokument beschriebenen ähnlich sind, in Verbindung mit anderen gegenwärtigen oder zukünftigen Technologien zu umfassen. Obwohl die Begriffe „Schritt“ und/oder „Block“ hier verwendet werden können, um verschiedene Elemente der angewandten Methoden zu bezeichnen, sollten die Begriffe nicht so ausgelegt werden, dass sie eine bestimmte Reihenfolge unter oder zwischen verschiedenen hier offenbart dargestellten Schritten implizieren, es sei denn, die Reihenfolge der einzelnen Schritte wird ausdrücklich beschrieben.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 16101232 [0125]

Claims

Prozessor, der aufweist: eine oder mehrere Schaltungen, um: unter Verwendung eines tiefen neuronalen Netzes, DNN, und zumindest teilweise basierend auf ersten Sensordaten, die mit einem oder mehreren ersten Sensoren einer Ego-Maschine erzeugt werden, eine erste Merkmalsabbildung zu berechnen, die für einen oder mehrere erste Merkmalsdeskriptoren repräsentativ ist; einen ersten Merkmalsdeskriptor mit einem ersten Objekt zu verknüpfen, zumindest teilweise basierend auf dem einen oder den mehreren ersten Merkmalsdeskriptoren; unter Verwendung des DNN und zumindest teilweise basierend auf zweiten Sensordaten, die unter Verwendung mindestens eines des einen oder der mehreren ersten Sensoren oder des einen oder der mehreren zweiten Sensoren der Ego-Maschine erzeugt werden, eine zweite Merkmalsabbildung zu berechnen, die für einen oder mehrere zweite Merkmalsdeskriptoren repräsentativ ist; einen zweiten Merkmalsdeskriptor mit einem zweiten Objekt zu verknüpfen, zumindest teilweise basierend auf dem einen oder den mehreren zweiten Merkmalsdeskriptoren; festzustellen, dass das erste Objekt und das zweite Objekt ein selbes Objekt sind, zumindest teilweise basierend auf dem ersten Merkmalsdeskriptor und dem zweiten Merkmalsdeskriptor; und eine oder mehrere Operationen durch die Ego-Maschine durchzuführen, zumindest teilweise basierend auf der Feststellung, dass das erste Objekt und das zweite Objekt dasselbe Objekt sind.
Prozessor nach Anspruch 1, wobei die ersten Sensordaten unter Verwendung des einen oder der mehreren ersten Sensoren zu einem ersten Zeitstempel erzeugt werden und die zweiten Sensordaten unter Verwendung des einen oder der mehreren ersten Sensoren zu einem zweiten Zeitstempel erzeugt werden.
Prozessor nach Anspruch 1 oder 2, wobei die ersten Sensordaten unter Verwendung des einen oder der mehreren ersten Sensoren gleichzeitig mit der Erzeugung der zweiten Sensordaten unter Verwendung des einen oder der mehreren zweiten Sensoren erzeugt werden.
Prozessor nach einem der vorhergehenden Ansprüche, wobei die Verknüpfung des ersten Merkmalsdeskriptors mit dem ersten Objekt aufweist: Berechnen einer Begrenzungsform, zumindest teilweise basierend auf den ersten Sensordaten; Bestimmen einer Teilmenge des einen oder der mehreren ersten Merkmalsdeskriptoren, die sich zumindest teilweise innerhalb der Begrenzungsform befinden; und Erzeugen des ersten Merkmalsdeskriptors unter Verwendung der Teilmenge.
Prozessor nach Anspruch 4, wobei das Erzeugen des ersten Merkmalsdeskriptors unter Verwendung der Teilmenge eine Mittelwertbildung von Werten aufweist, die der Teilmenge des einen oder der mehreren ersten Merkmalsdeskriptoren entsprechen.
Prozessor nach Anspruch 4 oder 5, wobei das Berechnen der Begrenzungsform unter Verwendung des DNN, eines anderen DNN oder eines Objekterkennungsalgorithmus ausgeführt wird.
Prozessor nach einem der vorhergehenden Ansprüche, wobei die eine oder die mehreren Operationen das Verfolgen desselben Objekts aufweisen.
Prozessor nach einem der vorhergehenden Ansprüche, wobei jeder erste Merkmalsdeskriptor des einen oder der mehreren ersten Merkmalsdeskriptoren und jeder zweite Merkmalsdeskriptor des einen oder der mehreren zweiten Merkmalsdeskriptoren unter Verwendung eines eindimensionalen Merkmalsvektors dargestellt werden.
Prozessor nach einem der vorhergehenden Ansprüche, wobei das DNN unter Verwendung einer Triplet-Verlustfunktion trainiert wird.
Prozessor nach einem der vorhergehenden Ansprüche, wobei das DNN unter Verwendung von mindestens einem von Batch Hard Triplet Mining oder Batch Semi-Hard Triplet Mining trainiert wird.
Prozessor nach einem der vorhergehenden Ansprüche, wobei der Prozessor in mindestens einem enthalten ist von: einem Steuerungssystem für eine autonome oder halbautonome Maschine; einem Wahrnehmungssystem für eine autonome oder halbautonome Maschine; einem System zum Durchführen von Simulationsoperationen; einem System zum Durchführen von Deep-Learning-Operationen; einem System, das unter Verwendung einer Edge-Vorrichtung implementiert ist; einem System, das unter Verwendung eines Roboters implementiert ist; einem System, das eine oder mehrere virtuelle Maschinen (VMs) enthält; einem System, das zumindest teilweise in einem Datenzentrum implementiert ist; oder einem System, das zumindest teilweise unter Verwendung von Cloud-Computing-Ressourcen implementiert ist.
System, das aufweist: eine oder mehrere Verarbeitungseinheiten; und eine oder mehrere Speichereinheiten, die Befehle speichern, die, wenn sie von der einen oder den mehreren Verarbeitungseinheiten ausgeführt werden, die eine oder die mehreren Verarbeitungseinheiten veranlassen, Operationen auszuführen, die aufweisen: Berechnen, unter Verwendung eines tiefen neuronalen Netzes, DNN, und zumindest teilweise basierend auf ersten Sensordaten, die mit einem oder mehreren ersten Sensoren einer Ego-Maschine erzeugt werden, eines oder mehrerer erster Merkmalsvektoren; Verknüpfen eines ersten Merkmalsvektors mit einem ersten Objekt unter Verwendung des einen oder der mehreren ersten Merkmalsvektoren; Berechnen, unter Verwendung des DNN und zumindest teilweise basierend auf zweiten Sensordaten, die unter Verwendung des einen oder der mehreren ersten Sensoren oder des einen oder der mehreren zweiten Sensoren der Ego-Maschine erzeugt werden, eines oder mehrerer zweiter Merkmalsvektoren; Verknüpfen eines zweiten Merkmalsvektors mit einem zweiten Objekt, zumindest teilweise basierend auf dem einen oder mehreren zweiten Merkmalsvektoren; Definieren des ersten Objekts und des zweiten Objekts als ein selbes Objekt, basierend zumindest teilweise auf dem ersten Merkmalsvektor und dem zweiten Merkmalsvektor; und Durchführen einer oder mehrerer Operationen durch die Ego-Maschine, zumindest teilweise basierend auf der Definition des ersten Objekts und des zweiten Objekts als dasselbe Objekt.
System nach Anspruch 12, wobei die ersten Sensordaten unter Verwendung des einen oder der mehreren ersten Sensoren zu einem ersten Zeitpunkt erzeugt werden und die zweiten Sensordaten unter Verwendung des einen oder der mehreren ersten Sensoren zu einem zweiten Zeitpunkt erzeugt werden.
System nach Anspruch 12 oder 13, wobei die ersten Sensordaten unter Verwendung des einen oder der mehreren ersten Sensoren zu einem Zeitpunkt erzeugt werden und die zweiten Sensordaten unter Verwendung des einen oder der mehreren zweiten Sensoren zu dem Zeitpunkt erzeugt werden.
System nach einem der Ansprüche 12 bis 14, wobei die Verknüpfung des ersten Merkmalsvektors mit dem ersten Objekt aufweist: Berechnen einer Begrenzungsform, zumindest teilweise basierend auf den ersten Sensordaten; Bestimmen einer Teilmenge des einen oder der mehreren ersten Merkmalsvektoren, die sich zumindest teilweise innerhalb der Begrenzungsform befinden; und Erzeugen des ersten Merkmalsvektors unter Verwendung der Teilmenge.
System nach Anspruch 15, wobei das Erzeugen des ersten Merkmalsvektors unter Verwendung der Teilmenge eine Mittelwertbildung von Werten aufweist, die der Teilmenge des einen oder der mehreren ersten Merkmalsvektoren entsprechen.
System nach einem der Ansprüche 12 bis 16, wobei: die Operationen ferner das Berechnen eines Abstands zwischen dem ersten Merkmalsvektor und dem zweiten Merkmalsvektor aufweisen; und das Definieren des ersten Objekts und des zweiten Objekts als dasselbe Objekt zumindest teilweise darauf basiert, dass dem Abstand kleiner als ein Schwellenabstand ist.
System nach Anspruch 17, wobei das Berechnen des Abstands unter Verwendung von mindestens einem eines Kosinusabstands, eines L1-Abstands, eines L2-Abstands oder eines K-Nächster-Nachbar (KNN) Abstands ausgeführt wird.
System nach einem der Ansprüche 12 bis 18, wobei das System in mindestens einem enthalten ist von: einem Steuerungssystem für eine autonome oder halbautonome Maschine; einem Wahrnehmungssystem für eine autonome oder halbautonome Maschine; einem System zum Durchführen von Simulationsoperationen; einem System zum Durchführen von Deep-Learning-Operationen; einem System, das unter Verwendung einer Edge-Vorrichtung implementiert ist; einem System, das unter Verwendung eines Roboters implementiert ist; einem System, das eine oder mehrere virtuelle Maschinen (VMs) enthält; einem System, das zumindest teilweise in einem Datenzentrum implementiert ist; oder einem System, das zumindest teilweise unter Verwendung von Cloud-Computing-Ressourcen implementiert ist.
Verfahren, das aufweist: Kennzeichnen, unter Verwendung von Trainingsdaten, einer ersten Begrenzungsform eines ersten Frames und einer zweiten Begrenzungsform eines zweiten Frames als einem Objekt entsprechend; Bestimmen, unter Verwendung eines tiefen neuronalen Netzes, DNN, eines oder mehrerer erster Merkmalsdeskriptoren, die ersten Punkten innerhalb der ersten Begrenzungsform des ersten Frames entsprechen, und eines oder mehrerer zweiter Merkmalsdeskriptoren, die zweiten Punkten innerhalb der zweiten Begrenzungsform des zweiten Frames entsprechen; Bestimmen eines ersten Merkmalsdeskriptors des einen oder der mehreren ersten Merkmalsdeskriptoren, der einem Ankerpunkt der ersten Punkte entspricht; Vergleichen, unter Verwendung einer Verlustfunktion, des ersten Merkmalsdeskriptors mit einem zweiten Merkmalsdeskriptor, der einem zweiten Punkt der zweiten Punkte entspricht; und Aktualisieren eines oder mehrerer Parameter des DNN, zumindest teilweise basierend auf dem Vergleichen.
Verfahren nach Anspruch 20, wobei ein unter Verwendung der Verlustfunktion berechneter Verlust auf einer Größe einer Differenz zwischen ersten Werten, die dem ersten Merkmalsdeskriptor entsprechen, und zweiten Werten basiert, die dem zweiten Merkmalsdeskriptor entsprechen.
Verfahren nach Anspruch 20 oder 21, das ferner aufweist: Kennzeichnen, unter Verwendung der Trainingsdaten, einer dritten Begrenzungsform eines dritten Frames als einem weiteren Objekt entsprechend; Bestimmen, unter Verwendung des tiefen neuronalen Netzwerks (DNN), eines oder mehrerer dritter Merkmalsdeskriptoren, die dritten Punkten innerhalb der dritten Begrenzungsform des dritten Frames entsprechen; und Vergleichen, unter Verwendung der Verlustfunktion, des ersten Merkmalsdeskriptors mit einem dritten Merkmalsdeskriptor, der einem dritten Punkt der dritten Punkte entspricht, wobei das Aktualisieren des einen oder der mehreren Parameter des DNN zumindest teilweise auf dem Vergleichen des ersten Merkmalsdeskriptors mit dem dritten Merkmalsdeskriptor basiert.
Verfahren nach Anspruch 22, wobei der dritte Frame dem zweiten Frame entspricht.
Verfahren nach Anspruch 22 oder 23, wobei der unter Verwendung der Verlustfunktion berechnete Verlust auf einer Größe einer Differenz zwischen ersten Werten, die dem ersten Merkmalsdeskriptor entsprechen, und zweiten Werten basiert, die dem zweiten Merkmalsdeskriptor entsprechen.
Verfahren nach einem der Ansprüche 20 bis 24, wobei die Verlustfunktion eine Triplet-Verlustfunktion ist.
Verfahren nach einem der Ansprüche 20 bis 25, wobei die Trainingsdaten durch Online-Triplet-Mining ausgewählt werden.
Verfahren nach Anspruch 26, wobei das Online-Triplet-Mining mindestens eines aufweist von: Batch Hard Online-Triplet-Mining oder Batch Semi-Hard Online-Triplet-Mining.
Prozessor, der aufweist: eine oder mehrere Schaltungen, um ein Objekt über zwei oder mehr Frames zu verfolgen, die unter Verwendung von Sensordaten erzeugt werden und zumindest teilweise auf dem Bestimmen basieren, dass ein erster Merkmalsvektor, der dem Objekt in einem ersten Sensorframe entspricht, sich innerhalb einer Schwellenähnlichkeit zu einem zweiten Merkmalsvektor befindet, der dem Objekt in einem zweiten Sensorframe entspricht, wobei der erste Merkmalsvektor und der zweite Merkmalsvektor unter Verwendung eines tiefen neuronalen Netzes, DNN, berechnet werden.