DE102019111249A1

DE102019111249A1 - Verfahren und system zur verbesserung der objekterkennung und objektklassifizierung

Info

Publication number: DE102019111249A1
Application number: DE102019111249.4A
Authority: DE
Inventors: Soheil Samii; Unmesh Dutta Bordoloi; Fan Bai; Guangyu J. Zou
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2018-05-15
Filing date: 2019-05-01
Publication date: 2019-11-21
Also published as: US20190354785A1; CN110490217A; US10579888B2; CN110490217B

Abstract

Ein System und Verfahren zur Objekterkennung und -klassifizierung beinhaltet das Empfangen von ersten Daten einer Szene durch eine Steuerung, worin die Daten die Szene zu einem ersten Zeitpunkt reflektieren, und das Durchführen einer ersten Klassifizierung von mindestens einem Objekt innerhalb der Szene basierend auf den Daten. Das Verfahren beinhaltet das Bestimmen eines projizierten Standorts des mindestens einen Objekts, der einem geschätzten Standort zu einem zweiten Zeitpunkt entspricht. Das Verfahren beinhaltet das Empfangen einer zweiten Information der Szene, welche die Szene zum zweiten Zeitpunkt reflektiert. Das Verfahren beinhaltet das Bestimmen, ob der projizierte Standort des Objekts dem Standort des Objekts entspricht, wie er durch die zweiten Daten reflektiert wird. Das Verfahren beinhaltet das Bestimmen, ob das Durchführen einer zweiten Klassifizierung des einen Objekts erforderlich ist, basierend auf dem Bestimmen, ob der projizierte Standort dem Standort des einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird.

Description

EINLEITUNG
Die Ausführungsformen des Gegenstands beziehen sich auf die Verbesserung der Objekterkennung und Objektklassifizierung. Insbesondere können eine oder mehrere Ausführungsformen darauf ausgerichtet sein, die Fähigkeit eines autonomen Fahrzeugs zu verbessern, beispielsweise bei der Objekterkennung und Objektklassifizierung.
Ein autonomes Fahrzeug wird im Allgemeinen als ein Fahrzeug betrachtet, das in der Lage ist, durch eine Umgebung zu navigieren, ohne direkt von einem menschlichen Fahrer geführt zu werden. Das autonome Fahrzeug kann verschiedene Verfahren verwenden, um verschiedene Aspekte der Umwelt zu erfassen. So kann beispielsweise das autonome Fahrzeug die Global Positioning System (GPS)-Technologie, die Radartechnologie, die Lasertechnologie und/oder die Kamera-/Bildtechnologie nutzen, um die Straße, andere Fahrzeuge und Straßenhindernisse zu erkennen. Autonome Fahrzeuge müssen umliegende Objekte genau erkennen und die erfassten Objekte genau klassifizieren.
KURZDARSTELLUNG
In einer exemplarischen Ausführungsform beinhaltet ein Verfahren das Empfangen von ersten Daten einer Szene durch eine Steuerung eines autonomen Fahrzeugs. Die ersten Daten spiegeln die Szene zu einem ersten Zeitpunkt wider. Das Verfahren beinhaltet auch das Durchführen einer ersten Klassifizierung von mindestens einem Objekt innerhalb der Szene basierend auf den empfangenen ersten Daten. Das Verfahren beinhaltet auch das Bestimmen einer projizierten Position des mindestens einen Objekts. Die projizierte Position entspricht einer geschätzten Position zu einem zweiten Zeitpunkt. Das Verfahren beinhaltet auch das Empfangen von zweiten Daten der Szene. Die zweiten Daten spiegeln die Szene zum zweiten Mal wider. Das Verfahren beinhaltet auch das Bestimmen, ob der projizierte Standort des mindestens einen Objekts dem Standort des mindestens einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird. Das Verfahren beinhaltet auch das Bestimmen, ob das Durchführen einer zweiten Klassifizierung des mindestens einen Objekts erforderlich ist, basierend auf dem Bestimmen, ob der projizierte Standort dem Standort des mindestens einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird.
In einer weiteren exemplarischen Ausführungsform ist die Durchführung der zweiten Klassifizierung des mindestens einen Objekts nicht erforderlich, wenn der projizierte Standort dem Standort des mindestens einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Verfahren auch das Bestimmen von Attributdaten für das mindestens eine klassifizierte Objekt.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Bestimmen des projizierten Standorts des mindestens einen Objekts das Bestimmen des projizierten Standorts basierend auf den Attributdaten.
In einer weiteren exemplarischen Ausführungsform beinhalten die Attributdaten eine Richtung und eine Geschwindigkeit des Objekts.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Durchführen der ersten Klassifizierung des mindestens einen Objekts das Bestimmen eines interessierenden Bereichs innerhalb der empfangenen ersten Daten.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Empfangen der ersten Daten das Empfangen von Videoinformationen oder Kamerainformationen der Szene.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Durchführen der ersten Klassifizierung das Durchführen der ersten Klassifizierung durch ein faltungsneuronales Netzwerk.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Verfahren auch das Bestimmen, ob ein neues Objekt in die Szene eingetreten ist.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Verfahren auch das Bestimmen, dass eine zusätzliche Klassifizierung erforderlich ist, basierend auf der Bestimmung, ob ein neues Objekt in die Szene eingetreten ist.
In einer weiteren exemplarischen Ausführungsform beinhaltet ein System in einem autonomen Fahrzeug eine elektronische Steuerung des Fahrzeugs, die zum Empfangen von ersten Daten einer Szene konfiguriert ist. Die ersten Daten spiegeln die Szene zu einem ersten Zeitpunkt wider. Die elektronische Steuerung ist auch konfiguriert, um eine erste Klassifizierung von mindestens einem Objekt innerhalb der Szene basierend auf den empfangenen ersten Daten durchzuführen. Die elektronische Steuerung ist auch konfiguriert, um einen projizierten Standort des mindestens einen Objekts zu bestimmen. Die projizierte Position entspricht einer geschätzten Position zu einem zweiten Zeitpunkt. Die elektronische Steuerung ist ebenfalls konfiguriert, um zweite Daten der Szene zu empfangen. Die zweiten Daten spiegeln die Szene zum zweiten Mal wider. Die elektronische Steuerung ist ebenfalls konfiguriert, um zu bestimmen, ob der projizierte Standort des mindestens einen Objekts dem Standort des mindestens einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird. Die elektronische Steuerung ist ebenfalls konfiguriert, um zu bestimmen, ob das Durchführen einer zweiten Klassifizierung des mindestens einen Objekts erforderlich ist, basierend auf dem Bestimmen, ob der projizierte Standort dem Standort des mindestens einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird.
In einer weiteren exemplarischen Ausführungsform ist die Durchführung der zweiten Klassifizierung des mindestens einen Objekts nicht erforderlich, wenn der projizierte Standort dem Standort des mindestens einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird.
In einer weiteren exemplarischen Ausführungsform ist die elektronische Steuerung ferner konfiguriert, um Attributdaten für das mindestens eine klassifizierte Objekt zu bestimmen.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Bestimmen des projizierten Standorts des mindestens einen Objekts das Bestimmen des projizierten Standorts basierend auf den Attributdaten.
In einer weiteren exemplarischen Ausführungsform beinhalten die Attributdaten eine Richtung und eine Geschwindigkeit des Objekts.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Durchführen der ersten Klassifizierung des mindestens einen Objekts das Bestimmen eines interessierenden Bereichs innerhalb der empfangenen ersten Daten.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Empfangen der ersten Daten das Empfangen von Videoinformationen oder Kamerainformationen der Szene.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Durchführen der ersten Klassifizierung das Durchführen der ersten Klassifizierung durch ein faltungsneuronales Netzwerk.
In einer weiteren exemplarischen Ausführungsform ist die elektronische Steuerung ferner konfiguriert, um zu bestimmen, ob ein neues Objekt in die Szene eingetreten ist.
In einer weiteren exemplarischen Ausführungsform ist die elektronische Steuerung ferner konfiguriert, um zu bestimmen, dass eine zusätzliche Klassifizierung erforderlich ist, basierend auf der Bestimmung, ob ein neues Objekt in die Szene eingetreten ist.
Die oben genannten Eigenschaften und Vorteile sowie anderen Eigenschaften und Funktionen der vorliegenden Offenbarung gehen aus der folgenden ausführlichen Beschreibung in Verbindung mit den zugehörigen Zeichnungen ohne Weiteres hervor.
Figurenliste
Andere Merkmale, Vorteile und Einzelheiten erscheinen, nur exemplarisch, in der folgenden ausführlichen Beschreibung der Ausführungsformen, wobei sich die ausführliche Beschreibung auf die Zeichnungen bezieht, wobei gilt:

1 veranschaulicht das Durchführen der Objekterkennung und Objektklassifizierung gemäß einem konventionellen Ansatz;
2 veranschaulicht das Durchführen der Objekterkennung und Objektklassifizierung gemäß einer oder mehreren Ausführungsformen;
3 veranschaulicht ein System zum Durchführen von Projektion, Validierung und Änderungserkennung gemäß einer oder mehreren Ausführungsformen;
4 veranschaulicht einen exemplarischen Validierungs- und Neuberechnungsprozess gemäß einer oder mehreren Ausführungsformen;
5 veranschaulicht einen weiteren exemplarischen Validierungs- und Neuberechnungsprozess gemäß einer oder mehreren Ausführungsformen;
6 veranschaulicht einen weiteren exemplarischen Validierungs- und Neuberechnungsprozess gemäß einer oder mehreren Ausführungsformen;
7 bildet ein Flussdiagramm eines Verfahrens gemäß einer oder mehreren Ausführungsformen der Erfindung ab; und
8 bildet ein High-Level-Blockdiagramm eines Computersystems ab, das zum Implementieren einer oder mehrerer Ausführungsformen der Erfindung verwendet werden kann.

AUSFÜHRLICHE BESCHREIBUNG
Die folgende Beschreibung ist lediglich exemplarischer Natur und nicht dazu gedacht, die vorliegende Offenbarung in ihren An- oder Verwendungen zu beschränken. Der hier verwendete Begriff „Modul“ bezieht sich auf eine Verarbeitungsschaltung, die eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, dediziert oder gruppiert) und einen Speicher, der ein oder mehrere Software- oder Firmwareprogramme, eine kombinatorische Logikschaltung und/oder andere geeignete Komponenten ausführt, die die beschriebene Funktionalität bieten, beinhalten kann.
Eine oder mehrere Ausführungsformen sind auf ein System und Verfahren zur Verbesserung der Objekterkennung und Objektklassifizierung ausgerichtet. Konventionelle Ansätze zur Objekterkennung und -klassifizierung verwenden typischerweise rechenintensive, computergestützte Prozesse. Insbesondere empfangen die konventionellen Ansätze im Allgemeinen Bilder einer Szene und verarbeiten die empfangenen Bilder mit einer hohen Frequenz. Die konventionellen Ansätze verarbeiten dann die empfangenen Bilder der Szene, um Objekte zu erkennen und zu klassifizieren, die innerhalb der Bilder erscheinen.
Nachdem die konventionellen Ansätze jedoch eine Reihe von Objekten innerhalb der Szene erkennen/klassifizieren, führen die konventionellen Ansätze kontinuierlich den gleichen Prozess zum Erkennen/Klassifizieren auf demselben Objektsatz durch. Die konventionellen Ansätze führen somit kontinuierlich den gleichen Prozess zum Erkennen/Klassifizieren auf der gleichen Menge von Objekten mit hoher Frequenz durch, obwohl die Objekte zuvor erkannt/klassifiziert wurden.
Im Gegensatz zu den herkömmlichen Ansätzen können eine oder mehrere Ausführungsformen die Menge der redundanten Erkennung/Klassifizierung von Objekten reduzieren, indem sie zukünftige Ergebnisse projizieren und schätzen, basierend auf aktuellen Berechnungsergebnissen, vergangenen Berechnungsergebnissen und der Dynamik des Objektsatzes. Die Dynamik eines Objekts kann beispielsweise eine Richtung und/oder eine Geschwindigkeit des Objekts beinhalten. Somit können eine oder mehrere Ausführungsformen die Komplexität der herkömmlichen Ansätze reduzieren, die unter Verwendung von Computer-Vision zum Erkennen und Klassifizieren von Objekten innerhalb der Szene eingesetzt werden. Anstatt ständig den gleichen Prozess zum Erkennen/Klassifizieren desselben Objektsatzes zu wiederholen, müssen eine oder mehrere Ausführungsformen erst dann einen Validierungsprozess durchführen, wenn die Objekte bereits erkannt wurden. Der Validierungsprozess kann als Hintergrundaufgabe von einem elektronischen Steuergerät (ECU) ausgeführt werden, oder der Validierungsprozess kann mittels eines Cloud-Computing durchgeführt werden.
Durch das Reduzieren der Notwendigkeit, Objekte zu erkennen und zu klassifizieren, die bereits erkannt/klassifiziert wurden, können eine oder mehrere Ausführungsformen eine Latenzzeit reduzieren, die typischerweise der Durchführung einer Objekterkennung zugeordnet ist. Eine oder mehrere Ausführungsformen können eine Menge an Echtzeit-Computing reduzieren, die zur Durchführung an Bord eines Fahrzeugs erforderlich ist, und somit können eine oder mehrere Ausführungsformen die Durchführung bestimmter Computing-Vorgänge mit Cloud-Computing ermöglichen.
1 veranschaulicht das Durchführen der Objekterkennung und Objektklassifizierung gemäß einem konventionellen Ansatz. Mit den herkömmlichen Ansätzen erkennt ein Erkennungsfahrzeug 110 interessierende Bereiche 120, 130, 140 und 150, die den umgebenden Objekten entsprechen. Nach dem Erkennen von interessierenden Bereichen 120, 130, 140 und 150 klassifiziert das Erkennungsfahrzeug 110 dann die interessierenden Bereiche 120, 130 und 140 als entsprechend den umgebenden Fahrzeugen. Das Erkennungsfahrzeug 110 klassifiziert auch den Bereich 150 als stationäres Objekt. Da das Erkennungsfahrzeug 110 kontinuierlich Sensorinformationen und Kamerainformationen bezüglich der umliegenden Objekte mit einer Empfangsfrequenz empfängt, erkennt und klassifiziert das Erkennungsfahrzeug 110 kontinuierlich die Objekte der interessierenden Bereiche 120-150 neu, auch wenn die Objekte bereits zu einem früheren Zeitpunkt korrekt erkannt und korrekt klassifiziert wurden. Wie zuvor beschrieben, können die Systeme der konventionellen Ansätze die bereits früher korrekt erkannte/klassifizierte Objekte (der interessierenden Bereiche) kontinuierlich neu erkennen und klassifizieren, wodurch die konventionellen Ansätze einen großen Teil der Computerverarbeitung auf redundante Neuerkennung und Neuklassifizierung verwenden können.
2 veranschaulicht das Durchführen der Objekterkennung und Objektklassifizierung gemäß einer oder mehreren Ausführungsformen. Mit einer oder mehreren Ausführungsformen empfängt ein Erkennungsfahrzeug 210 Sensorinformationen und/oder Kamerainformationen in Bezug auf eine aktuelle Szene 201 zu einem aktuellen Zeitpunkt. Das Erkennungsfahrzeug 210 kann die empfangenen Informationen verwenden, um interessierende Bereiche zu bestimmen, die Objekten innerhalb der aktuellen Szene 201 entsprechen. Insbesondere empfängt das Erkennungsfahrzeug 210 Informationen bezüglich der Objekte der interessierenden Bereiche 220, 230, 240 und 250. Die empfangenen Sensorinformationen und/oder Kamerainformationen beziehen sich auf Informationen der aktuellen Szene 201. Basierend auf den empfangenen Informationen kann das Erkennungsfahrzeug 210 interessierende Bereiche 220-250 erkennen, und das Erkennungsfahrzeug 210 kann die Bereiche 220-240 als den Fahrzeugen entsprechend klassifizieren und den interessierenden Bereich 250 als einem stationären Objekt entsprechend klassifizieren.
Neben dem Erkennen und Klassifizieren der Objekte der aktuellen Szene 201 bestimmen eine oder mehrere Ausführungsformen auch die Attribut-/Dynamikinformationen jedes Objekts. So kann beispielsweise das System einer oder mehrerer Ausführungsformen eine Geschwindigkeit und/oder eine Geschwindigkeit jedes Objekts bestimmen. Das System einer oder mehrerer Ausführungsformen kann auch eine Relativgeschwindigkeit und/oder eine Relativgeschwindigkeit im Vergleich zum erkannten Fahrzeug 210 bestimmen. Im Beispiel von 2 bestimmt das Erkennungsfahrzeug 210, dass das dem Bereich 230 entsprechende Fahrzeug mit der gleichen Geschwindigkeit fährt wie das Erkennungsfahrzeug 210. Somit fährt das dem Bereich 230 entsprechende Fahrzeug mit einer Relativgeschwindigkeit von 0 km/h. Das Erkennungsfahrzeug 210 bestimmt, dass das dem Bereich 240 entsprechende Fahrzeug ebenfalls mit einer Relativgeschwindigkeit von 0 km/h fährt. Das Erkennungsfahrzeug 210 bestimmt, dass das dem Bereich 250 entsprechende stationäre Objekt mit einer negativen Relativgeschwindigkeit im Vergleich zum Erkennungsfahrzeug 210 fährt. Eine oder mehrere Ausführungsformen können auch eine Richtung eines oder mehrerer Fahrzeuge basierend auf einer Krümmung der Straße schätzen, wie sie in mindestens einer oder mehreren hochauflösenden Karten auf Fahrspurniveau wiedergegeben wird. Eine oder mehrere Ausführungsformen können auch eine Relativgeschwindigkeit anderer Fahrzeuge basierend auf einem eingegebenen Radar/Licht-Detektions- und Reichweiten-Daten (und eingegebenen Sensordaten) schätzen. Eine oder mehrere Ausführungsformen können auch eine Relativgeschwindigkeit anderer Fahrzeuge basierend auf einer Änderung in einem interessierenden Bereich von einem erfassten Bild zu einem anderen Bild schätzen.
Nach dem Erkennen und Klassifizieren der Objekte einer Szene und nach dem Bestimmen der Attribut-/Dynamikinformationen jedes Objekts kann das System einer oder mehrerer Ausführungsformen die Attribut-/Dynamikinformationen zu jedem der Objekte verwenden, um projizierte Standorte der Objekte zu bestimmen. Eine oder mehrere Ausführungsformen können auch eine projizierte skalierte Größe für jeden der Bereiche bestimmen. Mit einer oder mehreren Ausführungsformen können der projizierte Standort und der projizierte Skalenwert jedes interessierenden Bereichs einer Position und einem Maßstab entsprechen, der in der Zukunft vorhergesagt wird. So kann beispielsweise der projizierte Standort/Skalenwert ein vorhergesagter Standort/Skalenwert sein, der auftritt, wenn sich eine Kamera (die die Bilder aufnimmt) um 10 Meter vorwärts bewegt.
Unter erneuter Bezugnahme auf das Beispiel von 2 kann das System einer oder mehrerer Ausführungsformen eine projizierte Szene 202 basierend auf den erkannten/klassifizierten Objekten und basierend auf den bestimmten Attributinformationen jedes Objekts bestimmen. Die projizierte Szene 202 kann einer projizierten zukünftigen Szene der aktuellen Szene 201 entsprechen. So kann beispielsweise die projizierte Szene 202 einer zukünftigen Szene entsprechen, in der das Trägerfahrzeug 201 im Vergleich zur aktuellen Szene 201 um 10 Meter entfernt ist.
Unter Bezugnahme auf die projizierte Szene 202 wird das dem Bereich 230 entsprechende Fahrzeug (das mit einer Geschwindigkeit von 0 km/h in Bezug auf das Erkennungsfahrzeug 210 fährt) auf die gleiche Entfernung vor der Erkennung des Fahrzeugs 210 geschätzt. Mit anderen Worten, die geschätzte Entfernung zwischen dem Fahrzeug, das dem Bereich 230 entspricht, und dem Erkennungsfahrzeug 210 (wie von der projizierten Szene 202 reflektiert) ist die gleiche wie die Entfernung zwischen dem Fahrzeug, das dem Bereich 230 und dem Fahrzeug 210 entspricht (wie von der aktuellen Szene 201 reflektiert). Das dem Bereich 240 entsprechende Fahrzeug (das ebenfalls mit einer Relativgeschwindigkeit von 0 km/h fährt) wird ebenfalls in gleicher Entfernung vor dem Erkennungsfahrzeug 210 projiziert. Das dem Bereich 220 entsprechende Fahrzeug (das mit einer Geschwindigkeit von +10 km/h in Bezug auf das Erkennungsfahrzeug 210 fährt) wird in einer weiteren Entfernung vor dem Erkennungsfahrzeug 210 projiziert. Mit anderen Worten, wie in der projizierten Szene 202 reflektiert, weist das dem Bereich 220 entsprechende Fahrzeug eine größere Entfernung zwischen sich und dem Erkennungsfahrzeug 210 auf. Bezogen auf die projizierte Szene 202 hat sich das stationäre Objekt, das dem Bereich 250 entspricht, etwa 10 Meter näher an das Erkennungsfahrzeug 210 angenähert.
3 veranschaulicht ein System zum Durchführen von Projektion, Validierung und Änderungserkennung gemäß einer oder mehreren Ausführungsformen. Bildgebungs-/sensorische Daten 310 (der aktuellen Szene) können in einen Prozessor 320 eingegeben werden, wie zum Beispiel einen gewundenen neuronalen Netzwerkprozessor. Basierend auf den eingegebenen Bildgebungs-/sensorischen Daten 310 kann eine Objekterkennungs-/Klassifizierungsvorrichtung des gewundenen neuronalen Netzwerkprozessors 320 einen oder mehrere interessierende Bereiche erkennen. Die Objekterkennungs-/Klassifizierungsvorrichtung kann auch die eingegebenen Bildgebungs-/sensorischen Daten 310 verwenden, um jeden erkannten interessierenden Bereich zu klassifizieren. Somit kann der gewundene neuronale Netzwerkprozessor 320 eine Liste von Objekten und die entsprechenden Attribute 330 (d. h. beispielsweise eine Geschwindigkeit und/oder eine Richtung jedes Objekts) zum Zeitpunkt „t“ bestimmen.
Basierend auf der Liste der bestimmten Objekte und den entsprechenden Attributen 330 kann ein Projektionsmodul 340 eine Liste der projizierten Objekte und der entsprechenden Attribute 350 innerhalb einer Szene bestimmen, die in der Zukunft projiziert wird (d. h. eine Szene zum Zeitpunkt „t+n“).
Nachgeschaltete autonome Fahrzeuganwendungen und Steuerungen 360 können die Liste der projizierten Objekte/Attribute (zum Zeitpunkt „t“) 330 und die Liste der projizierten Objekte/Attribute (zum Zeitpunkt „t+n“) 350 empfangen. Die nachgeschalteten Anwendungen und Steuerungen 360 können die empfangenen Informationen nutzen, um die erforderlichen autonomen Fahrzeugfunktionen auszuführen.
Eine Validierungsvorrichtung 370 kann dann Bildgebungs-/sensorische Daten 310 empfangen, die der aktuellen Szene zum Zeitpunkt „t+n“ entsprechen. Basierend auf diesen eingegebenen Bildgebungs-/sensorischen Daten 310 für den Zeitpunkt „t+n“ kann die Validierungsvorrichtung 370 bestimmen, ob die Liste der projizierten Objekte und der entsprechenden Attribute 350 die Objekte/Attribute zum Zeitpunkt „t+n“ korrekt wiedergibt. Wenn die Validierungsvorrichtung 370 anzeigt, dass die projizierten Objekte und die entsprechenden Attribute 350 die aktuelle Szene nicht genau wiedergeben, kann die Validierungsvorrichtung 370 auch eine Neuerkennung/Neuklassifizierung von Objekten in der Szene einleiten. Die Validierungsvorrichtung 370 kann eine Erkennung 380 der Objekte der Szene auslösen, wodurch bestimmt werden kann, ob neue Objekte in die Szene eingetreten sind. Die Validierungsvorrichtung kann somit die Erkennung 380 auslösen, die eine Neuberechnung/Neuvalidierung mindestens eines neu aufgetretenen oder geänderten interessierenden Bereichs ermöglicht.
Wie vorstehend beschrieben, kann das Erkennen eines neuen Objekts innerhalb der Szene ein Verfahren zum Erkennen/Klassifizieren von Objektstandorten/-eigenschaften auslösen. Eine oder mehrere Ausführungsformen können die ursprüngliche CNN-Berechnung für neue Objekte, die in der Szene auftreten, durchführen. Ein neues Objekt kann beispielsweise ein Fahrzeug sein, das sich mit einer höheren Relativgeschwindigkeit als vom Erkennungsfahrzeug geschätzt annähert; oder das neue Objekt kann ein bestehendes Fahrzeug sein, das die Fahrspur wechselt, oder das neue Objekt kann ein Fahrzeug sein, das zuvor nicht in der Sicht des Erkennungsfahrzeugs war.
Wie vorstehend erläutert, kann eine oder mehrere Ausführungsformen durch das Reduzieren der Notwendigkeit, bereits erkannte/klassifizierte Objekte kontinuierlich zu erkennen und zu klassifizieren, eine Latenzzeit reduzieren, die typischerweise mit der Durchführung der Objekterkennung verbunden ist. Eine oder mehrere Ausführungsformen können eine Menge an Echtzeit-Computing reduzieren, die zur Durchführung an Bord eines Fahrzeugs erforderlich ist, und somit können eine oder mehrere Ausführungsformen die Durchführung bestimmter Computing-Vorgänge mit Cloud-Computing ermöglichen.
So kann beispielsweise bei einer oder mehreren Ausführungsformen der Validierungsprozess, der von der Validierungsvorrichtung 370 durchgeführt wird, unter Verwendung von Cloud-Computing oder von einer Vorrichtung durchgeführt werden, die vom Onboard-Verarbeitungssystem getrennt ist. Daher müssen die Verarbeitungsvorrichtungen und -fähigkeiten, die sich im Fahrzeug befinden, nicht zum Durchführen des Validierungsprozesses verwendet werden. Das Cloud-Computing-System (das vom Onboard-Verarbeitungssystem getrennt ist) kann auch kontinuierlich eine Objekterkennung und -klassifizierung basierend auf den eingegebenen Bildgebungs-/sensorischen Daten durchführen. Durch das kontinuierliche Durchführen der Objekterkennung/-klassifizierung kann das Cloud-Computing-System einer weiteren Ausführungsform den Validierungsprozess durchführen.
4 veranschaulicht einen exemplarischen Validierungs- und Neuberechnungsprozess gemäß einer oder mehreren Ausführungsformen. Konkret veranschaulicht 4 einen exemplarischen Prozess, der durch die Validierungsvorrichtung 370 durchgeführt wird. Bei 410 kann die Validierungsvorrichtung 370 aufgenommene Bilder 405 empfangen und repräsentative Bilder basierend auf einer Liste von projizierten Objekten/Attributen 440 bestimmen. Bei 410 kann die Validierungsvorrichtung 370 dann die aufgenommenen Bilder 405 (welche die tatsächliche Szene widerspiegeln) mit den repräsentativen Bildern vergleichen, die basierend auf der Liste der projizierten Objekte/Attribute 440 (die eine Schätzung der tatsächlichen Szene wiedergibt) bestimmt werden. Bei 420, wenn die Differenz/der Fehler zwischen den aufgenommenen Bildern 405 und den repräsentativen Bildern zu groß ist, kann die Validierungsvorrichtung 370 eine Neuberechnung auslösen, um die Objekte der Szene bei 450 neu zu erkennen und zu klassifizieren. Wenn andererseits die Differenz/der Fehler zwischen den aufgenommenen Bildern 405 und den repräsentativen Bildern innerhalb eines akzeptablen Schwellenwerts liegt, wird die Schätzung der tatsächlichen Szene bei 430 als korrekt/verwendbar bestimmt.
5 veranschaulicht einen weiteren exemplarischen Validierungs- und Neuberechnungsprozess gemäß einer oder mehreren Ausführungsformen. Konkret veranschaulicht 5 einen weiteren exemplarischen Prozess, der durch die Validierungsvorrichtung 370 durchgeführt wird. Bei 510 kann die Validierungsvorrichtung 370 erfasste Radar- und/oder LIDAR-Daten 505 empfangen. Bei 510 kann die Validierungsvorrichtung 370 auch die empfangenen Daten verarbeiten, um die Objekte zu bestimmen, die sich innerhalb der aktuellen Szene befinden. Bei 520 kann die Validierungsvorrichtung 370 eine Liste der projizierten Objekte/Attribute 540 empfangen (d. h. die geschätzten Objekte/Attribute innerhalb der Szene). Bei 520 kann die Validierungsvorrichtung 370 dann die Objekte, die basierend auf den Radar/LIDAR-Informationen (welche die tatsächliche Szene widerspiegeln) bestimmt werden, mit den Objekten vergleichen, die basierend auf den projizierten Objekten/Attributen 540 (die eine Schätzung der tatsächlichen Szene wiedergeben) bestimmt werden. Bei 530, wenn die Differenz/der Fehler zwischen den Objekten, die auf den Radar/LIDAR-Informationen basieren, und den Objekten, die auf den projizierten Objekten/Attributen basieren, zu groß ist, kann die Validierungsvorrichtung 370 eine Neuberechnung auslösen, um die Objekte der Szene bei 560 neu zu erkennen und zu klassifizieren. Wenn andererseits die Differenz/der Fehler innerhalb eines akzeptablen Schwellenwerts liegt, wird die Schätzung der tatsächlichen Szene bei 550 als korrekt/verwendbar bestimmt.
6 veranschaulicht einen weiteren exemplarischen Validierungs- und Neuberechnungsprozess gemäß einer oder mehreren Ausführungsformen. Konkret veranschaulicht 6 einen weiteren exemplarischen Prozess, der durch die Validierungsvorrichtung 370 durchgeführt wird. Bei 610 kann die Validierungsvorrichtung 370 die erfassten Videostromdaten 605 empfangen. Bei 610 kann die Validierungsvorrichtung 370 auch die Liste der projizierten Objekte/Attribute 640 empfangen (d. h. die geschätzten Objekte/Attribute innerhalb der Szene). Im Beispiel von 6 kann ein Teil oder die gesamte Funktionalität der Validierungsvorrichtung 370 durch ein Cloud-Computing-System implementiert werden. Bei 620 kann die Validierungsvorrichtung 370 eine Liste von Objekten und Attributen basierend auf den Videobildern erzeugen. Bei 620 kann die Validierungsvorrichtung 370 dann die Objekte, die basierend auf dem Videostrom (der die tatsächliche Szene widerspiegeln) bestimmt werden, mit den Objekten vergleichen, die basierend auf den projizierten Objekten/Attributen 640 (die eine Schätzung der tatsächlichen Szene wiedergeben) bestimmt werden. Bei 630, wenn die Differenz/der Fehler zwischen den Objekten, die auf dem Videostrom basieren, und den Objekten, die auf den projizierten Objekten/Attributen basieren, zu groß ist, kann die Validierungsvorrichtung 370 eine Neuberechnung auslösen, um die Objekte der Szene bei 660 neu zu erkennen und zu klassifizieren. Wenn andererseits die Differenz/der Fehler innerhalb eines akzeptablen Schwellenwerts liegt, wird die Schätzung der tatsächlichen Szene bei 650 als korrekt/verwendbar bestimmt.
Mit einer oder mehreren Ausführungsformen, anstatt kontinuierlich eine Klassifizierung/Erkennung aller Objekte innerhalb einer Szene durchzuführen, können eine oder mehrere Ausführungsformen eine Klassifizierung/Erkennung von neuen Objekten durchführen, die in die Szene eintreten. Konkret können eine oder mehrere Ausführungsformen die Verwendung des Hochfrequenz-Klassifikators/Detektors zum Erkennen und Klassifizieren eines oder mehrerer neuer Objekte vorbehalten.
Wie vorstehend beschrieben, können eine oder mehrere Ausführungsformen, nachdem ein oder mehrere Objekte bereits erkannt/klassifiziert wurden, die Häufigkeit der Verarbeitung dieser Objekte reduzieren. Die Häufigkeit der Verarbeitung dieser Objekte kann reduziert werden, da eine oder mehrere Ausführungsformen nur die Überprüfung der früheren Projektionen durchführen müssen.
7 verdeutlicht ein Flussdiagramm eines Verfahrens gemäß einer oder mehreren Ausführungsformen. Das Verfahren von 7 kann durchgeführt werden, um die Objekterkennung und Objektklassifizierung durch ein autonomes Fahrzeug zu verbessern. Das Verfahren von 7 kann von einer Steuerung in Verbindung mit einem oder mehreren Fahrzeugsensoren und/oder Kameravorrichtungen durchgeführt werden. Die Steuerung kann beispielsweise innerhalb einer elektronischen Steuereinheit (ECU) eines Fahrzeugs implementiert werden. Das Verfahren von 7 kann von einer Fahrzeugsteuerung durchgeführt werden, die Bilder einer Szene empfängt und verarbeitet, in der ein Fahrzeug gefahren wird, und dann das Fahrzeug basierend auf der Verarbeitung der Bilder autonom fährt. Das Verfahren kann bei Block 810 das Empfangen von ersten Daten einer Szene durch eine Steuerung eines autonomen Fahrzeugs beinhalten. Die ersten Daten spiegeln die Szene zu einem ersten Zeitpunkt wider. Das Verfahren kann auch das Durchführen einer ersten Klassifizierung von mindestens einem Objekt innerhalb der Szene basierend auf den empfangenen ersten Daten bei Block 820 beinhalten. Das Verfahren kann auch das Bestimmen eines projizierten Standorts des mindestens einen Objekts bei Block 830 beinhalten. Die projizierte Position entspricht einer geschätzten Position zu einem zweiten Zeitpunkt. Das Verfahren kann auch das Empfangen von zweiten Daten der Szene bei Block 840 beinhalten. Die zweiten Daten spiegeln die Szene zum zweiten Mal wider. Das Verfahren kann auch das Bestimmen bei Block 850 beinhalten, ob der projizierte Standort des mindestens einen Objekts dem Standort des mindestens einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird. Das Verfahren kann auch das Bestimmen bei Block 860 beinhalten, ob das Durchführen einer zweiten Klassifizierung des mindestens einen Objekts erforderlich ist, basierend auf dem Bestimmen, ob der projizierte Standort dem Standort des mindestens einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird.
8 verdeutlicht ein hochrangiges Blockdiagramm eines Computersystems 900, das zum Implementieren einer oder mehrerer Ausführungsformen verwendet werden kann. Das Computersystem 900 kann zumindest einem System entsprechen, das beispielsweise zur Verbesserung der Objekterkennung und Objektklassifizierung konfiguriert ist. Das System kann Teil eines Elektroniksystems in einem Fahrzeug sein, das in Verbindung mit einer Kamera und/oder einem Sensor betrieben wird. Bei einer oder mehreren Ausführungsformen kann das Computersystem 900 einem elektronischen Steuergerät (ECU) eines Fahrzeugs entsprechen. Das Computersystem 900 kann verwendet werden, um Hardwarekomponenten des Systems zu implementieren, die imstande sind, die hierin beschriebenen Verfahren durchzuführen. Obwohl ein exemplarisches Computersystem 900 gezeigt wird, beinhaltet das Computersystem 900 einen Kommunikationspfad 926, der das Computersystem 900 mit zusätzlichen Systemen (nicht abgebildet verbindet. Das Computersystem 900 und ein zusätzliches System sind über den Kommunikationspfad 926 miteinander verbunden, z. B. um Daten zueinander zu übertragen.
Computersystem 900 umfasst einen oder mehrere Prozessoren, wie etwa Prozessor 902. Prozessor 902 ist mit einer Kommunikationsinfrastruktur 904 verbunden (z. B. ein Kommunikationsbus, eine Cross-Over-Schiene oder ein Netzwerk). Computersystem 900 kann eine Anzeigeschnittstelle 906 umfassen, die Grafiken, textliche Inhalte oder sonstige Daten der Kommunikationsinfrastruktur 904 (oder einem nicht dargestellten Rahmenpuffer) zum Anzeigen auf der Anzeigeeinheit 908 weiterleitet. Das Computersystem 900 umfasst auch einen Hauptspeicher 910, vorzugsweise ein Speicher mit wahlfreiem (RAM - Random Access Memory) und kann auch einen sekundären Speicher 912 umfassen. Innerhalb des sekundären Speichers 914 können auch ein oder mehrere Laufwerke 912 enthalten sein. Das entfernbare Speicherlaufwerk 916 liest von und/oder schreibt auf die entfernbare Speichereinheit 918. Wie zu erkennen ist, beinhaltet die entfernbare Speichereinheit 918 ein computerlesbares Speichermedium, auf dem Computersoftware und/oder Daten gespeichert sind.
In alternativen Ausführungsformen kann der sekundäre Speicher 912 andere ähnliche Mittel enthalten, die das Laden von Computerprogrammen oder anderen Anweisungen in das Computersystem ermöglichen. Solche Mittel können zum Beispiel eine entfernbare Speichereinheit 920 und eine Schnittstelle 922 umfassen.
In der vorliegenden Beschreibung werden die Begriffe „Computerprogramm Medium“ und „computernutzbares Medium“ und „computerlesbares Medium“ verwendet, um generell Medien, wie etwa Hauptspeicher 910 und sekundäre Speicher 912, entfernbare Speicherlaufwerke 916 und eine Festplatte, die im Festplattenlaufwerk 914 installiert ist, zu bezeichnen. Computerprogramme (auch Computersteuerlogik genannt) werden im Hauptspeicher 910 und/oder im sekundären Speicher 912 gespeichert. Computerprogramme können außerdem über Kommunikationsschnittstelle 924 empfangen werden. Wenn derartige Computerprogramme ausgeführt werden, versetzen sie das Computersystem in die Lage, die hierin besprochenen Merkmale auszuführen. Insbesondere wird der Prozessor 902 von den Computerprogrammen, wenn diese ausgeführt werden, in die Lage versetzt, die Merkmale des Computersystems auszuführen. Demgemäß stellen solche Computerprogramme Steuerungen des Computersystems dar. Somit ist aus der vorangegangenen detaillierten Beschreibung erkennbar, dass eine oder mehrere Ausführungsformen technischen Nutzen und Vorteile bereitstellen.
Während die vorstehende Offenbarung mit Bezug auf exemplarische Ausführungsformen beschrieben wurde, werden Fachleute verstehen, dass unterschiedliche Änderungen vorgenommen und die einzelnen Teile durch entsprechende andere Teile ausgetauscht werden können, ohne vom Umfang der Offenbarung abzuweichen. Darüber hinaus können viele Modifikationen vorgenommen werden, um eine bestimmte Materialsituation an die Lehren der Offenbarung anzupassen, ohne von deren wesentlichem Umfang abzuweichen. Daher ist vorgesehen, dass sich die Ausführungsformen nicht auf die jeweils offenbarten Ausführungsformen beschränken, sondern alle Ausführungsformen umfassen, die innerhalb des Umfangs der Anmeldung fallen.

Claims

System in einem autonomen Fahrzeug, umfassend: eine elektronische Steuerung des Fahrzeugs, die konfiguriert ist zum: Empfangen von ersten Daten einer Szene, worin die ersten Daten die Szene zu einem ersten Zeitpunkt reflektieren; Durchführen einer ersten Klassifizierung von mindestens einem Objekt innerhalb der Szene basierend auf den empfangenen ersten Daten; Bestimmen eines projizierten Standorts des mindestens einen Objekts, worin der projizierte Standort einem geschätzten Standort zu einem zweiten Zeitpunkt entspricht; Empfangen von zweiten Daten der Szene, worin die zweiten Daten die Szene zum zweiten Zeitpunkt reflektieren; Bestimmen, ob der projizierte Standort des mindestens einen Objekts dem Standort des mindestens einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird; und Bestimmen, ob das Durchführen einer zweiten Klassifizierung des mindestens einen Objekts erforderlich ist, basierend auf dem Bestimmen, ob der projizierte Standort dem Standort des mindestens einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird.
System nach Anspruch 1, worin das Durchführen der zweiten Klassifizierung des mindestens einen Objekts nicht erforderlich ist, wenn der projizierte Standort dem Standort des mindestens einen Objekts entspricht, wie er durch die zweiten Daten reflektiert wird.
System nach Anspruch 1, worin die elektronische Steuerung ferner konfiguriert ist, um Attributdaten für das mindestens eine klassifizierte Objekt zu bestimmen.
System nach Anspruch 3, worin das Bestimmen des projizierten Standorts des mindestens einen Objekts das Bestimmen des projizierten Standorts basierend auf den Attributdaten umfasst.
System nach Anspruch 3, worin die Attributdaten eine Richtung und eine Geschwindigkeit des Objekts umfassen.
System nach Anspruch 1, worin das Durchführen der ersten Klassifizierung des mindestens einen Objekts das Bestimmen eines interessierenden Bereichs innerhalb der empfangenen ersten Daten umfasst.
System nach Anspruch 1, worin das Empfangen der ersten Daten das Empfangen von Videoinformationen oder Kamerainformationen der Szene umfasst.
System nach Anspruch 1, worin das Durchführen der ersten Klassifizierung das Durchführen der ersten Klassifizierung durch ein faltungsneuronales Netzwerk umfasst.
System nach Anspruch 1, worin die elektronische Steuerung ferner konfiguriert ist, um zu bestimmen, ob ein neues Objekt in die Szene eingetreten ist.
System nach Anspruch 9, worin die elektronische Steuerung ferner konfiguriert ist, um zu bestimmen, dass eine zusätzliche Klassifizierung erforderlich ist, basierend auf der Bestimmung, ob ein neues Objekt in die Szene eingetreten ist.