DE112020006317T5

DE112020006317T5 - Computersystem und verfahren zum trainieren eines verkehrsagenten in einer simulationsumgebung

Info

Publication number: DE112020006317T5
Application number: DE112020006317.8T
Authority: DE
Inventors: Hitarth Bhatt; Henning Hasemann
Original assignee: Automotive Artificial Intelligence Aai GmbH; Automotive Artificial Intelligence AAI GmbH
Current assignee: Automotive Artificial Intelligence Aai GmbH; Automotive Artificial Intelligence AAI GmbH
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2022-11-03
Also published as: WO2021148113A1

Abstract

Die vorliegende Erfindung betrifft ein computerimplementiertes Trainingsverfahren für einen Verkehrsagenten, der ein Straßenfahrzeug in einer komplexen Fahrsituation einer Simulationsumgebung navigiert, sowie ein entsprechendes Computersystem, ein Computersystem zur Simulation einer Straßenfahrumgebung in komplexen Fahrsituationen für ein oder mehrere Fahrzeuge, das einen oder mehrere Prozessoren umfasst oder daraus besteht, unter Verwendung eines erfindungsgemäß trainierten Verkehrsagenten und die Verwendung des erfindungsgemäßen computerimplementierten Trainingsverfahrens zum Training eines Verkehrsagenten, der ein Straßenfahrzeug in einer komplexen Fahrsituation einer Simulationsumgebung navigiert.

Description

TECHNISCHER BEREICH:
Die vorliegende Erfindung betrifft ein computerimplementiertes Trainingsverfahren für einen Verkehrsagenten, der ein Straßenfahrzeug in einer komplexen Fahrsituation einer Simulationsumgebung navigiert, sowie ein entsprechendes Computersystem, ein Computersystem zur Simulation einer Straßenfahrumgebung in komplexen Fahrsituationen für ein oder mehrere Fahrzeuge, das einen oder mehrere Prozessoren umfasst oder daraus besteht, unter Verwendung eines erfindungsgemäß trainierten Verkehrsagenten und die Verwendung des erfindungsgemäßen computerimplementierten Trainingsverfahrens zum Training eines Verkehrsagenten, der ein Straßenfahrzeug in einer komplexen Fahrsituation einer Simulationsumgebung navigiert.
STAND DER TECHNIK:
Bevor die Fahreigenschaften von Straßenfahrzeugen in der Realität getestet werden, werden Computersimulationen bestimmter Fahrsituationen, z. B. beim Bremsen, durchgeführt. Da der Vorhersagezeitraum in der Regel nur bis zu 2 Sekunden beträgt, können komplexe Fahrsituationen, wie sie z. B. bei Überholvorgängen erforderlich sind, von diesen Modellen nicht vorhergesagt werden.
Das Problem, ein System zu entwickeln, das ein Auto in einer Vielzahl von Verkehrssituationen sicher steuern kann, wurde umfassend untersucht und ist augenscheinlich von Interesse für die Entwicklung autonomer Fahrzeuge. Das Hauptaugenmerk in diesem Forschungsbereich liegt auf sicheren und effizienten Entscheidungen unter Echtzeit-Bedingungen. Die simulierten sicheren und effizienten Entscheidungen spiegeln jedoch möglicherweise nicht die menschlichen Fahrentscheidungen im natürlichen Verkehr wider.
Daher wird es immer wichtiger, menschliche Fahrentscheidungen im natürlichen Verkehr zu simulieren. Menschliche Fahrentscheidungen im natürlichen Verkehr werden zudem von vielen Faktoren beeinflusst und können auf verschiedenen Ebenen betrachtet werden. Zum Beispiel können menschliche Fahrer in der gleichen Situation je nach ihrer mentalen Umgebung unterschiedliche Entscheidungen treffen, wie z. B. überholen, einem vorausfahrenden Fahrzeug folgen oder die Spur wechseln.
Viele bestehende Modelle verwenden eine hierarchische Struktur dergestalt, dass abstraktere Entscheidungen (z. B. welche Route zu nehmen ist) zuerst berechnet und dann an verschiedene Schichten, die sich auf der Grundlage dieser Eingabe mit einer zunehmenden Detailtiefe des Fahrprozesses befassen, „weitergegeben“ werden. Der Fahrstapel ist in mehrere Phasen unterteilt, die die tatsächlich relevanten Komponenten der verschiedenen Ansätze widerspiegeln sollen, z. B. im Zusammenhang mit Simulationsumgebungen und nicht mit dem Fahrverhalten eines autonomen Fahrzeugs.
Solche Phasen können wie folgt betrachtet werden:

Wahrnehmung/Karte bezieht sich im Allgemeinen auf die Eingabe über die Umgebung, der anderen Komponenten zur Verfügung steht.
Verkehrsregeln beziehen sich im Allgemeinen auf jede Komponente, die rechtliche Einschränkungen für Entscheidungen auf hoher Ebene vorsieht.
Einsatzplanung bezieht sich im Allgemeinen auf eine Strategie, wann man sich langfristig wo aufhält (z. B. Routenplanung auf Fahrspurebene).
Verkehrsfreie Referenzstrecke bezieht sich im Allgemeinen auf die Planung einer „optimalen“ Referenzstrecke, die andere Verkehrsteilnehmer ignoriert.
Verhaltensplanung bezieht sich im Allgemeinen auf die Planung eines Verhaltensplans, d. h. wann genau Handlungen, wie z. B. Fahrspurwechsel, unter Einbeziehung anderer Teilnehmer durchgeführt werden sollen.
Bei der Entscheidungsnachbereitung geht es im Allgemeinen darum, die Entscheidungen der vorangegangenen Komponenten zu korrigieren, damit sie gegebenenfalls mit den grundlegenden Sicherheitsregeln übereinstimmen.
Bewegungs-/Bahnplanung bezieht sich im Allgemeinen auf die Planung der genauen zukünftigen Bahn für einen kurzen Zeithorizont (bis zu 2 Sekunden).
Befehlsumsetzung bezieht sich im Allgemeinen auf die Berechnung der endgültigen Befehle, die an ein (reales oder simuliertes) Fahrzeug zu senden sind, wie z. B. Lenkanweisungen.
Fahrzeugdynamik/Physik bezieht sich im Allgemeinen auf die Simulation des Fahrzeugverhaltens, das sich aus den generierten Befehlen ergibt.
Positionsaktualisierung bezieht sich im Allgemeinen auf die Berechnung der resultierenden neuen Position des Fahrzeugs in der Simulation.

Die Verwendung dieser Begriffe variiert in der Literatur drastisch.
Es kann argumentiert werden, dass diese hierarchischen Modelle bestimmte Einschränkungen haben, wie z. B. die Tatsache, dass sie nicht in der Lage sind, Entscheidungen auf hoher Ebene zu treffen, die von „niedrigeren“ Komponenten wie einem Bewegungsplaner ([Motion Planner], Komponente, die z. B. über den Zeitpunkt von Beschleunigungen und Spurwechseln entscheidet) geändert oder sogar abgelehnt werden müssen (siehe Junqing Wei, Jarrod M. Snider, Tianyu Gu, John Dolan und Bakhtiar Litkouhi. A behavioral planning framework for autonomous driving. Seiten 458-464, 06 2014).
Die Autoren argumentieren, dass diese Modelle die Bewegungs- und/oder Trajektorienplanung stark belasten und zu den oben genannten widersprüchlichen Entscheidungen führen können. Gleichzeitig stellen sie fest, dass Trajektorien-Stichproben-Ansätze bei der Anwendung auf längerfristige Planungsaufgaben den Echtzeitanforderungen nicht genügen. Sie schlagen daher vor, mit einem auf Vorhersage- und Kostenfunktionen (PCB) basierenden Planungsalgorithmus zu beginnen, der einen Stichproben-Ansatz in einem abstrakten Bewegungsplanungs-Zustandsraum mit geringer Dimensionalität durchführt. Dieser Prozess beinhaltet eine Vorwärtssimulation des Verhaltens der anderen Teilnehmer und kann so einen Verhaltensplan generieren. Dieser wird dann an Breiten- und Längssteuergeräte zur Ausführung weitergeleitet.
Dieser Plan ist zwar prinzipiell durchführbar und damit für niedrige Schichten ausführbar, formuliert aber Entscheidungen auf hoher Ebene als Optimierungsproblem, das als solches nicht zur Simulation menschlichen Verhaltens führt.
Nachiket und Trivedi haben gezeigt, dass es möglich ist, Manöver aus naturalistischen Daten mit Hilfe von LSTMs probabilistisch vorherzusagen, wenn die Fahrhistorie eines Fahrzeugs als Eingabe einbezogen werden kann (siehe Nachiket Deo und Mohan M. Trivedi. Multimodale Trajektorienvorhersage von umgebenden Fahrzeugen mit manöverbasierten LSTMs. CoRR, abs/1805.05499, 2018). Da die Ausgabe ihres Modells nicht nur eine einzelne vorhergesagte Trajektorie ist, sondern eher eine Wahrscheinlichkeitsverteilung, würde sich ein solcher Ansatz gut dazu eignen, eine nicht-deterministische Trajektorienwahl zu simulieren und zu kontrollieren, wie „erratisch“ sich ein simulierter Fahrer verhalten sollte. In ähnlicher Weise haben Yoon und Kun eine Methode zur probabilistischen Vorhersage von Trajektorienparametern von Verkehrsteilnehmern auf der Grundlage von Streckenverläufen vorgeschlagen (siehe S. Yoon und D. Kum. The multilayer perceptron approach to lateral motion prediction of surrounding vehicles for autonomous vehicles. In 2016 IEEE Intelligent Vehicles Symposium (IV), Seiten 1307-1312, Juni 2016).
Diese Modelle hängen jedoch von der Verwendung der jüngsten Fahrhistorie des betreffenden Fahrzeugs (und/oder der Fahrzeuge in seiner Umgebung) ab, die möglicherweise nicht verfügbar ist (Ausgangsbedingungen, Rechenbeschränkungen) oder im Falle von Simulationsumgebungen noch verstärkt werden kann, da sie ebenfalls aus dem Simulationsprozess stammen. Darüber hinaus verwenden Simulationen, bei denen alte Fahrmuster eines menschlichen Fahrers in die Zukunft extrapoliert werden, naturalistische Fahrtrajektorien aus der Praxis, so dass die Gültigkeit der computersimulierten Vorhersagen, die auf der Grundlage der extrapolierten Fahrmuster gemacht werden, im Allgemeinen verringert wird.
Ein anderer probabilistischer Ansatz wurde von Hu, Zhan und Tomizuka vorgeschlagen (Yeping Hu, Wei Zhan, and Masayoshi Tomizuka. Probabilistic prediction of vehicle semantic intention and motion. CoRR, abs/1804.03629, 2018). Die Autoren schlagen ein Modell mit hoher Entscheidungsebene [High-Level-Modell] vor, um einen Zieleinfügebereich zu bestimmen, der als freier Raum zwischen zwei Fahrzeugen in der Nachbarschaft definiert ist. Die Ausgabe des Modells ist eine Verteilung über die resultierenden konkreten Einfügepunkte, die sich über mehrere solcher Bereiche erstrecken können, zusammen mit einer Verteilung über die Manöverzeit. Obwohl der Ansatz auf einer hohen Abstraktionsebene arbeitet, kann er dennoch keine längerfristigen Manöver wie Überholvorgänge vorhersagen.
In ähnlicher Weise gibt es einen Ansatz, der die Trajektorien von Verkehrsteilnehmern mit Hilfe von Modellen der Repulsiven Potentiellen Energie vorhersagt, die mit einer Fahrerklasse parametrisiert sind, die von einer Unterstützungs-Vektor-Maschine ([Support Vector Machine], SVM) gelernt wurde (siehe Hanwool Woo, Yonghoon Ji, Yusuke Tamura, Yasuhide Kuroda, Takashi Sugano, Yasunori Yamamoto, Atsushi Yamashita und Hajime Asama. Trajektorienvorhersage von Fahrzeugen in der Umgebung unter Berücksichtigung individueller Fahrcharakteristika. International Journal of Automotive Engineering, 9(4):282-288, 2018). Der Vorhersagehorizont wurde jedoch nicht weiter als zwei Sekunden im Voraus untersucht, und die Bewertung war auf ein bestimmtes Cut-in-Szenario beschränkt.
Angesichts der Unzulänglichkeiten des Standes der Technik ist es das Ziel der vorliegenden Erfindung, ein Computersystem zur Simulation einer Straßenverkehrsumgebung in einer Fahrsituation einschließlich einer komplexen Fahrsituation (Vorhersagezeitraum von mehr als 2 Sekunden) für ein oder mehrere Fahrzeuge bereitzustellen, so dass die Entscheidung eines Verkehrsagenten realistisches menschliches Verhalten (naturalistisches Verhalten) widerspiegelt. Gleichzeitig soll die Entscheidung des Verkehrsagenten machbar sein, d.h. von der zugrundeliegenden Fahrzeugsimulation ausgeführt werden können, ohne die physikalischen Gesetze oder die grundlegende Fahrzeugsicherheit zu verletzen.
KURZE BESCHREIBUNG DER ERFINDUNG:
Die vorgenannte Aufgabe wird zumindest teilweise durch den beanspruchten Erfindungsgegenstand gelöst. Vorteile (bevorzugte Ausführungsformen) sind in der nachstehenden detaillierten Beschreibung und/oder den begleitenden Figuren sowie in den abhängigen Ansprüchen dargelegt.
Dementsprechend bezieht sich ein erster Aspekt der Erfindung auf ein computerimplementiertes Trainingsverfahren für einen Verkehrsagenten, der ein Straßenfahrzeug in einer Fahrsituation einschließlich einer komplexen Fahrsituation einer Simulationsumgebung steuert. Das Trainingsverfahren stellt Fahrdaten pro Zeitfenster t über eine Vielzahl von Zeitfenstern t_i für ein oder mehrere jeweils von einem Menschen in einer realistischen Situation auf einer Straße gefahrenen Straßenfahrzeuge bereit und generiert für zumindest einen Teil der Straßenfahrzeuge als Ego-Fahrzeuge eine entsprechende Langzeitgrundwahrheitstrajektorie x [long-term ground truth trajectory x]. Weiterhin bewertet das Trainingsverfahren zumindest einen Teil der jeweiligen Grundwahrheitstrajektorien x zu einem oder mehreren der vorgegebenen Zeitfenster t_i hinsichtlich der Fahrkriterien Regelkonformität und Langzeittauglichkeit in komplexen Fahrsituationen und weist entsprechend einen Präferenzwert ŷ zu. Ferner erzeugt das Trainingsverfahren eine oder mehrere realisierbare alternative Langzeittrajektorien x_i an den gegebenen Zeitfenstern t_i als Funktion einer entsprechenden Grundwahrheitstrajektorie x und dem entsprechend zugeordneten Grundwahrheits-Präferenzwert ŷ, wobei ein entsprechender Präferenzwert y_i relativ zum Grundwahrheits-Präferenzwert ŷ [ground-truth preference value ŷ] den entsprechenden alternativen Langzeittrajektorien x_i zugeordnet wird. Schließlich trainiert das Trainingsverfahren ein Computermodell zur Entscheidungsfindung auf hoher Ebene in einer Fahrsituation, die eine komplexe Fahrsituation einschließt, i) mit der einen oder den mehreren Grundwahrheitstrajektorien x und den entsprechend zugeordneten Grundwahrheits-Präferenzwerten ŷ und ii) mit einer oder mehreren entsprechend durchführbaren alternativen Trajektorien x_i und den entsprechend zugeordneten Präferenzwerten y_i, wobei das Computermodell trainiert wird, als eine Aktion eine Kandidatentrajektorie x_c aus den durchführbaren alternativen Trajektorien x_i auszuwählen, die von dem Verkehrsagenten auszuführen ist, wobei der entsprechend zugeordnete Präferenzwert y_c einen vorbestimmten Schwellenwert überschreitet. Der Index i wird unabhängig aus einer ganzen Zahl von 1, 2, 3 oder mehr ausgewählt. Der Index c in x_c und y_c repräsentiert die ausgewählte Kandidatentrajektorie und den ihr zugeordneten Präferenzwert aus der Gruppe der alternativen Trajektorien x_i.
Ein zweiter Aspekt der Erfindung bezieht sich auf ein Computersystem zum Trainieren eines Verkehrsagenten, der ein Straßenfahrzeug in einer Fahrsituation navigiert, die eine komplexe Fahrsituation einer Simulationsumgebung umfasst. Das Computersystem zum Trainieren umfasst und besteht aus einem oder mehreren Prozessoren, einer mit dem einen oder den mehreren Prozessoren gekoppelten Speichervorrichtung und einem Verkehrsagenten-Lernsystem, das ein neuronales Netzwerkmodell zur Entscheidungsfindung in einer Fahrsituation einschließlich einer komplexen Fahrsituation verwendet, das in der Speichervorrichtung gespeichert und zur Ausführung durch den einen oder die mehreren Prozessoren konfiguriert ist. Das Lernsystem für Verkehrsagenten ist so konfiguriert, dass es das erfindungsgemäße computerimplementierte Trainingsverfahren ausführt.
Ein dritter Aspekt der Erfindung betrifft ein Computersystem zur Simulation einer Straßenverkehrsumgebung in einer Fahrsituation einschließlich einer komplexen Fahrsituation für ein oder mehrere Fahrzeuge. Das Computersystem umfasst oder besteht aus einem oder mehreren Prozessoren, einer mit dem einen oder den mehreren Prozessoren gekoppelten Speichervorrichtung und einem Verkehrsagenten, der ein neuronales Netzmodell zur Entscheidungsfindung in einer Fahrsituation einschließlich einer komplexen Fahrsituation verwendet, das in der Speichervorrichtung gespeichert und zur Ausführung durch den einen oder die mehreren Prozessoren konfiguriert ist. Der Verkehrsagent wird gemäß dem erfindungsgemäßen computerimplementierten Training trainiert, um eine von dem Verkehrsagenten auszuführende Kandidatentrajektorie x_c als eine Aktion auszuwählen, wobei der Präferenzwert y_c, der entsprechend der ausgewählten Kandidatentrajektorie x_c zugeordnet ist, einen vorbestimmten Schwellenwert überschreitet.
Die erfindungsgemäßen Aspekte der vorliegenden Erfindung, wie sie hierin offenbart sind, können jede mögliche (Unter-)Kombination der bevorzugten erfindungsgemäßen Ausführungsformen umfassen, wie sie in den abhängigen Ansprüchen dargelegt sind oder wie sie in der folgenden detaillierten Beschreibung und/oder in den begleitenden Figuren offenbart sind, vorausgesetzt, die sich ergebende Kombination von Merkmalen ist für den Fachmann sinnvoll.
Figurenliste
Weitere Merkmale und Vorteile der vorliegenden Erfindung ergeben sich aus den beigefügten Zeichnungen, wobei

1a) und 1b) jeweils graphische Darstellungen der Architektur eines erfindungsgemäßen Trainingscomputersystems und eines erfindungsgemäßen Simulationscomputersystems zeigen.
2 eine grafische Darstellung der gemäß der vorliegenden Erfindung erzeugten Trajektorien zeigt.
3a) und 3b) Präzisions-/Recall- und Konfusionsmatrizen für erfindungsgemäße Modelle mit unterschiedlicher Anzahl von Neuronen (a) 2-Klassen-Modell mit 32/8 Neuronen; b) 2-Klassen-Modell mit 32/32 Neuronen) in der zweiten Schicht zeigen.
4 eine grafische Darstellung der Untersuchungen verschiedener Neuronenzahlen der ersten und zweiten Schicht für 2-Klassen- und 4-Klassen-Modelle zeigt.
5 eine grafische Darstellung des erfindungsgemäßen Modells für einige generierte Trajektorien zeigt.
6 eine grafische Darstellung eines auf Vorhersage- und Kostenfunktionen basierenden (PCB) Algorithmus für die Trajektoriengenerierung zeigt.

AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG:
Wie im Folgenden näher ausgeführt wird, haben die Erfinder der verschiedenen Aspekte der vorliegenden Erfindung herausgefunden, dass das computerimplementierte Ausbildungsverfahren gemäß der vorliegenden Erfindung einen Verkehrsagenten, der ein Straßenfahrzeug in einer Fahrsituation einschließlich einer komplexen Fahrsituation einer Simulationsumgebung steuert, in die Lage versetzt, eine menschenähnliche (naturalistische) Langzeittrajektorie zu wählen, die gleichzeitig machbar ist und von der zugrundeliegenden Fahrzeugsimulation ausgeführt werden kann, ohne die Gesetze der Physik oder die grundlegende Fahrzeugsicherheit zu verletzen.
Die vorliegende Erfindung verändert das klassische hierarchische Fahrsystem so, dass die Durchführbarkeit alternativer Trajektorienvorschläge geprüft werden kann, bevor eine naturalistische Entscheidung auf höherer Ebene getroffen wird, z. B. Überholen, Verfolgen eines anderen Fahrzeugs oder Fahrspurwechsel. Dies ermöglicht, eine Entscheidung auf hoher Ebene zu treffen, ohne sie anschließend in Bezug auf die Ausführbarkeit zu verändern.
Im Zusammenhang mit der vorliegenden Erfindung bedeutet der Ausdruck „eine zusätzlich oder alternativ bevorzugte Ausführungsform“ oder „eine zusätzlich oder alternativ weiter bevorzugte Ausführungsform“ oder „eine zusätzliche oder alternative Art und Weise, diese Ausführungsform zu konfigurieren“, dass das Merkmal oder die Merkmalskombination, die in dieser bevorzugten Ausführungsform offenbart ist, zusätzlich zu oder alternativ zu den Merkmalen des erfindungsgemäßen Gegenstands, einschließlich jeder bevorzugten Ausführungsform jedes der erfindungsgemäßen Aspekte, kombiniert werden kann, vorausgesetzt, die sich ergebende Merkmalskombination ist für einen Fachmann sinnvoll.
Im Zusammenhang mit der vorliegenden Erfindung hat der Ausdruck „umfassend“ eine ähnlich weite Bedeutung wie der Begriff „einschließlich“ und bedeutet die Einbeziehung einer bestimmten ganzen Zahl oder eines bestimmten Schritts oder einer Gruppe von ganzen Zahlen oder Schritten, nicht aber den Ausschluss einer anderen ganzen Zahl oder eines anderen Schritts oder einer anderen Gruppe von ganzen Zahlen oder Schritten. Diese Definition gilt auch für Variationen des Begriffs „umfassend“ wie „umfassen“ und „umfasst“.
Im Zusammenhang mit der vorliegenden Erfindung ist der Ausdruck „konfiguriert“ im Zusammenhang mit Systemen und Computerprogrammkomponenten zu verstehen. Wenn ein System aus einem oder mehreren Computern so konfiguriert ist, dass es bestimmte Operationen oder Aktionen durchführt, bedeutet dies, dass auf dem System Software, Firmware, Hardware oder eine Kombination davon installiert ist, die im Betrieb das System veranlassen, Operationen oder Aktionen durchzuführen. Dass ein oder mehrere Computerprogramme so konfiguriert sind, dass sie bestimmte Operationen oder Aktionen ausführen, bedeutet, dass das eine oder die mehreren Programme Anweisungen enthalten, die bei Ausführung durch ein Datenverarbeitungsgerät das Gerät veranlassen, die Operationen oder Aktionen auszuführen.
Im Zusammenhang mit der vorliegenden Erfindung bedeutet der Ausdruck „Entscheidungsfindung auf hoher Ebene“ [high level decision making], dass ein Verkehrsagent in Fahrsituationen einer Simulationsumgebung eine Entscheidung treffen muss, die eine komplexe Fahrsituation umfasst, wie z. B. Überholen, Verfolgen eines anderen Fahrzeugs oder Fahrspurwechsel. Die komplexe Fahrsituation dauert im Allgemeinen mehr als 2 Sekunden.
Im Zusammenhang mit der vorliegenden Erfindung bedeutet der Ausdruck „Langzeittrajektorie“ oder „Langzeitkandidatentrajektorie“, dass die Trajektorie einen Zeitraum von mehr als 2 Sekunden in die Zukunft umfasst, vorzugsweise ein bestimmtes Zeitfenster t, das geeignet ist, eine komplexe Fahrsituation, wie z. B. ein Überholmanöver oder einen Spurwechsel, durchzuführen.
Im Rahmen der vorliegenden Erfindung bedeutet der Ausdruck „Fahrdaten pro Zeitfenster t über eine Vielzahl von Zeitfenstern t_i für ein oder mehrere Straßenfahrzeuge, die jeweils von einem Menschen in einer realistischen Situation auf einer Straße gefahren werden“, dass Zustandsdaten des einen oder der mehreren Straßenfahrzeuge pro entsprechend gegebenem Zeitfenster t_i, d.h. den jeweiligen Zeitfenstern (Zeitmarken), bereitgestellt werden. Der Index i in t_i steht für die Nummer des jeweiligen Zeitfensters (Zeitstempels), d. h. eine ganze Zahl von 1, 2, 3 oder mehr. Die mehreren vorgegebenen Zeitfenster t_i können unterschiedliche oder gleiche, vorzugsweise gleiche Intervalle haben, wobei das Zeitintervall zwischen den mehreren vorgegebenen Zeitfenster t_i im Allgemeinen so kurz wie möglich ist, z.B. 0,04 Sekunden. Die Fahrdaten stellen in der Regel Fahrzeugzustandsdaten eines oder mehrerer Straßenfahrzeuge dar, die jeweils von Menschen in einer realistischen Situation auf einer Straße mit mindestens einer Fahrspur pro Fahrtrichtung, auch „naturalistische“ Fahrsituation genannt, gefahren wurden. Die Fahrdaten können daher auch als „naturalistische Fahrdaten“ bezeichnet werden. Im Rahmen der vorliegenden Erfindung werden keine visualisierten Informationen, wie z. B. Bilddaten, als solche Fahrdaten verwendet.
Um die erfindungsgemäßen Gegenstände, Vorteile und Ziele zu erreichen, ist die vorliegende Erfindung, wie sie in dieser Offenbarung offenbart wird, auf Systeme und Verfahren gerichtet, die Computerhardware und -software nutzen, um einen virtuellen Verkehrsagenten zu trainieren, der unter Verwendung von Algorithmen und Techniken des verstärkten Lernens durch eine Simulationsumgebung navigiert. Ein virtueller Verkehrsagent (im Rahmen der vorliegenden Erfindung auch „Verkehrsagent“ genannt) kann beispielsweise ein Auto, ein LKW, ein Bus, ein Fahrrad oder ein Motorrad sein. Nachdem ein virtueller Verkehrsagent gemäß der vorliegenden Erfindung trainiert wurde, der das menschliche Fahrverhalten insbesondere in komplexen Fahrsituationen nachbildet, können ein oder mehrere trainierte virtuelle Verkehrsagenten in eine Simulationsumgebung mit komplexen Fahrsituationen eingespeist werden. Eine solche Ausführungsform ist bevorzugt, da die trainierten Verkehrsagenten mit einem autonomen Fahrzeugsystem, das ein zu testendes autonomes Fahrzeug steuert, interagieren, kooperieren und herausfordern können. Ein weiterer Vorteil ist, dass eine solche Ausführungsform geeignet ist, die Grenzen und Schwächen des autonomen Fahrzeugsystems zu testen, insbesondere in komplexen Fahrsituationen, die auf ein durchsetzungsfähiges oder aggressives Fahrverhalten zurückgeführt werden können.
Somit haben die erfindungsgemäßen Systeme und Verfahren darüber hinaus den technischen Effekt und Vorteil, dass sie eine Verbesserung der autonomen Fahrzeug-Computertechnologie darstellen, da das autonome Fahrzeug in der erfindungsgemäßen Simulationsumgebung trainiert wird, die menschenähnliche / naturalistische Fahrszenarien widerspiegelt, die gleichzeitig machbar sind.
Gemäß dem ersten Aspekt der vorliegenden Erfindung ist ein computerimplementiertes Trainingsverfahren für einen Verkehrsagenten, der ein Straßenfahrzeug in einer Fahrsituation einschließlich einer komplexen Fahrsituation einer Simulationsumgebung navigiert, dadurch gekennzeichnet, dass das Verfahren die folgenden Schritte umfasst oder daraus besteht:

Gemäß Schritt a) des ersten erfindungsgemäßen Aspekts werden Fahrdaten pro Zeitfenster t über eine Vielzahl von Zeitfenstern t_i für ein oder mehrere jeweils von einem Menschen in einer realistischen Situation auf einer Straße gefahrene Straßenfahrzeuge bereitgestellt und für zumindest einen Teil der Straßenfahrzeuge als Ego-Fahrzeuge eine jeweilige Langzeitgrundwahrheitstrajektorie x erzeugt.

Die Fahrdaten für jedes der Straßenfahrzeuge umfassen oder bestehen vorzugsweise aus der longitudinalen Geschwindigkeit, der longitudinalen Beschleunigung und der Position des jeweiligen Straßenfahrzeugs in X-, Y- und Z-Koordinaten zu den gegebenen Zeitpunkten t_i. Zusätzlich kann der Fahrzeugtyp angegeben werden.
Gemäß einer zusätzlichen oder alternativen bevorzugten Ausführungsform werden die Fahrdaten weiterverarbeitet, um zusätzlich pro Fahrzeug und gegebenem Zeitfenster t_i die Merkmale laterale Beschleunigung, laterale Geschwindigkeit, Ausrichtung des Fahrzeugs in Bezug auf die Straßenrichtung (Winkelabweichung) und inverse Zeit bis zur Kollision (TTC) zu erfassen. Die inverse TTC stellt die Zeit bis zur Kollision des jeweiligen Ego-Fahrzeugs der Grundwahrheitstrajektorie x mit einem anderen Fahrzeug dar, wobei dessen Verzögerungsreaktion als Kollision betrachtet wird.
Gemäß Schritt b) des ersten erfindungsgemäßen Aspekts wird zumindest ein Teil, vorzugsweise die Vielzahl der jeweiligen Grundwahrheitstrajektorien x zu den gegebenen Zeitpunkten t_i hinsichtlich der Fahrkriterien der Regelkonformität und der langfristigen Machbarkeit in einer komplexen Fahrsituation bewertet und ein jeweiliger Grundwahrheits-Präferenzwert ŷ zugeordnet. Mit anderen Worten, das computerimplementierte Trainingsverfahren ist so konfiguriert, dass es automatisch die jeweilige Rate der Regelkonformität und der langfristigen Durchführbarkeit der Grundwahrheitstrajektorien x bewertet.
Gemäß Schritt c) des ersten erfindungsgemäßen Aspekts werden eine oder mehrere realisierbare alternative Langzeittrajektorien x_i zu den gegebenen Zeitfenstern t_i in Abhängigkeit von einer jeweiligen Grundwahrheitstrajektorie x und dem entsprechend zugeordneten Grundwahrheits-Präferenzwert gerzeugt, wobei den Langzeittrajektorien entsprechend ein Präferenzwert y_i relativ zum Grundwahrheits-Präferenzwert ŷ entsprechend den Langzeittrajektorien x_i zugeordnet ist. Der Index i in x_i gibt die jeweilige alternative Langzeittrajektorie an und ist aus den ganzen Zahlen 1, 2, 3 oder mehr ausgewählt. Der Index i in y_i gibt den entsprechend zugeordneten Präferenzwert der jeweiligen alternativen Langzeittrajektorie x_i an und wird aus den ganzen Zahlen 1, 2, 3 oder mehr ausgewählt. Mit anderen Worten, das computerimplementierte Trainingsverfahren ist so konfiguriert, dass es eine entsprechende Grundwahrheitstrajektorie x und den entsprechenden zugeordneten Grundwahrheits-Präferenzwert verwendet ŷ zu verwenden, um die eine oder mehrere durchführbare alternative Langzeittrajektorien x_i mit entsprechend zugeordneten Präferenzwerten y_i zu erzeugen.
Gemäß einer zusätzlichen oder alternativen bevorzugten Ausführungsform wird die Präferenz für die Grundwahrheit ŷ auf ŷ = 1 gesetzt und der Präferenzwert y_i der alternativen Langzeittrajektorien wird jeweils gemäß der Funktion y_i = M(x_i) ∈ [0 ... 1] berechnet.
Gemäß Schritt d) des ersten erfindungsgemäßen Aspekts wird ein Computermodell zur Entscheidungsfindung auf hoher Ebene in einer Fahrsituation, die eine komplexe Fahrsituation einschließt, trainiert i) mit der einen oder den mehreren Grundwahrheitstrajektorien x und den entsprechend zugeordneten Grundwahrheits-Präferenzwerten ŷ und ii) mit einer oder mehreren entsprechend durchführbaren alternativen Trajektorien x_i und den entsprechend zugeordneten Präferenzwerten y_i trainiert, wobei das Computermodell trainiert wird, um als eine Aktion eine Kandidatentrajektorie x_c aus den durchführbaren alternativen Trajektorien x_i auszuwählen, die von dem Verkehrsagenten auszuführen ist, wobei der entsprechend zugeordnete Präferenzwert y_c einen vorbestimmten Schwellenwert überschreitet.
Im Allgemeinen kann jeder geeignete Präferenzschwellenwert für die Auswahl der Kandidatentrajektorie x_c verwendet werden. In einer bevorzugten Ausführungsform wird der vorgegebene Schwellenwert für den Präferenzwert y_c der ausgewählten Kandidatentrajektorie x_c auf 50 % oder mehr, alternativ auf 60 % oder mehr, alternativ auf 80 % oder mehr, alternativ auf 90 % oder mehr in Bezug auf den Präferenzwert der Grundwahrheit gesetzt ŷ. Mit anderen Worten, der zugeordnete Präferenzwert y_c der ausgewählten Kandidatentrajektorie x_c weist 50 % oder mehr, alternativ 60 % oder mehr, alternativ 80 % oder mehr, alternativ 90 % oder mehr des jeweiligen Grundwahrheits-Präferenzwertes ŷ auf, der auf 100 % gesetzt wird.
Für den Fall, dass mehr als eine alternative Langzeittrajektorie x_i einen zugeordneten Präferenzwert y_i aufweist, der den vorbestimmten Schwellenpräferenzwert überschreitet, ist das erfindungsgemäße Trainingsverfahren vorzugsweise weiter so ausgestaltet, dass als Kandidatentrajektorie x_c diejenige Trajektorie mit dem höchsten Präferenzwert y_c aus der Gruppe der alternativen Kandidatentrajektorien x_i ausgewählt wird, die den vorbestimmten Schwellenpräferenzwert überschreitet. Je näher der Präferenzwert y_i der ausgewählten Kandidatentrajektorie x_c im Verhältnis zum jeweiligen Präferenzwert der Grundwahrheit ŷ desto besser ist die Passung der ausgewählten Kandidatentrajektorie x_c im Hinblick auf die Simulation eines naturalistischen Fahrverhaltens bei gleichzeitig geeigneter Regelkonformität und langfristiger Machbarkeit. Um das Trainingsergebnis weiter zu steigern, wird das Computermodell zur Entscheidungsfindung auf hoher Ebene in einer Fahrsituation, die eine komplexe Fahrsituation einschließt, in Schritt d) mit einer oder mehreren alternativen Langzeittrajektorien x_i trainiert, die zugeordnete Präferenzwerte y_i aufweisen, die den vorbestimmten Schwellenpräferenzwert überschreiten, und mit einer oder mehreren alternativen Langzeittrajektorien x_i trainiert, die zugeordnete Präferenzwerte y_i aufweisen, die den vorbestimmten Schwellenwert unterschreiten.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Ausführungsform, bei der ferner in Schritt a) ein Wahrnehmungswert p_i pro gegebenem Zeitfenster t_i für eines oder mehrere der Ego-Fahrzeuge bestimmt wird, wobei der Wahrnehmungswert p_i eine Funktion der Fahrdaten des Ego-Fahrzeugs und der Fahrdaten der umgebenden Fahrzeuge in einer Sechs-Fahrzeug-Nachbarschaft ist. Der Index i in p_i gibt den Wahrnehmungswert des jeweiligen Ego-Fahrzeugs an und ist ausgewählt aus den ganzen Zahlen 1, 2, 3 oder mehr.
In Bezug auf die Sechs-Fahrzeug-Nachbarschaft sind die Fahrzeugrollen gemäß der vorliegenden Erfindung wie folgt definiert:

- Das Auto vor dem Ego-Fahrzeug (auf der gleichen Spur).
- Das Auto, das dem Ego-Fahrzeug folgt (auf derselben Fahrspur).
- Die beiden Autos vor dem Mittelpunkt des Ego-Fahrzeugs übertragen auf die beiden benachbarten Fahrspuren.
- Die beiden Autos im hinteren Teil des Ego-Fahrzeugs übertragen auf die beiden Nachbarspuren.

Jeder dieser Punkte kann für eine bestimmte Zeit/Ego-Fahrzeug-Kombination vorhanden sein oder auch nicht und wird in dem Modell berücksichtigt.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung betrifft eine Ausführungsform, bei der der Wahrnehmungswert p_i entsprechend ein oder mehrere Zustandsmerkmale des Ego-Fahrzeugs und der entsprechenden Nachbarfahrzeuge umfasst oder daraus besteht, wobei vorzugsweise die Zustandsmerkmale des Ego-Fahrzeugs longitudinale Beschleunigung, laterale Beschleunigung und Peilung umfassen oder daraus bestehen und die Zustandsmerkmale jedes der Umgebungsfahrzeuge in der Sechs-Fahrzeug-Nachbarschaft die Fahrzeugrolle, die longitudinale Geschwindigkeit, die longitudinale Beschleunigung, die laterale Beschleunigung, den euklidischen Abstand zwischen dem jeweiligen Ego-Fahrzeug und einem jeweiligen Umgebungsfahrzeug (L² Abstand d), die inverse TTC und die relative Peilung umfassen oder daraus bestehen. Der Begriff „Peilung“ eines Ego-Fahrzeugs steht im Rahmen der vorliegenden Erfindung für die Ausrichtung des Ego-Fahrzeugs in Bezug auf die globalen x- / y-Achsen. Der Begriff „relative Peilung“ eines Fahrzeugs in der Sechser-Nachbarschaft stellt im Rahmen der vorliegenden Erfindung die relative Ausrichtung des jeweiligen Fahrzeugs in Bezug auf das Ego-Fahrzeug dar, insbesondere repräsentiert durch den relativen Winkel Θ, der in der Position des Ego-Fahrzeugs in Bezug auf die Gerade zwischen der Ego-Fahrzeugposition und der Position des jeweiligen Fahrzeugs der Sechser-Nachbarschaft in den globalen x- / y-Achsen und der jeweiligen x-Achse gebildet wird.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Ausführungsform, wobei in Schritt b) die rechnerische Auswertung der Kriterien für die Regelkonformität so ausgestaltet ist, dass sie die Konformität der Grundwahrheitstrajektorie x und/oder der Alternativtrajektorien x_i zu einem gegebenen Zeitfenster t_i mit den Anforderungen der gesetzlichen Fahrvorschriften berücksichtigt und die Auswertung der Kriterien für die langfristige Durchführbarkeit in komplexen Fahrsituationen so ausgestaltet ist, dass sie die Ausführbarkeit der Alternativtrajektorien x_i durch die zugrundeliegende Fahrzeugsimulation berücksichtigt, ohne die physikalischen Gesetze und grundlegende Fahrzeugsicherheitsbedingungen zu verletzen, wie z.B. möglichst kollisionsfreies Fahren und ohne Verlassen des Fahrbereichs.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Ausführungsform, bei der in Schritt c) die Erzeugung einer oder mehrerer realisierbarer alternativer Langzeittrajektorien x_i für gegebene Zeitfenster t_i Folgendes umfasst oder daraus besteht: i) Transformieren der Grundwahrheitstrajektorie x für die jeweiligen Ego-Fahrzeuge, um die Position der Ego-Fahrzeuge in Form von Abstandsparametern θ̂ relativ zur Fahrbahn auszudrücken, ii) Erzeugen einer oder mehrerer zufälliger alternativer Langzeitkandidatentrajektorien x_i, und iii) Berechnen der Präferenz y_i, für die Abstandsparameter θ durch Erzeugen eines oder mehrerer Trajektorienpunkte und punktweises Vergleichen mit den jeweiligen Abstandsparametern θ̂ der Grundwahrheitstrajektorie x.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Ausführungsform, bei der die Grundwahrheitstrajektorie x für das jeweilige Ego-Fahrzeug in einen Frenet-Rahmen transformiert wird, d. h. um eine Position s entlang seiner Fahrbahnmittellinie und seinen (seitlichen) Abstand w zu dieser Linie zu einem beliebigen Zeitpunkt auszudrücken, und dann die Grundwahrheitstrajektorie x auf die Abstandsparameter vereinfacht wird θ̂.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Ausführungsform, bei der die Grundwahrheitstrajektorie x auf sechs Abstandsparameter vereinfacht wird θ̂̂ (θ̂₁ zu θ̂₆), die beschreiben θ̂₁ s-Entfernung bis zum ersten Fahrspurwechsel, θ̂₂ s-Distanzlänge des ersten Spurwechsels θ̂₃ s-Entfernung bis zum zweiten Spurwechsel, θ₄ s-Entfernung des zweiten Spurwechsels, θ̂₅ w-Entfernung des ersten Spurwechsels, und θ̂₆ w-Entfernung w-Entfernung des zweiten Fahrspurwechsels.
In einem Beispiel wird der Präferenzwert y_i nach der folgenden Funktion bestimmt: $y_{i} : = 1 - tanh (\frac{1}{n} \sum_{j = 1}^{n} {[f (t_{j}, θ) - f (t_{j}, \hat{θ})]}^{2})$
worin n eine ganze Zahl aus der Gruppe 1, 2, 3 oder mehr darstellt.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Ausführungsform, bei der die Erzeugung alternativer Langzeittrajektorien x_i das Erzeugen einer Vielzahl von zufälligen Trajektorien x_i umfasst, die gleichmäßig in Grenzen für den Abstandsparameterraum abgetastet werden θ und das Erzeugen einer Vielzahl von zufälligen Trajektorien x_i, die aus einer Normalverteilung um den Abstandsparameterraum 0 mit denselben Beschränkungen.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Ausführungsform, bei der 5 oder mehr, alternativ 10 oder mehr, alternativ 20 oder mehr, alternativ 30 oder mehr, alternativ 40 oder mehr, alternativ 50 oder mehr zufällige alternative Trajektorien x_i erzeugt werden, die gleichmäßig in Grenzen für den Abstandsparameterraum abgetastet werden θ erzeugt werden, und wobei 5 oder mehr, alternativ 10 oder mehr, alternativ 20 oder mehr, alternativ 30 oder mehr, alternativ 40 oder mehr, alternativ 50 oder mehr zufällige alternative Trajektorien x_i erzeugt werden, die aus einer Normalverteilung um den Abstandsparameterraum θ mit den gleichen Einschränkungen.
Alle Merkmale und Ausführungsformen, die in Bezug auf den ersten Aspekt der vorliegenden Erfindung offenbart werden, sind allein oder in (Unter-)Kombination mit dem zweiten Aspekt oder dem dritten Aspekt der vorliegenden Erfindung einschließlich jeder der bevorzugten Ausführungsformen davon kombinierbar, sofern die sich ergebende Kombination von Merkmalen für einen Fachmann auf dem Gebiet der Technik angemessen ist.
Gemäß dem zweiten Aspekt der Erfindung ein Computersystem zum Trainieren eines Verkehrsagenten, der ein Straßenfahrzeug in einer Fahrsituation navigiert, die eine komplexe Fahrsituation einer Simulationsumgebung einschließt, umfassend oder bestehend aus einem oder mehreren Prozessoren, einer Speichervorrichtung, die mit dem einen oder den mehreren Prozessoren gekoppelt ist, und einem Verkehrsagenten-Lernsystem, das ein neuronales Netzwerkmodell zur Entscheidungsfindung in einer komplexen Fahrsituation verwendet, das in der Speichervorrichtung gespeichert ist und konfiguriert ist, um von dem einen oder den mehreren Prozessoren ausgeführt zu werden, dadurch gekennzeichnet, dass das Verkehrsagenten-Lernsystem konfiguriert ist, um das computerimplementierte Trainingsverfahren des ersten Aspekts auszuführen.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung betrifft eine Ausführungsform, bei der das neuronale Netzmodell zur Entscheidungsfindung in einer Fahrsituation einschließlich einer komplexen Fahrsituation ein neuronales Zweiklassen-Netzmodell umfasst, vorzugsweise mit bis zu 32 Neuronen in der ersten Schicht und bis zu 32 Neuronen in der zweiten Schicht, oder es umfasst ein neuronales Vierklassen-Netzmodell vorzugsweise mit bis zu 96 Neuronen in der ersten Schicht und bis zu 16 Neuronen in der zweiten Schicht. Vorzugsweise ist die Neuronenzahl in der zweiten Schicht entsprechend höher, um eine gute Korrektklassifikationsrate [accuracy] im Test zu erreichen. Die Neuronenzahl der ersten Schicht scheint einen geringeren Einfluss auf die Korrektklassifikationsrate im Test zu haben.
Gemäß einer zusätzlichen oder alternativen bevorzugten Ausführungsform kann das Computersystem des zweiten Aspekts so konfiguriert sein, dass der Verkehrsagent separate Module umfasst. Ein Modul A kann konfiguriert sein, naturalistische Fahrdaten einzugeben und zu verarbeiten und eine oder mehrere Grundwahrheitstrajektorien x zu generieren. Ein Modul B kann konfiguriert sein, die Wahrnehmungswerte p_i der einen oder mehreren Grundwahrheitstrajektorien x zu generieren. Ein Modul C, das gemäß der vorliegenden Erfindung auch als „generativer Trajektorien-/Bewegungsplaner“ oder „Gen. TP“ bezeichnet wird, kann konfiguriert sein, eine oder mehrere realisierbare alternative Langzeittrajektorien x_i für gegebene Zeitfenster t_i zu generieren, denen entsprechend ein Präferenzwert y_i zugeordnet ist. Modul D, das gemäß der vorliegenden Erfindung auch als Entscheidungsfinder auf hoher Ebene [„High Level Decision Maker“] oder „HLDM“ bezeichnet wird, stellt ein Computermodell für die Entscheidungsfindung auf hoher Ebene in einer Fahrsituation dar, die eine komplexe Fahrsituation einschließt, und wird mit einer oder mehreren der alternativen durchführbaren Langzeittrajektorien x_i, die von Modul C bereitgestellt werden, und den jeweiligen Grundwahrnehmungstrajektorien x, die von Modul A bereitgestellt werden, und/oder den Wahrnehmungswerten p_i von Modul B trainiert, um als Aktion eine Kandidatentrajektorie x_c auszuwählen, die den vorgegebenen Schwellenwert für den Präferenzwert y_i überschreitet, der vom Verkehrsagenten ausgeführt werden soll.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Ausführungsform, bei der die Module A und B in einem Modul kombiniert sind oder bei der die Module B und C in einem Modul kombiniert sind.
Eine Ausführungsform des erfindungsgemäßen Trainingscomputersystems besteht darin, dass Modul A und Modul B ihre entsprechend generierten Daten an Modul C und/oder Modul D liefern, wobei die Daten vorzugsweise zuerst in Modul C und anschließend in Modul D verwendet werden. Mit anderen Worten: Die Fahrdaten der Ego-Fahrzeuge einschließlich der Grundwahrheitstrajektorien x von Modul A und ihrer Wahrnehmung p_i von Modul B werden zuerst in Modul C verwendet, um die alternativen Langzeittrajektorien x_i zu generieren. Anschließend werden die Fahrdaten der Ego-Fahrzeuge, einschließlich der Grundwahrheitstrajektorien x von Modul A und ihrer Wahrnehmung p_i von Modul B, vorzugsweise auch in Modul D verwendet, um eine Langzeitkandidatentrajektorie x_c aus der von Modul C bereitgestellten Gruppe möglicher alternativer Langzeittrajektorien x_i zu bewerten und auszuwählen.
Der Vorteil des erfindungsgemäßen Computersystems für das Training eines Verkehrsagenten besteht darin, dass die Entscheidungen nach der Generierung realisierbarer alternativer naturalistischer Langzeittrajektorien x_i ausgeführt werden und somit alle von Modul D ausgewählten alternativen Trajektorien x_i naturalistisch und ohne Änderung realisierbar sind. Mit anderen Worten, das erfindungsgemäße neuronale Netzwerk für die Entscheidungsfindung auf hoher Ebene erzeugt menschenähnliche Trajektorien, die gleichzeitig realisierbar sind.
Alle Merkmale und Ausführungsformen, die in Bezug auf den zweiten Aspekt der vorliegenden Erfindung offenbart werden, sind allein oder in (Unter-)Kombination mit dem ersten Aspekt oder dem dritten Aspekt der vorliegenden Erfindung einschließlich jeder der bevorzugten Ausführungsformen davon kombinierbar, sofern die sich ergebende Kombination von Merkmalen für einen Fachmann auf dem Gebiet der Technik angemessen ist.
Ein dritter Aspekt der Erfindung bezieht sich auf ein Computersystem zur Simulation einer Straßenfahrumgebung in einer Fahrsituation, die eine komplexe Fahrsituation für ein oder mehrere Fahrzeuge einschließt, umfassend oder bestehend aus einem oder mehreren Prozessoren, einer mit dem einen oder den mehreren Prozessoren gekoppelten Speichervorrichtung und einem Verkehrsagenten, der ein neuronales Netzwerkmodell zur Entscheidungsfindung in einer Fahrsituation verwendet, die eine komplexe Fahrsituation einschließt, die in der Speichervorrichtung gespeichert ist und so konfiguriert ist, dass sie von dem einen oder den mehreren Prozessoren ausgeführt wird dadurch gekennzeichnet, dass der Verkehrsagent gemäß dem computerimplementierten Trainingsverfahren des ersten erfindungsgemäßen Aspekts trainiert wird, um als eine Aktion eine Kandidatentrajektorie x_c auszuwählen, die den vorbestimmten Schwellenwert für den Präferenzwert y_c übersteigt, um von dem Verkehrsagenten in der Simulationsumgebung durchgeführt zu werden. Mit anderen Worten, während sich das Computersystem des zweiten Aspekts der vorliegenden Erfindung auf die Trainingsphase eines Verkehrsagenten-Lernsystems unter Verwendung naturalistischer Fahrdaten bezieht, bezieht sich das Computersystem des dritten Aspekts der vorliegenden Erfindung auf den Einsatz des trainierten Verkehrsagenten in einer Simulationsumgebung unter Verwendung simulierter Fahrdaten.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung betrifft eine Ausführungsform, bei der das neuronale Netzmodell zur Entscheidungsfindung in einer Fahrsituation einschließlich einer komplexen Fahrsituation ein neuronales Zweiklassen-Netzmodell umfasst, vorzugsweise mit bis zu 32 Neuronen in der ersten Schicht und bis zu 32 Neuronen in der zweiten Schicht, oder es umfasst ein neuronales Vierklassen-Netzmodell vorzugsweise mit bis zu 96 Neuronen in der ersten Schicht und bis zu 16 Neuronen in der zweiten Schicht. Vorzugsweise ist die Neuronenzahl in der zweiten Schicht entsprechend höher, um eine gute Korrektklassifikationsrate im Test zu erreichen. Die Neuronenzahl der ersten Schicht scheint einen geringeren Einfluss auf die Korrektklassifikationsrate im Test zu haben.
Im Hinblick auf den Einsatz des erfindungsgemäßen Verkehrsagenten kann das Simulationscomputersystem des dritten Aspekts so konfiguriert sein, dass der Verkehrsagent aus separaten Modulen besteht. Ein Modul A kann dazu ausgebildet sein, simulierte Fahrdaten von simulierten Fahrzeugen in einer Simulationsumgebung zu verarbeiten. Ein Modul B kann konfiguriert sein, die Wahrnehmungswerte p_i der simulierten Fahrzeuge pro gegebenem Zeitfenster t_i zu generieren. Ein Modul C, auch „generativer Trajektorien-/Bewegungsplaner“ oder „Gen. TP“ genannt, das gemäß dem vorliegenden erfindungsgemäßen Trainingsverfahren trainiert wurde, ist konfiguriert, eine oder mehrere realisierbare alternative Langzeittrajektorien x_i pro gegebenem Zeitfenster t_i zu generieren, denen entsprechend ein Präferenzwert y_i zugeordnet ist. Modul D, das gemäß der vorliegenden Erfindung auch als „High Level Decision Maker“ oder „HLDM“ bezeichnet wird und gemäß der vorliegenden Erfindung trainiert wurde, ist so konfiguriert, dass es als Aktion eine Langzeitkandidatentrajektorie x_c aus der Gruppe der von Modul C bereitgestellten realisierbaren alternativen Trajektorien x_i auswählt, die den vorbestimmten Schwellenwert für den Präferenzwert y_c überschreitet, um vom Verkehrsagenten in der Simulationsumgebung durchgeführt (ausgeführt) zu werden.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Ausführungsform, bei der die Module A und B in einem Modul kombiniert sind oder bei der die Module B und C in einem Modul kombiniert sind.
Weitere Module, die zur Ausführung der ausgewählten Kandidatentrajektorie erforderlich sind, wie z. B. ein Modul E, ein so genanntes „Trajektorieplanausführungsmodul“ [„Trajectory Plan Execution module“] oder „TP Exec.“-Modul und/oder ein Modul F, ein so genanntes „Fahrzeugmodul“, zur Ausführung der ausgewählten Trajektorie in der Simulationsumgebung, sind vorzugsweise ebenfalls enthalten. Für Details der Ausführung einer ausgewählten Trajektorie x_i kann das Modul E bei Bedarf weitere Verarbeitungsschritte aufrufen, die weiter unten im exemplarischen Abschnitt näher beschrieben werden.
Eine Ausführungsform des erfindungsgemäßen Simulationscomputersystems besteht darin, dass Modul A und Modul B ihre entsprechend generierten Simulationsdaten zunächst Modul C und anschließend Modul D zur Verfügung stellen. Mit anderen Worten werden die von Modul A und/oder B bereitgestellten simulierten Fahrdaten der simulierten Fahrzeuge und ihre jeweiligen Wahrnehmungen p_i zur Generierung der alternativen Langzeittrajektorien x_i in Modul C und zur Auswahl der Kandidatentrajektorie x_c in Modul D verwendet.
Der Vorteil des erfindungsgemäßen Simulationscomputersystems besteht darin, dass die Entscheidungen im Anschluss an die Generierung realisierbarer naturalistischer Langzeittrajektorien x_i ausgeführt werden und somit alle von Modul D ausgewählten Kandidaten-Trajektorien x_c naturalistisch und ohne Änderung realisierbar sind. Mit anderen Worten, der erfindungsgemäße Entscheidungsfinder auf hoher Ebene erzeugt menschenähnliche Trajektorien, die gleichzeitig realisierbar sind.
Eine zusätzliche oder alternative bevorzugte Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Ausführungsform, bei der Modul C und/oder Modul D mit einer strategischen Explorationskomponente, wie einer auf Vorhersage- und Kostenfunktionen basierenden (PCB) Komponente oder einer ähnlichen Komponente, ergänzt wird/werden, um Kandidatentrajektorieen von mehr als 2 Sekunden zu berechnen.
Eine solche Erweiterung könnte beispielsweise geeignet sein, den Trajektorienvorschlag von Modul C und/oder die Trajektorienauswahl von Modul D zu beeinflussen, indem weitere Anforderungen an die Trajektoriengenerierung/-auswahl gestellt werden, z. B. die Auswahl einer Kostenfunktion, um eine gewünschte Aggressivität des Fahrstils zu simulieren.
Alle Merkmale und Ausführungsformen, die in Bezug auf den dritten Aspekt der vorliegenden Erfindung offenbart werden, sind allein oder in (Unter-)Kombination mit dem ersten Aspekt oder dem zweiten Aspekt der vorliegenden Erfindung einschließlich jeder ihrer bevorzugten Ausführungsformen kombinierbar, vorausgesetzt, die sich ergebende Kombination von Merkmalen ist für einen Fachmann auf dem Gebiet der Technik angemessen.
Die vorliegende Erfindung wird im Folgenden anhand von beispielhaften Ausführungsformen beschrieben, die lediglich als Beispiele dienen und den Umfang des vorliegenden Schutzrechts nicht einschränken sollen.
DETAILLIERTE BESCHREIBUNG DER FIGUREN UND DES VERSUCHSAUFBAUS
Weitere Merkmale und Vorteile der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der erfindungsgemäßen Aspekte unter Bezugnahme auf die beigefügten Figuren.
Alle nachstehend in Bezug auf die Ausführungsbeispiele und/oder die begleitenden Figuren offengelegten Merkmale können allein oder in einer beliebigen Unterkombination mit Merkmalen der drei Aspekte der vorliegenden Erfindung, einschließlich Merkmalen bevorzugter Ausführungsformen davon, kombiniert werden, sofern die sich ergebende Merkmalskombination für einen Fachmann auf dem Gebiet der Technik sinnvoll ist.
1a) zeigt eine grafische Darstellung einer Ausführungsform der Architektur 1, auch „Fahrstapel“ genannt, eines Ausbildungscomputersystems gemäß der vorliegenden Erfindung und 1b) zeigt eine grafische Darstellung einer Ausführungsform der Architektur 1' eines Simulationscomputersystems gemäß der vorliegenden Erfindung. Die erfindungsgemäßen Fahrstapel sind so konfiguriert, dass sie in allen simulierten Fahrsituationen, einschließlich komplexer Fahrsituationen, realisierbare menschenähnliche (naturalistische) Entscheidungen treffen.
Die in 1a) dargestellte Trainingsarchitektur 1 ist so konfiguriert, dass sie die Funktionen von Modul A und Modul B, wie sie oben in Bezug auf das erfindungsgemäße Trainingscomputersystem beschrieben wurden, in einem Modul 11 zusammenfasst. Dementsprechend ist das kombinierte Modul 11 konfiguriert, um die Funktionen von Modul A auszuführen, z.B. ist es konfiguriert, um die naturalistischen Fahrdaten einzugeben und zu verarbeiten und die Grundwahrheitstrajektorien x zu erzeugen, ist so konfiguriert, dass es die Wahrnehmungswerte p_i der einen oder mehreren Grundwahrheitstrajektorien x pro gegebenem Zeitfenster t_i erzeugt. Modul 12 (Modul C), das gemäß 1a) auch als „Gen. TP“ bezeichnet wird, ist so konfiguriert, dass es eine oder mehrere realisierbare alternative Langzeitkandidatentrajektorien x_i pro gegebenem Zeitfenster t_i erzeugt, denen entsprechend ein Präferenzwert y_i zugeordnet ist. Modul 13 (Modul D), das gemäß 1a) auch als „HLDM“ bezeichnet wird, stellt ein Computermodell für die Entscheidung auf hoher Ebene in einer Fahrsituation dar, die eine komplexe Fahrsituation einschließt, und wird mit einer oder mehreren der von Modul 12 bereitgestellten Langzeittrajektorien x_i und den jeweiligen vom kombinierten Modul 11 bereitgestellten Grundwahrheitstrajektorien x trainiert, um als Aktion eine Kandidatentrajektorie x_c auszuwählen, die den vorgegebenen Schwellenwert für den Präferenzwert y_c überschreitet, der vom Verkehrsagenten auszuführen ist.
Aus 1a) geht nicht hervor, dass die Module A und B alternativ auch als separate Module vorgesehen werden können.
Gemäß 1a) liefert das kombinierte Modul 11 die jeweiligen naturalistischen Fahrdaten und die Wahrnehmung p_i an Modul 12 bzw. Modul 13. Mit anderen Worten, die naturalistischen Fahrdaten der Ego-Fahrzeuge einschließlich der Grundwahrheitstrajektorien x und ihrer Wahrnehmung p_i werden zunächst in Modul 12 verwendet (gestrichelte Linie), um die alternativen Langzeittrajektorien x_i zu generieren. Außerdem werden die naturalistischen Fahrdaten der Ego-Fahrzeuge einschließlich der Grundwahrheitstrajektorien x und ihrer Wahrnehmung p_i anschließend in Modul 13 verwendet (durchgehende Linie), um die Langzeitkandidatentrajektorie x_c zu bewerten und auszuwählen.
Diese erfindungsgemäße architektonische Ausführungsform, die in 1a) dargestellt ist, bietet den Vorteil, dass alle vom Modul für Entscheidungen auf hoher Ebene 13 ausgewählten Kandidatentrajektorien x_i naturalistisch und machbar sind und nicht nachträglich geändert werden müssen.
Die in 1b) dargestellte Simulationsarchitektur 1' ist so konfiguriert, dass sie auch die Funktionen von Modul A und Modul B, wie sie oben in Bezug auf das erfindungsgemäße Simulationscomputersystem beschrieben wurden, in einem Modul 11' umfasst. Dementsprechend ist das kombinierte Modul 11' konfiguriert, die Funktionen von Modul A auszuführen, z.B. ist es konfiguriert, um Fahrdaten von simulierten Fahrzeugen in einer Simulationsumgebung zu simulieren. Dies bedeutet, dass Modul A während des Einsatzes in einer Simulationsumgebung nicht die naturalistischen Fahrdaten und nicht die Langzeitgrundwahrheitstrajektorien x verwendet. Ferne ist das kombinierte Modul 11' konfiguriert, dass es die Funktionen von Modul B ausführt, z. B. ist es konfiguriert Wahrnehmungswerte p_i der simulierten Fahrdaten pro gegebenem Zeitfenster t_i zu generieren. Modul 12' (Modul C), das gemäß 1b) auch „Gen. TP“ genannt wird, wurde mit dem erfindungsgemäßen Trainingsverfahren trainiert und ist konfiguriert, eine oder mehrere machbare alternative Langzeittrajektorien x_i pro gegebenem Zeitfenster t_i zu generieren, denen entsprechend ein Präferenzwert y_i zugeordnet wird. Modul 13' (Modul D), das gemäß 1b) auch als „HLDM“ bezeichnet wird, stellt ein Computermodell zur Entscheidungsfindung auf hoher Ebene in einer Fahrsituation einschließlich einer komplexen Fahrsituation dar und wurde mit dem erfindungsgemäßen Trainingsverfahren trainiert, um als Aktion eine Kandidatentrajektorie x_c auszuwählen, die den vorbestimmten Schwellenwert für den Präferenzwert y_c überschreitet, um vom Verkehrsagenten ausgeführt zu werden.
Nicht dargestellt ist in 1b), dass die Module A und B alternativ auch als separate Module vorgesehen werden können.
Die Simulationsarchitektur 1' der 1b) umfasst ferner das Modul 14' (Modul E), das auch als „TP Exec.“ bezeichnet wird, um die Ausführungsplanung der Kandidatentrajektorie x_c in einem simulierten Fahrzeug durchzuführen, sowie das Modul 15' (Modul F) für das simulierte „Fahrzeugmodul“. Für die Einzelheiten der Ausführung der ausgewählten Kandidatentrajektorie x_c kann Modul 15' bei Bedarf weitere Verarbeitungsschritte aufrufen, was in 1b) nicht dargestellt ist.
Gemäß 1b) liefert das kombinierte Modul 11' die jeweiligen simulierten Daten und Wahrnehmungen p_i an Modul 12' bzw. Modul 13'. Mit anderen Worten: Die Daten der simulierten Fahrzeuge und ihre Wahrnehmung p_i werden zunächst (gestrichelte Linie) in Modul 12' verwendet, um die realisierbaren alternativen Langzeittrajektorien x_i zu generieren. Anschließend werden die Daten der simulierten Fahrzeuge und ihre Wahrnehmung p_i in Modul 13' verwendet (durchgehende Linie), um die realisierbare Langzeitkandidatentrajektorie x_c zu bewerten und auszuwählen.
Diese erfindungsgemäße Simulationsarchitektur (Ausführungsform 1' in 1b) bietet den Vorteil, dass jede vom hochrangigen Entscheidungsträger des Moduls 13 ausgewählte Langzeitkandidatentrajektorie x_c naturalistisch und realisierbar ist und nicht nachträglich geändert werden muss.
In 1b) ist ferner dargestellt, dass Modul 12' und/oder Modul 13' durch eine strategische Explorationskomponente ergänzt werden kann, z. B. eine auf Vorhersage- und Kostenfunktionen basierende Komponente (PCB) oder eine ähnliche Komponente, um Kandidatentrajektorien zu berechnen, die länger als 2 Sekunden benötigen. Eine solche Erweiterung könnte geeignet sein, den Vorschlag alternativer Trajektorien durch Modul 12' und/oder die Auswahl von Kandidatentrajektorien durch Modul 13' zu beeinflussen, indem weitere Anforderungen an die Trajektoriegenerierung/-auswahl gestellt werden, z. B. die Auswahl einer Kostenfunktion, um eine gewünschte Aggressivität des Fahrstils zu simulieren.
Die Erfinder der vorliegenden Anmeldung untersuchten eine Reihe von neuronalen Netzarchitekturen mit ähnlichem Aufbau, wobei sie die Anzahl der Neuronen und die Präferenzklassen im Hinblick auf die vorliegende Erfindung variierten. Alle betrachteten Netze bestanden aus zwei dichten Schichten mit Gleichgerichtete Lineare Einheit ([Rectified Linear Unit], ReLU)-Aktivierungen, gefolgt von einer letzten dichten Schicht mit Softmax-Ausgang.
Für die erfindungsgemäße Trainingsmethode verwendeten die Erfinder die ersten vier Stunden der Fahrdaten des DataFromSky (DFS)-Datensatzes (erworben von RCE systems s.r.o., Tschechische Republik), der einen naturalistischen Fahrdatensatz für die Analyse bildet. Die naturalistischen Daten umfassten Koordinaten- und Geschwindigkeitsinformationen von tatsächlichen menschlichen Fahrtrajektorien auf einem kleinen Abschnitt von etwa 500 m der Autobahn A9 in Deutschland. Die Daten umfassten insbesondere pro Zeitfenster eine eindeutige Fahrzeugkennung, globale Koordinaten in Quer- und Längsrichtung, longitudinale Geschwindigkeit und longitudinale Beschleunigung. Die Erfinder haben Fahrzeuge, die in weniger als 200 Zeitfenstern t_i sichtbar sind oder bei denen es sich nicht um Personenkraftwagen (sondern z. B. um Lastkraftwagen) handelt, nicht als Ego-Fahrzeuge im Hinblick auf die nachfolgende experimentelle Analyse betrachtet. Von den ersten drei Stunden Fahrdaten wurden 72% als Trainingsdaten, 20% als Testdaten und 8% als Validierungsdaten zufällig ausgewählt.
Für jedes sich ergebende Datenbild betrachteten die Erfinder jedes Auto als Ego-Fahrzeug, extrahierten seine Wahrnehmung p_i wie in der detaillierten Beschreibung der Erfindung oben und im Folgenden beschrieben und generierten alternative Langzeittrajektorien x_i wie in der detaillierten Beschreibung der Erfindung oben und im Folgenden beschrieben.
Dementsprechend gingen die Erfinder davon aus, dass das Verhalten des Fahrers eines Ego-Fahrzeugs zu einem großen Teil eine Funktion des Zustands des Fahrzeugs und des Zustands der nächstgelegenen Fahrzeuge in der Umgebung ist. Daher wurde das Modell mit Merkmalen trainiert, die sowohl den aktuellen Zustand des Ego-Fahrzeugs als auch den Zustand der Sechs-Fahrzeug-Nachbarschaft beschreiben. Die Sechs-Fahrzeug-Nachbarschaft (auch „Sechs-Auto-Nachbarschaft“ genannt) wurde bereits in der detaillierten Beschreibung der vorliegenden Erfindung beschrieben.
Für das Training des erfindungsgemäßen Computermodells zur Entscheidungsfindung auf hoher Ebene wurde der naturalistische Fahrdatensatz DFS wie oben definiert verwendet. Dieser Datensatz enthält für eine Reihe von Fahrsituationen eine Grundwahrheitstrajektorie x.
Dies bringt eine Reihe von Herausforderungen mit sich:

Naturgetreue Trajektorien können verschiedene (niedrige) Merkmale aufweisen, die ein Modell zu stark anpassen könnte. In diesem Fall sollte darauf geachtet werden, dass diese (niedrigen) Merkmale während des Modelltrainings möglichst nicht aufgedeckt werden.

Um die Vorhersage einer präzisen Langzeitkandidatentrajektorie x_c zu verbessern, sollten die Trainingsdaten vorzugsweise Langzeitbahnen x_i mit unterschiedlichen Präferenzen y_i enthalten, d.h. sowohl solche, die der Grundwahrheitstrajektorie x ähnlich sind, als auch andere.
Mit diesen Anforderungen im Hinterkopf werden alternative Langzeittrajektorien x_i für das Training nach folgendem Verfahren erstellt:

1. Für ein bestimmtes Fahrzeug, das in den naturalistischen Fahrdaten als Ego betrachtet wird, wird der entsprechende Wahrnehmungswert p_i berechnet (wie in der detaillierten Beschreibung der Erfindung beschrieben). Die Merkmale, die beim Training als Wahrnehmungswerte berücksichtigt werden, sind in Tabelle 1 aufgeführt:

Merkmal	Einheit
Ego-Fahrzeug
Longitudinale Geschwindigkeit	m/s
Longitudinale Beschleunigung	m/s²
laterale Beschleunigung a _lat	m/s²
Lager	rad

Für jedes Fahrzeug in einer Nachbarschaft mit sechs Fahrzeugen
Rolle des Fahrzeugs	(implizit durch Index)
Longitudinale Geschwindigkeit s	m/s
Longitudinale Beschleunigung a	m/s²
Laterale Beschleunigung a _lat	m/s²
L² Abstand d	M
inverse TTC	s^-1
Relatives Lager	rad

Die zukünftige Grundwahrheitstrajektorie x des Fahrzeugs wird dementsprechend als eine Ansammlung von Daten des Ego-Fahrzeugs über die Zeit extrahiert.

2. Die Grundwahrheitstrajektorie x wird dann in Frenet Frame Koordinaten transformiert (für Details siehe Moritz Werling, Julius Ziegler, Sören Kammel und Sebastian Thrun. Optimale Trajektoriengenerierung für dynamische Straßenszenarien in einem Frenet Frame. Seiten 987-993, 06 2010). Dementsprechend wird die Position des Fahrzeugs in Form seiner Position s entlang der Mittellinie seiner Fahrspur und seines (seitlichen) Abstands w zu dieser Linie zu jedem Zeitpunkt ausgedrückt.
3. Die Grundwahrheitstrajektorie x wird darüber hinaus vereinfacht, indem sie auf sechs Entfernungsparameter reduziert wird θ̂̂ (θ̂₁ auf θ̂₆), die Folgendes beschreiben θ̂₁ s-Entfernung bis zum ersten Fahrspurwechsel, θ̂̂₂ s-Entfernung des ersten Spurwechsels, θ̂̂₃ s-Entfernung bis zum zweiten Spurwechsel, θ̂₄ s-Entfernung des zweiten Spurwechsels, θ̂̂₅ w-Entfernung des ersten Spurwechsels, und θ̂₆ w-Entfernung des zweiten Fahrspurwechsels.
4. Erzeugen von 50 zufälligen Langzeittrajektorien x_i durch Erzeugen einer Vielzahl von Trajektorien x_i, die gleichmäßig in Grenzen für den Abstandsparameterraum abgetastet werden 0 (z.B. ein Maximum für θ₅ und θ₆).
5. Generierung von 50 zufälligen Langzeittrajektorien x_i, die aus einer Normalverteilung um den Entfernungsparameter θ̂ mit denselben Einschränkungen.
6. Berechnen des Präferenzwertes y_i für alle Entfernungsparametersätze θ durch Erzeugen von n Trajektoriepunkten unter Verwendung von sinusbasierten Spurwechseln, wobei n eine ganze Zahl ausgewählt aus 1, 2, 3 oder mehr ist, und punktweises Vergleichen mit den jeweiligen Abstandsparametern θ̂ der Grundwahrheitstrajektorie x, vorzugsweise gemäß der folgenden Funktion $y_{i} : = 1 - tanh (\frac{1}{n} \sum_{j = 1}^{n} {[f (t_{j}, θ) - f (t_{j}, \hat{θ})]}^{2})$

Die Suche nach Langzeitkandidatentrajektorien x_i ist aufgrund von Einschränkungen im Raum der Entfernungsparameter 0 möglicherweise nicht immer erfolgreich. So kann es sein, dass in manchen Fahrsituationen weniger als die angestrebten 100 alternativen Trajektorien x_i zur Verfügung stehen.

2 zeigt eine grafische Darstellung einer Grundwahrheitstrajektorie x (dicke schwarze gestrichelte Linie), eines vereinfachten abstrakten Bewegungsplans (durchgehende dicke schwarze Linie) und mehrerer entsprechender Langzeittrajektorien x_i, die gemäß der vorliegenden Erfindung erzeugt wurden. Je heller die Farbe, desto niedriger der jeweilige Präferenzwert y_i. X-Achse: Position entlang der Referenzlinie. Y-Achse: Seitliche Position in Bezug auf die Referenzlinie. Tabelle 2:

Neuronen
1^st	2^nd	Klasse	Gleichgewicht			Charge	Epoche	Korrektklassifikationsrate (%)
2-Klasse		< 0,5	≥ 0,5
16	8					1000	100	82,2
·	·	·	·			·	150	81,3
·	·	·	·			·
·	·	·	·			·
32	8	·	·			·	10	82,5
		·	·			·
		·	·			·
·	·	·	·			500	100	82,6
·	·	·	·
·	·	·	·
32	8	70	30					82,0 *
·	·	·	·					82,0 **
·	·	·	·
·	·	·	·
32	32	·	·					85,5
		·	·
		·	·
4-Klasse		< 0,5	< 0,7	< 0,9	≥
					0,9
96	16	50	10	11	29	1000		87,7

* Rekursive Ausbildung
** Einmalige Ausbildung

Tabelle 2 gibt einen Überblick über die betrachteten Berechnungsmodelle und die Klassenverteilung während des Trainings. In Tabelle 2 sind die verschiedenen trainierten Modellarchitekturen zusammen mit der Losgröße und der Anzahl der Trainingsepochen aufgeführt. Das Training wurde mit dem Adam-Optimierer mit einer Lernrate von α = 10^-3 und exponentiellen Abklingraten für die Schätzungen des ersten und zweiten Moments durchgeführt β₁ = 0,9 und β₂ = 0,999. Als Verlustfunktion verwendeten die Erfinder die (spärliche) kategoriale Kreuzentropie. Die Initialisierung wurde mit der Xavier-Methode durchgeführt.
Wie aus Tabelle 2 hervorgeht, weisen die verschiedenen verglichenen Modelle alle ähnlich gute Korrektklassifikationsraten im Test im Bereich von 81,3 bis 87,7 % auf. Die leistungsstärksten Netze haben eine hohe Neuronenzahl in der zweiten Schicht, während die erste Schicht einen geringeren Einfluss zu haben scheint.
Die 3a) und 3b) veranschaulichen dies weiter, indem sie die Genauigkeit-Trefferquoten-Diagramme (Precision-Recall-Diagramme, [precision recall curve]) und Konfusionsmatrizen zweier ausgewählter Modelle mit unterschiedlicher Anzahl von Neuronen (a) 2-Klassen-Modell mit 32/8 Neuronen; b) 2-Klassen-Modell mit 32/32 Neuronen) in der zweiten Schicht auf dem 4^ten Stunden-Datensatz vergleichen.
In Bezug auf 3a) beträgt die Fläche unter der Kurve (AUC) 0,749 mit folgendem Verhältnis zwischen der vorhergesagten Bezeichnung und der tatsächlichen Bezeichnung der generierten (vorgeschlagenen) alternativen Langzeittrajektorien:

Etikett [Label] Vorhersage [Prediction]

Schlecht Gut

Schlecht 55.8 % 18.6 %

Gut 3.1 % 22.5 %
Mit anderen Worten: Von allen generierten alternativen Langzeitverläufen (100 %) wurden 55,8 % der alternativen Verläufe korrekt als „schlecht“ bezeichnet und nur 3,1 % wurden als „schlecht“ bezeichnet, obwohl die korrekte Bezeichnung „gut“ war. Außerdem wurden 22,5 % der alternativen Trajektorien korrekt als „gut“ bezeichnet und 18,6 % wurden als „gut“ bezeichnet, obwohl die korrekte Bezeichnung „schlecht“ war.
In Bezug auf 3b) beträgt die Fläche unter der Kurve (AUC) 0,761 mit dem folgenden Verhältnis zwischen der vorhergesagten Bezeichnung und der tatsächlichen Bezeichnung der generierten (vorgeschlagenen) alternativen Langzeittrajektorien.

Etikett [Label] Vorhersage [Prediction]

Schlecht Gut

Schlecht 64.8 % 9.6 %

Gut 5.9 % 19.8 %
Mit anderen Worten: Von allen generierten alternativen Langzeitverläufen (100 %) wurden 64,8 % der alternativen Verläufe korrekt als „schlecht“ bezeichnet und nur 5,9 % wurden als „schlecht“ bezeichnet, obwohl die korrekte Bezeichnung „gut“ war. Außerdem wurden 19,8 % der alternativen Trajektorien korrekt als „gut“ bezeichnet und 9,6 % wurden als „gut“ bezeichnet, obwohl die korrekte Bezeichnung „schlecht“ war.
Dies wird auch durch 4 veranschaulicht, die die Untersuchung verschiedener Neuronenzahlen für die erste und zweite Schicht für 2-Klassen- und 4-Klassen-Modelle und die daraus resultierenden Genauigkeiten zeigt.
5 zeigt die Ausgabe des erfindungsgemäßen Modells für einige generierte Trajektorien, die nicht für Training, Test oder Validierung verwendet wurden. Der x-Wert ist die Position entlang der Mittellinie der Fahrspur und der y-Wert bezeichnet die seitliche Position. Fahrzeuge, insbesondere Autos, sind als graue Kästchen dargestellt (ungefähre Abmessungen, da im DFS-Datensatz nicht verfügbar). Fette schwarze Linie: Kandidatentrajektorie mit der höchsten Modellpräferenz y_i. Dargestellt sind auch andere Trajektorien mit Bodenwahrheits-Präferenz y = 1. Abgelehnte Trajektorien sind nicht dargestellt.
Gemäß der vorliegenden Erfindung wird ein generativer Trajektorienplaner (Modul C) (Modul 12, 12') verwendet, um dem Entscheidungsfinder für hohe Ebenen ([High-Level-Decision-Maker], HLDM; Modul D) mögliche alternative Langzeittrajektorien x_i vorzuschlagen. Wie bereits erwähnt, erfordert dies eine Erweiterung der Trajektorienplanung und -ausführung, insbesondere in folgender Weise:

Der generative Trajektorienplaner (TP, Modul C) des Moduls 12' muss in der Lage sein, dem HLDM (Modul D) mehrere alternative Langzeittrajektorien x_i vorzuschlagen, die alle machbar und damit ausführbar sind.

Die TP-Ausführung von Modul 14' sollte die Entscheidung von Modul 13' (HLDM) nicht wesentlich beeinträchtigen. Nehmen wir den Fall eines Cut-in-Manövers: Wenn die TP-Ausführung von Modul 14' den Einfahrvorgang aufgrund der Lückenannahme verzögern würde, würde dies die Entscheidung, auf ein anderes Fahrzeug aufzufahren, effektiv ändern, so dass die Lücke bereits durch die TP von Modul 14' berücksichtigt werden muss.
Die alternativen Langzeittrajektorien x_i sollten den Aktionsraum des Fahrzeugs gut abdecken und lang genug sein, um eine hochrangige Entscheidung wie das Überholen zu repräsentieren. Die generierten alternativen Langzeittrajektorien x_i sollten bei einem festen Satz von Parametern ausdrückbar sein.
Um den Rechenaufwand bei der Trajektorie in Grenzen zu halten, geben die Erfinder folgende Hinweise:

Die Generierung von Langzeittrajektorien x_i in Modul 12 oder 12' kann vorzugsweise das gleiche Parametergitter für jeden Generierungslauf verwenden. Dies ermöglicht die Vorausberechnung aller Teile der TP, die nicht vom Ego oder der Umgebung abhängen. Diese Idee lässt sich auf die Vorausberechnung eines Gitters von Ego-Zuständen der Implementierungen ausweiten, wenn einige defensive Annahmen getroffen werden.

Wenn die Generierung Langzeittrajektorien problematisch ist, kann vorzugsweise ein Ansatz wie PCB verwendet werden, um den Lösungsraum durch die Berechnung von Teiltrajektorien effizienter zu erkunden. Dies lässt sich sehr gut mit dem vorherigen Ansatz kombinieren. 6 veranschaulicht diese Idee anhand einer vereinfachten grafischen Darstellung eines auf Vorhersage- und Kostenfunktionen basierenden (PCB) Algorithmus für die Trajektoriengenerierung. Ein gröberes Zustandsgitter (Kreise, gestrichelte Linien) wird unter Verwendung von Vorwärtssimulationen anderer Verkehrsteilnehmer erschöpfend durchsucht. Durchgestrichene Kreise symbolisieren unerreichbare Zustände (z. B. Kollisionen, nicht befahrbarer Bereich). Der Übergang zwischen zwei Gitterpunkten wird mit Hilfe eines (entsprechend eingeschränkten) Trajektorienplaners mit unterschiedlichen Parametrisierungen geplant (durchgehende graue Linien, nur eine Gitterfolge dargestellt). Sind die Abstände zwischen den Zustandsgittern homogen, können die Übergänge vorberechnet werden.
Wenn ein Kunde einen Agenten in einer Simulationsumgebung dazu zwingen möchte, zu einem bestimmten Zeitpunkt die Spur zu wechseln oder eine bestimmte Geschwindigkeit anzustreben, kann eine solche Steuerung im Rahmen der vorliegenden Erfindung leicht erreicht werden, indem das HLDM des Moduls 13' umgangen und Befehle wie „Spurwechsel links“ direkt in die unteren Teile des Fahrstapels injiziert werden. Dieser Ansatz kann jedoch gewisse Mängel aufweisen:

Die (potenziell kundenorientierte) Schnittstelle kann direkt mit den Interna des Fahrstapels gekoppelt sein: Der Kunde müsste die Entscheidungsraten und die Bedeutung der 5 möglichen Entscheidungen kennen, die sich je nach Fahrzeugzustand ändern (z. B. werden Fahrspurwechsel als Abbruch des Fahrspurwechsels interpretiert, wenn gerade ein Fahrspurwechsel durchgeführt wird).

Die Schnittstelle kann mit der Abstraktionsebene des HLDM von Modul 13' gekoppelt sein. In diesem speziellen Fall bedeutet dies z. B., dass der Kunde dafür verantwortlich ist, dass ein angeforderter Fahrspurwechsel nicht zu einer Kollision führt. Abstraktere Befehle wie das Überholen können nicht erteilt werden.
Jede Änderung in der Kommunikation zwischen den Komponenten des Antriebsstapels würde eine Änderung der Schnittstelle bedeuten.
Ein naiver Ansatz für die vorgeschlagene Lösung wäre, den Kunden direkt eine Trajektorie erstellen zu lassen, die von TP Ausführungsmodul ([TP Execution of module]) 14' ausgeführt wird. Dies würde jedoch nicht nur die oben erörterten Probleme beibehalten, sondern auch die Arbeit des Kunden erheblich erschweren, da er eine vollständige Trajektorie benötigt.
In diesem Fall schlagen die Erfinder vor, das HLDM des Moduls 13' durch eine einfache Kundenentscheidungskomponente ([Customer Decision Maker], Kunden DM) zu ersetzen, wie sie im Stand der Technik verfügbar ist und die den Nutzen der erzeugten Trajektorien auf der Grundlage der aktuellen Kundenanforderungen berechnet. Diese Lösung bietet mehrere Vorteile:

Die Kundenschnittstelle ist von den internen Prozessen entkoppelt. Der Kunde muss keine Kenntnis von der Berechnung des Nutzens oder der Wahl der Trajektorie haben, sondern kann jede geeignete Schnittstelle nutzen, die vom Kunden DM auf jeder gewünschten Abstraktionsebene bereitgestellt wird.

Die Implementierung des Kunden DM ist im Stand der Technik bekannt. Der Kunden-DM muss für eine gegebene Kundenanfrage und eine gegebene Trajektorie nur angeben, inwieweit diese Trajektorie damit übereinstimmt. Dies kann auf Fragen wie „Ist diese Trajektorie ein Spurwechsel nach rechts?“, „Beschleunigt diese Trajektorie auf mindestens 100 km/h?“, „Ist diese Trajektorie ein Überholmanöver?“ reduziert werden. „In komplexeren Fällen (z. B. Überholmanöver) kann die PCB-Ausgabe intern kommuniziert werden, was eine abstraktere Sicht auf die empfangene Trajektorie ermöglicht.
Da alle alternativen Langzeittrajektorien x_i, die dem DM vorgeschlagen werden, machbar sind, kann die Kundenanfrage nicht zu Kollisionen führen.
Die Erfinder der vorliegenden Erfindung haben ein Verfahren zur Verwendung von maschinellem Lernen offenbart, um aus einem Pool von generierten realisierbaren alternativen Langzeittrajektorien x_i die naturalistischsten auszuwählen. Dies ermöglicht es, den klassischen hierarchischen Fahrstapel des Standes der Technik so zu verändern, dass die Realisierbarkeit von Trajektorien berücksichtigt werden kann, bevor eine naturalistische Entscheidung auf höherer Ebene getroffen wird, so dass eine einmal getroffene Entscheidung nicht durch Komponenten weiter „unten“ im Stapel geändert werden muss. Es wurde außerdem gezeigt, dass die vorliegende Erfindung erfolgreich auf naturalistischen Daten trainiert und flexibel ist in Bezug auf die konkrete Methode der Trajektoriengenerierung.

Claims

Computerimplementiertes Trainingsverfahren für einen Verkehrsagenten, der ein Straßenfahrzeug in einer Fahrsituation einschließlich einer komplexen Fahrsituation einer Simulationsumgebung steuert, dadurch gekennzeichnet, dass das Verfahren die folgenden Schritte umfasst oder aus ihnen besteht: a. Bereitstellen von Fahrdaten pro Zeitfenster t über eine Vielzahl von Zeitfenstern t_i für ein oder mehrere Straßenfahrzeuge, die jeweils von einem Menschen in einer realistischen Situation auf einer Straße gefahren werden, und Erzeugen einer entsprechenden Langzeitgrundwahrheitstrajektorie x für zumindest einen Teil der Straßenfahrzeuge als Ego-Fahrzeuge, b. Bewerten zumindest eines Teils der entsprechenden Grundwahrheitstrajektorien x zu einem oder mehreren der vorgegebenen Zeitpunkte t_i hinsichtlich der Fahrkriterien Regelkonformität und Langzeittauglichkeit in komplexen Fahrsituationen und Zuweisen eines entsprechenden Grundwahrheits-Präferenzwertes 9, c. Erzeugen einer oder mehrerer realisierbarer alternativer Langzeittrajektorien x_i an den gegebenen Zeitfenstern t_i als Funktion einer entsprechenden Grundwahrheitstrajektorie x und des entsprechend zugeordneten Grundwahrheits-Präferenzwertes ŷ, wobei ein entsprechender Präferenzwert y_i relativ zu dem Grundwahrheits-Präferenzwert ŷ den alternativen Langzeittrajektorien x_i entsprechend zugeordnet wird und d. Trainieren eines Computermodells zur Entscheidungsfindung auf hoher Ebene in einer Fahrsituation, die eine komplexe Fahrsituation einschließt, i) mit der einen oder den mehreren Grundwahrheitstrajektorien x und den entsprechend zugeordneten Grundwahrheits-Präferenzwerten ŷ und ii) mit einer oder mehreren entsprechend durchführbaren alternativen Trajektorien x_i und den entsprechend zugeordneten Präferenzwerten y_i, wobei das Computermodell trainiert wird, um als eine Aktion eine Kandidatentrajektorie x_c aus den durchführbaren alternativen Trajektorien x_i auszuwählen, die von dem Verkehrsagenten ausgeführt werden soll, wobei der entsprechend zugeordnete Präferenzwert y_c einen vorbestimmten Schwellenwert überschreitet, wobei der Index i unabhängig aus einer ganzen Zahl von 1, 2, 3 oder mehr ausgewählt ist.
Trainingsverfahren gemäß Anspruch 1, wobei die Fahrdaten in Schritt a) für jedes der Straßenfahrzeuge ein oder mehrere Zustandsmerkmale des Fahrzeugs umfassen oder daraus bestehen, vorzugsweise die longitudinale Geschwindigkeit, die longitudinale Beschleunigung und die Position des jeweiligen Straßenfahrzeugs in X-, Y-, Z-Koordinaten zu den gegebenen Zeitfenstern t_i.
Trainingsverfahren gemäß Anspruch 1 oder 2, wobei die Fahrdaten in Schritt a) weiterverarbeitet werden, um zusätzlich die Fahrzeugzustandsmerkmale laterale Beschleunigung, laterale Geschwindigkeit, Ausrichtung des Fahrzeugs und/oder inverse Zeit bis zur Kollision mit einem Fahrzeug unter Berücksichtigung seiner Verzögerungsreaktion (inverse TTC) in vorgegebenen Zeitfenstern t_i zu umfassen.
Trainingsverfahren gemäß einem der Ansprüche 1 bis 3, wobei in Schritt a) ein Wahrnehmungswert p_i pro gegebenem Zeitfenster t_i für eines oder mehrere der Ego-Fahrzeuge bestimmt wird, wobei der Wahrnehmungswert p_i eine Funktion der Fahrdaten des Ego-Fahrzeugs und der Fahrdaten der umgebenden Fahrzeuge in einer Sechs-Fahrzeug-Nachbarschaft ist.
Trainingsverfahren gemäß Anspruch 4, wobei der Wahrnehmungswert p_i jeweils ein oder mehrere Zustandsmerkmale des Ego-Fahrzeugs und der jeweiligen Umgebungsfahrzeuge umfasst oder daraus besteht, wobei vorzugsweise die Zustandsmerkmale des Ego-Fahrzeugs longitudinale Geschwindigkeit, longitudinale Beschleunigung, laterale Beschleunigung und Peilung umfassen oder daraus bestehen, und die Statusmerkmale jedes der Umgebungsfahrzeuge in der Sechs-Fahrzeug-Nachbarschaft die Fahrzeugrolle, die longitudinale Geschwindigkeit, die longitudinale Beschleunigung, die laterale Beschleunigung, den euklidischen Abstand d zwischen dem jeweiligen Ego-Fahrzeug und einem jeweiligen Umgebungsfahrzeug (L² Abstand d), die inverse TTC und die relative Peilung umfassen oder daraus bestehen.
Trainingsverfahren gemäß einem der Ansprüche 1 bis 5, wobei in Schritt b) die rechnerische Auswertung der Kriterien für die Regelkonformität so ausgestaltet ist, dass die Konformität der Grundwahrheitstrajektorie x und/oder der alternativen Langzeittrajektorien x_i zu einem gegebenen Zeitpunkt t_i mit den Anforderungen gesetzlicher Fahrvorschriften berücksichtigt wird und die Auswertung der Kriterien für die langfristige Realisierbarkeit in komplexen Fahrsituationen so ausgestaltet ist, dass die Ausführbarkeit der jeweiligen Trajektorie durch die zugrundeliegende Fahrzeugsimulation berücksichtigt wird, ohne dass physikalische Gesetze und fahrzeugtechnische Rahmenbedingungen verletzt werden.
Trainingsverfahren gemäß einem der Ansprüche 1 bis 6, wobei die Grundwahrheits-Präferenz ŷ auf ŷ = 1 gesetzt wird und der Präferenzwert y_i der alternativen Langzeittrajektorien jeweils gemäß der Funktion y_i = M(x_i) ∈ [0 ... 1] berechnet wird.
Trainingsverfahren gemäß einem der Ansprüche 1 bis 7, wobei in Schritt d) der vorbestimmte Schwellenwert für den zugeordneten Präferenzwert y_i auf 50 % oder mehr, alternativ 60 % oder mehr, alternativ 80 % oder mehr, alternativ 90 % oder mehr des jeweiligen Grundwahrheitswertes ŷ gesetzt wird.
Trainingsverfahren gemäß einem der Ansprüche 1 bis 8, wobei in Schritt c) die Erzeugung einer oder mehrerer realisierbarer alternativer Langzeitkandidatentrajektorien x_i für gegebene Zeitfenster t_i umfasst oder daraus besteht, dass i) die Grundwahrheitstrajektorie x für die jeweiligen Ego-Fahrzeuge transformiert wird, um die Position der Ego-Fahrzeuge in Form von Abstandsparametern θ̂̂ relativ zur Fahrbahn auszudrücken, ii) Erzeugen einer oder mehrerer zufälliger alternativer Langzeitkandidatentrajektorien x_i, und iii) Berechnen der Präferenz y_i für die Abstandsparameter θ̂ durch Erzeugen eines oder mehrerer Trajektorienpunkte und punktweises Vergleichen mit den jeweiligen Abstandsparametern θ̂̂ der Grundwahrheitstrajektorie x.
Trainingsverfahren gemäß Anspruch 9, wobei gemäß i) die Grundwahrheitstrajektorie x für das jeweilige Ego-Fahrzeug in einen Frenet-Rahmen transformiert wird, und / oder gemäß i) die Grundwahrheitstrajektorie x auf sechs Entfernungsparameter θ̂̂ (θ̂₁ auf θ̂₆) vereinfacht wird, die beschreiben θ̂₁ s-Entfernung bis zum ersten Fahrspurwechsel, θ̂₂ s-Entfernung des ersten Spurwechsels, θ̂₃ s-Entfernung bis zum zweiten Spurwechsel, θ̂₄ s-Entfernung des zweiten Spurwechsels, θ̂̂₅ w-Abstand des ersten Spurwechsels, und θ̂̂₆ w-Abstand des zweiten Spurwechsels, und/oder gemäß ii) die Erzeugung alternativer Langzeittrajektorien x_i das Erzeugen einer Vielzahl zufälliger Langzeittrajektorien x_i umfasst, die gleichmäßig in Grenzen für den Abstandsparameterraum θ abgetastet werden und das Erzeugen einer Vielzahl zufälliger Langzeittrajektorien x_i, die aus einer Normalverteilung um den Abstandsparameterraum 0 mit denselben Beschränkungen ausgewählt werden.
Trainingsverfahren gemäß Anspruch 10, wobei gemäß iii) 5 oder mehr, alternativ 10 oder mehr, alternativ 20 oder mehr, alternativ 30 oder mehr, alternativ 40 oder mehr, alternativ 50 oder mehr zufällige Langzeittrajektorien x_i erzeugt werden, die gleichmäßig in Grenzen für den Abstandsparameterraum θ abgetastet werden und 5 oder mehr, alternativ 10 oder mehr, alternativ 20 oder mehr, alternativ 30 oder mehr, alternativ 40 oder mehr, alternativ 50 oder mehr zufällige Langzeittrajektorien x_i erzeugt werden, die aus einer Normalverteilung um den Abstandsparameterraum 0 mit den gleichen Einschränkungen ausgewählt werden.
Trainingsverfahren gemäß einem der Ansprüche 1 bis 11, wobei in Schritt d) das Computermodell für die Entscheidungsfindung auf hoher Ebene in einer Fahrsituation einschließlich einer komplexen Fahrsituation mit einer oder mehreren Langzeittrajektorien x_i trainiert wird, die zugeordnete Präferenzwerte y_i aufweisen, die den vorbestimmten Schwellenwert überschreiten, und mit einer oder mehreren Langzeittrajektorien x_i trainiert wird, die zugeordnete Präferenzwerte y_i aufweisen, die unter den vorbestimmten Schwellenwert fallen.
Trainingsverfahren gemäß einem der Ansprüche 1 bis 12, wobei in Schritt d) das Computermodell für die Entscheidungsfindung auf hoher Ebene in einer Fahrsituation, die eine komplexe Fahrsituation einschließt, so konfiguriert ist, dass es als Langzeitkandidatentrajektorie x_c die Trajektorie mit dem höchsten zugeordneten Präferenzwert y_c aus einer Gruppe von Langzeitkandidatentrajektorien x_i auswählt, die den vorbestimmten Schwellenwert überschreiten, der von dem Verkehrsagenten durchzuführen ist.
Computersystem zum Trainieren eines Verkehrsagenten, der ein Straßenfahrzeug in einer Fahrsituation navigiert, die eine komplexe Fahrsituation einer Simulationsumgebung einschließt, die einen oder mehrere Prozessoren, eine mit dem einen oder den mehreren Prozessoren gekoppelte Speichervorrichtung und ein Verkehrsagenten-Lernsystem umfasst oder daraus besteht, das ein neuronales Netzwerkmodell zur Entscheidungsfindung in einer Fahrsituation verwendet, die eine komplexe Fahrsituation einschließt, die in der Speichervorrichtung gespeichert und so konfiguriert ist, dass sie von dem einen oder den mehreren Prozessoren ausgeführt wird, dadurch gekennzeichnet, dass das Verkehrsagenten-Lernsystem so konfiguriert ist, dass es das computerimplementierte Trainingsverfahren gemäß einem der Ansprüche 1 bis 13 ausführt.
Computersystem zum Simulieren einer Straßenfahrumgebung in einer Fahrsituation, die eine komplexe Fahrsituation für ein oder mehrere Fahrzeuge einschließt, umfassend oder bestehend aus einem oder mehreren Prozessoren, einer mit dem einen oder den mehreren Prozessoren gekoppelten Speichervorrichtung und einem Verkehrsagenten, der ein neuronales Netzwerkmodell zur Entscheidungsfindung in einer Fahrsituation verwendet, die eine komplexe Fahrsituation einschließt, die in der Speichervorrichtung gespeichert und so konfiguriert ist, dass sie von dem einen oder den mehreren Prozessoren ausgeführt wird dadurch gekennzeichnet, dass der Verkehrsagent gemäß dem computerimplementierten Trainingsverfahren gemäß einem der Ansprüche 1 bis 13 trainiert wird, um als eine Aktion eine Kandidatentrajektorie x_i aus den durchführbaren alternativen Trajektorien x_i auszuwählen, die von dem Verkehrsagenten auszuführen sind, wobei der entsprechend zugeordnete Präferenzwert y_c einen vorbestimmten Schwellenwert überschreitet.
Computersystem zum Trainieren eines Verkehrsagenten gemäß Anspruch 14 oder zum Simulieren einer Straßenverkehrsumgebung in einer Fahrsituation einschließlich einer komplexen Fahrsituation gemäß Anspruch 15, wobei das neuronale Netzmodell zur Entscheidungsfindung in einer komplexen Fahrsituation ein neuronales Netzmodell mit zwei Klassen, vorzugsweise mit bis zu 32 Neuronen in der ersten Schicht und bis zu 32 Neuronen in der zweiten Schicht, oder ein neuronales Netzmodell mit vier Klassen, vorzugsweise mit bis zu 96 Neuronen in der ersten Schicht und bis zu 16 Neuronen in der zweiten Schicht, umfasst.