DE102018210280A1

DE102018210280A1 - Anpassung der Trajektorie eines Ego-Fahrzeugs an bewegte Fremdobjekte

Info

Publication number: DE102018210280A1
Application number: DE102018210280.5A
Authority: DE
Inventors: Seyed Jalal Etesami
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2020-01-02
Also published as: CN112292719A; WO2020001867A1; US20210171061A1; US11858506B2; CN112292719B; EP3811351A1

Abstract

Verfahren (100, 200) zur Vorhersage der Trajektorien (2a-4a) von Fremdobjekten (2-4) im Umfeld (11) eines Ego-Fahrzeugs (1), sowie zur Bestimmung einer daran angepassten eigenen künftigen Trajektorie (1a) für das Ego-Fahrzeug (1), mit den Schritten:• die Fremdobjekte (2-4) werden identifiziert (110);• es wird ermittelt (120), auf welches Nahziel (2b-4b) die Bewegung eines jeden der Fremdobjekte (2-4) hinführt und nach welchen grundlegenden Regeln (2c-4c) diese Bewegung abläuft;• es wird ermittelt (130), auf welches Nahziel (1b) die Bewegung des Ego-Fahrzeugs (1) hinführt und nach welchen grundlegenden Regeln (1c) diese Bewegung abläuft;• für das Ego-Fahrzeug (1) sowie für die Fremdobjekte (2-4) wird jeweils eine Gütefunktion Raufgestellt (140);• für das Ego-Fahrzeug (1) sowie für die Fremdobjekte (2-4) wird jeweils ein Gütemaß Qaufgestellt (150);• es werden diejenigen optimalen Bewegungsstrategien πdes Ego-Fahrzeugs und der Fremdobjekte (2-4) ermittelt (160), die die Gütemaße Q1-4 maximieren;• aus den optimalen Bewegungsstrategien πwerden die gesuchten Trajektorien (1a-4a) ermittelt (170).Verfahren (300) zur Steuerung des Ego-Fahrzeugs 1.Zugehöriges Computerprogramm.

Description

Die vorliegende Erfindung betrifft die Trajektorienplanung für das zumindest teilweise automatisierte Verfahren insbesondere im Mischverkehr mit menschlich gesteuerten Fremdobjekten.
Stand der Technik
Fahrzeuge, die sich zumindest teilweise automatisiert im Straßenverkehr bewegen, werden nicht schlagartig die von Menschen gesteuerten Fahrzeuge verdrängen und auch nicht auf separaten Trassen vom menschlich gesteuerten Verkehr isoliert sein. Vielmehr werden sich diese Fahrzeuge im Mischverkehr mit menschlich gesteuerten Fremdobjekten sicher bewegen müssen, wobei diese Fremdobjekte auch etwa Fußgänger als schwächere Verkehrsteilnehmer umfassen. Bei menschlich gesteuerten Fremdobjekten besteht immer eine Unsicherheit dahingehend, welche Bewegungsaktion diese Fremdobjekte als nächstes durchführen. Ein Steuerungssystem für das zumindest teilweise automatisierte Fahren ist also darauf angewiesen, sich das künftige Verhalten von Fremdobjekten zumindest teilweise aus der Beobachtung des bisherigen Verhaltens zu erschließen.
Die WO 2017/197 170 A1 offenbart eine Steuereinheit für eine bewegte autonome Einheit, die ein Roboter oder auch ein Fahrzeug sein kann. Die Steuereinheit bestimmt zunächst eine Grundtrajektorie, mit der das primäre Ziel der autonomen Einheit, wie etwa ein Fahrtziel, verfolgt wird. Anschließend wird die Grundtrajektorie durch ein Sicherheitsmodul dahingehend abgewandelt, dass eine Kollision mit Menschen oder anderen menschlich gesteuerten Einheiten vermieden wird. Hierzu werden die jeweiligen menschlich gesteuerten Bewegungen vorhergesagt.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zur Vorhersage der Trajektorien von Fremdobjekten im Umfeld eines Ego-Fahrzeugs, sowie zur Bestimmung einer daran angepassten eigenen künftigen Trajektorie für das Ego-Fahrzeug, entwickelt.
Das Ego-Fahrzeug ist dasjenige Fahrzeug, auf dessen Trajektorie eingewirkt werden soll, um eine Kollision mit den Fremdobjekten zu vermeiden. Die Fremdobjekte können insbesondere Menschen oder von Menschen gesteuerte Fahrzeuge sein, wie etwa herkömmliche Kraftfahrzeuge oder Fahrräder. Es kommen aber auch nicht oder nur eingeschränkt steuerbare Fremdobjekte in Betracht, wie etwa ein Fahrzeug, das nach dem Abstellen am Hang wegrollt, oder ein Anhänger, der sich von seinem Zugfahrzeug losgerissen hat.
Die Fremdobjekte werden zunächst identifiziert. Hierzu kann eine Zeitreihe physikalischer Beobachtungen des Umfelds herangezogen werden, wie beispielsweise eine Abfolge von Kamerabildern oder eine Abfolge von Ereignissen, die ein ereignisbasierter Sensor ausgibt. Es können alternativ oder auch in Kombination Informationen herangezogen werden, die über eine Drahtlosschnittstelle des Fahrzeugs empfangen wurden. Diese Informationen können von den Fremdobjekten selbst übermittelt werden, beispielsweise über eine Vehicle-to-Vehicle (V2V)-Schnittstelle. Die Informationen können aber auch von einer Infrastruktur übermittelt werden, beispielsweise über eine Vehicle-to-Infrastructure (V2I)-Schnittstelle.
Identifizieren bedeutet in diesem Zusammenhang, zumindest zu erfassen, welche Fremdobjekte im Umfeld des Ego-Fahrzeugs unabhängig voneinander bewegbar sind. In diesem Zusammenhang auch zu erfassen, worum es sich bei den Fremdobjekten im Einzelnen handelt, ist vorteilhaft, aber nicht zwingend erforderlich.
Es wird ermittelt, auf welches Nahziel die Bewegung eines jeden der Fremdobjekte hinführt und nach welchen grundlegenden Regeln diese Bewegung abläuft. Wie diese Ermittlung im Einzelnen durchgeführt wird, richtet sich danach, welche Informationen verfügbar sind. So kann beispielsweise allein aus dem Zeitverlauf der Trajektorie extrapoliert werden, dass bestimmte Nahziele wahrscheinlicher sind als andere. Je mehr zusätzliche Information verwendet wird, desto genauer wird die Vorhersage des Nahziels. Wird beispielsweise erkannt, dass ein Fahrzeug als Fremdobjekt einen Blinker gesetzt hat, dann ist mit hoher Wahrscheinlichkeit ein Abbiegevorgang geplant. Ein Fahrzeug als Fremdobjekt kann aber auch beispielsweise sein aktuelles Nah- oder gar Fernziel direkt per V2V-Kommunikation kundtun.
Die grundlegenden Regeln, nach denen die Bewegung der Fremdobjekte abläuft, können insbesondere die Regeln der Straßenverkehrsordnung umfassen und auch vom Typ der Fremdobjekte abhängen. So müssen beispielsweise Fahrzeuge die Fahrbahn benutzen und von zwei Fahrbahnen die rechte. Fußgänger sind hingegen beispielsweise gehalten, auf Gehwegen zu gehen und, wenn Überwege wie Ampeln oder Zebrastreifen für das Überqueren der Fahrbahn vorhanden sind, diese auch zu benutzen.
Es wird weiterhin ermittelt, auf welches Nahziel die Bewegung des Ego-Fahrzeugs hinführt und nach welchen grundlegenden Regeln diese Bewegung abläuft. Die grundlegenden Regeln können hier insbesondere wieder die Regeln der Straßenverkehrsordnung umfassen und müssen nicht in allen Situationen gleich sein. So ist beispielsweise die zulässige Höchstgeschwindigkeit gesondert begrenzt, wenn das Fahrzeug einen Anhänger zieht oder mit Schneeketten fährt. Die Ermittlung der grundlegenden Regeln kann also beispielsweise auch eine Analyse der Konfiguration des Ego-Fahrzeugs umfassen.
Sowohl für das Ego-Fahrzeug als auch für die Fremdobjekte wird jeweils eine Gütefunktion R_1-4 aufgestellt, die einer aus den aktuellen Zuständen des Ego-Fahrzeugs und der Fremdobjekte gebildeten Gesamtsituation x und einer möglichen nächsten Bewegungsaktion a_1-4 ein Maß dafür zuordnet, wie gut die Aktion a_1-4 in der aktuellen Gesamtsituation x für den jeweils betrachteten Verkehrsteilnehmer ist. Die Gütefunktion R_1-4 kann insbesondere beispielsweise ein Maß dafür beinhalten, inwieweit die Bewegungsaktion a_1-4 in der Situation x auf die Erreichung des jeweiligen Nahziels und auf die Einhaltung der Regeln hinarbeitet. Dabei sind die von 1 bis 4 reichenden numerischen Indizes nicht einschränkend in Bezug auf die Anzahl der behandelbaren Fremdobjekte zu verstehen, sondern lediglich illustrativ, um das Verfahren anhand eines Beispiels erläutern zu können. Allgemein kann auch von Gütefunktionen R_i und nächsten Bewegungsaktionen a_i gesprochen werden.
Der Begriff „Zustände“ umfasst allgemein diejenigen Größen, mit denen der Beitrag des Ego-Fahrzeugs, bzw. der Fremdobjekte, zur Verkehrssituation charakterisiert werden kann. Die Zustände können insbesondere Positionen oder auch Zeitableitungen hiervon, also etwa Geschwindigkeiten und Beschleunigungen, umfassen.
Sowohl für das Ego-Fahrzeug als auch für die Fremdobjekte wird jeweils ein Gütemaß Q_1-4 aufgestellt, das der Gesamtsituation x und der möglichen nächsten Bewegungsaktion a_1-4 zusätzlich zum Wert R_1-4 (x,a_1-4) auch den Erwartungswert E(P(x')) einer Verteilung der Wahrscheinlichkeiten P(x') von Zustandsänderungen x' zuordnet, mit denen die übrigen Verkehrsteilnehmer auf die nächste Bewegungsaktion a_1-4 reagieren. Beispielsweise kann das Gütemaß Q_1-4 eine gewichtete Summe aus dem Wert R_1-4 (x,a_1-4) der Gütefunktion und dem Erwartungswert E(P(x')) sein.
Es werden diejenigen optimalen Bewegungsstrategien π_1-4 des Ego-Fahrzeugs und der Fremdobjekte ermittelt, die die Gütemaße Q_1-4 maximieren. Aus den optimalen Bewegungsstrategien π _1-4 werden die gesuchten Trajektorien des Ego-Fahrzeugs und der Fremdobjekte ermittelt.
Dabei umfasst der Begriff der Bewegungsstrategie allgemein jede Funktion π_1-4 , die einer Gesamtsituation x und einer nächsten Bewegungsaktion a_1-4 einen Zahlenwert π_1-4 (x,a_1-4) zuordnet. Der Begriff ist also gegenüber dem üblichen Sprachgebrauch, in dem er mit deterministischen Regeln assoziiert wird, verallgemeinert. Eine deterministische Regel kann beispielsweise angeben, dass bei Vorliegen einer bestimmten Gesamtsituation x genau eine nächste Bewegungsaktion a_1-4 vom Ego-Fahrzeug durchgeführt werden soll bzw. von den Fremdobjekten vollführt wird.
Es wurde erkannt, dass insbesondere das Verhalten der Fremdobjekte nicht immer deterministischen Regeln folgt. Wird das Fremdobjekt beispielsweise von einem Menschen gesteuert, so ist die Steuerung zwar intelligent, aber führt nicht zwangsläufig auf genau diejenige Bewegungsaktion, die zur Verfolgung des jeweiligen Nahziels optimal ist. Dies gilt selbst dann, wenn ein menschlicher Fahrer sich grundsätzlich für das richtige Fahrmanöver entscheidet. So kann beispielsweise das Linksabbiegen von einer Straße, auf der hierfür kein Fahrweg explizit markiert ist, um die ideale Fahrlinie herum streuen. Auch wird das Fahrzeug bei einer Vielzahl von Bremsungen vor einer roten Ampel zwar jedes Mal in etwa an der Haltelinie zum Stehen kommen, aber der Zeitverlauf der Geschwindigkeit kann unterschiedlich sein. Der Fahrer kann beispielsweise anfangs mal stärker und mal schwächer auf das Bremspedal treten und den Bremsdruck später unbewusst nachregeln, um am Ende am richtigen Ort zum Stehen zu kommen. Eine tiefere Ursache hierfür liegt darin, dass die Fahraufgabe insgesamt zu komplex ist, um vollständig bewusst durchgeführt zu werden. Um das Multitasking überhaupt mit der geforderten Geschwindigkeit bewältigen zu können, muss ein lernender Fahrer bestimmte Vorgänge zunächst ins Unterbewusstsein „automatisieren“.
Selbst das korrekte Verhalten eines Fußgängers ist nicht vollständig deterministisch. Wenn der Fußgänger beispielsweise die Fahrbahn überquert, wird er dies nicht immer genau im rechten Winkel zur Fahrtrichtung tun, sondern mit einer zufälligen Abweichung hiervon.
Erst recht folgt das Verhalten der Fremdobjekte nicht mehr deterministischen Regeln, wenn sich ein steuernder Mensch falsch entscheidet. So ist etwa das Setzen des rechten Blinkers keine Garantie dafür, dass der Fahrer tatsächlich aus einer Vorfahrtstraße nach rechts in die nächste Straße einbiegen und gegenüber einem anderen Fahrzeug, das aus dieser Straße kommt, auf seine Vorfahrt verzichten wird. Vielmehr kann auch der Fall eintreten, dass der Fahrer geradeaus weiterfährt, nachdem er feststellt, dass er sich geirrt hat und erst eine Straße später rechts abbiegen muss. Auch kann ein menschlicher Fahrer etwa nicht auf ein Objekt reagieren, dass sich im toten Winkel seiner Spiegel versteckt. Auch setzen sich immer wieder Fußgänger bewusst über die Pflicht zur Benutzung gesicherter Überwege, bzw. über die Wartepflicht bei roter Ampel, hinweg.
Weiterhin ist selbst das Verhalten des Ego-Fahrzeugs in gewisser Weise probabilistisch. Wird etwa zum Anhalten ein bestimmter Bremsdruck auf die Bremszylinder der Bremsanlage gegeben, so kann die dadurch bewirkte Verzögerung des Ego-Fahrzeugs beispielsweise abhängig vom Zustand der Fahrbahn sowie von Temperatur und Wassergehalt der Bremsflüssigkeit variieren.
Indem nun die Zustandsänderungen der übrigen Verkehrsteilnehmer zu einer Wahrscheinlichkeitsverteilung P(x') verallgemeinert sind und indem die Bewegungsstrategien π_1-4 aller Verkehrsteilnehmer ebenfalls probabilistisch sein können, kann die Reaktion des Ego-Fahrzeugs auf die Gesamtsituation x somit so verfeinert werden, dass sie mit einer höheren Wahrscheinlichkeit tatsächlich verkehrsgerecht ist und insbesondere Kollisionen vermeidet. In gewisser Weise wird also das vorausschauende Fahren, das ein jeder menschlicher Fahrer in der Fahrschule lernen muss, technisch nachgebildet, damit ein System für das zumindest teilweise automatisierte Fahren die Fahraufgabe mindestens so gut bewältigen kann wie ein menschlicher Fahrer.
In einer besonders vorteilhaften Ausgestaltung werden Gütemaße Q_1-4 gewählt, deren Optima bezüglich der Bewegungsstrategien π_1-4 durch das Bellman-Optimum gegeben sind. Dies ist in gewisser Weise eine Kombination aus rekursiver Definition und wechselseitiger Kopplung der Gütemaße Q_1-4 .
Beispielsweise können bei unendlichem Zeithorizont die Gütemaße Q_i im fertig optimierten Endzustand Q* die Form $Q_{i}^{*} (x, a_{i}) = R_{i} (x, a_{i}) + γ \cdot E_{π * (- i)} (V_{i}^{*} (x') | x, a_{i})$
haben, worin die π*(-i) die optimalen Bewegungsstrategien der anderen Verkehrsteilnehmer sind, deren Index ein anderer ist als i und $V_{i}^{*} (x') = \underset{a'}{softmax} Q_{i}^{*} (x', a') .$
Der Erwartungswert E läuft über die probabilistischen Zustandsübergänge und die Strategien der anderen Verkehrsteilnehmer, deren Index ein anderer ist als i. Er ist gegeben durch $E = \sum_{a_{- i}, x} P (x' | x, a) \cdot π * (a_{- i} | x) \cdot V_{i}^{*} (x)$
In einer weiteren besonders vorteilhaften Ausgestaltung werden die optimalen Bewegungsstrategien π_1-4 unter der Voraussetzung ermittelt, dass sie bei gleicher Vorgeschichte H^t unabhängig voneinander sind: $π * (a_{- i} (t) | H^{t}) = \prod_{j \in - i} π_{j}^{*} (a_{j} (t) | H^{t})$
Wenn nun weiterhin eine Boltzmann-Gibbs-Verteilung als Verteilung der Wahrscheinlichkeiten P(x') von Zustandsänderungen x' gewählt wird, dann wählen die Verkehrsteilnehmer ihre Bewegungsstrategie jeweils nach dem Prinzip der maximalen Entropie: $π_{i}^{*} (a_{j} (t) | H^{t}) \propto exp (Q_{i}^{*} (x (t), a_{j} (t)))$
Die Gleichungen (1) bis (3) bilden einen Satz von M gekoppelten Gleichungen, wobei M die Anzahl der betrachteten Verkehrsteilnehmer ist. Die Gleichungen können zusammengefasst werden als $Q_{i}^{*} = T_{i} (Q_{- i}^{*}, Q_{i}), i \in [M]$
Hierin ist T_i die rechte Seite von Gleichung (1). Gleichung (4) hat genau eine optimale Lösung Qi*, die erhältlich ist mit dem folgenden Algorithmus:
Wenn der Zeithorizont endlich ist, ist das Problem leicht unterschiedlich. Die Gütefunktion Q des i-ten Verkehrsteilnehmers hat im fertig optimierten Zustand zum Zeitschritt τ ∈ [t,t+T] die Form $Q_{i}^{τ} (x, a_{i}) : = R_{i} (x, a_{i}) + E_{π^{τ} (- i)} (V_{i}^{τ + 1} (x') | x, a_{i})$
$V_{i}^{τ + 1} (x') = \underset{a'}{softmax} Q_{i}^{τ + 1} (x', a')$
mit der Randbedingung, dass $V_{i}^{t + T} (x) = R_{i, F} (x)$
der Wert der Gütefunktion R_i im finalen optimierten Zustand am Ende des Zeithorizonts ist. Analog zum Fall des endlichen Zeithorizonts hängt der Erwartungswert wieder von den Strategien der übrigen Verkehrsteilnehmer ab, die wiederum vorteilhaft Boltzmann-verteilt sind: $π_{- i}^{τ} (a_{j} | x) \propto \prod_{j \in - i} exp (Q_{j}^{τ} (x, a_{j})) .$
Daher kann Gleichung (5) geschrieben werden als: $Q_{i}^{τ} = U_{i} (Q_{- i}^{τ}, V_{i}^{τ + 1}), i \in [M],$
worin U_i die rechte Seite von Gleichung (5) ist. Eine optimale Lösung ist beispielsweise mit dem folgenden Algorithmus erhältlich:
Im Rahmen der Erfindung wurde ein weiteres Verfahren zur Vorhersage der Trajektorien von Fremdobjekten im Umfeld eines Ego-Fahrzeugs, sowie zur Bestimmung einer daran angepassten eigenen künftigen Trajektorie für das Ego-Fahrzeug, entwickelt. Dieses Verfahren beginnt zunächst wie das zuvor beschriebene Verfahren, d.h. die Fremdobjekte werden identifiziert, und es werden die Nahziele und die grundlegenden Regeln der Bewegung sowohl für das Ego-Fahrzeug als auch für die Fremdobjekte ermittelt.
Im Unterschied zu dem zuvor beschriebenen Verfahren wird sowohl für das Ego-Fahrzeug als auch für die Fremdobjekte jeweils eine Merkmalsfunktion F_1-4 aufgestellt dergestalt, dass die Anwendung von F_1-4 auf einen Satz θ_1-4 noch freier Parameter eine Gütefunktion R_1-4 liefert, wobei diese Gütefunktion R_1-4 einer aus den aktuellen Zuständen des Ego-Fahrzeugs und der Fremdobjekte gebildeten Gesamtsituation x und einer möglichen nächsten Bewegungsaktion a_1-4 ein Maß dafür zuordnet, wie gut die Aktion a_1-4 in der aktuellen Gesamtsituation x für den jeweils betrachteten Verkehrsteilnehmer ist. Die Gütefunktion R_1-4 kann insbesondere beispielsweise ein Maß dafür beinhalten, inwieweit die Bewegungsaktion a_1-4 in der Situation x auf die Erreichung des jeweiligen Nahziels und auf die Einhaltung der Regeln hinarbeitet.
Die Merkmalsfunktion F_1-4 kann beispielsweise Eigenschaften und Ziele des jeweiligen Verkehrsteilnehmers verkörpern, wie etwa der Zielort, auf den sich ein Fußgänger hinbewegt, oder auch dessen Gehgeschwindigkeit. Bei einem Fahrzeug kann neben dem Zielort beispielsweise die Anforderung, dass die Fahrt sicher, flüssig und komfortabel verlaufen soll, in die Merkmalsfunktion F_1-4 eingehen. Die Merkmalsfunktion F_1-4 kann also insbesondere beispielsweise aus mehreren Anteilen zusammengesetzt sein, die sich auf unterschiedliche Ziele beziehen, wobei diese Ziele auch gegenläufig sein können. Der Satz θ_1-4 von Parametern kann dann beispielsweise die Gewichte verkörpern, mit denen unterschiedliche Ziele und Anforderungen in der letztendlichen Gütefunktion R_1-4 enthalten sind. Der Satz θ_1-4 von Parametern kann insbesondere beispielsweise als Vektor von Parametern vorliegen und beispielsweise Koeffizienten enthalten, mit denen eine Linearkombination aus unterschiedlichen in der Merkmalsfunktion F_1-4 enthaltenen Zielen in die Gütefunktion R_1-4 eingeht.
Die Bewegungsstrategien π_1-4 des Ego-Fahrzeugs und der Fremdobjekte werden als diejenigen Strategien ermittelt, die zu einer maximalen kausalen Entropie H(a_1-4||x) der Bewegungsaktionen a_1-4 des Ego-Fahrzeugs und der Fremdobjekte in der Gesamtsituation x führen. Aus den Bewegungsstrategien π_1-4 werden die gesuchten Trajektorien ermittelt.
Das letztendlich erhaltene Ergebnis weist die gleichen Vorteile auf wie das gemäß dem zuvor beschriebenen Verfahren erhaltene Ergebnis. Der Vorteil speziell dieses Verfahrens ist, dass für die Bestimmung des Parametersatzes θ_1-4 noch weniger Information über die jeweiligen Verkehrsteilnehmer benötigt wird als für die direkte Bestimmung der Gütefunktion R_1-4 . Jede Zusatzinformation, gleich aus welcher Quelle, kann aber auf der anderen Seite im Parametersatz θ_1-4 berücksichtigt werden. Die freien Parameter θ_1-4 werden bei der Optimierung in Abhängigkeit der Bewegungsstrategien π_1-4 bestimmt.
Die kausale Entropie H(a_1-4||x) kann geschrieben werden als $H (a_{1 - 4} ‖ x) = - E_{a, x} [\sum_{t \leq T} log π^{t} (a (t) | H^{t})] .$
Vorteilhaft wird das Maximum der kausalen Entropie H(a_1-4∥x) in Bezug auf die Bewegungsstrategien π_1-4 unter der Randbedingung ermittelt, dass sowohl für das Ego-Fahrzeug als auch für die Fremdobjekte der Erwartungswert der jeweiligen Merkmalsfunktion F_1-4 über alle möglichen Gesamtsituationen x und alle möglichen nächsten Bewegungsaktionen a_1-4 gleich dem Mittelwert der empirisch in den bisherigen Trajektorien beobachteten Merkmalsfunktionen F_1-4 ist. Dieser Mittelwert kann insbesondere über alle bislang empirisch beobachteten Situationen x und Bewegungen a_1-4 gebildet werden: $\begin{array}{l} E_{a_{i}, x} [F_{i} (x, a_{i})] = {\tilde{E}}_{a_{i}, x} [F_{i} (x, a_{i})] \forall i, \\ π_{i}^{t} (a_{i} (t) | H^{t}) \geq 0 \forall i, a_{i} (t), H^{t}, \\ \sum_{a_{i} (t)} π_{i}^{t} (a_{i} (t) | H^{t}) = 1 \forall i, H^{t} . \end{array}$
In Verbindung mit den weiteren Randbedingungen, dass die optimalen Bewegungsstrategien π_1-4 bei gleicher Vorgeschichte H^t unabhängig voneinander sind und dass sie jeweils statistisch um eine Strategie verteilt sind, die die jeweilige Gütefunktion R_1-4 maximiert, kann unter Verwendung von $E_{a_{i}, x} = [F_{i} (x, a_{i})] = \sum_{t \leq T} E [F_{i} (x (t), a_{i} (t))]$
eine rekursive Lösung für Gleichung (7) angegeben werden: $π_{i}^{τ} = \frac{1}{Z_{i} (τ)} exp (W_{i}^{τ} (H^{τ}, a_{i} (τ)),$
$W_{i}^{τ} (H^{τ}, a_{i} (τ)) = θ_{i}^{T} F_{i} (x (τ), a_{i} (τ)) + E_{π^{τ} (- i)} [log Z_{i} (τ + 1)],$
$log Z_{i} (τ) = \underset{a'}{softmax} W_{i}^{τ} (H^{τ}, a'),$
$log Z_{i} (T) = \underset{a'}{softmax} θ_{i}^{T} F_{i} (x (T), a) .$
Hierin ist $π_{- i}^{t} = \prod_{j \in - i} π_{j}^{t} .$
Die Randbedingung ist Z_i(T+1)=1 für alle Verkehrsteilnehmer.
Die rekursive Lösung ist ähnlich zu dem fertig optimierten Gütemaß Q gemäß Gleichung (5). W_i ^τ(H^τ,a_i(τ)) spielt die Rolle des Gütemaßes Q_i, und die Gütefunktionen R_i sind als Linearkombination aus den Merkmalsfunktionen F_i zusammengesetzt.
Letztendlich kann also aus der Perspektive des Ego-Fahrzeugs ein „inverse reinforcement learning“ betrieben werden, d.h., bei Kenntnis der Gütefunktion R₁ des Ego-Fahrzeugs können allein aus der Beobachtung der übrigen Verkehrsteilnehmer deren Gütefunktionen R_2-4 erschlossen werden. Dies kann beispielsweise mit dem folgenden Algorithmus geschehen:
In einer weiteren besonders vorteilhaften Ausgestaltung werden die Fremdobjekte jeweils hinsichtlich ihres Typs klassifiziert, und die jeweilige Gütefunktion R_2-4 , bzw. die jeweilige Merkmalsfunktion F_2-4 , wird anhand dieses Typs ausgewählt. Auf diese Weise kann die Ermittlung der letztendlichen Trajektorien der Fremdobjekte, und somit auch der daran angepassten Trajektorie des Ego-Fahrzeugs, schneller konvergieren und zu einem genaueren Ergebnis gelangen. Wie zuvor erläutert, können insbesondere die grundlegenden Regeln der Bewegung vom Typ des Objekts abhängen. Die Klassifikation kann anhand der physikalischen Beobachtungen, und/oder anhand der über die Drahtlosschnittstelle empfangenen Informationen, vorgenommen werden.
Wie zuvor erläutert, ist die Ermittlung der an das Vorhandensein bewegter Fremdobjekte angepassten Trajektorie des Ego-Fahrzeugs kein Selbstzweck, sondern hat zum Ziel, die Tauglichkeit zumindest teilweise automatisiert fahrender Fahrzeuge speziell für den gemischten Verkehr mit von Menschen gesteuerten Fremdobjekten zu verbessern. Daher bezieht sich die Erfindung auch auf ein Verfahren zur Steuerung eines Ego-Fahrzeugs in einer Verkehrssituation mit bewegten Fremdobjekten im Umfeld des Ego-Fahrzeugs.
Bei diesem Verfahren wird die an das Verhalten der Fremdobjekte angepasste Trajektorie des Ego-Fahrzeugs mit einem der zuvor beschriebenen Verfahren ermittelt. Die angepasste Trajektorie wird an einen Bewegungsplaner des Ego-Fahrzeugs übermittelt. Durch den Bewegungsplaner wird ein Ansteuerprogramm für ein Antriebssystem, ein Lenksystem und/oder ein Bremssystem des Ego-Fahrzeugs ermittelt, wobei das Ansteuerprogramm dazu ausgebildet ist, das tatsächliche Verhalten des Fahrzeugs im Rahmen der Systemgrenzen bestmöglich in Übereinstimmung mit der ermittelten Trajektorie zu bringen.
Das Antriebssystem, Lenksystem und/oder Bremssystem wird entsprechend dem Ansteuerprogramm angesteuert.
Das Verfahren kann in einem beliebigen bereits vorhandenen Steuergerät des Ego-Fahrzeugs implementiert werden, da dank der internen Vernetzung mittels CAN-Bus typischerweise von jedem Ort im Fahrzeug aus Zugang zu den mit einer Sensorik erfassten oder über die Drahtlosschnittstelle bezogenen Informationen über Fremdobjekte im Fahrzeugumfeld besteht. Ebenso kann der Bewegungsplaner über den CAN-Bus von jedem Ort im Fahrzeug aus angesteuert werden. Das Verfahren kann beispielsweise in Form einer Software implementiert sein, die als Update oder Upgrade für ein solches Steuergerät verkaufbar ist und insofern ein eigenes Produkt darstellt. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem Computer, und/oder auf einem Steuergerät, ausgeführt werden, den Computer, und/oder das Steuergerät, dazu veranlassen, ein von der Erfindung bereitgestelltes Verfahren auszuführen. Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger oder ein Downloadprodukt mit dem Computerprogramm.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Figurenliste
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100;
2 Ausführungsbeispiel des Verfahrens 200;
3 Ausführungsbeispiel des Verfahrens 300;
4 Beispielhafte Verkehrsszene mit Ego-Fahrzeug 1 und drei menschengesteuerten Fremdobjekten 2-4.

1 zeigt ein Ausführungsbeispiel des Verfahrens 100. In Schritt 110 wird eine Zeitreihe 11a-11c physikalischer Beobachtungen des Umfelds 11 des in 1 nicht eingezeichneten Ego-Fahrzeugs 1 zusammen mit Informationen 12a, die über die Drahtlosschnittstelle 12 empfangen wurden, verarbeitet. Diese Informationen 12a stammen von den Fremdobjekten 2-4 im Fahrzeugumfeld 11 selbst, und/oder von einer Infrastruktur 5. In Schritt 110 werden die Fremdobjekte 2-4 identifiziert, d.h. es wird festgestellt, dass drei Fremdobjekte 2-4 vorhanden sind, die sich in unterschiedlicher Weise bewegen.
Die Fremdobjekte 2-4 werden im optionalen Schritt 115 nach Typen 2d-4d klassifiziert. In Schritt 120 werden die von den Fremdobjekten 2-4 jeweils angestrebten Nahziele 2b-4b prognostiziert, und es werden die grundlegenden Regeln 2c-4c ermittelt, nach denen die Bewegung der Fremdobjekte 2-4 abläuft. Analog hierzu wird in Schritt 130 ermittelt, auf welches Nahziel 1b die Bewegung des Ego-Fahrzeugs 1 hinführt und nach welchen grundlegenden Regeln 1c diese Bewegung abläuft.
In Schritt 140 wird für das Ego-Fahrzeug 1 sowie für die Fremdobjekte 2-4 auf der Basis der vorhandenen Informationen die jeweilige Gütefunktion R_1-4 aufgestellt, wobei gemäß dem optionalen Teilschritt 141 der jeweilige Typ 2d-4d des Fremdobjekts 2-4 herangezogen werden kann, wenn dieser im optionalen Schritt 115 bestimmt wurde.
In Schritt 150 werden die Gütefunktionen R_1-4 zu Gütemaßen Q_1-4 erweitert, die zusätzlich auch den Erwartungswert E(P(x')) einer Verteilung der Wahrscheinlichkeiten P(x') von Zustandsänderungen x' enthält und insofern auch die Gütemaße Q_1-4 untereinander koppelt. Dabei werden gemäß Teilschritt 151 Gütemaße Q_1-4 gewählt, deren Optima bezüglich der Bewegungsstrategien π_1-4 durch das Bellman-Optimum gegeben sind. Gemäß Teilschritt 152 wird eine Boltzmann-Gibbs-Verteilung als Verteilung der Wahrscheinlichkeiten P(x') von Zustandsänderungen x' gewählt.
In Schritt 160 werden diejenigen Bewegungsstrategien π_1-4 des Ego-Fahrzeugs und der Fremdobjekte 2-4 ermittelt, die die Gütemaße Q_1-4 maximieren. Hieraus werden schließlich in Schritt 170 die gesuchten Trajektorien 2a-4a der Fremdobjekte 2-4 sowie die hieran angepasste Soll-Trajektorie 1a des Ego-Fahrzeugs 1 ermittelt.
2 zeigt ein Ausführungsbeispiel des Verfahrens 200. Die Schritte 210, 215, 220 und 230 sind identisch mit den Schritten 110, 115, 120 und 130 des Verfahrens 100.
In Schritt 240 des Verfahrens 200 wird im Unterschied zu Schritt 140 des Verfahrens 100 keine vollständige Gütefunktion R_1-4 bestimmt, sondern Merkmalsfunktionen F_1-4 , die mit einem Satz θ_1-4 noch freier Parameter parametrisiert sind und erst in Verbindung mit diesen Parametern θ_1-4 die vollständige Gütefunktion R_1-4 bilden. Sofern in Schritt 215 die Typen 2d-4d der Fremdobjekte 2-4 bestimmt wurden, können diese im optionalen Teilschritt 241 zur Auswahl der jeweiligen Merkmalsfunktion F_2-4 herangezogen werden.
In Schritt 250 werden die Bewegungsstrategien π_1-4 des Ego-Fahrzeugs und der Fremdobjekte werden als diejenigen Strategien ermittelt, die die maximale kausale Entropie maximieren. Zugleich werden auch die Parameter θ_1-4 der Merkmalsfunktionen F_1-4 bestimmt. Dabei wird gemäß Teilschritt 251 eine Randbedingung vorgegeben, die eine rekursive Bestimmung der Bewegungsstrategien π_1-4 ermöglicht.
In Schritt 260 werden, analog zu Schritt 170 des Verfahrens 100, aus den Bewegungsstrategien π_1-4 die gesuchten Trajektorien 2a-4a der Fremdobjekte 2-4 sowie die hieran angepasste Soll-Trajektorie 1a des Ego-Fahrzeugs 1 ermittelt.
3 zeigt ein Ausführungsbeispiel des Verfahrens 300. In Schritt 310 wird mit dem Verfahren 100 oder 200 die an das Verhalten der Fremdobjekte 2-4 im Umfeld 11 des Ego-Fahrzeugs 1 angepasste Soll-Trajektorie 1a für das Ego-Fahrzeug 1 ermittelt. Diese angepasste Trajektorie 1a wird in Schritt 320 an den Bewegungsplaner 13 des Ego-Fahrzeugs 1 übermittelt. In Schritt 330 wird durch den Bewegungsplaner 13 ein Ansteuerprogramm 13a für ein Antriebssystem 24, ein Lenksystem 15 und/oder ein Bremssystem 16 des Ego-Fahrzeugs 1 ermittelt.
In diesem Zusammenhang ist wichtig, dass sich der Begriff der Trajektorie allgemein auf eine Bahn in kombinierten Raum- und Zeitkoordinaten bezieht. Das bedeutet, dass eine Trajektorie nicht nur durch eine Änderung der Bewegungsrichtung geändert werden kann, sondern auch durch eine Änderung der Geschwindigkeit, wie etwa ein Abbremsen, Warten und späteres erneutes Anfahren.
In Schritt 340 wird das Antriebssystem 14, das Lenksystem 15, bzw. das Bremssystem 16, entsprechend dem Ansteuerprogramm 13a angesteuert.
4 zeigt eine komplexe Verkehrsszene, in der die beschriebenen Verfahren 100, 200, 300 vorteilhaft eingesetzt werden können. Auf dem rechten Fahrstreifen einer Straße 50 fährt das Ego-Fahrzeug 1 geradeaus in Richtung des Nahziels 1b.
Das erste Fremdobjekt 2 ist ein weiteres Fahrzeug, dessen Blinker 2e anzeigt, dass sein Fahrer in die zum Nahziel 2b des Fahrzeugs 2 führende Seitenstraße 51 abzubiegen beabsichtigt. Das zweite Fremdobjekt 3 ist ein weiteres Fahrzeug, das aus Sicht des Ego-Fahrzeugs 1 auf der Gegenfahrbahn der Straße 50 geradeaus unterwegs ist in Richtung seines Nahziels 3b. Das dritte Fremdobjekt 4 ist ein Fußgänger, der ein Nahziel 4b auf der aus seiner Sicht gegenüberliegenden Seite der Straße 50 ansteuert.
In der in 4 dargestellten Situation muss der Fußgänger 4 den Überweg 52 über die Straße 50 benutzen, was zugleich den Fahrer des Fahrzeugs 3 zum Warten verpflichtet. Daher kann im Prinzip der Fahrer des Fahrzeugs 2 direkt beschleunigen und wie beabsichtigt links abbiegen, was für seine schnelle Erreichung des Nahziels 2b optimal wäre. Dementsprechend hätte das Ego-Fahrzeug 1 in seiner Fahrspur freie Fahrt zumindest bis zum Überweg 52. Ein Steuerungsverfahren unter der vereinfachenden Annahme, dass der Fahrer des Fahrzeugs 2 das für ihn Optimale tun wird, würde also das Ego-Fahrzeug 1 beschleunigen. Wenn nun aber der Fahrer des Fahrzeugs 2 die Situation dahingehend falsch einschätzt, dass er zuerst das Fahrzeug 3 im Gegenverkehr vorbeilassen muss (was ohne den Fußgänger 4 auf dem Überweg 52 ja auch richtig wäre), fährt das Ego-Fahrzeug von hinten auf das Fahrzeug 2 auf. Die Verfahren gemäß der Erfindung ermöglichen es, derartige Unsicherheiten zu berücksichtigen. So kann beispielsweise die Geschwindigkeit für die Weiterfahrt so weit beschränkt werden, dass für den Fall, dass das Fahrzeug 2 tatsächlich stehenbleibt, ein Zusammenstoß noch mit einer Vollbremsung verhindert werden kann.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2017/197170 A1 [0003]

Claims

Verfahren (100) zur Vorhersage der Trajektorien (2a-4a) von Fremdobjekten (2-4) im Umfeld (11) eines Ego-Fahrzeugs (1), sowie zur Bestimmung einer daran angepassten eigenen künftigen Trajektorie (1a) für das Ego-Fahrzeug (1), mit den Schritten: • aus einer Zeitreihe (11a-11c) physikalischer Beobachtungen des Umfelds (11), und/oder aus über eine Drahtlosschnittstelle (12) des Fahrzeugs (1) von den Fremdobjekten (2-4) selbst und/oder von einer Infrastruktur (5) empfangenen Informationen (12a), werden die Fremdobjekte (2-4) identifiziert (110); • es wird ermittelt (120), auf welches Nahziel (2b-4b) die Bewegung eines jeden der Fremdobjekte (2-4) hinführt und nach welchen grundlegenden Regeln (2c-4c) diese Bewegung abläuft; • es wird ermittelt (130), auf welches Nahziel (1b) die Bewegung des Ego-Fahrzeugs (1) hinführt und nach welchen grundlegenden Regeln (1c) diese Bewegung abläuft; • für das Ego-Fahrzeug (1) sowie für die Fremdobjekte (2-4) wird jeweils eine Gütefunktion R_1-4 aufgestellt (140), die einer aus den aktuellen Zuständen des Ego-Fahrzeugs (1) und der Fremdobjekte (2-4) gebildeten Gesamtsituation x und einer möglichen nächsten Bewegungsaktion a_1-4 ein Maß dafür zuordnet, wie gut die Aktion a_1-4 in der aktuellen Gesamtsituation x für den jeweils betrachteten Verkehrsteilnehmer (1-4) ist; • für das Ego-Fahrzeug (1) sowie für die Fremdobjekte (2-4) wird jeweils ein Gütemaß Q_1-4 aufgestellt (150), das der Gesamtsituation x und der möglichen nächsten Bewegungsaktion a_1-4 zusätzlich zum Wert R_1-4(x,a_1-4) auch den Erwartungswert E(P(x')) einer Verteilung der Wahrscheinlichkeiten P(x') von Zustandsänderungen x' zuordnet, mit denen die übrigen Verkehrsteilnehmer (2-4; 1, 3, 4; 1-3) auf die nächste Bewegungsaktion a_1-4 reagieren; • es werden diejenigen optimalen Bewegungsstrategien π_1-4 des Ego-Fahrzeugs und der Fremdobjekte (2-4) ermittelt (160), die die Gütemaße Q1-4 maximieren; • aus den optimalen Bewegungsstrategien π_1-4 werden die gesuchten Trajektorien (1a-4a) ermittelt (170).
Verfahren (100) nach Anspruch 1, wobei Gütemaße Q_1-4 gewählt werden (151), deren Optima bezüglich der Bewegungsstrategien π_1-4 durch das Bellman-Optimum gegeben sind.
Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei eine Boltzmann-Gibbs-Verteilung als Verteilung der Wahrscheinlichkeiten P(x') von Zustandsänderungen x' gewählt wird (152).
Verfahren (200) zur Vorhersage der Trajektorien (2a-4a) von Fremdobjekten (2-4) im Umfeld (11) eines Ego-Fahrzeugs (1), sowie zur Bestimmung einer daran angepassten eigenen künftigen Trajektorie (1a) für das Ego-Fahrzeug (1), mit den Schritten: • aus einer Zeitreihe (11a-11c) physikalischer Beobachtungen des Umfelds (11), und/oder aus über eine Drahtlosschnittstelle (12) des Fahrzeugs (1) von den Fremdobjekten (2-4) selbst und/oder von einer Infrastruktur (5) empfangenen Informationen (12a), werden die Fremdobjekte (2-4) identifiziert (210); • es wird ermittelt (220), auf welches Nahziel (2b-4b) die Bewegung eines jeden der Fremdobjekte (2-4) hinführt und nach welchen grundlegenden Regeln (2c-4c) diese Bewegung abläuft; • es wird ermittelt (230), auf welches Nahziel (1b) die Bewegung des Ego-Fahrzeugs (1) hinführt und nach welchen grundlegenden Regeln (1c) diese Bewegung abläuft; • für das Ego-Fahrzeug (1) sowie für die Fremdobjekte (2-4) wird jeweils eine Merkmalsfunktion F_1-4 aufgestellt (240) dergestalt, dass die Anwendung von F_1-4 auf einen Satz θ_1-4 noch freier Parameter eine Gütefunktion R_1-4 liefert, wobei diese Gütefunktion R_1-4 einer aus den aktuellen Zuständen des Ego-Fahrzeugs (1) und der Fremdobjekte (2-4) gebildeten Gesamtsituation x und einer möglichen nächsten Bewegungsaktion a_1-4 ein Maß dafür zuordnet, wie gut die Aktion a_1-4 in der aktuellen Gesamtsituation x für den jeweils betrachteten Verkehrsteilnehmer (1-4) ist; • die Bewegungsstrategien π_1-4 des Ego-Fahrzeugs (1) und der Fremdobjekte (2-4) werden als diejenigen Strategien ermittelt (250), die zu einer maximalen kausalen Entropie H(a_1-4||x) der Bewegungsaktionen a_1-4 des Ego-Fahrzeugs (1) und der Fremdobjekte (2-4) in der Gesamtsituation x führen; • aus den Bewegungsstrategien π_1-4 werden die gesuchten Trajektorien (1a-4a) ermittelt (260).
Verfahren (200) nach Anspruch 4, wobei das Maximum der kausalen Entropie H(a_1-4||x) in Bezug auf die Bewegungsstrategien π_1-4 unter der Randbedingung ermittelt wird (251), dass sowohl für das Ego-Fahrzeug (1) als auch für die Fremdobjekte (2-4) der Erwartungswert der jeweiligen Merkmalsfunktion F_1-4 über alle möglichen Gesamtsituationen x und alle möglichen nächsten Bewegungsaktionen a_1-4 gleich dem Mittelwert der empirisch in den bisherigen Trajektorien beobachteten Merkmalsfunktionen F_1-4 ist.
Verfahren (100, 200) nach einem der Ansprüche 1 bis 5, wobei die optimalen Bewegungsstrategien π_1-4 unter der Randbedingung ermittelt werden (160, 250), dass sie bei gleicher Vorgeschichte H^t unabhängig voneinander sind.
Verfahren (100, 200) nach einem der Ansprüche 1 bis 6, wobei die optimalen Bewegungsstrategien π_1-4 unter der Randbedingung ermittelt werden (160, 250), dass sie jeweils statistisch um eine Strategie verteilt sind, die die jeweilige Gütefunktion R_1-4 maximiert.
Verfahren (100, 200) nach einem der Ansprüche 1 bis 7, wobei die Fremdobjekte (2-4) jeweils hinsichtlich ihres Typs (2d-4d) klassifiziert werden (115, 215) und wobei die jeweilige Gütefunktion R_2-4, bzw. die jeweilige Merkmalsfunktion F_2-4, anhand dieses Typs (2d-4d) ausgewählt wird (141, 241).
Verfahren (300) zur Steuerung eines Ego-Fahrzeugs (1) in einer Verkehrssituation mit bewegten Fremdobjekten (2-4) im Umfeld des Ego-Fahrzeugs (1) mit den Schritten: • die an das Verhalten der Fremdobjekte (2-4) angepasste Trajektorie (1a) des Ego-Fahrzeugs (1) wird mit einem Verfahren (100, 200) nach einem der Ansprüche 1 bis 8 ermittelt (310); • die angepasste Trajektorie (1a) wird an einen Bewegungsplaner (13) des Ego-Fahrzeugs (1) übermittelt (320); • durch den Bewegungsplaner (13) wird ein Ansteuerprogramm (13a) für ein Antriebssystem (14), ein Lenksystem (15) und/oder ein Bremssystem (16) des Ego-Fahrzeugs (1) ermittelt (330), wobei das Ansteuerprogramm (13a) dazu ausgebildet ist, das tatsächliche Verhalten des Fahrzeugs (1) im Rahmen der Systemgrenzen bestmöglich in Übereinstimmung mit der Trajektorie (1a) zu bringen; • das Antriebssystem (14), Lenksystem (15) und/oder Bremssystem (16) wird entsprechend dem Ansteuerprogramm (13a) angesteuert (340).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem Computer, und/oder auf einem Steuergerät, ausgeführt werden, den Computer, und/oder das Steuergerät, dazu veranlassen, ein Verfahren (100, 200, 300) nach einem der Ansprüche 1 bis 9 auszuführen.