DE102019219534A1

DE102019219534A1 - Verfahren zum Bestimmen von Regelparametern für ein Regelsystem

Info

Publication number: DE102019219534A1
Application number: DE102019219534.2A
Authority: DE
Inventors: Benedikt Alt; Michael Herman
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2021-06-17
Also published as: CN112977461A; US11760364B2; US20210179118A1

Abstract

Computerimplementiertes Verfahren (200) zum Verwenden von maschinellen Lernen zum Bestimmen von Regelparametern (θj) für ein Regelsystem (100), insbesondere eines Kraftfahrzeugs (110), insbesondere zum Regeln eines Fahrbetriebs des Kraftfahrzeugs (110), wobei das Verfahren (200) umfasst: Bereitstellen (210) einer Menge an Fahrtrajektorien (D);Ableiten (220) von Belohnungsfunktionen (Rj) aus den Fahrtrajektorien (D) unter Verwendung einer Methode des inversen bestärkenden Lernens;Ableiten (230) von Fahrertyp-spezifischen Clustern (Cj) basierend auf den Belohnungsfunktionen (Rj);Bestimmen (240) von Regelparametern (θj) für ein jeweiliges Fahrertyp-spezifisches Cluster (cj).

Description

Stand der Technik
Die Offenbarung betrifft ein Verfahren zum Verwenden von maschinellen Lernen zum Bestimmen von Regelparametern für ein Regelsystem, insbesondere eines Kraftfahrzeugs, insbesondere zum Regeln eines Fahrbetriebs des Kraftfahrzeugs gemäß Anspruch 1.
Ferner betrifft die Offenbarung ein Verfahren zum Regeln eines Kraftfahrzeugs mit einem Regelsystem gemäß Anspruch 6.
Ferner betrifft die Offenbarung ein Regelsystem gemäß Anspruch 10.
Regelsysteme werden in einem Kraftfahrzeug beispielsweise als Fahrassistenzsysteme verwendet, um einen Fahrer des Kraftfahrzeugs in bestimmten Fahrsituationen zu unterstützen bzw. zu entlasten.
Zur Realisierung dieser Assistenzfunktionen umfasst ein Fahrerassistenzsystem Umgebungssensoren wie beispielsweise Radarsensoren, Lidarsensoren, Laserscanner, Videosensoren und Ultraschallsensoren. Sofern ein Fahrzeug mit einem Navigationssystem ausgerüstet ist, kann das Fahrerassistenzsystem auch auf Daten dieses Systems zurückgreifen. Weiterhin kann das mit dem Bordnetz des Fahrzeugs vorzugsweise über mindestens einen BUS, vorzugsweise den CAN-BUS, verbundene Fahrerassistenzsystem auch aktiv in Bordsysteme, wie insbesondere das Lenksystem, das Bremssystem, den Antriebsstrang und Warnsysteme eingreifen.
Üblicherweise wird bei den verfügbaren Regelsystemen innerhalb einer Fahrzeugflotte eine einheitliche Bedatung des Regelsystems verwendet. Allenfalls kann das Regelsystem noch an einen Sportmodus oder einen Komfortmodus angepasst werden. Eine individuelle Anpassung an das Fahrverhalten eines individuellen Fahrers ist bisher nicht bekannt.
Es ist daher wünschenswert, ein Regelsystem bereitzustellen, das eine solche individuelle Anpassung an das Fahrverhalten eines individuellen Fahrers ermöglicht.
Offenbarung der Erfindung
Dies wird durch ein Regelsystem und ein computerimplementiertes Verfahren gemäß den unabhängigen Ansprüchen erreicht.
Bevorzugte Ausführungsformen beziehen sich auf ein computerimplementiertes Verfahren zum Verwenden von maschinellen Lernen zum Bestimmen von Regelparametern für ein Regelsystem, insbesondere eines Kraftfahrzeugs, insbesondere zum Regeln eines Fahrbetriebs des Kraftfahrzeugs, wobei das Verfahren umfasst:

Bereitstellen einer Menge D an Fahrtrajektorien;
Ableiten von Belohnungsfunktionen aus den Fahrtrajektorien unter Verwendung einer Methode des inversen bestärkenden Lernens;
Ableiten von Fahrertyp-spezifischen Clustern basierend auf den Belohnungsfunktionen;
Bestimmen von Regelparametern für ein jeweiliges Fahrertyp-spezifisches Cluster.

In einer Lernphase werden basierend auf einer Menge an Fahrtrajektorien unterschiedliche Fahrertypen geclustert. Die Eigenschaft eines Clusters ist, dass Objekte im selben Cluster über ähnliche, insbesondere identische, Eigenschaften verfügen und sich von Objekten, die nicht im selben Cluster sind, dadurch unterscheiden. In einer Anwendungsphase des Regelsystems kann das Regelsystem dann durch Auswählen eines bestimmten Fahrertyp-spezifischen Clusters individuell an das Fahrverhalten eines jeweiligen Fahrers angepasst werden. Die Fahrtrajektorien basieren vorteilhafterweise auf Fahrdemonstrationen von unterschiedlichen Fahrern bzw. Fahrertypen.
Eine Belohnungsfunktion, engl. reward function, ist eine Funktion, die einem Wert einer Regelungsgröße einen Belohnungswert zuordnet. Vorteilhafterweise ist eine Belohnungsfunktion so gewählt, dass sie umso größere Werte annimmt, je kleiner eine Abweichung der Regelungsgröße von einer Sollgröße ist. Erfindungsgemäß wird für eine jeweilige Fahrtrajektorie die jeweilige Belohnungsfunktion bestimmt, die in der Fahrtrajektorie optimiert wird.
Das Ableiten der Belohnungsfunktionen erfolgt durch Verwenden einer Methode des inversen bestärkenden Lernens, beispielsweise unter Verwendung eines Algorithmus zum inversen bestärkenden Lernen. Die Methode und ein beispielhafter Algorithmus sind beispielsweise offenbart unter https://arxiv.org/pdf/1712.05514.pdf: Inverse Reinforce Learning with Nonparametric Behavior Clustering, Siddharthan Rajasekaran, Jinwei Zhang, and die Fu.
Basierend auf den Belohnungsfunktionen werden dann die Fahrertypen-Cluster abgeleitet.
Eine Belohnungsfunktion beschreibt insbesondere Zustände und Aktionen, die von einem jeweiligen Fahrer erwünscht sind. Die Belohnungsfunktion kann somit insbesondere den Zielen und Wünschen eines individuellen Fahrers entsprechen, wie zum Beispiel dem Einhalten eines bestimmten Abstands zu einem Drittfahrzeug, eine Beschleunigung, und eine Geschwindigkeit. Die Belohnungsfunktionen repräsentieren daher ein rationales Handeln des Fahrers und können Situationen besser generalisieren als das
direkte Imitieren des Fahrverhaltens. Durch Clustern der aus den Fahrtrajektorien abgeleiteten Belohnungsfunktionen, und insbesondere nicht der Fahrtrajektorien selbst, können vorteilhafterweise generalisierende Ergebnisse erzielt werden.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Fahrtrajektorien Betriebsdaten des Kraftfahrzeugs und/oder Referenzdaten des Kraftfahrzeugs zu einer Umgebung des Kraftfahrzeugs umfassen und die Belohnungsfunktion die Betriebsdaten und/oder Referenzdaten berücksichtigt.
Beispielsweise sind aus der Offenbarung Kuderer, Markus, Shilpa Gulati, and Wolfram Burgard: „Learning driving styles for autonomous vehicles from demonstration.“ 2015 IEEE, International Conference on Robotics and Automation (ICRA). IEEE, 2015 beispielhaft Merkmale bekannt, die in die Belohnungsfunktion einfließen können, wie insbesondere Beschleunigungen, Geschwindigkeiten, Distanz zu einer Fahrspurmitte. Insbesondere können vorteilhafterweise weitere Merkmale, wie ein Abstand zu einem Drittfahrzeug, insbesondere ein Vorderfahrzeug und/oder weitere Fahrzeuge, eine relative Geschwindigkeit zwischen dem Kraftfahrzeug und einem Drittfahrzeug einfließen.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass für ein Fahrertyp-spezifisches Cluster eine, insbesondere Fahrertyp-spezifische, Fahrstrategie berechnet wird.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Regelparameter eines Fahrertyp-spezifischen Clusters in Abhängigkeit der Belohnungsfunktion des jeweiligen Clusters und/oder in Abhängigkeit von Betriebsdaten des Kraftfahrzeugs und/oder Referenzdaten des Kraftfahrzeugs zu einer Umgebung des Kraftfahrzeugs optimiert werden. Die Regelparameter können vorteilhafterweise unter Verwendung der Optimierungsfunktion $θ_{j} = a r g m a x_{θ_{j}} E [\sum_{t = 0}^{T_{m a x}} r_{j} (x, a) | p (x_{t + 1} | x_{t}, a_{t}), π_{θ_{j}} (a | s)]$
optimiert werden. In der beispielhaft dargestellten Optimierungsfunktion beschreibt r_j eine Belohnungsfunktion eines Clusters j, θ_j die Regelparameter eines Reglers π_θj des Clusters j, und $p (x_{t + 1} | x_{t}, a_{t}) x_{t}^{o w n}$
die Verteilung über zukünftige Zustände, umfassend einen Zustand aus dem Vorwärtsmodell des eigenen Fahrzeugs sowie das Verhalten eines Referenzobjekts, insbesondere eines Drittfahrzeugs, wobei der Zustand x_t den Zustand des eigenen Fahrzeugs als auch den Zustand eines Referenzobjekts, insbesondere eines Drittfahrzeugs zu einem Zeitpunkt t umfasst. Die Lösung der Optimierungsfunktion identifiziert die Parameter θ_j, unter denen die Belohnungsfunktion maximal und somit optimal bezüglich den im ersten Schritt extrahierten Zielen und Wünschen des Fahrers ist.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Regelparameter für wenigstens eine Regelsituation optimiert werden. Eine Regelsituation umfasst einen Anwendungsfall, engl. Use-Case des Reglers, beispielsweise eine Abstandsregelung, engl. Adaptive Cruise Control, ACC, oder eine Einparkunterstützung oder eine Spurhalteunterstützung, engl. lane keeping support, LKS.
Weitere bevorzugte Ausführungsformen beziehen sich auf Verfahren zum Regeln eines Kraftfahrzeugs mit einem Regelsystem, wobei das Verfahren umfasst: Bereitstellen einer Menge an Fahrertyp-spezifischen Clustern, ein jeweiliges Fahrertyp-spezifisches Cluster umfassend eine Belohnungsfunktion und Regelparameter, wobei die Fahrertyp-spezifischen Cluster und/oder die Regelparameter gemäß einem Verfahren nach wenigstens einer der Ausführungsformen bestimmt wurden; Beobachten eines Fahrverhaltens eines Fahrers in einem Fahrbetrieb des Kraftfahrzeugs; Identifizieren eines Fahrertyp-spezifischen Clusters aus der Menge an Fahrertyp-spezifischen Clustern basierend auf dem beobachteten Fahrverhalten;
und Parametrisieren des Regelsystems, insbesondere ein Modell des Regelsystems, mit Regelparametern des identifizierten Fahrertyp-spezifischen Clusters.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren eines Clusters umfasst: Evaluieren des Fahrverhaltens basierend auf den Belohnungsfunktionen der Fahrertyp-spezifischen Cluster. Vorteilhafterweise werden zum Identifizieren eines Clusters
die abgeleiteten Belohnungsfunktionen verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der Belohnungsfunktionen der Fahrertyp-spezifischen Cluster evaluiert und ein bestimmtes Fahrertyp-spezifisches Cluster anhand der mittleren Belohnung ausgewählt. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion $j = a r g m a x_{j} \frac{1}{| D_{D} |} \sum_{〈 x, a 〉 \in D_{D}} r_{j} (x, a),$
wobei D_D die observierten gemeinsamen Zustände des eigenen Kraftfahrzeugs und des Vorderfahrzeugs enthält. Entsprechend wird ein Fahrertyp-spezifisches Cluster eines Fahrertyps mit möglichst ähnlichen Zielen und Wünschen gewählt.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren eines Fahrertyp-spezifischen Clusters umfasst: Evaluieren des Fahrverhaltens basierend auf einer Fahrstrategie des Fahrers. Vorteilhafterweise wird zum Identifizieren eines Clusters die unter Anwendung der Methode des inversen verstärkenden Lernens gelernte, insbesondere Fahrertyp-spezifische, Fahrstrategie verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der gewählten Fahraktionen, beispielsweise Beschleunigen, Abbremsen, Lenken, etc. mit denen der gelernten Fahrstrategie π_j des Inverse Reinforcement Schrittes verglichen und das Fahrtyp-spezifische Cluster ausgewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion $j = a r g m i n \frac{1}{| D_{D} |} \sum_{〈 x, a 〉 \in D_{D}} L (x, a, π_{j}),$
wobei L(x, α, π_j) ein Distanzmaß ist, dass observierte Zustands-Aktions-Tupel mit der Fahrstrategie π_j des Fahrertyp-spezifischen Clusters vergleicht. Entsprechend wird das Fahrtyp-spezifische Cluster gewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren eines Fahrertyp-spezifischen Clusters umfasst: Evaluieren des Fahrverhaltens basierend auf Regelparametern in Abhängigkeit einer Regelsituation. Vorteilhafterweise wird zum Identifizieren eines Clusters die unter Anwendung der Methode des inversen verstärkenden Lernens
gelernten Regelparameter verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der gewählten Fahraktionen, beispielsweise Beschleunigen, Abbremsen, Lenken, etc. mit denen der gelernten Reglerstrategie π_θj der gewählten Regelsituation verglichen und das Fahrtyp-spezifische Cluster ausgewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion $j = a r g m i n \frac{1}{| D_{D} |} \sum_{〈 x, a 〉 \in D_{D}} L (x, a, π_{θ j}),$
wobei L (x, α, π_θj) ein Distanzmaß ist, dass observierte Zustands-Aktions-Tupel mit der Fahrstrategie π_θj vergleicht. Entsprechend wird das Fahrtyp-spezifische Cluster gewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären.
Bei einer weiteren bevorzugten Ausführungsform wird ein adaptives Fahrermodell des Regelsystems mit den Regelparametern des ausgewählten Fahrertyp-spezifischen Clusters parametrisiert und das Regelsystem zum Regeln des Kraftfahrzeugs, insbesondere eines Fahrbetriebs des Kraftfahrzeugs verwendet. Nach einem Zeitschritt hat sich das Fahrzeug sowie ein Referenzobjekt, insbesondere ein Drittfahrzeug, insbesondere ein Vorderfahrzeug, bewegt, insbesondere relativ zueinander bewegt und/oder weiterbewegt und Schritte des Verfahrens zum Regeln eines Kraftfahrzeugs mit einem Regelsystem, insbesondere der Schritt zum Identifizieren eines Fahrertyp-spezifischen Clusters und/oder das Parametrisieren des Regelsystems mit Regelparametern des identifizierten Fahrertyp-spezifischen Clusters werden erneut ausgeführt. Vorteilhafterweise kann das Verfahren während eines Fahrbetriebs des Kraftfahrzeugs iterativ ausgeführt werden.
Weitere bevorzugte Ausführungsformen beziehen sich auf Regelsystem für ein Kraftfahrzeug, insbesondere zum Regeln eines Fahrbetriebs des Kraftfahrzeugs, umfassend ein Identifikationsmodul zum Identifizieren von einem Fahrertyp-spezifischen Cluster gemäß einem Verfahren nach wenigstens einer der Ausführungsformen und einen Regler, der dazu ausgebildet ist, unter Verwendung eines Modells wenigstens eine Steuergröße auszugeben, wobei das Modell in Abhängigkeit eines gemäß einem Verfahren nach wenigstens einer der Ausführungsformen identifizierten Fahrertyp-spezifischen Clusters parametrisierbar ist.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Modell ein Verhalten des Kraftfahrzeugs und ein Verhalten der Umgebung des Kraftfahrzeugs abbildet.
Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die in den Figuren der Zeichnung dargestellt sind. Dabei bilden alle beschriebenen oder dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der Erfindung, unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbeziehung sowie unabhängig von ihrer Formulierung bzw. Darstellung in der Beschreibung bzw. in der Zeichnung.
In der Zeichnung zeigt:

1 eine schematische Darstellung einer Regelfunktion eines Regelsystems eines Kraftfahrzeugs;
2 eine schematische Darstellung von Schritten eines Verfahrens zum Verwenden von maschinellen Lernen zum Bestimmen von Regelparametern für ein Regelsystem, insbesondere eines Kraftfahrzeugs;
3 eine schematische Darstellung von Schritten eines Verfahrens zum Verwenden eines Regelsystems, und
4 eine schematische Übersicht des Verfahrens aus 3.

1 zeigt eine schematische Darstellung einer Regelfunktion eines Regelsystems 100, insbesondere ein Fahrerassistenzsystem, eines Kraftfahrzeugs 110 am Beispiel einer Abstandsregelung. Zur Realisierung von Assistenzfunktionen umfasst ein Fahrerassistenzsystem Umgebungssensoren wie beispielsweise Radarsensoren, Lidarsensoren, Laserscanner, Videosensoren und Ultraschallsensoren. Sofern ein Fahrzeug mit einem Navigationssystem ausgerüstet ist, kann das Fahrerassistenzsystem auch auf Daten dieses Systems zurückgreifen. Weiterhin kann das mit dem Bordnetz des Fahrzeugs 110 vorzugsweise über mindestens einen BUS, vorzugsweise den CAN-BUS, verbundene Fahrerassistenzsystem auch aktiv in Bordsysteme, wie insbesondere das Lenksystem, das Bremssystem, den Antriebsstrang und Warnsysteme eingreifen.
Das Regelsystem 100 ist in einer Ausgestaltung als Steuergerät für das Kraftfahrzeug 110 ausgebildet. Das Steuergerät kann einen Computer, insbesondere einen Mikroprozessor oder einen Rechner umfassen. Das Steuergerät kann einen Speicher für Instruktionen umfassen, die der Computer ausführen kann.
Das Regelsystem 100 für das Kraftfahrzeug 110 ist zum Ausgeben einer Steuergröße u ausgebildet. Anhand der Steuergröße u ist eine Regelgröße y eines Kraftfahrzeugs durch geeignete Ansteuervorgänge einstellbar, um die Regelgröße y an eine Führungsgröße w des Regelsystems anzugleichen.
Üblicherweise wird bei einer Abstandsregelung die Position des eigenen Fahrzeugs mit dem Abstand eines vorausfahrenden Fahrzeugs 120 verglichen und der Abstand durch gezielte Beschleunigungs- und/oder Bremseingriffe auf einen vorgegebenen Sollwert eingestellt. Dieser Sollwert sollte so gewählt sein, dass der gesetzlich vorgeschriebene Abstand zwischen den beiden Fahrzeugen nicht unterschritten wird. Andererseits sollte der Abstand nicht so groß werden, dass das vorausfahrende Fahrzeug nicht mehr zuverlässig erfasst werden kann. Hierzu werden in der Regel kamera- oder radarbasierte Sensorsysteme verwendet und daraus wird dann ein Istwert generiert, der als Eingangswert für den Regelalgorithmus bei der Abstandsregelung dient. Die Abstandsregelung ist beispielsweise in Betrieb, wenn ein Fahrer 130 die Funktion einschaltet. Die Funktion wird entweder vom Fahrer 130 wieder abgeschaltet oder schaltet sich selbst ab, wenn z.B. plötzlich ein Bremseingriff erfolgt.
Im Folgenden wird unter Bezugnahme auf die 2 bis 4 erläutert, wie das Regelsystem 100 an das Fahrverhalten eines individuellen Fahrers angepasst werden kann.
2 zeigt Schritte eines Verfahrens 200 zum Verwenden von maschinellen Lernen zum Bestimmen von Regelparametern für das Regelsystem 100. Das Verfahren 200 umfasst die folgenden Schritte:

einen Schritt 210 zum Bereitstellen einer Menge D an Fahrtrajektorien;
einen Schritt 220 zum Ableiten von Belohnungsfunktionen R_j aus den Fahrtrajektorien D unter Verwendung einer Methode des inversen bestärkenden Lernens;
einen Schritt 230 zum Ableiten von Fahrertyp-spezifischen Clustern C_j basierend auf den Belohnungsfunktionen Rj, und
einen Schritt 240 zum Bestimmen von Regelparametern θ_j für ein jeweiliges Fahrertyp-spezifisches Cluster C_j.

Das Verfahren 200 zeigt Schritte einer Lernphase für das Regelsystem 100. In der Lernphase werden basierend auf der Menge D an Fahrtrajektorien unterschiedliche Fahrertypen C_j geclustert. Die Eigenschaft eines Clusters ist, dass Objekte im selben Cluster über ähnliche, insbesondere identische, Eigenschaften verfügen und sich von Objekten, die nicht im selben Cluster sind, dadurch unterscheiden. In einer Anwendungsphase des Regelsystems 100 kann dann Regelsystem 100 dann durch Auswählen eines bestimmten Fahrertyp-spezifisches Cluster C_j individuell an das Fahrverhalten eines jeweiligen Fahrers angepasst werden. Die Fahrtrajektorien D basieren vorteilhafterweise auf Fahrdemonstrationen von unterschiedlichen Fahrern bzw. Fahrertypen.
Die Belohnungsfunktion R_j, engl. reward function, ist eine Funktion die einem Wert einer Regelungsgröße einen Belohnungswert zuordnet. Vorteilhafterweise ist eine Belohnungsfunktion so gewählt, dass sie umso größere Werte annimmt, je kleiner eine Abweichung der Regelungsgröße von einer Sollgröße ist. Erfindungsgemäß wird für eine jeweilige Fahrtrajektorie d die jeweilige Belohnungsfunktion r_j bestimmt, die in der Fahrtrajektorie d optimiert wird.
Das Ableiten der Belohnungsfunktion R_j erfolgt durch Verwenden einer Methode des inversen bestärkenden Lernens, beispielsweise unter Verwendung eines Algorithmus zum inversen bestärkenden Lernen. Die Methode und ein beispielhafter Algorithmus sind beispielsweise offenbart unter https://arxiv.org/pdf/1712.05514.pdf: Inverse Reinforce Learning with Nonparametric Behavior Clustering, Siddharthan Rajasekaran, Jinwei Zhang, and die Fu.
Basierend auf den Belohnungsfunktionen R_j werden dann die Fahrertypen-Cluster C_j abgeleitet.
Die Belohnungsfunktion R_j beschreibt insbesondere Zustände und Aktionen, die von einem jeweiligen Fahrer erwünscht sind. Die Belohnungsfunktion kann somit insbesondere den Zielen und Wünschen eines individuellen Fahrers entsprechen, wie zum Beispiel dem Einhalten eines bestimmten Abstands zu einem Drittfahrzeug 120, eine Beschleunigung, und eine Geschwindigkeit. Die Belohnungsfunktionen R_j repräsentieren daher ein rationales Handeln des Fahrers und können Situationen besser generalisieren als das
direkte Imitieren des Fahrverhaltens. Durch Clustern der aus den Fahrtrajektorien D abgeleiteten Belohnungsfunktionen R_j, und insbesondere nicht der Fahrtrajektorien selbst, können vorteilhafterweise generalisierende Ergebnisse erzielt werden.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Fahrtrajektorien Betriebsdaten des Kraftfahrzeugs und/oder Referenzdaten des Kraftfahrzeugs zu einer Umgebung des Kraftfahrzeugs umfassen und die Belohnungsfunktion die Betriebsdaten und/oder Referenzdaten berücksichtigt. Betriebsdaten des Kraftfahrzeugs sind beispielsweise Geschwindigkeit, Beschleunigung, Lenkwinkel, Neigung. Umgebungsdaten des Kraftfahrzeugs sind beispielsweise Information über Straßenzustand, Wetter, Fahrbahnsteigung, Straßenverlauf, etc.
Beispielsweise sind aus der Offenbarung Kuderer, Markus, Shilpa Gulati, and Wolfram Burgard: „Learning driving styles for autonomous vehicles from demonstration.“, 2015 IEEE, International Conference on Robotics and Automation (ICRA), IEEE, 2015 beispielhaft Merkmale bekannt, die in die Belohnungsfunktion einfließen können, wie insbesondere Beschleunigungen, Geschwindigkeiten, Distanz zu einer Fahrspurmitte. Insbesondere können vorteilhafterweise weitere Merkmale, wie ein Abstand zu einem Drittfahrzeug 120, insbesondere ein Vorderfahrzeug und/oder weitere Fahrzeuge, eine relative Geschwindigkeit zwischen dem Kraftfahrzeug 110 und einem Drittfahrzeug 120 einfließen.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass für ein Fahrertyp-spezifisches Cluster C_j eine, insbesondere Fahrertyp-spezifische, Fahrstrategie berechnet wird.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Regelparameter θ_j eines Fahrertyp-spezifischen Clusters C_j in Abhängigkeit der Belohnungsfunktion R_j des jeweiligen Clusters C_j und/oder in Abhängigkeit von Betriebsdaten des Kraftfahrzeugs 110 und/oder Referenzdaten des Kraftfahrzeugs 110 zu einer Umgebung des Kraftfahrzeugs optimiert werden. Die Regelparameter können vorteilhafterweise unter Verwendung der Optimierungsfunktion $θ_{j} = a r g m a x_{θ_{j}} E [\sum_{t = 0}^{T_{m a x}} r_{j} (x, a) | p (x_{t + 1} | x_{t}, a_{t}), π_{θ_{j}} (a | s)]$
optimiert werden. In der beispielhaft dargestellten Optimierungsfunktion beschreibt r_j eine Belohnungsfunktion eines Clusters j, θ_j die Regelparameter eines Reglers π_θj des Clusters j, und p(x_t+1|x_t, α_t) die Verteilung über zukünftige Zustände, umfassend einen Zustand aus dem Vorwärtsmodell des eigenen Fahrzeugs sowie das Verhalten eines Referenzobjekts, insbesondere eines Drittfahrzeugs, wobei der Zustand x_t den Zustand des eigenen Fahrzeugs als auch den Zustand eines Referenzobjekts, insbesondere eines Drittfahrzeugs zu einem Zeitpunkt t umfasst. Die Lösung der Optimierungsfunktion identifiziert die Parameter θ_j, unter denen die Belohnungsfunktion r_j maximal und somit optimal bezüglich den im ersten Schritt extrahierten Zielen und Wünschen des Fahrers ist.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Regelparameter θ_j für wenigstens eine Regelsituation optimiert werden. Eine Regelsituation umfasst einen Anwendungsfall, engl. Use-Case des Reglers, beispielsweise eine Abstandsregelung, engl. Adaptive Cruise Control, ACC, oder eine Einparkunterstützung oder eine Spurhalteunterstützung, engl. lane keeping support, LKS.
2 zeigt Schritte eines Verfahrens 300 zum Regeln eines Kraftfahrzeugs 110 mit einem Regelsystem 100.
Das Verfahren 300 umfasst die folgenden Schritte:

einen Schritt 310 zum Bereitstellen einer Menge an Fahrertyp-spezifischen Clustern C_j, ein jeweiliges Fahrertyp-spezifisches Cluster cj umfassend eine Belohnungsfunktion r_j und Regelparameter θ_j, wobei die Fahrertyp-spezifischen Cluster C_j und/oder die Regelparameter θ_j gemäß einem Verfahren 200 gemäß den vorstehend beschriebenen Ausführungsformen bestimmt wurden;
einen Schritt 320 zum Beobachten eines Fahrverhaltens eines Fahrers 130 in einem Fahrbetrieb des Kraftfahrzeugs 110;
einen Schritt 330 zum Identifizieren eines Fahrertyp-spezifischen Clusters C_j aus der Menge an Fahrertyp-spezifischen Clustern C_j basierend auf dem beobachteten Fahrverhalten;
und einen Schritt 340 zum Parametrisieren des Regelsystems 100, insbesondere ein Modell des Regelsystems 100, mit Regelparametern θ_j des identifizierten Fahrertyp-spezifischen Clusters c_j.

Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren 330 eines Clusters c_j umfasst: Evaluieren des Fahrverhaltens basierend auf den Belohnungsfunktionen der Fahrertyp-spezifischen Cluster. Vorteilhafterweise werden zum Identifizieren eines Clusters
die abgeleiteten Belohnungsfunktionen verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der Belohnungsfunktionen der Fahrertyp-spezifischen Cluster evaluiert und ein bestimmtes Fahrertyp-spezifisches Cluster anhand der mittleren Belohnung ausgewählt. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion $j = a r g m a x_{j} \frac{1}{| D_{D} |} \sum_{〈 x, a 〉 \in D_{D}} r_{j} (x, a),$
wobei D_D die observierten gemeinsamen Zustände des eigenen Kraftfahrzeugs und des Vorderfahrzeugs enthält. Entsprechend wird ein Fahrertyp-spezifisches Cluster eines Fahrertyps mit möglichst ähnlichen Zielen und Wünschen gewählt.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren 330 eines Fahrertyp-spezifischen Clusters c_j umfasst: Evaluieren des Fahrverhaltens basierend auf einer Fahrstrategie des Fahrers. Vorteilhafterweise wird zum Identifizieren eines Clusters die unter Anwendung der Methode des inversen verstärkenden Lernens gelernte, insbesondere Fahrertyp-spezifische, Fahrstrategie verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der gewählten Fahraktionen, beispielsweise Beschleunigen, Abbremsen, Lenken, etc. mit denen der gelernten Fahrstrategie π_j des Inverse Reinforcement Schrittes verglichen und das Fahrtyp-spezifische Cluster ausgewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion $j = a r g m i n \frac{1}{| D_{D} |} \sum_{〈 x, a 〉 \in D_{D}} L (x, a, π_{j}),$
wobei L(x, α, π_j) ein Distanzmaß ist, dass observierte Zustands-Aktions-Tupel mit der Fahrstrategie π_j des Fahrertyp-spezifischen Clusters vergleicht. Entsprechend wird das Fahrtyp-spezifische Cluster gewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären.
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren 330 eines Fahrertyp-spezifischen Clusters c_j umfasst: Evaluieren des Fahrverhaltens basierend auf Regelparametern θ_j in Abhängigkeit einer Regelsituation. Vorteilhafterweise wird zum Identifizieren eines Clusters die unter Anwendung der Methode des inversen verstärkenden Lernens gelernten Regelparameter θ_j verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der gewählten Fahraktionen, beispielsweise Beschleunigen, Abbremsen, Lenken, etc. mit denen der gelernten Reglerstrategie π_θj der gewählten Regelsituation verglichen und das Fahrtyp-spezifische Cluster ausgewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion $j = a r g m i n \frac{1}{| D_{D} |} \sum_{〈 x, a 〉 \in D_{D}} L (x, a, π_{θ j}),$
wobei L (x, α, πθj) ein Distanzmaß ist, dass das observierte Zustands-Aktions-Tupel mit der Fahrstrategie π_θj vergleicht. Entsprechend wird das Fahrtyp-spezifische Cluster gewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären.
4 zeigt eine schematische Übersicht des Verfahrens aus 3.
Das Regelsystem 100 umfasst ein Modell M, insbesondere ein adaptives Fahrermodell. Das Modell M wird mit den Regelparametern θ_j des ausgewählten Fahrertyp-spezifischen Clusters c_j parametrisiert und das Regelsystem zum Regeln des Kraftfahrzeugs, insbesondere eines Fahrbetriebs des Kraftfahrzeugs 110 verwendet.
x_t ¹¹⁰ beschreibt den Zustand des eigenen Fahrzeugs 110 und x_t ¹²⁰ den Zustand eines Referenzobjekts, insbesondere des Drittfahrzeugs 120 zu einem Zeitpunkt t.
Das Regelsystem 100 umfasst ferner ein Identifikationsmodul 140 zum Identifizieren eines Fahrertyp-spezifischen Clusters cj. Das Identifizieren erfolgt gemäß dem vorstehend beschriebenen Verfahren 300 gemäß der dargestellten Ausführungsform zu einem Zeitpunkt t. Das Modell M wird mit den Regelparametern θ_j des zum Zeitpunkt t ausgewählten Fahrertyp-spezifischen Clusters ct parametrisiert und das Regelsystems zum Regeln des Kraftfahrzeugs, insbesondere eines Fahrbetriebs des Kraftfahrzeugs 110 verwendet.
Nach einem Zeitschritt, zum Zeitpunkt t+1, hat sich das Fahrzeug 110 sowie das Referenzobjekt 120, insbesondere ein Drittfahrzeug, insbesondere ein Vorderfahrzeug, bewegt, insbesondere relativ zueinander bewegt und/oder weiterbewegt, und Schritte des Verfahrens zum Regeln eines Kraftfahrzeugs mit einem Regelsystem, insbesondere der Schritt zum Identifizieren eines Fahrertyp-spezifischen Clusters und/oder das Parametrisieren des Regelsystems mit Regelparametern θj des identifizierten Fahrertyp-spezifischen Clusters werden erneut zum Zeitpunkt t+1 ausgeführt. Vorteilhafterweise kann das Verfahren 300 während eines Fahrbetriebs des Kraftfahrzeugs 110 iterativ ausgeführt werden.

Claims

Computerimplementiertes Verfahren (200) zum Verwenden von maschinellen Lernen zum Bestimmen von Regelparametern (θj) für ein Regelsystem (100), insbesondere eines Kraftfahrzeugs (110), insbesondere zum Regeln eines Fahrbetriebs des Kraftfahrzeugs (110), wobei das Verfahren (200) umfasst: Bereitstellen (210) einer Menge an Fahrtrajektorien (D); Ableiten (220) von Belohnungsfunktionen (Rj) aus den Fahrtrajektorien (D) unter Verwendung einer Methode des inversen bestärkenden Lernens; Ableiten (230) von Fahrertyp-spezifischen Clustern (Cj) basierend auf den Belohnungsfunktionen (Rj); Bestimmen (240) von Regelparametern (θj) für ein jeweiliges Fahrertyp-spezifisches Cluster (cj).
Verfahren (200) nach Anspruch 1, wobei die Fahrtrajektorien (D) Betriebsdaten des Kraftfahrzeugs (110) und/oder Referenzdaten des Kraftfahrzeugs (110) zu einer Umgebung des Kraftfahrzeugs umfassen und die Belohnungsfunktion (rj) die Betriebsdaten und/oder Referenzdaten berücksichtigt.
Verfahren (200) nach wenigstens einem der vorhergehenden Ansprüche, wobei für ein Fahrertyp-spezifisches Cluster (cj) eine, insbesondere Fahrertyp-spezifische, Fahrstrategie berechnet wird.
Verfahren (200) nach wenigstens einem der vorhergehenden Ansprüche, wobei die Regelparameter (θj) eines Fahrertyp-spezifischen Clusters (cj) in Abhängigkeit der Belohnungsfunktion (rj) des jeweiligen Fahrertyp-spezifischen Clusters (cj) und/oder in Abhängigkeit von Betriebsdaten des Kraftfahrzeugs (110) und/oder Referenzdaten des Kraftfahrzeugs (110) zu einer Umgebung des Kraftfahrzeugs (110) optimiert werden.
Verfahren (200) nach wenigstens einem der vorhergehenden Ansprüche, wobei die Regelparameter (θj) für wenigstens eine Regelsituation optimiert werden.
Verfahren (300) zum Regeln eines Kraftfahrzeugs (110) mit einem Regelsystem (100), wobei das Verfahren (300) umfasst: Bereitstellen (310) einer Menge an Fahrertyp-spezifischen Clustern (Cj), ein jeweiliges Fahrertyp-spezifisches Cluster (cj) umfassend eine Belohnungsfunktion (rj) und Regelparameter (θj), wobei die Fahrertyp-spezifischen Cluster (Cj) und/oder die Regelparameter (θj) gemäß einem Verfahren (200) nach wenigstens einem der Ansprüche 1 bis 5 bestimmt wurden; Beobachten (320) eines Fahrverhaltens eines Fahrers (130) in einem Fahrbetrieb des Kraftfahrzeugs (110); Identifizieren (330) eines Fahrertyp-spezifischen Clusters (cj) aus der Menge an Fahrertyp-spezifischen Clustern (Cj) basierend auf dem beobachteten Fahrverhalten; und Parametrisieren (340) des Regelsystems (100), insbesondere eines Modells (M) des Regelsystems (100), mit Regelparametern (θj) des identifizierten Fahrertyp-spezifischen Clusters (cj).
Verfahren (300) nach Anspruch 6, wobei das Identifizieren (330) eines Fahrertyp-spezifischen Clusters (cj) umfasst: Evaluieren des Fahrverhaltens basierend auf den Belohnungsfunktionen (Rj) der Fahrertyp-spezifischen Cluster (Cj).
Verfahren (300) nach wenigstens einem der Ansprüche 6 oder 7, wobei das Identifizieren (330) eines Fahrertyp-spezifischen Clusters (cj) umfasst: Evaluieren des Fahrverhaltens basierend auf einer, insbesondere Fahrertyp-spezifischen, Fahrstrategie des Fahrers (130).
Verfahren (300) nach wenigstens einem der Ansprüche 6 bis 8, wobei das Identifizieren (330) eines Fahrertyp-spezifischen Clusters (cj) umfasst: Evaluieren des Fahrverhaltens basierend auf Regelparametern (θj) in Abhängigkeit einer Regelsituation.
Regelsystem (100) für ein Kraftfahrzeug (110), insbesondere zum Regeln eines Fahrbetriebs des Kraftfahrzeugs (110), umfassend ein Identifikationsmodul (140) zum Identifizieren von einem Fahrertyp-spezifischen Cluster (Cj) gemäß wenigstens einem der Ansprüche 6 bis 9 und einen Regler (100), der dazu ausgebildet ist, unter Verwendung eines Modells (M) wenigstens eine Steuergröße (u) auszugeben, wobei das Modell (M) in Abhängigkeit eines gemäß wenigstens einem der Ansprüche 6 bis 9 identifizierten Fahrertyp-spezifischen Clusters parametrisierbar ist.
Regelsystem nach Anspruch 10, wobei das Modell (M) ein Verhalten des Kraftfahrzeugs (110) und ein Verhalten der Umgebung des Kraftfahrzeugs (110) abbildet.