-
Stand der Technik
-
Die Offenbarung betrifft ein Verfahren zum Verwenden von maschinellen Lernen zum Bestimmen von Regelparametern für ein Regelsystem, insbesondere eines Kraftfahrzeugs, insbesondere zum Regeln eines Fahrbetriebs des Kraftfahrzeugs gemäß Anspruch 1.
-
Ferner betrifft die Offenbarung ein Verfahren zum Regeln eines Kraftfahrzeugs mit einem Regelsystem gemäß Anspruch 6.
-
Ferner betrifft die Offenbarung ein Regelsystem gemäß Anspruch 10.
-
Regelsysteme werden in einem Kraftfahrzeug beispielsweise als Fahrassistenzsysteme verwendet, um einen Fahrer des Kraftfahrzeugs in bestimmten Fahrsituationen zu unterstützen bzw. zu entlasten.
-
Zur Realisierung dieser Assistenzfunktionen umfasst ein Fahrerassistenzsystem Umgebungssensoren wie beispielsweise Radarsensoren, Lidarsensoren, Laserscanner, Videosensoren und Ultraschallsensoren. Sofern ein Fahrzeug mit einem Navigationssystem ausgerüstet ist, kann das Fahrerassistenzsystem auch auf Daten dieses Systems zurückgreifen. Weiterhin kann das mit dem Bordnetz des Fahrzeugs vorzugsweise über mindestens einen BUS, vorzugsweise den CAN-BUS, verbundene Fahrerassistenzsystem auch aktiv in Bordsysteme, wie insbesondere das Lenksystem, das Bremssystem, den Antriebsstrang und Warnsysteme eingreifen.
-
Üblicherweise wird bei den verfügbaren Regelsystemen innerhalb einer Fahrzeugflotte eine einheitliche Bedatung des Regelsystems verwendet. Allenfalls kann das Regelsystem noch an einen Sportmodus oder einen Komfortmodus angepasst werden. Eine individuelle Anpassung an das Fahrverhalten eines individuellen Fahrers ist bisher nicht bekannt.
-
Es ist daher wünschenswert, ein Regelsystem bereitzustellen, das eine solche individuelle Anpassung an das Fahrverhalten eines individuellen Fahrers ermöglicht.
-
Offenbarung der Erfindung
-
Dies wird durch ein Regelsystem und ein computerimplementiertes Verfahren gemäß den unabhängigen Ansprüchen erreicht.
-
Bevorzugte Ausführungsformen beziehen sich auf ein computerimplementiertes Verfahren zum Verwenden von maschinellen Lernen zum Bestimmen von Regelparametern für ein Regelsystem, insbesondere eines Kraftfahrzeugs, insbesondere zum Regeln eines Fahrbetriebs des Kraftfahrzeugs, wobei das Verfahren umfasst:
- Bereitstellen einer Menge D an Fahrtrajektorien;
- Ableiten von Belohnungsfunktionen aus den Fahrtrajektorien unter Verwendung einer Methode des inversen bestärkenden Lernens;
- Ableiten von Fahrertyp-spezifischen Clustern basierend auf den Belohnungsfunktionen;
- Bestimmen von Regelparametern für ein jeweiliges Fahrertyp-spezifisches Cluster.
-
In einer Lernphase werden basierend auf einer Menge an Fahrtrajektorien unterschiedliche Fahrertypen geclustert. Die Eigenschaft eines Clusters ist, dass Objekte im selben Cluster über ähnliche, insbesondere identische, Eigenschaften verfügen und sich von Objekten, die nicht im selben Cluster sind, dadurch unterscheiden. In einer Anwendungsphase des Regelsystems kann das Regelsystem dann durch Auswählen eines bestimmten Fahrertyp-spezifischen Clusters individuell an das Fahrverhalten eines jeweiligen Fahrers angepasst werden. Die Fahrtrajektorien basieren vorteilhafterweise auf Fahrdemonstrationen von unterschiedlichen Fahrern bzw. Fahrertypen.
-
Eine Belohnungsfunktion, engl. reward function, ist eine Funktion, die einem Wert einer Regelungsgröße einen Belohnungswert zuordnet. Vorteilhafterweise ist eine Belohnungsfunktion so gewählt, dass sie umso größere Werte annimmt, je kleiner eine Abweichung der Regelungsgröße von einer Sollgröße ist. Erfindungsgemäß wird für eine jeweilige Fahrtrajektorie die jeweilige Belohnungsfunktion bestimmt, die in der Fahrtrajektorie optimiert wird.
-
Das Ableiten der Belohnungsfunktionen erfolgt durch Verwenden einer Methode des inversen bestärkenden Lernens, beispielsweise unter Verwendung eines Algorithmus zum inversen bestärkenden Lernen. Die Methode und ein beispielhafter Algorithmus sind beispielsweise offenbart unter https://arxiv.org/pdf/1712.05514.pdf: Inverse Reinforce Learning with Nonparametric Behavior Clustering, Siddharthan Rajasekaran, Jinwei Zhang, and die Fu.
-
Basierend auf den Belohnungsfunktionen werden dann die Fahrertypen-Cluster abgeleitet.
-
Eine Belohnungsfunktion beschreibt insbesondere Zustände und Aktionen, die von einem jeweiligen Fahrer erwünscht sind. Die Belohnungsfunktion kann somit insbesondere den Zielen und Wünschen eines individuellen Fahrers entsprechen, wie zum Beispiel dem Einhalten eines bestimmten Abstands zu einem Drittfahrzeug, eine Beschleunigung, und eine Geschwindigkeit. Die Belohnungsfunktionen repräsentieren daher ein rationales Handeln des Fahrers und können Situationen besser generalisieren als das
direkte Imitieren des Fahrverhaltens. Durch Clustern der aus den Fahrtrajektorien abgeleiteten Belohnungsfunktionen, und insbesondere nicht der Fahrtrajektorien selbst, können vorteilhafterweise generalisierende Ergebnisse erzielt werden.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Fahrtrajektorien Betriebsdaten des Kraftfahrzeugs und/oder Referenzdaten des Kraftfahrzeugs zu einer Umgebung des Kraftfahrzeugs umfassen und die Belohnungsfunktion die Betriebsdaten und/oder Referenzdaten berücksichtigt.
-
Beispielsweise sind aus der Offenbarung Kuderer, Markus, Shilpa Gulati, and Wolfram Burgard: „Learning driving styles for autonomous vehicles from demonstration.“ 2015 IEEE, International Conference on Robotics and Automation (ICRA). IEEE, 2015 beispielhaft Merkmale bekannt, die in die Belohnungsfunktion einfließen können, wie insbesondere Beschleunigungen, Geschwindigkeiten, Distanz zu einer Fahrspurmitte. Insbesondere können vorteilhafterweise weitere Merkmale, wie ein Abstand zu einem Drittfahrzeug, insbesondere ein Vorderfahrzeug und/oder weitere Fahrzeuge, eine relative Geschwindigkeit zwischen dem Kraftfahrzeug und einem Drittfahrzeug einfließen.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass für ein Fahrertyp-spezifisches Cluster eine, insbesondere Fahrertyp-spezifische, Fahrstrategie berechnet wird.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Regelparameter eines Fahrertyp-spezifischen Clusters in Abhängigkeit der Belohnungsfunktion des jeweiligen Clusters und/oder in Abhängigkeit von Betriebsdaten des Kraftfahrzeugs und/oder Referenzdaten des Kraftfahrzeugs zu einer Umgebung des Kraftfahrzeugs optimiert werden. Die Regelparameter können vorteilhafterweise unter Verwendung der Optimierungsfunktion
optimiert werden. In der beispielhaft dargestellten Optimierungsfunktion beschreibt r
j eine Belohnungsfunktion eines Clusters j, θ
j die Regelparameter eines Reglers π
θj des Clusters j, und
die Verteilung über zukünftige Zustände, umfassend einen Zustand aus dem Vorwärtsmodell des eigenen Fahrzeugs sowie das Verhalten eines Referenzobjekts, insbesondere eines Drittfahrzeugs, wobei der Zustand x
t den Zustand des eigenen Fahrzeugs als auch den Zustand eines Referenzobjekts, insbesondere eines Drittfahrzeugs zu einem Zeitpunkt t umfasst. Die Lösung der Optimierungsfunktion identifiziert die Parameter θ
j, unter denen die Belohnungsfunktion maximal und somit optimal bezüglich den im ersten Schritt extrahierten Zielen und Wünschen des Fahrers ist.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Regelparameter für wenigstens eine Regelsituation optimiert werden. Eine Regelsituation umfasst einen Anwendungsfall, engl. Use-Case des Reglers, beispielsweise eine Abstandsregelung, engl. Adaptive Cruise Control, ACC, oder eine Einparkunterstützung oder eine Spurhalteunterstützung, engl. lane keeping support, LKS.
-
Weitere bevorzugte Ausführungsformen beziehen sich auf Verfahren zum Regeln eines Kraftfahrzeugs mit einem Regelsystem, wobei das Verfahren umfasst: Bereitstellen einer Menge an Fahrertyp-spezifischen Clustern, ein jeweiliges Fahrertyp-spezifisches Cluster umfassend eine Belohnungsfunktion und Regelparameter, wobei die Fahrertyp-spezifischen Cluster und/oder die Regelparameter gemäß einem Verfahren nach wenigstens einer der Ausführungsformen bestimmt wurden; Beobachten eines Fahrverhaltens eines Fahrers in einem Fahrbetrieb des Kraftfahrzeugs; Identifizieren eines Fahrertyp-spezifischen Clusters aus der Menge an Fahrertyp-spezifischen Clustern basierend auf dem beobachteten Fahrverhalten;
und Parametrisieren des Regelsystems, insbesondere ein Modell des Regelsystems, mit Regelparametern des identifizierten Fahrertyp-spezifischen Clusters.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren eines Clusters umfasst: Evaluieren des Fahrverhaltens basierend auf den Belohnungsfunktionen der Fahrertyp-spezifischen Cluster. Vorteilhafterweise werden zum Identifizieren eines Clusters
die abgeleiteten Belohnungsfunktionen verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der Belohnungsfunktionen der Fahrertyp-spezifischen Cluster evaluiert und ein bestimmtes Fahrertyp-spezifisches Cluster anhand der mittleren Belohnung ausgewählt. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion
wobei D
D die observierten gemeinsamen Zustände des eigenen Kraftfahrzeugs und des Vorderfahrzeugs enthält. Entsprechend wird ein Fahrertyp-spezifisches Cluster eines Fahrertyps mit möglichst ähnlichen Zielen und Wünschen gewählt.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren eines Fahrertyp-spezifischen Clusters umfasst: Evaluieren des Fahrverhaltens basierend auf einer Fahrstrategie des Fahrers. Vorteilhafterweise wird zum Identifizieren eines Clusters die unter Anwendung der Methode des inversen verstärkenden Lernens gelernte, insbesondere Fahrertyp-spezifische, Fahrstrategie verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der gewählten Fahraktionen, beispielsweise Beschleunigen, Abbremsen, Lenken, etc. mit denen der gelernten Fahrstrategie π
j des Inverse Reinforcement Schrittes verglichen und das Fahrtyp-spezifische Cluster ausgewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion
wobei L(x, α, π
j) ein Distanzmaß ist, dass observierte Zustands-Aktions-Tupel mit der Fahrstrategie π
j des Fahrertyp-spezifischen Clusters vergleicht. Entsprechend wird das Fahrtyp-spezifische Cluster gewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren eines Fahrertyp-spezifischen Clusters umfasst: Evaluieren des Fahrverhaltens basierend auf Regelparametern in Abhängigkeit einer Regelsituation. Vorteilhafterweise wird zum Identifizieren eines Clusters die unter Anwendung der Methode des inversen verstärkenden Lernens
gelernten Regelparameter verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der gewählten Fahraktionen, beispielsweise Beschleunigen, Abbremsen, Lenken, etc. mit denen der gelernten Reglerstrategie π
θj der gewählten Regelsituation verglichen und das Fahrtyp-spezifische Cluster ausgewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion
wobei L (x, α, π
θj) ein Distanzmaß ist, dass observierte Zustands-Aktions-Tupel mit der Fahrstrategie π
θj vergleicht. Entsprechend wird das Fahrtyp-spezifische Cluster gewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären.
-
Bei einer weiteren bevorzugten Ausführungsform wird ein adaptives Fahrermodell des Regelsystems mit den Regelparametern des ausgewählten Fahrertyp-spezifischen Clusters parametrisiert und das Regelsystem zum Regeln des Kraftfahrzeugs, insbesondere eines Fahrbetriebs des Kraftfahrzeugs verwendet. Nach einem Zeitschritt hat sich das Fahrzeug sowie ein Referenzobjekt, insbesondere ein Drittfahrzeug, insbesondere ein Vorderfahrzeug, bewegt, insbesondere relativ zueinander bewegt und/oder weiterbewegt und Schritte des Verfahrens zum Regeln eines Kraftfahrzeugs mit einem Regelsystem, insbesondere der Schritt zum Identifizieren eines Fahrertyp-spezifischen Clusters und/oder das Parametrisieren des Regelsystems mit Regelparametern des identifizierten Fahrertyp-spezifischen Clusters werden erneut ausgeführt. Vorteilhafterweise kann das Verfahren während eines Fahrbetriebs des Kraftfahrzeugs iterativ ausgeführt werden.
-
Weitere bevorzugte Ausführungsformen beziehen sich auf Regelsystem für ein Kraftfahrzeug, insbesondere zum Regeln eines Fahrbetriebs des Kraftfahrzeugs, umfassend ein Identifikationsmodul zum Identifizieren von einem Fahrertyp-spezifischen Cluster gemäß einem Verfahren nach wenigstens einer der Ausführungsformen und einen Regler, der dazu ausgebildet ist, unter Verwendung eines Modells wenigstens eine Steuergröße auszugeben, wobei das Modell in Abhängigkeit eines gemäß einem Verfahren nach wenigstens einer der Ausführungsformen identifizierten Fahrertyp-spezifischen Clusters parametrisierbar ist.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Modell ein Verhalten des Kraftfahrzeugs und ein Verhalten der Umgebung des Kraftfahrzeugs abbildet.
-
Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die in den Figuren der Zeichnung dargestellt sind. Dabei bilden alle beschriebenen oder dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der Erfindung, unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbeziehung sowie unabhängig von ihrer Formulierung bzw. Darstellung in der Beschreibung bzw. in der Zeichnung.
-
In der Zeichnung zeigt:
- 1 eine schematische Darstellung einer Regelfunktion eines Regelsystems eines Kraftfahrzeugs;
- 2 eine schematische Darstellung von Schritten eines Verfahrens zum Verwenden von maschinellen Lernen zum Bestimmen von Regelparametern für ein Regelsystem, insbesondere eines Kraftfahrzeugs;
- 3 eine schematische Darstellung von Schritten eines Verfahrens zum Verwenden eines Regelsystems, und
- 4 eine schematische Übersicht des Verfahrens aus 3.
-
1 zeigt eine schematische Darstellung einer Regelfunktion eines Regelsystems 100, insbesondere ein Fahrerassistenzsystem, eines Kraftfahrzeugs 110 am Beispiel einer Abstandsregelung. Zur Realisierung von Assistenzfunktionen umfasst ein Fahrerassistenzsystem Umgebungssensoren wie beispielsweise Radarsensoren, Lidarsensoren, Laserscanner, Videosensoren und Ultraschallsensoren. Sofern ein Fahrzeug mit einem Navigationssystem ausgerüstet ist, kann das Fahrerassistenzsystem auch auf Daten dieses Systems zurückgreifen. Weiterhin kann das mit dem Bordnetz des Fahrzeugs 110 vorzugsweise über mindestens einen BUS, vorzugsweise den CAN-BUS, verbundene Fahrerassistenzsystem auch aktiv in Bordsysteme, wie insbesondere das Lenksystem, das Bremssystem, den Antriebsstrang und Warnsysteme eingreifen.
-
Das Regelsystem 100 ist in einer Ausgestaltung als Steuergerät für das Kraftfahrzeug 110 ausgebildet. Das Steuergerät kann einen Computer, insbesondere einen Mikroprozessor oder einen Rechner umfassen. Das Steuergerät kann einen Speicher für Instruktionen umfassen, die der Computer ausführen kann.
-
Das Regelsystem 100 für das Kraftfahrzeug 110 ist zum Ausgeben einer Steuergröße u ausgebildet. Anhand der Steuergröße u ist eine Regelgröße y eines Kraftfahrzeugs durch geeignete Ansteuervorgänge einstellbar, um die Regelgröße y an eine Führungsgröße w des Regelsystems anzugleichen.
-
Üblicherweise wird bei einer Abstandsregelung die Position des eigenen Fahrzeugs mit dem Abstand eines vorausfahrenden Fahrzeugs 120 verglichen und der Abstand durch gezielte Beschleunigungs- und/oder Bremseingriffe auf einen vorgegebenen Sollwert eingestellt. Dieser Sollwert sollte so gewählt sein, dass der gesetzlich vorgeschriebene Abstand zwischen den beiden Fahrzeugen nicht unterschritten wird. Andererseits sollte der Abstand nicht so groß werden, dass das vorausfahrende Fahrzeug nicht mehr zuverlässig erfasst werden kann. Hierzu werden in der Regel kamera- oder radarbasierte Sensorsysteme verwendet und daraus wird dann ein Istwert generiert, der als Eingangswert für den Regelalgorithmus bei der Abstandsregelung dient. Die Abstandsregelung ist beispielsweise in Betrieb, wenn ein Fahrer 130 die Funktion einschaltet. Die Funktion wird entweder vom Fahrer 130 wieder abgeschaltet oder schaltet sich selbst ab, wenn z.B. plötzlich ein Bremseingriff erfolgt.
-
Im Folgenden wird unter Bezugnahme auf die 2 bis 4 erläutert, wie das Regelsystem 100 an das Fahrverhalten eines individuellen Fahrers angepasst werden kann.
-
2 zeigt Schritte eines Verfahrens 200 zum Verwenden von maschinellen Lernen zum Bestimmen von Regelparametern für das Regelsystem 100. Das Verfahren 200 umfasst die folgenden Schritte:
- einen Schritt 210 zum Bereitstellen einer Menge D an Fahrtrajektorien;
- einen Schritt 220 zum Ableiten von Belohnungsfunktionen Rj aus den Fahrtrajektorien D unter Verwendung einer Methode des inversen bestärkenden Lernens;
- einen Schritt 230 zum Ableiten von Fahrertyp-spezifischen Clustern Cj basierend auf den Belohnungsfunktionen Rj, und
- einen Schritt 240 zum Bestimmen von Regelparametern θj für ein jeweiliges Fahrertyp-spezifisches Cluster Cj.
-
Das Verfahren 200 zeigt Schritte einer Lernphase für das Regelsystem 100. In der Lernphase werden basierend auf der Menge D an Fahrtrajektorien unterschiedliche Fahrertypen Cj geclustert. Die Eigenschaft eines Clusters ist, dass Objekte im selben Cluster über ähnliche, insbesondere identische, Eigenschaften verfügen und sich von Objekten, die nicht im selben Cluster sind, dadurch unterscheiden. In einer Anwendungsphase des Regelsystems 100 kann dann Regelsystem 100 dann durch Auswählen eines bestimmten Fahrertyp-spezifisches Cluster Cj individuell an das Fahrverhalten eines jeweiligen Fahrers angepasst werden. Die Fahrtrajektorien D basieren vorteilhafterweise auf Fahrdemonstrationen von unterschiedlichen Fahrern bzw. Fahrertypen.
-
Die Belohnungsfunktion Rj, engl. reward function, ist eine Funktion die einem Wert einer Regelungsgröße einen Belohnungswert zuordnet. Vorteilhafterweise ist eine Belohnungsfunktion so gewählt, dass sie umso größere Werte annimmt, je kleiner eine Abweichung der Regelungsgröße von einer Sollgröße ist. Erfindungsgemäß wird für eine jeweilige Fahrtrajektorie d die jeweilige Belohnungsfunktion rj bestimmt, die in der Fahrtrajektorie d optimiert wird.
-
Das Ableiten der Belohnungsfunktion Rj erfolgt durch Verwenden einer Methode des inversen bestärkenden Lernens, beispielsweise unter Verwendung eines Algorithmus zum inversen bestärkenden Lernen. Die Methode und ein beispielhafter Algorithmus sind beispielsweise offenbart unter https://arxiv.org/pdf/1712.05514.pdf: Inverse Reinforce Learning with Nonparametric Behavior Clustering, Siddharthan Rajasekaran, Jinwei Zhang, and die Fu.
-
Basierend auf den Belohnungsfunktionen Rj werden dann die Fahrertypen-Cluster Cj abgeleitet.
-
Die Belohnungsfunktion Rj beschreibt insbesondere Zustände und Aktionen, die von einem jeweiligen Fahrer erwünscht sind. Die Belohnungsfunktion kann somit insbesondere den Zielen und Wünschen eines individuellen Fahrers entsprechen, wie zum Beispiel dem Einhalten eines bestimmten Abstands zu einem Drittfahrzeug 120, eine Beschleunigung, und eine Geschwindigkeit. Die Belohnungsfunktionen Rj repräsentieren daher ein rationales Handeln des Fahrers und können Situationen besser generalisieren als das
direkte Imitieren des Fahrverhaltens. Durch Clustern der aus den Fahrtrajektorien D abgeleiteten Belohnungsfunktionen Rj, und insbesondere nicht der Fahrtrajektorien selbst, können vorteilhafterweise generalisierende Ergebnisse erzielt werden.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Fahrtrajektorien Betriebsdaten des Kraftfahrzeugs und/oder Referenzdaten des Kraftfahrzeugs zu einer Umgebung des Kraftfahrzeugs umfassen und die Belohnungsfunktion die Betriebsdaten und/oder Referenzdaten berücksichtigt. Betriebsdaten des Kraftfahrzeugs sind beispielsweise Geschwindigkeit, Beschleunigung, Lenkwinkel, Neigung. Umgebungsdaten des Kraftfahrzeugs sind beispielsweise Information über Straßenzustand, Wetter, Fahrbahnsteigung, Straßenverlauf, etc.
-
Beispielsweise sind aus der Offenbarung Kuderer, Markus, Shilpa Gulati, and Wolfram Burgard: „Learning driving styles for autonomous vehicles from demonstration.“, 2015 IEEE, International Conference on Robotics and Automation (ICRA), IEEE, 2015 beispielhaft Merkmale bekannt, die in die Belohnungsfunktion einfließen können, wie insbesondere Beschleunigungen, Geschwindigkeiten, Distanz zu einer Fahrspurmitte. Insbesondere können vorteilhafterweise weitere Merkmale, wie ein Abstand zu einem Drittfahrzeug 120, insbesondere ein Vorderfahrzeug und/oder weitere Fahrzeuge, eine relative Geschwindigkeit zwischen dem Kraftfahrzeug 110 und einem Drittfahrzeug 120 einfließen.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass für ein Fahrertyp-spezifisches Cluster Cj eine, insbesondere Fahrertyp-spezifische, Fahrstrategie berechnet wird.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Regelparameter θ
j eines Fahrertyp-spezifischen Clusters C
j in Abhängigkeit der Belohnungsfunktion R
j des jeweiligen Clusters C
j und/oder in Abhängigkeit von Betriebsdaten des Kraftfahrzeugs
110 und/oder Referenzdaten des Kraftfahrzeugs
110 zu einer Umgebung des Kraftfahrzeugs optimiert werden. Die Regelparameter können vorteilhafterweise unter Verwendung der Optimierungsfunktion
optimiert werden. In der beispielhaft dargestellten Optimierungsfunktion beschreibt r
j eine Belohnungsfunktion eines Clusters j, θ
j die Regelparameter eines Reglers π
θj des Clusters j, und p(x
t+1|x
t, α
t) die Verteilung über zukünftige Zustände, umfassend einen Zustand aus dem Vorwärtsmodell des eigenen Fahrzeugs sowie das Verhalten eines Referenzobjekts, insbesondere eines Drittfahrzeugs, wobei der Zustand x
t den Zustand des eigenen Fahrzeugs als auch den Zustand eines Referenzobjekts, insbesondere eines Drittfahrzeugs zu einem Zeitpunkt t umfasst. Die Lösung der Optimierungsfunktion identifiziert die Parameter θ
j, unter denen die Belohnungsfunktion r
j maximal und somit optimal bezüglich den im ersten Schritt extrahierten Zielen und Wünschen des Fahrers ist.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass die Regelparameter θj für wenigstens eine Regelsituation optimiert werden. Eine Regelsituation umfasst einen Anwendungsfall, engl. Use-Case des Reglers, beispielsweise eine Abstandsregelung, engl. Adaptive Cruise Control, ACC, oder eine Einparkunterstützung oder eine Spurhalteunterstützung, engl. lane keeping support, LKS.
-
2 zeigt Schritte eines Verfahrens 300 zum Regeln eines Kraftfahrzeugs 110 mit einem Regelsystem 100.
-
Das Verfahren 300 umfasst die folgenden Schritte:
- einen Schritt 310 zum Bereitstellen einer Menge an Fahrertyp-spezifischen Clustern Cj, ein jeweiliges Fahrertyp-spezifisches Cluster cj umfassend eine Belohnungsfunktion rj und Regelparameter θj, wobei die Fahrertyp-spezifischen Cluster Cj und/oder die Regelparameter θj gemäß einem Verfahren 200 gemäß den vorstehend beschriebenen Ausführungsformen bestimmt wurden;
- einen Schritt 320 zum Beobachten eines Fahrverhaltens eines Fahrers 130 in einem Fahrbetrieb des Kraftfahrzeugs 110;
- einen Schritt 330 zum Identifizieren eines Fahrertyp-spezifischen Clusters Cj aus der Menge an Fahrertyp-spezifischen Clustern Cj basierend auf dem beobachteten Fahrverhalten;
- und einen Schritt 340 zum Parametrisieren des Regelsystems 100, insbesondere ein Modell des Regelsystems 100, mit Regelparametern θj des identifizierten Fahrertyp-spezifischen Clusters cj.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren
330 eines Clusters c
j umfasst: Evaluieren des Fahrverhaltens basierend auf den Belohnungsfunktionen der Fahrertyp-spezifischen Cluster. Vorteilhafterweise werden zum Identifizieren eines Clusters
die abgeleiteten Belohnungsfunktionen verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der Belohnungsfunktionen der Fahrertyp-spezifischen Cluster evaluiert und ein bestimmtes Fahrertyp-spezifisches Cluster anhand der mittleren Belohnung ausgewählt. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion
wobei D
D die observierten gemeinsamen Zustände des eigenen Kraftfahrzeugs und des Vorderfahrzeugs enthält. Entsprechend wird ein Fahrertyp-spezifisches Cluster eines Fahrertyps mit möglichst ähnlichen Zielen und Wünschen gewählt.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren
330 eines Fahrertyp-spezifischen Clusters c
j umfasst: Evaluieren des Fahrverhaltens basierend auf einer Fahrstrategie des Fahrers. Vorteilhafterweise wird zum Identifizieren eines Clusters die unter Anwendung der Methode des inversen verstärkenden Lernens gelernte, insbesondere Fahrertyp-spezifische, Fahrstrategie verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der gewählten Fahraktionen, beispielsweise Beschleunigen, Abbremsen, Lenken, etc. mit denen der gelernten Fahrstrategie π
j des Inverse Reinforcement Schrittes verglichen und das Fahrtyp-spezifische Cluster ausgewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion
wobei L(x, α, π
j) ein Distanzmaß ist, dass observierte Zustands-Aktions-Tupel mit der Fahrstrategie π
j des Fahrertyp-spezifischen Clusters vergleicht. Entsprechend wird das Fahrtyp-spezifische Cluster gewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären.
-
Bei einer weiteren bevorzugten Ausführungsform ist vorgesehen, dass das Identifizieren
330 eines Fahrertyp-spezifischen Clusters c
j umfasst: Evaluieren des Fahrverhaltens basierend auf Regelparametern θ
j in Abhängigkeit einer Regelsituation. Vorteilhafterweise wird zum Identifizieren eines Clusters die unter Anwendung der Methode des inversen verstärkenden Lernens gelernten Regelparameter θ
j verwendet. Das Verhalten des Fahrers wird, insbesondere über eine bestimmte Zeitspanne, auf Basis der gewählten Fahraktionen, beispielsweise Beschleunigen, Abbremsen, Lenken, etc. mit denen der gelernten Reglerstrategie π
θj der gewählten Regelsituation verglichen und das Fahrtyp-spezifische Cluster ausgewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären. Das ausgewählte Fahrertyp-spezifische Cluster optimiert vorteilhafterweise die Funktion
wobei L (x, α, πθj) ein Distanzmaß ist, dass das observierte Zustands-Aktions-Tupel mit der Fahrstrategie π
θj vergleicht. Entsprechend wird das Fahrtyp-spezifische Cluster gewählt, durch dessen Anwendung die ähnlichsten, insbesondere identischen, Fahraktionen gewählt worden wären.
-
4 zeigt eine schematische Übersicht des Verfahrens aus 3.
-
Das Regelsystem 100 umfasst ein Modell M, insbesondere ein adaptives Fahrermodell. Das Modell M wird mit den Regelparametern θj des ausgewählten Fahrertyp-spezifischen Clusters cj parametrisiert und das Regelsystem zum Regeln des Kraftfahrzeugs, insbesondere eines Fahrbetriebs des Kraftfahrzeugs 110 verwendet.
xt 110 beschreibt den Zustand des eigenen Fahrzeugs 110 und xt 120 den Zustand eines Referenzobjekts, insbesondere des Drittfahrzeugs 120 zu einem Zeitpunkt t.
-
Das Regelsystem 100 umfasst ferner ein Identifikationsmodul 140 zum Identifizieren eines Fahrertyp-spezifischen Clusters cj. Das Identifizieren erfolgt gemäß dem vorstehend beschriebenen Verfahren 300 gemäß der dargestellten Ausführungsform zu einem Zeitpunkt t. Das Modell M wird mit den Regelparametern θj des zum Zeitpunkt t ausgewählten Fahrertyp-spezifischen Clusters ct parametrisiert und das Regelsystems zum Regeln des Kraftfahrzeugs, insbesondere eines Fahrbetriebs des Kraftfahrzeugs 110 verwendet.
-
Nach einem Zeitschritt, zum Zeitpunkt t+1, hat sich das Fahrzeug 110 sowie das Referenzobjekt 120, insbesondere ein Drittfahrzeug, insbesondere ein Vorderfahrzeug, bewegt, insbesondere relativ zueinander bewegt und/oder weiterbewegt, und Schritte des Verfahrens zum Regeln eines Kraftfahrzeugs mit einem Regelsystem, insbesondere der Schritt zum Identifizieren eines Fahrertyp-spezifischen Clusters und/oder das Parametrisieren des Regelsystems mit Regelparametern θj des identifizierten Fahrertyp-spezifischen Clusters werden erneut zum Zeitpunkt t+1 ausgeführt. Vorteilhafterweise kann das Verfahren 300 während eines Fahrbetriebs des Kraftfahrzeugs 110 iterativ ausgeführt werden.