-
Die vorliegende Erfindung betrifft die Steuerung eines Fahrzeugs. Insbesondere betrifft die Erfindung die Auslegung und Abstimmung eines Reglers für eine Trajektoriensteuerung.
-
Ein Fahrzeug kann automatisch gesteuert werden, indem eine gewünschte Trajektorie bestimmt und einem Regler zur Verfügung gestellt wird. Der Regler stellt auf der Basis der gewünschten Trajektorie eine Stellgröße bereit, die eine Bewegung des Fahrzeugs in Längs- oder Querrichtung beeinflusst.
-
Ein übliches Fahrzeug kann im Straßenverkehr unter sehr unterschiedlichen Bedingungen gesteuert werden. Beispielsweise können ein langsames Fahren im urbanen Raum ebenso wie eine Hochgeschwindigkeitsfahrt auf einer Autobahn oder ein sportliches Fahren auf einer Bergstraße gefordert sein. Dabei können unterschiedliche Umgebungsbedingungen herrschen, die eine Beeinflussung der Bewegung aufgrund der Steuergröße verändern können, beispielsweise Niederschlag, Nässe, Eis, Schnee, Wind, loser Untergrund oder Schlaglöcher auf einer Fahrbahn. Sensorwerte, auf deren Basis die Bewegung bestimmt werden kann, können aufgrund wechselnder Umgebungsbedingungen wie Vibrationen, Staub oder Dunkelheit unterschiedliche Qualitäten aufweisen.
-
Um eine Fahrsicherheit zu garantieren, wird häufig ein Regler verwendet, der bestimmte Anforderungen beispielsweise an Stabilität oder Robustheit sicher erfüllt. Ein solcher Regler kann seine Regelstrategie jedoch nicht an spezifische Eigenschaften des Fahrzeugs oder der Umgebung anpassen, sodass seine Qualität nicht verbessert werden kann. Ein lernfähiger Regler bietet andererseits die Möglichkeit, seine Regelstrategie zu verbessern, kann aber nicht allgemein bezüglich seiner Stabilität oder Robustheit validiert werden.
-
Wird eine vom lernfähigen Regler bereitgestellten Steuergröße unplausibel, so kann auf den robusten Regler zurückgeschaltet werden, sodass der lernfähige Regler seinen Einfluss auf die Steuerung des Fahrzeugs verliert.
-
Eine der vorliegenden Erfindung zu Grunde liegende Aufgabe besteht in der Angabe einer verbesserten Technik zur Steuerung eines Fahrzeugs. Die Erfindung löst diese Aufgabe mittels der Gegenstände der unabhängigen Ansprüche. Unteransprüche geben bevorzugte Ausführungsformen wieder.
-
Nach einem ersten Aspekt der vorliegenden Erfindung umfasst eine Steuerung für ein Fahrzeug eine Einrichtung zur Bestimmung einer gewünschten Trajektorie des Fahrzeugs; einen ersten Regler zur Bereitstellung einer ersten Stellgröße zur Steuerung des Fahrzeugs auf der Basis der gewünschten Trajektorie; einen unbeaufsichtigt lernfähigen zweiten Regler zur Bereitstellung einer zweiten Stellgröße zur Steuerung des Fahrzeugs auf der Basis der gewünschten Trajektorie; ein Mischglied, das dazu eingerichtet ist, eine kombinierte Stellgröße zur Steuerung des Fahrzeugs auf der Basis der ersten und zweiten Stellgröße zu bestimmen; und eine Überwachungseinrichtung, die dazu eingerichtet ist, eine aktuelle unmittelbare Belohnung und eine erwartete unmittelbare Belohnung für den zweiten Regler zu bestimmen, und einen Einfluss der zweiten Stellgröße auf die kombinierte Stellgröße zu verringern, falls die bestimmten Belohnungen um mehr als ein vorbestimmtes Maß voneinander abweichen.
-
Der Regler kann insbesondere zur Längs- und/oder Quersteuerung des Fahrzeugs verwendet werden. Das Fahrzeug kann ein Kraftfahrzeug mit einem Antriebsstrang umfassen, der zur Längssteuerung beeinflusst werden kann. Der Antriebsstrang kann insbesondere einen Antriebsmotor und ein bevorzugt steuerbares Getriebe umfassen.
-
Durch Vergleichen der Belohnungen kann ein sich anbahnendes Fehlverhalten des zweiten Reglers frühzeitig bestimmt werden. Der Einfluss des zweiten Reglers kann verringert werden, um ein Regelungsergebnis verstärkt mittels des ersten Reglers zu erzielen. Erfindungsgemäß können eine Zuverlässigkeit, Sicherheit oder Robustheit des ersten Reglers mit einer höheren erzielbaren Regelqualität des zweiten Reglers kombiniert werden.
-
Der Einfluss der zweiten Stellgröße kann auch verringert werden, falls die aktuelle unmittelbare Belohnung ein vorbestimmtes Maß unterschreitet. Dadurch kann berücksichtigt werden, dass der Unterschied der Belohnungen dann nur geringe Aussagekraft über die Qualität der erzielten Regelung haben kann, wenn die absolute unmittelbare Belohnung einen kleinen absoluten Betrag aufweist.
-
Der Einfluss der zweiten Steuergröße kann in Abhängigkeit einer gewichteten Summe der relativen Abweichung der Belohnungen und der aktuellen unmittelbaren Belohnung verringert werden. So kann ein kontinuierliches Maß zur Steuerung des Einflusses bestimmt werden, sodass der Einfluss stufenlos gesteuert werden kann. In einem Nominalzustand kann ein vorbestimmtes Verhältnis der ersten und der zweiten Steuergröße auf die kombinierte Steuergröße genutzt werden.
-
In einer weiteren Ausführungsform kann ein Maß oder Signal zur Steuerung des Einflusses der zweiten Steuergröße auch mit einem Schwellenwert verglichen werden. Wird der Schwellenwert überstiegen - oder unterschritten - kann der Einfluss auf eine vorbestimmte Weise verändert werden. Beispielsweise kann der Einfluss einem vorbestimmten Verhältnis entsprechen, solange ein Wert des bestimmten Signals einen Schwellenwert unterschreitet, und einem anderen vorbestimmten Verhältnis entsprechen, wenn das Signal den Schwellenwert übersteigt.
-
Einer der Gewichtungsfaktoren oder auch beide können auf der Basis der gewünschten Trajektorie und einem Fahrzustand des Fahrzeugs bestimmt werden. Der Fahrzustand kann insbesondere einen System- und/oder Umgebungsparameter umfassen.
-
Die erwartete unmittelbare Belohnung kann auf der Basis der gewünschten Trajektorie bestimmt werden. Soweit erforderliche können für die Bestimmung System- und Umgebungszustände oder System- und Umgebungsparameter einbezogen werden. Allerdings ist bevorzugt, dass die erwartete unmittelbare Belohnung ohne Berücksichtigung der zweiten Stellgröße und/oder der Abweichung einer Position des Fahrzeugs von einer durch die gewünschte Trajektorie bestimmten Position bestimmt wird. Eine Funktion zur Bestimmung der erwarteten unmittelbaren Belohnung kann in einer Trainingsphase oder eines Lernprozesses des zweiten Reglers gelernt werden. Dazu sind unterschiedliche Varianten vorstellbar, von denen Aspekte auch miteinander kombiniert werden können.
-
In einer ersten Variante wird eine bestimmte unmittelbare Belohnung zusammen mit sie begleitenden Umständen gespeichert. Die Umstände können insbesondere eine gewünschte Trajektorie, beziehungsweise eine auf der Trajektorie basierende Position oder Pose, und/oder einen Fahrzeugzustand umfassen. Eine erwartete unmittelbare Belohnung, die unter ähnlichen begleitenden Umständen entsteht, kann dann auf der Basis der gespeicherten Belohnung bestimmt werden. In der Praxis kann eine Vielzahl bestimmter unmittelbarer Belohnungen gespeichert werden und eine erwartete unmittelbare Belohnung kann auf der Basis derjenigen gespeicherten Belohnung bestimmt werden, deren Umstände am genauesten den vorliegenden Umständen entsprechen.
-
In einer zweiten Variante werden bestimmte unmittelbare Belohnungen zusammen mit begleitenden Umständen gespeichert. Auf diesen gespeicherten Belohnungen kann ein Cluster von unmittelbaren Belohnungen ähnlicher Umstände bestimmt werden. Dazu kann eine Methode des unbeaufsichtigten Lernens verwendet werden, beispielsweise k-means clustering oder k-medians clustering. Eine erwartete unmittelbare Belohnung kann dann auf der Basis eines Clusters mit ähnlichen Umständen bestimmt werden. Beispielsweise kann zu vorliegenden Umständen der nächstgelegene Cluster bestimmt werden. Die erwartete unmittelbare Belohnung kann als Mittelpunkt oder Median der gespeicherten Belohnungen des Clusters bestimmt werden.
-
In einer dritten Variante wird eine Funktion zur Bestimmung einer erwarteten unmittelbaren Belohnung approximiert. Die Approximation kann insbesondere während einer Trainings- oder Lernphase des zweiten Reglers erfolgen. Zur Approximation kann ein neuronales Netzwerk verwendet werden.
-
Die Regler können prinzipieller jeweils nach einer beliebigen Technik aufgebaut sein. Es ist jedoch bevorzugt, dass der erste Regler in irgendeiner Weise vertrauenswürdig und der zweite Regler lernfähig und insbesondere zum unbeaufsichtigten Lernen eingerichtet ist.
-
Der erste Regler kann beispielsweise aufgrund einer Zertifizierung, etwa nach ASIL, als vertrauenswürdig gelten. Der erste Regler kann auch Kraft seiner Auslegung oder Parametrierung als vertrauenswürdig gelten. Insbesondere kann der erste Regler einen robusten Regler umfassen, für den eine vorbestimmte Regelungseigenschaft formal nachweisbar ist. Der robuste Regler umfasst üblicherweise einen Regler, bei dessen Entwurf und Parameter-Auslegung besonderer Wert darauf gelegt wird, dass er trotz Abweichung des Streckenverhaltens von einem Nominalverhalten, gewünschte Eigenschaften annimmt. Der robuste Regler kann einen festen Regler umfassen, dessen Struktur, Regelungsparameter und/oder Regelungskoeffizienten fest gewählt sind. Sie werden üblicherweise beim Entwurf einer Regelapplikation auf das Fahrzeug festgelegt und sind nicht von der Zeit abhängig. Eine Anpassung eines Regelungsparameters an einen Fahrzeug-, Umgebungs-, oder Regelungszustand (Gain-Scheduling), kann jedoch möglich sein und beispielsweise mittels einer Zuordnungstabelle („lookup table“) erfolgen.
-
Ein solcher Regler kann mit bekannten Methoden zur Steuerung eines Fahrzeugs ausgelegt und/oder parametriert werden. Dadurch kann sichergestellt sein, dass die Regelung der Bewegung des Fahrzeugs in Längs- und/oder Querrichtung gewissen Qualitätsansprüchen garantiert genügt. Ein Nachweis kann insbesondere mittels einer theoretischen Betrachtung des Reglers erbracht werden. Die Regelungseigenschaft des robusten Reglers kann insbesondere eine Stabilität, Robustheit und/oder Trackinggüte des robusten Reglers umfassen. Insbesondere kann die Trackinggüte unter anzunehmenden schlechtesten Bedingungen bestimmt sein (worst case Trackinggüte). Diese Eigenschaften des robusten Reglers können formal nachgewiesen werden.
-
Der zweite Regler ist dazu eingerichtet, eine Strategie für die Regelung auf der Basis eines bestimmten Regelungserfolgs zu optimieren. In einer Ausführungsform kann der zweite Regler entsprechende Regelungseigenschaften erfüllen, wenn der aktuelle Steuerzustand im Bereich bekannter Steuerzustände liegt. Ein Nachweis dieser Bedingung kann empirisch erfolgen.
-
Nach einem weiteren Aspekt der Erfindung umfasst ein Fahrzeug eine hierin beschriebene Steuerung.
-
Nach noch einem weiteren Aspekt der Erfindung umfasst ein Verfahren zum Steuern eines Fahrzeugs Schritte des Bestimmens einer gewünschten Trajektorie des Fahrzeugs; des Bereitstellens einer ersten Stellgröße zum Steuern des Fahrzeugs auf der Basis der gewünschten Trajektorie mittels eines ersten Reglers; des Bereitstellens einer zweiten Stellgröße zum Steuern des Fahrzeugs auf der Basis der gewünschten Trajektorie mittels eines unbeaufsichtigt lernfähigen zweiten Reglers; des Bestimmens einer kombinierten Stellgröße zum Steuern des Fahrzeugs auf der Basis der ersten und zweiten Stellgröße; des Bestimmens einer Abweichung zwischen einer aktuellen unmittelbaren Belohnung und einer erwarteten unmittelbare Belohnung für den zweiten Regler; und des Verringerns des Einflusses der zweiten Stellgröße auf die kombinierte Stellgröße, falls die bestimmten Belohnungen um mehr als ein vorbestimmtes Maß voneinander abweichen. Bevorzugt wird das Fahrzeug mittels der bestimmten Stellgröße gesteuert, insbesondere in Längs- und/oder Querrichtung.
-
Die Erfindung wird nun mit Bezug auf die beigefügten Figuren genauer beschrieben, in denen:
- 1 ein System; und
- 2 ein Ablaufdiagramm eines Verfahrens
darstellt.
-
1 zeigt ein System 100 mit einem Fahrzeug 105, das eine Vorrichtung 110 umfasst. Die Vorrichtung 110 ist dazu eingerichtet, eine Längs- und/oder Querbewegung des Fahrzeugs 105 zu steuern. Das Fahrzeug 105 kann ein Kraftfahrzeug mit einem Antriebsstrang umfassen, der zur Längssteuerung beeinflusst werden kann. Der Antriebsstrang kann insbesondere einen Antriebsmotor und ein bevorzugt steuerbares Getriebe umfassen. Vorliegend wird rein beispielhaft eine Steuerung, insbesondere eine Regelung, des Fahrzeugs 105 in Querrichtung beschrieben.
-
Als Steuervorgabe wird eine gewünschte Trajektorie angenommen, die gegenüber einer Umgebung des Fahrzeugs 105 definiert ist. Zur Steuerung des Fahrzeugs 105 auf die gewünschte Trajektorie stellt die Vorrichtung 110 ein Steuersignal bereit, das hier an eine Lenkung 115 geführt ist, um eine Position des Fahrzeugs 105 in Querrichtung zu verändern, während das Fahrzeug 105 fährt. Andere oder weitere Aktuatoren zur Quersteuerung des Fahrzeugs 105 sind ebenfalls möglich. In einer weiteren Ausführungsform kann alternativ oder zusätzlich auch eine Längssteuerung des Fahrzeugs 105 erfolgen. Dabei kann eine Längsposition des Fahrzeugs 105 etwa mittels eines Antriebsmotors oder einer Bremseinrichtung beeinflusst werden.
-
Die Vorrichtung 110 umfasst beispielhaft eine Verarbeitungseinrichtung 120, die dazu eingerichtet ist, das Fahrzeug 105 auf der Basis von Funktionen zu steuern, die hierin insbesondere mit Bezug auf 2 genauer beschrieben sind. Optional ist die Verarbeitungseinrichtung 120 mit einer oder mehreren Informationsquellen zur Bestimmung eines Bewegungszustands des Fahrzeugs 105 verbunden. Beispielhaft sind ein erster Sensor 125, der insbesondere eine Kamera oder einen LiDAR-Sensor umfassen kann, und ein zweiter Sensor 130 dargestellt, der insbesondere einen Empfänger eines satellitengestützten Navigationssystems oder ein Odometer umfassen kann. Ein Odometer ist bevorzugt dazu eingerichtet, eine Position oder Pose des Fahrzeugs 105 relativ zu einer zurückliegenden Position oder Pose zu bestimmen. Dazu können insbesondere ein zurückgelegter Weg eines oder mehrerer Räder des Fahrzeugs 105 und/oder eine beispielsweise optisch erfasste Landmarke, deren absolute Position bekannt sein kann, betrachtet werden. Die Bestimmung kann mittels eines SLAM-Verfahrens („simultaneous localization and mapping“) erfolgen.
-
In einem einfachen Fall stellt die Vorrichtung 110 ein Steuersignal bereit, das an einen Aktuator zur Quersteuerung des Fahrzeugs 105 geführt werden kann. Die Vorrichtung 110 kann jedoch auch mehrere Steuersignale bereitstellen, die an verschiedene Aktuatoren zur Längs- oder Quersteuerung geführt werden können. Beispielsweise können zur Quersteuerung des Fahrzeugs 105 Steuersignale für eine Vorderradlenkung, eine Hinterradlenkung oder eine individuelle Radbremse bereitgestellt werden. Zur Längssteuerung des Fahrzeugs 105 können Steuersignale für einen ersten Antriebsmotor (etwa eine Brennkraftmaschine), einen zweiten Antriebsmotor (etwa eine elektrische Maschine), ein von einem Antriebsstrang umfasstes Getriebe, einen Rekuperator, einen Retarder oder eine Achs- oder Radbremse bereitgestellt werden. Andere Aktuatoren sind ebenfalls vorstellbar.
-
2 zeigt ein Blockschaltbild einer Steuerung 110 für ein Fahrzeug 105. Die Steuerung 110 umfasst mehrere Funktionsblöcke, die jeweils durch eine entsprechende Einrichtung realisiert werden können. Die Anordnung von Funktionsblöcken kann aber auch als Verfahren 200 aufgefasst werden, wobei ein Funktionsblock einen oder mehrere Verfahrensschritte repräsentiert. Die Verfahrensschritte können auf einer oder mehreren miteinander verbundenen Einrichtungen ausgeführt werden. In 1 sind nur die für die vorliegende Erfindung wesentlichen Funktionsblöcke und Signalflüsse dargestellt. Beispielsweise sind zusätzliche Signale aus Umgebungseinflüssen oder überlagerte Steuerungs- oder Zustandsautomaten nicht dargestellt.
-
Ein Trajektorienplaner 205 ist dazu eingerichtet, eine gewünschte Trajektorie bereitzustellen, entlang der das Fahrzeug 105 geführt werden soll. Der Trajektorienplaner 205 kann beispielsweise Teil einer Steuerung zum autonomen Fahren des Fahrzeugs 105 sein. Die Trajektorie kann etwa auf der Basis von Kartenmaterial und/oder Sensorwerten von Umfeldsensoren 125, 130 bestimmt werden. Eingaben in den Trajektorienplaner 205 sind mit O bezeichnet, die bereitgestellte gewünschte Trajektorie mit P. Ein erster Regler 210 und ein zweiter Regler 215 erhalten die bestimmte Trajektorie P jeweils als Führungsgröße.
-
Der erste Regler 210 ist bevorzugt ein robuster Regler, der speziell daraufhin ausgelegt ist, vorbestimmte Regelungseigenschaften zu garantieren. Die vorbestimmten Regelungseigenschaften des ersten Reglers 210 können insbesondere eine vorbestimmte Stabilität, Robustheit oder worst-case Trackinggüte umfassen. Andere mögliche Anforderungen umfassen eine maximale Einschwingzeit, eine Höhe des Überschwingens oder auch eine Pollage. Die gewünschten Eigenschaften können von aktuellen Eingangs- oder Ausgangsparametern abhängen. Die vorbestimmten Regelungseigenschaften erbringt der robuste Regler 210 bevorzugt auch dann, wenn das Verhalten einer Regelungsstrecke, auf die der Regler 210 wirkt, von einem vorbestimmten Nominalverhalten abweicht. Dazu wird üblicherweise vorausgesetzt, dass Grenzen, innerhalb derer die Parameter schwanken können, bekannt sind. Zum formalen Nachweis, dass der robuste Regler 210 vorbestimmte Regelungseigenschaften erfüllt, kann insbesondere das Erfüllen einer Lyapunov-Bedingung nachgewiesen werden. Ein mögliches Verfahren für eine robuste Regelung stellt die H-unendlich-Regelung dar. Der erste Regler 210 stellt eine erste Stellgröße u1 bereit.
-
Der zweite Regler 215 ist bevorzugt ein lernfähiger Regler, der dazu eingerichtet ist, einen Erfolg („reward“) einer durchgeführten Regelung zu bestimmen und eine Regelungsstrategie eigenständig zu optimieren. Dabei kann beispielsweise eine bekannte Technik des verstärkenden Lernens („reinforcement learning“) angewendet werden, etwa eine Monte-Carlo-Methode oder ein Ansatz des Temporal Difference Learning. In einer Ausführungsform kann der lernfähige Regler 215 mittels eines neuronalen Netzwerks realisiert werden. Bevorzugt hat der zweite Regler 215 bereits einen gewissen Optimierungsgrad erreicht, sodass er zumindest eine einfache Regelungsstrategie („policy“) anwenden kann. Der zweite Regler 215 stellt eine zweite Stellgröße u2 bereit.
-
Der zweite Regler 215 kann unter unterschiedlichen Fahrbedingungen des Fahrzeugs 105 trainiert werden, beispielsweise auf einer speziellen Teststrecke, bei langsamer Fahrt im Stadtgebiet oder bei schneller Fahrt auf einer Autobahn. Lernerfolge („policies“) unterschiedlicher zweiter Regler 215 an unterschiedlichen Fahrzeugen 105 können miteinander kombiniert werden, sodass Daten einer Fahrzeugflotte mehrerer Fahrzeuge 105 zum Trainieren des zweiten Reglers 215 verwendet werden können.
-
Die Stellgrößen u1 und u2 werden von einem Mischglied 220 zu einer kombinierten Stellgröße u zusammengefasst. Allgemein gilt u=f(u1,u2), wobei in einem Normalbetrieb beispielsweise u=u2 oder u=u1+u2 gelten kann. Wird bestimmt, dass der zweite Regler 215 nicht ausreichend zuverlässig arbeitet, so kann sein Einfluss auf die Steuergröße u verringert sein und es kann beispielsweise gelten u=u1. Eine Änderung zwischen unterschiedlichen Proportionierungen zwischen u1 und u2 kann verzögerungsfrei oder als Übergang gesteuert werden, insbesondere zeitgesteuert.
-
Die Kombination von u1 und u2 zu u im Mischglied 220 kann insbesondere in Abhängigkeit eines Signals T einer Überwachungseinrichtung 230 erfolgen, die unten noch genauer beschrieben wird. In einer Ausführungsform können in einer Vielzahl Überwachungseinrichtungen 1 bis n jeweils Betrachtungen angestellt werden, um ein Signal Ti zur Steuerung des Mischglieds 220 zu bestimmen, wobei das Signal T aus den Signalen T1, ... Tn zusammengesetzt werden kann. Anders ausgedrückt kann eine Vielzahl von Tests durchgeführt werden und eine Verringerung des Einflusses des zweiten Reglers 215 auf die Steuerung des Fahrzeugs 105 bereits auf der Basis eines der Tests gesteuert werden. Nur wenn keiner der Tests auf die Notwendigkeit einer Verringerung hinweist, kann ein insbesondere für einen Normalbetrieb (Nominalfall) vorbestimmter Einfluss des zweiten Reglers 215 bestehen bleiben.
-
Die bereitgestellte Stellgröße u kann ein einzelnes Signal umfassen. Beispielsweise kann zur Längssteuerung des Fahrzeugs 105 ein Steuersignal für einen Antriebsmotor oder zur Quersteuerung ein Lenkwinkel einer Lenkung bestimmt werden. Die Stellgröße u kann aber auch einen Vektor mehrerer Signale umfassen. Bei der Längssteuerung können beispielsweise zusätzlich Signale für eine Radbremse oder einen Retarder bestimmt werden. Bei der Quersteuerung können beispielsweise zusätzlich ein radindividuelles Bremssignal oder ein Signal für einen Lenkwinkel einer Hinterachslenkung bestimmt werden. Auch die bestimmte Trajektorie P kann mehrere Komponenten umfassen, von denen die beiden Regler 210, 215 unabhängig voneinander jeweils eine oder mehrere verwenden können.
-
Die Stellgröße u beeinflusst eine Strecke 225, die bevorzugt das Fahrzeug 105 umfasst. Ein resultierender Fahrzustand x des Fahrzeugs 105 kann beispielsweise mittels Sensoren 125, 130 bestimmt werden, wobei der Fahrzustand x eine oder mehrere Komponenten umfassen kann. Beispielsweise kann der Fahrzustand x Komponenten für eine absolute Position, eine relative Position zu einer Fahrbahn oder einer Landmarke, oder eine Geschwindigkeit umfassen. Eine Komponente kann sich auf eine oder mehrere Raumrichtungen beziehen. Der Fahrzustand x kann an einen oder beide Regler 210, 215 zurückgeführt werden, wobei die Regler 210, 215 üblicherweise nicht die gleichen Komponenten des Fahrzustands x auswerten. Der zweite Regler 215 erfordert in der Regel andere oder weitere Komponenten, da er seinen Regelungserfolg (Belohnung, reward) auf der Basis des Fahrzustands x bestimmen muss.
-
Der zweite Regler 215 realisiert einen lernenden Agenten, der bevorzugt auf Methoden des bestärkenden Lernens (auch: verstärkendes Lernen, „reinforcement learning“) basiert. Dazu wird auf der Basis eines Zustands des zu steuernden Systems, der vom zweiten Regler 215 bereitgestellten Steuergröße u1 und einem daraus resultierenden Zustand des Systems eine Belohnung („reward“) bestimmt. Die Belohnung drückt aus, wie gut die Aktion des zweiten Reglers 215 - die bereitgestellte Steuergröße u2 - geeignet ist, ein gewünschtes Verhalten des Systems zu bewirken. Die Steuerung kann für diskrete Zeitschritte durchgeführt oder betrachtet werden. In einer Ausführungsform erhält der zweite Regler 215 für jede Aktion in einem Teilschritt eine Belohnung. Belohnungen vieler Schritte können kumuliert werden, um eine langfristig höhe Regelungsqualität zu erreichen.
-
Die Überwachungseinrichtung 230 kann einen aktuellen unmittelbaren Reward r
plant als Rückführung von der Strecke
225 bestimmen. Der erste Regler
210 benötigt keinen Reward, kann aber trotzdem eine Rückführung von der Strecke
225. Der Reward stellt im Kontext des Reinforcement Learning das Gütefunktional bzw. das Lernziel dar. Ferner kann die Überwachungseinrichtung 230 einen erwarteten unmittelbaren Reward r̂
plant bestimmen:
-
Für die folgende Beschreibung wird angenommen das der Reward jeweils am Eingang der Überwachungseinrichtung 230 auf einen vorbestimmten Bereich, hier beispielhaft der Bereich [0, 1], transformiert wird. Ein Reward von 1 bedeutet folglich eine sehr gute Erfüllung des Lernziels, wohingegen ein Reward von 0 auf eine sehr schlechte Erfüllung des Lernziels hindeutet.
-
Eine Abweichung zwischen einem aktuellem unmittelbaren Reward r
plant und einem erwarteten unmittelbaren Reward r̂
plant kann mittels einer Norm, beispielsweise einer 1-Norm (Summennorm, Betragssummennorm), oder einer 2-Norm (euklidische Norm, Standardnorm), bestimmt und weiter optional mit einem Faktor w
1 gewichtet werden. Das relative Gütemaß
stellt ein Maß für eine Abweichung zwischen einer erwarteten Regelgüte aus einem zurückliegenden Lernprozess und einer aktuellen Regelgüte dar. Eine große Abweichung lässt darauf schließen, dass das Lernziel für die Referenztrajektorie P und den aktuellen System- bzw. Umgebungszustand nicht wie erwartet erfüllt wird.
-
Streben sowohl der aktuelle unmittelbare Reward rplant als auch der erwartete unmittelbare Reward r̂plant gegen null, so zeigt das relative Gütemaß eine kleine Abweichung an. Gleichung 1 kann daher um einen Term w2(1 - rplant) erweitert werden, der nur auf dem aktuellen unmittelbaren Reward rplant basiert und so berechnet wird, dass sein Wert gegen w2 strebt, wenn der aktuelle unmittelbare Reward rplant gegen null geht.
-
Die Größe ∈ strebt folglich für eine gute Übereinstimmung zwischen aktuellem unmittelbaren Reward rplant und erwartetem unmittelbaren Reward r̂plant, und einen hohen aktuellem unmittelbaren Reward rplant gegen null. Für eine schlechte Übereinstimmung zwischen aktuellem unmittelbaren Reward rplant und erwartetem unmittelbaren Reward r̂plant, und einen niedrigen aktuellem unmittelbaren Reward r̂plant strebt ∈ entsprechend den Faktoren w1 und w2 von null weg zu größeren Werten. Die Faktoren w1 und w2 können dabei Funktionen der Referenztrajektorie P und des aktuellen System- bzw. Umgebungszustands sein. Umfasst die Größe ∈ kleine Werte, so kann dies ausdrücken, dass der zweite Regler 215 gut arbeitet, während größere Werte für ∈ ausdrücken können, dass der zweite Regler 215 keine zufriedenstellende Steuerung durchführen kann.
-
Der erwartete unmittelbare Reward (expected immediate reward) muss eine Funktion der gewünschten Trajektorie P sein. Soweit erforderlich können System- oder Umgebungszustände, sowie System- oder Umgebungsparameter zur Bestimmung mit einbezogen werden.
-
Die Bestimmung des erwarteten unmittelbaren Reward r̂plant sollte jedoch die Stellgrößen u2 des lernenden Agenten 215 und die Abweichung zwischen gewünschter Trajektorie P und aktueller Trajektorie nicht beinhalten. Die Funktion zur Berechnung des erwarteten unmittelbaren Reward r̂plant entsprechend Gleichung 3 kann während einer Trainingsphase oder während eines zurückliegenden Lernprozesses bestimmt werden. Dazu können Kombinationen der Eingangsgrößen P und x, und des unmittelbaren Rewards rplant (zumindest temporär) gespeichert werden.
-
Die anschließende Bestimmung des erwarteten unmittelbaren Reward r̂plant kann auf unterschiedliche Weisen erfolgen.
-
In einer ersten Variante erfolgt ein Abgleich der aktuellen Eingangsgrößen P und x mit den gespeicherten Eingangsgrößen in den Daten. Dazu können die aktuellen Eingangsgrößen P und x jeweils mit allen gespeicherten Kombinationen von Eingangsgrößen direkt verglichen werden. Derjenige Reward, für den die aktuellen Eingangsgrößen die geringste Abweichung zu einem Satz der gespeicherten Eingangsgrößen haben, kann dann als erwarteter unmittelbarer Reward r̂plant ausgegeben werden.
-
In einer zweiten Variante kann der Abgleich der aktuellen Eingangsgrößen P und x mit den gespeicherten Daten durch Anwendung eines Clustering Verfahrens aus dem Bereich des „unsupervised learnings“ wie k-means oder k-medians clustering vereinfacht werden. Hierbei kann der nächstgelegene Mittelpunkt oder Median eines Clusters der gespeicherten Daten zu den aktuellen Eingangsgrößen P und x bestimmt werden. Der erwartete unmittelbare Reward r̂plant kann dann jeweils dem Mittelpunkt oder Median der Rewards der Datenpunkte des Clusters entsprechen.
-
In einer dritten Variante kann die Funktion r̂plant = f (P, x) durch eine andere Methode approximiert werden, beispielsweise mittels eines neuronalen Netzwerks. Während der Laufzeit kann der erwartete unmittelbare Reward r̂plant dann durch Auswertung der gewonnenen Funktion bestimmt werden.
-
In einer Ausführungsform wird das Signal ∈ direkt als Signal T an das Mischglied 220 weitergeleitet. Je größer das Signal T ist, desto stärker kann der Einfluss der zweiten Steuergröße u2 auf die Steuergröße u verringert werden. In einer anderen Ausführungsform kann der Einfluss von u2 auf u auf ein vorbestimmtes Maß reduziert werden, falls ∈ einen vorbestimmten Schwellenwert übersteigt. Das vorbestimmte Maß kann insbesondere null betragen.
-
Die vorgeschlagene Überwachungseinrichtung 230 kann sicherstellen, dass der lernende Agent 215 für einen Betriebszustand, für den noch keine ausreichend gute Regelung erlernt wurde, keinen Durchgriff auf die Strecke 225 hat. Die Überwachung des lernenden Agenten 215 anhand des aktuellen unmittelbaren Rewards rplant und des erwarteten unmittelbaren Rewards r̂plant erfolgt ohne jegliches Modell für die Strecke 225, eine Umgebung oder den lernenden Agenten 215. Die Überwachung erfolgt rein datengetrieben, ohne dass für die Überwachungseinrichtung 230 Modellannahmen nötig sind.
-
Bezugszeichenliste
-
- 100
- System
- 105
- Fahrzeug
- 110
- Vorrichtung
- 115
- Aktuator (Lenkung)
- 120
- Verarbeitungseinrichtung
- 125
- erster Sensor (Kamera)
- 130
- zweiter Sensor (Odometer)
- 200
- Verfahren
- 205
- Trajektorienplaner
- 210
- erster Regler (robuster Regler)
- 215
- zweiter Regler (lernfähiger Regler, lernender Agent)
- 220
- Mischglied
- 225
- Strecke