DE102019210372A1

DE102019210372A1 - Verfahren, Vorrichtung und Computerprogramm zum Erstellen einer Strategie für einen Roboter

Info

Publication number: DE102019210372A1
Application number: DE102019210372.3A
Authority: DE
Inventors: Frank Hutter; Lior Fuks; Marius Lindauer; Noor Awad
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2021-01-14
Also published as: CN112215363A; US11628562B2; US20210008718A1

Abstract

Die Erfindung betrifft ein Verfahren zum Erstellen einer Strategie für einen Roboter (10), umfassend die folgenden Schritte: Initialisieren der Strategie θ₀ und einer Episodenlänge E; Mehrfaches Ausführen der Schleife mit folgenden Schritten: Erstellen einer Mehrzahl von weiteren Strategien abhängig von der Strategie θ₀. Anwenden der Mehrzahl der weiteren Strategien für die Länge der Episodenlänge E; Ermitteln jeweils einer Gesamtbelohnung F_E, die beim Anwenden der jeweilgen weiteren Strategie erzielt wird; Aktualisieren der Strategie θ₀ abhängig von einer zweiten Mehrzahl der weiteren Strategien, die die größten Gesamtbelohnungen erzielt haben. Nach jedem Ausführen der Schleife wird die Episodenlänge E vergrößert. Die Erfindung betrifft ferner ein Computerprogramm und eine Vorrichtung zum Ausführen des Verfahrens und ein maschinenlesbares Speicherelement, auf dem das Computerprogramm gespeichert ist.

Description

Technisches Gebiet
Die Erfindung betrifft ein Verfahren zum Erstellen einer Strategie, sodass dann, wenn ein Roboter situativ anhand der Strategie Aktionen ausführt, ein vorgebbares Ziel erreicht wird. Ebenso betrifft die Erfindung eine Vorrichtung und ein Computerprogramm, die jeweils eingerichtet sind, das Verfahren auszuführen.
Stand der Technik
Die Autoren Chrabaszcz et al offenbaren in ihrer Veröffentlichung „Back to basics: Benchmarking canonical evolution strategies for playing atari.“ arXiv preprint arXiv:1802.08842 (2018) eine Entwicklungsstrategie (engl. Evolution Strategy, ES) als eine Alternative zu bestärkendem Lernen (engl. reinfocement learning).
Vorteile der Erfindung
Es wurde beobachtet, dass manche Strategien Agenten, insbesondere Roboter, befähigen, komplexe Aufgaben lösen können, jedoch bei einfachen Teilaufgaben versagen. Dass Roboter durchweg zuverlässig gesteuert werden, soll im Folgenden ein Verfahren vorgestellt werden, welches es ermöglicht auf eine einfache Weise eine Strategie zu erstellen, die für eine zuverlässige Steuerung von Robotern eingesetzt werden kann. Ferner lässt sich die Strategie einfach für komplexe Aufgaben erweitern.
Offenbarung der Erfindung
In einem ersten Aspekt wird ein, insbesondere computerimplementiertes, Verfahren zum Erstellen einer Strategie (engl. policy) vorgeschlagen, sodass dann, wenn ein Agent, insbesondere Roboter, situativ anhand der Strategie Aktionen ausführt, ein vorgebbares Ziel erreicht oder eine Aufgabe erledigt wird. Das Verfahren beginnt mit einem Initialisieren der Strategie θ₀ und einer Episodenlänge (engl. episode length E). Daraufhin folgt ein mehrfaches Ausführen einer Schleife, zweckgemäß eine (Computer-)Programmschleife, mit den nachfolgend erläuterten Schritten. Eine Schleife ist eine Kontrollstruktur in einer Programmiersprache, die einen Anweisungsblock solange wiederholt, wie eine Schleifenbedingung gültig bleibt bzw. bis eine Abbruchbedingung erfüllt ist.
Die Schleife beginnt mit einem Erstellen einer Mehrzahl von weiteren Strategien abhängig von der Strategie θ₀. Die weiteren Strategien können durch ein beaufschlagen der Strategie mit einer zufällig gezogenen Größe erstellt werden. Daraufhin folgt ein Anwenden der Mehrzahl der weiteren Strategien für jeweils zumindest eine Episode mit der Episodenlänge E. Falls die Strategie oder die Umgebung des Agenten probabilistische Eigenschaften hat, dann können die weiteren Strategien für mehrere Episoden angewendet werden. Daraufhin folgt ein Ermitteln jeweils einer Gesamtbelohnung (engl. cumulative reward) F_E, die beim Anwenden der jeweilgen weiteren Strategie erzielt wird und ein Aktualisieren der Strategie θ₀ abhängig von einer zweiten Mehrzahl der weiteren Strategien, die die größten Gesamtbelohnungen erzielt haben. Die zweite Mehrzahl ist eine vorgebbare Anzahl, wobei die vorgebbare Anzahl kleiner als die Anzahl aller weiteren Strategien ist. Nach jedem Ausführen aller Schritte der Schleife wird die Episodenlänge E vergrößert.
Unter Anwenden der Strategie kann verstanden werden, dass diese durch einen Agenten, insbesondere den Roboter, verwendet wird, der abhängig von der Strategie Aktionen ausführt, z.B. um seine Umgebung zu erkunden, oder sein Ziel zu erreichen. Beim Anwenden der Strategie wird abhängig von einem aktuellen Zustand der Umgebung des Agenten eine Aktion des Agenten anhand der Strategie ermittelt.
Beim Ausführen der Aktion durch den Agenten führt dies zu einer Veränderung der Umgebung. Diese Veränderung kann mit einer Belohnung verknüpft sein.
Alternativ oder zusätzlich kann die Belohnung abhängig von der Aktion sein. Die Gesamtbelohnung ist dann die Summe über die Belohnungen aller Aktionen innerhalb einer Episode. Die Episode ist eine Folge von Aktionen und die Episodenlänge ist eine Anzahl der Aktionen dieser Episode.
Der Vorteil ist, dass zu erste gelernt wird, kurze und einfache Aufgaben zu lösen, woraus erstes Wissen für die Strategie bestimmt wird. Dann wird dieses Wissen verwendet, um bei steigender Episodenlänge anspruchsvollere Aufgaben zu lösen. Dadurch wird ferner ein Transfer des Wissens über das Lösen von leichten Aufgaben für komplexere Aufgaben erreicht. Ein weiterer Vorteil ist, dass durch das Fokussieren auf einfachere und kürzere Aufgaben zu Beginn des Verfahrens, eine stabilere und schnellere Optimierung der Strategie erzielt wird. Durch die zu Beginn verkürzten Episoden wird auch nur ein Ausschnitt der Umgebung exploriert. Dies erlaubt ein Erlernen einer simplen Strategie, welche auch auf die gesamte Umgebung erfolgsversprechend angewendet werden kann. Dies resultiert schlussendlich in einer besseren Generalisierung der Strategie. Ferner können durch die verkürzten Episoden mehrere Strategien innerhalb eines vorgebbaren Zeitbudget ausgewertet werden, wodurch schneller gelernt werden kann.
Es wird vorgeschlagen, dass die Episodenlänge E inital auf einen Wert kleiner als die erwartete Anzahl von Aktionen zum Erreichen des vorgebbaren Ziels gesetzt wird. Die Episodenlänge E kann ferner auf einen Wert gesetzt werden, sodass zum ersten Mal eine Belohnung empfangen werden kann oder ein Teilziel erreicht werden kann. Denkbar ist auch, dass die Anzahl von Aktionen abhängig von der max. erreichbaren Belohnung (engl. reward), und insbesondere von den einzelnen erreichbaren Belohnungen durch die Aktionen, gesetzt wird. Vorzugsweise wird die erwartete Anzahl von Aktionen durch eine vorgebbare Konstante dividiert, wodurch ein aggressiveres Erkunden eingestellt werden kann.
Weiterhin wird vorgeschlagen, dass die erwartete Anzahl der Aktionen durch eine Monte-Carlo Simulation ermittelt wird. Unter einer Monte Carlo Simulation ist zu verstehen, dass der Agent, jeweils anhand von mehreren zufällig initialisierten Strategien gesteuert wird. Es kann dann abhängig vom Erreichen des Ziels und/oder abhängig des Fortschrittes des Agenten und/oder abhängig von der dann erzielten Gesamtbelohnung die Episodenlänge ausgewählt werden.
Weiterhin wird vorgeschlagen, dass zusätzlich ein Zeitbudget (engl. time budget T) initalisiert wird. Die Schleifeniterationen werden nur solange berechnet, wie verbleibende Zeit des Zeitbudgets T vorhanden ist. Das Zeitbudget T kann entweder konstant über alle Schleifendurchgänge sein oder kann nach jedem Schleifendurchlauf vergrößert, insbesondere verdoppelt, werden. Das Zeitbudget ist die Zeit, die zur Verfügung steht, die weiteren Strategien anzuwenden und die initialisierte Strategie zu aktualisieren. Das Zeitbudget ist also eine mögliche Abbruchbedingung der Schleife. Das Zeitbudget ist eine physikalische Zeit, die z.B. durch eine Stoppuhr gemessen werden kann. Zusätzlich oder alternativ kann das Zeitbudget mittels eines Zeitgebers (engl. Timer), der vorzugsweise in einer Recheneinheit integriert ist, auf welcher das Verfahren ausgeführt wird, vorgegeben werden.
Weiterhin wird vorgeschlagen, dass mittels eines Sensors der aktuelle Zustand des Roboters und/oder ein aktueller Zustand der Umgebung des Roboters erfasst und abhängig von dem Sensorwert mittels der erstellten Strategie eine Steuergröße für den Roboter ermittelt wird.
Es sei angemerkt, dass die Strategie nicht nur zum Steuern des Roboters, sondern auch zum Steuern einer zumindest teilautonomen Maschine, eines zumindest teilautonomen Fahrzeuges, eines Werkzeuges, einer Werkmaschine oder eines Flugobjektes wie einer Drohne erstellt und verwendet werden kann.
In einem weiteren Aspekt der Erfindung wird eine Verwendung eines trainierten neuronalen Netzes vorgeschlagen, um abhängig von einem ermittelten Ausgangssignal eines neuronalen Netzes ein Ansteuersignal zur Ansteuerung für den Roboter bereitzustellen, wobei die erstellte Strategie nach dem ersten Aspekt durch das neuronale Netz implementiert ist. Das Ausgangssignal entspricht der Aktion, die die erstellte Strategie ermittelt. Vorzugsweise charakterisiert die erstellte Strategie die Parametrisierung des neuronalen Netzes.
In einem weiteren Aspekt wird ein Computerprogramm vorgeschlagen. Das Computerprogramm ist eingerichtet, eines der vorherigen genannten Verfahren auszuführen. Das Computerprogramm umfasst Anweisungen, die einen Computer veranlassen, eines dieser genannten Verfahren mit all seinen Schritten auszuführen, wenn das Computerprogramm auf dem Computer abläuft. Ferner wird ein maschinenlesbares Speichermodul vorgeschlagen, auf welchem das Computerprogramm gespeichert ist. Des Weiteren wird eine Vorrichtung vorgeschlagen, die eingerichtet ist eines der Verfahren auszuführen.
Ausführungsbeispiele der oben genannten Aspekte sind in den beiliegenden Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Dabei zeigen:
Figurenliste

1 eine schematische Darstellung eines Roboters;
2 eine schematische Darstellung eines ersten Pseudocodes;
3 eine schematische Darstellung eines zweiten Pseudocodes;
4 eine schematische Darstellung einer Vorrichtung zum Ausführen der Pseudocodes.

1 zeigt eine schematische Darstellung eines Roboters (10). Der Roboter (10) ist eingerichtet, selbständig durch Explorieren, zweckgemäß durch Interagieren mit, seiner Umwelt (11) eine Strategie (engl. policy) zu erlernen. Abhängig von der Strategie und einer erfassten Sensorgröße (x) ermittelt ein Entscheidungsmodul (14), umfassend die Strategie, eine optimale Aktion (a). In einem Ausführungsbeispiel ist die Strategie in Form von Parametern (θ) eines neuronalen Netzes in einem Speicher P hinterlegt. Das Entscheidungsmodul (14) umfasst dieses neuronale Netz, welches die Aktion (a) abhängig von der erfassten Sensorgröße (x) ermittelt. Die Architektur dieses neuronalen Netzes kann beispielsweise die Architektur sein, welche in dem eingangs zitierten Stand der Technik Dokument beschrieben wird. Die Sensorgröße (x) wird mittels eines Sensors (13) erfasst. Dieser erfasst hierzu einen Zustand (12) der Umwelt (11) des Roboters (10). Anhand der Aktion (a) kann ein Aktor (15) des Roboters (10) angesteuert werden. Durch Ausführen der Aktion (a) durch den Aktor (15) verändert sich der Zustand (16) der Umwelt (11). Das Ausführen der Aktion (a) kann zum Explorieren der Umwelt (11) oder zum Lösen der vorgebbaren Aufgabe oder Erreichen eines vorgebbaren Ziels dienen.
Der Roboter (10) umfasst ferner eine Recheneinheit (17) und ein maschinenlesbares Speicherelement (18). Auf dem Speicherelement (18) kann ein Computerprogramm gespeichert sein, welches Befehle umfasst, die beim Ausführen der Befehle auf der Recheneinheit (17) dazu führen, dass mittels der Recheneinheit (17) der Roboter (10) betrieben wird.
Es sei angemerkt, dass der Roboter (10) auch ein zumindest teilautonomes Fahrzeug, eine Drohne oder eine Produktions-/Werk-maschine sein kann.
2 zeigt beispielhaft einen Pseudocode eines Verfahrens „Canonical Evolution Strategy (ES)“ zum Erstellen der Strategie für den Roboter (10).
Zu Beginn des Pseudocodes muss eine initiale Strategie θ₀, ein Zeitbudget T, eine maximale Episodenlänge E, eine Populationsgröße λ, eine Elternpopulationsgröße µ und eine Mutationsschrittgröße σ und eine Gesamtbelohnungsfunktion F(·) vorgegeben sein. Die initiale Strategie θ₀ ist vorzugsweise eine Größe, die die Parameter des neuronalen Netzes sind. Die initiale Strategie kann zufällig initialisiert sein.
Zu Beginn des Pseudocodes wird in Zeile 1 und 2 über die Elternpopulationsgröße µ eine erste Schleife ausgeführt, um die Konstanten w_j zu ermitteln.
Daraufhin wird die Optimierung der Strategie durch eine zweite Schleife in Zeile 4 bis 11 durchgeführt.
Die zweite Schleife wird solange ausgeführt, bis das Zeitbudget T aufgebraucht wurde. In der zweiten Schleife wird die initialisierte Strategie θ₀ durch ein Beaufschlagen mit z.B. einem zufälligen Rauschen mutiert. Daraufhin wird in Zeile 7 die Performance der mutierten Strategien mittels der Gesamtbelohnungsfunktion F bewertet. Die Gesamtbelohnungsfunktion F kann eine kumulierte Belohnung (engl. cumulative reward) über eine Episode mit Episodenlänge E sein.
In Zeile 9 werden dann die Strategien in absteigender Reihenfolge nach ihrer erzielten Gesamtbelohnung s_i angeordnet. In der darauf folgenden Zeile 10 wird die Strategie abhängig von den top-µ Strategien, die jeweils mit der Konstane w_j gewichtet werden, aktualisiert.
Die aktualisierte Strategie kann daraufhin als finale Strategie ausgegeben werden oder verwendet werden, um erneut die zweite Schleife auszuführen. Das erneute ausführen der zweiten Schleife kann beliebig oft wiederholt werden, bis ein vorgebbares Abbruchkriterium erfüllt wird. Das vorgebbare Abbruchkriterium kann zum Beispiel sein, dass eine Änderung der Strategie kleiner als ein vorgebbarer Schwellwert ist.
2 zeigt beispielhaft einen Pseudocode eines Verfahrens, um das Zeitbudget T und die Episodenlänge E während des Ausführen des ES dynamisch anzupassen.
Hierzu wird initial ein Episodenplaner (episode scheduler), ein Zeitplaner (time scheduler) und eine Anzahl von Iterationen N vorgegeben.
In Zeile 1 des zweiten Pseudoalgorithmus wird die Strategie θ₀ durch ein Sampeln aus einer Normalverteilung initialisiert. Daraufhin wird eine Schleife beginnend bei Zeile 2 bis Zeile 6 über die Anzahl der Iterationen N ausgeführt. Zuerst wird die maximale Episodenlänge E durch den Episodenplaner und optional das maximale Zeitbudget T durch den Zeitplaner abhängig von der aktuellen Iteration n ermittelt. Anschließend wird das Verfahren ES mit diesen beiden ermittelten Größen E und/oder T ausgeführt.
Der Episodenplaner kann nach jeden ausgeführten Schleifendurchläufen die Episodenlänge E verdoppeln: E(n) = 2ⁿ E(0). Die initiale Episodenlänge E(0) kann ein Wert kleiner als eine erwartete Anzahl von Schritten sein, die zum Erreichen des Zieles benötigt werden. Alternativ kann die initiale Episodenlänge E(0) durch einen vorgebbaren Wert dividiert werden, beispielsweise 2. Alternativ kann die initiale Episodenlänge E(0) durch eine Monte Carlo Simulation ermittelt werden.
Der Zeitplaner kann beispielsweise inkrementell mit zunehmender Anzahl von ausgeführten Schleifendurchläufe das Zeitbudget T erhöhen, zum Beispiel: T(n) = 2ⁿ κ. Der Wert κ kann zum Beispiel 20 Minuten entsprechen. Alternativ kann der Zeitplaner das Zeitbudget T konstant für jeden Schleifendurchlauf halten, zum Beispiel kann T gleich 1 Stunde sein.
Der Vorteil des Episodenplaners und/oder des Zeitplaners ist, dass zuerst auf kurzen Episoden eine Strategie erlernt wird, die daraufhin verwendet wird, um kompliziertere Aufgaben während längeren Episoden effektiver zu lösen. Denn das Wissen der Strategie, welche auf den kurzen Episoden erlernt wurde, kann für das Lösen der längeren Episoden wiederverwendet werden. Der Vorteil des Zeitplaners ist, dass ein gesamtverfügbares Budget von Zeit in Teilzeiten für die einzelnen Episodenlängen effizient zerlegt werden kann.
4 zeigt eine schematische Darstellung einer Vorrichtung (40) zum Anlernen des Entscheidungsmoduls (14), insbesondere zum Ausführen des Pseudocodes nach 2 oder 3. Die Vorrichtung (40) umfasst ein Trainingsmodul (41), welches z.B. die Umwelt (11) simuliert und die Gesamtbelohnung F ausgibt. Das Anpassungsmodul (43) aktualisiert dann die Strategie und speichert die aktualisierte Strategie in dem Speicher P.

Claims

Verfahren zum Erstellen einer Strategie (engl. policy) für einen Agenten, sodass dann, wenn der Agent, insbesondere ein Roboter (10), situativ anhand der Strategie Aktionen (a) ausführt, ein vorgebbares Ziel erreicht wird, umfassend folgende Schritte: Initialisieren der Strategie θ₀ und einer Episodenlänge (engl. episode length) E; Mehrfaches Ausführen einer Schleife mit den Schritten: Erstellen einer Mehrzahl von weiteren Strategien abhängig von der Strategie θ₀; Anwenden der Mehrzahl der weiteren Strategien für jeweils zumindest eine Episode mit der Episodenlänge E; Ermitteln jeweils einer Gesamtbelohnung (engl. cumulative reward) s_i, die beim Anwenden der jeweiligen weiteren Strategie erzielt wird; Aktualisieren der Strategie θ₀ abhängig von einer vorgebbaren Anzahl der weiteren Strategien, die die größten Gesamtbelohnungen erzielt haben; dadurch gekennzeichnet, dass nach jedem Ausführen der Schleife die Episodenlänge E vergrößert wird.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass zusätzlich ein Zeitbudget (engl. time budget) T initialisiert wird, wobei die Schleife nur solange ausgeführt wird, wie verbleibende Zeit des Zeitbudgets T vorhanden ist.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das Zeitbudget T nach jedem Ausführen der Schleife vergrößert wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Episodenlänge E initial auf einen Wert kleiner als eine erwartete Anzahl von Aktionen zum Erreichen des vorgebbaren Ziels gesetzt wird.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die erwartete Anzahl der Aktionen durch eine Monte-Carlo Simulation ermittelt wird.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die weiteren Strategien in absteigender Reihenfolge nach ihrer erzielten Gesamtbelohnung s_i sortiert werden und jeweils mittels einem der jeweiligen Position in der Reihenfolge zugeordneten zweiten vorgebbaren Wert w gewichtet werden.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass mittels eines Sensors der aktuelle Zustand des Agenten, insbesondere Roboters (10), und/oder ein aktueller Zustand der Umgebung des Agenten erfasst wird, wobei abhängig von dem Sensorwert mittels der nach einem der vorherigen Ansprüche erstellten Strategie eine Steuergröße für den Agenten, insbesondere eines Aktors des Agenten, bereitgestellt wird.
Verwendung eines trainierten neuronalen Netzes, um abhängig von einem ihm zugeführten aktuellen Zustand des Agenten und/oder einem aktuellen Zustand der Umgebung des Agenten eine der erstellten Strategie entsprechende Aktion (a) bereitzustellen, wobei die erstellte Strategie nach einem der Ansprüche 1 bis 6 durch das neuronale Netz implementiert ist, indem das neuronale Netz aus einem ihm zugeführten Zustand die der Strategie entsprechende Aktion (a) bereitstellt.
Computerprogramm, umfassend Befehle, die beim Ausführen des Computerprogramms durch einen Computer diesen veranlassen, das Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.
Maschinenlesbares Speicherelement (18), auf dem das Computerprogramm nach Anspruch 8 gespeichert ist.
Vorrichtung (17), die eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.