-
Die
vorliegende Erfindung betrifft die Lösung des Mensch-Roboter-Interaktionsproblems
und insbesondere autonome Roboter wie beispielsweise die tierähnlichen
Roboter, die neuerdings in Gebrauch gekommen sind.
-
In
den letzten Jahren gab es eine zunehmende Anzahl von entwickelten
und auf den Markt gebrachten tierähnlichen autonomen Robotern
wie beispielsweise den vierbeinigen AIBOTM-Roboter,
der einem Hund ähnlich
ist – siehe „Development
of an autonomous quadruped robot for robot entertainment" von M. Fujita und
H. Kitano in Autonomous Robots, 5, 1998. Siehe auch „Robots
for kids: Exploring new technologies for learning" von A. Druin und
J. Hendler, Morgan Kaufman Publisheres, 2000, und "The art of creating
subjective reality: an analysis of Japanese digital pets" von M. Kusahara
in den Proceedings of the Artifical Life VII Workshop, 2000, editiert
von C. Maley und E. Boudreau, Seiten 141–144.
-
Diese
selbständig
agierenden bzw. autonomen Roboter sind nicht als Sklaven, die zum
Befolgen von Befehlen ohne Fragen programmiert sind, sondern als
künstliche
Kreaturen, die ihre eigenen Triebe befriedigen, ausgebildet. Ein
Teil des bei der Aneignung eines solchen autonomen Roboters oder
einem Interagieren mit einem solchen autonomen Roboter vorgefundenen
Interesses ist der vom Benutzer gewonnene Eindruck, dass eine Beziehung
mit einem Quasi-Haustier entwickelt wird. Jedoch kann autonomen
Robotern eine Ähnlichkeit
mit „wilden" Tieren gegeben werden.
Die Erfüllung,
die der Benutzer beim Interagieren mit dem autonomen Roboter findet,
wird verbessert, wenn der Benutzer den Roboter soweit „zähmen" kann, dass der Benutzer
den Roboter dazu bewegen kann, auf Befehl gewisse gewünschte Verhalten
zu zeigen und/oder seine Aufmerksamkeit auf ein gewünschtes
Objekt zu richten und den Namen des Objekts zu lernen.
-
Ein
anderes Beispiel eines Robotergeräts ist aus EP-A-0 855 335 bekannt.
-
Jedoch
ist es schwierig, einen autonomen Roboter so zu dressieren, dass
er befohlene spezielle Aufgaben, insbesondere Aufgaben, die ein
unübliches
Verhaltensmuster oder eine Folge von Tätigkeiten umfassen, löst oder
den Namen für
spezielle Objekte lernt. In der Forschung auf diesem Gebiet sind
mehrere Gruppen einbezogen, beispielsweise „Experiments on human-robot
communication with robota, an interactive learning and communicating
doll robot." von
A. Billard, K. Dautenhahn und G. Hayes von „Socially situated intelligence
workshop" (SAB 98),
editiert von. B. Edmonds und K. Dautenhahn, 1998, Seiten 4–16, „Experimental results
of emotionally grounded symbol adquistion by four-legged robot" von M. Fujita, G.
Costa, T. Takagi, R. Hasegawa, J. Yokono und H. Shimura in den Proceedings
of Autonomous Agents 2001 2001, "Learning
to behave: Interacting agents" von
F. Kaplan vom CELE-TWENTE Workshop on Language Technology, Oktober 2000,
Seiten 57–63
und "Learning from
sights and sounds: a computational model" PhD-These von D. Roy, MIT Media Laboratory,
1999.
-
Die
hier genannten Erfinder stellten, indem sie in Betracht zogen, dass
die Probleme, die beim Beibringen eines komplexen Verhaltens (und
des damit assoziierten Befehls) bei einem autonomen Roboter und/oder
beim Erreichen einer gemeinschaftlich mit einem autonomen Roboter
genutzten Aufmerksamkeit derart, dass der Name eines gewünschten
Objekts beigebracht werden könnte,
involviert sind, ähnlich
zu den Problemen sind, denen Tierdresseure gegenüberstehen, fest, dass Roboter
durch Anwendung von Techniken dressiert werden könnten, die zur Haustierdressur
benutzt werden.
-
In
den letzten fünfzig
Jahren hat es gewisse fruchtbare Austausche zwischen Ethnologen
und Robotikingenieuren gegeben. Beispielweise haben in manchen Fällen Robotikingenieure
auf der Basis von Beobachtungen über Tierverhalten
Steuerungs- bzw. Kontrollarchitekturen definiert. Verschiedene Überblicke über verhaltensbasierte
Robotiken sind in „Behaviour-based
robotics" von R.
Arkin, MIT Press, Cambridge Mass., USA, 1998, in „Understandig
intelligence" von
R. Pfeiffer und C. Sheier, MIT Press, Cambridge, Mass., USA, 1999
und in „The
,artifical life' route
to ,artifical intelligence'.
Building situated ambodied agents." von L. Steels und R. Brooks, Lawrence
Erlbaum Ass., New Haven, USA, 1994 angegeben. Roboterbasierte Forschung
hat auch zur Entwicklung von Modellen geführt, die für das Verstehen von Tierverhalten
nützlich
sein können – siehe „What does
robotics offer animal behaviour?" von
Barbara Webb, Animal Behaviour, 60: 545–558, 2000. Jedoch haben bisher
Robotikforscher beim sich Befassen mit Robotikproblemen noch nicht
viele Untersuchungen auf dem Gebiet der Tierdressur gemacht.
-
Das
von Hundebesitzern beim Versuch, ihr Haustier zu dressieren, beispielsweise
sich auf Befehl zu setzen, am häufigsten
benutzte Verfahren umfasst, den Befehl (hier „SITZ") mehrere Male herzuzusagen während gleichzeitig
das Tier gezwungen wird, das gewünschte
Verhalten zu zeigen (hier durch Niederdrücken des Hundehinterteils auf
die Erde). Diesem Verfahren mangelt aus verschiedenen Gründen, dass
es gute Ergebnisse gibt. Zunächst
wird das Tier gezwungen zu wählen
zwischen Achten auf das wiederholte Wort des Dresseurs oder dem
beizubringenden Verhalten. Zweitens weiß das Tier, wenn der Befehl
mehrere Male wiederholt wird, nicht, welchen Teil seines Verhaltens
es mit dem Befehl assoziieren soll. Schließlich wird sehr oft der Befehl
gesagt, bevor das Verhalten gezeigt wird; beispielsweise wird „SITZ" gesagt, während das
Tier noch in einer stehenden Position ist. Infolgedessen kann das
Tier den Befehl nicht mit der gewünschten sitzenden Position
assoziieren.
-
Aus
diesen Gründen
wenden Tierdresseure gewöhnlich
zuerst eine der unten aufgelisteten Techniken (die das Beibringen
eines gewünschtes
Verhalten umfassen) an und fügen
dann den zugeordneten Befehl hinzu. Die Haupttechniken sind:
- – Das
Modellierungsverfahren,
- – das
Lockungsverfahren,
- – das
Einfangverfahren,
- – das
Imitationsverfahren, und
- – Formungsverfahren.
-
Die
hier genannten Erfinder überlegten
sich, dass es ratsam war, beim Dressieren eines Roboters der gleichen
Art Methode zu folgen, wenn gegeben ist, dass das Problem der gemeinschaftlich
genutzten Aufmerksamkeit und der Unterscheidung von Stimuli bei
einem Roboter sogar schwieriger ist als bei einem Tier.
-
Das
Modellierungsverfahren (modelling method) ist eine von Hundebesitzern
oft versuchte andere Technik, die aber von professionellen Dresseuren
selten übernommen
wird. Sie umfasst eine physische Manipulation des Tieres in die
gewünschte
Position und dann Geben einer positiven Rückkopplung, wenn die Position
erreicht ist. Die Lernleistung ist schlecht, da das Tier während des
ganzen Prozesses passiv bleibt. Modellieren ist in einem industriellen
Kontext dazu benutzt worden, autonomen Robotern Positionen beizubringen.
Jedoch ist Modellieren bei autonomen Robotern, die konstant aktiv
sind, problematisch. Es kann nur eine teilweises Modellieren ins
Auge gefasst werden. Beispielsweise wäre der Roboter fähig zu fühlen, dass
der Dresseur auf seinen Rücken
drückt
und dann entscheidet zu sitzen, wenn er programmiert wäre, so zu
tun. Jedoch ist es schwierig, dieses Verfahren auf das Dressieren
auf komplexe Bewegungen, die mehr als nur das Erreichen einer statischen
Position umfassen, zu verallgemeinern.
-
Das
Lockungsverfahren (luring method) ist dem Modellieren ähnlich,
ausgenommen, dass es keinen physischen Kontakt mit dem Tier umfasst.
Vor die Nase des Hundes wird ein Spielzeug oder eine Freude wie beispielsweise
eine Leckerei gehalten, und der Dresseur kann dieses oder diese
zum Führen
des Tiers in die gewünschte
Position benutzen. Dieses Verfahren gibt zufriedenstellende Resultate
bei realen Hunden, kann aber nur zum Beibringen einer Position oder
sehr einfachen Bewegung benutzt werden. Locken ist in der Robotik
nicht viel benutzt worden. Die AIBOTM-Roboter,
die kommerziell freigeben worden sind, sind so programmiert, dass
sie automatisch rote Objekte interessieren. Manche Besitzer dieser
Roboter benutzen diese Neigung, um ihr künstliches Haustier zu gewünschten
Plätzen
zu führen.
Jedoch bleibt diese Benutzung ziemlich begrenzt.
-
Im
Gegensatz zum Modellierungs- und Lockungsverfahren nutzen die Einfangverfahren
(capturing method) Verhalten aus, die Tiere spontan erzeugen. Beispielsweise
gibt jedes Mal, wenn ein Hundebesitzer erkennt, dass sich sein Haustier
in der gewünschten
Position befindet oder das richtige Verhalten zeigt, er ihm eine
positive Anspornung (reinforcement).
-
Die
hier genannten Erfinder untersuchten die Geeignetheit einer Gewinnungstechnik
zum Dressieren autonomer Roboter unter Benutzung eines einfachen
Prototyps. Der Roboter war so programmiert, dass er autonom zufällige Verhalten
zeigte, von denen einige mit gewünschten
Verhalten korrespondierten, bei denen gewünscht war, sie mit einem jeweiligen
Signal (beispielsweise ein Wort) zu assoziieren. Jedes Mal, wenn
der Roboter spontan eines der gewünschten Verhalten zeigte, wurde
dem Roboter unmittelbar danach das korrespondierende Signal präsentiert.
Um beispielsweise dem Roboter das Wort „SITZ" beizubringen, hätte der Dresseur zu warten,
bis sich der Roboter spontan niedersetzte, und dann das Wort „SITZ" zu sagen. Jedoch arbeitete
diese Technik in dem Fall nicht gut, bei dem die Anzahl von Verhalten,
die einen Namen bekommen können,
zu groß war.
Die Zeit, die sich zum Warten, bis der Roboter spontan das korrespondierende
Verhalten zeigt, genommen werden musste, war zu lang.
-
Imitationsverfahren
(imitation methods) beziehen den Dresseur beim Zeigen des gewünschten
Verhaltens so ein, dass das Tier (oder der Roboter) dazu ermutigt
wird, den Dresseur zu imitieren. Diese Technik wird von professionellen
Tierdresseuren im Hinblick auf die Unterschiede zwischen der menschlichen
und tierischen Anatomie selten benutzt. Erfolg ist nur bei „höheren Tieren" wie beispielsweise
Primaten, Walen, und Menschen bestätigt worden. Jedoch ist diese
Methode auf dem Robotikgebiet angewendet worden – siehe beispielsweise „An overview
of robot imitation" von
P. Bakker und Y. Kuniyoshi in den Proceedings of RISB-Workshop on
Learning in Robots and Animals, 1996, das oben genannte Dokument
von A. Billard et al., „Getting
to know each other: artififial social intelligence for autonomous
robots" von K. Dautenhahn
in Robotics and autonomous systems, 16: 333–356, 1995 und „Learning
by watching: Extracting reusable task knowledge from visual observation
of human performance" von
T. Kuniyoshi, M. Inaba und H. Inoue in IEEE Transaction on Robotics
and Automation, 10(6): 799–822,
1994.
-
Prinzipiell
können
auf Imitation basierte Verfahren sehr seltene Verhalten und Folgen
von Tätigkeiten behandeln.
Jedoch ist in der Praxis sehr viel Rechenleistung im Roboter erforderlich.
Es ist deshalb schwierig, die Benutzung solcher Verfahren für derzeit
verfügbare
autonome Roboter ins Auge zu fassen.
-
Das
Formungsverfahren (shaping method) umfasst das Zerlegen eines Verhaltens
in kleine erzielbare Reaktionen, die eventuell zum Erzeugen des
ganzen gewünschten
Verhaltens zu einer Folge verbunden werden. Die Hauptidee ist, das
Tier fortschreitend zum richtigen Verhalten zu führen. Jeder Komponentenschritt kann
unter Benutzung irgendeiner der anderen bekannten Dressurtechniken
andressiert werden. Es sind verschiedene Formungsverfahren bekannt,
darunter ein als „Klickerdressur(clicker
training)"-Verfahren
bezeichnetes.
-
Klickerdressur
basiert auf B.F. Skinners Theorie der Operant conditioning (wirksame
Konditionierung) (siehe „The
Behaviour of Organisms" von
B.F. Skinner, Appleton Century Crofs, New York, N.Y., USA, 1938). Dieses
Verfahren hat sich beim Dressieren einer großen Mannigfaltigkeit von Tieren,
darunter Hunde, Delfine und Hühner,
als eines der effizientesten erwiesen. Während der 1980er arbeitete
Gary Wilkes, ein Verhaltensforscher, mit Karen Pryor, einer Delfindresseurin
zusammen, um dieses Verfahren bei der Hundedressur einzuführen. Während bei
der Delfindressur den Delfinen Stimuli in Form von Pfeiftönen gegeben
werden, werden bei der Hundedressur die Pfeiftöne durch eine kleine Metalleinrichtung
(den „Klicker") ersetzt, die einen
kurzen und scharfen Knack- bzw. Klickton abgibt.
-
Bei
der Klickerdressur kommt das Tier dazu, den Klickerton (der selbst
für das
Tier nichts bedeutet) mit einem primären Ansporner – typischerweise
eine Freude wie beispielsweise Nahrung, Spielzeuge usw. – zu assoziieren,
den das Tier instinktiv als eine Belohnung empfindet. Nachdem er
eine Anzahl von Malen mit dem primären Ansporner assoziiert worden
ist, wird der Klicker ein sekundärer
Ansporner (auch als ein konditionierter Ansporner bezeichnet) und
agiert als ein Anhaltspunkt, der signalisiert, dass bald eine Belohnung kommt.
Da der Klicker selbst nicht die Belohnung ist, kann er dazu benutzt
werden, dass Tier in die richtige Richtung zu führen. Ein präziserer
Weg ist auch, zu signalisieren, welches besondere Verhalten angespornt werden
muss. Der Dresseur gibt den primären
Ansporner nur, wenn das Tier das gewünschte Verhalten ausführt. Dies
signalisiert das Ende des Führungsprozesses.
-
Infolgedessen
umfasst der Klickerdressurprozess wenigstens vier Stufen.
- – „Aufladen" des Klickers: während dieses
ersten Prozesses muss das Tier lernen, den Klick mit der Belohnung
(die Freude) zu assoziieren. Dies wird erreicht durch Klicken und
dann Geben etwa 20–50mal
dem Tier die Freude, bis es durch den Ton des Klickers sichtbar
in Erregung kommt.
- – Gewinnen
des Verhaltens: dann wird das Tier dazu geführt, die gewünschte Tätigkeit
auszuführen.
Wenn beispielsweise der Dresseur will, dass der Hund sich im Uhrzeigersinn
im Kreis dreht, beginnt er oder sie jedes Mal mit dem Klicken, wenn
der Hund die leiseste Kopfbewegung nach rechts ausführt. Wenn
der Hund die Kopfbewegung als Ganzes konsequent ausführt, klickt
der Dresseur nur, wenn der Hund beginnt, seinen Körper nach
rechts zu drehen. Die Kriterien zum Erhalten eines Klicks werden
langsam erhöht,
bis eine volle Drehung des Körpers
erreicht wird. Bei dieser Stufe wird die Freude gegeben.
- – Hinzufügen des
Befehlsworts: dass Befehlswort wird nur gesagt, wenn das Tier das
gewünschte
Verhalten gelernt hat. Der Dresseur muss den Befehl unmittelbar
nachdem oder unmittelbar bevor das Tier das Verhalten ausführt sagen.
- – Prüfen des
Verhaltens: dann muss das gelernte Verhalten geprüft und verfeinert
werden. Der Dresseur benutzt das Befehlswort, klickt und belohnt
mit einer Freude nur, wenn das gewünschte Verhalten exakt ausgeführt wird.
- – Es
ist wichtig, darauf hinzuweisen, dass, wenn die Klickerdressur zum
Führen
des Tiers dahin, über
eine Folge von Schritten ein Verhalten auszuführen, es nicht nur dazu benutzt
werden kann, dem Tier ein unübliches
Verhalten, welches das Tier kaum jemals spontan ausführt, beizubringen,
sondern auch dazu, dem Tier beizubringen, eine Folge von Verhalten
auszuführen.
-
Tabelle
1 fasst die Geeignetheit der oben erwähnten verschiedenen Techniken
zum Dressieren von Tieren zusammen und erwägt, ob sie möglicherweise
zum Dressieren von Robotern angewendet werden können.
-
-
Gemäß den bevorzugten
Ausführungsformen
der vorliegenden Erfindung wird die Klickerdressurtechnik zum Dressieren
von Robotern, insbesondere autonomen Robotern angewendet, damit
sie ein gewünschtes
Verhalten zeigen und/oder die Aufmerksamkeit auf ein gewünschtes
Objekt richten (so dass der Name gelernt werden kann). Obgleich
Versuche gemacht worden sind, die Klickerdressur zu benutzen, um
ein auf einem Schirm angezeigtes virtuelles Zeichen anzudressieren
(siehe „Interactive
training for synthetic characters" von S.Y. Yoon, R. Burke und G. Schneider
in AAAI 2000, 2000), wird geglaubt, dass dies das erste Mal ist, dass
eine Roboterdressurtechnik auf dieser Art Verfahren basiert worden
ist.
-
Insbesondere
stellt die vorliegende Erfindung ein Roboterdressurverfahren bereit,
bei dem ein Verhalten in kleinere erzielbare Reaktionen zerlegt
wird, die eventuell zum gewünschten
Endverhalten führen.
Der Roboter wird durch die Benutzung, normalerweise die wiederholte
Benutzung eines sekundären
Ansporners fortschreitend zum korrekten Verhalten geführt. Wenn
das korrekte Verhalten erzielt worden ist, wird der primäre Ansporner
angewendet, so dass das gewünschte
Verhalten „eingefangen" werden kann.
-
Das
Roboterdressurverfahren der vorliegenden Erfindung ermöglicht komplexe
und/oder seltene Verhalten und Folgen von Verhalten, die Robotern
beizubringen sind. Es ist besonders gut an die Dressur von tierähnlichen
autonomen Robotern angepasst. Es hat den Vorteil, dass es einfach
anzuwenden ist und relativ wenig Rechenleistung erfordert.
-
Das
gewünschte
Verhalten kann mit der gesamten Folge von kleineren erzielbaren
Reaktionen oder nur mit der letzten der Folge korrespondieren.
-
Das
gewünschte
Verhalten kann das Lenken der Aufmerksamkeit des Roboters auf einen
speziellen Gegenstand sein. Infolgedessen stellt die vorliegende
Erfindung einen einfachen Weg zum Lösen des Problems der Sicherstellung
einer „gemeinschaftlich
benutzten Aufmerksamkeit" zwischen
einem Roboter und jemand anderem (typischerweise eine Person, die versucht,
dem Roboter Namen von Objekten beizubringen) bereit.
-
Der
Roboter ist ausgebildet (typischerweise vorprogrammiert), um auf
den oder die sekundären
Ansporner durch Untersuchen von Verhalten, die „nahe" am Verhalten sind, welches das Hervorbringen
des sekundären
Ansporners veranlasste. Der Roboter ist außerdem ausgebildet zum Reagieren
auf den primären Ansporner
durch Registrieren des Verhaltens (oder der Folge von Verhalten),
das die Darbietung des primären Ansporners
veranlasste, und vorzugsweise durch Registrieren einer Befehlsanzeige,
die der Dresseur nach dem primären
Ansporner dargeboten hat.
-
Generell
werden der oder die primären
Ansporner in den Roboter programmiert, während die sekundären Ansporner
gelernt werden (entweder über
eine vorbestimmte Registrierungsprozedur oder über einen Konditionierungsprozess,
der den Roboter durch Assoziieren des sekundären Ansporners mit einem primären Ansporner
abrichtet).
-
Diese
und weitere Merkmale und Vorteile der vorliegenden Erfindung werden
aus der folgenden Beschreibung einer beispielhaft gegebenen bevorzugten
Ausführungsform
derselben und der Darstellung in den beigefügten Zeichnungen klar, in denen:
-
1 einen
Teil eines Verhaltensgraphen eines verbesserten AIBOTM-Roboters
darstellt und
-
2 Bilder des AIBOTM-Roboters
zeigt, der verschiedene der Verhalten nach 1 ausführt, wobei
-
2A mit
einem Verhalten [STEH] korrespondiert,
-
2B mit
einem Verhalten [GEH] korrespondiert,
-
2C mit
einem Verhalten [KICKE] korrespondiert,
-
2D mit
einem Verhalten [SITZ] korrespondiert,
-
2E mit
einem Verhalten [SCHIEBE] korrespondiert,
-
2F mit
einem Verhalten [HALLO] korrespondiert und
-
2G mit
einem Verhalten [GRABE] korrespondiert.
-
Die
folgende detaillierte Beschreibung des Roboterdressurverfahrens
gemäß der bevorzugten Ausführungsform
der vorliegenden Erfindung wird bezüglich der Dressur einer verbesserten
Version des von der Sony-Corporation
hergestellten AIBOTM-Roboters gegeben. Jedoch
ist dies so zu verstehen, dass die vorliegende Erfindung zum Dressieren
von Robotern generell und besonders von autonomen Robotern weitestgehend
anwendbar ist.
-
Der
AIBOTM-Roboter ist ein vierbeiniger Roboter,
der einem Hund ähnelt.
Er weist eine sehr großen Satz
vorprogrammierter Verhalten auf. In seinem gewöhnlichen autonomen Modus schaltet
der Roboter entsprechend der Entwicklung seiner inneren Antriebe
oder „Motivationen" und den durch die
Umgebung gebotenen Gelegenheiten in einer im Voraus programmierten
Weise zwischen diesen Verhalten (wegen Details siehe das oben genannte
Dokument von Fujita et al.). Es kann angenommen werden, dass es
eine Topologie der Verhalten des Roboters gibt, die definiert, welche
Verhalten und Übergänge zwischen
Verhalten erlaubt sind. Eine solche Topologie existiert beispielweise,
da gewisse Übergänge aufgrund
der Anatomie des Roboters unmöglich
sind. Auch beim Fehlen einer solchen Topologie könnte sich der Roboter von einem
Verhalten zufällig zu
einem damit gänzlich
nicht in Beziehung stehenden Verhalten ändern, und sein Verhalten würde chaotisch erscheinen.
Gewisse Verhalten, beispielsweise Jagen und Kicken eines Balls,
werden sehr oft ausgeführt, während andere
Verhalten fasst nie beobachtet werden, beispielsweise kann der Roboter
gewisse spezielle Tänze
und gewisse gymnastische Bewegungen ausführen. Unten wird eine Beschreibung
dafür gegeben,
wie der Roboter dressiert werden kann, solche unüblichen Verhalten durch Benutzung
des Roboterdressurverfahrens gemäß der bevorzugten
Ausführungsform
der Erfindung auf der Basis der Klickerdressur auf Befehl auszuführen.
-
Wie
oben erläutert
weist die Klickerdressur für
Tiere vier Phasen auf. Das Verfahren der vorliegenden Erfindung
weist diesen ähnliche
Phasen auf, die so ausgebildet sind, dass sie zum Dressieren von
Robotern geeignet sind.
-
Die
erste Phase des Verfahrens ist zu der mit „Aufladen des Klickers" bezeichneten Tierklickerdressurphase
analog. Sie umfasst das Finden von geeigneten primären und
sekundären
Anspornern und Konditionieren des Roboters dahingehend, dass er
weiß,
dass der sekundäre
Ansporner mit dem primären
Ansporner assoziiert ist. Klar müssen
sowohl der primäre
als auch sekundäre
Ansporner Stimuli sein, die vom Roboter detektierbar sind (infolgedessen
wäre es
nutzlos, bei einem Roboter, dem die Fähigkeit, visuelle Stimuli zu
detektieren und zwischen ihnen zu differenzieren, fehlt, einen visuellen
Stimulus oder bei einem Roboter, der unfähig ist, Töne zu detektieren, einen Tonstimulus
zu benutzen usw.). Bezüglich
eines Roboters kann argumentiert werden, dass jedes Ereignis, das
einen oder mehrere der Robotertriebe befriedigt (beispielsweise
Anbieten einer wiederaufgeladenen Batterie dem Roboter), ein „natürlicher" primärer Ansporner
ist. Jedoch in der Praxis ist es schwierig, solche „natürlichen" primären Ansporner
zu benutzen. Es wird bevorzugt, einen primären Ansporner zu wählen und
den Roboter mit seiner Kenntnis zu programmieren. Im vorliegenden
Fall wurden zwei alternative primäre Ansporner benutzt, ein Klaps
auf den Kopf (detektiert über
einen Drucksensor auf dem Roboterkopf als eine Druckänderung)
und die Äußerung des
Wortes „Bravo" (eine leicht zu
unterscheidende mündliche
Gratulation). Jedoch kann jeder andere geeignete Ansporner, der
beim Roboter erlaubt ist, benutzt werden.
-
Der
sekundäre
Ansporner braucht für
den Roboter keinerlei inhärenten „Wert" zu haben, da er
Wert über
seine Assoziation mit dem primären
Ansporner gewinnt. Jedoch erhält
der Benutzer größere Zufriedenheit,
wenn er oder sie einen speziellen und persönlichen sekundären Ansporner
auswählen
kann. Dieser Ansporner kann wiederum irgendetwas sein, das von einem
speziellen visuellen Stimulus (beispielsweise Lenken auf ein spezielles
Objekt in dem vom Roboter gesehenen Bild) bis zu einer mündlichen Äußerung reicht.
Jedoch ist es wichtig, dass der sekundäre Ansporner schnell genug
zu „emittieren" und leicht zu detektieren
ist, so dass er als ein guter Indikator zum Führen des Roboters zum richtigen
Verhalten hin agieren kann. Hier war der gewählte sekundäre Ansporner die Äußerung des
Wortes „gut".
-
Der
Roboter ist so konditioniert, dass er den sekundären Ansporner (hier das gesprochene
Wort „gut") mit dem primären Ansporner
(hier ein Klaps auf den Kopf oder die gesprochene Gratulation „Bravo!") assoziiert. Ein
Weg zur Erzielung dieser Konditionierung ist, den Roboter der Aufeinanderfolge
der Stimuli <sekundärer Ansporner> <primärer Ansporner> sukzessive und vorzugsweise
mehr als 30 Mal zu unterwerfen. Da der primäre Ansporner auf den sekundären Ansporner
folgend eine signifikante statistische Anzahl von Malen wahrgenommen
wird, wird der Roboter programmiert zu registrieren, dass das dem
primären
Ansporner vorhergehende Signal ein sekundärer Ansporner ist. Ein alternatives
(und einfacheres) Verfahren besteht in der Programmierung des Roboters
so, dass er für
den sekundären
Ansporner eine Registrierungsprozedur aufweist. Beispielsweise könnte ein
zweimaliges Drücken
auf den vorderen linken Fuß des
Roboters dem Roboter signalisieren, dass der nächste Stimulus als ein sekundärer Ansporner
zu registrieren ist. Der Roboter ist (typischerweise durch Programmierung)
so ausgebildet, dass er, wenn er auf einen sekundären Ansporner
konditioniert worden ist oder diesen anderweitig registriert hat,
eine Bestätigung,
beispielsweise einen Augenaufschlag bzw. ein Augenaufleuchten, eine
Schwanzbewegung oder einen freudigen Ton abgibt. Diese Verfahren können zum
Konditionieren des Roboters zum Lernen mehrerer verschiedener sekundärer Ansporner
benutzt werden.
-
Wie
oben erwähnt
ist der Roboter (typischerweise durch Vorprogrammieren) so ausgebildet,
dass er auf den oder die sekundären
Ansporner durch Untersuchen von Verhalten „nahe am" Verhalten, welches das Hervorbringen
des sekundären
Ansporners veranlasst hat, zu reagieren. Der Roboter ist außerdem so
ausgebildet, dass er auf den primären Ansporner durch Registrieren
des Verhaltens (oder der Folge von Verhalten) das (die) das Hervorbringen
des primären Ansporners
veranlasst hat, vorzugsweise durch Registrieren einer Befehlsanzeige,
die der Dresseur nach dem primären
Ansporner hervorgebracht hat, reagiert.
-
Wenn
einmal der Reporter zum Lernen eines oder mehrerer sekundärer Ansporner
konditioniert worden ist, kann der Dresseur in einer zweiten Phase
diese sekundären
Ansporner dazu benutzten, den Roboter zum Lernen eines gewünschten
Verhaltens zu führen.
Während
dieser Dressurphase benutzt der Dresseur den sekundären Ansporner,
um dem Roboter zu signalisieren, dass sich sein Verhalten enger
und enger dem gewünschten
Verhalten nähert.
Die Entscheidung, ob das Verhalten sich enger und enger dem gewünschten Verhalten
nähert,
kann in Bezug auf die Topologie der Verhalten des Roboters getroffen
werden.
-
Es
gibt verschiedene Verfahren zum Bestimmen der Topologie der Verhalten
des Roboters. Jedoch vor einer Beschreibung einiger dieser Verfahren
sei erwähnt,
dass für
einen Roboter, dessen Verhalten das Resultat von Tätigkeiten
sind, die von Kombinationen unabhängiger Aktuatoren ausgeführt werden,
es eine direkte Sache ist, zu bestimmen, wann der sekundäre Ansporner
benutzt werden soll. Der sekundäre
Ansporner kann für
jedes Verhalten benutzt werden, das eine korrekte Aktivierung eines
von der Kombination von Aktuatoren, die mit dem gewünschten
Gesamtverhalten korrespondieren, umfasst.
-
Im
Fall des AIBOTM-Roboters sind die Verhalten
als Tätigkeiten
höheren
Niveaus vorprogrammiert (beispielsweise als [kicke], [steh] usw.).
Für diesen
Fall wurden zwei verschiedene Verfahren zum Definieren einer Topologie
von Verhalten des Roboters in Betracht gezogen.
-
Das
erste Verfahren umfasst den Aufbau einer Beschreibung des Verhaltensraums,
wobei jedes Verhalten durch einen Satz von Charakteristiken beschrieben
werden kann. Diese Charakteristiken können als beschreibende Charakteristiken
und intentionale Charakteristiken klassifiziert werden. Beschreibende
Charakteristiken beziehen sich auf physikalische Parameter wie beispielsweise
die Startposition des Roboters (stehen, sitzen, liegen), welcher
Körperteil
involviert ist (Kopf, Bein, Schwanz, Auge), ob der Roboter einen
Ton abgibt, usw. Intentionale Charakteristiken beschreiben die Ziele,
die das Verhalten treiben, beispielsweise ob es ein Verhalten für Bewegung,
Gewinnen von Aufmerksamkeit ist. Jedes Verhalten kann als ein Punkt
im Raum angesehen werden, der unter Benutzung dieser Charakteristiken
als die Dimensionen des Raumes definiert ist. Wenn in Bezug auf
diese Dimensionen alle Verhalten durch graphisches Darstellen formalisiert
worden sind, ist es möglich,
einen „Abstand" zwischen zwei Verhalten
zu definieren und die Route zu sehen, die zum Navigieren von einem
Verhalten zu einem „ähnlichen" notwendig ist. Der
Hauptvorteil dieses Verfahrens liegt darin, dass, wenn einmal die
Charakteristiken gewählt
sind, die Beschreibung eines kompletten Satzes von Verhalten schnell
ausgeführt
werden kann. Jedoch besteht der Nachteil, dass die Übergänge zwischen
Verhalten nicht immer vorhersagbar sind.
-
Das
zweite Verfahren zum Definieren der Topologie der Verhalten des
Roboters ist, einfach einen die möglichen Übergänge zwischen den verschiedenen
Verhalten spezifizierenden probabilistischen Graphen bilden. Nach
Ausführen
eines einzelnen Verhaltens sind abhängig von der Wahrscheinlichkeit
der jeweiligen Kanten verschiedene Übergänge möglich. Dieses Verfahren dauert
beim Ausführen
länger,
jedoch ermöglicht
es eine bessere Kontrolle über
die Art von Übergängen, die
der Roboter ausführen
kann. Wie beim ersten Verfahren ermöglicht dieses zweite Verfahren
objektive Ähnlichkeiten
zwischen Verhalten, die mit einem oder mehreren gewissen, mit „Intention" sich befassenden
Kriterien zu kombinieren sind. Es ermöglicht auch, dass die Unterscheidung
zwischen allgemeinem Verhalten (beispielsweise [sitz], [steh], usw.)
und seltenem Verhalten (ausführen
eines speziellen Tanzes, gymnastischer Übungen, usw.) enger kontrolliert
wird. Aus den oben erwähnten
Gründen
wird gemäß der bevorzugten
Ausführungsform
der vorliegenden Erfindung bevorzugter Weise die Topologie eines
Verhaltens des Roboters unter Benutzung dieses zweiten Verfahrens
definiert.
-
1 zeigt
als Darstellung einen Teil der Topologie des Roboterverhaltens,
die unter Benutzung des probabilistischen Graphenformalismus gemäß diesem
zweiten Verfahren definiert ist. In 1 sind verschiedene
Verhalten in eckigen Klammern eingeschlossen gezeigt, und die Linien,
welche die in Klammern gesetzten Ausdrücke verbinden, zeigen die möglichen Übergänge zwischen
Verhalten an. Die umringten Verhalten, die durch eine Punktkettenlinie
verbunden sind, zeigen ein Beispiel einer zum Verhalten [grabe]
führenden Route.
Dies wird unten anhand der 2 detaillierter
beschrieben.
-
Es
sei nun der Fall betrachtet, dass der Dresseur wünscht, dem Roboter auf Befehl
das seltene Grabverhalten beizubringen, das mit dem in 1 mit
[GRABE] bezeichneten Knoten korrespondiert. Bei diesem Verhalten
sitzt der Roboter und benutzt seine linke Vorderpfote zum Kratzen
auf dem Bodens. Der Kopf des Roboters schaut nach unten zu seiner
Pfote und folgt der Bewegung. Der Dressurprozess folge dem in 2 dargestellten Muster.
-
Es
sei angenommen, dass der Roboter wie in 2A gezeigt
steht [STEH-Knoten in 1]. Zuallererst beginnt der
Roboter, wie in 2B gezeigt, mit Gehen ([GEH]
in 1). Dieser Übergang
führt nicht
näher zum
gewünschten
Verhalten [GRABE], so dass der Dresseur keinerlei Anspornungsstimuli
gibt. Bei Abwesenheit jeglichen Ansporners seitens des Dresseurs
versucht der Roboter ein anderes Verhalten, in diesem Fall hebt
er, wie in 2C dargestellt, sein linkes
Vorderbein zum Kicken ([KICKE]-Knoten
in 1). Wiederum sieht der Dresseur dieses Verhalten
nicht als näher
zum gewünschten
Verhalten [GRABE] führend
an und gibt keinen Ansporner AB. Da kein Ansporner wahrgenommen
wird, versucht der Roboter ein anderes Verhalten und sitzt zu dieser
Zeit nieder (siehe 2D). Da eine Sitzposition für das [GRABE]-Verhalten
erforderlich ist, sieht der Dresseur dieses Verhalten als näher beim gewünschten
Verhalten an und gibt zum ersten Mal den sekundären Ansporner (hier das gesprochene
Wort „gut") ab.
-
Der
Roboter versucht als Nächstes
gewisse mit dem [SITZ]-Knoten assoziierte Verhalten. Zuerst beginnt
er, wie in 2E dargestellt, mit seinen zwei
Vorderbeinen zu schieben (was mit dem Verhalten [SCHIEBE] der 1 korrespondiert).
Der Dresseur bringt keinerlei Ansporner hervor. Bei Abwesenheit
jeglichen Ansporners versucht der Roboter ein anderes Verhalten,
bei dem er, wie in 2F gezeigt, sein linkes Vorderbein hebt,
als wenn er „Hallo" winken würde. Dieses
Verhalten umfasst die Benutzung der linken Vorderpfote und ist infolgedessen
näher beim
gewünschten
[GRABE]-Verhalten, so dass der Dresseur wieder den zweiten Ansporner
(er oder sie sagt „gut") abgibt. Nachdem
er mehrere andere Verhalten versucht, die das linke Vorderbein umfassen,
versucht der Roboter, wie in 2G gezeigt,
zu graben. Da dies das gewünschte
Verhalten ist, belohnt der Dresseur den Roboter mit den primären Ansporner
(hier beispielsweise das gesprochene Wort „Bravo!").
-
Die
durch die Punktkettenlinie in 1 dargestellte
geführte
Route ist nicht die einzige, die für diese Phase der Roboterdressur
benutzt werden kann. Der Dresseur könnte den Roboter durch Abgabe
eines sekundären
Ansporners zu Bewegungen des linken Vorderbeines geführt haben,
wenn der Roboter das [KICKE]-Verhalten (2C) ausgeführt hat.
Dann hätte
der Dresseur auf das sich Niedersetzen des Roboters warten und dann
wieder einen sekundären
Ansporner abgeben können.
Schließlich
würde der
primäre
Ansporner abgegeben, wenn der Roboter das [GRABE]-Verhalten zeigte.
-
Wenn
der Roboter das gewünschte
Verhalten gezeigt hat und gelernt hat, es als solches zu identifizieren
(durch Wahrnehmung des primären
Ansporners), kann der Dresseur unmittelbar die gewünschte Befehlsanzeige,
typischerweise ein gesprochenes Befehlswort, das in Zukunft zum
Hervorbringen des gewünschten Verhaltens
seitens des Roboters benutzt wird, unmittelbar hinzufügen. Jedoch
wird bevorzugter Weise eine gewisse Art von Rückkopplung vom Roboter erhalten,
um sicherzustellen, dass die korrekte Befehlsanzeige verstanden
worden ist. Der Roboter kann so programmiert sein, dass er, wenn
er einen primären
Ansporner wahrgenommen hat, als nächstes erwartet, eine Befehlsanzeige
zu registrieren, und, wenn er einmal etwas, das er als die Befehlsanzeige
seiend ansieht, wahrgenommen hat, er eine solche Rückkopplung
gibt. Beispielsweise in dem Fall, dass die Befehlsanzeige ein gesprochenes
Befehlswort ist, und wenn der Roboter sprechen kann, kann der Roboter
so programmiert sein, dass er das Befehlswort wiederholt und um
eine Bestätigung
bittet. Wenn bei diesem Beispiel der Roboter nicht sprechen kann,
könnte
er eine gewisse andere Anzeige (beispielsweise Blinken seiner Augen)
dazu abgeben, dass er dieses neue Befehlswort als gesprochen ansieht
und eine zweite Äußerung des
Befehlsworts erwartet. Wenn er die Wiederholung des Befehlsworts
wahrnimmt, lernt der Roboter das Befehlswort, und wenn er das gleiche
Befehlswort nicht wahrnimmt, signalisiert er auf gewisse Weise (beispielsweise
Hängen
lassen seines Kopfes) das Fehlen des Verständnisses. Dies ermutigt den
Dresseur, es erneut zu versuchen.
-
Das
Befehlswort ist nicht einfach mit dem letzten Verhalten assoziiert,
sondern mit allen Verhalten, die entlang der Route, die zum primären Ansporner/neuen
Befehlswort führt,
(durch sekundäre
Ansporner) als „gut" markiert sind. Bei
dieser Stufe weiß der
Roboter nicht, ob das Befehlswort mit der Folge von „Gut"-Verhalten oder gerade
mit dem letzten Verhalten assoziiert werden soll. Infolgedessen
gibt es bei der bevorzugten Ausführungsform
des Roboterdressurverfahrens eine weitere Phase, nämlich eine
Phase zum Prüfen
des Verhaltens.
-
Nachdem
er die Befehlsanzeige verstanden hat, wiederholt der Roboter spontan
die Folge von angespornten Tätigkeiten,
die zum primären
Ansporner geführt
haben. Beim oben beschriebenen Beispiel ist diese Folge von Tätigkeiten
(oder Verhalten) gleich [SITZ-HALLO-GRABE]. Wenn der Roboter, nachdem
er die Folge ausgeführt
hat, einen primären
Ansporner wahrnimmt, sieht er dies so an, dass sich der Befehl auf
die ganze Folge bezieht. Wenn nicht, erzeugt er eine von der früheren abgeleitete
aber weniger Schritte umfassende neue Folge. Solange er keinen primären Ansporner
wahrnimmt fährt
er so fort. Eventuell kann er durch in Betracht ziehen, dass der
Befehl nur für
das letzte Verhalten in der Folge gilt, beenden.
-
EXPERIMENTE
-
Es
wurden unter Benutzung des AIBOTM-Roboters
Experimente durchgeführt,
um zu prüfen,
wie gut die auf der Klickerdressur basierende Technik der vorliegenden
Erfindung bei der Dressur eines autonomen Roboters zum Zeigen eines
unüblichen
Verhaltens erfolgreich ist. Bei diesen Experimenten wurde ein Computer
außerhalb
des Roboters dazu benutzt, alle zusätzlichen Berechnungen betreffend
die Dressurinteraktionen auszuführen.
Der Computer implementierte Spracherkennung, um Interaktionen unter
Benutzung realer Wörter
zu ermöglichen.
Der Computer implementierte auch ein Protokoll zum Senden/Empfangen
von Daten zwischen dem Computer und dem Roboter über eine Radioverbindung. Jedoch
ist es so zu verstehen, dass bei einem Roboter geeigneter Verarbeitungsleistung
und einer geeigneten Auswahl von primären und sekundären Anspornern
auf den externen Computer verzichtet werden kann.
-
Bei
den durchgeführten
Experimenten wurde eine Anzahl einzelner Personen gebeten, einen
AIBOTM-Roboter unter Benutzung des Verfahrens
gemäß der oben
beschriebenen bevorzugten Ausführungsform
der Erfindung zu dressieren. Obgleich diese Dressurtechnik bei den
einzelnen Personen, die in der Hundedressur unerfahren waren, nicht
von Natur aus kam, schienen sie das Verfahren ohne Schwierigkeit
zu verstehen und anzuwenden. Wenn einmal das Verfahren verstanden
war, wurde der Dressurprozess von den menschlichen Teilnehmern generell
so wahrgenommen, als wenn er ein Spiel wäre. In der Tat wetteiferten
die Benutzer nach dem Dressieren des Roboters zum Ausführen des
[GRABE]-Verhaltens auf Befehl miteinander, um zu versuchen, die
Roboter auf das Ausführen
zunehmend seltener und amüsierender
Verhalten zu dressieren. Viele entdeckten, dass sie einen anfangs
beigebrachten Befehl (wie beispielsweise [GRABE]) als den Startpunkt
für schnelleres
andressieren eines neuen und sogar unüblicheren Verhaltens benutzen
können.
-
Die
Angemessenheit (oder anderweitiges) des Roboterdressurverfahrens
gemäß der vorliegenden
Erfindung hängt
für den
menschlichen Dresseur von der Definition der Topologie der Verhalten
des Roboters ab. Eine Definition, die der Benutzer nicht von vorneherein
kennt, kann aber nur aus der Beobachtung des Roboters hergeleitet
werden. Insbesondere muss die vorgeschlagene Route durch die Topologie
zum Führen
des Roboters zu einem gewünschten
Verhalten gut zu der besonderen Weise passen, in welcher der Dresseur wahrnimmt,
ob eine Tätigkeit
in die richtige Richtung geht oder nicht. Obgleich gewisse Übergänge von
jedermann als „natürlich" empfunden werden,
können
andere (insbesondere diejenigen, die mit „intentionalen" Kriterien definiert
sind), abhängig
vom involvierten individuellen Dresseur, sehr unterschiedlich wahrgenommen werden.
Deshalb hängt
der Erfolg oder anderes des Dressurverfahrens gemäß der Erfindung
von der Topologie der Verhalten des Roboters (und der Übergänge darin)
ab.
-
Ein
Weg, diesem Problem zu begegnen, ist, die Topologie von Verhalten
(durch geeignete Programmierung des Roboters) so zu gestalten, dass
die Übergänge zwischen
Verhalten als natürliche,
etwa ein bei Tieren gesehenes Verhalten nachahmende erscheinen.
Ein anderer Weg ist, das auf Klickerdressur basierende Verfahren
der vorliegenden Erfindung mit Lockungsverfahren zu kombinieren.
Dies vermeidet die Notwendigkeit, auf ein spontan auszuführendes
gewünschtes
Verhalten zu warten. Professionelle Tierdresseure kombinieren diese
zwei Typen von Techniken aus dem gleichen Grund.
-
Jedoch
ist ein weiterer und besserer Weg, dem Problem zu begegnen, den
Roboter während
der Dressur derart zu programmieren, so dass die Wahrscheinlichkeit
eines stattfindenden besonderen Übergangs
auf dynamische Weise modifiziert wird. Anfangs ist der probabilistische Verhaltengraph
sehr groß mit
ungefähr gleichen
Wahrscheinlichkeiten von Übergängen zwischen
jedem Paar von Knoten. Jedoch kann der Roboter derart programmiert
werden, dass er, wenn er wahrnimmt, dass auf die Wahrnehmung eines
sekundären
Ansporners ein besonderer Übergang
folgt, die Wahrscheinlichkeit dieses in der Zukunft stattfindenden Übergangs
erhöht
wird. Bei diesem modifizierten Verfahren tendiert der Roboter dazu,
häufiger
die Verhaltensübergänge zu zeigen,
die der Benutzer mag oder natürlich
findet.
-
Wie
oben beschrieben wird bei der bevorzugten Ausführungsform der Erfindung ein
fester Graph von Verhalten des Roboters benutzt. Dies hat den Vorteil,
dass es ein einfacheres Verfahren ist und die Übergänge im Verhalten des Roboters
vorhersagbarer sind. Jedoch ist die Gestaltung eines „natürlichen" Graphen eine schwierige
Aufgabe. Die modifizierte Version der bevorzugten Ausführungsform,
bei der Wahrscheinlichkeiten von Übergängen von der Wahrnehmung eines
sekundären
Ansporners abhängig
aktualisiert werden, ist komplizierter zu implementieren, aber viel
interessanter. Wenn beispielsweise der Benutzer „gut" sagt, wenn der Roboter im Sitzen gerade
das [HALLO]-Verhalten versucht hat, gibt es zwei Effekte: (1) Das
Verhalten des Roboters bewegt sich von [SITZ] zu [HALLO] und der
Roboter beginnt, die Verhalten zu untersuchen, die beim Übergang
vom [HALLO]-Knoten zur Verfügung
stehen, und (2) die Wahrscheinlichkeit des Übergangs von [SITZ] zu [HALLO]
wird erhöht.
Auf diese Weise kann das Verhalten des Roboters in einer Weise beeinflusst werden,
die sogar noch stärker
von seinen Interaktionen mit dem menschlichen Benutzer abhängen.
-
Die
obige Beschreibung der bevorzugten Ausführungsform der Erfindung wurde
primär
in Form des Beibringens einem Roboter, eine gewünschte Tätigkeit auszuführen, gegeben.
Jedoch ist die Erfindung generell weiter auf das Dressieren von
Verhalten anwendbar. Beispielsweise ist es auf dem Robotikgebiet
ein besonderes Problem, sicherzustellen, dass der Roboter und menschliche
Benutzer ihre Aufmerksamkeit auf den gleichen Gegenstand (unter
Benutzung eines physikalischen Objekts) fokussieren. Dieses Problem
der „gemeinschaftlich
genutzten Aufmerksamkeit" ist
kritisch, wenn es dazu kommt, dem Roboter die Namen von Objekten
beizubringen. Die vorliegende Erfindung kann zum Sicherstellen,
dass der Roboter seine Aufmerksamkeit auf ein gewünschtes
Objekt richtet, angewendet werden. Insbesondere kann der sekundäre Ansporner
abgegeben werden, wenn der Roboter seine Aufmerksamkeit enger und
enger auf das gewünschte
Objekt richtet. Wenn der Roboter seine Aufmerksamkeit auf das gewünschte Objekt
richtet, wird ein primärer
Ansporner gegeben (und in einem geeigneten Fall kann der Name des
Objekts gesagt werden).
-
Es
ist so zu verstehen, dass die vorliegende Erfindung nicht auf die
detaillierten Merkmale der oben beschriebenen speziellen Ausführungsformen
beschränkt
ist. Insbesondere können
zahlreiche Modifikationen und Adaptationen ohne Abweichung von der
in den Ansprüchen
definierten Erfindung gemacht werden.