DE102019002065B4 - Maschinelle Lernvorrichtung, Robotersteuervorrichtung und Robotervisionssystem, das eine maschinelle Lernvorrichtung verwendet, und maschinelles Lernverfahren - Google Patents

Maschinelle Lernvorrichtung, Robotersteuervorrichtung und Robotervisionssystem, das eine maschinelle Lernvorrichtung verwendet, und maschinelles Lernverfahren Download PDF

Info

Publication number
DE102019002065B4
DE102019002065B4 DE102019002065.0A DE102019002065A DE102019002065B4 DE 102019002065 B4 DE102019002065 B4 DE 102019002065B4 DE 102019002065 A DE102019002065 A DE 102019002065A DE 102019002065 B4 DE102019002065 B4 DE 102019002065B4
Authority
DE
Germany
Prior art keywords
robot
end portion
arm end
workpiece
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102019002065.0A
Other languages
English (en)
Other versions
DE102019002065A1 (de
Inventor
Fumikazu Warashina
Yuutarou Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of DE102019002065A1 publication Critical patent/DE102019002065A1/de
Application granted granted Critical
Publication of DE102019002065B4 publication Critical patent/DE102019002065B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/04Viewing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0009Constructional details, e.g. manipulator supports, bases
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0081Programme-controlled manipulators with master teach-in means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39393Camera detects projected image, compare with reference image, position end effector
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Manipulator (AREA)

Abstract

Maschinelle Lernvorrichtung, umfassend:eine Zustandsbeobachtungseinheit (1), um als Zustandsvariablen ein Bild eines Werkstücks, das durch einen Sichtsensor in einer beliebigen Position aufgenommen wird, und einen Bewegungsbetrag eines Armendabschnitts eines Roboters gegenüber der beliebigen Position zu beobachten, wobei der Bewegungsbetrag berechnet wird, um das Bild einem Zielbild näherzubringen;eine Einheit zum Abrufen von Bestimmungsdaten (2), um das Zielbild als Bestimmungsdaten abzurufen;eine Lerneinheit (3), um den Bewegungsbetrag des Armendabschnitts zu lernen, um den Armendabschnitt oder das Werkstück von der beliebigen Position in eine Zielposition zu bewegen, gemäß einem Trainingsdatensatz, der aus einer Kombination der Zustandsvariablen und der Bestimmungsdaten besteht, wobei die Zielposition eine Position ist, in welcher der Sichtsensor und das Werkstück eine vorbestimmte relative Positionsbeziehung aufweisen, unddas Zielbild ein Bild des Werkstücks ist, das durch den Sichtsensor aufgenommen wird, wenn der Armendabschnitt oder das Werkstück in der Zielposition angeordnet ist; undeine Entscheidungsbestimmungseinheit (4), um einen Betätigungsbefehl für den Roboter basierend auf dem Ergebnis, dass die Lerneinheit das Lernen gemäß dem Trainingsdatensatz ausgeführt hat, zu bestimmen, wobeidie Entscheidungsbestimmungseinheit (4) eine Berechnung wiederholt, bis der Bewegungsbetrag gleich oder kleiner als ein vorbestimmter Schwellenwert ist, nachdem der Armendabschnitt um den Bewegungsbetrag, der von der maschinellen Lernvorrichtung ausgegeben wird, bewegt wurde.

Description

  • Die vorliegende Erfindung betrifft eine maschinelle Lernvorrichtung, eine Robotersteuervorrichtung und ein Robotervisionssystem, das die maschinelle Lernvorrichtung verwendet, und ein maschinelles Lernverfahren.
  • Um bei Robotersystemen Roboter in eine vorbestimmte Betätigung zu versetzen, ist ein Verfahren bekannt, das als visuelle Rückmeldung bezeichnet wird und ein Bild verwendet, das durch eine Kamera aufgenommen wird, die in einem Roboter bereitgestellt wird (beispielsweise in den Dokumenten JP 2003 - 211 381 A , JP H09 - 076 185 A , JP 2010 - 188 432 A und JP 2003 - 305 676 A ). Mit der Verwendung der visuellen Rückmeldung können die Robotersysteme unter Verwendung einer Korrekturbetätigung schneller eingerichtet werden.
  • Weitere maschinelle Lernvorrichtungen, Robotersteuervorrichtungen und maschinelle Lernverfahren werden durch die Dokumente DE 10 2017 213 658 A1 , DE 20 2017 105 598 U1 , DE 10 2017 011 361 A1 , DE 10 2017 008 836 A1 , EP 2 993 002 B1 und US 2018 / 0 126 553 A1 offenbart.
  • Obwohl eine kurze Einrichtungszeit erreicht wird, weisen die Robotersysteme jedoch gewisse Probleme auf. Ein erstes Problem besteht darin, dass beispielsweise eine Zielmarke oder ein Merkmalspunkt im Voraus an einem Zielwerkstück vorbereitet werden muss. Ein zweites Problem besteht darin, dass ein Detektionsalgorithmus benötigt wird, um die Zielmarke oder den Merkmalspunkt in einem aufgenommenen Bild zu detektieren. Ein drittes Problem besteht darin, dass unbedingt Einrichtungsfachwissen notwendig ist, um vorbereitete Zielmarke oder den Merkmalspunkt konstant zu detektieren. Angesichts dieser Tatsachen können Bediener, welche die visuelle Rückmeldung verwenden, immer noch stark belastet sein.
  • Es besteht daher die Aufgabe, eine verbesserte maschinelle Lernvorrichtung, ein verbessertes Robotervisionssystem und ein verbessertes maschinelles Lernverfahren bereitzustellen, welche die vorangehend beschriebenen Nachteile zumindest teilweise überwinden.
  • Diese Aufgabe wird durch die Erfindung gelöst, welche durch die unabhängigen Patentansprüche definiert ist. Vorteilhafte Ausgestaltungen werden durch die abhängigen Patentansprüche definiert.
  • Ein Robotersystem, das eine herkömmliche visuelle Rückmeldung verwendet, erfordert, dass eine Zielmarke oder ein Merkmalspunkt an einem Zielwerkstück im Voraus vorbereitet wird, und weist daher das Problem auf, dass ein Bediener stark belastet wird.
  • Eine maschinelle Lernvorrichtung gemäß einer Ausführungsform der vorliegenden Offenbarung umfasst eine Zustandsbeobachtungseinheit, um als Zustandsvariablen ein Bild eines Werkstücks, das durch einen Sichtsensor in einer beliebigen Position aufgenommen wird, und einen Bewegungsbetrag eines Armendabschnitts eines Roboters gegenüber der beliebigen Position zu beobachten, wobei der Bewegungsbetrag berechnet wird, um das Bild einem Zielbild näherzubringen; eine Einheit zum Abrufen von Bestimmungsdaten, um das Zielbild als Bestimmungsdaten abzurufen; und eine Lerneinheit, um den Bewegungsbetrag des Armendabschnitts zu lernen, um den Armendabschnitt oder das Werkstück von der beliebigen Position in eine Zielposition zu bewegen, gemäß einem Trainingsdatensatz, der aus einer Kombination der Zustandsvariablen und der Bestimmungsdaten besteht. Die Zielposition ist eine Position, in welcher der Sichtsensor und das Werkstück eine vorbestimmte relative Positionsbeziehung aufweisen. Das Zielbild ist ein Bild des Werkstücks, das durch den Sichtsensor aufgenommen wird, wenn der Armendabschnitt oder das Werkstück in der Zielposition angeordnet ist.
  • Weiter umfasst die maschinelle Lernvorrichtung eine Entscheidungsbestimmungseinheit, um einen Betätigungsbefehl für den Roboter basierend auf dem Ergebnis, dass die Lerneinheit das Lernen gemäß dem Trainingsdatensatz ausgeführt hat, zu bestimmen, wobei die Entscheidungsbestimmungseinheit dazu eingerichtet ist, eine Berechnung zu wiederholen, bis der Bewegungsbetrag gleich oder kleiner als ein vorbestimmter Schwellenwert ist, nachdem der Armendabschnitt um den Bewegungsbetrag, der von der maschinellen Lernvorrichtung ausgegeben wird, bewegt wurde.
  • Ein maschinelles Lernverfahren gemäß einer Ausführungsform der vorliegenden Offenbarung umfasst die Schritte des Speicherns als Zielposition einer Position, in der ein Sichtsensor und ein Werkstück eine vorbestimmte relative Positionsbeziehung aufweisen; des Speicherns als Zielbild eines Bildes des Werkstücks, das durch einen Sichtsensor aufgenommen wird, wenn ein Armendabschnitt eines Roboters oder das Werkstück in der Zielposition angeordnet ist; des Beobachtens als Zustandsvariablen eines Bildes des Werkstücks, das in einer beliebigen Position aufgenommen wird, und eines Bewegungsbetrags des Armendabschnitts gegenüber der beliebigen Position, wobei der Bewegungsbetrag berechnet wird, um das Bild dem Zielbild näherzubringen; des Abrufens des Zielbilds als Bestimmungsdaten aus dem Zielbildspeicher, der das Zielbild speichert; und des Lernens des Bewegungsbetrags, um den Armendabschnitt oder das Werkstück von der beliebigen Position in die Zielposition zu bewegen, gemäß einem Trainingsdatensatz, der aus einer Kombination der Zustandsvariablen und der Bestimmungsdaten besteht.
  • Weiter umfasst das Lernverfahren den Schritt des Bestimmens eines Betätigungsbefehls für den Roboter basierend auf dem Ergebnis des Lernens gemäß dem Trainingsdatensatz, wobei eine Berechnung wiederholt wird, bis der Bewegungsbetrag gleich oder kleiner als ein vorbestimmter Schwellenwert ist, nachdem der Armendabschnitt um den Bewegungsbetrag bewegt wurde.
  • Zum besseren Verständnis der Erfindung dienen die 1 bis 8. Es zeigen:
    • 1 ein Strukturdiagramm eines Robotervisionssystems, das eine maschinelle Lernvorrichtung umfasst;
    • 2 ein Blockdiagramm des Robotervisionssystems, das die maschinelle Lernvorrichtung umfasst;
    • 3 ein ausführliches Blockdiagramm des Robotervisionssystems, das die maschinelle Lernvorrichtung umfasst;
    • 4 ein Blockdiagramm der maschinellen Lernvorrichtung;
    • 5 ein Ablaufschema, das einen Arbeitsablauf eines maschinellen Lernverfahrens erklärt;
    • 6 ein schematisches Diagramm eines Neuronenmodells;
    • 7 ein schematisches Diagramm eines Modells eines neuronalen Netzwerks auf drei Ebenen; und
    • 8 ein Ablaufschema, das einen Betätigungsarbeitsablauf erklärt, nachdem das Lernen durch das maschinelle Lernverfahren erfolgt ist.
  • Eine maschinelle Lernvorrichtung, eine Robotersteuervorrichtung und ein Robotervisionssystem, das die maschinelle Lernvorrichtung verwendet, und ein maschinelles Lernverfahren werden nachstehend mit Bezug auf die Zeichnungen beschrieben. Es wird ein Robotervisionssystem beschrieben, das eine maschinelle Lernvorrichtung umfasst. 1 ist ein Strukturdiagramm eines Robotervisionssystems 1000, das eine maschinelle Lernvorrichtung umfasst, und 2 ist ein Blockdiagramm des Robotervisionssystems 1000. Das Robotervisionssystem 1000 umfasst eine Robotersteuervorrichtung 20, einen Roboter 10, der an einem Werkstück 13 (Zielobjekt) eine Betätigung unter Verwendung eines Werkzeugs, das an einem Armendabschnitt 11 angebracht ist, ausführt, und einen Sichtsensor 12, der das Werkstück 13 bildlich erfasst.
  • Der Roboter 10 ist beispielsweise ein sechsachsiger Knickarmroboter, der eine vorbestimmte Betätigung an dem Werkstück 13 ausführt, das auf einem Maschinentisch 40 angeordnet ist. Falls beispielsweise eine Greifbetätigung an dem Werkstück 13 ausgeführt wird, wird eine Hand an dem Armendabschnitt 11 angebracht. Ohne Einschränkung auf dieses Beispiel kann jedoch ein Werkzeug für eine andere Betätigung, wie etwa Schweißen oder Polieren, an dem Armendabschnitt 11 angebracht werden. Der Armendabschnitt 11 kann nicht nur in einer waagerechten Richtung, sondern auch in einer senkrechten Richtung betätigt werden, und kann auch um eine Achse herum gedreht werden, die sich in der senkrechten Richtung erstreckt. Die derartige Bewegung des Armendabschnitts 11 kann ein Bild des Sichtsensors 12 anpassen, der an dem Armendabschnitt 11 bereitgestellt wird.
  • Wie in 1 gezeigt, wird der Sichtsensor 12 an dem Armendabschnitt 11 des Roboters 10 bereitgestellt. Alternativ kann der Sichtsensor 12 außerhalb des Roboters 10 feststehend bereitgestellt werden. In beiden Fällen nimmt der Sichtsensor 12 ein Bild des Werkstücks 13 auf, um den Armendabschnitt 11 derart zu bewegen, dass der Armendabschnitt 11 und das Werkstück 13 eine angestrebte relative Positionsbeziehung aufweisen. Der Sichtsensor 12 kann eine zweidimensionale Kamera oder ein dreidimensionaler Sensor (beispielsweise ein Entfernungssensor) sein. Ein Sichtsensor 12 wird in 1 beispielhaft bereitgestellt, es kann jedoch stattdessen eine Mehrzahl von Sichtsensoren bereitgestellt werden. Beispielsweise kann der Sichtsensor eine Stereokamera sein, die unter Verwendung von zwei zweidimensionalen Kameras eine Korrektur vornimmt.
  • Selbst wenn der Sichtsensor 12 an der Außenseite des Roboters 10 befestigt ist, kann der Armendabschnitt 11 um die Achse herum gedreht werden, die sich in der senkrechten Richtung erstreckt. Ein Bild des Werkstücks 13, das durch den Sichtsensor 12 aufgenommen wird, kann dadurch angepasst werden.
  • Der Sichtsensor 12 nimmt ein Bild des Werkstücks 13 auf, das auf dem Maschinentisch 40 angeordnet ist. Das aufgenommene Bild wird an einer Anzeigeeinheit 500 angezeigt. Beispielsweise wird, wenn der Sichtsensor 12 das Werkstück 13 bildlich erfasst, ein Werkstückbild 513 an der Anzeigeeinheit 500 angezeigt.
  • Die „Referenzposition“ ist eine Werkstückposition, die als Bezugspunkt beim Ausführen der vorbestimmten Betätigung an dem Werkstück 13 verwendet wird. Beispielsweise kann der Mittelpunkt einer Ebene auf dem Maschinentisch 40 als Referenzposition eingestellt werden.
  • Die „Zielposition“ ist die Position des Armendabschnitts 11 des Roboters 10, wenn der Armendabschnitt 11 und das Werkstück 13 eine vorbestimmte relative Positionsbeziehung aufweisen. Wenn beispielsweise die Greifbetätigung an dem Werkstück 13 unter Verwendung der Hand als Armendabschnitt 11 ausgeführt wird, kann eine Position, in welcher der Armendabschnitt 11 das Werkstück 13 zuverlässig ergreifen kann, als Zielposition eingestellt werden.
  • 3 ist ein ausführliches Blockdiagramm des Robotervisionssystems, das die maschinelle Lernvorrichtung umfasst. Das Robotervisionssystem 1000 umfasst den Roboter 10, die Hand, d.h. den Armendabschnitt 11, den Sichtsensor 12 und die Robotersteuervorrichtung 20. Die Robotersteuervorrichtung 20 umfasst den Zielbildspeicher 22, einen Roboter-Controller 23 und eine maschinelle Lernvorrichtung 100. Die Robotersteuervorrichtung 20 kann ferner einen Zielpositionsspeicher 21 und einen Bewegungsbetragsrechner 5 umfassen.
  • Der Zielpositionsspeicher 21 speichert die zuvor beschriebene Zielposition. Der Zielbildspeicher 22 speichert ein Zielbild. Das „Zielbild“ ist ein Bild des Werkstücks 13, das durch den Sichtsensor 12 aufgenommen wird, wenn der Armendabschnitt 11 in der Zielposition angeordnet ist. Als Zielpositionsspeicher 21 und Zielbildspeicher 22 kann eine Speichervorrichtung, wie etwa ein RAM, verwendet werden.
  • Der Bewegungsbetragsrechner 5 berechnet einen Bewegungsbetrag des Armendabschnitts 11, um ein Bild des Werkstücks 13, das durch den Sichtsensor 12 aufgenommen wird, dem Zielbild näherzubringen. Der Bewegungsbetragsrechner 5 wird durch Software oder Firmware in einem Computer (CPU: Zentraleinheit) ausgebildet.
  • Der Roboter-Controller 23 steuert den Roboter 10 gemäß einem bestimmten Betätigungsbefehl. Als ein Beispiel des Betätigungsbefehls gibt es einen Drehmomentbefehl, um zu bewirken, dass der Roboter 10 eine vorbestimmte Betätigung ausführt, usw. Der Roboter-Controller 23 wird durch Software oder Firmware in dem Computer ausgebildet.
  • Als Nächstes wird die maschinelle Lernvorrichtung beschrieben. 4 ist ein Blockdiagramm der maschinellen Lernvorrichtung. Die maschinelle Lernvorrichtung 100 umfasst eine Zustandsbeobachtungseinheit 1, eine Einheit zum Abrufen von Bestimmungsdaten 2 und eine Lerneinheit 3. Die maschinelle Lernvorrichtung 100 wird durch Software unter Verwendung eines Computers ausgebildet, der die Robotersteuervorrichtung 20 bildet.
  • Die Zustandsbeobachtungseinheit 1 beobachtet als Zustandsvariablen ein Bild des Werkstücks 13, das durch den Sichtsensor 12 in einer beliebigen Position aufgenommen wird, und einen Bewegungsbetrag des Armendabschnitts 11 gegenüber der beliebigen Position, der berechnet wird, um das Bild dem Zielbild näherzubringen.
  • Die Einheit zum Abrufen von Bestimmungsdaten 2 ruft als Bestimmungsdaten das Zielbild aus dem Zielbildspeicher 22 ab.
  • Die Lerneinheit 3 lernt den Bewegungsbetrag, um den Armendabschnitt 11 von der beliebigen Position in die Zielposition zu bewegen, gemäß einem Trainingsdatensatz, der aus einer Kombination der Zustandsvariablen und der Bestimmungsdaten besteht. Wenn der Sichtsensor 12 an der Außenseite des Roboters 10 befestigt ist, wird ein Bewegungsbetrag des Armendabschnitts 11 erlernt, um das Werkstück 13 in eine Position (Zielposition) zu bewegen, in welcher der Sichtsensor 12 und das abgebildete Werkstück 13 eine angestrebte relative Positionsbeziehung aufweisen.
  • Bei dem Beispiel aus 2 wird der Bewegungsbetrag gemäß Trainingsdatensätzen berechnet, die von einem Roboter 10 erzielt werden, doch ist die vorliegende Erfindung nicht auf dieses Beispiel eingeschränkt. Bei der maschinellen Lernvorrichtung 100 kann die Lerneinheit 3 konfiguriert werden, um den Bewegungsbetrag gemäß Trainingsdatensätzen zu lernen, die von einer Mehrzahl von Robotern erzielt werden.
  • Wie in 2 gezeigt, umfasst die Lerneinheit 3 bevorzugt eine Belohnungsberechnungseinheit 31, die basierend auf der Position des Armendabschnitts 11 des Roboters nach einer Bewegung und auf der Zielposition eine Belohnung berechnet, und eine Funktionsaktualisierungseinheit 32, die eine Funktion aktualisiert, um einen Bewegungsbetrag des Armendabschnitts 11 aus vorliegenden Zustandsvariablen basierend auf Belohnungen vorherzusagen. Die Funktionsaktualisierungseinheit 32 führt bevorzugt ein Verstärkungslernen unter Verwendung eines so genannten Q-Lernens aus. Alternativ kann ein betreutes Lernen, das noch beschrieben wird, unter Verwendung als Etiketten von Datensätzen eines Bildes des Werkstücks 13, das durch den Sichtsensor 12, der in einer vorbestimmten Position angeordnet ist, aufgenommen wird, und eines Bewegungsbetrags des Armendabschnitts 11 von der vorbestimmten Position in die Zielposition ausgeführt werden. Beim betreuten Lernen wird, nachdem das Zielbild und die Zielposition in der Referenzposition gespeichert wurden, der Armendabschnitt 11 in eine geeignete Position bewegt, und es werden sein Bewegungsbetrag und ein Bild in seiner Position erzielt. Das Vorbereiten einer Mehrzahl der Sätze ermöglicht das Lernen der Beziehung zwischen der Variation der Bilder und des Bewegungsbetrags, und ermöglicht dadurch das automatische Erzielen einer großen Anzahl von Lerndatensätzen.
  • Der Armendabschnitt 11 kann derart bewegt werden, dass ein Bild des Werkstücks 13, das durch den Sichtsensor 12 aufgenommen wird, dem Zielbild nähergebracht wird. Je näher die Position des Roboters 10 nach der Bewegung, desto höher kann die bereitgestellte Belohnung sein.
  • Die Lerneinheit 3 aktualisiert bevorzugt eine Aktionswerttabelle, die dem Bewegungsbetrag des Armendabschnitts 11 entspricht, basierend auf den Zustandsvariablen und der Belohnung. Die Lerneinheit 3 berechnet bevorzugt die Zustandsvariablen, die durch die Zustandsbeobachtungseinheit 1 in einer Struktur aus mehreren Ebenen beobachtet wird, und aktualisiert die Aktionswerttabelle, um den Wert einer Aktion in Echtzeit zu bestimmen. Als ein Verfahren zum Berechnen der Zustandsvariablen in der Struktur aus mehreren Ebenen kann beispielsweise ein neuronales Netzwerk aus mehreren Ebenen verwendet werden, wie in 7 gezeigt.
  • Die Lerneinheit 3 kann basierend auf Zustandsvariablen und auf einer Belohnung eines anderen Roboters, der mit dem Roboter identisch ist, eine Wertfunktion aktualisieren, die einem Bewegungsbetrag eines Armendabschnitts des anderen Roboters entspricht. Bei dem Beispiel aus 2 wird eine eigene Wertfunktion unter Verwendung der Wertfunktion aktualisiert, die durch die Lerneinheit der maschinellen Lernvorrichtung selber aktualisiert wurde, doch ist die Aktualisierung nicht darauf eingeschränkt. Mit anderen Worten kann die eigene Wertfunktion unter Verwendung einer Wertfunktion aktualisiert werden, die durch eine Lerneinheit einer anderen maschinellen Lernvorrichtung als der eigenen maschinellen Lernvorrichtung aktualisiert wurde. Beispielsweise kann eine Datenaustauscheinheit zum Austauschen von Daten zwischen einer Mehrzahl von Robotersteuervorrichtungen ferner bereitgestellt werden, und der Lerninhalt durch eine maschinelle Lernvorrichtung einer anderen Robotersteuervorrichtung kann beim Lernen der eigenen maschinellen Lernvorrichtung verwendet werden.
  • Die Lerneinheit 3 kann konfiguriert sein, um den Bewegungsbetrag des Armendabschnitts 11 des Roboters 10 gemäß einem zusätzlichen Trainingsdatensatz, der aus einer Kombination von vorliegenden Zustandsvariablen und Bestimmungsdaten besteht, erneut zu lernen und zu aktualisieren.
  • Die maschinelle Lernvorrichtung 100 umfasst ferner bevorzugt eine Entscheidungsbestimmungseinheit 4, die einen Betätigungsbefehl für den Roboter 10 basierend auf dem Ergebnis bestimmt, dass die Lerneinheit 3 das Lernen gemäß dem Trainingsdatensatz ausgeführt hat. Die Entscheidungsbestimmungseinheit 4 berechnet einen Bewegungsbetrag (Aktionsdaten) des Armendabschnitts 11 des Roboters 10, um ein Bild des Werkstücks 13, das durch den Sichtsensor 12 aufgenommen wird, dem Zielbild näherzubringen, unter Verwendung des Bildes des Werkstücks 13, das in einer Position nach der Bewegung des Armendabschnitts 11 abgebildet wird, als Zustandsvariable und unter Verwendung des Zielbilds als Bestimmungsdaten. Beispielsweise berechnet die Entscheidungsbestimmungseinheit 4 einen Bewegungsbetrag des Armendabschnitts 11, um ein Bild des Werkstücks 13, das durch den Sichtsensor 12 aufgenommen wird, der an dem Armendabschnitt 11 des Roboters 10 bereitgestellt wird, der in einer beliebigen Position angeordnet ist, dem Zielbild näherzubringen.
  • Als Nächstes wird ein maschinelles Lernverfahren mit Bezug auf ein in 5 gezeigtes Ablaufschema beschrieben. Zunächst speichert der Zielpositionsspeicher 21 in Schritt S101 als Zielposition die Position des Armendabschnitts 11 des Roboters 10, wenn der Sichtsensor 12 und das Werkstück 13, die in eine Referenzposition versetzt wurden, eine vorbestimmte relative Positionsbeziehung aufweisen.
  • Als Nächstes speichert der Zielbildspeicher 22 in Schritt S102 als Zielbild ein Bild des Werkstücks 13, das in die Referenzposition versetzt wurde, das durch den Sichtsensor 12 aufgenommen wird, der in dem Armendabschnitt 11 bereitgestellt wird, der in der Zielposition angeordnet ist.
  • Als Nächstes misst die Zustandsbeobachtungseinheit 1 in Schritt S103 als Zustandsvariablen ein Bild des Werkstücks 13, das durch den Sichtsensor 12, der in einer beliebigen Position angeordnet ist, aufgenommen wird, und einen Bewegungsbetrag des Armendabschnitts 11 gegenüber der beliebigen Position, der berechnet wird, um das Bild dem Zielbild näherzubringen.
  • Als Nächstes wird in Schritt S104 das Zielbild aus dem Zielbildspeicher 22, der das Zielbild speichert, als Bestimmungsdaten erzielt.
  • Als Nächstes wird in Schritt S105 der Bewegungsbetrag, um den Armendabschnitt 11 von der beliebigen Position in die Zielposition zu bewegen, gemäß einem Trainingsdatensatz, der aus einer Kombination der Zustandsvariablen und der Bestimmungsdaten besteht, erlernt.
  • Als Nächstes wird in Schritt S106 bestimmt, ob die Differenz zwischen der Position des Armendabschnitts 11 nach der Bewegung und der Zielposition gleich oder kleiner als ein erster Schwellenwert ist oder nicht. Wenn die Differenz zwischen der Position des Armendabschnitts 11 nach der Bewegung und der Zielposition gleich oder kleiner als der erste Schwellenwert ist, wird bestimmt, dass die Positionsbeziehung zwischen dem Sichtsensor 12 und dem Werkstück 13 die gleiche wie die Positionsbeziehung zum Zeitpunkt der Aufnahme des Zielbilds ist, und dadurch ist das Lernen beendet. Der erste Schwellenwert wird bevorzugt innerhalb eines Bereichs eingestellt, in dem der Roboter 10 eine vorbestimmte Betätigung an dem Werkstück 13 unter Verwendung eines Werkzeugs ausführen kann, das an dem Armendabschnitt 11 angebracht ist.
  • Wenn andererseits die Differenz den ersten Schwellenwert überschreitet, kehrt der Prozess zu Schritt S103 zurück, ein Bewegungsbetrag des Armendabschnitts wird wiederholt berechnet, bis die Differenz zwischen der Position des Armendabschnitts 11 nach der Bewegung und der Zielposition gleich oder kleiner als der erste Schwellenwert ist. Wie zuvor beschrieben, nachdem der Armendabschnitt 11 um den Bewegungsbetrag bewegt wurde, der von der maschinellen Lernvorrichtung 100 ausgegeben wird, wiederholt die Entscheidungsbestimmungseinheit 4 ihre Betätigung, bis die Differenz zwischen der Position des Armendabschnitts 11 nach der Bewegung und der Zielposition gleich oder kleiner als ein vorbestimmter Schwellenwert (erster Schwellenwert) ist. Nach der Bewegung um die Bewegungsbeträge, die durch das Lernen der maschinellen Lernvorrichtung 100 erzielt werden, führt der Roboter 10 eine vorbestimmte Betätigung in dieser Position als Ausgangspunkt aus.
  • Das Beispiel des Bewegens des Armendabschnitts 11 wurde zuvor beschrieben, doch kann das Lernen ebenso erfolgen, wenn der Sichtsensor 12 außerhalb des Roboters 100 bereitgestellt wird. Wenn der Sichtsensor 12 außerhalb des Roboters 10 bereitgestellt wird, werden ein Bild, das die relative Positionsbeziehung zwischen dem Sichtsensor 12 und dem Werkstück 13 abbildet und vor der Bewegung des Armendabschnitts 11 aufgenommen wurde, und ein Bewegungsbetrag als Zustandsvariablen eingestellt, und der Bewegungsbetrag kann erlernt werden, indem ein Bild, das eine angestrebte relative Positionsbeziehung zwischen dem Sichtsensor 12 und dem Werkstück 13 darstellt, als Bestimmungsdaten (Zielbild) eingestellt wird.
  • Das Ablaufschema aus 5 beschreibt ein Beispiel, bei dem die Größenbeziehung zwischen der Differenz zwischen der Position des Armendabschnitts 11 nach der Bewegung und der Zielposition und dem ersten Schwellenwert jedes Mal bestimmt wird, wenn sich der Armendabschnitt 11 bewegt, doch ist die vorliegende Erfindung nicht auf dieses Beispiel eingeschränkt. Mit anderen Worten kann, um die zum Lernen benötigte Zeit zu reduzieren, die Anzahl von Vergleichen zwischen der Differenz zwischen der Position des Armendabschnitts 11 nach der Bewegung und der Zielposition und dem ersten Schwellenwert eingeschränkt werden. Als ein Verfahren zum Einschränken der Anzahl kann beispielsweise die Anzahl von Vergleichen im Voraus bestimmt werden. Alternativ kann die Differenz zwischen der Position des Armendabschnitts 11, nachdem er mit einer vorbestimmten Häufigkeit bewegt wurde, und der Zielposition nur einmal mit dem Schwellenwert verglichen werden. Alternativ kann die Differenz zwischen der Position des Armendabschnitts 11 nach der Bewegung und der Zielposition als Reaktion auf einen Benutzerbefehl mit dem Schwellenwert verglichen werden.
  • Die in 2 gezeigte maschinelle Lernvorrichtung 100 wird ausführlich beschrieben. Die maschinelle Lernvorrichtung 100 weist die Funktion des Erlernens von Wissen sowie die Funktionen des Entnehmens von nützlichen Regeln, Wissensdarstellungen, Kriterien usw. aus einer Datengruppe, die in die Vorrichtung eingegeben wird, durch Analyse und des Ausgebens von Bestimmungsergebnissen auf. Dafür gibt es diverse Verfahren, die grob in „betreutes Lernen“, „unbetreutes Lernen“ und „Verstärkungslernen“ unterteilt werden. Wenn diese Verfahren ausgebildet werden, wird des Weiteren ein so genanntes „tiefgehendes Lernverfahren“ zum Lernen des Entnehmens der Merkmale selber verwendet.
  • Beim „betreuten Lernen“ wird eine große Menge von Datenpaaren aus einer Eingabe und einem Ergebnis (Etikett) einer Lernvorrichtung (maschinellen Lernvorrichtung) bereitgestellt. Die maschinelle Lernvorrichtung kann Merkmale aus dem Datensatz erlernen und erzielt heuristisch ein Modell, um ein Ergebnis aus einer Eingabe, d.h. die Beziehung dazwischen, vorherzusagen. Bei diesem Beispielkann das betreute Lernen bei der Berechnung eines Bewegungsbetrags, um den Armendabschnitt 11 von einer beliebigen Position in eine Zielposition zu bewegen, basierend auf einem Messergebnis der Zustandsbeobachtungseinheit 1, wozu ein Bewegungsbetrag des Armendabschnitts 11 des Roboters 10, ein Bild des Werkstücks 13 usw. gehören, und auf einer Belohnung der Belohnungsberechnungseinheit 31 verwendet werden. Das obige Lernen kann unter Verwendung eines Algorithmus, wie etwa eines neuronalen Netzwerks, das noch beschrieben wird, ausgebildet werden.
  • Beim „unbetreuten Lernen“ wird nur eine große Menge von Eingangsdaten für eine Lernvorrichtung (maschinelle Lernvorrichtung) bereitgestellt. Die maschinelle Lernvorrichtung erlernt die Verteilung der Eingangsdaten und wendet Komprimierung, Klassifizierung, Ausrichtung usw. auf die Eingangsdaten an, ohne entsprechende Ausgangsdaten als Betreuer bereitzustellen. Die Merkmale des Datensatzes können basierend auf ihrer Ähnlichkeit zusammengefasst werden. Mit der Verwendung dieses Ergebnisses wird ein gewisses Kriterium bereitgestellt, und eine Ausgabe wird zugeteilt, um das Kriterium zu optimieren, wodurch eine Vorhersage der Ausgabe ermöglicht wird. Es gibt auch ein Verfahren, das als „halbbetreutes Lernen“ bezeichnet wird, als dazwischenliegende Problemstellung zwischen dem „betreuten Lernen“ und dem „unbetreuten Lernen“. Bei dem „halbbetreuten Lernen“ umfasst ein Teil der Daten Paare aus einer Eingabe und einer Ausgabe, während der andere nur Eingaben umfasst.
  • Beim Verstärkungslernen ist die Problemstellung wie folgt.
    • - Die maschinelle Lernvorrichtung 100 beobachtet den Zustand einer Umgebung 200 und bestimmt eine Aktion.
    • - Die Umgebung 200 ändert sich gemäß einer gewissen Regel, und zudem ändert manchmal eine Aktion des Roboters selber die Umgebung.
    • - Ein Belohnungssignal kehrt jedes Mal zurück, wenn eine Aktion ausgeführt wird.
    • - Ziel ist es, eine gesamte (Ermäßigungs-) Belohnung in der Zukunft zu maximieren.
    • - Das Lernen beginnt in einem Zustand, in dem ein Ergebnis, das durch eine Aktion erbracht wird, gar nicht oder nur unzureichend bekannt ist. Die Robotersteuervorrichtung 20 kann das Ergebnis erst als Daten erzielen, nachdem der Armendabschnitt 11 des Roboters 10 oder das Werkstück 13 tatsächlich betätigt wurde. Mit anderen Worten ist es notwendig, durch Ausprobieren nach einer optimalen Aktion zu suchen.
    • - Das Lernen kann an einem guten Ausgangspunkt beginnen, indem ein Vorlernen (unter Verwendung eines Verfahrens des zuvor beschriebenen betreuten Lernens oder des umgekehrten Verstärkungslernens verwendet wird) erfolgt, um in einem Anfangszustand die Aktion einer Person nachzuahmen.
  • Das „Verstärkungslernen“ ist ein Verfahren zum Lernen einer optimalen Aktion basierend auf der Interaktion einer Aktion mit einer Umgebung durch das Lernen der Aktion, sowie auf einer Bestimmung und Klassifizierung, mit anderen Worten ein Lernverfahren, um eine Gesamtbelohnung zu maximieren, die in der Zukunft zu erzielen ist. Bei dem vorliegenden Beispiel bedeutet dies, dass eine Aktion, die eine Wirkung auf die Zukunft hat, erzielt werden kann. Die folgende Beschreibung nimmt das Q-Lernen zum Beispiel, doch ist die vorliegende Erfindung nicht darauf eingeschränkt.
  • Das Q-Lernen ist ein Verfahren zum Lernen eines Wertes Q(s, a) zum Auswählen einer Aktion „a“ in einem gewissen Umgebungszustand „s“. Mit anderen Worten wird in einem gewissen Zustand „s“, eine Aktion „a“, die den höchsten Wert Q(s, a) aufweist, als eine optimale Aktion ausgewählt. Bezüglich einer Kombination eines Zustands „s“ und einer Aktion „a“ ist jedoch ein richtiger Wert Q(s, a) am Anfang gar nicht bekannt. Somit wählt ein Agent (Aktionssubjekt) diverse Aktionen „a“ in einem gewissen Zustand „s“ und erhält eine Belohnung für jede Aktion „a“. Daher lernt es der Agent, eine bessere Aktion, d.h. einen richtigen Wert Q(s, a), auszuwählen.
  • Als Ergebnis der Aktionen ist es erwünscht, eine Gesamtbelohnung, die in der Zukunft zu erzielen ist, zu maximieren. Daher besteht das Ziel darin, schließlich Q(s, a) = E[Σγtrt] (einen erwarteten Ermäßigungswert der Belohnungen, γ: Ermäßigungsrate) zu erzielen (ein erwarteter Wert wird übernommen, wenn sich ein Zustand gemäß optimalen Aktionen ändert. Da die optimalen Aktionen nicht bekannt waren, müssen die optimalen Aktionen natürlich beim Lernen ausfindig gemacht werden.) Beispielsweise wird eine Aktualisierungsgleichung für einen Wert Q(s, a) wie folgt dargestellt: Q ( s , a ) Q ( s , a ) + α ( r t + 1 + γ max α Q ( s t + 1 , a ) Q ( s t , a t ) )
    Figure DE102019002065B4_0001
    wobei st einen Umgebungszustand zu einem Zeitpunkt t darstellt, und at eine Aktion zu dem Zeitpunkt t darstellt. Durch das Ausführen der Aktion at ändert sich der Zustand auf st+i. „rt+1“ stellt eine Belohnung dar, die durch die Zustandsänderung bereitgestellt wird. Ein Term mit „max“ stellt das Produkt aus einem Wert Q, wenn eine Aktion „a“, die den höchsten Wert Q aufweist, der zu diesem Zeitpunkt bekannt war, in dem Zustand st+1 ausgewählt wird, und γ dar. „γ“ ist ein Parameter 0 < γ ≤ 1, der als Ermäßigungsfaktor bezeichnet wird. „α“ ist eine Lernrate in dem Bereich von 0 < α ≤ 1.
  • Diese Gleichung gibt ein Verfahren zum Aktualisieren eines Wertes Q(st, at) einer Aktion at in einem Zustand st basierend auf einer Belohnung rt+1 an, die als Ergebnis der Aktion at zurückgekommen ist. Diese Gleichung gibt an, dass wenn ein Wert Q(st+1, max at+1) einer optimalen Aktion „max a“ in dem nächsten Zustand, der von einer Belohnung rt+1 abgeleitet wird, plus einer Aktion „a“ höher als der Wert Q(st, at) der Aktion at in dem Zustand st ist, Q(st, at) erhöht wird. Wenn nicht, wird Q(st, at) verringert. Mit anderen Worten wird der Wert einer Aktion in einem gewissen Zustand einem optimalen Aktionswert in dem nächsten Zustand genähert, der von einer Belohnung abgeleitet wird, die sofort als Ergebnis der Aktion und der Aktion selber zurückkehrt.
  • Es gibt zwei Verfahren zum Darstellen der Werte Q(s, a) in einem Computer, nämlich ein Verfahren, bei dem die Werte Q aller Zustands-Aktions-Paare (s, a) in einer Tabelle (Aktionswerttabelle) festgehalten werden, und ein Verfahren, bei dem eine Funktion zum Nähern der Werte Q(s, a) vorbereitet wird. Bei dem letztgenannten Verfahren kann die zuvor beschriebene Aktualisierungsgleichung durch Anpassen eines Parameters für eine Näherungsfunktion unter Verwendung eines stochastischen konjugierten Gradientenverfahrens usw. ausgebildet sein. Als Näherungsfunktion kann ein neuronales Netzwerk verwendet werden, wie es noch beschrieben wird.
  • Als Näherungsalgorithmus für eine Wertfunktion beim betreuten Lernen, dem unbetreuten Lernen und dem Verstärkungslernen kann ein neuronales Netzwerk verwendet werden. Das neuronale Netzwerk besteht beispielsweise aus einer arithmetischen Einheit, einem Speicher usw., die ein Neuronenmodell nachahmen, wie in 6 gezeigt.
  • Wie in 6 gezeigt, erzeugt ein Neuron eine Ausgabe y als Reaktion auf eine Mehrzahl von Eingaben x (beispielsweise die Eingaben x1 bis x3). Auf jede der Eingaben x1 bis x3 wird eine Gewichtung w (w1 bis w3) angewendet, die der Eingabe x entspricht. Somit erzeugt das Neuron die Ausgabe y, die durch die folgende Gleichung dargestellt wird. Es sei zu beachten, dass die Eingabe x, die Ausgabe y und die Gewichtung w allesamt Vektoren sind. y = f k ( Σ i = 1 n x i w i θ )
    Figure DE102019002065B4_0002
    wobei θ eine systematische Abweichung und fk eine Aktivierungsfunktion ist.
  • Als Nächstes wird ein neuronales Netzwerk, das Gewichtungen von drei Ebenen aufweist und aus einer Kombination der zuvor beschriebenen Neuronen besteht, mit Bezug auf 7 beschrieben. 7 ist ein schematisches Diagramm eines neuronalen Netzwerks, das Gewichtungen der drei Ebenen D1 bis D3 aufweist.
  • Wie in 7 gezeigt, wird eine Mehrzahl von Eingaben x (beispielsweise die Eingaben x1 bis x3) von der linken Seite des neuronalen Netzwerks aus eingegeben, und ein Ergebnis y (beispielsweise die Ergebnisse y1 bis y3) wird auf der rechten Seite desselben ausgegeben.
  • Genauer gesagt werden die Eingaben x1 bis x3 in jedes der drei Neuronen N11 bis N13 eingegeben, während sie entsprechend gewichtet werden. Die Gewichtungen, die auf die Eingaben angewendet werden, werden insgesamt durch W1 angegeben.
  • Die Neuronen N11 bis N13 geben jeweils die Vektoren Z11 bis Z13 aus. Die Vektoren Z11 bis Z13 werden insgesamt durch einen Merkmalsvektor Z1 angegeben, der als ein Vektor angesehen wird, der Merkmalsbeträge aus den Eingangsvektoren entnimmt. Der Merkmalsvektor Z1 ist ein Merkmalsvektor zwischen der Gewichtung W1 und einer Gewichtung W2.
  • Die Vektoren Z11 bis Z13 werden in jedes von zwei Neuronen N21 und N22 eingegeben, wobei sie entsprechend gewichtet werden. Die Gewichtungen, die auf die Merkmalsvektoren angewendet werden, werden insgesamt durch W2 angegeben.
  • Die Neuronen N21 und N22 geben jeweils die Vektoren Z21 und Z22 aus. Die Vektoren Z21 und Z22 werden insgesamt durch einen Merkmalsvektor Z2 angegeben. Der Merkmalsvektor Z2 ist ein Merkmalsvektor zwischen der Gewichtung W2 und einer Gewichtung W3.
  • Die Merkmalsvektoren Z21 und Z22 werden in jedes von drei Neuronen N31 bis N33 eingegeben, wobei sie entsprechend gewichtet werden. Die Gewichtungen, die auf die Merkmalsvektoren angewendet werden, werden insgesamt durch W3 angegeben.
  • Schließlich geben die Neuronen N31 bis N33 jeweils die Ergebnisse y1 bis y3 aus.
  • Das neuronale Netzwerk funktioniert in einem Lernmodus oder einem Wertvorhersagemodus. Im Lernmodus wird die Gewichtung W unter Verwendung eines Lerndatensatzes erlernt. Im Wertvorhersagemodus wird die Aktion des Roboters 10 unter Verwendung des Parameters bestimmt (der Begriff „Vorhersage“ wird aus praktischen Gründen verwendet, es können jedoch diverse Aufgaben erfüllt werden, wozu eine Detektion, Klassifizierung, Inferenz usw. gehören).
  • Im Wertvorhersagemodus können Daten, die durch die tatsächliche Betätigung des Roboters 10 erzielt wurden, sofort erlernt und in der nächsten Aktion wiedergegeben werden (Online-Lernen). Das Lernen kann auch gemeinsam unter Verwendung einer Datengruppe, die im Voraus erhoben wird, erfolgen, und danach kann ein Detektionsmodus unter Verwendung des Parameters ausgeführt werden (Stapellernen). Bei einer dazwischenliegenden Methode kann der Lernmodus jedes Mal ausgeführt werden, wenn sich eine gewisse Datenmenge angesammelt hat.
  • Die Gewichtungen W1 bis W3 können unter Verwendung eines Fehlerrückführungsalgorithmus (Rückführungsalgorithmus) erlernt werden. Die Information über einen Fehler tritt von rechts aus ein und breitet sich nach links aus. Der Fehlerrückführungsalgorithmus ist ein Verfahren, bei dem jede Gewichtung mit Bezug auf jedes Neuron angepasst (erlernt) wird, um die Differenz zwischen einer Ausgabe y als Reaktion auf eine Eingabe x und eine richtige Ausgabe y (Betreuer) zu minimieren.
  • Ein derartiges neuronales Netzwerk kann mehr als drei Ebenen aufweisen (was als tiefgehendes Lernen bezeichnet wird). Eine arithmetische Einheit, die eine Merkmalsentnahme aus Eingaben in Stufen und eine Regression von Ergebnissen ausführt, kann nur aus Betreuerdaten automatisch erfasst werden.
  • Entsprechend umfasst, um das zuvor beschriebene Q-Lernen auszuführen, wie in 2 gezeigt, die maschinelle Lernvorrichtung 100 gemäß des vorliegenden Beispiels die Zustandsbeobachtungseinheit 1, die Lerneinheit 3 und die Entscheidungsbestimmungseinheit 4. Ein maschinelles Lernverfahren, das auf die vorliegende Erfindung angewendet wird, ist jedoch nicht auf das Q-Lernen eingeschränkt. Beispielsweise entspricht für den Fall des Anwendens des betreuten Lernens eine Wertfunktion einem Lernmodell, und eine Belohnung entspricht einem Fehler.
  • Wie in 2 gezeigt, umfasst der Zustand der Robotersteuervorrichtung 20 einen Zustand, der indirekt durch eine Aktion geändert wird, und einen Zustand, der direkt durch eine Aktion geändert wird. Der Zustand, der indirekt durch eine Aktion geändert wird, umfasst einen Bewegungsbetrag des Armendabschnitts 11 des Roboters 10. Der Zustand, der direkt durch eine Aktion geändert wird, umfasst ein Bild des Werkstücks 13 nach der Bewegung des Armendabschnitts 11 des Roboters 10.
  • Die Lerneinheit 3 aktualisiert Aktionswerte, die vorliegenden Zustandsvariablen und Aktionen entsprechen, die der Aktionswerttabelle basierend auf der Aktualisierungsgleichung und den Belohnungen entnommen werden könnten.
  • Die maschinelle Lernvorrichtung 100 kann konfiguriert sein, um an die Robotersteuervorrichtung 20 über ein Netzwerk angeschlossen zu sein, und die Zustandsbeobachtungseinheit 1 kann konfiguriert sein, um einen Bewegungsbetrag, der durch die maschinelle Lernvorrichtung 100 berechnet wird, über das Netzwerk auf die Robotersteuervorrichtung 20 zu übertragen. Die maschinelle Lernvorrichtung 100 ist bevorzugt in einem Cloud-Server installiert.
  • Nachdem das Lernen wie zuvor beschrieben fertiggestellt ist, führt der Roboter 10 tatschlich eine Betätigung an dem Werkstück 13 aus. Beim tatsächlichen Ausführen der Betätigung wird das Werkstück 13 gegenüber der Referenzposition in eine andere Position versetzt. Mit der Verwendung der Lernvorrichtung (Lernsteuervorrichtung), die wie zuvor beschrieben gelernt hat, wird die relative Beziehung zwischen dem Sichtsensor 12 und dem Werkstück 13 die gleiche wie die relative Beziehung zwischen dem Sichtsensor 12 des Armendabschnitts 11 des Roboters 10 in der Zielposition und dem Werkstück 13 in der Referenzposition. Es sei zu beachten, dass ein einmaliges Lernen vielleicht nicht in der Lage ist, genau die gleiche relative Beziehung zu erreichen, doch dass wiederholtes Lernen in der Lage ist, die relative Beziehung näher an diese heran zu bringen. Mit anderen Worten wird der Zielpositionsspeicher 21 zum Speichern der Zielposition bereitgestellt, und während ein Bewegungsbetrag wiederholt berechnet wird, lernt die maschinelle Lernvorrichtung 100 den Bewegungsbetrag, um den Armendabschnitt 11 von einer beliebigen Position in die Zielposition zu bewegen, die in dem Zielpositionsspeicher 21 gespeichert ist.
  • 8 ist ein Ablaufschema, das einen Betätigungsarbeitsablauf erklärt, nachdem das Lernen durch das maschinelle Lernverfahren ausgeführt wurde. Zuerst wird in Schritt S201 das Werkstück 13, das in eine beliebige Position versetzt wird, bildlich erfasst.
  • Als Nächstes wird in Schritt S202 ein Bewegungsbetrag des Armendabschnitts 11 gegenüber einer beliebigen Position, um das aufgenommene Bild des Werkstücks 13 einem Zielbild näherzubringen, aus einem Lernmodell berechnet.
  • Als Nächstes wird in Schritt S203 der Armendabschnitt 11 basierend auf dem berechneten Bewegungsbetrag bewegt.
  • Als Nächstes wird in Schritt S204 ein Bewegungsbetrag des Armendabschnitts 11 erneut aus einem Bild des Werkstücks 13 berechnet, das nach oder während der Bewegung aufgenommen wird.
  • Als Nächstes wird in Schritt S205 bestimmt, ob der Bewegungsbetrag gleich oder kleiner als ein zweiter Schwellenwert ist oder nicht. Wenn der Bewegungsbetrag gleich oder kleiner als der zweite Schwellenwert ist, ist die Positionsbeziehung zwischen dem Sichtsensor 12 und dem Werkstück 13 die gleiche wie die, wenn das Zielbild aufgenommen wird. In diesem Fall wird in Schritt S206 eine Betätigung an dem Werkstück 13 ausgeführt. Der zweite Schwellenwert wird bevorzugt innerhalb eines Bereichs eingestellt, in dem der Roboter 10 die vorbestimmte Betätigung an dem Werkstück 13 unter Verwendung eines Werkzeugs, das an dem Armendabschnitt 11 angebracht ist, ausführen kann.
  • Wenn andererseits der Bewegungsbetrag den zweiten Schwellenwert überschreitet, kehrt die Betätigung zu Schritt S202 zurück, ein Bewegungsbetrag des Armendabschnitts 11 wird wiederholt berechnet, bis der Bewegungsbetrag gleich oder kleiner als der zweite Schwellenwert ist. Wie zuvor beschrieben, nachdem der Armendabschnitt 11 um den Bewegungsbetrag bewegt wurde, der von der maschinellen Lernvorrichtung 100 ausgegeben wird, wiederholt die Entscheidungsbestimmungseinheit 4 die Berechnung, bis der Bewegungsbetrag gleich oder kleiner als der vorbestimmte Schwellenwert (zweite Schwellenwert) ist.
  • Der zweite Schwellenwert, der beim Ausführen der Betätigung verwendet wird, ist bevorzugt gleich dem ersten Schwellenwert, der beim Lernen verwendet wird, oder der erste Schwellenwert ist bevorzugt kleiner als der zweite Schwellenwert. Durch das Einstellen des ersten Schwellenwertes auf weniger als den zweiten Schwellenwert kann die vorbestimmte Betätigung basierend auf einem richtigen Bewegungsbetrag, der durch das Lernen berechnet wird, ausgeführt werden.
  • In der obigen Beschreibung werden der Schritt des Lernens und der Schritt des Ausführens einer Betätigung getrennt ausgeführt, doch ist die vorliegende Erfindung nicht auf dieses Beispiel eingeschränkt. Beispielsweise können der Schritt des Lernens und der Schritt des Ausführens einer Betätigung gleichzeitig erfolgen. Das gleichzeitige Ausführen des Schritts des Lernens und des Schritts des Ausführens einer Betätigung ermöglicht es, die Zeit zu reduzieren, die für den Schritt des Lernens benötigt wird, und die Lerngenauigkeit weiter zu verbessern.
  • Wie zuvor beschrieben, ermöglicht es das Robotervisionssystem dem Roboter, sich in eine Zielposition zu begeben, indem nur ein Zielbild eingestellt wird, ohne ein Modell (ein Modellmuster zum Detektieren eines Objekts aus einem Bild, d.h. eine Vorlage durch Vorlagenabgleich), ein Einlernen, einen Detektionsalgorithmus oder spezielle Fachkenntnisse zu benötigen.
  • Die maschinelle Lernvorrichtung und das maschinelle Lernverfahren beseitigen die Notwendigkeit der Vorbereitung einer Zielmarke oder eines Merkmalspunkts im Voraus, bevor eine vorbestimmte Betätigung an einem Werkstück unter Verwendung eines Roboters ausgeführt wird, wobei ein Bild des Werkstücks verwendet wird, so dass sich die Arbeitslast für den Bediener reduziert.

Claims (15)

  1. Maschinelle Lernvorrichtung, umfassend: eine Zustandsbeobachtungseinheit (1), um als Zustandsvariablen ein Bild eines Werkstücks, das durch einen Sichtsensor in einer beliebigen Position aufgenommen wird, und einen Bewegungsbetrag eines Armendabschnitts eines Roboters gegenüber der beliebigen Position zu beobachten, wobei der Bewegungsbetrag berechnet wird, um das Bild einem Zielbild näherzubringen; eine Einheit zum Abrufen von Bestimmungsdaten (2), um das Zielbild als Bestimmungsdaten abzurufen; eine Lerneinheit (3), um den Bewegungsbetrag des Armendabschnitts zu lernen, um den Armendabschnitt oder das Werkstück von der beliebigen Position in eine Zielposition zu bewegen, gemäß einem Trainingsdatensatz, der aus einer Kombination der Zustandsvariablen und der Bestimmungsdaten besteht, wobei die Zielposition eine Position ist, in welcher der Sichtsensor und das Werkstück eine vorbestimmte relative Positionsbeziehung aufweisen, und das Zielbild ein Bild des Werkstücks ist, das durch den Sichtsensor aufgenommen wird, wenn der Armendabschnitt oder das Werkstück in der Zielposition angeordnet ist; und eine Entscheidungsbestimmungseinheit (4), um einen Betätigungsbefehl für den Roboter basierend auf dem Ergebnis, dass die Lerneinheit das Lernen gemäß dem Trainingsdatensatz ausgeführt hat, zu bestimmen, wobei die Entscheidungsbestimmungseinheit (4) eine Berechnung wiederholt, bis der Bewegungsbetrag gleich oder kleiner als ein vorbestimmter Schwellenwert ist, nachdem der Armendabschnitt um den Bewegungsbetrag, der von der maschinellen Lernvorrichtung ausgegeben wird, bewegt wurde.
  2. Maschinelle Lernvorrichtung nach Anspruch 1, wobei die Lerneinheit (3) konfiguriert ist, um den Bewegungsbetrag gemäß dem Trainingsdatensatz, der an einer Mehrzahl von Robotern erzielt wird, zu erlernen.
  3. Maschinelle Lernvorrichtung nach Anspruch 1 oder 2, wobei die Lerneinheit (3) umfasst: eine Belohnungsberechnungseinheit (31), um eine Belohnung basierend auf einer Position des Armendabschnitts des Roboters oder des Werkstücks nach einer Bewegung und auf dem Zielbild zu berechnen; und eine Funktionsaktualisierungseinheit (32), um eine Funktion zu aktualisieren, um den Bewegungsbetrag des Armendabschnitts aus vorliegenden Zustandsvariablen basierend auf der Belohnung vorherzusagen.
  4. Maschinelle Lernvorrichtung nach Anspruch 3, wobei die Lerneinheit (3) eine Aktionswerttabelle, die dem Bewegungsbetrag des Armendabschnitts entspricht, basierend auf den Zustandsvariablen und der Belohnung aktualisiert.
  5. Maschinelle Lernvorrichtung nach Anspruch 3 oder 4, wobei die Lerneinheit (3) eine Aktionswerttabelle, die einem Bewegungsbetrag eines Armendabschnitt eines anderen Roboters, der mit dem Roboter identisch ist, entspricht, basierend auf Zustandsvariablen und einer Belohnung des anderen Roboters aktualisiert.
  6. Maschinelle Lernvorrichtung nach Anspruch 1, wobei ein betreutes Lernen mit der Verwendung, als Etiketten, eines Bildes des Werkstücks, das durch den Sichtsensor aufgenommen wird, der in einer vorbestimmten Position angeordnet ist, und einer Datengruppe eines Bewegungsbetrags des Armendabschnitts von der vorbestimmten Position in die Zielposition, ausgeführt wird.
  7. Maschinelle Lernvorrichtung nach einem der Ansprüche 1 bis 6, wobei die Lerneinheit (3) konfiguriert ist, um den Bewegungsbetrag des Armendabschnitts des Roboters gemäß einem zusätzlichen Trainingsdatensatz, der aus einer Kombination von vorliegenden Zustandsvariablen und den Bestimmungsdaten besteht, erneut zu lernen und zu aktualisieren.
  8. Maschinelle Lernvorrichtung nach Anspruch 1, ferner umfassend: einen Zielpositionsspeicher (21) zum Speichern der Zielposition, wobei, während der Bewegungsbetrag wiederholt berechnet wird, die maschinelle Lernvorrichtung den Bewegungsbetrag erlernt, um den Armendabschnitt oder das Werkstück von der beliebigen Position in die Zielposition, die in dem Zielpositionsspeicher gespeichert ist, zu bewegen.
  9. Robotersteuervorrichtung, umfassend: die maschinelle Lernvorrichtung (100) nach Anspruch 1; einen Zielbildspeicher (22) zum Speichern des Zielbildes; und einen Roboter-Controller (23) zum Steuern des Roboters gemäß dem bestimmten Betätigungsbefehl.
  10. Robotervisionssystem, umfassend: die Robotersteuervorrichtung (20) nach Anspruch 9; den Roboter (10) zum Ausführen einer Betätigung an dem Werkstück unter Verwendung eines Werkzeugs, das an dem Armendabschnitt angebracht ist; und den Sichtsensor (12), der an dem Armendabschnitt des Roboters angebracht ist, zum bildlichen Erfassen des Werkstücks.
  11. Robotervisionssystem, umfassend: die Robotersteuervorrichtung (20) nach Anspruch 9; den Roboter (10), um eine Betätigung an dem Werkstück unter Verwendung eines Werkzeugs, das an dem Armendabschnitt angebracht ist, auszuführen; und den Sichtsensor (12), der an der Außenseite des Roboters befestigt ist, zum bildlichen Erfassen des Werkstücks.
  12. Robotervisionssystem nach Anspruch 10 oder 11, wobei, nachdem sich der Roboter um einen Bewegungsbetrag, der durch das Lernen der maschinellen Lernvorrichtung (100) erlernt wird, in eine Position begeben hat, der Roboter eine vorbestimmte Betätigung in der Position als Ausgangspunkt ausführt.
  13. Robotervisionssystem nach einem der Ansprüche 10 bis 12, wobei die maschinelle Lernvorrichtung (100) an die Robotersteuervorrichtung (20) über ein Netzwerk angeschlossen ist, und die Zustandsbeobachtungseinheit (1) einen Bewegungsbetrag, der durch die maschinelle Lernvorrichtung berechnet wird, über das Netzwerk auf die Robotersteuervorrichtung überträgt.
  14. Robotervisionssystem nach einem der Ansprüche 10 bis 13, wobei die maschinelle Lernvorrichtung (100) in einem Cloud-Server installiert ist.
  15. Maschinelles Lernverfahren, umfassend die Schritte zum: Speichern, als Zielposition, einer Position, in der ein Sichtsensor (12) und ein Werkstück eine vorbestimmte relative Positionsbeziehung aufweisen; Speichern, als Zielbild, eines Bildes des Werkstücks, das durch einen Sichtsensor aufgenommen wird, wenn ein Armendabschnitt eines Roboters (10) oder das Werkstück in der Zielposition angeordnet ist; Beobachten, als Zustandsvariablen, eines Bildes des Werkstücks, das in einer beliebigen Position aufgenommen wird, und eines Bewegungsbetrags des Armendabschnitts gegenüber der beliebigen Position, wobei der Bewegungsbetrag berechnet wird, um das Bild dem Zielbild näherzubringen; Abrufen des Zielbildes aus dem Zielbildspeicher (22), der das Zielbild speichert, als Bestimmungsdaten; Lernen des Bewegungsbetrags, um den Armendabschnitt oder das Werkstück gegenüber der beliebigen Position in die Zielposition zu bewegen, gemäß einem Trainingsdatensatz, der aus einer Kombination der Zustandsvariablen und der Bestimmungsdaten besteht; und Bestimmen eines Betätigungsbefehls für den Roboter basierend auf dem Ergebnis des Lernens gemäß dem Trainingsdatensatz, wobei eine Berechnung wiederholt wird, bis der Bewegungsbetrag gleich oder kleiner als ein vorbestimmter Schwellenwert ist, nachdem der Armendabschnitt um den Bewegungsbetrag bewegt wurde.
DE102019002065.0A 2018-03-29 2019-03-22 Maschinelle Lernvorrichtung, Robotersteuervorrichtung und Robotervisionssystem, das eine maschinelle Lernvorrichtung verwendet, und maschinelles Lernverfahren Active DE102019002065B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018065093A JP6810087B2 (ja) 2018-03-29 2018-03-29 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
JP2018-065093 2018-03-29

Publications (2)

Publication Number Publication Date
DE102019002065A1 DE102019002065A1 (de) 2019-10-02
DE102019002065B4 true DE102019002065B4 (de) 2022-10-13

Family

ID=67909842

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019002065.0A Active DE102019002065B4 (de) 2018-03-29 2019-03-22 Maschinelle Lernvorrichtung, Robotersteuervorrichtung und Robotervisionssystem, das eine maschinelle Lernvorrichtung verwendet, und maschinelles Lernverfahren

Country Status (4)

Country Link
US (1) US11253999B2 (de)
JP (1) JP6810087B2 (de)
CN (1) CN110315505A (de)
DE (1) DE102019002065B4 (de)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
JP6810087B2 (ja) * 2018-03-29 2021-01-06 ファナック株式会社 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
JP6761194B2 (ja) * 2019-01-30 2020-09-23 株式会社安川電機 ロボットシステム、ロボット制御方法、ロボットコントローラ及びプログラム
JP7295421B2 (ja) * 2019-08-22 2023-06-21 オムロン株式会社 制御装置及び制御方法
CN110968866B (zh) * 2019-11-27 2021-12-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法
JP7391635B2 (ja) * 2019-11-28 2023-12-05 株式会社国際電気通信基礎技術研究所 制御システム
DE102020200165B4 (de) * 2020-01-09 2022-05-19 Robert Bosch Gesellschaft mit beschränkter Haftung Robotersteuereinrichtung und Verfahren zum Steuern eines Roboters
EP4093578A4 (de) * 2020-01-22 2023-10-18 Abb Schweiz Ag System und verfahren zum betreiben eines roboters, elektronisches gerät und computerlesbares medium
CN115297980A (zh) * 2020-03-25 2022-11-04 三菱综合材料株式会社 表面包覆切削工具
JP7423387B2 (ja) 2020-03-31 2024-01-29 ミネベアミツミ株式会社 較正システム、情報処理システム、ロボット制御システム、較正方法、情報処理方法、ロボット制御方法、較正プログラム、情報処理プログラム、較正装置、情報処理装置、及びロボット制御装置
US20210342736A1 (en) * 2020-04-30 2021-11-04 UiPath, Inc. Machine learning model retraining pipeline for robotic process automation
DE102020113277A1 (de) 2020-05-15 2021-11-18 Gerhard Schubert Gesellschaft mit beschränkter Haftung Verfahren zum Erzeugen eines Trainingsdatensatzes zum Trainieren eines Industrieroboters
JP2023145809A (ja) * 2020-07-10 2023-10-12 株式会社Preferred Networks 強化学習装置、強化学習システム、物体操作装置、モデル生成方法及び強化学習プログラム
CN112894800A (zh) * 2020-12-24 2021-06-04 苏州迈维视电子技术有限公司 一种工件抓取下料引导用方法
DE102021202759A1 (de) 2021-03-22 2022-09-22 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Trainieren eines neuronalen Netzwerks zum Steuern eines Roboters
DE102021204846B4 (de) 2021-05-12 2023-07-06 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Steuern einer Robotervorrichtung
DE102022202144A1 (de) 2022-03-02 2023-09-07 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zur Steuerung eines Roboters zur Durchführung einer Aufgabe
DE102022202145A1 (de) 2022-03-02 2023-09-07 Robert Bosch Gesellschaft mit beschränkter Haftung Roboter und Verfahren zum Steuern eines Roboters
DE102022202143B4 (de) 2022-03-02 2024-05-16 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zur Steuerung eines Roboters zur Durchführung einer Aufgabe
DE102022204724A1 (de) 2022-05-13 2023-11-16 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Steuern einer Robotervorrichtung

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0976185A (ja) 1995-07-12 1997-03-25 Fanuc Ltd ロボットの移動制御方式
JP2003211381A (ja) 2002-01-16 2003-07-29 Denso Wave Inc ロボット制御装置
JP2003305676A (ja) 2002-04-11 2003-10-28 Denso Wave Inc 移動ロボットの制御方法及び制御装置
JP2010188432A (ja) 2009-02-16 2010-09-02 Toyota Motor Corp ロボットハンドの位置補正方法、ロボットハンド、ロボット
DE102017008836A1 (de) 2016-09-27 2018-03-29 Fanuc Corporation Maschinelle Lernvorrichtung und maschinelles Lernverfahren zum Lernen eines optimalen Objekt-Greifwegs
US20180126553A1 (en) 2016-09-16 2018-05-10 Carbon Robotics, Inc. System and calibration, registration, and training methods
DE202017105598U1 (de) 2016-09-15 2018-05-24 Google LLC (n.d.Ges.d. Staates Delaware) System zum tiefen Verstärkungslernen für Robotermanipulation
DE102017011361A1 (de) 2016-12-16 2018-06-21 Fanuc Corporation Maschinelle lernvorrichtung, robotersystem und maschinelles lernverfahren zum lernen des betriebs eines roboters und eines laserscanners
EP2993002B1 (de) 2014-09-03 2018-07-25 Canon Kabushiki Kaisha Robotervorrichtung und verfahren für eine robotersteuerungsvorrichtung
DE102017213658A1 (de) 2017-08-07 2019-02-07 Robert Bosch Gmbh Handhabungsanordnung mit einer Handhabungseinrichtung zur Durchführung mindestens eines Arbeitsschritts sowie Verfahren und Computerprogramm

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04352201A (ja) * 1991-05-30 1992-12-07 Hitachi Ltd ロボットシステムの制御方法
JP3002097B2 (ja) * 1994-08-25 2000-01-24 ファナック株式会社 ビジュアルトラッキング方法
JP3560670B2 (ja) * 1995-02-06 2004-09-02 富士通株式会社 適応的認識システム
JP2002172575A (ja) * 2000-12-07 2002-06-18 Fanuc Ltd 教示装置
CN101396829A (zh) * 2007-09-29 2009-04-01 株式会社Ihi 机器人装置的控制方法以及机器人装置
JP5436460B2 (ja) * 2009-02-12 2014-03-05 三菱電機株式会社 産業用ロボットシステム
FI20105732A0 (fi) * 2010-06-24 2010-06-24 Zenrobotics Oy Menetelmä fyysisten kappaleiden valitsemiseksi robottijärjestelmässä
JP5835926B2 (ja) * 2011-04-11 2015-12-24 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
US8886359B2 (en) * 2011-05-17 2014-11-11 Fanuc Corporation Robot and spot welding robot with learning control function
US8256480B1 (en) * 2011-06-01 2012-09-04 Spm Automation (Canada) Inc. Coupling apparatus for positioning components in workpiece interior and method of using same
WO2013192598A1 (en) * 2012-06-21 2013-12-27 Excelsius Surgical, L.L.C. Surgical robot platform
US9008840B1 (en) * 2013-04-19 2015-04-14 Brain Corporation Apparatus and methods for reinforcement-guided supervised learning
JP6486678B2 (ja) * 2014-12-25 2019-03-20 株式会社キーエンス 画像処理装置、画像処理システム、画像処理方法及びコンピュータプログラム
JP6522488B2 (ja) * 2015-07-31 2019-05-29 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
JP6240689B2 (ja) * 2015-07-31 2017-11-29 ファナック株式会社 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
CN105598965B (zh) * 2015-11-26 2018-03-16 哈尔滨工业大学 基于立体视觉的机器人欠驱动手自主抓取方法
CN109074513B (zh) * 2016-03-03 2020-02-18 谷歌有限责任公司 用于机器人抓握的深度机器学习方法和装置
JP6457421B2 (ja) * 2016-04-04 2019-01-23 ファナック株式会社 シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法
JP6514166B2 (ja) * 2016-09-16 2019-05-15 ファナック株式会社 ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法
JP6880982B2 (ja) * 2017-04-21 2021-06-02 セイコーエプソン株式会社 制御装置およびロボットシステム
US10751879B2 (en) * 2017-06-05 2020-08-25 Autodesk, Inc. Adapting simulation data to real-world conditions encountered by physical processes
US10754308B2 (en) * 2017-11-09 2020-08-25 International Business Machines Corporation Decomposed perturbation approach using memory based learning for compliant assembly tasks
US10695911B2 (en) * 2018-01-12 2020-06-30 Futurewei Technologies, Inc. Robot navigation and object tracking
JP6873941B2 (ja) * 2018-03-02 2021-05-19 株式会社日立製作所 ロボット作業システム、及びロボット作業システムの制御方法
JP6810087B2 (ja) * 2018-03-29 2021-01-06 ファナック株式会社 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
JP7467041B2 (ja) * 2018-09-27 2024-04-15 キヤノン株式会社 情報処理装置、情報処理方法及びシステム
US11396101B2 (en) * 2018-11-08 2022-07-26 Kabushiki Kaisha Toshiba Operating system, control device, and computer program product

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0976185A (ja) 1995-07-12 1997-03-25 Fanuc Ltd ロボットの移動制御方式
JP2003211381A (ja) 2002-01-16 2003-07-29 Denso Wave Inc ロボット制御装置
JP2003305676A (ja) 2002-04-11 2003-10-28 Denso Wave Inc 移動ロボットの制御方法及び制御装置
JP2010188432A (ja) 2009-02-16 2010-09-02 Toyota Motor Corp ロボットハンドの位置補正方法、ロボットハンド、ロボット
EP2993002B1 (de) 2014-09-03 2018-07-25 Canon Kabushiki Kaisha Robotervorrichtung und verfahren für eine robotersteuerungsvorrichtung
DE202017105598U1 (de) 2016-09-15 2018-05-24 Google LLC (n.d.Ges.d. Staates Delaware) System zum tiefen Verstärkungslernen für Robotermanipulation
US20180126553A1 (en) 2016-09-16 2018-05-10 Carbon Robotics, Inc. System and calibration, registration, and training methods
DE102017008836A1 (de) 2016-09-27 2018-03-29 Fanuc Corporation Maschinelle Lernvorrichtung und maschinelles Lernverfahren zum Lernen eines optimalen Objekt-Greifwegs
DE102017011361A1 (de) 2016-12-16 2018-06-21 Fanuc Corporation Maschinelle lernvorrichtung, robotersystem und maschinelles lernverfahren zum lernen des betriebs eines roboters und eines laserscanners
DE102017213658A1 (de) 2017-08-07 2019-02-07 Robert Bosch Gmbh Handhabungsanordnung mit einer Handhabungseinrichtung zur Durchführung mindestens eines Arbeitsschritts sowie Verfahren und Computerprogramm

Also Published As

Publication number Publication date
DE102019002065A1 (de) 2019-10-02
CN110315505A (zh) 2019-10-11
US11253999B2 (en) 2022-02-22
US20190299405A1 (en) 2019-10-03
JP6810087B2 (ja) 2021-01-06
JP2019171540A (ja) 2019-10-10

Similar Documents

Publication Publication Date Title
DE102019002065B4 (de) Maschinelle Lernvorrichtung, Robotersteuervorrichtung und Robotervisionssystem, das eine maschinelle Lernvorrichtung verwendet, und maschinelles Lernverfahren
DE102017008475B4 (de) Maschinenlernvorrichtung, robotersystem und maschinenlernverfahren zum erlernen eines roboter-betriebsprogramms
DE102018006946B4 (de) Steuerung und maschinelle Lernvorrichtung
DE102016015866B3 (de) Maschinelle Lernvorrichtung, Robotercontroller, Robotersystem und maschinelles Lernverfahren zum Lernen des Handlungsmusters einer Person
DE102017010799B4 (de) Maschinenlernvorrichtung zum Lernen einer Bearbeitungsreihenfolge eines Robotersystems mit einer Mehrzahl von Laserbearbeitungsrobotern, dazugehöriges Robotersystem sowie Maschinenlernverfahren zum Lernen einer Bearbeitungsreihenfolge des Robotersystems mit einer Mehrzahl von Laserbearbeitungsrobotern
DE102017007729B4 (de) Maschinenlerneinrichtung, Robotersystem und Maschinenlernverfahren zum Lernen einer Bewegung eines Roboters, der an einer gemeinsam durch einen Menschen und einen Roboter ausgeführten Aufgabe beteiligt ist
DE102017009223B4 (de) Steuervorrichtung zum Steuern eines Roboters durch Lernen einer Aktion einer Person, Robotersystem und Produktionssystem
DE102017000536B4 (de) Zellsteuereinheit zum Feststellen einer Ursache einer Anomalie bei einer Fertigungsmaschine
DE102017008836B4 (de) Maschinelle Lernvorrichtung und maschinelles Lernverfahren zum Lernen eines optimalen Objekt-Greifwegs
DE102017011754B4 (de) Maschinenlerneinrichtung zum Lernen eines Montagevorgangs und Komponentenmontagesystem
DE102016009030B4 (de) Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs
DE102018001571B4 (de) Laserverarbeitungsgerät und Vorrichtung zum maschinellen Lernen
DE102017011544A1 (de) Steuerung und maschinelle Lernvorrichtung
DE102018004330B4 (de) Steuerung und maschinelle Lernvorrichtung
DE102018000342A1 (de) Numerische steuerung und maschinelle lernvorrichtung
DE102018010054A1 (de) Steuerung und maschinelle Lernvorrichtung
DE102017007302A1 (de) Arbeitsverwaltungssystem mit Sensor und Maschinenlerneinheit
DE102018004048B4 (de) Steuerung und Maschinenlernvorrichtung
DE102019002156A1 (de) Steuergerät und maschinelle Lernvorrichtung
DE102018010086A1 (de) Spanabführvorrichtung und Informationsverarbeitungsvorrichtung
DE102018001028B4 (de) Numerische Steuerung
DE102019106729A1 (de) Antriebsvorrichtung und Vorrichtung für maschinelles Lernen
DE102019001044A1 (de) Steuervorrichtung und maschinelle lernvorrichtung
DE102018005199B4 (de) Bauteilzuführvorrichtung und maschinelle lernvorrichtung
DE102019001783A1 (de) Steuerung, maschinelle lernvorrichtung und system

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final