DE102019001044A1 - Steuervorrichtung und maschinelle lernvorrichtung - Google Patents

Steuervorrichtung und maschinelle lernvorrichtung Download PDF

Info

Publication number
DE102019001044A1
DE102019001044A1 DE102019001044.2A DE102019001044A DE102019001044A1 DE 102019001044 A1 DE102019001044 A1 DE 102019001044A1 DE 102019001044 A DE102019001044 A DE 102019001044A DE 102019001044 A1 DE102019001044 A1 DE 102019001044A1
Authority
DE
Germany
Prior art keywords
servo
control command
press
section
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102019001044.2A
Other languages
English (en)
Inventor
Yoshiyuki Suzuki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of DE102019001044A1 publication Critical patent/DE102019001044A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B30PRESSES
    • B30BPRESSES IN GENERAL
    • B30B15/00Details of, or accessories for, presses; Auxiliary measures in connection with pressing
    • B30B15/14Control arrangements for mechanically-driven presses
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B30PRESSES
    • B30BPRESSES IN GENERAL
    • B30B15/00Details of, or accessories for, presses; Auxiliary measures in connection with pressing
    • B30B15/26Programme control arrangements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B30PRESSES
    • B30BPRESSES IN GENERAL
    • B30B9/00Presses specially adapted for particular purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mechanical Engineering (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Control Of Presses (AREA)
  • Numerical Control (AREA)

Abstract

Eine in einer Steuervorrichtung enthaltene maschinelle Lernvorrichtung umfasst: einen Zustandsbeobachtungsabschnitt zum Beobachten von einen Steuerbefehl für eine Servopresse darstellenden Steuerbefehlsdaten und Rückmeldung zum Steuern darstellenden Steuerrückmeldedaten als eine einen Istumweltzustand darstellende Zustandsvariable; einen Ermittlungsdaten-Erfassungsabschnitt zum Erfassen von Werkstückqualität-Ermittlungsdaten zum Ermitteln der Qualität eines auf der Basis des Steuerbefehls für die Servopresse bearbeiteten Werkstücks und Zykluszeit-Ermittlungsdaten zum Ermitteln der erforderlichen Zeit zum Bearbeiten des Werkstücks,als ein Ergebnis der Ermittlung in Bezug auf die Bearbeitung des Werkstücks darstellende Ermittlungsdaten; und einen Lernabschnitt zum Lernen des Steuerbefehls für die Servopresse in Bezug auf die Rückmeldung zum Steuern der Servopresse.

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft eine Steuervorrichtung und eine maschinelle Lernvorrichtung.
  • Beschreibung des Stands der Technik
  • In Pressen (Servopressen), die Servomotoren zum Steuern von Achsen verwenden, gibt eine Steuervorrichtung die gleichen Befehlswerte (etwa einen Positionsbefehlswert, einen Drehzahlbefehlswert, einen Druckbefehlswert und einen Drehmomentbefehlswert) an die Servomotoren in jedem Zyklus aus, um die Position und Drehzahl eines Schlittens genau zu steuern und den Schlitten nach oben und unten zu bewegen, um somit ein Werkstück zu bearbeiten (siehe beispielsweise die japanische offengelegte Patentanmeldung Nr. 2004-17098).
  • Solch eine Servopresse liefert gegebenenfalls nicht das gleiche Ergebnis in jedem Zyklus aufgrund von externen Faktoren wie mechanische Zustände (etwa der Gesamtschaden an einem Gesenk) der Servopresse und bei einer Stanze Schwingungen (Durchbruch) durch Stöße auf die Maschine zum Zeitpunkt des Stanzens, selbst wenn die gleichen Befehlswerte an die Servomotoren in jedem Zyklus ausgegeben werden. Dies kann beispielsweise zu einer Abnahme der Bearbeitungsgenauigkeit oder einem Fehler in der Bearbeitung führen. Schlimmstenfalls kann die Maschine stark beschädigt werden, beispielsweise durch eine direkte Kollision zwischen oberem und unterem Gesenk.
  • Bediener gingen daher mit solchen Problemen so um, dass sie Befehlswerte und Gesenke auf der Basis ihrer Erfahrungen u. Ä. anpassten. Solch eine Anpassung von Befehlswerten und Gesenken ist aber für weniger geübte Bediener schwierig.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Eine Aufgabe der vorliegenden Erfindung besteht im Bereitstellen einer Steuervorrichtung und einer maschinellen Lernvorrichtung, welche die Bearbeitungsqualität verbessern können, ohne die Zykluszeit in der Bearbeitung eines Werkstücks durch eine Servopresse mehr als erforderlich zu verlängern.
  • Ein Aspekt der vorliegenden Erfindung ist eine Steuervorrichtung zum Steuern einer Servopresse, die ein Werkstück mit einem Gesenk bearbeitet. Die Steuervorrichtung umfasst eine maschinelle Lernvorrichtung zum Lernen eines Steuerbefehls für die Servopresse. Die maschinelle Lernvorrichtung umfasst: einen Zustandsbeobachtungsabschnitt zum Beobachten von den Steuerbefehl für die Servopresse darstellenden Steuerbefehlsdaten und Rückmeldung zum Steuern der Servopresse darstellenden Steuerrückmeldedaten als eine einen Istumweltzustand darstellende Zustandsvariable; einen Ermittlungsdaten-Erfassungsabschnitt zum Erfassen von Werkstückqualität-Ermittlungsdaten zum Ermitteln der Qualität eines auf der Basis des Steuerbefehls für die Servopresse bearbeiteten Werkstücks als ein Ergebnis der Ermittlung in Bezug auf die Bearbeitung des Werkstücks bearbeiteten Werkstücks darstellende Ermittlungsdaten; und einen Lernabschnitt zum Lernen des Steuerbefehls für die Servopresse in Bezug auf die Rückmeldung zum Steuern der Servopresse unter Verwendung der Zustandsvariable und der Ermittlungsdaten.
  • Ein weiterer Aspekt der vorliegenden Erfindung ist eine Steuervorrichtung zum Steuern einer Servopresse, die ein Werkstück mit einem Gesenk bearbeitet. Die Steuervorrichtung umfasst eine maschinelle Lernvorrichtung, die einen Steuerbefehl für die Servopresse gelernt hat. Die maschinelle Lernvorrichtung umfasst: einen Zustandsbeobachtungsabschnitt zum Beobachten von den Steuerbefehl für die Servopresse darstellenden Steuerbefehlsdaten und Rückmeldung zum Steuern der Servopresse darstellenden Steuerrückmeldedaten als eine einen Istumweltzustand darstellende Zustandsvariable; einen Lernabschnitt, der den Steuerbefehl für die Servopresse in Bezug auf die Rückmeldung zum Steuern der Servopresse gelernt hat; und einen Entscheidungsfindungsabschnitt zum Entscheiden über den Steuerbefehl für die Servopresse auf der Basis der vom Zustandsbeobachtungsabschnitt beobachteten Zustandsvariable und eines Ergebnisses des Lernens durch den Lernabschnitt.
  • Ein weiterer Aspekt der vorliegenden Erfindung ist eine maschinelle Lernvorrichtung zum Lernen eines Steuerbefehls für eine Servopresse, die ein Werkstück mit einem Gesenk bearbeitet. Die maschinelle Lernvorrichtung umfasst: einen Zustandsbeobachtungsabschnitt zum Beobachten von den Steuerbefehl für die Servopresse darstellenden Steuerbefehlsdaten und Rückmeldung zum Steuern der Servopresse darstellenden Steuerrückmeldedaten als eine einen Istumweltzustand darstellende Zustandsvariable; einen Ermittlungsdaten-Erfassungsabschnitt zum Erfassen von Werkstückqualität-Ermittlungsdaten zum Ermitteln der Qualität eines auf der Basis des Steuerbefehls für die Servopresse bearbeiteten Werkstücks als ein Ergebnis der Ermittlung in Bezug auf die Bearbeitung des Werkstücks bearbeiteten Werkstücks darstellende Ermittlungsdaten; und einen Lernabschnitt zum Lernen des Steuerbefehls für die Servopresse in Bezug auf die Rückmeldung zum Steuern der Servopresse unter Verwendung der Zustandsvariable und der Ermittlungsdaten.
  • Ein weiterer Aspekt der vorliegenden Erfindung ist eine maschinelle Lernvorrichtung, die einen Steuerbefehl für eine Servopresse zum Bearbeiten eines Werkstücks mit einem Gesenk gelernt hat. Die maschinelle Lernvorrichtung umfasst: einen Zustandsbeobachtungsabschnitt zum Beobachten von den Steuerbefehl für die Servopresse darstellenden Steuerbefehlsdaten und Rückmeldung zum Steuern der Servopresse darstellenden Steuerrückmeldedaten als eine einen Istumweltzustand darstellende Zustandsvariable; einen Lernabschnitt, der den Steuerbefehl für die Servopresse in Bezug auf die Rückmeldung zum Steuern der Servopresse gelernt hat; und einen Entscheidungsfindungsabschnitt zum Entscheiden über den Steuerbefehl für die Servopresse auf der Basis der vom Zustandsbeobachtungsabschnitt beobachteten Zustandsvariable und eines Ergebnisses des Lernens durch den Lernabschnitt.
  • In der vorliegenden Erfindung wird maschinelles Lernen zum Entscheiden über einen Steuerbefehl für eine Servopresse eingeführt. Dies verfeinert einen von einer Steuervorrichtung ausgegebenen Befehlswert, verringert die Fehlerrate, verbessert die Bearbeitungsgenauigkeit und verringert Schäden an einem Gesenk, wenn ein Fehler auftritt. Ferner wird eine gute Balance aus Verbesserungen der Bearbeitungsqualität und Zykluszeit erzielt.
  • Figurenliste
  • Diese und weitere Aufgaben und Merkmale der vorliegenden Erfindung gehen aus der folgenden Beschreibung von beispielhaften Ausführungsformen in Bezug auf die beigefügten Zeichnungen hervor.
    • 1 zeigt ein Hardwarekonfigurationsdiagramm zur schematischen Darstellung einer Steuervorrichtung gemäß einer ersten Ausführungsform.
    • 2 zeigt ein Funktionsblockdiagramm zur schematischen Darstellung der Steuervorrichtung gemäß der ersten Ausführungsform.
    • 3 zeigt eine Ansicht zur Darstellung von Beispielen von Steuerbefehlsdaten S1 und Steuerrückmeldedaten S2.
    • 4 zeigt ein Funktionsblockdiagramm zur schematischen Darstellung von einem Aspekt der Steuervorrichtung.
    • 5 zeigt ein Fließbild zur schematischen Darstellung von einem Aspekt eines maschinellen Lernverfahrens.
    • 6A zeigt ein Diagramm zum Erläutern eines Neurons.
    • 6B zeigt ein Diagramm zum Erläutern eines neuronalen Netzes.
    • 7 zeigt ein Funktionsblockdiagramm zur schematischen Darstellung einer Steuervorrichtung gemäß einer zweiten Ausführungsform.
    • 8 zeigt ein Funktionsblockdiagramm zur schematischen Darstellung von einem Aspekt eines Systems umfassend die Steuervorrichtung.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Nachfolgend sind Ausführungsformen der vorliegenden Erfindung in Bezug auf die Zeichnungen beschrieben.
  • 1 zeigt ein Hardwarekonfigurationsdiagramm zur schematischen Darstellung von Hauptabschnitten einer Steuervorrichtung gemäß einer ersten Ausführungsform. Eine Steuervorrichtung 1 kann als eine Steuervorrichtung zum Steuern von beispielsweise einer Servopresse ausgeführt sein. Alternativ kann die Steuervorrichtung 1 als ein mit einer Steuervorrichtung verbundener Personalcomputer zum Steuern einer Servopresse oder ein Computer, etwa ein Zellenrechner, ein Edge-Server oder ein mit der Steuervorrichtung verbundener über beispielsweise ein verdrahtetes oder drahtloses Netzwerk verbundener Cloud-Server, ausgeführt sein. Die vorliegende Ausführungsform ist ein Beispiel, in dem die Steuervorrichtung 1 als eine Steuervorrichtung zum Steuern einer Servopresse ausgeführt ist.
  • Eine in der Steuervorrichtung 1 gemäß der vorliegenden Ausführungsform enthaltene CPU 11 ist ein Prozessor zum vollständigen Steuern der Steuervorrichtung 1. Die CPU 11 liest ein in einem ROM 12 gespeichertes Systemprogramm über einen Bus 20 aus und steuert die gesamte Steuervorrichtung 1 gemäß dem Systemprogramm. Ein RAM 13 speichert vorübergehend Berechnungsdaten und Anzeigedaten und verschiedene Arten von Daten, die von einem Bediener beispielsweise über einen Eingabeabschnitt, der nicht dargestellt ist, eingegeben werden.
  • Ein nichtflüchtiger Speicher 14 verfügt über einen Backup beispielsweise durch eine Batterie, die nicht dargestellt ist, und somit ist der nichtflüchtige Speicher 14 als ein Speicher ausgebildet, dessen Speicherzustand auch dann erhalten bleibt, wenn die Steuervorrichtung 1 ausgeschaltet wird. Der nichtflüchtige Speicher 14 speichert von einer externen Vorrichtung 72 durch eine Schnittstelle 15 ausgelesene Programme, durch eine Anzeige-/MDI-Einheit 70 eingegebene Daten und verschiedene Arten von Daten (beispielsweise Positionsbefehlswert, Drehzahlbefehlswert, Druckbefehlswert, Drehmomentbefehlswert, Positionsrückmeldung, Drehzahlrückmeldung, Druckrückmeldung, Drehmomentrückmeldung, Motorstromwert, Motortemperatur, Maschinentemperatur, Umgebungstemperatur, Zahl von Malen der Gesenkverwendung, Werkstückform, Werkstückmaterial, Gesenkform, Gesenkmaterial, Bearbeitungszykluszeit u. Ä.), die von verschiedenen Abschnitten der Steuervorrichtung 1 und der Servopresse erfasst werden. Solche im nichtflüchtigen Speicher 14 gespeicherten Programme und verschiedene Arten von Daten können zum Zeitpunkt der Ausführung oder Verwendung in das RAM 13 geladen werden. Das ROM 12 weist verschiedene Arten von vorgeladenen Systemenprogrammen (umfassend ein Systemprogramm zum Steuern des Datenaustauschs mit einer maschinellen Lernvorrichtung 100, die nachfolgend beschrieben ist) auf wie etwa ein Analyseprogramm nach dem Stand der Technik.
  • Die Schnittstelle 15 ist eine Schnittstelle zum Verbinden der Steuervorrichtung 1 und der externen Vorrichtung 72 wie etwa einen Adapter. Programme, verschiedene Parameter u. Ä. werden von der externen Vorrichtung 72 ausgelesen. In der Steuervorrichtung 1 bearbeitete Programme, verschiedene Parameter u. Ä. können durch die externe Vorrichtung 72 in externen Speichermitteln gespeichert werden. Ein programmierbares Maschinensteuergerät (Programmable Machine Controller, PMC) 16 gibt Signale an die Servopresse und Peripheriegeräte (beispielsweise einen Roboter, der das Werkstück gegen ein anderes austauscht) der Servopresse durch eine E/A-Einheit 17 gemäß einem in der Steuervorrichtung 1 integrierten Sequenzprogramm aus, wodurch die Servopresse und die Peripheriegeräte gesteuert werden. Das PMC 16 empfängt Signale von beispielsweise verschiedenen Steuerkonsolenschaltern und verschiedenen am Hauptkörper der Servopresse angeordneten Sensoren und leitet die Signale an die CPU 11 nach dem Durchführen der erforderlichen Signalverarbeitung weiter.
  • Die Anzeige-/MDI-Einheit 70 ist eine manuelle Dateneingabevorrichtung mit einer Anzeige, einer Tastatur u. Ä. Eine Schnittstelle 18 empfängt einen Befehl und Daten von der Tastatur der Anzeige-/MDI-Einheit 70 und leitet den Befehl und die Daten an die CPU 11 weiter. Eine Schnittstelle 19 ist mit einer Steuerkonsole 71 mit manuellen Impulsgebern o. Ä., die zum manuellen Antreiben von Achsen verwendet werden, verbunden.
  • Jede Achse weist eine Achssteuerschaltung 30 zum Steuern der Achse auf. Die Achssteuerschaltung 30 empfängt eine befohlene Menge von Weg für die Achse von der CPU 11 und gibt einen Befehl für die Achse an einen Servoverstärker 40 aus. Der Servoverstärker 40 empfängt den Befehl und treibt einen Servomotor 50 zum Bewegen der in der Servopresse angeordneten Achse an. Der Servomotor 50 der Achse umfasst einen Positions- und Drehzahlgeber und liefert ein vom Positions- und Drehzahlgeber empfangenes Positions- und Drehzahlrückmeldesignal an die Achssteuerschaltung 30 zum Durchführen der Regelung von Position und Drehzahl zurück. Das Hardwarekonfigurationsdiagramm in 1 stellt nur eine Achssteuerschaltung 30, einen Servoverstärker 40 und einen Servomotor 50 dar; die Steuervorrichtung 1 weist aber die gleiche Zahl (die 1 oder mehr sein kann) von Achssteuerschaltungen 30, Servoverstärkern 40 und Servomotoren 50 als die Zahl von Achsen der Servopresse auf.
  • Eine Schnittstelle 21 ist eine Schnittstelle zum Verbinden der Steuervorrichtung 1 mit der maschinellen Lernvorrichtung 100. Die maschinelle Lernvorrichtung 100 umfasst einen Prozessor 101, der die maschinelle Lernvorrichtung 100 vollständig steuert, ein ROM 102, das Systemprogramme u. Ä. speichert, ein RAM 103, das ein vorübergehendes Speichern in jeder Verarbeitung in Bezug auf maschinelles Lernen durchführt, und einen nichtflüchtigen Speicher 104, der zum Speichern von Lernmodellen u. Ä. verwendet wird. Die maschinelle Lernvorrichtung 100 kann verschiedene Arten von Information beobachten (beispielsweise Positionsbefehlswert, Drehzahlbefehlswert, Druckbefehlswert, Drehmomentbefehlswert, Positionsrückmeldung, Drehzahlrückmeldung, Druckrückmeldung, Drehmomentrückmeldung, Motorstromwert, Motortemperatur, Maschinentemperatur, Umgebungstemperatur, Zahl von Malen der Gesenkverwendung, Werkstückform, Werkstückmaterial, Gesenkform, Gesenkmaterial, Bearbeitungszykluszeit u. Ä.), welche die Steuervorrichtung 1 durch die Schnittstelle 21 erfassen kann. Die maschinelle Lernvorrichtung 100 gibt einen Steuerbefehl an die Steuervorrichtung 1 aus, die den Betrieb der Servopresse gemäß dem Steuerbefehl steuert.
  • 2 zeigt ein Funktionsblockdiagramm zur schematischen Darstellung der Steuervorrichtung 1 und der maschinellen Lernvorrichtung 100 gemäß der ersten Ausführungsform. In 2 dargestellte Funktionsblöcke werden ausgeführt, wenn die in der Steuervorrichtung 1 enthaltene CPU 11 und der Prozessor 101 der maschinellen Lernvorrichtung 100, die in 1 dargestellt sind, entsprechende Systemprogramme ausführen und jeweils einen Betrieb von jedem Abschnitt der Steuervorrichtung 1 und der maschinellen Lernvorrichtung 100 steuern.
  • Die Steuervorrichtung 1 der vorliegenden Ausführungsform umfasst einen Steuerabschnitt 34, der eine Servopresse 2 auf der Basis eines Steuerbefehls für die Servopresse 2, ausgegeben von der maschinellen Lernvorrichtung 100, steuert. Der Steuerabschnitt 34 steuert allgemein den Betrieb der Servopresse 2 gemäß einem Befehl von einem Programm o. Ä.; wenn aber der Steuerbefehl für die Servopresse 2 von der maschinellen Lernvorrichtung 100 ausgegeben wird, steuert der Steuerabschnitt 34 die Servopresse 2 auf der Basis des von der maschinellen Lernvorrichtung 100 ausgegebenen Befehls statt eines Befehls vom Programm o. Ä.
  • Die in der Steuervorrichtung 1 angeordnete maschinelle Lernvorrichtung 100 umfasst Software (etwa einen Lernalgorithmus) und Hardware (etwa einen Prozessor 101), mit dem die maschinelle Lernvorrichtung 100 selbst den Steuerbefehl für die Servopresse 2 in Bezug auf Rückmeldung zum Steuern der Servopresse 2 und Informationen zu Richtungen von Schneidkraftkomponenten des Schneidwiderstands durch so genanntes maschinelles Lernen lernt. Was die in der Steuervorrichtung 1 angeordnete maschinelle Lernvorrichtung 100 lernt, entspricht einer Modellstruktur zur Darstellung der Korrelation der Rückmeldung zum Steuern der Servopresse 2 und Informationen zu Richtungen von Schneidkraftkomponenten des Schneidwiderstands mit dem Steuerbefehl für die Servopresse 2.
  • Wie durch Funktionsblöcke in 2 dargestellt umfasst die in der Steuervorrichtung 1 angeordnete maschinelle Lernvorrichtung 100 einen Zustandsbeobachtungsabschnitt 106, einen Ermittlungsdaten-Erfassungsabschnitt 108 und einen Lernabschnitt 110. Der Zustandsbeobachtungsabschnitt 106 beobachtet Zustandsvariablen S zur Darstellung eines Istumgebungszustands, die Steuerbefehlsdaten S1 zur Darstellung des Steuerbefehls für die Servopresse 2 und Steuerrückmeldedaten S2 zur Darstellung der Rückmeldung zum Steuern der Servopresse 2 umfassen. Der Ermittlungsdaten-Erfassungsabschnitt 108 erfasst Ermittlungsdaten D, die Werkstückqualität-Ermittlungsdaten D1 zum Ermitteln der Qualität eines auf der Basis eines beschlossenen Steuerbefehls für die Servopresse 2 bearbeiteten Werkstücks und Zykluszeit-Ermittlungsdaten D2 zum Ermitteln der erforderlichen Zeit zum Bearbeiten des Werkstücks umfassen. Der Lernabschnitt 110 lernt den Steuerbefehl für die Servopresse 2 in Bezug auf die Rückmeldung zum Steuern der Servopresse 2 unter Verwendung der Zustandsvariablen S und der Ermittlungsdaten D.
  • Von den durch den Zustandsbeobachtungsabschnitt 106 beobachteten Zustandsvariablen S können die Steuerbefehlsdaten S1 als Steuerbefehl für die Servopresse 2 erfasst werden. Beispiele des Steuerbefehls für die Servopresse 2 umfassen beispielsweise einen Positionsbefehlswert, einen Drehzahlbefehlswert, einen Druckbefehlswert, einen Drehmomentbefehlswert u. Ä. zum Bearbeiten durch die Servopresse 2. Der Steuerbefehl für die Servopresse 2 kann von einem Programm zum Steuern des Betriebs der Servopresse 2 oder dem in der letzten Lernperiode ausgegebenen Steuerbefehl für die Servopresse 2 erfasst werden.
  • Die Steuerbefehlsdaten S1 können mit dem von der maschinellen Lernvorrichtung 100 in der letzten Lernperiode beschlossenen Steuerbefehl für die Servopresse 2 in Bezug auf die Rückmeldung zum Steuern der Servopresse 2 in der letzten Lernperiode auf der Basis eines Ergebnisses des Lernens durch den Lernabschnitt 110 identisch sein. Wenn solch ein Ansatz verwendet wird, kann die maschinelle Lernvorrichtung 100 vorübergehend den Steuerbefehl für die Servopresse 2 im RAM 103 in jeder Lernperiode speichern und der Zustandsbeobachtungsabschnitt 106 kann den Steuerbefehl für die Servopresse 2 in der letzten Lernperiode vom RAM 103 erfassen, der als Steuerbefehlsdaten S1 in der aktuellen Lernperiode verwendet wird.
  • Von den durch den Zustandsbeobachtungsabschnitt 106 beobachteten Zustandsvariablen S können die Steuerrückmeldedaten S2 als ein Rückmeldewert vom Servomotor 50 zum Antrieb der Servopresse 2 erfasst werden. Beispiele des Rückmeldewerts vom Servomotor 50 umfassen einen Positionsrückmeldewert, einen Drehzahlrückmeldewert, einen Druckrückmeldewert, einen Drehmomentrückmeldewert u. Ä.
  • 3 zeigt eine Ansicht zur Darstellung von Beispielen der Steuerbefehlsdaten S1 und Steuerrückmeldedaten S2. Wie in 3 dargestellt können die Steuerbefehlsdaten S1 und die Steuerrückmeldedaten S2 als Daten umfassend vorübergehend aufeinander folgende diskrete Wert, ermittelt durch Abtasten von jedem beobachteten Wert mit einer vorgegebenen Abtastperiode Δt, beobachtet werden. Der Zustandsbeobachtungsabschnitt 106 kann als die Steuerbefehlsdaten S1 und die Steuerrückmeldedaten S2 während eines Bearbeitungszyklus erfasste Daten oder von unmittelbar vor dem Kontakt eines oberen Gesenks der Servopresse 2 mit einem Werkstück bis zum Zeitpunkt, zu dem die Pressarbeit vollständig abgeschlossen ist, erfasste Daten verwenden. Der Zustandsbeobachtungsabschnitt 106 gibt die Steuerbefehlsdaten S1 und die Steuerrückmeldedaten S2, erfasst über das gleiche Zeitintervall, an den Lernabschnitt 110 während einer Lernperiode des Lernabschnitts 110 aus.
  • Jedes während der Bearbeitung des Werkstücks erfasstes Informationsteil kann als Protokolldaten im nichtflüchtigen Speicher 14 von der Steuervorrichtung 1 gespeichert werden und der Zustandsbeobachtungsabschnitt 106 kann die aufgezeichneten Protokolldaten analysieren und jede Zustandsvariable erfassen.
  • Der Ermittlungsdaten-Erfassungsabschnitt 108 kann als Werkstückqualität-Ermittlungsdaten D1 ein Ergebnis des Ermittelns der Qualität des bearbeiteten Werkstücks auf der Basis des beschlossenen Steuerbefehls für die Servopresse 2 verwenden. Die Werkstückqualität-Ermittlungsdaten D1, die vom Ermittlungsdaten-Erfassungsabschnitt 108 verwendet werden, können ein Ergebnis des Ermittelns auf der Basis eines entsprechend festgelegten Kriteriums sein, etwa ob das Werkstück ein fehlerfreies Produkt (geeignet) ist oder ein fehlerhaftes Produkt mit Kratzern, Rissen o. Ä. (ungeeignet) oder ob ein Maßfehler des Werkstücks nicht mehr als eine vorgegebene Schwelle beträgt (geeignet) oder mehr als die Schwelle beträgt (ungeeignet).
  • Der Ermittlungsdaten-Erfassungsabschnitt 108 kann als die Zykluszeit-Ermittlungsdaten D2 ein Ergebnis des Ermittelns der erforderlichen Zeit zum Bearbeiten des Werkstücks auf der Basis des beschlossenen Steuerbefehls für die Servopresse 2 verwenden. Die Zykluszeit-Ermittlungsdaten D2, die vom Ermittlungsdaten-Erfassungsabschnitt 108 verwendet werden, können ein Ergebnis des Ermittelns auf der Basis eines entsprechend festgelegten Kriteriums sein, etwa ob die erforderliche Zeit zum Bearbeiten des Werkstücks auf der Basis des beschlossenen Steuerbefehls für die Servopresse 2 kürzer ist als eine vorgegebene Schwelle (geeignet) oder länger als die Schwelle (ungeeignet).
  • Der Ermittlungsdaten-Erfassungsabschnitt 108 ist eine wesentliche Komponente in einer Phase, in welcher der Lernabschnitt 110 lernt, ist aber nicht notwendigerweise eine wesentliche Komponente, nachdem der Lernabschnitt 110 das Lernen des Steuerbefehls für die Servopresse 2 in Bezug auf die Rückmeldung zum Steuern der Servopresse 2 abgeschlossen hat. Wenn die maschinelle Lernvorrichtung 100, die das Lernen abgeschlossen hat, beispielsweise an einen Kunden geliefert wird, kann die maschinelle Lernvorrichtung 100 geliefert werden, nachdem der Ermittlungsdaten-Erfassungsabschnitt 108 entfernt wurde.
  • Aus der Perspektive der Lernperioden des Lernabschnitts 110 basieren die gleichzeitig am Lernabschnitt 110 eingegebenen Zustandsvariablen S auf in der letzten Lernperiode, während der die Ermittlungsdaten D erfasst wurden, erfassten Daten. Somit wird während einer Periode, in der die in der Steuervorrichtung 1 angeordnete maschinelle Lernvorrichtung 100 lernt, Folgendes wiederholt in der Umgebung ausgeführt: das Erfassen der Steuerrückmeldedaten S2, die Bearbeitung eines Werkstücks durch die Servopresse 2 auf der Basis der auf der Basis von jedem erfassten Datenteil beschlossenen Steuerbefehlsdaten S1 und das Erfassen der Ermittlungsdaten D.
  • Der Lernabschnitt 110 lernt den Steuerbefehl für die Servopresse 2 in Bezug auf die Rückmeldung zum Steuern der Servopresse 2 gemäß einem frei gewählten Lernalgorithmus, allgemein als maschinelles Lernen bezeichnet. Der Lernabschnitt 110 kann wiederholt ein Lernen auf der Basis einer Datensammlung enthaltend die Zustandsvariablen S und die Ermittlungsdaten D wie zuvor beschrieben ausführen. Während der Wiederholung eines Lernzyklus, in dem der Steuerbefehl für die Servopresse 2 in Bezug auf die Rückmeldung zum Steuern der Servopresse 2 gelernt wird, werden die Zustandsvariablen S von der Rückmeldung zum Steuern der Servopresse 2 in der letzten Lernperiode und dem in der letzten Lernperiode beschlossenen Steuerbefehl für die Servopresse 2 wie zuvor beschrieben erfasst und die Ermittlungsdaten D sind Ergebnisse des Ermittelns an der Bearbeitung eines bearbeiteten Werkstücks auf der Basis des beschlossenen Steuerbefehls für die Servopresse 2 aus verschiedenen Perspektiven (etwa Bearbeitungsqualität und erforderliche Zeit zum Bearbeiten eines Werkstücks.
  • Durch Wiederholen des zuvor beschriebenen Lernzyklus kann der Lernabschnitt 110 Merkmale erkennen, welche die Korrelation zwischen der Rückmeldung zum Steuern der Servopresse 2 und dem Steuerbefehl für die Servopresse 2 beinhalten. Wenn der Lernalgorithmus gestartet wird, ist die Korrelation zwischen der Rückmeldung zum Steuern der Servopresse 2 und dem Steuerbefehl für die Servopresse 2 im Wesentlichen unbekannt. Der Lernabschnitt 110 identifiziert aber schrittweise Merkmale und interpretiert die Korrelation als Lernfortschritte. Wenn die Korrelation zwischen der Rückmeldung zum Steuern der Servopresse 2 und dem Steuerbefehl für die Servopresse 2 in einem zuverlässigen Niveau interpretiert ist, können wiederholt vom Lernabschnitt 110 ausgegebene Lernergebnisse zum Auswählen einer Aktion (das heißt Treffen einer Entscheidung) diesbezüglich, ob der Steuerbefehl für die Servopresse 2 in Bezug auf den Istzustand (das heißt die Rückmeldung zum Steuern der Servopresse 2) beschlossen werden soll. Insbesondere kann mit dem Fortschritt des Lernalgorithmus der Lernabschnitt 110 schrittweise die Korrelation zwischen der Rückmeldung zum Steuern der Servopresse 2 und dem Steuerbefehl für die Servopresse 2, das heißt eine Aktion diesbezüglich, ob der Steuerbefehl für die Servopresse 2 in Bezug auf die Rückmeldung zum Steuern der Servopresse 2 festgelegt werden soll, nahe der optimalen Lösung gebracht werden.
  • Ein Entscheidungsfindungsabschnitt 122 beschließt den Steuerbefehl für die Servopresse 2 auf der Basis eines Lernergebnisses des Lernabschnitts 110 und gibt den beschlossenen Steuerbefehl für die Servopresse 2 an den Steuerabschnitt 34 aus. Nachdem das Lernen durch den Lernabschnitt 110 verfügbar wird, wenn die Rückmeldung zum Steuern der Servopresse 2 an der maschinellen Lernvorrichtung 100 eingegeben wird, gibt der Entscheidungsfindungsabschnitt 122 den Steuerbefehl für die Servopresse 2 (etwa einen Positionsbefehlswert, einen Drehzahlbefehlswert, einen Druckbefehlswert oder einen Drehmomentbefehlswert) aus. Der vom Entscheidungsfindungsabschnitt 122 ausgegebene Steuerbefehl für die Servopresse 2 ist ein Steuerbefehl, mit dem die Qualität eines Werkstücks verbessert werden kann, wobei die Bearbeitungszykluszeit in einem gewissen Umfang im aktuellen Zustand gehalten wird. Der Entscheidungsfindungsabschnitt 122 beschließt einen geeigneten Steuerbefehl für die Servopresse 2 auf der Basis der Zustandsvariablen S und des Lernergebnisses des Lernabschnitts 110.
  • Wie zuvor beschrieben lernt in der in der Steuervorrichtung 1 angeordneten maschinellen Lernvorrichtung 100 der Lernabschnitt 110 den Steuerbefehl für die Servopresse 2 in Bezug auf die Rückmeldung zum Steuern der Servopresse 2 gemäß einem maschinellen Lernalgorithmus unter Verwendung der vom Zustandsbeobachtungsabschnitt 106 beobachteten Zustandsvariablen und der vom Ermittlungsdaten-Erfassungsabschnitt 108 erfassten Ermittlungsdaten D. Die Zustandsvariablen S enthalten Daten wie die Steuerbefehlsdaten S1 und die Steuerrückmeldedaten S2. Die Ermittlungsdaten D werden eindeutig durch Analysieren von vom Prozess des Bearbeitens eines Werkstücks erfassten Informationen eines Ergebnisses des Messens des bearbeiteten Werkstücks ermittelt. Entsprechend kann mit der in der Steuervorrichtung 1 angeordneten maschinellen Lernvorrichtung 100 der Steuerbefehl für die Servopresse 2 automatisch und genau gemäß der Rückmeldung zum Steuern der Servopresse 2 durch Verwendung eines Lernergebnisses des Lernabschnitts 110 ausgegeben werden.
  • Ferner kann, wenn der Steuerbefehl für die Servopresse 2 automatisch beschlossen werden kann, ein geeigneter Wert für den Steuerbefehl für die Servopresse 2 schnell ausschließlich durch Ermitteln der Rückmeldung zum Steuern der Servopresse 2 (Steuerrückmeldedaten S2) beschlossen werden. Somit kann der Steuerbefehl für die Servopresse 2 wirksam beschlossen werden.
  • In einem modifizierten Beispiel der in der Steuervorrichtung 1 angeordneten maschinellen Lernvorrichtung 100 kann der Zustandsbeobachtungsabschnitt 106 als die Zustandsvariable S Gesenkzustandsdaten S3 zur Darstellung des Zustands des Gesenks zusätzlich zu den Steuerbefehlsdaten S1 und den Steuerrückmeldedaten S2 beobachten. Beispiele des Zustands des Gesenks umfassen Gesenkmaterial, Gesenkform (wie Gesenktiefe oder maximale Gesenkkrümmung), die Zahl von Malen der Gesenkverwendung u. Ä. umfassen. Wenn das Gesenk aus einem weichen Material besteht oder das Gesenk viele Male verwendet wird, ist es wahrscheinlicher, dass das Gesenk verschleißt oder sich verformt. Wenn das Gesenk eine große Tiefe oder eine scharfe Kante aufweist, ist es wahrscheinlicher, dass das Gesenk ein Werkstück während der Bearbeitung beschädigt. Somit kann das Beobachten solch eines Zustands als die Zustandsvariable S die Genauigkeit des Lernens durch den Lernabschnitt 110 verbessern.
  • In einem weiteren modifizierten Beispiel der in der Steuervorrichtung 1 angeordneten maschinellen Lernvorrichtung 100 kann der Zustandsbeobachtungsabschnitt 106 als die Zustandsvariable S Werkstückzustandsdaten S4 zur Darstellung des Zustands eines Werkstücks zusätzlich zu den Steuerbefehlsdaten S1 und den Steuerrückmeldedaten S2 beobachten. Da ein Ergebnis der Bearbeitung je nach Werkstückmaterial, Werkstückform vor dem Bearbeiten und Werkstücktemperatur variieren kann, kann das Beobachten solch eines Zustands als die Zustandsvariable S die Genauigkeit des Lernens durch den Lernabschnitt 110 verbessern.
  • In einem weiteren modifizierten Beispiel der in der Steuervorrichtung 1 angeordneten maschinellen Lernvorrichtung 100 kann der Zustandsbeobachtungsabschnitt 106 als die Zustandsvariable S Motorzustandsdaten S5 zur Darstellung des Zustands des Motors zusätzlich zu den Steuerbefehlsdaten S1 und den Steuerrückmeldedaten S2 beobachten. Beispiele des Zustands des Motors umfassen den Wert eines durch den Motor fließenden Stroms, die Temperatur des Motors u. Ä. Änderungen im Wert des durch den Servomotor 50 fließenden Stroms oder der Temperatur des Servomotors 50 über einen Bearbeitungszyklus während des Bearbeitens eines Werkstücks scheinen relevante Daten zu sein, die indirekt den Zustand der Bearbeitung des Werkstücks darstellen. Somit kann die Genauigkeit des Lernens durch den Lernabschnitt 110 durch Beobachten von durch Abtasten des Werts des Stroms oder der Temperatur des Servomotors 50 mit einer vorgegebenen Abtastperiode Δt während eines Bearbeitungszyklus ermittelten vorübergehend aufeinander folgenden diskreten Werten als die Zustandsvariable S verbessert werden.
  • In einem weiteren modifizierten Beispiel der in der Steuervorrichtung 1 angeordneten maschinellen Lernvorrichtung 100 kann der Zustandsbeobachtungsabschnitt 106 als die Zustandsvariable S Maschinenzustandsdaten S6 zur Darstellung des Zustands der Servopresse 2 zusätzlich zu den Steuerbefehlsdaten S1 und den Steuerrückmeldedaten S2 beobachten. Beispiele des Zustands der Servopresse 2 umfassen die Temperatur der Servopresse 2 u. Ä. Diese Zustände können Unterschiede in Ergebnissen der Bearbeitung bewirken. Somit kann das Beobachten solch eines Zustands als die Zustandsvariable S die Genauigkeit des Lernens durch den Lernabschnitt 110 verbessern.
  • In einem weiteren modifizierten Beispiel der in der Steuervorrichtung 1 angeordneten maschinellen Lernvorrichtung 100 kann der Zustandsbeobachtungsabschnitt 106 als die Zustandsvariable S Umgebungsbedingungsdaten S7 zur Darstellung einer Umgebungsbedingung der Servopresse 2 zusätzlich zu den Steuerbefehlsdaten S1 und den Steuerrückmeldedaten S2 beobachten. Beispiele der Umgebungsbedingung der Servopresse 2 umfassen Umgebungstemperatur, Umgebungsfeuchtigkeit u. Ä. Diese Bedingungen können Unterschiede in Ergebnissen der Bearbeitung bewirken. Somit kann das Beobachten solch einer Bedingung als die Zustandsvariable S die Genauigkeit des Lernens des Lernabschnitts 110 verbessern.
  • In einem weiteren modifizierten Beispiel der in der Steuervorrichtung 1 angeordneten maschinellen Lernvorrichtung 100 kann der Ermittlungsdaten-Erfassungsabschnitt 108 Durchbruch-Ermittlungsdaten D3 zum Bestimmen des Grads des während der Bearbeitung eines Werkstücks durch die Servopresse 2 auftretenden Durchbruchs zusätzlich zu den Werkstückqualität-Ermittlungsdaten D1 und den Zykluszeit-Ermittlungsdaten D2 erfassen. Durchbruch ist ein Phänomen in der Bearbeitung durch eine Servopresse, in der, wenn eine Pressachse Druck auf ein Werkstück ausübt und das Werkstück vom Gesenk getrennt (abgebrochen) wird, die Pressachse plötzlich einer umgekehrten Verformungskraft ausgesetzt ist. Dieses Phänomen ist die Hauptursache für Stöße und Geräusche im sogenanten Schervorgang und beeinflusst die Qualität der Bearbeitung des Werkstücks und den Status (etwa Panne) der Servopresse. Der Ermittlungsdaten-Erfassungsabschnitt 108 kann Daten wie den Drehmomentwert des Servomotors 50 während der Bearbeitung eines Werkstücks analysieren. Wenn ein Durchbruch auftritt, kann der Ermittlungsdaten-Erfassungsabschnitt 108 die Durchbruch-Ermittlungsdaten D3 erfassen; geeignet für einen Durchbruch ist eine Größe nicht mehr als eine vorgegebene Schwelle und ungeeignet für einen Durchbruch ist eine Größe mehr als die Schwelle.
  • In der maschinellen Lernvorrichtung 100 mit der zuvor beschriebenen Konfiguration ist der vom Lernabschnitt 110 ausgeführte Lernalgorithmus nicht besonders beschränkt und es kann ein beliebiger Lernalgorithmus verwendet werden, der allgemein als maschinelles Lernen bekannt ist. 4 zeigt einen Aspekt der in 2 dargestellten Steuervorrichtung 1, welche die Konfiguration umfassend den Lernabschnitt 110 aufweist, der verstärkendes Lernen als ein Beispiel des Lernalgorithmus ausführt. Verstärkendes Lernen ist ein Ansatz, bei dem ein Zyklus des Beobachtens des aktuellen Zustands (das heißt einer Eingabe) einer Umgebung, in der ein zu lernendes Objekt vorhanden ist, des Ausführens einer vorgegebenen Aktion (das heißt einer Ausgabe) im aktuellen Zustand und des Erteilens einer bestimmten Belohnung für die Aktion heuristisch wiederholt wird und solch eine Methode (in der maschinellen Lernvorrichtung der vorliegenden Anwendung der Steuerbefehl für die Servopresse 2), welche die Summe der Belohnung maximiert, wird als eine optimale Lösung gelernt.
  • In der in der in 4 dargestellten Steuervorrichtung 1 angeordneten maschinellen Lernvorrichtung 100 umfasst der Lernabschnitt 110 einen Belohnungsberechnungsabschnitt 112 und einen Wertfunktion-Aktualisierungsabschnitt 114. Der Belohnungsberechnungsabschnitt 112 ermittelt eine Belohnung R in Bezug auf ein Ergebnis (entsprechend den Ermittlungsdaten D, die in der Lernperiode verwendet werden, unmittelbar nachdem die Zustandsvariable S erfasst wurde) des Ermittelns in Bezug auf die Bearbeitung eines Werkstücks durch die Servopresse 2 auf der Basis des auf der Basis der Zustandsvariable S beschlossenen Steuerbefehls für die Servopresse 2. Der Wertfunktion-Aktualisierungsabschnitt 114 aktualisiert eine Funktion Q zur Darstellung des Werts des Steuerbefehls für die Servopresse 2 unter Verwendung der Belohnung R. Der Lernabschnitt 110 lernt den Steuerbefehl für die Servopresse 2 in Bezug auf die Rückmeldung zum Steuern der Servopresse 2 durch den die Aktualisierung der Funktion Q wiederholenden Wertfunktion-Aktualisierungsabschnitt 114.
  • Nachfolgend ist ein Beispiel eines verstärkenden Lernalgorithmus beschrieben, den der Lernabschnitt 110 ausführt. Der Algorithmus gemäß diesem Beispiel ist als Q-Lernen bekannt und stellt einen Ansatz dar, in dem unter Verwenden des Zustands s eines Agenten und einer Aktion a, die der Agent im Zustand s auswählen kann, als unabhängige Variablen eine Funktion Q(s,a) zur Darstellung des Werts der Aktion, wenn die Aktion a im Zustand s ausgewählt wird, gelernt wird. Das Auswählen einer solchen Aktion a, dass die Wertfunktion Q zum Maximum in Zustand s wird, stellt die optimale Lösung dar. Durch Starten eines Q-Lernens in einem Zustand, in dem die Korrelation zwischen dem Zustand s und der Aktion a nicht bekannt ist, und Wiederholen von Trial-and-Error, in dem verschiedene Aktionen a in beliebigen Zuständen s ausgewählt werden, wird die Wertfunktion Q wiederholt aktualisiert, so dass sie der optimalen Lösung angenähert wird. Die Wertfunktion Q kann der optimalen Lösung in einer relativ kurzen Zeit durch Verwenden einer Konfiguration angenähert werden, in der, wenn sich eine Umgebung (das heißt der Zustand s) als ein Ergebnis des Auswählens der Aktion a im Zustand s ändert, eine Belohnung r (das heißt ein der Aktion a gegebenes Gewicht) entsprechend der Änderung erzielt werden kann, und Führen des Lernens, so dass eine Aktion zum Erzielen einer höheren Belohnung r ausgewählt werden kann.
  • Eine Aktualisierungsformel für die Wertfunktion Q ist im Allgemeinen als die folgende Formel 1 dargestellt. In der Formel 1 sind st und at jeweils ein Zustand und eine Aktion zum Zeitpunkt t. Die Aktion at ändert den Zustand zu st+1 . rt+1 ist eine in Reaktion auf eine Änderung des Zustands von st zu st+1 erhaltene Belohnung. Der Ausdruck maxQ bedeutet erzieltes Q, wenn eine Aktion a, die einen maximalen Wert Q liefert (scheinbar zum Zeitpunkt t einen maximalen Wert Q liefert) zum Zeitpunkt t+1 ergriffen wird. α und γ sind jeweils ein Lernkoeffizient und eine Abschlagsrate und werden wie gewünscht im Bereich von 0<α≤1 und 0<γ≤1 festgelegt. Q ( s t , a t ) Q ( s t , a t ) + a ( r t + 1 + γ   m a x a  Q ( s t + 1 ,   a ) Q ( s t , a t ) )
    Figure DE102019001044A1_0001
  • Wenn der Lernabschnitt 110 Q-Lernen ausführt, entsprechen die vom Zustandsbeobachtungsabschnitt 106 beobachtete Zustandsvariable S und die vom Ermittlungsdaten-Erfassungsabschnitt 108 erfassten Ermittlungsdaten D dem Zustand s in der Aktualisierungsformel, eine Aktion in Bezug darauf, wie der Steuerbefehl für die Servopresse 2 in Bezug auf den aktuellen Zustand beschlossen werden soll (das heißt die Rückmeldung zum Steuern der Servopresse 2) entspricht der Aktion a in der Aktualisierungsformel und due vom Belohnungsberechnungsabschnitt 112 ermittelte Belohnung r entspricht der Belohnung r in der Aktualisierungsformel. Entsprechend aktualisiert der Wertfunktion-Aktualisierungsabschnitt 114 wiederholt die Funktion Q zur Darstellung des Werts des Steuerbefehls für die Servopresse 2 in Bezug auf den aktuellen Zustand durch Q-Lernen unter Verwendung der Belohnung R.
  • Die vom Belohnungsberechnungsabschnitt 112 ermittelte Belohnung R kann wie folgt festgelegt werden: wenn beispielsweise die Bearbeitung eines Werkstücks auf der Basis des beschlossenen Steuerbefehls für die Servopresse 2, die durchgeführt wird, nachdem der Steuerbefehl für die Servopresse 2 beschlossen ist, als „geeignet“ ermittelt wird (das Werkstück ist beispielsweise nach der Bearbeitung nicht zerbrochen, ein Maßfehler des Werkstücks ist nicht größer als eine vorgegebene Schwelle, die Zykluszeit der Bearbeitung ist kürzer als eine vorgegebene Schwelle oder die Zykluszeit in der letzten Lernperiode u. Ä.), ist die Belohnung R positiv (Plus); und wenn beispielsweise die Bearbeitung des Werkstücks auf der Basis des beschlossenen Steuerbefehls für die Servopresse 2, die durchgeführt wird, nachdem der Steuerbefehl für die Servopresse 2 beschlossen ist, als „ungeeignet“ ermittelt wird (das Werkstück ist beispielsweise nach der Bearbeitung zerbrochen, der Maßfehler des Werkstücks ist größer als eine vorgegebene Schwelle, die Zykluszeit der Bearbeitung ist länger als die vorgegebene Schwelle oder die Zykluszeit in der letzten Lernperiode u. Ä.), ist die Belohnung R negativ (Minus). Die Absolutwerte der positiven und negativen Belohnungen R können gleich oder verschieden sein. In Bezug auf Kriterien zum Ermitteln kann eine Mehrzahl von in den Ermittlungsdaten D enthaltenen Werten kombiniert werden, um ein Ermitteln durchzuführen.
  • Ferner können Ergebnisse des Ermittelns in Bezug auf die Bearbeitung eines Werkstücks auf der Basis des festgelegten Steuerbefehls für die Servopresse 2 in eine Mehrzahl von Graden klassifiziert werden, nicht nur in zwei Grade, die „geeignet“ und „ungeeignet“ sind. Wenn beispielsweise eine Schwelle der Zykluszeit der Bearbeitung eines Werkstücks Tmax ist und wenn T die Zykluszeit der Montagearbeit durch einen Bediener ist, wird die Belohnung R=5 erteilt, wenn 0≤T<Tmax/5, die Belohnung R=3 wird erteilt, wenn Tmax/5≤T<Tmax/2, die Belohnung R=1 wird erteilt, wenn Tmax/2≤T<Tmax und die Belohnung R=-3 (Minus-Belohnung) wird erteilt, wenn Tmax≤T.
  • Ferner kann eine relativ große Schwelle zum Verwenden im Ermitteln festgelegt werden, die mit Fortschritt des Lernens abnimmt.
  • Der Wertfunktion-Aktualisierungsabschnitt 114 kann eine Aktionswerttabelle aufweisen, in der die Zustandsvariablen S, die Ermittlungsdaten D und die Belohnung R in Bezug auf Aktionswerte (beispielsweise numerische Werte), dargestellt durch die Funktion Q, organisiert sind. In diesem Fall ist die Aktion, dass der Wertfunktion-Aktualisierungsabschnitt 114 die Funktion Q aktualisiert, synonym mit der Aktion, dass der Wertfunktion-Aktualisierungsabschnitt 114 die Aktionswerttabelle aktualisiert. Wenn das Q-Lernen gestartet wird, ist die Korrelation zwischen dem aktuellen Zustand der Umgebung und dem Steuerbefehl für die Servopresse 2 unbekannt. Somit werden in der Aktionswerttabelle verschiedene Zustandsvariablen S, die Ermittlungsdaten D und die Belohnung R in einer Form mit zufällig ermittelten Werten (Funktion Q) des Aktionswerts vorbereitet. Wenn die Ermittlungsdaten D bekannt sind, kann der Belohnungsberechnungsabschnitt 112 unmittelbar eine Belohnung R entsprechend den Ermittlungsdaten berechnen und der berechnete Wert R wird in die Aktionswerttabelle geschrieben.
  • Wenn das Q-Lernen fortgeschritten ist unter Verwendung der Belohnung R entsprechend dem Ergebnis des Ermittelns in Bezug auf den Betrieb der Servopresse 2, wird das Lernen in der Richtung geführt, in der eine eine höhere Belohnung R erzielende Aktion ausgewählt wird, und der Wert (Funktion Q) des Aktionswerts einer Aktion, die im aktuellen Zustand ermittelt wird, wird gemäß dem Zustand (das heißt der Zustandsvariable S und den Ermittlungsdaten D) der Umgebung, die sich als das Ergebnis des Ausführens der ausgewählten Aktion im aktuellen Zustand ändert, neu geschrieben, wodurch die Aktionswerttabelle aktualisiert wird. Durch Wiederholen dieser Aktualisierung werden die Werte (Funktion Q) von in der Aktionswerttabelle angezeigten Aktionswerten neu geschrieben, so dass angemessene Aktionen (in der vorliegenden Erfindung Aktionen zum Anpassen eines Befehlswerts für den Servomotor 50 ohne zu starkes Verlängern der Zykluszeit in Bezug auf die Bearbeitung eines Werkstücks) größere Werte aufweisen können. Dies deckt schrittweise die Korrelation zwischen dem aktuellen Umgebungszustand (die Rückmeldung zum Steuern der Servopresse 2), der unbekannt war, und einer Aktion (Steuerbefehl für die Servopresse 2) in Bezug auf den aktuellen Umgebungszustand auf. Das heißt durch Aktualisieren der Aktionswerttabelle wird die Beziehung zwischen der Rückmeldung zum Steuern der Servopresse 2 und dem Steuerbefehl für die Servopresse 2 schrittweise der optimalen Lösung angenähert.
  • Nachfolgend ist in Bezug auf 5 der Ablauf (das heißt ein Aspekt des maschinellen Lernverfahrens) des zuvor beschriebenen Q-Lernens, das der Lernabschnitt 110 ausführt näher beschrieben. Zunächst wählt in Schritt SA01 der Wertfunktion-Aktualisierungsabschnitt 114 zufällig den Steuerbefehl für die Servopresse 2 als eine Aktion aus, die im aktuellen Zustand, dargestellt durch die vom Zustandsbeobachtungsabschnitt 106 beobachtete Zustandsvariable S, in Bezug auf die Aktionswerttabelle zu diesem Zeitpunkt ergriffen wird. Anschließend nimmt in Schritt SA02 der Wertfunktion-Aktualisierungsabschnitt 114 die Zustandsvariable S des aktuellen Zustands, den der Zustandsbeobachtungsabschnitt 106 beobachtet, entgegen. Danach nimmt in Schritt SA03 der Wertfunktion-Aktualisierungsabschnitt 114 die Ermittlungsdaten D des aktuellen Zustands, die der Ermittlungsdaten-Erfassungsabschnitt 108 erfasst hat, entgegen. Anschließend ermittelt in Schritt SA04 der Wertfunktion-Aktualisierungsabschnitt 114 auf der Basis der Ermittlungsdaten D, ob der Steuerbefehl für die Servopresse 2 angemessen war. Wenn ermittelt wurde, dass der Steuerbefehl für die Servopresse 2 angemessen war, wendet der Wertfunktion-Aktualisierungsabschnitt 114 in Schritt SA05 eine positive Belohnung R, die der Belohnungsberechnungsabschnitt 112 ermittelt hat, auf die Aktualisierungsformel für die Funktion Q an und aktualisiert anschließend in Schritt SA06 die Aktionswerttabelle unter Verwendung der Zustandsvariable S und der Ermittlungsdaten D im aktuellen Zustand, der Belohnung R und des Werts (Funktion Q nach der Aktualisierung) des Aktionswerts. Wenn hingegen in Schritt SA04 ermittelt wurde, dass der Steuerbefehl für die Servopresse 2 nicht angemessen war, wendet der Wertfunktion-Aktualisierungsabschnitt 114 in Schritt SA07 eine negative Belohnung R, die der Belohnungsberechnungsabschnitt 112 ermittelt hat, auf die Aktualisierungsformel für die Funktion Q an und aktualisiert anschließend in Schritt SA06 die Aktionswerttabelle unter Verwendung der Zustandsvariable S und der Ermittlungsdaten D im aktuellen Zustand, der Belohnung R und des Werts (Funktion Q nach der Aktualisierung) des Aktionswerts.
  • Der Lernabschnitt 110 aktualisiert wiederholt die Aktionswerttabelle durch Wiederholen von Schritt SA01 bis SA07, wodurch das Lernen des Steuerbefehls für die Servopresse 2 fortschreitet. Der Prozess zum Ermitteln der Belohnung R und Aktualisieren der Wertfunktion von Schritt SA04 bis Schritt SA07 wird für jedes in den Ermittlungsdaten D enthaltene Datenteil ausgeführt.
  • Für den Fortschritt des zuvor beschriebenen verstärkenden Lernens kann beispielsweise ein neuronales Netz angewendet werden. 6A zeigt schematisch ein Modell eines Neurons. 6B zeigt schematisch ein Modell eines dreischichtigen neuronalen Netzes, das durch Kombinieren der in 6A dargestellten Neuronen gebildet wird. Das neuronale Netz kann beispielsweise aus arithmetischen Vorrichtungen, Speichervorrichtungen o. Ä. in Imitation des Modells von Neuronen bestehen.
  • Das in 6A dargestellte Neuron gibt ein Ergebnis y in Bezug auf eine Mehrzahl von Eingaben x (hier beispielsweise Eingabe x1 bis Eingabe x3 ) aus. Die Eingaben x1 bis x3 werden jeweils mit Gewichten w (w1 bis w3 ) entsprechend diesen Eingaben multipliziert. Entsprechend gibt das Neuron die durch folgende Formel 2 ausgedrückte Ausgabe y aus. In Formel 2 sind Eingabe x, Ausgabe y und Gewicht w sämtlich Vektoren. Ferner bezeichnet θ eine Verzerrung und fk bezeichnet eine Aktivierungsfunktion. y = f k ( i = 1 n x i w i θ )
    Figure DE102019001044A1_0002
  • Im in 6B dargestellten dreischichtigen neuronalen Netz wird eine Mehrzahl von Eingaben x (hier beispielsweise Eingabe x1 bis Eingabe x3) an der linken Seite eingegeben und Ergebnisse y (hier beispielsweise Ergebnis y1 bis Ergebnis y3) werden an der rechten Seite ausgegeben. Im in 6B dargestellten Beispiel werden Eingaben x1, x2, x3 jeweils mit entsprechenden Gewichten (gemeinsam mit w1 bezeichnet) multipliziert und jede der Eingaben x1, x2, x3 wird an drei Neuronen N11, N12, N13 eingegeben.
  • In 6B ist eine Ausgabe von jedem der Neuronen N11, N12, N13 gemeinsam mit z1 bezeichnet. z1 kann als ein durch Extrahieren einer Merkmalsgröße eines Eingabevektors ermittelter Merkmalsvektor betrachtet werden. Im in 6B dargestellten Beispiel werden Merkmalsvektoren z1 jeweils mit entsprechenden Gewichten (gemeinsam mit w2 bezeichnet) multipliziert und jeder der Merkmalsvektoren z1 wird an zwei Neuronen N21, N22 eingegeben. Merkmalsvektor z1 stellt ein Merkmal zwischen Gewicht w1 und Gewicht w2 dar.
  • In 6B ist eine Ausgabe von jedem der Neuronen N21, N22 gemeinsam mit z2 bezeichnet. z2 kann als ein durch Extrahieren einer Merkmalsgröße des Merkmalsvektors z1 ermittelter Merkmalsvektor betrachtet werden. Im in 6B dargestellten Beispiel werden Merkmalsvektoren z2 jeweils mit entsprechenden Gewichten (gemeinsam mit w3 bezeichnet) multipliziert und jeder der Merkmalsvektoren z2 wird an drei Neuronen N31, N32, N33 eingegeben. Merkmalsvektor z2 stellt ein Merkmal zwischen Gewicht w2 und Gewicht w3 dar. Schließlich geben die Neuronen N31 bis N33 jeweils Ergebnisse y1 bis y3 aus.
  • Hier kann das Verfahren des so genannten Deep Learning, in dem ein neuronales Netz mit drei oder mehr Schichten verwendet wird, ebenfalls verwendet werden.
  • In der in der Steuervorrichtung 1 angeordneten maschinellen Lernvorrichtung 100 kann der Lernabschnitt 110 ein neuronales Netz als eine Wertfunktion im Q-Lernen verwendet, um eine mehrschichtige Berechnung gemäß dem zuvor beschriebenen neuronalen Netz unter Verwendung der Zustandsvariable S und der Aktion a als die Eingabe x durchzuführen, wodurch der Wert (Ergebnis y) der Aktion im Zustand ausgegeben wird. Die Betriebsmodi des neuronalen Netzes umfassen einen Lernmodus und einen Wertvorhersagemodus. Beispielsweise werden Gewichte w unter Verwendung einer Lerndatenmenge im Lernmodus gelernt und der Wert einer Aktion kann unter Verwendung der gelernten Gewichte w im Wertvorhersagemodus ermittelt werden. Im Wertvorhersagemodus können ebenfalls Erfassung, Klassifizierung, Inferenz u. Ä. durchgeführt werden.
  • Die zuvor beschriebene Konfiguration der Steuervorrichtung 1 kann als ein maschinelles Lernvorfahren (oder eine Software) beschrieben werden, die der Prozessor 101 ausführt. Dieses maschinelle Lernverfahren ist ein maschinelles Lernverfahren zum Lernen des Steuerbefehls für die Servopresse 2. Das maschinelle Lernverfahren umfasst: einen Schritt zum Beobachten der Steuerbefehlsdaten S1 und der Steuerrückmeldedaten S2 als die Zustandsvariablen S zur Darstellung des aktuellen Zustands einer Umgebung, in der die Servopresse 2 in Betrieb ist; einen Schritt zum Erfassen der Ermittlungsdaten D zur Darstellung eines Ergebnisses des Ermittelns in Bezug auf die Bearbeitung eines Werkstücks auf der Basis des beschlossenen Steuerbefehls für die Servopresse 2; und einen Schritt zum Lernen des Steuerbefehls für die Servopresse 2 in Bezug auf die Steuerrückmeldedaten S2 unter Verwendung der Zustandsvariablen S und der Ermittlungsdaten D. In diesem Verfahren werden die Schritte von einer CPU eines Computers ausgeführt.
  • 7 zeigt ein Funktionsblockdiagramm zur schematischen Darstellung der Steuervorrichtung 1 und der maschinellen Lernvorrichtung 100 gemäß einer zweiten Ausführungsform und stellt eine Konfiguration umfassend den Lernabschnitt 110 dar, der überwachtes Lernen als ein weiteres Beispiel eines Lernalgorithmus ausführt. Überwachtes Lernen ist ein Verfahren zum Lernen eines Korrelationsmodells zum Schätzen einer erforderlichen Ausgabe in Bezug auf eine neue Eingabe durch Vorbereiten von bekannten Datensätzen (sogenannten Lehrerdaten), die jeweils eine Eingabe und eine entsprechende Ausgabe umfassen, und Identifizieren von Merkmalen, welche die Korrelation zwischen Eingabe und Ausgabe von den Lehrerdaten beinhalten.
  • Die in der Steuervorrichtung 1 angeordnete maschinelle Lernvorrichtung 100 der vorliegenden Ausführungsform umfasst statt dem Ermittlungsdaten-Erfassungsabschnitt 108 einen Kennzeichendaten-Erfassungsabschnitt 109 zum Erfassen von Kennzeichendaten L enthaltend Steuerbefehlsdaten L1 zur Darstellung des Steuerbefehls für die Servopresse 2, mit dem die Bearbeitung entsprechend in Bezug auf einen Umgebungszustand durchgeführt wurde.
  • Der Kennzeichendaten-Erfassungsabschnitt 109 kann den Steuerbefehl für die Servopresse 2 verwenden, der in einem bestimmten Zustand als geeignet betrachtet wird. Die Kennzeichendaten L können wie folgt erfasst werden: die Rückmeldung zum Steuern der Servopresse 2 (Steuerrückmeldedaten S2) wird als Protokolldaten aufgezeichnet, wenn die Servopresse 2 in der Vergangenheit in Betrieb war; die Protokolldaten werden analysiert; und Daten zum Steuerbefehl für die Servopresse 2, mit dem der Bearbeitung eines Werkstücks eine gute Qualität verliehen wird, ohne die Bearbeitungszykluszeit mehr als erforderlich zu verlängern, werden als Daten zu einem geeigneten Steuerbefehl (Steuerbefehlsdaten L1) erfasst. Die Art des Definierens von geeigneten Steuerbefehlsdaten kann die gleiche sein wie beim Ermitteln der Ermittlungsdaten D in der ersten Ausführungsform.
  • Der Zustandsbeobachtungsabschnitt 106 der vorliegenden Ausführungsform muss die Steuerbefehlsdaten S1 nicht beobachten. Der Kennzeichendaten-Erfassungsabschnitt 109 ist ähnlich dem Ermittlungsdaten-Erfassungsabschnitt 108 eine wesentliche Komponente in einer Lernphase des Lernabschnitts 110, ist aber nicht notwendigerweise eine wesentliche Komponente, nachdem der Lernabschnitt 110 das Lernen des Steuerbefehls für die Servopresse 2 in Bezug auf die Rückmeldung zum Steuern der Servopresse 2 abgeschlossen hat.
  • In der in der in 7 dargestellten Steuervorrichtung 1 angeordneten maschinellen Lernvorrichtung 100 umfasst der Lernabschnitt 110 einen Fehlerberechnungsabschnitt 116 und einen Modellaktualisierungsabschnitt 118. Der Fehlerberechnungsabschnitt 116 berechnet einen Fehler E zwischen einem Korrelationsmodell M zum Schätzen des Steuerbefehls für die Servopresse 2 aus der Rückmeldung zum Steuern der Servopresse 2 und einem aus den aus der in der Vergangenheit erfassten Rückmeldung zum Steuerpresse 2 ermittelten Lehrerdaten T identifizierten Korrelationsmerkmal und einem Ergebnis eines geeigneten Steuerbefehls für die Servopresse 2. Der Modellaktualisierungsabschnitt 118 aktualisiert das Korrelationsmodell M, so dass der Fehler E verringert werden kann. Der Lernabschnitt 110 lernt eine Schätzung des Steuerbefehls für die Servopresse 2 auf der Basis der Rückmeldung zum Steuern der Servopresse 2 durch den das Aktualisieren des Korrelationsmodells M wiederholenden Modellaktualisierungsabschnitt 118.
  • Ein Ausgangswert des Korrelationsmodells M ist beispielsweise ein Wert zum Ausdrücken der Korrelation zwischen der Zustandsvariable S und den Kennzeichendaten L auf eine vereinfachte Weise (beispielsweise durch eine Funktion n-ter Ordnung) und wird vor Beginn des überwachten Lernens an den Lernabschnitt 110 übergeben. In der vorliegenden Erfindung können wie zuvor beschrieben die Lehrerdaten T die in der Vergangenheit erfasste Rückmeldung zum Steuern der Servopresse 2 und Daten zum geeigneten Steuerbefehl für die Servopresse 2 entsprechend der Rückmeldung sein und gegebenenfalls an den Lernabschnitt 110 übergeben, wenn die Steuervorrichtung 1 in Betrieb ist. Der Fehlerberechnungsabschnitt 116 identifiziert ein Korrelationsmerkmal beinhaltend die Korrelation zwischen der Rückmeldung zum Steuern der Servopresse 2 und dem Steuerbefehl für die Servopresse 2 auf der Basis der gegebenenfalls dem Lernabschnitt 110 übergebenen Lehrerdaten T und findet einen Fehler E zwischen dem Korrelationsmerkmal und dem Korrelationsmodell M entsprechend der Zustandsvariable S im aktuellen Zustand und den Kennzeichendaten L. Der Modellaktualisierungsabschnitt 118 aktualisiert das Korrelationsmodell M beispielsweise entsprechend vorgegebenen Aktualisierungsregeln, so dass der Fehler E verringert werden kann.
  • Im nächsten Lernzyklus schätzt der Fehlerberechnungsabschnitt 116 den Steuerbefehl für die Servopresse 2 gemäß dem aktualisierten Korrelationsmodell M unter Verwendung der Zustandsvariable S und findet einen Fehler E zwischen einem Ergebnis der Schätzung und den aktuell erfassten Kennzeichendaten L und der Modellaktualisierungsabschnitt 118 aktualisiert erneut das Korrelationsmodell M. Dies ermittelt schrittweise die Korrelation zwischen dem aktuellen Umgebungszustand, der nicht bekannt war, und der Schätzung entsprechend dem aktuellen Umweltzustand. In der zweiten Ausführungsform können verschiedene Dinge als die Zustandsvariablen S wie in der ersten Ausführungsform beobachtet werden,
    8 zeigt ein System 170 gemäß einer dritten Ausführungsform, das die Steuervorrichtung 1 umfasst. Das System 170 umfasst wenigstens eine als Teil eines Computers, etwas eines Zellenrechners, eines Hostcomputers oder eines Cloud-Servers, ausgeführte Steuervorrichtung 1, eine Mehrzahl von zu steuernden Servopressen 2 und ein verdrahtetes/drahtloses Netzwerk 172, das die Steuervorrichtung 1 und die Servopressen 2 miteinander verbindet.
  • Im System 170 mit der zuvor beschriebenen Konfiguration kann die Steuervorrichtung 1 umfassend die maschinelle Lernvorrichtung 100 automatisch und genau einen Steuerbefehl für jede Servopresse 2 in Bezug auf die Rückmeldung zum Steuern der Servopresse 2 unter Verwendung eines Ergebnisses des Lernens durch den Lernabschnitt 110 ermitteln. Ferner kann das System 170 so ausgebildet sein, dass die maschinelle Lernvorrichtung 100 der Steuervorrichtung 1 den Steuerbefehl für die Servopresse 2 gemeinsam für alle Servopressen 2 auf der Basis der Zustandsvariable S und der Ermittlungsdaten D, die für jede der Mehrzahl von Servopressen 2 ermittelt werden, lernen und ein Ergebnis des Lernens kann zwischen allen Servopressen 2 während des Betriebs hiervon geteilt werden. Mit dem System 170 können die Geschwindigkeit und die Zuverlässigkeit des Lernens des Steuerbefehls für die Servopresse 2 unter Verwendung von mehreren verschiedenen Datensätzen (enthaltend die Zustandsvariable S und die Ermittlungsdaten D) als Eingaben verbessert werden.
  • Die Ausführungsformen der vorliegenden Erfindung wurden zuvor beschrieben; die vorliegende Erfindung kann aber in verschiedenen Aspekten durch Hinzufügen von beliebigen Änderungen ausgeführt werden, ohne ausschließlich auf die Beispiele der zuvor beschriebenen Ausführungsformen beschränkt zu sein.
  • Beispielsweise sind der Lernalgorithmus und der arithmetische Algorithmus, den die maschinelle Lernvorrichtung 100 ausführt, der Steueralgorithmus, den die Steuervorrichtung 1 ausführt, u. Ä. nicht auf die zuvor beschriebenen beschränkt und es können verschiedene Algorithmen verwendet werden.
  • Die zuvor beschriebenen Ausführungsformen umfassen die Beschreibung, dass die Steuervorrichtung 1 und die maschinelle Lernvorrichtung 100 Vorrichtungen umfassend sich unterscheidende CPUs sind; die maschinelle Lernvorrichtung 100 kann aber von der in der Steuervorrichtung 1 enthaltenen CPU 11 und vom im ROM 12 gespeicherten Systemprogramm ausgeführt sein.

Claims (8)

  1. Steuervorrichtung zum Steuern einer Servopresse, die ein Werkstück mit einem Gesenk bearbeitet, wobei die Steuervorrichtung umfasst: eine maschinelle Lernvorrichtung zum Lernen eines Steuerbefehls für die Servopresse, wobei die maschinelle Lernvorrichtung umfasst einen Zustandsbeobachtungsabschnitt zum Beobachten von den Steuerbefehl für die Servopresse darstellenden Steuerbefehlsdaten und Rückmeldung zum Steuern der Servopresse darstellenden Steuerrückmeldedaten als eine einen Istumweltzustand darstellende Zustandsvariable, einen Ermittlungsdaten-Erfassungsabschnitt zum Erfassen von Werkstückqualität-Ermittlungsdaten zum Ermitteln der Qualität eines auf der Basis des Steuerbefehls für die Servopresse bearbeiteten Werkstücks als ein Ergebnis der Ermittlung in Bezug auf die Bearbeitung des Werkstücks bearbeiteten Werkstücks darstellende Ermittlungsdaten, und einen Lernabschnitt zum Lernen des Steuerbefehls für die Servopresse in Bezug auf die Rückmeldung zum Steuern der Servopresse unter Verwendung der Zustandsvariable und der Ermittlungsdaten.
  2. Steuervorrichtung nach Anspruch 1, wobei der Ermittlungsdaten-Erfassungsabschnitt ferner Zykluszeit-Ermittlungsdaten zum Ermitteln der erforderlichen Zeit zum Bearbeiten des Werkstücks als Ermittlungsdaten erfasst.
  3. Steuervorrichtung nach Anspruch 1 oder 2, wobei der Lernabschnitt umfasst einen Belohnungsberechnungsabschnitt zum Ermitteln einer Belohnung in Bezug auf das Ergebnis der Ermittlung, und einen Wertfunktion-Aktualisierungsabschnitt zum Aktualisieren einer einen Wert des Steuerbefehls für die Servopresse in Bezug auf die Rückmeldung zum Steuern der Servopresse unter Verwendung der Belohnung darstellenden Funktion, und wobei die vom Belohnungsberechnungsabschnitt ermittelte Belohnung mit zunehmender Qualität des Werkstücks und abnehmender erforderlicher Zeit zum Bearbeiten des Werkstücks zunimmt.
  4. Steuervorrichtung nach einem der Ansprüche 1 bis 3, wobei der Lernabschnitt eine Rechenoperation an der Zustandsvariable und den Ermittlungsdaten durch eine mehrschichtige Berechnung durchführt.
  5. Steuervorrichtung zum Steuern einer Servopresse, die ein Werkstück mit einem Gesenk bearbeitet, wobei die Steuervorrichtung umfasst: eine maschinelle Lernvorrichtung, die einen Steuerbefehl für die Servopresse gelernt hat, wobei die maschinelle Lernvorrichtung umfasst einen Zustandsbeobachtungsabschnitt zum Beobachten von den Steuerbefehl für die Servopresse darstellenden Steuerbefehlsdaten und Rückmeldung zum Steuern der Servopresse darstellenden Steuerrückmeldedaten als eine einen Istumweltzustand darstellende Zustandsvariable, einen Lernabschnitt, der den Steuerbefehl für die Servopresse in Bezug auf die Rückmeldung zum Steuern der Servopresse gelernt hat, und einen Entscheidungsfindungsabschnitt zum Entscheiden über den Steuerbefehl für die Servopresse auf der Basis der vom Zustandsbeobachtungsabschnitt beobachteten Zustandsvariable und eines Ergebnisses des Lernens durch den Lernabschnitt.
  6. Steuervorrichtung nach einem der Ansprüche 1 bis 5, wobei sich die maschinelle Lernvorrichtung auf einem Cloud-Server befindet.
  7. Maschinelle Lernvorrichtung zum Lernen eines Steuerbefehls für eine Servopresse, die ein Werkstück mit einem Gesenk bearbeitet, wobei die maschinelle Lernvorrichtung umfasst: einen Zustandsbeobachtungsabschnitt zum Beobachten von den Steuerbefehl für die Servopresse darstellenden Steuerbefehlsdaten und Rückmeldung zum Steuern der Servopresse darstellenden Steuerrückmeldedaten als eine einen Istumweltzustand darstellende Zustandsvariable; einen Ermittlungsdaten-Erfassungsabschnitt zum Erfassen von Werkstückqualität-Ermittlungsdaten zum Ermitteln der Qualität eines auf der Basis des Steuerbefehls für die Servopresse bearbeiteten Werkstücks als ein Ergebnis der Ermittlung in Bezug auf die Bearbeitung des Werkstücks bearbeiteten Werkstücks darstellende Ermittlungsdaten; und einen Lernabschnitt zum Lernen des Steuerbefehls für die Servopresse in Bezug auf die Rückmeldung zum Steuern der Servopresse unter Verwendung der Zustandsvariable und der Ermittlungsdaten.
  8. Maschinelle Lernvorrichtung, die einen Steuerbefehl für eine Servopresse zum Bearbeiten eines Werkstücks mit einem Gesenk gelernt hat, wobei die maschinelle Lernvorrichtung umfasst: einen Zustandsbeobachtungsabschnitt zum Beobachten von den Steuerbefehl für die Servopresse darstellenden Steuerbefehlsdaten und Rückmeldung zum Steuern der Servopresse darstellenden Steuerrückmeldedaten als eine einen Istumweltzustand darstellende Zustandsvariable; einen Lernabschnitt, der den Steuerbefehl für die Servopresse in Bezug auf die Rückmeldung zum Steuern der Servopresse gelernt hat; und einen Entscheidungsfindungsabschnitt zum Entscheiden über den Steuerbefehl für die Servopresse auf der Basis der vom Zustandsbeobachtungsabschnitt beobachteten Zustandsvariable und eines Ergebnisses des Lernens durch den Lernabschnitt.
DE102019001044.2A 2018-02-19 2019-02-12 Steuervorrichtung und maschinelle lernvorrichtung Withdrawn DE102019001044A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018027009A JP2019141869A (ja) 2018-02-19 2018-02-19 制御装置及び機械学習装置
JP2018-027009 2018-02-19

Publications (1)

Publication Number Publication Date
DE102019001044A1 true DE102019001044A1 (de) 2019-08-22

Family

ID=67482230

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019001044.2A Withdrawn DE102019001044A1 (de) 2018-02-19 2019-02-12 Steuervorrichtung und maschinelle lernvorrichtung

Country Status (4)

Country Link
US (1) US20190258982A1 (de)
JP (1) JP2019141869A (de)
CN (1) CN110171159A (de)
DE (1) DE102019001044A1 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019241798A1 (en) * 2018-06-15 2019-12-19 Google Llc Self-supervised robotic object interaction
JP7389663B2 (ja) * 2020-01-24 2023-11-30 株式会社アマダ プレス装置及びプレス方法
JP7139368B2 (ja) * 2020-02-04 2022-09-20 株式会社日本製鋼所 プレス成形システムおよびプレス成形システムの成形条件値の設定方法
KR102501902B1 (ko) * 2020-09-24 2023-02-21 하은테크(주) 버 제어를 위한 지능형 프레스 시스템
CN112775242B (zh) * 2020-12-25 2022-10-28 佛山市康思达液压机械有限公司 冲压控制方法
JP7459856B2 (ja) 2021-11-26 2024-04-02 横河電機株式会社 装置、方法およびプログラム
JP7484868B2 (ja) 2021-10-27 2024-05-16 横河電機株式会社 操業システム、操業方法、および、操業プログラム、ならびに、評価モデル生成装置、評価モデル生成方法、および、評価モデル生成プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3818788B2 (ja) * 1998-03-16 2006-09-06 株式会社山田ドビー プレス機のスライド制御装置
JP6148316B2 (ja) * 2015-07-31 2017-06-14 ファナック株式会社 故障条件を学習する機械学習方法及び機械学習装置、並びに該機械学習装置を備えた故障予知装置及び故障予知システム
JP6077617B1 (ja) * 2015-09-25 2017-02-08 ファナック株式会社 最適な速度分布を生成する工作機械
JP6219897B2 (ja) * 2015-09-28 2017-10-25 ファナック株式会社 最適な加減速を生成する工作機械
JP6457382B2 (ja) * 2015-12-28 2019-01-23 ファナック株式会社 キャッシュロックを学習する機械学習器,産業機械システム,製造システム,機械学習方法および機械学習プログラム
JP6625914B2 (ja) * 2016-03-17 2019-12-25 ファナック株式会社 機械学習装置、レーザ加工システムおよび機械学習方法
JP6140331B1 (ja) * 2016-04-08 2017-05-31 ファナック株式会社 主軸または主軸を駆動するモータの故障予知を学習する機械学習装置および機械学習方法、並びに、機械学習装置を備えた故障予知装置および故障予知システム
JP6506219B2 (ja) * 2016-07-21 2019-04-24 ファナック株式会社 モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法

Also Published As

Publication number Publication date
CN110171159A (zh) 2019-08-27
JP2019141869A (ja) 2019-08-29
US20190258982A1 (en) 2019-08-22

Similar Documents

Publication Publication Date Title
DE102018006946B4 (de) Steuerung und maschinelle Lernvorrichtung
DE102018001893B4 (de) Reinigungsprozess-Optimierungsvorrichtung und Maschinenlernvorrichtung
DE102019001044A1 (de) Steuervorrichtung und maschinelle lernvorrichtung
DE102019002065B4 (de) Maschinelle Lernvorrichtung, Robotersteuervorrichtung und Robotervisionssystem, das eine maschinelle Lernvorrichtung verwendet, und maschinelles Lernverfahren
DE102017008475B4 (de) Maschinenlernvorrichtung, robotersystem und maschinenlernverfahren zum erlernen eines roboter-betriebsprogramms
DE102018010054A1 (de) Steuerung und maschinelle Lernvorrichtung
DE102016011532B4 (de) Maschinenlernvorrichtung und Maschinenlernverfahren zum Optimieren der Häufigkeit einer Werkzeugkorrektur einer Werkzeugmaschine und Werkzeugmaschine mit der Maschinenlernvorrichtung
DE102017011544A1 (de) Steuerung und maschinelle Lernvorrichtung
DE102017010799B4 (de) Maschinenlernvorrichtung zum Lernen einer Bearbeitungsreihenfolge eines Robotersystems mit einer Mehrzahl von Laserbearbeitungsrobotern, dazugehöriges Robotersystem sowie Maschinenlernverfahren zum Lernen einer Bearbeitungsreihenfolge des Robotersystems mit einer Mehrzahl von Laserbearbeitungsrobotern
DE102018004330B4 (de) Steuerung und maschinelle Lernvorrichtung
DE102018010086A1 (de) Spanabführvorrichtung und Informationsverarbeitungsvorrichtung
DE102018108778B4 (de) Beschleunigungs- und verzögerungssteuereinheit, maschinenlernvorrichtung und maschinenlernverfahren
DE102018001571B4 (de) Laserverarbeitungsgerät und Vorrichtung zum maschinellen Lernen
DE102019002156A1 (de) Steuergerät und maschinelle Lernvorrichtung
DE102019003601A1 (de) Vorrichtung zur Lebensdauervorhersage und Vorrichtung für maschinelles Lernen
DE102016117560B4 (de) Werkzeugmaschine zum erzeugen einer geschwindigkeitsverteilung
DE102018005199B4 (de) Bauteilzuführvorrichtung und maschinelle lernvorrichtung
DE102018004048B4 (de) Steuerung und Maschinenlernvorrichtung
DE102018000342A1 (de) Numerische steuerung und maschinelle lernvorrichtung
DE102019106729A1 (de) Antriebsvorrichtung und Vorrichtung für maschinelles Lernen
DE102018006024A1 (de) Controller und maschinelle Lernvorrichtung
DE102016009106A1 (de) Mit Steuerung ausgerüstete Bearbeitungsvorrichtung mit Bearbeitungszeit- Messfunktion und Messfunktion auf der Maschine
DE102018007630A1 (de) Numerisches steuersystem
DE102016008994A1 (de) Werkzeugmaschine, simulationsvorrichtung und maschineneinlerngerät
DE102018007642A1 (de) Numerisches Steuersystem

Legal Events

Date Code Title Description
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee