DE102016011525B4

DE102016011525B4 - Vorrichtung für maschinelles Lernen und Spulen-Produktionsvorrichtung

Info

Publication number: DE102016011525B4
Application number: DE102016011525.4A
Authority: DE
Inventors: Yasunori Sugimoto
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2015-09-30
Filing date: 2016-09-23
Publication date: 2021-10-07
Anticipated expiration: 2036-09-24
Also published as: JP6110451B1; DE102016011525A1; US20170091674A1; JP2017069404A; US10019674B2; CN106558959A; CN106558959B

Abstract

Eine Vorrichtung für maschinelles Lernen umfasst eine Zustandsbeobachtungseinheit zum Beobachten einer Zustandsvariablen, die mindestens einen von einem Abmaß-Istwert, einem Widerstands-Istwert, usw. und mindestens einen von einem Abmaß-Sollwert, einem Widerstands-Sollwert, usw. und einen Ausführungszeit-Sollwert für ein Programm umfasst, und eine Lerneinheit, um einen Lernvorgang durch Verknüpfen von mindestens einem von einem Abmaß-Istwert, einem Widerstands-Istwert usw. mit mindestens einem von einem Abmaß-Sollwert, einem Widerstands-Sollwert usw., die durch die Zustandsbeobachtungseinheit beobachtet werden, und einem Ausführungszeit-Sollwert für das Programm auszuführen.

Description

ALLGEMEINER STAND DER TECHNIK
Gebiet der Erfindung
Die vorliegende Erfindung betrifft eine Vorrichtung für maschinelles Lernen und eine Spulen-Produktionsvorrichtung, die eine solche Vorrichtung für maschinelles Lernen umfasst.
Beschreibung des Standes der Technik
Wie in der ungeprüften Japanischen Patentschrift (Kokai) Nr. 8-191029 und der ungeprüften Japanischen Patentschrift (Kokai) Nr. 7-75298 offenbart, kann eine Spulen-Produktionsvorrichtung eine Einheitsspule (nachfolgend in einigen Fällen einfach als eine „Spule“ bezeichnet) durch automatisches und gleichmäßiges Wickeln eines Walzdrahts ausbilden. Eine Einheitsspule 50 greift in ein Zahnteil eines Stators 60 ein, wie in 5A gezeigt. Wie in 5B gezeigt ist eine Vielzahl von Einheitsspulen 50 so angeordnet, dass sie in eine Vielzahl von Zahnteilen des Stators 60 eingreifen.
Wenn Einheitsspulen produziert werden, stellt ein Bediener detaillierte Betriebsbedingungen in einer Spulen-Produktionsvorrichtung ein, um Einheitsspulen zu bilden. Wie in 6A gezeigt verbessert das gleichmäßige Wickeln eines Walzdrahts den Raumfaktor jeder Einheitsspule und verbessert somit das Drehmoment eines Motors, der solche Einheitsspulen aufweist. Im Gegensatz dazu, wie in 6B gezeigt, reduziert ungleichmäßiges Wickeln eines Walzdrahts den Raumfaktor und das Drehmoment.
Beispiele einer Wickelmaschine, die in einer Spulen-Produktionsvorrichtung umfasst ist, umfassen ein Werkstück-Rotationswickelmaschine und eine Düsen-Wickelmaschine. In der Werkstück-Rotationswickelmaschine rotiert ein Spulenkörper oder Kern relativ zu einer Düse. In der Düsen-Wickelmaschine bewegt sich eine Düse relativ zu einem Spulenkörper oder Kern.
Lernverfahren und Spulenwickeltechniken sind aus den folgenden Publikationen bekannt:

Wang, Y. C.; Chien, C. J.; Lee, Der-Tsai: Reinforcement fuzzy-neural adaptive iterative learning control for nonlinear systems. In: 2008 10th International Conference on Control, Automation, Robotics and Vision, 2008, S. 733-738, https://doi.org/10.1109/ICARCV.2008.4795608
Lu, J. S.; et al.: Tension control improvement in automatic stator in-slot winding machines using iterative learning control. In: 2014 International Conference on Information Science, Electronics and Electrical Engineering, 2014, S. 1643-1647, https://doi.org/10.1109/InfoSEEE.2014.6946200
Wang, Chunxiang; et al.: Research on precision tension control system based on neural network. In: IEEE Transactions on Industrial Electronics, 51, 2004, 2, S. 381-386, ISSN 0278-0046, https://doi.org/10.1109/TIE.2003.822096
Hussein, Abo El Abbass; Sheta, Alaa; Wahab, Ashraf Abd EI: Modeling of a Winding Machine Using Non-Parametric Neural Network Model. In: Mathematical Methods And Computational Techniques In Electrical Engineering, 2001, S. 5281-5285, http://www.wseas.us/e-library/conferences/athens2001/papers.htm
Spulenwickeltechnik. In: Wikipedia, Die freie Enzyklopädie. Bearbeitungsstand: 18.06.2015, https://de.wikipedia.org/w/index.php?title=Spulenwickeltechnik&oldid= 143208016
Poulson, Clair C.: Coil Winding Tension As It Applies To Wire Spring Relay Coils And Other Filled Type Coils, Engineering Coil Conference, Technical Paper, 1964. http://vintagewindings.com/tech%20swag/Western%20Electric%20-%20Coil %20Winding%20Tension%20for%20Relay%20&%20Filled%20Type%20Coils.pdf
Intelligent control. In: Wikipedia, the free encyclopedia. Bearbeitungsstand: 26.09.2015, https://en.wikipedia.org/w/index.php?title=Intelligent_control&oldid=68 2910710

KURZDARSTELLUNG DER ERFINDUNG
In herkömmlichen Spulen-Produktionsvorrichtungen muss jedoch ein Bediener detaillierte Betriebsbedingungen durch Ausprobieren manuell einstellen, was arbeitsintensiv ist und viele Mannstunden erfordert.
Die vorliegende Erfindung wurde vor dem Hintergrund der oben beschriebenen Umstände gemacht und hat eine Aufgabe, eine Vorrichtung für maschinelles Lernen, die eine Spule optimal wickeln kann, ohne dass die Notwendigkeit besteht, detaillierte Betriebsbedingungen manuell einzustellen, und eine mit einer solchen Vorrichtung für maschinelles Lernen bereitgestellte Spulen-Produktionsvorrichtung bereitzustellen.
Um die obengenannte Aufgabe zu lösen, wird gemäß einem ersten Aspekt der Erfindung eine Steuervorrichtung mit den Merkmalen des unabhängigen Anspruchs 1 bereitgestellt. Bevorzugte Ausführungsformen der Steuervorrichtung sind in den abhängigen Ansprüchen genannt. Gemäß einem zweiten Aspekt der Erfindung wird eine Spulenproduktionsvorrichtung nach Anspruch 4 bereitgestellt.
Gemäß einem ersten Beispiel der vorliegenden Offenbarung wird eine Vorrichtung für maschinelles Lernen bereitgestellt, die mit einer Wickelmaschine kommunizieren kann und die einen Betriebsablauf zum Ausbilden einer Spule durch die Wickelmaschine lernt. Die Vorrichtung für maschinelles Lernen umfasst eine Zustandsbeobachtungseinheit und eine Lerneinheit. Die Zustandsbeobachtungseinheit beobachtet eine Zustandsvariable, die mindestens eines von einem Abmaß-Istwert, einem Widerstands-Istwert und einer Walzdraht-Verbrauchsmenge einer durch die Wickelmaschine gebildeten Spule, und einem Programmausführungszeit-Istwert und mindestens einen von einem Abmaß-Sollwert, einem Widerstands-Sollwert, einem Windungsanzahl-Sollwert, einem Wicklungsgeschwindigkeits-Sollwert und einem Spannungs-Sollwert für die Spule, die durch ein Programm für die Wickelmaschine angewiesen werden, und einem Ausführungszeit-Sollwert für das Programm umfasst. Die Lerneinheit führt einen Lernvorgang aus durch Verknüpfen von mindestens einem von einem Abmaß-Istwert, einem Widerstands-Istwert und einer durch die Zustandsbeobachtungseinheit beobachteten Walzdraht-Verbrauchsmenge, und einem Programmausführungszeit-Istwert mit mindestens einem von einem Abmaß-Sollwert, einem Widerstands-Sollwert, einem Windungsanzahl-Sollwert, einem Wicklungsgeschwindigkeits-Sollwert, und einem durch die Zustandsbeobachtungseinheit beobachteten Spannungs-Sollwert für die Spule, und einem Ausführungszeit-Sollwert für das Programm.
Gemäß einem zweiten Beispiel umfasst die Lerneinheit in der Vorrichtung für maschinelles Lernen gemäß dem ersten Beispiel eine Belohnungsberechnungseinheit und eine Funktionsaktualisierungseinheit. Die Belohnungsberechnungseinheit berechnet eine Belohnung basierend auf mindestens einem von einem Abmaß-Istwert, einem Widerstands-Istwert, und einer durch die Zustandsbeobachtungseinheit beobachteten Walzdraht-Verbrauchsmenge, und einem Programmausführungszeit-Istwert. Die Funktionsaktualisierungseinheit aktualisiert eine Funktion zum Entscheiden, aus der gegenwärtigen Zustandsvariablen, basierend auf der durch die Belohnungsberechnungseinheit berechneten Belohnung, von mindestens einem von einem Abmaß-Sollwert, einem Widerstands-Sollwert, einem Windungsanzahl-Sollwert, einem Wicklungsgeschwindigkeits-Sollwert und einem Spannungs-Sollwert für die Spule, und einem Ausführungszeit-Sollwert für das Programm.
Gemäß einem dritten Beispiel umfasst die Vorrichtung für maschinelles Lernen gemäß dem ersten oder zweiten Beispiel eine Entscheidungsfindungseinheit zum Entscheiden, aus der gegenwärtigen Zustandsvariablen, basierend auf dem Ergebnis des Lernens der Lerneinheit, eines Optimalwerts von mindestens einem von einem Abmaß-Sollwert, einem Widerstands-Sollwert, einem Windungsanzahl-Sollwert, einem Wicklungsgeschwindigkeits-Sollwert, und einem Spannungs-Sollwert für die Spule, und einem Ausführungszeit-Sollwert für das Programm.
Gemäß einem vierten Beispiel erhöht die Belohnungsberechnungseinheit in der Vorrichtung für maschinelles Lernen gemäß einem von dem ersten bis dritten Beispiel eine Belohnung, wenn ein Abmaß-Istwert, ein Widerstands-Istwert und eine Walzdraht-Verbrauchsmenge einer Spule und ein Programmausführungszeit-Istwert innerhalb ihrer jeweiligen zulässigen Bereiche bleiben, und verringert eine Belohnung, wenn dieselben außerhalb der zulässigen Bereiche sind.
Gemäß einem fünften Beispiel berechnet die Lerneinheit in der Vorrichtung für maschinelles Lernen gemäß einem von dem ersten bis vierten Beispiel eine durch die Zustandsbeobachtungseinheit beobachtete Zustandsvariable in einer mehrschichtigen Struktur, um die Funktion auf einer Echtzeit-Basis zu aktualisieren.
Gemäß einem sechsten Beispiel wird in der Vorrichtung für maschinelles Lernen gemäß einem von dem ersten bis fünften Beispiel der Funktionsaktualisierungseinheit mittels einer Funktion aktualisiert, die durch eine Funktionsaktualisierungseinheit einer anderen Vorrichtung für maschinelles Lernen aktualisiert wird.
Gemäß einem siebten Beispiel wird eine Spulen-Produktionsvorrichtung bereitgestellt, die die Vorrichtung für maschinelles Lernen gemäß einem von dem ersten bis sechsten Beispiel umfasst.
Diese Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung und andere Aufgaben, Merkmale und Vorteile werden aus der ausführlichen Beschreibung von in den beigefügten Zeichnungen dargestellten typischen Ausführungsformen deutlich werden.
Figurenliste

1 ist ein Blockschaltbild der Funktionen einer Spulen-Produktionsvorrichtung gemäß der vorliegenden Erfindung.
2 ist eine vergrößerte Ansicht einer Vorrichtung für maschinelles Lernen.
3 ist ein Ablaufdiagramm des Betriebsablaufs einer Vorrichtung für maschinelles Lernen.
4 ist eine Ansicht, die die Beziehung zwischen Programmausführungszeit und Abmessungen einer Spule darstellt.
5A ist eine Ansicht, die den Zustand einer an einem Eisenkern eingreifenden Einheitsspule darstellt.
5B ist eine Ansicht, die einen Eisenkern darstellt, in den eine Vielzahl von Einheitsspulen eingreift.
6A ist eine erste vergrößerte Teilschnittansicht einer Einheitsspule.
6B ist eine zweite vergrößerte Teilschnittansicht einer Einheitsspule.
7 ist ein schematisches Schaubild eines Neuronenmodells.
8 ist ein schematisches Schaubild eines dreischichtigen neuralen Netzwerkmodells.

AUSFÜHRLICHE BESCHREIBUNG
Ausführungsformen der vorliegenden Erfindung werden nachfolgend mit Bezug auf die beigefügten Zeichnungen beschrieben. In den folgenden Figuren werden ähnliche Teile mit denselben Bezugsziffern bezeichnet. Diese Figuren sind passend im Maßstab modifiziert, um deren Verständnis zu erleichtern.
1 ist ein Blockschaltbild der Funktionen einer Spulen-Produktionsvorrichtung gemäß der vorliegenden Erfindung. Wie in 1 gezeigt umfasst eine Spulen-Produktionsvorrichtung 1 hauptsächlich eine Wickelmaschine 10 und eine Steuervorrichtung 20 zum Steuern der Wickelmaschine 10.
1 zeigt in ihrem unteren Teil die Wickelmaschine 10. Die Wickelmaschine 10 umfasst eine Düse 5 zum Ausgeben eines Walzdrahts 2, und einen Spulenkörper 6, um den der Walzdraht 2 gewickelt ist. Die Düse 5 und der Spulenkörper 6 rotieren relativ zueinander, sodass der Walzdraht 2 um den Spulenkörper gewickelt wird, um eine Spule zu produzieren.
Die Steuervorrichtung 20 ist ein digitaler Computer und enthält ein Programm zum Anweisen eines Abmaß-Sollwerts, eines Widerstands-Sollwerts, eines Windungsanzahl-Sollwerts, eines Wicklungsgeschwindigkeits-Sollwerts und eines Spannungs-Sollwert für eine Spule. Das Programm 21 weist ferner einen Ausführungszeit-Sollwert für das Programm 21 an. Diese Sollwerte werden durch eine Vorrichtung für maschinelles Lernen 30 entschieden, die später beschrieben wird.
Die Steuervorrichtung 20 umfasst eine Abmaß-Detektionseinheit 22 zum Detektieren der Abmaße der produzierten Spule. Die Abmaß-Detektionseinheit 22 ist beispielsweise eine Skala, eine Kamera, usw. Die Steuervorrichtung 20 umfasst ebenfalls eine Widerstands-Detektionseinheit 23 zum Detektieren des Widerstands der produzierten Spule, und eine Detektionseinheit für die Walzdraht-Verbrauchsmenge 24 zum Detektieren der Menge an Walzdraht 2, die zum Produzieren einer Spule verbraucht wird. Die Steuervorrichtung 20 umfasst ebenfalls eine Ausführungszeit-Messeinheit 25 zum Detektieren eines Programmausführungszeit-Istwerts, der tatsächlich zum Ausführen des Programms 21 notwendig ist.
Wie in 1 gezeigt umfasst die Steuervorrichtung 20 ferner eine Vorrichtung für maschinelles Lernen 30. Die Vorrichtung für maschinelles Lernen 30 kann eine externe Vorrichtung für die Steuervorrichtung 20 sein. In diesem Fall ist die Vorrichtung für maschinelles Lernen 30 mit der Steuervorrichtung 20 und der Wickelmaschine 10 verbunden, um miteinander zu kommunizieren.
Mit Bezug auf die 2, die eine vergrößerte Ansicht einer Vorrichtung für maschinelles Lernen ist, umfasst die Vorrichtung für maschinelles Lernen 30 eine Zustandsbeobachtungseinheit 31 zum Beobachten einer Zustandsvariablen, die mindestens eines von einem Abmaß-Istwert, einem Widerstands-Istwert, und einer Walzdraht-Verbrauchsmenge einer durch die Wickelmaschine gebildeten Spule, und einem Programmausführungszeit-Istwert, und mindestens einen von einem Abmaß-Sollwert, einem Widerstands-Sollwert, einem Windungsanzahl-Sollwert, einem Wicklungsgeschwindigkeits-Sollwert, und einem Spannungs-Sollwert für die Spule, und einem Ausführungszeit-Sollwert für das Programm 21, die durch das Programm 21 für die Wickelmaschine 10 angewiesen werden, umfasst. Die Zustandsbeobachtungseinheit 31 kann nacheinander jede Zustandsvariable zusammen mit der Zeit, zu der die Zustandsvariable beobachtet wird, speichern.
Die Vorrichtung für maschinelles Lernen 30 umfasst ebenfalls eine Lerneinheit 35 zum Ausführen eines Lernvorgangs durch Verknüpfen von mindestens einem von einem Abmaß-Istwert, einem Widerstands-Istwert, und einer Walzdraht-Verbrauchsmenge für die Spule, und einem Programmausführungszeit-Istwert, die durch die Zustandsbeobachtungseinheit 31 beobachtet werden, mit mindestens einem von einem Abmaß-Sollwert, einem Widerstands-Sollwert, einem Windungsanzahl-Sollwert, einem Wicklungsgeschwindigkeits-Sollwert, und einem Spannungs-Sollwert für die Spule, und einem Ausführungszeit-Sollwert für das Programm 21, die durch die Zustandsbeobachtungseinheit 31 beobachtet werden.
Die Lerneinheit 35 kann verschiedene Arten von maschinellem Lernen ausführen, wie z.B. überwachtes Lernen, unüberwachtes Lernen, teil überwachtes Lernen, bestärkendes Lernen, transduktives Lernen, Multitask-Lernen, usw.. In der folgenden Beschreibung führt die Lerneinheit 35 bestärkendes Lernen mittels Q-Lernen aus.
Wie aus 2 deutlich wird, entspricht die Vorrichtung für maschinelles Lernen 30 einem Agenten im bestärkenden Lernen. Des Weiteren detektieren die Abmaß-Detektionseinheit 22, die Widerstands-Detektionseinheit 23, die Detektionseinheit für die Walzdraht-Verbrauchsmenge 24 und die Ausführungszeit-Messeinheit 25 den Zustand der Umwelt.
Die Lerneinheit 35 zum Ausführen des bestärkenden Lernens umfasst eine Belohnungsberechnungseinheit 32 zum Berechnen einer Belohnung basierend auf mindestens einem von einem Abmaß-Istwert, einem Widerstands-Istwert, und einer Walzdraht-Verbrauchsmenge für eine Spule, und einem Programmausführungszeit-Istwert, die durch die Beobachtungseinheit 31 beobachtet werden, und eine Funktionsaktualisierungseinheit 33 (künstliche Intelligenz) zum Aktualisieren, basierend auf der durch die Belohnungsberechnungseinheit 32 berechneten Belohnung, einer Funktion, beispielsweise einer Aktionswertfunktion (Aktionswerttabelle) zum Entscheiden, aus der gegenwärtigen Zustandsvariablen, von mindestens einem von einem Abmaß-Sollwert, einem Widerstands-Sollwert, einem Windungsanzahl-Sollwert, einem Wicklungsgeschwindigkeits-Sollwert, und einem Spannungs-Sollwert für die Spule und einem Ausführungszeit-Sollwert für das Programm 21. Selbstverständlich kann die die Funktionsaktualisierungseinheit 33 andere Funktionen aktualisieren.
Die Vorrichtung für maschinelles Lernen 30 umfasst ebenfalls eine Entscheidungsfindungseinheit 34 zum Entscheiden, aus der gegenwärtigen Zustandsvariablen, des Optimalwerts von mindestens einem von einem Abmaß-Sollwert, einem Widerstands-Sollwert, einem Windungsanzahl-Sollwert, einem Wicklungsgeschwindigkeits-Sollwert, und einen Spannungs-Sollwert für die Spule, und einem Ausführungszeit-Sollwert für das Programm 21, basierend auf dem Ergebnis des Lernens der Lerneinheit 35. Die Entscheidungsfindungseinheit 34 lernt die Auswahl einer besseren Aktion (Entscheidungsfindung). Es wird angemerkt, dass die Entscheidungsfindungseinheit 34 in der Steuervorrichtung 20 und nicht in Vorrichtung für maschinelles Lernen 30 umfasst sein kann.
3 ist ein Ablaufdiagramm des Betriebsablaufs einer Vorrichtung für maschinelles Lernen. Der Betriebsablauf der Vorrichtung für maschinelles Lernen 30 wird mit Bezug auf die 1 bis 3 beschrieben. Die in 3 gezeigten Inhalte werden jedes Mal ausgeführt, wenn die Wickelmaschine eine Spule 10 produziert.
Zunächst werden in Schritt S11 in 3 ein Abmaß-Sollwert, ein Widerstands-Sollwert, ein Windungsanzahl-Sollwert, ein Wicklungsgeschwindigkeits-Sollwert und ein Spannungs-Sollwert für die Spule, und ein Ausführungszeit-Sollwert für das Programm 21 ausgewählt. Diese Sollwerte werden zufällig aus ihren jeweiligen vorbestimmten Bereichen ausgewählt.
Alternativ kann beispielsweise für den Abmaß-Sollwert für die Spule der Minimalwert in dem vorbestimmten Bereich ursprünglich ausgewählt werden, und dann kann ein um einen sehr kleinen Betrag erhöhter Wert in dem nachfolgenden Zyklus werden. Dasselbe gilt für die anderen Sollwerte. Die Prozesse in 3 können wiederholt werden, sodass alle Kombinationen eines Abmaß-Sollwerts, eines Widerstands-Sollwerts, eines Windungsanzahl-Sollwerts, eines Wicklungsgeschwindigkeits-Sollwerts, und eines Spannungs-Sollwerts für die Spule, und eines Ausführungszeit-Sollwert für das Programm 21 gewählt werden.
Dann wird in Schritt S12 ein Abmaß-Istwert für die Spule durch die Abmaß-Detektionseinheit 22 detektiert und wird mit einem vorbestimmten Abmaß-Bereich verglichen. Die 4 ist eine Ansicht, die die Beziehung zwischen der Programmausführungszeit und den Abmaßen einer Spule darstellt. Die horizontale Achse in 4 stellt Istwerte der Programmausführungszeit dar, und die vertikale Achse in 4 stellt Abmaß-Istwerte, Widerstands-Istwerte und die Walzdraht-Verbrauchsmenge einer Spule dar. Es wird angemerkt, dass in 4 die gerade Linie A Abmaß-Istwerte einer Spule darstellt, die gerade Linie B Widerstands-Istwerte einer Spule darstellt, und die gerade Linie C die Verbrauchsmenge eines Walzdrahts darstellt. Des Weiteren zeigt 4 die vorbestimmten Bereiche für die Abmaße einer Spule, den Widerstand einer Spule, die Verbrauchsmenge eines Walzdrahts und die Programmausführungszeit. Die in 4 gezeigte Kurvenlinie R stellt Belohnungen dar.
Wie durch die gerade Linie A in 4 gekennzeichnet, verlängert sich die Programmausführungszeit mit sich erhöhendem Abmaß-Istwert einer Spule. Des Weiteren wird bevorzugt, dass sich der Abmaß-Istwert einer Spule in einem vorbestimmten Abmaßbereich befindet und somit den Raumfaktor verbessert. Der vorbestimmte Abmaßbereich wird aus den Abmaß-Sollwerten für eine Spule bestimmt. Dasselbe gilt in dem vorbestimmten Widerstandsbereich, der später beschrieben wird. Es wird angemerkt, dass die Walzdraht-Verbrauchsmenge, die später beschrieben wird, aus Windungsanzahl-Sollwerten bestimmt wird.
Wie durch die geraden Linie B und C gekennzeichnet, verlängert sich die Programmausführungszeit mit sich erhöhendem Widerstands-Istwert und sich erhöhender Walzdraht-Verbrauchsmenge. Es wird bevorzugt, dass sich der Widerstands-Istwert und die Walzdraht-Verbrauchsmenge jeweils in den vorbestimmten Widerstandbereich und dem vorbestimmten Walzdraht-Verbrauchsmengenbereich befinden. Es wird bevorzugt, dass sich die Ausführungszeit-Istwerte des Programms 21 in einem vorbestimmten Ausführungszeitbereich befinden.
Wenn, wie durch die Kurvenlinie R in 4 gekennzeichnet, der Abmaß-Istwert einer Spule in dem vorbestimmten Abmaßbereich umfasst ist, wenn der Widerstands- Istwert in dem vorbestimmten Widerstandsbereich umfasst ist und wenn der Istwert für die Walzdraht-Verbrauchsmenge in dem vorbestimmten Walzdraht-Verbrauchsmengenbereich umfasst ist, dann erhöht sich eine Belohnung. Wenn jedoch der Ausführungszeit-Istwert des Programms 21 größer als eine vorbestimmte Ausführungszeit ist, verringert sich eine Belohnung drastisch. Bezüglich der Erhöhung und Verringerung einer Belohnung, die nachfolgend beschrieben wird, wird der Betrag der Erhöhung und Verringerung beispielsweise basierend auf den Inhalten von 4 bestimmt.
Mit Bezug wiederum auf 3 erhöht sich eine Belohnung in Schritt S13, wenn der Abmaß-Istwert in dem vorbestimmten Abmaßbereich in Schritt S12 umfasst ist. Wenn im Gegensatz dazu der Abmaß-Istwert nicht in dem vorbestimmten Abmaßbereich umfasst ist, verringert sich in Schritt S20a eine Belohnung oder bleibt unverändert. Es wird angemerkt, dass der Abmaß-Istwert vorzugsweise klein ist und die Untergrenze des Abmaßbereichs in einigen Ausführungsformen nicht erforderlich ist. Mit anderen Worten, mit sich verringerndem Abmaß-Istwert erhöht sich die inkrementale Größe einer Belohnung. Wenn sich, als Alternative, in einigen Ausführungsformen der Abmaß-Istwert nahe am Mittelwert des Abmaßbereichs befindet, dann ist die inkrementale Größe einer Belohnung groß, und mit sich vom Mittelwert des Abmaßbereichs entfernenden Abmaß-Istwert erhöht sich die dekrementale Größe einer Belohnung.
In Schritt S14 wird bestimmt, ob der Widerstands-Istwert einer Spule, der durch die Widerstands-Detektionseinheit 23 detektiert wird, in dem vorbestimmten Widerstandsbereich umfasst ist. Wenn der Widerstands-Istwert in dem vorbestimmten Widerstandsbereich umfasst ist, erhöht sich in Schritt S15 eine Belohnung. Wenn der Widerstands-Istwert nicht in dem vorbestimmten Widerstandsbereich umfasst ist, verringert sich in Schritt S20b eine Belohnung oder bleibt unverändert. Es wird angemerkt, dass wenn sich in einigen Ausführungsformen der Widerstands-Istwert nahe dem Mittelwert des Widerstandsbereichs befindet, die inkrementale Größe einer Belohnung groß ist, und mit sich vom Mittelwert des Widerstandsbereichs entfernenden Abmaß-Istwert erhöht sich die dekrementale Größe einer Belohnung.
Nachfolgend wird in Schritt S16 bestimmt, ob der durch die Detektionseinheit 24 für die Walzdraht-Verbrauchsmenge detektierte Istwert der Walzdraht-Verbrauchsmenge in dem vorbestimmten Walzdraht-Verbrauchsmengenbereich umfasst ist. Wenn der Istwert der Walzdraht-Verbrauchsmenge in dem vorbestimmten Walzdraht-Verbrauchsmengenbereich umfasst ist, erhöht sich in Schritt S17 eine Belohnung. Wenn der Istwert der Walzdraht-Verbrauchsmenge in dem vorbestimmten Walzdraht-Verbrauchsmengenbereich nicht umfasst ist, verringert sich eine Belohnung in Schritt S20c oder bleibt unverändert. Es wird angemerkt, dass der Istwert der Walzdraht-Verbrauchsmenge vorzugsweise groß ist und die Obergrenze des Walzdraht-Verbrauchsmengenbereichs in einigen Ausführungsformen nicht erforderlich ist. Mit anderen Worten, mit sich erhöhendem Istwert der Walzdraht-Verbrauchsmenge erhöht sich die inkrementale Größe einer Belohnung. Wenn sich, als Alternative, in einigen Ausführungsformen der Istwert der Walzdraht-Verbrauchsmenge nahe am Mittelwert des Walzdraht-Verbrauchsmengenbereich befindet, dann ist die inkrementale Größe einer Belohnung groß, und mit sich vom Mittelwert des Walzdraht-Verbrauchsmengenbereichs entfernenden Istwert der Walzdraht-Verbrauchsmenge erhöht sich die dekrementale Größe einer Belohnung.
Nachfolgend wird in Schritt S18 bestimmt, ob der durch die Ausführungszeit-Messeinheit 25 detektierte Ausführungszeit-Istwert in einem vorbestimmten Ausführungszeitbereich umfasst ist. Wenn der Ausführungszeit-Istwert in dem vorbestimmten Ausführungszeitbereich umfasst ist, erhöht sich in Schritt S19 eine Belohnung. Wenn der Ausführungszeit-Istwert in dem vorbestimmten Ausführungszeitbereich nicht umfasst ist, verringert sich eine Belohnung in Schritt S20d oder bleibt unverändert. Es wird angemerkt, dass der Ausführungszeit-Istwert vorzugsweise klein ist und die Untergrenze des Ausführungszeitbereichs in einigen Ausführungsformen nicht erforderlich ist. Mit anderen Worten, mit sich verringerndem Ausführungszeit-Istwert erhöht sich die inkrementale Größe einer Belohnung. Wenn sich, als Alternative, in einigen Ausführungsformen der Ausführungszeit-Istwert nahe am Mittelwert des Ausführungszeitbereichs befindet, dann ist die inkrementale Größe einer Belohnung groß, und mit sich vom Mittelwert des Ausführungszeitbereichs entfernenden Ausführungszeit-Istwert erhöht sich die dekrementale Größe einer Belohnung.
Eine solche Erhöhung oder Verringerung der Belohnung wird durch die Belohnungsberechnungseinheit 32 berechnet. Der erhöhte Betrag oder der verringerte Betrag einer Belohnung kann für jeden Schritt variieren. Alternativ können mindestens ein Bestimmungsschritt der Schritte S12, S14, S16 und S18 und zugeordnete Belohnungsschritte weggelassen werden.
Nachfolgend aktualisiert in Schritt S21 die Funktionsaktualisierungseinheit 33 eine Aktionswertfunktion. Q-Lernen, das durch die Lerneinheit 35 ausgeführt wird, ist ein Verfahren zum Lernen eines Werts (Aktionswert) Q(s, a) zum Auswählen einer Aktion a unter einem bestimmten Umweltzustand s. Folglich wird eine Aktion a mit dem höchsten Q(s, a) bei einem bestimmten Zustand s ausgewählt. Beim Q-Lernen werden verschiedene Aktionen a unter einem bestimmten Zustand s durch Ausprobieren ausgeführt, und dann werden zu diesem Zeitpunkt Belohnungen verwendet, um einen korrekten Q(s, a) zu lernen. Der Aktualisierungsausdruck für die Aktionswertfunktion Q(s, a) wird durch die nachstehende Gleichung (1) angegeben: $Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α (r_{t + 1} + γ max_{a} Q (s_{t + 1}, a) - Q (s_{t}, a_{t}))$
wobei s_t die Umwelt zur Zeit t ist und a_t die Aktion zur Zeit t ist. Nach der Aktion a_t ändert sich die Umwelt zu s_t+1, und die Belohnung r_t+1 wird durch eine Änderung in der Umwelt berechnet. Der Ausdruck, an den „max“ angehängt ist, wird durch Multiplizieren des Q-Werts, welcher erhalten wird, wenn die Aktion a mit dem höchsten Q-Wert (zu diesem Zeitpunkt) unter dem Zustand st+1 gewählt ist, mit γ erhalten. γ ist der Diskontierungsfaktor, der einen Bereich von 0< γ≤ 1 (normalerweise 0,9 bis 0,99) aufweist, und α ist der Lernfaktor mit einem Bereich von 0<α≤1 (normalerweise ungefähr 0,1).
Diese Gleichung drückt aus, dass wenn ein Bewertungswert Q(s_t+1, max a_t+1) der optimalen Aktion in einem durch die Aktion a verursachten nachfolgenden Umweltzustand größer als der Bewertungswert Q(_St, a_t) der Aktion im Zustand s ist, Q(_St, a_t) erhöht wird, und im umgekehrten Fall, d.h. der Bewertungswert Q(s_t+1, max a_t+1) kleiner als der Bewertungswert Q(_St, a_t) ist, Q(_St, a_t) verringert wird. Kurz gesagt versucht der Wert einer bestimmten Aktion in einem bestimmten Zustand sich dem Wert einer optimalen Aktion in dem durch die bestimmte Aktion verursachten nachfolgenden Zustand anzunähern. Mit anderen Worten, die Lerneinheit 35 aktualisiert die optimalen Werte eines Abmaß-Sollwerts, eines Widerstands-Sollwerts, eines Windungsanzahl-Sollwerts, eines Wicklungsgeschwindigkeits-Sollwerts und eines Spannungs-Sollwerts für eine Spule, und eines Ausführungszeit-Sollwerts für das Programm.
Wie oben beschrieben aktualisiert in Schritt S21 die Funktionsaktualisierungseinheit 33 eine Aktionswertfunktion mittels der Gleichung (1). Der Prozess kehrt dann zu Schritt S11 zurück, und ein anderer Abmaß-Sollwert, anderer Widerstands-Sollwert, anderer Windungsanzahl-Sollwert, anderer Wicklungsgeschwindigkeits-Sollwert, und ein anderer Spannungs-Sollwert für die Spule, und ein anderer Ausführungszeit-Sollwert für das Programm 21 werden ausgewählt, und dann wird eine Aktionswertfunktion in einer ähnlichen Weise aktualisiert. Es wird angemerkt, dass anstatt einer Aktionswertfunktion eine Aktionswerttabelle aktualisiert werden kann.
Beim bestärkenden Lernen entscheidet die Lerneinheit als ein Agent eine Aktion basierend auf dem Zustand der Umwelt. Die Aktion in dieser Beziehung bedeutet, dass die Entscheidungsfindungseinheit 34 neue Werte der oben beschriebenen verschiedenen Sollwerte für das Programm 21 auswählt und die Aktion entsprechend dieser neuen Werte ausgeführt wird. Die neuen Werte der verschiedenen Sollwerte ändern die in 2 gezeigte Umwelt, beispielsweise einen Abmaß-Sollwert, einen Widerstands-Sollwert, einen Windungsanzahl-Sollwert und einen Ausführungszeit-Sollwert für das Programm 21. Mit einer solchen Änderung in der Umwelt werden Belohnungen an die Vorrichtung für maschinelles Lernen 30 ausgegeben, wie oben beschrieben, und die Entscheidungsfindungseinheit 34 der Vorrichtung für maschinelles Lernen 30 lernt die Auswahl (Entscheidungsfindung) einer besseren Aktion, um beispielsweise höhere Belohnungen zu erhalten.
Somit verbessert ein vielfaches Wiederholen des in 3 gezeigten Prozesses die Zuverlässigkeit der Aktionswertfunktion. In Schritt S11 ermöglicht dann das Auswählen, basierend auf der zuverlässigen Aktionswertfunktion, eines Abmaß-Sollwerts, eines Widerstands-Sollwerts, eines Windungsanzahl-Sollwerts und eines Ausführungszeit-Sollwerts, um beispielsweise einen Q-Wert zu erhöhen, eine angemessenere Entscheidung für beispielsweise einen geeigneteren Abmaß-Sollwert. In einem in 4 gezeigten Beispiel fließen die Ergebnisse des Lernens der Vorrichtung für maschinelles Lernen in einem durch punktierte Linien definierten Bereich Z zusammen.
Wie oben beschrieben können die durch die Funktionsaktualisierungseinheit 33 der Vorrichtung für maschinelles Lernen 30 gemäß der vorliegenden Erfindung aktualisierten Inhalte automatisch als ein optimalerer Abmaß-Sollwert, Widerstands-Sollwert, Windungsanzahl-Sollwert und Ausführungszeit-Sollwert, die zum Bilden einer Spule notwendig sind, entschieden werden. Des Weiteren ermöglicht die Einführung einer solchen Vorrichtung für maschinelles Lernen 30 in die Steuervorrichtung 20 eine automatische Anpassung, zum Beispiel, eines Abmaß-Sollwerts. Somit kann eine Abweichung unter den Spulen aufgrund der individuellen Differenz zwischen Drahtspulenkörpern, der individuellen Differenz zwischen Walzdrähten der Spulen und der Differenz in Abmaßen der vielen Walzdrähte automatisch beseitigt werden. Des Weiteren beseitigt das Befolgen der Ergebnisse des Lernens der Vorrichtung für maschinelles Lernen die Notwendigkeit des manuellen Einstellens von Betriebsbedingungen durch einen Bediener während der Produktion von Spulen. Somit können die Arbeit und die Mannstunden, die zum Produzieren von Spulen notwendig sind, reduziert werden. Folglich kann die Produktionseffizienz verbessert werden.
In nicht dargestellten Ausführungsformen wird eine weitere Vorrichtung für maschinelles Lernen 30' mit einer der Vorrichtung für maschinelles Lernen 30 ähnlichen Ausgestaltung in eine weitere Steuervorrichtung 20 einer weiteren Wickelmaschine 10' aufgenommen. Die Steuervorrichtung 20' und die Steuervorrichtung 20 sind miteinander verbunden, um miteinander zu kommunizieren. In einem solchen Fall kann eine durch eine weitere Funktionsaktualisierungseinheit 33' der Vorrichtung für maschinelles Lernen 30' aktualisierte Funktion in der Funktionsaktualisierungseinheit 33 der Vorrichtung für maschinelles Lernen 30 dupliziert werden. Diese Funktion kann dazu verwendet werden, die Funktion in der Funktionsaktualisierungseinheit 33 zu aktualisieren. In diesem Fall ist verständlich, dass die zuverlässigen Ergebnisse des Lernens abgeleitet werden können.
Alternativ kann eine Funktion, die durch Verwendung eines neuralen Netzwerks, das später beschrieben wird, angenähert wird, als eine Aktionswertfunktion verwendet werden. In dieser Hinsicht kann die durch die Zustandsbeobachtungseinheit 31 beobachtete Zustandsvariable in einer mehrschichtigen Struktur berechnet werden, um die Aktionswertfunktion auf einer Echtzeitbasis zu aktualisieren. Somit wird verständlich, dass angemessenere Ergebnisse des Lernens erhalten werden können. Dies ist äußerst hilfreich für Daten mit einem riesigen Volumen an Information zu „s“ und „a“, beispielsweise für Bilddaten.
Die in 2 gezeigte Vorrichtung für maschinelles Lernen 30 usw. wird nochmals ausführlich beschrieben, obwohl dabei eine Wiederholung an Information vorliegt. Die Vorrichtung für maschinelles Lernen 30 besitzt eine Funktion, um nützliche Regeln oder Wissenspräsentationen, Bestimmungskriterien usw. aus der Zusammenstellung von in die Vorrichtung eingegebenen Daten analytisch zu extrahieren, sowie eine Funktion zum Ausgeben der Ergebnisse der Bestimmung und Wissen zu lernen. Es gibt verschiedenen maschinelle Lernverfahren, und die Verfahren werden grob in „überwachtes Lernen“, „unüberwachtes Lernen“ und „bestärkendes Lernen“ unterteilt. Um diese Lernverfahren auszuführen, gibt es ein weiteres Verfahren, das als „Deep Learning“ zum Lernen der Extraktion von Merkmalsgrößen selbst bezeichnet wird.
„Überwachtes Lernen“ ist ein Verfahren, in dem ein großes Volumen von gepaarten Eingabe-Ausgabe-Daten (Kennsatz) an eine Lernvorrichtung gegeben wird, sodass Eigenschaften dieser Datensätze gelernt werden können und ein Model zum Ableiten eines Ausgabewerts von Eingabedaten, d.h. die Eingabe-Ausgabe-Beziehung, induktiv erfasst werden kann. In der vorliegenden Ausführungsform kann dieses Lernverfahren verwendet werden, um einen Abmaß-Istwert einer Spule von den oben beschriebenen Sollwerten für die Spule abzuleiten. Dieses Verfahren kann durch Verwendung eines Algorithmus, zum Beispiel eines neuralen Netzwerks, das später beschrieben wird, ausgeführt werden.
„Unüberwachtes Lernen“ ist ein Verfahren, bei dem ein großes Volumen von nur Eingabedaten an eine Lernvorrichtung gegeben werden, sodass die Verteilung der Eingabedaten gelernt werden kann und eine Vorrichtung zum, beispielsweise, Komprimieren, Klassifizieren und Glätten der Eingabedaten selbst dann gelernt werden kann, wenn die entsprechenden Lehrer-Ausgabedaten nicht gegeben werden. Beispielsweise können die Eigenschaften dieser Datensätze basierend auf ihrer Ähnlichkeit geclustert werden. Das aus dem Lernen erhaltene Ergebnis wird verwendet, um ein bestimmtes Kriterium festzulegen, und dann wird die Zuordnung der Ausgabe durchgeführt, um das Kriterium zu optimieren, sodass die Vorhersage der Ausgabe erreicht werden kann. Es gibt ein weiteres Problemlösungsverfahren, das sich zwischen dem „unüberwachten Lernen“ und dem „überwachten Lernen“ befindet, welches als „teilüberwachtes Lernen“ bekannt ist. Bei diesem Lernverfahren wird ein kleines Volumen an gepaarten Eingabe-Ausgabe-Daten und ein großes Volumen von nur Eingabedaten bereitgestellt. In der vorliegenden Ausführungsform werden Daten, die auch dann erfasst werden können, wenn eine Wicklungsmaschine momentan nicht arbeitet, beim unüberwachten Lernen verwendet, um ein Lernen effizient auszuführen.
Beim bestärkenden Lernen werden Probleme wie folgt gelöst.

• Eine Wickelmaschine und eine Steuervorrichtung für die Wickelmaschine beobachten den Zustand der Umwelt und entscheiden eine Aktion.
• Die Umwelt ändert sich entsprechend einiger Regeln, und eine durch den Benutzer eingegebene Aktion kann die Umwelt ändern.
• Ein Belohnungssignal wird bei jeder Aktion zurückgesendet.
• Das Ziel der Maximierung ist die Summe von (diskontierten) Belohnungen, die jetzt und in der Zukunft erlangt werden sollen.
• Das Lernen startet ab dem Zustand, in dem ein durch eine Aktion verursachtes Ergebnis vollständig unbekannt oder unvollständig bekannt ist. Die Wickelmaschine kann das Ergebnis als Daten erst erfassen, nachdem sie tatsächlich zu arbeiten beginnt. Mit anderen Worten, es ist notwendig, die optimale Aktion durch Ausprobieren zu suchen.
• Es ist ebenfalls möglich, als einen Anfangszustand den Zustand einzustellen, bei dem ein vorhergehendes Lernen (z.B. das obengenannte überwachte Lernen, oder inverses bestärkendes Lernen) ausgeführt wird, um die Aktion einer Person nachzuahmen und ab einem günstigen Startpunkt das Lernen zu starten.

„Bestärkendes Lernen“ ist ein Lernverfahren zum Lernen von nicht nur Bestimmungen oder Klassifizierungen, sondern auch von Aktionen, um eine angemessene Aktion basierend auf der Interaktion der Umwelt zu einer Aktion zu lernen, d.h. eine Aktion, um die Belohnungen, die in der Zukunft erlangt werden sollen, zu maximieren. In der vorliegenden Ausführungsform zeigt dies an, dass eine Aktion, die eine Wirkung auf die Zukunft ausüben kann, erfasst werden kann. Die Erklärung des bestärkenden Lernens wird nachfolgend fortgeführt, indem beispielsweise Q-Lernen verwendet wird, wobei jedoch das bestärkende Lernen nicht auf Q-Lernen beschränkt ist.
Q-Lernen ist ein Verfahren zum Lernen eines Werts Q(s, a) zum Auswählen einer Aktion unter einem bestimmten Umweltzustand s. Mit anderen Worten, es wird nur erforderlich, dass die Aktion a mit dem höchsten Wert Q(s, a) als eine optimale Aktion unter einen bestimmten Zustand s gewählt wird. Anfangs ist jedoch der korrekte Wert des Werts Q(s, a) für eine Kombination des Zustands s und der Aktion a völlig unbekannt. Dann wählt der Agent (Gegenstand einer Aktion) verschiedene Aktionen a unter einem bestimmten Zustand s aus und vergibt Belohnungen an die Aktionen a zu diesem Zeitpunkt. Somit lernt der Agent die Auswahl einer besseren Aktion, d.h. den korrekten Wert Q(s, a).
Als ein Ergebnis der Aktion wird die Maximierung der Summe von Belohnungen, die in der Zukunft erlangt werden sollen, erwünscht, und folglich wird darauf abgezielt, dass schließlich Q(s, a)=E[Σγ^tr_t] erreicht wird (Ein erwarteter Wert wird für die Zeit festgelegt, wenn sich der Zustand entsprechend der optimal Aktion ändert. Selbstverständlich ist der erwartete Wert unbekannt, und sollte folglich gelernt werden, während er gesucht wird). Der Aktualisierungsausdruck für einen solchen Wert Q(s, a) wird beispielsweise angegeben durch: $Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α (r_{t + 1} + γ max_{a} Q (s_{t + 1}, a) - Q (s_{t}, a_{t}))$
(Diese Gleichung ist identisch zur obenstehenden Gleichung (1).)
wobei s_t die Umwelt zur Zeit t ist und a_t die Aktion zur Zeit t ist. Nach der Aktion a_t ändert sich die Umwelt zu s_t+1. r_t+1 ist die Belohnung, die bei einer Änderung des Zustands erhalten wird. Der Ausdruck, an den „max“ angehängt ist, wird durch Multiplizieren des Q-Werts, welcher erhalten wird, wenn die Aktion a mit dem höchsten Q-Wert (zu diesem Zeitpunkt) unter dem Zustand s_t+1 gewählt ist, mit γ erhalten. γ ist der Parameter, der einen Bereich von 0<γ≤1 aufweist, und Diskontierungsfaktor genannt wird. α ist der Lernfaktor und weist einem Bereich von 0<α≤1 auf.
Diese Gleichung drückt ein Verfahren aus zum Aktualisieren eines Bewertungswerts Q(_St, a_t) einer Aktion a_t in einem Zustand s_t basierend auf einer Belohnung r_t+1, die als ein Ergebnis eines versuchsweisen a_t zurückgesendet wurde. Wenn ein Bewertungswert Q(s_t+1, max a_t+1) der optimalen Aktion max a in einem durch die Belohnung r_t+1 + der Aktion a verursachten nachfolgenden Zustand größer als der Bewertungswert Q(_St, a_t) der Aktion a in dem Zustand s ist, dann wird Q(_St, a_t) erhöht. Wenn im umgekehrten Fall, d.h. der Bewertungswert Q(s_t+1, max a_t+1) kleiner als der Bewertungswert Q(_St, a_t) ist, dann wird Q(_St, a_t) verringert. Mit anderen Worten, der Wert einer bestimmten Aktion in einem bestimmten Zustand soll sich der unmittelbar als ein Ergebnis zurückgesendeten Belohnung und dem Wert einer optimalen Aktion in dem durch die bestimmte Aktion verursachten nachfolgenden Zustand annähern.
Beispiele des Verfahrens zum Ausdrücken von Q(s, a) auf einem Computer umfassen ein Verfahren zum Sichern der Werte von allen Zustandsaktionspaaren (s, a) als eine Tabelle (Aktionswerttabelle) und ein Verfahren zum Erstellen einer Funktion zum Annähern von Q(s, a). Beim letzteren Verfahren kann der obengenannte Aktualisierungsausdruck erreicht werden, indem ein Parameter der Näherungsfunktion mittels eines Verfahrens, wie dem stochastischen Gradientenverfahren, angepasst wird. Beispiele der Näherungsfunktion umfassen ein neurales Netzwerk, das später beschrieben wird.
Als Näherungsalgorithmus einer Wertfunktion im überwachten Lernen, unüberwachten Lernen und bestärkenden Lernen kann ein neurales Netzwerk verwendet werden. Das neurale Netzwerk besteht beispielsweise aus einer arithmetischen Vorrichtung und einem Speicher, die ein neurales Netzwerk verwirklichen, das ein Neuronenmodell simuliert, wie in 7 gezeigt. Die 7 ist ein schematisches Schaubild, das ein Neuronenmodell darstellt.
Wie in 7 gezeigt gibt ein Neuron eine Ausgabe y in Erwiderung mehrerer Eingaben x (Eingaben x1 bis x3 werden hier als Beispiel bereitgestellt) aus. Die Gewichtungen w (w1 bis w3) werden den entsprechenden Eingaben x1 bis x3 auferlegt. Dies bewirkt, dass das Neuron die Ausgabe y ausgibt, die durch die nachstehende Gleichung ausgedrückt wird. Es wird angemerkt, dass die Eingaben x, die Ausgabe y und die Gewichtungen w Vektoren sind. $y = f_{k} (\sum_{i - 1}^{n} x_{i} w_{i} - θ)$
wobei θder systematische Fehler ist und f_k die Aktivierungsfunktion ist.
Ein dreischichtiges gewichtetes neurales Netzwerk, das aus einer Kombination von wie oben beschriebenen Neuronen besteht, wird nun nachstehend mit Bezug auf die 8 beschrieben. Die 8 ist ein schematisches Schaubild, das ein gewichtetes neurales Netzwerk mit drei Schichten D1 bis D3 darstellt.
Wie in 8 gezeigt werden mehrere Eingaben x (Eingaben x1 bis x3 werden hierin als ein Beispiel bereitgestellt) von der linken Seite des neuralen Netzwerks eingegeben, und die Ergebnisse y (Ergebnisse y1 bis y3 werden hierin als ein Beispiel bereitgestellt) werden von der rechten Seite des neuralen Netzwerks ausgegeben.
Insbesondere werden die Eingaben x1 bis x3, denen die entsprechenden Gewichtungen auferlegt wurden, entsprechend in die drei Neuronen N11 bis N13 eingegeben. Diese den Eingaben auferlegten Gewichtungen werden gemeinsam durch w1 gekennzeichnet.
Die Neuronen N11 bis N13 geben entsprechend z11 bis z13 aus. Diese z11 bis z13 werden gemeinsam durch einen Merkmalsvektor z1 gekennzeichnet und können als ein Vektor behandelt werden, der durch Extrahieren eines Merkmalsbetrags eines Eingabevektors erhalten wird. Dieser Merkmalsvektor z1 ist ein Merkmalsvektor zwischen der Gewichtung w1 und der Gewichtung w2.
Die Merkmalsvektoren z11 bis z13, denen die entsprechenden Gewichtungen auferlegt wurden, werden in die zwei Neuronen N21 und N22 eingegeben. Diese den Merkmalsvektoren auferlegten Gewichtungen werden gemeinsam durch w2 gekennzeichnet.
Die Neuronen N21 und N22 geben entsprechend z21 und z22 aus. Diese z21 und z22 werden gemeinsam durch einen Merkmalsvektor z2 gekennzeichnet. Dieser Merkmalsvektor z2 ist ein Merkmalsvektor zwischen der Gewichtung w2 und der Gewichtung w3.
Die Merkmalsvektoren z21 und z22, denen die entsprechenden Gewichtungen auferlegt wurden, werden in die drei Neuronen N31 bis N33 eingegeben. Diese den Merkmalvektoren auferlegten Gewichtungen werden gemeinsam durch w3 gekennzeichnet.
Abschließend geben die Neuronen N31 bis N33 entsprechend die Ergebnisse y1 bis y3 aus.
Der Betriebsablauf des neuralen Netzwerks umfasst einen Lernmodus und einen Wertvorhersagemodus. Lern-Datensätze werden genutzt, um die Gewichtungen w im Lernmodus zu lernen, und die von dem Lernen erhaltenen Parameter werden genutzt, um die Aktion der Wickelmaschine im Vorhersagemodus zu bestimmen (Der Einfachheit halber wird der Begriff „Vorhersage“ verwendet, es können jedoch verschiedene Aufgaben ausgeführt werden, die Detektion, Klassifikation, Ableitung usw. umfassen).
Es ist möglich, nicht nur Lernen auszuführen (Online-Lernen), bei dem Daten, die durch das tatsächliche Arbeiten der Wickelmaschine im Vorhersagemodus erfasst werden, unmittelbar gelernt werden und sich in der nachfolgenden Aktion niederschlagen, sondern auch Lernen (Batch-Lernen) auszuführen, bei dem zuvor gesammelte Daten unter Verwendung einer Gruppe der Daten gemeinsam gelernt werden, und danach ein Detektionsmodus mittels der von dem Lernen erhaltenen Parameter ausgeführt wird. Ein weiterer Zwischenlernmodus kann jedes Mal zwischengeschoben werden, wenn eine vorbestimmte Datenmenge gesammelt wird.
Die Gewichtungen w1 bis w3 können durch ein Fehlerrückführungsverfahren gelernt werden. Die Information zu den Fehlern wird von der rechten Seite zur linken Seite eingeführt. Das Fehlerrückführverfahren ist ein Verfahren zum Anpassen (Lernen) jeder Gewichtung, um so eine Differenz zwischen der Ausgabe y, wenn die Eingabe x eingegeben wird, und der tatsächlichen Ausgabe y (Lehrer) in jedem Neuron zu reduzieren.
In einem solchen neuralen Netzwerk können drei oder mehr Schichten bereitgestellt werden. (Dies wird Deep Learning genannt). Eine arithmetische Vorrichtung, die schrittweise Merkmale aus Eingabedaten extrahiert, um ein Ergebnis zurückzusenden, kann automatisch nur aus Lehrer-Daten erfasst werden.
Somit ist die Vorrichtung für maschinelles Lernen 30 mit der Zustandsbeobachtungseinheit 31, der Lerneinheit 35 und der Entscheidungsfindungseinheit 34 bereitgestellt, um Q-Lernen auszuführen, wie in 2 gezeigt. Das maschinelle Lernverfahren, das auf die vorliegende Erfindung angewendet werden kann, ist jedoch nicht auf Q-Lernen beschränkt. Wenn beispielsweise überwachtes Lernen angewendet wird, entspricht die Wertfunktion dem Lernmodell und die Belohnung entspricht dem Fehler.
WIRKUNG DER ERFINDUNG
Im ersten bis dritten Beispiel der vorliegenden Offenbarung kann eine Vorrichtung für maschinelles Lernen bereitgestellt werden, die automatisch einen optimalen Abmaß-Sollwert usw. für eine Spule entscheiden kann, ohne dass die Notwendigkeit besteht, dass Betriebsbedingungen manuell durch einen Bediener eingestellt werden müssen.
Im vierten Beispiel kann eine Belohnung angemessener bestimmt werden.
Im fünften Beispiel können angemessene Ergebnisse des Lernens erzielt werden.
Im sechsten Beispiel können die Ergebnisse des Lernens einer Vorrichtung für maschinelles Lernen in einer weiteren Vorrichtung für maschinelles Lernen aufgenommen werden, und somit können zuverlässige Ergebnisse des Lernens abgeleitet werden.
Im siebten Beispiel kann eine Abweichung der Spulen aufgrund der individuellen Differenz zwischen Drahtspulenkörpern, der individuellen Differenz zwischen Walzdrähten der Spulen und der Differenz in den Abmaßen zwischen den vielen Walzdrähten automatisch beseitigt werden. Des Weiteren beseitigt das Befolgen der Resultate des Lernens der Vorrichtung für maschinelles Lernen die Notwendigkeit des manuellen Einstellens von Betriebsbedingungen durch einen Bediener während der Produktion von Spulen. Somit können die Arbeit und die Mannstunden, die zum Produzieren von Spulen notwendig sind, reduziert werden.
Die vorliegende Erfindung wurde obenstehend unter Verwendung von Ausführungsbeispielen beschrieben. Ein Fachmann würde jedoch verstehen, dass die vorgenannten Modifikationen und verschiedenen anderen Modifikationen, Weglassungen und Hinzufügungen vorgenommen werden können, ohne vom Schutzumfang der vorliegenden Erfindung abzuweichen.

Claims

Steuervorrichtung zum Steuern einer Wickelmaschine zum Ausbilden einer Spule, wobei die Steuervorrichtung eine Vorrichtung für maschinelles Lernen (30) umfasst, die mit der Wickelmaschine (10) kommunizieren kann und die einen Betriebsablauf zum Ausbilden einer Spule durch die Wickelmaschine lernt, wobei die Vorrichtung für maschinelles Lernen Folgendes umfasst: eine Zustandsbeobachtungseinheit (31) zum Beobachten einer Zustandsvariable, die mindestens eines von einem Abmaß-Istwert, einem Widerstands-Istwert und einer Walzdraht-Verbrauchsmenge einer durch die Wickelmaschine gebildeten Spule, und einem Programmausführungszeit-Istwert, und mindestens einen von einem Abmaß-Sollwert, einem Widerstands-Sollwert, einem Windungsanzahl-Sollwert, einem Wicklungsgeschwindigkeits-Sollwert und einem Spannungs-Sollwert für die Spule, die durch ein Programm (21) für die Wickelmaschine angewiesen werden, und einem Ausführungszeit-Sollwert für das Programm umfasst; eine Lerneinheit (35) zum Lernen durch Verknüpfen von mindestens einem von dem Abmaß-Istwert, dem Widerstands-Istwert, und der durch die Zustandsbeobachtungseinheit beobachteten Walzdraht-Verbrauchsmenge, und dem Programmausführungszeit-Istwert mit mindestens einem von dem Abmaß-Sollwert, dem Widerstands-Sollwert, dem Windungsanzahl-Sollwert, dem Wicklungsgeschwindigkeits-Sollwert und dem durch die Zustandsbeobachtungseinheit beobachteten Spannungs-Sollwert für die Spule und dem Ausführungszeit-Sollwert für das Programm, wobei die Lerneinheit umfasst: eine Belohnungsberechnungseinheit (32) zum Berechnen einer Belohnung basierend auf mindestens einem von dem Abmaß-Istwert, dem Widerstands-Istwert, und der durch die Zustandsbeobachtungseinheit beobachteten Walzdraht-Verbrauchsmenge, und dem Programmausführungszeit-Istwert; und eine Funktionsaktualisierungseinheit (33) zum Aktualisieren einer Funktion zum Entscheiden, aus der gegenwärtigen Zustandsvariablen, basierend auf der durch die Belohnungsberechnungseinheit berechneten Belohnung, von mindestens einem von dem Abmaß-Sollwert, dem Widerstands-Sollwert, dem Windungsanzahl-Sollwert, dem Wicklungsgeschwindigkeits-Sollwert und dem Spannungs-Sollwert für die Spule und dem Ausführungszeit-Sollwert für das Programm; wobei die Lerneinheit die durch die Zustandsbeobachtungseinheit beobachtete Zustandsvariable in einer mehrschichtigen Struktur berechnet, um die Funktion auf einer Echtzeit-Basis zu aktualisieren; und eine Entscheidungsfindungseinheit (34) zum Entscheiden, aus der gegenwärtigen Zustandsvariablen, basierend auf dem Ergebnis des Lernens der Lerneinheit, eines Optimalwerts von mindestens einem von dem Abmaß-Sollwert, dem Widerstands-Sollwert, dem Windungsanzahl-Sollwert, dem Wicklungsgeschwindigkeits-Sollwert und dem Spannungs-Sollwert für die Spule und dem Ausführungszeit-Sollwert für das Programm; wobei die Steuervorrichtung dazu eingerichtet ist, die Wickelmaschine entsprechend dem Programm, das den Optimalwert von der Entscheidungsfindungseinheit entscheiden lässt, zu steuern.
Steuervorrichtung nach Anspruch 1, wobei die Belohnungsberechnungseinheit (32) die Belohnung erhöht, wenn der Abmaß-Istwert, der Widerstands-Istwert und der Walzdraht-Verbrauchsmenge der Spule und der Programmausführungszeit-Istwert innerhalb ihrer jeweiligen zulässigen Bereiche bleiben, und die Belohnung verringert, wenn dieselben außerhalb der zulässigen Bereiche sind.
Steuervorrichtung nach Anspruch 1 oder 2, wobei die Funktion der Funktionsaktualisierungseinheit (33) mittels einer Funktion aktualisiert wird, die durch eine Funktionsaktualisierungseinheit einer anderen Vorrichtung für maschinelles Lernen aktualisiert wird.
Spulenproduktionsvorrichtung, die Steuervorrichtung nach einem der Ansprüche 1 bis 3 umfassend.