DE69027874T2

DE69027874T2 - Lernmaschine mit Mehreingangs- Einausgangsschaltungen, die in einer hierarchischen Struktur verbunden sind

Info

Publication number: DE69027874T2
Application number: DE69027874T
Authority: DE
Inventors: Toshiyuki Kohda; Shigeo Sakaue; Yasuharu Shimeki; Hideyuki Takagi; Hayato Togawa
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1989-02-23
Filing date: 1990-02-20
Publication date: 1997-02-06
Anticipated expiration: 2010-02-21
Also published as: EP0385637B1; EP0385637A2; KR920006792B1; US5168550A; EP0385637A3; EP0579341A2; EP0579341A3; KR910015939A; DE69027874D1

Description

HINTERGRUND DER ERFINDUNG

Die vorliegende Erfindung betrifft eine lernende Maschine für das Verarbeiten von Daten mit Multi-Input-Single-Ontput-Schaltungen bzw.
Mehrfach-Eingang-Einfach-Ausgang-Schaltungen, die in einer hierarchischen Struktur verschaltet sind.
Ein Beispiel der herköminlichen lernenden Maschine mit Multi-Input-Single-Output-Schaltungen, die in einer hierarchischen Struktur verschaltet sind, ist beispielsweise in D.E. Rummelhart et al. "Learning representations by back propagating errors", Nature Bd. 323, Nr.9 (1986) offenbart. Bei der herkömmlichen lernenden Maschine mit Multi-Input-Single-Output-Schaltungen, die in einer hierarchischen Struktur verschaltet sind, addiert jede Multi-Input-Single-Output-Schaltung gewichtete Eingangssignale auf und unterzieht das resultierende Signal einer Umwandlung, welche eine Sättigungscharakteristik besitzt; das auf diese Weise gelieferte Ausgangssignal ist ausgedrückt durch
wobei y[j] ein Ausgangssignal von einer j-ten Multi-Input-Single-Output-Schaltung ist, y[i] ein Ausgangssignal von einer i-ten Multi-Input-Single-Output-Schaltung in einer vorhergehenden Schicht ist, und w[i, j] die Gewichtung ist, mit der das Ausgangssignal von der i-ten Multi-Input-Single-Output-Schaltung in der vorhergehenden Schicht beaufschlagt ist, wenn es der j-ten Multi-Input-Single-Output-Schaltung zugeführt wird. fnc ( ) ist eine Funktion, die eine Sättigungscharakteristik besitzt, welche beispielsweise ausgedrückt werden kann durch eine Sigmoidal-Funktion
Eine lernende Maschine ist für gewöhnlich in einer solchen Weise strukturiert, daß Multi- Input-Single-Output-Schaltungen in einer hierarchischen Struktur verschaltet sind, und sie lernt, ein gewünschtes Ausgangssignal (nachfolgend als 'Leitsignal' bezeichnet) als Antwort auf Eingangssignale zu liefern. Bei dem "Lernen" wird ein Fehler bzw. eine Abweichung E zwischen dem Leitwert und dem tatsächlichen Ausgangssignal in Übereinstimmung mit Gleichung (2) erhalten
wobei yp[j] ein Ausgungssignal von einer j-ten Multi-Input-Single-Output-Schaltung in einer Ausgangsschicht für ein p-tes Eingangssmuster ist, tp[j] ein Leitsignal für yp[j] ist, eine Summe für alle Eingangsmuster ist, eine Summe für alle Ausgangssignale in der Ausgangsschicht ist, und ein Vektor ist, der eine Gewichtung w[i, j] als Komponente beinhaltet (nachfolgend als Gewichtungsvektor bezeichnet).
Wie in Gleichung (2) gezeigt, kann der Fehler E als eine Quadratsumme einer Differenz zwischen einem Leitsignal und einem tatsächlichen Ausgangssignal ausgedrückt werden und ist daher eine Funktion des Gewichtungsvektors . Der Zweck des Lernens ist, den Gewichtungsvektor so zu ändern, daß die Differenz zwischen dem Leitsignal und dem tatsächlichen Ausgangssignal, d.h. der Fehler E, minimiert wird. Die Änderungsgröße des Gewichtungsvektors wird bestimmt durch
wobei &epsi; eine positive Konstante ist, die als Lernrate bezeichnet wird, α eine positive Konstante ist, die als Beschleunigungsparameter bezeichnet wird, E/ ein Vektor ist, der als Komponente die Differenzierung des durch Gleichung (2) ausgedrückten Fehlers nach der Gewichtung w[i, j] beinhaltet, welche als Richtung des größten Gefälles oder Maximalgefällerichtung bezeichnet wird, und Δ ' eine Vektordarstellung der Gewichtungsänderungsgröße im vorhergehenden Lernen ist. Ein derartiger Lernalgorithmus wird allgemein als ein Fehler-Rückwärtsausbreitungs-Verfahren bzw. Error-back-Propagation-Verfahren bezeichnet.
Beim Lernen der herkömmlichen lernenden Maschine mit Multi-Input-Single-Output-Schaltungen, die in einer hierarchischen Struktur verschaltet sind, sind die Lernrate &epsi; und der Beschleunigungsparameter α festgesetzt; sie werden durch Erfahrung oder "Trial and Error" festgelegt, und sind somit nicht notwendigerweise optimale Werte. Dies verlängert die zum Lernen benötigte Zeit. Darüber hinaus ist das Fehler-Rückwärtsausbreitungs-Verfahren, das auf dem Maximalgefälleverfahren basiert, welches zum Minimieren des Fehlers, welches der Zweck des Lernens ist, verwendet wird, nicht immer ein Optimum. Weiter kann das Lernen in einen nichteffektiven Zustand eintreten, in dem weiteres Lernen keinen Fehler mehr verringert.
Gemäß der vorliegenden Erfindung wird eine lernende Maschine mit Multi-Input-Single-Output-Schaltungen bereitgestellt, die in einer hierarchischen Struktur verschaltet sind, aufweisend: eine verborgene Schicht, die aus mehreren Multi-Input-Single-Output-Schaltungen besteht, welche eine gewichtete Summe von Eingangssignalen einer nicht-linearen Verarbeitung durch eine charakteristische Funktion, welche eine Sättigungscharakteristik besitzt, unterziehen, um Ausgangssignale zu liefern; eine Ausgangsschicht, die aus mehreren Multi-Input-Single-Output- Schaltungen besteht, welche eine gewichtete Summe der Ausgangssignale von der verborgenen Schicht einer nicht-linearen Verarbeitung durch eine charakteristische Funktion, welche eine Sättigungscharakteristik besitzt, unterziehen, um Ausgangssignale zu liefern; eine Leitsignalerzeugungseinheit zum Erzeugen von gewünschten Leitsignalen für die Ausgangsschicht; eine Fehlerberechnungsschaltung zum Liefern eines Fehlersignals, welches den Fehler zwischen den Leitsignalen von der Leitsignalerzeugungseinheit und den tatsächlichen Ausgangssignalen von der Ausgangsschicht darstellt; eine Maximalgefällerichtungs-Berechnungseinheit für das Erhalten der Richtung des größten Gefälles des Fehlersignals von der Fehlerberechnungsschaltung; und eine Gewichtungsänderungseinheit zum Andern der Gewichtungen, wobei die Maschine gekennzeichnet ist durch eine Konjugiert- Gradientenrichtungs-Berechnungseinheit zum Erhalten der der konjugierten Gradientenrichtung basierend auf der Maximalgefällerichtung von der Maximalgefällerichtungs-Berechnungseinheit und der vorhergehenden Gewichtungsänderungsrichtung von der Nachfolge-Gewichtungs-Richtungsbestimmungseinheit; und eine Gewichtungsänderungsrichtungs-Bestimmungseinheit, um die Gewichtungsänderungsrichtung entweder auf eine der konjugierten Gradientenrichtungen von der Konjugiert-Gradientenrichtungs-Berechnungseinheit oder eine größte Gefällerichtung von der Maximalgefällerichtungs-Berechnungseinheit festzulegen; und wobei die Gewichtungsänderungseinheit so angeordnet ist, daß die Gewichtungen auf Basis der Gewichtungsänderungsrichtung geändert werden, die durch die Gewichtungsänderungsrichtungs-Bestimmungseinheit erhalten wurden, wobei der Umfang der Änderung des Gewichtungsvektors gegeben ist durch:
Δw = -&epsi; (dE)/(dw) + α Δw' (2)
wobei &epsi; = Lernparameter,
α = Beschleunigungsparameter,
- (dE)/(dw) = Maximalgefällerichtung = g,
Δw' = Gewichtungsänderungsumfang im vorhergehenden Lernen
und wobei die konjugierte Gradientenrichtung gegeben ist durch:
d = g + β d'
mit β = ( g ²)/( g ²)
wobei β eine Konstante, g' die Maximalgefällerichtung im vorhergehenden Lernen, und d' die konjugierte Gradientenrichtung im vorhergehenden Lernen ist.
Eine lernende Maschine in Übereinstimmung mit der vorliegenden Erfindung kann die zum Lernen erforderliche Zeit verkürzen, indem das Lernen mit dem optimalen Wert einer dynamisch festgesetzten Lernrate verbessert wird. Ebenso kann sie die zum Lernen benötigte Zeit verkürzen, indem der Umfang der Operation bei der Fehlerberechnung für mehrere Lernraten relativ zu einer vorbestimmten verringert wird.
Die Maschine kann ebenso die für das Lernen benötigte Zeit verkürzen, indem die Gewichtung für einen Neustart des Lernens neu eingestellt wird, wenn erfaßt wird, daß das Lernen in einen nichteffektiven Zustand eingetreten ist, in dem weiteres Lernen den Fehler nicht verringert.
In Übereinstimung mit einem Ausführungsbeispiel der vorliegenden Erfindung wird eine lernende Maschine mit Multi-Input-Single-Output-Schaltungen bereitgestellt, die in einer hierarchischen Struktur verschaltet sind, aufweisend: verborgene Schichten, die aus mehreren Multi-Input-Single-Output Schaltungen bestehen, welche eine gewichtete Summe von Eingangssignalen einer nicht-linearen Verarbeitung durch eine charakteristische Funktion, welche eine Sättigungscharakteristik besitzt, unterziehen, um Ausgangssignale zu liefern; eine Ausgangsschicht, die aus mehreren Multi-Input-Single-Output-Schaltungen besteht, welche eine gewichtete Summe der Ausgangssignale von den verborgenen Schichten einer nicht-linearen Verarbeitung durch eine charakteristische Funktion, welche eine Sattigungscharakteristik besitzt, unterziehen, um Ausgangssignale zu liefern; eine Leitsignalerzeugungseinheit zum Erzeugen von gewünschten Ausgangssignalen für die Ausgangsschicht; eine Gewichtungsänderungsrichtungs-Bestimmungseinheit zum Auswählen und Bestimmen, von mehreren Richtungen, der Gewichtungsänderungsrichtung für das Minimieren von Fehlern zwischen Ausgangsgrößen von der Leitsignalerzeugungseinheit und Ausgangsgrößen von der Ausgangsschicht, eine Liniensucheinheit zum Erzeugen von Gewichtungsänderungsumfängen für mehrere Lernraten bezüglich der Gewichtungsänderungsrichtung, eine Gewichtungsänderungseinheit zum Auswählen der Gewichtungsänderungsumfänge von den durch die Liniensucheinheit erhaltenen Gewichtungsänderungsumfängen, eine Verborgen-Schicht-Produktsummen- Speichereinheit zum Speichern einer Produktsumme von Eingangssignalen und Gewichtungen der verborgenen Schicht und einer Produktsumme von Eingangssignalen und der Gewichtungsänderungsrichtung der verborgenen Schicht; und eine nicht-Effektiv-Lernzustands-Erfassungseinheit zum Erfassen, daß das Lernen in einen nicht-effektiven Zustand gefallen ist, in dem weiteres Lernen nicht in effektiver Weise den Fehler vermindert.
Bei dieser Anordnung wird die gewichtete Summe von Eingangssignalen einer nicht linearen Verarbeitung unterzogen, um sowohl in verborgenen Schichten als auch in der Ausgangsschicht ein Ausgangssignal zu liefern; um einen beliebigen Fehler zwischen einem gewünschten Ausgangssignal, das von der Leitsignal-Erzeugungseinheit erzeugt wird, und einem tatsächlichen Ausgangssignal zu minimieren, wird die Gewichtungsänderungsrichtung von mehreren Richtungen in der Gewichtungsänderungbestimmungseinheit ausgewählt und bestimmt; die Gewichtungsänderungsgrößen für mehrere Lernraten in der Linien-Sucheinheit werden erhalten; auf Basis der Produktsumme der Eingangssignale und der Gewichtung in der verborgenen Schicht und der Produktsumme der Eingangssignale und der Änderungsrichtung der Gewichtung in der verborgenen Schicht, welche in der Verborgen-Schicht-Produktsummen-Speichereinheit gespeichert sind, wird mit einem geringeren Verarbeitungsumfang eine Ausgangsgröße von der verborgenen Schicht für den in der Linien-Sucheinheit festgesetzten Gewichtungsänderungsumfang erhalten; und abschließend wird in der Nichteffektivitäts-Lernzustands-Erfassungseinheit überprüft, ob das Lernen in einen nichteffektiven Zustand eingetreten ist oder nicht, und in der Gewichtungsänderungseinheit der Gewichtungsänderungsumfang von den durch die Linien-Sucheinheit erhaltenen Gewichtungsänderungsumfängen der Gewichtungsänderungsumfang ausgewählt, um die Gewichtungen zu ändern. Danach wird in gleicher Weise die Operation der Gewichtungsänderung wiederholt, indem eine Lernrate von einem minimalen Fehler in einer Gewichtungsänderungsrichtung verwendet wird, um dadurch den Fehler ausreichend zu reduzieren. Auf diese Weise wird, wenn die Gewichtungsänderungsrichtung festgelegt ist, eine optimale Lernrate in dieser Richtung dynamisch festgesetzt, und die Gewichtungen werden unter Verwendung der optimalen Lernrate geändert, um den Fehler zu verringern, so daß der Fehler in kurzer Zeit ausreichend verringert werden kann, um das Lernen abzuschließen.
Bei der vorliegenden Erfindung wird, um den Fehler zu minimieren, die Gewichtungsänderungsrichtung durch die obige Gewichtungsänderungsrichtungs-Bestimmungseinheit bestimmt. Als Gewichtungsänderungsrichtung ist die Richtung des größten Gefälles lokal die effektivste Richtung, darin daß der größte Umfang der Fehlerverringerung bei geringstem Umfang der Gewichtungsänderung in der Umgebung des vorliegenden Gewichtungswertes geliefert werden kann. Andererseits ist eine konjugierte Gradientenrichtung global die effektivste Richtung, darin daß die Gewichtung in einer Richtung geändert wird, die sich von der Gewichtungsänderungsrichtung im vorhergehenden Lernen unterscheidet. Die vorliegende Erfindung wählt daher eine optimale Gewichtungsänderungsrichtung aus mehreren Richtungen aus, um dadurch die zum Lernen benötigte Zeit zu verkürzen.
Indem die vorliegende Maschine in der obigen Verborgen-Schicht-Produktsummen-Speichereinheit die Produktsumme der Eingangssignale und der Gewichtungen in der verborgenen Schicht, und die Summe der Eingangssignale und die Gewichtungsänderungsrichtung in der verborgenen Schicht speichert, verringert sie den Operationsumfang zum Erhalten der Ausgangsgrößen von der verborgenen Schicht erheblich, indem die Fehler für mehrere Lernraten bei festgelegter Gewichtungsänderungsrichtung berechnet wird, und dadurch die zum Lernen erforderliche Zeit verringert wird.
Wenn die obige Nichteffektiv-Lernzustand-Erfassungseinheit erfaßt, daß ein Ändern der Gewichtung in der Maximälgefällerichtung (Richtung des größten Gefälles) oder der konjugierten Gradientenrichtung den Fehler nicht verringern kann, entscheidet die vorliegende Maschine, daß das Lernen in den nichteffektiven Zustand eingetreten ist, und paßt die Gewichtung für einen Neustart des Lernens neu an, wodurch ein Eintreten des Lernens in einen nichteffektiven Zustand verhindert wird, um die zum Lernen benötigte Zeit zu verkürzen.
Die Erfindung wird nachfolgend beispielhaft unter besonderer Bezugnahme auf die beigefügten Zeichnungen beschrieben. Diese zeigen:
Fig. 1 ein Blockdiagramm, welches eine allgemeine Anordnung der herkömmlichen lernenden Maschine mit Multi-Input-Single-Output-Schaltungen zeigt, die in einer hierarchischen Struktur verschaltet sind;
Fig. 2 ein Blockdiagramm, das die detaillierte Anordnung der herkömmlichen lernenden Maschine mit Multi-Input-Single-Output-Schaltungen zeigt, die in einer hierarchischen Struktur verschaltet sind;
Fig. 3 einen Graphen der charakteristischen Funktion eines Addierers in der herkömmlichen lernenden Maschine von Fig. 2, der eine Sättigungseingangs-/Ausgangs-Charakteristik besitzt;
Fig. 4 ein Blockdiagramm, welches die Anordnung einer lernenden Schaltung in der herkömmlichen lernenden Maschine mit Multi-Input-Single-Output-Schaltungen zeigt, die in einer hierarchischen Struktur verschaltet sind;
Fig. 5 ein Blockdiagramm, welches die Details der lernenden Schaltung von Fig. 4 zeigt;
Fig. 6 ein Blockdiagramm, welches die lernende Maschine mit Multi-Input-Single-Output-Schaltungen zeigt, die in einer hierarchischen Struktur verschaltet sind, gemäß dem ersten Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 7 ein Blockdiagramm, welches die Anordnung der Lernschaltung in dem Ausführungsbeispiel von Fig. 6;
Fig. 8 ein Blockdiagramm von der detaillierten Anordnung einer Konjugiert-Gradienten-Bestimmungseinheit im Ausführungsbeispiel von Fig. 6 zeigt;
Fig. 9 ein Blockdiagramm, welches die lernende Maschine mit Multi-Input-Single-Output-Schaltungen zeigt, die in einer hierarchischen Struktur verschaltet sind;
Fig. 10 ein Blockdiagramm, welches die Anordnung der lernenden Schaltung im Ausführungsbeispiel von Fig. 9 zeigt;
Fig. 11 eine schematische Ansicht von Konturlinien einer Fehlerkurve zur Erläuterung der Funktionsweise des Ausführungsbeispiels von Fig. 9 zeigt;
Fig. 12 eine Querschnittsansicht zwischen dem Ausgangspunkt und einem Punkt P der Fehlerkurve, um die Funktionsweise des Ausführungsbeispiels von Fig. 9 zu zeigen;
Fig. 13 ein PAD (Problem-Analyse-Diagramm), welches die Funktionsweise der Linien-Sucheinheit im Ausführungsbeispiel von Fig. 9 zeigt;
Fig. 14 ein Blockdiagramm, welches die lernende Maschine mit Multi-Input-Single-Output-Schaltungen zeigt, die in einer hierarchischen Struktur verschaltet sind, gemäß dem zweiten Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 15 eine schematische Ansicht von Konturlinien einer Fehlerkurve zur Erläuterung der Funktionsweise des Ausführungsbeispiels von Fig. 14;
Fig. 16 ein Blockdiagramm, welches die lernende Maschine mit Multi-Input-Single-Output-Schaltungen zeigt, die in einer hierarchischen Struktur verschaltet sind, gemäß dem dritten Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 17 ein Blockdiagramm, welches die detaillierte Anordnung von einer Verborgen-Schicht-Produktsummen-Speichereinheit im Ausführungsbeispiel von Fig. 16 zeigt; und
Fig. 18 ein Blockdiagramm, welches die lernende Maschine mit Multi-Input-Single-Output-Schaltungen zeigt, die in einer hierarchischen Struktur verschaltet sind, gemäß einem vierten Ausführungsbeispiel der vorliegenden Erfindung.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE

Vor dem Erläutern von einigen Ausführungsbeispielen der vorliegenden Erfindung wird die herkömmliche lernende Maschine mit Multi-Input-Single-Output-Schaltungen, die in einer hierarchischen Struktur verschaltet sind, bezugnehmend auf die Fig. 1 bis 5 weiter erläutert werden.
Fig. 1 zeigt die allgemeine Anordnung der herkömmlichen lernenden Maschine mit Multi-Input-Single-Output-Schaltungen, die in einer hierarchischen Struktur verschaltet sind. In Fig. 1 bezeichnen 201 und 202 Eingangsanschlüsse; 212 einen Ausgangsanschluß; 217 eine lernende Schaltung; 218, 219 und 220 Multi-Input-Single-Output-Schaltungen; 221 eine Ausgangsschicht; und 222 verborgene Schichten. Wie aus Fig. 1 zu ersehen, verarbeitet die lernende Maschine, mittels der Konstruktion, bei welcher Multi-Input-Single-Output-Schaltungen in einer hierarchischen Struktur verschaltet sind, Eingangssignale von Eingangsanschlüssen 201, 202, um Ausgangssignale zu den Ausgangsanschlüssen zu liefern. Unter den Multi-Input-Single-Output-Anschlußschaltungen wird die Schicht, die aus den Multi-Input-Single-Output-Schaltungen besteht, welche die Ausgangssignale erzeugen, als Ausgangsschicht bezeichnet, und die Schichten, die aus den anderen Multi-Input-Single-Output-Schaltungen bestehen, werden als die verborgenen Schichten bezeichnet. Die verborgenen Schichten können eine einzelne Schicht der Multi-Input-Single-Output-Schaltungen oder mehrere Schichten von diesen sein.
Fig. 2 zeigt die detaillierte Anordnung der herkömmlichen lernenden Maschine mit Multi-Input-Single-Output-Schaltungen, die in einer hierarchischen Struktur verschaltet sind. In Fig. 2 bezeichnen 203, 204, 205, 206, 207 und 208 variable Gewichtungs-Multiplizierer; 209, 210 und 211 Addierer, die eine Sättigungs-Eingangs-/Ausgangs-Charakteristik besitzen; 212 einen Ausgangsanschluß; 213 eine Leitsignal-Erzeugungseinheit; 214 eine Fehlerberechnungseinheit; 215 die Maximalgefällerichtungs-Bestimmungseinheit; und 216 eine Gewichtungsänderungseinheit. Im Vergleich mit der allgemeinen Anordnung der lernenden Maschine von Fig. 1 weist die in Fig. 2 gezeigte lernende Maschine die Ausgangsschicht auß die aus einer einzigen Multi-Input-Single-Output-Schaltung und der verborgenen Schicht von einer einzigen Schicht besteht, welche aus zwei Multi-Input-Single-Output-Schaltungen besteht. Wie aus Fig. 2 zu ersehen, besteht jede Multi-Input-Single-Output-Schaltung aus zwei variablen Gewichtungs-Multiplizierern und einem einzigen Addierer. Somit ist die lernende Maschine so aufgebaut, daß mehrere Multi-Input-Single-Output-Schaltungen in einer hierarchischen Struktur verschaltet sind. Fig. 3 ist ein Graph der charakteristischen Funktion der Addierer 209, 210 und 211, die eine Sättigungs-Eingangs/Ausgangs-Charakteristik besitzen. Die Addierer 209, 210 und 211 besitzen die in Fig. 3 gezeigte Sättigungs-Eingangs/Ausgangs-Charakteristik. Die herkömmliche lernende Maschine mit Multi-Input-Single-Output-Schaltungen, die in einer hierarchischen Struktur verschaltet sind, um ein gewünschtes Ausgangssignal für Eingangssignale zu liefern, ändert die auf die Eingangssignale angewendete Gewichtung durch den variablen Gewichtungsmultiplizierer.
Fig. 4 zeigt die Anordnung der lernenden Schaltung 217 dieser herkömmlichen lernenden Maschine. In Fig. 4 bezeichnet 223 einen Eingangsanschluß der Ausgangsgröße von der verborgenen Schicht; 224 einen Eingangsanschluß der Ausgangsgröße von der verborgenen Schicht; 225 einen Eingangsanschluß von den Eingangssignalen; 226 einen Ausgangsanschluß von der Gewichtung in der Ausgangsschicht; und 227 einen Ausgangsanschluß von der Gewichtung in der verborgenen Schicht. Bei den herkömmlichen Multi-Input-Single-Output-Schaltungen, die in einer hierarchischen Struktur verschaltet sind, erzeugt die Leitsignal-Erzeugungseinheit 213 ein Leitsignal (gewünschtes Ausgangssignal) tp[j] für die Eingangssignale. Die Fehlerberechnungseinheit 214 berechnet einen durch Gleichung (2) ausgedrückten Fehler E vom Leitsignal tp[j] und ein tatsächliches Ausgangssignal yp[j]. Die Fehlerberechnungseinheit schickt ein Differenzsignal zwischen dem Leitsignal und dem Ausgangssignal tp[j] - yp[j] welches erforderlich ist, um die Gewichtung zu ändern, zur Maximalgefällerichtungs-Bestimmungseinheit 215. Auf Basis des obigen Differenzsignals, des Ausgangssignals von der Ausgangsschicht, der Ausgangssignale von der verborgenen Schicht, der Eingangssignale und der Gewichtungen in der Ausgangsschicht erhält die Maximalgefällerichtungs-Bestimmungseinheit 215 die Maximälgefällerichtung des Fehlers E in einem Gewichtungsraum, in dem Gewichtungen in Vektorform ausgedrückt sind. Die Maximalgefällerichtung kann ausgedrückt werden durch
Die rechte Seite von Gleichung (4) ist ein Vektorausdruck der Differenzierung des Fehlers E nach den Gewichtungen. Die Maximalgefällerichtung-Bestimmungseinheit 215 multipliziert die Maximalgefällerichtung mit einer Lernrate, um eine Ausgangsgröße zur Gewichtungsänderungseinheit 216 zu liefern. Die Gewichtungsänderungseinheit 216 erhält die Gewichtungsänderungsumfang von Gleichung (3) und ändert die in den variablen Gewichtungsmultiplizierern 203, 204, 205, 206, 207 bzw. 208 zu multiplizierende Gewichtung. In dieser Weise wird die Operation zum Erhalten des Gewichtungsänderungsumfangs mittels des Maximalgefälle-Verfahrens wiederholt, um den Fehler schrittweise zu verringern. Wenn der Fehler ausreichend vermindert ist, erfolgt die Entscheidung, daß sich das Ausgangssignal an den gewünschten Wert angenahert hat, um das Lernen zu vollenden.
Fig. 5 zeigt die Details der lernenden Schaltung 217 in der herkömmlichen lernenden Maschine mit den in einer hierarchischen Struktur verschalteten Multi-Input-Single-Output-Schaltungen. In Fig. 5 bezeichnet 228 eine Lernvollendungs-Bestimmungseinheit; 229 und 230 Differentiationskoeffizienten- Berechnungseinheiten; 231 eine Ausgangsdifferentiationskoeffizienten-Speichereinheit; 232 eine δ-Speichereinheit; 233 einen δ * w -Puffer; 234 eine Verborgen-Schicht-Differentiationskoeffizient-Speichereinheit; 235 eine Eingangssignal-Speichereinheit; 236, 237, 238, 239 und 240 Multiplizierer; 241, 242, 243 und 244 Addierer; 245 und 246 Lernraten-Multiplizierer; 247 eine Ausgangsschichtgewichtungs-Speichereinheit; und 248 eine Verborgen-Schicht-Gewichtungs-Speichereinheit.
Bezugnehmend auf Fig. 5 wird die Funktionsweise der lernenden Schaltung erläutert. Der Gewichtungsänderungsumfang, der von der Maximalgefällerichtungs-Bestimmungseinheit 215 zugeführt wird, kann ausgedrückt werden durch
wobei w[i, j] die Gewichtung ist, die mit dem Ansgangssignal von einer i-ten Multi-Input-Single-Output-Schaltung in der vorhergehenden Schicht zu multiplizieren ist, welche einer j-ten Multi-Input-Single-Output-Schaltung zugeführt wird, Δwg[i, j] ist der Gewichtungsänderungsumfang von w[i, j] relativ zur Maximalgefällerichtung und &epsi; ist eine Lernrate. Gleichung (5) kann transformiert werden in
wobei netp[i] = (w[i, j] * yp[i]), und yp[i] ist ein Ausgangssignal von einer i-ten Multi-Input-Single-Output-Schaltung in der vorhergehenden Schicht entsprechend den p-ten Eingangssignalen. Gleichung (6) kann weiter transformiert werden in
Die Art der Transformierung der Gleichung hängt davon ab, ob die j-te Multi-Input-Single-Output-Schaltung sich in der Ausgangsschicht oder der verborgenen Schicht befindet. Wenn die j-te Multi-Input-Single-Output-Schaltung in der Ausgangsschicht liegt,
wobei fnc (netp[j] eine charakteristische Funktion (= yp[j]) von jeder Multi-Input-Single-Output-Schaltung in der Ausgangsschicht ist. Unter Verwendung von Gleichung (2) kann diese Gleichung weiter transformiert werden in
Demzufolge kann sie ausgedrückt werden durch
In Fig. 5 berechnet der Addierer 241 (tp[j] - yp[j]) in Gleichung (9), die Differentiationskoeffizienteneinheit 229 berechnet fnc (netp[j])/ netp[j]), und der Multiplizierer 236 berechnet (tp[j] - yp[j]) * fnc (netp[j])/ netp[j]), durch die Ansgangsschicht-Differentiationskoefienten-Speichereinheit 231. Dieser Wert, welcher δwp[j] ist, wird in der δ-Speichereinheit 232 gespeichert. Der Multiplizierer 237 berechnet ein Produkt von δwp[j] und der Verborgen-Schicht-Ausgangsgröße yp[j]. Der Multiplizierer 245 multipliziert dieses Produkt mit einer Lernrate &epsi;, um Δwg[i, j] zu liefern, das durch Gleichung (9) ausgedrückt ist, das α-fache des Gewichtungsänderungsumfangs in dem vorhergehenden Lernen wird zu Δwg[i, j] von Gleichung (9) addiert, um den durch Gleichung (3) ausgedrückten Gewichtsänderungsumfang Δw[i, j] zu liefern. Der Addierer 243 berechnet eine Summe von diesem Gewichtungsänderungsumfang und die Gewichtung vor der Änderung, wodurch die in der Ausgangsschichtgewichtungs-Speichereinheit 247 gespeicherte Gewichtung in der Ausgangsschicht verändert wird.
Wenn sich die j-te Multi-Input-Single-Output-Schaltung in der verborgenen Schicht befindet,
wobei netp[k] = Σ(w [j, k] * yp[j]) und w [j, k] eine Gewichtung ist, die mit der Ausgangsgröße yp[j] der j-ten Multi-Input-Single-Output-Schaltung zu Multiplizieren ist, wenn sie der Multi-Input-Single-Output-Schaltung in der nächsten Schicht zugeführt wird. Unter Verwendung von Gleichung (8) kann diese Gleichung weiter transformiert werden in
Demzufolge kann sie ausgedrückt werden durch
In Fig. 5 berechnet der Multiplizierer 238 ein Produkt der Ausgangsgröße δwp[k] von der δ-Speichereinheit 232 und der Gewichtung w [j, k] in der Ausgangsschicht, und der δ * w -Puffer 233 und der Addierer 242 berechnet (δwp[k] * w [j, k] ). Der Differentiationskoeffizient fnc (netp[j]/ netp[j] wird dem Multiplizierer 239 über die Verborgen-Schicht-Differentiationskoeffizienten-Speichereinheit 234 zugeführt, welcher ein Produkt von diesem Koeffizienten und dem obigen (δwp[k] * w [j, k] ) berechnet. Der Multiplizierer 240 multipliziert dieses Produkt mit dem Eingangssignal yp[i]. Der Multiplizierer 246 multipliziert dieses Produkt mit einer Lernrate &epsi;, um Δwg[i, j] zu liefern, das durch Gleichung (10) ausgedrückt ist. Das α-fache des Gewichtungsänderungsumfangs im vorhergehenden Lernen wird zu Δwg[ i,j ] von Gleichung (10) addiert, um den Gewichtungsänderungsumfang Δw [ i,j ] zu liefern, der durch Gleichung (3) ausgedrückt ist. Der Addierer 244 berechnet eine Summe von diesem Gewichtungsänderungsumfang und der Gewichtung vor der Änderung und ändert dadurch die Gewichtung in der Ausgangsschicht, die in der Ausgangsschichtgewichtungs-Speichereinheit 248 gespeichert ist.
Auf diese Weise wird, um den Fehler zwischen Ausgangssignalen von der Ausgangsschicht und den Leitsignalen zu verringern, der Umfang der Änderung der Gewichtung in der Ausgangsschicht unter Verwendung der Differenzsignale zwischen den Ausgangssignalen und den Leitsignalen erhalten, und der Gewichtungsänderungsumfang wird sukzessive von der Ausgangsseite zur Eingangsseite hin erhalten. Ein derartiger Lernalgorithmus wird als Rückwärtsausbreitungs-Verfahren bezeichnet.
Bei der herkömmlichen lernenden Maschine, die den oben beschriebenen Aufbau besitzt, sind die Lernrate &epsi; und der Beschleunigungsparameter α feste Größen; sie werden durch Erfahrung oder "Trial and Error" bestimmt, und sind daher nicht immer optimale Werte. Dies verlängert die zum Lernen benötigte Zeit. Darüber hinaus ist die Gewichtungsänderungsrichtung unter Verwendung der Differentiation des Fehlers E nach der Gewichtung (d.h. die Richtung des größten Gefälles) nicht immer optimal. Weiter kann das Lernen möglicherweise in einen nichteffektiven Zustand fallen, in dem weiteres Lernen den Fehler nicht mehr verringert.
Fig. 6 zeigt die Anordnung von einer lernenden Maschine mit in einer hierarchischen Struktur verschalteten Multi-Input-Single-Output-Schaltungen gemäß einem ersten Ausführungsbeispiel der vorliegenden Erfindung. In Fig. 6 sind 1 und 2 Eingangsanschlüsse; 3, 4, 5, 6, 7 und 8 sind variable Gewichtungsmultiplizierer; 9 10 und 11 sind Addierer mit einer Sättigungs-Eingangs/Ausgangs-Charakteristik; 12 ist ein Ansgangsanschluß; 13 ist eine Leitsignal-Erzeugungseinheit; 14 ist eine Fehlerberechnungseinheit; 15 ist eine Konjugiert-Gradientenrichtungs-Bestimmungseinheit; 18 ist eine Gewichtungsänderungseinheit; 17 ist eine lernende Schaltung; 18, 19 und 20 sind Multi-Input-Single-Output-Schaltungen; 21 ist eine Ausgangsschicht; 22 ist eine verborgene Schicht; und 61 ist ein Lernraten-Multiplizierer.
In der lernenden Maschine gemäß diesem Ausführungsbeispiel sind Multi-Input-Single-Output-Schaltungen in einer hierarchischen Struktur verschaltet; jede Schaltung besteht aus variablen Gewichtungsmukiplizierern und einem Addierer mit einer Sattigungs-Eingangs/Ausgangs-Charakteristik. Jede Multi-Input-Single-Output-Schaltung addiert Eingangssignale auf, nachdem diese gewichtet wurden, und unterzieht die Summe einer nichtlinearen Verarbeitung, um ein Ausgangssignal zu liefern. Bei dem Lernen der lernenden Maschine gemäß diesem Ausführungsbeispiel werden, damit eine Ausgangsgröße von der Ausgangsschicht 21 gleich einer Ausgangsgröße von der Leitsignal-Erzeugungseinlieit 13 ist, die in den Multiplizierern 3, 4, 5, 6, 7 und 8 zu multiplizierenden Gewichtungen geändert. Wenn die Vektoren, die Gewichtungen als Komponenten besitzen, als Gewichtungsvektoren bezeichnet werden, kann der Änderungsumfang der Gewichtungsvektoren auch in Vektorform ausgedrückt werden. Die Richtung von diesem Gewichtungsänderungsvektor wird als Gewichtungsänderungsrichtung bezeichnet. In diesem Ausführungsbeispiel wird eine konjugierte Gradientenrichtung als Gewichtungsänderungsrichtung verwendet. Die konjugierte Gradientenrichtung ist gegeben durch
wobei die durch Gleichung (4) ausgedrückte Maximalgefällerichtung und β eine Konstante ist, die durch
' ist eine konjugierte Gradientenrichtung in dem vorhergehenden Lernen und ' ist die Norm des Vektors in der Maximalgefällerichtung ' im vorhergehenden Lernen. Im übrigen ist die Gewichtungsänderungsrichtung bei einem anfänglichen Lernen als Maximälgefällerichtung definiert.
Fig. 7 zeigt eine Anorduung der lernenden Schaltung 17. In Fig. 7 ist 23 ein Eingangsanschluß der Ausgangsgröße von der Ausgangsschicht; 24 ist ein Eingangsanschluß der Ausgangsgröße von der verborgenen Schicht; 25 ist eine Eingangsanschluß von den Eingangssignalen; 26 ist ein Ausgangsanschluß von den Gewichtungen von der Ausgangsschicht; 27 ist ein Ausgangsanschluß der Gewichtung der verborgenen Schicht; 28 ist die Maximalgefälle-Berechnungseinheit; 29 ist eine Konjugiert-Gradiententichtungs-Berechnungseinheit; 30 ist eine Gewichtungsänderungs-Bestimmungseinheit; und 31 ist eine Lern-Iteration-Zähleinheit.
Nimmt man nun Bezug auf Fig. 7, folgt eine Erläuterung für die Funktionsweise der lernenden Schaltung 17 in der lernenden Maschine mit den in einer hierarchischen Struktur verschalteten Multi-Input-Single-Output-Schaltungen. Die Leitsignal- Erzeugungseinheit 13 liefert ein gewünschtes Signal für die Eingangssignale als Leitsignal zur Fehlerberechnungseinheit 14, welche ein Differenzsignal zwischen dem Leitsignal und einem tatsächlichen Ausgangssignal erzeugt. Die Konjugierte-Gradientenrichtungs-Bestimmungseinheit 15 erhält die Gewichtungsänderungsrichtung von dem Differenzsignal. Weiter ändert die Gewichtungsänderungseinheit 16 die Gewichtung in Übereinstimmung mit dem Gewichtungsänderungsumfang, der durch den Lernraten-Multiplizierer 61 erhalten wird. Die Konjugierte-Gradientenrichtungs-Bestimmungseinheit 15 erhält die Gewichtungsänderungsrichtung in der folgenden Weise. Die Maximalgefällerichtungs-Berechnungseinheit 28 erhält auf Basis des Differenzsignals, das von der Fehlerberechnungseinheit 14 geliefert wird, des Ausgangssignals von der Ausgangsschicht, des Eingangssignals und der Gewichtung von der Ausgangsschicht, die durch Gleichung (4) ausgedrückte Maximalgefällerichtung. Die Konjugierte-Gradientenrichtungs-Berechnungseinheit 29 erhält eine konjugierte Gradientenrichtung aus der Maximalgefälle- und der Gewichtungsänderungs-Richtung im vorhergehenden Lernen. Die Lern-Iterationen-Zähleinheit 31 zählt die Lerniterationen, um ein Auswahlsignal zu liefern, welche von der Maximalgefälle- und Konjugiert-Gradienten-Richtung als Gewichtungsänderungsrichtung zu verwenden ist. Allgemein beschleunigt beim konjugierten Gradientenverfahren das Verwenden der Maximalgefällerichtung für die Lern-Iteration bei jeder Anzahl der Gewichtungen die Konvergenz des Fehlers.
Daher erzeugt auch in diesem Ausführungsbeispiel die Lern-Iterationen-Zahleinheit 31 das Auswahlsignal, so daß die Maximalgefällerichtung für die Lern-Iteration bei jeder Anzahl der Gewichtungen verwendet wird. Die Gewichtungsänderungsrichtung-Bestimmungseinheit 31 wechselt die Gewichtungsänderungsrichtung zwischen der Maximalgefällerichtung und der konjugierten Gradientenrichtung in Übereinstimmung mit den von der Lern-Iteration-Zähleinheit 31 erzeugten Auswahlsignal. Der Lernraten-Multiplizierer 61 mulitpliziert die auf diese Weise bestimmte Gewichtungsänderungsrichtung mit einer Lernrate, um einen Gewichtungsänderungsumfang zu liefern. Schließlich andert die Gewichtungsänderungseinheit 16 die Gewichtung.
Die Details der Konjugierten-Gradienten-Bestimmungseinheit 15 sind in Fig. 8 gezeigt. In Fig. 8 ist 32 ein Eingangsanschluß der Gewichtung der Ausgangsschicht; 33 ist ein Ausgangsanschluß von der Gewichtungsänderungsrichtung der Ausgangsschicht; 34 ist ein Ausgangsanschluß der Gewichtungsänderungsrichtung der verborgenen Schicht; 35 ist ein Eingangsanschluß des Differenzsignals; 36 und 37 sind Differentiationskoeffizienten-Berechnungseinheiten; 38 ist eine Ausgangsschicht-Differentiationskoeffizienten-Speichereinheit; 39 ist eine Verborgen-Schicht-Differentiationskoeflizienten-Speichereinheit; 40 ist eine δ-Speichereinheit; 41 ist eine Einheit zum Speichern der Maximalgefällerichtung in der Ausgangsschicht zu diesem Zeitpunkt; 42 ist eine Einheit zum Speichern der Maximalgefällerichtung in der Ausgangsschicht zu einem vorhergehenden Zeitpunkt; 43 ist eine β-Berechnungseinheit; 44 ist eine Einheit zum Speichern der Gewichtungsänderungsrichtung der Ausgangsschlcht zu einem vorhergehenden Zeitpunkt; 45, 46, 47, 48, 49, 50 und 51 sind Multiplizierer; 52 ist ein Addierer; 53 ist ein δ * w -Puffer; 54 ist eine Eingangssignal-Speichereinheit; 55 ist eine Einheit zum Speichern der Maximalgefällerichtung in der verborgenen Schicht zu diesem Zeitpunkt; 56 ist eine Einheit zum Speichern der Maximalgefällerichtung in der verborgenen Schicht zu einem vorhergehenden Zeitpunkt; 58 ist eine Einheit zum Speichern der Gewichtungsänderungsrichtung der verborgenen Schicht zu einem früheren Zeitpunkt; 59 und 60 sind Gewichtungsänderungsrichtungs-Umschalteinheiten; und 63 und 64 sind Addierer.
Bezugnehmend auf Fig. 8 erfolgt eine detaillierte Erläuterung der Funktionsweise der Konjugierten-Gradientenrichtungs-Bestimmungseinheit 15. Die Maximalgefällerichtungs-Berechnungseinheit 28 besitzt im wesentlichen die gleiche Anordnung wie die Maximalgefälle-Berechnungseinheit 215 der in Fig. 5 gezeigten herkömmlichen lernenden Maschine mit Multi-Input-Single-Output-Schaltungen. Der Multiplizierer 46 liefert die Maximalgefällerichtung relativ zur Gewichtung der Ausgangsschicht und der Multiplizierer 51 liefert die Maximalgefällerichtung relativ zur Verborgenen Schicht. Die Signale, die diese Maximalgefällerichtungen anzeigen, werden zu den Gewichtungsänderungsrichtungs-Umschalteinheiten 59 und 60 in der Gewichtungsänderungsrichtungs-Bestimmungseinheit 30 und ebenso auch zur Jetztzeit-Ausgangsschicht-Maximalgefällerichtung-Speichereinheit 41 und zur Jetztzeit-Verborgen-Schicht-Maximalgefällerichtungs-Speichereinheit 55 in der Konjugiert-Gradientenrichtungs-Berechnungseinheit 29 geschickt. Unter Verwendung von Gleichung (12) erhält die β-Berechnungseinheit 43 β auf Basis der beim Momentan-Zeitpunkts-Lernen gespeicherten Maximalgefällerichtungen, die in den Speichereinheiten 41 und 55 gespichert sind, und den bei einem vorhergehenden Lernen gespeicherten Maximalgefällerichtungen, die in der Früherer-Zeitpunkts- oder Vorzeit-Ausgangsschicht-Maximalgefällerichtung-Speichereinheit 42 und der Vorzeit-Maximalgefällerichtungs-Speichereinheit 56 gespeichert sind. Die Multiplizierer 48 und 51 berechnen auf diese Weise erhaltene Produke von β und die Gewichtungsänderungsrichtungen ' im vorhergehenden Lernen. Die Addierer 63 und 64 berechnen Summen von diesen Produkten und den Maximalgefällerichtungen zu diesem Zeitpunkt. Diese Summen werden als konjugierte Gradientenrichtungen zu den Gewichtungsänderungsrichtungs-Umschalteinheiten 59 und 60 in der Gewichtungsänderungsrichtungs-Bestimmungseinheit 30 geschickt. Auf diese Weise werden die Maximalgefällerichtungen und die konjugierten Gradientenrichtungen den Gewichtungsänderungsrichtungs-Umschalteinheiten 59 und 60 zugeführt. Andererseits zählt die Lern-Iterations-Zähleinheit 31 die Lern-Iterationen und liefert derartige Auswahlsignale, daß die Maximalgefällerichtung als Gewichtungsänderungsrichtung für das Lernen bei jeder Anzahl der Iterationen gewählt wird, die der Anzahl der Gewichtungen gleich ist, und die komjugierte Gradientenrichtung für das Lernen gewählt wird, das bei jeder Anzahl der anderen Iterationen ausgeführt wird. Die Gewichtungsänderungsrichtungs-Umschalteinheiten 59 und 60 schalten die Gewichtungsänderungsrichtung zwischen der Maximalgefällerichtung und der konjugierten Gradientenrichtung in Übereinstimmung mit diesen Auswahlsignalen um.
Auf diese Weise liefert in der lernenden Maschine gemäß diesem Ausführungsbeispiel die Konjugierten-Gradientenrichtungs-Bestimmungseinheit 15 entweder die Maximalgefällerichtung oder die konjugierte Gradientenrichtung als Gewichtungsänderungsrichtung. Wenn die konjugierte Gradientenrichtung als Gewichtungsänderungsrichtung ausgewählt wird, bedeutet dies, daß die Gewichtung auf die Richtung geändert wird, die sich von der Gewichtungsänderungsrichtung im Lernen bis zur vorhergehenden Iteration unterscheidet; diese konjugierte Gradientenrichtung ist allgemein die effektivste Richtung. In Übereinstimmung mit diesem Ausführungsbeispiel kann das Lernen in einer kürzeren Zeit vollendet werden als in der herkömmlichen lernenden Maschine, bei der die Maximalgefällerichtung immer die Gewichtungsänderungsrichtung ist.
Im übrigen kann, obwohl in diesem Ausführungsbeispiel die Maximalgefällerichtung immer als Gewichtungsänderungsrichtung für das Lernen gewählt wird, das bei jeder Anzahl von Iterationen ausgeführt wird, welche gleich derjenigen der Gewichtungen ist, die konjugierte Gradientenrichtung in allen Iterationen außer der beim ersten Lernen ausgeführt werden, oder die Maximalgefällerichtung kann immer für das Lernen verwendet werden, das bei jeder Anzahl von Iterationen ausgeführt wird, die gleich der Hälfte der Anzahl der Gewichtungen ist. Darüber hinaus kann, obwohl in diesem Ausführungsbeispiel die verborgene Schicht 22 aus den Multi-Input-Single-Output-Schaltungen besteht, von denen jede zwei Eingangssignale verarbeitet, um ein Ausgangssignal zu liefern, wie in der allgemeinen Anordnung der herkömmlichen lernenden Maschine in Fig. 1 gezeigt ist, die verborgene Schicht 22 aus einer beliebigen Anzahl der Multi-Input-Single-Output-Schaltungen bestehen, und sie kann aus den Multi-Input-Single-Output-Schaltungen bestehen, die in einer hierarchischen Struktur verschaltet sind.
Fig. 9 zeigt eine Anordnung der lernenden Maschine mit in einer hierarchischen Struktur verschalteten Multi-Input-Single-Output-Schaltungen. In Fig. 9 bezeichnet 65 eine Gewichtungsänderungseinheit; 66 eine Lernraten-Initialisierungseinheit; 67 eine Linie-Sucheinheit; 68 eine Parabel-Approximationseinheit; und 69 eine lernende Schaltung.
Wie aus dem Vergleich zwischen den Fig. 2 und 9 zu ersehen ist, unterscheidet sich dieses Ausführungsbeispiel von der herkömmlichen lernenden Maschine darin, daß die Lernraten-Initialisierungseinheit 66, die Linie-Sucheinheit 67 und die Parabel-Approximationseinheit 68 vorgesehen sind. Speziell ist bei der herkömmlichen lernenden Maschine der Lernparameter eine feste Größe, in diesem Ausführungsbeispiel hingegen werden die Gewichtungsänderungsumfänge für mehrere Lernraten durch die Linie-Sucheinheit 67 erhalten, der Fehler für jede Lernrate wird durch die verborgene Schicht 22, die Ausgangsschicht 21 und die Fehlerberechungseinheit 14 erhalten, die Fehlerkurve wird durch die Parabel-Approximationseinheit 68 aus den Fehlern für die Lernraten mit geringeren Fehlern parabolisch approximiert, so daß die Fehler am oberen Ende der Parabel geliefert werden, und unter Verwendung der Lernraten dieser Fehler werden die Gewichtungen durch die Gewichtungsänderungseinheit 65 geändert.
Fig. 10 zeigt eine Anordnung der lernenden Schaltung 69 gemäß diesem Ausführungsbeispiel. In Fig. 10 sind 70 und 71 Multiplizierer; 72 ist eine Einheit zur Berechnung der Lernrate am oberen Ende der Parabel; 73 und 74 sind Addierer; und 75 ist eine Gewichtungsspeichereinheit. Die Leitsignal-Erzeugungseinheit 13 erzeugt ein Leitsignal für Eingangssignale, und die Fehlerberechnungseinheit 14 erzeugt ein Differenzsignal und einen Fehler zwischen dem tatsächlichen Ausgangssignal und dem Leitsignal. Die Maximalgefällerichtungs-Berechnungseinheit 28 erhält die Maximalgefällerichtung als Gewichtungsänderungsrichtung auf der Basis des obigen Fehlers, des Ausgangssignals von der Ausgangsschicht, der Ausgangssignale von der verborgenen Schicht, der Eingangssignale und der Gewichtung der Ausgangsschicht.
Wie in Gleichung (2) ausgedrückt, kann der Fehler E, welcher eine Funktion eines Gewichtungsvektors ist, durch eine Kurve im Gewichtungsraum dargestellt werden, in welchem die Gewichtungen in den variablen Gewichtungsmultiplizierern 3, 4, 5, 6, 7 und 8 in Vektorform dargestellt sind. Diese Kurve wird als eine Fehlerkurve bezeichnet. Fig. 11 zeigt schematisch Konturlinien in der Fehlerkurve für die Erläuterung der Funktionsweise in diesem Ausführungsbeispiel In Fig. 11 sind w [i&sub1; , j&sub1;] und w [i&sub2; ,j&sub2;j Gewichtungen, die mit beliebigen zwei Multiplizierern von den variablen Multiplizierern 3, 4, 5, 6, 7 und 8 zu mulüplizieren sind; &sub0; ist eine Vektordarstellung des Wertes der Gewichtungen, der durch eine Zufallszahl initialisiert ist; &sub0; ist die Maximalgefällerichtung bei dem ersten Lernen; P&sub1; ist ein Fehlerminimumpunkt bei der ersten Iteration des Lernens; &sub1; ist die Maximalgefällerichtung beim Punkt P&sub1;; und P&sub2; ist ein Fehlerminimumpunkt in der zweiten Iteration des Lernens. Beim Lernen durch die lernende Maschine gemäß diesem Ausführungsbeispiel werden die Gewichtungen in allen Multiplizierern zuerst durch Zufallszahlen initialisiert; dies bedeutet, daß der Anfangspunkt ( ) der Fehlerkurve in Fig. 11 durch Zufallszahlen festgesetzt wird. Das Ziel des Lernens ist, durch Änderung der Gewichtungen zu der Richtung, in welcher sich der Fehler von dem Anfangspunkt auf der Fehlerkurve in Fig. 11 vermindert, die Suche des Fehlerminimumpunktes zu wiederholen, um den globalen Fehlerminimumpunkt zu erreichen. Bei dem ersten Lernen wird die durch Gleichung (4) ausgedrückte Maximalgefällerichtung als Gewichtungsänderungsrichtung festgelegt, und der Punkt, an dem der Fehler in der Richtung von minimal ist, wird erhalten. Dies wird als Linie-Suchen in der Richtung von bezeichnet. Die Lernraten-Initialisierungseinheit 66 erzeugt einen positiven Wert, welcher als Initialwert der Lernrate bei dem Linie-Suchen geeignet ist.
Fig. 12 zeigt den Querschnitt zwischen dem Anfangspunkt und Punkt P&sub1; auf der Fehlerkurve zur Erläuterung der Funktionsweise in diesem Ausführungsbeispiel. In Fig. 13 ist &epsi;&sub1; ein Isnitialwert der Lernrate, welcher ausgedrückt werden kann durch
Ek (K ≥ 0) ist ein Fehler für die Lernrate &epsi;k, welche ausgedrückt werden kann durch
&epsi;v ist eine Lernrate am oberen Ende der parabolisch approximierten Fehlerkurve; und Ev ist ein Fehler für die Lernrate &epsi;v.
Fig. 13 ist ein PAD (Problem-Analyse-Diagramm) zum Erläutern der Funktionsweise des Linie-Suchens in der lernenden Maschine mit den in einer hierarchischen Struktur verschalteten Multi-Input-Single-Output Schaltungen gemäß diesem Ausführungsbeispiel. Bei dem Linie-Suchen wird zuerst ein Fehler für die anfängliche Lernrate &epsi;&sub1; erhalten. Speziell multipliziert die Linie-Sucheinheft 67 den anfänglichen Wert &epsi;&sub1; mit der Maximalgefällerichtung , um einen Gewichtungsänderungsumfang für den anfänglichen Wert &epsi;&sub1; zu liefern; dieser Gewichtungsänderungsumfang wird der Gewichtungsänderungseinheit 65 zugeführt (Fig. 10). In der Gewichtungsänderungseinheit 65 erhält der Addierer 73 eine Summe des Gewichtungsänderungsumfangs in der Ausgangsschicht und der Gewichtung der Ausgangsschicht, und der Addierer 74 erhält eine Summe des Gewichtungsänderungsumfangs in der verborgenen Schicht und der Gewichtung von der verborgenen Schicht. Somit erzeugt die Gewichtungsänderungseinheit 65 die Gewichtungen für den anfänglichen Wert &epsi;&sub1; der Lernrate von dem Gewichtungsausgangsanschluß 26 für die Ausgangsschicht und dem Gewichtungsausgangsanschluß 27 für die verborgene Schicht. Unter Verwendung dieser Gewichtungen werden die Ausgangssignale von der verborgenen Schicht 22 und der Ausgangsschicht 21 erhalten, und der Fehler wird durch die Fehlerberechnungseinheit 14 erhalten, indem das Leitsignal mit dem Ausgangssignal von der Ausgangsschicht 21 verglichen wird. Auf diese Weise wird der anfängliche Fehler E&sub1; für die anfängliche Lernrate &epsi;&sub1; erhalten. Wie aus dem PAD von Fig. 13 zu sehen ist, vergleicht die Linie-Sucheinheit 67 den anfänglichen Fehler E&sub1; mit dem Fehler E&sub0; am Anfangspunkt der Fehlerkurve. Wenn E&sub1; kleiner ist als E&sub0;, kann erwartet werden, daß der Fehler für die größere Lernrate geringer ist; die Operation des Verdoppelns der Lernrate wird wiederholt, bis der Fehler abzunehmen beginnt. Bei dem in Fig. 12 gezeigten ersten Lerneniste E&sub1;< E&sub0;, sodaß die Operation des Verdoppelns der Lernrate &epsi; wiederholt wird, um den entsprechenden Fehler zu liefern. Dann ist E&sub0;> E&sub1;> E&sub2;< E&sub3;, sodaß die Linie-Sucheinheit 67 den Gewichtungsänderungsumfang bis hin zur Lernrate &epsi;&sub3; erhält Andererseits kann, wenn E&sub1; größer ist als E&sub0;, erwartet werden, daß der Fehler für die kleinere Lernrate geringer ist; die Operation des Verminderns der Lernrate um die Hälfte wird wiederholt, bis der Fehler geringer wird als der Fehler am Anfangspunkt. Danach berechnet die Linie-Sucheinheit 67, damit die Parabel-Approximationseinheit 68 die Umgebung des Fehlerminimumpunktes approximiert, die Fehler an den Punkten auf dem Gewichtungsraum in Fig. 12, in welchem die Gewichtung mit regulären Intervallen variiert. Speziell kann, unter der Annahme, daß
und somit &epsi;&sub2; - &epsi;&sub1; = &epsi;2,5 - &epsi;&sub2; = &epsi;&sub3; - &epsi;2,5, der Fehler &epsi;2,5 ausgedrückt werden durch
In Fig. 12 ist E2,5< E&sub2;< E&sub3;< E&sub1;, so daß die Fehler E&sub2;, E2,5, E&sub3; die drei minimälen Fehler geben und die Lernraten &epsi;&sub2;, &epsi;2,5 und &epsi;&sub3; zur Einheit 72 des Berechnens der Lernrate am oberen Ende der Parabel in der Parabel-Approximationseinheit 65 geschickt werden. Die Einheit 72 approximiert die Fehlerkurve in der Umgebung des Fehlerminimumpunktes anhand der die drei Minimumfehlerpunkte durchlaufenden Parabel, um den Fehler in der Nähe des oberen Endes zu liefern. Und zwar berechnet die Berechnungseinheit 72 die Lernrate am oberen Ende der parabolisch approximierten Fehlerkurve unter Verwendung von
Die Multiplizierer 70 und 71 multiplizieren das steilste Gefälle mit &epsi;v, um einen Gewichtungsänderungsumfang zu liefern; die Gewichtungsänderungseinheit 65 legt die Gewichtung für die Lernrate &epsi;v fest; die verborgene Schicht 22 und die Ausgangsschicht 21 erhalten die Ausgangssignale (Fig. 9); und die Fehlerberechnungseinheit 14 erhält den Fehler Ev. Die Parabel-Approximationseinheit 68 vergleicht die auf diese Weise erhaltenen Fehler Ev, E&sub2;, E2,5 und E&sub3;, und erhält den Gewichtungsänderungsumfang &epsi;2,5 * für die Lernrate &epsi;2,5, welche den geringsten Fehler E2,5 liefert. Die Addierer 73 und 74 erhalten eine Summe des Gewichtungsänderungsumfangs und der Gewichtung &sub0;, und speichern sie jeweils als neue Gewichtung. Somit wird der Gewichtungsvektor geändert, wie ausgedrückt durch
Die bisher gemachte Erläuterung bezieht sich auf die erste Iteration des Lernens.
In der zweiten Iteration des Lernens erhält die Maximalgefällerichtungs-Berechnungseinheit 28 als Gewichtungsänderungsrichtung die Maximalgefällerichtung g am Punkt P&sub1;, die durch &sub1; in dem Gewichtungsraum ausgedrückt ist (Fig. 11). Die Lernratenintialisierungseinheit 66 legt die anfängliche Lernrate &epsi;&sub1; für die erste Iteration des Lernens fest, und der größere Wert zwischen &epsi;&sub1; und der in der vorhergehenden Iteration verwendeten Lernrate ist die Lernrate für die zweite Iteration des Lernens und die folgenden. Das heißt, in der zweiten Iteration des Lernens und den folgenden wird, wenn ein optimaler Wert der vorhergehenden Lernrate größer ist als &epsi;&sub1;, der optimale Wert der vorhergehenden Lernrate als anfängliche Lernrate genommen, und wenn ersterer kleiner als letzterer ist, wird &epsi;&sub1; als angängliche Lernrate genommen. Somit kann der optimale Wert der vorhergehenden Lernrate als anfängliche Lernrate in dem momentanen Lernen verwendet werden, um in effizienter Weise die Lernrate festzulegen, welche für das momentane Lernen optimal ist. Ebenso wird, wenn der optimale Wert der vorhergehenden Lernrate kleiner ist als &epsi;&sub1;, &epsi;&sub1; als anfängliche Lernrate zum Suchen des Fehlerminimumpunktes im momentanen Lernen verwendet, um zu ermöglichen, daß der Fehlerminimumpunkt einen globalen Fehlerminimumpunkt erreicht, ohne auf einen lokalen Fehlerminimumpunkt zu fallen. Die Linie-Sucheinheit 67 variiert die Lernrate um das Doppelte oder die Hälfte in der Richtung von , um einen Gewichtungsänderungsumfang zu liefern, der den Fehler vermindert. Die Parabel-Approximationseinheit 68 approximiert parabolisch die Fehlerkurve, um zu erreichen, daß die Gewichtung einen minimalen Fehler in der Richtung von ergibt, und somit ein Fehlerminimunipunkt P&sub2; in der zweiten Iteration des Lernens geliefert wird. Auf diese Weise wird in der lernenden Maschine gemäß diesem Ausführungsbeispiel durch Wiederholen des Suchens in der Maximalgefällerichtung die optimale Lernrate dynamisch festgelegt, um den Fehler zu vermindern und sich dem globalen Fehlerminimumpunkt anzunähern. In Übereinstimmung mit diesem Ausführungsbeispiel macht die Gerade-Sucheinheft 67 die Lernrate variabel, wenn die Gewichtung durch die Gewichtungsänderungseinheit 65 geändert wird, und legt die Lernrate dynamisch fest, was einen minimalen Fehler in der Gewichtungsänderungsrichtung ergibt. Somit wird die zum Lernen benötigte Zeit verkürzt.
Im übrigen kann, auch wenn in diesem Ausführungsbeispiel die Lerninitialisierungseinheit 66 die anfängliche Lernrate &epsi;&sub1; für die erste Iteration des Lernens, und den größeren Wert zwischen &epsi;&sub1; und der in der vorhergehenden Iteration verwendeten Lernrate für die zweite Iteration des Lernens und die folgenden festlegt, den anfänglichen Wert auf &epsi;&sub1; festlegen. Darüber hinaus kann, auch wenn in diesem Ausführungsbeispiel die verborgene Schicht 22 aus den Multi-Input-Single-Output- Schaltungen besteht, von denen jede zwei Eingangssignale verarbeitet, um ein Ausgangssignal zu liefern, wie in der allgemeinen Anordnung der in Fig. 1 gezeigten herkömmlichen lernenden Maschine gezeigt, die verborgene Schicht 22 aus einer beliebigen Anzahl der Multi-Input-Single-Output-Schaltungen bestehen, und sie kann aus den Multi-Input-Single-Output-Schaltungen bestehen, die in einer hierarchischen Struktur verschaltet sind.
Fig. 14 zeigt eine Anordnung der lernenden Maschine mit in einer hierarchischen Struktur verschalteten Multi-Input-Single-Output-Schaltungen gemäß einem zweiten Ausführungsbeispiel der vorliegenden Erfindung. Wie im Vergleich mit Fig. 9 zu ersehen ist, unterscheidet sich die lernende Schaltung 76 in diesem Ausführungsbeispiel von dem zweiten Ausführungsbeispiel von Fig. 9 darin, daß die Maximalgefällerichtungs-Berechnungseinheit 28 durch die in Fig. 6 gezeigte Konjugiert-Gradientenrichtungs-Bestimmungseinheit ersetzt ist. In diesem Ausführungsbeispiel berechnet die Fehlerberechnungseinheit 14 den Fehler aus der Differenz zwischen Leitsignalen und tatsächlichen Ausgangssignalen Die Konjugiert-Gradientenrichtungs-Bestimmungseinheit 15 legt die Gewichtungsänderungsrichtung auf die durch Gleichung (4) ausgedrückte Maximalgefällerichtung für die erste Iteration des Lernens fest, sowie auch für die zweite Iteration des Lernens und die folgenden, und legt die Maximalgefällerichtung für das Lernen fest, welche bei jeder Anzahl der Iterationen, die der Anzahl der Gewichtungen gleich sind, auszuführen sind, und legt die konjugierte Gradientenrichtung für das Lernen fest, welche bei jeder anderen Anzahl der Iterationen auszuführen ist. Die Lerninitialisierungseinheit 66 legt die anfängliche Lernrate &epsi;&sub1; für die erste Iteration des Lernens fest, sowie den größeren Wert zwischen &epsi;&sub1; und der in der vorhergehenden Iteration verwendeten Lernrate für die zweite Iteration des Lernens und die folgenden. Die Linie-Sucheinheit 67 wiederholt, wenn der Fehler für eine anfängliche Lernrate geringer ist als der Fehler am Anfangspunkt, eine Verdoppelungsoperation der Lernrate &epsi;, bis der Fehler anzusteigen beginnt, oder die Linie-Sucheinheit 67 wiederholt, wenn der Fehler für eine anfängliche Lernrate größer geworden ist als der Fehler am Anfangspunkt, eine Wertverminderungsoperation der Lernrate um die Hälfte, bis der Fehler geringer wird als der Fehler am Anfangspunkt.
Fig. 15 zeigt schematisch Konturlinien in der Fehlerkurve zur Erläuterung der Funktionsweise in diesem Ausführungsbeispiel. In Fig. 15 sind w [i&sub1; , j&sub1; ] und w [ i&sub2; , j&sub2;] Gewichtungen, die von beliebigen zwei Multiplizierern von den variablen Multiplizierern 3, 4, 5, 6, 7 und 8 zu multiplizieren sind; &sub0; ist eine Vektordarstellung der durch Zufallszahlen initialisierten Gewichtungen; &sub0; ist die Maximalgefällerichtung in der ersten Iteration des Lernens; P&sub1; ist ein Fehlerminimumpunkt in der ersten Iteration des Lernens; &sub1; ist die Maximalgefällerichtung bei Punkt P&sub1;;β&sub1; ist eine durch Gleichung 12 erhaltene Konstante bei der Berechnung der konjugierten Gradientenrichtung bei P&sub1;; &sub1; ist die durch Gleichung (11) ausgedruckte konjugierte Gradientenrichtung bei P&sub1;; und P&sub2; ist ein Fehlerminimumpunkt in der zweiten Iteration des Lernens. Fig. 15 unterscheidet sich von Fig. 11 darin, daß die konjugierte Gradientenrichtung immer als Gewichtungsänderungsrichtung in der zweiten Iteration des Lernens gewälilt wird.
In diesem Ausführungsbeispiel wird der Fehlerminimumpunkt P&sub1; in der ersten Iteration des Lernens in gleicher Weise erhalten wie im zweiten Ausführungsbeispiel. Danach wird die Gewichtungsänderungsrichtung in der zweiten Iteration des Lernens auf die durch Gleichung (11) ausgedrückte konjugierte Gradientenrichtung unter Verwendung der Maximalgefällerichtung &sub1; bei P&sub1; festgelegt, sowie auch die Gewichtungsänderungsrichtung &sub0; (= &sub0;) in der ersten Iteration des Lernens. Der Fehlerminimumpunkt P&sub2; für die Richtung von &sub1; kann durch das Linie-Suchen in der Richtung von &sub1; erhalten werden. Da die konjugierte Gradientenrichtung immer als Gewichtungsänderungsrichtung genommen wird, wie in Fig. 15 gezeigt, kann der Fehler mit weniger Iterationen als im Fall von Fig. 11 minimiert werden, bei dem die Maximalgefällerichtung immer als Gewichtungsänderungsrichtung genommen wird. Der Grund dafür ist, daß das konjugierte Gradienten-Verfahren, in welchem die Gewichtungsänderungsrichtungen in einem Gewichtungsraum bei jeweiligen Iterationen des Lernens so festgesetzt sind, daß sie sich voneinander unterschieden, die Gewichtung im allgemeinen effektiver als das Maximalgefälle-Verfahren ändern kann, bei welchem die Gewichtung aufbasis des lokalen Gradienten auf einer Gewichtungskurve geändert wird. Auf diese Weise wird in Übereinstimmung mit diesem Ausführungsbeispiel die Gewichtungsänderungsrichtung auf die konjugierte Gradientenrichtung durch die Konjugiert-Gradientenrichtungs-Bestimmungseinheit 15 festgesetzt, die Lernrate durch die Linie-Sucheinheit 67 und die Parabel-Approximationseinheit 68 erhalten, so daß der Fehler in der Gewichtungsänderungsrichtung minimiert werden kann, und die optimale Lernrate wird verwendet, um die Gewichtung durch die Gewichtungsänderungseinheit 65 zu ändern. Somit kann die zum Lernen erforderliche Zeit verkürzt werden.
Zusätzlich kann, auch wenn in diesem Ausfühüngsbeispiel die Konjugiert-Gradientenrichtungs-Bestimmungseinheit 15 die Gewichtungsänderungsrichtung auf die durch Gleichung (4) ausgedrückte Maximalgefällerichtung für die erste Iteration des Lernens festlegt, und für die zweite Iteration des Lernens und die folgenden, diese auf die Maximalgefällerichtung für dasjenige Lernen festlegt, welches in jeder Anzahl der Iterationen auszuführen ist die gleich der Anzahl der Gewichtungen ist, sowie auf die konjugierte Gradientenrichtung für dasjenige Lernen festlegt, welches bei jeder anderen Anzahl der Iterationen auszuführen ist, sie die Gewichtungsänderungsrichtung für die zweite Iteration des Lernens und die folgenden auf die Maximalgefällerichtung für das Lernen festsetzen, welches bei jeder halben Anzahl von Iterationen auszuführen ist, die der Anzahl der Gewichtungen gleich ist, und auf die konjugierte Gradientenrichtung für dasjenige Lernen festsetzen, welches bei jeder anderen Anzahl von Iterationen auszuführen ist. Darüber hinaus kann, wenn der Fehler nicht geringer wird als der Fehler am Anfangspunkt, obwohl das Linie-Suchen in der konjugierten Gradientenrichtung erfolgt ist, um die Lernrate kleiner zu machen, als einen vorbestimmten Wert &epsi;min, die Gewichtungsänderungsrichtung von der konjugierten Gradientenrichtung auf die Maximalgefällerichtung geändert werden. Auf diese Weise kann, indem die Gewichtungsänderungsrichtung zur Maximalgefällerichtung geändert wird, wenn die konjugierte Gradientenrichtung nicht als Gewichtungsänderungsrichtung geeignet ist, der globale Fehlerminimumpunkt in einer kürzeren Zeit erreicht werden.
Darüber hinaus kann, auch wenn in diesem Ausführungsbeispiel die verborgene Schicht 22 aus den Multi-Input-Single-Output-Schaltungen besteht, von denen jede zwei Eingangssignale verarbeitet, um ein Ausgangssignal zu liefern, wie bei der in Fig. 1 gezeigten allgemeinen Anordnung der herkömmlichen lernenden Maschine, die verborgene Schicht 22 aus einer beliebigen Anzahl von Multi-Input-Single-Output-Schaltungen bestehen, und sie kann aus den Multi-Input-Single-Output-Schaltungen bestehen, die in einer hierarchischen Struktur verschaltet sind.
Fig. 16 zeigt eine Anordnung der lernenden Maschine mit Multi-Input-Single-Output-Schaltungen, die in einer hierarchischen Struktur verschaltet sind, gemäß einem dritten Ausführungsbeispiel der vorliegenden Erfindung. In Fig. 16 bezeichnet 77 eine Verborgen-Schicht-Produktsummen-Speichereinheit; 78 eine Linie-Sucheinheit; und 79 eine lernende Schaltung. In diesem Ausführungsbeispiel berechnet die Fehlerberechnungseinheit 14 den Fehler von der Differenz zwischen Leitsignalen und tatsächlichen Ausgangssignalen. Die konjugierte Gradientenrichtungs-Bestimmungseinheit 15 legt die Gewichtungsänderungsrichtung auf die durch Gleichung (4) ausgedrückte Maximalgefällerichtung für die erste Iteration des Lernens fest, und legt sie für die zweite Iteration des Lernens und die folgenden auf die Maximalgefällerichtung für das Lernen fest, welches bei jeder Anzahl von Iterationen auszuführen ist, die gleich der Anzahl der Gewichtungen ist, und legt sie auf die konjugierte Gradientenrichtung für dasjenige Lernen fest, welches bei jeder anderen Anzahl der Iterationen auszuführen ist.
Die Lerninitialisierungseinheit 66 legt die anfängliche Lernrate &epsi;&sub1; für die erste Iteration des Lernens fest, und den größeren Wert zwischen &epsi;&sub1; und der bei der vorhergehenden Gewichtungsänderungen verwendeten Lernrate für die zweite Iteration des Lernens und die folgenden. Die Linie-Sucheinheit 78 in diesem Ausführungsbeispiel ist eine Kombination der Geraden-Sucheinheit 67 und der Parabel-Approximationseinheit 68 in Fig. 14. Daher wiederholt die Linie- Sucheinheit 78, wenn der Fehler für eine anfängliche Lernrate geringer ist als der Fehler am Anfangspunkt, eine Verdoppelungsoperation der Lernrate &epsi;, um einen Gewichtungsänderungsumfang zu liefern, bis der Fehler anzusteigen beginnt, oder die Linie-Sucheinheit 78 wiederholt, wenn der Fehler für eine anfängliche Lernrate größer geworden ist als der Fehler am Anfangspunkt, eine Verminderungsoperation der Lernrate um die Hälfte, um einen Gewichtungsänderungsumfang zu liefern, bis der Fehler kleiner wird als der Fehler am Anfangspunkt. Danach approximiert die Linie-Sucheinheit 78 die Fehlerkurve in der Umgebung des Fehlerminimumpunktes, anhand der Parabel, die durch die drei Minimumfehlerpunkte hindurchgeht, um den Fehler in der Nähe des oberen Endes zu liefern. Auf diese Weise variiert die Linie-Sucheinheit 78 bei fester Gewichtungsänderungsrichtung die Lernrate und erhält einen Gewichtungsänderungsumfang, der einen minimalen Fehler ergibt; dieses Ausführungsbeispiel unterscheidet sich vom dritten Ausführungsbeispiel darin, daß das Ausgangssignal von der verborgenen Schicht durch die Verborgen-Schicht-Produktsummen-Speichereinheit erhalten wird.
Fig. 17 zeigt die Details der Verborgen-Schicht-Produktsummen-Speichereinheit 77 in Form eines Blockdiagramms. In Fig. 17 bezeichnet 80 den Eingangsanschluß der Eingangssignale; 81 den Eingangsanschluß der Änderungsrichtungen; 82 den Eingangsanschluß der Gewichtungen; 83 den Eingangsanschluß von einem Lernparameter; 84 den Ausgangsanschluß von einem Verborgen-Schlcht-Ausgangssignal; 85, 86 und 87 Multiplizierer; 88 eine Einheit zum Speichern der Produktsumme der Eingangssignale und der Änderungsrichtungen; 90 einen Addierer; und 91 eine nichtlineare Umwandlungseinheit. Das Verborgen-Schicht-Ausgangssignal yp [j] für das Eingangssignal yp [i] kann ausgedrückt werden durch
wobei w[i, j] die mit dem Eingangssignal yp [i] multiplizierte Gewichtung ist, wenn sie einer j-ten Multi-Input-Single-Output-Schaltung zugeführt wird, und fnc ( ) eine charakteristische Funktion der in der verborgenen Schicht beinhaketen Addierer ist; diese charakteristische Funktion ist eine nichtlineare Funktion, die eine Sättigungscharakteristik besitzt. Angenommen, daß die Komponente der Gewichtungsänderungsrichtung , die durch konjugierte Gradientenrichtungsbestimmungseinheit 15 erhalten wird, welche dem Änderungsumfang von w [i, j] entspricht, d [i, j] ist, wird das Verborgen-Schicht-Ausgangssignal yp [j] für eine Lernrate &epsi; ausgedrückt durch
Daher ist es erforderlich, die Multiplikation doppelt so oft wie die Anzahl der Eingangssignale auszuführen, immer wenn yp [j] erhalten oder berechnet werden soll. In diesem Ausführungsbeispiel kann, durch vorheriges Speichern der Produktsumme der Eingangssignale und der Gewichtungen in der Speichereinheit 89
und der Produktsumme der Eingangssignale und der Gewichtungsänderungsrichtungen in der Speichereinheit 89
das Verborgen- Schlcht-Ausgangssignal yp [j] für die Lernrate &epsi; erhalten werden durch
Und zwar multipliziert der Multiplizierer 87 die Lernrate &epsi; mit der Ausgangsgröße Bp [j] von der Speichereinheit 88 für die Produktsumme der Eingangssignale und der Gewichtungsänderungsrichtungen, und der Addierer 90 erhält die Summe (Ap [j] + &epsi; * Bp [j] von dem auf diese Weise erhaltenen &epsi; * Bp [j] und der Ausgangsgröße Ap [j] von der Speichereinheit 89 für die Produktsumme der Eingangssignale und Gewichtungen. Die nichtlineare Umwandlungseinheit 91 unterzieht die Ausgangsgröße vom Addierer 90 einer nichtlinearen Umwandlung, die zur charakteristischen Funktion der Addierer in der verborgenen Schicht äquivalent ist, um das durch Gleichung (22) ausgedrückte yp [j] zu liefern. Auf diese Weise ist bei dem Linie-Suchen entlang der Gewichtungsänderungsrichtung die Multiplikation genauso oft erforderlich wie in dem dritten Ausführungsbeispiel, um das Verborgen-Schicht-Ausgangssignal yp [j] für die anfängliche Lernrate zu liefern, und die Multiplikation ist nur eineinziges mal erforderlich, um das Verborgen-Schicht-Ausgangssignal yp [j] für die weitere Lernrate zu liefern.
Dies verringert die Anzahl der Operationen beim Linie-Suchen erheblich und verkürzt dadurch die zum Lernen benötigte Zeit.
Zusätzlich kann, auch wenn in diesem Ausfürungsbeispiel die Gewichtungsänderungsrichtung auf die konjugierte Gradientenrichtung festgelegt ist, die durch die Konjugiert-Gradientenrichtungs-Bestimmungseinheit 15 erhalten wird, sie auf die Maximalgefällerichtung festgelegt sein.
Darüber hinaus kann, auch wenn in diesem Ausführungsbeispiel die verborgene Schicht 22 aus den Multi-Input-Single-Output-Schaltungen besteht, von denen jede zwei Eingangssignale verarbeitet, um ein Ausgangssignal zu liefern, wie in der allgemeinen Anordnung der herkömmlichen lernenden Maschine in Fig. 1 gezeigt, die verborgene Schicht 22 aus einer beliebigen Anzahl von Multi-Input-Single-Output-Schaltungen bestehen, und sie kann aus den Multi-Input-Single-Output-Schaltungen bestehen, die in einer hierarchischen Struktur verschaltet sind.
Fig. 18 zeigt eine Anordnung der lernenden Maschine mit Multi-Input-Single-Output-Schaltungen, die in einer hierarchischen Struktur verschaltet sind, gemäß einem vierten Ausführungsbeispiel der vorliegenden Erfindung. In Fig. 18 bezeichnet 92 eine Nichteffektiv-Lernzustands-Erfassungseinheit und 93 eine lernende Schaltung. In der lernenden Maschine gemäß diesem Ausführungsbeispiel bestimmt die Konjugiert-Gradientenrichtungs-Bestimmungseinheit 15 eine Gewichtungsänderungsrichtung; die Linie-Sucheinheit 78 legt mehrere Lernraten in der Gewichtungsänderungsrichtung fest, um einen Gewichtungsänderungsumfang zu liefern, der einen minimalen Fehler ergibt; und die Gewichtungsänderungseinheit 65 ändert die Gewichtung. Die Nichteffektiv-Lernzustands-Erfassungseinheit 92 vergleicht den Fehler vor der Gewichtungsänderung mit dem nach der Gewichtungsänderung; wenn die Gewichtungsänderungsrichtung die Maximalgefällerichtung ist, und ebenso die Abnahmerate des Fehlers geringer ist als ein bestimmter Wert, erfaßt die Nichteffektiv-Lernzustands-Erfassungseinheit 92, daß das Lernen in einen Zustand gefallen ist, in dem weiteres Fortschreiten des Lernens nicht in effektiver Weise den Fehler verringern kann, und initialisiert die Gewichtungen durch Zufallszahlen, um das Lernen neu zu beginnen. Somit wird in Übereinstimmung mit diesem Ausführungsbeispiel, wenn von der Nichteffektivitätszustands-Erfassungseinheit 92 erfaßt wird, daß das Lernen in einen nichteffektiven Zustand gefallen ist, die Gewichtung neu angepaßt, um das Lernen neu zu beginnen; dies verhindert, daß das Lernen in den Nichteffektivitätszustand fällt und verkürzt dadurch die für das Lernen benötigte Zeit.
Zusätzlich kann, auch wenn in diesem Ausführungsbeispiel die Nichteffektivitätszustands-Erfassungseinheit 92 den nichteffektiven Lernzustand erfaßt, indem sie erfaßt, daß die Gewichtungsänderungsrichtung die Maximalgefällerichtung ist und ebenso die Fehlerabnahmerate geringer ist als ein bestimmter Wert, der Nichteffektivitätszustand erfaßt werden, indem erfaßt wird, daß der absolute Wert der Gewichtung größer ist als ein bestimmter Wert. Darüber hinaus können, auch wenn in diesem Ausführungsbeispiel die Gewichtungen angepaßt werden, indem alle Gewichtungen durch Zufallszahlen initialisiert werden, diese angepaßt werden können indem gleichermaßen alle Gewichtungen komprimiert werden, oder indem nur die maximale Gewichtung komprimiert wird.
Darüber hinaus kann, auch wenn in diesem Ausführungsbeispiel die verborgene Schicht 22 aus den Multi-Input-Single-Output-Schaltungen besteht, von denen jede zwei Eingangssignale verarbeitet, um ein Ausgangssignal zu liefern, wie in der allgemeinen Anordnung der herköminlichen lernenden Maschine in Fig. 1 gezeigt, die verborgene Schicht 22 aus einer beliebigen Anzahl von Multi-Input-Single-Output-Schaltungen bestehen, und sie kann aus den Multi-Input-Single-Output-Schaltungen bestehen, die in einer hierarchischen Struktur verschaltet sind.

Claims

1. Eine lernende Maschine mit Multi-Input-Single-Ontput-Schaltungen, die in einer hierarchischen Struktur verschaltet sind, aufweisend:

eine verborgene Schicht (22), die aus mehreren Multi-Input-Single-Output- Schaltungen besteht, welche eine gewichtete Summe von Eingangssignalen einer nicht-linearen Verarbeitung durch eine charakteristische Funktion, welche eine Sättigungscharakteristik besitzt, unterziehen, um Ausgangssignale zu liefern;

eine Ausgangsschicht (21), die aus mehreren Multi-Input-Single-Output- Schaltungen besteht, welche eine gewichtete Summe der Ausgangssignale von der verborgenen Schicht einer nicht-linearen Verarbeitung durch eine charakteristische Funktion, welche eine Sättigungscharakteristik besitzt, unterziehen, um Ausgangssignale zu liefern;

eine Leitsignalerzeugungseinheit (13) zum Erzeugen von gewünschten Leitsignalen für die Ausgangsschicht;

eine Fehlerberechnungsschaltung (14) zum Liefern eines Fehlersignals, welches den Fehler zwischen den Leitsignalen von der Leitsignalerzeugungseinheit und den tatsächlichen Ausgangssignalen von der Ausgangsschicht darstellt;

eine Maximalgefällerichtungs-Berechnungseinheit (28) für das Erhalten der Richtung des größten Gefälles des Fehlersignals von der Fehlerberechnungsschaltung; und

eine Gewichtungsänderungseinheit (16) zum Andern der Gewichtungen,

gekennzeichnet durch

eine Konjugiert-Gradientenrichtungs-Berechnungseinheit (20) zum Erhalten der der konjugierten Gradientenrichtung basierend auf der Maximalgefällerichtung von der Maximalgefällerichtungs-Berechnungseinheit und der vorhergehenden Gewichtungsänderungsrichtung von der Nachfolge-Gewichtungs-Richtungsbestimmungseinheit; und

eine Gewichtungsänderungsrichtungs-Bestimmungseinheit (30), um die Gewichtungsänderungsrichtung entweder auf eine der konjugierten Gradientenrichtungen von der Konjugiert-Gradientenrichtungs-Berechnungseinheit oder eine größte Gefällerichtung von der Maximalgefällerichtungs-Berechnungseinheit festzulegen; und wobei

die Gewichtungsänderungseinheit (16) so angeordnet ist, daß die Gewichtungen auf Basis der Gewichtungsänderungsrichtung geändert werden, die durch die Gewichtungsänderungsrichtungs-Bestimmungseinheit erhalten wurden,

wobei der Umfang der Änderung des Gewichtungsvektors gegeben ist durch:

Δw = -&epsi; (dE)/(dw) + α Δw' (2)

wobei &epsi; = Lernparameter,

α = Beschleunigungsparameter,

- (dE)/(dw) = Maximalgefällerichtung = g,

Δw' = Gewichtungsänderungsumfang im vorhergehenden Lernen

und wobei die konjugierte Gradiententichtung gegeben ist durch:

d = g = β d'

mit β=( g ²)/( g' ²)

wobei β eine Konstante, g' die Maximalgefällerichtung im vorhergehenden Lernen, und d' die konjugierte Gradientenrichtung im vorhergehenden Lernen ist.

2. Eine lernende Maschine nach Anspruch 1, die eine Liniensucheinheit (67) zum Erzeugen von Gewichtungsänderungsumfängen für mehrere Lernraten bezüglich der Gewichtungsänderungsrichtung aufweist, wobei die Gewichtungsänderungseinheit (65) die Gewichtungsänderungsumfänge von den durch die Liniensucheinheit erhaltenen Gewichtungsänderungsumfängen auswählt.

3. Eine lernende Maschine nach Anspruch 1, aufweisend:

eine Liniensucheinheit (78) zum Erzeugen von Gewichtungsänderungsumfängen für mehrere Lernraten bezüglich der Gewichtungsänderungsrichtung; und

eine Verborgen-Schicht-Produktsummenspeichereinheit (77) zum Speichern einer Produktsumme von Eingangssignalen und Gewichtungen der verborgenen Schicht und einer Produktsumme von Eingangssignalen und der Gewichtungsänderungsrichtung der verborgenen Schicht;

wobei die Gewichtungsänderungseinheit (65) die Gewichtungsänderungsumfänge von den durch die Liniensucheinheit erhaltenen Gewichtungsänderungsumfängen auswählt.

4. Eine lernende Maschine nach Anspruch 1, aufweisend:

eine Liniensucheinheit (78) zum Erzeugen von Gewichtungsänderungsumfängen für mehrere Lernraten bezüglich der Gewichtungsänderungsrichtung;

wobei die Gewichtungsänderungseinheit (65) die Gewichtungsänderungsumfänge von den durch die Liniensucheinheit erhaltenen Gewichtungsänderungsumfängen auswahlt; und

eine Nicht-Effektiv-Lernzustands-Erfassungseinheit (92) zum Erfassen, daß das Lernen in einen nicht-effektiven Zustand gefallen ist, in dem weiteres Lernen nicht in effektiver Weise den Fehler vermindert.

5. Eine lernende Maschine nach Anspruch 1, aufweisend:

wobei die Gewichtungsänderungseinheit (65) die Gewichtungsänderungsumfänge von den durch die Liniensucheinheit erhaltenen Gewichtungsänderungsumfängen auswänlt; und

eine Verborgen-Schicht-Produktsummenspeichereinheit (77) zum Speichern einer Produktsumme von Eingangssignalen und Gewichtungen der verborgenen Schicht und einer Produktsumme von Eingangssignalen und der Gewichtungsänderungsrichtung der verborgenen Schicht; und

6. Eine lernende Maschine nach Anspruch 1, bei der die Gewichtungsänderungsrichtungs-Bestimmungseinheit (15) die Gewichtungsänderungsrichtung für die erste Iteration des Lernens auf die Maximalgefällerichtung festsetzt, und, flir die zweite Iteration des Lernens und die folgenden, sie diese für das Lernen, das bei jeder Anzahl der Iterationen auszuführen ist, die gleich der Anzahl der Gewichtungen ist, auf die Maximalgefällerichtung festlegt, und sie diese für das Lernen, das bei jeder anderen Anzahl der Iterationen auszuführen ist, auf die konjugierte Gradientenrichtung festlegt.

7. Eine lernende Maschine nach Anspruch 1, bei der die Gewichtungsänderungsrichtungs-Bestimmungseinheit (15) die Gewichtungsänderungsrichtung für die erste Iteration des Lernens auf die Maximalgefällerichtung festsetzt, und, für die zweite Iteration des Lernens und die folgenden, sie diese für das Lernen, das bei jeder Anzahl der Iterationen auszuführen ist, die gleich der halben Anzahl der Gewichtungen ist, auf die Maximalgefällerichtung festlegt, und sie diese für das Lernen, das bei jeder anderen Anzahl der Iterationen auszuführen ist, auf die konjugierte Gradiententichtung festlegt.

8. Eine lernende Maschine nach Anspruch 1, bei der die Gewichtungsänderungsrichtungs-Bestimmungseinheit (15) die Gewichtungsänderungsrichtung für die erste Iteration des Lernens auf die Maximalgefällerichtung festsetzt, und, für die zweite Iteration des Lernens und die folgenden, sie diese auf die Maximalgefällerichtung festlegt, wenn der Fehler nicht geringer wird als der Fehler am Anfangspunkt, sogar wenn das Liniensuchen in einer konjugierten Gradientenrichtung die Lernrate kleiner als einen vorbestimmten Wert gemacht hat, und sie diese für das Lernen, das bei jeder anderen Anzahl der Iterationen auszuführen ist, auf die konjugierte Gradiententichtung festlegt.

9. Eine lernende Maschine nach Anspruch 1, bei der die Gewichtungsänderungsrichtungs-Bestimmungseinheit (15) die Gewichtungsänderungsrichtung für die erste Iteration des Lernens auf die Maximalgefällerichtung festsetzt, und, für die zweite Iteration des Lernens und die folgenden, sie diese auf die Maximalgefällerichtung festlegt, wenn der Fehler nicht geringer wird als der Fehler am Anfangspunkt, sogar wenn das Linien suchen in einer konjugierten Gradientenrichtung den Gewichtungsänderungsumfang kleiner als einen vorbestimmten Wert gemacht hat, und sie diese für das Lernen, das bei jeder anderen Anzahl der Iterationen auszuführen ist, auf die konjugierte Gradientenrichtung festlegt.

10. Eine lernende Maschine nach Anspruch 2, bei der die Gewichtungsänderungseinheit (65) die Gewichtungen durch einen Gewichtungsänderungsumfang ändert, welcher einen minimalen Fehler liefert.

11. Eine lernende Maschine nach Anspruch 2, bei der beim Erzeugen der Gewichtungsänderungsumfänge für mehrere Lernraten bezüglich der Gewichtungsänderungsrichtung die Liniensucheinheit für die zweite Iteration des Lernens und die folgenden einen Initialwert der Lernrate auf den größeren Wert zwischen einem festen Wert und einem optimalen Wert in der vorhergehenden Iteration des Lernens festsetzt.

12. Eine lernende Maschine nach Anspruch 4, bei der die Nicht-Effektiv-Zustands-Erfassungseinheit den nicht-effektiven Lernzustand erfaßt, indem sie erfaßt, daß die Gewichtungsänderungsrichtung die Maximalgefällerichtung ist und die Fehlerverminderungsrate geringer als ein vorbestimmter Wert ist.

13. Eine lernende Maschine nach Anspruch 4, bei der die Nicht-Effektiv-Zustands-Erfassungseinheit den nicht-effektiven Lernzustand erfaßt, indem sie erfaßt, daß die Gewichtungsänderungsrichtung die Maximalgefällerichtung ist und die Fehlerverminderungsrate geringer als ein vorbestimmter Wert ist, und jede Gewichtung durch eine Zufallszahl initialisiert, um das Lernen wieder zu beginnen.

14. Eine lernende Maschine nach Anspruch 4, bei der die Nicht-Effektiv-Zustands-Erfassungseinheit den nicht-effektiven Lernzustand erfaßt, indem sie erfaßt, daß die Gewichtungsänderungsrichtung die Maximalgefällerichtung ist und die Fehlerverminderungsrate geringer als ein vorbestimmter Wert ist, und gleichermaßen alle Gewichtungen komprimiert, um sie neu anzupassen, um das Lernen wieder zu beginnen.

15. Eine lernende Maschine nach Anspruch 4, bei der die Nicht-Effektiv-Zustands-Erfassungseinheit den nicht-effektiven Lernzustand erfaßt, indem sie erfaßt, daß der Absolutwert von jeder Gewichtung größer als ein vorbestimmter Wert ist.

16. Eine lernende Maschine nach Anspruch 4, bei der die Nicht-Effektiv-Zustands-Erfassungseinheit den nicht-effektiven Lernzustand erfaßt, indem sie erfaßt, daß der Absolutwert von jeder Gewichtung größer als ein vorbestimmter Wert ist, und jede Gewichtung durch eine Zufallszahl initialisiert, um das Lernen wieder zu beginnen.

17. Eine lernende Maschine nach Anspruch 4, bei der die Nicht-Effektiv-Zustands-Erfassungseinheit den nicht-effektiven Leruzustand erfaßt, indem sie erfaßt, daß der Absolutwert von jeder Gewichtung größer als ein vorbestimmter Wert ist, und gleichermaßen alle Gewichtungen komprimiert, um das Lernen wieder zu beginnen.

18. Eine lernende Maschine nach Anspruch 4, bei der die Nicht-Effektiv-Zustands-Erfassungseinheit den nicht-effektiven Lernzustand erfaßt, indem sie erfaßt, daß der Absolutwert von jeder Gewichtung größer als ein vorbestimmter Wert ist, und lediglich die Gewichtung, die den größten Absolutwert besitzt, komprimiert, um das Lernen wieder zu beginnen.