DE69014613T2

DE69014613T2 - Genetische synthese von neuronalen netzwerken.

Info

Publication number: DE69014613T2
Application number: DE69014613T
Authority: DE
Inventors: Aloke Minneapolis Mn 55417 Guha; Steven A. St. Paul Mn 55108 Harp; Tariq Minneapolis Mn 55410 Samad
Original assignee: Honeywell Inc
Current assignee: Honeywell Inc
Priority date: 1989-03-28
Filing date: 1990-02-21
Publication date: 1995-06-22
Anticipated expiration: 2010-02-22
Also published as: DE69014613D1; EP0465489A1; CA2050686A1; EP0465489B1; US5140530A; WO1990011568A1; CA2050686C; JPH04503876A; ATE114837T1; JP2881711B2

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren zur Verwendung von Lerntechniken des genetischen Typs im Zusammenhang mit dem Entwurf einer Vielzahl neuronaler Netzwerke, die für spezifische Anwendungen optimiert sind.
Vorausgegangene Arbeiten beim Entwurf von neuronalen Netzwerken haben die Schwierigkeit bei der Festlegung einer geeigneten Netzwerkstruktur und guter Werte für die Parameter der Lernregeln für spezifische Anwendungen aufgedeckt.
Der genetische Algorithmus ist ein Optimierverfahren, basierend auf der statistischen Auswahl und der Rekombination. Das Verfahren wird inspiriert durch natürliche Auswahl. Wenige Forscher (Dolan & Dyer (1987), Dress & Knisely (1987), Davis (1988), Montana und Davis (1989) und Whitley (1988)) haben genetische Algorithmen in einer begrenzten Weise angewendet, um neuronale Netzwerke für spezifische Probleme zu erzeugen. Beispielsweise verwenden Davis und Montana (1988, 1989) und Whitley (1988) den genetischen Algorithmus, um Gewichtungen einzustellen, wenn eine feste Netzwerkstruktur vorgegeben ist.
In der beanspruchten Erfindung ist eine allgemeine Darstellung von neuronalen Netzwerkarchitekturen mit der genetischen Lernstrategie verbunden, um eine flexible Umgebung für den Entwurf von üblichen neuronalen Netzwerken zu schaffen. Ein Konzept, auf dem die Erfindung basiert, ist die Darstellung eines Netzwerkentwurfes als eine "genetische Blaupause", wobei die Rekombination oder Mutation von nacheinander erzeugten Ausgaben solcher Blaupausen in unterschiedlichen aber zueinander bezogenen Netzwerkarchitekturen resultieren.
Um die Erfindung zu veranschaulichen, wird hier ein System für die genetische Synthese einer speziellen Klasse von neuronalen Netzwerken beschrieben, die wir verwirklicht haben. Unsere gegenwärtige Verwirklichung ist beschränkt auf Netzwerkstrukturen ohne Rückführungsverbindungen und beinhaltet die Lernregel der rückwärtigen Fortpflanzung. Die Erfindung kann jedoch für beliebige Netzwerkmodelle und Lernregeln verwendet werden.
Das vorliegende Verfahren beinhaltet die Verwendung von genetischen algorithmischen Verfahren, um neue neuronale Netzwerke zu entwerfen. Der genetische Algorithmus (GA) ist ein robustes, die Funktion optimierendes Verfahren. Seine Verwendung wird angezeigt über Gradienten- Abstiegstechniken für Probleme, die mit lokalen Minima, Diskontinuitäten, Rauschen oder einer großen Anzahl von Dimensionen beladen sind. Ein nützliches Merkmal des GA liegt darin, daß er extrem gut bewertet und eine erhöhte Anzahl von Dimensionen vergleichsweise wenig Einfluß auf die Leistung besitzt. Der erste Schritt bei der Anwendung des GA auf eine Funktion liegt in der Codierung des Parameterraums einer Folge von (typischerweise binären) Ziffern. Subfolgen in solch einer Darstellung entsprechen Parametern der zu optimierenden Funktion. Eine spezielle Einzel-Bitfolge (d.h. irgendeine Auswahl von 1 oder 0 für jede Position) repräsentiert einen Punkt in dem Parameterraum der Funktion. Der GA zieht eine Population solcher Einzeldarstellungen in Betracht. Die Population zusammen mit dem Wert der Funktion für jede Einzeldarstellung (allgemein als "Brauchbarkeit" bezeichnet), stellt den Zustand der Suche für die optimale Folge dar. Der GA schreitet fort durch implizite Informationscodierung um die Funktion in der Statistik der Population und durch Verwendung dieser Information, um neue Einzeldarstellungen zu bilden. Die Population wird zyklisch erneuert gemäß einem reproduktiven Plan. Jede neue "Generation" der Population wird gebildet, indem zunächst die vorangegangene Generation entsprechend ihrer Brauchbarkeit abgetastet wird; Das für die differentielle Auswahl verwendete Verfahren ist als ein nahezu optimales Verfahren bei der Abtastung des Suchraumes bekannt. Neue Folgen werden gebildet durch Veränderung ausgewählter Einzeldarstellungen mit genetischen Operatoren. Herauszuheben unter diesen ist der Kreuzungsoperator, der synthetisch neue Folgen bildet, indem er Segmente von zwei abgetasteten Einzeldarstellungen miteinander verspleißt.
Ein Hauptziel der Erfindung ist die Vorgabe eines neuen Verfahrens für den Entwurf optimierter künstlicher neuronaler Netzwerke wie zuvor erwähnt.
Andere Ziele und Vorteile der Erfindung gehen aus der folgenden Beschreibung, den angefügten Ansprüchen und den beigefügten Zeichnungen hervor.
Es zeigen:
Fig. 1 ein mehrschichtiges neuronales Netzwerk des Typs, der für einen speziellen Zweck gemäß dem Verfahren der vorliegenden Erfindung entworfen werden kann;
Fig. 2 schematisch, wie eine Population von "Blaupausen" (Entwürfe für verschiedene neuronale Netzwerke) zyklisch durch den genetischen Algorithmus basierend auf ihrer Brauchbarkeit fortgeschrieben wird;
Fig. 3 schematisch ein Beispiel eines dreischichtigen Netzwerkes, welches durch eine Bitfolge-Darstellung gemäß der Erfindung beschrieben werden kann;
Fig. 4 eine Bitfolge-Darstellung, die die Ausübung der Erfindung erleichtert;
Fig. 5 die Rohanatomie einer Netzwerkdarstellung mit Bereichen oder Schichten 0 bis N;
Fig. 6 eine Anordnung von Bereichen (oder Schichten) und sich dazwischen erstreckenden Projektionen;
Fig. 7 die räumliche Organisation von Schichten;
Fig. 8 und 9 Beispiele für absolute und relative Adressierung für die Festlegung der Zieldestinationen von Projektionen, die sich von einer Schicht zu der anderen Schicht erstrecken;
Fig. 10 bis 12 Veranschaulichungsbeispiele der den Bereich festlegenden Subfolge von Fig. 4;
Fig. 13a, 13b und 13c Projektionsmerkmale, die sich auf Verbindungen zwischen den Schichten des Netzwerkes beziehen;
Fig. 14a, 14b und 14c ein schematisches Beispiel einer spezifischen Netzwerkstruktur, wie sie durch das vorliegende Verfahren erzeugt wird mit unterschiedlichen Detailpegeln;
Fig. 15 den grundlegenden reproduktiven Plan, wie er bei Experimenten nach dem vorliegenden Verfahren verwendet wird;
Fig. 16a, 16b und 16c ein Beispiel der Wirkungsweise eines genetischen Operators;
Fig. 17 die prinzipiellen Datenstrukturen in einem laufenden Verwirklichungsprogramm mit einer zerlegten und verwirklichten Einzeldarstellung; und
Fig. 18 bis 21 Leistungskurven, die auf die Lerngeschwindigkeit der Netzwerke bezogen sind.
Das vorliegende Verfahren bezieht sich auf den Entwurf von mehrschichtigen künstlichen neuronalen Netzwerken des allgemeinen Typs 10, wie er in Fig. 1 gezeigt ist. Das Netzwerk 10 ist mit drei Schichten (oder Bereichen) 12, 14 und 16 dargestellt, kann aber auch mehr als drei Schichten oder falls gewünscht, auch nur eine Schicht aufweisen. Jede der Schichten besitzt Berechnungseinheiten 18, die über Verbindungen 19 verbunden sind, denen variable Gewichtungen gemäß der Lehre des Standes der Technik zugeordnet sind.
In dieser und den anderen Figuren sind Verbindungen in Vorwärts-Zuführrichtung gezeigt. Die Erfindung ist jedoch nicht auf diesen Aufbau beschränkt und Rückführverbindungen können beispielsweise ebenfalls vorgesehen sein.
Ferner ist der Umfang des Verfahrens für den Netzwerksentwurf, wie er hier offenbart ist, nicht auf den Entwurf des in Fig. 1 gezeigten Netzwerkes beschränkt.
Fig. 2 veranschaulicht schematisch, wie eine Population von Blaupausen 20 (d.h. Bitfolgeentwürfe für unterschiedliche neuronale Netzwerke) zyklisch durch einen genetischen Algorithmus, basierend auf ihrer Brauchbarkeit, fortgeschrieben wird. Die Brauchbarkeit eines Netzwerkes ist ein kombiniertes Maß seines Wertes für das Problem, welche die Lerngeschwindigkeit, die Genauigkeit und Kostenfaktoren, wie beispielsweise die Größe und Komplexität der Netzwerke in Rechnung stellen kann.
Das Verfahren beginnt mit einer Population von zufällig erzeugten Bitfolgen 20. Die tatsächliche Anzahl solcher Bitfolgen ist ziemlich beliebig, aber eine Populationsgröße von 30 bis 100 scheint empirisch ein guter Kompromiß zwischen Rechenbelastung, Lerngeschwindigkeit und genetischer Drift zu sein.

Lernalgorithmen für neuronales Netzwerk

Lernlösungen für neuronale Netzwerke gliedern sich in drei allgemeine Kategorien: unüberwachtes Lernen, verstärktes Lernen und überwachtes Lernen. Beim unüberwachten Lernen empfängt das Netzwerk keine bewertende Rückführung aus der Umgebung; statt dessen bildet es interne Modelle, basierend auf Eigenschaften von empfangenen Eingängen. Beim verstärkten Lernen liefert die Umgebung ein schwaches Bewertungssignal. Beim überwachten Lernen wird der "gewünschte Ausgang" für das Netzwerk zusammen mit jedem Trainingseingang vorgegeben. Das überwachte Lernen, insbesondere die rückwärtige Fortpflanzung wird verwendet, um die Erfindung zu veranschaulichen, wobei aber im Konzept die Erfindung mit jeder Lernlösung verwendet werden kann.
Die Gruppe von Ein/Ausgangsbeispielen, die für das überwachte Lernen verwendet wird, wird als Trainingsgruppe bezeichnet. Der Lernalgorithmus kann wie folgt umrissen werden: Für jedes Paar (Trainingseingang, gewünschter Ausgang) in der Trainingsgruppe wird
o der Trainingseingang an den Eingang des Netzwerkes angelegt
o der Ausgang des Netzwerkes berechnet
o wenn der Ausgang des Netzwerkes ungleich dem gewünschten Ausgang ist
o so werden die Netzwerkgewichtungen modifiziert.
Die gesamte Schleife durch die Trainingsgruppe, die als eine Epoche bezeichnet wird, wird wiederholt ausgeführt. Von zwei Beendigungskriterien wird eines oder beide gewöhnlicherweise verwendet: Es kann eine untere Grenze für den Fehler über eine Epoche und/oder eine Grenze für die Zahl der Epochen geben. Das Trainieren eines Netzwerkes auf diese Weise ist oftmals sehr zeitaufwendig. Bis bessere Lerntechniken verfügbar werden, ist es besser, die Trainingsphase als eine "Off- Line"-Aktivität zu planen. Wenn das Netzwerk einmal trainiert ist, kann es in Benutzung genommen werden. Die Rechenanforderungen eines solchen Netzwerkes während der Betriebsphase können gewöhnlicherweise mit einer nur rudimentären Hardware für viele interessierende Anwendungen erfüllt werden.
Die Lernlösung für das neuronale Netzwerk, die wir gegenwärtig implementiert haben, ist der wohlbekannte Algorithmus mit rückwärtiger Fortpflanzung. (Werbos, 1974; Le Cun, 1986; Parker 1985; Rumelhart, Hinton & Williams, 1985).
Der Algorithmus mit rückwärtiger Fortpflanzung ist im Anhang B beschrieben.

Blaupausen-Darstellungen

Die vorliegende Erfindung ist hauptsächlich auf eine Darstellung der Blaupause 20 gerichtet, die sowohl festlegt die Struktur und die Lernregel, die genetischen Algorithmusparameter, die festlegen, wie die genetischen operatoren verwendet werden, um bedeutungsvolle und nützliche Netzwerkstrukturen aufzubauen und die Bewertungsfunktion, die die Brauchbarkeit eines Netzwerkes für eine spezifische Anwendung festlegt.
Die Entwicklung einer Bitfolgedarstellung 20 für die neuronale Netzwerkarchitektur eines Netzwerkes 10 ist ein Hauptproblem, mit dem sich das Konzept der Erfindung befaßt. Biologische neuronale Netzwerke werden noch nicht gut genug verstanden, um klare Richtlinien für synthetische Netzwerke vorzugeben und es gibt viele unterschiedliche Wege, um die Organisation und Operation eines Netzwerkes mit Parametern zu versehen.
Die Darstellung von Blaupausen oder Bitfolgen 20 für spezialisierte neuronale Netzwerke sollte idealerweise in der Lage sein, alle möglichen "interessierenden" Netzwerke zu umfassen, d.h. jene, die in der Lage sind, nützliche Arbeit zu vollbringen, während fehlerhafte und bedeutungslose Netzwerkstrukturen ausgeschlossen sein sollen. Es ist augenscheinlich vorteilhaft, den kleinstmöglichen Suchraum von Netzwerkarchitekturen zu definieren, der sicher die beste Lösung für ein vorgegebenes Problem umfaßt. Eine wichtige Folgerung aus diesem Ziel im Zusammenhang mit dem genetischen Algorithmus liegt darin, daß das Schema der Darstellung bezüglich der genetischen Operatoren geschlossen sein sollte. Mit anderen Worten sollte die Rekombination oder Mutation von Netzwerk-Blaupausen immer zu neuen bedeutungsvollen Netzwerk-Blaupausen führen. Es gibt einen schwierigen Kompromiß zwischen kräftiger Leistung und Zulassung von fehlerhaften oder nichtinteressierenden Strukturen.
Fig. 3 zeigt schematisch ein Beispiel, wie jede Schicht eines dreischichtigen Netzwerkes gemäß der Erfindung durch eine Bitfolgedarstellung beschrieben werden kann, die drei Subfolgen 17 umfaßt. Das Format für eine einzelne Subfolge 17 ist detaillierter in Fig. 4 dargestellt.
Die Rohanatomie einer mehrschichtigen Netzwerkdarstellung 20 mit Subfolgeschichten bzw. Bereichen 17 (Bereich 0 bis Bereich N) ist in Fig. 5 veranschaulicht. Konzeptionell sind alle Parameter für ein einzelnes Netzwerk in einer langen Folge von Bits codiert, die die Darstellung 20 von Fig. 5 ist. Die gemusterten Bereiche sind Markierungen, die den Start und das Ende des einzelnen Bereiches bzw. der Schichtesegmente 17 anzeigen.
Der Ausdruck Projektion, wie er hier benutzt wird, hat Bezug zu der Gruppierung bzw. Organisation der Verbindungen 19, welche sich zwischen den Berechnungseinheiten 18 der Schichten der Netzwerke, wie beispielsweise in den Netzwerkdarstellungen der Fig. 1 und 3 erstrecken.
In Fig. 1 stellen die Eingangsverbindungen zu der Schicht 12 eine einzelne Eingangsprojektion und die Ausgangsverbindungen, die sich von der Schicht 16 nach außen erstrecken, eine einzelne Ausgangsprojektion dar. In gleicher Weise stellen die Verbindungen 19 zwischen den Schichten 12 und 14 eine Einzelprojektion und die Verbindungen 19 zwischen den Schichten 14 und 16 eine Einzelprojektion dar.
Ein Beispiel einer Projektionsanordnung für ein spezielles Netzwerk ist in Fig. 6 gezeigt, wobei Projektionen 22 bis 28 für Schichten bzw. Bereiche 31 bis 35 dargestellt sind. Von Interesse ist, daß die Schicht 32 zwei Projektionen 24 und 25 besitzt, die sich zu den Schichten 33 und 34 entsprechend erstrecken. Ferner ist die gegenüberliegende Anordnung von Interesse, wobei die Schicht 35 Projektionen 26 und 27 von den Schichten 33 und 34 entsprechend empfängt.
Jede der Projektionen wird durch drei Linien repräsentiert, welche andeuten, daß jede Projektion aus einer vorbestimmten oder gewünschten Vielzahl von Verbindungen 19 besteht, die sich zwischen zwei speziellen Schichten erstrecken.
Unter Bezugnahme auf Fig. 4 ist erkennbar, daß eine Schicht- oder Bereichs-Spezifikationssubfolge 17, wie sie in dieser Figur veranschaulicht ist, auf jede der Schichten 12, 14 und 16 des Netzwerkes 10 in Fig. 1 anwendbar ist.
Eine Bitfolge 20 ist somit aus einem oder mehreren Segmenten bzw. Subfolgen 17 zusammengesetzt, von denen jede eine Schicht oder einen Bereich und seine nach außen führenden Verbindungen bzw. Projektionen repräsentiert. Jedes Segment ist eine Bereichsspezifikations-Subfolge 17, die aus zwei Teilen besteht:
o Eine Bereichs-Parameterspezifikation (APS), die eine feste Länge aufweist und die Parameter des Bereiches bzw. der Schicht durch ihre Adresse, die Anzahl der Einheiten 18 in ihr und durch ihre Organisation angibt.
o Ein oder mehrere Projektions- Spezifikationsfelder (PSF), die jeweils eine feste Länge aufweisen. Jedes solches Feld beschreibt eine Verbindung von einer Schicht zu einer anderen Schicht. Da die Anzahl der Schichten in dieser Architektur nicht festgelegt ist (obgleich begrenzt), wird die Länge dieses Feldes mit der Anzahl der erforderlichen Projektionsspezifizierer ansteigen. Eine Projektion (z.B. eine der Projektionen 22 bis 28 in Fig. 6) ist festgelegt durch die Adresse des Zielbereiches, den Verbindungsgrad und die Dimension der Projektion zu dem Bereich, usw.
Die Tatsache, daß irgendeine Anzahl von Bereichen 17 vorliegen kann, motiviert die Verwendung von Markierungen mit der Bitfolge, um den Beginn und das Ende von APS und den Beginn von PSF festzulegen. Die Markierungen ermöglichen einem Leseprogramm die Zergliederung irgendeiner wohlgeformten Folge in eine bedeutungsvolle neuronale Netzwerkarchitektur. Die gleichen Markierungen gestatten ferner einem speziellen genetischen Kreuzungsoperator neue Netzwerke aufzudecken, ohne "sinnlose Folgen" zu erzeugen. Die Markierungen werden als "Meta-Struktur" angesehen: sie dienen als ein Rahmenwerk aber sie besitzen tatsächlich keinerlei Bits.
Fig. 4 zeigt, wie die APS und PSF in unserer laufenden Darstellung strukturiert sind. Die Teile der Bitfolge, die individuelle Parameter darstellen, sind in der Figur beschriftete Boxen. Sie sind Subfolgen, die aus einer festen Anzahl von Bits bestehen. Parameter, die durch eine Intervallbewertung (z.B. 0, 1, 2, 3, 4) beschrieben werden, ergeben sich unter Verwendung einer Gray- Codierung, wodurch somit Werte, die dicht an der zugrundeliegenden Bewertung liegen, dicht an der Bitfolgedarstellung liegen (Bethke, 1980, Caruana & Schaffer, 1988).
In der APS besitzt jeder Bereich bzw. jede Schicht eine Identifikationsnummer, die als ein Name dient. Der Name muß nicht einzigartig unter den Bereichen einer Bitfolge sein. Die Eingangs- und Ausgangsbereiche haben die festen Identifizierer 0 und 7 im vorliegenden Ausführungsbeispiel.
Ein Bereich besitzt ferner eine Größe und eine räumliche Organisation. Der "Gesamtgrößen"-Parameter legt fest, wie viele Berechnungseinheiten 18 der Bereich haben wird. Er reicht von 0 bis 7 und wird als der Logarithmus (mit der Basis 2) der tatsächlichen Anzahl von Einheiten interpretiert; wenn beispielsweise die Gesamtgröße 5 ist, so gibt es 32 Einheiten. Die drei "Dimensionsanteil"- Parameter, welche ebenfalls Logarithmen mit der Basis 2 sind, geben eine räumliche Organisation für die Einheiten vor. Die Einheiten der Bereiche können eine 1, 2 oder 3- dimensionale rechteckförmige Ausdehnung besitzen, wie dies in Fig. 7 veranschaulicht ist.
Die Motivation für diese Organisation kommt von der Art der Wahrnehmungsprobleme, für welche neuronale Netzwerke augenscheinlich sehr geeignet sind. Beispielsweise kann ein Bildverarbeitungsproblem am besten durch eine Rechteckanordnung behandelt werden, während ein akustisches Interpretationsproblem nach Vektoren verlangen kann. Die Organisation von Einheiten von herkömmlicheren Lösungen wird oftmals implizit vorgegeben. Bei der vorliegenden Erfindung besitzt die Vielzahl der Dimensionen festgelegte Implikationen für die Architektur von Projektionen, wie beispielsweise die Projektionen 22 bis 28 in Fig. 6.
Die PSF in einem Bereichsegment der Bitfolge legen fest, wo und wie die Ausgänge von Einheiten in dieser Schicht nach außen führende Verbindungen vorgeben (bzw. versuchen vorzugeben). Das Darstellungsschema setzt keine einfache Pipelinearchitektur voraus, wie dies üblich ist. Fig. 6 zeigt z.B. ein Netzwerk mit fünf Bereichen, bei welchem Projektionen von dem zweiten Bereich abgespalten sind und in dem fünften Bereich wieder vereint werden.
Jede PSF zeigt die Identität des Zielbereiches an. Es gibt gegenwärtig zwei Wege, wie diese dies tun kann, die sich durch den Wert eines binären Adressiermodus- Parameters in jeder PSF unterscheiden. Im "Absolut"- Modus wird der Adreßparameter der PSF als ID-Nummer des Zielbereiches genommen. Einige Beispiele der absoluten Adressierung sind in Fig. 8 gezeigt.
Der "Relativ"-Modus zeigt an, daß die Adreßbits die Position des Zielbereichs in der Bitfolge relativ zu dem laufenden Bereich speichern. Eine relative Adresse von Null nimmt Bezug auf den Bereich, der unmittelbar auf den folgt, der die Projektion enthält; eine relative Adresse von n bezieht sich auf den n.ten Bereich hinter diesem, wenn dieser existiert. Relative Adressen, die Bereiche hinter dem Ende der Blaupause anzeigen, werden genommen, um auf den endgültigen Bereich der Blaupause - den Ausgangsbereich - hinzuweisen. Einige Beispiele der relativen Adressierung sind in Fig. 9 gezeigt.
Der Zweck der unterschiedlichen Adressierschemen liegt darin, die Entwicklung von Beziehungen zwischen den Bereichen zu gestatten und diese aufrechtzuerhalten und zu verallgemeinern bei den Erzeugungen durch den reproduktiven Plan des genetischen Algorithmus. Speziell sind die Adressierschemen entworfen, um zu helfen, daß diese Beziehungen den Kreuzungsoperator entweder intakt oder mit möglichst nützlichen Modifikationen überleben können. Die absolute Adressierung gestattet einer Projektion ein neues Ziel anzuzeigen, unabhängig davon, ob dieses Ziel sich in dem Chromosom eines neuen Individuums entwickelt. Die relative Adressierung hilft Bereichen, die eng in der Bitfolge beieinanderliegen, Projektionen aufrechtzuerhalten, auch dann, wenn sich ihre ID verändert.
Bezugnehmend auf die Figuren 10 bis 12 gestatten die Dimensions-Radiusparameter (ebenfalls ein Logarithmus mit der Basis 2) Einheiten in einem Bereich sich nur zu einer lokalisierten Gruppe von Einheiten in dem Zielbereich zu erstrecken. Dieses Merkmal ermöglicht den Zieleinheiten, lokalisierte Wahrnehmungsfelder 29 zu besitzen, die sowohl üblich in biologischen neuronalen Netzwerken sind, als auch höchst wünschenswert vom Standpunkt einer Hardwareverwirklichung sind. Auch innerhalb der Wahrnehmungsfelder 29 beinhalten Projektionen zwischen einem Bereich oder einer Schicht und einem anderen Bereich bzw. einer anderen Schicht nicht notwendigerweise eine volle faktorielle Verbindbarkeit. Der Verbindungs- Dichteparameter für die Projektion kann einen von acht Graden der Verbindbarkeit zwischen 30% und 100% ausbedingen.
An diesem Punkt ist es gut zu erwähnen, daß es auf Grund der Größe der Anzahl der beteiligten Einheiten 18 und der Verbindungen 19 beabsichtigt ist, daß in einem typischen System die Anzahl durch ihren Logarithmus repräsentiert wird. In den Figuren 10 bis 12 und 15, die Beispiele der Subfolge 17 zeigen, werden decodierte Zahlen für Darstellungszwecke verwendet, um ein Verständnis der Konzepte zu erleichtern.
Projektionen umfassen eine Gruppe gewichteter Verbindungen. Die Gewichte werden durch eine Lernregel während des Trainings des Netzwerkes eingestellt. Parameter sind in der PSF enthalten, um die Lernregel für die Einstellung der Gewichte der Projektion zu steuern. Der Eta-Parameter steuert die Lerngeschwindigkeit in der rückwärtigen Fortpflanzung und kann einen von 8 Werten zwischen 0,1 und 12,8 einnehmen. Eta muß während des Trainings nicht konstant bleiben. Ein getrennter Eta- Neigungsparameter steuert die Geschwindigkeit des exponentiallen Abfalls für Eta als eine Funktion der Trainingsepoche.
Ein Beispiel dafür, wie dieses Repräsentationsschema verwendet werden kann, um ein Netzwerk mit drei Schichten festzulegen, ist in Fig. 3 gezeigt.
Die ersten und letzten Bereiche bzw. Schichten des Netzwerkes besitzen einen speziellen Status. Der erste Bereich, der Eingangsbereich, repräsentiert die Gruppe von Anschlüssen, die durch die Umgebung des Netzwerks "festgehalten" werden, welche effektiv die Eingangsanregungen sind. Der letzte Bereich ist immer der Ausgangsbereich und besitzt keine Projektionen.
Eine Blaupausendarstellung in BNF des neuronalen Netzwerkes ist im Anhang A am Ende der Beschreibung beschrieben. Es sei vermerkt, daß es zukünftige Modifikationen und Zusätze zu dieser gibt.
Die Figuren 10 bis 12 zeigen drei Beispiele von Subfolgen 17, welche die Projektions-Spezifizierabschnitte derselben relativ zu dem Radius und den Verbindungs- Dichteparametern veranschaulichen. Diese Figuren zeigen Beispiele von Projektionen 21 von einer Schicht oder einem Bereich 1 zu einer Schicht oder einem Bereich 2. Die Projektion in Fig. 10 ist von einem eindimensionalen Bereich (Bereich 1) zu einem zweidimensionalen Bereich (Bereich 2) und die Projektionen in den Figuren 11 und 12 sind jeweils von einem eindimensionalen Bereich (Bereich 1) zu einem Bereich mit einer anderen Dimension (Bereich 2).
In Fig. 10 ist die dargestellte Projektion zu einer 8 x 4-Projektionsanordnung 29 von Berechnungseinheiten 18 und per Übereinkunft soll diese Anordnung einen Radius von 4 in der vertikalen Richtung und einen Radius von 2 in der horizontalen Richtung besitzen. Die Objektanordnung 29 ist symmetrisch relativ zu der Quelleneinheit 18a im Bereich 1 angeordnet. Da jede Einheit innerhalb der Projektionsanordnung 19 verbunden ist, besitzt der Verbindungs-Dichteparameter den Wert 100.
Es versteht sich, daß jede der Berechnungseinheiten 18 im Bereich 1 in ähnlicher Weise Verbindungen zu entsprechenden 8 x 4-Projektionsanordnungen von Einheiten im Bereich 2 besitzt, was zu einer wesentlichen Überlappung von Projektionsbereichen und zu einem sehr dichten Verbindungssystem führt.
In Fig. 11 erfolgen die Projektionen zu jeder anderen Einheit innerhalb einer linearen Anordnung von 20 Einheiten. Der Radius ist mit 8 angezeigt, aber der Verbindungs-Dichteparameter hat nur einen Wert von 50, da nur die Hälfte der Einheiten innerhalb des Radius miteinander verbunden sind.
Fig. 12 ist ähnlich zu Fig. 11 mit der Ausnahme, daß jede Berechnungseinheit in der Anordnung verbunden ist und somit die Verbindungsdichte den Wert 100 besitzt.
Die Figuren 11 und 12 sind ähnlich zu Fig. 10, was die Tatsache anbetrifft, daß jede Einheit im Bereich 1 mit einer entsprechenden Projektionsanordnung von Einheiten im Bereich 2 verbunden ist.
Mögliche Zieleinheiten einer Projektion von einer vorgegebenen Quelleneinheit werden durch Radien in drei Dimensionen festgelegt. Die Figuren 13a, 13b und 13c sind drei zweidimensionale Beispiele davon.
Die Figuren 14a, 14b und 14c geben zusammengenommen ein schematisches Beispiel einer spezifischen Netzwerkstruktur vor, die durch das vorliegende Verfahren erzeugt wird.

Anpassung von genetischen Algorithmen

Die Version des in dem vorliegenden Verfahren verwendeten genetischen Algorithmus benutzt einen reproduktiven Plan ähnlich zu demjenigen, der durch Holland (1975) als "Typ R" beschrieben wurde. Der Grundplan für die Erzeugung einer jeden neuen Generation ist in Fig. 15 angegeben. Der Abtastalgorithmus basiert auf dem stochastischen universellen Abtastschema von Baker (1987). Dieser wird bevorzugt wegen seiner Leistungsfähigkeit und der fehlenden Vorbelastung. Einige Einzelheiten werden durch das Diagramm nicht gezeigt. Ein endgültiger Schritt wurde hinzugefügt, um sicherzustellen, daß das beste Individuum von der Generation i immer in der Generation i+1 beibehalten wird.
Der genetische Algorithmus (GA) selbst besitzt eine Anzahl von Parametern. Gute Werte für diese sind von Bedeutung für den wirksamen Betrieb des Systems. Diese Parameter umfassen die Populationsgröße, die Geschwindigkeiten mit der die verschiedenen genetischen operatoren anzuwenden sind und andere Aspekte der synthetischen Ökologie.
Zwei genetische Operatoren sind benutzt worden: Kreuzung und Mutation. Der Kreuzungsoperator tauscht wirksam homologe Segmente aus den Blaupausen von zwei Netzwerken der gegenwärtigen Generation aus, um eine Blaupause für ein Netzwerk in der nächsten Generation zu bilden. In den meisten Anwendungen des genetischen Algorithmus sind homologe Segmente durch absolute Positionen in der Bitfolge identifizierbar. Beispielsweise wird das n.te Bit immer benutzt, um das gleiche Merkmal in irgendeinem Individuum festzulegen. Da die hier vorliegende Darstellung Folgen mit variabler Länge gestattet, wurde ein modifizierter Zweipunkt-Kreuzungsoperator verwendet, der homologe Orte auf zwei Individuen durch Bezugnahme auf Markierungen der Folge festlegte, wie dies zuvor erläutert wurde. Die Entscheidung, eine Zweipunkt- Kreuzung im Gegensatz zu der üblicheren Einzelpunkt- Version zu benutzen, wurde durch den Bericht von Booker (1987) motiviert, der aufzeigte, daß die Off-Line- Leistung, die auf diese Weise erzielt wird, verbessert werden kann.
Der Mutationsoperator wurde mit einer niedrigen Geschwindigkeit verwendet, um allelomorphe-alternative Formen des gleichen funktionalen Gens einzuführen bzw. wiedereinzuführen. Gegenwärtige Anwendungen des genetischen Algorithmus haben einen wirksamen Beitrag aus der Mutation mit Geschwindigkeiten in der Größenordnung von 10&supmin;² oder weniger demostriert.
Trotz der Tatsache, daß die Bitfolgedarstellung unter Beschränkung auf die beabsichtigten genetischen Operatoren entworfen wurde, ist es noch möglich, daß der GA Individuen erzeugt, die prima facie nicht akzeptierbar sind. Ein dreistes Beispiel würde ein Netzwerkplan darstellen, der keine Verbindungen von Projektionen vom Eingang zum Ausgang besitzt. Subtilere Probleme entstehen aus den Beschränkungen unserer Simulationsfähigkeit. Bei unserer anfänglichen Arbeit hatten wir eine begrenzte Rekursion; Netzwerkpläne mit Rückführung können bei einfacher rückwärtiger Fortpflanzung nicht toleriert werden. Zwei Strategien sind verwendet worden, um die Belastungen durch diese Fehlanpassungen auf ein Minimum zu bringen. Als erstes sucht der reproduktive Plan Individuen mit fatalen Abnormalitäten aus; Individuen mit keiner Wegstrecke vom Eingangs- zum Ausgangsbereich bilden den größten Anteil dieser Gruppe. Als Zweites werden Blaupausen mit geringen Abnormalitäten "gereinigt" bei ihrer Netzwerkverwirklichung, d.h. ihre Defekte werden ausgeschnitten.
Die Figuren 16a, 16b und 16c zeigen ein Beispiel, wie der Kreuzungsoperator neue Folgen mit unterschiedlichen Werten für andere Felder als die Eltern bilden kann. Hier wird angenommen, daß die Felder ein einfaches binäres Codierungsschema verwenden.

Interpretation von aufgebauten Netzwerken

Geeignete Verbesserungen über Generationen können nur verwirklicht werden, wenn die Bewertungsfunktion, die verwendet wird, um die Brauchbarkeit eines Netzwerkes zu messen, geeignet ist. Ein Maß der Brauchbarkeit ist erforderlich für den GA, um immer bessere Netzwerke zu erzeugen. Es ist hilfreich, den Algorithmus als Auswertung der Oberfläche über dem Blaupausen- Darstellungsraum anzusehen, der durch diese Funktion definiert ist bei dem Versuch, die höchsten Spitzen zu lokalisieren.
Gemäß den Anforderungen der zuvor erwähnten Bewertungsfunktion haben wir anfänglich die Bewertungsfunktion als eine gewichtete Summe der Leistungsmetriken Pi formuliert. Die Bewertungsfunktion F(i) für das Individuum i kann ausgedrückt werden als:
Die Koeffizienten aj können durch den Anwender eingestellt werden, um den gewünschten Charakter des Netzwerkes wiederzugeben. Die Metrik, die bislang betrachtet worden ist, umfaßt Leistungsfaktoren, wie beispielsweise die beobachtete Lerngeschwindigkeit und die Leistung des Netzwerkes bei verrauschten Eingängen und Kostenfaktoren wie beispielsweise die Größe des Netzwerkes und die Anzahl der gebildeten Verbindungen. Wir haben eine Mischung von unterschiedlichen Leistungs- und Kostenfaktoren zugrundegelegt, da Leistungskriterien von Anwendungsfall zu Anwendungsfall variieren. Da die relative Gewichtung eines jeden Faktors modifiziert werden kann, kann die Netzwerkstruktur für verschiedene Optimierungskriterien angepaßt werden. Wenn beispielsweise eines unserer Ziele in dem Aufbau von Netzwerken liegt, die rechnerisch effizient sind, so kann der Größenmetrik eine negative Gewichtung beigegeben werden. Wenn andererseits Genauigkeit und Rauschtoleranz mehr gefordert ist, so wird der Leistung bei verrauschten Eingangsmustern eine höhere Gewichtung beigegeben.

Bewertung der GA-Leistung

Um Folgerungen bezüglich der Leistung des genetischen Algorithmus (im Gegensatz zu dem Netzwerk selbst) bei der Aufdeckung nützlicher Architekturen machen zu können, benötigen wir irgendeinen Standard, um diese dagegen vergleichen zu können. Dies ist schwierig, da es keine veröffentlichten Daten zu geben scheint, die direkt auf das Problem bezogen sind. Unsere Lösung liegt in dem Ablauf einer Steuerstudie, bei der Netzwerkblaupausen zufällig erzeugt werden, ausgewertet werden und die beste beibehalten wird. Dies wird bewirkt durch einfaches "Abschalten" der genetischen Kreuzungs- und Mutationsoperatoren. Die Zufallsuche ist eine oft verwendete Leistungsbewertung, die andere Suchalgorithmen übertreffen müssen, um ihren Wert zu demonstrieren.

Datenstrukturen

Die Haupt-Datenstrukturen bei einer gegenwärtigen Verwirklichung der Erfindung sind Objekte, die geschaffen und miteinander bei der Ablaufzeit verbunden werden. Das prominenteste Objekt ist das "Experiment", das die laufende Population, die Vorgeschichte der Leistung über Generationen, sowie verschiedene Steuer- und Schnittstellenparameter beibehält. Die Leistungsvorgeschichte ist eine Liste von Aufzeichnungen, eine pro Generation, die unter anderen Dingen On-Line-, Off-Line-, Mittel- und beste Bewertungen notiert. Die Population umfaßt die Individuen der laufenden Generation, wie dies in Fig. 17 gezeigt ist.
Jedes Individuum besitzt eine zugeordnete Blaupause, die als ein Bündel von Bitvektoren gespeichert ist (Bit- Vektoren sind eindimensionale Anordnungen, in denen jedes Element ein Bit im dem Maschinenspeicher besetzt).
Die Bit-Vektoren umfassen zwei Arten, Bereiche (APS) und Projektionen (PSF) wie durch die BNF angezeigt. Die Struktur eines jeden Typs ist durch eine Lisp-Form definiert, die die Namen eines jeden Feldes anzeigt und anzeigt, wieviele Bits dieses Feld besetzen sollen. Beispielsweise ist die Projektionsspezifikation wie folgt definiert:
(Def-Bit-Vektor PROJEKTION-SPEC
(Radius-1 3)
(Radius-2 3)
(Radius-3 3)
(Verbindungs-Dichte 3)
(Ziel-Adresse 3)
(Adress-Modus 1)
(anfängliches-Eta 3)
(Eta-Neigung 3))
Diese Form definiert automatisch das Zubehör, das erforderlich ist, um den Wert für jeden Parameter aus irgendeinem vorgegebenen Bit-Vektor herauszuziehen. Das Zubehör bewirkt transparent die Gray-Codierung und die Decodierung der Felder. Die meisten Gesamtwerte der Felder werden durch Aufsuchtabellen interpretiert; beispielsweise setzt die Eta-Tabelle die Werte 0...7 in Eta-Werte von 0,1 bis 12,8 um.
Genetische Operatoren, wie beispielsweise die Kreuzung und die Mutation modifizieren direkt diese Bit-Vektor- Blaupause, die als Meisterplan für das Individuum angesehen wird. Teile von ihr werden tatsächlich gemeinsam mit ihrem Ursprung benutzt. Die Bit-Vektoren sind jedoch nicht direkt nützlich beim Betrieb eines tatsächlichen neuronalen Netzwerkes. Für dieses muß das Individuum zergliedert, gereinigt und verwirklicht werden.
Wenn ein Individuum zergliedert wird, so wird die Form der Bitfolge der Blaupause in ein Netzwerk von Knoten umgesetzt mit einem Bereichsknoten für jeden Bereich und einem Projektionsknoten für jede Projektion. Die Zergliederung bringt die Adressierung zwischen den Bereichen hervor, die durch Projektionen erfolgen und die Knoten weisen Parameterwerte auf, die durch die zugeordneten Bit-Vektoren interpretiert werden. Das Netzwerk bzw. die zergliederte Blaupause ist dem Objekt zugeordnet, das das Individuum repräsentiert.
Eine zergliederte Blaupause kann Defekte aufweisen, die eine sinnvolle Interpretation als ein neuronales Netzwerk verhindern. Beispielsweise kann sie Projektionen enthalten mit einem nicht-gültigen Ziel oder Projektionen, die Rückführungsschaltkreise anzeigen, die in der laufenden Implementierung verboten sind. Anstatt geringfügig unvollständige Individuen zu streichen, wird ein Versuch gemacht, sie nach der Zergliederung zu flicken. Der Schritt des Flickens wird als Reinigung bezeichnet. Die Reinigung entfernt baumelnde Knoten und beschneidet Schaltkreise in einem Versuch, ein lebensfähiges Indidviduum zu schaffen, wobei so wenig Änderungen wie möglich vorgenommen werden.
Nach der Zergliederung und der Reinigung ist ein Individuum verwirklicht. Die Verwirklichung beinhaltet die Zuteilung und die Auslösung von Vektoren für Einheiten, Gewichtsmatrizen, Maskenmatrizen, Schwellwertvektoren und andere numerische Speicherung. Bezugnahmen auf diese Datenobjekte werden in den Knoten der zergliederten Blaupause des Individuums zurückbehalten.

Der Auswerteprozeß

Der Zweck der Zergliederungs/Reinigungs/Verwirklichungsfolge liegt in der Vorbereitung für die Auswertung des Individuums, d.h. der Berechnung einer Bewertung. Die Bewertung ist eine gewichtete Summe einer Gruppe von Leistungsmetriken. Die Gewichte können durch den Anwender bei der Ablaufzeit eingestellt werden.
Einige dieser Metriken sind unmittelbare Folgen der Verwirklichung, z.B. die Anzahl der Gewichtungen, die Anzahl der Einheiten, die Anzahl der Bereiche und die mittlere Auffächerung. Andere Metriken hängen von der Netzwerkleistung des Individuums bei einem vorgegebenen Problem (wie beispielsweise der Ziffernerkennung) ab. Beispiele solcher Metriken sind: Die Lerngeschwindigkeit des Netzwerkes, seine endgültige Leistung bezüglich der Trainingsgruppe, seine Leistung bei nicht-degradierten Eingängen und bei neuen Eingängen und seine Leistung nach der zeitweiligen Streichung einer zufälligen Abtastung von entweder den Gewichtungen oder den Einheiten des Netzwerkes.

Resultate, Analyse und Diskussion

Trotz des beschränkten Rahmens der anfänglichen Experimente hat das vorliegende Verfahren vernünftige Netzwerke erzeugt und hat zu beträchtlichen Verbesserungen gegenüber den zufälligen Strukturen bei seiner anfänglichen Erzeugung geführt. In den meisten Fällen sind die erzeugten Netzwerke strukturmäßig ziemlich einfach gewesen.

Leistungskriterien

Es gibt verschiedene übliche Wege, um die Veränderungen in der Populationsleistung über der Zeit bei genetisch optimierten Systemen zu betrachten und die meisten unserer Diagramme umfassen vier. Da unser reproduktiver Plan durch getrennte Phasen der Reproduktion und der Auswertung verläuft, werden die Datenpunkte tatsächlich am Ende einer jeden Generation aufgezeichnet.
Si sei als die Bewertung des i.ten erzeugten Individuums definiert. Die Best-Funktion zeigt die Leistung des besten Individuums an, das durch die GA bis zu einer vorgegebenen Zeit aufgedeckt wurde, d.h.
Best(i) = Max [Sj, j=1,...,i]
Die Off-Line-Leistung des GA ist der Mittelwert der besten Bewertungen des Individuums, die bis zu einer vorgegebenen Zeit aufgefunden werden:
Eine Alternative ist die On-Line-Leistung. Diese ist einfach der Mittelwert aller Bewertungen des Individuums, die bislang ermittelt wurden. Am Ende der Zeit i würde dies sein:
Eine weitere interessierende Funktion ist die mittlere Bewertung für alle Individuen in einer vorgegebenen Generation. Wenn Gi die Gruppe von Individuen in der i.ten Generation ist, so gilt:
Die On-Line-Leistung ist vielleicht am relevantesten für Systeme, die mit einem Echtzeit-Prozeß zusammenwirken müssen, während die Off-Line-Leistung relevanter für Systeme ist, die nur damit befaßt sind, die beste Verwirklichung zu finden, ohne hierbei auf die Kosten schauen zu müssen. Wenn man beispielsweise auf Pferde wettet, so ist es von Bedeutung, alle schlechten Wetten ebenso wie die Gewinner in Betracht zu ziehen, um das Interesse an der On-Line-Leistung zu motivieren. Wenn man eine Funktion optimiert, so kann das einzige Bedenken die Qualität des besten getesteten Punktes sein, was die Off- Line-Leistung motiviert. Vermerkt man, daß die Funktionen "Best" und Offline" per Definition isoton sind, so können diese nur anwachsen oder konstant über den Verlauf eines Experimentes bleiben aber sie können nicht abfallen.

Experiment 1

Anwendung: Ziffernerkennung
Optimierkriterium: Bereich unter der Lernkurve
Populationsgröße: 30
Generationen: 60
Die mittlere Leistung der Netzwerkpopulation erhöhte sich achtfach von der ersten bis zu der sechzehnten Generation. Das Netzwerk lernte in 48 Epochen zu bewerten.
Da nur ein Faktor direkt optimiert war, waren andere, wie beispielsweise die Anzahl der Gewichtungen frei für eine Variation. Das Netzwerk hatte 1481 Gewichtungen. Ein Netzwerk, welches exakt eine Gewichtung hatte zur Verbindung eines jeden Einganges mit einem jeden Ausgang würde nur ein Drittel soviel Gewichtungen haben. Solche Netzwerke wurden ebenfalls erzeugt und diese lernten ebenso perfekt, brauchten aber mehr als zweimal so lang. Die Durchführung dieses Experiments mit 60 Generationen ist durch Fig. 18 zusammengefaßt.
In den anfänglichen Generationen lagen verborgene Schichtstrukturen vor. Es lag für uns nicht auf der Hand, daß dieses Problem linear zu trennen ist, bis das Experiment mit der Erzeugung von Strukturen mit zwei Schichten begann, die perfekt lernten. Da verdeckte Schichten für dieses Problem nicht benötigt werden und da die Lerngeschwindigkeiten im allgemeinen herabgemindert werden, wenn verdeckte Schichten einem Netzwerk hinzugefügt werden (obgleich diese Herabminderung sehr viel weniger gravierend bei der modifizierten Regel mit rückwärtiger Fortpflanzung ist, wie wir sie benutzen [Samad, 1988] als bei der ursprünglichen Regel), waren gegen Ende der Simulation Strukturen mit mehrfachen Schichten selten.
Um die Leistung des GA beim Aufdecken von besseren Netzwerken auszuwerten, wurde das Problem der Ziffernerkennung wiederholt, wobei der GA gesperrt war. Um dies zu erzielen, wurden zufällige Individuen dort erzeugt, wo eine Kreuzung oder Mutation angewendet worden wäre. Erneut basierten die Bewertungen exklusiv auf dem Bereich unter der Lernkurve. Die Ergebnisse dieses Experiments sind in Fig. 19 dargestellt.
Während die zufällige Suche und die GA-Experimente mit sehr ähnlichen Populationen in der Generation 0 begannen, divergierte die Leistung der zwei Algorithmen sehr bald. Insbesondere waren die mittlere Leistung und die On-Line- Leistung des zufälligen Suchalgorithmus deutlich dem GA unterlegen. Dies ist zu erwarten, wenn der GA bei der Beibehaltung einiger der besseren Charakteristiken von einer Generation zu der nächsten erfolgreich ist; das zufällige Suchverfahren ist eingeschränkt auf das Einsammeln von "Verlierern" mit einer ziemlich konstanten Geschwindigkeit. Die Off-Line-Leistung ist bestreitbar ein mehr interessierender Vergleich für dieses Problem zwischen dem GA und der zufälligen Suche. Fig. 20 zeigt die Off-Line-Leistungen, die aus den Figuren 18 und 19 entnommen sind.
Noch einmal erneut dominiert die GA-Leistung die zufällige Suche für die Dauer des Experiments. Es könnte argumentiert werden, daß die Lücke keine große ist aber wie vermerkt, sind die Bewertungen normiert. Das beste Netzwerk, das nach 60 Generationen (zufällig) entdeckt wurde, brauchte 67 Epochen, um das Problem zu lernen, während das beste Netzwerk, das durch den GA entdeckt wurde, das Problem in 40 Epochen lernte. Ferner erscheint es wahrscheinlich, daß wir in der Lage sein werden, die Leistung des GA durch geänderte Darstellung und bessere Parameterwerte verbessern zu können, während es keinen Spielraum für eine Verbesserung in der Leistung des zufälligen Suchverfahrens gibt. Schließlich ein Einwand: Wir arbeiten mit einer relativ geringen Population und unsere Experimente sind auf wenige Generationen beschränkt gewesen, so daß alle diese Ergebnisse daher mit Vorsicht interpretiert werden sollten.

Experiment 2

Anwendung: Ziffernerkennung
Optimierkriterien: Mittlere Ausbreitung und korrekter Prozentsatz
Populationsgröße: 30
Generationen: 20
Bei diesem Experiment waren die Kriterien die mittlere Ausbreitung und der korrekte Prozentsatz, die gleich gewichtet waren (0,5). Der Lerngeschwindigkeit wurde kein direkter Einfluß auf die Bewertung gegeben. Der Prozentsatz der korrekten Ziffernidentifikationen nach dem Training wurde bestimmt durch Präsentation einer jeden der zehn Ziffern für das trainierte Netzwerk und durch die Bewertung eines "Treffers", wenn die Ausgangseinheit mit maximalem Wert der korrekten Ziffer entsprach. Die mittlere Ausbreitung ist definiert als das Verhältnis der Anzahl von Gewichtungen zu der Anzahl von Einheiten; dieser Maßstab wird normiert und invertiert, so daß ein großes Verhältnis von Gewichtungen zu Einheiten von einer Bewertung eines Individuums abgezogen wird. Die sich durch dieses Experiment stellende Frage ist die: kann das System die Leistung durch Beschränkung der Ausbreitung verbessern? Es ist eine möglicherweise interessierende Frage für die Entwerfer von neuronaler Netzwerk-Hardware, da hohe Ausbreitungen in Silicium schwierig zu entwerfen sind [die mittlere Ausbreitung ist eine Annäherung einer noch mehr interessierenden Größe: die maximale Ausbreitung.] Unsere anfänglichen Ergebnisse sind in Fig. 21 dargestellt.
Die mittlere Ausbreitung in diesem Experiment war 157/48 = 3,27. Dies kann dem für das Experiment 1 gezeigten Netzwerk gegenübergestellt werden, welches eine mittlere Ausbreitung besitzt, die nahezu eine Größenordnung höher liegt.
Das Lernen erfolgt ziemlich langsam. Tatsächlich lernte das obige Netzwerk nicht innerhalb des Fehlerschwellwertes, der im voraus als ein Beendigungskriterium für das Training festgelegt worden war. (Ein Lernen innerhalb des Fehlerschwellwertes ist nicht erforderlich, um perfekte Trefferraten zu erzielen). Die Verbindungsstruktur des Netzwerkes verwendet große Wahrnehmungsfelder aber eine geringe Verbindungsdichte. Vom Standpunkt einer Hardwareverwirklichung wäre es besser für kleine Wahrnehmungsfelder zu optimieren, und ein solches Experiment ist beabsichtigt.

Maßstab für die Lerngeschwindigkeit

Der für die Lerngeschwindigkeit gewählte Maßstab erfordert einige Erläuterung. Auf Grund der beschränkten Rechenressourcen können wir nicht hoffen, alle Netzwerke solange zu trainieren, bis sie eine perfekte Genauigkeit bei einem vorgegebenen Problem oder für diese Angelegenheit für ein vorbestimmtes von Null abweichendes Kriterium erzeugen. In einigen Fällen kann ein Netzwerk Hundert Epochen erfordern, während in anderen Fällen eine Million Epochen ungenügend sein kann. Unser Kompromiß liegt in der Verwendung von zwei Kriterien für das Anhalten der Lernphase. Das Lernen wird bei dem ersten Kriterium angehalten, wenn ein rms-Fehler während der vorangegangenen Epoche niedriger als ein vorgegebener Schwellwert war. Die Lernphase wird bei dem zweiten Kriterium beendet, nachdem eine feste Anzahl von Epochen gezählt worden ist; dieser Schwellwert wird durch den Experimentierer gemäß dem Problem eingestellt, aber er liegt typischerweise zwischen 100 bis 5000 Epochen. Nichtsdestoweniger wünschen wir alle Individuen auf der gleichen Lerngeschwindigkeitsskala zu vergleichen, obgleich ihr Training unterschiedliche Anzahlen von Epochen gedauert haben kann und zu unterschiedlichen endgültigen Genauigkeitspegeln geführt haben kann. Unsere Annäherung liegt in der Integration der rms-Fehlerkurve über der Lernphase für jedes Individuum. Dieser "Bereich unter der Lernkurve" liefert eine Rangfolge, die nahezu unserer Intuition über Lerngeschwindigkeitsskalen entspricht. Niedrige Zahlen verweisen auf eine bessere Leistung.

Anhang A

Syntax für Blaupausen-Darstellung in BNF:

< Blaupausen-Spec> = < Eingangs-Spec> < Mittel-Spec> < Ausgangs-Spec>
< Eingangs-Spec> = < Bereichs-Spec> < Projektions-Spec>
< Mittel-Spec> = leer < Segment> < Mittel-Spec> < Segment>
< Ausgangs-Spec> = < Bereichs-Markierer> < Bereichs-ID> < Dimensions-Subfeld>
< Bereichs-Spec> = < Bereichs-Markierer> < Bereichs-ID> < Dimensions-Subfeld> < Lernregel-Spec>
< Projektions-Spec> = < Projektions-Markierer> < Projektions-Spec Feld> < Projektions-Spec> < Projektions- Markierer> < Projektions-Spec Feld>
< Segment> = < Bereichs-Spec> < Projektions-Spec>
< Bereichs-Markierer> = leer
< Bereichs-ID> = < Binäre Ziffern>
< Dimensions-Subfeld> = < Gesamtgröße> < Dimensions-Spec> < Dimensions-Spec> < Dimensions-Spec>
< Lernregel-Spec> = < Eta-Anfangswert> < Eta-Neigungsänderung>
< Projektions-Markierer> = leer
< Projektions-Spec-Feld> = < Radien der Verbindung> < Verbindungs-Dichte> < Ziel-Adresse> < Ziel-Adressmodus> < Lernregel-Spec>
< Binäre Ziffern> = < Binäre Ziffern> < Binäre Ziffer> < Binäre Ziffer>
< Obere Grenze> = < Binäre Ziffer> < Binäre Ziffer> < Binäre Ziffer>
< Dimensions-Spec> = < Binäre Ziffer> < Binäre Ziffer> < Binäre Ziffer>
< Eta-Anfangswert> = < Binäre Ziffer> < Binäre Ziffer> < Binäre Ziffer>
< Eta-Neigungsänderung> = < Binäre Ziffer> < Binäre Ziffer> < Binäre Ziffer>
< Radien der Verbindung> = < Radius der Verbindung> < Radius der Verbindung> < Radius der Verbindung>
< Radius der Verbindung> = < Binäre Ziffer> < Binäre Ziffer> < Binäre Ziffer>
< Verbindung-Dichte> = < Binäre Ziffer> < Binäre Ziffer> < Binäre Ziffer>
< Ziel-Adresse> = < Binäre Ziffer> < Binäre Ziffer> < Binäre Ziffer>
< Ziel-Adressmodus> = < Binäre Ziffer>
< Binäre Ziffer> = 011

Anhang B

Rück-Fortpflanzung

Neuronale Netzwerke sind aus zwei primitiven Elementen aufgebaut: Verarbeitungseinheiten und (gerichtete) Verbindungen zwischen den Einheiten. Die Verarbeitungseinheiten sind für sich sehr einfach, aber sie sind reichlich miteinander verbunden. Jede Verbindung besitzt typischerweise ein ihr zugeordnetes real bewertetes Gewicht und dieses Gewicht zeigt die Wirkung des Wertes der Einheit an der Quelle der Verbindung an, die die Einheit an ihrer Bestimmung besitzt. Der Ausgang einer Einheit ist irgendeine Funktion der gewichteten Summe ihrer Eingänge:
Wobei oj der Ausgang der Einheit j ist, wij das Gewicht von der Einheit i zu der Einheit j ist und Θj der "Schwellwert" oder das Vorspannungsgewicht für die Einheit j ist. Die Quantität iwijoi-Θj) wird gewöhnlich als Nettoeingang zu der Einheit j bezeichnet und mit dem Symbol netj versehen. Die Form der Gleichung (1), die gewöhnlicherweise mit der rückwärtigen Fortpflanzung verwendet wird, ist die Sigmoid-Funktion:
In den meisten Netzwerken mit rückwärtiger Forpflanzung sind die Einheiten in Schichten angeordnet und die Netzwerke sind auf azyklische Netzwerke beschränkt. Es kann gezeigt werden, daß solche "Mehrschicht- Vorwärtsspeisung"-Netzwerke jede Abbildung aus einem mehrdimensionalen kontinuierlichen Eingangsraum in einen mehrdimensionalen kontinuierlichen Ausgangsraum mit beliebig hoher Genauigkeit verwirklichen können (Hecht- Nielsen, 1987; Lippmann, 1987; Lapedes & Farber, 1988).
Die Regel, die verwendet wird, um die Gewichte zu modifizieren ist:
Δwij = noiδj (3)
Dies ist die Standard-Lernregel für die rückwärtige Fortpflanzung. Hierbei ist wij das Gewicht von der Einheit i zu der Einheit j, oi ist der Ausgang der Einheit i, n ist eine Konstante, die die Lerngeschwindigkeit festlegt und δj ist der Fehlerterm für die Einheit j. δj ist unterschiedlich definiert für Einheiten im Ausgangsbereich und für Einheiten in "verdeckten" Bereichen. Für Ausgangseinheiten gilt
δj = oj'(tj-oj)
wobei oj' die Ableitung von oj in Bezug auf ihren Nettoeingang ist (für die Aktivierungsfunktion von Gleichung (2) ist diese Quantität oj(1-oj)) und tj ist der Zielwert (der "gewünschte Ausgang") für die Einheit j. Für verdeckte Einheiten ist der Zielwert nicht bekannt und der Fehlerterm wird aus den Fehlertermen der nächsten "höheren" Schicht berechnet:
Wir haben in unserer laufenden Verwirklichung zwei Erweiterungen für die meisten Verwendungen der Rückfortpflanzung eingeschlossen. Als erstes benutzen wir eine neulich entdeckte Verbesserung von Gleichung (3) (Samad, 1988):
Δwij = η(oi+ δi)δj
Diese gleichung benutzt den angenommenen Wert der Quelleneinheit eines Gewichtes statt des laufend berechneten Wertes. In einigen Fällen wird ein Lernen erzielt, das um Größenordnungen schneller ist.
Als zweites gestatten wir dem Wert von n abzunehmen, wenn das Lernen fortschreitet. Das heißt η ist nunmehr eine Variable und die tatsächlich verwendete Lernregel ist folgende:
Δij = ηt(oi+ δi)δj
wobei ηt der Wert von η an der t.ten Iteration während der Trainingsgruppe ist. Am Ende einer jeden Iteration wird η gemäß folgender Formel geändert:
nt+1 = η slope η t
wobei ηslope ein Parameter ist, der die Abfallrate von η festlegt. Es wurde experimentell beobachtet, daß die Verwendung eines hohen Wertes von η am Anfang und sodann seine allmähliche Abnahme zu einem beträchtlich schnelleren Lernen führt gegenüber der Verwendung einer konstanten η. Sowohl ηNeigung und der Anfangswert von η(ηo) sind durch die Projektionsspezifikation in der Blaupause vorgegeben.

Anhang C

Referenzen

Claims

1. Verfahren zur Entwurfssynthese von neuronalen Netzwerken (10), welches die Verwendung eines ausgewählten Lernalgorithmus und eines speziellen zu lernenden Gegenstandes beinhaltet, gekennzeichnet durch die Schritte:

A. Vorgabe einer parametrischen Bitfolgedarstellung (20,17) einer neuronalen Netzwerkarchitektur mit relevanten Parametern einschließlich Lernparametern,

B. Erzeugung einer ersten Generation von Netzwerk- Blaupausen (20), basierend auf der Darstellung, welche gemeinsam einen Wertebereich für jeden der Parameter umfassen,

C. automatische Erzeugung entsprechender neuronaler Netzwerkarchitekturen (10,19), basierend auf der laufenden Generation von Blaupausen,

D. automatisches Trainieren einer jeden Netzwerkarchitektur (10,19), die gegenwärtig im Schritt C definiert sind, über den ausgewählten Lernalgorithmus und den speziellen Gegenstand,

E. Testen einer jeden Netzwerkarchitektur (10,19), die gegenwärtig im Schritt C definiert sind, mit Testmustern (Fig. 2) entsprechend dem speziellen Gegenstand, um die Empfänglichkeit einer jeden gegenwärtig im Schritt C definierten Netzwerkarchitektur auf den Einfluß dieses Trainings zu testen,

F. Ausführung einer Interpretation einer jeden gegenwärtig im Schritt C definierten Netzwerkanalyse nach dem Test derselben bezüglich interessierender Leistungs- und Kostenfaktoren und Zuordnung einer Bewertung zu derselben, die die Ergebnisse der Interpretation darstellt,

G. Auswahl von Kandidaten der gegenwärtig im Schritt C definierten Netzwerkarchitekturen gemäß ausgewählter rationeller Grundlagen und Anwendung wenigstens eines Operators mit diesem, um eine neue Gruppe von Netzwerk- Blaupausen (20) zu erzeugen, die als die laufende Generation von Netzwerk-Blaupausen, basierend auf dieser Darstellung, identifiziert werden sollen, und

H. Rückkehr zum Schritt C und Fortsetzung des Verfahrens.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Operator ein genetischer Operator ist.

3. Verfahren zur Entwurfssynthese von neuronalen Netzwerken (10), von denen jedes umfaßt: mehrere Recheneinheiten (18), mehrere hierarchisch angeordnete Schichtbereiche (12,14,16) einschließlich von Eingangs (12)- und Ausgangs- Schichtbereichen (16) und Null oder mehr verdeckten Schichtbereichen (14) dazwischen, wobei jeder der Schichtbereiche durch eine Anzahl der Einheiten (18) definiert ist, Verbindungsmittel (19) zur Verbindung von Ursprungsgruppen dieser Einheiten in den Schichtbereichen (14,16) mit Ausnahme des Ausgangs- Schichtbereiches (16) mit Objektgruppen dieser Einheiten (18) in den Schichtbereichen (12,14) mit Ausnahme des Eingangs-Schichtbereiches, wobei die Verbindungsmittel (19) in als Projektionen (Fig. 10, 11, 12) angesehenen Gruppen gruppiert sind, wobei sich eine jede Projektion von einem der Schichtbereiche zu einem anderen der Schichtbereiche erstreckt und wobei das Verfahren die Verwendung eines ausgewählten Lernalgorithmus und eines speziellen zu erlernenden Gegenstandes beinhaltet und die Schritte umfaßt:

A. Vorgabe eines Sub-Zeichenfolgeformats (20,17) zum Festlegen von jedem der Schichtbereiche, wobei das Format einen ersten Typteil aufweist, der als ein Schichtbereich-Parameterspezifizierer bezeichnet wird und wenigstens einen zweiten Typteil für jede der Projektionen aufweist, der als Projektionsspezifizierer bezeichnet wird,

wobei der erste Typteil einen den Schichtbereich identifizierenden Adressenabschnitt (Bereich ID=), einen Gesamtgrößenabschnitt, der die entsprechende Anzahl der Einheiten desselben vermerkt (Gesamtgröße =) und einen Dimensionsabschnitt, der die durch die Einheiten gebildete Konfiguration vermerkt, aufweist, wobei der zweite Typteil einer der Projektionen gewidmet ist und als Gegenstandsprojektion bezeichnet werden kann und der zweite Typteil umfaßt: einen Zieladressenabschnitt (Ziel =) zur Identifizierung einer der Schichtbereiche, der als Zielschichtbereich bezeichnet werden kann, zu dem die Gegenstandsprojektion gerichtet ist, einen Adressmodusabschnitt (Modus =) für die Gegenstandsprojektion, einen Dimensionsabschnitt (D=) zum Vermerken der Konfiguration eines Objektfeldes für die Gegenstandsprojektion in dem Zielschichtbereich, einen Verbindungsdichteabschnitt (Dichte =) zum Vermerken der Verbindbarkeit der Gegenstandsprojektion mit dem Objektfeld und wenigstens einen Lernregelparameterabschnitt (ETA=),

B. Vorgabe einer parametrischen Bitfolgedarstellung einer neuronalen Netzwerkarchitektur, basierend auf dem Sub-Zeichenfolgeformat mit relevanten Parametern,

C. Erzeugung einer ersten Generation von Netzwerk- Blaupausen (20), basierend auf der Darstellung, welche gemeinsam einen Wertebereich für jeden der Parameter umfassen,

D. automatische Erzeugung entsprechender neuronaler Netzwerkarchitekturen (10), basierend auf der laufenden Generation der Blaupausen,

E. automatisches Training einer jeden Netzwerkarchitektur, die gegenwärtig im Schritt D definiert sind, über den ausgewählten Lernalgorithmus und den speziellen Gegenstand,

F. Test einer jeden Netzwerkarchitektur, die gegenwärtig im Schritt D definiert sind, mit Testmustern (Fig. 2) entsprechend dem speziellen Gegenstand, um die Empfänglichkeit einer jeden gegenwärtig im Schritt D definierten Netzwerkarchitektur auf den Einfluß dieses Trainings zu testen,

G. Ausführung einer Interpretation einer jeden gegenwärtig im Schritt D definierten Netzwerkarchitektur nach dem Test derselben bezüglich interessierender Leistungs- und Kostenfaktoren und Zuordnung einer Bewertung zu derselben, die die Ergebnisse der Interpretation darstellt,

H. Auswahl von Kandidaten der gegenwärtig im Schritt D identifizierten Netzwerkarchitekturen gemäß ausgewählter rationaler Grundlagen und Anwendung wenigstens eines genetischen Operators (Fig. 16) mit diesen, um eine neue Generation von Netzwerk-Blaupausen zu erzeugen, die als die laufende Generation von Netzwerk- Blaupausen, basierend auf dieser Darstellung, identifiziert werden sollen, und

I. Rückkehr zum Schritt D und Fortsetzung des Verfahrens.