DE3686051T2

DE3686051T2 - Mustererkennungssystem.

Info

Publication number: DE3686051T2
Application number: DE8787900750T
Authority: DE
Inventors: A Carpenter; Stephen Grossberg
Original assignee: Boston University
Current assignee: Boston University
Priority date: 1985-11-27
Filing date: 1986-11-26
Publication date: 1992-12-17
Anticipated expiration: 2006-11-27
Also published as: JPS63501455A; EP0244483A1; DE3686051D1; JP2517036B2; US5142590A; WO1987003399A1; EP0244483B1

Description

Die folgenden Veröffentlichungen beschreiben Merkmale dieser Erfindung, auf sie wird im folgenden Bezug genommen.
Carpenter, G.A. and Grossberg, S., Category learning and adaptive pattern recognition: A neural network model. Proceedings of the Third Army Conference on Applied Mathematics and Computing, 1986. ARO Report 86-1, pp. 37-56.
Carpenter, G.A. and Grossberg, S., Neural dynamics of category learning and recognition: Attention, memory consolidation, and amnesia. In J. Davis, R. Newburgh, and E. Wegman (Eds.), Brain structure, learning, and memory, AAAS Symposium Series, 1987.
Carpenter, G.A. and Grossberg, S., Neural dynamics of category learning and recognition: Structural invariants, reinforcement, and evoked potentials. In M.L. Commons, S.M. Kosslyn, and R.J. Herrnstein (Eds.) Pattern recognition and concepts in animals, people, and machines. Hillsdale, NJ: Erlbaum 1987.
Carpenter, G.A. and Grossberg, S., Adaptive resonance theory: Stable self-organization of neural recognition codes in response to arbitrary lists of input patterns. Proceedings Cognitive Science Society, 1986.
Carpenter, G.A. and Grossberg, S., A massively parallel architecture for a self-organizing neural pattern recognition machine. Computer Vision, Graphics., and Image Processing, 1987.
Carpenter, G.A. and Grossberg, S., Associative learning, adaptive pattern recognition, and competive decision making by neural networks. Hybrid and Optical Computing, H. Szu, Ed. SPIE, 1986.
Carpenter, G.A. and Grossberg, S., Absolutely stable learning of recognition codes by a self-organizing neural network. Proceedings Snowbird Conference, American Institute of Physics, 1986.

Hintergrund:

Es wurden Theorien vorgeschlagen, aufgrund deren die Hoffnung bestand, daß Systeme entwickelt werden könnten, um Muster zu erkennen, wie z.B. Hör- oder Sehmuster, und um automatisch ein Schema zur Katergorisierung dieser Muster in eine bestimmte Anzahl von Kategorien zu entwickeln. Demgemäß sollte solch ein System erkennen, ob ein Muster in eine vorher ausgebildete Kategorie gehört. Ein System kann beispielweise 26 Kategorien erkennen, wobei sich jede auf einen unterschiedlichen Buchstaben des Alphabets bezieht. Während eines Lernprozesses kann das System eine Reihe von Eingabemustern empfangen, welche selbst innerhalb jeder Kategorie unterschiedlich sein können. Elemente der Muster, von denen eine Kategorisierung der Muster nicht gefordert ist, sollten als Rauschen verworfen werden.
Eine Theorie des Lernens nach Kategorien wurde von Steven Grossberg vorgeschlagen und ist beschrieben in "Some Psycho-physiological and Pharmacological Correlates of a Developmental, Cognitive and Motivational Theory", Brain and Information: Event Related Potentials, Band 425, Annals of the New York Academy of Sciences, 1984. Gemäß dieser Theorie würde ein Eingabemuster in einem Kurzzeitspeicher gespeichert, und das Muster würde mittels eines angepaßten Filters angewendet werden, um eine Kategorie auszuwählen. Die ausgewählte Kategorie, welche in einem anderen Kurzzeitspeicher zurückbehalten ist, würde ein erwartetes Muster erzeugen, welches sich auf diese Kategorie durch einen parallelen Satz von angepaßten Filtern bezieht. Die Korrespondenz zwischen den erwarteten Mustern und den Eingabemustern würde festlegen, ob die Eingabemuster in die anfänglich ausgewählte Kategorie gehören. Wenn sie es täten, würden die angepaßten Filter geändert werden, um die durch das Eingabemuster vorgesehene Information wiederzugeben. Wenn das Eingabemuster nicht in die ausgewählte Kategorie gehörte, würde dieses System eine Änderung der angepaßten Filter, die mit der Kategorie verbunden sind, verhindern und eine neue Kategorie auswählen.
Die vorliegende Erfindung, wie in den Ansprüchen 1 und 16 definiert, basiert auf einer Entwicklung der ursprünglichen Grossberg-Theorien in einer betriebsfähigen Maschinen-Architektur.

Offenbarung der Erfindung

Ein Netzwerk, welches eine anpassungsfähige Resonanztheorie (ART) Architektur genannt wird, für anpassungsfähige Mustererkennung ist im folgenden beschrieben. Die Architektur organisiert selbst und stabilisiert selbst ihre Erkennungscodes als Antwort auf willkürliche Regelungen von willkürlich vielen und willkürlich komplexen Eingabemustern. Von-oben-nach-unten erkennende und angepaßte Mechanismen sind kritisch beim Selbststabilisieren des Codelernprozesses. Die Architektur verkörpert ein selbsteinstellendes paralleles Suchschema, welches sich anpassungsfähig selbst auf den neuesten Stand bringt, um seine Effizienz aufrecht zu erhalten, wenn sich der Lernprozeß entfaltet. Nachdem sich das Lernen selbst stabilisiert, ist der Suchprozeß automatisch abgekoppelt. Demgemäß haben Eingabemuster direkten Zugriff auf ihren Erkennungscode ohne irgendeine Suche. Auf diese Weise wächst die Erkennungszeit nicht als eine Funktion der Komplexität der Codes an. Ein neues Eingabemuster kann direkt auf eine Kategorie zugreifen, wenn es unveränderliche Eigenschaften mit dem Satz von ähnlichen Exemplaren dieser Kategorie teilt. Diese unveränderlichen Eigenschaften entstehen in Form von erlernten kritischen Merkmalsmustern oder Prototypen. Die Architektur besitzt eine auf den Kontext sensitive, selbstskalierende Eigenschaft, welche es ihren entstehenden kritischen Eigenschaftsmustern ermöglicht, sich zu formieren. Sie stellen fest und erinnern statistisch vorgegebene Konfigurationen von Eigenschaftselementen, die von dem Satz von allen Eingabemustern, die jemals kennengelernt wurden, erhalten wurden. Vier Typen von berücksichtigten Prozessen - Ingangsetzen, Verstärkungssteuerung, Wachsamkeit und intermodaler Wettbewerb -sind mechanistisch charakterisiert. Das von-oben-nach-unten Ingangsetzen und die Verstärkungssteuerung werden für das Anpassen und die Selbststabilisierung des Codes benötigt. Die berücksichtigte Wachsamkeit bestimmt, wie fein die erlernten Kategorien sein werden. Wenn die Wachsamkeit anwächst in bezug auf eine Nicht-Übereinstimmung der Umgebung, so sucht das System automatisch und lernt feinere Erkennungskategorien. Ein neues, nicht lineares Anpassungsgesetz (die 2/3-Regel) und neue, nicht lineare assoziative Gesetze (die Weberregel, die assoziative Zerfallsregel und die Schablonenlernregel) werden benötigt, um diese Eigenschaften zu erreichen. All diese Regeln beschreiben entstehende Eigenschaften von parallelen Netzwerkwechselwirkungen. Die Architektur umgeht das Rauschen, die Sättigung, die Kapazität, die Orthogonalität und linear vorherbestimmbare Zwänge, wodurch die Codes beschränkt sind, welche beständig durch alternative Erkennungsmodelle gelernt werden. Ein ART-System kann veranlaßt werden, alle Eingabemuster zurückzuweisen, die nicht mit seinem Prototyp konsistent sind ohne jegliche Suche oder weiteres Lernen durchzumachen.
In Übereinstimmung mit der vorliegenden Erfindung wird eine Mehrzahl von Eingabeelementen eines Eingabemusters auf ein selbstorganisierendes Mustererkennungssystem angewendet. Die Eingabeelemte können durch ein anpassungsfähiges Filter verarbeitet werden, welches die Elemente individuell in bezug auf jede einer Vielzahl von Kategorien wichtet. Jeder Kategorie ist es möglich, Muster zu lernen, welche unter Eliminierung des Rauschens von den Eingabemustern abgeleitet sind. Für jede Kategorie sehen die anpassungsfähigen Filter eine Kategorieauswahlanzeige vor, die eine Kombination der gewichteten Eingabeelemente darstellt. Zuletzt wird eine der Kategorien basierend auf der Größe der kombinierten gewichteten Signale ausgewählt.
Jede Kategorie definiert mittels einer Schablone ein erwartetes Muster. Am Anfang definiert jede Kategorie ein erwartetes Muster, welche alle möglichen Elemente einschließt. Das erwartete Muster aus der ausgewählten Kategorie wird mit dem Eingabemuster verglichen, um die Koinzidenz der beiden festzustellen. Durch Wichten der Koinzidenz in bezug auf die Musterkomplexität, die durch die Anzahl der Elemente in dem Eingabemuster definiert werden kann, ist das System in seinen Entscheidungen bezüglich der Kategorisierung selbstskalierend. Vorzugsweise kann die Koinzidenz von einem koinzidenten Muster, welches ein Schnitt zwischen den erwarteten und Eingabemustern ist, vorbestimmt werden. Die Anzahl der Elemente in dem koinzidenten Muster kann mit der Anzahl der Elemente in dem Eingabemuster verglichen werden, um eine relative Koinzidenz zu vermitteln.
Wenn eine genügende Koinzidenz festgestellt ist, werden das anpassungsfähige Filter und das gespeicherte erwartete Muster für die ausgewählte Kategorie modifiziert. Übereinstimmende Elemente zwischen dem Eingabemuster und dem erwarteten Muster werden zurückbehalten und auf alle anderen Elemente wird weniger Wert gelegt. Besonders sind in einem schnellen Antwortsystem die nicht koinzidenten Elemente in dem anpassungsfähigen Filter für die ausgewählte Kategorie mit Null gewichtet und die koinzidenten Elemente sind stark in dem anpassungsfähigen Filter für die ausgewählte Kategorie gewichtet. Das Muster, welches demgemäß durch die ausgewählte Kategorie erzeugt wird, ist ein Schnitt des vorhergehenden erwarteten Musters und des Eingabemusters.
Wenn eine genügende relative Koinzidenz nicht festgestellt wird, wird eine alternative Kategorie ausgewählt, ohne das anpassungsfähige Filter oder das erwartete Muster in bezug auf die vorhergehend ausgewählte Kategorie zu modifizieren. Die alternative Kategorie erzeugt dann ein alternatives erwartetes Muster, das mit dem Eingabemuster zu vergleichen ist.
Das System kann auf diese Weise eine Anzahl von vorausgehend bestimmten erwarteten Mustern in einer Reihenfolge auswählen, die von den vorausgehend gelernten Wichtungen in den anpassungsfähigen Filtern bestimmt ist, bis ein erwartetes Muster ausgewählt ist, welches genügende relative Übereinstimmungen mit dem Eingabemuster vermittelt. Dann werden jegliche Elemente, die nicht in Übereinstimmung mit dem erwarteten Muster und dem Eingabemuster sind als Rauschen behandelt, um das anpassungsfähige Filter in bezug auf die spezielle Kategorie zu modifizieren und das erwartete Muster von dieser Kategorie neu zu definieren.
Das anpassungsfähige Filter wird derart modifiziert, daß dann, wenn Koinzidenz festgestellt wird, zukünftige Wichtungen umgekehrt auf die Anzahl der Elemente in dem Schnitt zwischen dem vorausgehend erwarteten Muster und dem Eingabemuster bezogen werden. Auf diese Weise können sowohl die Untermenge als auch die Übermenge erlernt werden und durch das anpassungsfähige Filter direkt zugänglich sein.
In einem bevorzugten System wird ein koinzidentes Muster, welches die Koinzidenz zwischen dem erwarteten Muster und dem Eingabemuster anzeigt, in einem Kurzzeitspeicher (STM) erzeugt. Die relative Koinzidenz wird dann durch das Vergleichen des koinzidenten Musters mit dem Eingabemuster bestimmt. Bevor ein erwartetes Muster erhalten wird, um das koinzidente Muster zu erzeugen, ist das koinzidente Muster das Eingabemuster selbst mit einer hohen Verstärkung, die auf den Kurzzeitspeicher angewendet wird, in welchem das Muster gespeichert ist. Demgemäß wird die Verstärkung reduziert, wenn das erwartete Muster auch auf den Kurzzeitspeicher angewendet wird, und das erwartete Muster wird dem Eingabemuster überlagert. Lediglich die Elemente, die sowohl in dem Eingabemuster als auch in dem erwarteten Muster gefunden werden, können zu einer Stufe beitragen, welche nötig ist, ein Element des koinzidenten Musters zu berücksichtigen.
Eine Rücksetzfunktion kann definiert werden als die Anzahl der Elemente in dem Schnitt zwischen einem erwarteten Muster und einem Eingabemuster (dem koinzidenten Muster) in bezug auf die Anzahl der Elemente in dem Eingabemuster. Ein Wachsamkeitsparameter kann definiert werden als das Verhältnis der auf die Elemente des Eingabemusters angewendeten Verstärkung in bezug auf die Verstärkung, die auf das koinzidente Muster angewendet wird. Der Wachsamkeitsparameter kann für ein System eingerichtet sein, und die Koinzidenz wird als ausreichend betrachtet, um das Rücksetzen auf eine andere Auswahl so lange zu verhindern, wie die Rücksetzfunktion größer oder gleich als der Wachsamkeitsparameter ist. Wenn die Rücksetzfunktion ungenügend ist, wird eine andere Kategorie ausgewählt gemäß einer Ordnungsfunktion, die als das Verhältnis von (a) dem Produkt einer Konstanten und der Anzahl von Elementen in dem koinzidenten Muster zu (b) der Summe einer Konstanten und der Anzahl der Elemente in dem erwarteten Muster definiert werden kann.
Die Wachsamkeit kann geändert werden durch eine externe Eingabe, wo die durch das System vorgesehene Organisation nicht mit externen Erfordernissen korrespondiert. Auf diese Weise kann das System als mehr wachsam angenommen werden.
Das System kann eine andere Basis als die des Eingabemusters haben, um ein spezielles Muster zu erwarten, welches durch das Eingabemuster auszuwählen ist. In diesem Fall kann ein erwartetes Muster von einer ausgewählten Kategorie erzeugt werden, selbst vor dem Empfang eines Eingabemusters. Die relative Koinzidenz wird dann bestimmt, und die ausgewählte Kategorie kann angenommen oder zurückgewiesen werden.

Kurze Beschreibung der Zeichnungen

Die voranstehenden und andere Gegenstände, Merkmale und Vorteile der Erfindung werden aus der folgenden, spezielleren Beschreibung bevorzugter Ausführungsformen der Erfindung deutlich, wie sie in den beiliegenden Zeichnungen, in welchen gleiche Bezugszeichen sich auf gleiche Teile in allen verschiedenen Ansichten beziehen, deutlich. Die Zeichnungen sind nicht notwendigerweise maßstabsgerecht, stattdessen wird Wert gelegt auf das Darstellen der Prinzipien der Erfindung.
Fig. 1 zeigt ein Blockdiagramm eines Systems, das die vorliegende Erfindung verkörpert;
Fig. 2 stellt die Handhabung von beispielhaften Mustern durch das System der Fig. 1 dar;
Fig. 3 ist ein weiteres Beispiel für die Handhabung der Muster im System der Fig. 1;
Fig. 4 ist eine schematische Darstellung von anpassungsfähigen Filterelementen zwischen den Speichern F&sub1; und F&sub2; der Fig. 1;
Fig. 5 ist eine schematische Darstellung der Antwort des Systems auf Untermengen- und Übermengenmuster;
Fig. 6 ist eine Darstellung von möglichen Beziehungen zwischen einem Eingabemuster und einem erwarteten Muster;
Fig. 7 ist eine Darstellung des Lernens nach Kategorien durch das System der Fig. 1 wobei die 2/3-Regel herangezogen und nicht herangezogen ist;
Fig. 8 ist eine Darstellung des Suchens nach Kategorien unter Verwendung des Systems der Fig. 1;
Fig. 9 ist eine andere Darstellung der Reihenfolge des Suchens durch das System der Fig. 1;
Fig. 10 ist eine Darstellung davon, wie das System Rauschen von Eingabemustern unterschiedlicher Komplexität unterscheidet;
Fig. 11 stellt die Antwort des Systems der verschiedenen Wachsamkeitsstufen dar;
Fig. 12 ist eine andere Darstellung der Handhabung des Systems in verschiedenen Wachsamkeitsstufen.

Beschreibung bevorzugter Ausführungsformen

Ein System, welches die vorliegende Erfindung verkörpert, ist in Fig. 1 dargestellt. Die Erfindung kann auf jegliche Muster-Gestalt angewendet werden, wird aber mit bezug auf ein visuelles Mustererkennungssystem beschrieben, in welchem das Muster ein zweidimensionales Feld von Bildelementen (Pixels) umfaßt. Ferner kann das System mit Grautonmustern benutzt werden, in welchen jedes Pixel einen weiten Bereich von Intensitätsstufen annehmen kann, aber es wird meistens mit Bezug auf ein Bit-orientiertes System beschrieben, in welchem jedes Pixel einen hohen oder niedrigen Wert aufweist.
Ein Eingabemuster I ist in einem Pufferspeicher 12 gespeichert. Das Eingabemuster wird von dem Puffer 12 auf einen Kurzzeitspeicher (STM) F&sub1; angewendet, von welchem es mittels anpassungsfähiger Filter 14 auf einen zweiten Kurzzeitspeicher F&sub2; angewendet wird. Eine Kategorie, die durch das Eingabemuster mittels des anpassungsfähigen Filters 14 ausgewählt ist, wird in F&sub2; zurückgehalten und erzeugt ein erwartetes Muster für diese Kategorie mittels eines zweiten Satzes von anpassungsfähigen Filtern 16, die als Schablone dienen. Die Übereinstimmung zwischen dem erwarteten Muster und dem Eingabemuster wird dann bei F&sub1; bestimmt, wie es unten beschrieben ist.
Mittels eines zu beschreibenden Orientierungssystems A bestimmt das System, ob die Koinzidenz ausreicht, um das Eingabemuster als innerhalb der ausgewählten Kategorie gelegen zu identifizieren. Wenn das Eingabemuster nicht in der ausgewählten Kategorie ist, wird diese Kategorie in F&sub2; außer Stand gesetzt und eine andere Kategorie gewählt. Wenn das orientierende Untersystem 18 das Eingabemuster als innerhalb der ausgewählten Kategorie gelegen identifiziert, werden die anpassungsfähigen Filter 14 und 16 modifiziert in Übereinstimmung mit einem koinzidenten Muster, das in F&sub1; zurückgehalten ist, um die Muster, welche diese Kategorie auswählen, neu zu definieren, um das erwartete Muster von der Kategorie neu zu definieren.
Beispiele für die Betriebswese des Systems sind in den Fig. 2 und 3 dargestellt. In Fig. 2A ist ein Eingabemuster I zunächst in F&sub1; gespeichert. Durch die anpsassungsfähigen Filter 14 wählt das Muster in F&sub1; eine Kategorie in F&sub2;. Die ausgewählte Kategorie in diesem Beispiel wurde zuvor durch die Schablone 16 definiert, um das erwartete Muster anzuzeigen, was bei F&sub2;, 16 gezeigt ist. Wie in Fig. 2B dargestellt, wird das erwartete Muster dann auf F&sub1; angewendet und ein Muster, das den Schnitt zwischen dem Eingabemuster und dem erwarteten Muster anzeigt, wird erzeugt. Das koinzidierende Muster wird dann auf das orientierende Untersystem 18 zusammen mit dem Eingabemuster angewendet. Das orientierende System bestimmt, ob die Anzahl der Pixel in dem koinzidenten Muster in bezug auf die Anzahl der Pixel in dem Eingabemuster eine Korrelation zwischen dem Eingabemuster und dem erwarteten Muster anzeigt, die ausreicht, um das Eingabemuster in der ausgewählten Kategorie zu kategorisieren. In dem in Fig. 2 dargestellten Fall bestimmt das orientierende Untersystem 18, daß eine hinreichende Anpassung nicht erhalten wurde und setzt die ausgewählte Kategorie in F&sub2; außer Betrieb. Das System wählt dann eine andere Kategorie aus. Bei der in Fig. 2 dargestellten Betriebsweise ist die nächste ausgewählte Kategorie eine, die nicht zuvor definiert wurde, so daß das erwartete Muster das vollständige Pixelfeld ist. Wie in Fig. 2C dargestellt, ist der Schnitt zwischen einem vollen Pixelfeld und dem Eingabemuster das Eingabemuster selbst. Weil die Anzahl der Pixel in dem koinzidenten Muster identisch mit der Anzahl in dem Eingabemuster ist, zeigt das System an, daß das Eingabemuster mit der ausgewählten Kategorie identifiziert werden sollte. Das orientierende System setzt die ausgewählte Kategorie nicht außer Betrieb und, wie in Fig. 2D dargestellt, wird das erwartete Muster in der ausgewählten Kategorie durch das koinzidente Muster mittels der anpassungsfähigen Filter 14 und 16 neu definiert.
Fig. 3 stellt eine andere Betriebsweise dar, in welcher das anfängliche Muster, das durch das Eingabemuster ausgewählt ist, zuvor definiert wird, wie das, das bei F&sub2;, 16 der Fig. 3A dargestellt ist. Das koinzidente Muster ist bei F&sub1; dargestellt. In diesem Fall zeigt das System eine genügende Korrespondenz zwischen dem koinzidenten Muster und dem Eingabemuster an, und das Eingabemuster wird durch das koinzidente Muster neu definiert, wie in Fig. 3B dargestellt.
Das anpassungsfähige Filter 14 ist schematisch in Fig. 4 dargestellt. Das Muster bei F&sub1; beruht auf einer Mehrzahl von Knoten 20, 21, 22, 23 und 24, die mit den Pixeln des Musters korrespondieren. In Fig. 4 wurde ein Grautonmuster angenommen, da mehr als gerade zwei Stufen vorgesehen sind. Die Stufe eines jeden Pixels an jedem Knoten in F&sub1; wird mittels der anpassungsfähigen Filter auf jeden Knoten 25, 26, 27 und 28 bei F&sub2; angewendet. Jeder Knoten bei F&sub2; stellt eine Kategorie dar. So würden beispielsweise 26 Knoten vorgesehen werden, wenn das Alphabet kategorisiert würde. Das Signal eines jeden Pixelknotens bei F&sub1; wird durch ein anpassungsfähiges Filterelement 30 des Filters 14 gewichtet, wie es auf jeden Kategorie-Knoten angewendet wird. Die unterschiedlichen Wichtungen sind durch die unterschiedlichen Größen der Enden 30 dargestellt. Dort, wo die Wichtung Null ist, wurden keine Linien zwischen den Knoten von F&sub1; und denen von F&sub2; dargestellt. Die Wichtungen sind in erlernten Antworten auf die Eingabemuster angepaßt und werden dann als Elemente 30 eines anpassungsfähigen Filter-Langzeitspeichers (LTM) zurückbehalten. In der Darstellung gemäß Fig. 4 summieren sich die Signale von den Knoten 21 und 22 durch ihre jeweiligen anpassungsfähigen Filterelemente auf den Knoten 26 zu dem größten Wert, und so wird die Kategorie des Knotens 26 anfänglich ausgewählt.
Für jedes anpassungsfähige Filterelement von einem Knoten von F&sub1; zu einem Knoten von F&sub2; existiert ein korrespondierendes LTM anpassungsfähiges Filterelement des Filters 16 von dem Knoten von F&sub2; zu dem Knoten von F&sub1;. Es sind dieses die anpassungsfähigen Filterelemente, die das erwartete Muster definieren. Von dem Signal 34, das auf den ausgewählten Knoten 26 hinunter durch anpassungsfähige Filter 32 angewendet wird, wird ein Muster an Pixel 21 und 22 gebildet, wie es in Fig. 4B gezeigt ist. Wie dargestellt, kann das neue Muster einen unterschiedlichen Satz von Pixeln von dem in dem anfänglichen Eingabemuster bei F&sub1; einschließen, und in einem Graucodesystem können die Stufen bei den entsprechenden Pixels unterschiedlich sein.
Die anpassungsfähigen Filterwege von F&sub1; nach F&sub2; werden als von-unten-nach-oben-Wege und diese von F&sub2; nach F&sub1; werden als von-oben-nach-unten-Wege im Hinblick auf die in Fig. 1 dargestellte Orientierung bezeichnet.
Das in Figur 4A gezeigte Muster bei F&sub2; ist ein Signal 34 an einem einzigen Kategorie-Knoten. Es wird jedoch bemerkt werden, daß ein Aktivitätsmuster an vier Knoten begünstigt werden kann und jedes oder ausgewählte der Signale bei F&sub2; können mittels der anpassungsfähigen Filter 16 zu dem erwarteten Muster beitragen, welches auf F&sub1; angewendet wird. Die vorliegende Beschreibung bezieht sich auf einen speziellen Fall der Kontraststeigerung, in welchem lediglich der Knoten, der die größte Eingabe erhält, ausgewählt ist und lediglich dieser Knoten die Aktivität in dem Kurzzeitspeicher F&sub2; speichern kann. Allgemeinere Versionen der Kontraststeigerung werden in Cohen, M. A. and Grossberg, S., "Neural dynamics of speech and language coding: Developmental programs, perceptual grouping, and competition for short term memory", Human Neurobiology, (1986, Band 5, Seiten 1-22) und Grossberg, S., "The adaptive self-organization of serial order in behaviour: Speech, language and motor control," Pattern recognition by humans and machines, Vol. 1; Speech perception, E.C. Schwab and H. C. Nusbaum (Eds.), New York: Academic Press, 1986, Seiten 187-294 dargestellt.
Solange bis ein erwartetes Muster mittels des anpassungsfähigen Filters 16 vorgesehen ist und die Koinzidenz bestimmt ist in bezug auf das Eingabemuster, ist es wichtig, daß das orientierende Untersystem 18 den ausgewählten Knoten nicht unbrauchbar macht. Zu diesem Zweck ist das anfänglich bei F&sub1; zurückgehaltene Muster das Eingabemuster selbst. Wenn ein erwartetes Muster vorgesehen ist, ist das resultierende koinzidente Muster der Schnitt zwischen dem erwarteten Muster und dem Eingabemuster. Im vorliegenden System wird dieses Resultat vermittels einer Verstärkungssteuerung 38 erhalten.
Die Verstärkungssteuerung sieht eine unspezifisch hohe Verstärkung bei jedem Pixel des empfangenen Musters an der Eingabemusterseite von F&sub1; vor, wenn ein Signal 40 anzeigt, daß ein Eingabemuster erhalten ist und ein Signal 42 anzeigt, daß kein erwartetes Muster erzeugt wurde. Wenn jedoch ein erwartetes Muster erzeugt wurde, wird das Signal auf der Leitung 42 von dem auf der Leitung 40 subtrahiert, um die von der Verstärkungssteuerung 38 auf F&sub1; angewandte Verstärkung zu eliminieren. Ohne die angewandte Verstärkung sind die von dem Eingabemusterpuffer 12 an F&sub1; gelieferten Pixelsignale durch sich selbst unzulänglich, um ein koinzidentes Muster an den Ausgabeleitungen 44 zu erzeugen; aber es werden die von den anpassungsfähigen Filtern 16 erhaltenen Signale und die Signale von dem Eingabemuster pixelweise summiert. Ein Pixel, welches Eingaben sowohl von dem erwarteten Muster als auch von dem Eingabemuster empfängt, erreicht eine Schwellwert-Stufe in dem koinzidenten Muster. Wenn jedoch ein Knoten in F&sub1; lediglich ein Signal von dem Eingabemuster oder lediglich ein Signal von dem erwarteten Muster erhält, erreicht das Signal für diesen Pixel nicht den Schwellenwert in dem koinzidenten Muster. Das Resultat davon ist, daß das koinzidente Muster der Schnitt zwischen dem Eingabemuster und dem erwarteten Muster ist. Das oben beschriebene System kann so als die Anwendung einer 2/3-Regel angesehen werden, wobei ein Signal an jedem Pixel angezeigt ist, für welches zwei von den drei Eingaben von jedem der Eingabemuster, der erwarteten Muster und der Verstärkungssteuerung erhalten werden.
Dort wo die Musterelemente binäre Werte aufweisen, wird das koinzidente Muster der volle Schnitt zwischen dem Eingabemuster und dem erwarteten Muster sein. Wo jedoch ein Grauton benutzt wird, kann das koinzidente Muster ein teilweise innerhalb des vollen Schnitts liegender Schnitt sein. Wo eines oder beides der korrespondierenden Elemente in den beiden Mustern niedrige Werte aufweist, kann die Summe dieser beiden Werte nicht ausreichend sein, ein Element in den koinzidenten Mustern auszulösen.
Für die Selbststabilisierung der 2/3-Regel kann jedes Element des koinzidenten Musters sowohl im Eingabemuster als auch im erwarteten Muster gefunden werden. Das koinzidente Muster, welche das Lernen steuert, wird keine Hervorhebung irgendeines Elements, das nicht in dem erwarteten Muster ist, verursachen. Alle Elemente innerhalb des koinzidenten Musters werden in den anpassungsfähigen Filtern 14 und 16 zurückgehalten. Auf alle Elemente, die nicht in dem koinzidenten Muster sind, wird durch Reduzieren ihrer Filterwichtungen in bezug auf die ausgwählte Kategorie weniger Wert gelegt. In einem schnellen Lernsystem werden die Wichtungen sofort auf Null reduziert.
Eine Verstärkungssteuerung 46 für F&sub2; ermöglicht es, daß jegliche Kurzzeitspeicher (STM)-Aktivität in F&sub2; beendet wird, wenn keine Eingabemuster empfangen werden. Die Verstärkung kann jedoch durch eine Eingabe 48 aktiviert werden, um ein absichtliches Ingangsetzen des Systems zu ermöglichen. Wenn das System eine andere Basis als das Eingabemuster aufweist, von welchem erwartet wird, daß die auszuwählende Kategorie eine besondere ist, kann ein Signal auf den Knoten bei F&sub2; für diese Kategorie angewendet werden. Die so erzeugten erwarteten Muster würden die Verstärkungssteuerung 30 hindern, und es würden keine koinzidenten Muster erzeugt werden, bis eine zweite Eingabe von dem Eingabemuster vorgesehen wird. Ein solches Ingangsetzen des Systems kann intermodal sein. Z. B. kann ein System für eine sichtbare Kategorie in Gang gesetzt werden für eine Kategorie, die durch ein hörbares System erkannt wurde.
Das Ingangsetzen ermöglicht ein schnelles und akkurates Antworten auf verrauschte und/oder sehr schnelle Eingaben. Es kann auch die Reihenfolge des Lernens leiten. Z. B. kann ein visuelles System sauber eine Farbe wie Rot oder Orange bei ihrer Wachsamkeitsstufe kategorisieren. Ein auditives System kann das visuelle System in Gang setzen, um eine Kategorie über die andere im Lernprozeß auszuwählen.

Lernregeln

Ein Aspekt des vorliegenden Systems kann durch Betrachtung der folgenden Situation begründet werden. Sei angenommen, daß ein von-unten-nach-oben-Eingabemuster I(1) bereits vollständig durch das anpassungsfähige Filter von F&sub1; nach F&sub2; kodiert wurde. Wird darüber hinaus angenommen, daß ein anderes Muster I(2) ebenfalls vollständig kodiert wurde, und daß I(2) I(1) als Untermenge enthält; d. h. I(2) ist gleich I(1) bei allen Knoten, wo I(1) positiv ist. Wenn I(1) und I(2) genügend unterschiedlich sind, sollten sie Zugang zu verschiedenen Kategorien bei F&sub2; haben. Da jedoch I(2) I(1) bei dessen Schnitt gleicht, und da alle F&sub1; Knoten, wo I(2) nicht gleich I(1) ist, inaktiv sind, wenn I(1) dargestellt wird, wie unterscheidet dann das Netzwerk zwischen den beiden Kategorien, wenn I(1) dargestellt wird? Diese Frage legt nahe, daß als Antwort auf ein Eingabemuster I(1), welches vollständig kodiert ist, der Knoten v&sub1; in F&sub2;, der I(1) kodiert, ein größeres Signal von dem anpassungsfähigen Filter erhalten sollte als der Knoten v&sub2;, der eine Übermenge I(2) von I(1) (Figur 5A) kodiert. Um diese Zwangsbedingung zu realisieren, sollten die LTM Spuren bei v&sub2;, welche I(1) filtern, kleiner sein als die LTM Spuren bei v&sub1;, welche I(1) filtern. Da die LTM Spuren bei v&sub2; durch das Übermengenmuster I(2) kodiert werden, legt dieser Zwang nahe, daß größere Eingabemuster durch kleinere LTM Spuren kodiert werden. Auf diese Weise spiegeln die absoluten Größen der LTM Spuren, die zu den verschiedenen Knoten v&sub1; und v&sub2; hervorgehen, die Gesamtgrößen der Eingabemuster I(1) und I(2), die durch diese Knoten kodiert werden, wider.
Die relativen Größen der LTM Spuren, die hin zu einem einzelnen Knoten hervorgehen, widerspiegeln die interne Strukturierung der Eingabemuster, die durch diesen Knoten kodiert sind. Zu betrachten sind z. B. die LTM Spuren in Wegen von F&sub1; Knoten, wo I(1) verschwindet, hin zu F&sub2; Knoten v&sub1; (Figur 5B). Während des Lernens von I(1) zerfallen diese LTM Spuren hin zu Null. Im Vergleich dazu sind die LTM Spuren zu v&sub2; in Wegen von F&sub1; Zellen anzusehen, die von I(2) aber nicht von I(1) aktiviert werden. Diese LTM Spuren werden groß, wenn das Lernen von I(2) voranschreitet.
Die voranstehende Diskussion legt einen Zwang nahe, der es einer Untermenge I(1) ermöglicht, wahlweise ihren Knoten v&sub1; zu aktivieren, anstatt des Knotens, der einer Übermenge I(2) entspricht. Auf der anderen Seite sollte die Übermenge I(2) fähig sein, ihren Knoten v&sub2; direkt zu aktivieren anstatt des Knotens v&sub1; einer Untermenge I(1). Die positiven LTM Spuren von v&sub1; sind jedoch größer als die korrespondierenden LTM Spuren von v&sub2;, und die Darstellung von I(2) aktiviert das vollständige Untermengenmuster I(1). Die Tatsache, daß I(2) durch mehr LTM Spuren bei v&sub2; gefiltert wird als es bei v&sub1; der Fall ist, muß es ermöglichen, den größeren Umfang der LTM Spuren bei v&sub1; zu kompensieren. Durch Einrichten eines passenden Ausgleichs zwischen der Größe und der Anzahl der positiven LTM Spuren, erlaubt eine Weberregel sowohl I(1) als auch I(2), direkten Zugriff auf ihre jeweiligen Knoten v&sub1; und v&sub2; zu haben.
Wir beschreiben nun präziser die beiden Lernregeln, wobei die LTM Spuren einen direkten Zugriff sowohl auf die Untermenge als auch die Übermenge F&sub2;-Codes ermöglichen. Die verbundene Wirkung der Weberregel und die assoziative Zerfallsregel für die erlernten Größen der LTM Spuren weist die gewünschten Eigenschaften auf. Um Ideen festzuhalten, wird angenommen, daß jedes Eingabemuster I an F&sub1; ein Muster von Nullen und Einsen ist. I bezeichnet die Anzahl von Einsen in dem Eingabemuster I. Die beiden Regeln können wie folgt zusammengefaßt werden.
Gemäß der assoziativen Zerfallsregel sind die Spuren, nachdem das Lernen von I stattgefunden hat, sowohl in den von-unten-nach-oben verlaufenden Kodierungspfaden und den von-oben-nach-unten verlaufenden Schablonenpfaden zwischen einem inaktiven F&sub1; Knoten und einem aktiven F&sub2; Knoten gleich Null oder wenigstens sehr klein. Das assoziative Lernen innerhalb der LTM Spuren kann auf diese Weise ein Abnehmen ebenso wie ein Anwachsen der Größe der Spuren verursachen. Dies ist eine nicht-Hebb'sche Form des assoziativen Lernens.
Gemäß der Weberregel, sind die LTM Spuren nach dem Lernen des Eingabemusters I in von-unten-nach-oben-verlaufenden Kodierungspfaden, die aktiven F&sub1; und F&sub2; Knoten entsprechen, gleich
Nach (1) nimmt die Größe jeder positiven LTM Spur, die I kodiert, ab, wenn I anwächst.
Betrachte wieder die Untermenge I(1) und die Übermenge I(2). Gemäß (1) haben die positiven LTM Spuren, die I(1) kodieren, die Größe
und die positiven LTM Spuren, die I(2) kodieren, haben die Größe
wobei I(1) < I(2) ist. Wenn I(1) bei F&sub1; dargestellt wird, sind die I(1) -Knoten in F&sub1; über dem Schwellenwert. Auf diese Weise hat die gesamte Eingabe an v&sub1; die Größe
und die gesamte Eingabe an v&sub2; hat die Größe:
Weil I(1) < I(2) , folgt, daß J&sub1;&sub1; > J&sub1;&sub2;. Auf diese Weise aktiviert I(1) v&sub1; anstelle v&sub2;.
Wenn I(2) bei F&sub1; dargestellt ist, sind die I(2) -Knoten in F&sub1; über dem Schwellenwert. Auf diese Weise ist die gesamte Eingabe an v&sub2;:
Wir benutzen nun die assoziative Zerfallsregel. Da I(2) eine Übermenge von I(1) ist, lassen lediglich die F&sub1; Knoten in I(2), die auch durch I(1) akiviert sind, positive LTM Spuren bei v&sub1; hervortreten. Auf diese Weise ist die gesamte Eingabe bei v&sub1;
Sowohl J&sub2;&sub2; als auch J&sub2;&sub1; werden als Therme der Funktion
ausgedrückt, welche eine anwachsende Funktion von ξ ist. Da I(1) < I(2) , J&sub2;&sub2; > J&sub2;&sub1;. Auf diese Weise aktiviert die Übermenge I(2) ihren Knoten v&sub2; über den Untermengenknoten v&sub1;.
Um den Verlauf des Lernens zu charakterisieren, muß die Änderungsrate der LTM Spuren bei jedem Lernversuch spezifiziert werden. Wir betrachten hier den Fall, bei dem bei jedem Lernversuch die LTM Spuren die neuen Gleichgewichtswerte erreichen können, die durch das Eingabemuster diesem Versuch aufgezwungen werden. Wir nennen dies die Schnellernfälle. Wir haben auch Fälle betrachtet, in denen die LTM Spuren sich zu langsam ändern, um die neuen Gleichgewichtswerte zu erreichen, die durch das Eingabemuster einem einzigen Versuch aufgezwungen werden. Wir nennen dies die Langsamlernfälle.
Während sowohl des schnellen Lernens als auch des langsamen Lernens ändern sich die STM Spuren schneller als die LTM Spuren und der Lernprozeß stabilisiert sich allmählich selbst. Das System ist jedoch sensitiver auf das Ordnen der Eingabemuster während des schnellen Lernens als auf das während des langsamen Lernens. Während des schnellen Lernens mittelt jede LTM Spur während Zeitintervallen, die wesentlich länger als ein einziger Versuch sind, und wird dadurch weniger sensitiv auf das Ordnen der Eingaben.
Wir bemerken schließlich, daß die 2/3-Regel und die Weberregel nahelegen, wie die anfänglichen Werte der STM Spuren und LTM Spuren gewählt werden sollten. Die Wahl der anfänglichen STM Spuren ist einfach: Das System beginnt beim Gleichgewicht oder mit Null-STM Spuren und die STM Spuren kehren schnell zum Gleichgewicht zurück, nachdem jedes Eingabemuster abschaltet.
Anfängliche LTM Spuren müssen in dem von-unten-nach-oben anpassungsfähigen Filter 14 anders gewählt werden als in dem von-oben-nach-unten anpassungsfähigen Filter 16. Infolge der Weberregel werden die einzelnen von-unten-nach- oben LTM Spuren, die als Antwort auf große Eingabemuster gelernt werden, verhältnismäßig klein sein. Zur Darstellung eines perfekt kodierten großen Musters, zu dessen kodiertem Knoten leichter als einem unkodierten Knoten Zugang gewährt werden soll, müssen die Anfangswerte der von-unten-nach-oben verlaufenden LTM Spuren kleiner sein als die erlernten LTM Werte, die großen Eingabemustern entsprechen. Obwohl darüber hinaus einige von-unten-nach-oben verlaufende LTM anfänglich Null sein können, müssen andere LTM Spuren, die an jeden F&sub2; Knoten angrenzen, anfänglich positiv sein, damit F&sub1; diesen Knoten überhaupt anregt.
Aufgrund der 2/3-Regel können die anfänglichen von-oben-nach-unten verlaufenden LTM Spuren nicht zu klein sein. Wenn ein Eingabemuster zuerst einen F&sub2; Knoten wählt, müssen die LTM Spuren, die den Ausgang der von-oben-nach- unten verlaufenden Schablone dieses Knotens sperren, die 2/3-Regel befolgen, selbst bevor irgendein Schablonenlernprozeß stattfindet. Wenn die von-oben-nach-unten verlaufenden LTM Spuren zu klein beginnen, würde kein F&sub1; Knoten einen genügenden von-oben-nach-unten verlaufenden Eingang erhalten, um der 2/3-Regel zu genügen. Das gesamte System würde folglich abschalten. Das von-oben-nach-unten verlaufende Lernen ist aus diesem Grunde ein Typ des Lernens durch Auswahl.
Zusammenfassend gesagt, starten von-unten-nach-oben verlaufende LTM Spuren klein, wohingegen von-oben-nach-unten verlaufende LTM Spuren groß starten. Das von-unten-nach- oben verlaufende und das von-oben-nach-unten verlaufende Lernen bildet die räumliche Verteilung ihrer LTM Spuren genauso wie deren Gesamtgröße in der Zeit. Die Bedingung, daß die anfänglichen Größen der von-oben-nach-unten verlaufenden LTM Spuren groß sein muß, ist eine Konsequenz der 2/3-Regel. Die Bedingung, daß die anfänglichen Größen der von-unten-nach-oben verlaufenden LTM Spuren klein sein muß, ist notwendig, um einen direkten Zugriff auf perfekt kodierte F&sub2; Knoten zu garantieren. Wir nennen deshalb diese letzte Bedingung die Direkt-Zugriff-Regel.

Suchreihenfolge

Wir können nun beginnen, die Suchreihenfolge in einem Netzwerk zu charakterisieren, das den folgenden Bedingungen gehorcht: 1) Es liegt schnelles Lernen vor; 2) die Eingabemuster sind aus Nullen und Einsen zusammengesetzt; 3) die 2/3-Regel gilt; 4) die Weberregel gilt; und 5) die Direkt-Zugriff-Regel gilt.
Diese Diskussion der Suchreihenfolge analysiert nicht, ob ein STM Rücksetzereignis die Suche bei irgendeinem gegebenen Schritt stoppt oder nicht. Kriterien für ein STM Rücksetzen werden unten angegeben.
Eine einfache Funktion bestimmt die Reihenfolge, nach welcher kodierte F&sub2; Knoten Vj gesucht werden als Antwort auf ein Eingabemuster I. Diese Funktion, die wir die Ordnungsfunktion nennen, ist wie folgt definiert:
In Gleichung 9 bezeichnet V(j) das von-oben-nach-unten verlaufende Schablonenmuster, das am Knoten Vj von F&sub2; ausgelesen wird. Da lediglich ein Knoten zu der Zeit in F&sub2; aktiv ist, ist die gesamt ausgelesene Schablone bei F&sub2; die Schablone, die dem Knoten entspricht, der zu dieser Zeit aktiv ist.
Nachdem I an F&sub1; dargestellt ist, aber bevor F&sub2; aktiv wird, ist die Funktion Tj in (9) die gesamte von-unten-nach-oben verlaufende Eingabe an Knoten Vj. Der Term α(β + V(j) )&supmin;¹ in (9) ist eine Konsequenz der Weberregel. Dieser Term beschreibt die Größe der positiven gelernten LTM Spuren, die an Vj grenzen. Der Term V(j) I beschreibt die Anzahl der Wege, die an den Knoten Vj grenzen, die positive gelernte LTM Spuren aufweisen und die positive Signale tragen, wenn die Eingabe I dargestellt wird. Die gesamte Anzahl der an Vj angrenzenden Wege, die positive gelernte LTM Spuren aufweisen, ist V(j). Dies ist richtig, weil eine von unten-nach-oben verlaufende LTM Spur von dem Knoten Vi in F&sub1; zu dem Knoten Vj in F&sub2; gemäß dem Lernen anwächst, wenn und nur wenn die entsprechende von-oben-nach-unten verlaufende LTM Spur von Vj nach Vi gemäß dem Lernen anwächst. Es existieren viele positive gelernte LTM Spuren in Pfaden, die zu Vj führen genauso wie sie in Pfaden, die von Vj führen, sind. Zu den Zeiten, wenn die Eingabe I durch F&sub1; registriert wird, sind lediglich V(j) I dieses Betrages V(j) aktiviert. Die Gesamteingabe an den Knoten Vj in F&sub2; ist auf diese Weise durch Tj in (9) gegeben.
Von dem ausgewählten Knoten vj wird ein erwartetes Muster auf F&sub1; angewendet. Dieses erwartete Muster kann weniger aktive Pixel einschließen als sie in dem ursprünglichen Muster in F&sub1; aktiv waren, und gemäß der 2/3-Regel können einige dieser Knoten in F&sub1;, die anfänglich aktiv waren, deaktiviert werden. Die Deaktivierung dieser Knoten wird jedoch den Wert Tj nicht ändern, der bei dem ausgewählten Knoten vj empfangen wurde, und die Auswahl wird aus diesem Grunde stabil bleiben. Dies geschieht deshalb, weil die Eliminierung eines von-oben-nach-unten verlaufenden Pfades nur in Konkurrenz mit der Eliminierung eines on-unten-nach-oben verlaufenden Pfades erhalten wird und ein F&sub1; Knoten, der durch das erwartete Muster deaktiviert ist, würde nicht zuvor dem ausgewählten F&sub2; Knoten einen Pfad dargeboten haben. Bei der Deaktivierung von F&sub1; Knoten und dem Empfang des erwarteten Musters bei F&sub1; bei der Aktivierung zusätzlicher F&sub1; Knoten, die nicht möglich sind, erhalten die verbleibenden nicht ausgewählten F&sub2; Knoten die gleiche oder eine Funktion Tj niedrigerer Ordnung.
Um die Suchreihenfolge in Abhängigkeit von dem Eingabemuster I zu diskutieren, definieren wir drei Typen von erlernten Schablonen: Untermengenschablonen, Übermengenschablonen und gemischte Schablonen. Die LTM Spuren einer Untermengenschablone V sind nur bei einer Untermenge der F&sub1; Knoten groß, die von dem Eingabemuster I aktiviert sind (Figur 6A). Die LTM Spuren einer Übermengenschablone V sind bei allen F&sub1; Knoten groß, die von dem Eingabemuster I aktiviert sind, genauso wie bei einigen F&sub1; Knoten, die nicht durch I aktiviert sind (Figur 6B). Die LTM Spuren einer gemischten Schablone V sind bei einigen, aber nicht bei allen der F&sub1; Knoten groß, die von dem Eingabemuster I aktiviert sind, genauso wie bei einigen F&sub1; Knoten, die nicht durch I aktiviert sind (Figur 6C).
Sobald ein Suchvorgang endet, wenn eine vorgeschriebene Schablone V(j) = V durch den F&sub2; Knoten vj herausgelesen wurde, kodieren diese Schablonen-LTM-Spuren die neue Schablone V(j) = V I neu. Diese Folgerung ergibt sich aus der gemeinsamen Wirkung der 2/3-Regel und der assoziativen Zerfallsregel. Lediglich F&sub1; Knoten in dem Satz V I können überschwellig in bezug auf die 2/3-Regel übrigbleiben, und die LTM Spuren von Pfaden zwischen vj und inaktiven F&sub1; Knoten konvergieren hin zu Null, und zwar gemäß der assoziativen Zerfallsregel. Auf diese Weise ist die aktive Schablone V(j) = V, nachdem das Lernen stattgefunden hat, gleichgültig, ob sie als eine Untermengenschablone, eine Übermengenschablone oder eine gemischte Schablone begann, in der Untermengenschablone V(j) = V I durch das Eingabemuster I neu kodiert. Diese Untermengen-Neukodierungseigenschaft ist ein Schlüsselerfordernis für Kodierungsstabilität.
Wir zeigen nun die Wichtigkeit der Untermengen-Neukodierungseigenschaft, indem beschrieben wird, wie ihre Abwesenheit zu einer zeitlich unstabilen Kodierung führen kann.
Figur 7A faßt eine Computersimulation eines unstabilen Code-Lernvorganges zusammen, bei dem die hindernden, von-oben-nach-unten verlaufenden Aufmerksamkeits-Verstärkungssteuerungs-Signale 42 zu klein gewählt sind, um die 2/3-Regel bei F&sub1; geltenzulassen. Figur 7B faßt eine Computersimulation zusammen, die zeigt, wie die Wiedereinsetzung der 2/3-Regel den Code-Lernvorgang stabilisiert. Das in dieser Figur benutzte Format wird auch in der Darstellung unserer anderen Computersimulation verwendet. Wir beschreiben diese Figur deshalb im Detail.
Die erste Spalte der Figur 7A zeigt die vier Eingabemuster, die in der Simulation benutzt wurden. Diese Eingabemuster sind mit A, B, C und D benannt. Die Muster B, C und D sind alles Untermengen von A. Die Beziehungen unter den Eingaben, die die Simulation in Betrieb setzen, sind folgende:
D C A, (11)
B A, (12)
B C = φ (13)
D < B < C (14)
Diese Resultate sehen unendlich viele Beispiele vor, in welchen ein Alphabet oder lediglich vier Eingabemuster nicht stabil kodiert werden können ohne die 2/3-Regel. Die Zahlen 1, 2, 3, ..., die in der zweiten Spalte aufgelistet sind, spezifizieren die Darstellungsreihenfolge. Die dritte Spalte, die mit BU für Bottom-UP, (von-unten-nach- oben verlaufend) bezeichnet ist, beschreibt das Eingabemuster, welches bei jedem Versuch dargestellt wurde. In beiden Figuren 7A und 7B wurden die Eingabemuster periodisch in der Reihenfolge ABCAD dargestellt.
Jede der in Figur 7 von-oben-nach-unten verlaufenden Schablonenspalten entspricht einem unterschiedlichen Knoten in F&sub2;, wobei Spalte 1 dem Knoten v&sub1; entspricht, Spalte 2 dem Knoten v&sub2;, usw. Jede Reihe faßt die Antwort des Netzwerks auf sein Eingabemuster zusammen. Das Symbol RES, das für Resonanz steht, bezeichnet den Knoten in F&sub2;, der das Eingabemuster bei diesem Versuch kodiert. Z. B. kodiert v&sub2; das Muster C bei Versuch 3 und v&sub1; kodiert das Muster B bei Versuch 7. Die Muster in einer gegebenen Reihe beschreiben die Schablonen, nachdem das Lernen bei diesem Versuch stattgefunden hat.
In Figur 7A ist das Eingabemuster A periodisch neu kodiert: Bei Versuch 1 ist es durch v&sub1; kodiert; bei Versuch 4 durch v&sub2;; bei Versuch 6 durch v&sub1;; bei Versuch 9 durch v&sub2;. Dieses Wechseln in den Knoten v&sub1; und v&sub2;, die das Muster A kodieren, wiederholt sich unendlich oft.
Eine Verletzung der 2/3-Regel geschieht bei den Versuchen 4, 6, 8, 9, usw. Diese Verletzung wird durch Vergleichen der Schablone von v&sub2; bei den Versuchen 3 und 4 dargestellt. Bei Versuch 3 ist die Schablone von v&sub2; durch das Muster C kodiert, das eine Untermenge des Musters A ist. Bei Versuch 4 wird das Muster A präsentiert und aktiviert direkt den Knoten v&sub2;. Weil die 2/3-Regel nicht gilt, bleibt das Muster A in F&sub1; überschwellig, d. h. über dem Schwellenwert, selbst nachdem die Untermengenschablone C von v&sub2; herausgelesen wurde. Auf diese Weise wird kein Suchen durch das Nichtpassen des Musters A und seiner Untermengenschablone C hervorgerufen. Folglich wird die Schablone von v&sub2; von dem Muster C auf ihr Übermengenmuster A neu kodiert.
In Figur 7B gilt dagegen die 2/3-Regel aufgrund einer größeren Wahl des Aufmerksamkeits-Verstärkungssteuerungs- Parameters. Auf diese Weise erfährt das Netzwerk eine Folge von Neukodierungen, die sich schließlich stabilisieren. Speziell liest bei Versuch 4 Knoten v&sub2; die Untermengenschablone C aus, die nicht auf das Eingabemuster A paßt. Die Zahlen unter den Schablonensymbolen in der Reihe 4 beschreiben die Suchreihenfolge. Zunächst paßt die Schablone von v&sub2; C nicht auf A. Dann paßt die Schablone von v&sub1; B nicht auf A. Schließlich aktiviert A den nicht eingebundenen Knoten v&sub3;, der mit F&sub1; in Resonanz ist, wenn er die Schablone A erlernt.
Indem die Reihen der Fig. 7B abgetastet werden, sehen wir, daß das Muster A durch v&sub1; bei Versuch 1 kodiert wird; durch v&sub3; bei den Versuchen 4 und 6; und durch v&sub4; bei Versuch 9. Bei allen zukünftigen Versuchen wird das Eingabemuster A durch v&sub4; kodiert. Darüber hinaus haben alle Eingabemuster A, B, C und D einen stabilen Code durch Versuch 9 erlernt. Auf diese Weise stabilisiert sich der Code selbst beim zweiten Durchgang durch die Eingabeliste A, B, C, A, D. Bei den Versuchen 11 bis 15 und bei allen anderen zukünftigen Versuchen wählt jedes Eingabemuster einen unterschiedlichen Knoten aus (A bei v&sub4;; B bei v&sub1;; C bei v&sub3;; D bei v&sub2;). Jedes Muster gehört zu einer separaten Kategorie, weil der Aufmerksamkeits-Parameter, der unten diskutiert ist, in diesem Beispiel als groß ausgewählt wurde. Darüber hinaus aktiviert jedes Eingabemuster direkt seinen Knoten in F&sub2;, ohne irgendeiner zusätzlichen Suche unterzogen zu werden, nachdem das Lernen der Kodes stabilisiert ist. Aus diesem Grunde erscheint nach Versuch 9 nur das "RES" Symbol unter den von-oben-nach-unten verlaufenden Schablonen. Die Muster, die in irgendeiner der Reihen zwischen 9 und 15 gezeigt sind, sehen eine komplette Beschreibung der erlernten Kodes vor.
Beispiele, wie ein neues Exemplar eine zuvor erlernte Kategorie aktivieren kann, sind bei den Versuchen 2 und 5 in den Figuren 7A und 7B zu finden. Bei Versuch 2 ist das Muster B z. B. zum erstenmal dargestellt und greift direkt auf die Kategorie, die durch v&sub1; kodiert ist, zu, was zuvor durch das Muster A bei Versuch 1 erlernt wurde. In der Terminologie der künstlichen Intelligenz aktiviert B denselben Kategorie-"Zeiger" oder dieselbe Kategorie-"Markierung" oder denselben Kategorie-"Index" wie in A. Indem das geschieht, wechselt B nicht den Kategorie-"Index", aber es kann die Kategorie-Schablone wechseln, die bestimmt, welche Eingabemuster auch durch diesen Index bei zukünftigen Versuchen kodiert werden. Die Kategorie ändert sich nicht, aber ihre Invarianten können wechseln.
Ein Beispiel, wie die Darstellung von sehr unterschiedlichen Eingabemustern die Kategorie festgelegter Eingabemuster beeinflussen kann, ist durch Betrachtung der Versuche 1, 4 und 9 in Figur 7B zu finden. Diese sind die Versuche, bei denen das Muster A aufgrund des zwischenzeitlichen Vorkommens anderer Eingabemuster neu kodiert ist. Bei Versuch 1 ist das Muster A durch v&sub1; kodiert. Bei Versuch 4 ist A durch v&sub3; kodiert, weil das Muster B auch durch v&sub1; kodiert wurde und das Muster C in der Zwischenzeit durch v&sub2; kodiert wurde. Bei Versuch 9 ist das Muster A durch v&sub4; neu kodiert, weil beide Muster C in der Zwischenzeit durch v&sub3; neu kodiert und Muster D durch v&sub2; neu kodiert sind.
Bei all diesen Übergängen bestimmt die globale Struktur des Eingabemusters, welche F&sub2; Knoten aktiviert werden und globale Messungen der Musteranpassung an F&sub1; bestimmen, ob diese Knoten rückgesetzt werden oder ob ihnen das Resonieren in STM ermöglicht wird.

Suche der Untermengen, Übermengen und gemischten Mengen

Bevor der Code in Figur 7B schließlich stabilisiert ist, sucht er das Netzwerk in der Reihenfolge, die durch die Werte Tj charakterisiert ist, ab. Wir beschreiben nun Einbeziehungen dieser Suchreihenfolge in einen Fall von speziellem Interesse, der das in Figur 7B beschriebene Beispiel einschließt. Dies ist der Fall, wo der Parameter β in Gleichung 9 "klein" ist. Mit klein meinen wir, daß der Parameter β der Ungleichung genügt:
wo Imax die größte Anzahl von F&sub1; Knoten ist, die durch irgendein Eingabemuster I aktiviert sind.

A. Untermengenschablonen

Angenommen, daß erlernte Schablonen existieren, die Untermengen der Eingabemuster I (Figur 6A) sind. Dann korrespondiert, wenn Ungleichung (15) gilt, der erste zu wählende Knoten in F&sub2; mit der größten Untermengenschablone V. Ob die Schablone v zu der Eingabe I gut genug paßt oder nicht, um ein STM-Rücksetzen von F&sub2; zu verhindern, hängt von dem beschreibenden Orientierungssystem 18 genauso ab, wie davon, wieviel kleiner V als I ist. Wenn V=I, dann geschieht niemals eine Rücksetzung. In diesem Fall hat die Direkt-Zugriff-Regel zur Folge, daß der V entsprechende Knoten zuerst gewählt wird. Diese Schablone V des Knotens deckt I bei F&sub1; ab. Folglich wird durch die 2/3 Regel keine Reduktion der F&sub1; Aktivität verursacht, und ein STM Rücksetzen geschieht nicht.
Wenn der zuerst gewählte Knoten I nicht abdeckt, kann ein Rücksetzen geschehen. Wenn das Rücksetzen geschieht, fährt das Netzwerk fort F&sub2; Knoten zu suchen, die Untermengenschablonen besitzen. Die Suchreihenfolge schreitet von großen hin zu kleinen Untermengenschablonen fort. Diese Suchreihenfolge folgt aus (9), weil, wenn V(j) I, dann, V(j) I=V(j), sodaß die Ordnungsfunktion Tj der Gleichung genügt:
Auf diese Weise ist die Reihenfolge, in welcher die Untermengenschablonen gesucht werden, bestimmt durch die relativen Größen der V(j) quer über alle Untermengenschablonen. Figur 7B zeigt diese Untermengensucheigenschaften. Bei Versuch 9 z.B. werden die Knoten, die den Untermengenschablonen C, B und D entsprechen, in Abhängigkeit von dem Eingabemuster A der abnehmenden Schablonengröße nach gesucht wie in (14).

B. Übermengenschablonen und keine gemischten Schablonen

Sei angenommen, daß das Netzwerk alle gelernten Untermengenschablonen gesucht hat, die dem Eingabemuster I entsprechen. Wir betrachten nun die nachfolgende Suchreihenfolge durch Aufspalten der Möglichkeiten in verschiedene Fälle. Wir nehmen an, daß keine gemischten Schablonen gelernt wurden, aber daß wenigstens eine Übermengenschablone gelernt wurde.
Unsere Hauptfolgerung ist, daß dann, wenn alle Untermengenschablonen schon zurückgesetzt wurden, das System die Eingabe I unter Benutzung des F&sub2; Knotens vj mit der kleinsten Übermengenschablone V(j) = V kodiert. Gemäß diesem Kodierungsereignis wird V(j) nach:
V(j) = V I = I (17)
neu kodiert. Das Netzwerk wählt die kleinste Übermengenschablone zuerst aus, wegen:
immer wenn V I. Auf diese Weise erzeugt die kleinste der Übermengenschablonen die größte von-unten-nach-oben verlaufende Eingabe Tj. Das Netzwerk setzt diese Wahl nicht zurück, weil die Übermengenschablone V vollständig das Eingabemuster I bei F&sub1; überdeckt. Gemäß der 2/3-Regel besteht das F&sub1; Aktivitätsmuster, das durch I verursacht wird, allein weiter, nachdem die Übermengenschablone tätig wird. Es wird keine Reduzierung der F&sub1; Aktivität durch die Übermengenschablone verursacht. Deshalb wird ihr F&sub2; Code durch das Orientierungsuntersystem nicht zurückgesetzt. Auf diese Weise ermöglicht dieselbe Eigenschaft, die stabiles Auswählen im STM garantiert, auch, daß die Suche endet, wenn sie die kleinste Übermengenschablone erreichen kann.
Es bleibt zu erklären, warum die Untermengen vor den Übermengen und die Übermengen vor den ungebundenen Knoten gesucht werden.
Gegeben sei eine Untermengenschablone V(i) und eine Übermengenschablone V(j) des Eingabemusters I,
V(i) ≤ I < V(j) , (19)
Es folgt aus (15), (19), (20) und (21), daß
Ti > Tj, (22)
und folglich, daß die Untermengenschablonen vor den Übermengenschablonen gesucht werden. Diese Eigenschaft hängt kritisch von der kleinen Wahl von β in (18) ab.
Knoten mit Übermengenschablonen werden vor ungebundenen Knoten aufgrund der gleichen Eigenschaft gesucht, die den direkten Zugriff zu vollkommen kodierten Knoten garantiert. Wir bemerkten, daß anfängliche von-unten-nach- oben verlaufende LTM Werte klein genug gewählt werden müssen, um einen direkten Zugriff zu Knoten zu ermöglichen, die vollständig irgendein Eingabemuster kodieren. Im speziellen gilt:
wo z&sub0; die maximale Größe einer anfänglichen von-unten-nach-oben LTM Spur ist und α (β + V(j) &supmin;¹ der erlernte LTM Wert ist, der der Übermengenschablone V(j) entspricht. Die gesamte von-unten-nach-oben verlaufende Eingabe hin zu einem ungebundenen Knoten in Abhängigkeit von der Eingabe I ist deshalb meistens z&sub0; I , was kleiner ist als die gesamte von-unten-nach oben verlaufende Eingabe α I (β + V(j) )&supmin;¹ an einen Übermengenknoten vj.

C. Übermengenschablonen und gemischte Schablonen

Sei angenommen, daß das Netzwerk seine Untermengenschablonen schon gesucht hat, sei auch angenommen, daß sowohl die Übermengenschablonen und die gemischten Schablonen zuvor gelernt wurden. Wir haben gezeigt, daß dann, wenn ein Knoten mit einer Übermengenschablone aktiviert ist, das Eingabemuster durch diesen Knoten kodiert wird, insbesondere wird die Schablone des Knotens neu kodiert werden, um perfekt auf das Eingabemuster zu passen. Wir charakterisieren nun die Umstände, unter welchen das Netzwerk gemischte Schablonen sucht, bevor es Übermengenschablonen sucht.
Wir betrachten Knoten vi, die gemischte Schablonen V(i) in bezug auf das Eingabemuster I kodieren. Ferner sei auch V(j) die kleinste Übermengenschablone, die I entspricht. Dann gilt:
Eine gemischte Schablone V(i) wird vor der Übermengenschablone V(j) gesucht, wenn und nur wenn
Da ein Suchen immer endet, wenn ein Übermengenknoten gewählt ist, können gegebnenfalls nur Knoten vi, deren gemischte Schablonen (26) genügen, gesucht werden. Diese Knoten werden geordnet nach der Reihenfolge des Abnehmens von V(i) I V(i) &supmin;¹. Wenn zwei Knoten dasselbe Verhältnis haben, dann wird der mit der größeren gemischten Schablone zuerst gesucht. Wenn die Suche den Knoten vj mit der kleinsten Übermengenschablone erreicht, wird sie bei vj beendet.
Es sei angenommen, daß das Netzwerk bereits seine Untermengenschablonen gesucht hat. Es sei angenommen, daß gemischte Schablonen, aber keine Übermengenschablonen zuvor erlernt wurden. In dieser Situation kann die Suche enden durch Auswählen entweder eines Knotens vi mit einer gemischten Schablone V(i) oder eines Knotens, der zuvor nicht ausgewählt wurde. Z. B. wird ein Knoten vi mit einer gemischten Schablone ausgewählt vor einem neuen Knoten, wenn:
wobei z&sub0; die maximale, anfängliche Größe der von-unten- nach-oben verlaufenden LTM Spuren ist. Erinnern wir uns, daß:
für alle Schablonen V(i) gilt, um es perfekt kodierten Knoten zu ermöglichen, daß auf sie direkt zugegriffen wird. Die Ungleichung (28) kann auf diese Weise gültig sein, wenn V(i) I nicht zu viel kleiner als I ist.

D. Weder gemischte Schablonen noch Übermengenschablonen

In diesem Fall werden die unverbundenen Knoten gesucht, nachdem alle Untermengenknoten gesucht wurden. Ihre anfänglichen von-unten-nach-oben verlaufenden Eingabegrößen an F&sub2; hängen von der Wahl der anfänglichen LTM Spuren ab. Auf diese Weise wird die Suchreihenfolge unter den unverbundenen Knoten durch einen Zufallsfaktor bestimmt. Der erste unverbundene Knoten, der aktiviert wird, beendet die Suche und kodiert das Eingabemuster I. Dies ist richtig, weil alle anfänglichen von-oben-nach-unten verlaufenden LTM Spuren groß genug gewählt wurden, um der 2/3-Regel zu genügen.
Falls es keine nicht einbezogenen Knoten gibt, nach denen zu suchen ist, nachdem alle einbezogenen Knoten zurückgewiesen wurden, kann das Eingabemuster nicht durch das Netzwerk kodiert werden. Diese Eigenschaft ist eine Konsequenz der Fähigkeit des Netzwerks, seine Codes zu puffern oder gegen andauernde Neukodierung durch ungeeignete Ereignisse zu schützen.
Die Figuren 8 und 9 greifen zwei Kodierungssequenzen heraus, die die Hauptpunkte in der voranstehenden Diskussion illustrieren. In Figur 8 wurde jedes von neun Eingabemustern einmal dargestellt. Wir betrachten die Suchreihenfolge, die in Abhängigkeit von dem letzten Eingabemuster I geschieht, das bei Versuch 9 dargstellt wurde. In Versuch 8 hatten die Knoten v&sub1; und v&sub2; schon die Untermengenschablonen dieses Eingabemusters kodiert. Bei Versuch 9 wurden diese Knoten deshalb in Abhängigkeit von abnehmender Schablonengröße gesucht. Die Knoten v&sub3;, v&sub4;, v&sub5; und v&sub6; kodierten gemischte Schablonen des Eingabemusters. Diese Knoten wurden in der Reihenfolge v&sub3;, v&sub5;, v&sub4; gesucht. Diese Suchreihenfolge war nicht durch die Schablonengröße an sich bestimmt, sie wurde vielmehr durch das Verhältnis V(i) I V(i) &supmin;¹ in (27) beherrscht. Diese Verhältnisse für die Knoten v&sub3;, v&sub5; und v&sub4; waren jeweils 9/10, 14/16 bzw. 7/8. Da 14/16 = 7/8, wurde der Knoten v&sub5; vor dem Knoten v&sub4; gesucht, weil V(5) = 16, 8 = V(4) . Der gemischte Schablonenknoten v&sub6; wurde nicht gesucht. Nach dem Suchen von v&sub5; aktivierte das Netzwerk den Knoten v&sub7;, der die kleinste Übermengenschablone besaß. Ein Vergleich der Rei- hen 8 und 9 in Spalte 7 zeigt, wie die Übermengenschablone von v&sub7; neu kodiert wurde, um das Eingabemuster anzupassen. Der Knoten v&sub7; wurde vor dem Knoten v&sub6; gesucht, weil das Verhältnis I V(7) &supmin;¹ = 17/21 größer war als V(6) I V(6) &supmin;¹ = 14/18.
Die acht Eingabemuster der Figur 9 wurden gewählt, um eine Suche zu illustrieren, auf die das Kodieren eines unverbundenen Knotens folgte. Das letzte Eingabemuster I in Figur 9 war das gleiche wie das letzte Eingabemuster in Figur 8. In Figur 9 jedoch gab es keine dem Eingabemuster I entsprechenden Übermengenschablonen. Folglich wurde I durch einen zuvor unverbundenen Knoten v&sub8; bei Versuch 8 kodiert. Bei Versuch 8 suchte das Netzwerk speziell zuerst die Knoten mit Untermengenschablonen in der Reihenfolge v&sub2;, v&sub1;. Dann wurden die gemischten Schablonen-Knoten gesucht in der Reihenfolge v&sub4;, v&sub6;, v&sub5;, v&sub7;. Der gemischte Schablonenknoten v&sub3; wurde nicht gesucht, weil seine Schablone schlecht auf das Eingabemuster I paßt. Stattdessen wurde der unverbundene Knoten v&sub8; aktiviert und eine Schablone erlernt, die auf das Eingabemuster paßt.
Wenn der Parameter β nicht klein genug ist, um der Ungleichung (18) zu genügen, können gemischte Schablonen oder Übermengenschablonen vor Untermengenschablonen gesucht werden. In allen Fällen wird der Zugriff eines perfekt kodierten Musters erreicht.
-Die vorstehende Diskussion wirft neues Licht auf den Punkt, wie unveränderliche Eigenschaften einer Kategorie bestehen bleiben können, selbst während neues Lernen stattfindet. Es müssen zwei Hauptfälle unterschieden werden. In dem ersten Fall wird ein neues Eingabemuster durch einen Knoten kodiert, dessen von-unten-nach-oben verlaufende Filter und von-oben-nach-unten verlaufende Schablonen zuvor einem Lernvorgang unterzogen wurde. In dem zweiten Fall wird ein neues Eingabemuster durch einen zuvor unausgewählten Knoten kodiert. Unsere Bemerkungen hierzu werden sich auf den ersten Fall konzentrieren.
In diesem Fall wechselt die Darstellung eines neuen Eingabemusters nicht sofort die Anzahl der Kategorien, die durch das Netzwerk kodiert wurden, und auch nicht den Satz von Knoten, der diese Kategorien im STM bei F&sub2; kodiert. Die Ausgabesignale von F&sub2; erzeugen die beobachtbaren Antworten des Netzwerks. In diesem Fall ist das neue Muster folglich in den zuvor ausgebildeten Satz von Kategorie-Alternativen und beobachtbaren Antworten eingepaßt. Wenigstens zwei unterschiedliche Arten des Lernens können einen solchen Anpassungsprozeß begleiten: Lernen, welches extern in bezug auf den Kategorie-Erkennungsprozeß ist und Lernen, welches intern in bezug auf diesen Prozeß ist.
Als ein Beispiel für ein externes Lernen wird angenommen, daß die neue Eingabe mit einem unterschiedlichen Verstärkungsschema verbunden ist im Vergleich zu vorhergehenden Eingaben in derselben Kategorie. Neues Lernen zwischen der Kategorie in F&sub2; und Verstärkungsmechanismen kann die Antwort des Netzwerks auf alle die Eingaben in der Kategorie ändern. Auf diese Weise kann die bloße Tatsache der Mitgliedschaft in derselben Kategorie das Vergessen von alten externen Unsicherheiten forcieren, wenn neue Kategoriemuster mit neuen externen Möglichkeiten verbunden sind.
Als ein Beispiel für internes Lernen betrachten wir die folgenden Tatsachen. Selbst wenn ein neues Eingabemuster durch einen "alten" F&sub2; Knoten kodiert ist, kann dieses Eingabemuster das von-unten-nach-oben verlaufende Filter und die von-oben-nach-unten verlaufende Schablone, die diesem Knoten entsprechen, ändern. Auf diese Weise kann das neue Eingabemuster die Kategoriegrenzen des Netzwerks als ganzes ändern. Eingabemuster, die durch die vorgeschriebenen Knoten bei vorhergehenden Versuchen kodiert wurden, können nicht länger durch dieselben Knoten kodiert werden, wenn sie später dargestellt werden. Auf diese Weise können, selbst wenn die Anzahl der Kategorien und ihre Pfade, die Antworten eröffnen, sich nicht ändern, die Kategorie-Invarianten wechseln.
Die 2/3-Regel impliziert jedoch, daß die Filter und Schablonen einer Kategorie Untermengen aller Eingabemuster sind, die von dieser Kategorie kodiert sind. Das Hinzufügen eines neuen Eingabemusters zu einer Kategorie durch Lernen kann ferner lediglich die Filter und Schablonen der Kategorie verfeinern. Auf diese Weise bleibt, nachdem eine Schablone eine Untermenge eines Eingabemusters durch Kodieren dieses Musters wird, die Schablone eine Untermenge des Eingabemusters für alle zukünftige Zeit, unabhängig davon, wie oft die Schablone verfeinert wurde, wenn andere Eingabemuster auf dieselbe Kategorie treffen. Sobald eine Schablone fortschreitend feiner wird, wird das Nichtpassen zwischen der Schablone und den größten Eingabemustern, die durch ihre Kategorie kodiert wurden, zunehmend größer. Wenn dieses Nichtpassen zu groß wird, können einige dieser großen Eingabemuster eventuell neu kodiert werden. Z. B. wurde Muster B in Figur 7B durch Knoten v&sub1; bei Versuch 2 kodiert, und es wurden keine neuen Kategorien herausgebildet. Wenn jedoch später das Muster A bei Versuch 4 als nächstes dargeboten wird, kann es nicht länger auf die Schablone des Knotens v&sub1; passen, wie es das nach Versuch 1 tat. Folglich eröffnet das Muster A eine neue Kategorie.
Es folgen zwei hauptsächliche Schlußfolgerungen aus diesen Betrachtungen. Erstens ist der Kodelernprozeß ein Prozeß fortschreitender Verfeinerung der Unterscheidungen. Die Unterscheidungen, die entstehen, sind das Resultat aller Eingabemuster, die das Netzwerk jemals erfährt, anstatt einiger vorher festgelegter Merkmale. Zweitens vergleicht der Anpassungsprozeß gesamte Muster, nicht nur einzelne Merkmale. Z.B. können sich zwei unterschiedliche Schablonen mit einem Eingabemuster bei F&sub1; bei demselben Satz von Merkmal-Detektoren überlappen, nichtsdestoweniger kann das Netzwerk den F&sub2; Knoten einer Schablone zurücksetzen, noch kann es den F&sub2; Knoten der anderen Schablone zurücksetzen. Der Grad des Nichtpassens der Schablone und der Eingabe als ein Ganzes bestimmt, ob eine Neukodierung geschehen wird. Auf diese Weise löst das Lernen von Kategorie-Invarianten zwei entgegengesetzte Tendenzen auf. Wenn die Kategorien größer werden und folglich anwachsende globale Invarianten kodieren, werden die Schablonen, die diese definieren, kleiner und gründen daher den Code auf Sätze von kritischen Merkmalsgruppierungen. Unten ist beschrieben, wie diese beiden entgegengesetzten Tendenzen aufgelöst werden können, was zu einem dynamischen Gleichgewicht führt oder zur Selbststabilisierung von Erkennungskategorien in Abhängigkeit von einer vorbeschriebenen Eingabeumgebung.
Der nächste Abschnitt beschreibt, wie ein genügend großes Nichtpassen zwischen einem Eingabemuster und einer Schablone zu einem STM-Rücksetzen führen kann, während ein hinreichend gutes Passen die Suche beenden kann, und es dem Lernen ermöglichen kann, stattzufinden.

Wachsamkeit, Orientierung und Rücksetzen

Wir zeigen nun, wie das Passen innerhalb des Aufmerksamkeitsuntersystems bei F&sub1; festlegt, ob das Orientierungsuntersystem A aktiviert wird oder nicht, was dabei zum Rücksetzen des Aufmerksamkeitsuntersystems bei F&sub2; führt.
Das Orientierungsuntersystem wird lediglich das Rücksetzen von F&sub2; auslösen, wenn das übereinstimmende Muster bei F&sub1; eine angepaßte Übereinstimmung anzeigt und wenn eine Eingabe I von dem Puffer 12 erhalten wurde. Das Erfordernis, daß ein Eingabemuster empfangen wird, ermöglicht es dem System, zwischen einem Nichtpassen, zwischen einem erwarteten Muster und einem Eingabemuster und einer bloßen passiven Inaktivität, wenn kein Eingabemuster erhalten wurde, zu unterscheiden. Auf der anderen Seite wird das Rücksetzen von F&sub2; durch das Orientierungssystem A durch das übereinstimmende Muster gehindert, wenn eine Eingabe erhalten wurde und ein genügendes übereinstimmendes Muster bei F&sub1; erzeugt wurde.
Nehmen wir an, daß ein von-unten-nach-oben verlaufendes Eingabemuster F&sub1; aktiviert hat und die Aktivierung von A blockiert hat. Nehmen wir darüber hinaus an, daß F&sub1; einen F&sub2; Knoten aktiviert, der eine Schablone ausliest, die schlecht die von-unten-nach-oben verlaufende Eingabe bei F&sub1; anpaßt. Gemäß der 2/3-Regel werden viele der F&sub1; Knoten, die von der von-unten-nach-oben verlaufenden Eingabe aktiviert wurden, alleine unterdrückt durch die von-oben- nach-unten verlaufende Schablone. Nehmen wir an, daß dieses Ereignis des Nichtpassens einen großen Kollaps in der gesamten Aktivität quer über F&sub1; verursacht, und auf diese Weise eine große Reduktion in der gesamten Unterdrückung, die F&sub1; an A übergibt. Wenn diese Reduktion genügend groß ist, kann die angeregte von-unten-nach-oben verlaufende Eingabe an A Erfolg haben beim Erzeugen eines unspezifischen Rücksetz-Signals von A an F&sub2;.
Um zu charakterisieren, wann ein Rücksetzsignal stattfindet, machen wir die folgenden natürlichen Annahmen. Es sei angenommen, daß ein Eingabemuster I positive Signale an I Knoten von F&sub1; sendet. Wenn jeder aktive Eingabepfad nach A hervorgeht, erzeugt I eine totale Eingabe an A, die proportional zu I ist. Wir nehmen an, daß A linear auf die gesamte Eingabe γ I reagiert. Wir nehmen weiterhin an, daß jeder aktive F&sub1; Knoten ein Unterdrückungssignal von fester Größe an A erzeugt. Da jeder aktive F&sub1; Knoten zu A hervorspringt, ist die gesamte Unterdrückungseingabe δ X von F&sub1; an A proportional zu der Anzahl X der aktiven F&sub1; Knoten. Wenn γ I > δ X , erhält A ein Netzanregungssignal und erzeugt ein unspezifisches Rücksetzsignal an F&sub2;.
In Abhängigkeit von dem von-unten-nach-oben verlaufenden Eingabemuster I der Größe I und vor dem Empfang eines erwarteten Eingabemusters bei F&sub1; ist die gesamte Unterdrückungseingabe von F&sub1; nach A gleich δ I , so daß die Netzeingabe an A gleich (γ -δ) I ist. Um zu verhindern, daß A in diesem Fall in Gang gesetzt wird, nehmen wir an, daß δ≥γ. Wir nennen:
p=γ/δ (30)
den Wachsamkeitsparameter des Orientierungsuntersystems. Die Bedingungen δ≥γ≥0 sind äquivalent mit 0≤p≤1. Die Größe von p bestimmt die Proportion des Eingabemusters, das angepaßt werden muß, um ein Rücksetzen zu verhindern.
Wenn sowohl eine von-unten-nach-oben verlaufende Eingabe I und eine von-oben-nach-unten verlaufende Schablone V(j) simultan aktiv sind, impliziert die 2/3-Regel, daß das gesamte Unterdrückungssignal von F&sub1; an A gleich ist δ V(j) I . In diesem Fall wird das Orientierungsuntersystem nur aktiviert, wenn
I > δ V(j) I ; (31)
d. h., wenn
Die Funktion, die bestimmt, ob F&sub2; in Abhängigkeit von einem Eingabemuster I, zurückgesetzt wird oder nicht, wird die Rücksetzfunktion genannt. Die Ungleichung (32) zeigt, daß die Rücksetzfunktion wie folgt definiert werden sollte:
Die Rücksetzfunktion Rj und die Ordnungsfunktion
bestimmen, wie die Suche voranschreitet.
Diese Argumentationsfolge kann intuitiv wie folgt rekapituliert werden. Gemäß der 2/3-Regel verursacht eine schlechte Anpassung bei F&sub1; einen großen Zusammenbruch der gesamten F&sub1; Aktivität, die zu einer Aktivierung von A führt. Damit dies geschehen kann, muß das System eine Messung der vorhergehenden Stufe der gesamten F&sub1; Aktivität aufrechterhalten. Die Merkmalsstufe wird ausgerechnet durch Summierung der von-unten-nach-oben verlaufenden Eingaben bei A. Diese Summe kann ein Merkmal vorsehen, weil sie proportional zu der anfänglichen Aktivierung von F&sub1; durch die von-unten-nach-oben verlaufende Eingabe ist. Und sie bleibt noch unverändert, wenn der Anpassungsprozeß sich in Echtzeit entfaltet.
Wir zeigen nun auf, wie das Netzwerk automatisch sein Rauschkriterium neu skaliert, wenn die Komplexität des Eingabemusters variiert. Das Netzwerk kann insbesondere selbst mit festen Parametern größere Unpäßlichkeiten in Abhängigkeit von größeren Eingabemustern tolerieren. Es sei z.B. angenommen, daß das Netzwerk zwei Eingabemuster bei verschiedenen Zeiten verarbeitet. Ein Eingabemuster I(1) aktiviert gerade einige F&sub1; Merkmalsdetektoren. Wohingegen das andere Eingabemuster I(2) viele F&sub1; Merkmalsdetektoren aktiviert; d.h. es gibt:
I(1) < I(2) . (34)
Darüber hinaus sei angenommen, daß I(1) den F&sub2; Knoten v&sub1; aktiviert. I(2) aktiviert den F&sub2; Knoten v&sub2;. Weiterhin gilt:
V(1) I(1) = V(2) I(2) . (35)
Mit anderen Worten, beide Eingabemuster überlappen ihre Schablonen um denselben Betrag. Gemäß (34) gilt jedoch:
Durch die Ungleichungen (32) und (36) ist es dem Netzwerk eher möglich, v&sub2; in Abhängigkeit von I(2) zurückzusetzen als v&sub1; in Abhängigkeit von I(1). Auf diese Weise vermittelt ein fester Anpassungsbetrag mit einem großen Eingabemuster weniger Evidenz für das Kodieren als derselbe Anpassungsbetrag bei einem kleinen Eingabemuster. Wenn (35) gilt, stimmt das größere Muster I(2) ,mit der Schablone bei mehr Merkmalen nicht überein als es das kleinere Muster I(1) tut. Daher kann v&sub2; durch (31) zurückgesetzt werden, wohingegen v&sub1; nicht zurückgesetzt werden kann. Dies wird in der Tat der Fall sein, wenn p zwischen R&sub1; und R&sub2; liegt.
Die Eigenschaft zum Neuskalieren zeigt, daß das Netzwerk Eingabemuster als Ganzes verarbeitet. Die funktionellen Einheiten des Netzwerks sind Aktivierungsmuster entlang einem Feld von Merkmalsdetektoren, anstatt individueller Aktivierungen von Merkmalsdetektoren.
Wenn das Netzwerk v&sub2; nicht in Abhängigkeit von I(1) zurücksetzt, wird die Schablone von v&sub1; verfeinert, um dem Schnitt V(1) I(1) gleich zu sein. Sei mit anderen Worten gegeben, daß das Netzwerk den Anhaltspunkt akzeptiert, daß I(1) durch v&sub1; kodiert werden sollte, dann unterdrückt es die Merkmale, bei welchen I(1) nicht mit V(1) sowohl im STM und im LTM übereinstimmen, als Rauschen.
Unter Benutzung dieser Eigenschaft, kann das Netzwerk auch feinere Unterschiede zwischen kleinen Eingabemustern unterscheiden als zwischen großen Eingabemustern. Angenommen, daß die Menge des Nichtpassens zwischen einem kleinen Eingabemuster I(1) und seiner Schablone V(1) gleich der Menge des Nichtpassens zwischen einem großen Eingabemuster I(2) und seiner Schablone V(2) ist; d. h.
I(1) - V(1) I(1) = I(2) - V(2) I(2) . (37)
Aus (34) und (37) ergibt sich:
Daher wird v&sub1; eher durch I(1) zurückgesetzt als v&sub2; durch I(2) zurückgesetzt wird. Dies zeigt, daß ein fester Betrag der Fehlanpassung mehr Evidenz zum Zurücksetzen bietet, wenn das Eingabemuster einfach ist als wenn es komplex ist. Wenn das Netzwerk, anders ausgedrückt, durch kleinere Fehlanpassungen zurückgesetzt wird, wenn kleinere Eingabemuster verarbeitet werden, macht es automatisch feinere Unterschiede zwischen kleineren Eingabemustern als zwischen größeren Eingabemustern.
Die Simulation in Figur 10 zeigt, wie das Netzwerk seine Anpassungskriterien automatisch neu skaliert. In den ersten vier Darstellungen werden die Muster in der Reihenfolge ABAB dargeboten. Durch Versuch 2 ist das Kodieren komplett. Das Muster A greift direkt auf den Knoten v&sub1; bei Versuch 3 zurück und das Muster B greift direkt auf den Knoten v&sub2; bei Versuch 4 zurück. Auf diese Weise sind die Muster A und B innerhalb verschiedener Kategorien kodiert. Bei den Versuchen 5-8 werden die Muster C und D in der Reihenfolge CDCD dargeboten. Die Muster C und D sind jeweils aus den Mustern A und B durch Addieren identischer oberer Hälften zu A und B gebildet. Auf diese Weise unterscheidet sich das Muster C vom Muster D an denselben Stellen, wo sich das Muster A von dem Muster B unterscheidet. Weil jedoch die Muster C und D viel mehr aktive Merkmale darstellen als die Muster A und B wird der Unterschied zwischen C und D als Rauschen behandelt, wohingegen der Unterschied zwischen A und B als signifikant betrachtet wird. Beide Muster C und D sind bei Versuchen 7 und 8 insbesondere innerhalb derselben Kategorie kodiert.
Die unterschiedliche Kategorisierung des Netzwerks der Muster A und B über die Muster C und D kann wie folgt verstanden werden. Das Kernmerkmal ist: Warum weist B bei Versuch 2 den Knoten v&sub1;, der A kodiert hat, zurück, wohingegen D bei Versuch 6 den Knoten v&sub3;, der C kodiert hat, akzeptiert? Dies geschieht trotz der Tatsache, daß die Fehlanpassung zwischen B und V(1) der Fehlanpassung zwischen D und V(3) gleich ist:
B - V(1) B = 3 = D - V(3) D , (39)
wie in Gleichung (37). Der Grund ist durch Vergleich der relevanten Rücksetzfunktionen:
ersichtlich. In dieser Simulation ist der Wachsamkeitsparameter p = 0,8. Auf diese Weise gilt:
R1B < p < R3D. (42)
Durch (32) setzt das Muster B v&sub1; zurück, aber D setzt v&sub3; nicht zurück. Folglich ist B durch eine unterschiedliche Kategorie gegenüber A kodiert, wohingegen D durch dieselbe Kategorie wie C kodiert ist.
Wie bemerkt, skaliert das Netzwerk automatisch seine Sensivität bei jeder festen Wachsamkeitsstufe für Muster von variabler Komplexität neu. Die Wechsel der Wachsamkeitsstufe können auch die Grobheit der Kategorien regulieren, die in Abhängigkeit von festen Sequenzen von Eingabemustern gelernt werden. Eine niedrige Wachsamkeitsstufe führt zum Lernen von groben Kategorien, wohingegen eine hohe Wachsamkeitsstufe zum Lernen von feinen Kategorien führt. Sei z. B. angenommen, daß eine niedrige Wachsamkeitsstufe zu einer erlernten Gruppierung von Eingaben geführt hat, die für eine erfolgreiche Anpassung an eine vorbeschriebene Eingabeumgebung angepaßt werden müssen. Sei darüber hinaus angenommen, daß ein Vernichtungsereignis über die Eingabe 50 geschieht als eine Folge von dieser irrtümlichen Gruppierung. Ein solches Vernichtungsereignis kann verschiedene Effekte haben. Zusätzlich zu seinen negativen Verstärkungseffekten nehmen wir an, daß es auch einen direkten kognitiven Effekt aufweist; es steigert nämlich die Aufmerksamkeits-Sensitivität in bezug auf die Umgebung. Solch ein Anwachsen der Sensitivität ist innerhalb des Netzwerks durch ein Anwachsen in dem Wachsamkeitsparameter p eingerichtet. Das Anwachsen dieses einzigen Parameters ermöglicht es dem Netzwerk, Muster zu unterscheiden, die zuvor zusammengeworfen waren. Sobald diese Muster durch verschiedene Kategorien in F&sub2; kodiert sind, können die unterschiedlichen Kategorien unterschiedlichen Antworten in der Verhaltensweise zugeordnet werden.
Auf diese Weise kann die Rückkopplung auf die Umgebung, wie ein Zerstörungsereignis als ein "Lehrer" für ein selbstorganisierendes Erkennungssystem wirken. Diese Lehrfunktion nimmt nicht die Form eines Algorithmus oder irgendeines anderen Typs von musterspezifischer Information an. Es bildet vielmehr einen einzigen nicht spezifischen Parameter, dessen Wechselwirkung mit der internen Organisation des Netzwerks das Netzwerk in die Lage versetzt, feiner zu zergliedern, welche Eingabemuster auch immer auftreten. Der Wachsamkeitsparameter wird beispielsweise vergrößert, wenn all die Signale von dem Eingabemuster an A nicht spezifisch verstärkt werden, so daß der Parameter wächst. Ein nichtspezifisches Abnehmen der Größe des Signals δ von F&sub1; an A wird ebenfalls p anwachsen lassen. Die verstärkungsaktivierte nichtspezifische Anregungseingabe an A kann alternativ auch eine durch Nichtpassen vermittelte Aktivierung von A erleichtern. Der Prozeß, durch den die Wachsamkeitsstufe überwacht wird, ist einer von drei Typen von nichtspezifischen Erregungen, die innerhalb des Netzwerks existieren.
Figur 11 beschreibt eine Reihe von Simulationen, in denen vier Eingabemuster A, B, C, D durch ein Netzwerk mit vier Knoten in F&sub2; kodiert sind. In dieser Simulation ist: A B C D. Die unterschiedlichen Teile in der Figur zeigen, wie das Lernen nach Kategorien sich ändert mit der Änderung von p. Die Simulation zeigt, daß jegliches aufeinanderfolgendes Paar von Mustern (A, B), (B, C), (C, D) in der gleichen Kategorie bei unterschiedlichen Wachsamkeitsstufen kodiert werden kann. Wenn p = 0,8 ist (Figur 11A), werden vier Kategorien gelernt: (A) (B) (C) (D). Wenn p = 0,7 ist (Figur 11B), werden drei Kategorien gelernt: (A) (B) (C, D). Wenn p = 0,6 ist (Figur 11C), werden drei verschiedene Kategorien gelernt: (A) (B, C) (D). Wenn p = 0,5 ist (Figur 11D), werden zwei Kategorien gelernt: (A, B) (C, D). Wenn p = 0,3 ist (Figur 11E), werden zwei unterschiedliche Kategorien gelernt: (A, B, C) (D). Wenn p = 0,2 ist (Figur 11F), werden alle Muster in eine einzelne Kategorie zusammengefaßt.
Um zu illustrieren, wie ein solches Netzwerk eine komplexere Reihe von Mustern kodifiziert, zeigen wir in Figur 12 die ersten 20 Versuche einer Simulation, die alphabetische Buchstaben als Eingabemuster benutzt. In Figur 12A ist der Wachsamkeitsparameter p = 0,5. In Figur 12B p = 0,8. Drei Eigenschaften in diesen Simulationen sind feststellbar. Erstens, das Wählen eines unterschiedlichen Wachsamkeitsparameters kann verschiedene Kodierungsvorgeschichten bestimmen, so daß höhere Wachsamkeit eine Kodierung in feinere Kategorien induziert. Zweitens, das Netzwerk modifiziert eine Suchreihenfolge bei jedem Versuch, um kumulative Effekte von früheren Lernvorgängen widerzuspiegeln und umgeht das Orientierungssystem, um direkt auf Kategorien zuzugreifen, nachdem das Lernen stattgefunden hat. Drittens, die Schablonen von gröberen Kategorien tendieren dahin, mehr abstrakt zu sein, weil sie annäherungsweise eine große Anzahl von Eingabemusterexemplaren anpassen müssen.
Wenn p = 0,5, gruppiert das Netzwerk die 26 Buchstabenmuster in acht stabile Kategorien innerhalb drei Darstellungen. In dieser Simulation enthält F&sub2; 15 Knoten. D. h. 7 Moden bleiben unkodiert, weil das Netzwerk ein Lernen selbst stabilisiert, nachdem es dem Kriterium der Wachsamkeit und der globalen Kode-Selbstkonsistenz genügt. Gegeben seien p = 0,8 und 15 F&sub2; Knoten, dann gruppiert das Netzwerk 25 der 26 Buchstaben in 15 stabile Kategorien innerhalb 3 Darstellungen. Der 26. Buchstabe wird durch das Netzwerk zurückgewiesen, um sein Lernen selbst zu stabilisieren, während es seinem Kriterium der Wachsamkeit und der globalen Kode-Selbstkonsistenz genügt. Diese Simulationen zeigen, daß der Gebrauch von verarbeitenden Quellen des Netzwerks von einer sich entwickelnden dynamischen Organisation mit globalen, kontext-sensitiven Eigenschaften abhängt. Diese Klasse von Netzwerken ist befähigt, willkürliche Sequenzen von willkürlich komplexen Eingabemustern in stabilen Kategorien zu organisieren, abhängig von den Bedingungen der Wachsamkeit, der globalen Kode-Selbstkonsistenz und der Anzahl von Knoten in F&sub1; und F&sub2;. Wenn langsame Lernraten im Vergleich zu schnellen Lernraten benutzt werden, kann das Kodieren in Kategorien langsamer erlernt werden, aaber es erfüllt immer noch die kritischen, soeben aufgelisteten Eigenschaften.
Während diese Erfindung mit Bezug auf bevorzugte Ausführungsformen besonders dargestellt und beschrieben wurde, ist es für die Durchschnittsfachleute verständlich, daß verschiedene Änderungen in der Form und in Details gemacht werden, ohne den Rahmen der Erfindung, wie er durch die beigefügten Ansprüche definiert wird, zu verlassen.

Claims

1. Ein selbstorganisierendes Mustererkennungssystem zur Identifikation und Kategorisierung eines Eingabemusters, mit einem oder mehreren identifizierbaren Elementen, umfassend:

eine Mustererzeugungseinheit (F1) zum Empfangen des Eingabemusters (12) und zum Erzeugen eines Ausgabemusters als Antwort auf die Elemente des Eingabemusters;

anpassungsfähige Filtermittel (14) für das Wichten einzelner Elemente des Ausgabemusters in bezug auf jede einer Mehrzahl von Musterkategorien;

eine Kategorie-Auswahl-Einheit (F2) zur Auswahl wenigstens einer Musterkategorie als Antwort auf Kombinationen gewichteter Elemente;

Schablonenmittel (16) zum Erzeugen und Liefern einer Schablone oder eines erwarteten Musters als Antwort auf wenigstens eine ausgewählte Musterkategorie an die Mustererzeugungseinheit (F1);

Mittel zur Erzeugung einer Determinante (18), die auf die Übereinstimmung der Elemente zwischen dem Eingabemuster und dem erwarteten Muster bezogen ist; und

Mittel zum Modifizieren der Wichtung der Elemente des Ausgabemusters und des erwarteten Musters in bezug auf die wenigstens eine, ausgewählte Musterkategorie, so daß da, wo die Determinante einen Schwellenwert überschreitet, das Mittel zum Modifizieren befähigt ist, Elemente, welche ein modifiziertes, erwartetes Muster definieren, in Verbindung mit dem Eingabemuster und dem erwarteten Muster zurückzubehalten und alle anderen dieser Elemente nicht zu betonen, und dort, wo es der Determinante mißlingt, den Schwellenwert zu überschreiten, das Mittel zum Modifizieren befähigt ist, eine alternative Musterkategorie auszuwählen, so daß ein neues erwartetes Muster erzeugt werden kann, wobei die alternative Musterkategorie benutzt wird.

2. Ein System nach Anspruch 1, bei dem die Determinante von einem übereinstimmenden Muster erzeugt wird, welches ein Muster von Elementen ist, die dem Eingabemuster und dem erwarteten Muster gemeinsam sind.

3. Ein System nach Anspruch 2, bei dem die Mittel zum Erzeugen der Determinante Mittel umfassen, zum Bestimmen der Anzahl der Elemente in dem übereinstimmenden Muster in bezug auf die Anzahl der Elemente in dem Eingabemuster.

4. Ein System nach einem der Ansprüche 2 oder 3, bei dem die Mittel zum Modifizieren Mittel einschließen, zum Reduzieren der Wichtung der nicht in dem übereinstimmenden Muster vorhandenen Elemente bis annähernd Null in bezug auf wenigstens eine ausgewählte Musterkategorie.

5. Ein System nach einem der Ansprüche 2 bis 4, bei dem das übereinstimmende Muster das Eingabemuster ist, wenn kein erwartetes Muster erzeugt ist und das übereinstimmende Muster ein Muster von Elementen ist, die dem Eingabemuster und dem erwarteten Muster gemeinsam sind, wenn ein erwartetes Muster erzeugt ist.

6. Ein System nach Anspruch 5, bei dem die Elemente des Musters binäre Werte sind, und das übereinstimmende Muster ein Schnitt zwischen dem Eingabemuster und dem erwarteten Muster ist, wenn ein erwartetes Muster erzeugt ist.

7. Ein System nach einem der Ansprüche 2 bis 6, bei dem der Schwellenwert ein vorbestimmtes Verhältnis der Anzahl der Elemente in dem übereinstimmenden Muster in bezug auf die Anzahl der Elemente in dem Eingabemuster ist.

8. Ein System nach einem der Ansprüche 2 bis 7, bei dem die Kategorie-Auswahl-Einheit (F2) eine Musterkategorie auswählt, gemäß dem Verhältnis von (a) dem Produkt einer Konstanten α und der Anzahl der Elemente in dem übereinstimmenden Muster zu (b) der Summe einer Konstanten β und der Anzahl der Elemente in dem erwarteten Muster.

9. Ein System nach einem der voranstehenden Ansprüche, bei dem die Kategorie-Auswahl-Einheit (F2) lediglich die einzelne Musterkategorie auswählt, welche die größte Summe gewichteter Elemente des Ausgabemusters aufweist.

10. Ein System nach einem der voranstehenden Ansprüche, bei dem die Mittel zum Modifizieren die Wichtung der Elemente des Ausgabemusters in den anpassungsfähigen Filtermitteln im umgekehrten Verhältnis zu der Anzahl der Elemente, die dem Eingabemuster und dem erwarteten Muster gemeinsam sind, ändern.

11. Ein System nach Anspruch 10, bei dem die inverse Beziehung von der Form ist: bei dem α und β beides Konstanten sind, I das Ausgabemuster an der Mustererzeugungseinheit und V(j) das erwartete Muster entsprechend der ausgewählten Kategorie sind.

12. Ein System nach einem der voranstehenden Ansprüche, bei dem die anfängliche Wichtung aller möglichen Elemente in dem Ausgabemuster niedrig ist.

13. Ein System nach Anspruch 12, bei dem die anfängliche Wichtung aller möglichen Elemente in dem Ausgabemuster unterschiedlich für unterschiedliche Musterkategorien ist.

14. Ein System nach einem der voranstehenden Ansprüche, welches ferner Mittel (50) umfaßt zum Ändern des Schwellenwertes, der als Modifikation der anpassungsfähigen Filtermittel und der Schablonenmittel resultiert.

15. Ein System nach einem der voranstehenden Ansprüche, umfassend Mittel zur Auswahl einer weiteren Musterkategorie vor dem Empfang eines weiteren Eingabemusters durch das System, um ein Eingabemuster vorwegzunehmen, entsprechend einer ausgewählten, weiteren Musterkategorie, die von einem vorhergehenden Eingabemuster abhängt.

16. Ein Verfahren zur Mustererkennung durch Identifikation und Kategorisierung eines Eingabemusters mit einem oder mehreren identifizierbaren Elementen, umfassend:

Zuliefern des Eingabemusters an eine Mustererzeugungseinheit (F1), die als Antwort auf die Elemente des Eingabemusters ein Ausgabemuster erzeugt;

einzelnes Wichten der Elemente (14) des Ausgabemusters in bezug auf jede einer Vielzahl von Musterkategorien;

Auswählen wenigstens einer Musterkategorie (F2), basierend auf Kombinationen der gewichteten Elemente;

Erzeugen (16) und Zuliefern an die Mustererzeugungseinheit (F1) einer Schablone oder eines erwarteten Musters als Antwort auf wenigstens eine ausgewählte Musterkategorie;

Erzeugen einer Determinante (18), die auf die Übereinstimmung der Elemente zwischen dem Eingabemuster und dem erwarteten Muster bezogen ist und Feststellen, ob die Determinante einen Schwellenwert überschreitet; und

wenn die Determinante einen Schwellenwert überschreitet, Modifizieren der Wichtung der Elemente des Ausgabemusters und der Elemente des erwarteten Musters in bezug auf die wenigstens eine ausgewählte Musterkategorie, um Elemente zurückzubehalten, die ein modifiziertes erwartetes Muster definieren in Verbindung mit dem Eingabemuster und dem erwarteten Muster und um alle anderen solche Elemente nicht zu betonen und, wenn es der Determinante mißlingt, den Schwellenwert zu überschreiten, Auswählen einer alternativen Musterkategorie und Verwenden der alternativen ausgewählten Musterkategorie, um neue erwartete Muster zu erzeugen.

17. Ein Verfahren nach Anspruch 16, bei dem die Determinante von einem übereinstimmenden Muster erzeugt wird, welches ein Muster von Elementen ist, die dem Eingabemuster und dem erwarteten Muster gemeinsam ist.

18. Ein Verfahren nach einem der Ansprüche 16 oder 17, bei dem die Determinante durch Bestimmen der Anzahl der Elemente erzeugt wird, die dem Eingabemuster und dem erwarteten Muster in bezug auf die Anzahl der Elemente in dem Eingabemuster gemeinsam sind.

19. Ein Verfahren nach einem der Ansprüche 16 bis 18, bei dem die Wichtung der Elemente des Ausgabemusters in umgekehrtem Verhältnis zu der Anzahl der Elemente modifiziert wird, die dem Eingabemuster und dem Ausgabemuster gemeinsam sind.