DE69327985T2 - Bilderkennungsgerät und -verfahren - Google Patents

Bilderkennungsgerät und -verfahren

Info

Publication number
DE69327985T2
DE69327985T2 DE69327985T DE69327985T DE69327985T2 DE 69327985 T2 DE69327985 T2 DE 69327985T2 DE 69327985 T DE69327985 T DE 69327985T DE 69327985 T DE69327985 T DE 69327985T DE 69327985 T2 DE69327985 T2 DE 69327985T2
Authority
DE
Germany
Prior art keywords
matrix
line segment
pattern
elements
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69327985T
Other languages
English (en)
Other versions
DE69327985D1 (de
Inventor
Yasunori Kuratomi
Hisahito Ogawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE69327985D1 publication Critical patent/DE69327985D1/de
Application granted granted Critical
Publication of DE69327985T2 publication Critical patent/DE69327985T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/88Image or video recognition using optical means, e.g. reference filters, holographic masks, frequency domain filters or spatial domain filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

    Hintergrund der Erfindung 1. Gebiet der Erfindung:
  • Die vorliegende Erfindung betrifft ein Bilderkennungsgerät und -Verfahren, die geeignet sind, Buchstaben und andere Bilder zu erkennen.
  • 2. Beschreibung der relevanten Technik
  • Kürzlich wurden Erkennungsgeräte unter Verwendung eines neuralen Netzwerkes entwickelt, eine ihrer wichtigsten Anwendungen ist die Buchstabenerkennung. Mori, Yokozawa, Umeda berichten über: "Handwritten KANJI character recognition by a PDP model" in Technical Research Reports der Association of Electronic Communications Engineers, MBE87-156, Seiten 407-414 (1988) und Kunihiko Fukushima berichtet über: "Neocognitron: A Hierarchical Neural Network Capable of Visual Pattern Recognition", Band 1, Seiten 119-130, Neural Networks (1988).
  • Fig. 12 zeigt ein Blockdiagramm einer konventionellen Buchstabenerkennungsvorrichtung, die ein neurales Netzwerk verwendet. Ein Buchstabeneingabeabschnitt 60 konvertiert photoelektrisch ein Bildmuster eines Buchstabens in Kennzeichnungsdaten und gibt dann die Kennzeichnungsdaten an einen Erkennungsabschnitt 61 aus. Die Kennzeichnungsdaten sind ein zweidimensionales Bit-Bild, wie es in Fig. 13 gezeigt wird. Der Erkennungsabschnitt 61 verarbeitet die Kennzeichnungsdaten durch ein neurales Netzwerk, um den Buchstaben zu erkennen. Der Erkennungsabschnitt 61 gibt dann das Erkennungsergebnis an einen Speicherabschnitt 62 oder einen Anzeigeabschnitt 63 aus.
  • Die Arbeitsweise des neuralen Netzwerks, das durch den Erkennungsabschnitt 61 verwendet wird, wird mit Bezug auf Fig. 14 beschrieben. Die Kennzeichnungsdaten 64, die durch den Buchstabeneingabeabschnitt 60 erzeugt werden, werden entsprechend den Neuronen 66 einer Eingabeschicht 65 eingegeben. Die Kennzeichnungsdaten 64, die durch die Neuronen 66 empfangen werden, werden zu allen Neuronen 69 in einer verborgenen Schicht 68 über Suchwege 67, die als Synapsen bezeichnet werden, gesandt. Es ist wichtig festzustellen, dass die Kennzeichnungsdaten 64 gewichtet werden, bevor sie den Neuronen 69 eingegeben werden. Der Wichtungswert wird als "Synapsengewicht" bezeichnet. Die Neuronen 69 rechnen in der verborgenen Schicht 68 die Summe aller Eingabedaten und geben das Ergebnis, das durch Anwenden einer nichtlinearen Funktion auf die Summe erhalten wird, aus. Diese Ausgabeergebnisse werden an alle Neuronen 72 in einer Ausgabeschicht 71 über die Synapse 70 eingegeben, nachdem sie mit dem Synapsengewicht gewichtet wurden. Die Neuronen 72 in der Ausgabeschicht 71 berechnen die Summe aller Eingabedaten und gegen das Ergebnis einem Maximalwert-Erfassungsabschnitt 73 aus. Der Maximalwert- Erfassungsabschnitt 73 erhält den Maximalwert aller Daten, die von den Neuronen 72 in der Ausgabeschicht 71 gesendet werden, und gibt den Buchstaben entsprechend dem Neuron, das den Maximalwert ausgibt, als ein Erkennungsergebnis entweder an den Speicherabschnitt 62 oder an den Anzeigenabschnitt 63 aus.
  • Die Synapsengewichte, die in dem obigen Verfahren verwendet sind, werden durch Lernen, das als Fehlerrückführung bezeichnet wird, bestimmt. Zum Beispiel in dem Fall, wenn Alphabete zu erkennen sind, werden die Alphabete nacheinander in das neurale Netzwerk eingegeben und das Lernen wird fortgesetzt, bis ein gewünschtes Ausgabeergebnis erreicht ist, wodurch das Synapsengewicht bestimmt ist. Das neurale Netzwerk wird in einigen unterschiedlichen Stilen und Schriftzeichensätzen trainiert, um weiterhin die Erkennungsrate zu verbessern.
  • Ein Erhalten des Merkmals eines Bildes wird als Merkmalsentnahme bezeichnet. Beim Erkennen eines Eingabebuchstabens entnimmt die konventionelle Buchstabenerkennungsvorrichtung ein Merkmal von dem Eingabebuchstaben in dem Buchstabeneingabeabschnitt 60. Dann gibt die Vorrichtung das Merkmal in das neurale Netzwerk des Erkennungsabschnittes 61 als ein Eingabesignal ein, um den Eingabebuchstaben zu erkennen. Die Erkennungsfähigkeit hängt von der Art der Merkmale ab, die von dem Eingabebuchstaben durch den Buchstabeneingabeabschnitt 60 entnommen werden.
  • Die konventionelle Buchstabenerkennungsvorrichtung verwendet einfach ein Maschenmerkmal der Kennzeichnungsdaten, die durch den Buchstabeneingabeabschnitt 60 erzeugt werden. Die Vorrichtung erkennt nämlich einen Eingabebuchstaben basierend auf einem binären Bit-Bild oder einem Dichtewert, der in dem Bereich von 0 bis 1 normiert ist. Das binäre Bit-Bild wird von einem Dichtewert unter Verwendung eines bestimmten Schwellenpegels erzeugt. Kurz gesagt wird die Erkennung darauf basierend durchgeführt, welche Teile der Kennzeichnungsdaten schwarz sind und welche Teile der Kennzeichnungsdaten weiß sind. Folglich können Buchstaben, die unterschiedlich in der Form sind oder positiv gegenüber den Buchstaben, die vorher durch das neurale Netzwerk gelernt wurden, verschoben sind, nicht korrekt erkannt werden. Um die Erkennungsrate zu verbessern, ist es erforderlich, dass das neurale Netzwerk eine Menge, viele verschiedene unterschiedliche Stile und Schriftzeichensätze lernt. Jedoch ist immer noch die Erkennungsrate etwa 90%, selbst wenn die Anwendung auf gedruckte Zeichen begrenzt ist, und das Lernen ist beträchtlich zeitraubend.
  • Insbesondere ist es viel schwieriger, Buchstaben zu erkennen, die unterschiedliche Größen gegenüber den Buchstaben, die durch das neurale Netzwerk gelernt werden, aufweisen. Um eine derartige Schwierigkeit zu überwinden, berechnet die konventionelle Buchstabenerkennungsvorrichtung den Schwerpunkt eines Eingabebuchstabens und bildet Kennzeichnungsdaten durch Normieren der Größe des Eingabebuchstabens. Da jedoch ein derartiger Normierungsvorgang extrem zeitaufwendig ist, ist eine Erkennung bei hoher Geschwindigkeit nicht möglich.
  • Ähnliche Probleme gibt es in der Erkennung von zweidimensionalen Bildern, die keine Buchstaben sind.
  • Zusammenfassung der Erfindung
  • Die Erfindung wird in den unabhängigen Ansprüchen 1 und 14 definiert.
  • Die Funktionsweise eines Bilderkennungsgeräts bzw -Vorrichtung gemäß der vorliegenden Erfindung wird zur Vereinfachung unter Verwendung einer Buchstabenerkennung als ein Beispiel beschrieben.
  • Um die Erkennungsrate der Bilderkennungsvorrichtung zu verbessern, wurde ein neues Merkmal gefunden, das nicht durch Deformation des zu erkennenden Buchstabens beeinflußt ist. Buchstaben, die unterschiedliche Größen aufweisen, können durch Extraktion bzw. Entnahme des Merkmals, das weder durch eine Änderung in der Größe, noch durch ein Verschieben in der Position des Buchstabens beeinflusst wird, korrekt erkannt werden. Gemäß der vorliegenden Erfindung entnimmt ein Merkmalsentnahmeabschnitt das folgende Merkmal von Kennzeichnungsdaten, die durch einen Eingabeabschnitt erzeugt werden.
  • (1) Daten, die anzeigen, ob ein spezifisches Muster (z. B. ein vertikaler, ein horizontaler, ein linksgeneigter oder ein rechtsgeneigter Linienabschnitt oder ein geometrisches Muster) vorhanden ist oder nicht.
  • (2) Daten, die anzeigen, in welcher Richtung und in welcher Größe ein spezifisches Muster in bezug auf ein anderes spezifisches Muster existiert.
  • Mit anderen Worten wird ein Buchstabe erkannt, der auf den Daten basiert, die anzeigen, in welcher Richtung und in welcher Größe ein spezifisches Muster in bezug auf ein anderes spezifisches Muster existiert, das den Buchstaben bildet.
  • Eine relative positionelle Beziehung zwischen Linienabschnitten und geometrischen Mustern, welche die Buchstaben bilden, variiert nicht wesentlich, selbst wenn ihre Größen unterschiedlich voneinander sind. Folglich sind die Merkmale, die durch den Merkmalsentnahmeabschnitt gemäß der vorliegenden Erfindung entnommen werden, weder durch die Änderung der Größe noch durch die Verschiebung in der Position der Buchstaben beeinflußt.
  • Wie beschrieben wurde, entnimmt ein neurales Netzwerk gemäß der vorliegenden Erfindung ein Merkmal, das einen hohen Pegel der Toleranz für unterschiedliche Variationen eines Buchstabens aufweist. Deshalb werden selbst handgeschriebene Buchstaben mit unterschiedlichen Größen mit einer hohen Rate erkannt. Da es weiterhin erforderlich ist, nur eine kleine Anzahl von Stilen und Schriftzeichensätzen zu lernen, wird der Lernvorgang mit einer hohen Geschwindigkeit beendet. Die oben beschriebenen Arbeitsweisen haben die gleichen Effekte für die Erkennung von zweidimensionalen Bildern, die keine Buchstaben sind.
  • Somit ermöglicht die hier beschriebene Erfindung den Vorteil des Bereitstellens eines Bilderkennungsgerätes und eines Bilderkennungsverfahrens unter Verwendung eines neuralen Netzwerks, das eine hohe Erkennungsrate aufweist.
  • Diese und andere Vorteile der vorliegenden Erfindung werden ersichtlich für Fachleute dieser Technik beim Lesen und Verstehen der folgenden detaillierten Beschreibung mit Bezug auf die begleitenden Figuren.
  • Kurze Beschreibung der Zeichnungen
  • Fig. 1 ist ein Blockdiagramm, das eine Konfiguration einer Bilderkennungsvorrichtung bzw. eines -gerätes gemäß der vorliegenden Erfindung zeigt.
  • Fig. 2A ist eine schematische Ansicht, die ein Beispiel eines Bit-Bildes darstellt, das durch einen Eingabeabschnitt erzeugt ist.
  • Fig. 2B ist eine schematische Ansicht eines Linienabschnitts, der von dem Bild, das in Fig. 2A gezeigt wird, entnommen ist.
  • Fig. 2C ist eine schematische Ansicht einer Ausgabe, die von dem Bild, das in der Fig. 2A gezeigt wird, durch einen Richtungsentnahmeabschnitt erhalten wird.
  • Fig. 3 ist eine konzeptionelle Ansicht, welche die positionelle Beziehung zwischen zwei Linienabschnitten darstellt.
  • Fig. 4A ist eine schematische Ansicht, die ein Beispiel eines Bit-Bildes, das durch den Eingabeabschnitt erzeugt wird, darstellt.
  • Fig. 4B ist eine schematische Ansicht eines Liniensegmentes, das von dem Bild, das in Fig. 4A gezeigt wird, entnommen wird.
  • Fig. 4C ist eine schematische Ansicht einer Ausgabe, die von dem Bild, das in Fig. 4A gezeigt wird durch den Richtungsentnahmeabschnitt erhalten wird.
  • Fig. 5A ist eine schematische Ansicht, die ein Beispiel eines Bit-Bildes, das durch den Eingabeabschnitt erzeugt wird, darstellt.
  • Fig. 5B ist eine schematische Ansicht eines Linienabschnitts, der von dem Bild, das in Fig. 5A gezeigt wird, entnommen ist.
  • Fig. 5C ist eine schematische Ansicht einer Ausgabe, die von dem Bild, das in Fig. 5A gezeigt wird, durch den Richtungsentnahmeabschnitt erhalten wird.
  • Fig. 6A ist eine Ansicht, die Bit-Bilder, die durch den Eingabeabschnitt erzeugt werden, darstellen.
  • Fig. 6B ist eine Ansicht einer Ausgabe, die von den Bit-Bildern durch den Richtungsentnahmeabschnitt erhalten wird.
  • Fig. 7 ist eine Ansicht, die eine Konfiguration eines neuralen Netzwerks gemäß einem Beispiel der vorliegenden Erfindung darstellt.
  • Fig. 8 ist eine Ansicht, die eine Konfiguration eines neuralen Netzwerkes, das gemäß einem Beispiel der vorliegenden Erfindung verwendet wird, darstellt.
  • Fig. 9A ist eine schematische Ansicht, die ein Beispiel eines Bit-Bildes, das durch den Eingabeabschnitt erzeugt wird, darstellt.
  • Fig. 9B ist eine schematische Ansicht von Ausgaben, die von dem Bild, das in Fig. 9A gezeigt wird durch einen Liniensegment-Entnahmeabschnitt erhalten werden.
  • Fig. 9C ist eine schematische Ansicht von Ausgaben, die von dem Bild, das in Fig. 9A gezeigt wird, durch den Richtungsentnahmeabschnitt erhalten werden.
  • Fig. 10A ist eine schematische Ansicht, die ein Beispiel eines Bit-Bildes, das durch den Eingabeabschnitt erzeugt wird, darstellt.
  • Fig. 10B ist eine schematische Ansicht von Ausgaben, die durch das Bild, das in Fig. 10A gezeigt wird, durch den Liniensegment-Entnahmeabschnitt erhalten werden.
  • Fig. 10C ist eine schematische Ansicht von Ausgaben, die von dem Bild, das in Fig. 10A gezeigt wird, durch den Richtungsentnahmeabschnitt erhalten werden.
  • Fig. 11A ist eine schematische Ansicht, die Buchstaben darstellt, die durch einen Erkennungsabschnitt gemäß einem Beispiel der vorliegenden Erfindung gelernt werden.
  • Fig. 11B ist eine schematische Ansicht, die Buchstaben darstellt, die korrekt durch den Erkennungsabschnitt erkannt werden.
  • Fig. 12 ist ein Blockdiagramm, das eine Konfiguration einer konventionellen Erkennungsvorrichtung darstellt.
  • Fig. 13 ist eine schematische Ansicht eines Bit-Bildes.
  • Fig. 14 ist eine Ansicht, die eine Konfiguration eines neuralen Netzwerkes zeigt, das in der konventionellen Erkennungsvorrichtung verwendet wird.
  • Fig. 15 ist ein Flußdiagramm, das eine Verfahrensweise eines Bilderkennungsverfahrens gemäß der vorliegenden Erfindung darstellt.
  • Fig. 16A ist eine Ansicht, die ein Beispiel eines binären Musters, das von einem Eingabemuster konvertiert wird, darstellt.
  • Fig. 16B ist eine Ansicht, die ein Beispiel einer Maskenstruktur zur Entnahme eines vertikalen Liniensegmentes darstellt.
  • Fig. 16C ist eine Ansicht, die ein Beispiel einer Maskenstruktur zur Entnahme eines horizontalen Liniensegmentes darstellt.
  • Fig. 16D ist eine Ansicht, die ein Beispiel einer Maskenstruktur zur Entnahme eines linksgeneigten Liniensegmentes darstellt.
  • Fig. 16E ist eine Ansicht, die ein Beispiel einer Maskenstruktur zur Entnahme eines rechtsgeneigten Liniensegmentes darstellt.
  • Fig. 17A ist eine Ansicht, die ein Beispiel einer Ausgabe von einer Eingabeschicht darstellt.
  • Fig. 17B ist eine Ansicht, die ein Beispiel von Ausgaben von einer Musterentnahmeschicht darstellt.
  • Fig. 17C ist eine Ansicht, die ein Beispiel von Ausgaben von einer Richtungsentnahmeschicht darstellt.
  • Fig. 17D ist eine Ansicht, die ein Beispiel von Ausgaben von einer Integrationsschicht darstellt.
  • Fig. 18 ist eine perspektivische Ansicht einer Merkmalsentnahmevorrichtung mit optischen Neuronen.
  • Fig. 19A ist eine Ansicht, die ein Muster und eine Anordnung von Neuronenelektroden zur Entnahme eines vertikalen Liniensegmentes darstellt.
  • Fig. 19B ist eine Ansicht, die ein Beispiel eines binären Musters, das von einem Eingabemuster konvertiert ist, darstellt.
  • Fig. 19C ist eine Ansicht, die ein experimentelles Ergebnis der Entnahme eines vertikalen Liniensegmentes von dem Eingabemuster, das in Fig. 19B gezeigt ist, darstellt.
  • Fig. 20 ist eine Ansicht, die eine Merkmalsentnahmevorrichtung mit optischen Neuronen darstellt, die vier Liniensegment-Entnahmeoberflächen zur Entnahme von Liniensegmenten mit vier Richtungen aufweisen.
  • Fig. 21 ist eine Ansicht, die ein Beispiel von Ausgaben der Merkmalsentnahmevorrichtung mit optischen Neuronen, die in Fig. 20 gezeigt wird, darstellt.
  • Fig. 22 ist ein Graph, der die Ausgabecharakteristik einer optischen Neuronenelektrode zeigt, an die ein optisches Signal angelegt wird.
  • Fig. 23 ist eine Ansicht, die eine Konfiguration eines optischen Systems zur Durchführung der Richtungsentnahme und der Längenentnahme darstellt.
  • Fig. 24 ist eine Ansicht, die eine Konfiguration eines optischen Systems zur Durchführung der Liniensegmententnahme, der Richtungsentnahme und der Längenentnahme darstellt.
  • In Southeastcon 1989, Energy and Information Technology in the southeast, Band 3/3, 9. April 1989, Columbia, SC, Seiten 953 bis 958, beschreiben T. A. Jamison und andere eine neurale Netzwerkarchitektur zur Klassifikation von zweidimensionalen polygonalen Objekten. Das "Object Recognition Subsystem" (ORS), das darin offenbart wird, ist entworfen um Merkmale, die für die Polygone relevant sind, zu entnehmen und um die Art der gefundenen Polygone zu klassifizieren. Kritische Merkmale, die relevant sind, um die Klassifizierung allgemeiner Polygone zu gestalten, wurden a priori ausgewählt, basierend auf geformten Diskriminatoren, wobei von primären (bei niedrigem Pegel) Merkmalen angenommen wurde, dass sie eine Grenz-Randstelle und eine Orientierung bilden. Von sekundären Merkmalen wurde angenommen, dass sie eine Seitenstelle, mit einer Orientierung, einer Größe und einer Quantität und einer Eckenstelle, eine Orientierung, einem Winkel und einer Quantität sind. Die sekundären Merkmale werden angesehen als Komponenten einer syntaktischen Beschreibung, die zum Bilden eines Modells von jeder Objektklasse verwendet werden. Das ORS, das darin offenbart ist, besteht aus zwei Stufen, wobei die erste Stufe die Entnahme der Stelle abhängig von sekundären Merkmalen durchführt und die zweite Stufe einen Schutz der Merkmalsinformation von der zweidimensionalen Ebene zu einzelbewerteten "Summations"-Merkmalen durchgeführt, wobei diese Summationsmerkmale dann zusammengefaßt werden, um komplexere Merkmalswerte zu bilden, die dann zum einheitlichen Klassifizieren des Objekts verwendet werden.
  • EP 0 446 632 A2 offenbart ein Verfahren und ein System zum Erkennen eines einzelnen unbekannten Buchstabens auf einem Dokument, in dem für schwarze Bildpunkte einzeln nacheinander ein Vektor anzeigt, was von dem Bildpunkt in jeder von mehreren Richtungen in bezug auf weiße und schwarze Bildpunkte zu sehen ist. Der Vektor wird mit einer Tafel verglichen, die aus einer großen Erfahrung heraus geschaffen ist, die eine Wahrscheinlichkeit, dass der Vektor von dem Bildpunkt auf dem unbekannten Buchstaben dieser Buchstabe ist für jeden Buchstaben in dem Buchstabensatz erzeugt. Dieser Vorgang wird für andere schwarze Bildpunkte in dem unbekannten Buchstaben wiederholt, wobei die Wahrscheinlichkeiten, die mit den unterschiedlichen Bildpunkten verbunden ist, für jeden entsprechenden Buchstaben zusammen vervielfacht werden, um eine Wahrscheinlichkeit für den unbekannten Buchstaben zu erzeugen. Eine optische Skelettierung des Buchstabens vor der Erkennung unterstützt die Erkennung durch nur eine Bildpunktweite anstelle einer variablen Anzahl beim Erstellen des Buchstabens.
  • In Philips Technical Review, Band 38, Nr. 11/1, 1978, Einthofen NL, Seiten 356 bis 363 beschreibt E. H. J. Persoon ein System, das lernen kann, zweidimensionale Formen zu erkennen. Der Vorgang des "Lernens" eines Objektes und der Vorgang seiner Erkennung in seiner angezeigten Szene werden beide in zwei Phasen durchgeführt. In der ersten Phase wird eine Suche für "Formelemente" durchgeführt, d. h. Muster in einem schmalen Fenster, so dass der Schwerpunkt der ausgewählten Grenzpunkte im Zentrum des Fensters angeordnet ist. Zwei Formelemente, für die nur einige der Randpunkte im Wert unterschiedlich sind, werden als "identisch" betrachtet. In dem Lernprozeß wird das Objekt dem System gezeigt, sowohl direkt aufwärts als auch gedreht in einer Anzahl von Orientierungen. In der zweiten Lernphase legt das System die relativen Positionen der Elemente fest in einem Maximum von zehn "Lernlisten", fünf davon für fünf Orientierungen des Objektes in jedem Quadranten und die gleiche Zahl für das Spiegelbild. In dem Erkennungsverfahren wird eine "Szenenliste" der Formelemente hergestellt, die in einer ersten Phase mit ihren Positionen erkannt wurden. Wenn etwa die Hälfte oder mehr der Elemente von einer Lernliste zum Abdecken der entsprechenden Elemente der Szenenliste durch Transformation verwendet werden können, ist das Objekt erkannt.
  • Beschreibung der bevorzugten Ausführungsformen
  • Hiernach wird die vorliegende Erfindung mit Bezug auf die Figuren beschrieben.
  • Beispiel 1
  • Fig. 1 zeigt eine Konfiguration einer Bilderkennungsvorrichtung gemäß einem ersten Beispiel der vorliegenden Erfindung. Die Bilderkennungsvorrichtung beinhaltet einen Eingabeabschnitt 1, einen Merkmalsentnahmeabschnitt 2 und einen Erkennungsabschnitt 3. Der Eingabeabschnitt 1 erzeugt ein zweidimensionales Bit-Bild von einem Eingabebild und sendet dann Daten, die das Bild betreffen, zu dem Merkmalsentnahmeabschnitt 2. Ein Musterentnahmeabschnitt 4 entnimmt unterschiedliche spezifische Muster von dem Bit-Bild. Ein Richtungsentnahmeabschnitt 5 entnimmt Daten, die eine relative positionelle Beziehung zwischen unterschiedlichen spezifischen Mustern darstellen, und sendet dann die Daten zu dem Erkennungsabschnitt 3. Der Erkennungsabschnitt 3 erkennt das Bild aufgrund der Eingabedaten.
  • Die Fig. 2A, 2B und 2C zeigen praktische Beispiele der Ausgabe von dem Merkmalsentnahmeabschnitt 2. Fig. 2A zeigt ein Bit-Bild 6, das durch den Eingabeabschnitt 1 erzeugt wird. Die weißen Abschnitte entsprechen "0", und die schwarzen Abschnitte entsprechen "1". Das Bit-Bild 6 wird durch eine Matrix dargestellt, die z. B. 60 · 60 Elemente aufweist. Fig. 2B zeigt Ausgaben von dem Musterentnahmeabschnitt 4. Die Ausgaben schließen z. B. ein Entnahmeergebnis 7 eines vertikalen Liniensegmentes und ein Entnahmeergebnis 8 eines horizontalen Liniensegmentes ein. Jede Ausgabe ist ein zweidimensionales Bit-Bild. Fig. 2C zeigt eine Ausgabe 9 von dem Richtungsentnahmeabschnitt 5. Der Richtungsentnahmeabschnitt 5 erfaßt z. B. die Richtung, in der das horizontale Liniensegment mit Bezug auf das vertikale Liniensegment existiert. Die Richtung wird aus acht Richtungen, die durch gleichmäßiges Teilen von 360º erhalten werden, gewählt, wobei die acht Richtungen durch die Richtungen 10 bis 17, wie in Fig. 2C gezeigt, angezeigt werden. Der Durchmesser der schwarzen Kreise zeigt die Länge des horizontalen Liniensegmentes, das in jeder Richtung existiert, an. Zum Beispiel zeigt die Ausgabe in Richtung 10 an, dass ein horizontales Liniensegment mit einer Länge, die dem Durchmesser des schwarzen Kreises entspricht, an dem spitzen Abschnitt eines vertikalen Liniensegmentes existiert. Die Ausgabe des Bereichs 12 zeigt, dass ein horizontales Liniensegment mit einer Länge, die dem Durchmesser des schwarzen Kreises entspricht, auf dem mittleren rechten Abschnitt des vertikalen Liniensegments existiert. Die Bedeutung der Ausgabe 9 von dem Richtungsentnahmeabschnitt 5 wird im Detail mit Bezug auf die Fig. 3 beschrieben. Ein Quadrat in Fig. 3 zeigt das Bit-Bild 6. Ein Kreis, der das gesamte Bit-Bild 6 bedeckt, ist rund um ein Bit 18' gezeichnet, auf dem ein vertikales Liniensegment existiert. Der Kreis ist gleichmäßig in acht Teile unter Verwendung des Bit 18' als ein Referenzpunkt geteilt, dadurch werden acht Richtungen 10' bis 17' definiert. Wenn das Bit 18' auf dem vertikalen Liniensegment als ein Referenzpunkt berücksichtigt wird, existiert das horizontale Liniensegment in den Richtungen 13' bis 15'. Als Ergebnis werden die Richtungen 13 bis 15, die in Fig. 2C gezeigt werden, als Ausgabesignale ausgegeben. Die Ausgabe, die in Fig. 2C gezeigt ist, wird für alle Punkte auf dem vertikalen Liniensegment als Referenzpunkte erzeugt.
  • In dem Fall, in dem der Spitzenabschnitt 19 des vertikalen Liniensegmentes " ", das ein Muster "+" bildet, das in Fig. 2A gezeigt wird, als Referenzpunkt betrachtet wird, existiert die horizontale Linie in den Richtungen 13' bis 15'. In dem Fall, in dem der untere Abschnitt 20 des vertikalen Liniensegmentes, das in Fig. 2A gezeigt ist, als Referenzpunkt betrachtet wird, existiert die horizontale Linie in den Richtungen 17', 10' und 11'. In dem Fall, in dem der mittlere Abschnitt 21 des vertikalen Liniensegmentes, das in Fig. 2A gezeigt ist, als ein Referenzpunkt betrachtet wird, existiert das horizontale Liniensegment in den Richtungen 12' und 16'. Folglich ist die Ausgabe des Richtungsentnahmeabschnitts 5, so, wie es in Fig. 2C gezeigt wird.
  • Die Fig. 4A bis 4C zeigen Ausgaben für ein Muster, das durch ein vertikales Liniensegment und ein horizontales Liniensegment gebildet wird. Die Fig. 5A bis 5C zeigen Ausgaben für ein anderes Muster, das durch ein vertikales Liniensegment und ein horizontales Liniensegment gebildet wird. Die Fig. 4A und 5A zeigen Eingabebit- Bilder, die Fig. 4B und 5B zeigen Entnahmeergebnisse der vertikalen und horizontalen Liniensegmente, und die Fig. 4C und 5C zeigen Ausgaben von dem Richtungsentnahmeabschnitt 5. Für das Eingabebit-Bild, das in Fig. 4A gezeigt wird, werden die Bereiche 10 bis 14, wie sie in der Fig. 4C gezeigt werden, ausgegeben. Für das Eingabebit-Bild, das in Fig. 5A gezeigt wird, werden die Bereiche 10 und 14 bis 17, wie sie in der Fig. 5C gezeigt werden, ausgegeben. Somit zeigt die Ausgabe 9 von dem Richtungsentnahmeabschnitt 5 die positionelle Beziehung zwischen den vertikalen und horizontalen Liniensegmenten. Ein derartiges Merkmal der Ausgabe 9 ändert sich immer, wenn sich die positionellen Beziehungen zwischen den vertikalen und horizontalen Liniensegmenten ändern.
  • Die Ausgabe 9 hat ein bemerkenswertes Merkmal, dass es nicht von der Größe oder der Position des Musters abhängt. Fig. 6A zeigt Bit-Bilder von vier Mustern "+", die unterschiedliche Größen und Positionen aufweisen, und Fig. 6B zeigt die Ausgabe von dem Richtungsentnahmeabschnitt 5 für die Bit-Bilder. Wie in Fig. 6B gezeigt wird, ist die Stärke jedes Bereichs der Ausgabe (gezeigt durch den Durchmesser von jedem schwarzen Kreis) kleiner als die in Fig. 2C, aber die Ausgabeanordnung entspricht vollständig der der Fig. 2C.
  • Wie bis hierher beschrieben, entnimmt der Merkmalsentnahmeabschnitt 2 der Bilderkennungsvorrichtung gemäß dem ersten Beispiel der vorliegenden Erfindung Merkmale, die weder durch die Größe, noch durch die Position des Musters beeinflußt werden. Da der Erkennungsabschnitt 3 derartige Merkmale erkennt, wird eine beträchtlich hohe Erkennungsrate realisiert.
  • Hiernach wird ein Beispiel einer Konfiguration einer Bilderkennungsvorrichtung gemäß der vorliegenden Erfindung mit Bezugnahme auf Fig. 7 beschrieben.
  • Eine Bilderkennungsvorrichtung beinhaltet einen Eingabeabschnitt 1, einen Merkmalsentnahmeabschnitt 2 und einen Erkennungsabschnitt 3. Der Merkmalsentnahmeabschnitt 2 schließt ein erstes neurales Netzwerk 4' ein, das als ein Musterentnahmeabschnitt 4 wirkt, und ein zweites neurales Netzwerk 5' ein, das als Richtungsentnahmeabschnitt 5 wirkt. Der Entnahmeabschnitt 3 schließt ein drittes neurales Netzwerk ein. Ein Eingabebuchstabe wird in ein zweidimensionales Bit-Bild durch den Eingabeabschnitt 1 konvertiert. Das Bit-Bild wird zu der Eingabeschicht 34 des erste neuralen Netzwerkes 4' gesendet. Eine Musterentnahmeschicht 35 des ersten neuralen Netzwerks 4' beinhaltet eine Entnahmeschicht 35' für ein vertikales Liniensegment und eine Entnahmeschicht 35" für ein horizontales Liniensegment. Die Entnahmeschicht 35' für ein vertikales Liniensegment und die Entnahmeschicht 35" für ein horizontales Liniensegment weisen jeweils Neuronen in einer identischen Anzahl zu den Neuronen in der Eingabeschicht 34 auf, wobei die Neuronen zweidimensional angeordnet sind. Die Entnahmeschicht 35' für ein vertikales Liniensegment entnimmt ein vertikales Liniensegment und die Entnahmeschicht 35" für ein horizontales Liniensegment entnimmt ein horizontales Liniensegment.
  • Ein Prinzip der Liniensegmententnahme wird unter Verwendung der vertikalen Liniensegmententnahme als ein Beispiel kurz beschrieben.
  • Die Eingabeschicht 34 und die Entnahmeschicht 35' für ein vertikales Liniensegment in dem ersten neuralen Netzwerk 4' haben miteinander eine identische Anzahl von Neuronen, die zweidimensional angeordnet sind. Die Ausgabe eines Neurons, das in der i-ten Reihe von oben und der j-sten Spalte von links (nämlich hiernach bei einer Position (i, j)) in der Eingabeschicht 34 angeordnet ist, wird als x¹i,j bezeichnet. Die Ausgabe eines Neurons, das bei der Position (i, j) in der Entnahmeschicht 35' für ein vertikales Liniensegment angeordnet ist, wird als x²i,j bezeichnet. Es wird hier angenommen, dass jedes der Neuronen in der Entnahmeschicht 35' für ein vertikales Liniensegment mit dem entsprechenden Neuron in der Eingabeschicht 34 (die nämlich bei der gleichen Koordinate der Eingabeschicht 34 angeordnet ist) und mit seinen vertikal benachbarten Neuronen (Festlegung 1) verbunden ist. Wenn folglich die Ausgabefunktion der Neuronen in der Entnahmeschicht 35' für ein vertikales Liniensegment f ist, wird x²i,j durch die Gleichung 1 (Festlegung 2) ausgedrückt.
  • x²i,j = f(wx¹i-1j + 2wx¹i,j + wx¹i+1,j) ... Gleichung 1
  • wobei w und 2w(w > 0) die Synapsengewichte sind. Die Ausgabefunktion f wird durch die Gleichung 2 (Festlegung 3) ausgedrückt.
  • y = f(x)
  • y = 0(0 &le; x < 3w)
  • y = x - 2w (3w &le; x) ... Gleichung 2
  • In dem Fall, in dem ein vertikales Liniensegment in dem Eingabebild existiert, z. B. x¹i-1,j = x¹i,j = x¹i+1,j = 1 geben die Neuronen, die vertikal in der Eingabeschicht 34 angeordnet sind, Ausgabesignale aus.
  • Basierend auf den obigen drei Festlegungen geben die Neuronen in der Entnahmeschicht 35' eines vertikalen Liniensegmentes nur Signale aus, wenn die entsprechenden Neuronen in der Eingabeschicht 34 ein vertikales Liniensegment bilden. Somit wird ein vertikales Liniensegment entnommen.
  • Die Entnahme eines horizontalen Liniensegmentes und eines geneigten Liniensegmentes wird mit dem gleichen Prinzip durchgeführt. Unter der Annahme, dass die Neuronen in der Entnahmeschicht 35" eines horizontalen Liniensegmentes jeweils zu dem entsprechenden Neuron in der Eingabeschicht 34 und ihren horizontal benachbarten Neuronen verbunden sind, wird ein horizontales Liniensegment entnommen. Die Ausgabe von dem Neuron in der Entnahmeschicht 35" eines horizontalen Liniensegmentes wird durch die Gleichung 3 ausgedrückt, wobei x³i,j eine Ausgabe von einem Neuron, das bei einer Position (i, j) in der Entnahmeschicht 35" für ein horizontales Liniensegment bezeichnet wird.
  • x³i,j = f(wx¹i,j-1 + 2wx¹i,j + wx¹i,j+1) ... Gleichung 3
  • Für eine Entnahme eines linksgeneigten Liniensegmentes und eines rechtsgeneigten Liniensegmentes wird die Verbindung durch die Gleichung 4 bzw. 5 ausgedrückt, wobei x&sup4;i,j eine Ausgabe von einem Neuron bezeichnet, das an der Position (i, j) in der Entnahmeschicht (nicht gezeigt) für ein linksgeneigtes Liniensegment angeordnet ist, und X&sup5;i,j bezeichnet eine Ausgabe von einem Neuron, das bei einer Position (i, j) in der Entnahmeschicht (nicht gezeigt) für ein rechtsgeneigtes Liniensegment angeordnet ist.
  • x&sup4;i,j = f(wx¹i-1,,j+1 + 2wx¹i,j + wx¹1+1j-1)... Gleichung 4
  • x&sup5;i,j = f(wx¹i-1,,j-1 + 2wx¹i,j + wx¹i+1j+1)... Gleichung 5
  • Liniensegmente in vier Richtungen werden gleichzeitig durch Vorbereitung von vier Bereichen, wie die Musterentnahmeschicht 35, wobei jeder Bereich die gleiche Anzahl von Neuronen, wie in der Eingabeschicht 34, einschließt, und durch Zuweisen eines Liniensegmentes in jedem Bereich entnommen.
  • Ein spezielles geometrisches Muster kann in gleicher Weise entnommen werden. Zum Beispiel wird das Muster " " durch die Verknüpfung, die durch die Gleichung 6 ausgedrückt wird, entnommen, wobei X&sup6;i,j eine Ausgabe von einem Neuron bezeichnet, das bei einer Position (i, j) in der Entnahmeschicht (nicht gezeigt) für ein geometrisches Muster angeordnet ist.
  • x&sup6;i,j = f(wx¹i+1,j-1/2 + 2wx¹i,j + wx¹i+1,j/2)... Gleichung 6
  • Die Muster für "+", " ", " " und ähnliche werden in gleicher Weise entnommen.
  • Die Ausgabe von der Musterentnahmeschicht 35 ist eine Eingabe für das zweite neurale Netzwerk 5', das den Richtungsentnahmeabschnitt 5 bildet. Das zweite neurale Netzwerk 5' schließt eine Richtungsentnahmeschicht 36 und eine Integrationsschicht 37 ein. Die Richtungsentnahmeschicht 36 hat die Funktion der Erfassung der Richtung, in der ein horizontales Liniensegment mit Bezug auf ein vertikales Liniensegment existiert, und schließt acht Bereiche 39 bis 46, die den acht Richtungen jeweils entsprechen, ein. Es ist anzumerken, dass der schraffierte Bereich in dem Zentrum keine Neuronen aufweist. Jeder der Bereiche 39 bis 46 hat eine identische Matrixgröße zu der der Eingabeschicht 34. In Fig. 7 ist die Matrixgröße zur Vereinfachung 3 · 3 Neuronen. Zum Beispiel erfaßt der Bereich 39, ob ein horizontales Liniensegment in der obersten linken Richtung (d. h. die Richtung 17' in Fig. 3) mit Bezug auf ein vertikales Liniensegment existiert. Ein Neuron 39' in dem Bereich 39 ist mit einem Neuron 47 an der Position, die dieser in der Entnahmeschicht 35' für ein vertikales Liniensegment und einem Neuron 48, das in der Richtung 17' in der Entnahmeschicht 35" für ein horizontales Liniensegment mit Bezug auf das Neuron 47 entspricht, verknüpft.
  • Der Grund, warum das Neuron 48 mit Bezug auf das Neuron 47 in der Richtung 17' existiert, wird nun beschrieben. Das Neuron 47 triggert, wenn ein vertikales Liniensegment an einer Position eines Neurons 49 in der Eingabeschicht 34 existiert und das Neuron 48 triggert, wenn ein horizontales Liniensegment an einer Position eines Neurons 50 in der Eingabeschicht 34 existiert. Mit Bezug auf das vertikale Liniensegment, das bei der Position des Neurons 49 in der Eingabeschicht 34 existiert, existiert das horizontale Liniensegment, das an der Position des Neurons 50 vorhanden ist, in der Richtung 17'. Folglich existiert mit Bezug auf das vertikale Liniensegment, das durch das Neuron 47 entnommen wird, das horizontale Liniensegment, das durch das Neuron 48 entnommen wird, in Richtung 17'.
  • Ein Neuron 39' triggert nur, wenn die Neuronen 47 und 48 triggern, d. h., wenn das Neuron 49 ein Teil eines vertikalen Liniensegmentes ist und weiterhin ein horizontales Liniensegment in der Richtung 17' mit Bezug auf das vertikale Liniensegment existiert.
  • In der gleichen Weise sind ein Neuron 39" mit einem Neuron 47' an der entsprechenden Position in der Entnahmeschicht 35' für ein vertikales Liniensegment und die Neuronen 48 und 48', die in der Richtung 17' mit Bezug auf das Neuron 47' in dem Entnahmeabschnitt 35" für ein horizontales Liniensegment existieren, verknüpft. Das Neuron 39" triggert nur, wenn mindestens eines der Neuronen 48 und 48' triggert und weiterhin das Neuron 47' triggert.
  • Durch die gleiche Art der Verknüpfung entnehmen Neuronen in anderen Bereichen 40 bis 46 Richtungen, in denen ein horizontales Liniensegment mit Bezug auf ein vertikales Liniensegment existiert. Zum Beispiel entnimmt ein Neuron in dem Bereich 44 Daten, die ein Merkmal darstellen, das ein horizontales Liniensegment in Richtung 14' (die "untere "- Richtung, siehe Fig. 3) mit Bezug auf ein vertikales Liniensegment existiert. Ein Neuron 44' in Richtung 44 ist mit dem Neuron 47 bei einer entsprechenden Position in der Entnahmeschicht 35' für ein vertikales Liniensegment und das Neuron 48", das in der Richtung 14' mit Bezug auf das Neuron 47 in der Entnahmeschicht 35" für ein horizontales Liniensegment existiert, verknüpft. Das Neuron 44' triggert nur, wenn die Neuronen 47 und 48" gleichzeitig triggern. Durch eine derartige Verknüpfung wird der Bereich, in dem sich ein horizontales Liniensegment positionell auf ein vertikales Liniensegment bezieht, entnommen.
  • Wie in Fig. 7 gezeigt, integriert die Integrationsschicht 37 lokal die Ausgabe von der Richtungsentnahmeschicht 36. Die Integrationsschicht 37 hat acht Neuronen. In Fig. 7 werden nur 3 · 3 Neuronen zur Vereinfachung gezeigt, aber der schraffierte Bereich ist kein Neuron. Die acht Neuronen legen das gleiche Synapsengewicht (z. B. 1) an den Ausgang von den Bereichen 39 bis 46, die denen in der Richtungsentnahmeschicht 36 entsprechen, und erzeugen eine integrierte Ausgabe durch jedes Neuron. Weiterhin berechnen diese acht Neuronen die Summe aller Eingabesignale und geben das Ergebnis, das durch Anwenden einer Linearfunktion auf die Summe erhalten wird, aus. Die somit erhaltenen Ausgaben werden in den Fig. 2C, 4C und 5C gezeigt.
  • Der Erkennungsabschnitt 3 schließt ein drittes neurales Netzwerk ein, das die Integrationsschicht 37 und eine Ausgabeschicht 38 einschließt. Jedes der Neuronen in der Ausgabeschicht 38 ist mit allen Neuronen in der Integrationsschicht 37 verbunden. Jedes Neuron in der Ausgabeschicht 38 erhält die Summe der Eingabesignale, die mit den Synapsengewichten gewichtet sind, und nur die Neuronen, welche die maximale Summe aufweisen, geben das Ausgabesignal aus. Dies wird in einer Technik "ein Erfassen des Maximalwertes" bezeichnet.
  • In dem ersten Beispiel werden Neuronen in einer Meinen Anzahl zur einfachen Beschreibung der Basisfunktion bereitgestellt. Unterschiedliche andere Funktionen zur Erkennung können unter Verwendung von Neuronen in einer großen Anzahl und unter Spezifizierung einer großen Anzahl zu entnehmender Muster durchgeführt werden. Obwohl der Erkennungsabschnitt 3 nur die Integrationsschicht 37 und die Ausgabeschicht 38' in dem ersten Beispiel einschließt, können drei oder mehr Schichten eingeschlossen sein.
  • Beispiel 2
  • In einem zweiten Beispiel der vorliegenden Erfindung wird eine Bilderkennungsvorrichtung und ein Verfahren, das zur Erkennung von handschriftlichen Buchstaben geeignet ist, unten beschrieben.
  • Fig. 8 zeigt eine Konfiguration eines neuralen Netzwerkes, das einen Merkmalsentnahmeabschnitt und einen Erkennungsabschnitt einer Bilderkennungsvorrichtung gemäß des zweiten Beispiels der vorliegenden Erfindung bildet. Das neurale Netzwerk beinhaltet eine Eingabeschicht 34, eine Musterentnahmeschicht 35, eine Richtungsentnahmeschicht 36, eine Integrationsschicht 37 und eine Ausgabeschicht 38. Die Basisfunktion ist identisch mit der des neuralen Netzwerkes, das in Fig. 7 gezeigt wird. Die Eingabeschicht 34 wird durch eine Matrix dargestellt, die z. B. 60 · 60 Neuronen aufweist. Die Musterentnahmeschicht 35 schließt eine Entnahmeschicht 52 für ein vertikales Liniensegment und eine Entnahmeschicht 53 für ein horizontales Liniensegment, eine Entnahmeschicht 54 für ein linksgeneigtes Liniensegment und eine Entnahmeschicht 55 für ein rechtsgeneigtes Liniensegment ein. Die Schichten 52 bis 55 haben jeweils die gleiche Anzahl von Neuronen, wie in der Eingabeschicht 34, die zweidimensional angeordnet sind. Basierend auf dem Prinzip, das in dem ersten Beispiel beschrieben wurde, werden Liniensegmente in vier Richtungen getrennt in jedem der Schichten 52 bis 55 entnommen. Die Richtungsentnahmeschicht 36 erfaßt die positionelle Beziehung unter den Liniensegmenten, die durch die Schichten 52 bis 55 entnommen werden. Insbesondere ein Bereich 24 erfaßt das positionelle Verhältnis zwischen einem vertikalen Liniensegment und einem anderen vertikalen Liniensegment. Ein Bereich 25 erfaßt die positionelle Beziehung zwischen einem vertikalen Liniensegment und einem horizontalen Liniensegment. Ein Bereich 26 erfaßt die positionale Beziehung zwischen einem vertikalen Liniensegment und einem linksgeneigten Liniensegment. Ein Bereich 27 erfaßt die positionelle Beziehung zwischen einem vertikalen Liniensegment und einem rechtsgeneigten Liniensegment. Ein Bereich 28 erfaßt die positionelle Beziehung zwischen einem horizontalen Liniensegment und einem anderen horizontalen Liniensegment. Ein Bereich 29 erfaßt die positionelle Beziehung zwischen einem horizontalen Liniensegment und einem linksgeneigten Liniensegment. Ein Bereich 30 erfaßt die positionelle Beziehung zwischen einem horizontalen Liniensegment und einem rechtsgeneigten Liniensegment. Ein Bereich 31 erfaßt die positionelle Beziehung zwischen einem linksgeneigten Liniensegment und einem anderen linksgeneigten Liniensegment. Ein Bereich 32 erfaßt die positionelle Beziehung zwischen einem linksgeneigten Liniensegment und einem rechtsgeneigten Liniensegment. Ein Bereich 33 erfaßt die positionelle Beziehung zwischen einem rechtsgeneigten Liniensegment und einem anderen rechtsgeneigten Liniensegment. Die Bereiche 24 bis 33 werden jeweils in acht Unterbereiche geteilt. In Fig. 8 hat jeder Bereich 3 · 3 Unterbereiche, aber der Bereich in der zweiten Reihe und der zweiten Spalte hat kein Neuron. Jeder Unterbereich wird durch eine Matrix, die 60 · 60 Neuronen aufweist, dargestellt. Wenn eine spezifische positionelle Beziehung erfüllt ist, dass ein Liniensegment 1 in einer bestimmten Richtung mit Bezug auf ein anderes Liniensegment 2 existiert, gibt jedes Neuron Daten, die eine Länge des Liniensegments 1 unter der Beziehung darstellt, aus.
  • Zum Beispiel triggert ein Neuron in dem Unterbereich 56 in dem Bereich 25, wenn ein horizontales Liniensegment in der Richtung 14' (die "untere" Richtung, siehe Fig. 3) mit Bezug auf ein vertikales Liniensegment existiert. In der gleichen Weise triggert ein Neuron in einem Unterbereich 57 im Bereich 32, wenn ein rechtsgeneigtes Liniensegment in der Richtung 11' (die "rechte obere" Richtung, siehe Fig. 3) mit Bezug auf ein linksgeneigtes Linienelement existiert.
  • Um die obenerwähnten Funktionen anzuwenden, ist ein Neuron 56' bei der Position (i, j) des Unterbereichs 56 mit den folgenden zwei Arten von Neuronen in der Musterentnahmeschicht 35 (Festlegung 1) verknüpft;
  • (1) mit einem Neuron 52', das bei einer Position (i, j) in der Entnahmeschicht 52 für ein vertikales Liniensegment angeordnet ist;
  • (2) mit einer Gruppe von Neuronen 53', die in der Richtung 14' (der "unteren" Richtung, siehe Fig. 3) mit Bezug auf das Neuron, das an der Position (i, j) in der Entnahmeschicht 53 für ein horizontales Liniensegment existiert. Die Gruppe von Neuronen 53' wird durch den schraffierten Bereich in Fig. 8 dargestellt.
  • In diesem Fall triggert das Neuron 56' nur, wenn das Neuron 52' triggert (das bedeutet, dass das vertikale Liniensegment an einer Position (i, j) existiert) und weiterhin mindestens eines der Neuronen 53' triggert (das bedeutet, dass das horizontale Liniensegment in der Richtung 14' mit Bezug auf das Neuron, das bei einer Position (i, j) angeordnet ist, existiert). Die Stärke der Ausgabe ist proportional der Zahl der Neuronen, die unter den Neuronen 53' aktiviert werden (die Länge des horizontalen Liniensegmentes) (Festlegung 2). Aufgrund der Festlegungen 1 und 2 entnimmt das Neuron 56' in dem Unterbereich 56 die Länge des horizontalen Liniensegmentes, das in Richtung 14' mit Bezug auf das vertikale Liniensegment, das bei der Position (i, j) in dem Eingabemuster angeordnet ist, existiert.
  • In der gleichen Weise ist ein Neuron (57'), das bei einer Position in der m-ten Reihe und der n-ten Spalte in einem Unterbereich 57 (Matrixgröße 60 · 60) in dem Bereich 32 angeordnet ist mit den folgenden zwei Arten von Neuronen (Festlegung 1') verknüpft;
  • (1) mit einem Neuron 54', das bei einer Position (m, n) in der Entnahmeschicht 54 (Matrixgröße 60 · 60) für ein linksgeneigtes Liniensegment angeordnet ist;
  • (2) mit einer Gruppe von Neuronen 55', die in Richtung 11' in bezug auf das Neuron, das bei einer Position (m, n) in der Entnahmeschicht 55 für ein rechtsgeneigtes Segment (Matrixgröße 60 · 60) existiert. Die Gruppe der Neuronen 55' wird durch den schraffierten Bereich in Fig. 8 dargestellt.
  • In diesem Fall triggert das Neuron 57' nur, wenn das Neuron 54' triggert (das bedeutet, dass ein linksgeneigtes Liniensegment bei einer Position (m, n) existiert) und weiterhin mindestens eines der Neuronen 55' triggert (das bedeutet, dass das rechtsgeneigte Segment in Richtung 11' mit Bezug auf das Neuron, das bei der Position (m, n) angeordnet ist, existiert). Die Stärke der Ausgabe ist proportional zu der Zahl Neuronen, die unter den Neuronen 55' triggern (Länge des linksgeneigten Liniensegmentes) (Festlegung 2').
  • Aufgrund der Festlegungen 1' und 2' entnimmt das Neuron 57' in dem Unterbereich 57 die Länge des linksgeneigten Liniensegmentes, das in Richtung 11' mit Bezug auf das vertikale Liniensegment, das bei einer Position (m, n) in dem Eingabemuster angeordnet ist, existiert.
  • Jedes der Neuronen in der Integrationsschicht 37 integriert die Ausgabe von dem Unterbereich, der diesem in Richtung der Entnahmeschicht 36 entspricht. Ein Neuron 58 ist in dieser Integrationsschicht 37 mit allen Neuronen in dem Unterbereich 24' (der eine Länge eines vertikalen Liniensegmentes entnimmt, das in Richtung 17' mit Bezug auf ein anderes vertikales Liniensegment existiert) in dem Bereich 24 in der Richtungsentnahmeschicht 36 mit z. B. einem Synapsengewicht 1 (Festlegung 3) verknüpft, wodurch ein Wert proportional zu der Summe der Eingabesignale (Festlegung 4) ausgegeben wird. Folglich entspricht die Ausgabe von dem Neuron 58 der Summe der Längen der vertikalen Liniensegmente, die in der Richtung 17' mit Bezug auf ein anderes vertikale Liniensegment in dem gesamten Eingabemuster existiert.
  • In der gleichen Weise wird z. B. ein Neuron 59 in der Integrationsschicht 37 mit all den Neuronen in dem Unterbereich 26' (Matrixgröße 60 · 60: die eine Länge eines linksgeneigten Liniensegmentes, das in der Richtung 14' mit Bezug auf ein vertikales Liniensegment entnimmt) in dem Bereich 26 in der Richtungsentnahmeschicht 36 verknüpft. Als ein Ergebnis entnimmt das Neuron 59 die Summe der Länge der linksgeneigten Liniensegmente, die in der Richtung 14' mit Bezug auf ein vertikales Liniensegment in dem gesamten Eingabemuster existiert.
  • Aufgrund der Festlegungen 3 und 4 zeigt die Ausgabe von der Integrationsschicht 37 (Matrixgröße 8 · 10) die positionelle Beziehung unter den Liniensegmenten. Wie es im Detail in dem ersten Beispiel beschrieben wird, hängt die Ausgabe von der Integrationsschicht 37 nicht von der Position und der Größe des spezifischen Musters in dem Eingabebild ab, obwohl der absolute Wert der Ausgabedaten von der Größe abhängt. Jedes der Neuronen in der Ausgabeschicht 38 ist mit allen der Neuronen in der Integrationsschicht 37 verknüpft und nur das Neuron, das die maximale Summe der Eingabesignale aufweist, gibt das Ausgabesignal aus. Der Buchstabe, der dem Ausgabesignal entspricht, ist das Ergebnis der Erkennung.
  • Die Fig. 9A bis 9C und 10A bis 10C zeigen Ausgaben von jedem Neuron für eine Figur "1". Die Fig. 9A und 10A zeigen Bit-Bilder (Matrixgröße 60 · 60), die Fig. 9B und 10B zeigen Ausgaben von der Musterentnahmeschicht 35, und Fig. 9C und 10C zeigen Ausgaben von der Integrationsschicht 37. Die Referenznummern 52 bis 55 der Fig. 9B und 10B zeigen die Entnahmeergebnisse eines vertikalen Liniensegmentes, eines horizontalen Liniensegments, eines linksgeneigten Liniensegments bzw. eines rechtsgeneigten Liniensegments. Die Referenznummer 24 bis 33 der Fig. 9C und 10C zeigen die positionelle Beziehung unter den Liniensegmenten. Insbesondere die Referenznummer 24 zeigt die Beziehung zwischen einem vertikalen Liniensegment und einem anderen vertikalen Liniensegment. Die Referenznummer 25 zeigt die Beziehung zwischen einem vertikalen Liniensegment und einem horizontalen Liniensegment. Die Referenznummer 26 zeigt die Beziehung zwischen einem vertikalen Liniensegment und einem linksgeneigten Liniensegment. Die Referenznummer 27 zeigt die Beziehung zwischen einem vertikalen Liniensegment und einem rechtsgeneigten Liniensegment. Die Referenznummer 28 zeigt die Beziehung zwischen einem horizontalen Liniensegment und einem anderen horizontalen Liniensegment. Die Referenznummer 29 zeigt die Beziehung zwischen einem horizontalen Liniensegment und einem linksgeneigten Liniensegment. Die Referenznummer 30 zeigt die Beziehung zwischen einem horizontalen Liniensegment und einem rechtsgeneigten Liniensegment. Die Referenznummer 31 zeigt · die Beziehung zwischen einem linksgeneigten Liniensegment und einem anderen linksgeneigten Liniensegment. Die Referenznummer 32 zeigt die Beziehung zwischen einem linksgeneigten Liniensegment und einem rechtsgeneigten Liniensegment. Die Referenznummer 33 zeigt die Beziehung zwischen einem rechtsgeneigten Liniensegment und einem anderen rechtsgeneigten Liniensegment.
  • Die Ausgaben der Integrationsschicht 37, die in den Fig. 9C und 10C gezeigt werden, sind auf die handgeschriebenen Figuren "1" mit unterschiedlichen Größen und unterschiedlichen Positionen gerichtet, aber sind extrem ähnlich zueinander. Wie es hiervon augenscheinlich wird, kann eine Bilderkennung, die weder durch die Unterschiede in der Größe, noch durch die Position beeinflußt ist, verwirklicht werden.
  • Es ist ausreichend, den Lernvorgang zur Bestimmung der Synapsengewichte zwischen der Integrationsschicht 37 und der Ausgabeschicht 38 durchzuführen. In dem zweiten Beispiel werden zehn Figuren von fünf unterschiedlichen Arten, die in Fig. 11A gezeigt werden, durch das neurale Netzwerk unter Verwendung des orthogonalen Lernverfahrens gelernt. Nach dem Lernen werden die Figuren, die nicht gelernt wurden, wie in Fig. 11B gezeigt, in die Bilderkennungsvorrichtung eingegeben. Wir haben herausgefunden, dass alle von diesen Figuren korrekt erkannt wurden.
  • Ein Bilderkennungsverfahren gemäß der vorliegenden Erfindung wird hiernach beschrieben.
  • Fig. 15 ist ein Flußdiagramm, das Schritte gemäß dem Bilderkennungsverfahren darstellt. Jeder Schritt wird im Detail beschrieben.
  • Schritt S1: Eingabe (Konversion in binäre Daten)
  • Ein Bild einer zu erkennenden Figur oder dergleichen wird in einen Beobachtungsbereich (nicht gezeigt) eingegeben. Der Beobachtungsbereich wird durch eine Matrix, die N · N Elemente aufweist, dargestellt. Die Bildeingabe in den Beobachtungsbereich wird in ein binäres Muster basierend auf folgenden Regeln konvertiert. Das binäre Muster wird auch durch eine Matrix, die N · N Elemente aufweist, dargestellt, wobei jedes Element entweder 0 oder 1 ist.
  • Regel 1: Die Elemente der Matrix, die den Beobachtungsbereich darstellen, entsprechen den Elementen der Matrix, die das binäre Muster eines nach dem anderen jeweils darstellt.
  • Regel 2: In der Matrix, die das binäre Muster darstellt, ist das Element, das bei der Position (i, j) angeordnet ist, als x(i, j) bezeichnet, und ein Wert davon wird als xi,j bezeichnet. Der Wert xi,j wird durch Gleichung 7 bestimmt,
  • wobei sij die Länge eines Segmentes eines Buchstabens darstellt, der in das Element, das bei der Position (i, j) in der Matrix, die den Beobachtungsbereich darstellt, angeordnet ist, einschließt. Insbesondere, wenn das Element, das bei der Position (i, j) angeordnet ist, mindestens einen Abschnitt des Buchstabens, der zu erkennen ist, einschließt, ist der Wert xi,j gleich 1. Sonst ist der Wert xi,j gleich 0.
  • Das somit erhaltene binäre Muster wird zu der Eingabeschicht 34 in Fig. 8 eingegeben. Die Eingabeschicht 34 wird durch eine Matrix mit N · N Elementen darstellt. Jedes Element der Matrix, welche die Eingabeschicht 34 bildet, entspricht jedem Element der Matrix, die das binäre Muster darstellt mit Eins zu Eins, und gibt einen identischen Wert mit dem des entsprechenden Elementes, der Matrix, die das binäre Muster darstellt, aus.
  • Schritt S2: Liniensegmententnahme
  • Basierend auf der Ausgabe von der Eingabeschicht 34 wird eine Mehrzahl von vorbestimmten Mustern entnommen. In diesem Beispiel wird angenommen, dass die Mehrzahl der vorbestimmten Muster vier Liniensegmente sind: ein vertikales Liniensegment, ein horizontales Liniensegment, ein linksgeneigtes Liniensegment und ein rechtsgeneigtes Liniensegment. Irgendwelche anderen Muster können auch entnommen werden.
  • Das Liniensegment 1 ist wie folgt definiert:
  • Wenn das Liniensegment 1 : 1 = 1, vertikales Liniensegment
  • 1 = 2, horizontales Liniensegment
  • 1 = 3, linksgeneigtes Liniensegment
  • 1 = 4, rechtsgeneigtes Liniensegment
  • Die Musterentnahmeschicht 35 in Fig. 8 schließt Entnahmeschichten 52 bis 55 für ein Liniensegment ein, um diese vier Liniensegmente zu entnehmen. Hier werden die vier Entnahmeschichten 52 bis 55 für ein Liniensegment zur Entnahme des Liniensegmentes 1 als u¹ (1 = 1, 2, 3, 4) bezeichnet.
  • Jede der Entnahmeschichten u¹ für ein Liniensegment wird durch eine Matrix, die N · N Elemente aufweist, dargestellt. In der Matrix, die eine Entnahmeschicht u¹ für ein Liniensegment darstellt, wird das Element, das bei der Position (i, j) angeordnet ist, als u¹(i, j) bezeichnet, und der Wert davon wird als u¹i,j bezeichnet. Der Wert u¹i,j wird durch die Gleichung 8 bestimmt.
  • wobei &Phi;[·] eine Ausgabefunktion darstellt, w¹m,n stellt einen Wichtungskoeffizienten dar, &Omega;¹ stellt einen Satz (m, n) dar, der die Verknüpfung zwischen dem Element x(i, j) und dem Element u¹(i, j) definiert. &Phi;[ ], w¹m,n und &Omega;¹ erfüllen die Beziehung, die durch die Gleichungen 9 bis 11 jeweils ausgedrückt werden.
  • &Omega;¹ = {(m,n) (1,0),(0,0),(-1,0)}
  • &Omega;² = {(m,n) (0,1),(0,0),(0,-1)}
  • &Omega;³ = {(m,n) (1,-1),(0,0),(-1,1)
  • &Omega;&sup4; = {(m,n) (1,1),(0,0),(-1,-1)} ... Gleichung 11
  • Wie es durch die Gleichung 10 ausgedrückt wird, welche die Verknüpfung zwischen der Eingabeschicht 34 und der Entnahmeschicht u¹ für ein Liniensegment definiert, ist w¹0,0 = 2 wählbar, um in effektiver Weise die Liniensegmententnahme durchzuführen. Jedoch ist es auch möglich, einen Wichtungskoeffizienten, der w¹0,0 > 1 erfüllt, durch Einstellen der Ausgabefunktion und des Schwellenwertes der Ausgabefunktion zu verwenden.
  • Tabelle 1 zeigt die Beziehung zwischen der Ausgabe von der Eingabeschicht 34 und der Ausgabe von der Entnahmeschicht u¹ für ein Liniensegment zum Ausgeben eines vertikalen Liniensegmentes. Tabelle 1
  • wobei w¹0,0 = e (> 1) ist. In Tabelle 1 zeigt die Spalte (a) den Fall, in dem das Element u¹u,j der Entnahmeschicht u¹ für ein Linienelement eine "1" ausgeben soll, wohingegen die Spalte (b) den Fall zeigt, in dem das Element u¹i,j der Entnahmeschicht u¹ für ein Liniensegment "0" ausgeben soll. Um eine derartige Ausgabe zu erhalten, wird die Ausgabefunktion &Phi;, die in der Gleichung 12 definiert ist, anstelle Ausgabefunktion &Phi;, die in der Gleichung 9 definiert ist, verwendet, und der Schwellenwert &theta; der Ausgabefunktion &Phi;, der die Gleichung 13 erfüllt, wird ausgegeben. Wenn der Schwellenwert &theta; der Ausgabefunktion &Phi; die Gleichung 13 erfüllt und wenn das Element u¹i,j der Entnahmeschicht u¹ für ein Liniensegment 1 ausgeben muß, ist der Schwellenwert &theta; kleiner als die Summe &xi; der Eingabesignale; und wenn das Element u¹i,j 0 ausgeben muß, ist der Schwellenwert &theta; größer als die Summe &xi; der Eingabesignale demgemäß kann die Liniensegmentausgabe durch Anwenden der Ausgabefunktion &Phi;, die durch die Gleichung 12 definiert wird, auf die Summe &xi; der Eingabesignale durchgeführt werden. In der gleichen Weise kann irgendeine andere Art des Liniensegmentes auch entnommen werden.
  • Es ist auch möglich, Liniensegmente unter Verwendung von anderen Verfahren als dem Verfahren, das oben beschrieben ist, zu entnehmen, z. B. durch Musteranpassung. Hiernach wird ein Verfahren zur Entnahme eines Liniensegmentes unter Verwendung einer Maskenstruktur, die in Fig. 16B gezeigt wird, von einem optischen binären Muster, das in Fig. 16A gezeigt wird, beschrieben. In den Fig. 16A und 16B wird eine Lichtintensität mit schwarzem Abschnitt als I bezeichnet und eine Lichtintensität mit weißem Abschnitt als 0 bezeichnet. Die Lichtintensität, die durch das Muster der Fig. 16A transmittiert wird, wird durch Bewegen der Maskenstruktur der Fig. 16B von der obersten linken Ecke des Musters der Fig. 16A gemessen. Wenn die gemessene Lichtintensität gleich 2I ist, bedeutet dies, dass ein vertikales Liniensegment auf dem Muster der Fig. 16A existiert. Andere Liniensegmente können in gleicher Weise unter Verwendung der Maskenstrukturen, die in den Fig. 16C bis 16E gezeigt werden, entnommen werden.
  • Schritt S3: Richtungsentnahme
  • Ein erstes Merkmal, das eine Richtung, in der ein Liniensegment 1' mit Bezug auf jeden Punkt eines anderen Liniensegmentes 1' existiert, darstellt, wird, basierend auf dem Ergebnis der Entnahme von vier Arten der Liniensegmente entnommen.
  • Es gibt sechs Wege, eine Kombination von zwei unterschiedlichen Liniensegmenten unter vier Arten von Liniensegmenten 1 auszuwählen. Die Richtungsentnahmeschicht 36 in Fig. 8 hat mindestens sechs Bereiche zur Entnahme positioneller Beziehungen zwischen den Liniensegmenten 1 und 1'. Diese sechs Bereiche werden als D1&rarr;1' bezeichnet. Zur Vereinfachung wird hier nicht die positionelle Beziehung des Liniensegmentes 1 mit Bezug auf das gleiche Liniensegment 1 betrachtet. Zum Beispiel wird der Bereich zur Entnahme eines Merkmals, das eine Richtung darstellt, in der ein horizontales Liniensegment (1 = 2) mit Bezug auf ein vertikales Liniensegment (1 = 1) existiert, als D1&rarr;2 bezeichnet. Der Bereich zur Entnahme eines Merkmals, das eine Richtung, in der ein linksgeneigtes Liniensegment (1 = 3) in bezug auf ein horizontales Liniensegment (1 = 2) existiert, wird als D2&rarr;3 bezeichnet.
  • Jeder Bereich D1&rarr;1' der Richtungsentnahmeschicht 36 schließt acht Bereiche d1&rarr;1' (k) ein, wobei k ein Parameter ist, der eine bestimmte Richtung anzeigt, und Richtungen, die durch k = 1 bis 8 jeweils angezeigt werden, entsprechend den Richtungen 10' bis 17', die in Fig. 3 gezeigt werden. Zum Beispiel schließt der Bereich D1&rarr;1' acht Bereiche d1&rarr;2 (k) (mit k = 1 bis 8) ein.
  • Jeder der Bereiche d1&rarr;1' (k) wird durch eine Matrix mit N · N Elementen dargestellt. In der Matrix, die den Bereich d1&rarr;1' (k) darstellt, ist das Element, das an der Position (i, j) angeordnet ist, als d1&rarr;1' (i, j) bezeichnet und ein Wert davon ist als d1&rarr;1'k,i,j bezeichnet. Der Wert d1&rarr;1'k,i,j wird durch die Gleichung 14 als gegeben definiert, um eine Länge des Liniensegmentes 1' darzustellen, die in Richtung k mit Bezug auf das Element u¹ (i, j) existiert, das auf dem Liniensegment 1 in der Entnahmeschicht u¹ für ein Liniensegment angeordnet ist. Gleichung 14 definiert die Verknüpfung zwischen den Entnahmeschichten u¹ und u1' für ein Liniensegment, und die Bereiche D1&rarr;1' der Richtungsentnahmeschicht 36.
  • &Omega;k ist hier ein Satz von (m, n), der die Verknüpfung zwischen den Bereichen D1&rarr;1' (k) zwischen den Bereichen u¹ und u1' für ein Liniensegment definiert. (m, n) bezeichnen eine relative Koordinate des Elementes, das in der Richtung k mit Bezug auf u1' (i,j) in der Entnahmeschicht u1' für ein Liniensegment existiert. wk(i, j)p, q bezeichnet einen Wichtungskoeffizienten. Der Koeffizient wk(i, j)p, q ist 1, wenn das Element u1' (p, q) das bei der Position (p, q) in der Entnahmeschicht u' für ein Liniensegment angeordnet ist, in der Richtung k mit Bezug auf das Element u1' (i,j), das bei der Position (i, j) angeordnet ist, existiert und sonst 0 ist.
  • Die Anzahl der Richtungen, in denen das Liniensegment 1' mit Bezug auf das Liniensegment 1 existiert, ist nicht auf 8 begrenzt. Zum Beispiel ist es möglich, 16 Richtungen zu definieren durch Teilen des Kreises in Fig. 3 in 16 Teile. In einem derartigen Fall beinhaltet der Bereich D1&rarr;1' in der Richtungsentnahmeschicht 36 16 Bereiche d1&rarr;1' (k) entsprechend k = 1 bis 16.
  • Schritt S4: Längenentnahme
  • Ein zweites Merkmal, das eine Längenentnahme des Liniensegmentes 1' darstellt, das in Richtung k mit Bezug auf das Liniensegment 1 existiert, wird entnommen, basieren auf dem ersten Merkmal, das in Schritt 3 entnommen ist.
  • Die Integrationsschicht 37 in Fig. 8 schließt mindestens sechs Bereiche ein. Jeder dieser sechs Bereiche wird als R1&rarr;1' bezeichnet. Die Bereiche R1&rarr;1' beinhalten jeder acht Neuronen r1&rarr;1' (k), wobei k ein Parameter ist, der eine bestimmte Richtung anzeigt und Richtungen, die durch k = 1 bis 8 angezeigt werden, korrespondieren entsprechend mit den Richtungen 10' bis 17', die in Fig. 3 gezeigt werden. Zum Beispiel schließt die Richtung R1&rarr;2 acht Neuronen r1&rarr;2(k) ein (wobei k = 1 bis 8 ist).
  • Die Neuronen r1&rarr;1' (k) haben jeder einen Wert von r1&rarr;1'k. Der Wert r1&rarr;1'k wird durch Gleichung 15 als gegeben definiert, um eine Länge des Liniensegmentes 1' darzustellen, das in Richtung k mit Bezug auf Liniensegment 1 existiert. Die Gleichung 15 definiert die Verknüpfung zwischen den Bereichen D1&rarr;1' in der Richtungsentnahmeschicht 36 und die Richtungen R1&rarr;1' in der Integrationsschicht 37.
  • Alternativ kann die Gleichung 16 anstelle der Gleichung 15 verwendet werden. Gleichung 16 wird durch Anwenden der Ausgabefunktion f auf die Summe, die auf der rechten Seite der Gleichung 15 gezeigt wird, erhalten. Als die Ausgabefunktion f [·] kann im allgemeinen auch die Sigmafunktion (bzw. sigmoidale Funktion) oder dergleichen verwendet werden. Die Gleichung 15 ist ein Beispiel, in dem eine lineare Funktion (y = x) als Ausgabefunktion f von Gleichung 16 verwendet wird.
  • Schritt S5: Erkennung
  • Basierend auf den Ausgaben von den Bereichen R1&rarr;1' in der integrierten Schicht 37 wird ein Eingabebuchstabe unterschieden. Zum Beispiel, um 26 alphabetische Buchstaben zu unterscheiden, ist es erforderlich, dass die Ausgabeschicht 38 mindestens 26 Neuronen aufweist. Jedes Neuron in der Ausgabeschicht 38 wird als y(j) bezeichnet, und ein Wert davon wird als yj bezeichnet. Der Wert yj wird als gegeben durch die definiert. Die Gleichung 17 definiert die Verknüpfung zwischen den Bereichen R1&rarr;1' in der Integrationsschicht 37 und der Ausgabeschicht 38.
  • Hier repräsentiert &delta;j die Summe der Eingabesignale von den Bereichen R1&rarr;1' in der Integrationsschicht 37. &delta;j wird als durch die Gleichung 18 gegeben definiert. w1&rarr;1'jk stellt ein Synapsengewicht dar. fmax{&delta;j} stellt einen Operator dar, der die Summe &delta;j und die Ausgaben 1 für das Element, das die Maximalsumme &delta;j aufweist, vergleicht und 0 für andere Elemente ausgibt. Das Synapsengewicht w1&rarr;1'jk kann durch Lernen modifiziert werden. Es ist wünschenswert, durch Verwenden des orthogonalen Lernverfahrens zu lernen.
  • Wenn ein Vorgang bis zum Erhalten der Ausgabe der Neuronen r1&rarr;1'(k) von einem Eingabefeld als ein vorläufiges Verfahren (d. h. dem Merkmalsentnahmeverfahren) für eine Bilderkennung berücksichtigt wird, kann der Erkennungsabschnitt 3 als ein sogenannter Perceptron berücksichtigt werden, der zwei Schichten der integrierten Schicht 37 und der Ausgabeschicht 38 einschließt. Die Bilderkennung ist auch durch Verarbeiten der Ausgaben von den Neuronen r1&rarr;1'(k) unter Verwendung eines hierarchischen neuralen Netzwerkes, das drei oder mehr Schichten einschließt, möglich. In diesem Fall ist es wünschenswert, durch Anwenden des sogenannten Fehlerfortpflanzungs-Lernverfahrens zu lernen.
  • Als nächstes wird ein Lernverfahren zum wirkungsvollen Modifizieren des Synapsengewichtes w1&rarr;1'jk beschrieben.
  • Gleichung 19 zeigt einen Übergang des Synapsengewichtes in dem Fall, in dem das Lernen unter Verwendung des orthogonalen Lernverfahrens durchgeführt wird.
  • w1&rarr;1' (t+1)jk = w1&rarr;1' (t)jk + &alpha; · r1&rarr;1' k · (tj - yj) ... Gleichung 19
  • Hier repräsentiert w1&rarr;1' (t)jk das Synapsengewicht, das die Verknüpfung zwischen den Neuronen r1&rarr;1'(k) in dem Bereich R1&rarr;1' und den Neuronen y(j) der Ausgabeschicht 38 betrifft, nachdem das Lernen t-mal durchgeführt ist. &alpha; repräsentiert einen Lerngewinn, und tj repräsentiert ein Zielsignal. Das Zielsignal ist ein erwarteter Wert, der durch das Neuron y(j) auszugeben ist, wenn ein Bild eingegeben wird.
  • Zum Beispiel, wenn ein Lernen für die 26 Buchstaben des Alphabets durchgeführt wird, werden unterschiedliche Arten der Buchstaben, die vorher vorbereitet wurden, nacheinander gelernt. Wenn all die Buchstaben korrekt erkannt werden, ist das Lernen vollendet. Die Zeiten für das Lernen werden in der folgenden Weise definiert. Zu jeder Zeit werden alle Buchstaben von jeder Art gelernt, und die Zeit des Lernens wird um Eins erhöht.
  • Jedoch ist das Lernen, das auf der Gleichung 19 basiert, nicht effektiv, nämlich weil es eine große Zahl von Zeiten zum Lernen, bis alle Buchstaben korrekt erkannt werden, erfordert, und zwar in dem Fall, in dem die Buchstaben, die zu lernen sind, sich in der Größe voneinander unterscheiden. Dies wird dem folgenden Grund zugeschrieben. Die zwei Terme der rechten Seite der Gleichung 19 drücken einen Modifikationswert des Synapsengewichtes aus. Wie von der Gleichung 19 zu erkennen ist, wird eine Modifikation proportional zu dem Wert r1&rarr;1'k für jeden Zeitpunkt des Lernens durchgeführt. Wie oben beschrieben, stellt der Wert r1&rarr;1'k eine Länge eines Liniensegmentes 1' dar, das in der Richtung k mit Bezug auf das Liniensegment 1 in dem Eingabebild existiert. Wenn die Größe eines Eingabebuchstabens vergrößert ist, wird die Länge von jedem Liniensegment auch vergrößert. Folglich wird auch der absolute Wert von r1&rarr;1'k vergrößert. Da der Modifikationsbetrag des Synapsengewichtes pro Buchstabe von der Größe des Eingabebuchstabens abhängt, ist möglicherweise der Lernwirkungsgrad vermindert, wenn eine Vielzahl von Buchstaben mit unterschiedlichen Größen zu lernen sind.
  • Das oben erwähnte Problem wird durch folgendes Verfahren gelöst.
  • Wir haben herausgefunden, dass der Lernwirkungsgrad für Buchstaben mit unterschiedlichen Größen beträchtlich durch Normieren der Wert r1&rarr;1'k verbessert wird. Es gibt folgende zwei Verfahren zur Normierung.
  • (1) Normieren der Ausgabe von dem Neuron r1&rarr;1' (k) in dem Bereich R1&rarr;1' unter Verwendung der Summe der Ausgaben von allen Neuronen r1&rarr;1' (k). Gemäß diesem Verfahren wird der normierte Wert r1&rarr;1'norm,k durch die Gleichung 20 ausgegeben.
  • (2) Ein Normieren der Ausgabe von dem Neuron r1&rarr;1' (k) in dem Bereich R1&rarr;1' unter Verwendung des maximalen Wertes der Ausgaben von allen Neuronen r1&rarr;1' (k). Gemäß diesem Verfahren wird der normalisierte Wert r1&rarr;1'norm,k, wie er durch die Gleichung 21 gegeben wird, erhalten.
  • Demgemäß kann die Gleichung 19 durch die Gleichung 22 ersetzt werden.
  • w1&rarr;1' (t + 1)jk = w1&rarr;1' (t)jk + &alpha; · r1&rarr;1'norm,k · (tj - yj) ...Gleichung 22
  • Tabelle 2 zeigt den Lernwirkungsgrad, wenn das Lernen basierend auf Gleichung 22 ausgeführt wird. Wie es aus Tabelle 2 augenscheinlich ist, wird damit bestätigt, dass der Lernwirkungsgrad beträchtlich unter Verwendung des normierten Wertes r1&rarr;1'norm,k verbessert wird. Somit ist die Normierung extrem wirkungsvoll für ein Lernen bei hoher Geschwindigkeit. Tabelle 2 Vergleich der Lernzeiten
  • Die Fig. 17A bis 17D zeigen ein Beispiel von Ausgaben von der Eingabeschicht 34, der Musterentnahmeschicht 35, der Richtungsentnahmeschicht 36 bzw. der Integrationsschicht 37, wenn der Buchstabe "J" eingegeben wird. Die schwarzen Abschnitte in den Fig. 17A bis 17D zeigen, dass der Wert des Elements 0 ist. Die Bedeutung der Werte, die in den Bereichen D1&rarr;1' in der Richtungsentnahmeschicht 36 gezeigt werden, wird hiernach beschrieben. In Fig. 17C ist z. B. der Wert des Elements bei der Position (3, 4) des Bereichs d1&rarr;2 (8) in der Richtung D1&rarr;2 eine 2. Dieses ist wegen der Anzahl der Elemente des horizontalen Liniensegmentes, das in der Richtung von k ( = 8) der "linken oberen" Richtung mit Bezug auf das Element, das bei der Position (3, 4) der Liniensegmentschicht u¹ existiert, eine 2 ist. In diesem Fall sind die beiden Elemente eine 1 bei der Position (2, 2) und bei der Position (2, 3) der Entnahmeschicht u² für ein Liniensegment. Weil es in ähnlicher Weise zwei Elemente auf dem horizontalen Liniensegment sind, die in der Richtung von k ( = 8) (der "linken oberen" Richtung) mit Bezug auf das Element, das bei der Position (4, 4) der Entnahmeschicht u¹ für ein Liniensegment existieren, ist der Wert des Elementes, das bei der Position (4, 4) des Bereichs d1&rarr;2 (8) in der Richtung D1&rarr;2 angeordnet ist, eine 2. Da es dort ein Element auf dem horizontalen Liniensegment gibt, das in der Richtung von k ( = 8) (der "linken oberen" Richtung) mit Bezug auf das Element, das bei der Position (5, 4) der Entnahmeschicht u¹ für ein Liniensegment existiert, ist der Wert des Elementes, das bei der Position (5, 4) des Bereichs d1&rarr;2 (8) in dem Bereich D1&rarr;2 angeordnet ist, eine 1. Wie in der Fig. 17D gezeigt, erscheint die Summe (2 + 2 + 1 = 5) der Werte der Elemente auf dem Bereich d1&rarr;2 (8) in dem Bereich D1&rarr;2 bei der Position (1, 1) des Bereichs des R1&rarr;2 in der Integrationsschicht 37. Dieses liegt daran, weil der Bereich d1&rarr;1' (k) mit dem Bereich R1&rarr;1' so verknüpft ist, dass die Summe der Werte der Elemente in dem Bereich d1&rarr;1' (k) der Wert des Elementes r1&rarr;1' (k) ist.
  • Eine optische Neuronenvorrichtung wird nun für eine Merkmalsentnahme für ein Anwenden der Liniensegmententnahme beschrieben.
  • Fig. 18 zeigt eine Querschnittsansicht einer optischen Neuronenvorrichtung für eine Merkmalsentnahme. Die Vorrichtung beinhaltet zwei Glassubstrate mit je einer transparenten Elektrode, einer photoleitenden Schicht, die zwischen den Glassubstraten angeordnet ist, und einer optischen Modulationsschicht. Eine Neuronenelektrode ist zwischen der photoleitenden Schicht und der optischen Modulationsschicht angeordnet. Die optische Modulationsschicht ist aus wasserstoffhaltigem amorphen Silicium (a-Si : H) mit einer Dicke von etwa 1,7 um gebildet und die optische Modulationsschicht ist aus einem ferroelektrischen Flüssigkristall (FLC) mit einer Zelldicke von etwa 1 um gebildet. Die Neuronenelektrode ist auf einem Aluminiumdünnfilm mit einer Dicke von etwa 50 nm gebildet.
  • Die optische Neuronenvorrichtung für eine Merkmalsentnahme führt eine optische Summation und ein Schwellenwertbildung als Basisfunktionen durch. Die Basisfunktionen werden hiernach beschrieben.
  • (1) Beim Schreiben wirkt Licht auf die Neuronenvorrichtung von der Seite der photoleitenden Schicht, und eine Photostrom, der genau proportional zu der Intensität des Schreiblichtes ist, wird in der photoleitenden Schicht erzeugt. Da das Schreiblicht im allgemeinen eine zweidimensionale Intensitätsverteilung aufweist, hat der Photostrom auch eine zweidimensionale Intensitätsverteilung.
  • (2) Der erzeugte Photostrom wird von jeder Neuronenelektrode gesammelt und die Summe des gesammelten Photostromes wird berechnet. Dies bedeutet eine Durchführung einer optischen Summation.
  • (3) Wenn die Summe des Photostroms einen spezifischen Schwellenpegel überschreitet, wird der Zustand des FLC der optischen Modulationsschicht geschaltet. Dieses ist ein Schwellenwertverarbeiten. Als ein Ergebnis wird das Leselicht durch die optische Modulationsschicht moduliert.
  • Als nächstes wird eine Funktion eines optischen Systems unter Verwendung der optischen Neutronenvorrichtung für eine Merkmalsentnahme kurz beschrieben.
  • Das Schreiblicht weist eine zweidimensionale Intensitätsverteilung auf, während das Leselicht ein gleichmäßiges weißes Licht von einer flächigen Lichtquelle emittiert. Das Leselicht ist durch einen Polarisator (nicht gezeigt) linear polarisiert und wirkt dann auf die Neuronenvorrichtung von der Seite der optischen Modulationsschicht. Dann wird das Leselicht durch die Neuronenelektrode reflektiert und wieder durch die optische Modulationsschicht transmittiert. Wenn der Zustand der optischen Modulationsschicht umgeschaltet wird, dreht sich die Polarisationsrichtung des Leselichtes um 90º. Wenn der Zustand der optischen Modulationsschicht nicht umgeschaltet ist, wird die Polarisationsrichtung nicht geändert. Das Leselicht, das von der Neuronenvorrichtung emittiert wird, wird durch einen Strahlteiler (nicht gezeigt) transmittiert und wirkt als ein Analysator mit einer Polarisationsachse rechtwinklig zu dem Polarisator. Als ein Ergebnis durchläuft nur ein Teil des Leselichts, das einem Bereich entspricht, wo der Zustand der optischen Modulationsschicht geschaltet ist, durch den Analysator. Aufgrund der Hochgeschwindigkeitsreaktion des FLC, der für optische Modulationsschichten verwendet wird, können 3.000 oder mehr Muster pro Sekunde verarbeitet werden.
  • Als nächstes wird das Prinzip der Liniensegmententnahme, das von der optischen Neuronenvorrichtung für eine Merkmalsentnahme durchgeführt wird, beschrieben. Die Gestalt der Neuronenelektrode definiert einen Bereich zur Durchführung der optischen Summation für das Schreiblicht.
  • Fig. 19A zeigt die Gestalt der Neuronenelektronen zum Entnehmen eines vertikalen Liniensegmentes und ihre Anordnung. Jede Fläche, die von punktierten Linien umgeben wird, entspricht einem Neuron. Jede Neuronenelektrode erstreckt sich über zwei Neuronen, und der Bereich von jeder Neutronenelektrode ist im wesentlichen in zwei durch die Neuronen, die ihr entsprechen, geteilt. Wie in Fig. 19B gezeigt ist, ist das Eingabemuster ein binäres Muster, das 8 · 8 Pixel aufweist. Der Wert von jedem Pixel ist entweder 0 oder 1. Das Eingabemuster wird in die Neuronenvorrichtung von der Seite der photoleitenden Schicht in einer derartigen Weise eingegeben, dass jedes Neuron, das von punktierten Linien umgeben ist, einem jeden Pixel entspricht. Die hier erhaltene Fläche durch Dividieren von jeder Neuronenelektrode in zwei ist S. Die optische Intensität bei dem Pixel in dem Zustand "1" in dem Eingabemuster ist I und die optische Intensität bei einem Pixel in dem Zustand "0" in dem Eingabemuster ist 0. Wenn ein vertikales Liniensegment existiert, geben zwei Pixel, die vertikal angeordnet sind, gleichzeitig eine "1" aus. Demgemäß sammeln die Neuronenelektroden, die diesen zwei Pixeln entsprechen, einen Photostrom, der einer optischen Intensität von 2SI entspricht. Wenn nur einer von diesen zwei Pixeln eine " 1 " ausgibt, und der andere Pixel gibt eine "0" aus, sammelt die Neuronenelektrode, die diesen Pixeln entspricht, nur einen Photostrom, der einer optischen Intensität von SI entspricht. Demzufolge, wenn die optische Stärke I angepaßt ist, und SI < &theta; < 2SI mit Bezug auf den Schwellenpegel &theta; der Neutronenvorrichtung erfüllt, wird die optische Modulationsschicht von einem Aus-Zustand zu einem Ein-Zustand nur geschaltet, wenn ein vertikales Liniensegment existiert.
  • Fig. 19C zeigt ein experimentelles Ergebnis der Entnahme eines vertikalen Liniensegments von dem Eingabemuster, das in Fig. 19B gezeigt ist, basierend auf den oben erwähnten Prinzipien.
  • Horizontale, linksgeneigte, rechtsgeneigte Liniensegmente können auch basierend auf dem gleichen Prinzip entnommen werden.
  • Fig. 20 zeigt eine optische Neuronenvorrichtung für eine Merkmalsentnahme mit vier Liniensegment-Entnahmeoberflächen zur Entnahme vertikaler, horizontaler, linksgeneigter und rechtsgeneigter Liniensegmente. Wie in Fig. 20 gezeigt, hat die Neuronenelektrode auf den Oberflächen für eine Entnahme der linksgeneigten und der rechtsgeneigten Segmente zwei Elektrodeneinheiten, die jede eine Fläche S aufweisen und diese Einheitselektroden sind schräg miteinander über schmale Elektroden, die vernachlässigbar kleine Flächen aufweisen, verbunden. Um gleichzeitig und getrennt voneinander Liniensegmente in vier Richtungen von dem Eingabemuster zu entnehmen, ist ein Eingabemuster vielfach abgebildet in vier Eingabemustern unter Verwendung einer Linsenanordnung (nicht gezeigt), und die vier Eingabemuster werden jeweils auf die vier Oberflächen zur Entnahme der Liniensegmente eingegeben. Fig. 21 zeigt das Ausgabeergebnis, das erhalten wird, wenn die Muster, die in der Fig. 19B gezeigt werden, gleichzeitig auf die vier Oberflächen eingegeben werden. Es ist zu beobachten, dass die Liniensegmente, die in dem Muster "A" enthalten sind, für jede Richtung entnommen werden.
  • Fig. 22 zeigt eine Ausgabecharakteristik in einem Fall, in dem ein optisches Signal auf eine Neuronenelektrode wirkt. Wie in der Fig. 22 gezeigt, wird der FLC, die als optische Modulationsschicht verwendet wird, schnell von dem Aus-Zustand zu dem Ein-Zustand geändert, wenn die Einfallslichtleistung 2 uW überschreitet. Dieses zeigt, dass die Neuronenvorrichtung eine Ausgabecharakteristik aufweist, die ausreichend die Bedingung SI < &theta; < 2SI für die Schwellenwertverarbeitung erfüllt.
  • Ein Prinzip eines optischen Systems zur Durchführung der Wichtungsentnahme der Längenentnahme wird beschrieben.
  • Die Fig. 23 zeigt die Konfiguration des optischen System. Das optische System beinhaltet eine Lichtquelle (nicht gezeigt), drei transparente Arten von Flüssigkristallbildschirmen (LCTV) 1 bis 3 und einen Photoempfänger (nicht gezeigt). Das emittierte Licht von der Lichtquelle erreicht den Photoempfänger über die LCTV 1 bis 3. Die LCTV 1 bis 3 haben folgende Funktionen.
  • LCTV 1 zeigt die Ausgaben der Entnahmeschicht u¹ für ein Liniensegment. LCTV 1 wird durch eine Matrix mit N · N Elementen dargestellt und zeigt das Ergebnis der Entnahme des Liniensegmentes 1 von einem binären Muster.
  • LCT 2 zeigt den Koeffizienten wk(i, j)p,q in der Gleichung 14. LCTV 2 hat N · N Bereiche, wobei jeder Bereich durch eine Matrix, die N · N Elemente aufweist, dargestellt ist. Mit anderen Worten, LCTV 2 ist durch eine Matrix, die N² · N² Elemente aufweist. Der Bereich, der bei der Position (i, j) des LCTV 2 angeordnet ist, entspricht dem Element u¹(i, j) in der Entnahmeschicht u¹ für ein Liniensegment. Unter den Elementen, die in einem derartigen Bereich eingeschlossen sind, gibt das Element, das in Richtung k mit Bezug auf das Element existiert, das an der Position (i, j) des Bereichs angeordnet ist, eine 1 aus, und das Element, das nicht in Richtung k mit Bezug auf das Element existiert, das bei der Position (i, j) des Bereichs angeordnet ist, gibt eine 0 aus.
  • LCTV 3 zeigt ein mehrfaches Bild der Entnahmeschicht u¹ für ein Liniensegment. LCTV 3 hat N · N Bereiche, wobei jeder Bereich durch eine Matrix mit N · N Elementen dargestellt wird. Mit anderen Worten, LCTV 3 wird durch eine Matrix, die N² · N² Elemente aufweist, dargestellt. Jeder Bereich von LCTV 3 zeigt die Ausgabe von der Entnahmeschicht u1' für ein Liniensegment. Demgemäß zeigt der gesamte LCTV 3 ein Muster, das durch Vielfachabbildung der Ausgabe von dem Liniensegment u1' durch N · N erhalten wurde.
  • Durch Überlappen der Bereiche, die bei der Position (i, j) des LCTV 2 und des Bereichs, der an der Position (i, j) des LCTV 3 angeordnet ist, wird wk(i, j)p,q * u1'p,q (das Produkt der entsprechenden Elemente: das Hadamard-Produkt) erhalten. Demzufolge ist das Ergebnis der Summation dieses Produktes in jedem Bereich gleich der Summe von wk(i, j)p,q * u1'p,q
  • Durch Überlappen des Elementes, das bei der Position (i, j) des LCTV 1 und der entsprechenden Regionen in den LCTV 2 und 3 angeordnet ist, wird die Multiplikation von u¹i,j und wk(i, j)p,q * u1'p,q durchgeführt. Durch Summieren der Ergebnisse, die durch das Überlappen der LCTV 1 bis 3 in Bereich für Bereich erhalten ist, wird d1&rarr;1'k,ij erhalten. Durch eine Durchführung der Summation, die i und j betrifft, wie sie durch die Gleichung 15 ausgedrückt wird, wird r1&rarr;1'k erhalten.
  • Um d1&rarr;1'k,ij und r1&rarr;1'k' für eine andere Richtung k' zu erhalten, wird der Koeffizient, der durch den LCTV 2 angezeigt wird zu wk(i, j)p,q überschrieben.
  • Mit Bezug auf Fig. 23 wird unten die Entnahme eines horizontalen Liniensegmentes, das in der Richtung k = 1 (die "obere" Richtung) in bezug auf das vertikale Liniensegment existiert, das bei der Position (5, 4) angeordnet ist, beschrieben. Ein Element 231, das bei der Position (5, 4) des LCTV 1 angeordnet ist, gibt eine 1 aus. In einem Bereich 232, der bei der Position (5, 4) des LCTV 2 angeordnet ist, geben Elemente, die in der Richtung k ( = 1) (die "obere" Richtung) mit Bezug auf das Element existieren, das bei der Position (5, 4) des Bereichs angeordnet ist, eine 1 aus, und die anderen Elemente geben eine 0 aus. Jedes Element in einer Richtung 233, das bei der Position (5, 4) des LCTV 3 angeordnet ist, gibt den gleichen Wert wie das entsprechende Element in der Entnahmeschicht u1' für ein Liniensegment aus. In Fig. 23 zeigt ein schwarzer Abschnitt ein Element an, das eine 1 ausgibt, und ein weißer Abschnitt zeigt ein Element an, das eine 0 ausgibt. Durch Überlappen des Elementes 231, der Bereiche 232 und 233 wird ein Bereich 234 erhalten. Der Betrieb zum Überlappen der Bereiche wird so durchgeführt, dass das Betriebsergebnis 1 ist, wenn alle der korrespondierenden Elemente 1 sind, und das Betriebsergebnis ist sonst 0. Die Anzahl der Elemente, die den Wert 1 in dem Bereich 234 ausgeben, ist gleich dem Wert von d1&rarr;2 1,5,4. Demzufolge ist d1&rarr;2 1,5,4 = 3.
  • In dem optischen System, das oben erwähnt wird, können sowohl der LCTV 1 als auch der LCTV 2 eine optisch adressierte Art einer Flüssigkristallvorrichtung sein.
  • In allen oben erwähnten Beispielen zeigen wir, dass eine Matrix N · N Elemente aufweist, wobei N eine willkürliche natürliche Zahl bezeichnet. Jedoch erfordert die Matrix nicht die gleiche Anzahl von Linien und Spalten. Insbesondere kann die Matrix M · N Elemente aufweisen, wobei M und N willkürliche natürliche Zahlen bezeichnen und M nicht gleich N ist.
  • Fig. 24 zeigt eine Konfiguration eines optischen Systems zur Durchführung der Liniensegmententnahme, der Richtungsentnahme und der Längenentnahme.
  • Das Licht, das von einem He-Ne-Laser 241 emittiert wird, fällt auf einen transparentartigen räumlichen Lichtmodulator (SLM) 243 über eine Linse 242. Der SLM 243 zeigt ein binäres Eingabemuster an. Die Ausgabe von dem SLM 243 wird als Schreiblicht in eine optische Neuronenvorrichtung (FEOND) 244 für eine Merkmalsentnahme zum Entnehmen eines horizontalen Liniensegmentes von dem Eingabemuster eingegeben und wird auch als Schreiblicht in eine optische Neuronenvorrichtung (FEOND) 249 für eine Merkmalsentnahme über einen halbdurchlässigen Spiegel 245 und Spiegel 246 bis 248 eingegeben. Die FEOND 249 entnimmt ein vertikales Liniensegment von dem Eingabemuster.
  • Das Licht, das von einer Lichtquelle 250 emittiert wird, fällt auf die FEOND 244 als ein Leselicht über einen polarisierenden Strahlteiler 251. Das Licht, das durch die FEOND 244 reflektiert wird, stellt das Ergebnis einer Entnahme eines horizontalen Liniensegmentes von dem Eingabemuster dar. Das reflektierte Licht fällt auf eine Linsenanordnung 252 zur Mehrfachabbildung ein. Das mehrfach reflektierte Licht durchläuft einen transparentartigen SLM 257 und wird in einen optisch adressierbaren SLM 258 als Schreiblicht eingegeben. Der transparentartige SLM 257 wird zum Definieren von Koeffizienten für die Richtungsentnahme verwendet.
  • Das Licht, das von einem He-Ne-Laser 253 emittiert wird, fällt auf einen Polarisator 255 über eine Linse 254 und wird linear durch den Polarisator 255 polarisiert. Das Licht fällt dann auf die FEOND 249 als Leselicht durch einen polarisierenden Strahlteiler 256. Das Licht, das durch die FEOND 249 reflektiert wird, stellt das Ergebnis der Entnahme eines vertikalen Liniensegmentes von dem Eingabemuster dar. Das reflektierte Licht wird als Leselicht in den optisch adressierbaren SLM 258 eingegeben. Der optisch adressierbare SLM 258 schließt z. B. einen dielektrischen Spiegel darin anstelle der Neuronenelektronen der Neuronenvorrichtung, die in Fig. 18 gezeigt wird, ein. Das Licht, das durch den optisch adressierbaren SLM 258 reflektiert wird, stellt das Ergebnis, das durch Überlappen des Ergebnisses der Entnahme des vertikalen Lichtsegmentes, der Koeffizienten für die Richtungsentnahme und eines Mehrfachbildes des Ergebnisses der Entnahme des horizontalen Bildsegmentes von dem Eingabemuster dar. Das reflektierte Licht wird in einen Analysator 259 mit einer polarisierenden Achse, die senkrecht zu dem Polarisator 255 ist, eingegeben. Das Licht, das den Analysator 259 durchläuft, wird durch einen Photoempfänger 261 über eine Linse 260 erfaßt.
  • Der Photoempfänger 261 ist mit einem Computer (nicht gezeigt) verbunden. Der Computer führt den Erkennungsvorgang basierend auf dem Erfassungsergebnis durch.
  • Bei den Abschnitten 270, 271 und 272, die durch gestrichelte Linien in der Fig. 24 angezeigt werden, erscheinen identische Muster von denen, die auf den LCDV 3, 2 bzw. 1 angezeigt werden. Demgemäß können die Liniensegmententnahme, die Richtungsentnahme und die Längenentnahme basierend auf dem oben erwähnten Prinzip unter Verwendung dieses optischen Systems durchgeführt werden.
  • Wie insoweit beschrieben wurde, ist gemäß einer Bilderkennungsvorrichtung und einem Bilderkennungsverfahren gemäß der vorliegenden Erfindung eine hohe Erkennungsrate unbeeinflußt durch Variationen der Buchstaben in der Größe und der positionellen Verschiebung verwirklicht.
  • Weiterhin ist das neurale Netzwerk, das in der Erkennungsvorrichtung gemäß der vorliegenden Erfindung verwendet, nicht notwendig, um die Buchstabenmuster mit unterschiedlichen Größen und einer unterschiedlichen positionellen Verschiebung zu lernen. Infolgedessen ist eine hohe Geschwindigkeit und ein leichtes Lernen verwirklicht.
  • Weiterhin kann darüber hinaus die Vorrichtung gemäß der vorliegenden Erfindung eine Richtung und eine Größe, in der ein spezielles Muster existiert, mit Bezug auf ein anderes spezielles Muster erfaßt werden. Dieses ermöglicht es, ein Merkmal zu entnehmen, das nicht von der Größe und der Verschiebung des Eingabebildes abhängt.
  • Unterschiedliche andere Modifikationen sind naheliegend und können bereits durch Fachleute in der Technik durchgeführt werden, ohne den Schutzbereich dieser Erfindung, wie er durch die anhängigen Ansprüche definiert ist, zu verlassen.

Claims (20)

1. Bilderkennungsgerät, umfassend:
eine Eingabevorrichtung (1) zum Eingeben eines Bildes;
eine Musterentnahme bzw. -extraktionsvorrichtung (4) zum Entnehmen bzw. Extrahieren einer Mehrzahl von vorbestimmten Mustern von dem Eingabebild;
eine erste Merkmalsentnahme bzw. -extraktionsvorrichtung (5) zum Entnehmen bzw. Extrahieren erster Merkmale, welche die Richtungen anzeigen, in denen ein erstes Muster der entnommenen vorbestimmten Muster in Bezug auf mehrere Punkte auf einem zweiten Muster der entnommenen vorbestimmten Muster angeordnet ist;
eine zweite Merkmalsentnahme bzw. -extraktionsvorrichtung (37, 38) zum Entnehmen bzw. Extrahieren zweiter Merkmale, die quantitative Meßwerte der Richtungsverteilung des ersten Musters für alle der verschiedenen Punkte auf dem zweiten Muster, das auf den ersten Merkmalen basiert, angeben; und
eine Erkennungsvorrichtung (3) zum Erkennen des Eingabebildes, basierend auf den zweiten Merkmalen.
2. Bilderkennungsgerät nach Anspruch 1, wobei die Mehrzahl der vorbestimmten Muster mindestens eines von einem vertikalen Liniensegment, einem horizontalen Liniensegment, einem linksgeneigten Liniensegment und einem rechtsgeneigten Liniensegment einschließt.
3. Bilderkennungsgerät nach Anspruch 1 oder 2, wobei die Mehrzahl der vorbestimmten Muster ein geometrisches Muster einschließt.
4. Bilderkennungsgerät nach einem der vorhergehenden Ansprüche, wobei die Musterentnahmevorrichtung (4) eine Mehrzahl von Schichten (35, 35', 35") zum Entnehmen der Mehrzahl vorbestimmter Muster, eine Schicht zum Entnehmen des ersten Musters, das durch eine erste Matrix mit M · N Elementen dargestellt ist, und eine weitere Schicht zum Entnehmen des zweiten Musters, das durch eine zweite Matrix mit M · N Elementen dargestellt wird, einschließt;
wobei die erste Merkmalsentnahmevorrichtung (5) mindestens einen ersten Bereich zum Entnehmen des ersten Merkmals hat, der erste Bereich eine Mehrzahl von zweiten Bereichen hat, wobei die Mehrzahl der zweiten Bereiche durch eine dritte Matrix mit M · N Elementen dargestellt wird,
wobei das erste Merkmal durch eine Verknüpfung zwischen den Elementen der ersten Matrix, den Elementen der zweiten Matrix und den Elementen der dritten Matrix definiert ist, und M und N willkürliche natürliche Zahlen darstellen.
5. Bilderkennungsgerät nach Anspruch 4, wobei die Verknüpfung ausgedrückt wird durch:
wobei ein Element, das in der i-ten Zeile und der j-sten Spalte in der ersten Matrix angeordnet ist, u¹(i, j) ist und sein Wert u¹i,j beträgt, ein Element, das in der i-ten Zeile und der j-sten Spalte in der zweiten Matrix angeordnet ist, u1'(i,j) ist und sein Wert u1'i,j beträgt, ein Element, das in der i-ten Zeile und der j-sten Spalte in der dritten Matrix angeordnet ist, d1&rarr;1'k(i,j) ist und sein Wert d1&rarr;1'k,i,j beträgt, ein Parameter, der die Richtung anzeigt, k ist, und ein Koeffizient, der 1 ist, wenn ein Element u1'(p,q), das in der p-ten Reihe und der q-ten Spalte in der zweiten Matrix angeordnet ist, in der Richtung k in bezug auf das Element u1'(i,j) existiert und der sonst 0 ist als wk(i,j)p,q bezeichnet wird.
6. Bilderkennungsgerät nach einem der vorhergehenden Ansprüche, wobei
die erste Merkmalsentnahmevorrichtung (5) mindestens einen ersten Bereich zum Entnehmen eines ersten Merkmals hat und der erste Bereich eine Mehrzahl von zweiten Bereichen aufweist, wobei jeder der Mehrzahl von zweiten Bereichen durch eine dritte Matrix mit M · N Elementen dargestellt wird,
die zweite Merkmalsentnahmevorrichtung (37, 38) mindestens einen dritten Bereich zum Entnehmen des zweiten Merkmals aufweist, und der dritte Bereich durch eine vierte Matrix mit M · N Elementen dargestellt wird, wobei das zweite Merkmal durch eine Verknüpfung zwischen den Elementen der dritten Matrix und den Elementen der vierten Matrix definiert ist.
7. Bilderkennungsgerät nach Anspruch 6, wobei die Verknüpfung ausgedrückt wird durch:
wobei ein Element, das in der i-ten Zeile und der j-sten Spalte in der dritten Matrix angeordnet ist, d1&rarr;1'k(i,j) ist und sein Wert d1&rarr;1'k,i,j beträgt, ein Element, das in der i-ten Zeile und der j-sten Spalte in der vierten Matrix angeordnet ist, r1&rarr;1'(k) ist, und sein Wert r1&rarr;1'k beträgt.
8. Bilderkennungsgerät nach einem der vorhergehenden Ansprüche, wobei die Erkennungsvorrichtung (3) eine Unterscheidungsschicht zum Unterscheiden bzw. Kennzeichnen des Eingabebildes einschließt, und die Unterscheidungsschicht eine Mehrzahl von Elementen einschließt, und jedes der Mehrzahl von Elementen mit den Elementen der vierten Matrix, die den dritten Bereich darstellt, verknüpft ist.
9. Bilderkennungsgerät nach Anspruch 8, wobei die Elemente der Unterscheidungsschicht und die Elemente der vierten Matrix Neuronen sind, und die Unterschei dungsschicht und der dritte Bereich, der mit der Unterscheidungsschicht verknüpft ist, mindestens einen Abschnitt eines neuralen Netzwerkes bildet.
10. Bilderkennungsgerät nach einem der vorhergehenden Ansprüche, wobei das Gerät weiterhin zum Entnehmen eines Merkmals von einem Eingabebild umfaßt:
eine erste Anzeigevorrichtung zum Anzeigen eines ersten Musters des Eingabebildes;
eine zweite Anzeigevorrichtung zum Anzeigen eines Musters, das eine Mehrzahl von Punkten darstellt, die in einer Richtung in bezug auf einen Punkt auf dem ersten Muster existieren, das auf der ersten Anzeigevorrichtung angezeigt wird;
eine dritte Anzeigevorrichtung zum Anzeigen eines Musters, das durch Vielfachabbilden eines zweiten Musters auf dem Eingabebild erhalten wird;
eine Überlappungsvorrichtung zum Überlappen der Muster, die auf der ersten, zweiten und der dritten Anzeigevorrichtung angezeigt werden; und eine Erfassungsvorrichtung (261) zum Erfassen des überlappten Musters.
11. Gerät nach Anspruch 10, wobei die erste, die zweite und die dritte Anzeigevorrichtung transparentartige räumliche Lichtmodulatoren sind.
12. Gerät nach Anspruch 10 oder 11, wobei die zweite Anzeigevorrichtung ein transparentartiger räumlicher Lichtmodulator und die erste und die dritte Anzeigevorrichtung optisch adressierte räumliche Lichtmodulatoren sind.
13. Gerät nach Anspruch 10, 11 oder 12, wobei die Überlappungsvorrichtung ein optisch adressierter räumlicher Lichtmodulator ist.
14. Bilderkennungsvefahren, umfassend die Schritte:
Eingeben eines Bildes;
Extrahieren bzw. Entnehmen einer Mehrzahl von vorbestimmten Mustern von dem Eingabebild;
Extrahieren bzw. Entnehmen erster Merkmale, die Richtungen anzeigen, in denen ein erstes Muster der entnommenen vorbestimmten Muster in Bezug auf mehrere Punkte eines zweiten Musters der entnommenen vorbestimmten Muster angeordnet ist;
Extrahieren bzw. Entnehmen zweiter Merkmale, die quantitative Messwerte der Richtungsverteilung des ersten Musters für alle der verschiedenen Punkte auf dem zweiten Muster, basierend auf den ersten Merkmalen, anzeigen; und
Erkennen des Eingabebildes, basierend auf den zweiten Merkmalen.
15. Bilderkennungsverfahren nach Anspruch 14, wobei
der Schritt des Entnehmens der Mehrzahl von vorbestimmten Mustern die Schritte des Darstellens des ersten Musters durch Verwenden einer ersten Matrix mit M · N Elementen und Darstellen des zweiten Musters durch Verwenden einer zweiten Matrix mit M · N Elementen,
der Schritt des Entnehmens des ersten Merkmals den Schritt des Darstellens des ersten Merkmals durch Verwenden mindestens eines Bereiches einschließt, der eine Mehrzahl von dritten Matrizen mit jeweils M · N Elementen einschließt, und wobei das erste Merkmal durch eine Verknüpfung zwischen den Elementen der ersten Matrix, den Elementen der zweiten Matrix und den Elemente der dritten Matrix definiert wird und M und N willkürliche natürliche Zahlen darstellen.
16. Bilderkennungsverfahren nach Anspruch 15, wobei die Verknüpfung ausgedrückt wird durch:
wobei ein Element, das in der i-ten Zeile und der j-sten Spalte in der ersten Matrix angeordnet ist, u¹(i, j) ist, und sein Wert u¹i,j beträgt, ein Element, das in der i-ten Zeile und der j-sten Spalte in der zweiten Matrix angeordnet ist, u1'(i,j) ist, und sein Wert u1'i,j beträgt, ein Element, das in der i-ten Zeile und der j-sten Spalte in der dritten Matrix angeordnet ist, d1&rarr;1'k(i,j) ist, und sein Wert d1&rarr;1'k,i,j beträgt, ein Parameter, der die Richtung anzeigt, k ist, und ein Koeffizient, der 1 ist, wenn ein Element u1'(p,q), das in der p-ten Reihe und der q-ten Spalte in der zweiten Matrix angeordnet ist, in der Richtung k in bezug auf das Element u1'(i,j) existiert, und der sonst 0 ist, wk(i,j)p,q beträgt.
17. Bilderkennungsverfahren nach einem der Ansprüche 10 bis 16, wobei
der Schritt des Entnehmens des ersten Merkmals den Schritt des Darstellens des ersten Merkmals durch die Verwendung von mindestens einem Bereich einschließt, der eine Mehrzahl von dritten Matrizen mit M · N Element beinhaltet,
der Schritt des Entnehmens des zweiten Merkmals den Schritt des Darstellens des zweiten Merkmals durch die Verwendung von mindestens einer vierten Matrix mit einer Vielzahl von Elementen einschließt, und
wobei das zweite Merkmal durch eine Verknüpfung der Elemente der dritten Matrix und der Elemente der vierten Matrix definiert ist.
18. Bilderkennungsverfahren nach Anspruch 17, wobei die Verknüpfung ausgedrückt wird durch:
wobei ein Element, das in der i-ten Zeile und der j-sten Spalte in der dritten Matrix angeordnet ist, d1&rarr;1'k(i,j) ist und sein Wert d1&rarr;1'k,i,j beträgt, ein Element, das in der i-ten Zeile und der j-sten Spalte in der vierten Matrix angeordnet ist, r1&rarr;1'(k) ist und sein Wert r1&rarr;1'k beträgt.
19. Bilderkennungsverfahren nach Anspruch 18, wobei
der Schritt des Erkennens des Eingabebildes den Schritt des Unterscheidens des Eingabebildes, basierend auf dem Wert r1&rarr;1'k und auf einem Wichtungskoeffizienten, einschließt,
das Verfahren zur Bilderkennung weiterhin den Lernschritt des Modifizierens des Wichtungskoeffizienten einschließt, der effektiv auf den Werten r1&rarr;1'k, normiert durch eine Summe der Werte r1&rarr;1'k, basiert.
20. Bilderkennungsverfahren nach einem der Ansprüche 18 oder 19, wobei
der Schritt des Erkennens des Eingabebildes den Schritt des Unterscheidens des Eingabebildes, basierend auf dem Wert r1&rarr;1'k und auf einem Wichtungskoeffizienten, einschließt,
das Verfahren zur Bilderkennung weiterhin den Lernschritt des Modifizierens des Wichtungskoeffizienten einschließt, der effektiv auf den Werten r1&rarr;1'k, normiert durch einen Maximalwert der Werte r1&rarr;1'k, basiert.
DE69327985T 1992-05-28 1993-05-27 Bilderkennungsgerät und -verfahren Expired - Fee Related DE69327985T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13658592 1992-05-28

Publications (2)

Publication Number Publication Date
DE69327985D1 DE69327985D1 (de) 2000-04-13
DE69327985T2 true DE69327985T2 (de) 2000-07-20

Family

ID=15178727

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69327985T Expired - Fee Related DE69327985T2 (de) 1992-05-28 1993-05-27 Bilderkennungsgerät und -verfahren
DE69330650T Expired - Fee Related DE69330650T2 (de) 1992-05-28 1993-05-27 Gerät zur Merkmalsextraktion

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69330650T Expired - Fee Related DE69330650T2 (de) 1992-05-28 1993-05-27 Gerät zur Merkmalsextraktion

Country Status (3)

Country Link
US (2) US5481621A (de)
EP (2) EP0907140B1 (de)
DE (2) DE69327985T2 (de)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07239938A (ja) * 1994-02-28 1995-09-12 Matsushita Electric Ind Co Ltd 検査方法
JP3207690B2 (ja) * 1994-10-27 2001-09-10 シャープ株式会社 画像処理装置
DE69633809T2 (de) * 1995-04-21 2005-03-17 Xerox Corp. Verarbeitung von maschinell lesbaren Vordrucken
US6104833A (en) * 1996-01-09 2000-08-15 Fujitsu Limited Pattern recognizing apparatus and method
JPH11144054A (ja) 1997-11-06 1999-05-28 Fuji Xerox Co Ltd 画像認識方法および画像認識装置ならびに記録媒体
US6529628B1 (en) * 2000-01-07 2003-03-04 Intel Corporation Row and column feature detection in binary images
US6231762B1 (en) 2000-01-31 2001-05-15 Bowco Industries Inc. Filtration system for septic system
US20030030638A1 (en) * 2001-06-07 2003-02-13 Karl Astrom Method and apparatus for extracting information from a target area within a two-dimensional graphical object in an image
SE522437C2 (sv) * 2001-06-07 2004-02-10 C Technologies Ab Förfarande och anordning för extraktion av information från ett målområde inom ett tvådimensionellt grafiskt objekt i en bild
JP3965983B2 (ja) * 2001-11-30 2007-08-29 松下電工株式会社 画像処理方法およびその装置
US7242805B1 (en) * 2003-04-18 2007-07-10 Kamran Reihani System and method for automated symbolic recognition including database modeling
WO2006042142A2 (en) * 2004-10-07 2006-04-20 Bernard Widrow Cognitive memory and auto-associative neural network based pattern recognition and searching
US20060238550A1 (en) * 2005-03-17 2006-10-26 Symagery Microsystems Inc. Hands-free data acquisition system
US20100312734A1 (en) * 2005-10-07 2010-12-09 Bernard Widrow System and method for cognitive memory and auto-associative neural network based pattern recognition
EP2507743A2 (de) * 2009-12-02 2012-10-10 QUALCOMM Incorporated Schnelle unterraumprojektion von deskriptor-patches zur bilderkennung
US9530073B2 (en) 2010-04-20 2016-12-27 Qualcomm Incorporated Efficient descriptor extraction over multiple levels of an image scale space
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
JP5911165B2 (ja) * 2011-08-05 2016-04-27 株式会社メガチップス 画像認識装置
US10217023B1 (en) * 2017-06-14 2019-02-26 The United States Of America As Represented By Secretary Of The Navy Image recognition system using a programmable photonic neural network

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5035379B1 (de) * 1970-05-25 1975-11-15
JPS6012674B2 (ja) * 1979-04-02 1985-04-02 日本電気株式会社 パタ−ン特徴抽出装置
US5063602A (en) * 1987-04-14 1991-11-05 Nippon Sheet Glass Co., Ltd. Image correlation calculation apparatus
US4862511A (en) * 1987-06-15 1989-08-29 Nippon Sheet Glass Co., Ltd. Local feature analysis apparatus
US4955060A (en) * 1987-07-02 1990-09-04 Nippon Sheet Glass Co., Ltd. Image recognition apparatus
JPH02240791A (ja) * 1989-03-14 1990-09-25 Matsushita Electric Ind Co Ltd 文字認識装置
JPH0367381A (ja) * 1989-08-05 1991-03-22 Matsushita Electric Ind Co Ltd 文字認識装置
US5220644A (en) * 1989-11-22 1993-06-15 Hitachi, Ltd. Optical neural network system
US5067164A (en) * 1989-11-30 1991-11-19 At&T Bell Laboratories Hierarchical constrained automatic learning neural network for character recognition
US5086490A (en) * 1990-02-07 1992-02-04 Nippon Sheet Glass Co., Ltd. Optical pattern extracting apparatus
US5105470A (en) * 1990-03-12 1992-04-14 International Business Machines Corporation Method and system for recognizing characters
JP2906281B2 (ja) * 1990-09-05 1999-06-14 セイコーインスツルメンツ株式会社 光学的パターン認識装置
US5263107A (en) * 1991-01-31 1993-11-16 Sharp Kabushiki Kaisha Receptive field neural network with shift-invariant pattern recognition
CA2105926A1 (en) * 1992-09-11 1994-03-12 George J. Tomko Fingerprint verification system

Also Published As

Publication number Publication date
US5481621A (en) 1996-01-02
DE69330650D1 (de) 2001-09-27
DE69327985D1 (de) 2000-04-13
EP0571999B1 (de) 2000-03-08
EP0571999A2 (de) 1993-12-01
EP0571999A3 (de) 1994-03-02
EP0907140B1 (de) 2001-08-22
DE69330650T2 (de) 2001-12-06
EP0907140A1 (de) 1999-04-07
US5793932A (en) 1998-08-11

Similar Documents

Publication Publication Date Title
DE69327985T2 (de) Bilderkennungsgerät und -verfahren
DE69527767T2 (de) Neuronales Netzwerk mit einbegriffenen direkten optischen Bildern
DE60017738T2 (de) Phasenextraktion in der optischen datenverarbeitung
DE60130742T2 (de) Mustererkennung mit hierarchischen Netzen
DE3689416T2 (de) Mustermerkmalextraktion.
DE69232229T2 (de) Vorrichtung und Verfahren zur Mustererkennung
DE69324207T2 (de) Bildgruppierungsvorrichtung
DE68928895T2 (de) Verfahren und Gerät für universelle adaptiv lernende Bildmessung und -erkennung
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE68924612T2 (de) Bildverarbeitungsmethode zur Gestalterkennung.
DE68928484T2 (de) Verfahren zum erkennen von bildstrukturen
DE69805798T2 (de) Fingerabdrukklassifikation mittels raumfrequenzteilen
DE69719859T2 (de) Bildverarbeitungsverfahren
DE4217832C2 (de) Mustererkennungsgerät
DE69417378T2 (de) Neuronales Netzwerk für Banknoten-Erkennung und -Authentisierung
DE102014223220A1 (de) Lernvorrichtung, Lernprogramm und Lernverfahren
DE102019127282A1 (de) System und Verfahren zum Analysieren einer dreidimensionalen Umgebung durch tiefes Lernen
DE60037416T2 (de) Drehkorrektur und duplikatbildern detektion mit musterkorrelation mittels diskreter fourier-transform
DE19531392C1 (de) Verfahren zur Erzeugung einer Graphrepräsentation von Bildvorlagen
DE69230940T2 (de) Verfahren zum Ableiten der Merkmale von Zeichen in einem Zeichenerkennungssystem
DE69123867T2 (de) Lernverfahren für Datenverarbeitungsanlage
DE102005049017B4 (de) Verfahren zur Segmentierung in einem n-dimensionalen Merkmalsraum und Verfahren zur Klassifikation auf Grundlage von geometrischen Eigenschaften segmentierter Objekte in einem n-dimensionalen Datenraum
DE69517249T2 (de) Anordnung zur segmentierung eines diskreten datensatzes
DE69529938T2 (de) Vorrichtung zur Standardisierung von Eingängen für Worterkennungssysteme
DE69324977T2 (de) Bitmap-bildsegmentierung unter anwendung eines ladungsmodells fuer pixels

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee